Big Data e Hadoop para iniciantes - com hands-on! | Andalib Ansari | Skillshare

Velocidade de reprodução


  • 0.5x
  • 1x (Normal)
  • 1.25x
  • 1.5x
  • 2x

Big Data e Hadoop para iniciantes - com hands-on!

teacher avatar Andalib Ansari, Big Data Consultant

Assista a este curso e milhares de outros

Tenha acesso ilimitado a todos os cursos
Oferecidos por líderes do setor e profissionais do mercado
Os temas incluem ilustração, design, fotografia e muito mais

Assista a este curso e milhares de outros

Tenha acesso ilimitado a todos os cursos
Oferecidos por líderes do setor e profissionais do mercado
Os temas incluem ilustração, design, fotografia e muito mais

Aulas neste curso

27 aulas (2 h 35 min)
    • 1. Visão geral do curso

      2:21
    • 2. Introdução ao Big Data

      9:23
    • 3. Papéis de trabalho de grande data

      6:30
    • 4. Salários de Big Data

      2:55
    • 5. Tendências de tecnologia no mercado

      6:30
    • 6. Conselhos para iniciantes de Big Data

      2:44
    • 7. Introdução ao Hadoop

      8:23
    • 8. Ecossistema de Hadoop

      5:01
    • 9. Hadoop 1.x vs Hadoop 2.x

      14:13
    • 10. ETL vs ELT

      3:19
    • 11. Fornecedores de Hadoop

      4:20
    • 12. Gerenciando HDFS da linha de comando

      9:09
    • 13. Introdução à colmeia

      2:41
    • 14. Arquitetura de cordão

      2:28
    • 15. Formatos de arquivo no Hive

      4:40
    • 16. SQL vs HQL

      3:46
    • 17. UDF e UDAF na cordilheira

      2:57
    • 18. Demonstração de colmeia

      18:50
    • 19. Introdução ao porco

      2:57
    • 20. Arquitetura de porco

      1:39
    • 21. Modelo de dados de porco

      2:17
    • 22. Como funciona o latim de porco

      2:57
    • 23. SQL vs porco

      5:32
    • 24. UDF em porco

      3:25
    • 25. Demo de porco

      12:49
    • 26. Projetando pipeline de dados usando porco e colmeia

      7:59
    • 27. Data Lake

      5:24
  • --
  • Nível iniciante
  • Nível intermediário
  • Nível avançado
  • Todos os níveis

Gerado pela comunidade

O nível é determinado pela opinião da maioria dos estudantes que avaliaram este curso. Mostramos a recomendação do professor até que sejam coletadas as respostas de pelo menos 5 estudantes.

306

Estudantes

--

Sobre este curso

965b4ac8

O principal objetivo deste curso é ajudar você a entender Arquiteturas Complex do Hadoop e seus componentes, orientá-lo na direção certa para começar e começar rapidamente a trabalhar com o Hadoop e seus componentes.

Ele cobre tudo o que você precisa como iniciante de Big Data. Saiba mais sobre o mercado de Big Data, diferentes papéis de trabalho, tendências de tecnologia, histórico de Hadoop, HDFS, Ecossistema de Hadoop, Hive e Pig. Neste curso, vamos ver como um iniciante deve começar com o Hadoop. Este curso vem com muitos exemplos práticos que vão ajudar você a aprender o Hadoop rapidamente.

O curso tem 6 seções e se concentra nos seguintes tópicos: Big Data em relance:

Saiba mais sobre Big Data e diferentes papéis de trabalho exigidos no mercado de Big Data. Conheça as tendências de salários de big data em todo o mundo. Saiba mais sobre tecnologias mais quentes e suas tendências no mercado.

Introdução ao Hadoop: entenda o Hadoop e sua arquitetura complexa. Aprenda o ecossistema do Hadoop com exemplos simples. Conheça diferentes versões do Hadoop (Hadoop 1.x vs Hadoop 2.x), diferentes vendedores de Hadoop no mercado e Hadoop na Cloud. Entenda como o Hadoop usa abordagem ELT. Aprenda a instalar o Hadoop na sua máquina. Vamos ver executando comandos HDFS da linha de comando para gerenciar HDFS.

Introdução à caminha: entenda que tipo de problema a colmeia resolve no Big Data. Aprenda seu design arquitetônico e mecanismo de trabalho. Conheça modelos de dados em campainha, formatos de arquivo diferentes suportados por consultas de campainha, etc. Vamos ver consultas em execução no campainha.

Introdução ao porco: entenda como o porco resolve problemas no Big Data. Aprenda seu design arquitetônico e mecanismo de trabalho. Entenda como o Pig Latin funciona no porco. Você vai entender as diferenças entre SQL e Pig Latim. Demos em executar consultas diferentes no porco.

Casos de uso: aplicativos de vida real do Hadoop é realmente importante para entender melhor o Hadoop e seus componentes, portanto, vamos aprender projetando uma amostra de Dano de Dados no Hadoop para processar big data. Além disso, entender como as empresas estão adotando arquitetura de dados moderna em sua infraestrutura de dados.

Prática: Prática com conjuntos de dados enormes. Aprenda técnicas de design e otimização ao projetar modelos de dados, dutos de dados usando conjuntos de dados de aplicativos da vida real.

Conheça seu professor

Teacher Profile Image

Andalib Ansari

Big Data Consultant

Professor

Andalib Ansari is a Big Data consultant based out of Mumbai. He helps companies and people solve business problems using Big Data technologies. Also, one of his passion, to guide and train people on different Big Data tools and technologies.

He is having a very decent exposure of Big Data tools and technologies, and have worked with various clients, top level Mobile Network Operators (MNO), from Latin America and the US to solve different business problems for different use-cases, and designed optimized Data Pipelines using Big Data technologies on the cloud.

Visualizar o perfil completo

Nota do curso

As expectativas foram atingidas?
    Superou!
  • 0%
  • Sim
  • 0%
  • Um pouco
  • 0%
  • Não
  • 0%
Arquivo de avaliações

Em outubro de 2018, atualizamos nosso sistema de avaliações para melhorar a forma como coletamos feedback. Abaixo estão as avaliações escritas antes dessa atualização.

Por que fazer parte da Skillshare?

Faça cursos premiados Skillshare Original

Cada curso possui cursos curtas e projetos práticos

Sua assinatura apoia os professores da Skillshare

Aprenda em qualquer lugar

Faça cursos em qualquer lugar com o aplicativo da Skillshare. Assista no avião, no metrô ou em qualquer lugar que funcione melhor para você, por streaming ou download.

Transcrições

1. Visão geral do curso: Você está animado para aprender sobre Big Data? E Haru, você quer saber como projetar pipelines de dados em seu devido processo? Big data. Você quer ser grande exportação e obter algumas oportunidades emocionantes para caminhar? Você sente que a Internet está sobrecarregada com o Senhor fora de conteúdo em, você muitas vezes se confunde. Para onde? Comece com. Tudo bem, você é sólido. Depende aqui neste curso que eu vou dar-lhe são introdução detalhada para big data em seu mercado para que você possa facilmente entender que as tendências de tecnologia em diferentes papéis de trabalho necessários no mercado de big data. Este curso foi projetado para ensinar todos os fundamentos do Hadoop e rapidamente começar a andar sobre ela. Faça cinco e eu vou David I para ela fazer onde você aprender sobre a história do seu grupo. São arquiteturas complexas, ecossistema, diferentes versões do seu trabalho. Configurando um novo ambiente em sua máquina, diferentes fornecedores no mercado em seu clube DuPont. Se você olhar para as empresas que estão usando fazer a maioria deles também estão usando colmeia em grande na colmeia produções e componentes maiores de fazê-lo Neste curso, eu também estou coberto sobre dor híbrida onde você vai aprender sobre suas arquiteturas andando As demonstrações sobre a criação de pipelines de dados usando-os para sua melhor compreensão também incluíram atribuições e casos de uso. Esta piscina muito bem. Saiba mais sobre aplicativos da vida real fora do grupo e de sua empresa. Oi, este sou eu no Live em começar seu instrutor para este curso Eu sou um grande Erdogan Segurança ter trabalhado em vários projetos espalhados pela América Latina U S e Índia em Telecom Economos 100 cavalheiros, bem, criar as pontuações têm focado principalmente na representação de conteúdo em rituais para que você possa facilmente entender as arquiteturas complexas fora devido em sua empresa. No final deste curso, você será capaz de entender os desafios reais do big data. Entende como a desgraça e sua arquitetura caminham com seu grupo? Eu assumi e assumi pipelines de dados de design. Comece seus próprios posies Se você deseja em seu grupo, Ivan Big coisas curso também irá ajudá-lo na preparação de exames de certificação para o coração. Parece nublado. Obrigado por assistir. Vejo você no curso 2. Introdução ao Big Data: Olá, pessoal. Bem-vindos à Costa Nesta palestra, vamos aprender sobre os fundamentos do Big Data. Então a questão é, o que é big data? Bem, se você olhar ao redor de muitas maneiras de dados estão sendo gerados como tweets gerados por milhões de futuros no Twitter, barcos no Facebook por bilhões de usuários, vídeos do YouTube carregados a cada minuto e sensores gerando dados de um Boeing gerando terabytes de dados em um único voo. Esses dados podem ser denominados como big data. Se você olhar para esses dados, eles são muito complexos de analisar e vender. Por quê? Porque eles são principalmente em forma semi estruturada ou não estruturada, o que dificulta a extração de informações sobre negócios internos. Portanto, a questão é por que é difícil extrair informações. A resposta seria simples porque eles não podem ser processados com sistemas tradicionais, portanto água. Estes sistemas tradicionais sistemas tradicionais incluem bancos de dados relacionais como meu segredo Oracle Esperance sobre ele setor nesses bancos de dados em dados de estrutura de armazenamento Lee, eles não podem restaurar semi-estrutura ou dados de estrutura una gerados por essas redes sociais sites de mídia ou sensores. Então, para um processo de loja e analisar esses big data. Devemos ter uma combinação certa entre ferramentas e tecnologia, é aqui que o grupo dela entra em cena. Aprendemos sobre o grupo dela nas próximas palestras. Vamos dar uma olhada como estruturado, semi estruturado e sob estrutura dados parece qualquer mais tarde, que você vê em um arquivo Excel ou dados armazenados em qualquer banco de dados. Estábulos são uma estrutura dados dados estrutura sini. Um arquivo XML seria um bom exemplo. Os logs gerados pelos servidores são dados de estrutura. Ok, se você olhar para esses big data lá, muitas vezes descrito usando cinco variações de velocidade de volume de facilidade onde uma cidade e valor vamos dar uma olhada nesses termos individualmente. Volume refere-se às grandes quantidades de dados gerados a cada segundo. Basta pensar em todos os e-mails, mensagens do Twitter, fotos, clipes de vídeo, dados de sensores No setor que produzimos e dizer a cada segundo que eles não estão em terabytes, mas Jetta morde ou até mesmo contratando um monge. Isso torna cada vez mais estados de dados para leis para armazenar e analisar usando tecnologia de banco de dados tradicional com tecnologia de big data. Agora podemos uma loja e analisar esses dados com a ajuda de sistemas distribuídos, que tornam a computação mais fácil e mais rápida. No último ano, a primeira velocidade de hoje em que novos dados são gerados e a velocidade em com os dados se move ao redor. Basta pensar em todas as mensagens de mídia social tornando-se viral em segundos, a velocidade com que as transações de cartão de crédito são verificadas para atividades fraudulentas. Agora, com a tecnologia de big data, podemos agora analisar esses dados quando eles estão sendo gerados sem nunca colocar em bancos de dados, mas idealmente primeiro para os diferentes tipos de dados que agora podemos usar no passado, Refocus não dados de estrutura que se encaixa perfeitamente em tabelas são bancos de dados relacionais, como vendas de líderes financeiros por produto ou motivo. Na verdade, 80% dos dados do mundo estão agora em um estruturado e, portanto, não podem ser facilmente colocados em tabelas. Basta pensar em fotos, sequências de vídeo ou atualizações de mídia social com tecnologia de big data, agora podemos instalar, processar e analisar estes estruturados, semi estruturados em dados de estrutura una. Veracidade refere-se à precisão ou veracidade dos dados bem. Em cada exercício analítico, 40 a 60% de tempo de desconto é gasto na preparação de dados, como remover duplicatas, corrigir entradas parciais, eliminar entradas nulas em branco, protetor de ataque e com muitas formas de big data, Qualidade e precisão são menos controláveis. Basta pensar em post criador com estatísticas chapéu, mas com big data e tecnologia de análise agora nos permite trabalhar com esses tipos de valor de dados . Eu acho que o valor é a parte mais importante quando se olha para big data. Está tudo bem e bom ter acesso a big data. Mas a menos que possamos transformar em valor, é inútil. Se você olhar, 70% dos projetos de big data falham apenas por falta de casos de uso e entender que é realmente importante para as empresas fazerem casos de uso antes de saltar para começar a coletar e armazenar big data. Agora o oceano é por isso que o big data é importante. Vamos considerar o caso de uso. Imagine que você está executando um negócio de comércio e você tem um site onde você está vendendo seu produto. Você está capturando muito poucas métricas, não quaisquer dados de fluxo de cliques onde você é capaz de ver que você tem milhões de sites. As pessoas de tráfego estão chegando ao seu site navegando os produtos, adicionando produtos ao cartão e fazendo o pagamento. Agora vamos supor que em um determinado momento há 100 pessoas que foram para a página de pagamento e fora deles 70 pessoas foram capazes de fazer o pagamento bem-sucedido em 30 pessoas, tem alguns problemas técnicos devido ao qual eles não foram capazes de fazer o pagamento. Agora essas 30 pessoas deixaram seu site e foram para outros sites de onde? Sobre isso importante. Como você não está capturando dados de fluxo de cliques, você não será capaz de analisar quais problemas as pessoas estão enfrentando em seu site e você não terá idéia de onde essas pessoas foram. Você tem alto tráfego do site, mas local era realmente assim. É realmente importante capturar o máximo de dados possível de sua empresa para que você possa analisar seus sapatos para melhorar seus serviços de negócios. Então, neste caso, capturar dados de fluxo de cliques gerados pelos usuários em seu site é realmente muito, muito importante para o seu negócio. Acabei de falar isso para ajudar a visualizar como diferentes empresas estão capturando e processando big data em suas produções. In Moby é uma empresa que segmenta atos móveis que ajuda as empresas a melhorar seus compromissos com os clientes através de sua plataforma móvel de engajamento de clientes na Moby Sérvios bilhões de artes diariamente para mais de 7 59 milhões de usuários em mais de 1 60 países. Basta olhar para o tamanho dos dados lá, capturando e processando todos os dias e, em seguida , um, fora de seus trabalhos, eles estão correndo dedo do pé, tirar o interior dos dados. Agora vamos entender como as empresas estão monetizando big data. As empresas de telecomunicações estão fazendo negócios com bancos para detectar fraudes, mas triangulando detalhes de compra local em testemunho em quatro com os pontos de venda para personalizar ofertas em tempo real e empurrou-os por um canais móveis para a eficácia com formulários de viagem. Marketing melhor direcionado com base em clientes. Preferências de problemas com redes sociais. Dedo. Identifique os verdadeiros nós de rede usando informações completas de rede com desenvolvedores AB para obter informações completas sobre o tipo de APS que estão sendo preferidos e por que as empresas de cartão de crédito estão fazendo negócios com formulários Economos para ajudar a projetar tempo oferece em torno de opções de pagamento com pontos de venda. Toe melhorar a rastreabilidade mapeando o dolar do carro em quatro com formas de viagem. Dados de localização usados para rastrear rotas de clientes. Os varejistas estão fazendo negócios com formulários CPD baseados em padrões de compra. Ajuda a habilidade. Formulários. Melhor design sob demanda. Senhor levantou, mas primeiro e é informado dedo do pé. Obtenha uma visão tremenda sobre o que o cliente Giants prefere. Com as empresas de cartão de crédito, identifique a participação do cliente fora da carteira e padrões de gastos. Ok, isso é tudo por esta palestra. Logo o próximo. Obrigado. 3. Papéis de trabalho de grande data: Olá, pessoal. Bem-vindo de volta a esta palestra, vamos aprender sobre os papéis de trabalho necessários na carreira de big data. Bem, suas várias regras que entram em jogo quando falamos de big data. Eles são analistas de big data, Hadoop, administrador, administrador, Big Gator e júnior big constroem um cientista, gerenciador de big data, arquiteto de soluções de Big Data e diretor de dados. Vamos dar uma olhada em cada um deles um por um. Um analista de big data é aquele que caminha com dados em um determinado sistema, e analistas de execução está nesse conjunto de dados. Eles geralmente trabalham com cientistas de dados para executar os trabalhos necessários. As principais habilidades necessárias para se tornar um analista de big data é ter uma boa exposição em diferentes ferramentas B I. Como Tab, você clica em visualizá-lo setor em boa programação. Linguagens como SQL são Java ou beytin. Além dessas habilidades, deve-se ter um bom conhecimento de trabalho fora de seu quadro fazer, como mapa reduzir alta grande etcetera. Como analista de big data, deve-se saber que o que impulsiona uma organização, os principais indicadores de desempenho e como os dados disponíveis das organizações podem contribuir na tomada de decisões críticas de negócios. Ah ha! regras de administrador do grupo vem com grande responsabilidade, uma vez que envolve a manutenção fora dela fazer gesso e tornando o cluster com menos tempo de inatividade. Então alguém deve ter um bom entendimento fora. Lenox Bassa Scripting boa compreensão fora de redes Onde memória Cebu sua arquitetura de grupo . Como sua defesa tão grande quanto suas abelhas, eles devem ser capazes de implantar cluster Hadoop, adicionar e remover nós. Manter o controle dos trabalhos. Monitore partes críticas do nó de nome de configuração do cluster. Alta disponibilidade deve fazer e configurá-lo em grandes backups. Solução de problemas em escolas, configurações de hardware como topologia de disco Raxit ABS, aria I D em spectra. Desempenho de backup e recuperação de dados. Monitoramento e ajuste e execução de patches e atualizações. Ah, engenheiro de big data constrói o que o arquiteto de soluções de big data projetou. Grande líder. Desenvolva, mantenha, mantenha, experimente e avalie soluções de big data dentro das organizações. Na maioria das vezes, eles também estão envolvidos no projeto das soluções de big data. Por causa da experiência, eles têm que fazer tecnologias baseadas, como mapa reduzir alto big ah, big data em constrói júnior perdeu habilidades sistemas de processamento de dados é um especialista em soluções de armazenamento de dados e deve ser capaz para trabalhar com o mais recente sabe tecnologia de interesse igual para que eles habilidades parte, eles devem ter uma boa compreensão fora do armazém de dados. Inteligência de negócios ideal na parte dela, hein? Colégio Grube. Grande como desfigurar. Sem sequelas como a mamãe. Ele seria Cassandra Experience em andar com roupas? Romano. Boa familiaridade com a construção de sistemas de processamento de dados de habilidade perdida. Fazendo suas soluções de trabalho. Cientistas de big data dizem ser o trabalho de sucesso no século 21. Cientistas de big data bem-sucedidos estarão em Heidemann e poderão ganhar salários muito bons . Mas para ser bem sucedido, os cientistas de Big Data precisam ter uma ampla gama de habilidades que até agora nem se encaixavam em um departamento. Então, como cientistas de big data, você deve ter uma boa compreensão sobre o aprendizado de máquina. modelagem preditiva inicia a análise testicular. Processamento de linguagem natural, mapa hodoud Reduzir alta, grandes ou nenhuma sequela bancos de dados como linguagens de programação Mongo Cassandra como morder nosso Java mais perto. Isso é extra. Ah, gerenciador de big data é o intermediário entre os membros da equipe técnica e a gestão estratégica muitas vezes organização. Portanto, o gerenciador de big data precisa entender ambos os lados da moeda. Eu realmente o gerenciador de big data tem um fundo I T com uma experiência estratégica, então isso teria ah, excelentes habilidades de comunicação. Experiência em lidar com grande construtor equipe Bom. Espere uma boa exposição no aprendizado de máquina. Modelagem preditiva iniciar análise testículo sobre como fazer quadro eles devem ter um bom conhecimento em sua fase DEA comentários mapa alto pago nenhum banco de dados sequela como Mongo db Cassandra em linguagens de programação como Bite em nosso trabalho nossos espectros. Para se tornar um arquiteto de soluções de big data, você deve ter uma boa exposição ao projetar sistemas de dados de grande escala. Boa exposição fora dela fazer ecossistemas como ela Fazer alta Big Mahat Cuja IJO Keeper School que setor Nenhum banco de dados sequela como Mongo db Cassandra no setor RTB MSK data warehouse I'll ferramentas como Tahoe Informatica ou talento mordendo Java Aruban Cloud Estes são as principais habilidades necessárias para soluções de big data. Arquiteto. Diretor de serviço Para se tornar um oficial de TI alcançado, você deve ter uma boa exposição na governança de dados sobre a qualidade dos dados, olhos de especialistas na criação e implantação de práticas recomendadas e metodologias em toda a família da organização já é importante soluções de big data e produtos disponíveis no mercado. Conhecimento sobre a construção e suporte de equipes de big data em toda a organização Bom expositor na análise de testículos de estrelas de aprendizado de máquina Modelagem preditiva, desenvolvimento de casos de uso de negócios Espectra Ok, isso é tudo para esta palestra. Obrigado, pessoal. 4. Salários de Big Data: bem-vindo de volta no pouco anterior que aprendemos sobre diferentes papéis de trabalho no Big Data Market nesta carta vai aprender sobre como os profissionais de big data estão sendo pagos no mercado. Aqui está uma história do Wall Street Journal. Tom Davenport, que está ensinando um programa executivo em Big Data e Analytics na Harwood Enlistee, disse que alguns cientistas de dados estão aprendendo e vai Seles tão alto quanto um dólar de três pernas, que é muito bom para alguém que não tem qualquer outra pessoa trabalhando para eles. Devonport também disse que esses trabalhadores são motivados por problemas e oportunidades. Os dados fornecem o big data. O mercado de trabalho é extremamente competitivo. Indeed dot com é um dos maiores portal de busca de emprego em todo o mundo. Vamos dar uma olhada em alguns trens Saleh para profissionais de big data na verdade ponto com, olhar para o anel de salada para Big Data Engineer em São Francisco. A cada célula é um como $53.000 e está aumentando com o tempo para big data enviado Taste é um como $67.000 nele também está aumentando com o tempo Para analista de big data, é um como 60.000 para um arquiteto de soluções. Está em torno de durar $12.000. Em Nova York, é uma perna, $89 mil. Assim, os salários para profissionais de big data são muito altos no mercado e em varia de lugar para lugar. Com base na minha pesquisa, descobri que é assim que os salários dos profissionais de big data variam com base na experiência. Então, para um analista de big data, a Sally pode estar entre US$50.000 e 1 como US$10.000 para cientista de big data. Pode ser em qualquer lugar entre $85.000 a 1 como $70.000 com base na sua experiência. Para um gerenciador de big data, é entre $90.000 toe para como $40.000 para um big data e gênio. É entre $70.000 para 1 como $65.000. Espero que tenha alguma ideia de como profissionais de big data estão sendo colocados no mercado. Isso é tudo por esta palestra. Ver o próximo. Obrigado. 5. Tendências de tecnologia no mercado: Olá, gays. Bem-vindo de volta nesta palestra, vamos aprender sobre as tendências tecnológicas no mercado. Bem, eu acredito que se você vive na verdadeira tecnologia de informação traça, então você provavelmente deve saber sobre as mais recentes ferramentas e tecnologia no mercado. Conhecer estes irá ajudá-lo a preparar adequadamente e sobreviver no mercado. Também vai ajudar. Você não é bom se você tem o direito a habilidades no momento certo. Então o gráfico que eu vou para você é uma ferramenta de marca criada pela Gardner Gardner é uma empresa de pesquisa e consultoria ideal . O gráfico é muitas vezes chamado jardineiros hype ciclo que representa os estágios do ciclo de vida que uma tecnologia passa desde a concepção até a maturidade e adoção generalizada. Ok, se você olhar para o gráfico da parte da luta deles, eu vou um por um. Inovação, Trigger e nesta fase as nossas tecnologias conceituadas. Pode haver protótipo, mas muitas vezes não são produtos funcionais em estudos de mercado. O potencial inspira o interesse da mídia e, por vezes, cocô fora do conceito falam das expectativas inflacionadas . As tecnologias implementaram espaço Lee por nossos primeiros adotantes. Há muita publicidade sobre implementações bem-sucedidas e mal sucedidas nesta palestra. Minha principal intenção era para que você sobre Internet fora coisas popularmente conhecido como eu o. T. T. Neste gráfico, a tecnologia mais hype é Internet das coisas, e se você olhar na web, a maioria dos orçamentos são I OD e big data. De acordo com a International Data Corporation, o mercado mundial para eu apenas soluções vai crescer de US $1,9 trilhões em 2013 para US $7,1 trilhões em 2020 i. D. C. Estimativas que, como fora do final de 2013 lá foram 9.1 bilhões i ot unidades instaladas. I. D. C espera que a base instalada nas unidades iraquianas cresça até 28,1 bilhões de unidades em 2020. Então a questão é, o que é a Internet das coisas? Bem, então desligue. Coisas é um cenário em que objetos, animais ou pessoas são fornecidos com arte única em incêndios e a capacidade de transferir dados através da rede sem exigir humano para humano, nosso humano para computador em direção. Uma coisa na Internet fora das coisas pode ser uma pessoa com um monitor cardíaco implante o quê? Um animal de fazenda com um transponder biológico chip, um automóvel que incorporou sensores para alertar o condutor quando a pressão dos pneus é baixa, ou qualquer outro objeto natural ou artificial que possa ser atribuído um endereço I P e fornecido com a capacidade de transferir dados através da rede. Vamos ver algumas aplicações fora. Tenho medo de ter uma overdose, sinalizando que não há caixa de leite no mercado recebendo mensagem. Texto automático Quando você entra no supermercado, isso pode ser um aplicativo no lado do consumidor carros conectados. Smart city shoppings inteligentes no lado do negócio, fora de aplicativos, poderíamos analisar o violador de bloqueio para resolver problemas de suporte em desvendar novas oportunidades de receita . Por exemplo, General Electric, um dos maiores fabricantes da UK , está usando Big Data Analytics para prever as necessidades de manutenção. G fabricantes, motores a jato, turbinas, scanners médicos. Ele está usando dados pessoais de sensores em suas máquinas e motores. Para análise de padrões. A G está usando análises para fornecer serviços vinculados ao seu produto, projetados para minimizar o tempo de inatividade causado por falhas de peças. análise em tempo real também permite que as máquinas adotem continuamente em melhorar se ele Cincy, a indústria aérea gasta US $200 bilhões em federal ou ano, então o que os soldados e economia é de US $4 bilhões. G fornece software que permite que os pilotos de companhias aéreas para gerenciar sentir se seu N C. Então agora você pode imaginar a quantidade de dados que vai ser gerado. Mas esses dispositivos de IoT sobre a exigência de big data engenhoso no mercado no futuro futuro. Certo, voltando ao gráfico. A terceira parte é através desta religião imperfeições e fracassos levam a alguma decepção na tecnologia. Alguns produtores não têm sucesso ou deixam cair seus produtos. Os investimentos contínuos noutros produtores estão subordinados à resolução dos problemas com êxito. Se você olhar para o gráfico, big data está entre o pico das expectativas infladas e a desilusão. Embora porque a tecnologia de big data ainda não esteja madura, há muitos recursos que precisam ser adicionados na tecnologia. Veremos isso nas próximas palestras. Mas sim, comunidades de big data. Pessoas muito fortes estão contribuindo muito. O Senhor fora de melhorias e anúncios chegando todos os dias, inclinar fora a iluminação. O potencial da tecnologia para novas aplicações torna-se mais amplamente compreendido em um número crescente de empresas que implementam ou apreciam o seu envolvimento. Alguns produtores criam novas gerações de produto senhora fora da produtividade. A tecnologia torna-se amplamente implementada, seu lugar no mercado e suas aplicações são bem compreendidas. Existem padrões para avaliar provedores de tecnologia. Tudo bem, isso é tudo por esta palestra. Em breve, o próximo. Obrigado 6. Conselhos para iniciantes de Big Data: Bem-vinda de volta. Bem, minha principal intenção de incluir esta palestra é guiá-lo assim como um big data Bignell. Quais são as coisas que você deve saber? Qual é o hábito que faria? E quais são as habilidades que têm antes de saltar para o campo de big data e como você deve proceder? Então eu vou responder a todas essas perguntas sobre hábitos parte. Você deve participar de tantos encontros quanto você pode Se você não está no medidor, vá e inscreva-se no e junte-se ao maior número de grandes grupos de dissuasão que você pode perto de sua área. Participe de conferências sobre Big Gato. Os principais benefícios estão lá. Encontrará e conhecerá pessoas com o mesmo interesse. E lá você pode ter uma boa quantidade fora do compartilhamento de conhecimento. Comece a cair notícias de big data em canais on-line como TechCrunch bom prismático quando ela vencê-lo . Setor. Você também deve começar a ler diferentes empresas. Blog de engenharia que estão usando big data. Confie em mim, se você fizer esses hábitos, isso vai adicionar valores às suas grandes escolas diárias, e a longo prazo, vai recompensá-lo em sua carreira de big data. Sendo um desenvolvedor de big data, você passará a maior parte do tempo na preparação de dados. E uma vez que este curso se destina a ensiná-lo sobre tecnologias de big data e como você pode processar big data usando seu grupo e seu componente, então ter habilidades básicas fora de lojas relacionais posteriores Ideal B I Data Warehouse seria um lugar para você. Hoje em dia, na maioria das empresas, você vai descobrir que há uma segurança em plataformas analíticas. Há uma migração de armazenamentos de dados tradicionais para Como o Toe manipulou grandes volumes de dados na maioria das tarefas analíticas estão sendo realizadas usando essas ferramentas e tecnologia grandes e melhores. Então, uma vez que você aprender como fazer bandidos empresa, devemos começar a jogar com eles. Escolha qualquer pequeno mais tarde disse que você gosta, e jogar com como deface colmeia e grande. Você deve tomar quaisquer casos de uso em big data e tentar alcançá-los usando colmeia no porco, Eu acredito que antes de jogar com enormes volumes de dados, você deve primeiro disse que os pipelines de dados e ver o fluxo de dados com conjuntos de dados simples. Assim que você definir todos os pipelines de dados, repita a mesma tarefa com grandes volumes de dados. Tente implementar técnicas de processamento de dados, que você aprende nas escolas. Em alguns casos, você pode precisar iterar sua tarefa com diferentes configurações para obter a solução ideal? Então, nesse caso, eu sugiro que você sempre avalie suas alterações para encontrar a melhor solução. Isso é tudo por esta palestra. 7. Introdução ao Hadoop: Bem-vindos de volta a esta palestra. Nós vamos aprender sobre a história e os fundamentos muitas vezes aprendem. O grupo tem o nome do meu elefante pertencente ao desenvolvedor que Gutensohn. O projeto original que se tornaria seu fazer era um software de indexação Web chamado Match. O Google lançou dois white papers, nomeadamente Goebbels, File System on My Produce em Turn Three e Tutor e Four, respectivamente. Nozes. Os desenvolvedores usaram esses papéis para construir, um livro amigo de processamento que dependia de dezenas de computadores em vez de uma única máquina, com o Anglo construindo legalmente sua infraestrutura de pesquisa na Web. Sim, quem usou idéias de armazenamento e processamento de nozes para formar a espinha dorsal fora fazer em suas primeiras implementações no Yahoo, um loop só andou em 5 a 20 notas decisão do Yahoo de configurar um grau de recesso para seus dados . Os cientistas ajudam o vapor de pesquisa a escalar gradualmente os clusters do Hadoop de esquivas a centenas de nós. Em 2008, Yahoo estava pronto para estrear seu grupo como o motor de sua pesquisa na Web. Usando ah ha do gesso Com cerca de 10.000 nós, a empresa foi capaz de aumentar sua busca uma velocidade em dois italianos 11 Yahoo estava executando seu motor de busca em 42.000 nota. Com muitos mais jogadores envolvidos no projeto de código aberto do que em seus primeiros dias, ela continua a evoluir e ramificar-se em novas direções. Deveria. A questão é, o que é? Como fazer? De acordo com o Apache, o Hadoop é um software de código aberto que esmalta distribuído, processando grandes conjuntos de dados em clusters fora de servidores de commodities. Ele foi projetado para aumentar a escala de um único servidor para milhares de máquinas com um grau muito maior de US$4 em vez de depender da contratação de hardware. A resiliência desses clusters vem da capacidade dos Softwares de detectar e lidar com falhas na camada do aplicativo. Então, para entender seu grupo em termos muito simples, você tem que entender para fundamentos coisas sobre isso. Eles são como o Hadoop armazena arquivado que é, como DFS e como ele processa dados. Ou seja, meu produtor é DFS é um mecanismo de armazenamento fora do Luke, onde você pode armazenar arquivos de qualquer tamanho. Você pode instalar arquivos que variam de embaixadas a TVs ou até mesmo superiores, dependendo de sua configuração de acordo com as necessidades da empresa. Ele também permite que sua loja tantos arquivos quanto você pode. Ele distorce os arquivos de uma forma distribuída espalhando-se por várias máquinas. Veremos isso em breve. Map reduce é um motor de processamento de dados fora de Helou. Quais processos fizeram sentado em como DFS. Se você olhar para o processamento posterior condicional, os dados de desenraizamento são movidos através de uma rede que é processada por nós lá fora. Mover dados durante a noite para pode ser muito, muito lento, especialmente para conjuntos de dados realmente grandes. Seu grupo usa uma abordagem mais inteligente em vez de mover dados para os códigos. Ele move os códigos de processamento para o líder sentado em máquinas distribuídas. Estas escolas processam dados lá sobre Lee devolveu as regiões. Agora você pode imaginar a quantidade de latência de rede que está sendo salva aqui. Esta é a beleza fora. Então diga não, temos visto como defesa e meu produzir um osso juntos para resolver problemas no processamento de dados em grande escala, onde, onde, como DFS fornece um sistema de arquivos e mapa, estes fornece são distribuídas estrutura de processamento de dados. É uma coisa que gostaria de lembrá-lo novamente. Este curso é totalmente baseado em sua versão do grupo 2.2. Então, o que quer que esteja aqui nas escolas está relacionado com ela devido à versão impressa. Mas sim, sempre que eu sentia que você deveria saber sobre a versão mais antiga. Eu já abordei isso neste curso. Também na próxima palestra vai ver as diferenças entre ela fazer atos maravilhados e Hadoop toe X virgens voltando ao tópico. Compreendendo os meus produtos. Se você olhar para o mapa produzido em um nível muito alto, há duas partes mapa e reduzir. Idealmente, aplicações desenvolvidas um mapa e uma redução de métodos em Java por estão implementando interface apropriada ou classe abstrata. Eles também especificam locais de entrada e saída em algumas configurações, resto é tomado cuidado pela estrutura. Agora vamos ver um problema comum que é como um programa Olá mundo na programação senhoras mapa . Se você olhar para a tela curta, Eu criei um arquivo de texto que contém alguma linha usando a programação do meu aparelho. Vamos sair da ocorrência. Olá, enviado. Palavra neste texto em vez de olhar como mapa reduzir quadro irá resolver este problema. Vamos entender como o desenvolvedor Lennox resolverá esse problema. Usando script batter Eles são dois scripts baixos aqui mapear muito s H e reduzir sua mensagem filha . Vou alimentar meus arquivos X em ponto mapeador Shh. Usando mapa de script pipe um lote SS irá lê-lo linha por linha e organizar cada linha. Se o nosso token é olá, ele irá imprimir o par de valor de chave como Olá vírgula um se estamos falando é nulo. Ele irá imprimir um par de valores de chave também. Vírgula uma das escrituras Ignore todos os outros tokens que você pode ver nesta captura de tela. Então a lógica é bem simples, como explicado por que Luke vai ler cada linha e para Luke vai mostrar olhos cada mundo na linha. A fala leste é então examinada. Se for um olá ou mundo, um par de valor de chave apropriado será impresso Se você tentar fazê-lo por conta própria Não se esqueça de dar permissão Executar ao seu mapple. Esse é o grupo usando o humor. Venha logo para a tela. Vamos olhar para o produtor ponto Shh. Vou alimentar a minha saída. Adiar meu membro escreveu ensaios para reduzir a idade do adulto s através de Produtor examinará cada par de valor chave produzido pelo mapeador e desde que simplesmente contará para quantas vezes ele encontrou Primeiro par que é Olá, vírgula um E quantos vezes ele encontrou Segundo par Isso é WorldCom um. Finalmente ele irá imprimir o meu desejado off boot assim que na tela. Então é isso que o mapa produzido está em níveis muito altos. Minha estrutura de produção irá alimentar dados de entrada para o mapeador Mapple Netter, desenvolvido por um programador. Mapple sabe o que fazer com esses dados. Assim, ele irá processar dados sobre os pares de valor de chave geral, que são devolvidos para o livro de trem framework, irá executar uma operação de pesquisa e classificação em todos os pares de valor chave gerados a partir de vários nós em todo o cluster. Em seguida, ele irá alimentar esses peers de valor chave de volta para reduzir. ER Produtor é novamente um importado. Escrito por um programador e skit sabe o que fazer com estes valor-chave aparece redutor irá realizar operação reduzida para gerar o regional final. Ok, isso é tudo por esta palestra. Veja no próximo. Obrigado. 8. Ecossistema de Hadoop: Olá, todo mundo. Bem-vindo de volta Na palestra anterior, aprendemos sobre fundamentos fora do fazer. Nesta palestra, vamos aprender sobre o sistema Haru Equal. A plataforma Hadoop consiste em. Dois serviços-chave são confiáveis. Sistema de arquivos distribuído chamado seu grupo sistema de arquivos distribuídos. Ou seja, como DFS e o mecanismo de processamento de dados paralelos de alto desempenho a chamaram de Duke meu produto , que já aprendemos sobre eles na palestra anterior. Se você olhar para o ecossistema de loop dela, existem várias ferramentas disponíveis para atender a necessidades específicas. Como o grande setor escolar Maholm Uzi. Essas ferramentas são chamadas de componentes do ecossistema Hadoop. Esses componentes fornecem um meio de acessar e processar dados como defesa. Deixe-me dar um exemplo para ajudá-lo a visualizar o ecossistema Haru. Olhe para esta foto. O que você vê aqui? Um smartphone com muitos APS e roubado direito. Consideremos isso um smartphone como um ecossistema Hadoop e seu aplicativo. Nada além dos componentes fora do ecossistema. Considere sua memória do telefone. Como defesa s, você tem fotos, vídeos em seu telefone. Você pode compartilhar essas fotos ou vídeos usando APS como empréstimo Facebooked tweeter setor. Significa que você está acessando dados do telefone usando esses ups direito da mesma forma que componentes fora dela podem acessar e processar dados residentes em como DFS. Cada componente do ecossistema Hadoop foi projetado para atender a determinadas necessidades de negócios. Vamos dar uma olhada em cada um deles um por um. Oi é como um armazém de dados, que é construído em cima do Do. Em vez de escrever mapa complexo escolas bonitas em Java ou outra linguagem, eu usa uma linguagem de consulta baseada em habilidade para interagir com dados sentados em um grupo. Big é uma linguagem de fluxo de dados, que usa grande lead no script para interagir com os dados inseridos. Ele também destaca a complexidade fora escrever mapa, reduzir escolas e linguagens de programação. Como Java, Gladding é semelhante ao SQL. Você pode escrever scripts maiores para processar big data em stands escolares para SQL Toe. Como fazer isso? Basicamente, colher é uma ferramenta que é usada para transferir dados de Ali BMS para sua defesa e vice-versa. Uzi é um pedido de emprego usado para escalar você uma festa. Helou Jobs woozy combina vários trabalhos sequencialmente em uma unidade lógica fora do trabalho. Ele é integrado com Lupus. Comece com gadgets jovens, centro arquitetônico e apoia seus peitos para uma festa na minha produção. Big High, qualquer escola que é você também pode esqueleto trabalhos, espaço efecto para um sistema como programas Java ou vender um script. Do Keeper fornece serviços operacionais para um cluster Hadoop. As pessoas fornece são distribuídas serviço de configuração são serviço de sincronização na nomeação do histórico para sistemas distribuídos. A base dele é uma fonte aberta. Nenhum banco de dados de sequela que forneça acesso de gravação de leitura em tempo real para esses últimos conjuntos de dados. Um partido é baseado escalas linearmente para lidar com grandes conjuntos de dados com bilhões de rosa e milhões de colunas. Nele é fontes de dados Silicon Minds que usam uma grande variedade fora diferentes estruturas e um esquema. Flu é uma pesquisa distribuída, confiável e disponível para coletar, agregar e mover de forma eficiente grandes quantidades de dados de streaming para seus Deaver. Por exemplo, flume pode ser usado para coletar vários logs e despejá-lo para como defesa em tempo real. Meu coração está elaboradamente fora de um jardim de aprendizado de máquina escalável implementado em cima do fazer e usando o paradigma do meu aparelho. Uma vez que o big data é armazenado no sistema de arquivos distribuído Hadoop, Mahat fornece as ferramentas de ciência de dados para encontrar automaticamente padrões significativos. E aqueles grandes conjuntos de dados. Meu coração suporta a formação de dados desde casos de uso. Filtragem colaborativa, classificações de agrupamento freqüentes. Eu não disse mineração. Ok, isso é tudo por esta palestra. Em breve. O próximo. Obrigado. 9. Hadoop 1.x vs Hadoop 2.x: Bem-vindos de volta a esta palestra. Vamos aprender sobre versões diferentes. Oferta. Será que é assim que o imposto de maravilha e como fazer para que age antes de começar? Vamos entender os termos básicos do avião Dude Helou. É uma máquina que não é uma parte fora do cluster Hadoop, mas tem algumas configurações para que um usuário pode enviar o trabalho Hadoop, que é suposto ser executado no Hadoop Cluster. Geralmente, as máquinas Klein têm o Hadoop instalado com todas as configurações de cluster, mas não são mestre nem escravo. Em vez disso, a função da máquina cliente é carregar dados no cluster, enviar trabalhos bonitos do mapa, descrevendo como os dados devem ser processados e, em seguida, recuperar de você as regiões do trabalho . Quando terminar em clusters menores, digamos 30 nós, você pode ter um único servidor físico executando várias regras, como o rastreador de tarefas e o nome Não. Com clusters médios a grandes, você terá cada regra operando em uma única máquina de servidor. Em nossas palestras anteriores que aprendemos sobre é DFS e mapa reduzir. Vimos como meu trabalho de beleza é dividido em tarefa individual, chamado mapeador e redutor. Durante ela fazer a delegação fora tarefa é tratada por dois demônios chamados Job tracker e atacante. Nosso demônio é um processo longo. Lip o rastreador de trabalho no exterior. Como? Mapear trabalhos bonitos são divididos em tarefa em dividido entre nós dentro do cluster. Rastreador de trabalho reside no nome Não, o atacante estrela, exceto a tarefa do rastreador de trabalho e executa o mundo e permitido duh tracker trabalho uma vez é feito. Isso é rastreadores em notas de dados estão localizados nos mesmos nós. Toe melhorar o desempenho que são Straker. Demônio é escravo do verificador de trabalho. E os dados. Nenhum demônio. Um escravo do nome. Sem nome, sem nome, sem distorções meta Mais tarde sobre os dados que estão sendo armazenados no get se desdobra, enquanto nós de dados roubaram o real mais tarde. Então o nome não tem a informação. Como em quais blocos em qual rack ou em quais dados? Não, os dados são um banquinho. Em outros detalhes. Nó de nome é executado em Master North. Nosso molde de dados não armazena dados em sua defesa? Ah, sistema de arquivos funcional tem mais de uma data e antigo com dados replicados entre eles. Dados, nenhuma instância pode falar entre si, que é o que eles fazem quando eles estão replicando dados nó de dados executado em nós de suspensão. Então, em termos simples, podemos ver que seu grupo tem uma arquitetura escrava mestre. Seu nó nome é executado em Master Nolde, vários nós de dados e em nós escravos. O demônio rastreador de tarefas é um escravo para o verificador de tarefas nos dados. Nenhum demônio é escravo do nome. Vamos entender como o saque difícil armazena um arquivo. Vamos supor que você tenha um arquivo de tamanho de um GB. Então o que, olá vai fazer? Ele irá quebrar os arquivos e os blocos dependendo do tamanho do bloco que você decidiu. Eu roubei em todos os dados e velhos. Digamos que se você tiver configurado o tamanho do bloco fora para 56 MB, modo que ele vai quebrar o arquivo em quatro blocos em, bem, uma armazená-lo em diferentes nós de dados. Nó de nome terá os arquivos metal mais tarde. Como os blocos que estão guardados no encontro dele em cima de mim. Para lá. O tamanho do bloco é a menor unidade fora de dados que um sistema de arquivos pode ser armazenado que as vendas de quatro blocos no sistema UNIX é quatro chave, muito gin Helou. É 64 Emmy. Agora vamos entender por que Helou tem tamanho de bloco maior, como vimos em nossas palestras anteriores como DFS, é dizer para lidar com arquivos grandes. Agora vamos ver se você tem 1000. E se eu em sua defesa e você configurou o tamanho do bloco como quatro chaves, então você teria que mim como 56 mil pedidos para obter esse arquivo. Esse é um problema de solicitação no como DFS. Essas solicitações passam pela rede e vêm com muita sobrecarga. Cada solicitação deve ser processada pela sala de nomes para descobrir onde esse bloco pode ser encontrado, o que é muito fora do tráfego. Se você usar 6400 blocos do que um mais freqüente vai para baixo para 16, o que está reduzindo consideravelmente o custo de sobrecarga e carga na lua. Agora vamos entender o que é o aplicativo de dados para a alta disponibilidade fora dos dados e fazer Hadoop armazena cópias dos mesmos blocos em diferentes nós de dados em arrasta. Então, se em algum momento de folga nosso dia Donald cair, os mesmos dados podem ser acessados através de outros nós de dados. Por padrão, o Hadoop restaura três cópias de blocos em diferentes nós de dados e ratos. No entanto, o fator de replicação pode ser aumentado ou diminuído dependendo das necessidades de seus negócios. Vamos discutir sobre o segundo chamado Lord, como vimos o nome Load detém feito um bloco mais tarde como em formação, informações arrastadas , dados , notas , informações, etc. E todas essas informações são cozidos na memória principal, e essa é a razão pela qual ele é chamado de ponto único de falha no Hadoop Cluster. Agora vamos entender profundamente como nó de nome e em segundo lugar nomes notebooks Nome não. Também armazena fez uma informação posterior no armazenamento persistente no formulário fora dreadlocks em esforços imagem você pode ver no diagrama como um nome não distorce a informação imagem Fs é o instantâneo fora do sistema de arquivos quando o nó nome é iniciado Considerando que um deadlocks são segredos fora mudanças feitas para o sistema fino após o nome Nota é que ele começou Onley na Grécia Iniciar off nome carga Um pouco carvalhos são aplicados à imagem F s Obter o último instantâneo do sistema fino Mas o nó de nome reiniciar de muito raro na produção O que significa que ele bloqueia pode crescer muito grande para os clusters. Somos nomes sem diferença por um longo período de tempo. Neste caso, podemos enfrentar as situações da vida e bloqueios tornam-se muito grandes, o que será um desafio para gerenciá-lo. Nó de nome Reiniciar leva muito tempo porque muitas alterações precisam ser movidas. Número três em nome do caso não vai para baixo. Nós perdemos Hughes quantidade fora, fez um líder desde imagem esforços é muito velho para superar essas questões Precisamos de um mecanismo que nos ajudará a reduzir o Um pouco de vantagem que é gerenciável e deve ter até hoje esforços Imagem para que carga em chamado old reduz Este é o lugar onde segunda nota nome entra na imagem. É realmente um pouco com aqueles ponto de restauração que nos permite tirar um instantâneo dos brinquedos para que se algo der errado, nós podemos reverter para o último ponto de restauração. Em segundo lugar, nome conhecido ajuda a superar esses problemas assumindo a responsabilidade de mesclar um pouco logs com imagem FS do nome No. Então, em obtém os logs de edição do nome conhecido em intervalos regulares em aplica-se a imagem de F s. Uma vez que ele tem uma nova imagem FS, cópias de volta para a lua eu não estou vai usar esta imagem esforços para os próximos três começar, o que irá reduzir o seu tempo de inicialização. Para que possamos vê-la fazer. Em segundo lugar, Name no coloca um ponto de verificação no sistema de arquivos, o que ajuda o nome não a funcionar agora voltando para um tópico médio. Como se perguntava. X versão é diferente de dois ataques. Bem, suas várias limitações você vai enfrentar ao usar ponteiro que é virgem como nenhuma limitação . Pode-se ter até 4000 nós em um trabalho de cluster. A segunda garrafa como o Resource Man tem sido civil no monitor. Tem apenas um nome. Não tu menos a defesa dele. É mapeamento. Reduzir a estática de abate. Só se pode importar este trabalho. Não. Quaisquer trabalhos personalizados são baixos. Agora vamos entender como a solicitação de leitura é processada em 100 maravilhado explosão em um novo cluster. Eles não anotam, continuam enviando batimentos cardíacos e bloqueando relatórios para não nomear nome, sem nariz que não sabia que está vivo em qual está feito. Então, quando um novo pedido de cliente para uma operação de leitura sobre o nome do gesso, Node sabe a localização dos blocos e obter um porão. Assim, ele retorna o nó de dados e blocos de idéias para executar a operação de lead. Agora vamos ver como a operação correta é realizada em seus ataques recém-nascidos. Quando uma solicitação de cliente como um nome de operação correta, não há detalhes que eles não têm idéias antigas e, em seguida, a linha Hadoop executa a operação correta. Aplicação de dados é feito pelas notas de dados em si, e, em seguida, eles enviam de volta o bloco. Relatórios para nomear conhecido. É um nome de doce. Observação continua verificando seus bloqueios de dívida para ter a atualização. O trabalho de execução da imagem do escritório Em sua maravilha ataca quando um trabalho do Hadoop enviado por uma linha do Hadoop , o rastreador de trabalho e o rastreador de confiança Cuida do trabalho. O rastreador de emprego no exterior. Como mapa trabalhos bonitos são divididos em tarefa que é mapeador e redutor e dividido entre os nós dentro do cluster. O atacante tar, exceto a tarefa do verificador de trabalho e executa a caminhada e, em seguida, alerta o tomador de trabalho. Uma vez feito, suas várias melhorias importantes foram feitas nos ataques do Hadoop. Agora, como você escreve X suporta até 10.000 nós? Park Lister. Ele suporta vários nós nome para gerenciar sua introdução defesa para Young para se está em gesso você dilatação. Yanis representa mais um negociador de recursos. Uma turnê em grupo atua, tem o conceito fora de contêineres, enquanto tinha se perguntado, lotes de acesso continua Todos Gerar e Londres qualquer Dave off tarefa, mas um canyon ranhura quer um mapa ou uma presa reduzida por causa dos recipientes, e que vários modelos de computação de distribuição podem coexistir dentro do mesmo cluster. A dilatação U do Hadoop dois pontos exe é significativamente maior do que o Hadoop Warner Excl Esther em um nível muito alto na introdução do Young in Hadoop, The Job Tracker da Kodak foi substituído onde o Resource Manager e o rastreador de tarefas foi o lugar onde o gerente de recursos do gerente conhecido ajuda a fazer trabalhos e também cuidar da escalabilidade e suporte para paradigmas de programação alternativos. Nord Manager Take Care Off Nós de computação individuais e Hadoop Cluster. Isso inclui manter-se atualizado com o gerente de recursos supervisionando os concorrentes, uso de recursos de monitoramento do gerenciamento do ciclo de vida, como CPU, memória fora de contêineres individuais, rastreamento de bloqueios de ajuda do nó, gerenciamento e outros serviços, que podem ser explorados por diferentes aplicações jovens. Como retrato atua também é compatível com o meu produto escrito em seu fazer ataques pornográficos e para a frente confortável qualquer APS pode ser integrado com Hadoop. Dois escreveu X por isso está além de produzir mapa. As operações de leitura e gravação são quase semelhantes ao que vimos no Hadoop sob ataques a única diferença que vemos nesta arquitetura é o registro fora dos nós de dados. Muitos nós de nome. Caso do trem. Um nó de nome é desativado. Os dados ainda podem ser acessados com a ajuda de outros nós de nome. Olhe para os pools de blocos no diagrama. Como as notas de dados são agitados com diferentes nós de nome em seu grupo para ponto Axe, podemos dizer cabeças de nó nome, alta disponibilidade. Então, como colocar para fora atos pode cuidar do cluster automaticamente quando eu nome No vai para baixo operação operação de escrita liderança são bastante semelhantes. O que vimos nela para vaguear decks correndo trabalho em seus ludogorets. Assim, quando uma linha do Hadoop envia um trabalho em ataques de tour do Hadoop, o gerenciador de recursos cuida do trabalho e implantado no cluster. Gerentes muito nota cuidar da tarefa. Com isso, estou encerrando minha palestra. Espero que você tenha gostado de aprender as arquiteturas de trabalho e diferentes versões. Ela está na palestra do pescoço. Obrigado. 10. ETL vs ELT: Olá, todos. Bem-vindo de volta nesta palestra, nós vamos aprender sobre ele vai. E presumo que tenha conhecimento básico sobre o ideal e o armazém de dados. Bem, ele realmente significa extrair, transformar e carregar, enquanto Ile de Stand for Extract carregar e transformar antes de começarmos. Vamos entender esses três termos. Extrair é um processo em que os dados são copiados de várias fontes para uma área de preparação. As fontes podem ser qualquer banco de dados que restaura dados transacionais das organizações, por exemplo, minha sequência, Sense Force. Excel, etc. Transformar é um processo em que os dados são transformados de acordo com um destino entregas. O banco de dados de destino é chamado Data Warehouse. Uma vez que os dados são transformados e são armazenados em uma maneira de dados de preparação, eles são então carregados no data warehouse na abordagem analítica tradicional. O que fazemos, forçamos a reunir todos os requisitos de negócios. E então projetamos nosso data warehouse para que ele pudesse responder facilmente a todas as perguntas de negócios . Redesign ideal para que ele possa facilmente transformar os dados que devem ser carregados para o data warehouse. Ao extrair os dados, extraímos apenas colunas ou tabelas que são necessárias para o processo ideal. O descanso é ignorado. Ela requer uma infraestrutura separada para manter o ideal e os data warehouses começam. E a tarefa mais dolorosa é que sempre que a exigência de negócios muda, você precisa redesenhar seu passo sagrado para incluir as mudanças, que é um assunto caro. Deixe-me dar-lhe um exemplo. Vamos assumir seus novos requisitos de negócios. Quer que algumas novas colunas sejam adicionadas ao seu modelo de data warehouse? Então, nesse caso, você precisa reprojetar seu modelo de data warehouse para incluir essas novas colunas. E como seu trabalho ideal foi projetado para selecionar Onley, colunas ou tabelas dedicadas, então você precisa redesenhar seu trabalho também. Ok, quando você fala sobre como seus dados vêm primeiro em como fazer? Em seguida, você pensa em projetar pipelines de dados para atender aos seus requisitos de análise. Então, no caso dela fazer as abordagens mais utilizadas culpadas, você extrair todo o seu auditor, carregá-los em como fazer e, em seguida, você faz a transformação de dados para atender ao seu equipamento de análise . Mas sim, bom, muito dependendo dos casos de uso comercial, a melhor coisa sobre Lt abordagens que digamos, se no futuro, suas necessidades de negócios mudam, você não precisa se preocupar em extrair auditor novamente, uma vez que seus dados reside em seu desenho original a partir dele em seu fazer. Considerando que no caso de armazém de dados tradicional, não é porque eles foram transformados pelo seu trabalho ideal. Espero que você guarda idéia como abordagem saudável é usado em um do. Isso é tudo por esta palestra. Veja, no próximo. Obrigado. 11. Fornecedores de Hadoop: De qualquer forma, bem-vindo de volta nesta palestra, eu vou falar sobre a distribuição do Hadoop por diferentes janelas. Então, antes de começar, deixe-me dizer-lhe a diferença entre ela oferecer Bear Party e Hadoop oferecido por essas janelas de mercado. Bem, se você olhar para lá de duas maneiras, você pode configurar para ela fazer o seu teste ou envolvimento na produção. Número um. Você pode baixar os arquivos Banbury fora de um fazer e é empresa do site Apart Cheese e configurar o envolvimento manualmente. Número dois. Você pode até qualquer uma das distribuições fornecidas pelos fornecedores no mercado, então uma conta muito altamente. A diferença entre eles é que se você optar pela distribuição do Hadoop por qualquer uma das janelas, você receberá suporte. Alguns recursos adicionais no topo fora Duke e sua competente em uma engrenagem muito agradável um sistema para gerenciar os clusters. Certo, vamos dar uma olhada em alguns dos melhores fornecedores do mercado. Imagina mapa elástico reduzir. Popularmente conhecido é EMR foi uma das primeiras ofertas comerciais do Hadoop no mercado e lidera em prisões do mercado global. EMR é seu grupo no clube liberando Amazing fácil para computar Amazing s três histórias em outros serviços. Claudia Reyes Foco. Não a inoves, sim. Com base nas demandas corporativas, sua suíte Hadoop é conhecida como distribuição de roupas. Também conhecido como Sidi it. Ele construiu um mais rápido um índio escola no topo. Off dela fazer bastante Impala olhos nublados construir uma engrenagem muito agradável, um sistema conhecido como roupas, um gerente para gestão e monitoramento fora de um telhado. Harden parece. Olá, Distribuição é difícil e Books Data Platform, popularmente conhecida como SDP Hardened Works estratégia é impulsionar toda a inovação através da comunidade open source. Neste curso, usarei trabalhos endurecidos para distribuição para demonstrar seu grupo e sua empresa. Outono Looks também fornece um muito bom fazer. Um sistema conhecido como um partido incorporar para um lugar para a gestão. IBM, em Begin Sides de reposição, fornece fácil integração com outros pools IBM. Como S Peace. SPS é Advanced Analytics Workload Management for Higher Performance Computing, ferramentas B I e ferramentas de gerenciamento e modelagem de dados. Sua suíte de grupo inclui análise de texto sofisticada, modelo Ibn big seeds para exploração de dados, outros 80 de desconto em desempenho, confiabilidade, segurança e recursos administrativos. Minha parte Technologies é a terceira sua alegação, mas não tem os presentes de mercado carregados e endurecidos. Sua distribuição Hadoop suporta sistema de arquivos de rede, uma de suas principais inovações. Ele suporta execução arbitrária nos anúncios de desempenho de cluster para cada base , bem como alta disponibilidade e os recursos de recuperação de justiça. Eu pensei que era a primeira janela de armazém de dados corporativos a fornecer uma classe corporativa completa tinha um plano. Foi também o primeiro a implantar uma família de eletrodomésticos que integrou seu grupo e elogiar dados, Armazém e gerenciamento de dados vive em uma única faixa pelos eleitores. Haru Distribution tem um grupo MP PP. SQL Indian chamado que fornece o nosso MP pp como um desempenho escolar em seu bem MP PP representa processamento paralelo maciço. Irureta sendo um especialista em Enterprise Data Warehouse, tem parceria com Horton Books para oferecer um grupo como nas persianas, Terra posterior distribuição inclui integração com editores de terror, gestão e uma escola fora Federated School Indian que permite ao cliente consultar dados de seu data warehouse. E isso é tudo por esta palestra. A próxima lista 12. Gerenciando HDFS da linha de comando: Onde você vem? De volta a esta palestra? Vamos aprender o básico. Vamos gerir a sua defesa. Aprender esses comandos básicos irá ajudá-lo muito. Quando começar a brincar com você. Presumo que tenha um envolvimento de grupo de trabalho na sua máquina. Se você ainda não instalou, eu sugiro voltar e instalar como fazer, em seguida, assistir a esta palestra. Então, para criar um diretório em como D um rosto, você pode criá-lo usando Hadoop, hein? Congelar menos e doces. Um ano de acordo com a parte da directiva. Então, no exemplo, eu estou criando dois diretórios lá. 8100 Tito dentro do diretório do usuário para listar arquivos dentro de um diretório. Você pode disparar o comum dela fazer esforços menos Ellis e a localização do diretório. Se você quiser ver como Maney blocos estão disponíveis dentro de um determinado arquivo em sua defesa, então você pode verificar que usando cada comando secreto para que cada CK gera são alguns maleáveis que listam a saúde geral fora de um sistema de arquivos como DFS é considerado saudável se e somente se todos os arquivos tiverem um número mínimo de réplicas disponíveis para copiar arquivos de um local para outro local em como fase querida, você pode usar meu comando de necessidade assim que no exemplo aqui. E se você quiser fazer upload de alguns arquivos do seu diretório local para sua defesa, você pode usar o comando menos put. Então não anote arquivos de seu rosto querido que você pode usar menos get. Vamos lá. Veja o exemplo aqui para saber o tamanho fino de sua fase DEA você pode usar menos do Vamos lá . E se você quiser remover alguns arquivos de sua defesa, você pode usar menos R M. você pode usar menos R M. E para obter ajuda, você pode digitar menos help comando no terminal. Agora vamos ver esses comandos em ação. Eu amei em coração e trabalho sandbox. E estou na dualidade doméstica a 10 dólares. Agora vamos criatividade em sua defesa. Então, do cara Terminal Al, eu faço FS menos m kedia barra usuário slash s de ia um. Então isso criará uma diretiva de diretório um. Não usamos um diretório. E se quiser ver este tratado, pode demitir o comando. Eu faço um congelamento menos Ellis. É menos usuário. Então ele irá listar todos os diretórios dentro do diretório do usuário. Você pode ver o ano sujo quando acabamos de criar o “I No”. Vamos colocar algum arquivo na rua do nosso diretório local. Ok, então em nosso diretório local, eu vou criar Adam, você arquivo com base em toque arquivo 11 dot txt. Então eu vou colocar este arquivo e fazer a defesa. Faça um rosto menos colocar barra através Sluss. Melhor Fly Slash s usuário Slash DEA um. Então este comando enviará o arquivo do nosso local diretamente para sua defesa. Você pode ver o arquivo do primeiro dia. Um novo laço de ameaça facial. É menos. Usuário barra DEA. Ok, então agora este arquivo foi enviado em sua defesa. Obrigado. Agora vamos criar outra direção como deface onde vamos ver como podemos copiar um arquivo de um local para outro em sua defesa, tentando criar outro diretor, f ace menos e vertiginoso um ano barra usuário. É menos desejo. Então isso irá criar outro diretório dentro usar uma caridade. Você pode levá-lo ao seu novo escritório quando estiver solto. É menos útil. Por conseguinte, a nova directiva tem sido óptima. Então o que? Farei o arquivo, que enviamos para direcionar. Até nós copiaremos o arquivo de 31 a 32. Então, o que mais eu morro? Um novo rosto menos C P barra usuários no ano passado foram um. Ok, é menos arquivo de teste 11 os extremos 60 usuários de barra menos Delia. Então este comando irá copiar o arquivo, que está sentado no 81 para a capacidade de para que possamos ver o arquivo do Eu faço uma ameaça facial . Ellis cortar usuário barra desejo. Agora você pode ver que o arquivo foi copiado para direcioná-lo para Ok, nós aprendemos sobre fck Vamos lá, que dá o resumo do sistema de arquivos mantido em como defesa. Vamos verificar isso. Vamos lá. Eu também. Eu sei. Se um Seiki, é menos usuários dados menos simples. É menos salário. É menos assalariado ou ver SV. Então, o relatório diz se um arquivo é útil como defesa ou não, então você pode ver seus iniciantes aqui. O arquivo é Hildy. Se houver blocos ausentes que você possa ver no relatório, você também poderá ver detalhes sobre o fator de replicação. Eles não fazem nódulos. Bloqueia o carro protetor de ataque. Vamos ver se você quer ver o tamanho de um arquivo em sua defesa. Então o que você pode fazer, você pode morrer um grupo de menos. Você acha? E outra cópia deste tamanho em Beit contra aqui. E vamos ver se você deseja remover alguns arquivos de um começando o entre como deface, você pode morrer do f ace menos adam slash usuário slash desejo de estrela para que ele vai acreditar todos os arquivos dentro diretamente para e vamos ver se você deseja baixar alguns arquivos de sua deface para o seu diretório local, você pode morrer um grupo. Se for menos bom, será menos usuários menos dados de amostra. Deixe-me uma cópia. Esta para o nosso novo diretor. Então este comando Oh, contra este arquivo existe. Então deixe-me remover isso. Então, o que estou fazendo aqui, estou baixando a salada. Artsy, é o arquivo para um diretório local para que você possa ver. Tudo bem, isso é tudo por esta palestra. Espero que você tenha gostado de aprender é defesa Commons e eu recomendaria ir e tentar em sua máquina. Obrigado. Veja, até a próxima palestra 13. Introdução à colmeia: Bem-vinda de volta. Esta palestra vai dar alguns conhecimentos básicos sobre alta. Então, antes de começar, deixe-me dar-lhe uma idéia sobre por que colméia em grande foram desenvolvidos. Eu vou com um exemplo simples. Vamos supor que há arquivos, ou seja, clientes e clientes transações e como defesa. Agora, se alguém perguntou, Diga-me o top luta pagando clientes por Geo para responder a esta pergunta, você vai dirigir para baixo um mapa cedo este programa para resolver este problema. Devido à extrema simplicidade fora do mapa reduzir, você tem que lidar com hacking de nível muito mais baixo. Com muitos fluxos de dados de ramificação de estado que surgem práticas, você tem que repetidamente chamado de operações padrão, como juntar a mão. Essas práticas o tempo de pulso introduziu erros prejudicam a legibilidade em otimizações reduzidas. Há um monte que é repetitivamente durante o processo de preparação de dados, isso há uma necessidade de alto nível dedo do pé a completa thes coisas, facilmente escondendo toda a complexidade dentro. É aí que o High foi grande entra na foto. Tão alto fornece um modelo familiar para aqueles que conhecem Esquivel e permitem que eles pensem e trabalhem em uma perspectiva de banco de dados relacional. Ele fornece uma linguagem de consulta simples chamado hive Key Will, que é baseado em Esquivel, em que permite que os usuários familiarizados com SQL toe ad hoc esperando alguma radiação na análise de dados . Ao mesmo tempo, HAiF Key também permitirá mapple tradicional este programadores para ser capaz de conectar seus mapeadores personalizados e reduz para fazer uma análise mais sofisticada que pode não ser suportada pelas capacidades de construção. Oi é um ecossistema competente, fora do Hadoop. Oi é uma infraestrutura de armazenamento de dados para seu Luke. A responsabilidade familiar é fornecer dados, alguma origem, consulta e análise. É uma análise de alimentos para os últimos estados de dados armazenados em seus loops como sistema de arquivos DFS. Agora vamos ver o que a colméia não é. Hi viz Não construído para obter uma resposta rápida ao Kuwaitis, mas é construído para aplicações de mineração de dados. Ele não é projetado para on-line. A colmeia de processamento de injeção não oferece graxa em tempo real. É melhor usado em trabalhos ruins. Isso é tudo por esta palestra. Em breve, o próximo. Obrigado 14. Arquitetura de cordão: Bem-vindos de volta a esta palestra. Vamos aprender sobre arquitetura colméia. Bem, esta é a arquitetura dos cinco. Quando comandos e consultas são enviados para ocultar, ele vai para o driver. Driver irá compilar, otimizado em executar aqueles usando passos fora dos meus trabalhos bonitos. Parece sempre que o Dr. Irwin geralmente Java mapa bonito internamente. Mas esse não é o fato de Hive ter gerado mapeador e reduzir nosso modelo, que operam com base em informações em um arquivo XML. Agora vamos entender componentes médios de luta vê-lo. Esta é a interface para você apenas enviar consultas sobre outras operações através do sistema . O driver recebeu as consultas. Este componente implementa a noção fora das alças da estação e fornece, executar e buscar um cais modelado em Jodi Beatty ou divisão enfrenta analises compilador. O Kuwait faz análise semântica sobre os diferentes blocos de consulta e expressões quot e eventualmente, gera e plano de educação. Com a ajuda fora da mesa e partição feita, um líder olhou para cima do banco do medidor. Modesto. As definições da tabela da colméia e o mapeamento para o dedo dos líderes são armazenados em um banquinho feito. Este meta estola é um banco de dados relacional tradicional. Você realmente meu segredo fez uma loja constitui o serviço Modesto sob base de dados. O serviço de armazenamento de mídia fornece a interface para o alto e a base de dados. Estos as definições de dados mapeiam ings para o líder. Em outros, Executar er executa o plano de educação criado se compilador o plano é um saco fora estágios. O mecanismo de execução gerencia as dependências entre essas diferentes etapas do plano e executar propriedade DJ está no sistema apropriado. Componentes otimizam o dedo do pé do quadril otimizam o plano de qualidade. A consulta pode ser realizada em um dados simples para obter a distribuição de dados que pode ser usado para gerar um plano melhor. Isso é tudo por esta palestra. Espero que você tenha essa idéia sobre como componentes altos funcionando geralmente em breve a próxima palestra. 15. Formatos de arquivo no Hive: Bem-vindo de volta a esta palestra, vamos aprender sobre formatos de arquivo em colmeias. Bem, se você olhar em volta, os dados estão crescendo em uma taxa muito alta hoje. Quase todas as empresas estão capturando big data. Mas o problema surge quando você apenas tenta acessar esses big data. Nesta palestra, vamos discutir como diferentes formatos de arquivo em alta ajuda para armazenar e acessar dados em Novo. Primeiro de tudo, eu vou estar criando uma tabela externa no hive para ler o arquivo sentado em como DFS para criar uma tabela que armazena o arquivo como um arquivo de texto. Precisamos especificar o tipo de arquivo. Em seguida, vamos puxar dados de External Table Toe Sally e uma tabela de texto da escola, que irá restaurar dados como um arquivo de texto artsy finalmente representa o tribunal colunar demitido estrutura de armazenamento de dados agente de arquivo RC . Isso não significa como minimizar o espaço necessário para relacional mais tarde em como DFS, ele faz isso alterando o formato dos dados usando quadro de redução de mapa, O arquivo RC combina várias funções, como histórias de dados para acasalar compactação de dados e otimização de acesso a dados. Assim, ele ajuda no armazenamento rápido de dados processamento de consultas melhorado fora da morte, armazenamento, armazenamento, circulação de espaço, bastões dinâmicos de acesso a dados. O arquivo RC Former pode partisan os dados tanto horizontalmente quanto verticalmente. Isso permite que ele busque em Lee as falhas específicas que são necessárias para análise, eliminando assim o tempo padrão necessário para analisar toda a tabela de forma de dados. A redução global do tamanho dos dados pode ser de até 15% de desconto no anterior original. Como você pode ver na tela, Eu criei uma tabela de arquivo RC símbolo antes de carregar dados na tabela. Você precisa executar esses três valores SEC para habilitar a conclusão. Depois de carregar dados, você pode executar. Monte rapidinho em coluna individual para ver como mordidas maney estão sendo lidas. Quando mapa reduzir ele começa, ele será menor do que o que você vê no texto normal Table Park. É uma loja culinária que nos dá vantagens para armazenar em um dados de digitalização. Armazenar a coluna de dados Boys permite uma melhor compressão, o que nos dá varreduras mais rápidas enquanto usa menos armazenamento. Também é útil para tabelas brancas e para coisas como agregações de nível de coluna. A redução geral do tamanho dos dados pode ser de até 60% dos dados originais. Ex criar uma tabela de código de barras é bastante simples. Você só precisa especificar o tipo de histórias como você fez para a tabela RC Arquivo, e então você precisa carregar os dados. WARSI significa coluna de linha otimizada ou arquivo C. O Former fornece uma maneira mais eficiente de armazenar dados relacionais do que a arte. Se eu reduzir as histórias de dados para feito em até 75% da porta é nulo. O também arquivado para o meu desempenho melhor do que outro formulário de arquivo alto. É quando o colmeia está lendo, escrevendo e processando dados em comparação com verrugas de arquivos RC. Leva menos tempo para acessar dados e leva menos espaço para armazenar dados. No entanto, o arquivo RC aumenta a sobrecarga da CPU, aumentando o tempo necessário para rebocar. A comprimir os dados relacionais criando tabela WARSI é semelhante ao que fizemos para RC File ou Parkway. Você só precisa de um especificar o tempo histórias durante a criação da tabela. Finalmente, pareça individual. Como o formato de arquivo é diferente reduzindo o tamanho original dos dados brutos. URC sendo o mais se é em um aqui. Isso é tudo por esta palestra indo praticar na sua máquina. Vejo você na próxima palestra. Obrigado 16. SQL vs HQL: Bem-vindo de volta nesta palestra, aprendemos sobre perguntas HIIf, e também veremos as semelhanças e dissimilaridades entre uma habilidade e desculpa. Escape realmente significa linguagem de consulta estruturada onde ele realmente significa linguagem de consulta hive . Quando se trata de caminhada Ortiz, eles são bastante semelhantes às consultas SQL. Ao usar hive você Access, fez um mais tarde sobre o esquema e tabelas executando propriedade significa leitura em HAIF Key vontade Surpreendentemente, . essas declarações meta posteriores são bastante semelhantes. Toe o que você vê no SQL World. Veja as instruções para selecionar bancos de dados, listar bancos de dados, listar tabelas que descrevem a criação de suas embaixadas em alta e como elas são semelhantes ao que você vê no SQL. Preocupe-se que três maneiras de descrever uma tabela em alta para ver tabela primária em quatro off tabela hive usar tabela descrita. Mas o script para a razão acoplada exibe informações adicionais. As informações extras incluem detalhes de baixo nível, como se sua tabela é interna ou externa quando foi criada. O arquivo formou a localização dos dados em assuntos de D, se o objeto é uma tabela ou uma exibição, e para exibições que o texto do Kuwait a partir da definição de exibição dois código c de uma maneira limpa . Uso descrito para acasalamento. Então este é um comando para ver todas as informações. Descreva também todos os detalhes de forma limpa. Você também pode ordenar consultas de hive a partir da linha de comando suas formas de lançamento para executar hive Quartey da linha de comando. Olhe para os exemplos aqui. Como se você quiser executar algum cordis hive em silêncio mais, você pode especificar menos s menos e opção no terminal. Você também pode definir variáveis de conflito alto quando e consultas a partir da linha de comando. Se você deseja executar hive Quartey através do arquivo SQL, você pode especificar menos F opção eo nome de fogo no terminal. A Hi fornece muitos recursos. Quando você está no hype sell, você pode fazer um script com na esperança de usar o código-fonte. Venha logo aqui. No exemplo, você pode listar arquivos de sua deface usando o comando DFS. Se você quiser listar arquivos do diretório home, você pode executar Ellis. Vamos lá, você pode usar set Vamos lá para variáveis de configuração, você perdoar definir aba porta alta. Venha para auto-conclusão em Auto Alto um pode redefinir todas as variáveis usando reset vêm dentro de si mesmo. Você pode adicionar frascos menos frascos. Aldeões de fora de oi pedreiras são quase semelhantes às consultas SQL. Olhe para o tribunal mais fácil selecionar colunas ou para encontrar valores distintos, fazendo a ordem por operação ou juntar-se ou prisão. Há limitações no Hif Quartey, que veremos nas próximas palestras. Além disso, vamos ver essas qualidades em sotaque em nossa alta eleição dem, isso é tudo para esta palestra. Vá e pratique o que aprendeu hoje. 17. UDF e UDAF na cordilheira: Bem-vindos de volta a esta palestra. Nós vamos aprender sobre você D off e UDF em funções definidas pelo usuário hive. Permite que você chame sua própria lógica de aplicativo para processar valores de coluna. Durante um patrimônio líquido de hive, por exemplo, Rud de poderia realizar cálculos usando uma biblioteca matemática externa. Combinado vários valores de coluna em um fazer cálculos geoespaciais ou outros tipos de teste e transformações que estão fora do escopo fora do edifício s operadores escolares e funções que você pode usar utf para simplificar Cory Logic ao produzir relatórios são dados de uma forma flexível ao copiar dados de uma tabela para outra. Por exemplo, se você disparar selecionar nome inferior da tabela de funcionários. Assim, para cada linha na tabela funcionários o dever inferior de leva um argumento. O valor off name em todos coloca um valor a representação em minúsculas do nome e, se você disparar, se você disparar, selecione a data se o início, a data e a data dos funcionários. Assim, para cada linha e tabela funcionários a data em que o fugitivo leva dois argumentos o valor de iniciado e terminou em saídas um valor a diferença de tempo entre essas duas datas. Cada argumento de um UDF pode ser uma coluna fora da tabela um valor constante. O resultado de outro Você d fora do resultado de uma beleza de computação automática de um significa função agregada definida pelo usuário que percorre um grupo de valores e retorna um único valor. dicas são usadas para resumir e condensar define baixos no mesmo estilo que a cidade de construção Maxam ou Rece funciona quando eu ut se é chamado iniquidade que ele era seu grupo de volta leis. A função é chamada de um para cada combinação de valores de retorno de grupo. Ele avalia várias regras, mas retorna um único valor. Veja o exemplo para roupas restaurante. Ele avalia lotes de regras e retorna um valor separado para cada lote. Exemplo fora a localização mais rentável aqui, você pode ver um exemplo aqui. Primeiro de tudo, estamos criando uma geografia enorme para converter os sentidos em uma noite distante, adicionando a UT de jarro à colméia. Então estamos criando uma função nomeada para que possamos chamá-la em equidade. Isso é tudo para esta palestra em breve na próxima 18. Demonstração de colmeia: Bem-vinda de volta. Então você sabe, nós aprendemos muitas coisas sobre modelos de dados arquitetônicos do hive hive, diferentes formatos de arquivo. Diferenças entre SQL e SQL. Agora é hora de ter um pouco bonito. Tudo o que temos aprendido sobre alto em nossas palestras anteriores vai vê-los em ação nesta palestra com este hábitats palestra simples conjuntos posteriores e scripts que são usados nesta demonstração. Os estados posteriores simples e os scripts são para o seu exercício em sua própria máquina depois que você terminar esta palestra bem, em primeiro lugar, tudo realmente para iniciá-la em nossa máquina já começou Hadoop na minha máquina no Guia de instalação do Hadoop. Nós já aprendemos que há duas maneiras de interagir com ela Fazer via terminal. seja, Ou você pode acessar através da janela de caixa virtual ou você pode acessar através de seu terminal local , e há mais uma maneira de interagir com você. Você pode interagir via Horton trabalha mulheres para enfrentar. Vou demonstrar todos os três. Logan, vamos dar uma olhada na caixa virtual. Primeiro de tudo, eu preciso intento janela caixa Walzel desde que eu estou usando Mac, então eu preciso morrer. Effin oy e uma luta já foram f tarde. Certo, o nome de usuário é você. E a senha é Como fazer isso? Estou em casa, diretamente da caixa de areia. Ok. E o outro lado é o terminal de incêndio da Alemanha local. Ok, então eu morro. Mensagem a menos bi ambos rota número em três. O anfitrião local Boss Worthy você pode ver aqui. E o terceiro caminho é desfigurar arma de fogo. Então você só precisa cronometrar isso você está em quente e funciona e funciona fornece uma interface web muito agradável para interagir com um loop e seu componente. A interface da Web tem muitos recursos. Você pode fazer upload de arquivos, estresse, deface gajas, arquivos em sua defesa, executar consultas em diferentes componentes de um loop, projetando trabalhos amplos e muito mais. Vamos dar uma olhada como podemos criar um diretório e enviar arquivos para sua diferença através arma a cara deve ir para navegador de arquivos. Então você está no SDF. Está tudo bem. Você pode ver a data mais fácil. Então estes são o diretor é interessante como desonesto. E se você se lembra, estas são as diretrizes que criamos durante nossa palestra de comandos de defesa dele. Deixe-me esclarecer seu novo direto para você Dia para mim. Então um novo diretório foi criado em como DFS o ar para Vamos enviar algum arquivo aqui departamento e aplicativo sozinho despojado em sua defesa. Então este arquivo foi enviado para sua defesa. Veja como é fácil fazer upload de arquivos através da interface web em sua defesa. É um banco de dados em colmeias. Então vamos aprender nossas qualidades de símbolo neste notário. Então eu pareço que eu peguei aqui. Ok. Ah, olha. Foi criado. Cara das entregas creme, Avi cinco ser capaz. Assim, um novo banco de dados foi criado se você clicar neste sistema de banco de dados. Então você não viu a lista de bancos de dados aqui? Ok. Para demonstração? Eu já fiz upload. Simples mais tarde senta-se em sua defesa. Deixe-me mostrar o diretor e os arquivos. Eu devo ir para o riser arquivando. Use-o. Líder do símbolo Aan den. Então eu coloquei arquivos da Sally no departamento de saladas, arquivando o departamento 80 algo assim. Vou criar algumas tabelas externas para ler esses arquivos. Então deixe-me ir para a colméia. Eu demonio. Estou criando uma mesa externa chamada empregados e mencionando a localização do incêndio em sua defesa. Estou criando uma mesa externa chamada empregados e mencionando a localização do Vamos criá-lo. Se você Google, os funcionários do Ebel terão sido criados. Você pode ver os nomes das colunas aqui. E se você quiser ver algum Líder do Templo, basta clicar nesta guia. Simples. Veremos os valores aqui. Vamos contratar um litro criará outras mesas. Também uma localização clara do departamento. Em sua defesa, clique em Tabelas departamento foi criado. E se quisermos ver algum exemplo de líder, clique nisso. É ótimo. E que haja com Sandri. Vou contratar o editor e levarei todas as perguntas. Então criamos três tabelas externas aqui para ler arquivos sentados em sua defesa. Este é o líder simples. Vamos criar alguma tabela interna em colmeias. Você copiou o Brady? Desta vez? Eu vou estar criando que eles vão usar terminal Eu devo ir para feito na quarta-feira. Eu vivo. Vai demorar alguns minutos. Doping espera. Vamos esperar, Staking, morrer. Agora estamos no hypes e realmente morremos. Então, corridas vamos estar criando sua mesa em alta demonstração sublinhado. Deixe-me basear o brilhante que vai lançar alguns membros do trabalho aqui. Olhe para o status aqui, modo que a mesa foi criada de repente no Scranton olhou incêndios. Sou um limite ganancioso. Então a localização dos dados está em ABS. É menos colmeias, menos armazém, menos alto sublinhado Demo porta Devi. Então, se você relacionar esta tabela interna, ambos os dados, bem como esquema serão excluídos de alta. Então, em nossa palestra anterior, aprendemos sobre formatos de arquivo em colmeias. Vamos executar essas qualidades. Então, para as coisas, tudo o que L criou será criar esta escolta David Sellin próxima baseado. Desistir. Então, o Havens. Agora vamos carregar no estábulo, certamente no texto da escola. Então nós carregamos os dados de estendido, ele vai aprender algum membro do trabalho. Você pode ver o status deles aqui. Então criamos nossa tabela que os dados armazena como um arquivo de texto. Vamos demitir Sally na escola. Eu vou criar inevitável que as lojas muito menos falsificadas Então tabelas para que você possa ver esta estrutura certamente na escola para me deixar carregado. Então, antes de carregar os dados, terei que executar esses comandos como discutimos em nossas palestras anteriores. Ok, agora deixe um pouco mais tarde e mais ele encontrar. Ele está lançando a loja de leitores mapa. Vou criar um adaptável que o arquivo das lojas seja um mercado para ele. Então vamos brilhar, não. Então, uma vez que é feito, vou mostrar-lhe o tamanho diferente fora dos arquivos que veremos tabela. Então copie essa equidade. Então tabelas agora carregam os dados nesta dica para que algum homem produza acontecendo. Então vamos ver como o tamanho do arquivo varia entre essas tabelas. Então vamos ao navegador de arquivos em sua defesa. Oh, deixe-me passar por queimaduras de High Day. Então vamos ver o tamanho do arquivo para a localização. Então é por volta de 97,3. Gaby, se formos atrás de um arquivo pior, você verá a diferença. Olha, são só 15 Gibby. Veja como o arquivo está sendo compactado em diferentes de formatosde arquivo em alta. Você pode ver suas diferenças. Agora vamos executar um haIF coreano conjunto para que nós vamos estar aprendendo esta consulta Então esta consulta vai dar os resultados fora. Empregado pelo departamento de quem? Salvi ralado em 1000 em agosto 2008 deixe-me ir para consulta colméia um dia querido sobre isso baseado inquietante staking algum dia. É doce. Então o que está jogando alguns troncos como o que está acontecendo. Você pode ver o status deles aqui. Fora, minhas lindas. Ficando algum dia agora. Conseguimos o resultado. Veja, eles empregam terreno por departamento. Agora, vamos executar alguma consulta de hive a partir da linha de comando. Deixe-me copiar o pronto. Irei ao Diretório de Horton Works e basearei o patrimônio. Veja, é assim que nós também podemos executar as consultas do terminal aderindo algum dia. Lançamentos no mapa Introduza Mostrar falso. Sim, você pode ver lá, não é? Vamos fazer mais um Cody stick ings e morrer. Veja os resultados com isso. Estou encerrando minha palestra de Dima. Espero que tenha gostado de ver sotaque escondido. Vejo você na próxima palestra. 19. Introdução ao porco: Olá. Bem-vindos de volta a esta palestra. Vamos aprender sobre história, e os fundamentos básicos são grandes. Maior, projetado para lidar com qualquer tempo fora de dados Big é uma linguagem extensível de alto nível projetado para reduzir as complexidades fora. Citação mapa produz aplicações. Big foi desenvolvido no Yahoo para ajudar as pessoas a usá-la devido a enfatizar na análise grande sobre os conjuntos de dados de estrutura, minimizando que o tempo é gasto em escrever mapeador e para fazê-lo funções. Todas as tarefas são incluídas de uma forma que ajuda o sistema a otimizar a educação automaticamente. Porque tipicamente 10 linhas de código e Paige igualam 200 linhas de código em Java, grandes converte operadores em meu muito escolarizado maior. Composto por dois componentes segunda-feira, a linguagem de programação latina porco e o outro é grande envolvimento aleatório. Big é uma plataforma de linguagem de alto nível desenvolvida para executar consultas em grandes ativos de estado que são armazenados em seu DFS. Usando como fazê-lo é semelhante a uma linguagem de consulta escolar, mas aplicado em um conjunto de dados maiores em com recursos adicionais a linguagem usada em Vegas chamado big learning. É muito semelhante à fuga. Ele é usado para carregar os dados, aplicar transformações em feito os dados na forma necessária Um grande converte todas as operações em mapa e reduziu-nos, que pode ser processado de forma eficiente em Como é que basicamente nos permite concentrar no toda a operação independentemente do mapeador individual e reduzir suas funções Big pode ser usado como uma ferramenta it 'll para projetar biplanos de dados. Permite o nosso processo detalhado passo a passo pelo qual os dados devem ser transformados. Big pode ser usado para pesquisa e desenvolvimento. Ele também pode ser usado para benefícios de processamento de dados iterados de grandes, grandes, grandes linhas fora do campo para processar. Tarefa complexa. Maior auto-otimização. Nenhuma linguagem Java é necessária para aprender grande iluminação. Ele pode ser usado para em cima. Quaid e Big suporta uma escola como capacidade como juntar funções matemáticas de filtro de classificação na Spectra. Menor tempo de desenvolvimento. O Maior Salto leva 5% do tempo. Em comparação com a escrita man produzir programas em Java, é bom para trabalhos de processamento em lote. Ele pode processar dados estruturados, semi estruturados e não estruturados. Com isso, vou encerrar minha palestra em breve. A próxima palestra 20. Arquitetura de porco: Bem-vindo de volta nesta palestra, vamos aprender sobre grandes arquiteturas. Vamos ver como diferentes componentes de grande trabalho juntos, como aprendemos em nossa palestra anterior que Big é uma linguagem extensível de alto nível projetado para reduzir as complexidades fora membro roading Estas aplicações. Então, quando você envia consultas de separação inicialmente lá manipuladas pela pessoa parters verificações, este índice do script faz verificação de tipo em outras verificações. A saída da parcela será uma barragem que é dirigida um grafo ciclone. Qual dos presentes o pig deixando as instruções e operadores lógicos no DAG Os operadores lógicos do script são representados como os nós nos fluxos de dados são representados . AIDS bordas assim parcela basicamente gera plano lógico como saída otimizá-lo. O plano lógico é passado para o otimizador lógico, que realiza otimização lógica, como projeção e post no compilador. O Compilador compila o plano lógico de otimização em uma cidade fora do meu motor de execução de trabalhos bonitos . Finalmente, o maverick esses trabalhos são submetidos a ela fazer em uma ordem ordenada sobre estes trabalhos Napoli são executados em como produzir os resultados desejados? Isso é tudo por esta palestra. Espero que tenhas tido a ideia de como o grande funciona internamente. Vejo você na próxima palestra 21. Modelo de dados de porco: Bem-vindo de volta nesta palestra, vamos aprender sobre o modelo Big Data. Bem, tem um conjunto muito limitado de collants de dados. Os tipos de big data são classificados em tipos de pool. Eles são primitivos e complexos. Os tipos de dados primitivos também são chamados datas de dados simples. Eles incluem final longo fluxo, duplo etcetera. Grande apoio. Três tipos de dados complexos. Eles são um casal, que é um conjunto ordenado de fades ruim. Um set off casais é chamado de um mapa saco. Um conjunto de pares de valor chave é chamado de mapa. Big suporta muitos operadores, que tem sua própria funcionalidade. A maioria deles, ERM pretende. Aqui, operador Loader lê dados de operadores de despejo de sistema de arquivos escreve Vou colocar a um limite de saída padrão . Operador limita o número para os cartões. Operador de grupo Cartões elétricos com a mesma chave de uma ou mais entrada do operador escriba . Ele retorna o esquema da relação para cada operador gerador. Aplica-se expressão para cada registro e saída um ou mais. Registros. Operador de filtro que selecionar casais de uma relação com base em alguma condição. Juntando operador desfrutando loja mais entradas com base no operador divisão chave. Ele s divide os dados em dois ou mais conjuntos com base nas condições do filtro. Operador simples. Ele seleciona uma amostra aleatória fora de dados com base em um operador de ordem de AIDS construído tempo especificado. Ele classifica registros com base em uma chave, operador distinto. Ele remove cartões er duplicados. Roubei Operador. Ele grava dados em uma união de sistemas de arquivos. Ele mescla dois conjuntos de dados. Telefonista Frank. Ele retorna cada templo com o posto dentro de uma relação. Isso é tudo para esta palestra em breve eleição. 22. Como funciona o latim de porco: Bem-vindos de volta a esta palestra. O objetivo principal é dar-lhe uma idéia sobre como o porco latino caminha em grandes grandes declarações latinas trabalhar com as relações são relação pode ser definida também. Um parente é um saco. Um saco é uma coleção fora alunos são para puxar é um conjunto ordenado de campos. Ah, campo é um pedaço de dados. Ah, grande relação é semelhante à nossa mesa em abelhas relacionais posteriores onde as duas pílulas no saco correspondem a perder em uma mesa. Ao contrário de uma tabela relacional, no entanto, grandes relações não exigem que cada casal contenha o mesmo número. Os campos ou os campos na mesma posição têm o mesmo tempo. Além disso, as relações estão ordenadas, o que significa que não há garantia de que os alunos são processados em qualquer ordem particular. As relações são referidas pelo nome ou Helios. Os nomes são atribuídos pelo usuário como parte fora do alerta grande em uma instrução. Então, neste exemplo, o nome ou Elia está fora. A relação é um olhar para o exemplo de como eu estou carregando os dados e ele está especificando o esquema na relação sobre resultados de dumping fora da relação na tela em uma relação campos são referidos por rotação posicional ou por nome. notação posicional é gerada pelo sistema. rotação posicional é indicada com dólar. início de sessão começa com Jiro. Assim, por exemplo, dólar zero o primeiro 2 sentir no dólar arquivo para reverter para terceiro livremente no fogo . Nomes são atribuídos pelo usuário usando um esquema de nós. Neste exemplo eu tenho alguns multa sentado em como D um escritório e eu defini a relação no porco para ler esses arquivos. Como acabamos de aprender, nossa relação é uma má que é semelhante a uma tabela no banco de dados relacional. Quando você fogo descreveu o que vai resolver o skim off relacion de na terceira linha. Estamos tirando uma amostra de Baghdadi para limitar a falta de pistas para contar. E, finalmente, estamos imprimindo os resultados na tela usando operador de despejo. Olhe para as relações para dados complexos, certo, a relação de saída fora. Teremos dados complexos, certo? Espero que tenha tido a ideia sobre relações no treino de porcos hoje no seu atendedor. Em breve a próxima palestra 23. SQL vs porco: Olá. Bem-vindos de volta nesta palestra, vamos aprender sobre semelhanças e dissimilaridades entre o krill e o porco. Vamos entender alguns fundamentos fora. Grande Grande Grande Latim é processado. Onde SQL é declarado fazer grande permitindo que os desenvolvedores biplano decidam onde os dados de ponto de verificação no pipeline. Pig Latin permite que o desenvolvedor selecione um operador específico implementações diretamente, vez de confiar no otimizador. Grande líder suporta divisões no oleoduto. Big Latin permite que os desenvolvedores insiram seu próprio código em praticamente qualquer lugar do pipeline de dados. Grande liderança é processável em SQL. Sob a mão é declarativo. Vamos entender por um exemplo, considere, por exemplo, um pipeline simples. Somos dados de fontes de usuários e Clegg deve ser juntado e filtrado e, em seguida, juntar-se a um formulário de dados. 1/3 fonte chamou-lhe na íntegra em agregado e, finalmente, armazenado em uma tabela chamada Cliques Valiosos partido Amy em SQL. Isso poderia construí-lo em uma Sonya, então na iniquidade estavam se juntando as fontes. Usuários e placas e, em seguida, na consulta externa, estavam juntando-os com geo info e finalmente armazenando diligência em cliques valiosos. Pardini e a mesma coisa pode estar liderando em grande assim que aqui, olhe para as relações aqui. Veja como é legal força o oleoduto a construí-lo dentro, dentro fora com operações que precisam acontecer. Primeiro acontecendo na cláusula do Kuwait. Isso pode ser resolvido com o uso de tabelas intermediárias ou temporárias. Em seguida, o oleoduto torna-se o nosso melhor alugado set off uma escola consultas onde pedidos só está acontecendo olhando para um roteiro monstruoso que ela estava toda a escola juntos. Além disso, dependendo de como o banco de dados lida com tabelas temporárias, pode haver problemas de limpeza para lidar com ele. Em contraste, Bigler adolescentes cujos usa exatamente a gripe de dados sem forçá-los a qualquer coisa dentro para fora construtor, definir tabelas prontas temporárias e gerenciar como essas tabelas são usadas entre diferentes consultas SQL . O oleoduto, dado em um Skrill, é obviamente simples. Consiste apenas em passos muito simples. Na prática, os pipelines de dados em grandes organizações são muitas vezes bastante complexos. Se cada script latina grande abranger etapas de tênis do que o número de scripts a serem gerenciados no controle de origem , manutenção de ouro na especificação de fluxo de trabalho cai por uma ordem de grandeza. Há alguns teclados em pig Latin, que funciona de forma semelhante ao que vemos no SQL World e Big let Filter é bastante semelhante. Cláusula Toe Where em SQL que está no Texas. Diferente, mas conceitualmente. Isso é semelhante a uma habilidade. Usar roupas onde estavam filtrando dados com base em algumas condições. Desde filtro é feito em uma propriedade separada de um grupo ou agregação, a distinção entre ter e onde não existe no porco R. Dickey seria quadris praticamente o mesmo em porco como uma desculpa em grandes articulações pode ter. Sua execução é especificada no dia parece um pouco diferente, mas, em essência, estas são as mesmas articulações que você conhece de um distorcido, e você pode pensar sobre elas da mesma forma que todas as articulações são suportadas por grandes. Estas semelhanças grupo Tudo em um Skrill é uma sala que o agrupamento criado não é persistente Onley, os dados produzidos Aggregating away continua a ser alguma qualidade para usar em porco latino. Cada passo tem um declarado. reutilização de mesas de segurança de Elia é natural e intuitiva em geralmente não envolve construí-los. Toys U Thiha lista grande de funções de construção está crescendo, mas ainda é muito menor do que o artigo ou minha foice fornece. Então, qual é o tamanho que permite? O usuário para definir funções de análise Aggregator em outra linguagem como Java, fightin e, em seguida, aplicá-los no porco rapidamente sem qualquer problema. Aqui estão alguns exemplos com o modo como o índice Big Latins varia de consultas SQL Veja suas confluências para selecionar consultas que executam funções distintas em SQL e funções agregadas de execução grande . Veja como podemos fazer junções e operações sindicais pagas. Espero que esta palestra tenha dado idéia suficiente sobre como SQL e alerta porco varia. É hora de começar a praticar. Vá brincar com o Big Ladin na sua máquina. Vamos ver o grande sotaque Ladainiano e a nossa grande palestra de Dima. Isso é tudo para esta palestra em breve na próxima. 24. UDF em porco: Bem-vindo de volta nesta palestra vamos ver como você d efs desempenham um papel importante na beleza do porco de stands para a função definida pelo usuário. Ah, grande beleza Off é uma função que é acessível ao porco, mas escrito em uma linguagem que está em porco Latin Big permite aos usuários registrar aplicativos UT para uso dentro de um grande script A líder. Na palestra anterior, aprendemos que grande tem um conjunto limitado de funções em comparação com o que a bicicleta auricular fornece para que possamos escrever funções analíticas para processar dados. Você d efs fornecer capacidade para fazer processamento de dados personalizado. Em grande você idiotas são fáceis de usar e frios grandes você dicas podem ser executadas em várias linguagens como Java, python , javascript, etc. Com grandes vidas, podemos processar qualquer coisa como extração de recursos de imagem. Geo computação fez um processamento de linguagem natural limpeza e muito mais. Big permite que os usuários combinem operadores existentes com seu código através de você. Piggy mealheiro de Deif não é nada, mas A coleção off usuário contribuiu com você dois anos que é lançado junto com Big mealheiro Julius, certamente para ser restaurado manualmente no frasco grande quando usado em maiores scripts. Existem três tipos fora você tee off em porco um tee valor fora de uma criação, você tee off e se é você avaliativo avaliativo eu usei em para cada tipo de propriedade significa e está faltando. Olhe para o exemplo aqui estamos definindo uma relação na quarta propriedade On Na segunda etapa, estamos fazendo processamento de string usando você é caro para gerar nomes em minúsculas. Este é um dos exemplos fora Valued and Mitigation Union A chateado fut estável aplicado em dados de grupo. Isso é semelhante à função que usamos durante um grupo por instrução em SQL como algum detector de terra , então funções agregadas são usadas para combinar várias peças fora de informações. Neste exemplo, estamos calculando as vendas de traças por produto. Olhe para as relações aqui. Eu acho que você sabe. Ah união de filtro é usado para filtrar dados com base em alguma condição. Um dia depois, valores booleanos Então, neste exemplo, estamos filtrando cummings abusivos de dados fornecidos set off. Olhe para as relações aqui. Sempre que você enviar grandes consultas, grande converte-los em set off felizmente esses trabalhos uma instância separada fora de serviço se será construído em execução de cada mapa e reduzir presa. Esta é muito a sua beleza de Wilder em espero que, você sabe, você tenha gostado do Grupo de Aprendizagem e sua companhia. próxima palestra vai ser muito, muito excitante já que você vai ter muito fora de mãos na experiência. Vejo-te na próxima palestra. 25. Demo de porco: Bem-vindos de volta a esta palestra. Vamos ver o Big em ação. Vou direto para eles. Quão grande? Deixando passeios no porco Estaremos executando diferentes qualidades simples para ver como podemos processar dados em interagir com eles com esta palestra têm todos os tipos como conjuntos de dados simples. E scripts, que são usados nesta demonstração para demonstração, já carregaram conjuntos de dados de símbolos em sua defesa. Como aprendemos em nossas palestras anteriores, Pig Latin é uma linguagem de fluxo de dados em cada etapa de processamento ou as relações resultam em um novo conjunto de dados. Vamos vê-los em ação. Eu vou estar demonstrando as consultas usando coração e funciona interface Web, bem como grande Grand Cell. Big pode processar qualquer coisa se eu deslizar fora para os dados estão disponíveis. Big fará uso tanto para um amigo, entrar na verificação e para otimização. Mas se não houver tortas esquimós disponíveis, Big Willis ainda processará os dados fazendo os melhores casos que puder. Baseado em como os scripts tratam os dados, vamos executar algum templo que Gorey deve ir para o comedor de pagad. Andi, deixe-me aprender o que está pronto. Então eu tenho um disparo sentado como defesa neste local Ok, então eu estou você carregando os dados especificando um esquema no segundo passo, eu estou tirando algumas amostras do saco e. e, finalmente, no passo 30, Estou despejando os resultados na tela. Vamos entrar. Levará alguns minutos para correr. Então esta é a razão pela qual vamos resgatar outras consultas simples sobre Big Grantsville. Então eu vou ser muito duro nos livros Home Directory e eu vou amarrar o Pig. Depois de algum tempo, estaremos em Big Grant, Ill. E de Bigger até que possamos executar o grande rapaz no roteiro. Agora estamos no grande concedido Deixe-me copiar Montado. Muito Então, nesta qualidade, eu estou carregando os dados de sua deface especificando um esquema no segundo estado estou limitando as regras por caneta e, finalmente, imprimindo os resultados na tela. Leve-me naquela noite para que você possa ver que não é apenas este resgate Kuwaiti usando grupo por uma declaração. Então esta vontade em algum trabalho aparato para processar os dados e, finalmente, ele irá imprimir os originais na tela Então você pode ver isso que este ano este levando algum tempo nenhum 25% é concluída para as pessoas em concluída agora, 75% está concluída. Então, olhe para o resultado aqui. Agora vamos em uma equidade conjunta em porco. Então, estaremos contando o número de funcionários por departamento na primeira relação. Estou carregando dados de funcionários na segunda relação. Estou carregando dados do departamento na terceira relação. Estou juntando os dois sacos E, M, P e DP pelo departamento I d. na próxima relação. Estou me despedindo do nome do departamento na relação 50. Estou fazendo cones únicos por este departamento para gerar os grupos e finalmente estou imprimindo os originais. Vamos executá-lo. Ele vai novamente leis do mapa trabalho bonito. Levará alguns minutos para ser concluído. Somos nós, e você pode ver que o mapa produz status aqui. Será através dos logs, 25% é concluída. - Agora 75% está concluído. O inferno é a razão. Então esta é a contagem de funcionários por departamento. Agora, se você quiser, você armazena grandes resultados em sua deface, então você pode fazer isso usando um operador de loja. Vamos dar uma olhada no símbolo “Goody”. Durante o último, Eu sou um especificando um operador de loja em especificar o local de saída em como D um escritório. Vamos executá-lo. Será outra vez. Lawns, o mapa Pretty trabalho vai demorar alguns minutos para ser concluído. 25% está completado. Se a pessoa estiver concluída, - 75% está concluída. Assim, o trabalho foi concluído com sucesso. Podemos ver os resultados em sua defesa para que possamos fazer o perfil. O Roger. Oh, deixe-me ir a alguns dados nós vamos e você pode ver que não há. Agora vamos fazer um trabalho sobre o problema no porco. Então vamos encontrar a ocorrência fora. Olá, mundo e mundo mundo em um dado dados de amostra. Na primeira relação, eu estou carregando os conjuntos de dados de amostra na segunda relação que eu estou fazendo mágico token Na terceira relação, eu estou fazendo operação de filtro para uma Olá mundo e guerra mundial. Na quarta relação estou fazendo grupo por operação pelo mundo e por cada palavra estou fazendo operação de contagem e finalmente imprimindo os Regionais. Está correndo. Desculpe. Oh, deixar baseado nisso. Então ele vai lançar o mapa. É o trabalho dele. Podemos ver o status deles aqui. Levará alguns minutos para ser concluído. É doce. 50% está completado. Veja os resultados aqui. Espero que você morra sobre o quão grande? Deixando andar com dor. Isso é tudo para a demonstração do porco vai praticar em sua máquina hoje, junho da próxima palestra. 26. Projetando pipeline de dados usando porco e colmeia: Bem-vindos de volta. Temos idéia suficiente sobre como o Hadoop e seu componente funcionam neste pouco eu vou projetar nosso pipeline de dados usando grandes e altos para processar logs gerados pelos usuários no site, vamos analisar Click stream Data gerados pelo Enorme está em um site. Vamos entender o que são dados de fluxo de cliques. Ah, dados de fluxo de cliques é uma trilha de informações ou o usuário fica para trás enquanto visita um site. Normalmente, ele é capturado em arquivos de bloqueio de site semi estruturados. Os arquivos de bloqueio contêm elementos de dados, como uma data e hora. O VA Jitters I p. Endereço o destino que você está fora das páginas vegetadas em um usuário i d que identifica exclusivamente o visitante do site. Vamos dar uma olhada no simples líder em algum tempo que a maioria dos roteiros e conjuntos de dados tem sido um terrorista. Com esta palestra, que vou usar nesta demonstração, você pode executá-los em uma máquina quando terminar esta palestra. Agora vamos entender o que são dados por plano Em sentido geral, nossos dados por plano é o processo de estruturação, processamento e transformação de dados nos estágios, independentemente do que o formulário de dados de origem. Talvez alguns casos de uso tradicionais para um pipeline de dados sejam pré-processamento para data warehousing. Juntando-se a outros conjuntos de dados para criar novos conjuntos de dados na extração de recursos para entrada em um algoritmo de aprendizado de máquina. Dados por plano é um processo automatizado que é executado em intervalos regulares de tempo. Toe in apenas limpa transformar em alimentação agregada de entrada de dados para gerar o negócio de saída descansado no primeiro que é adequado para processamento a jusante sem intervenção manual . Então, nesta demonstração, assim que eu projetei um pipeline de dados de exemplo usando big e hive para processar dados de fluxo de cliques . Em primeiro lugar, vamos carregar amostras de arquivos de bloqueios em sua defesa. Em seguida, maior script irá transformar esses dados em uma forma estruturada que será então usado por alta para análise posterior automatizando dados por plano. Como acabamos de aprender, esse pipeline de dados é um processo automatizado que é executado em intervalos regulares para que você possa automatizar todo o pipeline de dados chamando seus scripts e trabalho Cron. Cron é um trabalho baseado em tempo, Sindelar em sistemas UNIX onde o usuário pode chamar o rescript. Então é assim que podemos automatizar todo o pipeline de dados em ha devido aos dados do processo. Vamos dar uma olhada no simples mais tarde em seu esquema, que estaremos usando nesta demonstração que t multa produto. Ele inclui produtos de categoria fora e sua correspondente você está mal em. Este é o skim fora da categoria fogo e você está em usuários. Este arquivo conteúdo detalhes do usuário visitados no site e este é o esquema. Ele contém o usuário i d data de nascimento e registros de gênero. Este é semi estruturado logs do site que inclui dados como tempo usuário I D. I P. Endereço em basicamente clique em dados de fluxo. Ok, então primeiro, todos nós vamos carregar o arquivo de fechaduras em sua defesa. Em seguida, vamos processar os dados semi estruturados em um estruturado usando pig on irá despejar os dados do processo em outro diretório em sua defesa. Depois de processar os logs pelo pig, os dados do processo seriam assim. Ele conterá a data do registro. I p u r l usuário, I d cidade propriedade rural. Em seguida, vamos projetar uma tabela externa em mais alto você para ler este processo. Dados para análise posterior desde alta fornece J. D B, C ou D básica uma atividade para que possamos conectar algumas ferramentas de regulação como Tab você etcetera para visualizar e analisar dados. Há uma atribuição para você neste pipeline de dados. E a atribuição é que você tem que juntar todas as três tabelas que são processados logs, produtos e usuários para criar uma nova tabela plana em alta. E aqui eu lhe dei a mão como juntar as mesas naquela mesa esquimós deve ser assim . Deve contestar. Usuário, i d é gênero, país, país, Cidade Estado Data de registro I p categoria de produto endereço abaixo de você é Uma vez que você criar a tabela, você deve ser capaz de responder a estes Kuwaitis difíceis I produtos visitados pelos usuários. Mas você conta os usos, mas você conta as futuras estações por subproduto de gênero Bajeux. Para não esconder o dedo do pé do Quartey. Responda a todas essas perguntas nestes dados de avião, eu vou estar processando dados ainda grandes sobre Lee e o resto deve ser feito por você, que tem sido artista na tarefa. Agora vamos ver como podemos processar os logs do site usando o porco. Eu comecei a minha caixa de areia. Deixe-me Então você o local do arquivo onde eu carrego os arquivos de bloqueio. Este é o local. Este é o site Dados de registro sobre os produtos, dados e dados de usuários. Deixa-me mostrar-te o maior guião, que usarei nos registos anteriores. Então, na primeira relação, estou lendo o líder deles de sua defesa. Na segunda relação, eu estou nomeando os Collins na terceira relação. Estou fazendo maiúsculas para um estado e país e finalmente armazenando os resultados. Vamos rodar este kuwaiti em grande. Deixe-me passar por cima de sua cabeça e eu vou para o grande Grand Cell que começamos a ler por alguns segundos. E eu vou basear o Macquarie aqui. Agora ele analisará os registros e armazenará os resultados em sua defesa. Vamos ver que são colocados em algo para furar algum dia. É doce e, em seguida, e o trabalho é bem sucedido. Vamos ver. Não há. Eu devo ir ao arquivo, irmão Andi. Está bem. E um pouco de Boluda. Grandes troncos de zumbido. Então agora este está em uma forma estruturada. Esta saída fora do maior script. Isso é tudo para esta palestra indo completar sua tarefa hoje. Obrigado. 27. Data Lake: Olá. Bem-vinda de volta. Esta é a sua última palestra das escolas. Espero que aprenda Journey tenha sido ótimo até agora. Bem, meu principal objetivo fora desta palestra é dar a vocês uma idéia sobre como diferentes empresas estão adotando a arquitetura de dados moderna que é digitalmente e como ela pode dar mais valores para as empresas. Ben Tahoe City ou James Dixon é creditado por cunhar o termo dados Lee, como ele descreveu, em seu país bloco. Se você pensar em um Data Mart como um banquinho de água engarrafada limpa e Paquistão uma convenção estruturada para 80, o Data Lake é um grande corpo fora da água. Em um mais naturalista o conteúdo do data lake streaming de uma fonte para preencher a perna em vários usuários fora do lago pode vir para examinar mergulho ou tirar amostras, descrição de dados e desafios. Crescimento exponencial. Uma idade estimada de dois pontos em uma mordida fora de dados. Em 2012, espera-se que cresça para 40 Jet permaneça até 2020 85% desses dados. Espera-se que o crescimento venha de novos tipos, com os dados gerados pela máquina a ser projetado para aumentar 15 X, mas 2020 s para i. D.C. D.C D.C Natureza variada. Os dados de entrada podem ter pouca ou nenhuma estrutura ou uma estrutura que muda para frequentemente para criação confiável do Esquimó no tempo fora em apenas valor em volumes altos, os dados de entrada podem ter pouco ou nenhum valor como indivíduo ou um pequeno grupo de registros. Mas grandes volumes e perspectivas históricas mais longas podem ser inspecionados quanto a padrões e usados para aplicações analíticas avançadas. Assim, o objetivo da oferta Data Lake é coletar tudo. Nosso Data Lake contém todos os dados, ambos brutos. Então digamos durante longos períodos de tempo, bem como qualquer processo de mergulho de dados em qualquer lugar. Nosso Data Lake permite que as urgências enormes em várias empresas, unidades para refinar, explorar e enriquecer dados em seus termos. Acesso flexível. Nosso Data Lake permite vários padrões de acesso a dados em uma venda, lote de infraestrutura, pesquisa on-line interativa na memória e outros mecanismos de processamento. Agora vamos entender como a abordagem Alec de dados é diferente da abordagem de data warehouse tradicional . Em nosso ideal versus a palestra, vimos que, em dados tradicionais, os dados abordagem de armazém são coletados de diferentes fontes transformadas por ele processará e depois carregados para o data warehouse. O armazém de dados foi capaz de armazenar dados da estrutura Onley. Não foi capaz de armazenar quaisquer dados semiestruturados ou não estruturados. Também vimos suas várias limitações no link de dados da parte de design. Como o fornece uma escala de baixo custo de abordagem para armazenamento e processamento de dados, vez que ele foi projetado para ser executado em grandes números fora de servidores de commodities. E também vimos em nossas palestras anteriores, isto é, defesa pode restaurar qualquer tipo de dados em qualquer tamanho fora de dados. Então seu grupo se tornou a espinha dorsal fora de vazamento de dados são digitalmente captura tudo que todos os dados capturados estão em sua ou não é forma bruta ele. E desde que seu Duque tem muitos motores de consulta como Hi Paige Mahat etc. Então você é apenas algo que eles podem vir para examinar mergulho para obter qualquer percepção. Além disso, Hadoop para que atua fornece fácil integração com qualquer outro abs que está fora. Como fazer isso? Nosso data lake pode oferecer o máximo de escala e dentro com possíveis fricções e custos de Louis. Então, quem diferenciar o nosso armazém de dados em dados como podemos ver armazém de dados, estos Onley estruturado ou processar dados Muito um banco de dados tarde, qualquer tipo de dados. Em sua função original, antigo armazém de dados é um esquema na direita vários data lake dá a capacidade off Eskimo em leitura por causa do motor principal viciados Hadoop Armazenar enormes volumes de dados é caro. No armazém de dados tradicional vários data lake é projetado para armazenamento de baixo custo. Um data warehouse não é tão flexível quando comparado com um pouco cedo Um data lake é mais flexível em termos de tudo. Um data warehouse é usado principalmente por profissionais de negócios, enquanto nosso segmento de dados é usado principalmente por cientistas de dados. partir de agora, com isto, vou encerrar a minha palestra. Espero que ache que a escola é útil. Desejo-lhe tudo de melhor para a sua carreira em big data. Agradeço se você deixar seus comentários e comentários. Obrigado por levar as escolas. Tenha uma grande viagem pela frente.