Arquitetando soluções de Big Data - casos de uso e cenários | Kumaran Ponnambalam | Skillshare

Velocidade de reprodução


  • 0.5x
  • 1x (Normal)
  • 1.25x
  • 1.5x
  • 2x

Arquitetando soluções de Big Data - casos de uso e cenários

teacher avatar Kumaran Ponnambalam, Dedicated to Data Science Education

Assista a este curso e milhares de outros

Tenha acesso ilimitado a todos os cursos
Oferecidos por líderes do setor e profissionais do mercado
Os temas incluem ilustração, design, fotografia e muito mais

Assista a este curso e milhares de outros

Tenha acesso ilimitado a todos os cursos
Oferecidos por líderes do setor e profissionais do mercado
Os temas incluem ilustração, design, fotografia e muito mais

Aulas neste curso

37 aulas (5 h 21 min)
    • 1. Introdução ao ABDS

      4:26
    • 2. Soluções de dados tradicionais

      11:34
    • 3. Soluções de Big Data

      7:57
    • 4. Tendências atuais de Big Data

      8:33
    • 5. Introdução às soluções de Big Data

      11:53
    • 6. Modelo de arquitetura

      6:22
    • 7. Opções de introdução à tecnologia

      5:32
    • 8. Desafios com tecnologias de Big Data

      8:55
    • 9. Adquirir visão geral

      9:42
    • 10. Adquirir opções SQL e arquivos

      8:23
    • 11. Adquirir opções REST, transmissão

      8:28
    • 12. Visão geral de transporte

      9:55
    • 13. Opções de transporte SFTP e sqoop

      11:44
    • 14. Opções de transporte Flume e Kafka

      10:01
    • 15. Visão geral de persistência

      9:58
    • 16. Opções de Persistência RDBMS e HDFS

      11:36
    • 17. Opções de personalização Cassandra e MongoDB

      11:48
    • 18. Opções de Persistência Neo4j e ElasticSearch

      8:53
    • 19. Módulo de transformação

      10:39
    • 20. Options e SQL de opções de transformação

      11:12
    • 21. Opções de transformação Produtos de faísca e ETL

      11:42
    • 22. Módulo de relatórios

      8:58
    • 23. Opções de relatórios Impala e Spark SQL

      7:17
    • 24. Opções de relatórios de terceiros e elástico

      5:53
    • 25. Visão geral de análise avançada

      10:01
    • 26. Opções de análise avançada R e Python

      7:27
    • 27. Apache Spark e software comercial de análise avançada

      6:33
    • 28. Cópia de segurança de dados corporativos do caso de uso 1

      6:17
    • 29. Uso de arquivo de mídia de caso 2

      7:36
    • 30. Caso de uso 3 análise de sentimento de mídia social

      9:50
    • 31. Detecção de fraudes de cartão de crédito caso de uso 4

      10:00
    • 32. Análise de operações de caso de uso 5

      11:28
    • 33. Recomendações de artigos de notícias do caso de uso 6

      7:54
    • 34. Caso de uso 7 cliente 360

      9:47
    • 35. Carro conectado com caixa de uso 8 iOT

      8:05
    • 36. Transição para dados grandes

      3:23
    • 37. Observações de encerramento ADBS

      1:38
  • --
  • Nível iniciante
  • Nível intermediário
  • Nível avançado
  • Todos os níveis

Gerado pela comunidade

O nível é determinado pela opinião da maioria dos estudantes que avaliaram este curso. Mostramos a recomendação do professor até que sejam coletadas as respostas de pelo menos 5 estudantes.

243

Estudantes

--

Sobre este curso

O fenômeno de Big Data está varrendo em todo o cenário de TI. Novas tecnologias nascem novas formas, novas formas de analisar dados são criadas e novos fluxos de receita de negócios são descobertos todos os dias. Se você estiver no campo de TI, Big Data já deve impactar você de alguma forma.

Construir soluções de Big Data é radicalmente diferente da forma como as soluções de software tradicionais foram construídas. Você não pode levar o que você aprendeu no mundo de soluções de dados tradicionais e aplicá-las em formato completo às soluções de Big Data. Você precisa entender as características de problema únicas que impulsionam Big Data e também se familiarizam com as opções de tecnologia sem fim disponíveis para resolvê-los.

Este curso vai mostrar como as soluções de Big Data são construídas costurando tecnologias de big data. Isso explica os módulos em um pipeline de Big Data, opções disponíveis para cada módulo e Vantagens, curtos e casos de uso para cada opção.

Este curso é ótimo recurso de preparação de entrevista para Big Data ! Qualquer pessoa - mais fresca ou experiente deve fazer este curso.

Nota: este é um curso de teoria. Não há programação de código/código fonte incluído.

Conheça seu professor

Teacher Profile Image

Kumaran Ponnambalam

Dedicated to Data Science Education

Professor

V2 Maestros is dedicated to teaching data science and Big Data at affordable costs to the world. Our instructors have real world experience practicing data science and delivering business results. Data Science is a hot and happening field in the IT industry. Unfortunately, the resources available for learning this skill are hard to find and expensive. We hope to ease this problem by providing quality education at affordable rates, there by building data science talent across the world.

Visualizar o perfil completo

Nota do curso

As expectativas foram atingidas?
    Superou!
  • 0%
  • Sim
  • 0%
  • Um pouco
  • 0%
  • Não
  • 0%
Arquivo de avaliações

Em outubro de 2018, atualizamos nosso sistema de avaliações para melhorar a forma como coletamos feedback. Abaixo estão as avaliações escritas antes dessa atualização.

Por que fazer parte da Skillshare?

Faça cursos premiados Skillshare Original

Cada curso possui cursos curtas e projetos práticos

Sua assinatura apoia os professores da Skillshare

Aprenda em qualquer lugar

Faça cursos em qualquer lugar com o aplicativo da Skillshare. Assista no avião, no metrô ou em qualquer lugar que funcione melhor para você, por streaming ou download.

Transcrições

1. Introdução ao ABDS: Oi. Bem-vindo a este curso. Arquiteto de soluções de Big Data. Aqui é o seu instrutor Cormorant. Em primeiro lugar, obrigado por se inscrever neste curso. Espero que este curso irá ajudá-lo em sua operadora. Vamos começar com qual é o objetivo fora do curso. O objetivo do curso é educar os alunos sobre soluções de big data, suas opções de arquitetura e tecnologia e ajudar a si mesmos problemas do mundo real. Se você olhar para todo o material educativo material de treinamento que você tem lá fora, você vai descobrir que há muito material sobre tecnologias individuais. Sem faísca Hadoop, Big Data, sem sequela, esse tipo de coisa. Mas não há. Não dificilmente. Você encontrará qualquer coisa que fale sobre colocá-los todos juntos para construir uma solução completa . Este foco central é um nível muito mais alto, não na integridade fora, como cada um funciona, mas sim você teria que olhar para cada uma dessas opções de tecnologia em levá-los e costurados juntos dedo do pé, criar uma solução de big data e resolver um problema real. Então, o que você realmente, ao fazer este curso, você aprecia a diferença entre as soluções de dados tradicionais e as soluções de grandes jantares. como eles são realmente diferentes uns dos outros. Você entende os modelos do que uma arquitetura de big data significa. O que é uma arquitetura de big data? Quais são as várias peças nesse quebra-cabeça? Em seguida, analisamos várias opções tecnológicas disponíveis para cada um desses modelos, que você pode escolher e escolher, e então você pode endireitá-las todas juntas para construir uma solução. Então você aprende sobre cada uma dessas opções sobre quais são as vantagens. Há vantagens no, mas você está usando essas opções de tecnologia? Você então implementa esse aprendizado em oito casos de uso do mundo riel Nós passamos de um caso de uso simples é casos de uso muito complexos tentando colocá-los as coisas que aprendemos juntos na construção de casos de uso corporativo. E então, em geral, você aprende, são obter uma visão geral sobre as várias melhores tecnologias de jantar lá fora. Geralmente, que vantagens, deficiências e casos de uso em que vai ajudá-lo em suas entrevistas de emprego, porque o tipo de perguntas que as pessoas normalmente fazem em entrevistas de emprego é para comparar e contrastar essas várias tecnologias e eu acredito que isso vai ajudá-lo a fazer algumas entrevistas. O que temos neste curso. Qual é a estrutura central com a qual começamos? A comparação de soluções de dados tradicionais foi suas soluções de big data. Analisamos nosso modelo de arquitetura sobre como uma arquitetura típica de big data foi definida . Então olhamos para vários modelos nessa arquitetura para cada um dos modelos que estavam olhando, O que é que nós vamos arquitetar na necessidade deste modelo? Qual recurso deve estar lá? Que tipo de coisas você precisa cuidar. E então, é claro, falaremos sobre as melhores práticas para cada um desses modelos. Em seguida, obtemos as opções tecnológicas para cada um desses modelos. Quais são as opções disponíveis no? Nós olhamos para as vantagens e deficiências de cada opção em Quando você usa qual opção? Infelizmente, no grande acessível, não há um tamanho que se adapte a todo o tipo de solução. Eso você tem que ir caso de uso a caso para obter como não são bastante opção e colocar lá e usá-lo. E então, finalmente, olhamos para a esquerda atrial e os casos de uso de preço para tipo de tirar as aprendizagens foram do material do curso anterior e eu jogá-los para construir essas soluções . E se você vai construir nosso nível de prancheta, como a solução parecerá cérebro tentando pegar todas as peças e esticá-las todas juntas, coisas não cobertas. Não há nenhuma programação abordada neste curso específico. Este é mais um nível geral ou curso de nível de visão geral que é mais em um nível de prancheta para descobrir como a arquitetura será semelhante em. Não vamos nos concentrar em nenhum tipo de programação neste curso, não estamos focados em construir uma solução de big data a partir do zero. Quando eu digo quando arranhar, significa que você não vai sentar e chamar toda a solução. Seu filho prefere que você vai estar olhando para a opção de tecnologia existente, levá-los e usá-los em um passe uma parte de sua solução. E esse eu. Hoje, quase todas as soluções de big data são numeradas. Esperamos que esta causa o ajude na sua portadora. Boa sorte em fazer este curso e também em sua operadora. Espero que este curso seja realmente útil para você. Obrigado. Tchau. 2. Soluções de dados tradicionais: Bem-vindo a esta palestra sobre como as soluções de dados tradicionais funcionam. Agora, quando você está tentando olhar para as arquiteturas de big data, uma das primeiras coisas que precisamos entender é como elas serão? As soluções de dados tradicionais são diferentes das existentes nos últimos 2025 anos? Eso Vamos começar local. Dê uma olhada em Water Dick. Várias características dos dados tradicionais Os dados tradicionais são todos sobre números. Foi aí que toda a indústria de computadores começou, como sobre olhar para computadores como missões de trituração numérica, um monte de aplicações anuais e um monte de obrigações que foram desenvolvidas nos anos 19 oitenta e 19 anos noventa, onde em desigual para milhares foram principalmente sobre contagem de números. Agora estamos falando sobre, ah, ah, número de negócios triturando coisas como, você sabe, finanças, vendas e folha de pagamento, onde há um monte de números que estão sendo criados, e esses computadores foram usados para crunch números. Alguns números de raios somam números e coisas assim. Estes dados tradicionais também tinha muito bem esquema diferente quando você disse esquema da estrutura dos dados é muito claro. Ok, há um 90 que é um número fora do tamanho 20. Há um nome fora, que é um personagem fora do tamanho 45. Você sabe, isso é muito, muito diferente esquema em. Normalmente, os dados confirmados para o esquema fora nosso para o qual ele foi preparado para Há bastante defender ligação entre os dados como a forma como eles foram capazes de ligar a dados ser nós. Por exemplo, estamos olhando para um par na folha de pagamento. Como é que a folha de pagamento está ligada a outros registos de funcionários para que haja uma identificação ligação de identificação. Falamos de todas essas chaves estrangeiras que estão acostumadas com Linda, que entre si é muito definido e bem definido. E tudo é conhecido antes do planejador ser colocado no lugar. Os atributos dos dados dificilmente mudaram. Já é meio que bastante achado, porque estas são aplicações bastante padrão. A Andi. Todo mundo sabe que tipo de isca disse nessas aplicações. Os dados que distorceram a obrigação não mudam o bebê. Normalmente, o estado são os sites dentro de uma empresa. Não havia conceito fora de uma nuvem ou qualquer coisa como um data center centralizado Mais tarde sites dentro da empresa, Rita pertence a uma empresa e recita dentro da empresa fora do curso. Quando a empresa cresce grandes números, como os bancos que estão em todo o mundo, você sabe que ele tem os dados podem se espalhar A Mas, normalmente, em uma empresa de tamanho médio, tudo está dentro e abaixo do preço em, talvez, em um único local. Há um local central de repositório de dados centralizado no qual todos os dados são armazenados. Há talvez talvez uma vez mais um enorme servidor que gerencia todos os dados em Dallas o lugar. Mas todos os dias que entra e é armazenado e o backup que costumava acontecer são esses off lane back, cidade de backup baseado no norte do estado Os melhores backups são feitos backups, e então ela armazenada em um lugar separado. As pessoas dos backups podem levar de tantas horas sempre que há que ser necessário. Então este é o tipo de como o tradicional mais tarde que parece e funciona como se eu fosse processamento de dados tradicional . Há uma distância muito pequena entre a fonte em uma fonte síncrona distinta. Estás a falar da U.Y. e do single a falar da base de dados. Então, a distância entre o U e as bases traseiras, onde é mais tipicamente os dados Hendry acontece e os data centers na forma como se associam nos mesmos centros de banco de dados. Então, tipicamente, é um fio de ligação. Normalmente, é um tipo de terra fora do elo. Os dados não é através do meu e tipicamente isso é muito pequenas distâncias entre a fonte eo coletor na transferência de dados é bastante instantâneo. Sabe, não é como se os dados tivessem que ser arquivados e movidos e, em seguida, encenar e viver assim . O fez os alunos dados foi um produzido simples e simples entre a UE ea base de dados. O banco de dados para o processador de dados de volta para a base de leitores, nosso banco de dados de formatura para o local de relatórios. Você sabe, polícia, distâncias muito pequenas, transferências instantâneas, dados movidos para o tribunal de requerimento ou processamento. Esta é uma grande diferença entre o processamento de dados tradicional e processamento de big data, onde os dados no banco de dados é trazido no modo de memória que em toda a rede para o aplicativo sete. E é o servidor de aplicativos que funciona nos dados. E, em seguida, uma vez que os dados são processados, os dados foram colocados de volta no servidor de banco de dados para história. Então isso é grande. Diferentes tamanhos de dados são pequenos. Eles são humor através do fio para o servidor de aplicativos a partir de dados de processo. validação acontece na fonte quando ele disse que a revelação aconteceu. A fonte, você sabe, tipicamente, os dados nos tem e sobre o próprio em que os dados entram nos sistemas através de um você eu alguém sentado lá e inserindo dados através do U. Y no uber faz sua validação nos dados para se certificar de que não há dados ruins que está entrando no sistema, Por exemplo , você sabe, há um campo chamado País são Normalmente há uma lista suspensa de países que você não pode ir para o país errado e errado, realmente, para o país. O mesmo com, digamos, alguém está em um encontro. A data é validada no nível de entrada que você tem em vigor para assassinato no qual a data tem ser inserida. Alguém colocou o lance errado errado errado. Você vai ser jogado? Exceções que o estado não aceitou, então você precisa ter certeza de que os dados entram no sistema de forma limpa. Então não há dados incompletos. Não há dados secundários em alguns campos. Um obrigatório nos EUA o U. S vai gritar produzindo unidade I entrou neste valor. Caso contrário, não vou salvar o dia. Assim, olhamos para um sistema tradicional que não emite incompleto, ultrapassado que eles não voltaram aos pés. Quando você está olhando para soluções de big data, elas são muito como uma compilação para trituração de números? É por isso que eles vieram. Houve um número de missões de trituração. Eles eram ruins, um cruzamento de texto, mas o excelente número de missões trituração. E eles ainda são um grande número de missões trituradoras. Mas ser perguntado, não bater na arte da Emma em termos de número, capacidades do país. Ah, pré resumido e pré dados do computador. Tradicionalmente processamento de dados. Você ama muito fora pré-resumido oito médias. Você tem todos esses dados de transação, e então você pré-calcular alguém e armazenar em tabelas resumidas. Metade da nossa família. Dificilmente alguém resumos diários, resumos anuais, resumos por departamento. O produto de alguém que conhecemos guardam todos estes pré computador e pré separados. Quando se trata de processamento de dados tradicional, relatórios é principalmente pré não pode quando você diz pré sinceridade já é relatórios pré-definidos, você vai para o nosso sistema de relatórios que os repórteres estão relatando cinemas como 50 relatórios já . Lá você vai para os perímetros que vai devolver esse relatório em um formato pré-definido que você não pode adotar, normalmente determina qual antigo você deseja que os relatórios sejam. Claro, há insistência veio overplayed, que permitem que você crie o seu próprio relatório flexível ah que a maioria dos relatórios foram muito pré enlatados. E quanto às soluções tradicionais? Arquitetura? Então, quando você está como um arquiteto tentando projetar uma solução tradicional oca, eles pareciam geralmente há um único armazenamento de dados centralizado no meio onde todos os dados são armazenados. Há tipicamente o que você chama de arquitetura de três pneus de toda a imagem ato. Onde há uma camada de apresentação, há um negócio Lee, e há uma camada de dados. Construa. Arquiteturas normalmente não têm uma apresentação que pode haver, mas não há. Não muito simples, como você pode ver, um sistema de banco de dados attricional que é mais deixar tribunal. Não, você vai comprar cinco produtos diferentes e tentou combiná-los. Esse é um enorme tribunal de seu retorno do zero, como Uriel, algo como Java R C plus, ou algo como fazenda de artigo para o barco para construir um pedaço moral do tribunal a partir do zero você comprar um produto do mercado, e esse produto é geralmente um único produto que faz tudo para você como s um P R Artigo finanças. Eles geralmente são produtos monólito, um produto de calçado que você compra e implementa, e faz tudo por você. Não há quase nenhuma integração entre os produtos, mesmo que a integração seja que é através de interfaces personalizadas. Padrão a p ace Não existe. Os zeladores Anders não existem. Eso qualquer um quer integrar o produto A com o produto que normalmente requer um projeto de integração personalizado . Quantas vezes você quer mudar a solução? É funcionalidade com dados. Ele precisava de projetos de ciclo de vida completo. Não, há sempre um começo lavando um dodô do que imaginamos uma filha de um dedo do pé maravilha. Continuamos e há projetos sendo executados lá. Cada projeto em seus requisitos. É sobre negócios e documentos. Está no planejamento do projeto, execução, rastreamento, consertando tudo. Então, esta é uma arquitetura tradicional são soluções, arquiteturas, solução de dados, arquiteturas, web. Quais foram os desafios que as pessoas enfrentaram em relação aos dados tradicionais. Um dos maiores desafios é que as tomadas não podem ser processadas. Um alto é que não pode ser processo de forma econômica. As soluções de dados tradicionais não podem lidar com nossos dados de bebê incompletos. Eles assumem que à medida que os dados entram no sistema, os dados já estão completos sobre ele já estava matando em seu curso fora. Alto custo de apedrejamento enviado por SMS. Se você olhar para qualquer um dos rtb meus sistemas, você vê que normalmente o custo do próprio sistema varia em termos de quantidade de dados que você vai começar. Texto ater leva um monte de espaço combater os números Andi custa em termos de hardware e software quanto a quanto dinheiro vai demorar para produzir. Ficou ao lado. restauração do backup de dados é demorada. grandes quackers eram demorados. Você sabe, a maneira tradicional é que eles devem funcionar. Isso está bem? Você tem de volta um processo que a França todos os dias tem coisas como backups incrementais . Mas sempre que você entrar na restauração confiável, o processo de restauração é sempre demorado. Dar a você os dados da loja. Há altos custos de gerenciamento e licenciamento associados às soluções de dados tradicionais. Normalmente, quando você está tendo um RBB Amos. Tem seus próprios custos de gestão e licenciamento. Se você está comprando um produto fora da prateleira como o mais rápido possível ou qualquer um desses ah tipo de soluções e r P , eles têm um monte de grande, grande custo associado a eles. Você precisa de pessoas treinadas em todas as soluções para fazer as coisas por você. E, claro, as alterações de esquema levam um tempo significativo. Se você quiser adicionar uma coluna dedo uma tabela em um sistema de produção que já tem, ah, milhões de linhas de dados e tudo o que passa por um monte de processo antes que você possa ir em um fazer essas mudanças. Então, há muitos desses desafios que exigem uma nova parte deles para entrar. É por isso que o Big Data entrou. Portanto, estes são os desafios tradicionais de dados. Há, claro, mais. Quero dizer, você pode inventar muito mais. Eu só carta. Ah, alguns significantes aqui. Espero que o selecionado tenha sido útil para você. Obrigado. 3. Soluções de Big Data: Bem-vindo a esta palestra sobre como as soluções de big data se pareciam e como elas se acumulam contra as soluções de dados tradicionais? Bem-vindo a esta palestra sobre como as soluções de big data se pareciam e como elas se acumulam Então vamos começar com o que é big data. Nós continuamos ouvindo muito esse termo. Big data. O que isso significa exatamente que há um monte de definições são muitas definições sobrepostas sobre big data. Mas vamos continuar com o que a Gartner disse sobre big data. Big Data é alto volume alta velocidade em nossos ativos de informação de alta variedade que exigem formas inovadoras e econômicas de processamento de informações que permitem melhorar a tomada de decisões e a automação de processos. Há um monte de coisas que estão acontecendo em um forro, uma frase, então vamos começar a quebrá-lo. Então, quando você olha para grandes dados estavam primeiro falando sobre onde eu d de dados, não apenas números que você está falando sobre texto, vídeo, áudio e um monte de dados de missão. Além disso, há volume. Há muito volume de dados. Há volume no intervalo de terabytes são petabytes de dados que estamos falando. Neste caso, há velocidade, a velocidade em que os dados estão entrando no sistema. Normalmente, medo da velocidade não está sob seu controle porque você não está controlando o número de vocês sábios e quais pessoas estão entrando e inserindo dados. Isso geralmente é conduzido por missões por fontes que não estão sob seu controle de cores. Então a velocidade não está sob seu controle e você tem o plano para isso. Há veracidade da data média é outro Baylies inocular, sujo, sujo, incompleto e unidade para ser capaz de Ah, sentar e tirá-lo Todos esses tipos de coisas antes que você possa usar os dados em um A muito bom previsível. Então vamos começar com o que levou ao big data. Por que todo esse conceito de big data veio à tona? O que desencadeou este? A primeira coisa é a adoção da nuvem. A última coisa começou a mudar para a nuvem da quantidade de dados com que as pessoas têm que lidar . Não multiplicado porque uma implantação de nuvem normalmente é suposto finais múltiplas empresas que uma mídia social que levou a uma explosão de dados que é criado na Web. Há muitas pessoas tweetando que as pessoas do dólar colocam em comentários e, em seguida, isso está criando muitos dados de mídia social. Há uma explosão móvel. Cada debate móvel se torna uma interface de usuário na qual os dados são gerados e todo mundo está fazendo algo em seus sistemas móveis que precisa ser capturado e analisado. Então isso é um monte de dados chegando que são dados de dados gerados por máquina que não são inseridos pelos usuários, mas criados por emissões. Normalmente, rastreadores são sensores que estão analisando dados, analisando algo, lendo algo a cada nanossegundo e gerando um registro cada tipo de coisa de nanossegundos . E isso está criando muitos dados de missão que estão chegando em todos esses rastreadores, os Fitbits, muitos sensores e aviões e sensores em todos os lugares em lojas e carros e serve em qualquer tipo de missionário eletrônico gerando muito de beta. E, claro, esse é o gerenciamento orientado por dados que chegou. Normalmente, as pessoas tomam decisões com base na intuição, mas não, elas querem analisar os dados e usar os dados para tomar suas decisões. Portanto, geralmente há uma necessidade de mais e mais análise de dados. Mais e mais análises sobre novos tipos de dados, um novo tipo de análise de dados que está impulsionando são dados geridos gerenciamento nos estados. Todos eles conduziram. Então, esse conceito de big data. Então, o que você define como um aplicativo de big data? Sabe, é um momento muito generoso e gentil. Todo mundo fala de suporte, mas, em geral, uma das seguintes coisas precisa ser verdade sobre um aplicativo de big data. Em primeiro lugar, estamos falando de dados em termos de terabytes de petabytes. Deve haver pelo menos mais de uma fonte. Nossa forma de dados melhores gerou mais de uma alma desde em termos do sistema e uma forma, ou que as apostas são seus números de vídeo que tipo de coisa. Estamos falando de muitos dados de texto ou mídia? Números do Nordeste. Estamos falando de enormes cargas de processamento, e quando os dados estão em terabytes e pré-debate, você está tentando apostar os dados e fazer alguma transformação enorme para os Raiders. Você está falando de grandes senhores de processamento que não vai caber em apenas um processador são apenas alguns conjuntos de processadores. Há processamento de fluxo em tempo real que está envolvido, que é depois que os dados estão entrando no sistema. Você está processando alguns e gerando alguns dentro, disse oferecido. Isso é avançado. Outra pila. Quando eles falam sobre avanço em nossos pescoços estavam falando sobre aprendizado de missão. Portanto, há aprendizagem de missão envolvida no tempo tentando analisar dados e chegando com alguma visão sobre os dados. Há uma grande pegada de implantação em termos fora de casa com o hardware que seria usado . Normalmente, estamos falando de Ah, algumas centenas, alguns milhares de servidores fora quando você está tentando usar um grande no aplicativo que está mudando usuários requisitos pessoas. Seus requisitos genuínos são muito fluidos e flexíveis em termos do que eles não vão fazer porque nos antigos líderes tradicionais e os dados são corrigidos. Então, o que os usuários esperavam fora dos dados também foi corrigido. Mas neste caso, os dados estão mudando. É imprevisível como em relação aos dados irá aparecer. Então, como os usuários estão olhando para os dados eles percebem que há um novo tipo de análise necessária porque os mortos estão mostrando algo novo e eles querem fazer algo diferente nos cães de dados da análise. E eles não podem sentar e esperar mais seis meses para você fazer um novo relatório. Portanto, há uma constante mudança requisitos do usuário evoluindo requisitos do usuário com base no que os dados estão dando a eles. E, claro, esses grandes dados na aplicação da planta devem estar relacionados. O Lee. Mais barato para construir em Brandon Manter Então, há outras características nascidas fora para aplicação de big data. Então, como fazer para aumentar os produtos no mercado de ações? Há muitos produtos de big data ou tecnologia que estão chegando ao mercado. Normalmente, eles são todos surf aberto. Isso é muito bom, porque isso reduz significativamente seus custos, quase zero. Eles suportam integração aberta, tecnologias de digressão aberta e integração aberta. AP um conjunto de padrões em vigor que facilita a integração com qualquer outro produto. Eles têm recursos de interoperabilidade muito altos, isso é fácil para você obter algumas competências lá dentro. Sabe, ficar burro e espetá-los seria fácil. Há muito constantemente evoluindo bom e ruim porque eles estão constantemente evoluindo porque é um novo produto. Os produtos acabaram de receber um novo no mercado. Eles ainda estão construindo capacidades. Eles estão em constante evolução. Bom, porque você está recebendo um monte de novos recursos ruins porque por lá cada versão tem mudanças significativas e você foi muito difícil de mantê-los em dia. Estes são também eu chamaria de imaturo quando digo imaturo, imaturo. Não é uma coisa ruim em que simplesmente significa que o produto ainda está em evolução. Os produtos são produtivos. Ainda não descobrir o que é exatamente suposto fazer. Isso é o que quando você diz em amadurece, você sabe, você começa com o novo conceito. Você começa a construir recursos e, em seguida, usar o início pedindo novas criaturas e você ainda não está . Quero dizer, não é como um produto como o nosso habemus dizemos. OK, a Artemis deve ter essas características. 12345 Considerando que como um big data positivo parece? Como, que faísca deveria fazer nossas águas. Como é que eu vou fazer isso? Acha que as pessoas ainda estão debatendo? Essa é a água deve ser constantemente adicionando recurso. Eles estão mudando características e todos os tipos de coisas estão acontecendo. Então é isso que você chama de imaturo que estes são os produtos de big data empilhados contra soluções de dados interacionais. Obrigado 4. Tendências atuais de Big Data: Oi. Bem-vindos a esta palestra sobre Colin. Tendências de big data. Esta é a sua câmera de instrutor. Então vamos falar para ver o que está acontecendo no ano. Mundo de Big Data. Como o produto está se formando? Então a tecnologia é sábia. O que são eles? Olhe para as tecnologias de Big Data. Existem inúmeras empresas e projetos que estão hoje em cima de tecnologias de big data. Há muitas empresas chegando com uma variedade de novos produtos. Eles nem sequer são um Dato Justin nomeado ou 2.2 tipo de coisas. Um monte de produtos de incubadora que estão chegando e eles são todos principalmente código aberto foi apenas obtido porque, você sabe, é muito fácil olhar para eles. Check out, reino fora e experimentá-los em. Principalmente lá na nuvem focada. Eles são criados para a nuvem a partir do ponto de implantação a partir de um ponto de gerenciamento no qual foram para a nuvem. Muitas dessas tecnologias se concentram em uma coisa. Eles não vêm com a rua que faz. Um monte de coisas são são são oferta de produtos de pleno direito que eles se concentram em uma área específica em um problema específico e vir acima com o produto no dia normalmente têm interfaces abertas para integração. Então eles se concentram em uma coisa. Será que ele perguntou? Isso está bem? Você pode usar isso como um modelo em sua solução em. Podemos integrar muito bem com outros modelos são outras soluções no mercado. É assim que eles estão vindo. Um melhor exemplo de quebra é, se você olhar para a marca sem SQL, você sabe que não há ninguém nenhuma solução de habilidade que vai estar colocando todas as suas necessidades. Você sabe, cada um de nós é sua solução aborda diferentes casos de uso em seu muito específico para o caso de uso e focado no caso de uso. Isso é o que eles têm tentado fazer, modo que está acontecendo em todos os lugares. Você sabe que são inúmeros produtos, inúmeras empresas chegando sobre os produtos, e você não sabe qual deles realmente escolher. Não são nenhum deles que é realmente maduro para adoção. Há um crescimento fenomenal na adoção quando sua adoção, essas novas tecnologias observadas por outras novas empresas de tecnologia que acabou. Isso acontece, alguém vem com Huddle on Dope é usado como uma base para chegar com outros, particularmente sob um conjunto de empresas, é muito fora de adoção dentro das startups de Eles pegam uma tecnologia e tentando inventar outra tecnologia, e isso está acontecendo. Há uma série de alternativas imaturas e comer segmento novamente e dizer medida madura. Não é necessariamente, não é. Não é uma coisa ruim. É apenas evolução do produto. E ele Qualquer produto novo que entra no mercado e a nova tecnologia que entra no mercado passará por um ciclo de maturidade. E atualmente muitos desses produtos estão em um nível imaturo. Eles não estão em um nível maduro. Isso é o que significa. Então, o que está acontecendo nas organizações de produtos de software quando é um produto de software? As organizações estavam falando sobre as empresas que produzem software são vir acima com produtos auto-direito como a Microsoft, por exemplo, a Apple contando sobre as duas principais empresas do mundo. Mas muitas empresas gostam disso. Então, o que eles estão fazendo? Novos produtos. As minas estão dirigindo novos produtos futuros, modo que é nuvem de mídia social móvel. Estes estão gerando novos recursos no produto. Todo mundo quer ser habilitado para a nuvem de mídia social habilitado para dispositivos móveis, e isso está gerando um monte de recursos de produtos dentro de suas organizações. E como você sabe, todos esses caras geram muitos dados, e é isso que eles precisam lidar. Big data é considerado necessário para economia de custos. Normalmente, qualquer um desses produtos de software que você verá que eles exigem um banco de dados em sua base vem com um monte de custos. Eso eles estão tentando usar tecnologias iniciantes porque eles são de código aberto, tomar e tomar tecnologias de big data e realmente envolvê-los no produto, oferecendo quase nenhum custo. Então eles estão tentando olhar para o big data como um recurso de economia de custos ah dentro do produto. Em vez de ter que colocar em dados tradicionais com soluções. As pessoas estão pedindo flexibilidade para adotar recursos analíticos dentro de seus produtos. Então, qualquer produto no mundo precisa de algum tipo de análise fora para ele. Tudo bem, então eles estão tentando criar capacidades de análise flexíveis que exigem esquema flexível . Além disso , um exemplo simples. Vamos começar com seu sistema operacional. O sistema operacional gera um monte de logs, logs destruídos alerta, e se você quiser coletar esses logs e alertas de nossos PCs assim Maney são tantos laptops e obtê-los entender lugar colocando no laço como em direção está indo um que precisa um monte de recursos de análise obscura, bem como recursos de big data. Todo mundo quer adicionar recursos avançados do Alex em seus relatórios para a solução. Então, começa com se você está percebendo a realidade do setor financeiro, você queria usar os dados para prever algo. Se o seu ligamento você está fazendo produtos de hardware ou produtos de software, você sabe que há também a necessidade de você. Obter um log de várias implantações e analisá-los e tentar prever falhas. E eu vou tentar prever qual sistema é provável que falhe e, em seguida, ir corrigi-lo antes do rosto e muitas coisas como esta acontecendo em termos de análise avançada, também em cada um dos produtos de software. Agora vamos olhar para o outro lado do mundo, que é a empresa idee idéias de empresa em seu preço de documentário. E estávamos falando de uma empresa que não é principalmente uma empresa de computadores. Quando você diz que é um banco é um negócio, algum outro tipo de negócio, certo? Andi, eles são tudo que essas empresas têm dentro deles, e o departamento de preços até chamá-los de departamento I D e um E, D. P ou o que quer que seja. As pessoas eram a cor do que está acontecendo dentro desses departamentos sobre big data. Então eles estão curiosos e assustados ao mesmo tempo. E eles estão olhando para o grande negócio porque essas organizações de ideias geralmente se movem em um espaço justo muito lento e estável. Eles não continuaram adotando o produto assim. Normalmente, eles passam muito tempo olhando para novos produtos. Doutor nova produção quando adotaram produtos produtivos, ficar em seu sistema por um longo tempo. Você não vai e adquire um novo produto porque sua consulta novo produto levaria cerca de seis meses. E depois disso eles desenvolvem uma solução sobre o produto e implantaram esse texto alguém para dois anos, e então a solução permanece lá, configurado por mais 10 anos antes de olhá-lo sob o novo produto. Então há um ritmo muito lento pensar, e agora eles estão olhando para o mercado qualquer coisa. Há tantas coisas chegando, e eles estão meio assustados com o que está acontecendo ao redor do mundo. Eles são obrigados a fazer cortar nuvem social e móvel mais tarde porque suas empresas, as organizações-mãe têm que estar envolvidos nessas áreas como um banco, por exemplo, hoje eles não têm uma opção. Eles têm que estar no mundo móvel lá para entrar na nuvem vai seu regular para o mundo das mídias sociais porque é onde os clientes estão. Então, como uma empresa de serviço idéias ou tem que também adicionar até todas essas novas fontes de dados, obter os dados e começar a analisá-los. Há competência para pressionar hoje para que os dados sejam conduzidos no mundo da gestão. Que este é o novo pretendido na gestão do rio é o novo em coisa e eu dados impulsionado, se não o seu tipo fora realmente velho. Isso é parte de um povo tem falado sobre. Então eles também estão em um relógio e esperar até que a tecnologia amadureça tipicamente, eo preço que eu idéia. As organizações não entram em tecnologias imaturas que normalmente esperam que as tecnologias amadurecam . Então há toda essa coisa sobre eles não querem ser o bode expiatório fora da cobaia para uma nova tecnologia que normalmente espera a lavagem para apodrecer ou três toto antes de começar adotar. Mas então o mundo está se movendo muito rápido. É aí que eles ficam curiosos e assustados ao mesmo tempo, porque eles não sabem a taxa por mais cinco anos. Coisas para ter certeza porque sua própria empresa não talvez eles com eles e seguir em frente para que se espalhou a sua dentro. Eles estão começando um monte de projetos de prova de conceito. É quando há uma enorme multidão fora da demanda por profissionais de big data porque todos querem entrar no big data. Eles querem começar alguns projetos e ver como o big data pode se encaixar em suas organizações . E eles também estão buscando mudar para a nuvem para fins de economia de custos. Isto é o que estamos a acontecer na Enterprise. Eu d mundo. partir de agora, a seleção tem sido muito útil para você. Obrigado. 5. Introdução às soluções de Big Data: Oi. Bem-vindo a esta palestra sobre um dedo do pé de introdução. Arquitetura da solução de big data Este é o seu instrutor Medo Comum. Então você acha que quer ser um arquiteto existente fora de nossa solução tradicional regular. Você é apenas um estudante tentando entender como as soluções de big data são projetadas? As soluções de big data são radicalmente diferentes das normais. Tradicionalmente, suas soluções sobre isso é o que vamos ver nesta palestra e como eles têm sido diferentes. Vamos começar com o que é um big data soluções são até mesmo uma grande data de aplicação ou se você quiser chamá-lo assim fora do curso, o objetivo de uma solução de big data é adquirir um assemble. Big data, big data sendo as definições que vimos antes dos quatro weise você vai estar olhando para dados de Eles eram fontes de nosso bebê A bagunça dedos lutadores planos para redes sociais para mobile on. Também vai ser fora de nossos vários formatos como se pudesse ser dados baseados em texto. Números de Jason, mídia , como, você sabe, ah Weiss arquivos de vídeo. Pode ser qualquer coisa nosso processo e fontes de dados persistentes, escaláveis e flexíveis. Então você vai ser processando e persistindo os dados em muito grandes, armazenamentos de dados escaláveis, como para menos flexível em termos de esquema, são flexíveis em termos do que você pode fazer com feito. Isso é o que vamos fazer em uma grande absolvição que você fornece para flexível. Abrir um P ace para sair é que é uma interface SQL ou ele vai ser preso. Você fornece alguns bons AP aberto é pelo qual as pessoas podem consultar dados. Então, uma coisa que vai se lembrar sobre as soluções de big data é que as soluções de big data realmente não se concentram na parte de entrada de dados nem possuem realmente os relatórios. Mas esses são a funcionalidade do usuário final foram em grande parte vai ser focado na parte de trás e nós para ter você obter os dados e mover que ele mover aquele grande trailer gigante em vários lugares e fazer as coisas. Fornecer recursos avançados de conhecimento X. Esta é a previsão de aprendizagem de missão, esse tipo de capacidades. Porque o big data sempre foi associado a este. Você pode começar que você fez. Mesmo se você começar sem essa capacidade, você vai praticamente perceber que perguntou, aquela coisa continua. Você deseja adicionar esses recursos porque todas as organizações hoje estão analisando análises avançadas para ajudar seus negócios. Andi usa tecnologias Big Gator para tricotar a solução do que construir terreno. Então ninguém sem empresas sentado no desenvolvimento de uma solução de big data de adultos por si só, se eles querem ir e obter algumas soluções que estão no mercado e meio que as fez juntos para criar uma solução sobre isso é o que Vamos ver um mais tarde nas discussões. Então, como um aplicativo tradicional é diferente de um aplicativo de big data? Vai ser diferente e uma grande variedade de maneiras. Agora, se você olhar para a aquisição de dados, como estamos silenciados, nossas aplicações tradicionais de entrada de dados pela Índia é que há um U no qual normalmente as pessoas entram, inserem alguns dados e podem ser coletados dessa forma, enquanto que em aplicativos de big data, ele está lá fresco de ser uma base em registros de missões ou mídias sociais. Agora, em grande também, você pode argumentar que os dados e há algum tipo de entrada de dados acontecendo possivelmente como alguém como a Amazon, por exemplo, há pessoas e transformou-os em um U. N. Mas uma grande melhor solução para você geralmente não compreende essas aplicações. Eles são normalmente considerados um aplicativo diferente. Os dados e o relatório sobre a parte de coleta de dados que normalmente eles chamam vai para um armazenamento operacional mais tarde são ao longo dos anos em suas soluções de big data começa a partir do ODS não realmente a partir da entrada de dados U I. Você é porque vocês não podem ter dados e eles não podem ser roubados em centenas de servidores. E as soluções de big data começam. Mas ele começa a coletar dados de centenas de servidores e, em seguida, começar a cruzá-los. Então essa entrada, vocês podem argumentar, faz parte da grande resolução. Mas é melhor mantê-lo separado porque as tecnologias envolviam o tipo de habilidades necessárias. As aplicações de Belinda são totalmente diferentes deste tipo de aplicações. Validação de dados em soluções tradicionais são tipicamente Jordan durante a entrada de dados, não, eles tipicamente têm A Você compra um formulário muito fora mais rápido, insira alguns valores e há validação acontecendo então lá, se você digite a data errada, você imediatamente solicitado ainda mais intacto impede você de qualquer coisa errada. Melhor, dando-lhe lista de valores são as opções para escolher, em vez de pedir para novo texto de forma livre, enquanto aplicação Big Dirt tendem a lidar com um monte de dados sujos porque é tipicamente livre um texto, e isso pode ser um monte de dados ausentes neles. Muitos dados que estão em um erro de ortografia, todos os tipos de coisas. Eso quando se trata de limpar um soluções de dados tradicionais não têm um passo de limpeza porque já é validado durante a entrada de dados, enquanto maior aplicação de dados está vindo do urso. Mas as redes sociais, há muita limpeza envolvida quando se trata de transformação. Solução tradicional. Aquela transformação de dinheiro. Normalmente, você faz com um pouco mais de ização de dados, você sabe, converter transação iguala dois registros e registros toe oferecido de alguém para alguém diário . Isso é o que você normalmente está fazendo em um aplicativo tradicional, enquanto que em um grande seu aplicativo, você está fazendo como números de textura, formação de conversão, aprendendo um enriquecimento de dados. Eles também fazem um pouco mais de ização que você faz um monte de trabalho de transformação e persistência de big data . grandes soluções tradicionais geralmente têm um único RBB Emma centralizado, e isso é o que eles normalmente fazem. Considerando grandes aplicações portão que eu distribuiria e um relógio poli persistente, que é que você usaria tipo diferente de armazenamento de dados. Você pode combinar e eu d ser uma obrigação sem banco de dados SQL. Tem o suficiente para conseguir as coisas que quer. Muitas arquitetura de aplicativos líquidos, uma solução tradicional que normalmente o que você chama três arquitetura inteira cansado . Ele é centrado na propriedade do lier de negócios, enquanto aplicativos intolerantes nosso data center e integração orientada negócios lee um aplicativo que é uma camada de negócios central para o qual os dados como humor. Então, ele foi movido do armazenamento de dados para a camada de negócios para processamento e, em seguida, de volta. Enquanto grandes pedidos, você não vai se mudar para lá. Isso é muito caro. Em vez disso, você está indo para mover o tribunal para usar seu acesso a dados finalmente e olhar para o uso de aplicativos tradicionais. Você está falando sobre análise de relatórios, relatórios de dados estatutários e coisas assim em grande. Você está cada pouco mais focado em, você sabe, vantagem, política, aprendizagem de missão, tipo de análise preditiva e prescritiva. Diferentes tipos de casos de uso, barco de tração, soluções tradicionais e grandes. É importante para você entender como eles são diferentes. Temos um arquiteto de arquitetura. Você vai olhar para eles de uma maneira diferente quando comparado a qualquer tipo de soluções tradicionais. Uma das maiores coisas que você vai estar focado é enfrentada ao olhar para big data. É essa diferenciação entre o radar histórico e o tempo real? Agora, tradicionalmente, se você olhar para um aplicativo comercial tradicional regular, o que acontece lá é você coletar dados apenas em tempo real, e então esses dados são usados para todos os tipos de fins históricos também. Mas dado o volume de dados que você está fazendo, lidar com, não é possível para você realmente fazer tudo em tempo real em uma solução de big data. Devido ao fluxo de dados que está sendo gênero, a carteira estava sendo gerada. Não é realmente possível para você fazer com a solução que processa cada pedaço de dados em três e encontrar porque isso é mesmo se você queria lá vai ser muito, muito caro porque você tem um design. Sua solução. Cuide da carga máxima. Isso pode ser muito, muito alto quando você está falando sobre “on”. Isso também ocorre porque em aplicativos tradicionais você tem algum controle sobre o fluxo de dados. Por exemplo, se você olhar para criar um aplicativo de contabilidade financeira tradicional normalmente entradas de dados feitas por usos. Isso é que normalmente é muito mais lento. E você controla o número de clientes, sabe? Certo, haverá 50 pessoas intimidando 100 pessoas inserindo dados a qualquer momento, Maxwell Lord. Enquanto Andrea, quando estamos olhando para as redes sociais, você não sabe quantas pessoas vão twittar sobre sua empresa e você não pode realmente controlá-la. Pode haver realmente picos em termos de quais dados estão chegando. Portanto, há uma diferença que você precisa reconhecer entre tempo real e histórico. Você pode criar uma solução que faça ambos ao mesmo tempo. Mas você sabe, isso vai ser muito caro na maneira que eu compararia isso como um tempo real mais tarde é como um carro esporte. Histórico mais tarde é mais como um caminhão. Eles têm funcionalidades muito diferentes. Sim, você quer combiná-los juntos do que isso significa que você está tentando construir um veículo que tem as capacidades de um carro esportivo na capacidade de um caminhão. E isso vai ser uma coisa possível. E mesmo que construa uma que vai ser uma refeição muito dispendiosa. Ótima. Então vamos ver como dados históricos e em tempo real a amizade entre eles. Um dado histórico é armazenado e encaminhado. Os dados em tempo real são transmitidos. A Irureta está a entrar. Você só, você sabe, sentando e ouvindo dados. E há muito Lord Historical. Você normalmente vai puxar o tempo de trilho de dados está sendo empurrado para você histórico. Mais tarde, você está realmente olhando para o final do dia de processamento ou o fim do nosso processamento como processamento em lote acontecendo, enquanto em tempo real, é até mesmo base, desencadeando os últimos equívocos acontecendo. As coisas estão sendo empurrados para você, e como eventos acontecendo, você tem responder histórico, em seguida, também falar você lidar com o registro completo em linha reta. Por exemplo, você está falando sobre a obsessão. Registro histórico é criado após a obsessão da grande incisão de um usuário é longo. Então isso é feito depois. Enquanto que em tempo real atualizações ao vivo como o usuário está clicando em todos os links no cume do representante, você vai ter um mesmo que há vida que Ricard está sendo mantido. Se você manter maravilha chamado para a decisão que você cria que ocorreu quando o perdedor se conecta e você estará continuamente atualizando os gravadores. As atualizações à medida que mais e mais ação está acontecendo do lado do usuário. Histórico, Sempre que há dados ausentes, você faz um editor completo republicar, você sabe, um tempo real. Este é sempre o delta que está sendo publicado. Você não publica os dados inteiros em vez de seus deltas de publicação e você não sabe como lidar com dados Delta histórico. Um dos requisitos será a ausência de perda de dados. Sabe, você pode ser lento, mas você não pode perder o tempo do trilho de dados. O requisito é que ele tem que ser rápido, mas pode haver uma possível perda de dados. Você vê, em tempo real, os dados só serão usados para alguns propósitos principais de relatórios. Então você pode estar olhando para um conjunto menor de dados e está tudo bem. Há um pouco de diferença em termos de números. Os dados históricos são usados para análises detalhadas, enquanto que o tempo real será usado para instantâneos são intradiários. Analytics são imediatos e leva o que você quiser chamá-lo quando se trata de Analogic avançado . Dados históricos foram usados para construção de modelos. Quando se trata de aprendizagem missionária. Latas históricas. Usado apenas para construção de modelos. Você constrói um modelo para prever algo em seu tempo Raider é usado na verdade para fazer uma previsão. Portanto, há muito diferente entre a forma como os dados históricos são criados são processados e usados uma vez que Israel data de horário. Então só para você ter uma imagem de como eles são diferentes uh, espero que isso tenha sido útil. Vamos continuar nos movendo no dedo do pé. Mais discussões como esta quando chegarmos à arquitetura. Obrigado. 6. Modelo de arquitetura: Oi. Bem-vindo a esta palestra sobre modelo de arquitetura para um soluções de big data. Nesta palestra, vamos ver como é a solução geral do Big Peter. E quais são os vários modelos em um grande obter uma solução? Onda. Estaremos trabalhando em detalhes sobre esses modelos nas palestras posteriores. Então vamos começar com quais são os vários modelos fora de um soluções de big data. Quais são os vários competentes agora no caso de soluções de dados tradicionais regulares? Quando você tem modelos fora, a solução posterior tradicional parece muito semelhante um ao outro em termos de, você sabe, Code Besar. Como os EUA pareciam isso é porque você constrói todos do zero. São apenas diferentes funcionalidades. E os tipos de aplicativos de big data fizeram nossas muitas diferenças entre o que esses modelos são em termos de sua forma, tamanho e desse tipo de coisas sobre. Você estaria usando tecnologias diferentes para cada um desses modelos. Então vamos começar com o primeiro modelo, que é o modelo de aquisição que questiona modelos. Job é toe conectar com suas fontes de dados em adquiridos os dados. Este foco aqui é conectá-los e obter os dados. E, claro, as conexões podem ser ambas. Lote mais estão transmitindo mais, e pode haver vários agricultores para são os dados que estão chegando. Em seguida, se trata de transporte Lee, e que é uma grande camada de transporte que está envolvido em big data. Porque a transpiração ist as fontes dos dados são muito longe entender de onde o tipicamente o destino é. Então isso é um esforço significativo de transporte envolvido no transporte através da Internet através de fronteiras organizacionais para ficar maior porque os pontos de coleta podem ser bastante numerosos, eles podem ser na Web, pode estar na nuvem, eles podem estar em diferentes data centers, e os dados precisam ser movidos. Este é um grande encontro ou não pequeno mais tarde, e isso tem que ser mais além de todos esses limites da organização para chegar ao destino . Em seguida, vem persistente, então persistência é armazenar dados sobre persistentes em uma resolução maior pode ser polic bloqueado, o que significa que você estaria usando diferentes tipos de dados. Então, sinto muito, dissipadores de dados. Eu só disse diferentes tipos de dados, então não vai haver apenas uma solução para todos. Infelizmente, veríamos nas palestras de ataque que não temos uma solução de um tamanho único se encaixa em todas as soluções. Portanto, você pode estar usando diferentes tipos de banco de dados para armazenar diferentes tipos de dados. Transformação é um processo longo gin wall obter os dados, limpar os dados, vincular, traduzir, resumir. Há muitas atividades acontecendo na camada de tradução de soluções de big data. Então isso é um significativamente em uma solução renovada. Depois há relatos. Então você, é claro, quer usar os EUA EUA O radar para algum tipo de você um relatório baseado e também você quer fornecer alguns A PSB H aplicativos de terceiros ou outros aplicativos podem obter e usar este dados. Então isso é um relatório mais negócio lá. E, finalmente, há um modelo de conhecimento avançado ex em análise avançada, mais negócio, outras coisas vela como perspectiva de aprendizagem de missão, as direções, ato acionável, proteções acionáveis e esse tipo de coisa. Agora, se você olhar para todas essas camadas, nem todas as camadas militares para uma solução de big data, isso depende do que você quer alcançar nas soluções de big data. Às vezes passou simples Às vezes é complexo. Então estes são os vários modelos que estão tipicamente envolvidos em uma grande solução. E finalmente, há um Lee de gestão. O trabalho da camada de gerenciamento é gerenciar todas essas coisas em torno da minha camada de gerenciamento. Há muito poucas opções disponíveis irritável em. Normalmente, todas as opções de tecnologia individuais oferecem alguns recursos de gerenciamento. E então você pode querer O construir uma camada de gerenciamento para obter todos os dados e apresentar seu crescente, os motivos de gerenciamento de força de dados. Então vamos olhar novamente como o modelo se parece. Então começamos com o modelo de aquisição, cujo trabalho é adquirir dados de onde quer que as fontes estejam. Depois há o transporte. Mais doulas trabalho era obter os dados e transportados de forma variada para chegar onde você está saudação. O destino está no destino. Sendo um armazenamento de dados grande no armazenamento de dados grandes, você vai estar fazendo festa feliz, persistente, possivelmente porque você pode estar armazenando-os em diferentes bases. Depois, há uma camada de transformação, que é uma série de trabalhos que podem fazer uma série de atividades. A popa está aí? Nós tipicamente os dados do persistentemente transformados os dados e colocá-los de volta na camada de persistência. Às vezes, a transformação também pode acontecer na própria camada de transporte. Pergunte jovem filme D. Outro também é possível se é realmente tempo tipo de sistema de dados. Mas normalmente, transe no modelo de transformação é um processo de lote sério fora que funciona com os dados na posição do jogador lido a partir Ele transforma ele voltou para ele. Então, claro, é claro, há a camada de gerenciamento que apenas gerenciar Lee que pode ir e gerenciar todos esses vários testados lá fora em um trabalho sobre eles e ver como eles podem todos se encaixar. Há uma camada de relatório cujo trabalho é com Do fornecer uma maneira pela qual os usuários podem olhar para os dados no persistentemente e fazer alguns relatórios. Tome um para obter os dados para fora em fazer alguns gráficos. Pode ser visual. As coisas são que é um AP para você tirar os dados do sistema. E finalmente há a camada de análise. Conhecimento avançado. Ex jogador que pode ler esses dados, executa um Biggs Manal e, em seguida, de volta para a mesma camada de persistência. Então há um monte estes são todos os vários modelos e eles começam a sua pesquisa. Uh, nosso diagrama mostra como o único tipicamente trabalhar juntos sobre isso é um normalmente, um sistema de big data vai olhar como Estes são os vários modelos. E dependendo do seu susto, algum modelo pode ser grande. Alguns modelos podem ser pequenos. Alguns modelo pode ser conhecido existência, mas este é o quadro geral sobre. Estaremos explorando cada um desses modelos em detalhes nas próximas seções. Obrigado. 7. Opções de introdução à tecnologia: Bem-vindos a esta palestra sobre opções tecnológicas. Durante todo este curso, vamos discutir muitas opções tecnológicas para a construção de soluções de big data. Vamos dar um pouco de interação como dedo do pé o que vamos fazer em torno daquela área. Então, sobre as opções tecnológicas neste curso específico, só vamos discutir opções populares. Isto é tão opções de dinheiro que estão disponíveis hoje. Muitos deles estão por vir. Muitos deles estão em zero russo, não 10 ou 2. Meio que todo mundo tem uma solução de big data. Onda , , há uma lista enorme e não queremos passar por cada um deles porque cornerback está bem, muito chato. Vamos olhar para apenas algumas opções populares, e isso vai ser não ficar no caminho. Pouca discussão, porque cada uma desta opção popular é ah curso em si mesmo. Se você quiser entrar em detalhes realmente sobre a fronteira, o que nós vamos estar focados em são as características salientes dessa opção de tecnologia específica . Nossos produtos vantagens e deficiências estavam tentando olhar mais em um motores comparativos para qual é a diferença é entre alguns produtos e onde eles são praticamente útil para ? Estamos focados nas vantagens, falhas e casos de uso em que vamos usá-los. Nós definitivamente aumentamos você para procurar outros recursos para vincular mais profundamente o aprendizado dessas tecnologias que não pensamos. Ok, vamos adicionar mais conteúdo. Mas então pensamos sobre o quanto mais conveniente vai ser, especialmente se isso vai ser um terry em bebidas alcoólicas. E não adianta chegar a uma palestra de 30 horas para tecnologias iniciantes. Soluções regulares. Claro que você sempre pode procurar outro é apenas o nosso dedo do pé. Saiba mais sobre essas opções de tecnologia. Há uma grande diferença na forma como as soluções tradicionais são construídas. Quer saber como as soluções de big data são construídas. As soluções tradicionais são tipicamente construídas a partir do zero. Estas são aplicações mais analíticas, como uma aplicação enorme que é homegrown. Você constrói toda a solução em casa. Você está pela exploração de um mercado quando o pai como tipicamente você comeu habilidade e sua pré solução de ar em casa, usando algo como formulários de artigo e coisas assim é você? Comprá-los de um fornecedor, mas vai ser um aplicativo monolítico. É tipicamente retorno e uma única linguagem de programação. Milhares de linhas de quartos. Ordens judiciais retornam no dedo do pé de aplicação monolítica. Construa tudo o que quiser. Normalmente, há um único dados centralizados armazenados nesta aplicação em que são tipicamente carro de alto desenvolvimento e manutenção. Este é um aplicações tradicionais têm bean construído até agora, seja por um único aplicativo ou por nosso por ele em. E isso faz tudo por você, do começo ao fim. Você sabe, isso é tudo. Até agora, os aplicativos foram construídos. Mas a nova maneira de fazer a grande data de um é montar e costurar maneira quando eles montar e costurar maneira em vez de tentar construir tudo a partir do zero, tentando montar peças fora tecnologias de várias opções, e Então você costura-os juntos. Uma das razões pelas quais você precisa fazer isso montar e costurar é que não há uma solução. Se encaixa. Todos são um só. Tecnologia se encaixa todo o resto hoje no tabuleiro, pode vir mais tarde, mas hoje esse não é o caso que você tem que escolher o melhor da raça para cada modelo que você tem, e então você montar e costurá-los. Então big data processando-nos para demandas comuns um uma capacidade de escala em uma escalabilidade maciça e confiabilidade nessa habilidade em ambos são coisas que não são que você pode construir facilmente a partir do céu. Eles realmente precisavam de alguma quantidade significativa de dinheiro e programação. Você sabe que essa é uma das razões pelas quais você não quer construir soluções de big data a partir do zero . Em vez disso, você quer se envolver em uma tecnologia que já está disponível. Mas o que já está disponível é que há uma série de produtos e tecnologias disponíveis hoje , especialmente como código aberto. Eu sei que é bom que eles são de código aberto, mas ao mesmo tempo há muitos deles. Há muitas opções. Muitas pessoas estão construindo soluções ativamente. Eso você tem um monte de opções lá em dias tipicamente suportam excelente integração aberta . É uma coisa boa que eles estão bem abertos. Essas tecnologias funcionam bem umas com as outras. Eles têm suporte um para o outro para que você possa facilmente esticá-los e Andi costurá-los juntos. Então, como você vai fazer e ir? Vá em frente, faça. Sua construção de aplicativos é que você está indo para ir em primeiro lugar, adquirir a competência mais adequada para sua solução. Você primeiro entender sua solução em sob seu caso de uso e, em seguida, chegar a uma solução e dizer que Estes são a melhor competência para a minha solução e, em seguida, você ir buscá-los em. Em seguida, você os estica e os integra para criar uma solução. Você obtê-los, costurá-los e integrá-los para criar uma solução. Desta forma, há um trabalho personalizado mínimo. Você quer se concentrar no trabalho personalizado mínimo em. Isso também significa que há um tempo de produção muito rápido. Projetos tão grandes não devem ser executados por dois anos ou três anos que deve haver mais como um projeto de dois meses o três meses. Mas o seu trabalho é criar uma arquitetura que use muita competência existente, puxá-los, uni-los e , em seguida, implantar a solução. E é assim que você vai conseguir um pouco rápido para os tempos de produção. Obrigado. 8. Desafios com tecnologias de Big Data: Oi. Bem-vindo a esta palestra sobre desafios com tecnologias de big data. Agora estamos sempre entusiasmados com esse grande portão do mundo em nosso tão novo e é um grande e todos nós queremos entrar no mundo e fazê-lo. Mas há muitos desafios quando se trata de usar essa grande Gator Technologies do ponto de vista empresarial sobre a Índia. Um ponto de vista, é o que vamos ver nesta palestra. O primeiro problema é que há muitas opções Agora, se você olhar para algo como um banco de dados em cada nosso bebê na maioria dos bancos de dados, há muito poucas opções. Certo é o artigo que é minha sequela. Há M. Uma sequela será Post Crest. Sabe, há poucas opções que foram claramente definidas. Ah, mercado para eles, mas Roma. quando o outro devemos sentir começou quando você voltar outro 2025 anos atrás, havia como 20 estranho talvez a maioria dos produtos naquela época que porque o campo era novo e todo mundo estava vindo tentando vir acima com o seu próprio ou eles não são bebê produto, mas então, depois de algum tempo, você sabe que eles vão se acalmar. Alguns produtos cresceram para se tornar líder de mercado. Alguns produtos foram para baixo eso coisas como, você sabe, usado para aqui sobre entrada e dizer abelhas. E então houve como se Hetch B e B tivesse seu próprio produto RD Bemis e filho em suas coisas e todos aqueles dias para baixo em Big Gators hoje, em um estágio bastante semelhante. Onde estão Daydreamers Waas 24 anos atrás em que é um novo campo. Todo mundo está tentando criar um produto, e há muitas opções neste momento para que todos estejam pensando bem, eu acho que eu posso fazer algo aqui. Deixe-me ir construir um produto que eu acho que vai ser novo e emocionante em todos os endereços de produtos e alimentação específica estreita. Não há ninguém que está construindo um produto, o que está tudo bem, vou cobrir toda a gama de big data. Outro Todo mundo está construindo um produto para um caso de uso específico para um modelo específico. Não há nada que esteja cobrindo tudo, e não há um tamanho único produto que se adapte a todas as situações. Neste ponto em diante, todos estão tentando expandir para cobrir outros casos de uso. Isso é o que normalmente acontece. E todo mundo começa com o produto que cobre um caso de uso específico, nosso domínio. E então eles estavam tentando começar a expandi-lo para cobrir todo o resto. Então esse é um estágio que muitos desses produtos estão em. O problema também é que as tecnologias de substituição estão sendo inventadas em um ritmo muito rápido como Se você voltar quatro anos de quatro anos atrás, você re médico sobre a democracia estava sendo o ser tudo e acabar com todo o processamento de big data. Mas ninguém descobre um vampiro, meu produtor em seus problemas, e eles inventaram uma faísca de festa. Agora todo mundo está tipo, OK, Apache faísca é aquela coisa na minha produção morrendo? E antes que você diga que há algo chamado Flink o melhor vindo ou para competir com faísca e sua perna segurar em um minuto, esta parte, que é bom. Mas por que isso é um caso? As pessoas estão tentando criar novas e novas tecnologias neste ponto que as coisas não estão se estabelecendo. Esse é um grande problema para o arquiteto de Big Data porque quando você está tentando encontrar uma solução, você quer uma solução lá pode ficar e trabalhar por mais cinco anos. Pelo menos você não vai construir uma solução que só pode funcionar por seis meses e, em seguida, dia eso você quer uma solução que pode funcionar por cinco anos ou mais. Isso significa que o produto que você está usando como parte da solução também deve ser robusto e deve viver e crescer durante o período. A maioria desses produtos é imatura e incompleta na maturidade. Em um produto não é necessariamente uma coisa negativa. Ele só diz que o produto ainda está em um estágio muito infantil, você sabe, ele nasceu apenas e ainda está crescendo. Não é totalmente maduro em termos de suas capacidades. Não tem certeza sobre o que é suposto ir em termos de estabilidade. É aí que estamos. E eles estão incompletos porque os produtos estão apenas fazendo o que eles estão fazendo na coisa principal . Eles não têm recursos como recursos de gerenciamento e alguns recursos de monitoramento e coisas assim. Estes produtos ainda são como, você sabe, uma criança ou um adolescente tipo de mais. Eles ainda têm que crescer e amadurecer. Estes produtos têm uma mudança muito alta. As coisas estão mudando muito rapidamente, o que significa que nossas bibliotecas nova biblioteca está chegando nelas substituídas ou bibliotecas sendo substituídas interfaces sendo substituídas muito rapidamente. Então isso está criando muito fora de churn em termos do que queremos usar. Sinta serviços de apoio. Um ainda muito primitivo, esse é um problema com quando você está construindo uma grande solução. É isso que os produtos que eles estão usando em sua solução? Você quer ter algum apoio e serviço? Eles ainda precisam lidar com coisas como administração e usabilidade. Vai haver escassez de habilidade e experiência. Personais. Se as pessoas de sua unidade para implementar sua arquitetura, você precisa de dedo. Esteja pronto para gastar algum dinheiro para colocar as pessoas boas para isso em. É difícil prever o futuro, nosso futuro fora de um monte desses produtos, porque as coisas estão mudando muito rapidamente sobre ele também não é futuro seguro porque as tecnologias estão saindo de grande antes do primeiro lançamento do aplicação antes do mais rápido, por favor, Estou falando sobre o lançamento de uma filha. Um monte de protege nossa incutir em Sub um Dato mais. Eles ainda estão sendo adotados e judeus, mas as coisas estão mudando muito rapidamente sobre empresas tipicamente como seu investimento para ser seguro por pelo menos 10 anos. Eles querem a tecnologia ocidental. Querem que as tecnologias se mantenham no mercado e continuem. Crescendo o mercado. Ainda bem que o Big Day morre. É tudo código aberto de mais barato. Mas, em seguida, minha mãe lá também tem custos associados com a aquisição da tecnologia colocada na tecnologia no lugar e usando a tecnologia em. As pessoas não querem estar em uma situação que sua tecnologia fica muito rápido. Empresas que suportam essas tecnologias Estas são principalmente pequenas e startups. Você sabe, isso é um pouco preocupante para você porque as startups podem mudar, mas muito rapidamente elas podem ser adquiridas e podem mudar de direção. O produto que você está tentando usar pode, de repente, perder a lista de suporte depois que você está usando um produto que é gratuito. Portanto, não há compromisso do fornecedor de que sim, nós vamos. Eles continuarão a apoiar o produto. Então eu acho que isso é uma coisa fluida que você precisa trabalhar. Claro, tamanhos de implantação de tamanho de mercado. Você sabe quantas pessoas evaporaram. Essa tecnologia também é bastante combustível. Andi, se você está tentando escolher e ir tecnologia, precisa considerar todas essas coisas porque você quer usar a tecnologia que é estável. E o que você quer esperar nos próximos 5 a 10 anos é que haverá poucos produtos que crescerão se tornarão líderes de mercado. Não sabemos quais, mas serão alguns produtos que crescerão e se tornarão líderes de mercado. Talvez você possa apostar em certas coisas com base em uma adoção mais ampla. Quanto maior o número de pessoas tentando usar a tecnologia, há uma chance de que sua tecnologia permaneça e cresça. Há um monte de fusão de produtos que você pode ver começando a acontecer, modo que eles se aproximem e cada vez mais do que um rosto se encaixa em todas as situações. Você terá menos maturidade em suas opções no Afeganistão possivelmente terá características estáveis. Sabe, as coisas são uma ervilha não vai mudar. As bibliotecas não vão mudar dessa forma. As coisas estão muito mais estáveis. Então, como você faz com que seus investimentos sejam seguros no futuro? Quero dizer, como o você como grande um alvo escolher tecnologias que vai ficar no mercado é oeste evoluiu. Procure produtos e desenvolvedores. O suporte às empresas que oferecem suporte a produtos e desenvolvedores geralmente têm uma longa chance de ver e permanecer no mercado. Procure opções de nuvem que uma boa opção para ir com, porque quando você olha pegando uma opção de nuvem, geralmente há a chance de que eles foram retirados muito fora. Você sabe, as atualizações e mudanças e problemas de compatibilidade e coisas assim. Procure adaptações por empresas líderes e produtos que a tecnologia está sendo usada por algumas empresas líderes do outro produto, isso significa que são tipicamente há uma rede de suporte lá. Há pessoas que estão dispostas a pagar dinheiro toe, manter o produto vivo. Então isso é algo bom. E procure abrir um P ace e abrir dados por meses. No caso de você ter que mudar de tecnologia, torna-se fácil para você fazer esse cuspe. Então, como um grande arquiteto do portão, você pode dizer , OK, eu vou invadir por cinco anos. Tudo bem, mas isso significa que você pode estar perdendo muitas oportunidades de negócios. Você não quer fazer isso, mas ao mesmo tempo, a tecnologia ainda está em um estágio muito agradável, e até que as tecnologias amadurecam, você tem que se sentar em torno delas, trabalhar através de para que essas soluções funcionem. Então esse é um grande desafio para um grande arquiteto neste momento. Felizmente, esta palestra tem sido útil para o seu que está recebendo mais detalhes sobre essas tecnologias nas palestras posteriores. Obrigado. 9. Adquirir visão geral: Oi. Bem-vindos a esta palestra sobre a aquisição. Ou vamos dar um mergulho profundo no que esse modelo deve fazer e quais são as melhores práticas? Então vamos começar com quais são as responsabilidades para o módulo de aquisição. A principal responsabilidade do modelo de aquisição é, em primeiro lugar, conectado, mantido conexão com a fonte para que você possa ter mais de uma fonte em cada fonte pode ter seu próprio módulo de conexão. O Eso. Seu trabalho nome era conectar e manter a conexão, então às vezes é um processo ruim. Você apenas se conecta para fazer coisas e se desconectar com a fonte em tempo real. Vais estar a ligar-te e continuar a manter essa ligação para sempre. Você precisa executar responsabilidades de protocolo, que é, você sabe, quando você está se conectando a um. Então, há alguns protocolos envolvidos em nosso dependendo do tipo de fonte. É prender um P I Cuba sobre os responsáveis. Estes Legree conecta apertos de mão. Melhor manuseamento de tudo isso tem que ser feito pelo modelo de aquisição. Os dados para a minha conversão são uma responsabilidade fundamental, porque provavelmente você deseja armazenar os dados em um formato adequado para big data e analytics. pode ser como um Jason ex que um formato de arquivo de sequência nos dados de origem pode não confirmar. Provavelmente não pode vir de que os agricultores. Então você pode estar fazendo conversão de formato. Além disso, o modelo de pergunta pode fazer a filtragem para primeiro. Nenhum dado que não exige que ele pode fazer o pagamento local. Então, quando normalmente o que acontece é quando você está olhando para uma fonte mais tarde em tempo real. A origem está gerando dados mais do que o pipeline na camada de transporte pode manipular . Você pode estar fazendo algum dinheiro local. Além disso, a compressão é uma responsabilidade fundamental porque quando você está transmitindo dados, especialmente mensagens de texto, ah, o que o fio. Você deseja compactá-lo para que ele use lead menos largura de banda e ele possa se mover muito mais rápido. E isso é, claro, criptografia. Você quer criptografar os dados quando você transferir dados ou o quê? O fio para que você saiba que os dados não são. Não há roubo de dados o que você está fazendo esta transferência. Então você precisa se preocupar com este porque há muito fora deixado de fora o bastante isso acontecendo quando eles descem no fio. Se você estiver fazendo algo com dados confidenciais, como informações de seu cartão de crédito de informações do cliente . Essa é a possibilidade de que possa haver “Dido Depois de quê”? Quais são os vários tipos de fontes com que você já lidou? Você tem um acordo com bancos de dados? Os bancos de dados do bebê Emma são mesmo, ou sequela bancos de dados? Você vai estar olhando para dados que, como mortos e bancos de dados sob um mergulho em doses, você pode estar lidando com dados em arquivos, então dados de arquivos podem ser qualquer coisa que poderia ser como dados de mídia, como gravações são vídeos e majores e outras coisas assim. Ou poderia ser algo como isso também poderia ser algo como, Você sabe, os dados de massa RBB lá é fornecido para você em arquivos porque poderia haver 1/3 partido sem nenhuma conexão com o terceiro, mas fonte de dados . Mas eles podem estar lhe dando dados e arquivos. Pode ser aqui, Http e resto no caso do que vai ser um Raiders em tempo real, poderia haver fonte de dados personalizada, fluxos de dados em tempo real que estão vindo de qualquer tipo de aplicativos. E pode ser personalizado se houver, ah, ah, seu próprio costume em ambos os aplicativos, que gerar o dia em que você pode querer conectá-lo através de algumas interferências personalizadas e também obter dados para que a fonte possa estar fora de um monte de tipos, como você pode ver, Quer arquitetar como arquiteto o que outras coisas que você precisa considerar um arquiteto. Quando você está construindo um modelo de aquisição fora, você precisa falar sobre eu pensar sobre como você pode identificar uma nova data. Portanto, há uma fonte de dados. Não vai ser uma única vez que você vai continuar voltando todos os dias ou todos os outros de volta para a fonte de dados e você vai ser bom em novos dados. Sobre a questão mais importante é como eu identifico quais dados são novos são tipicamente em uma bagunça RGB. Você pode estar olhando para uma chave primária, que é um gênero contínuo, o número e manter o controle de qual número fez isso da última vez. Então agora, por onde devemos começar com nosso reconhecimento? Esteja procurando alguns selos de hora e fazendo lá. Esta é uma coisa muito importante porque você não quer ser bom em dados duplicados, bem como você não quer estar faltando dados, então você é muito importante. Este é mantido o controle e um muito claro e muito limpo. Big três aquisição e re transferido. Como se fosse caso. Existem alguns erros transmitindo-o como erros de pergunta. Como você vai sobre a obtenção de um dia de aquisição para baixo? Retransmitir de fato, mais uma vez começar. certeza que não estás a perder dados sobre a tua transmissão dupla de nada? Então esta é outra coisa, mais importante que você precisa considerar quando você é arquiteto em uma solução. Perda de dados. Como o caminho, evitar a perda de dados? Como não perdemos um truque? É. E isso é outra coisa que você como um arquiteto, nós a considerar enquanto você está construindo , armazenando na fonte caso a camada de transporte não possa lidar. Vai haver como picos de dados. Espinhos de carga estão vindo da fonte. Será o transportado. Serei capaz de lidar com isso de outras maneiras. Você precisa fazer algum tipo de buffer na fonte. Buffering também significa iniciar quando você está armazenando em buffer. Também é dito de uma forma muito segura, e também de uma forma confiável para que não percamos quaisquer dados em voo. Manter os dados na memória pode ser arriscado, porque o que da costa caixa em What's the boxcar começa a sufocar e então você perde os dados. mais importante aqui é não perder os dados quando você está fazendo o buffer de sua segurança para que o provedor de origem possa ter sua própria política de segurança. O social. Provavelmente isso pode ser um banco de dados a. um dbn interno. Externamente ser 1/3 partido. Eles podem ter algumas apólices. Que tipo fora? Há alguns requisitos de segurança que preciso que considere e outros. Lembre-se que quando você está recebendo dados sobre a movimentação de dados através do resto grande preocupação de segurança de alguém roubando dados. Então isso é algo que você precisa considerar privacidade. Se você está recebendo dados de outras pessoas, digamos que você está recebendo dados da Internet do Twitter ou algo assim. Considere uma privacidade. Certifique-se de que você não rouba uma boa entrada para qualquer informação que você não está fora criado para obter. Você não está invadindo a privacidade das pessoas. Isso é algo de todo tipo para ter em mente como um arquiteto, e finalmente você precisa de um arquiteto para alarmante tão comprometido que algo está dando errado. Tem que haver assistente através do qual, você sabe, alguns alertas são levantados de alarmes são levantados pelo qual os administradores podem monitorar o sistema, e no caso de algumas coisas estarem dando errado, eles podem dar uma olhada nele Rapidamente. Tão alarmante é um futuro de gerenciamento de chaves que você precisa cuidar quando estiver conectando uma solução. Quais são as melhores práticas são recomendadas para arquitetar o modelo de perguntas. O jejum está envolvido. Fonte. Proprietários para estabelecer um bom aperto de mão. Então, quando você está construindo um aplicativo discutido com proprietários Dick Source como dedo do pé tem, você pode fazer esta pergunta ah Mahdi relabel porque coisas como apertos de mão, protocolos e a única maneira que você pode torná-los para ser robusto. É realmente falar com os proprietários, envolvendo-os na solução para fazê-los também ajudá-lo a chegar com um protocolo que é realmente seguro e seguro segurança segurança, privacidade e esse tipo de coisas em um médico, os proprietários de fonte e estabeleceu-los. Certifique-se de trabalhar com eles e eu defendo novos dados. Então, se você está chegando com os esquemas para dizer que é assim que eu vou ser um em diferir os novos dados, eles também precisam validar a idéia de que isso vai funcionar dessa maneira. Além disso, eles não podem estar muito indo e mudando seu esquema de dados fonte nós sem um novo informá-lo . Então esse tipo de coisas precisam estar funcionando. Bagdad com os proprietários fonte ir para confiável e aberto A P é sempre usar aberto e abrir um pH em vez de base de clientes sempre que possível. A razão é que estes abrem um p A's lá, já tipo de construído e usado pelas pessoas. Há muita liberdade acontecendo lá. Além disso, é fácil para você trocar produtos porque quando eles estão em conformidade para abrir um P, é fácil usar um produto diferente separado e usar o mesmo? Talvez seja mais uma vez e fazer as coisas. Então vá para abrir o rótulo AP ICE Native AP é informante. Então você vai ser tem 80 caminhos cais e ex-um monte de vezes eles devem ser padronizados o mais cedo possível, então você pode ter dados de quatro fontes cada e quatro formatos diferentes aterrorizá-los o mais rápido possível . Significa que você padronizá-los adereços possivelmente na própria fonte. Foi um convertido ou algo como lá para convertê-los para ex padrão antes mesmo transmitir quanto mais cedo você faz a conversão, mais fácil é para você lidar com eles mais tarde porque se você vai manter quatro agricultores diferentes e por escrito quatro diferentes, possivelmente quatro diferentes vidas de transporte para diferentes camadas de transformação mais tarde. Então você queria convertê-los para ex padrão o mais cedo possível. tempo real. No histórico, há uma tendência para ir para o mesmo canal, não sobre área. Mas pense a bordo como você pode usar um canal em si para obter todos os tempos de resposta em tempo real bem como a confiabilidade do East Article Channel, eu acho, possivelmente converter canais separados novamente. Olhe para os casos de uso sobre o que o tempo real é suposto fazer e historicamente suposto fazer se eles são muito diferentes do que possivelmente considera que canais de oração Ondo prestar atenção, a privacidade e segurança. Essas coisas são muito importantes que podem vir a morder-te a qualquer momento mais tarde. Então pense neles na promotoria. Com base nesse projeto, seu modelo de aquisição Obrigado 10. Adquirir opções SQL e arquivos: Oi. Bem-vindo a esta palestra sobre opções de aquisição de dados. Tive que começar a olhar. Que tipo de opções temos para nos conectar a fontes de dados e adquirir dados? Falamos sobre uma lista de coisas que precisamos dos arquitetos, algumas das melhores práticas. Mas isso só é possível se a fonte de suporte algum tipo fora do caminho pelo qual aqueles podem ser implementar a primeira opção que vamos estar falando como o SQL Query. Uma sequela. Kredi, você quer chamá-lo Andi, Mesmo os soldados e estranhamente, ser muito sequela é dada em sequela. É muito poderoso, poderoso na medida em que pode fazer muitas coisas por você, mesmo que você diga que é big data realmente se incomoda com sequela, mas para adquirir dados porque esse é o bebê para ir de um RGB, senhorita. Encontrar você. Essa é uma maneira tradicional de extrair dados de bancos de dados relacionais, e a coisa boa sobre sequela é que é uma tecnologia madura. Há Bean por muito tempo, é realmente maduro em termos de suas capacidades. Ah, muitas dessas implementações são realmente, muito otimizadas. Ele tem a capacidade de transformar dados como você pode fazer juntas crescidas por cubo e filtragem porque esses são ótimos recursos porque você pode fazê-los na origem. É um, por exemplo, você pode fazer juntas. Você pode ser normalizado dados na fonte, em vez de ter que fazê-los na transformação . Lee minimiza a quantidade do que você pode ter que fazer. Então, se você tem dados precisam ser unidos. Filtrado Ari foi resumido, É melhor usar igual em si para fazer todo o trabalho para você até amigo. Dessa forma, a notícia de que a quantidade de dados que ele ordenou transferência em introduz qualquer uma das etapas de compartilhamento de transformação que seu devido mais tarde em seu processamento para que uma grade com sequela fora do curso é igual suporta indexação que cuida de desempenho. Você pode fazer tudo sem qualquer programador. Bem, trabalho de programação que você precisa fazer para isso no DA é igual também suporta compactação de criptografia . Então isso é uma coisa boa é o que uma das coisas que você pode fazer com Sequel em quando você extrair dados da sequela, você pode realmente transmiti-los em seu caminho diretamente, ou você pode realmente colocá-los em lutadores em movimento a sequela modelo também lhe dá a capacidade de ir atrás de dados incrementais. Isso é uma grande coisa com Sequel, porque você iria me apoiar e eu acertar com os tempos. Os tempos são com I D sente de modo que não gosta de algumas das coisas boas que você pode fazer com Sequel. Agora vamos tentar olhar para as vantagens e deficiências da sequela. Assim, as vantagens da sequela são que ele tem um amplo suporte por vários programas, linguagens, ferramentas e produtos. Esta é uma tecnologia madura, que significa que você vai encontrar um monte de ferramentas que suporta igual Jerry ocupado, apenas ocupado conectividade e coisas assim. E, claro, há muitas pessoas que sabem como usá-lo. É uma tecnologia muito popular e madura. Você pode encontrar habilidades e produtos mais fáceis que Dover nele suporta recursos incrementais, bem como filtragem. Isso é uma coisa boa sobre sequela é que você pode fazer um monte deles. Um amigo com sequela Quais são as deficiências Off sequela é que ele é limitado, então base diária nem toda a fonte de dados de sequela de suporte, que é um tipo fora sobre a coisa porque, você sabe, sequela é muito poderoso . Você pode fazer muitas coisas. Coisas com trabalho muito mínimo sobre a outra coisa está em sua organização ou em suas costas . Eso supostamente. Quando você está tentando adquiri-lo para fora, você não é tudo que você não tem sempre a opção de ir e se conectar diretamente a um banco de dados. Até você tem esse tipo de opção. Sim, você pode usar igual, mas suponha que você é forçado a não. Não muitas pessoas não dão acesso diretamente aos bancos de dados, então você precisa passar por uma camada de aplicativo em uma camada P A são pares. Diriam que não há impostos diretos. Em vez disso, eles foram extrair dados em células tronco de arquivos e dar-lhe os arquivos. Nesses casos, você não pode realmente ir em sua sequela nesses casos, você sabe, essa é uma das limitações da limitação é que a sequela em si é muito poderoso adereço. Mas eu não tive um monte de oportunidades para usá-los a menos que a classificação de dados em si é controlada por você e você pode ir diretamente para a fonte de dados e puxar os casos de uso de dados para sequela Nosso bebê. A maioria das fontes, especialmente quando as fontes HABEMUS no preço. Você pode ir e rapidamente extrair dados através de sequelas e, claro, mesmo dia em que a sessão em altas fontes de fontes hidratadas do corpo pode ser puxado através de uma sequela. É muito poderoso, exceto darting on. Às vezes, a atriz não é fornecida a nós para sequela. Esse é o único problema que temos uma sequela, mas é uma ferramenta muito poderosa que você pode usar para extração de dados. A próxima opção. Você tem um XFILES recebendo dados como arquivos e arquivos, assim como uma maneira simples e comum de trocar e mover dados. Assim, qualquer proprietário de fonte de dados que você sabe que está disposto a dar-lhe estará disposto a dar com dados e arquivos. Não, você não precisa nos conectar sistematicamente. Não há problema de eles sentirem coisas como, Ok, você vai se conectar com o banco de dados e mexer com algo maior? Não há perguntas assim, nenhum dia. Eu serei capaz de dar-lhe os dados em nosso HABEMUS para você e formato de arquivo no aplicativo para o assassinato são tipicamente tem uma capacidade de extração de dados onde ele poderia dar-lhe dados e formatos de arquivo de arquivo é uma maneira muito comum de trocar dados, especialmente em uma situação inter-organizacional. E é uma ferramenta muito padrão para mover arquivos, criptografar arquivos e coisas assim. Portanto, é um método muito simples e comum de usar pelo qual você pode trocá-lo. E muitos desses aplicativos podem converter esses dados em arquivos como Sears verifica arquivos XML . Jay está em arquivos sobre até mesmo pensa que arquivos de mídia só podem ser. Ainda assim, mídia só pode ser armazenada em cinco mídias. Como você sabe, Weiss gravações com suas gravações em majors lá tipicamente só armazenados em arquivos. Então arquivo é uma maneira muito popular pela qual o líder é trocado entre várias organizações, vantagens de incêndios, todos os aplicativos de sistemas de um arquivo baseado naquela coisa do Xander, você pode ir para qualquer um que você e eu disser, Ok, você tem um aplicativo que tem dados você pode extrair e me dar um C.S. C.S. C. 5? Sim. Então, isso é uma coisa muito fácil de trabalhar com arquivos, e funciona facilmente com limites inter organizacionais. Sempre que as pessoas pensam duas vezes. Ok, eu preciso que esses dados não se conectem diretamente a um banco de dados, e as pessoas Não, eles estão emitindo problemas seculares e você me dá os mesmos dados e disparos. Sim, então isso é uma grande coisa sobre lutas. E há ferramentas comuns utilitários para trabalhar com arquivos para extrair dados e os arquivos são copiar arquivos, mover arquivos, compactar arquivos, arquivos segurança Você sabe que pode depender. Coloque um passaporte no Teber. Fazer seus fazendeiros escuros e todas as operações de arquivo de suporte de fogo sistema operacional. Tantas coisas que você pode fazer com arquivos que é um método muito comumente usado pelo qual as pessoas podem trocar dados capturados. Vindo com os arquivos é que arriscamos ter que mover arquivos em uma loja relacionada da Lee . Devagar voltar a alguns outros métodos. Há tantos passos manuais e parar de comprar. Então você é o mais arquivos. Ok, alguém copia o arquivo sobre dois pontos lá para planejar B ele, e então alguém o move do ponto B para ponto C é muito fora daqueles passos manuais envolvidos em dados de momento de arquivo são expostos porque seus dados de arquivos de texto são expostos a menos que não pop corretamente criptografado. Então isso é algo que você tem que tomar quando você está perdendo com incêndios. Casos de uso para arquivos são inter organizacional momento de dados. Então, quando você tem os arquivos de movimentação entre organizações, quer seja, as empresas são se entre departamentos dentro da empresa estão uniformemente entre dois aplicativos. Este é um fazendeiro muito popular. Esta é a única maneira pela qual você não pode arquivos de mídia de sua casa ou em arquivos de mídia em finanças fazer recursos de suporte para maior criptografia e compactação. Ferramentas muito padrão estão disponíveis. Então isso é uma coisa boa que você pode fazer usando arquivos. Obrigado. 11. Adquirir opções REST, transmissão: continuando sobre as opções de aquisição. A próxima opção que estamos olhando é teórico AP. Olhos I Trust é um AP baseado um padrão para a troca de dados para profunda para a realização de operações Kurt Gladstone para Criar Read Update e delega prisão reembolsa como, ah tipo sequela de capacidade. Eles podem ser usados para recuperar dados. Não são também para atualizar dados. E e restaurantes são muito populares, padrão em toda a Web que permite trocar dados que sejam casais, os consumidores dos produtores. Essa é a coisa boa sobre restaurantes que dissociou os consumidores dos produtores e lhe dá uma maneira simples de acessar dados de qualquer fonte suportada que ele fornece para existência apátrida. Ou que cada consulta que você diz enviar como uma consulta sem estado e ele volta com o resultado mais rico, auto-contido. Não há estado a ser mantido entre várias solicitações. Isso torna um trabalho muito mais simples, e fornece uma interface de uniformes agradável que é baseado no ódio. DP padrões para fazer um post get, colocar uma operação variada diligente que você pode executar usando no Estate B A. Ele suporta segurança avançada. Você normalmente usa do esquema automático off autenticação para busca de dados, que na verdade é um bom esquema porque era um p A chaves em vez de usar nomes de usuário senhas em que o torna muito mais seguro nele suporta inscrições sobre Quando você está mover dados através da Web, ele tem muito mais seguro e disse, Você está em que é suposto abortá-lo pela maioria da nuvem, com base em fontes de dados móveis como Twitter, Facebook, Salesforce, todos deles fornecem você pressionado AP é extrair dados. Os dados que isso está se tornando o padrão de fato na nova Web? Ou a nuvem e estruturada? Mesmo real, como SQL é usado para ser. O descanso está se tornando para desenvolvido. As vantagens do descanso não são que é um padrão para trocas de dados na Internet que estamos nos tornando o padrão de fato. Ele tem excelente segurança e escala, capacidade construída em. É muito simples de usar fácil de integrar, um muito fácil de aprender e usar em quase todas as linguagens de programação. Apoio descanso, Na verdade, mesmo se eles não suportam, tudo que você precisa é mais linguagem de programação de suporte tem PIB, e você pode fazer o resto muito facilmente. Cummings Tubarão, Weiss para descansar. Há informações redundantes que podem ter que ser transmitidas por causa do apátrida. Cada pedido tem de ser auto-completo, auto-suficiente, modo que pode ser uma das limitações. Uma dor de cabeça maior com campeões de descanso é limitações de medo. Então, sempre que o adere-se um grande provedores estão lhe dando descanso, MPs gostam com seu Facebook ou vendas. Para isso é um limite de quanto Diane dinheiro descansar consultas. Você pode ir dentro de um determinado período de tempo e quantos dados você pode obter que aumenta. O que é uma grande dor de cabeça em você em termos de off? Você tem que otimizar sua aplicação adequadamente para que você não bater essas limitações reiterar são você tem que pagar extra para obter dados adicionais, que mais uma vez significa que você é o arquiteto de uma forma pela qual você não está sendo muito dinheiro para acessar isso. O resto apareceu. Isso é uma grande dor de cabeça para você. Não suporta tempo real. Essa é uma dor de cabeça que você precisa usar o AP de streaming separadamente. Se você quiser obter dados em tempo real, os casos de uso para fugitivos são fontes de dados de mídia social na nuvem. Você sabe sempre que você está para obter dados de nuvem nossas mídias sociais. Você tem que usar para nós de outra maneira. Se você está obtendo dados de fontes de dados móveis, também descansar está se tornando bastante popular. Ele também pode ser usado internamente para a troca de dados. tempo real. Meta dados podem ser trocas Inglaterra Staples. Esse é outro caso de uso, mas a maioria vai embora. Você está recebendo dados da nuvem. Você vai usar o restive. A quarta opção é streaming. - Não. Streaming é um modelo de assinatura e publicação de dados em tempo real, que significa que você tem um assinante e você tem um editor. O assinante, que normalmente é seu cliente, vai e sub-raspa uma fonte e diz, eu preciso de radar em tempo real de você, e você estabelece uma conexão persistente em sempre que novos dados ocorrem para um tópico ou um objeto que você mesmo raspado para os dados é empurrado para você não a puxar para o caminho bush . Então os clientes estão no pé do pé. Um tópico específico são um subconjunto de dados sobre conexão http é mantido aberto o tempo todo, e servidor push esta dados para recusar sempre que novos dados estão disponíveis. Por exemplo, se você quiser pés do twitter em tempo real, você abre um assinante toe twitter e dizer, Eu quero qualquer feed do Twitter que está acontecendo neste especialmente vela. E sempre que três alguém trata nesse identificador específico, os dados são enviados para você e você adquire a data e começa a usar os dados para que ele use chaves seguras e criptografia. Isso é bem parecido. O resto API também é gabado de que a taxa é bastante segura. Mais uma vez tem limitações em grandes limitações. O mesmo bien este pia tem em quero dizer copos de streaming, especialmente a partir de com todas as fontes de dados populares como as fontes de dados de mídia social lá novamente, limitações sobre que tipo de dados é transmitido e quanto dados sonhou, Claro, mas esta é uma maneira pela qual você obteria dados para qualquer tipo fora da aria, qualquer tipo fora das mídias sociais, fontes da OTAN, vantagens de streaming é que é uma transferência instantânea de dados em tempo real. Sim, é realmente em tempo real agora. Streaming também pode ser implementado por você em seu próprio aplicativo para o streamer personalizado, mas dá-lhe um tempo real na transferência de dados sudaneses. Ele pode lhe dar apenas def. Isso é uma coisa muito importante. Só pode continuar se propagando para você. As alterações não são os registros inteiros que limitam a quantidade de dados que estão sendo planos estavam em toda a rede, e são suportados por uma nuvem principal. Provedores como Twitter, Facebook, Salesforce. Todo mundo suporta streaming de um monte de streaming. Esta perda de dados que eu tenho conexão está quebrada. A conexão tem que ser mantida viva o tempo todo. Se a conexão for perdida entre o tempo em que você perde a conexão com o tempo que você descansa, sua conexão e no unificador que ocorre é perdida. Então esse é um problema com streaming que é limitações de taxa tardia. Mais uma vez, não pode surgir em afetá-lo em termos de quanto dados é sonhado. Você pode precisar complementar isso com histórico depois puxa, porque novamente, o problema do tamanho. Portanto, você pode querer que apenas seu streaming obtenha dados que você precisa usar para qualquer tipo de atividades em tempo real . E você complementa isso com dados históricos para obter um resto de tudo o resto. Você sabe, em vez de tentar depender de streaming para fornecer todos os dados, você só seu streaming para dados temporários é instantâneo. A data é mínima. Carro mínimo. D. Em vez disso, é necessário para você para a atividade em tempo real, e você complementa isso com o canal histórico que pode dar-lhe o resto do uso de dados . Casos foram transmitidos são análise de sentimento em tempo real. Por exemplo, eu. Quero subscrever as redes sociais e ver sobre o que as pessoas estão a tuitar. Sobre sua empresa estão negociando sobre sua empresa em tempo real. Este é um ótimo caso de uso. Relatando em tempo real novamente. Você quer o dedo do pé? Ter alguns relatórios em tempo real com base em atividades em tempo real que estão acontecendo. Por exemplo, você pode ter um identificador do Twitter de suporte ao cliente e as pessoas estão escrevendo sobre sua empresa. Você pode querer usar isso para relatórios reais em qualquer tipo de tempo real. Ação que é baseada em comportamentos do usuário ou streaming é estritamente um realmente eu estou usado. Eu não recomendaria, apenas dependendo de streaming, esquecendo dados históricos porque eu disse qualquer tipo de perda de dados. Qualquer tipo de conexão está quebrada. Um tipo de líder está perdido no meio. Você precisa complementar com ele com feeds de dados históricos de qualquer maneira. Então estas são as várias opções não são dar disponíveis para você para aquisições, as opções populares que tipo de discutido ainda pode haver outros. Além disso, não vamos passar por eles. Mas espero que isso é praticamente cobre todos os casos de uso que você está interessado em espero. 12. Visão geral de transporte: Bem-vindos a esta palestra sobre o modelo de transporte. O modelo de transporte colocar um grande papel no big data em comparação com uma aplicação regular, porque o transporte é quase nada quando se trata de aplicações regulares, aplicações dados não grandes. Mas no mundo do big data, há uma enorme quantidade de dados, e essa enorme quantidade de dados tem que ser movida. Isso é realmente, realmente uma grande tarefa. Queria-nos o grande como o grande. E segundo, a distância entre a fonte no destino também é maior. Geralmente é através de vários limites de organização e coisas assim. A camada de transporte adquire um papel muito importante quando se trata de big data. Portanto, geralmente há dois tipos fora de transporte cedo Mahdi Oh, modelos de transporte que são tipicamente no lugar. O mais rápido é o tipo de armazenamento e encaminhamento do módulo onde os dados são armazenados e encaminhados. Mudou-se de um lugar para outra perna. Passo a passo. Eles começam é quase como se você estivesse enviando algumas partes de através de um serviço de correio direto. Então você partiu o pacote no local de origem, e então há algum caminhão de transporte ou algo que o leva de um local para deixar a trilha 6 em vez de outra, daquele local para outro. Isso é como uma loja e para a frente mecânica, onde você recebe um dados fora da fonte Red Data recebida endereçada a fonte. É mais do lugar um por um, ele e bordas geralmente humor e toneladas de unidades como arquivos ou diretórios que está rastreando a conclusão. E há retransmissão de toda a unidade, caso haja uma falha na transmissão. Por outro lado, há o tipo de streaming fora de transporte de modelos onde os dados são movidos continuamente através do pedestre. Lá, há uma conexão de vida entre a origem e o destino nos dados está fluindo quase como um pipe. Há quase como um tubo em que a água está fluindo. Os dados devem ser limitados na fonte para que ele não inunde o tubo. Da mesma forma, os dados devem ser limitados para a coisa para que a pia seja capaz de receber os dados. Ativo está sendo colocado nos fornecido pelo pela camada de transporte. A luta se torna muito importante aqui para que, você sabe, não transborde em lugar algum e eles se perdem. E há também a necessidade de armazenamento em vôo. No caso de haver muito surpreendente acontecendo, você não pode empurrar os dados o mais rápido possível. últimas coisas podem consumir feitas para nós sermos histórias inflar. Além disso, esses são os dois tipos de camadas de transporte que você normalmente encontraria. O 1º 1 é roubado para frente é tipicamente feito para histórico. Mais tarde, enquanto o streaming é feito para dados em tempo real em termos das responsabilidades da camada de transporte, sua primeira responsabilidade é manter o vínculo com o modelo de aquisição. Traduzir dados toe protocolo, formato ideal. Às vezes, os dados que estão lá tem que ser traduzidos em protocolo ideal. Ex, você sabe, se você está movendo um arquivo de texto que nenhum pode não ser o caso, mas às vezes você pode querer sentar os arquivos de dados, você sabe, então a dieta deles chegou. Ele é compacto e encoraja menos quantidade fora da largura de banda para ele. Dados de transporte. Então você sabe todo esse tipo de coisa. Você, é claro, tem que mover os dados. A camada de transporte também tem de se certificar de que os dados estão seguros enquanto estão a ser modificados. Não é. Ele não se abre para ninguém encher os dados e identificar o que está lá. Você precisa manter um link com o modelo de persistência. Essa é a parte do dissipador oferecida no Save the Data no modelo de posição e, claro, confirme que os dados foram corretamente adquiridos e totalmente adquiridos pelo modelo persistente. Antes que a camada de transporte a deixe cair. Você precisa rastrear os dados à medida que eles se movem. O passaporte é Lee? E então você precisa rastrear Wacky. É da mesma forma, como um serviço de carreira. Pronto, quer. Atraia pacotes de valor atualmente. Então você precisa seguir o controle, o ativo de dados que começa da fonte até o destino. Você precisa ter uma maneira de retransmitir no caso de falhas e transporte. E, claro, isso tem que ser relatando em termos de, você sabe, quantos pacotes estão sendo recebidos. Nosso transportador de transporte de dinheiro, Hominy retransmissão aconteceu. Como o dinheiro perdido pacote, onde não há eventos de que para que o administrador pode olhar para fora e ver se tudo está funcionando como desejado para fora. Isso tem que ser algo que tem que ser consertado quando se trata de arquitetura. Que outras coisas que você quer tirar vão proteger a camada de transporte. Você precisa de um arquiteto para velocidade. Sim. Você quer se certificar de que você pode mover os dados o mais rápido possível. Tem que estar viajando, especialmente quando se trata de um sistema em tempo real, porque você não quer que a fonte inunde camada de transporte profunda e você não quer que a camada de transporte inunde esta pia. Então você precisa ter certeza que os dados são provavelmente plantas assustado. Tem de haver fiabilidade dos dados para que não haja perda de dados e transporte. Isso é uma coisa muito importante, especialmente quando você está acoplando isso com a luta porque quando você está lutando algo, você precisa ter algum tipo de armazenamento fora em um armazenamento temporário quando sua garganta está estrangulando dados em. Você não pode simplesmente manter a memória diurna o tempo todo porque logo você pode ficar sem memória e então você começa a perder Duda. Você sabe que cabe a você ter algum tipo de deslocados. Nossos dados não persistência para fins de viagem são tipicamente os produtos que usam sempre desfilar este tipo de viagem. Se você estiver usando o produto padrão, precisará de redundância. Eso que você sabe que existem vários canais e o transporte tradutor pode acontecer. Uma nota falhou. Isso não significa que todo o oleoduto pare. Tem que ser escalável, ser para que você possa transportar uma grande quantidade de dados e, em seguida, um número fora coisas pode realmente receber os dados. A escalabilidade torna-se uma parte importante, especialmente em termos de dados em tempo real. Tem que haver status relatando um alarmante, é claro, porque você sabe que precisa relatar o que está acontecendo. Você precisa ter alguns bons sistemas de relatórios para ajudar seus administradores a monitorar a aplicação da solução em que, como de costume, arquiteto para compactação. Portanto, há menos banda com ser consumido na Unidade 2, arquiteto para criptografia, também para que os dados não são seculares à medida que se move através da camada de transporte. As coisas desejadas. Você se considera aponta para o ConStor enquanto arquiteta no Transport Lee. Se você está pegando direito, maioria deles são escolhidos para você. Mas se você está tentando escrever um personalizado uma camada de transporte, você precisa de alguma forma de fábrica em todas essas coisas. Na sua previsão. As melhores práticas para a camada de transporte não reinventam a roda especialmente quando se trata de movimento. Big data e big data são grandes em sua escalabilidade e confiabilidade são enormes. É não. Essas não são coisas simples que você pode tentar sozinho. Com é melhor sempre para piggyback em alguns pro sido mensagens e planos para frameworks e partícula. Há muitos protocolos de mensagens disponíveis. Aqueles que são discutidos neste nas pontuações, bem como aqueles que não há nordiska. Há muitos protocolos de mensagens disponíveis. Grande em Biggie Back em uma porta. Tentar escrevê-lo do zero é muito trabalho para você. Procuro integrações entre tecnologias de transporte e outros modelos. Você sabe que quando você está escolhendo uma camada de transporte, a camada de transporte tem toe integrar muito bem com a camada de pergunta, a camada persistente e a camada de transformação. Então você precisa ver o quão bem o produto que você está escolhendo para o transporte do modelo Fritz. Na verdade, com todos esses outros modelos, as escolhas de como se misturam, e eles devem funcionar muito bem juntos. Então é algo que você quer cuidar. Esteja ciente dos custos de transporte de dados. Os custos de transporte são um significativo hum, obviamente como um impacto significativo no custo porque você está usando movendo lá que através de sua Internet do que não são proibidos com requisitos que entram em vigor. Se você estiver removendo uma VPN novamente, você precisa lucrar com esse tipo de largura de banda com o tipo de dados que você vai mover . Caso contrário, você vai ter problemas com a luta, então você precisa lucrar com esse tipo de largura de banda. Você precisa estar ciente de quanto custa porque muitas vezes quando você quer dedicar um canal para mover dados, ele pode ter um preço. Você pode querer olhar para técnicas como e a compressão para ter certeza de que você tomar o banimento mínimo. Mas, na medida do possível, é todo esse concerto de unidade para sua arquitetura usado para rotular em armazenamento de vôo. Você está movendo dados de um local para outro. Certifique-se de que existem pontos de parada no meio. Nenhum ponto de parada baseado em arquivo. Então lá você, por qualquer motivo o cara do processo cai no meio de algo assim, você não perde todos os dados de vôo? - Não. Em Flint, gerenciamento de dados é muito importante na camada de transporte. Ou você precisa ter a capacidade de retransmitir dados que perderam em vôo. Você precisa ter a capacidade de recuperá-lo e continuar da esquerda casada, ou ambos exigiram algumas cruzes tart para ser colocado em para o arquiteto ing. Esta solução considerar medidas de segurança para evitar o roubo de dados está se tornando um problema muito importante , especialmente no mundo da Internet. Portanto, seu carro, seus dados, empresas corporativas, os dados precisam estar seguros à medida que passam pela camada de transporte. Normalmente, uma vez que atinge o persistente mais tarde este tipo de seguro porque, você sabe, nunca se sentiu um ambiente seguro. Mas quando é o transporte, mais se ele está se movendo através, limites organizacionais são Os dados foram movidos através da Internet. Há problemas de segurança que você precisa tomar bezerro. Espero que isso seja útil para você. Vamos sair e agora olhar para as opções de transporte na próxima imagem da perna. Obrigado. 13. Opções de transporte SFTP e sqoop: Oi. Bem-vindo a esta palestra sobre opções de transporte. Este é o seu instrutor, Cameron. Então, nesta palestra, vamos começar a ver Quais são as várias opções disponíveis para transportar dados da fonte para a pia. E nós vamos começar com o mais simples fora de tudo, que é o arquivo mover ou copiar Comando. Isso é algo que você teria sido usado muito. E você deve estar se perguntando, por que isso está aparecendo aqui? Sim, é bem simples e direto, mas ainda é uma ótima maneira de sair. A amarração arquiva nossos dados entre dois locais. Isso seria possível. É uma das maneiras mais simples de mover arquivos grandes. Ele é suportado em todos os sistemas operacionais. Se você estiver movendo dados entre sistemas operacionais, que é entre transferências de sistema operacional aqui, isso pode exigir alguns. Você está movendo dados entre janelas e pescoço Linux e coisas assim. Pode exigir algum software adaptador, mas ainda é possível. Andi, pode ser agendado rapidamente. Um automatizado todas as linguagens de programação suportam bibliotecas para movimentação e transferência de arquivos. Então isso torna a vida muito fácil. Se a distância entre a fonte e o destino é bastante filmada é que está dentro da mesma rede e coisas assim. Esta é uma das maneiras mais fáceis de mover arquivos. Ah, cópia do Final Um. Quais são as várias vantagens? Vantagens que vai ser simples e direto de usar. Não requer especiais. Não requer nenhum tipo de habilidade especial. Todo mundo sabe como fazer isso. Depende do sistema operacional e falhas muito simples e diretas, no entanto, entanto, que se você estiver movendo dados entre diferentes sistemas operacionais que exigiriam adotantes , quero dizer adaptadores. Em termos de governo ser software especial necessário para fazer este filme. Estamos movendo dados através de uma van que pode levar a um novo rótulo no início dos sapatos. É uma cópia movimento policial luta por si só não lhe dá um monte de segurança e criptografia, então há um tipo de problema. Além disso, gerenciamento de arquivos grandes e arquivos grandes que podem se tornar difícil se você estiver se movendo especialmente em largura de banda lenta, gravação lenta com canais para que tudo se torne um problema. Então, se é um bem simples e direto entre duas missões, esta é uma coisa bem simples de usar o que estamos tentando mover através de uma van através Internet que poderia ficar bastante complicado. Casos de uso, toda a nossa empresa dentro da sua empresa entre os servidores dentro da sua rede. Esta é a maneira mais fácil de mover dados. Esta é talvez a única maneira de mover dados dentro de sua empresa para amigos de mídia arquivados e copiados. Bastante simples e direto. Você faz. Tem seus casos de uso, qualquer raça, mesmo no Grande Mundo. A próxima ferramenta mais popular para transporte é sftp são protocolo de transferência de arquivos seguro. Sftp é uma queda de protocolo de rede para acesso e transferência de arquivos, e isso é suportado por nossos sistemas operacionais. Eso Este usa um canal seguro para proteção de dados. Por isso, internamente nos usa um shell seguro para mover dados de modo que, por padrão, prevalece criptografia e o que protege seus dados. Ele tem suporte para autorização de autenticação. Então isso de novo é bom. Então cuida dos problemas de segurança que Sftp tem em dados construídos Verificações de integridade em que quando ele está tentando mover dados entre uma fonte ou destino, ele faz verificações de integridade de dados, todas essas verificações cruzadas e onda todas essas verificações s e coisas assim. Portanto, certifique-se de que Rita tem feijão corretamente movido, ele pode assumir transferência de interrupção. Isso é uma grande coisa com a peça de segurança de seus dados móveis entre dois locais onde o próprio canal uma largura de banda lenta. Mas o arquivo é enorme na medida em que isso vai ser um recurso chave em arquivos carregam atributos básicos , você sabe, tipicamente arquivos lá fora em atributos como vezes, tempos e sobre os nomes e coisas assim. O ser transportado. Então, isso é um pedaço de informação que o destino pode usar por várias razões nele tem um suporte branco para todo o sistema operacional que um número de ferramentas que fazem isso é de PP que você cria é que fazer é de PP. Existem bibliotecas que podem fazer é FTP Então este é um protocolo muito popular que pode ser usado para mover lutas. Quais são as vantagens do sftp é que é um suporte branco off, fora aceitavelmente em todos nós e ferramentas e utilitários. Qualquer um de nós tem um par de diferentes leitores separados, um monte de código aberto e tipo comercial onde isso pode fazer como um sftp para você. É uma grande vantagem. Ele é maduro e amplamente aceito amplamente como uma coisa muito importante porque, especialmente quando você está tentando configurar qualquer tipo de transferência de dados entre duas organizações e você precisa entender o que é mutuamente ferramenta agradável para usar o mal sftp enganoso bebeu momento superior porque você fala sobre qualquer outra coisa que o que ele vai começar a falar ou saber sobre segurança um sobre este. O que sobre isso? Mas Sftp normalmente é um protocolo de uso muito comum que as pessoas normalmente concordam imediatamente com . E isso é tipo ftp de um handshake e interface entre duas organizações. Então, isso é muito popular para a chamada que você deseja manter em mente uma segurança de dados na Internet, VPN e van. Isso também é uma grande vantagem com este FTP, mesmo dados que estão lá em nosso bebê Emma. Às vezes você quer despejar eles e arquivos e, em seguida, ftp eles sobre para começar uma avaliação muito, uma maneira muito popular de mover dados, trocando dados entre nas deficiências de preços, firewalls podem ter problemas que f exceto sftp assim ah, unidade ou retirado, permitindo a abertura de barcos de bombeiros para permitir uma carne de segurança. Você está movendo-os nos preços. Os passaportes precisam ser compartilhados entre as partes, e possível compartilhamento é considerado uma obtenção menos segura nos dias de hoje. Se você observar como a nuvem está funcionando nos dias de hoje, isso geralmente é feito por meio de chaves P A e coisas assim. O passado dos gritos é considerado menos seguro. Ah, velocidades de transferência mais lentas porque há uma encriptação acontecendo que está cruzando frango acontecendo . Jackson vai fazer um. Isso resulta em velocidades de transferência mais lentas. Também use casos de compartilhamento de arquivos entre empresas. Esta é uma das maneiras mais populares em que as empresas podem concordar para compartilhar informações que uma ótima maneira de compartilhar informações porque ambas as partes, ambos os departamentos I D, seria ok em dar-nos ou dar aceito sftp tipo de acesso a qualquer outra pessoa. Transferências de arquivos de mídia é um DVD Comigo novamente é ótimo porque os arquivos de mídia são enormes e grandes no Sftp cuida de se certificar de que o seu próprio movido tem verificação cruzada, certificando-se que o transmissor corretamente mais vil e coisas assim. E, finalmente, claro, se você está movendo arquivos de log é novamente, uma ótima opção são removidos usando uma segurança a terceira opção que vamos estar olhando para nós. Apaches Cook. O que faz Apache colher Uma festa? Escopo é uma ferramenta de linha de comando para transferir dados entre bancos de dados relacionais e Apache Hadoop. Então você tem dados em um banco de dados relacional, que é tudo sobre tabelas. Colunas em você pode escrever uma sequela consultas e, em seguida, você quer que ele. Pegue esses dados e os transferiu para o Apache Hadoop como arquivos de lantejoulas. Ah, Badji Scoop é a ferramenta para usar agora você sobre você. O escopo permite que você faça planos fora de bancos de dados inteiros. Tabelas são os resultados de uma instrução SQL para que você possa escrever uma instrução sequela que tem um filtro de compra de grupo e coisas assim e você pode filtrar jogar para baixo na mosca neste banco pode transferir. Não tem nenhuma programação. É uma ferramenta de linha de comando. Você fornece um set off para-metros para a ferramenta, que é, você sabe, coisas como, onde está a minha fonte? Seu nome de base, driver, nome, nome de usuário, senha. Qual tabela ou banco de dados? Ou uma execução habilidosa e, em seguida, o meu destino vários. Meu sistema de coração para cima é o número de porta para o coração aberto coisas como essa neste faz a magia para você. E você pode então ler o script para este comando e, em seguida, automatizar isso usando s scheduler e que irá novamente manter a transferência de arquivos em uma base periódica. Ele tem suporte para vários formatos de arquivo como uma sequência bro. Trigo do parque são arquivos de texto simples no lado positivo duro. Ele pode realmente transferir dados para alta arte. HP também é e pode obter dados de alta base de gerenciamento, também de plantão. Rivers também quer que ele suporta paralelismo, então eles são escalabilidade com escopo Apache. A Andi. Ele suporta transferências incrementais. Quem pode identificar uma nova declaração, que é a coluna a ser usada para rastrear novos dados elementares sobre ele para se certificar que você vai manter o controle por si só. Onde pode Quais são os novos dados que as tabelas cada vez que um trânsito mantém o norte fora do que líderes extras executar desta vez? O que um lixo até o que eu preciso como processo desta vez para a próxima vez que ele começou vai começar a partir de lá e empresa um. Então, há uma grande capacidade que a escola oferece para você. Finalmente, suporte dos EUA para blobs. Também que mais uma vez uma maior Brundage. Se você está movendo dados para o furo é algo que o comitê de desculpas Amud no coração da comunidade, veio com nós uma grande recompensa movendo dados existentes no amontoado. E foi um simples, direto disse que funciona muito bem em Vamos ver, quais são as suas vantagens. Portanto, a vantagem é que ele é simples, direto de usar. É apenas uma linha de comando. Você pode simplesmente ir colocar em seus parquímetros e vai começar a trabalhar como mágica. Ele tem paralelismo para acelerar transferências, e é na verdade por direção, e você pode realmente mover dados de seu banco de dados relacional Duke back toe em Isto é ótimo , porque o que normalmente acontece é que quando um lote desenhar olhos data tipicamente empurrado para Hado em um monte de processamento acontece dentro trabalho duro em. Em seguida, depois disso, os dados são resumidos em classificação e amontoados. Em seguida, os dados de resumo podem ser movidos de volta para o banco de dados relacional de muito pode ser usado para fins de relatório. Então é bidirecional. Há excelentes vistas, deficiências. É predominantemente mentira próxima baseado. Então isso é como OK em, em seguida, abrir a segurança que ele não tem quaisquer medidas de segurança fortes como o passaporte para o banco de dados tem que ser dado na clara e coisas assim. Há algo que as pessoas estão trabalhando nele Ele não tem nenhum suporte de transformação embutido . Você pode transferir mais, transformou um para baixo a mosca. Você pode, é claro, fazer isso no próprio SQL. É na escola. Você não pode realmente que SQL que costumava buscar o que ele diz, mostra que você pode fazer alguma transformação. Esse furo em si não tem muitas vantagens sobre ele. Ele não tem qualquer suporte de streaming também. Então, ele vai ser uma ferramenta histórica que você executá-lo de vez em quando e continuar buscando lotes de dados. Quais são os vários casos de uso para scoop Hado backups baseados nos dados de Eros é assim quando você quer mover dados do nosso bebê deve ser difícil para backups. Você quer mover dados para hedge pays ou high? Você está em um dia de mudança que de seu trabalho de volta para Barbie negócio qualquer momento eles são Sra. Se a fonte é a pia, uma colher Patrick é o dito para usar. Isso é tudo o que está chegando assim, então esta é outra grande vantagem de um escopo de partido. Ótima. Oh, não fique em sua mente sempre que quiser tirar dados de nossos líbios para o coração. Abra para trás. Obrigado. 14. Opções de transporte Flume e Kafka: Oi, Você não está discussões sobre várias opções para o transporte. A próxima coisa que estamos olhando para nós gripe Apache. Agora, uma gripe de partido é um serviço distribuído para coletar, agregar e mover grandes quantidades fora do log e streaming de dados sobre o seu flume foi criado especificamente com o caso de uso fora dos arquivos de log e o meu onde você tem, você sabe, um número de servidores web, por exemplo, você pode ter um farm de observadores, centenas deles em. Em seguida, há três blocos que estão sendo atendidos nesses servidores Web, e você quer ser capaz de coletar esses logs de cada um desses observadores e, em seguida, enviá-los sobre um local central para processamento em grande escala. Há um caso de uso em que voou foi construído. O flume da veia funciona é que ele tem uma origem não, um canal e uma pia. Eso Arjun é uma fonte competente. É um modelo que é implantado em cada servidor de onde ele pode coletar dados localmente, e os dados coletados localmente são enviados pelo canal, e há um coletor no qual os dados são depositados. Este é um tipo de humor histórico depois, mais longo colecionador em todo o canal e depositante na pia. As fontes podem se estender por um grande número de servidores. Então você tem uma fazenda fora de observadores de onde você pode coletar esta cidade de dados através dele realmente supostos tipos de pessoas de fontes. Pode ser as fontes podem ser arquivos ou pode ser string. Então pode haver um aplicativo, um aplicativo local que está depositando strings no reboque, a instância do cliente chama local. Ou pode realmente fazer pessoas educadas. E você pode receber http post nele configurar e, em seguida, tópico não enviar o carro, o conteúdo do post através de várias coisas que ele pode realmente suportar com seus fluxos . Além disso, isso é apoio para o meu povo. Acho que os tipos, você sabe, dificilmente faltam. Hadoop cantar captura basing. Ele tem vários mesmos tipos. Ele suporta no fora da caixa. E você pode realmente adicionar fontes personalizadas e sumidouros através do tribunal, então gravar para que você possa usar fluto realmente transportar dados para se você tiver seu próprio aplicativo . Você sabe que tem seus próprios planos que estão sendo executados em vários servidores e, em seguida, você deseja transportar dados para o seu próprio dissipador. Você ainda pode usar flume lendo essas fontes personalizadas de coisas, entanto, que seu próprio aplicativo pode usar flume como um canal para enviar dados para seus aplicativos ao longo do lado do coletor. Além disso, há personalização que é possível usando flume. É robusto. Tolerante a falhas tem dificuldades como falhas e capacidades de recuperação bastante impressionante. Nós A. Lançamos recursos aqui. Eu também apoio no processamento de dados de voo. Então eles morrem movendo-se através do canal enquanto ele está se movendo no canal. Você também pode fazer algum processamento de dados, se possível, e isso é feito escrevendo algum casaco interceptor também. Portanto, há alguma capacidade de processamento de dados à medida que ele está se movendo no canal. Como é que um partido se acumula em termos de vantagens nesta conflagração? Eles foram Damaris altamente orientados por configuração. Basta ir para a direita. Um monte de arquivos de conflagração tão altamente configuráveis em termos do que ele pode fazer. Ele é massivamente escalável. Como eu disse, ele foi devolvido para coletar arquivos de log de vários servidores de representantes. Por isso, é massivamente escalável, e você pode fazer um monte de personalização lendo fontes personalizadas e canta personalizada em Java em que pode fazer um monte de processamento personalizado para você. estado personalizado, nossas fontes e leitores personalizados acham que é possível. Atirou no Cummings. Não há ordem lá e paz. Esta é a grande dor de cabeça com apache flume, e eu acredito que eles estão trabalhando duro para se livrar oferecido é que não há garantias de ordem no sentido de que você colocar um set off. Você colocou um set off eventos em um pouco de água ea fonte eles não veio abrir a mesma ordem no local pia. Então você precisa ter uma grande sua própria maneira de gerenciar, ordenando no lado cantar Uma vez que você recebê-lo, o dowdy ordenar os dados. É possível acabar com dados duplicados, o mesmo maior sendo transmitido duas vezes. Não há recursos de replicação disponíveis em termos de para um filme de festa, mas são casos de uso realmente qualificados que bloqueiam o envio. Shipping Log France é um dos principais casos de uso para Apache Froome. Twitter streaming é outro caso de uso, mas pode ligar o twitter e obter dados e propagar-se também, e também pode fazer o que é chamado de passagem servidor de borda, especialmente se você olhar um sistema móvel, você pode ter envelhecido Outros são os que se sentam na borda da rede e interagem com o mundo real em termos de interação com a lição de fio para coisas assim , você pode obter eventos em que mais baixo naquele ponto e colocá-los na gripe. - Homem. A partir disso, uma tomada formal de rochas de transporte iguala-se para o repositório central. Existe um dos outros casos de uso para frutas. Vamos ver mais um formigamento. Apache Kafka. Uma das perguntas que você estaria fazendo é, Por que há algo chamado Apache Flume e uma magia fora do carro e o tipo de sobreposição em funcionalidade? Exactamente. E isso é o que falamos antes é que há tantos números de produtos chegando, dólar por pessoas diferentes, e todos eles colocados em código aberto e eles estão sendo desenvolvidos de forma independente, e Em algum lugar na linha que você espera que um deles cresça em outro para cair. Eles são apenas muito juntos e criar um único produto? Nós não sabemos. Mas estes são um tipo de produtos sobrepostos. Eles têm capacidades comuns. Eles têm capacidades individuais separadas. Neste ponto, temos tantas opções por causa disso. A Patrick Afghanis são plataforma de corretor de mensagens de código aberto para radares em tempo real de carros CAF mais focados em tempo real do que Froome. Mesmo que o flume suporte streaming, Kafka está mais focado na compilação e nos feeds. Ele tem uma arquitetura de assinatura de publicação. Então Cathcart publica Tópicos, publica dia para baixo sobre tópicos que são assinantes ou se inscrever para esses tópicos sobre como e quando algumas novas informações são colocadas em Kafka para um tópico específico do que essa informação particular é fielmente cento todos os assinantes que recebem o tópico e, em seguida, processá-los. Então Kafka trabalha em US Publish assinatura arquitetura que desenvolveu em Lincoln, e é escala redundante. Outros diz-lhe, você sabe, ele já foi usado para algumas capacidades de escala da vida real. Os tópicos são publicados. Existem vários assinantes que podem ser para cada tópico que recebeu os dados. Um novo o líder Kafka lhe dá encomendar peça Garant, que não está lá em Froome. Zoff ordenando em tempo real. Solicitar um beta é importante para você. Uh, você sabe, é, embora você isso é uma coisa muito importante. Se queremos ordenação de dados em tempo real, então você pode. Eu usei Kafka para esse fim, acordo exigem para os editores. Subscriber Toe Interface para a tosse Não pode Kafka suportar certo carro tosse padrão suporta algum editor padrão do que assinante, mas se você está escrevendo qualquer coisa pouco personalizado você escrever algum código. Frase de inverno com Kafka não é altamente conflagração impulsionado como que voou falta para alguns áudio suporta replicação. Ele suporta alta disponibilidade para que os outros sejam diferentes, ficando livre apenas para Kafka sobre o que ele pode fazer a partir de um ponto de diferenciação de, hum, quais são as vantagens do Kafka? A vantagem é que ele é altamente escalável, realmente. Sistema de mensagens de tempo. Ah, um único tópico pode ser enviado para vários assinantes que tem uma bandagem maior. Ele também impede que você algumas garantias de ordem do veda que está entrando em seu sistema. Uma vez que você colocar a mesma ordem em que você colocar os dados, ele vai vir sobre a mesma ordem, que é uma grande vantagem. Deficiências de codificação Kafka são necessárias para editores e assinantes. Há algum código necessário que era uma espécie de sobrecarga, que você tem que encontrar para usar Kafka em termos de suporte fora do suporte que estamos falando. Suporte técnico, suporte técnico para bezerros. Não tão alto. Neste ponto, estou gravando a palestra quando comparada a flume. Então, há uma limitação. Claro que pode ir. E você sabe, é claro, os rebeldes lá para você sempre colocar algumas consultas e, em seguida, empilhar estouro um. Obtenha algumas respostas e coisas que estão sempre disponíveis. Mas se você quiser continuar cooperando suporte, então, sim, sim, existem algumas limitações sobre os casos de uso para Kafka, análise em tempo real. É um ótimo caso de uso onde você deve obter dados de, ah, grandes lugares fora em muitos editores e muitos assinantes. E você quer fazer tudo isso em tempo real. A panturrilha lançou um grande motor. Ele fornece métricas operacionais. Agregação. Esse é um dos casos de uso para os quais é usado. Quando são as métricas de operação? Temos basicamente como se você estivesse dirigindo um data center. Você tem milhares de servidores do EMS executando várias coisas e você quer acumular desempenho e eles sabem erros e alertas aliados em cada todos os servidores e recolhê-los em um lugar central e agregado e beleza em um carro CAF um grande tão grande dito para usar para esse tipo fora de uma coleção e ele pode ser usado para complexo, mesmo processamento como nós. Por exemplo, você tem todos os seus sistemas móveis são você está recebendo um monte de eventos de vários clientes móveis e eles devem ser coletados e acumulados em bezerros processados novamente. Uma ótima opção para isso também. Então você tem tantas opções aqui, como vemos para fazer o transporte, cada um tem suas próprias capacidades. É suas próprias vantagens e desvantagens em você. Você precisa escolher o competente certo para sua arquitetura com base no que seu caso de uso precisa? Espero que isto seja um inferno para ti. Obrigado. 15. Visão geral de persistência: Bem-vindos a esta palestra sobre persistência. Mais negócio. Mas este é o teu instrutor, Cameron. A persistência do big data é um grande desafio porque, como você sabe, é big data e o sistema de base de dados que vamos usar precisa ser capaz de escalar para esse nível para suportar petabytes de dados, terabytes de líder que é necessário para gerenciar o sistema de big data para que ele começou e ver quais são as várias responsabilidades de um modelo de persistência, especialmente na palavra big data. A primeira coisa que ele tem para oferecer ao módulo de persistência é confiável. Os dados de armazenamento de dados ao mesmo tempo colocados nas copas não podem ser perdidos de forma alguma. Em seguida, vem propriedades ácidas, vez que as propriedades são uma lista de propriedades do que qualquer sistema de banco de dados precisa reclamar. Estes foram consistência atômica cidade, isolamento e durabilidade em diferentes sistemas de banco de dados oferecem essa capacidade em diferentes níveis. Um grande jantar Não, bancos de dados SQL tipicamente são uma espécie de falta. Quando se trata disso, o RTB Massad, aqueles que são principalmente você sabe, mais diluído este aspecto. Então você precisa ter muito cuidado com o que você pode tomar e o que você pode perder quando você está escolhendo um banco de dados para o seu esquema de caso de uso. O sistema de banco de dados deve ser capaz de fornecer um esquema em que ele associa significado para que os dados que são informados no banco de dados que ele precisa e capacidade de suportar transações onde , especialmente quando você está tentando inserir dados em várias tabelas, você deve ser capaz de combiná-las em uma transação lógica. Dessa forma, você provavelmente pode controlar corretamente onde eles jantaram. Isso aconteceu onde as taxas acontecem em você sabe, quando algo falha muito claramente. Nossos recursos de acesso a dados, uma doca mais tarde, acesso através de SQL ou AP ICE e, em seguida, seu acesso aos drivers J. D. D. B C. Quando estamos tentando fazer programação, esses tipos de recursos também são necessários para ser fornecidos por uma resposta de banco de dados. momentos em que você está adquirindo dados são outro aspecto muito importante e os tempos de resposta necessários para o seu caso de uso. Minas de jacaré como uma forte influência na base de dados de guerra. Você escolhe para o seu armazenamento de dados e, finalmente, sua habilidade, Big Gate e sua escala multi cluster compartilhado nada. Há muitas arquiteturas competentes para criar uma arquitetura verdadeiramente escalável , algo que não depende, pois uma única CPU é uma única missão que você precisa para ser capaz dimensionar horizontalmente, e no final, número de caixas estão dentro. O número de volumes está entre os data centers para ser capaz de fornecer o verdadeiro A desativado no nível de armazenamento de dados. Então o que eu acho que você precisa para arquitetar como um arquiteto, mas a maioria das capacidades que você esperaria que nós fornecemos por uma solução que você obteria do código aberto do mundo comercial. A primeira coisa é, claro, sobrinha colaborativa de Big Data, Kayla Brady. Esta é a nossa casa. Mas nós queríamos sobre isso. Precisa de consistência em termos de armazenamento de dados deve ser consistente. Leia consistório correto consistente Saiba que todas essas coisas precisam ser aplicadas. Capacidade de suportar transações. Não, o banco de dados não está fornecendo suporte para transações. Então você precisa ter uma veia clara, que você pode implementar que, em seu próprio acordo, para fornecer transações consistentes, você precisa olhar para casos de uso intensivo de leitura. Pior é certo. Casos de uso intensivo e judeus e arquiteturas propriedade Itália. Às vezes é leitura e prata no tempo. É entrada direita, dependendo de cima em sua situação que você precisa olhar notável foi seu imutável Mais tarde e dados imutáveis é lutar uma vez Onley, imutável mais tarde mantém mudando direito intensivo e imutável dados comuns tipicamente em um cenário realmente tanque onde no mesmo dia que ocorreu, talvez desgastado novamente, com base no que está acontecendo. Então isso é algo que você tem o arquiteto para catalogação de dados, que é como esquema são metadados nossos dados sobre dados. Você precisa ser capaz de obter um bom catálogo, que é o que converte esses dados em um reservatório de dados adequado que você perdeu no gado 1º de agosto. Você vai fazer dupla aquisição e coisas assim no final e ver os requisitos. Sabe, você olha para um tempo real. Foi uma exigência agência histórica em tempo real Definitivamente precisa subsequentemente agência eso Há algo que você precisa pedir-lhe para criar a partir do momento em que você adquirir os dados todo o caminho para o seu relatório, você pesar as letras que ele tem que ser em segundos são um ou dois segundos. Então isso é algo que você tem o arquiteto para ser capaz de mover dados que pessoas rápidas e novas fazem. Ah, armazenar dados sobre a taxa de transformação em primeiro lugar é um requisito. A forças estáticas são senhores das trevas, mãe estreita em uma situação de big data, você vai estar encontrando muito fora. Eu dificilmente carregaria. Isso é quando seus cientistas de dados sentados para sair dos dados, fazer algumas análises, fazer algumas transformações em uma base de doca onde não um fechamento aconteceu. Normalmente, eles tentaram escanear um grande conjunto de dados, e isso vai sufocar seu banco de dados. Portanto, você precisa fornecer para esse tipo de capacidade escura também em termos de escalabilidade. Você sabe, quando alguém vai para estagiários e uma carga médica que não tem, não deve ser um que está afetando seus dados regulares passando já uma atividade regular de relatórios. Um escuro cargas em grandes bancos de dados de dados pode ser enorme. Eso Precisamos ter muito cuidado sobre quando e como não são fechar uma corrida. Normalmente, esses bancos de dados fornecem recursos para alocação de recursos quanto a quantas notas você deseja alocar e quão maney CPU você deseja no cabo, você precisa ser capaz de con esquecer e executá-los diretamente. Esquema flexível é algo que você quer ser arquiteto realmente claramente porque, você sabe, grande prova de dados para um monte de análise fora de uma doca. Esquema flexível é algo que você quer ser arquiteto realmente claramente porque, você sabe, Muito fora novos atributos de dados meu bom Arad à medida que o tempo passa, então você precisa fornecer para a capacidade de ter um esquemador flexível eso que seu analista de dados cientistas de dados você programadores engenheiros de dados podem continuar adicionando novos atributos não tem sido o show up sem ter que passar por qualquer tipo de dados. Basicamente, design é a população Regnery algo assim? Melhores práticas para a escolha de um modelo de persistência cavalos para cursos. Portanto, não há ajuste de tamanho único. Tudo isso é tudo na tecnologia de banco de dados que está disponível hoje para os grandes casos Eu usei ? Há uma série de bases de dados, boa avaliação, mas são todos cavalos para cursos, todas as estratégias por alguns anos casos. Então você tem que escolher um que se adapte ao seu caso de uso exato são, e às vezes você tem que ir e apenas vários deles. Você sabe que a mesma solução pode realmente usar vários tipos de banco de dados diferentes. Os Beemers e um tipo não obscuro de tempo de membro Armin dependem das especificações caso e você quer arquitetar a solução? Isso é o que é chamado provavelmente assistente Clark, que é os dados estão sendo armazenados em vários servidores de banco de dados diferentes nas propriedades A sempre sendo Joe. E com base no caso de uso, manter seu esquema Anders e eso flexível que esquema pode mudar a qualquer momento você pode continuar adicionando novos atributos a qualquer momento. Então, se você olhar para nenhum banco de dados SQL, esses são os que lhe dão a capacidade. Mesmo se você tem que usar um RGB Emma, ainda é possível dedo do pé ter em como uma espécie de esquema flexível. Se você começar a entrar em partes nome valor sendo armazenados em vez de criar em um colunas rígidas para coisas manter os dados a menor granularidade possível. Você sabe, você fala sobre transações mantendo um nível de transação de dados para que alguém esteja no nível. A razão é que quando você está falando de consulta flexível Munique falando sobre um desgaste escuro você não sabe, saber que tipo de casos de uso você é cientistas de dados em nossa lista vão aparecer mais tarde . Eu não pré alguns levantar os dados, mantê-lo um nível vai ler para que ele prometeu-lhes a flexibilidade para algum lugar que eles pediram eles querem e quando eles querem dados resumidos apenas se necessário, por exemplo, se você tem algum uso padrão casos, relatórios padrão que depois de executado em aqueles não em uma honra rápido o suficiente sobre os dados Grendler . Então talvez você crie três resumos diferentes, mas fique atento ao criar alguém. Não vá em frente criar cegamente um monte de resumos. Você sabe, isso é grande onda de dados. Normalmente, esses terríveis sistemas escalaram Berryville. A menos que você sinta que você descobrir esse tipo de grandes relatórios fora do ganso um dia que não assusta o suficiente, então só vai resumir dados. Considere suas necessidades de aplicativos em tempo real ao criar. Use o seu grande Gator base você para olhar tanto em tempo real um casos históricos e ver quais porta-copos uso têm mais prioridade sobre. Às vezes você pode realmente ter dois sistemas, um em tempo real. Outro para começou a viver lá. Esta placa é necessária pelo sistema. Não tente empurrar demais para criar uma solução adequada para todos, porque você pode acabar fazendo em número e tanques mais trabalho tentando criar essa solução do que realmente liberado em soluções diferentes. Acabe com os backups em big data. Não há lugar para backup porque estes seriam muito demorados. E restaurar dados também é muito demorado. Foi por isso que o Hado entrou. Ele surgiu com o conceito desligado. Ah, várias cópias Falk datam e não há necessidade de você pegar de volta. Então essa é uma das razões pelas quais fora de si veio em cena, e você quer continuar esse processo e não ter nenhum tipo de sistema de backup acontecendo. Portanto, cuidado com este e certifique-se de que você não vai exigir backups para seus dados. Nenhum arquiteto de tal forma que os dados por si só são replicados em várias cópias, e eles podem trabalhar em outras cópias quando, quando uma nota não está disponível, Obrigado. 16. Opções de Persistência RDBMS e HDFS: Bem-vindos a esta palestra sobre opções de persistência. Este é o seu instrutor Cormorant aqui, escolhendo uma camada persistente como uma das decisões mais importantes. Você nos faz um grande arquiteto de jacaré porque muitos dos problemas que o grande Gator são 11 pés a camada de persistência. Então, quais são as opções? Não temos assistência. O 1º 1 é o nosso bebê. Imus. Você pode se surpreender com isso. Um aparece na lista de big data porque são os problemas com nossa mãe bebê realmente desencadeou o desenvolvimento de soluções persistentes de big data como drogas duras e coisas assim. Mas o Big Data ainda tem um grande papel a desempenhar em arquiteturas de big data. Desculpe. RGB muscular tem um papel maior a desempenhar em um big data arquiteturas porque algumas das vantagens únicas que são o Bemis tem ainda não ser, você sabe, replicado no Big Data Solutions são tecnologias que temos por isso ainda tem um grande papel a desempenhar em grandes arquiteturas de jacaré. É estado armazenado e tabelas e colunas. Você por. Ninguém saberia disso. O que? Como eles estão? Bemis trabalha e praticamente todos na idéia teremos alguma experiência sem o ser. A maioria nem perde um construído para trituração de números. Isso é o que eles nasceram. Isso é o que eles têm sido muito, muito bons. Que eles têm excelente desempenho de consulta, excelente desempenho de consulta. Sua tecnologia é realmente, realmente otimizada para tirar o melhor proveito de seus recursos para obter o melhor desempenho de qualidade . As maiores limitações do nosso bebê devem vir com respeito à escalabilidade, porque quase todos são duvidosos sobre os produtos são construídos com base em um único servidor ah que está gerenciando tudo. É aí que entra a limitação. Esquema precisa ser redefinido desativado. Que sobre os nossos diplomatas. É tudo baseado em esquema, então você não pode realmente ter vapor flexível Ahmad Opinsky. Meu eu d. Ser erros pode levar algum tempo e recursos e colocar algum fim para as várias operações que você está fazendo em. Ele tem muito poucas opções maduras no artigo minha sequela, Post Grass Skipper e, em seguida, Microsoft sequela, então você tem muito poucas opções maduras e rd Beamer em mais provavelmente em sua empresa. Você já tem um desses são os membros correndo em ser usado de alguma forma. Assim como nossos demônios voltam de um ponto de vista vantajoso. É uma tecnologia muito madura tem estado lá por 25 anos em Dwight tem crescido e crescido e absolutamente otimizado para qualquer poeira, excelente desempenho de consulta em excelente terceiros e disse aos apoiantes quase e já , vemos Jenny apoiantes ocupados lá em todas as reportagens. Outra leva ferramenta ideal que você vai encontrar bastante simples em excelente suporte ácido . Mas se você quer realmente não se preocupar com consistência de dados e integridade, este é o dito para ir com pensar, pensar sobre o nosso Davey sente falta disso. Especialmente quando você tem, como centenas de clientes tentando trabalhar na mesma mesa. Você sabe, isso é o que são demônios realmente vem à vida. Se você olhar para todos os big data, eu uso casos que você normalmente tem. Você não tem, como como 100 são diferentes clientes tentando trabalhar na mesma tabela e inserir data. Eu sei que é tipicamente um par de clientes fora em um grande encontro de um mundo que está fazendo algum apelo, cruzando e tentando inserir um atualizado Eu estou balançando minha preocupação para cima. Isso não é bem assim. Nosso bebê deve realmente brilhar quando você tem tantos clientes tentando atualizar o mesmo. Nossa mesa tem o mesmo registro. É aí que nosso bebê deve realmente entrar em jogo. As deficiências são escaláveis. Seja em tamanho com respeito, terabytes e gigabytes. Ele tem um esquema bastante rígido, isto é, é um tiro vindo. Você precisa ter um esquema pré defesa. São com tabelas e colunas para dois. Claramente trabalhar na promotoria Sempre que você quiser mudar, o esquema vai ser um caso muito caro. Custo, é claro, se você está comprando artigo que um dos produtos mais caros que você pode comprar hoje em Dog Também Microsoft sequela. Sempre que você está falando sobre escala, estes são apenas Bemis. Ele vem com um monte de custo de hardware e software associado a ele são o Nós não deve ser bom com armazenamento de tecnologia, mesmo que hoje eles suportam blobs e coisas assim. Eles ainda estão faltando em termos de um monte de processamento de texto, recurso de uso de texto para que isso não está lá? I o USB off não Baby Messina argumentos é tudo sobre número crunching casos de uso para o nosso bebê deve. Quando usamos nosso Demus é que queremos armazenar meus dados. Se você estiver criando seu próprio aplicativo personalizado e tiver dados em um repositório de big data. Big data não tem sido tão bom com a manutenção de metadados. Mesmo se você olhar para algo como oi oi oi. Usos internos. Eles estão sendo mais para manter o controle de suas principais modificações e outras coisas? Então isso é usado para Andre Bemis lá em. Mesmo que você esteja usando suas próprias soluções de relatórios personalizadas são soluções ideais. Você ainda pode usar argumentos para armazenar moderador. Moderador é tipicamente pequeno em que faz um grande reservatório, talvez torna muito fácil. Casos de atualização múltipla são dados de trabalho em andamento. O que isso significa é que quando você tem um registro que tem que ser continuamente atualizado fazer especialmente com vários clientes. É aí que nosso bebê deve ser usado quando usamos atualizar mensalmente nossos dados de trabalho em andamento . Não estamos falando de terabytes de petabytes de dados porque não estamos falando de sobriedade de um ano. Estamos falando de dados em andamento, mas assim como a luz, transações leves vivas usam nossas sessões. Não, isso não é Terabytes indecisos. Normalmente, isso não é lugar fora principalmente tembisa máximo jeebies. Então, o que você faz com o uso e são sonhadores como uma loja temporária mais tarde. Então, quando? Digamos que alguém se drogue em obsessão, você cria um recorde para ele e não se deve perder. E você pode continuar continuamente atualizando o registro foram decisões e progresso quando a sessão porque você não iria pegar esse registro, colocá-lo em um armazenamento de big data. E sabemos que Derrick Ultramar dbm é que nós o número de registros e nossa falta de bebê será como, muito mínimo. Enquanto você pode apenas você pode usá-lo para o cenário multi-operação. Neste, você pode usá-lo para armazenar dados de resumo, que é você pode usar big get out para todo o processamento que você quer ir e quer que você nos pressionando. Alden, O resumo que sai esforço talvez você possa usar e nossa Deb Amos novamente. Os tamanhos podem não ser tão grandes quando você está olhando para alguns dos resultados dos dados. Da mesma forma, se você estiver olhando para alguma análise e, em seguida, você quiser colocar compilar alguns resultados e, em seguida , armazená-los em uma tabela, isso é novamente um bom lugar para pagamentos árticos porque lembre-se que relatar fora de nosso músculos do bebê muito fácil. Então colocar alguém, isso é tudo estado e nosso bebê deve fazer sentido, desde que as decisões não sejam tão boas. Quero dizer, tipicamente, se você pode usar um RD que os membros usam e rbb emocional, isso é muita tecnologia. Isso foi algo que funcionará para você em qualquer tipo de caso de uso. A próxima opção que temos é HD Fest, que é o sistema de arquivos que vem com Huddle. Agora, este é o único que revolucionou todo o padrão de big data. Foi aqui que tudo começou. Se você olhar para Hoekstra aqui primeiro, o propósito para o qual o alto Davis foi criado era armazenar arquivos no sistema de arquivos que não se limita a, como uma caixa em um sinal ou algo assim no sábado. Este é um sistema de arquivos distribuído que pode abranger milhares de nós. Ele pode armazenar como arquivos muito grandes, e os arquivos podem, como, realmente, você sabe, estender por tantos norte. Um único arquivo nele também tem uma boa maneira de manter várias cópias do mesmo arquivo, o que significa que ele elimina a necessidade de qualquer tipo de backup. Ele pode ser executado em servidores de commodities que não precisa, como um mesmo tipo caro de configuração. Ele pode apenas ser executado em servidores de commodities. Isso faz com que seja muito mais rentável. É um fracasso norte siciliano. Você pode ter milhares de notas de algumas notas falham em qualquer momento. Isso é OK. Ele continuará a ser executado porque mantém o controle dos dados e enviá-lo e fazer backup cópias. Pode afundar um pouco. Então tem todo esse tipo de coisas. Sabe, cada um de nós foi mergulhado. Foi originalmente criado dedo do pé, nascimento rastejando tipo de projetos onde você sabe que alguém está chamando o Google verbal e Yahoo de. Começaram a rastejar na Web e a recolher tantos dados. Eles precisam de um lugar onde eles querem colocar todos os dados, e é aí que eles têm realmente esforços Greater HD Evers têm sistemas semelhantes para armazenar dados através de servidores de dinheiro em que é um caso de uso comercial. Forragem aqui foi ainda hoje, é uma fonte aberta de projeto de festa. Claro que é de graça. Você pode apenas baixá-lo e começar a usar a data e nós queremos. Ele pode ser dimensionado de um servidor para qualquer número de servidores. Ele tem uma limitação fora do balcão e Windows, mas as outras pessoas estão tentando encontrar maneiras de contorná-lo. Na verdade, sempre que os servidores foi Burton Java ou fácil de colocar através, e quaisquer camadas que você quer em uma perda para a execução paralela do meu produzido um ver ao ler um mapa produziu-nos que pode processar dados e realmente FSO no meu produto tarefa são capazes de executar em tantas notas diferentes e em batalha, e que lhe dá e capacidades fenomenais. Se você voltar no próximo ano primeiro com os outros. Quais são as vantagens é que ele é massivamente escalável e rerotulá-lo também corretamente processamento de dados . Isso é ótimo, e não precisa de backups, e é muito econômico. Portanto, nenhum backup, muito econômico. Sua finanças Gray vai permitir que ele também parcialmente mais tarde processamento. Então isso torna as coisas muito rápidas. Mesmo Steven toe a quantidade de dados que é armazenada é bastante alta. As deficiências não tem nenhum índice. Você, se você quer ter algum tipo fora de busca que vai ser muito lento, você quer vendê-lo por um disco? Sim, vai ser uma preocupação muito lenta com a segurança. Um escravo não é assim tão seguro. para que você precise nos cercar de segurança externa para garantir que os dados não facilmente violados. O mapa produziu programação em seu caminho sobre este tipo de limitado a programação Gela das outras linguagens de programação tem alguns pipes e outras coisas, mas internamente, Java é o mais otimista. Um para você trabalhar com esforços de alta definição. Isso é uma limitação. Casos de uso, travar incêndios. Sempre que você tiver arquivos de log brutos e quiser armazená-los, esse é o caminho a seguir. Apenas vá despejá-los. E então, depois disso, você pode talvez processá-los e será usado A J visitas no estrangeiro ou pouco mais de uma história nas reservas. Mas uma vez que você pega a barra de dados, ele luta. Este é o lugar para colocar arquivos de mídia como gravações, arquivos sábios, videófilos, audiófilos. Este é o lugar para colocá-los. Ele pode realmente nos servir backup on-line para o nosso bebê, meu estado alega em um seus dados em um debate, Emma e sobre, em vez de usar um sistema de backup como um backup em fita são abordados, volta de você pode usar Extreme tem em backup on-line para dados de caça das mulheres Isso também é muito bom Use Beijo fora do estúdio. Nosso bebê. Imagine ao lado para nos dar um do velho mundo e um do Novo Mundo. Casos de uso muito diferentes são assim que você pode ver e nós vamos continuar vendo mais, uh, exemplos fora, uh, lojas mais verdes por 17. Opções de personalização Cassandra e MongoDB: Oi. Continuando nas várias opções de persistência. Seu estoque Sobre Cassandra Cassandra é uma loja White Column Big People Leader. É uma sequela sem. É classificado como uma loja de coluna branca. Quando você diz que é uma loja de colunas de pano branco, ele tem mesas. As colunas são muito flexíveis na medida em que você pode continuar adicionando qualquer número de colunas que você deseja. Você não precisa de uma operação NA como toda a tabela qualquer coisa assim. Quando você está inserindo dados, você apenas dá um novo nome de coluna e ele vai pegar por si só para que você possa continuar adicionando nova coluna. Não há operações especiais como adicionar novas colunas. Quando você insere que eu dou um novo nome de coluna e ele vai pegar, e ele vai começar a usar. Assim, você pode ter qualquer número de colunas para uma determinada linha entre linhas. Cada linha pode ter seu próprio conjunto exclusivo de colunas, se você quiser. Oh, não é necessário que todas as colunas tenham tudo isso com o mesmo nome de coluna, então é bastante flexível quanto ao tipo de dados que você pode armazenar dentro de uma linha. Assim, com cada linha tem o que você chama de uma chave para a estrada e, em seguida, uma lista de atributos que são considerados valor de nome. Mas isso é uma chave para a linha e, em seguida, uma lista de atributos que não precisam de parte Valley. Então a coisa mais importante em Cassandra é que uma chave, a chave para o IRO. Contanto que consiga essa chave, , Castle tentará ser um banco de dados muito útil. É um código aberto que foi desenvolvido pelo Facebook que lhe diz a quantidade fora, Ah, escala, capacidade como construção no sistema. Na verdade, muitas das tecnologias de big data são desenvolvidas internamente por um desses, um novo mundo da Internet, James como Facebook, Linden com seu Google yahoo. E então eles os fizeram código aberto. E isso diz que eles são aparafusados para realmente grande escalabilidade. Tem que animus veio como você tem falado dentro de cada Faça seus atributos. Considere o nome mal passou. Você pode continuar adicionando qualquer número de atributos que desejar. Tem uma arquitetura descentralizada agradável que pode manter a escala da asma. Você quer que as falhas do Norte não afetem o desempenho geral são a confiabilidade que tem uma responsabilidade absolutamente maior. Ah, a melhor coisa. Nossa impotência em primo seca que há um único índice para cada tabela. Há apenas um índice e esse índice como ser como baseado no Rocchi e falando sobre o tempo que você usar que quebrou. Ian, suas qualidades de perguntas serão absolutamente ótimas e absolutamente rápidas. Se você não pode usar nossos argumentos quebrados que quebrou na consulta termina ter sido uma verificação de tabela completa . Isso vai ser muito, muito lento. Então os casos de uso da Cassandra que vamos ver mais tarde também é que eles estão meio limitados a onde você pode ter este belo single. Uh, eu d para cada fileira. Se você olhar para o Facebook, Eu acredito que as idéias basicamente seu uso já. Então eles têm um dro para cada usuário identificado por que usa idee. E dentro disso uma linha, eles podem armazenar qualquer tipo de informação sobre o usuário como tantas colunas e qualquer pessoa em gigabytes de dados sobre esse usuário. Mas a exploração é baseada nisso. I d. Ele tem excelente desempenho de consulta de linha única se você está saindo com base na idéia. Então, quando um usuário do Facebook ama, e você está leva que os usuários logar i t e qualidade para escuro, gravação específica sua tabela. Sim, você vai caber. Obter esses dados assim e você pode fazer o que quiser com os dados. Ele tem desempenho de varredura de alcance ruim. Se você estiver indo para digitalizar para uma gama de dados, você vai estar digitalizando para me dar todos os usuários cujos dados sobre o grande com eles assim e assim. Ok, isso é bom para sempre voltar. Ele não tem suporte de agregação. Como você sabe, , nós precisamos de você. condomínio cresceu em média. Ouça, tem algum tipo de operações como essa? Como eu disse, este é como um tipo muito especial de tabela onde ele tem todas as informações sobre um usuário ou qualquer objeto. É mais como um objeto. Mais tarde, basicamente, há um objeto que é um objeto, Eddie e um monte de outros bens para o objeto. Enquanto usares aquele objecto que o Ian, vais estar a funcionar. Realmente grandes vantagens do Cassandra é que ele tem excelente escalabilidade e desempenho. Grande escalabilidade. Não é nenhuma sequela. Ele foi construído para o novo mundo, e é realmente escalável. Segurança muito forte, construindo vários direitos com excelente desempenho. Então, enquanto nós novamente, quando você está fazendo atualizações para registros e essa atualização carrega esse único crescimento I d. Você pode atualizar os registros qualquer número de vezes que você deseja ir e remover. Contribuir para que a África lhe dê toda essa capacidade com excelentes deficiências de desempenho . Não há suporte a transações, então você tem suporte a transações duplas em seu próprio aplicativo. Não há recursos adequados que você não pode escrever e, bem, tipo de consulta contra qualquer tipo de coluna porque vai demorar uma eternidade para voltar. Não há suporte para grupo por. Não há apoio para gigantes, então essas são as limitações de Cassandra. Se você ir para qualquer fora deste banco de dados sem sequela, você vai ver isso e mais tarde Eles são tipo de muito limitado e funcionalmente comparados. Toa ordem não bebê deve Cando. Estes são como construídos para casos de uso específicos, e você precisa identificar o caso do Daddy O e usá-lo para eles de outras maneiras. Sabe, não há tamanho único. É tudo neste ponto do mundo das sequelas do Norte. Os casos de uso para Cassandra é você quer construir um cliente? 3 60 Um cliente 3 60 é como obter uma consideração para fornecer uma visão de 3 60 graus de um cliente. O cliente. 360 gravadores. E se eu comprar o costume já nos dados, você pode colocar qualquer tipo de dados que quiser sobre o cliente associado ao cliente. E o gatilho nisso é algo. Este é um caso de uso muito bom, na verdade, porque você vai para qualquer empresa em qualquer lugar onde há este conceito de um objeto ou um cliente, certo? Está perto do cliente? Pronto e em torno de seu costume. Pronta. Você quer manter qualquer fim de dados sobre o cliente, e este é um ótimo caso de uso para isso, porque sair para esse cliente torna-se muito fácil . Então, sempre que você quiser uma consulta sobre o uso de um cliente eu vou aqui e você pega o jato. Eu gosto disso, mesmo que você tenha milhões de clientes. Isso é especialmente verdadeiro se você estiver olhando para um sites maiores como Amazon ou Facebook. Lincoln é o momento dos registros de usuários, e você só vai e talvez puxou o registro para o usuário e memória. E, em seguida, isso é muito rápido Monitoring sticks status e analytics. Isso é nas operações Analytics, onde cada nota se torna um objeto. Então cada Notre cada servidor que você tem se torna um objeto. Então há o parceiro Wonder Card, e então você manter o controle de tudo sobre esse servidor em particular nesse registro. Ah, baseado em localização Olhe para cima novamente. Locais podem se tornar o índice e, em seguida, você pode transportar qualquer tipo de informação sobre o local. Então há tudo isso, nossos casos de uso da Cassandra. Você vê a maior parte do dado que é construído no Facebook. Você vai ver que os casos de uso são muito semelhantes toe O que o Facebook pode estar usando o próximo que vamos estar vendo é mongo DB outro banco de dados sem sequela muito popular. Mongo DB é um banco de dados orientado a documentos. Em outras palavras, você estará armazenando dados como documento. Estes documentos estão no formato Jason, e Jason, como você pode, como você sabe, tem atributos e valores. Você também pode ter documentos Nestor dentro de Jason, modo que lhe dá um monte de capacidade em termos do que você pode começar até mesmo armazenar como, ah, vários relacionamentos em um um para muitos relacionamentos e coisas assim dentro mongo DB Tem consistência bastante forte no dia que se você olhar para a propriedade ácido mais fácil, dá-lhe Strunk. Entenda, Veja, dá-lhe uma linguagem de consulta expressiva. Adquirir opções no Mongo DB são muito bons, e você pode rapidamente em qualquer tipo de coluna que você quer, e você pode fazer um monte de coisas na consulta. Ele suporta vários índices. Isso é coisa boa. Você pode criar vários índices na mesma tabela em colunas que você usaria frequentemente para sair. Ele tem suporte para agregações como alguns que você está indo para usar cresceu em algum min média. Max tem grandes opções de escalabilidade de Deus. As opções do aplicativo falham em nossas opções. Ele usa um modelo de escravo mestre em. Então eu posso escalar entre pessoas de animais uma série de nós, e é um dia muito bom de um banco de dados de propósito geral. Na verdade, no mundo da sequela do Norte, este é o mais próximo que você pode chegar de uma obrigação RGB. Então, se você está tentando substituir e nossa Deb Amos, esta pode ser sua combinação mais próxima. Ele não cumpre todos os requisitos fora em nosso bebê muito, mas este é o jogo mais próximo que você vai entre ir para ser vantagens de comparação é suposto vários índices. Isso é um ótimo em um, certo, então isso torna igualar qualquer tipo de atividade muito fácil. Ele suporta. É uma fonte aberta. Claro, isso significa que este livre para que você possa obtê-lo e começar a usá-lo. E acabei pagando qualquer dinheiro por isso. Ele tem um suporte de sequela forte e alcance, modo que a linguagem de consulta é muito caro, a fim de escrever muito fora do tribunal para tipo de obtê-lo fora sobre as linguagens de consulta. Muito expressivo, e é realmente muito fácil de usar. Ele se foi de suporte e um monte de linguagens de programação. Bibliotecas estão disponíveis em um monte de programação. Linguagem não é muito fácil de usar falhas. Não há suporte para transações. Como Cassandra, não há suporte de chave estrangeira, então você tem que aplicar chaves estrangeiras em seu código. Isso é um trabalho, de acordo com você. Também não suporta juntas. Agora, se você olhar para a articulação, você vai começar a sofrer. A maneira é que nenhum gigante sobre isso é praticamente porque no nariz, mundo igual seu próprio esperado para John, uh, não há como que você normalmente armazena dados e é maneira normalizada. Você não espera estar fazendo gigantes como você faz em relacional, seja lá o que for. É por isso que as pessoas não estão colocando que dar ao luxo de criar articulações no mundo igual nariz. Então você também precisa ter certeza de que suas aplicações quando você está conectando você tipo de d normal é todos os seus dados e armazená-los em uma normalização d. Portanto, não há necessidade de articulação para você. Isso é algo que somos um arquiteto. Preciso ter certeza ao usar esses casos de uso de bancos de dados de sequela para a mãe. Estariam certos? Uma velocidade, muitos armazenamentos de dados. Então você pode fazer isso se você vai fazer isso direito. Uma rua, muitos mais tarde. Então isso é muito wannabe usá-lo, isto é, Você faz todo o seu processamento completo apenas opressão. Então você vai e coloca o banco de dados mongo diurno Você quer começar documentos? Este é um ótimo lugar. Qualquer coisa. Eu tenho coisas armazenadas, documentos como em você vai estar recebendo alguns tweets de usuários são pose de mídia social e você quer armazená-los. Você está tentando realmente extrair? E eles são texto blawg das páginas da Web das armas disse-lhes, Este é um ótimo lugar para começar. Entre seria é uma ótima opção para você fazer análises em tempo real porque é muito rápido. Então você quer obter um Ele tem toe demonstrar o direito no Texas, e então você pode usá-lo para fazer alguma análise em tempo real, e é um possível são eles ser mais substituto que você pode usá-lo para também, De modo que este é alguns dos coisas boas que estão lá para o meu próprio bem. Muito popular, propósito mais geral que a Cassandra. Tem suas limitações. Eu acredito que eles estariam trabalhando em um total resolver todos nós. O tempo de massa continua como falamos sobre todos eles. Comece com um caso de uso específico e, em seguida, eles estão tentando expandir o alcance são alcançados em todo o nosso caso de uso múltiplo. Obrigado. 18. Opções de Persistência Neo4j e ElasticSearch: continuar com mais opções de assistência. Vamos obter Tonio Forgy Neo quatro J é um banco de dados orientado gráfico, e ele constrói com relação. Então, quando você diz que é um gráfico, estamos falando de uma série de objetos sobre como eles estão relacionados uns com os outros. Portanto, este não é apenas um relacionamento de 1 para 1, mas também como eles se comportam como um grupo. O melhor exemplo para socializar perto de Jay olhando, você sabe, você sabe, amigos do Facebook são Facebook, Friends Circle ou o relacionamento Lincoln. Então, onde você é uma pessoa mais tarde cheiro do dedo do pé de outras pessoas. Fomos mais cedo para outras pessoas que se relacionaram. É como uma cadeia de relacionamento contínuo ou gráfico, como tantas pessoas relacionadas a tantas outras pessoas. Um, Neo 4 J é um banco de dados que é útil para armazenar esses tipos de relacionamentos onde você tem um monte de notas e há relacionamento, e esse relacionamento por si só tem alguns atributos. Normalmente, se você quiser armazenar esse tipo de coisas em uma mulher estranhamente, você estará tendo um monte de mesas infantis tentando roubar esse relacionamento. Mas perto de quatro j dá-lhe uma ótima maneira fora da loja em relação. Júpiter banco de dados muito especializado que é usado para armazenar este é usado para casos de uso relação importa, como como um objeto está relacionado a outro objeto. É um ácido reclamou que esta é algumas das maiores coisas sobre perto de Jade. Surpreendentemente, você descobre no mundo igual que você tem um banco de dados que está perto da nossa bebê Emma. Em alguns desses atributos, como esta queixa de ácido, é o suporte de transação de Deus. Tem uma excelente linguagem de consulta gráfica. Ele foi para o apoio conjunto, então isso é tudo coisas boas sobre mim. Você está longe J. Mas então é limitado como você quer. Relacionamentos na loja. Ele tem relacionamento muito rápido Travers e ver uma das três notas de viagem, embora encontrar relação entre NB. Suponha que você queira apenas fazer uma pergunta. Eu ajudava a Person Bay. Há mesmo um relacionamento salva-vidas Lind Lind Quando você mostra que Ok, este é como o círculo pagar do quinto círculo em que você está relacionado a um são. Às vezes você diz que você está conectado a ele por, e isso vai mostrar sua árvore de como você está conectado ao Neo 4. J ajuda seu dedo do pé armazenar informações e sair de informações como essa. Isso é o que são os principais propósitos. Vantagens off neo quatro J transação e como seu suporte. Certo, um teve uma dor de cabeça a menos. Se você estiver usando este compacto, se nenhum banco de dados de sequela e ele tem excelente suporte de consulta, ele tem grandes viagens. Um bilhete de amor. Então você pode fazer isso viajantes tudo em tempo real e obter algumas informações fora dele sobre ele. Mapas fáceis aplicações orientadas a objetos. Normalmente, quando você diz qualquer tipo de banco de dados que você deseja usar, eles não mapeiam diretamente o objeto do dedo do pé ou entraram no mundo. Você sabe que é aí que você tem todos esses modelos relacionais de relacionamento de objeto que as pessoas criam entre o mapa do dedo do pé do pé do pé do pé. O pedregulho relacional, o objeto com no caso de Nova York para gays, ele combinava muito facilmente e arigato o objeto ou em drogas porque fala sobre objetos em relacionamentos e ações. Atirou no Cummings. Ele não tem gerenciamento de usuários de construção. Eu acredito que algo que vai conseguir eles vão ser vendidos como você vai em frente. Não tem nenhuma agregação à parte. Oh, não, nenhum grupo. Eu sei um tipo de coisas comuns, e geralmente não é adequado para dados. Não, não tem muitos relacionamentos. Portanto, se seus dados não têm relacionamentos são relacionamentos não são importantes para o seu caso de uso são não há nenhum ponto em usar seus fudges. Então este é um banco de dados muito especializado que você quer usar somente quando você realmente precisa dele. Casos de uso. Um Gerenciamento de Dados Mestres no Gerenciamento de Dados Mestres Você está tentando armazenar informações sobre relacionamentos como entre dados de dados. Você está tentando falar sobre um objeto objeto ou mesmo entre Newt Nora? Há muitos músculos. O gerenciamento de dados é um lugar onde perto de 40 anos vão sem pedra Qualquer vez que você ouve a palavra rede, essa é a coisa certa. Para viver seu modelo de água e 19 rede, você tem uma idéia para meninas. Então notas de dinheiro e servidores e switches e, em seguida, você quer encontrar o que está relacionado com o que este é um lugar que você pode usá-lo. Da mesma forma, você queria, oh, modelagem de redes sociais como o Facebook faz o Lincoln melhor. Isto está debaixo do lugar. Este é um muito bom, há maneiras de usar para esse caso de uso. E também, se você estiver indo para usá-lo para gerenciamento de identidade. Sabe, você tem tantos usuários. Você tem tantas aplicações, você sabe, que é que pode usar aplicação de água. Que tipo de admissões eles têm em cada uma dessas candidaturas? São autorização de autenticação? Se quiser parar com esse tipo de informação também, sabe, porque GE é seu filho recentemente, eu não pedi isso neste banco de dados. A critério é o banco de dados especializado. Muito maravilha ainda relacionamentos, Você sabe, um grande número de pessoas, um grande número de pessoas, especialmente quando você quer criar esse tipo de mapa de relacionamento. Este é o único para ir porque em todos os outros lugares ele vai falhar porque você quer fazer o mesmo tipo de coisas Em argumentos do RIA, por exemplo, você pode estar escrevendo em menos número de John para obter a mesma informação. Então isso não vai funcionar. Próximo. Queremos outro banco de dados especializado que é chamado de pesquisa elástica. Agora eu último exerço é um motor de busca de texto completo. É um motor de busca de quatro textos. Onde é que eu nos disse? Texto como armazenado em nossos tributos nomeiam partes iniciais. Eu sou. Você pode pesquisar basicamente em qualquer texto que você quiser. É um armazenamento de documentos distribuído, o número altamente escalável de nós muitos falhar seguro e todas as coisas vêm com ele. E são esses documentos no documento como texto, e você pode procurar qualquer coisa neste texto ser. Isso ocorre porque cada campo é indexado e pesquisável. Os documentos são bordas típicas dos documentos. Então todos os nossos tributos são indexados, para que você possa indexar uma mordida antes de não saber criar. No Texas, cada campo é índice e todos os religiosos pesquisáveis. Há seu excelente desempenho de consulta, tanta flexibilidade e tanto desempenho em termos de onde os rendimentos da pesquisa elástica e pode assustar centenas de servidores para dados estruturados e não estruturados tanta flexibilidade e tanto desempenho em termos de onde os rendimentos da pesquisa elástica e pode assustar centenas de servidores para dados estruturados e não estruturados apoiantes de agregação de que. Isto é fenomenal. Você pode fazer qualquer tipo de busca de qualquer tipo de dados sobre você pode já ter me começado a pensar , você sabe por quê? Faça-o então. Os outros bancos de dados não, porque elástico não é aquela espada dourada em áreas. Vamos ver que também a vantagem de surtos elásticos que tem excelentes recursos de pesquisa. Ele tem suporte agregado, e tem um esquema agradável e flexível, e se você quiser construir um banco de dados que as pessoas possam usar para pesquisar qualquer coisa e tudo, este é o único para ir contra as deficiências. Não há suporte ácido em não há suporte SQL. Ok, é aqui que você começa a ter alguns problemas com este banco de dados e há alguns riscos de perda de dados. Isso é um problema com o produto. Atualmente, possivelmente eles iria corrigi-los como o tempo sobe, estava em. Mas isso é algo que as pessoas têm falado que possivelmente é debater por último. Mas, claro, acredito que a empresa estaria trabalhando em consertar essas coisas. Casos de uso não recomendam como histórias de coação primárias. Já vi isso em muitos lugares. Pessoas que não recomendam. Ok, não use isso como um dado primário ainda para você, mas usá-lo não se opõe. Armazenamento de dados onde você também popular dados para este banco de dados que, em seguida, as pessoas podem usá-lo para fazer qualquer tipo fora estão adquirindo e construir e agregação e o que não? Elasticsearch também vem com o tom associado visualização dito chamado Chibana KB Qualquer eso, você pode usá-los em combinação para fazer qualquer tipo de um desgaste escuro na agregação É uma ótima ferramenta para análise em tempo real, especialmente analítica em tempo real para adultos. Um dado pode ser adotado. Dados em tempo real podem ser roubados. Cirurgiões elásticos, documentos. E então, sim, você pode fazer qualquer tipo fora do Alex. Isso foi muito rápido. Excelente desempenho s. Então este é um bom. Você costumava fazer isso como uma Abbey mais objetiva, onde você armazena dados e um formato anômalo bastante flexível . E então as pessoas podem fazer qualquer tipo de desistir sobre esses dados uma ótima opção sob a ótima opção para considerar se você não está deixando a agregação é uma coisa importante para você com big data. Obrigado. 19. Módulo de transformação: Tudo bem. Bem-vindo a esta palestra sobre o modelo de transformação. O modelo de transformação é o lugar onde, tipicamente, o arquiteto de big data pede por Lester. Os desenvolvedores gastariam muito tempo, estão tentando projetar e desenvolver registro como um monte de espaço. Boa atenção ao que acontece na transformação. Então, quais são as responsabilidades em relação à transformação? Mais negócio Em uma situação de big data, o primeiro seria limpeza de dados estão olhando para os dados e treinando um monte de coisas indesejadas. Extra Jack Garble General. Remover quaisquer caracteres de gin que tipo de coisa são datas de reformatação anteriores, e há um monte de Tenzing que normalmente acontece em dados, especialmente se os dados são provenientes de redes sociais são de algum tipo de aplicativos de chamadas na Web você também pode estar filtrando dados, o que está removendo quaisquer dados indesejados. Existem dados incompletos que você não deseja usá-los para processamento futuro? Ah, padronização. Então organização em termos de data anterior como por meses, nome por meses. Alguns acreditam que conteúdo, e você quer fazer como você precisa de maiúsculas, todas maiúsculas, todas letras pequenas. Agora todos os tipos de padronização que você quer fazer e você quer antes de tudo, Também certifique-se de que o que você precisa para deixar pedra em todas as posições de areia que você quer fazer porque isso torna as coisas muito mais fácil quando você vai para baixo a linha para fazer vários enriquecimento de dados de atividades. Como, você sabe, adicionando qualquer nome, esta é a coisa da anomalia, você sabe, você quer ser normal está em nossos nomes em todos os lugares você não quer manter um monte de referências coisas de integridade quando se trata de big data. Você quer ser normal é todos eles e colocar em todos esses nomes I D lá e uma vez no registro sob a expectativa é que big data. E quando se trata de situações de urso grande, você não vai realmente estar atualizando seus dados com muita frequência vai mudar essas coisas de nomes. Depois volta a organização. Qual organização é como, por exemplo, idade. Você também pode querer criar atributos adicionais como faixa etária, como 1 a 10 de 10 a 2020 a 40 e queremos um bucket de dados porque você também deseja fazer outra pesquisa de ticks com base na popularização. Você também pode rebocar categorização que também é tipo fora uma equipe de normalização suficiente. Então você basicamente, se você tem uma gravação de clientes, então você tem categorias de clientes. Você quer colocar todas essas informações no mesmo registro. Isto é a integração de dados, especialmente entre fontes de dados. Como para você. Informações personalizadas estão vindo de seu aplicativo CRM nas informações de mídia social, e pode haver algo mais. Você queria criá-los todos juntos e mantê-los como um quarto individual. Se, quando se trata de big data, é menos tabelas em um monte de dados que não vão ser centenas de tabelas em uma situação grande jantar. Haverá poucas mesas. Você estará normalizando tudo, integrando tudo e armazenando tudo em um único dia. Normalmente, Stryker, você não vai ter, você sabe que vai ser um corpo duplo espaço quando se trata de grandes espaços de dados dado porque o uso de espaço de hardware commodity é dado. Então está tudo bem para normalizar e manter o dia em que você não vai estar criando centenas de tabelas e tentando ligá-los para murchar com o juiz, você vai estar normalizando tudo. E, finalmente, estação de resumo e promoção. Se você tem que fazer qualquer tipo de centralização e relatórios são para criar algum relatório de resumo que pode tornar seu relatório para baixo o senhorio mais fácil. Que outras coisas você vai arquitetar na transformação, Lee? A primeira coisa que você vai ser é proteger é a diferença entre diamante real histórico, se você quer criá-los no mesmo por avião ou você quer separá-los separadamente porque em tempo real precisa de velocidade. Histórico pode levar um monte de tempo, especialmente quando você trata de processamento de dados estará passando registro por registro, você pode não querer estar fazendo todos eles e um tiro porque eles não tomam. Às vezes, se você tiver alguns requisitos em tempo real, você pode querer isolá-los e processá-los separadamente porque os requisitos de relatório de tempo raro apenas quando os requisitos críticos não serão todos os requisitos, enquanto histórico, você quer tomar seu próprio tempo para processar os dados. Nossos modelos. Você deseja criar modelos para processamento de dados? Não, é uma boa prática. Geralmente, o tipo de ferramentas que você tem para escrever qualquer uma dessas camadas de transformação. Ele tende a ser como scripts de doca, mas você quer ter cuidado com isso. Não comeces a criar muitos dos nossos scripts de documentos. Outra. Você quer entrar neste tipo de função de um quadro ou modelo tipo de quadro de livro, então isso é um monte de responsabilidade que nós construímos no tribunal. Então eles são o jantar. Pode ser usado para muitos outros fins. Além disso, de normalização. Você queria um anômalo. Todos os seus grandes dados não têm nenhum tipo de integridade referencial em execução. Você sabe que você realmente tem planos ou busto quantas mesas você realmente quer ter. Se você observar qualquer uma das grandes implantações que você não tem, elas não têm mais do que tabelas finais no sistema. Na verdade, há poucas mesas sobre a grande quantidade de peso em cada um dos estábulos. É assim que eles tipicamente arquitetado qualquer tipo de re processamento que significa toe preciso para porque há sempre uma possibilidade de que você pode achar que algum processamento não passou e você tem que reprocessar algo. Então isso é algo que você quer levar em consideração em seu edifício e arquitetura que você precisa ter paralelismo. Como posso realmente paralelismo no tribunal? Normalmente, muitas das ferramentas usam trazendo batalha não é por si só, mas você precisa ter certeza de que você também usá-los quando você está tentando acionar determinados aplicativos. E não há sentido em ter uma ferramenta que possa fazer parte dessas coisas e mais desencadear que os catalisadores. Você precisa saber como desencadear o paralelismo em cada uma dessas ferramentas ou tecnologias que você está usando o unificador do paralelismo quando ambos configuram parte dele, que é como você entra em conflito com seus seres e outras coisas, como você pode esquecer até o PM. Você sabe, você deveria dizer como tendências maney que você quer por perto. Agora, como é que vais descobrir? As ameaças são possivelmente baseadas no número Claro que você tem na caixa, e você está decidido ter semelhante e York, ou você se certificar de que você chamou de tal forma que permitiria impecável e minuto realmente corre Rua? Claro, você quer ter certeza de que as coisas correm o mais rápido possível tão interessante através disso e fornecer para isso e também trabalhar em história de progresso. Você sabe que não é possível sempre manter todos os dados que você quer na memória porque você vai ficar rapidamente sem memórias. Você também deseja criar, como um pipeline ou um estado por passagem de estado. Onde você possível um conjunto de processamento. Você é uma história de trabalho em progresso? Em seguida, faça o próximo conjunto de processamento de dados em grande negócio, certo? Isso é algo que você precisa prover porque é muito difícil onde você faz. Eu faço um monte de coisas na memória porque ele vai ficar rapidamente sem memória muito em breve . Então você precisa estar cuidando disso em pode ser um planeta como um passo a passo tipo de coisa. Agora, um monte de comentários ainda estão contradizendo um com o outro uma vez e você diz falar Próximo disse, Você diz isso, Ok. Você quer estar fazendo passo a passo cruzando que pode realmente atrasar algumas coisas. E você precisa ter vindo acima com um bom compromisso para nós dedos. Como você está indo para a violência no Speedway é problemas de trabalho e coisas assim. As melhores práticas mantêm realmente os dados do Simon Historical separados quando os dados são maiores do que terabytes. Você sabe que é melhor manter os dados separados de outras maneiras, você sabe, tentando construí-los juntos. Você precisa ter cuidado porque você pode estar tendo realmente pegar problemas tentando toe construir tanto o mural de dados históricos sobre as expectativas de taxa de transferência de realmente tentar o mesmo aplicativo único, meus produtores usam meu produzir o máximo possível. Não, o meu produz mais no conceito de janeiro. Não estou falando apenas de 100. Meu produziu meus produtores também tipo do mapa produzido tipo de paradigma também é apoiado. Como se você olhar em matéria de apoio cultura espião, é tipo parentalidade em tentar usá-lo porque a coisa boa sobre o mapa produzir tem sido usado em são produzidas funções baseadas, e dá-lhe um monte de parte lacrosse e capacidades com base no número de norte que você tem. Eso que é uma coisa boa para você fazer, e quase todas as ferramentas de processamento de dados grandes dá-lhe alguma forma do meu produto como um conceito. Não eu realmente não estou vendo O 100 Membro é geralmente o meu produz um conceito e tentou usá-lo. Não reinvente a roda. Não tente pensar que você pode construir algo em si mesmo, porque isso vai ser muito caro e, ah, justo em termos de tempo e ah, dinheiro as pessoas foram construídas para nós nossos aniversários. Lojas são pessoas ou construí-las para grandes empresas como Facebook e LinkedIn e Twitter. Portanto, eles são integrados com muita escalabilidade em mente, tentando usar as tecnologias existentes o máximo possível. Ah construído tribunal modelo em funções para inter elogios casos de uso conhecidos. Então seu operacional deixou sua própria lógica de processamento de como você processa onde você fere. E agora você quer um resumo. Tente o núcleo modelo de contas quando as funções sempre que possível que se você em melhorar a reutilização fora do tribunal, manter dados intermedia por vezes, não sei de um dado. Há uma tendência em big data no radiador de patrulha, que seu processo não sabe disso porque você pode ter que reprocessar. Às vezes, se você está cruzando paredes como 10 passos diferentes lá está nos dados de mídia que você cria pode ser armazenado O Intimidador de algumas vezes, Então, se você está para reprocessar, você não tem que começar todo o caminho desde o primeiro passo. Talvez você possa começar a partir do quinto passo ou 10 passos para que você possa arquitetar de tal forma que seu país processe a partir de qualquer momento. Talvez dar-lhe serviço nos três dias de cinco dias até que você conheça as pessoas Jake, Odorizzi e o bebê. Isso é bom. Mantenha os dados por algum tempo. Essa é a nossa boa prática. Dados de resumo ao sair obrigatório. Então, big data é tudo sobre o carro de dados normalizado. Livrar-se do nível mais granular. Guarde os dados originais. Sempre não provou os dados reais em alguém só se necessário, porque existem algumas grandes capacidades de funções de cruzamento fornecidas pelas ferramentas grandes e melhores. Sob as outras maneiras, você acha que há muito fora pode relatórios que a ordem e em um peças regulares sobre os verões mais tarde, ele não precisa para você em algum lugar eu acho e, finalmente, construir monitoramento Kimbrel. desempenho pacífico em Estes são processamento de dados grandes pode ser Tory muito rapidamente. Então, tenha alguns comitês de monitoramento dentro de seu núcleo que representavam imprime nossas leis como seu tribunal está funcionando bem porque você pode ver que há multa por 20 dias, 30 dias e tudo isso pode começar a acontecer em. Você pode precisar de algum tipo de problema para atirar ajuda nesse ponto. Isso é para a parte de transformação vai sair e olhar para as opções de transformação. Obrigado 20. Options e SQL de opções de transformação: Bem-vindos a esta palestra sobre opções de transformação. Quais são as opções? Você tem transformando dados em uma situação de arquitetura de big data? O primeiro, claro, é o código personalizado. Estamos mais barulhentos, rapaz. Certo? Chorzow escrever código personalizado e sua linguagem de programação favorita seria como sua opção favorita, porque você quer continuar construindo tudo sozinho. Mas vamos ter certeza de que eu não pense antes de você chegar lá, porque quando você está desistindo de algo para a situação de big data, você precisa ter, escalabilidade, confiabilidade e pastoralismo. E se você está construindo algo do zero, você precisa construir todas essas coisas. Em vez disso, você quer tomar um motor como um motor de processamento de gênero como Equilar esparso no meu produzido e, em seguida, construir sobre isso usado para amar tribunal que você constrói. Mas você construiu em um motor que está lhe dando essas funções por padrão em. Lembre-se de que as pessoas realmente construirão coisas do zero, na verdade construíram as tecnologias que seremos das quais estamos falando nesta eleição. Isso é o quão complexo é. Então é por isso que quer que o construído essas tecnologias são eles fizeram de código aberto e deixá-lo para todos para usar por razões de comparação. Quais são as vantagens da incapacidade de código personalizado, suas necessidades e situações específicas. Você tem fácil integração com fontes personalizadas e coisas ou você teme Ah, você verone fontes de dados suas próprias coisas. Muito personalizado para o seu no preço do que o código personalizado seria o caminho a seguir. Ondimba Knuble Código Personalizado. Você pode reutilizar o tribunal de computação existente de seus sistemas antigos porque você sabe, muitas vezes você estará fazendo o mesmo tipo de processamento. Também são aqueles são algumas das vantagens do núcleo personalizado. Quais são as deficiências que são demais para construir e manter? É bom se você pode limitar a quantidade de código personalizado que você tem que construir como parte de sua solução iniciante. Você ainda fora um corte personalizado construir, mas cuidado com isso. Talvez queiras construí-la. Pagar as áreas onde não requer paralelismo e capacidade de skate e, em caso afirmativo, caso afirmativo, dedo do pé limitado. Quanto você vai ser investido aqui? Haverá um longo tempo de ciclo porque você deve construí-los, testá-los e mantê-los o tempo que eu poderia às vezes e requisitos de recursos pesados e pessoas Donna exigiram os construtores casos de uso do tribunal personalizado. Eu não recomendaria isso a menos que você seja um caso de uso, mas não há soluções prontas disponíveis. Então primeiro procure soluções prontas. Se não, então vá procurar por escrever corte personalizado. Você ainda tem os direitos, um tribunal personalizado, algum costume ou de qualquer maneira, você sabe, como scripts de algum código de integração e coisas assim sobre sempre procurar uma ferramenta ou tecnologia existente do que tentar para construir algo anos nosso próximo olhar Lex. Olha para o Hudl. Minha esperança de produzir, como você sabe, é uma combinação de duas tecnologias. A tecnologia de esforços HD na minha tecnologia produzida e a tecnologia produzida pelo mapa é a primeira tecnologia de processamento de big data que surgiu que revolucionou a forma como os dados são processados e sobre. É por isso que temos feijão. Estamos aqui onde estamos por causa dessa tecnologia. A coisa boa sobre esta tecnologia é que o tribunal se move para usar o fez um parasita tipicamente em um ah, em um aplicativo regular ou, você sabe, o que você usou até agora. Os dados vão passar do banco de dados para os dados relacionados com a camada de aplicação oferecida para fazer Eric e um cruzamento neste caso, o tribunal é mais para o dia. Isso não é se você tem um pedaço de sede do curso mais para cada nó e, em seguida, o índio eo grande aglomerado sobre a travessia é feito. Mapeadores são pedaços de código que podem trabalhar em paralelo em registros individuais e transformação realizada . Eles trabalham em registros individuais de forma independente, e eles podem transferir, transformá-los. O que significa que eles podem trabalhar em uma batalha realmente parte do mundo. E você tem redutores que podem então alguns elevar o ou parte dos mapeadores e, em seguida, agregados. Então, meus produções tem cabo mapeador que é executado em cada registro individual, e há redução de acordo que pode resumir dados entre registros. E você pode construir uma série de códigos de produtores de mapas tipo construir um oleoduto na minha produção, minha produção. Minha produção pode ganhar o oleoduto de processamento real por sua série de meus produtos marcados em seu prédio. Minhas belezas ligaram. Você está construindo um tribunal, tipicamente em Java, mas você apenas se concentra na funcionalidade. Você quer que você em seguida a coisa toda fora, você sabe, executá-lo em sistemas parceiros e mover dados entre os sistemas e não tudo o que o stick e passar pelo motor duro up. Ele usa hardware barato com paralelismo extremo. Isso é uma coisa boa sobre o meu produto. Quais são as vantagens do paralelismo do meu Proview que o ajudou a lidar com uma área enorme? Cargas. Isso é o que revolucionou o big data. Ele pode lidar com texto muito facilmente, e ele pode trabalhar com dados flexíveis muito facilmente que um dos pontos fortes do meu produzido é que ele não é saiu rejuvenescido. Texto conduzido em que torna muito fácil para 100. melhor é que você pode realmente criar código de processamento personalizado para o seu negócio funcionalmente para que você possa criar código que se concentra em seu negócio, funcional, estar em cálculos e não se preocupar com toda a escalabilidade e batalha é e coisas também vem com deficiências de big data. Não é adequado para tempo real. Map Produzido é uma operação realmente solteira terminou. Não é adequado para tempo real. Reduz pode ser pontos de sufocamento se você está esperando que o redutor para fazer um monte de coisas, porque os produtores são um único pedaço de tribunal, que todo o dia morre por plano, então você precisa realmente arquiteto de tal forma que o que o funcionalidade do mapa? Mas o que faz a funcionalidade dos produtores em então? Certifique-se de que as funcionalidades reduzidas minimizadas tanto quanto possível em. Na verdade, os desenvolvedores com podem pensar nesta, hum, disparidade de ópera, dizendo que você precisa arquitetar corretamente. Os mapeadores introduz em ordem, funcionam de forma ideal. E, você sabe, desenvolvedores que podem obter isso não produzido tipo de pensamento indo que ele requer algum treinamento e alguma experiência antes que você possa obter que casos de uso para o meu lote de produtos mais prementes, qualquer tipo de lote mais cruzando em arquivos simples, arquivos de texto. Esta é uma ótima opção. Próxima mineração. Quer que o texto da mente seja conhecido? Olhe um texto e, você sabe, espalhe o texto em cordas e, em seguida, venha com as palavras e todo o engrama processando sua massa são a limpeza X maiúscula condição minúscula maiúscula. Tudo isso é seco produz um ótimo lugar para fazer a nossa limpeza de dados e filtragem de um desejo limpar o nosso cão dia no ato em um registro melhor maneira cartão. Da mesma forma, filtrando dados que novamente é baseado em registro por registro, este é um lugar novamente excelente para fazê-lo e, claro, analisar arquivos de mídia. Se você quiser na última mídia, bem, bem, isso pode ser algum rigoroso que pode passar por um arquivo de mídia e descobrir algumas informações sobre a mídia. Se eu viver para que o mapa produz uma ótima opção até então escritório. Temos dito, e esta é uma tecnologia ligeiramente antiga ainda muito boa quando se trata de lote mais tipo de processamento. Mas também é, você sabe, mais lento não realmente adequado para tempo real, mas carrega muito fora. Nenhum peso em termos de água pode atingir. A próxima opção é o stark Você vai consultar. Chame de Stark. Você vai rapidamente porque às vezes ele é chamado SQL. Às vezes é chamado sq, e todos têm sua própria linguagem de consulta. Assim, cada banco de dados sem sequela é qualquer outro banco de dados que você usa em seu grande able tem alguma forma fora linguagem de consulta que é suportado para produtos de dados têm algum tipo de suporte de sequela , ou qualquer coisa em seu nativo ou há um produto que lhe dá como um produto alto ou um produto Impala que lhe dá interface de equação ou que grau do aluno Hajto e eles vêm com um também meus diferentes conjuntos de capacidades. O que essas consultas de sequela podem fazer é filtragem, limpeza de transformações, memorização. Eles podem inserir um objeto de volta para a fonte como você quando você faz uma instrução select. Por exemplo, na própria instrução select, você pode ir filtragem estavam usando o desgaste. Além disso, você pode sentir os dados que você pode brincar enxaguando, você sabe, tendo algumas funções. Você pode fazer alguma transformação da marcha superior. Mais devagar. Uma coisa simples usando uma função chamada operável Over. Muitos desses mecanismos de consulta também permitem que você escreva sua própria função personalizada, então você também pode usar isso como parte do dedo do pé de consulta. Faça sua própria transformação. Você pode ir resumo por grupo por on, mas, em seguida, diferentes indianos têm diferentes capacidades. Nem todos eles suportam todas as capacidades e alguns obscuros Além disso, ah, baixa você inserir atualização de volta para a fonte. Você pode ir onde em determinada tabela do dedo do pé como selecionar algo de debaixo da mesa. E esse tipo de gráfico faz a filtragem de transformação, dançando e inserindo-a de trás dos pés debaixo da mesa. Até coloquei todos juntos em uma declaração de sequela. Isso é muito poderoso. Que sequela. Cando novamente, você está limitado para o banco de dados suporta, neste caso, em inquietante na sequência Injun Dust. O trabalho pesado. Então ele também tem seus próprios algoritmos de otimização para garantir que ele os processa de uma maneira muito boa e fazer todos os tipos de balanceamento de carga todas as coisas de modo que isso é uma boa maneira coisa simples. Para usar um grande e SQL e, em seguida, colocá-lo em um script. E então eles podem continuar fugindo para sempre. Vantagens. Fora deste mecanismo de consulta é iniciar um membro, permitir retornos máximos. Uma consulta, e você pode fazer muito com ela. Onde os índios são otimizados para desempenho no Parlamento, alguém já investiu tempo e material nisso. Então você é. Colha todos esses benefícios iniciando uma consulta simples. Você sabe, você pode fazer muito como usar um motor Impala, nosso motor colméia. Eles te dão muita velocidade. Ah, muita facilidade de uso. Eles têm sua própria catalogação e metadados em. Tudo o que eles tinham que fazer era criar alguns scripts naqueles grandes alguns scripts, scripts shell e colocá-los como trabalhos de coroa, e isso vai fazer o trabalho para você. Deficiências. O seu tem capacidades limitadas. Cada um deste motor SQL vem com seu próprio conjunto de capacidades, que são realmente primitivos em comparação com o que você entrar e dificilmente Bemis, você vai para o nosso bebê deve gostar artigo são minha sequela. O número de funções que você tem lá é muito quando você vem para qualquer um desses motores de barba grande . Não tem muitas funções. E as funções como, por exemplo, funções de formatação de data , função de string a lei, não tem muita capacidade. Então você precisa escrever algumas funções personalizadas você mesmo. Você está lá para todos eles, e eles não fornecem algumas maneiras em que você pode escrever algumas classes Java ou algo assim . Para criar essas funções personalizadas. Combinar dissipadores de fontes diferentes é difícil, e é por isso que as linguagens de consulta limitam tipicamente uma fonte de dados fora do caminho do coletor. Também é que você pode gostar. Por exemplo, Sarah pode inserir em uma tabela no mesmo sistema de banco de dados não em um diferente quando você pode fazer sequus igual consultas como entre Cassandra no banco de dados mongo no banco de dados mongo e você sabe o meu segredo. Então isso é limitação lá. Use a filtragem de casos se você puder fazer dentro da otimização de resumo da consulta. Copiando dados, é claro. Todos eles, se o mecanismo de consulta permite isso é uma ótima maneira para você. Para todos eles são Vamos ver um par de mais opções no próximo. Obrigado. 21. Opções de transformação Produtos de faísca e ETL: Ok, vamos passar para o grande achado cedo na sala. E esse é o Apache Spark. Um parque de prática é o motor geral de processamento de dados de nova geração. Ele é construído para processamento de dados para realizar as transformações que temos falado sobre. Elimina uma série de Shot Cummings fora do tradicional. Meu produtor, meu produto veio pela primeira vez ao mundo. Você adicionou casos de uso. Estava a correr bem. Enquanto as pessoas começaram a usar tecnologias de big data cada vez mais, eles descobriram que o grande a macro, esse paradigma do produto em huddle não estava se encaixando em muitos de seus requisitos. E eles fizeram muito mais coisas como se quisessem velocidade. Queriam flexibilidade. Eles queriam fazer muitas outras operações. Eles queriam uma integração mais estreita com as linguagens de programação e coisas assim, e o Apache Spark nasceu para atender a muitas dessas necessidades. Ele funciona em dados na memória que o torna muito rápido, e funciona em uma boa distribuição. Feitian nos interessou carregar através de obras e, em seguida, coleta de volta toda a parte inferior das costas. E então tem um trabalho fenomenal em fazer as coisas muito rápido. Supõe-se que minhas operações produzidas, você ainda pode escrever minha bolsa e produtores. Mas é muito mais rápido. Não só esse mapa roadies programação em si é muito mais fácil e um partido faísca um dedo de combate duro até a minha produção. É um simples, e você pode escrever, como uma linha de código para fazer todas essas coisas mapa introduzir são realmente funções em uma faísca partido, e eu não tenho grande que 90 colegas fora. Ele suporta streaming para que você possa ter streaming, processamento impecável em uma compra. Parker só namora caras chegando. Você pode auto criptografiar-nos um fluxo, um editor. E então, à medida que os dados estão chegando, você pode executar operações no fluxo. Essa é uma capacidade muito legal para processamento em tempo real. Ele suporta Java por Don r e Scaler. Eu sei que até os Parker retornam nativamente em scaler. Você pode trabalhar para o verdadeiro Java ou python em torno, que lhe dá muita flexibilidade em que linguagem de programação que você deseja usar em lá é um grande É um grande benefício. Ele tem sequela e capacidades de gráfico também, modo que é a sequela Ah faísca sequela que tem capacidades fenomenais eu diria, porque ele irá fornecer-lhe como Pergunte suas operações como. É suas operações de vida para, como, selecionar grupo por ordem, filtrando você é em que você pode escrever em uma linha de fora da corte da Polônia e em Danley converte-os e toe Pamela empregos e melhores coisas para usuários de Onda amigo fora dele. Você vai começar a fazer coisas simples, mas no latido. Ele realmente usa um monte de recursos poderosos de processamento de programas. Ele também tem enxerto cruzando Annable ocupado quer toe nosso dia com um monte de tipo de enxerto de informação, que é uma antiga ligação entre objetos e coisas. Assim como isso também. Ele também tem capacidade de processamento interativo. Por isso, se olhares para os meus produtos, tens razão. Um mapa produzido programa e executá-lo, enquanto em faísca, você pode até mesmo as capacidades de processamento interativo para trabalhar nele linha por linha. Então, é quase como se você tivesse uma janela SQL que mesmo direito, manter instruções SQL de classificação. Você tem sua faísca interativa, o interativo o prompt de linha de comando, no qual você pode continuar dando quantidades de faísca um por um no trabalho em dados, e ele cuida, você sabe, começando no muito pássaros e manter o controle de muito construído na memória e coisas assim Isso lhe dá alguma travessia fenomenal mais como você pode usar. Ele não processa um documento quando você e Adidas e isso está trabalhando nisso, você pode apenas usá-lo para nossa passagem de dinheiro. Mas uma vez que você sabe que você não é presidente pode comparar todos eles em um script, e então você pode terminar como um script sem cabeça também. Então, esse é o poder de processamento fenomenal que você tem com nosso ponto de orçamento. Então vantagens do parque de uma festa. É rápido, flexível , poderoso. Ambos suportam um tipo diferente de capacidades de processamento. E olhe, pergunte a sua perna cruzando meus produtos como processar o processamento de fluxo de dados em tempo real . O processamento gráfico pode ser executado junto com o duque dela. Podemos tiranizar autônomos. Ele pode ligar uma caixa do Windows você pode, e junto com sua droga, Eu tento e correr junto com mísseis em deficiências que um esforço significativo de codificação, talvez você compará-lo com sequela. É quanto mais esforço cortejante você compará-lo em minha produção menos. De acordo com um quatro. Ainda é imaturo quando digo em Meus Filhos está evoluindo rapidamente. Você pode ver que entre diferentes versões fora, apesar disso é a migração que você precisa fazer porque muitos novos recursos estão sendo adicionados e muitos recursos antigos estão sendo descartados. E esse tipo de coisa é muito rápido e a tecnologia em movimento rápido você precisa ter muito cuidado com aquela que o que você está fazendo com eles e nós temos abaixo da linha que você fez ela não migrar via tribunal. Eu não sei. Isso é algo em que ele tem um requisito de hardware significativo, em seguida, despeja uma memória e vê estanho simplesmente porque você sabe que ele é otimizado para velocidade. É claro que precisa de recursos para funcionar a essa velocidade. Em grandes volumes de casos de uso de dados, ele tem uma ampla gama de casos de uso do processamento de números de processamento de texto, a transformação de filtragem de dados qualquer quase qualquer coisa que você pode fazer. Além disso, ele pode ser usado para processamento interativo. Então, quando você tem um conjunto de dados, normalmente o que acontece é quando você está tentando construir um projeto, você não vai começar a citar a partir da direita. São fortes montando um programa completo da Scotts rápido, você vai estar fazendo processamento interativo Então você vai experimentar algumas coisas que você vai pegar a lata de dados para os dados. Eu vejo como parece Talvez Então eu jogo em aprendizado de máquina e tenho eles. Experimente isso. Veja como ele se parece, modo que onde você está brincando com os dados e com problemas de processamento o ajude . Então, é claro, fluxo em tempo real cruzando um. Pagis Parker é um ótimo caso de uso para um processo em tempo real. Também ligado. Eu iria para cima e dizer Este é o padrão de fato agora para motores de transformação é o tipo de não é a melhor opção disponível? Sim, possivelmente. Mas cuidado, isso é algo chamado uma festa Flink que está vindo. E eu não sei se isso vai entrar, mas neste momento, este é o tipo de padrão de fato. Não, a Mãe Faísca Apache não está em mim. Um candidato à transformação. Ele também é um candidato a relatórios para análise avançada. Vai também ajudar em termos de uma maior integração com coisas como África e a gripe que a saúde na camada de transporte. Além disso, ele pode ajudar na aquisição também porque é uma estreita integração com o Twitter. Ele tem verity de bibliotecas para várias fontes de dados. Muito Cassandra mongo db para J r db Ms. Carr, todos os tipos de conectores para todos esses bancos de dados para Então, dá-lhe uma ampla gama de capacidades que o torna como uma opção muito ideal para qualquer tipo de transmissão. Fato. Em nossos casos, quase todos os casos de uso que vamos analisar hoje estariam usando parte Apaches para transformação. Então esse é o poder de uma festa está de volta. Em seguida, vem produtos ideais, que ano produtos de produtos no mercado para extrair resgate, e Senhor, que são basicamente para o mesmo tipo de funcionalidade. E esta função faz um monte de produtos fora lá fora e eles estão chegando. As pessoas estão desenvolvendo produtos como este, esquerda, direita e centro. Alguns dos muito populares que talento Penta como apenas que suave uma lógica instantânea. Todo esse tipo de caras em todas essas ofertas têm comercial em oferta open source, então open source tipicamente vem com funcionalidade limitada do que o Washington comercial com surge um monte de funcionalidade. Estes produtos têm seus construtores alqueire et in e biplano. Ou você pode ter um design sempre. Você pode ir soltar um dragão, soltar coisas e conectar vários e majors e todos esses ícones. E então você tem um oleoduto indo muito fácil de construir coisas usando esses construtores biplanos , e isso é muito legal em você pode construir greve chão a partir de uma confirmação pergunta duas histórias. Então este é o motor do grito de necessidade. Então, mesmo que estejamos falando aqui na categoria de transformação, há também um lugar para aquisição dos dados na opção de aquisição, bem como a opção de transporte . Isso é uma coisa boa no dia, e aconteceu. Ele tem suporte para funções personalizadas para estes ET. Al. Produtos tipicamente têm, ah, muitos conectores para vários nossos novos bancos de dados que estão lá, e você pode escrever funções personalizadas se você tiver fotos, alguns especialistas cruzando. Além disso, há operação e gerenciamento disponíveis nesses produtos, e o que isso significa é que você pode ter uma sandbox onde você desenvolve seus scripts e há uma produção em implantação. Muito implantar o script. Eles têm uma maneira pela qual você pode clicar e implantar um script do seu sandbox para a produção em. Então que esta gestão de operação. E, hum para que você possa usar corretivos. Você os confronta a qualquer momento que quiser, e então você pode gerenciá-los. Você olha para o estado como ele vem com, com sua própria bagagem completa fora de nosso país características eso. Como é que nós não? Uma das vantagens dos produtos de negócios fáceis é que eles são fáceis de construir fluxos de trabalho. Você pode ter capacidades de queda de condução muito fácil. O nascimento. Tem boa integração com vários dados, tipos de algumas coisas. Sim, eles têm muitos colecionadores para tudo e em todos os lugares. Ele ganhou recursos de gerenciamento como nós acabamos de falar sobre isso como uma coisa boa. Se você está indo com este tipo de implementação parque que você fez fora de massa, a gestão pode habilidades você mesmo como como você se move do tribunal de, ah, desenvolvimento sandbox dedo um sandbox para um Q. É uma produção. Você faz tudo isso sozinho, nosso tiro cummings. Eles podem ficar complexos muito rapidamente porque eles são construídos para alguns casos de uso padrão. No momento em que seu caso de uso começa a ficar um pouco fora de sincronia com os ossos padrão , e isso pode ficar realmente complexo. Maturidade seria novamente uma pergunta porque é um novo produto. Scripts, caindo, ainda subindo. Mova que um monte de peças móveis ainda está sendo desenvolvido agressivamente. Eles podem ficar muito caros por ofertas comerciais. Talvez queiras ter cuidado com isto. Você pode pensar que é uma versão de código aberto, mas eles são quase não tem nada. Você quer contas e produtos reais que vêm através da licença comercial e as licenças comerciais são muito caros. Interact fluxos de trabalho posicionais podem se tornar complicados. Tipicamente, os produtos de cereais funcionam bem dentro de uma única organização, a fonte dos chumbadores tudo em uma única organização. Mas uma vez que você começa a construir na rede de fluxos de dados e pipelines, isso começa a receber mensagens muito rapidamente. Casos de uso. Vamos isso é, ah, duvidoso que eu vou dizer aqui quaisquer casos de U. S apoiados no papel e o diabo está nas regiões, e todos esses produtos dizem que eles podem suportar qualquer um dos casos de uso populares que você ter. Você vai a esse site, eles vão dizer que podemos simplesmente fazer isso. Nós fazemos isso e tudo, mas o diabo está nos detalhes sobre antes, você sabe, comprometer-se com qualquer um desses produtos. Experimente e pegue um dos produtos e experimente. Às vezes, eles podem acabar sendo um caso de uso B muito fácil de usar e, em seguida, o produto vai apenas caber em apenas assim. E você está funcionando, você sabe, sem problemas, porque o produto base dos EUA que você acaba não faz muito cortejamento. Só caiu jogando em alguns dias. Você tem isso funcionando como um zoológico. Boa aplicação. Então essa é a única coisa boa sobre este aqui. Mas então ele pode rapidamente virar um pouco muito complicado tentando fazer tudo para os EUA EUA Às vezes você quer dobrar o dedo do pé, obter alguns funcionalmente em seu ele pode ficar confuso também. Então este é o caminho. Há lugares escuros que você pode querer estar cuidando deste aqui, no entanto. Obrigado. 22. Módulo de relatórios: Oi. Bem-vindo a esta palestra sobre o modelo de reportagem. Este é o seu instrutor chamado Branch. Então, um dos grandes propósitos de sua tentativa de entrar em arquiteturas de big data para criar algum tipo de soluções de relatórios que você não era possível anteriormente com seu material regular de relatórios. Então isso é algo que você quer considerar. Porque relatando isso a área que outros na empresa podem facilmente ver o trabalho que você fez no grande dia hoje. Então as pessoas que não estão tecnicamente envolvidas no projeto que estão olhando Ok, nós tínhamos esse projeto de big data. O que ele vai para nos dar novos relatórios como o lugar onde eles podem ir e olhar algo novo que não foi oferecido a eles antes através da irresolução tradicional. Então você pode querer saber, fornecer alguma palestra sobre relatórios porque este é o lugar onde você pode mostrar algum valor que sua ampla através de big data, que não era você antes possível através da solução de dados tradicional. Então, quais são as responsabilidades da grande parte da reportagem, Lee? E, claro, começa com relatórios enlatados, você sabe, fornecer algum relatório pronto que as pessoas podem ir e executar diariamente em uma base semanal para obter alguns dados oferecidos. Eu também seria bom se você estiver relatando. Camada tem um criador de relatórios de fazer você mesmo onde as pessoas podem ir e criar seus próprios relatórios apenas arrastando e soltando algumas colunas e, em seguida, obtendo o relatório indo. E os gráficos dos exames são bastante semelhantes. Você já foi jogador em com dados próximos que dá às pessoas alguma propriedade? Indo sua solução de relatórios, um designer de painel seria poderia porque você deseja criar um número de painéis, possivelmente personalizado, Deu painéis para cada indivíduo s para que eles possam olhar para um monte de dados, diferentes tipos de dados de uma só vez no mesmo painel. Você, é claro, precisará de um PS para extrair dados do persistentemente ter para que outros possam criar aplicativos em seus dados que você foi processado e criado e mantê-lo no repositório inicial outras pessoas podem creditar através de um p é possivelmente, como deputados de descanso no dia ser capaz de fazer algum tipo de relatando esforço. Eu sei que o resto api é que eles podem usar, um ah, segredo grand off a p A para que eles possam obter alguns dados fora dele e eles podem construir mais alguns aplicativos sobre os dados que são contados na indicação de arte do repositório de big data de notarização. Qualquer solução de relatórios que você construir mostrou de sua própria autenticação adequada e não os gritos de recisão por razões de segurança e privacidade relatórios também deve fornecer para tempo real excelente até uma apresentação. Não há nenhum ponto apenas cruzar dados em tempo real e mantê-los se você não pode visualizá-los em tempo real. Além disso, o que significa que tem que ser muito pouco tarde e ver entre onde os dados são criados para o onde os dados são presidente. Há uma palavra uma base. Você deseja mostrar taxas de atualização de um segundo ou dois segundos. Nossos dados continuam atualizando sem qualquer atraso, nosso sem qualquer latência e, finalmente, o relatório lá também deve ter algum tipo de alerta eso. As pessoas podem gerenciar a camada de relatório se algumas coisas estiverem dando errado. Se alguns dias conjuntivos perdidos para a camada de dados ou qualquer tipo de diz coisas que estão acontecendo, as pessoas podem olhar para alertas e ver o que está acontecendo. Portanto, alertar também é um recurso fundamental. Quando você está criando a camada de relatório, o que você quer? Arquiteto na camada de relatórios? que você quer se concentrar? Você quer se concentrar em tempos de resposta. Você quer se certificar de que as pessoas que estão usando os relatórios interativos Lee. Não passo muito tempo sentado à espera do relatório. cinta. Uma das coisas sobre as tecnologias de Big Data é que há uma quantidade significativa latência ou atraso em termos de execução de consultas. Eso Quando você está dando relatórios que estão em uma natureza interativa, você quer usar tecnologia que pode fornecer, uh, muito baixo tarde e ver um tempo de resposta muito baixo. Você precisa arquitetar de tal forma que seus dados sejam criados e armazenados para esse tipo de acesso. Mais bile e trabalho estavam de volta, diz que ambos são importantes hoje. Há qualquer solução de relatórios que você deve ter acesso móvel nos dias de hoje. Personalização, onde cada indivíduo pode construir seu próprio pequeno painel Nice. Pequenos relatórios legais dessa forma, você sabe, todos eles têm, como um painel para se ajoelhar, olhando para coisas que importam para eles e não tentando compartilhar em seus painéis entre as pessoas e eles não quero estar trabalhando com 200 relatório treinado. Em vez disso, eles só querem olhar para um relatório que tem dados para eles de todos os lugares, todos os dados que eles querem. Será um painel frio para eles. Recursos gráficos avançados, um monte de brinde. Ou eles fornecem recursos gráficos avançados e capazes muito mais do que seus gráficos de pizza e gráficos de barras em Isso também é um recurso importante nos dias de hoje. Gerenciamento de limiares. Gestão racial é sobre relatórios camada que, Maura empurrar kindof camada. O que estou tentando dizer aqui é que não só você está capturando e armazenando dados, mas também está analisando dados, talvez em tempo real, para ver se certos limites são excedidos em seu aplicativo. Certo. Então supostamente você está servindo um monte de páginas para a sua empresa e o atraso em terra privada trazendo as páginas. Você sabe, isso está indo além de um certo nível. Você quer que a reportagem diga isso. Ok, há algo acontecendo em relação ao desempenho fora. Nossos aplicativos são talvez suas vendas estão caindo, você sabe, há venda minuto a minuto. Você está olhando para o que eu fiz pela produção de carne que você está olhando. Estava subindo indo indo indo para baixo. Quer algum tipo de alerta? Também com base nesse tipo de dados muda a integração com outros sistemas. Claro que sim. Você quer ter certeza de que os dados, os relatórios lá notavelmente apenas integrar maravilhado nossas almas. Ele também pode integrar outras fontes de dados, mas, em seguida, estão fora de sua estrutura de aplicativos de big data. Ele não pode se integrar com suas fontes tradicionais e também à camada de relatórios ou não de relatórios . Sabe, deve ser muito flexível, flexível para você. Você não quer usar uma camada de relatório para suas soluções tradicionais e uma para suas grandes resoluções possivelmente queira ter uma única camada para ambas em Finalmente, esse serviço está se tornando uma atividade cada vez mais importante nos dias de hoje. Agora, desde que o Google saiu com este aqui, você está fora com apenas uma caixa de pesquisa. Isso está se tornando cada vez mais importante. Não, as pessoas estão tentando construir aplicativos, mas eles podem procurar além de ter ah, corrigir que acionou para-metros para entrar para um repórter. Estou olhando para o meu relatório diário de desempenho da fábrica. Eu quero começar sem saída e então eu quero colocar um pouco de fatoração em algo assim. As pessoas querem ter cidades extras de gênero. É querer começar a digitar algo no primeiro dia. Os relatórios para acalmar tanto está se tornando cada vez mais flexível. A pesquisa está se tornando cada vez mais importante nos dias de hoje, e há ferramentas sobre tecnologias que também foram construídas com a capacidade eso que você deseja considerar que também, como parte da criação de seus relatórios lá, Melhores práticas selecionador disse que é fácil de usar e é bons recursos gráficos Craig. O pedágio deve ter uma boa integração com a variedade de fontes de dados e do RBB deve conhecer os intérpretes sequela para descansar ups. O AP baseado na Web é tudo o que deve ser capaz de fazer. Então ah, agregação na mosca distante. Você sabe, você deve ter desempenho e escalabilidade suficientes em si mesmo s para que ele não tenha depender de outras camadas para fazer o tipo de coisas que você sabe, como paralelismo estão processando e no processamento de memória, todo esse tipo de coisa. Você deve tentar usar padrões abertos para fácil lá. Integração de médicos, padrões abertos como, dirigiu um apoio p A para quê? Suporte para Jerry, conectividade Ocupado e coisas assim. Deveria ter quebrado. Não deve fornecer um painel especializado e personalizado. É uma boa prática nos dias de hoje. Todo mundo quer ter seu próprio painel de controle para que eles possam vê-lo no celular ao redor na web. Isto é uma rumba. Essa camada de relatório é um só lugar. Mas toda a empresa olha para o trabalho que você fez para big data. Então você quer que este relatório tarde seria muito legal, realmente diferenciando em relação às outras soluções que estão lá. E uma maneira de fazer isso é oferecer-lhes painéis personalizados, que eles provavelmente nunca farão. Eles estão usando uma irresolução tradicional projetada para múltiplas interfaces. Você deve se certificar de que, ao projetar sua solução, ela deve cobrir para dispositivos móveis, web e tipos incorporados. Certo? Então isso é algo que você quer considerar também, e finalmente tal novamente pensar sobre tal pensar em fornecer às pessoas pesquisa flexível sobre os dados em que poderia ser uma opção muito legal que as pessoas vão realmente gostar, então coisas para você considerar na reportagem. Há um monte de pessoas tipo de coisa que quando você começa a arquitetar uma solução de big data , ele meio que pára com transformar e armazenar os dados no banco de dados. Não, ele realmente meio que continua na camada de relatórios na análise avançada. Limpar. Então, por favor, lembre-se disso também. Obrigado. 23. Opções de relatórios Impala e Spark SQL: Oi. Bem-vindo a esta palestra sobre opções de relatórios. Aqui é o seu instrutor, Cameron. Portanto, quando se trata de relatórios, quando se trata de relatórios básicos ou relatórios básicos e analíticos, existem algumas opções disponíveis para você com o grande Portão do Mundo. Começaríamos com Cloudera Impala. Não vamos falar de alta por causa do Impala. Tipo de literário substitui High quando você sabe, supera um monte de deficiências de cinco. Então vamos começar com Impala na política e na memória. Distribua esse mecanismo de consulta para Como isso significa que o aluno de dados Hudock Impala deve ser capaz de lhe dar uma consulta de lote e capacidade sobre os dados. É um shell interativo, por isso é como se você está acostumado com o SQL Plus no artigo são shells de habilidade semelhantes, outros mecanismos de banco de dados para ser um índio semelhante para você. Há um problema comum lá. Você pode começar a digitar consultas e os resultados começam a aparecer, e é muito rápido. Compact Ojai, porque a colméia interna costumava fazer meus produtos. Este tipo não faz o meu produto, e é lógica mais optimizada para a creche. Off as deficiências fora I. Apoia juntas, agregação de subcomités. Portanto, há praticamente uma ferramenta poderosa. Ele suporta gerenciamento Hadoop, por isso suporta ambos os dados brutos que são armazenados em arquivos de sequência de passa-hado, ou arquivos CSE de vários formatos são Ele também pode suportar dados de saída que é armazenado na base de hedge. Em lá estão disponíveis apenas drivers B C e economia, um PS que pode trabalhar na política. Você coloca esses motoristas ocupados e opiáceos em Impala. Em seguida, ele dá-lhe alguma facilidade de sair onde você pode usar um velho BBC dados de qualidade driver que é fornecido em huddle. Então isso é o grande são a nossa primeira página de usar Impala porque agora você pode usar um shell ou você pode usar os drivers de ordem ocupado de dentro de um codificador Java. Algo assim para uma consulta. O leitor que é um Impala? Se você tentar comparar Impala, quais são as vantagens do Impala que você começa com? Certo, isso tem o Berries. Acesso rápido a dados para Hudock em comparação para escondê-lo, é claro, é uma família ou interface SQL de pessoas são usadas para sequela no exército regular. Bemis World seria muito familiar ou o bom começo a entrar neste e começar a usar este. Então, como arquiteto de big data, você não está preocupado apenas com os usuários finais, você também está preocupado com um barco. Nossos administradores de banco de dados em análise de dados são até mesmo um Adidas Scientists. Os desenvolvedores querem sair dos dados. Então esse tipo de ferramenta lhe dá um ótimo acesso quando se trata de Ah, as opções de relatórios. Não é como se você devesse apenas um deles. Você pode escolher um número deles. Você não pode impalar lado a lado com outras opções. Além disso, não é como se você só precisasse restringir você até uma opção. Você é um tipo de Impala dentro com a outra opção que vamos discutir também. E ele tem alguma integração bastante forte com Duke em termos de deficiências que não são suporte gráfico. Não há capacidade de converter isso e pode fazer qualquer tipo. As capacidades gráficas não estão lá. Não há recursos de tolerância a falhas. Aquário correndo ele quebra, ele quebra. Você tem que executá-lo novamente nele não tem suporte voando na ler uma história no dedo do pé, corremos o risco de um. por isso, é limitado apenas aos dados que o aluno duro para cima. Se você tem dados e Cassandra algo assim, você precisa usar a ferramenta de consulta SQL que vem com Cassandra. Casos de uso, é claro. Os dados tinham um carro ficou escuro vestindo e dados com Condado que o aluno tipo de apresentar os principais casos de uso. Ele tem uma interface A p A, então você pode usar isso para Fireman tinha sido uma espécie de capacidades e também pagou um engate estudante baseado. Você pode usar sua interface para quantidade eles esquecem como contra para outro tipo de bancos de dados como Cassandra são mongo DB Eles têm seus próprios planos, para o qual você pode sair mais tarde. Este é praticamente influência Impala que é bastante limitado as águas lá em How Do Panitch baseado no próximo vem thes estrela média as faíscas iguais. Ah faíscas igual fornece programa A fornece uma sequela como capacidades de programação, e é muito fácil de usar e muito poderoso internalizar Pop, uma sequela faísca é implementada como minhas operações de produtor em nossos dados de faísca Rd Amigos. Este homem não produz os Labradores Hudock, mas as revisões do mapa que são suportadas por faíscas iguais pela própria faísca. É muito rápido e é muito flexível e suporta agregações, e Giants são ele sabe, um monte de técnicas de acordo poderoso. Em uma linha, nossa tolerância. Você pode fazer um monte de coisas usando os recursos fornecidos faísca doente. Bem, tem integração de aprendizagem de missão com Emily Part Emily. Na verdade, faísca de aprendizado de máquina. Ele é construído sobre faíscas iguais, então isso meio que faz com que seja realmente bom na imigração com faísca. Família, especialmente não gostaria de fazer com Advanced Analytics em Ele pode ser usado para ambos interativos, bem, programa de transmissão não. Então você pode ir gritar programação com o réu. Programação interativa dele. Isso é ... Oh, ... Oh, isso é bonito. Um poderoso cuidado é para você taxas vantajosas conjunto de capacidades. Uma faísca vem com alguns realmente rígidos de capacidades, família e sintaxe, o mesmo grupo por ordem pelo mesmo grupo por alguma filtragem média máxima onde classes e coisas como essa excelente capacidade de desempenho. Porque este tem sido um parque de ponche. É tudo o que eles vieram, um produto que vem com uma escalabilidade difícil, falha, tolerância e coisas assim. É suportado em vários idiomas. Java escala para cima, eu viro e até mesmo arte. Então isso é bonito poderia ser realmente um branco já de linguagem que o apoiante e você pode realmente facilmente integrar com outras bibliotecas. Nenhuma faísca que parte da capacidade que a faísca forneceu foi que você pode facilmente integrar isso. Mas outras bibliotecas neste parque pedem em um trabalho nossas falhas. Não há gráficos. Mais uma vez, é Maura programação tipo de linguagens. Solicitação de programação não é realmente. Mesmo que você diga que há uma sensação interativa, é quase como sua programação algo é e não há faíscas de suporte gráfico . Casos de uso iguais, uma programação programada quadrado fora grandes dados disse, Este é um grande motor para fazer grande, desistindo muito de um programa que eu quero dizer que você tem quadrado que com outro software programas. Ou você pode ter um script faísca que você escreve no trabalho nossa escala uma mordida. Como parte disso você tem capacidades de sequela, e isso é o que você pode fazer com este. Você pode adicionar uma coisa boa sobre o Sparks equivale a ter um único sistema que esta parte para analógico PPL leva análises avançadas, processamento em tempo real tudo. Então isso é uma coisa que segunda-feira anos Parker's lhe dá todos os tipos de capacidades. Assim, uma vez que você adapta faísca, você pode obter uma tecnologia que diz que pode ser usado para vários modelos. E, claro, em tempo real em um quando os dados vêm em fluxos e não, não, não, você pode fazer algumas faíscas iguais com base no quadrado dos dados do fluxo que está chegando e fazer algumas análises também novamente, Isso é algo que nos provocou. Vocês ativos de poder. Continuaremos com mais TV a cabo. Mais opções na próxima palestra. Obrigado. 24. Opções de relatórios de terceiros e elástico: Não vamos falar de ferramentas de terceiros. Há várias opções de código aberto e comerciais disponíveis para ferramentas de análise e Big Data de terceiros . E essas ferramentas geralmente oferecem suporte a um conjunto avançado de recursos. E eles podem trabalhar com qualquer tipo fora. Nenhum banco de dados de sequela. Ou como as ervilhas Perhach e coisas assim? Então, a escolha fora deste tipo de ferramentas ou estreita não custar era da família ser como para menos uso, correspondência de casos? Como você realmente quer que as ferramentas de terceiros ocidentais enfrentem essa questão dependam do que pode abrir recursos de relatórios que precisamos em sua solução? Você vê muitos endossadores entrando em seu produto e usando as ferramentas para fazer algumas visualizações de relatórios e excelentes gráficos, clientes, dashboards e coisas assim? Então você pode querer em ferramentas de terceiros ocidentais. Essa partícula definitivamente residirá lado a lado, com o outro relato. Disse que você estaria usando de qualquer maneira, Eu pensei que depende novamente, como ele disse sobre os casos de uso que você tem sobre a opção para você em curado. Mas coisas como um R tableau Penta como Jasper clica para rajadas e, em seguida, um monte de caras como eles e eles têm excelentes capacidades gráficas, e eles têm integração com a Guerra dos Nativos. O que BBC Jerry B. C. Drivers para qualquer um destes estranhamente ser Amazon. Nenhum banco de dados de sequela. Eles têm capacidades de design visual. Você pode ir quando eles não desenham um relatório ou painel tudo por nós arrastando e soltando com não, quase não, de acordo, acordo, e eles têm integrações de autenticação e autorização. Você pode facilmente esperar que eles por conta própria no preço de login, e você pode ter o mesmo log e sinal único no tipo de coisa, trabalhando para as ferramentas de início do partido. Também não há vantagens comparativas e contrastantes. Tem gráficos do Richard. Existem excelentes modelos para visualizações e gráficos em painéis. Não é fácil o design uso da obesidade, como você pode ir em frente, projetado este relatório. Eles têm suporte para autenticação e esquemas de autorização em você pode fazer alguma personalização também em termos de logotipos e, você sabe, olhar e sentir e coisas assim. Ah, tiro porcaria vindo sábio. Isso é custo. Eles custam muito, hein? Então, se você precisa realmente saber valorizado e ver se você realmente quer em, era esse tipo de dinheiro para obter esse tipo de capacidade em. Sua organização realmente precisa desse tipo de capacidade? Nossos níveis de suporte nativos? Sabe o quão bem eles suportam cada um desses bancos de dados antes? Claro, há sempre marketing. Eu acho que há diz que você pode apoiar qualquer coisa e tudo, mas você precisa experimentar e ver como as integrações estão realmente trabalhando para ser casos de uso onde painéis corporativos ou relatórios sobre o Irã. Você sabe, quando há um uso extensivo, você vê que vai haver múltipla sua fonte. Você acha que este médico faz as coisas para baixo. O melhor para aquele celular. By the way, esses caras também têm excelente suporte móvel. Se você quiser que eles sejam, eles suportam sobre o quando há várias fontes de dados precisam ser usadas para esse processo de relatório. Sim, eles podem cavá-lo com muitas fontes de dados quando você precisa fornecer para designers desejáveis. Mas vocês são indutores podem tropeçar ordens, e os relatórios contra as ferramentas de inicialização guardadas serão um bom caso de uso para todos eles. E então eu disse que você realmente precisa ser chamado. O custo era benefício para esses caras a última opção, nós seríamos nojentos. Sua última eu estou dizendo última ignorado elasticsearch porque estamos falando sobre esta empresa chamada Elastic, que tem um monte de produtos que irão ajudá-lo em relação ao líder de relatórios. Então elástico tem um produto chamado elasticsearch. É um produto de código aberto que fornece um excelente motor de busca em dados existentes. Falamos sobre elasticsearch também nas opções de persistência que dá o seu excelente motor em construído sobre uma água. Além disso, ele lhe dá outro protocolo Cabana que fornece excelentes capacidades de visualização sobre os dados elasticsearch para que você possa ter dados elasticsearch. Você pode usar o cubano sobre os recursos de virtualização de fornecer. Ele tem capacidades de agregação. Ele está bem integrado entre o elasticsearch em Cabana. Ele tem streaming de seu apoio, então isso é bom para tempo real. E eu vou escolher para que você possa ter tempo real realmente entrando em Elasticsearch. E você pode usar Cabana para fins de visualização. Ah, há um excelente suporte gráfico, é claro. Em Cabana, um ser escalável vem de elástico surto elástico, como excelente escalabilidade em. Claro, há certeza que este dá-lhe recursos de pesquisa por padrão, e este é o melhor motor de busca que você pode encontrar no mundo habilidade Norte em combater vantagens elásticas são, claro, você ficou rico gráficos. Você tem recursos de consulta flexíveis que vêm para o elasticsearch. Você obtém análises em tempo real e, claro, você tem um corretor de imóveis. A moral leva a busca. Você começa fora da caixa alguns grandes relatórios ao usar elasticsearch em deficiências cabana que é trabalho adicional preenchendo elasticsearch você. Eu acredito que você não vai usar elasticsearch como seu banco de dados principal. Você pode estar usando outra coisa, mas você pode estar pegando dados de outros sistemas e preenchendo elasticsearch para fins de geração de relatórios. Então, há algum trabalho e trabalho adicionais. Você pode ter problemas de precisão, mas isso é algo que ouvimos quando falamos de elástico. Mas, claro, acredito que o projeto também amadurecerá nessas criaturas. Pode ir no futuro, casos de uso onde você precisa, e os painéis de elogios e relatórios muito semelhantes aos produtos de terceiros que temos falado. Quando você quer dar-lhe um escuro vestindo você sábio, então este é um grande caso de uso. E, claro, se você quiser ter monitoramento em tempo real monitoramento em tempo real Outro grande caso de uso para elástico. Então, estas são as capacidades que você obtém qualquer bom elástico Ivana e em compraste elasticsearch ou une livremente transferível para que você possa ir e baixá-los e usá-los e ver o quão bem eles funcionam. 50 ou caso de uso. Espero que isso tenha sido útil para você. Obrigado. 25. Visão geral de análise avançada: Oi. Bem-vindo a esta palestra sobre o modelo avançado do Analytics. Mas você está tentando projetar uma arquitetura para soluções de big data. Normalmente, o foco é nos E. Ts no processo de transformação do Senhor de extração, bem como relatórios básicos. Mas relatórios avançados vem mais como um pensamento posterior porque as pessoas normalmente pensam que avançado uma política pobre é algo que é feito ad hoc. E não precisamos arquitetar nada para isso. Mas esse não é o caso, porque o Advanced Analytics, mesmo que seja um fim, usa um tipo de trabalho. É preciso um monte de recursos, um monte de recursos shad que está lá em seu banco de dados, e você está processando mecanismos e coisas assim. Por isso, é importante integrar a análise avançada ao seu big data. Arquiteturas tais que os competentes estão aproveitando uns aos outros. E não há problema em mais tarde descobrir que estamos perdendo algo aqui e faltando algo lá, e precisamos adicionar algumas coisas aqui e ali. Então vamos começar com a compreensão. Waters avançou tonalidades. Portanto, há uma série de tipos de outra mensagem sua em duas organizações diferentes, implementar análises em diferentes níveis. Para começar, temos descritivo e nossas datas, que é sobre o que aconteceu. Como, qual foi o total de vendas do mês passado em todo o mundo? E então quais são as vendas não foram América, você sabe, oito. De volta à Ásia, Europa. Então isso é descritivo. Exploratory está tentando descobrir por que algo está acontecendo. Agora você olha para as vendas não americanas subiu 10%. Uma matilha não era víboras e sábio. Não é sábio. Isso é o que é a razão que as vendas norte-americanas mais altas. Então você começa a olhar para coisas diferentes. E as misturas de produtos? Alguns estão se destacando melhor na América. Eu sei que é onde você tem melhores equipes e nosso desconto e não América, ou o que está acontecendo entre os vários países que é exploratório. Inferencial é onde você está. Jogar técnicas estatísticas para sob buster, cair sobre aliados uma amostra e, em seguida, extrapolar o que você encontrar no dedo da amostra. Toda a população. A Análise Preditiva está tentando prever o que vai acontecer com base no que já aconteceu antes. Análise de custos está tentando entender como uma mudança em uma variável irá implementar terá uma mudança em uma pequena variável. O que quer dizer isso e se eu torcer? Alterar os preços do meu produto? Se eu der um desconto de 10%, terei um aumento de 20% nos meus salvos? Esse tipo de análise é o custo da análise, e há outro termo que é usado chamado de banalidades profundas. Deep Analytics é mais como uma combinação de todos esses diferentes tipos de análise, principalmente causal e preditivo na amizade, que é para se aprofundar mais no problema e olhar usar várias técnicas avançadas para entender como certos as coisas estão funcionando e como é suposto funcionar, e para prever o que vai acontecer quando dizemos que algo é o Analytics avançado. Estamos falando sobre o topo dos três inferiores ou o inferior para na lista de inferencial. causalidade produtiva e a finalidade profunda é normalmente feita por pessoas a quem nos chamamos. Analistas são até cientistas de dados. Arte de decisões instantâneas são essas pessoas tomar os dados sua mente e armazenados em seu repositório de big data em Bright ou a menos que os dados e chegar a várias descobertas e previsões. Então, quando você está tentando arquitetar para uma análise avançada, modelo Smart Analytics. Que outro responsável usar espera que esse modelo faça? Primeiro de tudo, que Lee moderno tem módulo precisa ter capacidades de construção de modelos. Você deve ter a capacidade de construir uma variedade de modelos, modelos estatísticos de previsão. Se o supervisor não supervisionado, eles devem suportar várias técnicas de validação. Se você é aprendido mais sobre dados, já que você entende mais sobre o que são essas técnicas de validação? São basicamente diferentes tipos de itens de guarda. O mesmo acontece com alguém e tem um jardim e algoritmos simples. Tente usar um incrível múltiplo Marta, baseado em diferentes subconjuntos de dados que tem que ser suporte para e ums simples guardados. Ele deve fornecer para o desenvolvimento interativo deste, porque o avanço do Ártico é inicialmente um processo interativo onde os dados em uma lista ou o data center se senta e trabalha com os dados e direito proficiente direto. Faça o primeiro passo tentando ver o que eles encontram, em seguida, decidir água fazendo Steptoe, em seguida, que a água fazer em vez disso. Três. É um processo interativo de trabalhar com os dados e chegar com descobertas, modo que o Advanced Analytics modelado deve fornecer recursos de análise interativa, mas também deve fornecer recursos de automação por causa de uma vez interativa elétrica é feito no há um modelo que já foi morto. É assim que vamos construir um modelo e podemos governar a produção. E nós vamos pegar isso e automatizar isso e operacionalizá-lo como um processo. Portanto, tem que haver recursos de automação sobre como você pode usar, automatizar o código e realmente construir alguns aplicativos são produtos e, finalmente, você deve ser capaz de prever em tempo real a proteção como você pode prever em tempo real também é uma das responsabilidades fora do bloco. O que o arquiteto? Que outras coisas você tem que considerar quando você está conectando a plataforma Advance Analytics a escala 1 A, anúncio de capacidade. As operações analógicas normalmente levam muito tempo da CPU. Há um monte de trincheiras ex con que está acontecendo que normalmente é muito superior, intensivo em desarmar uma grande quantidade de dados que também significam que ele se torna membro intensivo. Nisso, os dados são realmente realizados em Yorba, em seguida, abrangem várias notas e clusters e coisas assim. A capacidade de escala é um dos aspectos mais importantes que você deseja arquitetar no modelo Advanced Analytics e, em seguida, desempenho. Quão bem, quão rápido você pode se apresentar com esses Al Qaeda, especialmente quando você está realmente prevendo isso. Não, porque as previsões normalmente acontecem em tempo real quando um usuário está conectado ao seu site são quando alguém está falando ao telefone. As previsões Eso têm que acontecer em tempo real. Eles têm que ter um tempo de resposta subseqüente, então você precisa arquitetar para isso. Além disso, você precisa arquitetar para validações. A capacidade de validar ambos os modelos e as previsões para precisão é um aspecto importante em um conhecimento avançado algoritmos da manhã seguinte. Quero dizer, há muitos algoritmos para construção de modelos, mas esses algoritmos também conforto são várias opções ajustando parâmetros. Conflagração com você pode ajustar os diferentes parâmetros de tentativa de Delgado. Enganar o modelo é melhorar a arte e coisas assim. Portanto, não é apenas importante que você apoie seu jardim. As meninas da cidade são várias opções de apoio para ajuste. Também em Finalmente, você auto arquiteto para automação e opressão ization, que é uma vez que algumas coisas são feitas, você encontrou uma maneira de construir um bom modelo do que o processo de construção do modelo precisa ser automatizado em implementado e operacionalizado que eles podem continuar em execução em segundo plano e continuar construindo bases de dados do centro moral em que mantém, você sabe, acontecendo. Então esse tipo de capacidades de automação precisa Toby também atendeu incorporado ao seu avanço Nynex . Mais acordos. arquitetura de melhores práticas deve ser alinhada com a metodologia. Então, quando você tem análises adversas, você tem um set off em um cientista de dados Leicester. Eles tipicamente têm uma metodologia de como eles fazem as coisas. Você sabe que eles têm seus próprios processos, e o que você precisa entender é que você não entende qual é o processo deles. Nosso e, em seguida, você precisa construir a arquitetura de tal forma que o produto está alinhado com. O processo que eles capturaram vai de mãos dadas, e eu estou de modo que isso torna o trabalho tanto do condutor fácil quanto do trabalho dos data centers fácil, então a metodologia deve ser alinhada com a arquitetura que você precisa planejar para construção moral adulta, o que significa que você tem que fornecer capacidades para não são modelo construção ambos os eixos de batalha memória CPU , dedo artista Então nos pediu para seus dados tão tipicamente, quando o arquiteto, o único arquiteto para a capacidade conhecida capacidade, que é como, Ok, como os usuários da Web Maney vão estar atingindo o sistema e baseado em, em seguida, chegar com o seu tamanho e coisas assim. Mas você também tem que dar a si mesmo um espaço para a nossa vida para trazer estes avançando nossa análise sombria com você. Alguém vai e começa a correr. Construindo modelo na mesma caixa em que vai colocar carga extra em seu jogador posição em sua unidade de camada de computação Andi para realmente alocar. Você também conhece recursos para isso. Portanto, certifique-se de que o que você faz em um edifício modelo escuro não afeta a lista regular do disseminar o regular que porque isso está acontecendo no rio ladrão relatando que está acontecendo. Todos os projetos de análise avançada não resultam realmente. Isso é uma coisa. Temos de ser alterações muito claras. Se você passar por cursos relacionados à ciência de dados, você vai entender. Não é como OK, eu começo um projeto e eu vou ter algumas melhorias. Embolisas, não chamar projetos estão indo para o inferno nos resultados dos dados, não tem quaisquer sinais que tem avisos de que também alguma expectativa navio algo tem ser feito muito claramente aqui porque nenhuma outra pessoa na empresa pode ouvir que existem competentes, já que estamos usando análises preditivas para fazer isso e aquilo, e também devemos tentar fazer a mesma coisa. Mas eles não entendem o fato de que todos os dados podem não ter todos os sinais , e se não houver sinal, não há previsão que possa acontecer. Há algo que você quer ter em mente e sempre ter em mente para automação e nossa especialização em tudo o que você está fazendo para que você tenha o dedo em algum momento, você não e comece a automatizar as coisas, e operacional é e coisas no avanço e exportação. Então é assim que você olharia para o modelo Advanced Analytics e experimente o arquiteto Esperança que isso tenha sido útil para você. Na próxima palestra, vamos ver as opções de Análise Avançada. Obrigado. 26. Opções de análise avançada R e Python: Oi. Bem-vindo a esta palestra sobre Opções de Análise Avançada Até agora avançado em Alex. Estamos olhando para a programação. Idiomas são ferramentas que fornecem os recursos necessários para escavações avançadas agora que falamos na palestra inicial sobre Nós vamos começar com o nosso Now Our é uma língua ou até mesmo tipo de na faculdade e ambiente para estatística, computação e gráficos como uma linguagem muito antiga. E tem um histórico bastante longo de uso baseado em decisões. Não se especializa em linguagem. Ah, construído para computação estatística e tem sido usado por um longo tempo por estatísticos. foi, não foi amplamente utilizado antes para outros fins, mas depois que o trabalho de big data chegou e há mais tração na análise preditiva são iniciados recebendo um monte de coleta. A coisa boa sobre a arte é que é um pacote branco desencadeou várias missões de aprendizagem omite Carter, são toneladas de agentes de implementação de algoritmos de aprendizagem de máquina. Você tem tantas opções. Então implementações maney tantas variações fora do outro guardado eles ficar. Você pode continuar tentando vários deles para descobrir que você sabe qual deles se encaixa no seu modelo qual deles lhe dá um bom mortal que lhe dá boas produções? Ele tem recursos para limpeza de dados de sua transformação. Ele não excelente pacote de gráficos, e não é o nosso estúdio, que um 90 programação rastreador estrangeiro. Então você pode usar o nosso estúdio para realmente escrever tribunal. Você pode criar aplicativos, mas que você pode fazer programação interativa, mas que você pode ir documentação com isso. É incrível. Agora, a coisa ruim sobre a arte é que um trans on dados em memórias vai carregar os dados na memória e, em seguida, andar sobre os dados na memória. Isso significa que ele está limitado à memória em quando o Norte lá é limitado. caixa local total em estava limitada à memória na caixa local que restringe severamente sua capacidade. Agora há algumas lavagens comerciais de arte que foram trabalhados em Bye bye bye bye bye bye. Outros terceiros que estão tentando adicionar todos esses recursos de escalabilidade em nossa coisa boa . Este ano é bom para o nosso Mas então isso vem o preço. Além disso, há algo que você quer lembrar agora comparando nossas vantagens de que é um excelente centro de algoritmos de aprendizado de máquina. Ele tem gráficos, e há outras ferramentas de apresentação também para você construir apresentações para documentação irritável . Possui capacidades de construção de modelos interativos. Toe o nosso estúdio que um grande recurso são desesperados em maduro. Ele está lá há muito tempo, e amadureceu com uma série de pacotes em nosso jardim que se tornou realidade. Deficiências é que, como falamos, dimensionamento é limitado com a memória local, modo que sua capacidade de lidar com olhos realmente grandes dados questionáveis não pode ser usado para construir como conjuntos de aplicativos robustos como a maneira que você vai perder um emprego irritável, uma aplicação robusta I J Year aplicações sobre tipo de coisa artista que muito limitado. Sem roteiros do tipo presidente, nem outra coisa. Sem roteiros do tipo presidente, Os recursos de big data são limitados. Há pessoas chegando, mas nosso como fazer barge porque esse tipo de interações. Mas ainda é bastante limitado, porque essas coisas precisam que eles usaram, o completo veio um melhor dias de folga não são o uso de todas as capacidades de huddle porque uma vez que você obter os dados de tinha aberto, movê-lo para o nosso, em seguida, torna-se novamente limitado à sua memória por isso existem algumas limitações estava usando são quais são os casos de uso para nós? É que você pode fazer a construção de modelos interativos e ensaios em pequenos dados que você pode pensar que o nosso não tem muito valor. Mas não, porque Dana Sanders passou muito tempo tentando entender que estão tentando brincar com ele , e eles tipicamente fazem isso em pequenos conjuntos de dados. E quando você tem dados pequenos, já que nosso é uma ótima maneira de começar a brincar com dados e tentar entender os dados tentando construir modelos e uma vez que você tipo de descobrir o que é isso que eu quero fazer com os dados, então você pode traduzir isso em talvez Java são talvez Apache faísca e fazer a coisa real . Então o trabalho é que é uma boa caixa de areia em que você pode sentar e brincar com os dados. Ele pode ser usado para pequenas, laters e aplicações que tipicamente em ordem desta vez, e você sempre pode colocar uma caixa que tem Guardado gebe auf memória ou 62 GB 64 GBS memória. Você pode obter uma caixa na AWS e, em seguida, configurar o nosso e você pode fazer um monte de análise com isso, na verdade, e ele pode ser usado para fazer apresentações também. Então estas são as coisas sobre a nossa próxima semana que queremos lutar, que é muito semelhante dedo do pé são em termos de cruzamento. Mas a coisa sobre um python, é que é uma linguagem de programação regular e fez a linguagem de programação padrão que tem big data. Packer avaliado pela ciência não é capacidade, então com a mordida, você não pode simplesmente não, não fazemos os dados santos e somos expostos? Podes fazer muitas coisas com o Danny. Extensão é uma capacidade de programação superior que você pode fazer com a Grã-Bretanha. Então Python tem um número de pacotes, como o Gnome by Skype. Encontrei Us e Sky Kit Land que ajudam no gerenciamento de dados e processos em baixo fazendo ciência de dados . É uma vasta matriz fora de bibliotecas do terceiro corpo. Não é bom. Ele tem grandes recursos de limpeza de dados, recursos gráficos que nossas idéias disponíveis para programação interativa como eu fingir que há um notebook. Lá está você pode olhar para fora aranha em um canto. Há muitas capacidades disponíveis, doutor, doutor, e tem integração na faísca. Além disso, é possível passar dados de ida e volta entre minha cidade e faísca se você merece fazê-lo. On Bite on é uma linguagem multi-propósito. Ele pode ser usado para fazer uma série de coisas. Você pode criar scripts para fazer qualquer coisa. Quero dizer, há um monte de coisas que você pode fazer com Don. É uma linguagem de programação de propósito geral que também significa que a partir de um ponto de vista que você já tem família com mordida para baixo, em seguida, lutar é o caminho para aprender formação, em seguida, aprender uma linguagem totalmente nova. Como assim vantagens de luta em seu número cartão de gráficos e ferramentas de limpeza de dados, ele tem capacidades de construção modelo interativo sobre ele é Deus em boa integração com Apache Spark. Tem um ano para ver uma curva de aprendizagem em comparação com a são simplesmente porque, você sabe, pela linguagem de programação Thomas General. Nós viemos de outra linguagem de programação que é e os atores duram uma mais fácil entender e aprender. Então você pode fazer com nossas falhas de mordida nele. O dimensionamento é novamente limitado à memória local. Muito semelhante tohave são usados para trabalhar em. Há missão de implementação Emel limitada, linguagem de missão e guardião de limitações. Comparado com o nosso, ainda é considerável, mas ainda 11. Se você comparar o nosso não fez muitos casos de uso é muito semelhante para ajudar você usaria são para eu estava interativa edifício mortal, e você pode fazer alguns ensaios em pequenos conjuntos de dados. Você pode fazer muito trabalho de azulejos com mordida. Isso é muito incrível. Você pode ir lá um trabalho de limpeza com mordida em você pode Bill. Claro, aplicações X mais avançadas agora não são mordidas. Você precisa fornecer para seus recursos pelo menos um deles em sua arquitetura e em sua . Assim, as pessoas podem usar esses modelos para ir cozinhar um dia lá em baixo com dados. Mas normalmente eles não podem recitar lado a lado com a outra opção que você verá mais tarde também, então não é que a unidade escolha apenas uma que você pode apenas mais do que uma depende do que seus cientistas de dados estão de leer. Você precisa evitar esses recursos. Incrível. Obrigado 27. Apache Spark e software comercial de análise avançada: Oi. Continuando as várias opções para Advanced Analytics, nós apenas agora olhar sobre este parque Apache faísca, como você sabe, como um conjunto muito de capacidades como um bom motor de transformação e motor de análise. Bastante motor. É também um bom motor de aprendizado de máquina. Então, uma festa Sparkasse Machine Learning Library. Há duas bibliotecas que é a família viveu biblioteca Reiber na biblioteca M A. A biblioteca de lib M A está sendo enfrentada. A biblioteca animal Emma é a nova. Estamos realmente suporta um bom conjunto de algoritmos de aprendizado de máquina. Eu não chamaria isso de avestruz como é um r por cidade, mas é bom. Mas a coisa boa é que eles continuam adicionando são esses novos conjuntos de algoritmos o tempo todo? Então eu acredito que em alguns anos, deve ser, você sabe, realmente, muito importante. Eu disse de bibliotecas. Ele usa amigos de dados de faíscas igual. Então, a entrada de dados para todas essas bibliotecas... os quadros de dados da sequela de Ramos Park. Por que isso é importante é que quando você obtém dados de outras fontes são até mesmo dados baixos de exibições, somos dados transformados. Você está fazendo isso de qualquer maneira em seus quadros, modo que eles usam quadros de dados como uma entrada para faíscas iguais torna isso muito fácil, porque você não precisa passar por transformações específicas para encaixar seus dados nas bibliotecas de empréstimo de missão. Você conhece a abordagem base Stana, onde as interfaces são muito semelhantes para todos os algoritmos. É, na verdade, muito fácil alternar entre o nosso Guardo muito rapidamente na mesma peça. Claro, isso torna a aprendizagem fácil e também a construção de código muito fácil. Aprendizagem de missão A coisa boa sobre Park é que os algoritmos podem escalar através de um cluster, que é se tivermos um conjunto de 10 missões em Garden Mess capazes de executar através do gesso, que está debatendo seu trabalho através do cluster. Integrando-os, ele tenta usar o quadro de produção de mapa internamente em otimizá-lo de tal forma que é realmente útil para você. Quero dizer , pode acelerar. Ele pode lidar com um grande volume de dados. Eu sei que somos nós contra a nossa luta em, que é focado apenas no nó local fluster e a faísca de memória local e realmente escalar horizontalmente e pode trabalhar em grandes conjuntos de dados que você pode usar Kayla Jabba são por baixo da ordem compilação faísca. Não, nós também estamos chegando. Então isso é realmente você poderia ter um monte de opções para construir um plano de modelagem de dados interativos de código possível. Então, há um Shelvin interativo que você considera e chamou o material interativo. Leanne cansado várias coisas e uma vez que você tem ah firmou procedimento de construção modelo do que você pode realmente levá-lo um automatizado. Possui excelente integração com grandes fontes de dados. Isso é uma grande vantagem no seu prédio. Um big data quando você está tentando construir um big data. Melhor imigração arquitetônica dos EUA Com Adobe pdf EUA todas as fontes sem sequela são talvez mais. Isso é muito, muito bom. Andrea Lehmann Analytics e previsões são possíveis com streaming. Então, se você estiver usando streaming, é possível que você faça em fluxo mais dias em produção rigorosa com as partes volta vantagens sobre emblemas Park como vimos que esta excelente escalabilidade especialmente em comparação com a são, e por cidade tem capacidades de construção de modelos interativos que é ir para o Reino Unido, seus cientistas de dados consideram e constroem modelos de forma interativa. Tem capacidades de previsão em tempo real. Você sabe que os dados estão chegando. Você pode trabalhar em um fluxo e, em seguida, faz previsões e uma carícia suposta suporte para vários dados, fontes e ferramentas. Então, isso está novamente no lugar. E eu apoio várias linguagens programadas para que você possa escolher uma linguagem de programação após sua escolha. Nossas deficiências é que não há suporte gráfico. há absolutamente nenhum gráfico, um livro para fazer qualquer tipo de atualização. Não há eu D. Isso é apenas um shell para programação interativa é mais como comando como programação que você já faz com o Spark. Andi tem limitado conjunto de algoritmos e implementações comparado Toa são assim, mas eu acho que entrou está crescendo à medida que o tempo passa. Não é maduro. É um produto em rápida evolução, mas ainda não está maduro. O deserto foi mudanças significativas que aconteceram com faísca. Então, isso é algo para você prestar atenção para casos de uso modelagem preditiva em muito grande parte que define o edifício modelo ou nenhuma sequela fontes posteriores que podem se conectar diretamente a conhecidos secretamente recursos em você em fazer construção mortal. E, claro, nos alegra que é estranho porque ele pode escalar através de um cluster em. Claro, ele pode ser usado para previsões em tempo real. Agora Spark está realmente se tornando o principal, o principal produto Oracle para qualquer tipo de construção de modelos iniciantes. Temos um fosso de festa, mas pelo modo de nascença médica na palestra, porque a minha esperança está a desaparecer. Ele tem um conjunto muito limitado de algoritmos, e não vai ser realmente útil para fora. Spark é muito mais superior que isso. É por isso que eu não falo sobre o meu capuz em tudo isso , é claro , como um índice muito bom. Desde software comercial, há um monte de software comercial disponível para você fazer. Ah, a noite que Johnson, como Becks, processa de modo que coisas como um molho tabu, um rápido, menor exeter, um monte de produtos que eu dou a um amado fazendo análise avançada. Eles têm um bom conjunto de algoritmos. Alguns há alguns deles operando mijo. Alguns deles estão evoluindo, mas eles têm um bom conjunto de todos os jardins. Eles têm alguns gráficos muito bons, apoiado aqueles em que realizações eles podem escalar o trabalho final com fontes de big data. Eles podem trabalhar sem sequela. Tudo isso é bom, então há muitas capacidades na meia comercial. Mas, quero dizer, eles podem. Eles podem fazer tudo o que você conhece, alguém como faísca. E pelo único problema conosco, é muito caro. Estes são produtos extremamente caros que é a única coisa para você ter cuidado se sua empresa pode pagar este produto. Sim, você pode ir e comprá-lo e usá-lo. Mas eu disse que é muito caro. Uh oh. Sparkles tipo de construção como uma alternativa muito boa em alternativas de código aberto, que qualquer um pode pegar e usar em de. Então é por isso que eu não vou pisar. Não discutimos. O software comercial é que o Grundig está no comando. Só tem um gráfico vindo. É muito caro. Outras maneiras que é bastante capaz em termos de água pode agradecer-lhe 28. Cópia de segurança de dados corporativos do caso de uso 1: Oi. Bem-vindo ao primeiro caso de uso da arquitetura de big data. O estado de interpretação do backup. Este é o seu instrutor comum aqui, a água, o caso de uso. Estamos tentando olhar para os casos de uso que é ABC Enterprise Fictional Enterprise atualmente mantém 18 meses de dados de CRM em nosso bebê Emma que está on-line e sete anos de dados de arquivo em fitas. Não, isso é um monte de empresas trabalhando onde eles mantêm alguns dados fora. O 11 meses de dados 13 meses de dados em um RV, Bemis para apenas acesso e sete anos de idade. Uma maior quantidade de dados manteve em fitas backups off-line. Onda razão que você tem que usar backups em fitas não vai ser porque eles precisam de um backup para os dados. Mas eles também querem manter os dados por mais tempo, caso queiram usar para qualquer finalidade de análise. Mas manter esse tipo de dados e não ser deve ser pode ser muito caro em termos de licenciamento causado e custos de hardware e coisas assim. Tente manter as fitas diurnas e sempre que elas precisarem acessar os dados para qualquer tipo de análise. Vai ser um projeto e em seguida colocar os dados a serem recompensados em um banco de dados e você sabe que vai levar algum tempo antes que tudo seja feito. Então eles querem ver se eles podem criar ao criar um backup on-line. Mas eles mantêm os dados em vez de TFS hexadecimal porque nos deu, você sabe, fornecer confiabilidade em termos de apenas várias cópias dos dados. É recentemente no Norte falhas e os dados são, mas também fornece acesso aos dados fácil e para que as pessoas possam realmente acessar dados. Quero dizer sobre a necessidade algumas vezes, e eu vou tomar o comum dizer Ok, nós queremos olhar para os dados dos últimos três anos ou quatro anos e ver como as coisas estão. E eles sempre podem olhar para os dados porque eles estão disponíveis on-line. E, claro, ele pode fornecer recursos em Aquarian sobre os dados. Agora, isso pode parecer um caso de uso muito simples para você, mas é aqui que muitas empresas hoje estão começando com big data. A razão é tão grande que tem uma nova tecnologia em uma organização. As pessoas querem ter necessidades para Foskett familiarizado com a tecnologia. Quando é sua família e é os arquitetos que os desenvolvedores, as pessoas operacionais, os administradores de banco de dados, o por gentis API geral e o uso de todos precisa para se familiarizar primeiro e confortável com o Tecnologia? Antes de você, começamos a investir em casos de uso mais significativos em pessoas. Investir mais tempo e esforço em mais será que você escapar disso onde um monte de organizações, grandes organizações estão começando. Então, quais são as características disso? Assim, a fonte de dados é o nosso bebê Musso de aplicações tipicamente CRM usam o centro em grande parte pagamentos em que eles armazenam todos os jacarés de dados, cerca de 1.000.000.000 tabelas e colunas sobre os tipos de dados numéricos e relacionais. Isso é dificilmente qualquer textura que você vai encontrar um NFC e Burnaby, o mais off operação fora. Este caso de uso é puramente histórico pool de dados vai acontecer histórico e o acesso a dados vai acontecer. Histórica. Não há necessidade de nenhum tipo de coisa em tempo real aqui. Como é que a aquisição de dados vai ser a aquisição de dados vai ser um modo completo onde você vai estar puxando dados e bases pediátricas da fonte para empurrá-los. Então, a pia. Que tipo de disponibilidade precisamos saber que os dados são normalmente atrás de um com base nos dados disponíveis? Os dados dos árabes depois de um dia? Isso é meio OK, então isso é bom. Que tipo de loja você precisava disso, certo? Um tratamento necessário. Uma fonte. Você deseja levar os dados do CME e direcionado uma vez para o armazenamento de dados? E depois disso, ele só vai liderar em muitos números de bancos. Você dificilmente tem outra vez, certo? Você sabe, no caso de isso ser um livre por volta deste ano. Sinto muito, faz algo assim, mas normalmente vai estar certo uma vez e você acaba com isso e vai ficar lá para sempre. Que tipo de tempo de resposta você precisa na pia? Dados? tempos de resposta perguntaram. Isso é possível. Você não vai usá-lo regularmente. Alguém vai viver. Leia isso. E quando eles realmente precisavam, está tudo bem nesse ponto. Sabe, você tem algum tempo para correr por aqui. Isso é OK. É muito melhor do que ter que conceder backup em fita. Então, sim, eu te louvo. Posso ver como é que se demitiu está bem. E não há nenhum modelo de construção. Não há outros recursos de análise irracional que eu precisava neste caso de uso. Bastante simples, anos diretos. Então, como seria a arquitetura para tal caso de uso? Você tem uma fonte de dados, isto é, eles estão sendo baseados em matemática? Normalmente, um solteiro. Eles têm conexão baseada, que lhe dará todos os dados eso para puxar dados de nossa mensagem do bebê. A grande opção de pergunta vai ser furo. Porque eu falei sobre esta é a melhor lista de jogadores nossa ferramenta disponível adquirida no Everman Rd Bemis e empurrá-lo para qualquer um dos armazenamentos de dados. Então colher é um script que você colocá-lo sob um agendador, pergunte a um negociante como um agendador coroa que pode ser executado em uma base periódica e sugou-lo para fora do habemus em. Dado que os dados realmente não precisam de nenhum tipo de nenhuma equipe ou qualquer coisa, basta empurrá-los diretamente para a história de nós. Pagando HTM antigo foi empurrado é meio que suficiente neste caso, no caso de você querer ter um pouco mais de esquema e quer algum tipo de vapor para estar acontecendo aqui. Você pode possivelmente também fazer dedo do pé um impala barra alta partido, economicamente empurrando 60 e você pode colocar Impala sobre ele para dar-lhe um escuro vestindo habilidades de cuidados . Mesmo também usado Impala o garçom dentro Dados na história de nós são as opiniões Colmeia de desculpas Para colocar um esquema no exterior com banco de dados e inserir através de uma colmeia orçamento também, mas esta é uma reta Este é fora do estão conectados pareceria um arquitetura muito simples e direta. Mas esta é tipicamente a arquitetura do primeiro passo em que qualquer organização pode entrar em que torna a vida em todos muito fácil. Um bom começo. Isso não é nenhuma escola para o fracasso nesta coisa de arte, mesmo que as coisas corram mal, as pessoas sobre as quais eu vou gritar porque você não está fazendo nada crítico para a empresa. Então este é um bom lugar para você começar qualquer tipo de big data. Se o que está dentro da sua empresa fora, isso é útil para você. Obrigado 29. Uso de arquivo de mídia de caso 2: Oi. Bem-vindo ao segundo caso de uso arquivo Media. Guarde sua pele agora. Sobre o que se trata este caso de uso? Há uma empresa, uma empresa ocupada que tem um call center onde todas as chamadas gravadas. Então, se você estiver ligando para qualquer tipo de call center, você ouvirá a mensagem de que, por razões de treinamento, normalmente as chamadas serão gravadoras que também são estatutos quaisquer razões pelas quais as chamadas devem ser gravadas. Então, isso vai criar um número fora de arquivos de mídia são o que chamamos muito arquivos estão em com que quer que ex em MP três forma, ex-o que quer que seja. As gravações devem ser mantidas por essas empresas por um longo período de tempo, como a semana por razões legais para os próximos sete anos. As gravações também são usadas para fins analógicos dicks porque eles eram Tipicamente há algum auto que pode está sob essas gravações e entender o que está acontecendo e chegar a alguma gravação algumas análises sobre se o que o agente é fazer é a qualidade sábia. Ir para a idade dele e seguir um roteiro e todos os tipos de coisas. Então há coisas que se tornaram por razões de estratégia em dias financeiros e gravações são, você sabe, um número considerável. E dado que sua estatura, o equipamento é gravações, como ser armazenado de uma forma, que é seguro de qualquer tipo de falhas. Então, há backups e coisas que exigem. Então, o que a ABC quer fazer que não tem nenhum movimento de um fliperama que eles têm feito até agora, porque as fitas vão ser difíceis de recuperar e colocar de volta e outras coisas em um arquivo on-line . Dessa forma, podemos fornecer alguns sobre deixar todos os dados que estão lá, dessa forma, você sabe, você pode manter os dados sempre on-line ao mesmo tempo. Certifique-se de que é o rótulo e que é armazenado de forma segura. E eu posso apenas Então, quais são as características desses casos de uso? A fonte. Nossos contatos em soluções de gravação sobre os tipos de dados são realmente mídia para os dados é realmente mídia primeiro. Agora, este tipo de também está relacionado com outras formas de mídia que você quer rastrear, certo? Gosto de gravações, vídeos, fotos de áudio. Não. Todos eles se enquadram no mesmo tipo de categoria de casos de uso. A argamassa vai ser a extração de dados históricos. Normalmente, durante o dia ele está disponível oferecido raro. Então está tudo bem, você tem mesmo vai estar se movendo para as gravações. Como as gravações acontecem a partir do software de gravação, acordo tipicamente vem e alguns chamam, acordo com isso armazenado em um lugar separado, local separado porque é um grande número de arquivos. Você está indo para as pessoas nos arquivos em uma base diária e empurrando isso para o repositório? O tipo de armazenamento é mais uma vez, é como uma rua direita, muitos tipos de tipo de armazenamento e os tempos de resposta que você quer sobre isso é tão bom quanto possível. Você sabe, são novamente gravações, e eu não me importo. E dificilmente há mais do que construir que é necessário. Este é o tipo de características do caso de uso em Como é que uma solução para o caso de uso pareceria que começamos com um arquivo de mídia, então o banco de dados, normalmente há fazendo isso acha que muito grande. Eles não vão ser que a mídia cinco tipicamente renda tipo de um local separado, talvez na educação on-line, talvez uma rede separada com uma rede separada do data center acreditam que isso poderia ser uma possibilidade. Agora, dado que os arquivos do Sul como queremos movê-los é que temos que movê-los para o ftp. E como falamos sobre F bebê dá-lhe uma grande capacidade estão se movendo em lutas. Você coloca o FTP sob um cronograma. Ele, senhor, pode ligar uma maneira de programação cada vez mais agora onde todos os incêndios, qualquer coisa e continuar puxando todos os novos meios de comunicação sentiu que de lá, as fontes em, então esses arquivos de mídia podem ser empurrados diretamente para o coração do sistema de arquivos, hedge os esforços de um pesquisado começa a ficar arcade e estão saindo para sempre. Agora, uma vez que os dados estão em esforços HD, o que você pode fazer é colocar uma mídia em um laser. Uma mídia em um laser é que eu estou chamando isso neste ponto de um muito costume com o analisador que pode lê-lo. Estes arquivos de dados de Hitachi Evers e a menos que os arquivos e chegar a algumas descobertas, isso é chamado de processo de marcação, ou você tomar um arquivo e agir para várias coisas, qualidade certa, e, em seguida, a água pede um duplicado e dependendo do cenário de negócios, atacar pode ser um monte de coisas, e há soft ainda pode analisar na voz nesses arquivos de mídia e convertido para texanos. Que se converteu em cidades tecnológicas é uma etiqueta e todo o tipo de coisas. E todas as descobertas que você tem nos arquivos de mídia você pode preencher meu banco de dados secreto , todos os impostos para cada gravação e também, todas as entidades relacionadas, como se o cliente fosse o agente. E coisas assim podem ser colocadas em nome de gelo em uma baía. Então você tem realmente de nós e sua minha sequela. Em seguida, você pode ter uma solução de relatório de mídia personalizada. Isto é novamente personalizado porque é muito específico toe o muito específico para o EUA caso EUAque pode trazer dados após o meu banco de dados sequela e fornecer-lhe algum tipo de relatórios sobre eu também pode ser usado toe fornecer um player para as gravações que estão lá. Então você olha para um moderador para a gravação e então ele pode usar um dedo do pé de jogador. Jogar os arquivos também se você quiser, se alguém quiser enviar-lhes a partir de HP de nós. Então é assim que você pode configurar uma arquitetura para arquivos de mídia. E como eu estava dizendo, esta é uma arquitetura semelhante para mesmo se você quiser armazenar arquivos como fotos, vídeos, vídeos, audiófilos, qualquer tipo de arquivos grandes que você quer Arcade. Este é um tipo de arquiteturas de modelo para Então, a solução, Como se parece com o processo de aquisição vai ser? Você vai usar arquivos, Então não vai ser qualquer idéia quando algo assim é arquivos que camada de transporte vai ser ftp ftp fornecer seguro. Impediu a compressão sobre ele impede que você plantas fáceis onde sabe, capacidades de rastreamento e tudo mais. E isso é bom com f B persiste. Você vai persistir o histórico de nós para todos os arquivos de mídia, e você vai usar minha sequela para qualquer tipo de dados analíticos. Então é aqui que entra a política, não persistente . Você está tentando usar mais de uma forma fora de histórias, muito escolhendo cavalos para cursos onde você coloca todos os arquivos grandes em esforços extras e todos os homens aeradores, que não vai ser tão grande, você sabe, e que você colocou a bicicleta porque minha sequela lhe dá algumas excelentes capacidades vestindo a transformação. Há um analisador de mídia personalizado que há software disponível que pode ouvir uma gravação e convertido em texto e etiquetá-los e todos os tipos de coisas. É por isso que eu chamo isso de costume. Há uma camada de reportagem. Ou você pode colocar impala são. Você pode ter uma ferramenta de relatórios personalizada que pode ler fora e que pode ler fora. Você pode usar Impala porque em HD e SD esforços e fazer algumas análises. E você também pode usar um relatório personalizado para mim se você quiser uma solução realmente personalizada para o seu negócio. E finalmente há avançado. E eu acho que não há análise de ninguém neste caso de uso. Agora, lembrem-se que todos os casos de uso que estamos discutindo, eles não sabem que eles não estão realmente isolados. Normalmente, em sua empresa, você tem o implementar dois ou três anos casos juntos, e então o que você faz é pegar todos esses casos de uso e combiná-los para criar uma solução. Então é isso que vai acontecer. Vamos analisar casos de uso separadamente, mas em sua empresa você pode realmente ter dois ou três ou quatro anos casos, e você pode ter que pegar todos eles e combiná-los e criar um arquiteto geral . Ok. Obrigado. 30. Caso de uso 3 análise de sentimento de mídia social: Ei, bem-vindo ao caso de uso. Análise de sentimento de mídia social. Social Media Analytics é um dos casos de uso muito populares para trazer big data para sua organização. Vejamos como este caso de uso específico é sobre raios X, e notícias Corporation, e notícias Corporation uma empresa de notícias, corporação de notícias ou um novo general Cheerios. quer que você queira chamar rastreia tópicos populares e mídias sociais e os usa para a reportagem de notícias . E isso é algo que todo o canal de notícias ficou hoje são as faixas de tópicos populares para o dia, se este esporte de escape bala ou qualquer coisa, e então eles meio que dar alguns relatórios baseados nisso, eles tipo de analisar e dizer quantos, quantos sentimentos positivos estão acontecendo no mundo sobre um tópico específico e quantos sentimentos negativos estão acontecendo. Vamos dizer que investindo que você nos leva quatro vapor e, em seguida, ver quantos sentimentos positivos acontecendo, quanto sentimento negativo para o seu acontecendo sobre eles em. Normalmente, quando você está escolhendo um tópico popular, o número de agradar que acontece é enorme, certo? Não é como se você fosse receber 100. Hoje vamos ler 100 tweets, um segundo. E esse é o tipo de volume que esses tweets normalmente geram no dia. Quer olhar para as ruas como eles acontecem e produzir e reportar, especialmente se supostamente para montar. Alguns realmente poderiam. Mesmo alguns até mesmo que está acontecendo e eles querem dizer em tempo real. Como foi o sentimento das pessoas mudando como até mesmo o que está acontecendo? Isso é realmente, você sabe, algo como um finalista bem-vindo acontecendo. E eles querem acompanhar o nosso povo mudando-se sentimental conforme o jogo continua, quando alguns golos estão sendo marcados todas as diferentes mudanças e coisas assim. Então eles querem um sistema automatizado para capturar todas essas interações de mídia social em tópicos populares sobre fazer alguma análise de sentimento em tempo real. SAAND análise de sentimento que precisa ser resumos para as pessoas de notícias. E então tem que ser nosso filho para análise futura também, então isso vai ser um grande, grande trabalho para eles. Então, como vamos em design e arquitetura para este caso de uso? Vejamos as características deste caso de uso. As fontes vão ser mais bonitas e Facebook, é claro, você pode incluir os outros sites de mídia social também, mas vamos começar com Twitter e Facebook. Eles nos tornaram populares. Eles tipicamente têm. Os tópicos de tipicamente são hashtag, modo que é Hashtags acabou. Normalmente, você acompanhará tópicos populares. Os tipos de dados serão os tweets e posts em. Eles vão estar em Jason para, mas então eles normalmente dão a você e Jason por meses a operação mais fora aqui, tempo de Israel, aquisição em tempo real, aquisição em tempo real, análise em tempo real e relatórios sobre o processo de pergunta de dados é vai estar usando streaming, que é um empurrão. Tecnologia, que é thes clientes de criptografia, o servidor de streaming repleto e, em seguida, com sob tweets, aconteceu no dia em que a rua o Twitter, em seguida, empurrou para o self. Kleber, a disponibilidade aqui, hora de Israel. Tem que ser feito em tempo real, e isso é no vôo e hereges, e o armazenamento está certo. Muitos lêem muitos. Você gostaria de saber por que o local manobrável apenas lá. Olhe para isso à medida que avançamos. O exemplo e os tempos de resposta serão em tempo real. Você sabe, eles tipicamente por aí muito rápido porque a coisa toda está acontecendo em tempo real no edifício modelo é através de sentimento, análise e iminente, e isso é um espessamento suas bibliotecas disponíveis que você pode usar para criar sentimento, análise e até mesmo um tipicamente vem com ah sentimento positivo, sentimento negativo em um sentimento bonito. Ele também fornece alguns recursos adicionais para entender se os tweets estão felizes, tão irritados. Sabe, esse tipo de coisa cai. Depende da biblioteca que você usa. Como a arquitetura para análise de sobrenome se parecia? Começamos com as fontes, que são as fontes do Facebook e do Twitter. Este site. Problemas de experiência transmitindo recursos de AP A como um ano para o fim, criar um aplicativo nesses sites e, em seguida, configurar um streamer de streaming. Então sua corte vai se conectar a esses ganchos de streaming, e então eles receberão um fluxo de dados como e quando eles acontecerem em, como nós tiramos os dados do transporte? Vamos pegar esses riachos e colocá-los em Kafka. Kafka tem alguns ganchos diretos no Twitter e Facebook. Dessa forma, você pode configurar a tosse dramaticamente que conduzem o Twitter e o Facebook e receber os fluxos em como esses fluxos estão acontecendo, Kafka pode obter esses fluxos e, em seguida, transportá-los através de vários em sua rede como vários tópicos sobre essas paradas. Os tópicos podem então ser tão grandes por qualquer cliente. E então esse avião pode realmente sugar todos os tópicos e usá-los. Como vamos analisar isso? Os dados são através de faíscas, aparas e streaming de faíscas. Você vai configurar um cliente de transmissão de faíscas Jodi Kafka no Kafka vai continuar publicando os dados que estão vindo das mídias sociais para o streaming de faísca. Em seguida, faísca vai continuar ouvindo os fluxos sobre ele vai analisar no vôo vai separar agregar os tweets que estão chegando por tópicos e, em seguida, por tópico é confiante começar a agregar em. Então ele pode fazer como segundo a segundo, minuto a minutos. Análise independente pode realmente análise de sentimento em cada tweet que está chegando. E, em seguida, ele também pode agregar os dados em. Então, uma vez que ele feio deu os dados, você pode empurrá-los para Cassandra. Por que nós apenas, Cassandra? É que como falamos sobre Cassandra é uma ótima opção se você não vai quebrar tudo o nosso próprio objeto específico. Nesse caso de uso, o objeto é o tópico. Então, todos os tópicos terão um registro em Cassandra. Em qualquer coisa que você conseguir sobre o assunto deles, você estará usando Cassandra para criar um registro para o tópico. E então você continua atualizando essa bunda recorde e quando a informação continua vindo sobre o tópico em termos de sentimentos, assim você pode ter contadores de sentimentos para o tópico como ele vai adiante. É por isso que eu disse que é a situação certa muitos grande dinheiro. O primo dirige muito bem por isso. Você poderia querer uma grande maravilha. Corte um tópico e você continua atualizando esse registro como e quando eles estavam chegando sobre esse tópico. Então, isso faz com que Cassandra tenha uma grande consulta contada telefone sobre. Os casamentos são um objeto específico. Claro, você vai ter um novo aplicativo de resumo personalizado que é o seu próprio aplicativo de notícias que construído a partir de Cassandra e dar-lhe Aqueles são ótimos em um monitor de todos os barcos e números e gráficos e tudo o que você deseja publicar para seus leitores. Nossos espectadores estão em casa lá, e é claro, você precisa de um sistema de configuração de tópicos personalizado que você precisa para dizer a bezerro pode ligar faísca sobre quais tópicos eles devem procurar. Então você precisa de um conflagrations personalizado, que você pode continuar dizendo para Cuff pode transmitir em faísca como token este outros tópicos que eu quero que você ouça fazendo processo e como e quando as pontuações mais altas e eles vão começar a ouvir aqueles configurações e continue publicando-as. Desta forma, você usa os recursos de big data como você pode vê-lo fora do Spark e Kafka e Kassandra. Enquanto você também reclamou seu próprio tribunal personalizado ou atender seus próprios prisioneiros caso de uso em termos do novo resumo e tópicos conflagração e que a construção de valor geral Ah, arquitetura de big data para análise de sentimentos Movendo-se para um resumo da solução . Esse processo de perguntas vai ser transmitido. Como sabemos, o streaming é suportado pelo site de todas as redes sociais, modo que essa é uma opção popular para a aquisição de dados. O modelo de transporte vai ser Kafka porque Kafka fornece-lhe uma escalável nenhuma maneira pela qual você pode transportar dados e você pode criar Cathcart tópicos com base nos tópicos que você quer ouvir em que nós que são precisa o tópico e tal grave e Ouça-os. A camada de persistência vai ser Kassandra porque Kassandra lhe dá uma ótima maneira de armazenar informações em torno do objeto específico. E este objeto neste caso vai ser o tópico. Então você acha que o tópico e armazenar tudo em torno desse tópico em Kassandra, a camada de transformação é parte de um partido porque ele lhe dá uma transformação de assinatura de fluxo em tempo real , análise avançada, tudo deles em 11 tiro deixar uma bunda. E quando você ouve o topo, você pode fazer todos eles em um curto e, em seguida, realmente obter outro picaretas em segundos. A camada de relatório vai ser um aplicativo personalizado para ler o gás sob dados, e pode resumos para as notícias e, em seguida, mostrar todos os tipos de gráficos como muito específico toe as empresas de notícias, ou realmente não avançou opção. Um conjunto de opções personalizadas no Advanced Analytics será a análise de sentimento e eles residem cuja faísca de festa que lhe dá no processamento de fluxo de voo. Agora, se você olhar para esta grande corporação de notícias vai ser a qualquer momento, estamos ouvindo um monte de tópicos e estes são tópicos muito populares. Haverá muitas tendências acontecendo sobre esses tópicos em termos de número de tweets. Soto lidar com esse tipo de volume. Você precisa de um tipo de big data de configuração Toby capaz de gerenciar esse brilho e continuar chegando com datas analógicas. Mas se você está tentando fazer o mesmo pela sua empresa e se sua empresa não é, eu pediria Popular como um presidente fora dos Estados Unidos e você não vai receber tantos tweets. Você pode não precisar dessa escala fora de uma estrutura, mas você ainda pode construir destruição porque tudo isso que falamos ainda pode ser executado em uma missão pode ser escalado em várias notas. Agora, essa é a grande coisa sobre big data. Assim, você pode criar isso e continuar escalando conforme e quando o tempo passa também, para que sua solução se encaixe. Mesmo que você queira executar tudo em uma única caixa, você quer realmente escalar em centenas de servidores? Além disso, essa é a grande coisa sobre aplicativos de big data. Tudo isso tem sido útil para você. Obrigado 31. Detecção de fraudes de cartão de crédito caso de uso 4: Oi. Bem-vindo a este caso de uso. Produção de fraude de cartão de crédito. Este é um caso de uso muito popular. Quando é um caso de uso popular? Há um monte de casos de uso semelhantes como esse, Como este gostaria Se você está olhando para spam filtrando nossa rede em sh introdução, eles são todos casos de uso semelhantes em geral, você está tentando encontrar um monte de eventos que estão acontecendo. Qual dos uniformes você quer classificar? Esses eventos são bons ou ruins. É o que estamos tentando fazer. Então, um dos casos de uso que estamos tentando lidar aqui, então um sistema de vistos funciona de sua solução de varejo baseada muito semelhante Toho Amazonas, onde os clientes podem, é claro, vir em ordem qualquer tipo de produto. Isto são reconsiderações. Eu tinha maior vantagem com um monte de pessoas estão comprando um monte de produtos e uma grande habilidade baseada em nossa loja de leituras, às vezes ladrões de cartões de crédito. Eles usaram informações de cartão de crédito roubadas para fazer o profeta Jesus. Então, a garrafa do verão ainda a confirmação Então coloque isso e faça alguns compradores e depois de algum tempo por causa das empresas críticas têm invalidado estes que você realmente pode estar perdendo dinheiro quando as transações com cartão de crédito são acabou por ser fraudulento. Isso leva à perda de receita. Então, o que sua empresa quer fazer é que eles querem colocar um crítico sistema de previsão de fraude de cartão claro em tempo real para que, você sabe, como a transação está acontecendo, você pode ver se esta é uma transação fraudulenta em você . Alguns podem um bloqueá-lo antes do carro, o cliente realmente comprar algo e, em seguida, começar com ele. Então, uma das características da solução Então a fonte dos dados é tão direta será transações na Web em dados são capturadas em tempo real. Então você não está apenas capturando os dados de pagamento, você também está capturando o comportamento do usuário. Assim, como o usuário está navegando em seu site de página em página, você está tentando rastrear o comportamento do usuário. Além disso, porque você quer toda essa informação, descobrir se uma transação é para a Irlanda ou não, as vezes que você está lidando com um soro numérico, não há textura. Estes são mais eventos sobre quais páginas estão sendo clicadas e que ninguém duplica sua cratera mais numerosa. Pode haver texto, mas não eu não sou, tipo, você sabe, megabytes ou gigabytes de texto que estamos lidando com você para cada transação, os motores tipo de tempo real e histórico, mas lá vai há em uma coleta de dados históricos, mas a previsão está acontecendo em tempo real. Dados. Aquisição é um push mais aquisição porque cada navegador vai empurrar dados como e quando os eventos estão acontecendo no navegador, o cara, o usuário está realmente fazendo coisas no processo. Esses eventos são empurrados possivelmente de John Javascript diretamente em seu sistema de aquisição de dados . A disponibilidade vai ser em tempo real porque as previsões têm que acontecer em tempo real e em tempo real. Você vai prever se a transação é uma transação fraudulenta ou não. O tempo de resposta tem que ser muitos momentos, porque eu disse, isso está realmente pagando. A produção tem que ser eu. Você pode tomar pediu o uso do grande até que você faça isso, muitos da transação é um fértil e não estão aqui para fazê-lo então. E aí está o edifício modelo envolvido, que é a reclassificação Binah, que está classificando se uma transação específica vai ser fraudulenta ou não. Então há um edifício de modelo de reclassificação banner que é isso. Agora, uma coisa que eu quero ver mais uma vez sobre todos esses casos de uso que estamos discutindo é o foco para nós é o arquiteto que está desenvolvendo a solução geral. Nós não vamos estar focados em certas especificações como, como o data center. O que os cientistas de dados fariam em termos de construção mortal sobre isso é um grande e coisas assim. Essa é a data atribuída a este trabalho, não o trabalho de arquitetos. Como arquiteto, você deseja fornecer uma infraestrutura no local que possa lidar com esse tipo de dados murais, lidar com todos os big data e fornecer capacidade de fornecimento para os engenheiros de dados e a data que nos foi atribuída para construir modelos, não realmente construir o modelo. É desligado. Sete. Este curso é focado na arquitetura de big data que há outro curso sobre como você realmente construiria. As modelos não são. Não é isso que estamos focando aqui. Apenas proteções contra fraudes de cartão de crédito. Como isso funcionaria? Começamos com um costume com pagamento fora apenas o aplicativo da sua própria empresa em que as pessoas vão estar fazendo login olhando para vários produtos que você oferece em. Então você clica neles por eles, coloca-os no carrinho de compras e coisas assim. Agora você pode ter atendido centenas do serviço realmente servindo este aplicativo, e pode haver milhares de usuários em qualquer momento. Titular, usando este dedo do pé aplicação realmente clique e comprar e novos tipos de coisas. Então, essas aplicações Web geram muito fora do mesmo modo que o usuário ama. Outro usuário navega de página em página, e todos esses eventos são enviados diretamente para Apache Kafka. Então tosse causando no bom uso para obter todos esses evens Web e, em seguida, e, em seguida, transportar isso através de sua rede para nós e atrasa armazenamento de dados. Então um Patrick, depois que eu sei que seria colocado em todos esses representantes com Patrick Classical cliente no absurdo empurrando, adiando o encontro e o Apache Kafka na Net para a tosse mágica fora do gás. Eu estava com eles tentando toe Colette e combinar todos os dados e empurrá-lo para um banco de dados mongo db mongo db. Então, quanto mais tempo a espera, todo mundo vai começar a acumular os dados como e como eles vêm em agora, você poderia colocar também entrada de fraude, que é, você sabe, quais transações eram realmente fraude que você pode encontrar a partir de novembro. Mas isso é tipicamente oposto. Fato de trabalho como para você sabe, você normalmente descobrir algumas transações mais tarde são transações fraudulentas em que a entrada nós para vir de externamente para ir em Marcar cada um dos registros como Tóquio Este é um registro fraudulento não é para o Terra, Ricardo. Diga qual é bom e qual é ruim Porque esta identificação prévia é necessária para construir um modelo para previsão futura. Então essa fraude e nos colocou para vir de fora amanhã, cada um desses registros, seja fraudulento ou não. Agora, uma vez que você faça isso, então você pode fazer faíscas Apache para trabalhar. Apache Spark vai olhar para todas as transações que estão lá no banco de dados mongo nesta transação sendo sinalizada como fraudulenta ou não. E você começa a construir um modelo que dirá, você sabe que tipo de como a transação fraudulenta parecia o que é conhecido transações fraudulentas e usa isso para construir um modelo que pode realmente prever quando as transações estão acontecendo. Com isso, isso pode ser uma transação fraudulenta na North. Então você constrói um modelo, e o modelo em si pode ser contra o banco de dados Mongo. É também que você tem dados históricos armazenados no Mongo DB e as listas de modelos de ser armazenado em mongo. DB em também, um modelo pode ser descontado na memória dentro do Apache Spark, se você quiser. Oh, e mantenha isso também agora, como a previsão real vai acontecer? Você realmente teria outra previsão de fraude nisso é mais como um amigo da Web. E para a faísca Apache. Um novo aplicativo para o qual seu aplicativo de pagamento Web vai apelar faz quando o cliente realmente clicar e dizer, Isto é tudo o que é meu. Eu quero comprar isso e eles vão e clique em Comprar Then the Web, ausente um pedido para o aplicativo de proteção contra fraudes, perguntando se Hayes é uma transação fraudulenta, Não, você sabe, E então o proteção contra fraude Abdin lançamento que Apache Spark agora sobre esta parte irá então usar todas as informações que mais sobre a transação no modelo que já construiu sobre o uso ambos para fazer uma previsão se esta transação em particular é uma fraude transação ou não ligada. Então isso iria livrá-lo de volta para a proteção contra fraudes acima que iria colocá-lo de volta para o verbo aconteceu na ação do exame de pescoço traseiro tem que dizer que havia que Você não pode comprar isso no momento ou entrar em contato com o nosso presidente de serviço ao cliente o que quer que você sabe. Mas é assim que você coloca uma cabeça na produção de fraude? - Não. Você pode fazer uma coisa semelhante para redução de spam para e-mails, redução de tempo para qualquer mensagem, você pode fazer um semelhante na arquitetura para intrusão de rede, direção, tudo. Este é como um modelo semelhante que você vai jogar para todos esses tipos de casos de uso fora da solução. Parece que uma questão de dados é através de evens web. Então isso é gerado pelo seu cliente sobre isso. Você foi criado para sua organização na implantação. Forma agradável. A camada de transporte vai ser carro bezerro porque Kafka fornece um transporte confiável em tempo real para rótulo de dados e escalável em que pode coletar dados de todos esses servidores representantes e, em seguida, comprometeu-os em um banco de dados mongo um Munger TV é um bom geral propósito nenhum banco de dados sequela onde os eventos árabes e transação podem ser acumulados e os modelos, mas também pode ser roubado. Mongo db a camada de transformação deste parque para que você possa realmente usar Parker. Olhe para os eventos e, você sabe, fazer alguma transformação, fazer alguns resumos e qualquer coisa que você quer construir, a fim de fazer isso obter uma data já para o corpo mortal, mesmo que nós não temos ouvido nada para reportando aqui. Dado que é mongo db, você pode colocar uma camada de relatório em cima dos dados que já está em mongo DB e, em seguida, fornecer alguns relatórios interessantes. Além disso, como eu estava dizendo antes, mesmo que nós demos uma olhada em cada um desses casos de uso isoladamente, tipicamente em uma organização, você vai ter dois ou três anos casos e você vai construir sobre toda a solução . Coloque-os todos juntos. Advanced Analytics Sister Sparked Herbal, um modelo de classificação binária, deve prever se uma transação específica é fraudulenta ou não. Isto é tudo que você colocar uma solução no lugar de como você esta é uma solução de arquitetura novamente, Eu disse a data atribuída Será que tanto se incomoda sobre como o modelo será realmente construído. E quais atributos e recursos serão usados para construir a argamassa. Mas você está focado aqui na parte da arquitetura. Espero que isso seja útil para você. Obrigado. 32. Análise de operações de caso de uso 5: Oi. Bem-vindos à palestra sobre os próximos dois anos. Case Operational Analytics Operational Analytics Operation and Analytics é um grande campo no campo do big data , especialmente quando hoje muitas empresas estão se movendo para a nuvem. E muito deste clube Big Centres Day não tem terra do que ah, Host of Webster era como centenas deles. E então eles querem ser capazes de gerenciar as operações de todos os servidores. Veja a integridade dos servidores em. Certifique-se de que nenhuma falha é impedir que Nós pensamos que o ocorrer. Então, o que é isso? Você assusta a sua pele é muito parecida. Portanto, a ABC Systems executa uma nuvem baseada no centro de descanso com centenas de nós no data center precisa ser mantido operacional 24 por sete. O que quer que estejam a fazer. As centenas de notas de William em execução em cada uma dessas notas do Veum têm aplicativos em execução neles. Então, o próprio Norte está gerando um monte de craps e alarmes como CP usam memória de idade, você disse, e os aplicativos em execução nas notas que estão gerando um número fora de logs. Quero dizer, uns dos outros que estão chegando lá são registros críticos, o que é como, você sabe, há uma falha acontecendo em falha crítica. Poderia haver mensagens de aviso e há que seria um monte de áreas infame foram utilização atual e coisas assim. Então você precisa de uma maneira de sugar em todos esses logs que estão saindo de cada uma desta nota em ser capazde, em primeiro lugar, de, em primeiro lugar, sobre a amizade entre vários tipos de logs e, em seguida, sempre que a informação crítica está vindo e você quero ser capaz de processar esta informação crítica em tempo real sobre honrado os usuários. Quanto a menos, você deseja armazenar as informações históricas , dendritos e estatísticas. Então, para ajudar na gestão, eles querem configurar um sistema analógico de relatórios que irá fornecer-lhes o seguinte. Eles querem olhar em tempo real, sem monitoramento de saúde em tempo real. Eles querem saber se há alguma nota que está em um estado crítico. Eles queriam fazer histórico causa análise de problemas, que é eles querem olhar para os logs em geral e queria análise histórica e tentar descobrir se há algum tipo de padrões e como ah falha pode acontecer e outras coisas assim. E, finalmente, eles também querem prever falhas de anotações. O que é, podemos olhar para a sequência de registros que estão chegando e então ver se esse tipo de padrão resultaria em uma falha mais tarde? E em caso afirmativo, como podemos então ir em frente e evitar esse tipo de fracasso? E isso é o que queremos fazer com as operações no Elastic Dexter no dia. Quer um arquiteto de Utah de solução maior para resolver o mesmo? Então, quais são as características deste dia? Este tipo, este requisito, a fonte de dados será logs do servidor. Nenhum registro de servidor é gerado pela Williams e os aplicativos normalmente esse log são revertidos . Eles são enrolados a cada cinco minutos, 10 minutos, dependendo de como eles usaram. Você pode realmente colocar em nossos monitores sobre este amor. Então, sempre que nova mensagem de log colocar no log que pode ser sugado e propagado o tipo de dados que está sendo enviado uma mensagem de texto, apenas nenhuma mensagem de log é tipicamente mensagens de texto, mas eles também têm algumas três estruturas de defesa como ele vai começar com o tempo vezes do que ele fez. Não tenho nome e coisas assim. Quanto mais de operação vai ser realmente tempo porque nós queremos realmente, eu sou informação de saúde. A aquisição de dados vai ser streaming ou push onde haveria agentes ou clientes sentados em cada uma dessas notas. Eu estava ouvindo todos os logs que estão acontecendo nessas notas sempre que novas mensagens de log acontecendo durante muito tempo foram tomadas e empurradas para uma indústria de cada equipe precisa ser em tempo real porque estamos tentando fazer o monitoramento em tempo real dos dados que vai no tipo de loja vai bater, certo? Muitos lêem dinheiro, e isso é porque este é um caso de uso onde você está tentando olhar para cada norte. Cada nó então se torna como um objeto. Então você quer rastrear e todas as informações em torno de um objeto, que é o aviso ou caixa de corpo de, hum, você quiser chamá-lo. Então você vai criar um registro de nota, e nós vamos operar esse registro com frequência com o estado atual e o estado histórico , e você também vai estar lendo os dados para fins de relatório. Os tempos de resposta serão em tempo real porque você quer ter monitoramento de rede de nomes reais , e o edifício do modelo será classificações em qualquer tipo de classificação. Seja como for justo classificar, você não está ainda prever falhas de nota. Então, como é que a arquitetura parece que começamos com uma nota Web de Farm, que é uma forma de observadores, são moto. Como você arquitetou este? Ondas não fazendeiros indo de novo. Mensagens do Dreadlock que serão empurradas para a gripe Apache. Uma gripe festeira? É que uma das melhores opções disponíveis para você propagar bloqueio para que você vai colocar uma gripe partido . Agentes em cada uma das notas lá no Norte vai cuidar de sugando e dados de cada dos bloqueios em, em seguida, empurrando para um fluxo central fora de logs que irá fluir toe múltiplo fora estes um grupo de servidores são agentes. Antes, nós apenas o destino? Agora, os dados que estão chegando na flume Apache precisam ser usados para dois propósitos. Você quer fazer monitoramento de saúde em tempo real e também você quer um dedo do pé iniciado, não pode analisar. Então você primeiro configura uma pia para este andar, que é para monitoramento de saúde real, que seria streaming de faísca, então você coloca o fluxo de faísca no meio. Então, ele vai olhar para os eventos que acontecem em tempo real primeiro em torno de uniformes que são críticos para você. Então você não tem que ser realmente Nós não estamos olhando para todos os registros, Sra., porque pode haver toneladas de mensagens de log. Você está focado em problemas sérios. Então você sentiu ao longo dessas mensagens de log em nosso orçamento e fluxo de faísca e então você quer transformá-los como uma propriedade possível e empurrá-lo para o tipo de passageiro. Kassandra. Vai guardar um disco? Mas não. E esse cartão de maravilha vai continuar sendo operado de novo e de novo com todos os bastões iniciados e tudo o que você encontrar sobre o Norte. E isso é o primo que vai ser mais adequado para a faísca. Streaming é usado para filtrar dados sobre resumir dados em tempo real, colocando em Kassandra, bem como ele pode ser usado para fazer proteção em tempo real. Portanto, você pode ter dados históricos que são usados e criar modelos antes ou prever falhas na mesma faísca. Instância de streaming pode ser usado para prever falha para as notas também, e que também recebe um trançado em Cassandra. Com Cassandra, você pode colocar o painel de operações, talvez um painel de operações personalizado. Você está pelo produto da festa? Porque você sabe, um monitoramento em tempo real. É uma grande coisa que você quer investir e um bom painel de controle que pode ler que outros credores no Castelo Grande continuam mostrando análises em tempo real como nota por nota, estado como nosso alguém dos traidores notas. E eu vou me levantar quando você está para baixo, harmonia fora do risco de ir para baixo em um monte de coisas como isso em paralelo, você quer também saber despejar todas as mensagens de log que você está recebendo na história uma primeira para análise futura todos os leis de sua obtenção vai e pediu Everton goleiro dando tanto quanto você quiser. Este é um segundo canal que você abre no qual você estará despejando dados no Extreme e na entrada de Nova York. Outro exemplo de faísca lá cujo trabalho é analisar este 60 de dados dos EUA e modas históricas Go. Isso vai ficar no meu todo o amor de log que eles estão vindo. Em seguida, ele pode coletar a estilística pelo Norte e, em seguida, operar um Kassandra. Mas todos os tipos de status detendo tempos de inatividade e métricas e ou utilização de variação da CPU regularmente todo o tipo de coisas. A mesma instância do Apache faísca também pode ser usada para construir um modelo para mais falhas. E esse modelo também pode ser atualizado no passageiro, que então será realmente usado pela Time Street Sparks real, alegando instância para prever falhas na mesma data que eu estava fora, porque eu posso ser usado no operações que dashboard para início e análise. Então é assim que você obtém um fluxo de dados e, em seguida, você espalha com em tempo real e histórico sobre. Você cruzou problemas críticos em tempo real. E então você vai deixar o resto do material historica, e então preencher o painel de operações. Você pode fazer uma pergunta. Por que não podemos fazer tudo na sua caneta? Você pode. Mas então você tem que fornecer esse nome de parede do processamento de dados, certo, porque em tempo real você não pode pagar nenhum atraso, e os volumes de dados que você vai pressionar são risos. Você é o tamanho do dedo do pé acima. Estátua de um não. O número fora do custo da solução vai porque você está investindo esse número de dinheiro fora de servidores que podem ir um processamento de remo de dados e empurrar a data e Cassandra em dados históricos presentes você pode pagar algum atraso. Então você sabe o que você precisa é o mecanismo de enfileiramento Maura em que enfileiramento é fornecido a você por esforços hexi. O Steven vai continuar a largar tudo e a fazê-lo por ti. E você pode processar esses dados anexados mesmo em seu próprio tempo através do Apache Spark e colocá-los no passageiro. Então é depois de você como quanto fora os dados que você quer dividir entre o tempo real no histórico você quer que tudo resulte Você quer que tudo começou a cobrir mas que mais você quer arruinar o tempo real, mais investimento que você deve fazer em termos de hardware em operações de barril, vamos rever a solução geral que colocamos em. A questão dos dados vai ser em arquivos de bloqueio que estão sendo criados neste Vários de Williams e aplicações a camada de transporte vai ser voado de agentes são importantes. Cada uma dessas notas que ajudarão a nossa ajuda a adquirir todas as mensagens de log e transportá-lo através de uma camada de gripe pode ser configurado em uma caixa de estômago multi sistema de volta, dependendo da capacidade de escala e que pode apenas colocar todo o dia para baixo através do grande camada de dados. Persistência. Usamos HD de nós para armazenar arquivos brutos e Kassandra estava armazenando resumos por cada nó que você tem transformação. Você vai usar o Apache Spark para assinatura e transformação de fluxo em tempo real para computação. Realmente, eu estou me perguntando estatísticas e também para prever um nó falhas nesta mesma parte que você perderia para todos vestidos, análise de log radical e estatísticas. Você verá que a única opção que eu tenho usado em todos os casos de uso para transformar avanço do nosso lugar de festa irmã mais velha porque isso é que parece ser a melhor opção disponível que pode fornecer toda a escalabilidade no trabalho seja que você precisa. Hoje você pode usar o nosso e de madrugada para análises. Mas isso é mais para uma escala muito pequena. Operação reportando Terceiros são parte importante. Este tipo de solução requer um bom sistema de relatórios porque quando você faz monitoramento em tempo real , você realmente vai ter Então Money monitores lá em cima. Isso vai ser um centro de operações no qual você vai ter todo esse monitoramento em seu sábio e as pessoas sempre olhando para eles. Então você quer investir em uma boa solução nessa solução do partido que combina com você em análise avançada , É claro. Através de órgãos lança parque para creditar falhas do norte sobre as falhas. As informações também são armazenadas como parte do mesmo registro nas notas. Lembro-me que no caso da Cassandra, você não vai ter tantas fileiras, mas sim você vai ter uma coluna tão dinheiro. Então, há um grande dia em termos fora da estrada, não no número de linhas que você tem isso. Então eu uso o primo russo. Espero que isso tenha sido útil para você. Obrigado. 33. Recomendações de artigos de notícias do caso de uso 6: Oi. Bem-vindo a este caso de uso recomendações artigo notícias? Uma recomendação de artigo de notícias é um caso de uso que será muito semelhante. Dedo no item, recomendação para uso, supostamente ir na Amazon e eles começam a rec