Ciência de dados aplicada - 4 : engenharia de dados | Kumaran Ponnambalam | Skillshare

Velocidade de reprodução


  • 0.5x
  • 1x (Normal)
  • 1.25x
  • 1.5x
  • 2x

Ciência de dados aplicada - 4 : engenharia de dados

teacher avatar Kumaran Ponnambalam, Dedicated to Data Science Education

Assista a este curso e milhares de outros

Tenha acesso ilimitado a todos os cursos
Oferecidos por líderes do setor e profissionais do mercado
Os temas incluem ilustração, design, fotografia e muito mais

Assista a este curso e milhares de outros

Tenha acesso ilimitado a todos os cursos
Oferecidos por líderes do setor e profissionais do mercado
Os temas incluem ilustração, design, fotografia e muito mais

Aulas neste curso

6 aulas (1 h 12 min)
    • 1. Sobre a Série de Ciência de Dados Aplicada

      8:12
    • 2. Aquisição de dados

      16:01
    • 3. Limpeza de dados

      10:50
    • 4. Transformações de dados

      11:09
    • 5. Texto pré-processamento de TF IDF

      14:53
    • 6. Exemplos de R para engenharia de dados

      11:14
  • --
  • Nível iniciante
  • Nível intermediário
  • Nível avançado
  • Todos os níveis

Gerado pela comunidade

O nível é determinado pela opinião da maioria dos estudantes que avaliaram este curso. Mostramos a recomendação do professor até que sejam coletadas as respostas de pelo menos 5 estudantes.

191

Estudantes

--

Sobre este curso

Este curso faz parte da "Série de Ciência de Dados Aplicada" no SkillShare apresentada pela V2 Maestros. Se você quiser passar por todo o currículo, por favor registre todos os outros cursos e atravesse deles na sequência especificada.

Este curso se concentra na Engenharia de Dados. Isso passa pelas etapas de pré-processamento de aquisição de dados, limpeza, transformação e texto

Conheça seu professor

Teacher Profile Image

Kumaran Ponnambalam

Dedicated to Data Science Education

Professor

V2 Maestros is dedicated to teaching data science and Big Data at affordable costs to the world. Our instructors have real world experience practicing data science and delivering business results. Data Science is a hot and happening field in the IT industry. Unfortunately, the resources available for learning this skill are hard to find and expensive. We hope to ease this problem by providing quality education at affordable rates, there by building data science talent across the world.

Visualizar o perfil completo

Nota do curso

As expectativas foram atingidas?
    Superou!
  • 0%
  • Sim
  • 0%
  • Um pouco
  • 0%
  • Não
  • 0%
Arquivo de avaliações

Em outubro de 2018, atualizamos nosso sistema de avaliações para melhorar a forma como coletamos feedback. Abaixo estão as avaliações escritas antes dessa atualização.

Por que fazer parte da Skillshare?

Faça cursos premiados Skillshare Original

Cada curso possui cursos curtas e projetos práticos

Sua assinatura apoia os professores da Skillshare

Aprenda em qualquer lugar

Faça cursos em qualquer lugar com o aplicativo da Skillshare. Assista no avião, no metrô ou em qualquer lugar que funcione melhor para você, por streaming ou download.

Transcrições

1. Sobre a Série de Ciência de Dados Aplicada: Hey, bem-vindo ao curso são reproduzidos sinais de dados com o nosso Este é o seu instrutor, Cameron Parnham pertencem de vídeo Vamos passar por Mastro e entender o que este curso é tudo sobre. O objetivo do curso é treinar os alunos para se tornarem profissionais de dados de pleno direito. Então, estamos nos concentrando em fazer pessoas praticantes que podem executar em dados de eventos desde o projeto desde o início, adquirindo dados até transformá-los, carregando em um final mais tarde nosso destino e, em seguida, realizando análises de órgãos sobre eles em finalmente alcançar alguns resultados de negócios a partir desta análise, o que você, fazendo este curso é você entender o conceito e conceitos de sinais de dados, você entende as várias etapas do no ciclo de vida fora de uma ciência de dados você desenvolve proficiência para usar o nosso uso ANDI estão em todas as etapas fora da ANALITICO desde análise de dados exploratória até diretriz por hora. É preciso modelar o dedo do pé. Finalmente fazendo previsão usando algoritmos de aprendizado de máquina aprendeu as várias ferramentas de engenharia de dados e técnicas sobre a aquisição de dados e limpeza de dados na transformação de dados. Conhecimento adquirido sobre as técnicas de aprendizado de máquina amigo sobre também aprender como você pode usá-los e também o mais importante, então você pode usá-los se tornar um praticante de ciência de dados de pleno direito e que é pode contribuir imediatamente para dados da vida real. Projetos científicos não mencionar que você quer levar esse conhecimento para sua entrevista para que você possa obter uma posição na ciência de dados. Terry era essa prática que queríamos tocar nessa coisa específica fora da teoria versus prática, dados, sinais, princípios, ferramentas e técnicas. Imagem de diferentes sinais e disciplinas de engenharia. Não, eles vêm de ciência da computação, engenharia da computação, informação, informação, probabilidade de terry e bastões de início, inteligência artificial e assim um sobre o estudo teórico de sinais de dados que se concentra nestes fundação científica e raciocínio fora dos vários Jardins de Aprendizagem Mission. Ele se concentra em tentar entender como esta missão aprender o trabalho de Salgado em um sentido profundo em ser capaz de desenvolver seus próprios algoritmos em. Desenvolva sua própria implementação desses algoritmos para prever um problema bola real. Apenas um habita muito fora em nossas equações e formal em privações e raciocínio. Considerando que o pacto está no até tarde em parte dos dados, a ciência se concentra em um jogo as ferramentas, princípios e técnicas, a fim de resolver problemas de negócios obter o foco em tentar usar técnicas e ferramentas existentes e bibliotecas em como você pode tomar estes e um jogá-los para realmente problemas de trabalho e sair com negócios merece. Este se concentra em ter uma compreensão adequada dos conceitos um conhecimento de quais são as ferramentas e bibliotecas disponíveis sobre como você pode usar essas ferramentas e bibliotecas para resolver problemas do mundo real. Portanto, este curso é focado na prática fora de sinais posteriores, e é por isso que é chamado de Inclinação da Ciência de Dados Aplicada dos cursos. Esta ciência de dados é um assunto trans disciplinar, e é um assunto complexo. Não se concentra principalmente em três áreas técnicas. Portanto, há matemática e estatísticas que é aprendizagem de missão. E há programação neste curso é orientada para. Você sabe, programação é orientada para profissionais de software existentes. Ele está fortemente focado na programação e na construção de soluções. Ele tem limitado e pediu exposição à explosão necessária. A matemática e as estatísticas sobre ele abordam a visão geral Os conceitos de aprendizado de máquina fornecem a você compreensão articulada sobre como esses aprendizado de máquina protegiam os livros. Mas o foco está em usar a ferramenta existente para desenvolver soluções do mundo real. Na verdade, 90 95% outro trabalho que mais tarde tempo ciência. Basta fazer no mundo real é a prática da ciência de dados. Não realmente, Terry, de maior ciência e este curso se esforça para manter as coisas simples e muito fácil de entender . Então nós definitivamente tornamos isso muito simples. Ficamos longe de um pouco do conceito complexo. Nós ou eles tentaram o tom do dedo do pé para baixo Estes conceitos complexos são apenas ficar longe deles de modo que torna fácil para a compreensão para pessoas de todos os níveis fora do conhecimento no campo da ciência de dados. Então é uma espécie de grande curso de enfermeira. Se posso dizer que a estrutura central que é passa pelos conceitos de maior sentido para começar, qual é exatamente a sua atribuição? Como funciona a ciência de dados? Ele analisa o ciclo de vida dos santos de dados com seus vários estágios de ciclo de vida. Em seguida, ele entra em alguns conceitos básicos de varas iniciadas que são necessárias para fazer sinais de dados. Em seguida, ele vai para a nossa programação. É questionar um monte de exemplos de como você usaria nossa programação para várias etapas no projeto de ciência de dados. Os vários estágios em dados enviados engenharia de dados lesionados, esforço parcial. O que outras coisas que você normalmente faz lá que é a engenharia de uma das melhores práticas na ondulação de dados, ele abrange essas áreas. Finalmente, há a parte de modelagem e análise preditiva onde nós construímos para a missão Aprendizagem ou Deus Adams. Nós também olhamos para Endo e casos de uso para esses algoritmos de aprendizado de máquina, e há alguns tópicos avançados também que abordamos. Finalmente, há um pacote de recursos que vem como parte deste curso, e esses resultados pacote basicamente contém todos os conjuntos de dados. Os dados arquivados o exemplo do tribunal revestimento sobre esse tipo de coisas que nós realmente ensinar como uma parte deste curso que é abordado nos exemplos todos eles são dados no pacote de recursos. Então eu não sei o pacote de recursos que tem todos os dados que você precisa e todos os exemplos principais que você precisa para você experimentar as mesmas coisas você mesmo. Diretrizes para os alunos, o jejum este dedo entender seus dados. Saints é um assunto complexo. Precisa de esforços significativos para compreendê-lo. Portanto, certifique-se de que, se você está ficando preso, faça a revisão e aliviá-lo os vídeos e exercícios faz. Ele chamou a ajuda de outros livros sobre recomendações de terras e fóruns de apoio. Se suas consultas 1000 preocupações faz, e isso é uma mensagem privada, nosso fazer postou esta pergunta pergunta, e vamos ser realmente felizes. Toe respondeu isso o mais rápido possível. Estamos constantemente procurando melhorar nossos cursos, então qualquer tipo de feedback que você tem é bem-vindo. Por favor, forneça feedback através de mensagens privadas são dois e-mails no final do curso . Se você gosta do curso, não dar deixar um comentário. Comentários são úteis para outros novos alunos em potencial para fazer este curso e esperar Maxim discos de outros cursos futuros do We Do Mastro, queremos tornar isso fácil para o relacionamento de nossos alunos com o outro. Nós fazemos cursos de mestrado são cursos são focados em ciência de dados, realmente um tópicos basicamente, tecnologias, processos, ferramentas e técnicas de santos de dados em. Queremos que nossos cursos sejam auto-suficientes, tanto quanto possível, hein? Então o que isso significa é que, se você é um estudante de mestrado existente nós fazemos, você vai fazer ver alguns conteúdos e exemplos repetidos em todos os cursos. Queremos fazer uma visão para si mesmos. Então, em vez de dizer isso, há algum ponto no curso? Certo, garota, olhe para o despótico como outros cursos. Registre-se para o outro curso e saiba mais sobre isso. Prefiro nos concentrar neste curso em si. Manter duas coisas no mesmo curso. A não ser que esse outro conceito seja um grande concerto. Que eles mesmos, de curso separado. Nós queremos a Índia eles como uma parte deste curso em si. Assim, você pode ver algum conteúdo que é repetido em todos os cursos. Finalmente, esperamos que este curso o ajude a avançar na sua carreira. Então, boa sorte. Aprendizagem feliz em Não manter contato. Obrigado. 2. Aquisição de dados: Olá. Dedo bem-vindo. Este modelo em engenharia de dados. Este é o seu instrutor comum aqui. Engenharia de dados é uma parte vital fora sinais de dados sobre ele é a parte mais difícil de sinais de dados . Obter dados de sua fonte é certificar-se de que os dados são válidos e confiáveis e limpá-los ao fazer suas transformações e colocá-los em um repositório, mas eles podem ser devidamente analisados é uma das mais dolorosas confiança que você faz. Na verdade, engenharia é o mais doloroso, mais laborioso, mais demorado nisso é o que lhe dará dores de cabeça em sua vida de engenharia de dados, Arthur, Arthur, sua vida de ciência de dados. Então vamos começar tentando ver que tipo de fontes de dados existem em nosso que tipo de fontes de dados e cientistas de dados lidarão com, uh, uh, as fontes de dados desempenham um papel muito importante na determinação de que tipo de processamento de dados você fazer. O tipo de dados, a origem da taxa dos domínios, que tipo de processamento de dados você faz em que tipo de processamento de dados, arquiteturas e fluxos de trabalho você configuraria. E isso depende de que tipo de qualidade de dados no trabalho, os ex para os dados fonte. Associado é realmente confiável? Pode-se acreditar que você tem que fazer um monte de verificações e minhas ações em validações para garantir que os dados são realmente rerotulados. Ele também afeta seu planejamento de rede. Como o tamanho dos dados e onde os dados existem na largura de banda necessária para mover os dados de um lugar para outro, todos eles afetariam suas considerações de planejamento de rede. Você pode ter a prudência das capacidades de tolerância a falhas. Se os dados estão indo para um sobre o que chamamos e uh, rede realmente arriscado, ou são que os dados estão vindo em tempo real em, você não pode ir em re processar os dados. Portanto, sua descida da segurança de recursos de US$4 é uma consideração importante. Normalmente, muitas medidas de segurança são implementadas, especialmente se os dados estão fluindo. As organizações são Os dados estão vindo das nuvens. Há também limites organizacionais para lidar com porque você pode estar sentado em um departamento em então os dados têm que estar sentados em outro departamento e você tem que trabalhar através dos limites organizacionais, a fim de obter acesso aos dados sobre, obter os dados em seu domínio para começar a trabalhar nele. Que tipo de dados? Origens que seu primeiro tipo de fonte de dados é as fontes de dados corporativos que as fontes de dados realmente existem dentro de sua empresa ou organização. Este é o armazenamento de dados mais fácil são o armazenamento de dados mais conveniente que você pode ter sobre este tipicamente é em nosso bebê. As fontes de dados corporativos de Emma são geralmente ver Adam Systems ou qualquer tipo de sistemas. Onda. Normalmente, eles estão sentados lá no RGB Emma. Eles são normalmente preenchidos por alguns bons aplicativos, aplicativos bem construídos. Quero dizer eles também. Criar aplicativos é que os aplicativos normalmente cuidam da validação de dados. Quando o usuário está inserindo dados, o aplicador que os EUA geralmente viola. E certifique-se de que os dados sendo e que seguem certas regras e restrições como ok, os dólares do dia. Alguns caracteres você pode passar por uma lista de seleção de valores. Alguma coluna tão obrigatória, você sabe que faz todas essas verificações e certifique-se que os dados que estão chegando estão completos. Mesmo coisas como chaves estrangeiras geralmente são completamente vinculadas à tabela de chaves estrangeiras, por isso é bastante completa e a acessibilidade bastante limpa às fontes de dados empresariais é fácil. Não há grandes limites. Se você estiver olhando para fontes de dados em nuvem, há limites de taxa em termos de quantidade de dados que você pode acessar em um determinado dia estão no argumento 15 minutos janela organizacional. Uma fonte de dados não tem esses limites de taxa de dia. Isso é uma vantagem para o seu design. Os fluxos de dados são como você pode extrair dados das fontes. Tem excelente qualidade e disponibilidade. Não haverá erros nos green cards ausentes e sentimentos ausentes tipicamente em uma fonte de dados corporativa. Mas as questões são que os guardiões da dieta Ada você pode estar recebendo dados de outro departamento. Você está recebendo do radar de identidade identidade e você tem a resposta a uma série de perguntas sobre onde você quer esses dados. Como você vai usar esses dados? Porque eles têm que se certificar de que os dados não são mal utilizados de forma alguma ou a segurança dos dados não é comprometida de forma alguma. Então você tem que passar por esses limites organizacionais. Você tem que passar por esses limites organizacionais para atravessar guardiões de dados e obter os dados fluindo, mas acabar oprimido, comido. Fontes são uma das fontes de dados mais limpas e excelentes que você pode obter o segundo tipo de fonte de dados hoje, que está ficando cada vez mais popular. Dedo. Eles são fontes de dados em nuvem. Várias organizações estão movendo seus aplicativos para a Web. Então, obviamente, há o em vez de ter interpreta aplicativo, você de aplicativos baseados em nuvem nos dados está sentado no clube e como vamos obter dados da nuvem é um grande desafio. Assim, os dados são todos armazenados na Web Como a força de vendas é um dos centros de aplicativos em nuvem mais populares em você tem início da casa. Hoje, várias empresas estão usando a força de vendas para suas atividades de vendas. O acesso aos dados no Salesforce geralmente é verdadeiro. Soap preso P s. Muitas empresas fazem apoio a associados com downloads, mas veja, sim, nós não senhores são uma dor e não muito de uma segurança, especialmente quando você tem que programar algo um sabão interessado Besar para mais seguro, muito mais rótulo e robusto na New Age, fontes de dados baseados em nuvem são geralmente suporta Abrir olhos vestidos do bebê. segurança nesses casos é um fator predominante porque você está obtendo dados da nuvem e os dados estão fluindo pela Internet pública. Então você deve garantir que a troca de dados aconteça sem qualquer tipo de segurança. Limite de taxa de compromisso pode se aplicar em Há limites geralmente que estes Quando coloca em quanto a quantidade de dados que você pode extrair em um determinado dia? E essa é também a mente pelo tipo de licença que você tem o tipo de produto que você bart. Então você tem que considerar que também, quando você está construindo sua aquisição de dados chamada sobre quantos hoje, você pode obter com que frequência você pode obter e coisas assim. Ok, qualidade dos dados normalmente ainda será excelente porque a nuvem que ele faz. Esses é também colocar restrições de verificações e balanços para garantir que os dados são o que seus laços, como deve ser e certificar-se de que os dados são realmente assim como o que são os valores válidos são ordenados. A coluna que não pode estar vazia e pode estar vazia em qualquer tipo de ligação cruzada para, como a ligação de chave estrangeira são tomados cuidado, modo que a qualidade dos dados também é muito boa. Em seguida, o terceiro tipo de dados é fontes de dados de mídia social. Mas você está tentando obter dados de qualquer um desses sites de mídia social, como Facebook ou Twitter. Arlington são Google para rasgar. Há muita mineração de dados acontecendo nesse tipo de fontes de dados porque você quer informações sobre as pessoas, e então você tenta analisá-las. Talvez o cliente da área. Eles podem ser potenciais clientes. Você tem os principais dados sobre eles. Você não vai analisá-los e, em seguida, usar esta análise para mais pesquisas. É semelhante às fontes de dados em nuvem na maioria dos aspectos, como eles têm. Ah, eles têm seus próprios vestidos A B, A e segurança. Eles têm limites de taxa, todas as coisas. Mas o problema é que acessar dados públicos sobre pessoas e empresas pode envolver problemas de privacidade. Eso há a única coisa que você quer considerar quanto a que tipo de dados você pode realmente extrair e usar sobre outras pessoas sem dizer-lhes. Os limites de taxa nesses casos são bastante restritivos porque você não está pagando por eles. Estes são todos serviços gratuitos, modo que normalmente limitam o quanto você pode obter a quantidade de dados que você pode entrar e sair. Então você tem que considerar isso antes de construir todos os seus programas de extração de dados. Nossos dados são principalmente baseados em perfil e transação baseada nesses casos eso você está basicamente recebendo dados nosso pessoal e encontrar todos os seus links estão construindo sua rede e coisas assim. No último caminho é uma primeira maneira bruta, que é chamado de Web Scrapping Way, em que caso você está apenas cagando site é uma rocha, você sabe, quando eles são muito Robbie apenas recebendo o e eles adiante html fora do site em, Então você sabe, usando essa estimativa, extrair pedaços de informação dentro da família e, em seguida, jogar para usá-la. Este é um dia muito complicado porque uma quadra a vapor pode ser como qualquer coisa. Ele tem tantas coisas e scripts Java atordoantes dentro e coisas assim. Então você realmente tem o pedregulho no tribunal realmente inteligente para tipo de fazer este tipo de desmantelamento de armas a menos que Web scrapping está praticamente olhando dentro do extremamente extraído para outros links e então você vai para outros links e continua a extrair dados. Ah, muito difícil. Uma maneira muito pesada de obter dados e um dia é muito sujo porque não há nenhuma habilidade real . Não há garantia de que os dados vão estar desligados. Este tipo de forma é a arte. Certifique-se de que todas as colunas que você precisa são os elementos de dados que você precisa sempre existam. Agora não há garantia para esse tipo de coisas, então você não tem praticamente fazer um monte de verificação cruzada e balanceamento sobre. Na verdade, um monte de amputações de dados se você quiser obter dados desse desmantelamento. E isso é principalmente texto e requer muitos recursos de processamento significativos, porque para usar esses dados para fins de análise preditiva, você tem que converter dados exe em dados de números em que vamos ver mais adiante neste seção de engenharia de dados sobre como você pode fazer isso. Há um monte de preocupações de segurança, privacidade e propriedade intelectual porque você é apenas força bruta com o desmantelamento sem dizer ao proprietário todas as coisas que você vai fazer isso então você é. Será que nós nunca do que mesmo realmente obter o que mesmo realmente sucata sem impactar nas segurança, preocupações de segurança, privacidade e propriedade intelectual fora dos proprietários das páginas da Web. Então, que tipo de dados agora deve, portanto, Mertzes os dados que fluem hoje você pode ter tabela que vêm de nossa mãe bebê é o mais famoso e popular estrutura de dados muito estruturados que está chegando. Você tem dados em taxas CS. Esta é a data mais comum. Trocar agricultores de carros. Normalmente, quando alguém perguntou seus dados, esses são os dados mais fáceis, outros diferentes extraem e enviam os dados mais fáceis que você pode receber. CSC pode conter grande quantidade de dados, mas que o processamento é um monte de movimentação manual em torno de REFILES deste ano dos tipos na dis OTAN, o destino vai acontecer. XML é usado para conflagração em metadados, mas às vezes também pode conter o real mais tarde que você deseja usar. Depende da fonte dos dados e do tipo de formatos que a fonte suporta. Jason é o formato de troca New age que está se tornando muito popular. Muitas das aplicações hoje suportam Jason. Na verdade, todas as fontes de dados na nuvem hoje, como a força de vendas humana ou o Twitter, elas dão suporte ao Jason. Jason é o novo mais popular a cada troca de datas por assassinato em que os dados estão diminuindo pela web. Há texto, claro, é o último recurso tentar? Quando você tem um pequeno artista, você começa texto. Você normalmente tem muito processamento para fazer em termos de obter as tomadas e processamento, processar o texto em limpá-lo e, em seguida, obter a informação que você quer do texto e dos últimos quatro assassinatos. Binário como em majors e Weiss streams se você está tentando estar tentando ser a menos que imagens e palavras fluxo, que é outro tipo de dados que você deseja extrair e se mover em torno deste dia, dias como quartzo enorme do tamanho do O dia morre. Normalmente, enormes como sabemos, imagens e fluxos Y ocupam muito espaço, então você tem que levar em consideração todos esses requisitos, como os requisitos de armazenamento nos requisitos de largura de banda. Obter o estado e mover esses dados ao redor estão se movendo para os dados. Uma pergunta. Que tipo de tendências que estão acontecendo em termos de como você adquire dados da fonte ? Veja onde os dados da fonte. Normalmente, eles podem ser como lote mais. Esse é o modo mais popular onde você obtém um arquivo de dados todos os dias da fonte para o destino. Normalmente, um arquivo CSE em. Então você começa a processar o CSE arquivado diariamente. Mas hoje, aquisição de dados está ficando mais tempo real. Na verdade, muito, muito em tempo real, onde você normalmente configura gatilhos de push nas solas. Então, sempre que não há dados novos chegando e um escuro modificado tipicamente imediatamente chegando mesmo da origem para o destino em, então você obtê-lo e processá-lo imediatamente. Assim, as análises em tempo real estão em streaming. O Analytics está se tornando cada vez mais popular hoje porque as pessoas querem ter informações e análises em tempo real. Assim, a pergunta de dados também se torna em tempo real. Naqueles casos em que o Day Doc estava, você sabe, apenas aconteceu através disso. Bush aciona a aquisição do intervalo acontece a cada 30 minutos ou mais. É uma espécie de equilíbrio entre o lote em tempo real, como eu Às vezes gatilhos em tempo real não são possíveis. As fontes que não suportam uma tecnologia push. Então você tem que ter uma aquisição baseada em intervalos onde você vai lá a cada cinco minutos ou 10 minutos. Procure por todos os registros que mudaram e puxar todos os registros em, então você pode realmente criar um sistema híbrido fora lote tempo real em apuros onde você pode talvez dizer algum dia que vem em tempo real. Alguns dados entram em apuros em algum dia que entra no lote e no final do dia . Ou você pode obter a mesma data estão ganhando lote até o final do dia para certificar-se de que ele está completo. Portanto, todos os tipos de estratégias de perguntas de dados são hoje implantadas no mundo para mover dados da origem para o local onde a análise acontece. Então o que resta Estes são intervalos de perguntas. São as necessidades de análise. que frequência as pessoas comem isso? Analytics e, em seguida, disponibilidade. Isso é realmente disponível em tempo real? Só está disponível no final do dia, em seguida, implementos rezar. Quanta quantidade de dados você pode obter em um determinado dia em um determinado período de tempo que determina a quantidade dados que você pode adquirir, se você deseja fazer aquisição de intervalo ou aquisição em tempo real e, finalmente, a relacionabilidade desativada Estes canais? Como confiável são canais em tempo real, mas diz que os canais em lote em termos de segurança na disponibilidade e certificando-se de que os dados vêm em uma peça da fonte para o destino. Então todos eles determinam como você inventa uma absolvição. Estratégia trágica para o questionamento de dados de quando se trata da oposição. A parte de acordo da parte de programação não é o desafio. Quero dizer, você já está. Se você é programador, eles geralmente sabem como obter dados de um lugar para outro. Nessas aplicações são tipicamente construídas como as aplicações são aplicador. Java J dois ee. Os aplicativos lutam em aplicativos que movem dados de um lugar para outro trimestre industrial dos aplicativos. O desafio é mais a parte não técnica de ficar diurna. Trabalhando através de todas essas limitações. Todos esses desafios em certificar-se de que você tem uma arquitetura de aquisição de dados um fluxo de trabalho que cuida, pode resolver muitos desses problemas e considerações. Obrigado 3. Limpeza de dados: I na seção vamos estar falando sobre dados de limpeza de dados que está entrando em seu fluxo de processamento de dados pode ter um monte de problemas em. Você precisa criar algumas estratégias, planejar um pouco de frio para fazer a limpeza de dados antes de começar a usá-los para qualquer tipo de análise fora de um propósitos de aprendizado de máquina. Então, que tipo de problemas existem com a qualidade dos dados? Começa com valores inválidos. Como se você tem algo como um gênero, ou você esperava ser f r m são masculinos ou femininos. Você pode ter algo como A e B lá. Pode haver muitas razões pelas quais você tem dados inválidos em uma coluna, mas eles não vêm de um fluxo de dados. Formatos de dados, os padrões sendo os formatos de data formatos de data podem ser de várias maneiras, como DDM por William Eu sou realmente weiwei em, então isso é um desafio para entender o que exatamente as coisas dos dados como os nomes. O sobrenome primeiro nome, primeiro nome, sobrenome Former é um problema muito clássico, tipicamente com dados fluindo no atributo. Dependências significa que há uma dependência de um atributo em outro. Por exemplo, pode haver uma coluna chamada dis Manager em dados de funcionário. E depois há outra coluna que diz número fora das pessoas relatando. Então é esperado que alguém é um gerente vai ter algum número de pessoas relatando em. Pode ser possível que, você sabe, uma coluna tenha dados que dizem que é Gerente zero e o número de pessoas relatando é cinco . Portanto, há algum problema com esses dados sendo extraídos de algum lugar. Está vindo do nosso bebê Emma de que vem de um sistema de CRM. Normalmente, esse tipo de problemas não acontecerá, mas há muitos casos de problemas em que os dados podem ser. Alguns problemas podem ser criados com data, seja na parte de extração na parte de processamento de dados. Portanto, isso é sempre uma possibilidade de problemas com dados, singularidade de dados que poderiam ser registros duplicados nos dados que está vindo em problemas integrados referenciais. Se você está recebendo fazer conjuntos de dados e você espera que cada vez que há um registro como um no Foster disse, há acordo de tributo como ser o segundo conjunto de dados, pode haver problemas de integridade referencial. Pode haver problemas com valores ausentes. Algumas colunas sendo em branco são como metade do registro sendo em branco. Pode haver muitas razões para isso. Erros ortográficos problemas de ortografia com problemas de ortografia de dados terão um impacto significativo se você estiver fazendo como análise de texto em Textile Takes, você está tentando usar strings para tipo de comparar onde esses documentos e documentos relacionados . Então erros ortográficos é um problema valores de campo Miss, caso em que os valores estão no campo errado. Isso normalmente acontece no arquivo da CIA quando você visco vírgula a coluna. O dedo da coluna, que protege o carro. Essa coluna à qual, como variável do Pacífico pertence, vai ser alterada. Então esses tipos de problemas também acontecem e referências erradas, referências inválidas são inválidas, e todos esses tipos de problemas acontecem. Há toneladas de distância. Essas questões acontecem no que diz respeito à qualidade dos dados. Na verdade, quando você está fazendo um trabalho de engenharia. Então, como você primeiro encontra esses problemas de qualidade de dados? Há uma série de maneiras pelas quais você pode fazê-las. O primeiro é geralmente amostra, que irá inserir inspeção. Você pega uma amostra aleatória de registros dos dados que estão chegando visualmente inspecionados e ver se há algum problema. Ah, bom jeito. Mas é um Bayer laborioso, e este tipo de sistema não vai escalar. A segunda maneira é ter algum código de validação automatizado, como um esquema de alegações. Quando os dados estão chegando, cada registro passa por uma cabra de elevação chamada Checos, como muito semelhante a como você faz você projetar uma tela de entrada de dados sempre que alguém faz dados, que é código de validação que empresta para se certificar de que os dados inseridos pelo usuário estão corretos. Semelhante ao que você pode ter validação automatizada chamado que dados que está fluindo para vir para validar cada registro e cada coluna para garantir que os dados que vêm neste correto você pode fazer nossa análise de jogador, ver onde sua pontos de venda existe. Nossa análise de jogadores é uma excelente maneira de encontrar seus problemas de qualidade. Por exemplo, suponha que você tenha uma coluna chamada Age On. Você faz como um gráfico de caixa em U. C. disse que há outliers como as idades mostra o passado 300 ou 350. Ele imediatamente lhe diz que há um problema com maior porque você sabe que a idade não pode ser 350, de modo que realmente o desencadeia a ir e descobrir o que está acontecendo com a idade aqui. Então análise outlier é uma ótima maneira de descobrir Se houver algum problema com os dados que estão chegando, você pode explorar uma análise hoje donna, olhar para alguns gráficos, alguns gráficos de barras alguns gráficos de raios-X. Então eles também tendem a mostrar se há alguns dados que é tipo de você sabe, não dentro do escopo não estão dentro do intervalo semelhante à análise de esboço. E isso também ajuda você a identificar se há problemas com os dados que estão chegando. Como você corrige os problemas de qualidade de dados, corrigindo os usos do Quartey dados, como em uma codificação regular. Você pode fazer isso em qualquer idioma que você esteja confortável, mas normalmente lá para correr em algum propósito geral. Linguagens como Java são há um número de 88 motores são estruturas ideais de produtos que realmente são usados para mover dados de um lugar para outro. Essas estruturas ideais geralmente têm algumas funcionalidades através das quais você pode passar por problemas de qualidade de dados . Você pode apresentar problemas de qualidade de dados, mas estes são praticamente boilerplate. De acordo com regular, acordo com qualquer linguagem de programação. Então não vamos ver exemplos específicos fora. Como você corrige esses problemas no no nesta classe? Porque é uma espécie de bile geral até gravação e aquele que ela identificou o problema. Normalmente, os engenheiros sabem o que têm a ver com isso. Possíveis correções são que você corrige a fonte, se possível. Se você sabe que os dados estão vindo de um banco de dados inter press e você diz que os dados estão realmente errados nesse banco de dados, isso significa que um dos sistemas que está colocando dados na tabela não está se comportando corretamente. Então vá consertar a fonte. Se possível, encontre possíveis lacunas nos fluxos de processamento de dados. Portanto, problemas podem não existir na fonte de dados, mas podem existir problemas no fluxo de processamento de dados. Suponha que você tem um programa que extrair dados de um pão de dados uma base e, em seguida, resumi-lo e enviá-lo para você. É possível que esse pedaço de código também possa ter alguns bugs. Então você também olhar lá e ver se você pode corrigir esse tribunal para que o bug vai de a. Você também pode analisar os lotes que estão chegando, e então você pode fazer automatizar. Você pode automatizar a correção de dados que está chegando que também é possível. Há um monte de bibliotecas e disse US ferramentas disponíveis para trabalhar com qualidade de dados, especialmente quando você olha para as ferramentas de análise de dados que existem hoje, como nossa morder nosso ou até mesmo os índios ideais como Brenda Ho. Você verá que eles têm algumas bibliotecas nas quais olhar para os dados para possíveis erros e, em seguida, ir e corrigi-los. A última coisa que você quer ser incomodado. Isso o que é chamado de imputação de dados porque a imputação de dados é precisa ter um tratamento de casos especial porque tem grave em sapatos em nossa missão. Algoritmos de aprendizagem funcionam neles. Eles a imputação não é nada. Mas como você corrigir mixagem fez Como você se uma coluna particular não tem um valor , que valor você coloca lá? Se uma coluna vem vazia Deserto como, por exemplo, você tem uma coluna que é um é sobre sexo, masculino ou feminino, e essa coluna vem vazia. Então, quando está vazio, o que você faz com ele? E isso é o que é chamado de imputação de dados. Então, uma coisa que você deve sempre lembrar é que qualquer valor presente em um conjunto de dados é usado por algoritmos de aprendizado de máquina como valores válidos. O que isso significa é que se você tiver um banco de dados no RTB Emma, se o valor for agora, RGB deve saber como lidar com ele. Eles sabem como ignorá-lo foi usar nulo de uma maneira adequada. Não é assim com nenhum dos algoritmos de aprendizagem da missão. Suponha que você tem uma coluna chamada Gênero e tem valores masculinos e femininos, e onde quer que não exista, é um espaço em branco em talvez em cobertor material como não há nenhum. Isso não importa. Algoritmo de Aprendizagem de Missão. Esta coluna específica tem três valores válidos diferentes. Os três vales sendo masculino, feminino e nenhum nele continua a usar nulo como uma classe fora de dados. Então ele vai considerar Dagnall como dados válidos, então você tem que descobrir uma maneira pela qual você tem que substituir essas notas por um valor válido adequado , como um homem ou uma fêmea. Mas como você povoar? E como você sabe que para uma América que está perdendo o gênero, se o gentil tem que ser masculino ou feminino, que valor nós colocamos lá? Isso é chamado de imputação de dados. Portanto, dados ausentes que preenchem dados ausentes serão uma chave porque isso afetará sua previsão para células. Então, o que as técnicas existem é que você pode preencher por mediana média e mais ainda se for um dado contínuo. A coluna. Essa coluna particular fora de dados é um dados continua como idade. Andi, alguém perdeu a idade. Uma maneira possível de substituir dados ausentes é muito preenchida com o valor médio. A segunda coisa, talvez chamar a imputação múltipla, que é, você sabe, você pode tentar várias técnicas de imputação, em seguida, chegar a uma pesquisa como você pode usar maldade em. Então você pode usar a regulamentação do que você pode usar mais em. Você pode combiná-los tanto quanto você quiser. Você também pode prever o valor ausente para que você possa realmente escrever um algoritmo de previsão. Use uma proteção provisória para prever o valor ausente com base na outra coluna. Então você acaba fazendo Análise Preditiva para prever que os dados ausentes estão usando algo como árvores de decisão ou algo assim. Então isso também foi possível. Mas é importante que você não deixe os ativos de dados ausentes ligados. Você precisa substituí-los usando técnicas de imputação de dados. Obrigado. 4. Transformações de dados: Ok, Agora vamos passar para as várias transformações que você tem que fazer para a preparação de dados para a análise fora para os fins de aprendizagem missão. Então, o que eles estão realmente usando? Uma coisa que eu quero dizer uma fronteira é que daqui para a frente? Muitos exemplos de tribunais para o que você está vendo em atividades de limpeza direta e transformação de dados serão parte dos casos de uso que você vai dizer mais tarde no curso, porque faz sentido que essas coisas sejam usadas no lugar onde eles realmente exigido no caso de uso para mostrar quão importante e nossa esperança proposital sobre essas transformações são longe. Então isso é algo que justifique. Se você está procurando por muito mais amostras de tribunal, você vai encontrá-los como parte dos casos de uso mais tarde nos modelos. Portanto, diferentes sentidos de dados tipicamente têm formatos diferentes e, portanto, a padronização é necessária. Por exemplo, você está obtendo dados de clientes de duas fontes diferentes. Digamos que você está recebendo dados sobre clientes. Você era cliente do seu Web CRM para obter dados sobre seus clientes de telefone a partir do seu sistema telefônico. Esses dois conjuntos de dados terão coisas como, você sabe, diferentes formatos e em diferentes estruturas e coisas assim. E eles precisam ser padronizados antes de poderem ser unidos. E eu os coloquei juntos em um único dado, como uma única fonte de dados para usá-los para análise posterior. Portanto, ter dados no mesmo formato na mesma escala torna a comparação e algumas atividades de recisão obviamente mais fáceis. Eso Quais são as várias coisas que você faz em termos de generalização de dados? A primeira coisa que você começaria com os números no caso de números que você deseja padronizar as casas decimais são se os números estão no log. Antigo atômico você quer? O que é baseado no log? Isto é, há um log baseado fora para base de 10 baseado fora não que precisa ser normalizado no caso de data e hora, data e hora normalmente vem e diferentes formatos que você deseja convertê-los para uma estrutura adequada . Tipicamente armazenados como um livro, que é insensível ao fuso horário estão na pesquisa. Seis. Ex-ex-. Você também deseja se certificar de que a data e a hora que você está recebendo tem um fuso horário associado a ele. E você está realmente ajustado os tempos corretamente para que tudo isso quando você está olhando os dados que você está olhando para os dados da maneira certa para fontes de dados pode ter o mesmo dia mastigando em diferentes fusos horários. Então você tem que apenas para os fusos horários antes de começar a compará-los. Então, estas são algumas das padronizações que você faria para dados Ex. Claro que você faz coisas como formatação de nomes como alguns nomes significava tornar-se como primeiro nome, sobrenome alguns podem se tornar nos sobrenome sair de nós nome. Você quer desinfetá-los em um único formato, pode haver coisas como seu partido R minúsculo subindo nele. Caso todo esse tipo de coisas tem que ser feito com texto antes que eles possam ser usados para o aprendizado adequado da missão. Há processamento adicional que você faz obter os dados em uma forma adequada antes que eles possam ser usados para fins de análise e aprendizado de máquina. E uma das primeiras coisas que você pode fazer é chamado de flexão. Por que você faz binning? Você quer converter vários dados contínuos em dados categóricos que você deseja converter Newman, também, as categorias. Então, neste caso, por exemplo, esse exemplo, No lado direito, você tem um dado contínuo chamado idade, mas ele se prepara todo o caminho de 11 em diante para 65. Você deseja convertê-los em categorias, algumas classes ou categorias de quatro ou cinco categorias. Nesta corrida, você vai fazer os Rangers de Gelo. Criar uma nova coluna chamada Faixa etária em. Em seguida, essa idade varia de 10 a 1 a 2020 a 40 40 a 60 e 60 a 80 anos. São quatro classes diferentes. E então, tipicamente, você é uma nova coluna com base na coluna original. Você preenche o intervalo na nova coluna para que este pré diferentes Rangers são usados são o que nós chamamos de caixas. Então, o envelhecimento é ou o que nos chamamos. Os compartimentos em registros de dados individuais são classificados nesses compartimentos em. Colocar seus compartimentos normalmente torna a análise muito mais fácil. Isso torna o uso de algoritmos de classificação para fins de previsão mais fácil. E esta é uma técnica muito popular. Em vez de prever a idade como uma única variável, normalmente em muitas vezes no dedo do pé apenas prever a faixa da idade em neste tipo de casos. Os algoritmos de classificação funcionam melhor. Se a faixa etária for, a faixa de agentes estará disponível como uma variável de classificação em uma variável de classe em vez como uma variável contínua. A próxima técnica que você gostaria de usar esta água chamada variáveis indicadoras. No caso de indicadores muito variáveis. O que você está fazendo é converter dados categóricos em dados de barras. Como convertemos dados categóricos em dados de barras? Assim, um exemplo é mostrado no lado direito. Mas você tem uma variável categórica ou uma variável de classificação como pressão. Então Pash prender três valores únicos alto, médio e baixo. Agora, como se converte isso? A variável indicador é criar duas novas colunas. Uma coluna é chamada é alta. O outro é chamado de meio ISS. Ambos são booleanos. Com base no valor na coluna de pressão, você os preenche com os outros são zeros s. Então o que você faz aqui é que a variável tem em diferentes classes. Em seguida, você cria em menos uma nova variável. Então pressiona as aulas de rua, as três classes médias e baixas que elas são, então você cria duas novas em menos 12 novas colunas é pessoal de alto nível. É médio para preenchê-los com um zeros de espada. A questão é, a ausência, a maneira que baixo vai ser mostrado para você é que quando ambos os preservativos são zero, isso vai indicar baixo. Então é por isso que se houver alguma classe que você criar e menos uma coluna porque a ausência de valor nestes dois karting vai indicar o terceiro indicador de valor onde ele estava às vezes trabalhar melhor em previsões do que variável categórica. Algo parecido quando você está fazendo variáveis de indicador de agrupamento funcionam muito melhor do que as contrapartes categóricas correspondentes. Então você gastaria um para você tentar variáveis de indicador. Além disso, para ver se suas variáveis de classificação regulares não estão funcionando tão bem. Vá criar variáveis indicadoras e sensi se ele vai estar lhe dando melhor. Isso é assim Isso é outra coisa que outro tipo de processamento de dados que você deseja fazer uma transformação de dados que você deseja fazer antes para ajudá-lo a fazer melhores previsões. A próxima técnica que vamos falar é o que chamamos de centralização e dimensionamento. Agora, quando você tem dois conjuntos de dedos dos pés de dados para colunas de dados. Eles podem estar em rangers de valor diferente. Quando você tem dados em diferentes rangers valor e você tentar toe, colocá-los juntos nos algoritmos de aprendizagem missão. Eles às vezes tendem a distorcer o comportamento fora da missão Jardins de Aprendizagem. Então, a melhor coisa a fazer é pegar esses valores e padronizá-los, usando a metodologia de centralização e dimensionamento. Então, quando ele faz centralização e dimensionamento, os valores são convertidos em valores fora da mesma escala. Mas eles mantêm suas características únicas de sinal. Então, por exemplo, como vai? À direita? Disse que você tem duas colunas como idade e altura para as faixas etárias em algum lugar entre 11 e 65 . As colunas de altura variam em algum lugar entre, você sabe, 152 195. Então eles estão entrando em diferentes rangers centralizando e dimensionando. O que você quer alcançar é convertê-los na mesma escala. Isso torna a comparação de ambas as variáveis muito mais fácil no Como você faz? Centralização e escala é que você encontra a média e o desvio padrão para colunas corporais, então variáveis corporais sobre as colunas corporais aqui a idade como uma média de 35 desvio padrão 16,3. O alto não significa um desvio padrão de 170 desligado. Wellpoint, Phisix. Primeiro você encontra a média e o desvio padrão. Então você os centralizou. Você envia o valor subtraindo a média do valor. Então ele tinha o valor. 35. Você subtrai a média, que também é certificada a partir deles, e surge com um valor de zero que é chamado de centralização. Você pega 23. Você subtrair 23 de 35 ele vem com menos 12 que é chamado século. Então como você escala para escala? Em seguida, você divide esse valor pelo desvio padrão. Então isso é chamado de centralização e dimensionamento. Então você subtrair o valor que você toma cada valor e, em seguida, fazer uma média menos em dividido pelo desvio padrão para obter o centro e valor da escala ST. Então aqui você tem 23 você sabe, 23 menos 35 então dividido por 16,3 que é o seu centro e valor qualificado menos 0,74 Então, se você jogar este mal guardado todos os chamados todos os valores que você vê aqui você vê o centro e escala idade no centro e altura da escala na terceira e quarta colunas Aqui, você vê que eles estão praticamente no mesmo grau. A idade varia entre menos um ponto para sete a mais 1,84 Mas na altura vai estar entre algum lugar entre pontos menos emanam do pé mais 1,92 Agora, a coisa importante que vai estar acontecendo aqui é o que você vê aqui é que mantém sua forma original. Suponha que você tem Ah, provavelmente apenas um. Então, se você tem uma distribuição de frequência da idade em, em seguida, compacte a distribuição de frequência da ajuda com a data central, você vai vê-los tendo a bela poderia o mesmo forma. A dispersão dos valores normalmente será a mesma. Se você olhar para os trimestres, o comportamento dos trimestres também será praticamente o mesmo. Então você retém as características dos sinais nos dados. O mais alto realmente continua a ser o valor do IRS. O rali mais baixo continua a ser o menor valor. O valor do meio continua a ser o valor do meio. Você troca os sinais nos dados enquanto ajusta os valores Toby na mesma escala. E muitas vezes quando algoritmos de aprendizagem de missão eles usam. As medidas de Basten para encontrar afinidade entre diferentes dados, centralização de susto e dimensionamento ajudam esses distanciamento. Michelle é muito para te dar cerdas melhores. Portanto, centralização e dimensionamento é um espessamento muito popular que você não faz como um pré-processamento para seus dados antes de alimentá-los intervalo. Algoritmos de aprendizagem. Isso é tudo para uma centralização e dimensionamento. E é isso para transformações de dados. Obrigado. 5. Texto pré-processamento de TF IDF: nós não queremos mais a última parte fora das transformações de dados no processamento, e isso é chamado pré processamento de extracto. Nenhum texto é. Estamos tentando usar cada vez mais texto em nosso processamento de dados, aprendizado de missão e análise preditiva. Mas o texto tem algumas características. Ele tem um monte de problemas que, regular em nenhum dado, disse que vem de uma tabela como um R B B. A maioria capaz não tem assim texto tem toe passar por um monte de pré-processamento antes que possamos começar a usá-los para análise preditiva nesta seção, vamos ver que tipo de processamento precisa ser feito no texto para convertê-lo em um primeiro. Isso ajuda a ser usado para análise preditiva. Para começar, vamos tentar entender como algoritmos de aprendizado de máquina funcionam aprendizagem de missão tripulada Onde Deus Adams pode um lee trabalhar com números ou dados contínuos? Nossas aulas em um discreto, são dados categóricos. Eles não funcionam com texto. Eles não entendem texto em nenhum antigo. Então o desafio é que todos os dados sexuais que eles têm que ser convertidos em um número igual int são apresentação sem classes. Os dados de texto devem ser convertidos em uma apresentação numérica baseada em nossa classe antes que possam ser usados para qualquer tipo de máquina. Aprender o uso do texto está se tornando cada vez mais em análises preditivas sobre a proposta de texto . É por isso que é preciso muita importância e o que você quer fazer neste caso. Então, por que o nosso texto é pré-processamento? Tornando-se mais importante é que fazemos um monte fora classificações baseadas em texto como quando você está chegando e-mails, você quer uma maneira elegante mais burra e spam ou não, spam que é ocorre classificações lugar. Você tem uma série de artigos de notícias na Web e você quer tomar este artigo de notícias e classificá-los com base em qual domínio o artigo de notícias pertence, Como a política são esportes ou economia coisas assim. Todas essas classificações requer tomar dados de texto e, em seguida, classificar dados de texto em massa que esse texto específico tem que ser convertido em uma forma que esses algoritmos de aprendizagem de missão são confortáveis com. Em. Isso é o que vamos ver que tipo de coisas você normalmente faz lá para começar. Há um número fora de etapas de limpeza de texto que você faz como um pré-processamento para qualquer tipo de dados textuais que vem em. Então, quais são as várias limpezas que você faz? A primeira coisa que você faz é remover a pontuação, todas as marcas de pontuação no texto. Suponha que seja um documento. Suponha que é um e-mail que você tomar, em seguida, seu e-mail e remover toda a pontuação está no e-mail. Então você realmente move espaços em branco. Você sabe, espaços de parágrafos são, você sabe , coragem, feitos on-line e coisas assim. Você deve remover todo o espaço em branco em seus espaços em branco extra. Basta manter os espaços em branco o suficiente para diferenciar o vert, e então você poderia codificar todo o resto. Você converte todo o texto em minúsculas, então aqueles que você não quer fazer foi dado. Word pode ocorrer em muitos formatos. Como a mesma palavra pode ser em um por maiúsculas, minúsculas, o mesmo s. Então, nesse caso, você quer apenas olhar para qual palavra ocorre sem se preocupar se é maiúscula ou minúscula, você pode ter convertido tudo em minúsculas. Você é tipicamente removido números como, você sabe, em termos de um gemido de pontuação ou algo assim você removeu números de texto. Você remove o que é chamado de palavras de parada. O que são stop forward Stop Words estão ocorrendo com freqüência. Palavras que não são que não tem um significado do que si mesmo, por exemplo, é sobre o todas essas palavras comumente usam são chamadas palavras stop e eles são tipicamente não têm qualquer significado e sua atual todos os documentos que você está focado em seu focado em aves que ocorrem único em um documento. Você não está focado nessas palavras comuns como esta Andi Waas então você pode chamar todas essas palavras principais fora do documento. Então você faz o que é chamado de stemming. Então, o que é tempo é que a mesma palavra tem múltiplas formas e rígido é usado dependendo dos requisitos gramaticais. Como se tivesses uma palavra chamada “rápido”. Quão rápido pode ser usado, como rápido, mais rápido, mais rápido. Você pode ter uma palavra chamada real. Então você pode dizer que realmente são. Então, o que você está tentando fazer? Foi você só quer o justo do mundo para que você apenas manter a parte amiga do mundo e você cortar as porções restantes fora rápido, mais rápido e rápido. Todos eles se tornarão rápidos. Assim você sabe que é a mesma palavra. Tem o mesmo significado. É só que você está removendo o uso gramatical baseado nos fins atuais e futuro tenda e coisas assim que é chamado de stemming e, em seguida, você remove quaisquer outras palavras comumente usadas. Eu suponho que se você está analisando e-mails que entram em sua empresa, normalmente todos os e-mails terão seus próprios nomes de empresa. Então você não quer que isso ocorra ao perturbar todas as suas coisas de aprendizagem de missão. Então nós só queremos chutar aqueles barcos comumente usados pela palavra. Também fora, a diferença entre isso e palavras de parada é parar o que é como um conjunto de palavras comuns usadas globalmente neste é mais como específico para o seu caso de uso. Isso é apenas diferente. Então você faz todo esse processamento de texto primeiro. Então você faz o que é chamado de DST de fertilização in vitro, que nós vamos ver na próxima luz. O que é D fora? Ideia de idéia DF foi a técnica mais popular pela qual o texto é convertido em dados baseados em tabela , então documentos de texto estão se tornando nós. Eu falei sobre cada vez mais em aprendizado de máquina seu uso para notícias para classificações, mensagens de e-mail para detecção de spam e também com base sexual. Pesquisa em um texto precisa ser o presidente em um distribuidor raça diferente presente em termos de números e classes para algoritmos de aprendizado de máquina para reconhecer corretamente. E Houston, como você faz isso é usar essa técnica chamada de frequência de termo inverso de frequência de documento . É chamado D F I D E F freqüência dome em um documento freqüência sobre o que o Stickney faz para você é que ele converte texto em uma tabela sobre o Terrível, basicamente contém linhas e colunas, então cada documento se torna um papel e cada palavra se torna uma coluna. Assim, cada documento se torna zero e cada palavra se torna uma coluna. Então, o que você quer dizer com um documento aqui? Documento não significa que é necessariamente um documento de palavras. Qualquer pedaço de texto é chamado de documento no processamento de texto. Uma vez que qualquer pedaço de texto pode ser apenas uma frase , pode ser apenas um tweet. Pode ser uma mensagem SMS de texto. Pode ser uma mensagem de e-mail. Pode ser um artigo de notícias indiano, toda a marca, todos os documentos indexados a cruzar a linguagem. Assim, cada documento se torna uma linha em cada palavra que ocorre em qualquer um desses documentos torna-se uma coluna. E então o que acontece é comer, vender representam um valor que é basicamente a força do pássaro no documento. Então você perdoou. Word ocorre mais número de vezes em um documento específico. O valor na célula é muito maior se não estiver ocorrendo na boneca matéria escura. Claro, vai ser zero. Então os estranhos representando umas às outras células. Então o que você vê é que ela se torna uma tabela muito semelhante a uma tabela posterior normal pelas linhas . Representa os documentos e a coluna. Grande presidente de palavras, e obviamente o número de colunas que você vai ter é um monte de colunas. E é apenas para eliminar o número de colunas que você reduziu o número de colunas que você tem. Você faz todos aqueles pré-processamento, como remover as palavras comumente usadas, e então você faz stemming, e, em seguida, você também remover removido. Remova as outras coisas lá. Então você está tentando reduzir os dados disse. Mas fazendo essas técnicas. Então, como é que este D de ideia funciona? Começamos com o que são a fórmula para ele era 40 de idéia na primeira água A fórmula para texto de frequência de texto é computada para cada palavra para cada documento. Então dado averred e dado um documento cliques frequência fora dessa palavra na freqüência de texto do documento off. Essa palavra nesse documento é igual ao número de vezes que a palavra ocorre no documento dividido pelo número total de palavras no documento, o número de vezes que a palavra ocorre nesse documento dividido pelo número total de palavras no documento. Isso é muito simples e direto. Ele só diz quantas vezes de curso de água o maior número de vezes premiar um documento de cliente . Quanto maior será esse valor. Então, ele apenas indica a força fora dessa placa no documento a seguir vem no verso documento A freqüência inversa do documento dá-lhe uma medida fora quão única essa palavra em particular é para o quão única essa palavra em particular é. Basicamente, onde só ocorre em alguns documentos no norte de todos os documentos. Então, em verso, frequência Darkman é computada para a frente. Nossa cruz nossos documentos. Não é feito documento por documento é feito através ou documentos na forma como é comensais , Você faz um log e off número fértil de documentos dividido pelo número total de documentos Onde esses veredictos é inversa freqüência Darkman é para uma dada palavra que é igual à lei G do número total de cães. Eles foram liderados pelo número total de cães com este esporte. Então, o que acontece quando você calcula com pior frequência de documentos é o menor número de docks . Esta palavra ocorre, Quanto maior será a frequência inversa do Stockman. Isso é tudo isso fórmula funcionaria se uma palavra está ocorrendo em todos os documentos em era escuro um frequentemente Billig zero se um cruzamento de fronteira apenas como um documento estava escuro. Uma frequência seria muito alta. Ele não consegue encontrar a singularidade fora a bordo em um documento sobre PF idéia não tem nada, mas você multiplicar a freqüência de texto com o estoque inverso uma freqüência. Então essa é a fórmula final que você vai entrar. Então o que vamos fazer agora é que estamos tentando pegar um conjunto de documentos e vamos apenas fazer todas essas coisas que falamos como um exemplo. Caso de uso. Então vamos falar com um conjunto de documentos originais ou esses outros três documentos cansados que acabei inventar estas palavras são as frases acima. Então não se preocupe muito com as frases. Imagine porque poderia ser como e-mails que isso poderia ser cobrado ou sms qualquer coisa. Você tem três documentos aqui. Esta é uma amostra de boas palavras. Ele disse uma e outra vez que a mesma palavra depois que a palavra funciona não faz mal. E a primeira coisa que você faz é fazer toda a limpeza que falamos antes. E depois de fazer a limpeza, esta é a saída de contagem que você recebe. Então o que você vê aqui vale como estes olhos e assim o mundo Um documento Esta é uma amostra de boas palavras tornou-se um exemplo. Boa palavra. Viu o que foi expulso? Isto é uma pistola de ar. A amostragem tornou-se amostra. Isso é porque você faz derrubando ofertas indo bem como reter palavras tornaram-se vert que novamente está derrubando porque você converteu para cobrir todo este plural singular no passado, presente e futuro e apenas se concentrar apenas na palavra do tribunal. Então isso é tudo o que se torna. Então é assim que os três documentos Stockman. Um documento para documentários depois de fazer toda a limpeza de que falamos. Em seguida, construímos o que é chamado como um filme de documentos Matt Tricks. Isso é chamado de métricas de termo de documento em que os documentos estão na rosa e os termos são as palavras são as colunas. Então isso é chamado de documento. Métricas. As palavras são colunas aqui, e os documentos são rosa. A primeira coisa que você faz com você tentou criar uma tabela de contagem, a tabela de contagem. O que você está fazendo é contar o número de vezes que cada palavra ocorre no documento e é assim que as palavras ocorrem. Em seguida, você tenta encontrar frequência ticks, que é você tomar esta contagem e dividido pelo número total de palavras no documento. Então, no documento um, há três palavras exemplos de armários, um. Então é um dividido por três. Torna-se 30.33 e você sabe a mesma forma. Amor para todos os três documentos para todas as palavras. E você acaba com essa tabela de frequência de termo. Uma vez que você tem o termo tabela de frequências A próxima coisa que você faz é calcular a frequência de documentos inversos usando esta lei agrícola G fora de nossos documentos totais desenvolvidos pelos documentos com a palavra ligada quando você sabe que há freqüências inversas doc 1 em todos os documentos para cada trabalho. Então este é o valor em e dele palavras estrangeiras cão Uma frequência para cada uma das palavras Quando você aplicou esta fórmula, então é fácil para você. Agora calcule pf idea, que é você tomar o mesmo termo frequentemente, tabela. Eu poderia jogar isso pela frequência do documento inverso e você acaba na tabela abaixo. O que você vê? Interessante. Você vê, a palavra ocorre em todos os três documentos, e é uma passagem tendo uma pontuação de zero porque nós não estamos incomodados com. Trata-se de palavras que actualizam todos os documentos porque isso não nos dá qualquer forma de diferenciação agora que estamos focados em palavras únicas que só ocorreram em uma classe e norte na outra. Então palavra como novamente, ele ocorre apenas em um documento documento para on porque várias vezes no documento, que ele corta uma pontuação bastante alta. A analogia é que quando você quer um diferente seus documentos, você vai atrás do único pior no documento e o assim que você encontrou as palavras únicas e marcou eles. Então esta é a tabela final, você termina dela, onde os documentos são e subiu e não há de aspas estão em colunas. E a pontuação indica o quão bom nosso exclusivo que as fronteiras específicas neste documento, em seguida, pode servir como uma entrada. Isso se torna como uma tabela regular mais tarde, e isso pode ser usado como uma entrada qualquer fora do seu aprendizado de máquina de análise preditiva são termos protegidos muito semelhantes aos outros dados. Não há diferença no texto. Manipulação não era um tratamento de texto neste caso porque tudo o que você está lidando aqui é o nosso com números. Portanto, este é o nosso texto do processo de visualização, e você verá alguns exemplos nos casos de uso que se segue. Espero que isso tenha sido útil para você. Obrigado. 6. Exemplos de R para engenharia de dados: Oi. Nesta palestra, vamos analisar alguns exemplos da engenharia de dados, que é fazer alguma aquisição de dados sobre limpeza e transformação de dados. Isto vai ser alguns combustíveis. Exemplos básicos. Você verá muito mais exemplos quando passar pelos casos de uso mais tarde na classe. Então a primeira coisa que vou fazer é configurar o meu diretório de trabalho. Não há nenhuma configuração, este diretório em particular, o primeiro exemplo. Vamos mostrar-lhe como podemos obter dados de um banco de dados e pais. Eu estou usando este recall laboratório são meu S Cuba então, mas ele vai se conectar com o meu território escolar e obter alguns dados fora dele. Existem outras bibliotecas disponíveis para a minha sequela. Como eu disse, nosso é muito rico em termos fora do suporte da biblioteca. A primeira coisa que eu faço é conectar, criar uma conexão com o banco de dados, e como nós criamos uma conexão é usando este comando db Connect em que é a minha sequela . Eu dou com o nome de usuário a senha, o nome do banco de dados no host veg respondendo. Então isso vai criar uma conexão e eu iria desconectar er, em seguida, eu faço o que eles são enviados consulta nesta conexão, e eu vou executar esta consulta selecionar nome a partir deles ou limite de tabela. E então eu vou estar tomando tendrils sobre isso. Isso é um cartão que eu vou criar agora? Uma vez que eles fazem este registro disse, Eu sou pode fazer um francês sobre este conjunto de registro no primeiro selvagem feito dados para mim no quadro de dados. Então eu faço este francês off este registro disse, e fez seus dados para uma oferta de data. E agora eu posso olhar para os dados e ver como eles se parecem. Então me dá apenas nomes. Grave um registro. País eleitoral. Eu só selecionei um nome de coluna muito simples, e isso é puxado para fora do banco de dados em Ele me mostra três registros que saíram da tabela que eles mesa apenas um registro de três, então isso é Arcade saiu muito simples. Uma vez que é, então você tem o fazer gooders em apenas ser completou a sua para fechar o conjunto de cortes, e então você pode limpar o resultado. Você tem que reservar você fazer alguma limpeza aqui para se desconectar da mesa e coisas assim. Este é um conjunto de passos. Você deve fechar a conexão em arte const desconectada e coisas assim. Então, esta é uma aquisição de dados bastante básico a partir de uma ness que uma tabela, Então cada movimento em frente e dizer Como faço para baixar arquivos da web? Então aqui está um arquivo CS três que está sentado na web. É sobre dados de voo que você pode extrair. Estamos a usar isto. Você é. E eu faço isso usando o download, não o arquivo. Então eu recebo um Falco local Eu dou um nome de achado local chamado Download Arquivado RCs Nós apenas o finalmente sobre o que eu vou fazer com baixar esses dados a partir desta web você é e armazená-lo neste arquivo local, mas usando este arquivo de download de comando. Então faça o download do arquivo Web. Você é o arquivo local vai baixar a comida, os dados da web e armazená-lo neste arquivos de download. Eu só vou correr azul. Então você vê, ele está tentando ir para o outro U e buscar o mais tarde é buscar a data. E agora você vê que o cigarro aqui não é baixado aberto. Você alega baixado e começou lá de um lado. Um estudante em que eu posso ler este arquivo usando o ESPN Reitz carregado para esses dados, disse dados de Arlen. E então eu posso olhar para como o estado da ilha que se parece com isso no str comandado como informação um monte de informações sobre as vias aéreas e como este avanço que fez a início no tempo e coisas assim. A próxima coisa sobre como fazemos rasgando as páginas? Eu uso outra biblioteca chamada nossa Curl. Então, Senhor da Biblioteca e depois percebo que estás fora do discurso. Então ele vai obter a página de e-mail apressado endia fora aqui e armazená-lo nesta variável chamada página para baixo. É apenas sjc Melo colocar. Agora eu vou fazer um gato fora desta variável em particular. Basta parar com isso, então vai imprimir um monte de lixo aqui. Como você pode ver, basta imprimir o conteúdo html cabeça fora de sua página particular. Agora você tem que pegar este conteúdo e, em seguida, você pode começar a fazer alguns Web scrapping e coisas que você quer fazer neste um. O último exemplo é Como você acessa o resto? Dados confiáveis de dados usando repouso olhos ap. E, normalmente, hoje muitos dos sistemas de nuvem de código aberto suportam isso em repouso. Eles praticamente seguiram o mesmo mecanismo. Então, para fazer isso, eu vou estar primeiro carregando essas três bibliotecas que você drds e acende. Não vimos para fazer? Ah, descanse, Felipe Um primeiro você está usando um o quê? Para conseguir uma chave para você. Então e então você tem que basicamente ir criar um aplicativo. Ele tem seus próprios processos de como você vai criar um aplicativo no site e, em seguida, sair da chave. Neste caso, eu vou estar me conectando Jet Hub em Obter alguns dados de você tem? Assim que eu conseguir a chave que eu tenho um aplicativo, então eu tenho um segredo para isso. Em que chave? Baseado nisso, vou inicializar isto. Obter um p uma variável em serviço. Muito bebê é então usado para iniciar o meu token que? Então estes são alguns passos que tenho que seguir para me conectar para prender Abia. Uma vez que eu recebo Você tem um token configurado, então eu posso criar um exemplo de solicitações com que com esse token e conectar. E uma vez que uma conexão e, em seguida, obter os dados, eu posso obter um exemplo diferente solicitações, e ele me dá informações sobre o meu próprio login. Então isso é, uh e então você pode obter algum conteúdo fora dele. A amostra para soprar, pegar algumas coisas. Mais difícil, fácil. Então, você sabe o que eu estou fazendo é eu estou tirando um conteúdo fora deste são colocados e ele tem um blogueiro como uma das entradas em. Só estou extraindo a entrada do bloco e a colocando velha aqui. Então, estes são alguns passos que você tem que fazer para obter um resto dados completos. Se você quiser ir para Twitter Facebook, nossas vendas para o tudo praticamente tem o mesmo tipo fora passos que você tem que fazer o seu para ir registrado um aplicativo. Arranja uma chave secreta. medo de si mesmo na chave secreta faz com que eles sejam usados em todas as suas interações com o serviço baseado na nuvem que vai para a limpeza de dados. Como você sabe? Limpeza de dados? Primeira coisa? Vamos ver. Como faço para descobrir? Jogadores deixe-me dizer que neste caso, você vê que eu vou estar criando um vetor fora da idade estudantil. E você vê, há um dia negativo que Dia colocou lá propositadamente. Uma vez que eu fizer uma quantidade da idade estudantil, você verá que todos aparecem imediatamente aqui. Então você sabe que a idade não pode ser menor que zero. Então eu menos um é definitivamente um outlier. Nem conseguimos encontrar a mesma coisa fazendo uma caixa flutuar. Então você verá que novamente mostra que não tem jogador. O menos um e todo o caminho para extraí-los são soldados outlier baseado simplesmente colocando na idade estudantil Come filtro, que é idade de estudante menor que zero em uma corrida. Este. Vejo que todos os registros podem ser filtrados e retirados. E então você pode aplicar um pouco de limpeza neste ou remover o registro ou o que você quiser fazer. Indo em dois exemplos de transformações de dados. Vou usar o conjunto de dados dos carros vazios. Eu vou estar batendo no dedo do pé deles. Este quadro de dados chamado Khar Data on. Usamos isto. Algum outro exemplo também? Então você vai estar olhando para aqui. Estes são dados de cartão para você, Onda. Tem mpg sentado lá exibido Minhaj poder um monte de coisas assim. Primeiro exemplo Hardaway converter uma coisa numérica em um fator de modo que um cilindro puro mostrando o cilindro é uma coluna numérica neste caso, e eu vou estar convertendo isso em um fator usando o comando como fator inicial. Esta é a palavra desperta e numerosa dedo do pé uma variável categórica. A próxima coisa que Lange queria é mostrar a vocês como se dobra no nosso Então vamos ver, neste caso, o hospital. Vou converter o poder dos corações numa coisa de hospital. Então ela tinha os quânticos para o poder dos corações. Como você pode ver, seus varia em qualquer lugar de US $50 a 335. Então eu vou prendê-los usando o comando de corte. Vou pegar o carro direto na Hart Sperber, e vou criar foram 0 200 102 103 100 a 400. Então é assim que você pode fazer um cartão em você obter uma nova coluna chamada sido hachá em que tem esta informação criando variáveis indicadoras novamente para o número de cilindros que eu vou estar criando variáveis indicadoras. Vou criar indicador. Muito. Mas assim há Há três tipos fora de um cilindros disponíveis 46 e oito diz que a música ou os três. Então eu vou estar criando duas colunas chamadas S quatro cilindros e seus seis cilindros. Então, obviamente, quando ambos são zero, significa que é um oito cilindros. Então, como faço para criá-los? Eu crio Esta nova coluna está forçando a sua usando esta primeira função. Se custar mais tarde dólares, sentado lá é igual a quatro. Em seguida, coloque o valor de um é colocar o valor de zero e, em seguida, mesma forma, para seis cilindros. Se o cilindro do dólar do carro for igual a seis, coloque o valor de um outro. Coloque o valor de zero para fazer. Estas duas novas colunas são forçadas a entrar. A gênese é excelente, são criadas assim, você as executa. Deus, Deus é maior, então vem centralização e escala. Então Hardaway mata. Há um comando chamado escala em nosso lá pode ser usado para fazer escala em Então eu vou estar executando a escala sobre esses dados apenas para MPG. E eu vou estar fazendo o dimensionamento em então essa saída que eu estou apenas tomando e armazenando em outro. Uma nova coluna são novas colunas aqui chamadas Scaled Mpg. Agora que está feito. Então agora, uma vez que tudo está feito agora você sente olhar para você sabe a estrutura fora de guarda dados, e você vai ver que as quatro colunas foram adicionadas. Isso é um cilindro de fato que foi adicionado com, que é um fator de três níveis. Há uma grande sebe por judeus para binning. Agora temos quatro níveis em seus 0 200 100 a 200. Ser adicionado que são duas colunas é quatro sentado lá inocentemente. Six It lá, que são ordenadas variáveis indicadoras dos EUA. E, finalmente, os valores de mpg qualificados estão disponíveis nesta coluna de habilidade específica. Agora, uma vez que você criou essas novas colunas, você pode possivelmente ir duro e excluir as colunas antigas. Como as colunas originais você não nasce por ascendê-los o valor de nem mesmo um carro dados dólares MPD é igual a não, e isso vai tirar essa coluna do quadro de dados que é tudo que você tirar o dia. Eu chamo-lhe para fora dos dados livres. Então estes são os seus exemplos da tarefa duradoura que vimos. E isso é todas essas coisas são feitas em são bastante simples e simples, e você verá mais exemplos nos casos de uso. Obrigado.