Fundamentos de limpeza de dados: mole seus dados para exploração | Ginette Methot & Curtis Seare | Skillshare

Velocidade de reprodução


  • 0.5x
  • 1x (Normal)
  • 1.25x
  • 1.5x
  • 2x

Fundamentos de limpeza de dados: mole seus dados para exploração

teacher avatar Ginette Methot & Curtis Seare, Data Crunch Podcast Cohosts

Assista a este curso e milhares de outros

Tenha acesso ilimitado a todos os cursos
Oferecidos por líderes do setor e profissionais do mercado
Os temas incluem ilustração, design, fotografia e muito mais

Assista a este curso e milhares de outros

Tenha acesso ilimitado a todos os cursos
Oferecidos por líderes do setor e profissionais do mercado
Os temas incluem ilustração, design, fotografia e muito mais

Aulas neste curso

16 aulas (41 min)
    • 1. Trailer do curso

      1:51
    • 2. Três princípios de limpeza de dados

      1:09
    • 3. Instalar o Trifacta

      3:04
    • 4. Fluxos

      1:20
    • 5. Baixar dados

      2:23
    • 6. Dentro de um fluxo

      0:50
    • 7. Visão geral do painel de grade

      4:52
    • 8. Visão geral de receita de dados

      2:43
    • 9. Passos de receita prontas

      3:37
    • 10. Mudanças de receita rápida

      1:25
    • 11. Cartões de sugestão

      6:01
    • 12. Manter e excluir

      2:34
    • 13. Mudanças de menus suspensos

      5:27
    • 14. Exportando resultados

      1:58
    • 15. Explicação de projetos

      1:20
    • 16. Estamos aqui para você!

      0:12
  • --
  • Nível iniciante
  • Nível intermediário
  • Nível avançado
  • Todos os níveis

Gerado pela comunidade

O nível é determinado pela opinião da maioria dos estudantes que avaliaram este curso. Mostramos a recomendação do professor até que sejam coletadas as respostas de pelo menos 5 estudantes.

187

Estudantes

1

Projeto

Sobre este curso

Junte-se aos cohosts do Data Crunch Podcast, Curtis Seare e Ginette cohosts, para uma introdução divertida à limpeza de dados. Este curso é para qualquer pessoa que queira começar a trabalhar com dados pela primeira vez OU qualquer pessoa que simplesmente queira uma introdução à versão gratuita do software Trifacta, da ferramenta de limpeza de dados favorita do Curtis e da Ginette.

No final do curso, você vai ser capaz de usar três princípios de dados básicos e muitas transformações para criar uma receita de dados de seis etapas. O termo da Trifacta para as mudanças que você faz nos seus dados.

Conheça seu professor

Teacher Profile Image

Ginette Methot & Curtis Seare

Data Crunch Podcast Cohosts

Professor

Hi there! I'm Curtis Seare, and I'm Ginette Methot, and we cohost an Austin-based podcast called Data Crunch. We talk to people who do amazing things with data, often growing from their deeply passionate involvement with a subject--like detecting eye cancer in little children to saving the lives of honeybees. These world-changers are in every industry and every subject. There is no area or corner of the world that won't eventually be touched by the power of data.

We are passionate that you, no matter where you are or what work you do, can learn to be data literate in a data-focused world, not only to be able to understand the changing world culture, but also to do fascinating things while fusing your passions with data, because you can with the right tools and instruction. We're ... Visualizar o perfil completo

Nota do curso

As expectativas foram atingidas?
    Superou!
  • 0%
  • Sim
  • 0%
  • Um pouco
  • 0%
  • Não
  • 0%
Arquivo de avaliações

Em outubro de 2018, atualizamos nosso sistema de avaliações para melhorar a forma como coletamos feedback. Abaixo estão as avaliações escritas antes dessa atualização.

Por que fazer parte da Skillshare?

Faça cursos premiados Skillshare Original

Cada curso possui cursos curtas e projetos práticos

Sua assinatura apoia os professores da Skillshare

Aprenda em qualquer lugar

Faça cursos em qualquer lugar com o aplicativo da Skillshare. Assista no avião, no metrô ou em qualquer lugar que funcione melhor para você, por streaming ou download.

Transcrições

1. Trailer do curso: Oi, eu sou cortesia aqui, e eu sou um dos instrutores deste curso, e neste curso, nós estaremos ensinando os princípios de preparação de dados. Estive no espaço de dados trabalhando profissionalmente por cerca de oito anos. Eu sou o diretor de análise. Começará aqui em Austin. Eu tenho um mestrado em análise, e eu também sou co-anfitrião de um podcast chamado Data Crunch que entrevista pessoas fazendo coisas interessantes com dados. Assim, os dados são realmente essenciais para o que eu faço. E estou muito animado para compartilhar algumas dessas habilidades com essa turma. Nós vamos falar sobre os três princípios básicos de limpeza de dados, e nós vamos ensinar-lhe também as habilidades técnicas que você precisa aprender. Para poder fazer isso, vamos usar um programa chamado Tri Factor, que é gratuito. Você pode baixar, tentar, fatorar e começar imediatamente. E a razão pela qual escolhemos essa ferramenta é porque achamos que é a mais fácil de trabalhar. Eu olhei para um monte de ferramentas de software de preparação de dados e fator seco é de longe o mais fácil para você. Então é por isso que vamos usá-lo neste curso para iniciantes para mostrar-lhe como fazê-lo. Então não se preocupe. Se você não tem muita experiência e dados ou mesmo habilidades técnicas, isso realmente pode ser feito por qualquer um. Mas o software torna isso muito simples. E vamos levar você passo a passo através do que é preciso para limpar e preparar seus dados . E não sou o único que vai ensinar isso. Eu estou acompanhado por minha anfitriã de podcast co Jeanette. Eu sou Jeanette Method e eu sou o outro professor que estará ensinando este curso. Eu me graduei em Inglês e Humanidades e recentemente comecei a trabalhar com dados, então eu provavelmente posso falar com isso mais do que a maioria. Mas você não precisa ter um fundo em dados para trabalhar com dados, então não há requisitos para que você tenha um plano de fundo para tomar. Este curso você vai construir sua própria receita de dados de seis passos e uma receita de dados em termos de prática de teste é basicamente apenas os diferentes passos que você toma para limpar seus dados. Então, estamos muito empolgados para trabalhar com você, e estamos muito empolgados para ver o que você cria 2. Três princípios de limpeza de dados: Olá e bem-vindo ao curso. Estamos muito entusiasmados por teres decidido juntar-te a nós só por um pouco de fundo. Iam usar um conjunto de dados de erupções vulcânicas. Isso vem do Instituto Smithsonian, seu programa global de vulcanismo. E são todas as erupções confirmadas que aconteceram no mundo. Então isso é bem interessante. Vamos mergulhar nele e vamos ensinar-lhe os três princípios básicos da limpeza de dados . Então, esse é um que vamos ensinar a você como procurar erros em seu conjunto de dados e como removê-los . Dois. Vamos mostrar-lhe como procurar dados que realmente não precisam estar no seu conjunto de dados . Isso é irrelevante e removê-lo. E vamos mostrar-lhe como procurar maneiras de esclarecer o conjunto de dados para que faça mais sentido para um usuário final. Então esses são os três princípios que vamos estar repetindo e de novo, vamos usar tri factor. Então também vamos ensinar-lhe as habilidades que você precisa em tri factor. Para ser capaz de fazer isso, vamos mostrar-lhe como fazer upload de dados irá mostrar-lhe como construir uma receita de dados mostrará como construir transformações que movem seus dados através destas etapas que são necessárias para transformá-lo. Então, sem mais delongas, vamos apenas saltar direto para ele, e vamos mostrar-lhe como baixar o fator de trilha. 3. Instalando o Trifacta: Olá, aqui é Jeanette. Então, antes de fazermos qualquer coisa que você precise baixar, tente o fator Wrangler, e eu vou orientá-lo, passo a passo. E se você já o baixou no passado e por acaso o tem em seu computador , pule esta lição e vá para a próxima. E tenha em mente que, enquanto passamos por essas lições, sinta-se livre para vídeos positivos a qualquer momento. Se você precisar de mais tempo para fazer o download ou siga as etapas. Para aqueles de vocês que não baixaram isso para o seu computador, vamos começar. OK, então primeiro você vai tentar fatores página inicial. Então abra um navegador de Internet e digite tri factor dot com. A partir daqui, você vai olhar para o canto superior direito da tela e você verá aqui que há um botão que diz Download. Selecione-o, e ele irá levá-lo para outra página que tem um pouco de informação para você. Só um destaque rápido. Se você tiver dúvidas sobre os requisitos do sistema, você pode ir para o link aqui a partir daqui. Venha a este botão à direita que diz, Tente baixar o fator Wrangler e você notará que há uma pequena etiqueta beta no botão . Tenha isso em mente, porque este é um software que ainda está em desenvolvimento e, à medida que ele atualiza , irá atualizar o curso. Você tem as informações mais recentes ao lado para ir em frente e selecionar este botão de download, e ele irá aparecer uma tela de registro agora e pede uma empresa e um cargo. Mas você é um estudante no curso, então eu recomendo que você coloque o que você está confortável com, mas como uma sugestão, algo que você poderia colocar aqui sob companhia seria treinamento Try Factor e cargo pode ser estudante, e a partir daí requer um número de telefone. Agora eu coloquei meu número de telefone e no passado, e eu nunca tive eles me ligando para saber, e eu nunca recebi uma mensagem de voz deles, então eu não acho que eles vão ligar para você aqui. Coloque no seu país o seu estado e, em seguida, o seu e-mail, e a partir daí você criará uma senha. Você também seleciona que você não é um robô e aceita o contrato de licenciamento. Depois de enviar, você vai para esta última página e aqui você selecionará o que precisa para o seu PC ou Mac. Agora, eu vou dizer isso para o meu desktop como tentar fator Wrangler e deixar o download acontecer. Quando o download estiver concluído, basta ir em frente e selecionar o arquivo que você baixou. Meu computador está solicitando que uma vara na minha pasta de aplicativos. Então eu vou em frente e fazer isso. Você pode dizer aqui em cima. É apenas copiá-lo para a minha pasta de aplicativos. Assim que soar carregado e você sabe que está pronto para ir encontrar o aplicativo e abrir trifecta agora em um Mac, ele vai perguntar se você quer abrir este aplicativo porque é da Internet, vá em frente e diga Guess selecionando o botão de abertura Parabéns e você está pronto para jogar com dados, vamos mergulhar diretamente no uso de princípios de dados básicos e explorar um caso de uso do que esta ferramenta pode dio 4. Flows: aqui nós entramos na tela de fluxos, e um fluxo é basicamente um pacote que contém os seus dados e as alterações que você faz nele . E a tela mostrará eventualmente uma lista de todos os seus fluxos à medida que você os cria ao longo do tempo. Por agora. Como ainda não iniciamos um fluxo, está totalmente em branco. Mas você verá que há três guias aqui em cima uma a guia Fluxos, que estavam na guia então conjuntos de dados, que mostrará os conjuntos de dados que você carregou depois que você carregou conjuntos de dados e, em seguida, resultados uma vez que você realmente executar trabalhos e você têm resultados a mostrar. Mas vamos para a tela de fluxo, e vamos selecionar criar fluxo. Então aqui você pode escrever qualquer nome de fluxo, qualquer descrição de fluxo, mas vamos importar hoje um conjunto de dados vulcão. Então, para o nome do fluxo, vou escrever as erupções vulcânicas do mundo. Você pode colocar o que quiser lá que faça sentido para você e, em seguida, como faras a descrição. Este é um lugar que você escreveria qualquer coisa que ajude a descrever o fluxo e quaisquer outras palavras que você possa querer. Então aqui vou escrever algo para o efeito de todas as erupções vulcânicas confirmadas de todos os tempos. Vá em frente e pressione criar. E isso criará seu primeiro fluxo. 5. Download de dados: Agora precisamos adicionar um conjunto de dados vulcão para tentar fator. E para fazer isso, você precisará encontrar e baixar o documento Data Excel do compartilhamento de habilidades. Então vá para a guia de projetos neste curso e veja a barra lateral direita para encontrar o anexo. Baixe o arquivo de dados chamado vulcão. Sublinhado erupções Conjunto de dados sublinhado. Uma vez que você fez isso em, tente fato nós. Deixe o botão importar e adicionar conjuntos de dados nesta tela de importação de dados. Aqui você tem algumas opções para adicionar seus dados. Você pode arrastar e soltar o arquivo ou escolher o arquivo no seu computador. Escolha qualquer método de upload que funcione melhor para você. Agora eu tenho o arquivo na minha área de trabalho, então eu vou ir em frente e arrastá-lo e soltá-lo em trifecta. Este arquivo levará um pouco de tempo para fazer upload porque ele tem várias guias nele e tente Factor precisa identificá-los e exibi-los separadamente para lhe dar opções de upload. Então sinta-se livre para pausar seu vídeo enquanto o computador está carregando para esta classe foram em Lee indo para trabalhar com a primeira guia, selecionando o sinal de mais ao lado desta guia superior aqui. Então, enquanto você tem a opção de abrir outras fontes de dados listadas aqui, vamos ficar com esta guia por enquanto. Mas para o seu conhecimento, se você vai para o sinal de mais para todo o arquivo aqui, ele oferece para pode cat mate o conjunto de dados em um conjunto de dados, e isso basicamente significa que ele combina as guias juntas e cria um arquivo de dados. E você quer ter muito cuidado em fazer isso. Pode não ser bem o que você está procurando. Além disso, se você quisesse, você poderia selecionar todas as guias marcando o sinal de adição seguinte, cada uma delas, e isso iria mantê-las separadas. Você também notará que há um pequeno símbolo de olho no lado direito que você pode usar para mostrar uma visualização se você não se lembrar qual guia tem quais dados, e isso pode ser uma ferramenta muito útil. Agora, enquanto você seleciona os sinais de adição em qualquer conjunto de dados que você quiser, você os verá carregando aqui à direita, e isso está ficando pronto para o upload, então ele ainda não fez upload dele. Quando você selecionar este símbolo de adição agora aqui, você pode renomeá-los. Você pode descrevê-los. Você pode excluí-los através deste símbolo lata de lixo, e você novamente tem a opção de visualizá-los através deste outro pequeno símbolo I aqui . Então vá em frente e selecione o botão de importação de conjuntos de dados. 6. Dentro de um fluxo: chegamos dentro de um fluxo e vemos três ícones. O primeiro símbolo representa os dados importados e o segundo símbolo de rolagem representa uma lista de alterações nos dados originais e o terceiro simboliza os dados limpos com essas alterações aplicadas. E à medida que você seleciona as opções, você pode ver que há algumas informações de arquivo associadas a cada uma delas neste painel de detalhes. Além disso, medida que selecionamos cada símbolo, há um botão azul de ação para cada um deles que podemos selecionar, e suas opções são trocar ou editar. receita significa apenas trocar seus dados por um conjunto de dados diferente, ou a outra opção que você verá nos outros dois símbolos é editar receita para que possamos entrar e jogar com os dados. Vamos selecionar este botão, e agora vamos fazer as coisas divertidas 7. Visão geral do painel de grade: Agora estamos onde podemos fazer a magia acontecer. E vamos dar uma olhada rápida em torno de algumas das ferramentas básicas ao seu alcance. Aqui estão seus dados e na exibição em grade, como você já viu antes no Excel. Você subiu aqui e você tem colunas aqui, e você pode rolar ao redor da grade com rolagem de toque fácil se o seu computador suportar isso , ou você pode rolar simplesmente usando as barras de rolagem à direita ou à parte inferior do crédito. Outra coisa importante é que, enquanto você rola sobre o hífen ao lado da Rosa, ele mostra qual número de papel ele está atrás. Tente fator importado e que estrada é a partir da fonte de dados original, que vem a calhar às vezes. Então, enquanto esta linha é a linha número um agora, ele mostra que foi realmente estrada para a partir da fonte original, que então nos faz perguntar, Onde está a estrada número um? E essa é a sua linha de cabeçalho agora aqui em cima, a linha de cabeçalho tem os nomes das colunas e flanqueando cada coluna em ambos os lados do nome da coluna são para menus suspensos, que irá explorar mais detalhadamente mais tarde. Mas como uma breve visão geral. O da esquerda muda rapidamente o tipo de dados como um código postal ou assim número de segurança ou qualquer tipo de dados que é. E é aqui que você a categorizaria. À medida que mudamos para o menu suspenso à direita, vemos que oferece uma miríade de maneiras que você pode alterar seus dados agora sob a linha de cabeçalho. Com o para menus suspensos, você tem que realmente ferramentas incríveis. Primeiro, há a barra de qualidade de dados, que lhe dá uma visão geral aproximada de Ah, colunas. Qualidade dos dados. É uma verificação de qualidade limitada, mas mostra cinza escuro para todos os valores ausentes em uma coluna. Como você verá aqui, ele mostra que você leu para todos os valores de incompatibilidade ou, em outras palavras, valores que não correspondem ao tipo de dados que a coluna foi categorizada, como você verá aqui e verde para todos os valores. Mas, por favor, tenha em mente que o Green não significa que os dados são perfeitos. Ainda pode haver muitas coisas erradas com ele, mesmo que esteja marcado como verde. Tudo isso realmente indica para você é que uma célula não está vazia, e ele corresponde ao tipo de dados da coluna para essa respectiva coluna. A segunda ferramenta fabulosa aqui é a coluna, assobiada um grama, que mostra uma representação gráfica dos dados em cada chamada. Cada barra aqui representa um valor de palavra ou categoria na coluna, e logo abaixo do sibilado um grama, você verá uma caixa de informações branca que realmente se parece com uma linha. Mas se você notar, ele não tem um traço ao lado dele como essas outras rosas. Então essa é a pista de que não é uma fila. Esta caixa de informações realmente altera o conteúdo de acordo com suas ações. Por exemplo, vamos descobrir qual vulcão é mais chamado. Enquanto eu percorrer essas barras com minha mira, dê uma olhada na caixa de conteúdo abaixo dela. Como você pode ver, Etna é escrito 197 vezes, representando cerca de 2% da coluna. Tudo isso realmente está nos dizendo é que Aetna atualmente aparece em mais linhas nesta coluna do conjunto de dados do que qualquer outra coisa. Se olharmos para a Rosa, percebemos que cada linha representa uma erupção distinta, então sabemos que é onde mais erupções ocorreram, acordo com nosso conhecimento atual do conjunto de dados tenha em mente que pode haver mais o contexto do conjunto de dados que ainda não descobrimos. Mas em um olhar superficial, parece que Aetna é a vencedora da maioria das erupções confirmadas na história registrada do mundo . Esta exibição em grade também mostra algumas outras coisas aqui no meio superior. Está mostrando que você tem um conjunto de dados completo. Agora. Isto é importante para Trife agiu para dizer-lhe, porque se você tem uma quantidade incrivelmente grande de dados, tentar fator só vai tomar uma pequena, amostra aleatória de que é que você pode trabalhar com ele. A razão para isso é, se os dados eram muito grandes, ele faria o seu computador realmente lento ou não tem memória suficiente toe carregar tudo e trabalhar com ele. E é por isso que ele pode apenas amostrar o conjunto de dados ao lado dessa medida. Está dizendo que você tem 24 colunas, 9815 linhas e cinco tipos de dados. Qualquer coisa que é azul aqui, como este cinco você pode selecionar para descobrir mais informações. Outra coisa que você pode fazer aqui à direita é você pode filtrar a grade. Então, se há uma palavra que você está procurando por algo em particular, você pode digitá-la aqui, e ela irá filtrar a grade para você. Para os fins desta classe foram usando a visualização de grade, que é a vista que estamos agora com colunas e linhas. Mas você vai notar que todo o caminho até aqui à esquerda que você também tem a opção de uma visão de navegador de coluna nesta visão geral de coluna. Você pode fazer coisas como avaliar rapidamente os dados ocultar colunas que você não deseja ver na exibição em grade ou aplicar alterações realmente rápidas em várias colunas, como remover um monte de colunas do conjunto de dados. Agora isso é algo que você definitivamente deve explorar com mais detalhes mais tarde, mas por enquanto, vamos nos concentrar em nossa boa visão. 8. Visão geral de receita de dados: Tudo bem, é hora de falar sobre receitas de dados, que eu acho que é uma das melhores características que tentar Factor tem. Então, se você der uma olhada comigo no canto direito, há um ícone que se parece com um pergaminho, e se você seguir em frente e clicar nele, ele vai abrir o que é conhecido como a receita de dados agora receita de dados. É uma lista passo a passo de todas as alterações que tentar Factor está fazendo em seus dados. Então, cada passo é uma mudança que tentar Factum faz acontecer em seu conjunto de dados em termos de fator Tri Essas etapas que eles são conhecidos como transformações, e ele faz basicamente o que ele descreve. Cada etapa transforma seus dados de alguma forma, e as imagens são realmente interessantes para pensar. É como uma receita de cozimento ou algo que tem um monte de passos que você toma. Mas a sorte aqui é que se acontecer de você estragar um de seus passos, você pode simplesmente voltar e facilmente excluí-lo ou alterá-lo pressionando o botão desfazer bem aqui . E você também pode refazer se você decidir que você realmente, um desses passos para estar lá. Portanto, a razão pela qual as receitas são tão ótimas é porque ele fornece uma trilha automática para o que você está fazendo com seus dados. Se você estiver usando o Excel como muitas pessoas, faça o trabalho com seus dados. Muitas vezes, você vai encontrar o problema de que você fez um monte de coisas para seus dados. Você adicionou colunas. Você excluiu colunas. Você deletou Rose. Você alterou alguns dados nas células, e você fez todas essas etapas e eventualmente chegar a um resultado. Mas então você percebe que cometi um erro há cinco passos. Mas a menos que você esteja documentando e escrevendo tudo, você está fazendo um Excel, é realmente difícil tentar voltar e descobrir o que você fez e o que deu errado e como corrigi-lo. E a outra coisa é, digamos que você faz todas as suas transformações corretamente e se destaca e você apresenta para alguém , e eles têm uma pergunta sobre se é preciso ou se você fez algo certo. Se você fizer isso no Excel, há realmente nenhuma maneira de mostrar a ninguém o que você realmente fez com os dados novamente, a menos que você cuidadosamente para fora todas as etapas e tudo o que você está fazendo, então não há transparência lá. Não há pista de auditoria. Tentar fator ajuda você a fazer isso. E isso é uma coisa necessária quando você está lidando com dados porque muitas coisas podem dar errado e é tão importante ter transparência quando você está olhando aqui passos, para esses passos, se você acontecer de cometer um erro, Você pode voltar para o passo três ou passo para e dizer, oh, isso é realmente o que eu fiz, é onde meu erro está. Posso corrigi-lo facilmente, e todas as etapas depois disso serão atualizadas automaticamente. Ou se alguém quiser saber o que você fez na preparação de dados sua análise, você pode facilmente levá-los aqui para a tela da receita e mostrar-lhes cada coisa que você fez com os dados. Então, é reprodutível, é transparente, e é algo que você precisa ter quando você está trabalhando com conjuntos de dados grandes e complexos. Caso contrário, você vai acabar desperdiçando muito tempo. 9. Passos de receita pronta: Falamos um pouco sobre receitas e transformações, então vamos dar uma olhada e descobrir o que a trifecta já fez automaticamente por você. Quando você carrega esse conjunto de dados, ele já o executou através dessas quatro etapas. E só para que você possa ter uma breve visão geral e entender o que a tentativa de fato está fazendo aqui, vamos passar por isso muito rapidamente. Poderíamos ir mais fundo, mas por enquanto vamos mantê-lo alto nível. Vamos dar uma olhada em como seus dados se parecem antes de realmente colocá-lo em Try factor. Este é o arquivo de texto simples dos seus dados. Você vai notar aqui em cima vulcão número nome vulcão esses ar seus cabeçalhos e, em seguida, você começa a ver cada uma dessas linhas é uma espécie de outra linha nos dados triste. E parece que eles estão usando vírgulas para separar onde as colunas devem estar. Então é assim que seus dados realmente se parecem, mas você não pode realmente trabalhar com eles assim. Então trifecta realmente se aplicam. Algumas transformações na receita para obtê-lo em um formato utilizável. Então vamos dar uma olhada em cada uma dessas etapas. Se você clicar no primeiro passo O que tentar fato vai fazer é na verdade cinza o resto desses passos, e ele vai mostrar o que o resultado waas deste primeiro passo que ele deu. Então seus dados chegam, aqui está o arquivo trifecta. Faz este passo inicial e este é o resultado. Então está dizendo que está quebrando seus dados em linhas e tem este pequeno é o nosso símbolo em um círculo que significa que é a transformação de rosa dividida. O que você vai notar aqui é que você tem Rose. Primeiro ano tem vulcão número todos. Você pode nomear a segunda linha, terceira linha e assim por diante. Então isso é tudo o que o primeiro passo fez foi dar a você Rose. Vamos ver o que ele faz quando você faz o segundo passo para que possamos apenas clicar sobre isso. Ele o tira do cinza e, em seguida, ele mostra os resultados da segunda etapa que levou seus dados através. Você notará isso como um SP aqui. Essa é a transformação dividida. E então ele diz que dividiu a coluna um em 24 Collins em uma vírgula. Você notou bem ali. Entre essas aspas, está usando uma vírgula, assim como vimos aqui que há um monte de vírgulas que parecem estar dividindo o conjunto de dados . Ele vai dizer, Tudo bem, nesta etapa, temos coisas separadas por vírgulas e vamos pegar essas vírgulas, e vamos criar quebras de coluna com cada um desses comentários. Então agora você tem suas colunas. Certo, estamos chegando perto, mas ainda não chegamos lá. Ele ainda tem essas citações feias. Todos esses campos de dados têm aspas, o que não é realmente fácil de trabalhar. Então, o terceiro passo aqui tenta adivinhações fatoriais. Provavelmente queremos nos livrar dessas citações. Então ele usa este r P no círculo conhecido como a transformação de substituição. Então está dizendo: Pegue todas as aspas e substitua-as por basicamente nada. Então é só usar essas duas citações aqui e não colocar nada entre elas, que basicamente significa que estamos apenas nos livrando das citações porque estamos substituindo-as nada. Então você vai notar todas as aspas que costumavam estar em torno desses números e palavras agora desapareceram. Isso é ótimo. A última coisa aqui, nós também vai notar nesta primeira linha, nós realmente temos nossos nomes de cabeçalho coluna. Mas nós realmente não queremos isso. Em nosso conjunto de dados, queremos que esses são os nomes das colunas? Bem, tente fato. Ah, novamente adivinha que é isso que queremos fazer. Então, quando olhamos para esta última transformação, este hee transformado, que é a transformação de cabeçalho. O que isso faz é pegar a primeira linha e convertê-los em seu nome de coluna. Então agora tudo na primeira linha é agora você é o nome da coluna, número do vulcão, nome do vulcão, número da erupção, e assim por diante. 10. Mudanças rápidas de receitas: Agora, vamos falar um pouco mais sobre essas transformações. Se você não gostar de nenhuma dessas etapas, por algum motivo você tem algumas opções que você pode excluir ou editar qualquer uma delas a qualquer momento. Então você percebeu que quando eu estava pairando sobre eles inicialmente, você tem três opções aqui. Lixo. Cram vai se livrar dele. Então eu só quero deletar essa transformação. Ele foi do meu conjunto de dados e agora os cabeçalhos não estão mais nos nomes das colunas. Agora eles estão aqui em baixo. Na verdade, quero isso. Então eu só vou dar em cima de fazer e ele vai trazer isso direito de volta. Você também pode editar se você apenas apertar este ícone de lápis e você também tem mais opções se você pressionar as reticências bem aqui. Então aqui embaixo você tem algumas opções. Você pode realmente copiar uma etapa se quiser duplicá-la, colá-la ou até mesmo colá-la em outra tentativa. Fato uma janela onde você está trabalhando em outro conjunto de dados e você também tem a opção inserir etapas antes e depois da etapa atual. Então, se eu decidir que eu precisava passar antes deste cabeçalho, eu poderia apenas inserir um antes, e então há outro passo que eu posso construir. Então agora vimos todos esses passos que a trifecta tomou para preparar seus dados. E agora você sabe como editar ou deletá-los, se quiser. E agora o fato da pista fez esses quatro passos iniciais. Os próximos seis passos que você adicionar são os que contarão para o seu projeto de receita de seis passos que talvez você já tenha adicionado alguns como nós estamos indo junto aqui, e se assim for, vá em frente e carregue uma foto dele. 11. Cartões de Sugestão: esta lição no próximo são a carne deste curso. E se você ainda não foi, eu recomendo que você imite no seu computador o que eu estou fazendo aqui como eu faço. Isso ajudará você a tirar o máximo proveito desta seção. Então, uma capacidade incrivelmente esperançosa que o Trifecta tem é que sugere o que ele acha que você gostaria de fazer para preparar seus dados. Vamos como um imposto dentro da grelha. Agora você verá que há uma seção na parte inferior que apareceu. Esta seção lista várias opções em cartões de transformação para saber como você pode alterar os dados selecionados. Acima desses cartões de transformação, você tem três opções. Cancele sua seleção, modifique sua seleção ou adicione-a à receita de dados. Por enquanto, vamos cancelar. Vamos selecionar a categoria de erupção de coluna inteira indo até a linha de cabeçalho para selecionar seu nome. Observe aqui que se não cancelarmos nossa seleção de coluna e escolhermos outra coluna na grade, tente fator irá adicionar essa segunda coluna Em cima do que já selecionamos. Em vez de pensarmos que estamos tentando fazer duas mudanças diferentes, isso pode ser algo que queremos fazer, mas talvez não. E se não quisermos fazê-lo, enfraquecer simplesmente de selecionar as colunas indesejadas selecionando novamente os nomes das colunas. A primeira sugestão listada aqui é Drop e Try Factor selecionou automaticamente para nós. Drop significa que estamos removendo toda a coluna do conjunto de dados, e há realmente uma diferença entre soltar e excluir, que entrará em mais detalhes na próxima lição. Agora, à medida que olhamos um pouco mais de perto na parte inferior do cartão, há um texto explicativo cinzento claro aqui. Este texto explica o que essa alteração afetará e/ou criará. Este cartão confirma o fato de que ele só vai cair esta coluna, e se você olhar para a sua receita, é colocar um passo temporário nela que mostra como será a sua receita se você escolher esta opção. Na verdade, pense em cair. Esta é uma grande jogada porque, como podemos ver a partir do sibilado um grama, todos os valores nesta coluna, exceto o nome do cabeçalho da coluna, dizem exatamente a mesma coisa confirmada erupção. E eu não preciso ou quero essas informações no meu conjunto de dados porque são informações óbvias e implícitas no conjunto de dados. Então vamos em frente e largar esta coluna. Este é um exemplo de como simplificar os nossos dados. Um dos princípios de limpeza de dados que mencionamos no início. Agora, tentar fator torna isso muito fácil. Então eu vou ir em frente e soltar a coluna e nós podemos fazer isso selecionando o botão de anúncio para receita aqui à direita acima dos cartões de opção. Certo, vamos escolher outra coluna. Que tal a coluna VE I? Desta vez, vamos selecionar o cartão de renomeação. Como podemos ver, ele mostra uma prévia de como essa mudança poderia parecer. Aqui. Tente fatores. Coloque em um nome de espaço reservado chamado nome de nova coluna até colocar em nosso próprio valor de nome para alterar o nome. Vamos selecionar o botão modificar selecionando o botão modificar. Ele nos leva ao Transform Builder, um lugar onde podemos modificar, tentar fatores, sugestões aqui. Vamos renomear nossa coluna preenchendo a seção de novos nomes bem aqui. Observe que você não pode ter espaços em seus nomes de coluna, portanto, se quiser um espaço, use um símbolo de sublinhado. Tente também fatores. Convenção de nomenclatura é sensível a maiúsculas e minúsculas, então essa é outra boa dica para ter em mente. Agora, já que eu aprendi que eu significa Índice de Idade Explosiva Vulcânica, vamos soletrar a sigla para este conjunto de dados. Este nome pode ser importante para mudar se o nosso público não souber o que significa esta sigla . Portanto, esta mudança esclarece os nossos dados. Outro princípio que mencionamos no início da aula. Agora que renomeamos a coluna, você notará que Try Factor nos mostra uma visualização de como seria a coluna se fizéssemos essa alteração no dedo do pé. Na verdade, faça a mudança. Vá em frente e selecione. Adicione à receita. Agora vamos escolher outra coluna. Que tal o vulcão? Coluna de Nein. Vemos uma opção para agregar. Uma vez que esta é uma transformação intermediária que irá cobrir em uma classe futura. Vamos passar por este. Por enquanto, vamos procurar um que tenha vários pontos de opção por baixo dele. Este aqui é um bom exemplo de que, se falta cartão de transformação, vemos abaixo o cartão de opção que existem esses quatro pontos. Cada ponto de opção oferece uma mudança no nome do vulcão nesta coluna, a primeira opção ou, se ausente, opção oferece substituir uma célula que está faltando um nome para outra coisa de nossa escolha. Ou podemos em letras minúsculas todos os nomes aqui. Alguma vez os nomes aqui ou até mesmo os casos apropriados? Os nomes aqui que você pode estar perguntando, por que eu iria querer mudar a palavra caso? E uma razão hipotética é que você pode precisar combinar esse conjunto de dados com outro , e você precisa combinar a palavra maiúscula para manter a consistência entre maiúsculas e minúsculas. Isso simplificaria e potencialmente esclareceria os dados, que é um dos nossos princípios de limpeza de dados para hoje. Vamos apropriados ladrões caso nomes vulcão selecionando adicionar à receita. Você notará quando adicionar à receita que a visualização que ele mostra desaparece e que realmente faz a alteração no solidifica a etapa da receita. Observe também aqui que a barra de qualidade e o tipo de dados podem mudar à medida que estamos trabalhando com os dados porque estamos alterando-os e, como resultado, tente atualizações de fatores de acordo. Além disso, como Curtis mencionou, podemos modificar um passo de receita em qualquer ponto da receita de dados. Agora que construímos algumas etapas, vamos dar uma olhada mais de perto quando selecionamos uma etapa para modificá-la. A receita não irá visualizar quaisquer passos após o ponto com selecionado, e seu Curtis nos mostrou os passos ou cinza claro. Quando eles não são ativados, você também pode excluir um passo a qualquer momento do caminho, e as pessoas restantes permanecem nessa etapa e no último estado em que estávamos trabalhando, e ele vai continuar assim até que selecionemos o último passo na e, em seguida, ele irá ativar todas as nossas outras alterações. Também como um aviso. Tenha em mente que, se excluirmos uma das etapas aqui, ela poderá invalidar as etapas futuras. Aqui está um bom exemplo disso. Se tirarmos este passo, não invalida nada. Mas se tirarmos este passo, ele faz. 12. Mantenha e exclua o que: Notei algo audível. Estamos olhando para a coluna Nome do vulcão. Na verdade, falta um valor à coluna, e isso é estranho porque esta deveria ser uma lista de todas as erupções vulcânicas confirmadas na história do mundo, então não devemos ter um valor em branco na coluna de nome do vulcão. Então vamos descobrir qual valor está faltando. Para fazer isso, podemos selecionar o valor ausente na barra de qualidade de dados aqui. E uma vez que fizemos isso, vemos que há novas informações que aparecem aqui ao lado desta barra de filtro. Ele subiu do que um cólon, e então as palavras todas e transformou uma linha. Se selecionarmos a linha transformada em vez de tudo, notaremos isso em Lee. O valor ausente está aparecendo aqui. E à medida que percorremos as colunas, vemos que não há mais nada nessa linha, o que me faz pensar onde essa função estava no conjunto de dados original. Então, mesmo neste modo de visualização, temos a capacidade de rolar sobre este hífen ao lado de uma estrada para descobrir mais informações, e isso nos dá informações úteis agora porque ele está nos dizendo que essa função foi originalmente Row 9816, o que significa que foi a última linha no conjunto de dados, e não tem informações valiosas, então podemos ir em frente e simplesmente excluir isso. E excluir remove Rose de um conjunto de dados. Ao contrário de Dropping, que remove colunas do conjunto de dados, e pode parecer um pouco estranho, Toe tem dois termos diferentes para o que na superfície parece ser a mesma ação. Só me livrando da Rose. Mas colunas e linhas funcionam um pouco diferente, e, por isso, tradicionalmente, elas têm sido tratadas de forma diferente. Colunas têm nomes e Rose, Ken e geralmente deve ter uma única coluna I D, que também identifica a linha. No entanto, é fácil se livrar de uma coluna simplesmente dizendo “Largue a coluna número do vulcão”. Mas para se livrar de Rose, você tem que dizer, excluir linhas que correspondem a certo conjunto de critérios. Por exemplo, em nosso conjunto de dados, os critérios para excluir uma linha podem ser algo para o efeito de excluir All Rose, onde o número do vulcão da coluna é culpado, então a diferença é matizada. E é por isso que essas transformações de remoção aparentemente idênticas têm nomes diferentes. Agora vamos ver quais são as nossas opções nos cartões de sugestão. A primeira opção é a opção de manter, que em algumas circunstâncias seria útil porque ele iria manter em Lee as linhas que correspondem às nossas especificações tipo do oposto de excluir. Mas neste caso, não queremos manter essa linha, então vamos para o próximo cartão que diz Excluir. E isto é o que queremos. Então vamos em frente e excluídos selecionando o cartão de exclusão e adicionando-o à nossa receita. Ao excluir essa linha vazia, empregamos o importante princípio de limpeza de dados de remoção de erros estão faltando valores do conjunto de dados quando apropriado. 13. Alterações de menus suspensos: Certo, vamos para o último caminho. Vamos limpar dados e adicionar etapas de receita neste curso, então acima do sibilado um grama e barra de qualidade, vemos que há duas áreas para menus suspensos, que abordamos brevemente no início do curso. O à esquerda é o tipo de dados, e usando este menu suspenso, podemos alterar rapidamente o tipo de dados da coluna. Não se deixe enganar por quão simples o conceito de um tipo de dados soa. Na verdade, é muito importante conseguir isso agora. Ao olharmos para a coluna número de Erupção, percebemos que é um código postal, que é um exemplo divertido, porque tente fator, conheça um convidado realmente bom aqui porque este é um número de cinco dígitos que poderia passar é um zip código. É fácil ver por que isso aconteceu, mas é errado, então precisamos consertar isso. Uma vez que temos esses menus suspensos, há uma maneira rápida e fácil de fazer isso. Agora vá para o menu suspenso à esquerda, e é assim que mudamos o tipo de dados. Aqui vemos alguns outros tipos de dados a partir dos quais podemos escolher outra categoria para os nossos dados. As principais categorias são as mais gerais e comuns a quase todos os programas que trabalham com dados. Então você tem suas cordas entre jurados decimais, que também poderia ser conhecido como carros alegóricos e muitos outros programas e idiomas. E temos bilhões. Então nós temos a categoria string, e esta é uma categoria que geralmente tem palavras e letras agrupadas sob ela. Mas uma string também pode ser números com os quais não gostaríamos de fazer matemática, como potencialmente um número de erupção, que você não adicionaria a outro em você, subtraia ou dividiria ou faria qualquer uma dessas funções matemáticas. Então vamos continuar procurando aqui. Em seguida, temos inteiros, que são números inteiros com os quais faríamos matemática e, em seguida, números com decimais e, em seguida , booleanos, o que significa que os dados só podem conter dois valores normalmente exibidos como verdadeiro ou falso. E então você também tem um tipo de dados para datas para esta classe que estavam pulando sobre objeto na matriz e indo para mais opções, que são tipos de especialidade em trifecta e seu auto-explicativo como você pode ver aqui. Então, entre essas três opções. A string parece ser a melhor opção porque não queremos fazer matemática com esses números. No entanto, aqui vai uma dica profissional. Há uma razão importante pela qual, em situações semelhantes, podemos querer escolher intrusos. E a razão é que, uma vez que esta é uma coluna I D, podemos querer juntá-la a outra fonte de dados. E os jurados Inter-normalmente se juntam mais rápido do que cordas. As cordas também ocupam um pouco mais de memória. Então, para pequenos conjuntos de dados, realmente não importa se escolhemos String ou Inter jurado porque a diferença de memória e velocidade são insignificantes. Mas se estivéssemos trabalhando com um grande conjunto de dados, talvez queiramos escolher intrusos. Então, uma vez que nosso conjunto de dados é realmente pequeno, nós poderíamos realmente optar por fazer esta coluna ou string digitou seu aqui. Mas se você escolher um inteiro, lembre-se de não fazer nenhuma transformação matemática nessa coluna e você ficará bem. Em seguida, vamos para a seta para baixo no lado direito da coluna, e quando selecionamos este botão, vemos muitas opções rápidas, selecione que oferecem outra maneira de fazer algumas das mudanças que já falamos sobre, como renomear uma coluna ou alterar o tipo de dados, que é um pouco redundante. Mas também há opções que ainda não falamos, como editar a coluna. Este é o lugar onde nós consorte a coluna selecionando se queremos que as colunas datadas para ascender ou descer. Ou podemos mudar a ordem das colunas ao redor, e podemos até duplicar ou alto para chamá-lo aqui. Agora, a opção de classificação pode ser particularmente útil. Por exemplo, desde que descobrimos o que eu representa, fiquei curioso sobre como Maney confirmou que as erupções eram números mais altos nesta escala, zero sendo a erupção vulcânica mais leve fiquei curioso sobre como Maney confirmou que as erupções eram números mais altos nesta escala, e oito sendo o O batedor mais pesado. Então vamos para essa coluna para usar essa função de classificação. Vamos classificar dos números mais altos para os mais baixos, então escolha decrescente. Está nos mostrando valores em branco. Então é isso que ele é colocado como o valor mais alto para selecionar em Lee, as linhas com valores inseridos escolhem os valores válidos na barra de qualidade de dados e, em seguida selecione transformado acima disso, você pode estar se perguntando por que não excluímos as linhas com não há valores aqui. Mas uma vez que há outras informações importantes ao longo destas linhas. Não queremos nos livrar deles agora. Vemos apenas os valores que têm números, e desta forma torna mais fácil explorar os dados. Aqui podemos ver algumas erupções poderosas do vulcão no topo, e rolando através da rosa, descobrimos seus nomes e quando eles entraram em erupção, que oferece algumas informações realmente interessantes agora. Outra coisa que notei na coluna de nome do vulcão foi que há um vulcão sem nome que entrou em erupção em um ponto, e estou realmente curioso se esta é a única vez que isso aconteceu ou se há outras erupções vulcânicas confirmadas que não são nomeados. E para fazer isso eu vou filtrar nossa grade para vulcões sem nome, e parece que há 14 fileiras deles. Agora vamos verificar a latitude e longitude para ver se eles realmente têm uma localização, e parece que eles dilatam. E não só isso, há vários que são reincidentes que podemos ver aqui e agora. Estou curioso quando essas erupções aconteceram. Vamos passar por cima e mover o início perto da coluna ao lado dessas colunas para comparar mais facilmente. Vemos que esses vulcões não foram embrulhados há muito tempo, comparativamente na história do mundo. Então uma hipótese é que esses vulcões não têm nomes. Mas pelo menos sabemos que esses não são erros que devemos excluir no conjunto de dados, então vamos deixar isso em paz. 14. Exportando resultados: Agora estamos quase completando nosso exemplo. Trabalhe neste conjunto de dados. Há definitivamente mais que podemos fazer com ele. Mas é isso que você estará fazendo em seu projeto de receita de seis passos. Mais trabalho neste conjunto de dados, então vamos apenas enviar este começo. Você voltou para onde estava. Agora que demos uma olhada nas datas próximas à longitude e latitude. E enquanto estamos olhando para o início, eu só queria te mostrar uma estranha antes de começar a trabalhar no seu projeto. As datas no fator tri são uma situação única, e você notará que há alguns valores de incompatibilidade aqui, e quando você olha para eles, eles ainda são datas. São apenas estados antes das 1400 , quando tentamos o fato e perguntamos a eles sobre isso. E eles disseram que programas que geralmente têm um limite inferior em suas datas, e eles escolheram 1400 por como seu limite inferior. Portanto, qualquer data antes das 1400 é considerada um valor incompatível, mesmo que seja uma data legítima, e eles também disseram que nunca ouviram qualquer feedback de que esse limite não era suficiente. Então, quem sabe? Talvez mude no futuro, e suas datas não serão marcadas como incompatíveis. Se isso realmente incomoda você, você pode alterar o tipo de dados para inserir Jer. Agora vamos terminar nossa etapa final, que é executar essas mudanças em todos os nossos dados e obter nossos resultados. E fazemos isso indo até o botão gerar resultados aqui e selecionando-o. Ele nos leva a esta nova tela e aqui podemos escolher qualquer formato de arquivo que você quiser. Eu só vou escolher um CSFB arquivado por não verificar o Jason e ver SV significa valores separados por vírgula , que é um tipo de arquivo. Eu posso abrir no Excel, então vá em frente e pressione gerar resultados. E aqui estão os resultados. Podemos ver o resumo dos resultados aqui, que é uma visão geral dos seus dados. Você pode olhar ao redor para os 20 valores superiores, e você também pode ver coisas como mediana, mínima e máxima. Mas vamos abrir os resultados. À medida que navegamos aqui, podemos ver algumas de nossas mudanças e escolhas como quando soltamos a coluna da categoria de erupção e renomeamos a coluna V I, e também que escolhemos não soltar os vulcões sem nome 15. Explicação de projetos: Tudo bem. Então, passamos pelo curso, e agora você pode aplicar o que aprendeu. Então neste projeto, o que nós vamos pedir-lhes para fazer é realmente pegar o conjunto de dados do conjunto de dados vulcânicos e aplicar seis transformações a ele. Então, seis passos nessa receita de dados além dos quatro. Esse fator de tentativa automaticamente faz por você. Então, enquanto estiver fazendo isso, tenha em mente os três princípios de dados que revisamos novamente. Isso é encontrar erros e excluí-los, encontrar dados que realmente não importam. É irrelevante para o que você está tentando fazer para se livrar dele e esclarecer o conjunto de dados . Então tente manter esses três princípios em mente. À medida que você está chegando com suas transformações, você não tem apenas que usar as transformações. Fomos para a aula. Você pode realmente usar o que quiser. O ponto é ser capaz de aplicar seis novos passos de dados para a sua receita e sair com um conjunto de dados que é mais limpo do que o que estava chegando e ajudá-lo tipo de trabalhar através disso. Basta ter em mente onde você deseja levar o conjunto de dados. Talvez queira criar um mapa de erupções vulcânicas ou fazer algo assim. Nesse caso, você pode querer, por exemplo, remover muitas colunas que não têm nada a ver com latitude e longitude ou posicionar o que quer que você esteja tentando fazer, basta aplicar esses dados princípios e aplicar essas transformações para tentar chegar lá. E uma vez que você tenha feito isso, vá em frente e faça uma captura de tela dele e faça o upload para que possamos ver o grande trabalho que você está fazendo. 16. Estamos aqui para você!: parabéns por terminar o curso. Estamos muito animados para ver os projetos que você inventa, e se você tiver alguma dúvida ao longo do caminho, por favor, não hesite em entrar em contato e perguntar-nos. É para isso que estamos aqui.