Transcrições
1. Introdução: Oi. Bem-vindo a esta aula de análise de dados usando pandas Python no caderno Júpiter. Meu nome é Paul. Agora sendo analista de dados por cerca de 12 anos. Esta é uma classe de nível iniciante, então eu não espero que as pessoas tenham qualquer conhecimento prévio ou pandas encomendaram seu caderno. E, de fato, você pode não ter qualquer conhecimento prévio sobre fazer qualquer análise de dados. O objetivo do vidro é obter um ambiente de trabalho configurado para que você tenha
caderno Júpiter em panders e você será capaz de analisar seus próprios dados. Defina seus próprios dados. A capacidade de analisar dados para transformar dados de rolagem em informações é uma habilidade muito valiosa para se ter nos dias de hoje. Muitos empregadores valorizariam alguém com essas habilidades em sua equipe, então espero que você possa acompanhar durante a aula. Com isso, você será capaz de criar seu próprio projeto em sua própria análise no final da aula
2. Visão geral do curso: Ok. Esta classe tem quatro partes masculinas após a introdução. A primeira parte é obter um conjunto de dados para trabalhar. Nesse vídeo, mostrarei diferentes lugares onde você pode baixar seu próprio conjunto de dados para trabalhar. Eles são todos open source em seu antigo livre para trabalhar com o número dois, então é instalar Anaconda. A distribuição Anaconda inclui muitos pacotes com mais de 100 pacotes. Inclui os pandas no caderno de Júpiter, ambos os quais precisaremos para este curso. Então Número três é apenas abrir a viagem ou notebook e prepare-se para fazer alguns dados Análise no último é realmente começar a fazer alguns com. Fez análise do objetivo no final das classes para ter um ambiente de trabalho, você pode analisar conjuntos de dados usando pandas. Caderno empreendedor. Então, o que são pandas? É uma biblioteca de software escrita para a linguagem de programação Python para manipulação
e análise de dados No notebook dribbler é um aplicativo Web de código aberto como criar e compartilhar documentos que contêm visualizações de equações de código de vida em muitos outras coisas. Você pode usá-lo para isso. Uma transformação de limpeza, visualização de
dados, etc
3. Como trabalhar com com com alguns dados: OK, já que este é um curso muito
prático, solha prática. Sugiro que sigam o máximo que puderem com a turma. Para fazer isso, você precisará encontrar um conjunto de dados. Você quer trabalhar com ele realmente não importa qual é o déficit, desde que seja algo em que você está interessado. Há muitos lugares que você pode encontrá-lo um conjuntos estes dias. Governos, por exemplo, é um beijo. Então aqui temos o portal de dados aberto. Você também tem portais de dados do governo
canadense
, portais canadense dados do governo dos EUA. Escolha um tópico no qual você esteja interessado. Gwynn, Exemplo, etc
Educação. Encontre um conjunto de dados que você esteja interessado em baixado. Isso é tudo que você tem que fazer para começar. Uma vez que você tenha seu conjunto de dados e a próxima seção, vamos olhar para Harvick Naxi ativos carregados em um ambiente de trabalho e começar a fazer algumas análises feitas
4. instalar anaconda: Certo, então uma vez foi escolhido um conjunto de dados com o qual queremos trabalhar. A próxima coisa que queremos baixar isso e, em seguida, encontrar algum lugar em nosso computador, que enfraquecer armazená-lo. Então eu guardo todos os meus na minha unidade D. Isto é uma máquina de janelas. Criei uma pasta no diretório Cold. Fez análise dentro que eu tenho muitos mais diretórios. Dinheiro, mais pastas. Cada um deles é para um déficit específico. Então temos uns na armadura. Se fez um conjunto Brexit Bitcoin muitos outros. Eu aconselho fazer isso para que tudo seja mantido separado em vez de tudo estar em um diretório, que poderia ficar muito confuso uma vez que você começa a ter muitos conjuntos de dados e muitos
notebooks Júpiter e outras coisas armazenadas lá. Ok, então à noite nós configuramos nosso conjunto de dados. A próxima coisa que precisamos fazer é criar um ambiente de trabalho para que possamos realmente fazer alguma análise. Eu recomendo uma camisinha,
que é uma coleção de píton. Eu recomendo uma camisinha, Fez análise? Fez pacotes de ciência? Inclui análise morta em uma rede neural de aprendizado de máquina. Esse tipo de coisa. Há cerca de 100 pacotes incluídos nesta distribuição anaconda. Hum, e você pode obtê-lo em computadores Windows. Mac em sistemas operacionais UNIX. Além
disso, é o que você vai em um condomínio ponto com. Hum, clique no botão baixar classificar. Ele percebe que eu estou em um computador Windows, mas se você estiver em um Mac ou no próximo ano, ele vai funcionar tão bem. Então
você tem que escolher qual versão do Paice e você quer usar. Você pode usar Pace e três ou Peyton, para o meu conselho seria usar o python. Três. Não sei o que é esta versão. A razão é que o paciente para bem, se você vai para python dot org olhar, você vê que eles são python pôr do sol, também, que é outra maneira de dizer python dois essencialmente mortos. Você pode continuar a usar o place em se quiser, mas ele não é mais suportado, pelo
menos não é suportado oficialmente. Então isso significa que se houver algum problema,
há quaisquer problemas de segurança com o ritmo para eles não serão corrigidos no futuro. Uh, isso entrou em vigor geralmente no 1º 2020 Então, como eu digo, eu recomendo começar com o Python 3. Então, uma vez que você baixar Python três. Você deveria ter um ambiente de trabalho. Você está em um computador Windows e vá para o menu Iniciar. Vamos ver. Há um. De acordo com três. Expanda isso. Há o Navegador Anaconda, e este é um bom lugar para começar. Quando você está apenas começando, clicamos no navegador. Abra isso. Você verá que há vários aplicativos diferentes disponíveis. Aplicativos exatos que você criou exatamente o mesmo que estes podem ser organizados em uma ordem
diferente, mas o que realmente nos interessa é o caderno Júpiter. Então, quando você clica no lançamento para o trabalho Jupiter notebook, ele vai abrir em qualquer que seja o seu navegador padrão. Eu não sei sobre algo assim,
uh, uh, o diretório masculino que ele disse para você. Lembre-se, eu tinha todos esses diretórios diferentes para meus diferentes DigiCents. Então esse garoto vai começar a olhar para o conjunto de dados que eu escolhi a armadura. Se disse, Se entrarmos em que por aqui, você verá que há novo com um que podemos expandir isso. Diz Caderno, Python três. Se você instalou o paciente, vai dizer ritmo em dois anos. Então eu cliquei em que nós vamos comprar um novo caderno de Júpiter, e isso é o que parece. Então, se você chegou até aqui, você tem Ah, novo caderno de Júpiter aberto. Bem feito. Esse é o primeiro grande passo para ser capaz de analisar. Fez um usando pandas no caderno de Júpiter?
5. abrir Jupyter Notebook: Ok, então se você tem seguido junto e você não deveria, você é Jupiter notebook configurado. Um conjunto
de dados? Não. Deve estar no mesmo diretório. É mais fácil trabalhar com ele. Então, não, vamos começar. A primeira coisa que temos que fazer é importar pandas. Estamos trabalhando e Python. É o mesmo que qualquer outra chave de programa python. O que é importante na biblioteca que nos interessa é a Biblioteca de pandas. Vamos ter que fazer referência a essa biblioteca várias vezes. Então, ao invés de digitar pandas cada vez que poderíamos estar Lizzie, basta dar um novo nome e ele é o nome deles. Vamos chamá-lo de P.
D. D. Ok, podemos comandar isto. Então você tem uma estrela visual. Esperemos que isso vire para um número em breve. Sim. Ok, então é pandas carregados com sucesso. Uh, se houve um problema, você receberá algum tipo de mensagem de erro. Então você tem que tentar descobrir o que está acontecendo de errado. Há muitos e muitos fóruns disponíveis onde as pessoas podem tentar responder às suas perguntas. Ou você pode procurar problemas semelhantes que outras pessoas tiveram. Que soluções eu sou Eles inventaram. Mas espero que tudo dê certo. Importe com êxito a biblioteca pandas. Não podemos importar o que fizemos. Então nós vamos importar os dados para uma coisa chamada Afrim fez isso por ele. É apenas uma estrutura de dados dentro pandas com os dados são armazenados e você pode pensar nisso como uma planilha bidimensional. Planilha do Excel. Ele subiu em colunas. Então vamos chamar nossos dados para ele apenas DF novamente. É Caesar tipo DF e digitando dados de cada vez. Mas podes chamar-lhe o que quiseres, esta ideia de iguais. Agora vamos ligar para a Biblioteca Panis. Então, PD em dentro da biblioteca pandas, há uma função de leitura fria. Veja, SV, nosso fez isso está em um arquivo CSE. Vamos usar a função ler ver SV para obter esses dados em mim para chamar a função usando notação de
ponto para p d ponto ler CSTV sublinhado a partir dos colchetes. Precisamos dizer o nome fora do arquivo que queríamos ir buscar no arquivo que eu tenho é chamado se ponto CSP se você está feito um arquivo, seu conjunto de dados não está no mesmo diretório que seu caderno de Júpiter. Você vai ter que dar a ele o caminho completo do diretório para que ele possa ir e encontrá-lo. Se você não fizer
isso, ele só voltará com uma mensagem de erro dizendo que não foi possível encontrar o arquivo está faltando ou algo assim. Bom. Ok, então nós rodamos isso de novo, você vê, ele muda para um número. Então Ron corretamente, podemos apenas verificar se eu estava fazendo uma impressão, então imprimir colchetes abertos DF. Agora, se executarmos isso, ele retornará todas as linhas. Andi, isso vai ocupar muito da tela porque há milhares de rosas, ou pelo menos centenas de rosas de qualquer maneira. Então podemos olhar para o topo. Shiro usando outra função desta vez chamado cabeça. Abra os colchetes. Se colocarmos um número lá, ele vai trazer de volta esse número de linhas o padrão se você apenas deixá-lo em branco. O padrão é, eu acho, cinco linhas. Então tentamos executar isso. Sim. Então traz de volta cinco filas. Esta coluna de números não é realmente parte do seu aceitou. Isto é um índice. Os outros dá os dados, amigo para que a primeira regra zero segundo subiu 1234 Este índice poderia ser usado, em seguida, para pegar um determinado papel ou um grupo de rosa que você quer analisar mais tarde. Então é uma coisa útil para se ter. Temos sete colunas neste ano deficitário. A temperatura máxima do mês nesse mês, a temperatura mínima o número de dias naquele mês que teve em sua geada o total reforçou esse mês em milímetros sobre a luz solar total medida no nosso para aquele mês . Você vê, o estado de remonta a janeiro 1940 Você também pode olhar para a parte inferior do
conjunto de dados , se você quiser. É basicamente o CME. Chame-me assim em vez de cabeça. Hum, a função é chamada de cerco e novamente você pode colocar um número aqui. Se não fizer
isso, trará cinco filas novamente. Então, se corrermos que você vê-lo,
isso é até o ano 2015 cm Idéia mês temperaturas aceitas. Ok, então não com sucesso importado ou feito A É em uma coisa chamada fez Afrim, que é esta estrutura de dados bidimensional dentro de pandas. Não estamos numa posição. Podemos começar a analisar os dados
6. Analise os dados: Ok. Na última seção, importamos nossos dados para nossos dados, amigo. Nós apenas verificar se tudo tinha carregado corretamente, usando a cabeça na cauda funções parecia que tudo tinha carregado corretamente. Então agora estamos em posição de realmente começar a fazer algumas análises de dados. Então eu me dei quatro tarefas ou quatro perguntas que eu vou tentar responder. Quando você está fazendo seu próprio projeto, você pode escolher suas muitas tarefas. Problema como o número um. Eu vou tentar encontrar o que foi o perdido na temperatura mais alta registrada neste conjunto de
dados em Quando fez acres ou o que foi o mês do ano? Número dois. Qual é a quantidade de luz solar? Muito durante o ano. Análise presente Como um gráfico, vamos tentar e fazer. Alguns fizeram uma ização visual em vez de apenas pegar números fora do conjunto de dados. número três tem o número de geada de ar por ano alterado novamente. Presente-nos é um gráfico um número quatro. Existe alguma correlação entre os diferentes valores e o déficit em? Vou tentar apresentar isto graficamente também. Ok, então a primeira tarefa é obter as temperaturas mais baixas no déficit. Então eu tenho duas variáveis. A Lois. Temp mais alta tentadora. E eu vou tentar obter valores e colocá-los nessas variáveis. Então dizemos que Lewis temperatura é igual a D F. Ou fez um amigo original fez dele e colchetes citações equipe fechou os tribunais, roupas colchetes do é notação de pontos novamente na função de seus homens. Então esta função apenas obtém o valor mínimo nesta coluna particular. Então estamos usando os colchetes. As citações no nome para especificar qual coluna dentro do amigo de dados que estamos
interessados . Você vai se lembrar que havia sete colunas neste diferente. Só estamos interessados na temperatura mínima. Tenha cuidado com colchetes na corrida. Será que funções de colchetes geralmente tomar uma corrida de colchetes. Se confundir, você receberá mensagens de erro loucas. Ok, então nós rodamos este aqui e então nós podemos imprimir a filha também. Valores. Então você vê, menos 3,8 Celsius foi a temperatura mais baixa neste conjunto de dados em 23 pontos. Foi a temperatura mais alta no déficit. Não queremos também saber quando estes ocorreram e podemos pegar as duas regras fora dos dados disse. Mas se a dívida de para ele e que nos dará o mês do ano em que as temperaturas ocorreram. Então, para fazer isso, você vai se lembrar que eu disse que esses números no lado esquerdo eram índices. Então comer o que um quadro dá a cada linha seu próprio identificador exclusivo. É o que vamos tentar encontrar. Não. Então, novamente, duas variáveis. Estamos dizendo a ele para olhar para a temperatura mínima nos dados a partir da
temperatura máxima fez isso para ele. Essas duas colunas, eu vou usar uma função I d x homens e I D X max. Então este é o índice fora do valor mínimo no índice do valor máximo. Então, uma vez que executamos essas duas variáveis contenderão números como quatro ou 11 ou qualquer número que a regra era. Então você faz isso agora sendo imprimir esses dois números, ok? Assim, podemos ver que nossa temperatura mínima está em rosa 754 em nossas temperaturas máximas e linha 497. Então agora todos para realmente pegar esses dois euros estavam usando uma função chamada olhar ou localização Quando você está passando o índice para a localização, o índice tem que estar dentro de colchetes, e então isso tem que estar dentro de colchetes. Então, é
claro, a função de impressão leva os suportes Rhonda. Nós comandamos este. Ok, então você pode ver em dezembro de 2010 foi nossa temperatura mínima correr no próximo. Então julho de 1989 foi nossa temperatura mais alta. Ok, então a próxima tarefa foi Hodges, a quantidade de luz solar, muito durante o ano. Então eu vou olhar para ele por mês, e eu vou calcular a média ou o número principal de nosso sol para janeiro para fevereiro,
para março e assim por diante e então traçar isso em um gráfico. Então, para fazer isso, eu vou criar um novo dado a partir do qual um subconjunto de nossos homens fez isso por ele. Vou usar um grupo por função porque preciso agrupar todos os
resultados de janeiro . Todo o mês de fevereiro é um pouco dos resultados de março, e assim por diante. Estou olhando para esta coluna em particular, as horas de sol e novamente, estou chamando função Ming. Então, vai acoplar. A média média para este resfriado para cada mês. Ok, então ele dirige este aqui em um par de linhas. É só para definir o tamanho do barco. Isso me permite imprimir arte. O gráfico dentro caderno contribuidor sobre ele também me reside para definir o tamanho. Os valores padrão não são muito grandes dentro do bloco de notas colaborador em É difícil ler os anos. Outros números. Então isso só faz com que seja um pouco maior, um pouco mais fácil de ler. Certo, então aplaudimos. 1º 1 que seria, mas é um gráfico de barras. Ok, então podemos ver o início daqui janeiro fevereiro. Não há muito sol. Quando chegares a Maio e June,
há mais. Quando chegares a Maio e June, Ananta começa a seguir no final do ano novamente. A coisa tão interessante neste é que a quantidade máxima de sol parece ser maio, mas o dia mais longo é em junho. Então, há algo interessante acontecendo lá. Você está trabalhando com os dados. Pode haver várias possibilidades. Os dados em si podem estar corrompidos de alguma forma. Pode estar incorreto. O código pode estar correto. Não acho que esta citação seja outra possibilidade. Você teria que verificar, em seguida, outra possibilidade é apenas que há algo interessante acontecendo. Esperaríamos que a quantidade de luz do dia com as horas da luz do dia fosse maior em junho. Mas isso é olhar para a luz do sol a quantidade de sol que não é exatamente assim. Pode ser apenas o Junho uma carga, os dias ou mais. Talvez haja mais Clyde em junho em geral, em maio vezes tende a ser alguns aqui, uma ondulação como gráficos de barras. Você tem outras escolhas. Nós comuns sujeira, esta linha e no comentário. Esta execução este assed produz apenas a função de plotagem apenas lhe dá um gráfico de linha em que você pode mudar a cor. Então você pode colocar a primeira letra de algumas das cores masculinas como o nosso é vermelho ou laranja
G é verde. Então você pode colocar a primeira letra de algumas das cores masculinas como o nosso é vermelho ou laranja Então, neste, eu também mudei a transparência. Woods fez o vermelho mais de uma cor rosa salmão rosa. Então, novamente, você pode variar isso de zero a um. Ok, então essa é a nossa segunda pergunta respondida. O próximo foi, Tem o número de geadas de ar por ano mudou novamente. Presente. Isto é um gráfico. Estamos fazendo algo muito parecido. Estamos usando um grupo por função. Desta vez estamos nos agrupando por ano. Estamos olhando para o número de um número de dias que tiveram uma geada de ar onde totalizando
ou resumindo esses dias. Ok, se rodarmos este e depois verificarmos a impressão. Ok. Temos um ano sobre o número de ar para nós por ano. Execute esta outra vez. É apenas certificar-se de que o tamanho do gráfico é legível. Nunca terminei. Eu ficaria bem, então você pode ver que há um monte de variação de maio ser 20 até mais de 80 dias com seu para nós, não parece
haver qualquer padrão forte. Mas novamente, você poderia ser mais investigação mais aprofundada análise para ver se há ou não alguma variação ao longo do tempo se há alguma tendência em seus dados. Ok, então isso é difícil. Terceira pergunta. Terceira vez é a última. Vamos procurar por quaisquer correlações entre os diferentes valores, as diferentes colunas no déficit. Então rode este código, está bem? Diz que o código produz este olhar psicodélico fez uma visualização. Então isso é correlações. Então nós temos nossas sete colunas, meses de
ano, temperaturas e assim por diante ao longo de cima para baixo do lado, e cada um desses quadrados é a correlação entre as colunas. Então, do canto superior esquerdo do canto inferior direito, você vai obter a correlação máxima. Bem, amarelos, porque o ano, obviamente, Carly, é com o ano, o mês com o mês e assim por diante. São essas outras praças que estamos interessados para que você possa ver que o ano não é realmente corais vivendo com nada. Mas se você olhar para meses, há alguma correlação com a temperatura máxima, temperatura mínima, geadas de
ar e, em seguida, se olharmos para as próprias temperaturas, há muito forte positivo correlação entre T. Max na equipe e também entre equipe e Team Max. Há também uma forte correlação negativa entre T. Max no número de dias que não têm ar primeiro. Então, em outras palavras, como a temperatura, o Team Max aumenta o número de dias que têm uma força aérea diminui, que é o que esperamos, e vice-versus assim como o número de dias com um ar geada aumenta, a temperatura máxima diminuirá. Portanto, esse tipo de visualização é muito bom para procurar correlações dentro de seus dados. Se você tivesse negócios, se, por exemplo, pode ser que, hum, alguns dados sobre seus clientes estão correlacionando com outros dados, que pode ser que ninguém jamais tenha percebido dentro de sua empresa. Quem poderia ser uma maneira útil de descobrir essas coisas?
7. cheatsheet e função de ajuda: então você vai se lembrar que uma das primeiras coisas que fizemos foi ler dados de um CSP
cair em,
ah, ah, dados para ele usando esta função, ler CSP se você sabe o nome da função, mas você não tem certeza do que todos os parâmetros possíveis são, há uma função útil que você pode usar no Jupiter Notebook. É esta ajuda. Então você ajudou a abrir os parênteses. P d ponto reid CSP colchetes. Nesta função, eu lhe daria muita informação própria, leia CSE ou qualquer função que você está tentando descobrir sobre, incluindo todos os parâmetros que você pode passar em algumas notas e o que ele faz para esta leitura CSC vírgula arquivos separados em um fez para ele mais informações do que todos os parâmetros, incluindo o que você pode passar em exemplos, etc. Então é uma função muito útil que tem, claro, se você não sabe o nome de uma função, hum, isso é um problema diferente. Eu sugeriria obter uma folha de fraude pandas em seus lotes desses. Um exemplo está aqui neste site de carga. Então essa folha de trapaça tem, hum, coisas como se livrar da rosa duplicada. Verificando se há rosa desaparecida ou dados perdidos dentro de Rose e assim por diante. Então este é um lugar útil para começar. E há muitos não apenas um gado, mas muitos outros sites têm esses pandas folhas de fraude . Este website toggle também é uma boa fonte de conjuntos de dados, então eles têm competições. Mas eles também têm Martin. Muitos conjuntos de dados novamente. Estes são de código aberto e você pode baixá-los e trabalhar com eles para morrer. Descarregue-os embora seja necessário abrir uma conta. Andi, faz muito tempo que não abri meu conforto. Pelo que me lembro, você precisa de um endereço de e-mail válido, mas você também tem que dar o seu número de celular e eles vão te enviar por
mensagem de texto , um PIN que você tem que colocar dentro Eu acho que você só tem que fazer isso na primeira vez. Que você abra sua conta é apenas para verificar seu tipo. Mas se você estiver feliz o suficiente para fazer isso, existem centenas e centenas de conjuntos de dados possíveis sobre todos os tipos de tópicos.