Transcrições
1. Introdução à ciência de dados: Pessoal, é o Max. E bem-vindos ao meu curso sobre o essencial da ciência de dados. Agora, a primeira coisa que vamos fazer aqui é dar uma breve, pequena introdução à ciência de dados para que entendamos o que é um cientista de dados, e então vamos cobrir todas as três grandes áreas essenciais que você precisa ser um cientistas de dados bem-sucedidos. Certo, então o que é ciência de dados? Bem, ciência de
dados é uma espécie de resumir isso de maneiras diferentes, mas as principais partes dela são transformar dados em informação. E este é realmente um grande passo porque muitas pessoas falam sobre, você sabe, dados e Big Date e todas essas coisas. Mas os dados por si só não são realmente tão úteis até que você possa transformá-los em informação. E então se você tem um monte de números aparecendo em algum lugar e é apenas, você sabe muito disso, ninguém pode entender isso. E é aí que você precisa de um cientista de dados para ser capaz de transformar toda essa imprecisão e tipo de ruído para que está acontecendo, e você precisa ser capaz de extrair informações a partir dele. E isso é o que um cientista de dados faz. Agora, o que você faz com esta informação ou como você obtém essa informação, é através da análise de seus dados. Então, uma grande parte disso seria, você sabe, limpar as coisas, fazer alguns processos nele. E então você analisa uma vez que você limpe as coisas um pouco, e essa é uma das maneiras que você pode então obter informações de seus dados. Através desta análise,
e você pode tipo de continuar e você vê tendências e padrões e todos os tipos de
correlações,
espero,
em todas essas coisas novamente se transformar em dados em Através desta análise, e você pode tipo de continuar e você vê tendências e padrões e todos os tipos de correlações, espero, componente de informação. , E,em última análise, você também precisa contextualizar tudo o que você tem, seu computador não possa fazer isso por você. computador pode meio que cronometrar os números e outras coisas, mas é sua responsabilidade também fazer sentido, o que está na sua frente. E mesmo que você veja algo, você não confia cegamente. Mas você precisa entender, sabe? Onde eu estou? De onde estou vindo? De onde vêm esses dados? Precisa ser capaz de contextualizar essas coisas e, em seguida, é
claro, ser capaz de aplicar, bem como compreendê-las. Assim, uma vez que você tem esses dados, você sabe que eles são ótimos. Mas transformá-lo em uma informação em ótimas informações que você pode usar e
aplicar diretamente . É aí que está o poder do Rial. E esse também é o papel de um cientista de dados. Então é isso que os dados, isso é o que os sinais de dados praticamente são. E então o que os cientistas de dados fazem? Bem, nós meio que já conversamos sobre isso um pouco, mas vamos repassar de novo. Mais alguns exemplos concretos? E assim um cientista de dados,
por exemplo,
obteria por exemplo, e processaria esses dados brutos e então convertido em algo um pouco claro. Então você pode imaginar como um fluxo de dados chegando. E é que você tem este dispositivo de medição e constantemente está apenas medindo todos os tipos
de dados e porque, como se nada fosse realmente Constance, tudo vai flutuar. Eu estive em baixo, e então uma data atribuída a isso seria o chefe de pegar todos esses dados. É esse tipo de limpar um pouco,
sabe, sabe, talvez reduziu essa flutuação que você sabe que não deveria estar lá. Isso é apenas um tipo de material de fundo acontecendo e, em seguida, colocá-lo em um formato para que você pode facilmente ploted contra algumas coisas em. E então nós já chegamos ao próximo ponto que,
você sabe, você sabe, uma vez que o estado está mais limpo, você pode talvez começar a fazer alguns cálculos sobre eles descobrindo os principais
componentes estatísticos , você sabe, como, quais são os valores médios destes? O que? Com o que realmente estou lidando, você sabe, tendo uma primeira olhada na primeira compreensão do que realmente é que você está enfrentando. E então, uma vez que você tem esse tipo de compreensão de que você pode começar a fazer algumas visualizações que o ajudaram como um cientista de dados, talvez veja algumas tendências ou padrões já. Mas a visualização também é realmente fundamental porque eles permitem que você a mostre a outras pessoas, e eles são um ótimo meio de comunicação. Então, eles nos ajudam a um cientista de dados, bem como a ajudar outros. Quando você tenta transmitir essa informação para eles, tudo bem, e finalmente, você tem que sugerir algumas aplicações da informação, então não é realmente suficiente apenas ser capaz de olhar para ela e dizer, Tipo, sim, vejo que vai para cima e para baixo e isso é bom, mas o que isso significa? Como isso se transfere para algo útil? E essa também é uma das principais funções de um cientista de dados transferindo informações para conhecimento. E assim você tem esses dados em etapa de informação. Mas você também precisa transferir essa informação para o conhecimento e para o ar para coisas realmente poderosas que valem muito, muito. E isso é basicamente o que um cientista de dados se concentra e então você pode ir mais longe e, você sabe, pegar esses dados e fazer aprendizado de máquina com eles ou algo assim. Se você realmente entende o que está acontecendo ou se você tem alguma hipótese de, você sabe o que pode acontecer para que você possa levar as coisas muito mais longe. Mas, em última análise, esse tipo de transformar dados em informações e, em seguida, em conhecimento ,
esse é o seu papel ,
tudo bem, então vamos para as técnicas essenciais ou os componentes essenciais da ciência de dados. Então o primeiro componente essencial e nós meio que tocamos neles. Isso já é estatística, e basicamente vamos cobrir isso mais tarde. Mas vamos apenas dar um tipo de embrulho rápido. Assim, em estatísticas precisa entender diferentes tipos de dados que você pode encontrar. E então há dia em que eu posso vir de maneiras diferentes, e vamos entrar novamente em mais detalhes com isso mais tarde. Mas não é só, você sabe, você tem um monte de números data, eu posso vir e de muitas maneiras diferentes, dependendo do campo em que você está. E então você precisa estar preparado e você precisa tipo de estar ciente de que os dados podem nem sempre ser
apenas um número direto para você. E então, é
claro, você precisa entender alguns termos estatísticos chave como você sabe, os diferentes tipos de meios e também compreensão, flutuações e dados. E a razão pela qual isso é importante é porque esses termos estatísticos chave fornecem uma visão geral de como esses dados estão se comportando. E dependendo de como os dados estão se comportando, você pode querer abordá-los de forma diferente. Então, se você sabe que seus dados são muito limpos, há muito pouca flutuação. Então, se você visualizar as coisas, você provavelmente pode confiar no que está acontecendo ou, se você quiser talvez ajustar algumas curvas para ele ou algo assim Mas se você ver que há muita flutuação em seus dados visualizando isso vai ser muito mais difícil porque você só vê saltos em todos os lugares e você não tem certeza de qual disso é realmente verdade. E qual disso é causado por, você sabe, alguma interferência em algum lugar ou alguém está mexido com meu sistema. E assim todas essas coisas serão insinuadas para você através de termos estatísticos. Então, provavelmente é bom que, você sabe, você está meio confortável com essas coisas e que você pode ser capaz de obter algum
significado delas. Tudo bem, em, então,
finalmente, ser e estatísticas para ser capaz de, você sabe, dividir em grupos ou segmentar pontos de dados para que quando você tem este conjunto de grandes dados, você quer ser capaz de, você sabe, talvez dividi-lo em coisas menores, comparar diferentes regiões, olhar mais em detalhes em algumas coisas e talvez, você sabe, isolar dois componentes porque, Sabe, Sabe, essas coisas provavelmente vão ser importantes. O resto eu realmente não me importo muito com isso. Então ser capaz de identificar e isolar e metal com os dados um pouco. Então estes são o tipo de componentes estatísticos que vamos analisar. Certo, então a próxima grande coisa e já conversamos sobre isso é a visualização de dados. Andi, vamos ver por que a visualização de dados é uma habilidade fundamental para os cientistas de dados. E então também vamos estar cobrindo diferentes tipos de grama que você pode usar e como você pode comparar diferentes números de variáveis. Então, por exemplo, você pode ter uma grama variável onde você só olha para uma coisa e você só quer
olhar para isso, e você quer ver como isso muda. Você tem seu típico para galo variável, que você provavelmente sabe onde você tem este eixo X e Y. E então você pode tipo de ver como duas variáveis se relacionam entre si, onde você pode ter três variáveis ou até mesmo gráficos de variáveis mais altos, e onde você plotar talvez três coisas diferentes ou até mais se você quiser, desde que ele faça sentido ao lado do outro, que você possa comparar várias coisas ao mesmo tempo, tudo bem. E agora chegamos à outra grande coisa que você provavelmente vai precisar como cientista de dados , que será a capacidade de programar agora, nem todos os cientistas de dados podem fazer isso, mas isso é realmente, realmente essencial, na minha opinião, para o seu papel como cientista de dados, porque saber como o programa vai tornar sua vida muito mais fácil se você sabe como
programar você pode tipo de tomar suas idéias e seus pensamentos, e você pode colocá-los em ações no computador. E você pode simplesmente automatizar tudo o que você pode personalizar coisas que você pode explorar, você pode protótipo, você contestar, e você não está dependente de algum, você sabe, aplicativo. Você não tem que dominar algum aplicativo. E se não funcionar, se um recurso não estiver lá, você terá que entrar em contato com o suporte ao cliente. E talvez nem seja possível. E então você tem que esperar por uma atualização. Ou talvez algo esteja grampeado com programação. É que você é muito mais dependente de si mesmo, e você pode realmente fazer o que você quer fazer. E você não depende de outras pessoas ou das ferramentas que outras pessoas construíram para você . Mas, em vez disso, você pode simplesmente ir e você sabe, apenas fazer o que você quer fazer sem que haja grandes bloqueios de estrada andan. Nós também olharemos para alguns pacotes essenciais e python. Então, na programação, você nunca quer reinventar a roda. Você sempre quer começar com a última pessoa deixada de fora, e assim a capacidade de programar e ser capaz de escrever programas simples você teria que
ensinar a si mesmo. Mas você não precisaria corrigir pacotes matemáticos altamente complexos ou pacotes de análise de
dados . Esses já estão lá fora. Tudo que você precisa fazer é ser capaz de baixá-los e implementá-los em seu casaco, e eles vão funcionar. Você sabe, eles foram testados muito. Há uma enorme comunidade trabalhando nelas para melhorá-las e tudo mais. Tudo isso é para a comunidade, e assim toda a comunidade meio que trabalha em conjunto para melhorá-la. Ninguém está realmente tentando fazer muito dinheiro com isso, então eles não vão cobrar todas essas taxas de serviço e tudo mais. Todo mundo está apenas tentando melhorar seu pacote porque se ele melhorar, todos também se beneficiam dele. E então vamos olhar para alguns dos da biblioteca. Vamos falar sobre algumas bibliotecas que você pode usar,
especialmente em python, especialmente em python, e para ajudá-lo ao longo do seu caminho com a análise de dados e para se tornar um cientista de dados bem-sucedido .
2. Tipos de dados estatísticos: Ei pessoal, é o Max e bem-vindos de volta. Então, neste capítulo vamos falar sobre tipos de dados estatísticos. Agora vamos olhar para os três tipos diferentes de dados, que são resumidos como tipos numéricos, categóricos e ordinais de dados. Agora, estes são os tipos de dados que falamos antes. Como você não pode simplesmente esperar que seus dados sejam meio numéricos. E então veremos dados numéricos, mas também veremos os dois outros tipos de dados que você pode estar encontrando em sua carreira como cientista de dados. Certo, então vamos falar sobre dados numéricos primeiro. Os dados numéricos também são conhecidos como dados quantitativos. E são basicamente coisas que você pode meio que medi-lo. É ótimo. Coisas numéricas com as quais você pode fazer matemática. Você pode comparar, você sabe, dizer isso mais isso faz sentido. A é maior que b. Estes são todos exemplos de dados numéricos. Dados numéricos podemos dividir em dois segmentos diferentes? Um deles vai ser discreto. E tão discreto significa que os valores só assumem números distintos. E um exemplo disso seria, você sabe, QI ou algo assim e medição de QI. Ou se você fizer um lance de moeda, o número de vezes que você joga cabeças. Então você pode, você sabe, você pode ter 15 cabeças, você pode ter 12 cabeças de 20 lances de moedas. Você pode ter 500 cabeças de 1000 lances de moedas ou 500 de 600, ou todas essas coisas. Mas todos esses são números distintos e agora eles não precisam ser inteiros especificamente, mas eles têm que ser distintos. Então esse é o tipo de parte muito importante que, você sabe, há um tipo de tamanho de passo que você está lidando com. E claro, você ainda pode dizer, hey, você sabe, oito cabeças de 20 é melhor do que mexer sete cabeças de 20 se você quiser virar cabeças, seja, estamos lançando oito de 20 é pior do que virar 7 de 20 se você estiver indo para tantos detalhes como você pode. Então todos esses tipos de comparações que fazem sentido. Então essa é a parte discreta dos dados numéricos. Então temos a parte contínua. E agora a parte contínua é realmente que os valores podem simplesmente
assumir qualquer número e eles não estão limitados por casa decimal. Então, um valor que pode Nino pode ser como 1.1 e, em seguida, o próximo valor seria 1,2. Isso não é contínuo. Isso ainda é discreto porque você tem esse tamanho de passo de 0,1. Contínuo significa literalmente que todos os números do início ao fim podem ser assumidos. E isso não significa que cada número possível no universo do infinito negativo ao infinito mais infinito e todos os números imaginários e tudo o que vem com ele que não, que não é necessário para contínuo. Poderia realmente ser que apenas todos os números entre 01 assumiram. Então, por exemplo, digamos que você tenha uma garrafa de água, e esta garrafa de água pode conter um litro. Agora, se você encher sua garrafa e ela começar vazia e você enchê-lo todo o caminho até o topo. A quantidade de água que você teve que tomar em cada número único entre 01 porque você não pode simplesmente encher água, você sabe, e tipo de pequenos incrementos de digamos, hey, eu vou colocar em 0,2 litros cada tempo porque a água não se teletransporta apenas de A para B. Mas quando você está derramando água, é mais como nós vemos no riacho aqui. E o nível da água sobe, sobe e sobe. E assim a quantidade de água que temos em nosso copo precisa assumir cada valor entre 01. Então isso é um exemplo de dados contínuos para, mas você vê que podemos ser limitados a 0 e estar entre 01, não
temos que começar em 0 e ir até o infinito ou algo assim. Mas é só que o alcance que estamos olhando, cada número pode ser aplicado ou cada número pode acontecer. Outro bom exemplo seria a velocidade de um carro. Se você começar, você sabe, você está parado, você está estudando e você está estudando em um semáforo. E então você quer acelerar no limite de velocidade é dizer, você sabe, 80 milhas por hora ou algo assim. Para chegar a 80 km/h a partir da sua posição inicial, o seu carro tem de assumir todas as velocidades entre si. E é claro que você quer ver que, você sabe, em seu velocímetro ele diria algo como 0 milhas por hora, uma milha por hora, você sabe, talvez você possa entrar como se estivesse indo 0.10.20.3 ou algo assim. Então pode parecer discreto para você, mas não é assim que seu carro está indo. Seu carro não diz como, oh, eu estou indo para ir no tamanho de passos de velocidade, ele vai acelerar e vai tomar em cada valor a partir de 0, indo até 80 milhas por hora. E você vai, quando você está nesta transição, você vai assumir cada um desses valores de velocidade. Então é assim que os dados contínuos parecem. E é importante entender a diferença entre este discreto e contínuo. Só porque você pode querer abordá-lo de forma diferente. Agora, é claro, se estamos lidando com computadores, são computadores não podem lidar com número infinito como nas casas decimais. Temos que cortá-lo em algum lugar. E assim geralmente os dados contínuos serão arredondados em algum momento. Mas ainda é importante para você saber que você está lidando com dados
contínuos aqui em vez de discretos, modo que você sabe, hey, ainda pode haver outras coisas no meio. Aqui estão todas essas coisas em vez de, você sabe, ter tamanhos específicos de passo e tudo que você vê é apenas um monte de linhas. Em cada tamanho de passo. Mas você pode esperar que quando você tem dados
contínuos que tudo é apenas uma espécie de
preenchido , preenchido, tudo pode, e feito até mesmo bem estar entre certos lugares. Então essa é a coisa mais importante a ser observada entre discreto e contínuo. Certo, então o próximo tipo de dados que teremos é categórico. Agora, dados categóricos realmente não têm um significado matemático, e você também pode saber que são dados qualitativos e dados categóricos. Descreve características. Então, um bom exemplo disso seria, por exemplo, gênero. Então aqui, não há significado matemático real para gênero. Claro, você sabe, se você tem dados, você pode dizer que o homem é 0 e a mulher é um. Mas você não pode realmente comparar os dois números mesmo que você atribua números a eles. E você pode apenas fazer isso para que você possa dividi-lo mais tarde. Seu computador pode entender, mas não faz sentido comparar. Você não pode dizer, você sabe, homem
é igual a 0? Bem, você pode dizer que o macho não é igual a fêmea, mas você não pode realmente dizer, é um maior que o outro ou um aproximadamente igual ao outro. Essas coisas não fazem sentido porque não estão bem definidas. O que isso significa? E você também não pode somar. Você não pode dizer masculino, feminino. Mas isso não dá, não te dá uma terceira categoria ou algo assim. Então categorias que você não pode realmente aplicar matemática a elas, mas há maneiras legais de dividir ou agrupar seus dados. E eles fornecem essas belas peças qualitativas de informação que ainda são importantes. É que, você não pode realmente ir tão bem sobre, você sabe, como conspirar com um leão ou algo assim. Portanto, essas são coisas importantes a serem observadas com dados categóricos. E então outro exemplo seria, por exemplo, etnia, ou você também poderia ter nacionalidade. Todas essas coisas são exemplos de tipos categóricos de dados. Sim, e como dissemos, pode atribuir números a eles. Mas isso é realmente apenas para o seu código para que seja fácil dividi-los, mas você ainda não pode realmente compará-los. Como você vai comparar nacionalidades? há realmente nenhuma definição para comparar um tipo de categoria com outro. Tudo bem? E assim o terceiro tipo de dados que você pode encontrar é algo chamado de dados ordinais. Os dados ordinais são uma mistura de dados numéricos e categóricos. E um bom exemplo disso seria a classificação de hotéis. Então você tem classificação de estrelas 001234 ou cinco estrelas, ou talvez até seis estrelas ou o que quer que seja. Qualquer que seja o hotel hoje em dia, mas ainda não é tão fácil de comparar. Tenho certeza que viu dois tipos diferentes de hotéis de três estrelas. Um deles, sabe, tinha os mínimos, as camas estavam bem, mas não era nada especial. E então você tinha esses hotéis três estrelas que você poderia jurar onde pelo menos quatro estrelas. E as classificações de estrelas fazem sentido. Podemos dizer, você sabe, um hotel de quatro estrelas é provavelmente melhor que o hotel de três estrelas porque tem havido padrões. Existem padrões para essas coisas. Eles foram verificados, você sabe, se você for para um hotel 4 estrelas, você sabe o que esperar. Mas ainda assim, não está completamente definido. Então, como voltar a este exemplo de três estrelas, é muito difícil. Basta dizer, hey, nós estamos indo para o hotel três estrelas. É muito difícil saber exatamente o que esperar porque existem diferentes partes de hotéis de três estrelas. Existem hotéis de três estrelas que se desenvolveram para, como ter uma piscina talvez ou algo assim. E então há aqueles hotéis de três estrelas que são realmente mais como albergues ou algo que eu acabei de passar por um lugar de duas estrelas. E assim, é muito mais difícil definir ou simplesmente saber o que esperar. Agora, se você pegar médias da zona de sistemas estelares, então você tem uma idéia muito melhor do que está acontecendo. Então, se você tem opiniões de consumidores ou algo assim e você diz, oh, a partir de 500 avaliações, nosso hotel tem uma classificação média de 3.8. Saiba que o hotel de três estrelas que você está olhando é praticamente um hotel de quatro estrelas. Parece um hotel de quatro estrelas, mesmo que não tenha todas essas características qualificativas, esse é o tipo de sensação que você obtém com ele. Considerando que de outro hotel de três estrelas, você pode ter uma leitura de 2.9 ou algo assim e eles são, você sabe, você sabe, este hotel é mais para a extremidade inferior das três estrelas. Algumas pessoas podem nem considerar que são três estrelas. E, claro, você sabe, esta classificação pode ser um pouco tendenciosa porque eles foram para um hotel diferente três estrelas primeiro, e então eles foram para este e eles estavam esperando algo completamente diferente de um hotel de três estrelas. Então eles disseram que isto não pode ser três estrelas, isto é duas estrelas. Mas é por causa da maneira que o sistema de classificação é encontrar por baixo e tudo mais. E então quando temos essas médias, mas esses números ordinais do que o tipo de começar a fazer um pouco mais de sentido. Certo, então vamos rever um pequeno exercício e ver se conseguimos identificar com que tipo de dados estamos lidando. Então a primeira coisa que veremos será a resposta da pesquisa à felicidade. Agora, você tem pessoas preenchendo uma pesquisa e depois isso, e então uma das perguntas é, como você classificaria sua felicidade e vai ser ruim, neutro, bom ou excelente. Que tipo de dados com este B? Bem, este seria um tipo ordinal de dados porque ainda é uma forma de categorias. E você está pedindo a opinião subjetiva, mas faz sentido. Veja, você ainda pode compará-los. Você pode dizer que excelente é maior que bom, bom é maior que neutro, neutro é maior do que ruim. Mas o que exatamente significa ser bom e excelente? Sabe, onde diferentes pessoas traçam o limite para isso? Que ainda há um pouco de imprecisão envolvida, mas geralmente não faz sentido e você não pode compará-lo. E se você tem um monte de pesquisas e você media-los, os valores que você vai obter provavelmente vai ser muito bem representativo ou pelo menos muito bom representante. Tudo bem? Então, se olharmos para a próxima coisa que vai ser a altura de uma criança. Que tipo de dados são esses? Agora? Não podemos dizer que é provavelmente numérico e bem, na verdade
é definitivamente numérico. Assim, a altura de uma criança é um valor numérico. Mas vamos um pouco mais fundo e dizer, a altura de uma criança
é discreta ou é a altura de uma criança contínua? Bem, mesmo quando você mede a altura, você tem algo como cinco pés e cinco pés três, ou 160 centímetros ou algo assim. Não é um valor discreto porque para obter essa altura, você tem que ter atingido cada altura de quatro. E assim, mesmo que no momento você possa estar medindo, você está meio que arredondando para o quanto sua fita métrica pode medir. Assim como sua fita métrica está limitando a altura. Mas se você tivesse um super, super preciso instrumento de medição, você poderia medir não apenas, você sabe, cinco pés, três ou algo assim. Você poderia realmente entrar em detalhes com as polegadas e as casas decimais lá e tudo o que está acontecendo. Assim, a altura de uma criança seria um tipo de dados numéricos, mas seria contínuo. Certo, agora vamos pensar sobre o peso de um adulto. Você espera que o peso de um adulto seja discreto ou contínuo? Então nós provavelmente podemos concordar que é numérico porque é um valor de peso. É, é praticamente definido para ser um número. O que você espera que seja discreto ou contínuo? Enquanto a resposta certa aqui vai ser contínua novamente, porque para atingir um certo peso, eles teriam que ter atingido cada peso no meio antes. Então, novamente, o peso é algo que podemos considerar contínuo. Tudo bem? E então, finalmente, vamos olhar para o número de moedas em sua carteira. Novamente, já podemos pelo nome, diz o número de moedas. Então, provavelmente podemos concordar que este é um tipo numérico de dados, mas o número de moedas em sua carteira sem ser discreto ou contínuo? Bem, a resposta seria discreta porque realmente não importa. Qual é a sua nota que suas moedas são, elas poderiam ser 57 peças, que poderiam ser 25 centavos, 10 ou cinco ou um, qualquer coisa como um dois ou algo assim. Mas eles não vão ser, mas o número de moedas que você vai ter, vamos resumir um número inteiro. Então você pode ter uma moeda, você pode ter duas, você pode ter três, todas essas coisas, mas você não pode ter frações infinitas de uma moeda. Você não pode ter, digamos, você sabe, a raiz quadrada de 2 números de moedas, isso realmente não faz sentido. Então você tem um tamanho de passo definido, você tem uma moeda. E então se você tem uma segunda moeda que você tem que, porque a terceira quantidade de três, você está indo para tamanhos de passo de um. Então, para o número de moedas em sua carteira, estaríamos tendo dados numéricos discretos.
3. Tipos de Averages: Ei pessoal, é o Max e bem-vindos de volta. Neste tutorial, vamos falar sobre os diferentes tipos de médias. Agora, vamos ver os três tipos diferentes de médias, que é a média, a mediana e o modo. Tudo bem, vamos começar. Então vamos começar com a maldade. Agora, a média é a média típica que você conhece. E realmente o que significa é que você apenas soma todos os seus valores para cima e então você dividi-los pelo número total de valores que você tem. Agora, os grandes prós da maldade é que é muito fácil de entender. Faz sentido. Nós só temos tudo o que temos e nós vamos apenas tipo de mas tudo para cima e então dividi-lo pelo que temos. E isso deve nos dar uma boa representação do que é a média. E também leva em conta todos os dados. Já que estamos adicionando tudo e dividindo pela quantidade de dados que temos, estamos levando em consideração cada ponto de dados. Agora, há alguns problemas com isso. Então, um dos problemas é que a média pode nem sempre ser a melhor descrição. E vamos ver por que quando olharmos para
exemplos para quando devemos usar a mediana e o modo. E a média também é muito fortemente afetada por outliers. Então, uma vez que estamos levando tudo em consideração, sempre que temos grandes outliers, assim realmente vai mudar como nossa média se parece. Então, se tivermos valores normais entre 15 e, de repente, temos uns 10 mil lá dentro. Isso realmente afetará nossa maldade. Assim, a média é fortemente influenciada por outliers. E quanto maior o outlier, mais a média é influenciada por ela. Certo, então vamos ver alguns exemplos da média. Vamos passar por um exemplo trabalhado primeiro e podemos ver nosso conjunto de dados aqui, que é apenas um monte de números. E o que vamos fazer para calcular a média, já que vamos pegar cada um
desses números e vamos somá-los. E podemos ver o resultado total que temos aqui. E então a próxima coisa que vamos fazer é pegar esse resultado total e
vamos contar a quantidade de pontos de dados que temos. E nós vamos dividir um pelo outro, o que então nos dá o nosso valor, como podemos ver aqui. Então esse é um exemplo de cálculo da média, mas vamos ver alguns exemplos de aplicações da média. Então, quando vamos usá-lo? Bem, boa aplicação diria, se você olhar para o tempo que leva para caminhar até o supermercado. Então, às vezes, a caminhada um pouco mais rápida e talvez você leve 20 minutos para chegar lá. Às vezes ele andava um pouco mais devagar. Leva o 25, mas em média leva você algum lugar como 22 ou talvez 22 minutos e meio ou algo assim. Então, se você diz que eu vou ao supermercado, você
gosta que eu vou levar tanto tempo para chegar lá. Outro bom exemplo da média seria a pontuação do exame para uma aula. Então, para obter uma boa compreensão de como as pessoas fazem em um exame ou em uma aula, você pode olhar para a pontuação média do exame no ano passado. E uma vez que há pontuações de exame são uma espécie de em
um arranjo menor, uma reunião vai ser bom para usar porque você pode obter qualquer coisa entre 0. Mas realisticamente falando, ninguém provavelmente vai conseguir um 0. Assim, seu alcance é ainda menor e assim você é menos afetado por outliers. E você meio que sabe o quão difícil a aula vai ser só por ser capaz de comparar seus meios. Então, se você olhar para uma classe e sua média é maior que a outra, mas eles têm um grande número de alunos ou algo assim, então você provavelmente pode dizer, hey, é mais fácil obter uma boa nota aqui, algo assim. Ou talvez, você sabe, alguns desses mais simples uso excessivo sem mergulhar muito fundo nele. Tudo bem, outro bom exemplo da maldade seria dizer, quanto chocolate você precisa quando você tem esse tipo de desejo doce? E você não vai dizer, oh, não, eu preciso de uma barra de chocolate, duas barras de chocolate ou três. Mas como você vai dizer,
oh, em média, você sabe, eu preciso, você sabe, talvez três quartos de uma barra de chocolate. E às vezes posso querer um pouco mais, porque me apetece. E quando começo a comer chocolate, desejo ainda mais. Às vezes, você sabe, eu tenho isso primeiro e tipo, o gosto simplesmente não está bem comigo agora. E então eu tenho um pouco menos. Mas estas são a quantidade de coisas. Então, se você tem esse desejo, você sabe, ou você diz, Oh, eu vou tentar ser forte ou você é como, bem, eu conheço esse sentimento e eu sei que se eu comer cerca de três quartos de uma barra de chocolate ou algo assim, eu sou vai se sentir bem, meu desejo vai ser satisfeito. Então você sabe o que esperar. Então estes são alguns dos exemplos de como lidaríamos com uma média. Bem, quando usaríamos a maldade. Tudo bem, então vamos olhar para a próxima coisa que vai ser a mediana. Agora, a mediana representa o valor médio em seu conjunto de dados. Agora, se você tem um número par de pontos de dados, você realmente não tem um valor médio. E assim, nesse caso, a mediana vai ser a média dos dois valores. Então, vai ser os dois valores médios adicionados juntos e, em seguida, dividi-lo por dois. Assim, os prós de usar um valor mediano é que a mediana às vezes pode ser mais precisa do que a média, e veremos alguns exemplos disso. A mediana também divide uniformemente seus dados para que você não seja realmente afetado
pela média no sentido de que, se você tiver um outlier
na média e isso arrasta tudo para a direita. Pode ser que seu outlier arraste as coisas tão longe para a direita. Todos os seus dados estão à esquerda da média e apenas os outliers à direita. Seria um caso extremo, mas isso não pode acontecer. Enquanto a mediana, você sabe, está sempre localizada diretamente no centro de seus dados. E a mediana também não se importa com outliers. Então, se você tem enorme outlier está no início e no final, isso realmente não se importa porque outliers por definição não são muito comuns porque eles são outliers. E então se você tem alguns no início ou tem alguns no final, eles vão ser muito poucos em número, que os torna outliers. E, portanto, a mediana não se importa muito com outliers. Um golpe, porém, é que a mediana realmente
não lhe dá muita informação sobre o resto dos dados. Claro. Você sabe o que está no centro. Não sei como tudo ao meu redor se comporta. Você só sabe onde está o centro de nossos dados. Então vamos ver alguns exemplos. Vamos fazer um exemplo trabalhado para nós onde vemos nosso conjunto de dados aqui. E podemos contar quantos valores temos. Se você for da esquerda para a direita, então podemos dizer que temos 123456789, 10, 11, 12 e 13 pontos de dados. Então temos um número ímpar. E assim nosso valor mediano, nosso valor central, será o sétimo ponto de dados porque é seis desde o início e também é seis do fim. É igualmente espaçado tanto desde o início como do fim. E é por isso que vemos nosso valor mediano aqui é 26. Está localizado diretamente no centro. Agora, para que a mediana é útil? Bem, a mediana é freqüentemente usada se você olhar para a renda familiar de um país. Porque se você usasse a média, então esses bilionários, eles simplesmente, você sabe, eles lhe daria uma descrição falsa do que realmente é uma renda familiar média. Porque normalmente, se você tem um valor médio e você pode dizer, oh, a renda familiar média desta família seria digamos, 40 mil dólares ou algo assim, ou que seria o valor mediano. Mas se você usasse a média em vez disso, então todos os bilionários e milionários do país, eles mudariam essa renda familiar. E então você diria, oh, você sabe, a renda média familiar por família seria parecido com 60 mil. E isso é uma má representação porque na verdade não dá uma visão realista do que a família familiar média tem. E a família familiar média realmente faz. Está centrado em 40 mil e com certeza, há pessoas abaixo delas, haverá alta, mas é isso que está no meio. Enquanto que se você usasse a média em vez disso, para sua média, você meio que obteria essa renda familiar inflacionada, que não seria representativa para o resto do seu, o resto do país. Outro bom exemplo com a mediana seria a distância que as pessoas percorrem para chegar ao trabalho. Então, se você olhar para isso em termos de quilômetros, então você pode dizer como, oh, você sabe, algumas pessoas, eles caminharam para o trabalho e é como um quilômetro no máximo, então algo assim. E então você pode esperar que as pessoas viajem. A maioria das pessoas viajam ao redor dos três quilômetros para trabalhar. E claro que há alguns, você sabe, que viajam muito mais longe porque eles querem viver fora da cidade. E há alguns que viajam muito, muito curtas distâncias porque eles têm uma casa bem ao lado do escritório ou sua casa é o escritório ou algo assim, dependendo de onde você está trabalhando. Então você pode olhar, você sabe, como, onde no meio, como as pessoas viajam para o trabalho, que horas ou a que distância eles precisam percorrer? E isso seria outro bom uso da mediana. Uma mediana. Outro bom valor mediano é o que você costuma gastar quando compra um novo item de roupa? E então, claro, às vezes pode ir a essa loja de roupas caras e você pode comprar um casaco que custa, eu não sei, ao norte de alguns €100 ou dólares, qualquer sistema que você queira usar. E às vezes você pode ir a uma loja de segunda mão e comprá-lo por muito barato. Mas normalmente se você vai a lojas, um casaco, eu não sei, talvez Castiel tipo 100 dólares ou algo assim. E assim, você sabe, se você sair, você pode esperar pagar cerca de 100 dólares. Na verdade, não. Levando tanto contador para a história que você está entrando. Então, a maioria das lojas que você vai visitar vai ter esse preço pelo casaco. Então isso seria outro bom uso para a mediana. Certo, vamos olhar para o terceiro tipo de média que podemos fazer, que é o modo. Agora, o modo olha para o valor mais comum em seus dados. E não é realmente definido se existem vários valores mais comuns. Mas se houver apenas um valor mais ocorrendo, então é esse o seu modo. E então vamos ver um exemplo disso em um segundo. Para os profissionais de usar o modo é que ele não é apenas aplicável a dados numéricos. Então, se você olhar
para categorias, por exemplo, então você pode dizer, Ei, nós temos cinco pessoas dos EUA, duas do Canadá e uma da França. E você sabe que o modo vai ser os EUA porque há cinco pessoas dos EUA. Então, o modo é a grande média. Isso não é apenas aplicável a dados numéricos no sentido de que você pode tecnicamente também aplicá-lo a categorias ou dois números ordinais, se você quiser, que você possa dizer o país mais comum que temos onde o, o tipo médio de país que esperaríamos aqui são os EUA e certeza de que existem outros países, mas a média ou o mais comum vai ser os EUA neste caso. Então, sim, e então, claro, o outro profissional é que permitimos ver o que é mais comum, o que aparece mais. Um ótimo uso do modo. Se houver casos em que valores recorrentes acontecem muito, que é o caso para números discretos, por exemplo. Assim, em números discretos, os valores se repetem frequentemente. E por isso é bom usar o modo. O modo vai ser que ele realmente não, novamente dar-lhe uma boa compreensão do resto dos dados semelhantes ao que tivemos para a mediana. Mas também, não é realmente aplicável se você tiver apenas um monte de diferentes tipos de dados, então não haverá realmente um modo se não houver o suficiente de cada dado e não é realmente bom usar o modo. Você não quer ter milhares de pontos de dados e eles são o valor mais recorrente. Reocorre umas três vezes, isso não é bom. Você deseja usar o modo para situações em que os dados reocorrem com frequência. Assim como vimos o exemplo do país, mas vamos realmente ver um exemplo trabalhado, mas também alguns outros exemplos para o modo. Assim, o exemplo trabalhado aqui seria novamente, pegamos nosso conjunto de dados e podemos contar quantas vezes números diferentes aparecem. E assim, se passarmos pelos números, veremos que 26 ocorre mais. E então esse vai ser o nosso modo aqui. Então temos 22 e 25 que ambos ocorrem duas vezes, mas 26 ocorrem três vezes. E assim 26 vai ser o nosso modo, vai ser o nosso valor mais ocorrido. Agora, o modo vai ser útil para coisas como o pico de um histograma. Então, se você desenhar este histograma e se você não sabe o que é um histograma, não se preocupe. Vamos abordar isso em uma palestra posterior também quando entrarmos na visualização de dados. Mas o pico de um histograma que vai mostrar o modo dos dados, o datum mais ocorrido. Um bom, outro uso do modal ser se você olhar para a renda dos funcionários e acompanhar. Porque isso acompanha, você sabe, você pode novamente ter o chefe, que tira a maldade. E você pode ter funcionários de nível superior para os quais nós meio que mudar a mediana. Mas se 1 terço de seus funcionários ganhar salário mínimo, que não só vai ser a melhor média ou dizer um 40% de seus funcionários ganhar um salário mínimo provavelmente não são seus funcionários, porque isso não seria um sistema muito bom para ter. Mas se 40 por cento dos funcionários da empresa que você está olhando para ganhar o salário mínimo. Isso não é uma coisa boa de se ter. E se você olhar para o modo, você verá facilmente que a média neste caso seria ganhar salário mínimo porque é isso que a maioria das pessoas ganha. E claro, você sabe, o chefe, ele ou o CEO ou algo assim, você sabe, ele pode mudar a média para cima pesadamente. E então o fato de que você tem altos altos. Se você olhar para o valor mediano, você pode muito bem estar muito longe, muito longe para a direita que você realmente não considera. Esses funcionários estão em todos os mesmos montantes. Mas você realmente quer obter essa descrição, que é o que você recebe aqui do modo. E então também o resultado de uma eleição é onde você usa o modo para e certeza, às vezes você pode ter apenas dois valores, às vezes você pode ter três. Mas se você tem candidatos diferentes e diz que tem cinco candidatos diferentes, então a pessoa com mais votos
vai ganhar a eleição porque eles têm mais. E então lá, novamente, você vai usar o modo.
4. Spread de dados: Ei pessoal, é o Max e bem-vindos de volta ao meu tutorial. Então, nesta palestra, vamos analisar a disseminação de dados. E vamos começar olhando para os termos, alcance e domínio. Então vamos passar para entender o que a variância e o desvio padrão significam. E então, finalmente, analisaremos a covariância, bem como a correlação. Tudo bem, então vamos começar com o alcance e domínio. Agora. Vamos sair com o alcance. Assim, o intervalo é basicamente a diferença entre o valor máximo e mínimo em nosso conjunto de dados. Então isso é, isso é um pouco simples de pensar. Então vamos passar por isso com um exemplo trabalhado. Vamos montar uma empresa na cidade, e esta é a única empresa na cidade. E o proprietário da empresa ganha um salário de 200 mil por ano. E então os empregados, todos
eles têm salários diferentes, mas os empregados mais baixos, ou talvez os trabalhadores a tempo parcial, eles ganham algo como 50 mil por ano. Então nós temos dados sobre um tipo variando de 15 a 200 K. E assim nosso alcance é a diferença entre o valor máximo e o mínimo em nosso DNA. Então pegamos 200 K e subtraímos 15 k dele. E temos um intervalo de 185 mil em salário. Então é assim que o nosso salário pode mudar. Então ele pode, se começarmos em 15 k, ele pode ir todo o caminho até 200 k. Então isso é uma gama de 185 K de assalariados que as pessoas nesta empresa podem ter, tudo bem. E o domínio será os valores que os pontos de dados podem assumir ou a região em que nossos pontos de dados se encontram. Então, se olharmos para este exemplo novamente, nosso domínio vai começar em 15 k e ir até 200 K. Então, o que o domínio define, ele define tipo de pontos iniciais e finais ou a define uma seção em nossos dados. E assim, neste caso, o domínio iria definir Nino que começaríamos em 15 veio e acabaria em 100 mil. E o que o domínio nos
diz é que tudo ou todos os salários dentro de 15 k e 200 K, que eles são possíveis. Mas dentro deste domínio ou dentro desta empresa, não
é possível ter salários fora deste domínio. Então, se nosso domínio novamente é de 15 a 200 K, então não podemos ter um salário de 14 k porque isso está fora do nosso domínio. E também não podemos ter um salário de 205 mil, porque de novo, isso está fora do nosso domínio. Então praticamente todos os salários dentro de 15 a 200 mil são possíveis. Qualquer coisa fora do domínio não é possível porque isso não está mais em nosso domínio. Tudo bem, então vamos seguir em frente e olhar para a variância e desvio padrão. E vamos falar sobre a variação primeiro. E o que a variação nos diz. Ele praticamente nos diz o quanto nossos dados diferem do valor médio. E ele olha para cada valor médio, e olha para quão diferente cada valor é do valor médio. E então eu nos dá a variação. Ele faz alguns cálculos e nós realmente não precisamos saber a fórmula. É mais importante agora só entender o conceito de variância. E então o que variantes realmente nos diz é que ele nos diz o quanto nossos dados podem flutuar. Então, se tivermos uma alta variância, isso significa que muitos dos nossos valores diferem muito do valor médio e isso fará com que nossa variância seja maior. Se temos uma variância baixa, isso significa que muitos dos nossos valores estão muito próximos do valor médio. E isso fará com que nossa variação seja menor. E agora, se nos voltarmos para o desvio padrão, o desvio padrão é literalmente apenas a raiz quadrada da variância. Então, se você entende um, então você também entende o outro. E agora podemos combinar isso se soubermos o intervalo de nossos dados para obter uma melhor sensação de dados. E então vamos usar um exemplo em que temos dois países diferentes, países A e B. E eles têm a mesma altura média para as mulheres, que neste caso vamos dizer que é de 165 centímetros ou cinco pés, quatro. E diremos que o alcance de alturas para eles pode ser idêntico. Então, digamos que eles podem alcançar. O alcance, digamos, pode ser uns 30 centímetros ou algo assim. Pode ir a qualquer lugar de, digamos, 150 até 80. Ou podemos até aumentar isso e dizer como em qualquer lugar de
tão baixo quanto 140 até dois metros ou algo assim. Mas vamos manter o alcance para estes o mesmo. E ambos têm uma altura média. Agora, se o país a tem um desvio padrão de cinco centímetros, que é aproximadamente duas polegadas, e o país B tem um desvio padrão de dez centímetros, que é aproximadamente quatro interesses, então o que você pode esperar saber esses valores é que se você entrar no país a, as pessoas que você vai ver vão ser muito mais semelhantes em altura. Então nosso desvio padrão é menor. Isso significa que nossos valores diferem mais baixos da média. E isso significa que muitas das mulheres que você vai ver vão estar muito perto de 165 centímetros ou cinco pés, quatro mais, menos duas polegadas. Então é muito o que você pode esperar quando você vai para esta empresa, quando você vai para este país, é que todo mundo vai ser, muitas das mulheres vão ser sobre essa altura. Enquanto que se você entrar no país B, eles têm um desvio padrão muito maior. E então você não pode realmente esperar que todos sejam cerca de 504 porque flutua muito mais. Então, se você for para esse país, você pode esperar ver muito mais mulheres de diferentes alturas, tanto mais altas quanto menores que 54. Certo, e é assim que podemos usar a variância
e o desvio padrão ou o desvio padrão para
nos dar um pouco mais de perspectiva sobre nossos dados e meio que nos permite inferir algumas coisas sobre nossos dados. Certo, então vamos falar sobre covariância e correlação. E a covariância será já tem a variância do nome nele. Mas a covariância é medida entre duas variáveis diferentes. E ele praticamente mede se você tem duas variáveis. Então vamos dizer que temos, você sabe, eu bebendo café pela manhã e meu cansaço geral. Então, se eu usar esses dois valores e você sabe, obter pontos de dados, este é o quanto eu bebo de manhã e isso é o quão cansado eu me sinto esta manhã ou algo assim. E então o que a covariância faz é olhar para o quanto um
desses valores difere ou muda quando eu mudo o outro. Então, o que isso significa, por exemplo, bem, se eu beber mais café, o
que a covariância olharia é, quanto meu cansaço muda? Então é isso que se faz com a covariância. Você vê, você diz, eu mudo um, quanto isso afeta? A outra coisa que eu olho? E agora a correlação é muito semelhante à covariância. Então nós tipo de normalizar a covariância
dividindo-se pelo desvio padrão de cada variável. Então o que isso significa é que temos a covariância para o meu café em vez de me sentir cansado. E então nós apenas dividimos pelo desvio padrão da medição e do café e um desvio padrão de eu me sentir cansado. E então realmente o que estamos fazendo com a correlação é que estamos apenas trazendo isso para termos relativos que se encaixam melhor em nossos dados. Então essa é a ideia abstrata. O importante a ter em mente é que estamos olhando para um e estamos vendo o quanto isso muda, e estamos vendo o quanto essas mudanças afetam a outra. Certo, então existem diferentes tipos de valores de correlação que podemos ter e eles podem variar entre 11 negativos ou mais. Seu domínio é entre negativo 11 e uma correlação de um significa uma correlação positiva perfeita. Então isso significa que quando uma variável sobe, a outra sobe. Então, para o meu exemplo de café, isso seria se eu tomar café pela manhã, então eu também me sinto mais feliz. Então, quanto mais café eu tomo, mais feliz eu me sinto. E claro que vai haver um limite. Mas digamos que eu só beba até duas xícaras de café ou algo assim e eu possa beber qualquer coisa no meio. E quanto mais tenho, mais feliz fico com isso. Então isso seria uma correlação positiva. Quanto mais eu tenho de café, mais eu tenho de felicidade. E então eles meio que subiram juntos. E então, quando nos aproximarmos de 0, o ponto zero vai significar nenhuma correlação conosco. Então, qualquer coisa entre 01 será uma espécie de correlação ligeiramente positiva. Não vai ser um super-forte. E veremos mais alguns exemplos no próximo slide. Mas sim, então qualquer coisa entre 01 vai
ser uma espécie de ligeira correlação positiva, não super-forte. E quanto mais perto você chegar de 0, mais significa nenhuma correlação. Então, um exemplo para o caso 0 seria que não importa quanto café eu bebo pela manhã. Isso não vai afetar se eles não estão relacionados. Um não afeta o outro. Então eu poderia beber uma xícara de café ganhando um dia ensolarado e uma xícara de café durante o dia chuvoso. E isso não vai mudar o tempo
, não vai afetar o tempo. Então eles são praticamente não correlacionados. E então nós também podemos descer para o intervalo negativo. E assim, quanto mais nos aproximamos de um negativo ou se atingimos exatamente um negativo, essa correlação de um negativo significa uma correlação perfeitamente negativa. E então aqui podemos tomar nosso exemplo de café versus cansaço. Então, quanto mais café eu tomar, menos cansado eu vou estar. Então o café sobe e o cansaço desce. Então é assim que podemos entender essa correlação. E vem da covariância. Portanto, é importante entender a covariância. Geralmente usamos a correlação porque a correlação, porque dividimos pelo desvio padrão de cada um, é muito mais adequada aos nossos dados. Agora, há uma coisa que é muito importante lembrar, e que a correlação não implica causalidade. Então, só porque duas coisas estão correlacionadas, isso não significa que uma causa a outra. Então, um bom exemplo disso. Se eu vivo em um clima onde geralmente é nublado pela manhã e eu sei que é ensolarado à tarde, mas todas as manhãs quando está nublado, eu bebo café e depois fica ensolarado à tarde. Isso não é mesmo que eles possam estar correlacionados. Eu bebendo café e ficando ensolarado. Se eu beber café não faz com que seja ensolarado. Isso é apenas por acaso. Isso só porque acontece todos os dias e por acaso há esse tipo de correlação que aparece. Mas isso não significa que meu café, você sabe, resulta no tempo ficando melhor. Uma causa seria eu beber café e eu me sentir menos cansado ou eu beber café e eu me sentir feliz com isso porque eu gosto do sabor, essas seriam causações. Então isso é uma coisa importante a ter em mente, só porque as coisas estão correlacionadas não significa que uma causa a outra. Certo, então vamos ver essas coisas em um gráfico. E então aqui temos os exemplos novamente sobre os quais falamos, mas podemos ver como os dados seriam para diferentes tipos de correlações. E assim podemos ver uma correlação perfeita, perfeita de um. Então um sobe, o outro sobe. Nós podemos ver no lado esquerdo, e nós praticamente temos esta linha reta realmente agradável. Então um valor sobe, o outro valor sobe com ele. E então quanto mais perto chegamos
a 0, menos relacionado ou menos correlação existe entre eles. E, em seguida, o mais tipo de variância que temos nos dados. Então vamos notar para o caso de correlação perfeita, que é o caso ou o caso da anti-correlação perfeita, que é o menos, que novamente tivemos o exemplo de mais café, menos cansado. E nesses casos, você sabe, nós temos uma linha fina muito agradável e nossos dados não pulam muito. Mas quanto mais nos aproximamos
de 0, menos podemos ver um causando o outro, e quanto mais podemos ver nossos dados espalhados. E então é assim que a correlação seria semelhante em termos de gráficos.
5. Quantias e de percentis: Ei pessoal, é brincadeira e bem-vindos de volta. Neste tutorial, vamos passar por quartis e percentis. Tudo bem, então vamos começar. Então, o que são quantiles? Bem, quantiles nos permitem dividir nossos dados em certas regiões que se estamos lidando com probabilidade, todas
elas têm a mesma probabilidade de ocorrer. Ou, se estamos apenas lidando com tamanhos de dados, queremos dividir nossos dados em regiões iguais. Então isso é o que podemos fazer com quantiles, é apenas dividir tudo para que cada vez que dividimos, você sabe, temos quantidades iguais de dados. Tudo bem? E então um exemplo de um quantil seria algo conhecido como quartil. E então é quando dividimos nossos dados em quatro regiões iguais, daí o nome quartil. Então, um quantil é o nome geral para fazer este procedimento de divisão. E então, se dissermos quartil, isso significa que estamos fazendo quantiles, mas para quatro regiões iguais. E então isso é algo que você provavelmente veria muitas vezes páginas de admissões universitárias
on-line ou algo assim. E eles dizem, os 25 por cento dos nossos candidatos têm pelo menos uma pontuação de teste de 90 por cento ou algo assim, você sabe. E então eles diriam que os 25 por cento mais baixos para candidatos ou nossa admissão ou estudantes admitidos ou algo assim, têm uma pontuação de teste. Isto é, eu não sei, 70% ou 75% ou algo assim. E então a pontuação mediana do teste é de 85%. Então é assim que você iria sobre quartis, é que você teria o menor 25% embora, meio, 25 a 50, então você tem o 50 a 75, e então você tem o top 25 por cento. Então, o 75 por cento para um 100. E veja você tem essas quatro regiões iguais, que também incluem seu valor mínimo na parte inferior, seu máximo no topo. E no meio, você tem seu valor mediano. Então esse é o valor diretamente nos lotes
do meio porque você está dividindo-o em, para regiões iguais. E assim o valor que separa o segundo quintil, O que deve ser o 25, 250 do terceiro quartil, que seria de 50 a 75, esse valor seria o valor mediano. Tudo bem? E então se você entrar em percentis, percentis que podem ter sido um nome que você, você provavelmente já ouviu antes. Percentil é novamente um exemplo de um quantil. Mas ao invés de dizer, você sabe, como um quartil, fazemos isso por, um percentil significa girá-lo em 100 segmentos iguais. Daí os percentis, o nome dos benefícios no início embora. Isso é tipo de onde está o percentual. E você pode ter notado por cento significa fora de um 100 ou mais ou menos isso é, se você está familiarizado com a porcentagem, então isso também é o mesmo tipo de raciocínio de onde isso vem. E então nós temos percentis, o que significa dividir em você 100 é igual a segmentos. E, portanto, um exemplo disso é frequentemente usado em pontuações de teste. Então, se você já fez algo como o vestibular ou algo assim, então você tem uma nota de teste. Mas você também tem um percentil. E a razão disso é para julgar não você contra os testes, mas você contra todos os outros. Então, se é um teste difícil, então algo como obter uma pontuação de 60 por cento, mas você está no percentil 95, significa que sua pontuação é realmente muito melhor. E então o que você pode dizer com percentis, por exemplo, é que cada percentil em que você está significa que você é melhor do que muitas outras pessoas. Então, por exemplo, se você alcançou o percentil 99, isso significa que você é melhor do que 99% das pessoas que fizeram
o teste, o percentil 95 seria 90. Você é melhor do que 95% das pessoas que fizeram o teste ou algo assim. E é por isso que os percentis são frequentemente usados para testes e são frequentemente usados para normalização. Porque eles permitem que você leve em consideração, você sabe, esses fatores de como, é um teste difícil, é um teste mais fácil. Talvez mais pessoas estejam marcando mais alto. Então eles realmente não julgam você diretamente contra o teste, mas eles te normalizam contra todos os outros que fizeram o teste. Então você faz o teste, você ganha uma pontuação. E então você tem as verificações de percentil onde essa pontuação está em relação a todos os outros. E assim esses percentis, eles permitem que você dê uma boa normalização e eles permitem que você faça grandes comparações porque eles permitem que você tipo de eliminar alguns desses fatores. Uma dificuldade de teste. E, claro, você sabe, sempre pode haver sorte envolvida nas coisas e isso pode não ser filtrado individualmente. Mas se você fizer isso para um monte de alunos, e é também por isso que é feito neste tipo de grandes testes padronizados é que você obtém um percentil junto com sua pontuação para que você entenda se, talvez se sua pontuação é menor. Mas o teste foi muito difícil, você ainda pode ver, você sabe,
eu me saí muito bem porque as pessoas acharam este teste muito difícil e foi ainda mais difícil para eles do que para mim.
6. Importante da visualização de dados: Ei pessoal, é o Max e bem-vindos de volta. Neste tutorial, vamos falar sobre a importância da visualização de dados. Tudo bem, então o que nós vamos falar é primeiro nós vamos olhar para o papel que
o computador desempenha tipo para nós e para que papel o computador é realmente feito. Então vamos olhar para o papel que o humano deve desempenhar em termos de ciência de dados. Então vamos olhar para a apresentação de dados. E finalmente, falaremos sobre a interpretação de dados. Certo, então vamos começar e falar sobre o papel que o computador coloca. Agora, o computador é muito, muito mais rápido que um humano porque é para isso que ele é feito. É feito para triturar números, é feito para fazer cálculos rápidos. Você sabe, se você pensar sobre como computadores mais rápidos estão lá no alcance gigahertz. Então giga significa bilhões, então eles fazem bilhões de coisas a cada segundo. E então eles são realmente bons para fazer coisas repetitivas porque eles podem fazê-las tão rápido. E então podemos dar-lhes essas tarefas lógicas em termos de programação. E nós damos a eles uma estrutura e eles apenas fazem isso e eles podem fazer isso uma e outra vez e outra vez. Eles não vão estragar tudo. Posso repetir a mesma coisa. Eles não vão se cansar disso. E eles são muito bons e são muito rápidos em fazer essas coisas. Então esse é o papel que o computador deve desempenhar para você. Seria meio que um meio de conseguir esses números difíceis e todas essas coisas feitas. Então, não há necessidade de você meio que trabalhar fora toda essa matemática complicada porque seu computador pode fazer isso muito melhor e muito mais rápido do que você. E também é menos propenso a erros se você codificar corretamente. Então essa é a única parte em que você entra e só vai estragar tudo se você errar. Mas, em geral, nosso computador faz exatamente o que lhe dizemos para fazer e é muito bom e muito rápido nisso. Agora, que papel um ser humano deve desempenhar em termos de ciência de dados? Bem, os humanos desenvolveram-se naturalmente para identificar padrões e fizemos isto primeiro para sobreviver. Então, se andarmos por aí e vermos um, sei lá, um grande predador escondendo isso. Podemos identificar esse padrão do predador e podemos escolhê-lo, mesmo que ele esteja tentando se camuflar. Assim, os humanos, por natureza, tornaram-se muito bons em identificar padrões. E você também pode ver isso se você olhar para as nuvens e você vê coisas ou você vê formas de animais nas nuvens ou outras coisas. Então esses padrões não estão realmente lá, mas os humanos tornaram-se tão bons em identificar padrões. Podemos ver coisas em muitos, muitos lugares. E então é nisso que os humanos são realmente bons. Nós somos capazes de olhar para as coisas, nós somos capazes de escolher padrões. Outra coisa que é realmente boa para os humanos é que somos muito criativos. E através de sua criatividade, também
podemos usar a memória e trazê-la para fora do conhecimento. E nós também podemos usar um entendimento geral de então estas são todas as coisas que computadores não podem fazer. Então computadores são uma espécie de meio de trazer coisas para nós. Mas uma vez que esteja lá, é nosso trabalho usar nossas habilidades de reconhecimento de padrões. E, claro, você pode treinar algoritmos de aprendizado de máquina para padrões
específicos mais tarde ou casos específicos e torná-los realmente bons nisso. Mas geralmente, se você não sabe exatamente o que está por vir, então nosso primeiro passo como cientista de dados seria tentar identificar esses padrões. Você usa sua criatividade, usa sua memória, você sabe, traz todas essas coisas diferentes. Use todas essas coisas diferentes que o tornam humano e use tudo isso nos dados, todas essas coisas que um computador simplesmente não tem acesso. Ok? Então, usando, você sabe, você está considerando tudo isso. A melhor maneira de fazer tudo isso seria em termos de visualização de dados. Então você não pode simplesmente mostrar planilhas com um monte de números que realmente não ajudam você. Porque olhando para números, é muito difícil escolher padrões. A melhor maneira de fazer isso seria apenas plotar valores. E então, se tivermos esses visuais na nossa frente, então podemos realmente identificar padrões. Podemos ver as coisas subindo e descendo e podemos vê-las flutuando e podemos vê-las e fazer linhas muito finas. Podemos apenas olhar para um gráfico e podemos apenas ver coisas. E claro, você sabe, precisamos de um pouco de prática para entender o que esse gráfico está tentando nos dizer. Mas uma vez que entendemos o gráfico e em geral, então podemos olhar para novos gráficos e podemos apenas ver as coisas. Assim podemos começar a ver padrões. E podem nem sempre ser verdadeiras. Mas isso não significa que não podemos escolhê-los. E então isso é mais tarde. Você também faria alguns testes tentando ver se esses padrões com verdadeiro, se eles fazem sentido. Mas geralmente, a visualização de dados é muito boa para isso porque permite que você invoque todas as suas características humanas. As coisas que são realmente boas que nos tornam humanos. As coisas que falamos no último slide, todas as coisas como o computador não pode fazer. E às vezes você lida com apenas esses números. visualização de dados é para você e US $0,01 para que você possa ver essas coisas e tentar escolhê-las e usá-las mais tarde. Mas também se você está tentando mostrar essas coisas para outras pessoas. Então talvez você tenha que fazer uma apresentação e eu meio que resumo. Então você quer ter certeza de que suas visualizações de dados são boas porque as pessoas que vão estar olhando para ele são muito, muito menos treinadas para olhar dados e analisar dados do que você. E então se você tentar transmitir-lhes uma mensagem e apenas mostrar-lhes uma grande planilha com números e apenas apontar como aqui,
olha, olha, olha, olha, olha esses números, você sabe, eles aparecem e eles vão ser como, o que Você está falando? É por isso que é realmente importante ter boas habilidades de visualização de dados. Um deles é permitir que você faça seu trabalho, mas a outra parte dele é mostrá-lo a outras pessoas e meio que ajudá-lo a transmitir informações para eles. Você sabe? E, claro, falamos sobre valores estatísticos. E os valores estatísticos são muito importantes e eles podem nos dar uma boa idéia sobre os dados e o que está acontecendo dentro dos dados. Mas a visualização de dados é apenas levá-los para o próximo nível. E valores estatísticos não são suficientes lá. Eles podem nos dar, você sabe, eles podem nos ajudar, eles podem nos apoiar, isso pode nos dar idéias. Mas se realmente queremos entender o que está acontecendo, alguém que só tem que dar uma olhada no que está acontecendo. E é claro que estão. Também é importante ter certeza de que você escolhe as visualizações certas e tudo mais. Porque outras vezes você pode parecer extremamente estranho. Mas apenas esta habilidade de ser capaz de
apresentar dados tanto para si mesmo, bem como para outras pessoas, como muito, muito importante para um cientistas de dados. E depois passamos a interpretar dados. E nós meio que já abordamos isso na última seção. Mas realmente com a visualização de dados, ele só permite que você veja esses dados e permite que você aplique algum raciocínio ao sistema. E assim você pode, se você olhar para os dados, ou você vê algo que é ótimo. Isso significa que você pode tentar testar algo, ver se ele realmente está lá onde você não vê nada. E isso também diz algo que você realmente
não é capaz de escolher um padrão para que não
haja, não há nada óbvio que está acontecendo lá. Talvez algo subjacente que seja mais complicado, mas óbvio para o usuário. Só não lá. E assim todas essas coisas permitem que você tipo de facilmente, são muito mais facilmente analisar seus dados e tipo de preparação para onde você vai fazer depois disso? Então, a visualização padrão que realmente dá a você uma compreensão
profunda e profunda do que está acontecendo com seus dados. E então quando interpretamos esses dados e olhamos para essas visualizações, você sabe,
talvez você veja mergulhos e você sabe,
talvez você veja algumas colinas em algum lugar. Podemos tentar entender tudo isso trazendo nosso conhecimento externo. Então, novamente, no que o ser humano é realmente bom, podemos trazer no contexto das coisas. Sabe, talvez as pessoas estejam saindo para almoçar aqui. E é por isso que a atividade diminui. Ou talvez todos sejam comuns para trabalhar de manhã. E é por isso que a atividade aumenta em comparação com seis AM. Então todas essas coisas, e podemos trazer todos esses contextos. Podemos trazer toda essa compreensão para tentar interpretar o gráfico de dados, tentar entender melhor o que está acontecendo. E então, é claro, vamos ver com sorte algumas tendências ou padrões. Claro, como eu disse, talvez nem sempre existam. Então nós somos realmente tão bons em reconhecimento de
padrões que podemos ver algumas vezes padrões e não estão realmente lá. E então um bom exemplo novamente disso seria apenas olhar para as nuvens no céu. E você pode ver que padrões animais podem ser, mas isso realmente não está lá. São apenas nossas mentes, você sabe, identificando todos esses padrões. E então, sim, é por isso que a visualização de
dados é tão importante para os cientistas de dados. É por causa de todo esse enorme aspecto humano, é apenas a chave na ciência de dados. É fundamental e análise de dados para ser capaz de entender o que está à sua frente, para ser capaz de trazer esses conhecimentos externos, para ser capaz de contextualizar essa criatividade que é realmente fundamental para um bom cientista de dados. E um computador pode ajudá-lo com tudo isso. O computador pode ajudá-lo a fazer a trituração de números e computador pode ajudá-lo a configurar as visualizações e pode traçar o que você quiser para ele. Mas, em última análise, cabe a você escolher a visualização certa devido a olhar para os dados, para ser capaz de comunicar a visualização também. Todas essas coisas são com você. E é por isso que o humano é
tão importante na ciência de dados.
7. Um gráficos variáveis: Olá a todos. É Max e bem-vindo de volta. Neste tutorial, vamos olhar para um gráfico variável. Então nós vamos realmente ver alguns dos tipos de gráficos que podemos fazer que falamos em nosso último tutorial onde nós apenas olhamos para a importância da visualização de dados. Então agora vamos para a visualização de dados e olhar para os tipos de gráficos que você pode querer usar ou que você pode querer escolher. Tudo bem, e então os gráficos que vamos olhar para fora em termos de gráficos de uma variável serão histogramas, gráficos de
barras e gráficos de pizza. Então vamos começar com histogramas. Agora, podemos ver um exemplo de um histograma à direita. Mas o que é realmente legal sobre histogramas é que ele nos mostra a distribuição dos dados e nos mostra a distribuição em todos os valores em nossos dados. E isso nos mostra o que acontece menos, e também nos mostra o que acontece mais. E histogramas, eles nos permitem ver onde nossos dados estão concentrados e eles também nos deixam ver como eles são distribuídos. E assim, através disso, ele meio que mostra um comportamento geral. E então realmente o que é um histograma é que ele olha para cada valor e ele apenas olha para a frequência com que esse valor ocorreu. E então o que vemos aqui, por exemplo, é que em torno de 0, temos a maioria ocorrendo. Então, se qualquer valor que estamos olhando, e à medida que nos movemos para a esquerda e à medida que nos movemos para a direita, esses valores começam a cair para que eles começam a se tornar menos freqüentes. E isso é o que um histograma nos mostra. Este diagrama nos mostra uma espécie de frequência com que essas coisas ocorrem. E assim existem diferentes tipos de histogramas que você pode encontrar. Ou quero dizer, geralmente um histograma é apenas este traçando uma frequência versus o seu valor. E assim há maneiras diferentes que este histograma pode ser parecido. Um deles é aquele que acabamos de ver que não é distribuição
normal ou é chamado como um histograma porque segue esta distribuição gaussiana ou esta distribuição normal que você sabe, mas nós também podemos têm um valor exponencialmente decadente. Então começamos muito alto. E quanto mais nos afastamos do valor inicial, mais rápido ele vai diminuir. E você pode realmente comparar isso com o Deus, diferente ou com a distribuição normal. Então a distribuição normal parece mais um sino. Ele meio que sobe e, em seguida, curva para baixo lentamente, enquanto o exponencial, ele corta muito rápido e, em seguida, tipo de desacelera mais tarde. Então eles têm comportamentos diferentes. E então, é claro, nós também podemos obter não apenas um pico como vemos neste primeiro caso e o Deus, ao contrário da distribuição, mas também podemos obter coisas como dois picos ou podemos até mesmo obter três picos ou mais. Podemos ter picos muito grandes. E assim nossos histogramas, há meios de nos mostrar como esses dados são distribuídos. Há meios de nos mostrar, você sabe, o que as coisas ocorrem com mais frequência, enquanto nossos dados se concentram. Mas isso não significa que eles vão ter que ter um valor específico. E assim existem formas específicas. Portanto, há muitas formas diferentes que são histogramas podem assumir. E dependendo da forma que você obtém, isso também nos diz algo muito diferente sobre nossos dados. Tudo bem, então a próxima parte variável que vamos olhar vai ser gráficos de barras. E então o que os gráficos de barras fazem é que eles podem parecer um pouco semelhantes aos histogramas no início, mas eles são muito diferentes em algum sentido porque gráficos de barras nos permitem comparar entre diferentes grupos. E isso é o que vemos no eixo x lá em baixo enquanto olhamos para diferentes grupos. E então usamos a mesma variável e podemos comparar essa variável em diferentes grupos. E então, se olharmos para isso no exemplo, então o que vemos à direita aqui é olharmos para diferentes países. E o que mostramos é que mostramos o imposto de renda médio. E assim vemos que o país B, por exemplo, tem o imposto de renda médio mais alto, enquanto o país D tem o menor imposto de renda. E assim, através desses, você sabe, nós ainda estamos olhando apenas para a variável de imposto de renda, mas nós fomos capazes de comparar iss em diferentes grupos, categorias diferentes, se você quiser. Então, outros exemplos seriam se você olhar para grupos de controle e grupos de teste. Então, se você está fazendo algum tipo de estudo médico ou talvez algum estudo de psicologia ou algo assim. Você sempre quer ter seu grupo de controle. E então você pode ter diferentes tipos de grupos de teste. E então você pode traçar cada um desses grupos como um gráfico de barras e você pode olhar para a mesma variável, mas você pode ver como isso muda sobre os diferentes grupos. Outro exemplo seria algo como comparar alturas masculinas e femininas. Então você tem um grupo que é masculino, o outro grupo que é feminino, e você pode apenas traçar sua altura média, hum, e então o imposto, o imposto de renda de diferentes países, que é o que vimos à direita sobre Aqui. Tudo bem, e então o último gráfico de uma variável que vamos olhar vai ser gráficos de pizza. E gráficos de pizza que permite fazer é que eles nos permitem Seção nossos dados e podemos esconder a divisão em percentis. E por causa disso, podemos ver do que nossos dados são constituídos. Então todo o Pi corresponde a 100 por cento. E então nós meio que cortamos em fatias diferentes. E através desse corte. E então espero que eu vou algum código de cores como nós fizemos aqui e talvez até mesmo rotular ou mais definitivamente comprimentos de onda para que você sabe, que fatia corresponde a que valor. Nós somos capazes de ver quais categorias, um, você sabe, ou quais categorias nossos dados são constituídos. E assim podemos ver o que é mais proeminente. Mas também podemos ver o que é menos proeminente e todas essas coisas. E então novamente aqui podemos ver também distribuições não tão bem como no histograma, mas ainda podemos ver distribuições em termos de dominância, em termos de quantos grupos existem. Perder os dados espalhados uniformemente, ele
está fortemente concentrado em uma parte da torta? Todas essas coisas permitem, você sabe, é, isso é o que nós somos capazes de fazer com gráficos de pizza. Nós temos este tipo agradável de visão geral do grupo de uma variável. Então, exemplos disso seria que você pode olhar para a distribuição etnia em uma universidade. E assim você pode ter um gráfico de pizza e apenas cada fatia de pizza que é para representar uma etnia diferente. E dependendo de quanto de nossa porcentagem que compõem o perfil total da universidade, essa é a grande fatia de torta seria. E assim você pode ver dominância de algumas etnias, bem como minorias. Mas você também pode ver apenas por quantas fatias eles são. Você pode ver quantos grupos etnicos diferentes existem. E outro exemplo seria que você pode dividir avaliações de estrelas para um produto. Então, em vez de olhar para a avaliação média de estrelas, você também pode usar um gráfico de pizza e você pode ver quantas de minhas avaliações ou cinco estrelas, quantas delas eram quatro estrelas, 321. E então lá você pode novamente, eu vou dizer obter esta agradável visão diferente de como o sistema de revisão funcionaria.
8. Dois gráficos variáveis: Ei pessoal, é o Max e bem-vindos de volta. Agora vamos falar sobre dois gráficos variáveis. Então os gráficos que vamos olhar serão gráficos de dispersão, gráficos de linha, 2D são histogramas bidimensionais e gráficos de caixa e bigode. Certo, então vamos começar com gráficos de dispersão. Agora, para um gráfico de dispersão, o que estamos fazendo é realmente espalhando por todos os pontos de dados em um gráfico. E então praticamente todos os pontos de dados que temos, nós meio que colocamos um pequeno ponto sobre ele no gráfico. E gráficos de dispersão são ótimos porque eles nos permitem
ver a dispersão de dados entre duas variáveis. Então, estamos sempre plotando uma variável
no eixo x e, em seguida, outra variável no eixo y. E isso nos permite ver como os dados são distribuídos para essas duas variáveis. E então, através disso, também podemos ver áreas mais densas. Também podemos ver algumas áreas esparsas, e também podemos olhar para as correlações. Talvez se lembre na palestra que falamos sobre correlações. Fomos capazes de ver através de gráficos de dispersão onde essas correlações onde ou onde não havia nenhuma correlação. Então todas essas coisas, isso que as parcelas de dispersão são realmente boas. Parcelas de dispersão. Claro, também podemos usá-los para ter, como vemos aqui, pequenos clusters. Portanto, nem tudo precisa ser conectado por uma linha ou uma curva. Talvez algo seja mais como um círculo. E é isso que as parcelas de dispersão podem nos mostrar também. Eles podem meio que mostra esses agrupamentos e vemos um cluster aqui. Mas talvez, você sabe, você tem parcelas maiores e então haveria menores, você sabe, como 10 pequenos agrupamentos diferentes para coisas diferentes. Então tem que nossos custos são realmente grandes para isso porque eles apenas nos mostram onde estão os pontos de dados estão localizados para essas duas variáveis. E então podemos usar nossa célula de ver, sabe, como, como isso parece? Uma variável afeta a outra? Ou talvez certos agrupamentos que podemos ver onde nossas áreas densas, onde são escassas. Onde estão as coisas concentradas, você sabe, é tudo espalhado por todo o lugar é muito, muito estreito e só em uma região específica. As parcelas de dispersão permitem-nos ver todas estas coisas muito facilmente. E então alguns exemplos em que poderíamos usar gráficos de dispersão seriam se nós vemos, se olharmos para o gráfico à direita, podemos olhar para algo como um preço de carro versus o número de carros vendidos. Então, cada um desses pontos de dados representa praticamente um carro que foi vendido. E então o eixo x nos diz o preço que o carro foi vendido para fora. E o eixo y nos diz o número de carros que foram vendidos a este preço. E assim o que vemos aqui, por exemplo, muito facilmente configurá-los mais do que o preço do carro, elástico é vendido. E então talvez você possa pensar em termos de, bem, quanto mais seu preço, talvez as pessoas não queiram comprar um carro tão caro. Talvez tenham encontrado uma versão mais barata. Então talvez seja apenas uma coisa de marca, é por isso que é mais caro. Talvez haja algo de boa qualidade que seja mais barato. Talvez as pessoas não tenham dinheiro suficiente. Então essa é provavelmente uma grande árvore fatorial que as pessoas simplesmente não têm dinheiro suficiente para comprar esses carros caros. E é por isso que eles caem. E assim pode parecer um pouco diferente em termos de lucros. Mas quanto maior o preço do carro, a última vez que o vemos sendo vendido. Então esse é um exemplo de um gráfico de dispersão. Então algo mais que podemos olhar é talvez a renda versus anos de educação. Então, olharíamos no eixo x, quantos anos alguém foi educado. E então olharíamos para a renda atual. E isso seria apenas um ponto no gráfico. E podemos fazer isso para muitas, muitas pessoas diferentes. E então podemos ver como educação diferente para pessoas diferentes, como isso afeta sua renda atual. Então isso é outra coisa onde podemos fazer um gráfico de dispersão. Também podemos voltar a um dos exemplos anteriores que usamos muito cedo, onde falamos sobre pessoas viajando para o trabalho. E podemos apenas traçar a distância percorrida versus o tempo que leva e viajou para trabalhar. E então podemos ver que algumas pessoas viajam mais rápido. Pode ser que algumas pessoas viajem na mesma distância, mas uma leva mais tempo que a outra porque uma passa por Kiara, a outra vai de bicicleta, a outra leva transporte público, todas essas coisas. Então, tudo isso podemos ver nos gráficos de dispersão e apenas tipo de levar em conta essas situações diferentes e ver como tudo isso olha para o, para a população geral de nossos dados ou apenas geralmente para dados. Então é preciso, as parcelas são realmente, realmente grandes como uma espécie de primeiro ir apenas para apenas identificar tendências, identificar regiões. Só estou dando uma boa visão geral dos seus dados. Agora, a próxima coisa que vamos olhar vai ser gráficos de linha. E os gráficos de linha em algum sentido são semelhantes aos gráficos de dispersão. Então temos a mesma base do eixo x e y, mas os pontos estão conectados. E agora é muito importante saber quando escolher gráficos de linha e gráficos de dispersão. Assim, os gráficos de linha podem trazer muitas vantagens com eles porque essa conexão, torna muito fácil para nós ver tendências porque podemos ver onde essas linhas vão, não apenas tentando conectar os pontos em nossa cabeça. Sabe, eu meio que conecto os pontos. Mas isso é exatamente o que eu sou um enredo de linhas faz, é que ele conecta os pontos para nós. E assim podemos ver essas linhas. É ótimo se quisermos ver uma evolução de algo. Talvez queiras ver uma evolução ao longo do tempo. Talvez você queira ver uma evolução sobre o espaço e evolução com as pessoas, algo assim. Apenas se nossos pontos de dados estiverem conectados, é ótimo usar um gráfico de linhas. Então, se sabemos que o que aconteceu antes está conectado ao que acontece agora, é ótimo usar gráficos de linha porque gráficos de linha
nos mostram como as coisas evoluem porque estão todas conectadas como uma linha. Mas se vamos fazer gráficos de dispersão e nós apenas meio que plotar pontos aleatoriamente. E só porque se voltarmos para ela ou tipo de carro vendido exemplo de preço de carro, só porque alguém comprou um carro caro ou se olharmos para o carro caro e foi comprado, digamos umas cinco vezes, então olhamos em um cartões mais baratos e comprou um 100 vezes. Não há realmente uma conexão lógica a fazer entre os dois. E então, se usássemos gráficos de linha onde deveríamos usar gráficos de dispersão, realmente o que veríamos é apenas um monte de linhas por todo o lugar. É por isso que é importante saber quando usar gráficos de linha. E um, você usa gráficos de dispersão porque pode ser muito, muito útil. Se você usar um gráfico de dispersão em vez de um gráfico de linha, vai ser um pouco mais confuso porque você tem que tentar conectar os pontos em sua mão. Mas se você usar um gráfico de linha em vez de um gráfico de dispersão vai parecer muito estranho porque há apenas linhas em todo o lugar e você realmente não pode ver nada. Então, um exemplo onde poderíamos usar gráficos de linha é que temos a distância típica versus tempo. Então você pode olhar, você sabe, quão longe alguém ou que horas é e então quão longe alguém viajou. Apenas uma curva geral de distância versus tempo. Isso é muito, muito comum. E você pode olhar para o lucro da empresa versus o número de funcionários. Então, quanto mais empregados implicam um emprego, como isso muda seus lucros? Então, é claro, eles têm que pagar mais os funcionários, mas talvez os funcionários também podem fazer mais trabalho. E espero que isso cancele o que você paga e aumente os lucros da empresa. E então o que podemos ver à direita aqui como podemos olhar para sua criatividade e como isso muda com o estresse. Assim, podemos ver que quanto mais estressado seu, o último UR criativo. E aqui também é bom usar um gráfico de linha porque tipo de avanço gradual e estresse. E assim cada ponto e estressa tipo de relacionado. E quanto mais alto você sobe e estresse, mais baixo você desce e criatividade. E então há esse tipo de relação onde podemos ver essa evolução. Então, quanto mais você fica estressado, menos criativo ele se torna. Então cal mais um muito bom aqui porque não há esse movimento caótico em todos os lugares. Mas é muito bom e é muito fácil ver esta linha. É muito fácil de seguir. Ok? Então o próximo gráfico que podemos falar é histogramas bidimensionais. Agora vimos histogramas unidimensionais no último tutorial onde olhamos para a disseminação de dados e olhamos os picos e como as coisas eram distribuídas para a direita e para a esquerda. Mas também podemos fazer um histograma bidimensional. E um pouco um histograma bidimensional é que é um histograma unidimensional, mas é basicamente um histograma para cada ponto da outra variável que estamos olhando. Então realmente o que essas coisas nos permitem ver é que eles nos permitem ver como as diferentes distribuições das duas variáveis são relativas a outra. Então podemos ver aqui, por exemplo, na região vermelha que para esses valores específicos, eles acontecem muito. Então essa combinação de valores acontece muito. E assim somos capazes de identificar essas ocorrências de frequência novamente. E também somos capazes de olhar para as entregas, mas somos capazes de apontar isso para dois valores específicos agora em vez de apenas um, que foi o que fizemos com o histograma 2D. E essas coisas são muito mais difíceis de ver em parcelas de dispersão. Porque em gráficos de dispersão, se tivermos um valor ocorrendo 100 vezes, seria apenas o mesmo ponto e o ponto não ficaria maior. Agora, é claro, você pode fazer o ponto maior se quiser. Ou você pode mudar a cor ou algo assim. Mas realmente se você fizer um gráfico de dispersão e
a mesma coisa acontecer com um 100 vezes vai parecer apenas um ponto. Enquanto que para histogramas bidimensionais, podemos ver que não são apenas, não são apenas os que acontecem, mas podemos realmente ver a frequência dessas variáveis. São essas duas variáveis juntas. Então, um exemplo de um histograma bidimensional seria se olharmos para os preços dos bilhetes versus os bilhetes vendidos. E então, se você olhar para o canto inferior esquerdo e nós podemos tipo de ver este pico vermelho. Os preços dos bilhetes são mais baratos, mas os bilhetes também são vendidos com frequência. Portanto, sabemos que os bilhetes a esse preço são vendidos com bastante frequência. E estas poderiam ser, você sabe, como novas bandas de marca em ascensão. Essas podem ser como, você sabe, bandas padrão que talvez você queira levar alguém em um dia, mas você não quer gastar muito dinheiro em um bilhete, mas ainda considera uma boa idéia. E isso é um bom preço de passagem. Isso vende um monte de bilhetes, porque lhe dá o prazer de p evento sem torná-lo muito caro. E então se você se mover mais em direção a preços mais altos, e então se você se mover mais para mais ingressos vendidos, então você pode ver que para bilhetes
altos, preços altos, que seria, você sabe, como esses grandes bandas. Então podemos ver novamente quantos ingressos vendemos. Então podemos ver isso por um preço mais alto. E se formos para cima e vendermos ingressos, então se você quiser ver muitos ingressos vendidos por um preço alto, então as espreitadelas vermelhas vão nos dar todos esses artistas mais famosos. Então esse é um tipo de aplicação. Mas é claro, há muitos, muitos melhores. São só essas coisas. Você sabe, se, se você está no momento e você pode meio que, então você perceberia, Oh, isso é quando um histograma bidimensional seria uma ótima coisa para eu usar. Então muitos desses gráficos, eles são ótimos de saber. E uma vez que você está no momento, então é muito mais fácil para você escolher qual gráfico seria o melhor representante. Finalmente, o último gráfico que vamos olhar vai
ser um enredo de caixa e bigode. E eu quero que os lotes de caixa e bigodes nos permitam fazer é que eles nos permitem ver a propagação dentro do nosso datum. Então não é apenas como um gráfico de barras que apenas nos mostra um valor, mas podemos realmente ver a dispersão estatística. Assim, podemos ver valores medianos, que é o que vemos aqui. Podemos ver quartis. Os pequenos pontos do lado de fora realmente nos mostram outliers. E então o que os gráficos de caixa e bigodes nos permitem fazer é que eles
nos permitem ver essa informação estatística, mas eles nos permitem vê-la visualmente. E isso torna a comparação entre diferentes grupos, que é o que estamos fazendo aqui muito mais fácil. E então um bom exemplo disso seria se olharmos para os preços dos
ingressos para jogos de futebol para equipes diferentes. Então diferentes equipes e diferentes equipes, é claro, usam estádios
diferentes e eles têm popularidade diferente. Estes, e algumas equipes podem ser muito mais caros ou seus preços de ingressos talvez muito mais caros do que outros. E assim podemos comparar estes preços de bilhetes usando caixas e lotes de bigodes. E então podemos ver, você sabe, qual é a parte mais alta desses custos? Então, esses serão os lugares mais luxuosos. E depois vamos para o fundo. E esses serão os lugares menos luxuosos, provavelmente aqueles onde você está. E então você tem valores médios dependendo, você sabe, dos assentos padrão e onde você está no estádio. Se você está perto do campo, se você está mais longe do campo, mas você ainda está sentado. Todas essas coisas que podemos ver aqui e é isso que nos dá a propagação. Podemos comparar isso em diferentes equipes e podemos ver a dispersão entre equipes diferentes, mas também podemos ver quais equipes são mais caras. Sabe, onde os preços variam mais para uma equipe específica? Então talvez algumas equipes tenham um super lançamento e então eles têm seus lugares de pé que são muito mais baratos. E assim você veria uma propagação muito maior. Ou talvez algumas equipes só tenham, você sabe, apenas assentos e veja, você veria uma dispersão muito mais baixa. E assim todas essas coisas,
somos capazes de comparar usando diagramas de caixa e bigode em diferentes grupos.
9. Gráficos de três e mais altos de variáveis: Ei pessoal, é o Max e bem-vindos de volta. Neste tutorial, vamos falar sobre três e mais gráficos variáveis. Então os gráficos que vamos olhar para
ele, vai ser mapas de calor. E então também vamos olhar para gráficos de barras multivariáveis, bem
como como como podemos adicionar mais variáveis a alguns dos gráficos de menor dimensão que falamos anteriormente. Tudo bem, então vamos começar com mapas de calor. Agora o que os mapas de calor nos permitem fazer é que eles nos permitem
traçar duas variáveis um contra o outro e o x e o y, e as leis para mostrar uma intensidade ou um tamanho ou algo
parecido na direção z ou em nossa direção. Então, um exemplo disso, que é o que eu tentei ilustrar à direita, é um cliente se movendo através de uma tempestade. E assim podemos rastrear o caminho do cliente na direção x e y da loja. Então você pode tipo de obter a visão do olho deste pássaro e ver para onde eles se movem. E os pontos mais escuros realmente nos dizem as posições onde eles passam mais tempo. Então podemos ver que eles passam um pouco de tempo
no início eles se mudaram em homens e então eles param um escolher o que vamos ver aquele ponto escuro ser? Talvez tenham achado o corredor dos doces ou algo assim. Havia um pedaço específico de doce que eles queriam. E então eles seguiram em frente e então eles começaram a ir ou correr para nós na esquina ao virar da esquina um pouco. E talvez eles chegaram à seção de frutas e vegetais lá e escolheram várias coisas. E então eles começaram a ir em direção ao balcão de checkout, que acontece no final e eles estão se movendo em um pagamento mais constante. Às vezes paravam para olhar um pouco, mas continuavam seguindo em frente. E então as três variáveis que mostramos aqui, como mostramos lá, exposição na loja, mostramos lá posição y na tempestade e na cor. Também mostramos o tempo que eles gastam em cada posição. Então é isso que podemos usar, mapas de calor quatro. E então outro exemplo de um mapa de calor seria, por exemplo, se você pegar uma lanterna e movê-la sobre a tela. E realmente o que você está mostrando é a quantidade de tempo que você mostrou a lanterna em uma região específica. Então isso é um outro exemplo de um mapa de calor, mas geralmente mapa de calor, como o nome indica, ele permite que você rastreie posições. E, por isso, muitas vezes é usado para coisas como rastrear clientes através de lojas estão apenas rastreando a localização geral das pessoas, onde eles gostam de gastar seu tempo. E a intensidade que você vê em termos de cor geralmente é a quantidade de tempo que eles passaram lá. Tudo bem, então nós também podemos fazer gráficos de barras multi-variáveis e gráfico de barras multivariado. Então é muito semelhante a um único gráfico de barras
onde nós apenas plotámos um valor sobre diferentes grupos. Mas em vez de apenas colocar um, nós meio que apertá-los juntos e nós traçamos vários. E então um exemplo disso seria que nós traçamos pontuações de
golos, golos marcados para a equipe, os tiros tirados fora do gol, bem
como os remates no alvo. E assim podemos ver que talvez haja equipes que atiram o gol da lição sem marcar menos, mas isso é porque eles também atiram menos e, portanto, eles também atiram menos no alvo. Ou talvez haja algumas equipes que sua pontuação muito e isso é porque eles atiram um monte. Só não atingem o alvo com frequência. Ou talvez haja equipes realmente boas que marcam muito e eles também atiram muito no alvo. E então todas essas coisas nós somos capazes de então comparar em diferentes grupos. E então é para isso que podemos usar gráficos de barras multivariáveis. Se houver várias variáveis, isso nos daria uma melhor compreensão do sistema
do que apenas olhar para as variáveis em uma de cada vez. Mas também seria muito legal se você pudesse comparar todos eles,
então poderíamos usar gráficos de barras multivariáveis para isso e simplesmente colocá-los no mesmo gráfico de barras. E então podemos ver como eles mudaram, você sabe, dentro de um grupo. Nós também podemos ver como eles mudam em diferentes grupos. Está bem? E algo que podemos fazer é também adicionar dimensões
extras aos gráficos de menor dimensão que tivemos. E alguns estavam limitados a três dimensões porque essa é a quantidade de dimensões espaciais em que vivemos. Mas se tomarmos o gráfico de dispersão, por exemplo, onde começamos com apenas o x e o eixo y e pontos localizados. O que podemos fazer é adicionar um terceiro eixo, então podemos pegar o x e o y,
e então podemos adicionar um z. e isso nos dá uma dimensão de profundidade extra, que é exatamente o que vemos aqui. Então, ao invés de apenas plotar ao contrário de um campo bidimensional, ao contrário de um plano, podemos realmente traçá-lo em um volume. Então podemos ver esse tipo de bola dispersa que fizemos, tipo,
meio que bola que fizemos aqui, que é meio que localizado no centro do nosso enredo. E assim isso pode ser muito legal porque ele nos permite ver profundidade para. O problema com isso é que temos instantâneos todas as vezes. E então realmente estamos olhando para instantâneos bidimensionais. E então, para obter a melhor compreensão disso,
precisamos girar nossos gráficos de dispersão ou nossas parcelas à medida que fazemos, para que também possamos adicionar em nossa percepção de profundidade. Porque agora, se estamos olhando para
ele, pode parecer tridimensional, mas na verdade é apenas um instantâneo bidimensional. E para obter a melhor compreensão se nosso gráfico de dispersão está localizado mais em direção a nós em mais tarefas à esquerda ou algo assim. Ou talvez seja muito alto e perto de nós, ou talvez seja muito baixo e distante. Para entender todas essas coisas,
precisamos ser capazes de girar nossas parcelas de dispersão para que possamos vê-lo de diferentes ângulos, que então nos dá essa percepção de profundidade. E podemos fazer a mesma coisa com gráficos de linha 3D. Então aqui vemos um exemplo de talvez qual a posição de um esquiador como você está esquiando em uma colina. E então nós podemos meio que rastrear isso através do tempo e vemos que eles estão tipo de, eles estão descendo a colina e este belo movimento em ziguezague como você deveria, e nós podemos apenas rastrear sua posição ao longo do tempo. Então aqui nós adicionamos essa dimensão extra ao gráfico de linhas 3D, em vez de apenas tomar talvez um tempo e uma posição em um tempo ou algo assim. Nós adicionamos uma segunda posição, foram na verdade até mesmo uma terceira posição. Então nós temos o x para o 1, faz essa posição, e então nós apenas rastreá-lo ao longo do tempo. E isso nos dá toda essa linha aqui. E é assim que podemos pegar esses gráficos de dimensões inferiores que vimos antes, podemos adicionar dimensões extras a eles se quisermos, contanto que ainda seja fácil de ver, desde que faça sentido onde Estamos olhando. Nós somos realmente capazes de talvez apenas bater em outra direção lá e, você sabe, comparar outra variável.
10. Programação em ciência de dados: Pessoal, é o Max. E bem-vindo de volta neste tutorial vamos tocar na terceira seção importante que é realmente ótimo para cientistas de dados. Ou isso deve ser essencial para os cientistas de dados, que é a capacidade de programar. Ok. E então por que programamos? Bem, existem diferentes razões pelas quais queremos ser capazes de programar. O 1º 1 será a facilidade de automação. O segundo será a capacidade de personalizar. E, finalmente, é porque há muitas bibliotecas externas excelentes para nós usarmos que apenas tornam nosso trabalho muito mais fácil. , Está
bem, mas vamos começar. Vamos falar sobre a facilidade de automação para nós. O que quer dizer com isso? Bem, ser capaz de programá-lo realmente permite que você protótipo muito rápido nos permite automatizar as coisas, e também nos dá o benefício extra de se nós temos algo em nossa mente, nós podemos apenas pegar isso e tipo de colocar para o computador, programando-o. Assim, somos capazes de automatizar tudo muito rapidamente, e não precisamos fazer essas tarefas repetitivas. Você sabe,
talvez copiar coisas colando dentro ou do Excel ou todas essas coisas. Você sabe, Se queremos apenas repetir algo ou queremos mudar algo rapidamente e simplesmente mudar uma coisa pequena, não
temos que fazer muitas coisas. Nós podemos apenas mudar isso em nosso código e, em seguida, clicar em play e deixar o computador cuidar de tudo isso para nós em vez de termos fazer tudo manualmente. Portanto, é muito fácil para nós automatizar coisas e também para fazer relatórios. É muito fácil criar automaticamente esses relatórios. Você sabe, tudo que você tem que fazer é configurar seu programa para lidar com os dados que você
vai dar , e então eu posso criar relatórios automaticamente toda semana. E os relatórios podem ser diferentes porque você fornece dados diferentes. Ainda deve
parecer o mesmo,
mas os dados,
os valores podem ser diferentes. Ainda deve
parecer o mesmo, mas os dados, E isso criaria automaticamente todos esses relatórios para você. E você não tem que fazer isso sozinho. O programa faz isso por você, , mas você construiu o programa e está dando dados diferentes. Então você ainda está fazendo todas as análises. É só que você começa a pular a parte de copiar colar e como olhar através e assumir os valores e fazer toda a formatação de apenas fazer o mesmo relatório uma e outra vez e outra vez. Eu sou tudo sobre É cuidado para você,
e tudo que você tem que fazer é apenas colocar os dados certos,
você sabe,
direito tudo o você sabe, que você quer fazer e, em seguida, clique em play e deixar o computador lidar com tudo isso para você porque lembre-se, isso é o que os computadores fazem bem em fazer essas tarefas repetitivas. Ok, nós também queremos ser capazes de programar porque ele realmente nos permite personalizar. É muito fácil uma vez que entramos na análise de dados, e quando vemos coisas que temos essas idéias que queremos expandir ou
direções diferentes que queremos progredir ou analisar e ser capazes de programar, isso realmente nos permite pegar tudo isso e colocá-lo em código e apenas escolher essa direção e enfraquecer muito facilmente, mergulhar muito mais em nossa análise e descobrir as coisas rapidamente, porque cabe a nós para onde queremos ir. E assim esta capacidade de personalizar com programação. É muito,
muito importante porque não dependemos de mais nada. Nós não dependemos,
sabe, sabe, algum software e talvez ele se decompõe. Ou talvez não saibamos como usá-lo perfeitamente. E temos que ler o manual e lê-lo como uma seção de ajuda. Não, mas sabemos programar. E nós apenas digitamos exatamente o que queremos fazer exatamente onde queremos levá-lo, exatamente o que queremos ver, e podemos personalizar muito, muito rápido com isso. Nós também podemos protótipo muito, muito rápido sem on Talvez se uma visualização não está funcionando, para transformar um gráfico de dispersão em um gráfico de linha é muito fácil. Você só muda uma palavra. Então, todas essas coisas são muito,
muito fáceis de fazer com a programação porque temos todo esse poder ao nosso alcance, e nós podemos apenas, você sabe, mudar tudo o que estamos olhando, tudo que foi calculado, talvez queira calcular uma coisa extra, pegar outra coisa porque é irrelevante. Todas essas coisas foram capazes de personalizar, e tudo o que podemos fazer porque somos capazes de programar, então o que realmente estamos fazendo é fazer os dados. Nosso então nós estamos tomando o controle total dos dados estavam tomando o controle total de onde queremos
ir com nossa análise, o que queremos ver e o que queremos mostrar. Tudo bem, então vamos falar sobre
as primeiras bibliotecas, mas também dar-lhe dois ótimos tubos em bibliotecas que você deve,
você sabe, você sabe, talvez se sentir confortável com ou que você deve talvez considerar usar para análise de dados. Então, primeiro lugar, o que são bibliotecas? Bibliotecas de Will são pedaços de código. Eu fui escrito por outros que você pode simplesmente absorver e usar. E então um bom exemplo disso é algo conhecido como biblioteca de matemática. E assim que tem todas as funções quadradas tomando para o poder, você sabe, tomando o exponencial, atribuído o sinal co todas essas coisas que você sabe e você quer usar. Mas você não quer um programa. Assim, praticamente evita que o meio passo de você ter que programar a equação para calcular um sinal, porque todas essas coisas, essas são coisas que não queremos fazer. Não queremos nos distrair do nosso alvo. Queremos ser capazes de fazer exatamente o que queremos sem ter o programa completamente. Outras coisas. E isso é o que as bibliotecas são excelentes para o seu desenvolvido pela comunidade para que todos usem. Sabe, todo mundo está ajudando uns aos outros e essas bibliotecas, eles só trazem muito poder com isso. E então uma dessas bibliotecas é chamada de pandas e Panoz é muito parecido com o Excel, mas nos permite fazer ou fazer programação com ele, que torna isso muito melhor, porque podemos fazer as coisas tão rápido com ele. Podemos fazer toda essa personalização. Poderíamos fazer toda essa automação, enquanto, você sabe, como Excel. Se você der muita coisa, muito para executar, ele só começaria a falhar porque ele tem que lidar com todas essas outras coisas. Todas essas outras coisas visuais, você sabe, a U.I. E há muito Mauritz. Não é uma estrutura tão bem onde está e programando o programa. Sabe, seu computador passa por tudo passo a passo. Ele não tem que cuidar de todas essas coisas de visualizações. Ele só faz os cálculos abaixo. Mas ainda podemos fazer todo o tipo de gerenciamento de dados com eles para que possamos mudar nossos dados . Podemos soltar colunas, enfraquecer, dividir as coisas. Sabe, podemos dividir as coisas por fila. Podemos escolher uma certa Rose. Nós podemos até fazer cálculos estatísticos em nossos dados para que possamos dizer, você sabe, hey, calcular a média para isso. Nós nem precisamos,
você sabe,
fazer você sabe, sua própria fórmula para calcular o significado ou para calcular o desvio padrão ou para calcular a correlação entre diferentes colunas. Tudo isso pode ser feito com Panoz com apenas
um, você sabe, algumas palavras-chave. E então é realmente fácil fazer análise de dados com ele porque todas as funções que estão lá e sabemos exatamente o que queremos fazer, não
precisamos escrever o código para tudo isso. Então, se você quiser olhar para as correlações, nós apenas dizemos, hey, painéis fazer correlações em vez de ter que, você sabe, codificar todas as correlações para nós mesmos fazendo, você sabe, citando todo esse algoritmo e isso torna muito fácil e muito rápido para obter resultados e chegar onde você está indo porque você não precisa ir para nenhum desses
lugares intermediários . Você pode praticamente pular o intermediário de ter
que, você sabe, tudo isso. Eu cresço para você, e você poderia usá-los para que você tenha o seu começo. Você teve a sua ideia. Você sabe exatamente o que quer fazer. E você pode fazer exatamente isso para chegar ao seu objetivo. A outra biblioteca,
que é muito legal, será Matt enredo lib,
que é o que eu uso muito para visualização de dados. A outra biblioteca, que é muito legal, será Matt enredo lib, Ele me permite criar gráficos, permite que eu visualize meus dados, permite um monte de personalização, então eu poderia realmente mover tudo em torno dele. Posso mover meus espinhos. Posso ligar e desligar as coisas. Você sabe, todas essas coisas são muito fáceis de fazer com o meu popular. Há um monte de grande personalização que eu sou capaz de fazer com ele. Então, estas são as duas bibliotecas privadas básicas que você provavelmente deveria
saber onde você pode olhar para alguns dos meus outros cursos. Um deles painéis lidaria com a parte de análise de dados e mapa de lote lib ajudaria você lidar com a parte de visualização de dados dele.