Ciência de dados aplicada - 2 : estatísticas | Kumaran Ponnambalam | Skillshare

Velocidade de reprodução


  • 0.5x
  • 1x (Normal)
  • 1.25x
  • 1.5x
  • 2x

Ciência de dados aplicada - 2 : estatísticas

teacher avatar Kumaran Ponnambalam, Dedicated to Data Science Education

Assista a este curso e milhares de outros

Tenha acesso ilimitado a todos os cursos
Oferecidos por líderes do setor e profissionais do mercado
Os temas incluem ilustração, design, fotografia e muito mais

Assista a este curso e milhares de outros

Tenha acesso ilimitado a todos os cursos
Oferecidos por líderes do setor e profissionais do mercado
Os temas incluem ilustração, design, fotografia e muito mais

Aulas neste curso

5 aulas (1 h 1 min)
    • 1. Sobre a Série de Ciência de Dados Aplicada

      8:12
    • 2. Tipos de dados

      7:29
    • 3. Estatísticas de resumo

      16:10
    • 4. Distribuições estatísticas

      19:05
    • 5. Correlações de estatísticas

      10:09
  • --
  • Nível iniciante
  • Nível intermediário
  • Nível avançado
  • Todos os níveis

Gerado pela comunidade

O nível é determinado pela opinião da maioria dos estudantes que avaliaram este curso. Mostramos a recomendação do professor até que sejam coletadas as respostas de pelo menos 5 estudantes.

650

Estudantes

--

Sobre este curso

Este curso faz parte da "Série de Ciência de Dados Aplicada" no SkillShare apresentada pela V2 Maestros. Se você quiser passar por todo o currículo, por favor registre todos os outros cursos e atravesse deles na sequência especificada.

Este curso se concentra nas estatísticas para ciência de dados. Ele passa por conceitos básicos de estatísticas que são necessários para executar operações de engenharia de dados e aprendizado de máquina como parte desta série.

Conheça seu professor

Teacher Profile Image

Kumaran Ponnambalam

Dedicated to Data Science Education

Professor

V2 Maestros is dedicated to teaching data science and Big Data at affordable costs to the world. Our instructors have real world experience practicing data science and delivering business results. Data Science is a hot and happening field in the IT industry. Unfortunately, the resources available for learning this skill are hard to find and expensive. We hope to ease this problem by providing quality education at affordable rates, there by building data science talent across the world.

Visualizar o perfil completo

Nota do curso

As expectativas foram atingidas?
    Superou!
  • 0%
  • Sim
  • 0%
  • Um pouco
  • 0%
  • Não
  • 0%
Arquivo de avaliações

Em outubro de 2018, atualizamos nosso sistema de avaliações para melhorar a forma como coletamos feedback. Abaixo estão as avaliações escritas antes dessa atualização.

Por que fazer parte da Skillshare?

Faça cursos premiados Skillshare Original

Cada curso possui cursos curtas e projetos práticos

Sua assinatura apoia os professores da Skillshare

Aprenda em qualquer lugar

Faça cursos em qualquer lugar com o aplicativo da Skillshare. Assista no avião, no metrô ou em qualquer lugar que funcione melhor para você, por streaming ou download.

Transcrições

1. Sobre a Série de Ciência de Dados Aplicada: Hey, bem-vindo ao curso são reproduzidos sinais de dados com o nosso Este é o seu instrutor, Cameron Parnham pertencem de vídeo Vamos passar por Mastro e entender o que este curso é tudo sobre. O objetivo do curso é treinar os alunos para se tornarem profissionais de dados de pleno direito. Então, estamos nos concentrando em fazer pessoas praticantes que podem executar em dados de eventos desde o projeto desde o início, adquirindo dados até transformá-los, carregando em um final mais tarde nosso destino e, em seguida, realizando análises de órgãos sobre eles em finalmente alcançar alguns resultados de negócios a partir desta análise, o que você, fazendo este curso é você entender o conceito e conceitos de sinais de dados, você entende as várias etapas do no ciclo de vida fora de uma ciência de dados você desenvolve proficiência para usar o nosso uso ANDI estão em todas as etapas fora da ANALITICO desde análise de dados exploratória até diretriz por hora. É preciso modelar o dedo do pé. Finalmente fazendo previsão usando algoritmos de aprendizado de máquina aprendeu as várias ferramentas de engenharia de dados e técnicas sobre a aquisição de dados e limpeza de dados na transformação de dados. Conhecimento adquirido sobre as técnicas de aprendizado de máquina amigo sobre também aprender como você pode usá-los e também o mais importante, então você pode usá-los se tornar um praticante de ciência de dados de pleno direito e que é pode contribuir imediatamente para dados da vida real. Projetos científicos não mencionar que você quer levar esse conhecimento para sua entrevista para que você possa obter uma posição na ciência de dados. Terry era essa prática que queríamos tocar nessa coisa específica fora da teoria versus prática, dados, sinais, princípios, ferramentas e técnicas. Imagem de diferentes sinais e disciplinas de engenharia. Não, eles vêm de ciência da computação, engenharia da computação, informação, informação, probabilidade de terry e bastões de início, inteligência artificial e assim um sobre o estudo teórico de sinais de dados que se concentra nestes fundação científica e raciocínio fora dos vários Jardins de Aprendizagem Mission. Ele se concentra em tentar entender como esta missão aprender o trabalho de Salgado em um sentido profundo em ser capaz de desenvolver seus próprios algoritmos em. Desenvolva sua própria implementação desses algoritmos para prever um problema bola real. Apenas um habita muito fora em nossas equações e formal em privações e raciocínio. Considerando que o pacto está no até tarde em parte dos dados, a ciência se concentra em um jogo as ferramentas, princípios e técnicas, a fim de resolver problemas de negócios obter o foco em tentar usar técnicas e ferramentas existentes e bibliotecas em como você pode tomar estes e um jogá-los para realmente problemas de trabalho e sair com negócios merece. Este se concentra em ter uma compreensão adequada dos conceitos um conhecimento de quais são as ferramentas e bibliotecas disponíveis sobre como você pode usar essas ferramentas e bibliotecas para resolver problemas do mundo real. Portanto, este curso é focado na prática fora de sinais posteriores, e é por isso que é chamado de Inclinação da Ciência de Dados Aplicada dos cursos. Esta ciência de dados é um assunto trans disciplinar, e é um assunto complexo. Não se concentra principalmente em três áreas técnicas. Portanto, há matemática e estatísticas que é aprendizagem de missão. E há programação neste curso é orientada para. Você sabe, programação é orientada para profissionais de software existentes. Ele está fortemente focado na programação e na construção de soluções. Ele tem limitado e pediu exposição à explosão necessária. A matemática e as estatísticas sobre ele abordam a visão geral Os conceitos de aprendizado de máquina fornecem a você compreensão articulada sobre como esses aprendizado de máquina protegiam os livros. Mas o foco está em usar a ferramenta existente para desenvolver soluções do mundo real. Na verdade, 90 95% outro trabalho que mais tarde tempo ciência. Basta fazer no mundo real é a prática da ciência de dados. Não realmente, Terry, de maior ciência e este curso se esforça para manter as coisas simples e muito fácil de entender . Então nós definitivamente tornamos isso muito simples. Ficamos longe de um pouco do conceito complexo. Nós ou eles tentaram o tom do dedo do pé para baixo Estes conceitos complexos são apenas ficar longe deles de modo que torna fácil para a compreensão para pessoas de todos os níveis fora do conhecimento no campo da ciência de dados. Então é uma espécie de grande curso de enfermeira. Se posso dizer que a estrutura central que é passa pelos conceitos de maior sentido para começar, qual é exatamente a sua atribuição? Como funciona a ciência de dados? Ele analisa o ciclo de vida dos santos de dados com seus vários estágios de ciclo de vida. Em seguida, ele entra em alguns conceitos básicos de varas iniciadas que são necessárias para fazer sinais de dados. Em seguida, ele vai para a nossa programação. É questionar um monte de exemplos de como você usaria nossa programação para várias etapas no projeto de ciência de dados. Os vários estágios em dados enviados engenharia de dados lesionados, esforço parcial. O que outras coisas que você normalmente faz lá que é a engenharia de uma das melhores práticas na ondulação de dados, ele abrange essas áreas. Finalmente, há a parte de modelagem e análise preditiva onde nós construímos para a missão Aprendizagem ou Deus Adams. Nós também olhamos para Endo e casos de uso para esses algoritmos de aprendizado de máquina, e há alguns tópicos avançados também que abordamos. Finalmente, há um pacote de recursos que vem como parte deste curso, e esses resultados pacote basicamente contém todos os conjuntos de dados. Os dados arquivados o exemplo do tribunal revestimento sobre esse tipo de coisas que nós realmente ensinar como uma parte deste curso que é abordado nos exemplos todos eles são dados no pacote de recursos. Então eu não sei o pacote de recursos que tem todos os dados que você precisa e todos os exemplos principais que você precisa para você experimentar as mesmas coisas você mesmo. Diretrizes para os alunos, o jejum este dedo entender seus dados. Saints é um assunto complexo. Precisa de esforços significativos para compreendê-lo. Portanto, certifique-se de que, se você está ficando preso, faça a revisão e aliviá-lo os vídeos e exercícios faz. Ele chamou a ajuda de outros livros sobre recomendações de terras e fóruns de apoio. Se suas consultas 1000 preocupações faz, e isso é uma mensagem privada, nosso fazer postou esta pergunta pergunta, e vamos ser realmente felizes. Toe respondeu isso o mais rápido possível. Estamos constantemente procurando melhorar nossos cursos, então qualquer tipo de feedback que você tem é bem-vindo. Por favor, forneça feedback através de mensagens privadas são dois e-mails no final do curso . Se você gosta do curso, não dar deixar um comentário. Comentários são úteis para outros novos alunos em potencial para fazer este curso e esperar Maxim discos de outros cursos futuros do We Do Mastro, queremos tornar isso fácil para o relacionamento de nossos alunos com o outro. Nós fazemos cursos de mestrado são cursos são focados em ciência de dados, realmente um tópicos basicamente, tecnologias, processos, ferramentas e técnicas de santos de dados em. Queremos que nossos cursos sejam auto-suficientes, tanto quanto possível, hein? Então o que isso significa é que, se você é um estudante de mestrado existente nós fazemos, você vai fazer ver alguns conteúdos e exemplos repetidos em todos os cursos. Queremos fazer uma visão para si mesmos. Então, em vez de dizer isso, há algum ponto no curso? Certo, garota, olhe para o despótico como outros cursos. Registre-se para o outro curso e saiba mais sobre isso. Prefiro nos concentrar neste curso em si. Manter duas coisas no mesmo curso. A não ser que esse outro conceito seja um grande concerto. Que eles mesmos, de curso separado. Nós queremos a Índia eles como uma parte deste curso em si. Assim, você pode ver algum conteúdo que é repetido em todos os cursos. Finalmente, esperamos que este curso o ajude a avançar na sua carreira. Então, boa sorte. Aprendizagem feliz em Não manter contato. Obrigado. 2. Tipos de dados: Olá. Bem-vindo à estatística para ciência de dados. Neste modelo, vamos ver algumas das noções básicas de estatísticas que são necessárias para o aprendizado de missão e os usos da Análise Preditiva. Então as garotas desse modelo em particular são basicamente para descrever as estatísticas básicas que são necessárias para designações de Dale. Ah, muito simples, muito simples nível com o qual vamos lidar. Vamos explicar que os conceitos são muito alto nível e de uma forma muito simples. Vamos para uma ampla família e representações matemáticas, Asma é possível. Queremos apenas mantê-lo simples para que todos que, com diferentes níveis fora da exposição matemática, possam entender o que está acontecendo. S o. Eu espero que isso vai ser útil para você em se você sentir que você quer aprender mais sobre isso, existem outros cursos e outros materiais para isso. Estamos tentando atribuí-los neste curso para que queremos manter o mínimo possível para todos. Vamos seguir um dos tipos de dados sobre o que são e o que queremos fazer com eles. Tipos de dados desempenham um papel muito importante na ciência de dados porque o Mission Learning Guard Adams normalmente é afetado pelo tipo de dados que estão sendo transmitidos a eles. Então alguns algoritmos de aprendizado de máquina são bons com alguns tipos de dados, que é o que veremos na preditiva e eu vou corrigir o modelo. Portanto, é bom aprender o que são esses tipos de dados e o que você pode fazer com eles. Portanto, existem quatro tipos de dados normalmente com que você lida no dia normalmente diferem no significado das operações que você pode basicamente fazer sobre eles. Nestes quatro tipos de dados são chamados dados categóricos são dados nominais são fatores. As segundas fraldas, dados orginais nos disseram. Intervalo no feto chamado problema. Então, o que exatamente são esses? Vamos começar com dados categóricos categóricos representa categorias em tipos. Temos visto tipos e categorias por todo o lado. O melhor exemplo de dados categóricos é o sexo, sendo o sexo masculino ou feminino. Então, o que há de especial nisso? Categorical mais tarde em que há sempre um conjunto fixo de valores, como no caso do sexo que é apenas masculino e feminino. Não tem implícito ordenar a nossa sequenciação. Você não pode destruir sequenciá-los ou ordená-los em qualquer corrida, um é melhor do que o outro é maior do que o outro, então todos eles são considerados iguais. Você não pode realmente compará-los, como com um maior do que ou um menor do que simples. No caso de dados categóricos, alguns dos exemplos são como a lista de frutas como maçãs, laranjas, uvas. Em uma equipe de futebol, você pode ter diferentes tipos de jogadores, como diferentes médio er frente são você tem tipos de carros como uma questão de semeadura. Nós cooperamos etcetera como FNC. As categorias religiosas que todas elas são tipicamente têm um conjunto fixo de valores. Você não tem nenhum tipo de implícito ordenar nossa sequenciação entre eles. O segundo tipo de Dota é chamado de dados comuns, que também produzem. Mitt é como dados categóricos em que ele também tem, como uma correção de valores. Mas isso é ordenar entre esses valores que você pode realmente nosso eles e dizer que um é melhor do que o outro é maior do que o outro em sua tipicamente representam uma escala fora medida como uma escala de 1 a 10 uma escala de um para lutar, ou algo como um alto médio baixo. Excelente, muito bom, Bom Geralmente os presentes escapam, mas ainda é categórico. Dados sobre você pode fazer comparações como você pode fazer maior ou menor que o tipo de comparações, mas você não pode fazer qualquer tipo de operações aritméticas como Adição, subtração, divisão de multiplicação em cada um deles são alguns dos exemplos que você pode ver. É como avaliações de revisão como Excelente, Muito Bom. Isso é um exemplo de dados normais, a vez do nível de dor é a mais alta, como 1 a 10 notas de alunos. A B C D e do é o maior. Então você sempre tem algo como o mais alto e o mais baixo que você pode realmente compactá-los? Perguntado Impacto dados categóricos. O terceiro tipo de dados será lidar com isso chamado de intervalo de dados. Assim, no total de dados é tipicamente dados numéricos na medição. É a medida onde a diferença entre os números tem algum significado, como a distância. Por exemplo, suponha que nosso distrito em parte e ser 60 milhas entre B e C é 70 milhas. As perguntas são 16 milhas na distância. Diga ao niilismo número significativo, uma lista significativa em Então, em um intervalo, dados há significado com borracha referenciada com até a distância aqui representa coisas como tempo, distância, temperatura, esse tipo de coisa. A coisa mais importante que você quer notar. Essa adição e subtração é possível, como você pode adicionar tempo ou subtrair tempo são distâncias a temperaturas, mas multiplicação e divisão não são possíveis. Você não pode multiplicar uma distância e destinado a e obter outra distância. Você sempre terá coro à distância. Simplesmente não faz sentido. Toe não multiplicar e dividir distâncias, modo que é isso que significa. Exemplos são como a hora do dia datas distância entre dois pontos de temperatura e coisas assim. Estes são dados de intervalo. No último tipo que você veria é o que é chamado de proporção. Os dados de proporção como tudo o resto, como qualquer tipo de jacaré numérico que você veria que não se qualifica como qualquer outro qualquer outro tipo de dados que acabamos de ver. Todos os tipos de operações aritméticas são possíveis com dados de proporção. Uma trégua ido é possível, mas zero é um verdadeiro valor válido em No caso de uma relação de dados. Alguns exemplos destes são como grande quantidade de velocidade em um tipo de dados de medição contínua que você veria na vida real? Sim. Considere invade seus dados. Então, como eles se compararam? Ah, aqui está um bom combate está no comando entre cada um dos quatro tipos. Melhores grandes valores são aplicáveis em todos os quatro deles continua. Os valores são aplicáveis apenas em dados de intervalo e proporção. Porque orginal um normal são apenas categorias. Distribuições de frequência que veremos mais tarde são aplicáveis para, na verdade, todos eles se movem encontros sindicais. Não são aplicáveis apenas relação de viagem estrangeira em comum Desculpe pelo ser vermelho no sim e ordinário e 1.000.000 pessoas idades. adição e a subtração são possíveis com dados de intervalo e proporção. divisão de multiplicação só é possível na média da razão e no desvio padrão. Mais uma vez, vamos olhar para o quê? O que fez são nas sessões futuras estão lá aplicável apenas em em viagens e proporção em. Claro, você pode encontrar realmente razão como relação entre A e B em dados de proporção apenas em um zero julgamento é aplicável apenas no caso fora de dados de proporção. Então isso é tudo que eles compactam um com o outro. Espero que esta apresentação é faz ajuda você na compreensão do que os vários tipos de dados são. Obrigado 3. Estatísticas de resumo: Vamos ver o nosso algo sobre alguém estatísticas de alguém no sábado seis são uma importante, uma parte muito importante da estatística e da análise. É algo que você está sempre fazendo como uma análise básica para qualquer tipo de dados que você vê. Então o que é alguém estatísticas quando você tem, como, um conjunto de observações como um conjunto de pontos de dados, talvez 10 pontos de dados, £100. 1.000.000 de pontos de dados. Você quer de alguma forma caracterizá-los em caracterizar thes espalhados sobre os dados tipo off que você está vendo em 23 R quatro números, E é por isso que você tem um conjunto de estatísticas de alguém como você tem como um jogador de basquete no jogador de basquete tem Bean escoltando um número de pontos para cada partida. Você quer levar o desempenho louco do jogador de basquete. Então você vem com algum tipo de estatísticas sumárias como pontos por jogo. Então você olha bem. Nos últimos 10 jogos, este cara pontos mais altos por jogo de 20 mas ele tem uma carreira média de pontos portadores por jogo off 15. Então o que você está fazendo é que você está tentando obter um número de pontos de dados neste caso, o número de pontos que os jogadores capturaram em cada uma das partidas ao tentar resumi-los em um ou dois números. Isso representa como os valores individuais reais se pareciam. Então isso é o que chamamos de estatísticas resumidas. Então essas observações observações têm um número fora de pontos de dados e alguém começou varas são usadas para caracterizá-los. Então, quais são os vídeos? Alguém, uh, as estatísticas que nós olhamos para você começar com a tendência Central na porta são três tipos diferentes deles, mas apenas significa, que não é nada além de mediana média e muito mais. Depois, há variação. variação entre o ponto é medida por variância e desvio padrão em. Há também distorção como os dados são bonitos em direção a uma extremidade ou a outra para medir que temos cabo de. Agora vamos em frente e ver o que cada um deles é. Vamos começar com tendência central, tendências centrais, uma medida fora. Muito os dados são Stendhal é centralmente 10 para Então começamos com significa que todos são família com média são a onda média. Como ser computado também é muito simples. Basta adicionar todos os números e eles passaram pelo número fora da contagem dos números que temos . Então, em todos os números divididos pela contagem e, em seguida, você começa a média são a média bastante simples e direta. Uma medida mais menos usada fora da tendência central é a mediana mediana não é nada, mas o valor médio. O valor do meio significa que você tem um conjunto de números. Qual é o valor médio que você encontra lá? Como você acha a mediana? Você pega isso, dispara números e ordena-os em ordem ascendente e depois encontra, que está exatamente no meio dessa lista. Esse é o valor do meio em se o número fora da contagem dos números é par, Digamos que você de 10 números que você encontraria. O que ou como você encontra o meio é você basicamente tomar o entre os digamos que temos, como 10 números. Você pega os dois números do meio, adiciona-os juntos e divide por dois para que eles encontrem a média fora dos valores médios em. Isso é o que vai lhe dar a mediana. Digamos que você tenha 10 números. Pegue o número 15 6, adicione-os e divida por dois, e você vai obter a mídia a próxima é mais não é nada, mas o valor que ocorre mais no conjunto de dados. Então você tem você para você. Nossos dados dizem, onde os números não são únicos, eles continuam repetindo mais. Esse é o número que ocorre mais em qual você usa onde e que depende da situação. É muito situação dependente de quê? Baseado no que você estará usando para medir 10 tendência central. Muitas vezes você pode realmente olhar para todos os três para entender algumas características a bordo dos dados. Então, esta é uma vista. Calcular tendência central. Suponha que você tenha um conjunto de observações como estas são os números. 1345578999 Então como você Então você tem 10 números anos conta de 10. Alguns desses números são 60. Apenas soma-os. E como é que me encontras? É alguns por contagem, que é 60 mordida, em seguida, sob o seis, o símbolo que é usado para média é o símbolo mula divertido. Tomate usado são geralmente me representam. A mediana não é nada além do valor médio. Se você olhar para a lista de números, o valor médio. Entre isso, 10 são aquele que diretório no quinto, abaixo do sexto na lista, e que é cinco e sete. Então você pega esses dois números cinco e sete Adam e divide por dois. Em você começa 66 é a mídia, eo motor é o número mais ocorrido na lista. Você verá que o número nove está ocorrendo três vezes, modo que se torna o modo. É assim que você calcula essas três métricas simplesmente sempre que você tem qualquer tipo de pacote de análise estatística. Na verdade, qualquer uma das linguagens de programação são as ferramentas que você tem fornecer bibliotecas ou funções para calcular todos os três deles. Então, basicamente, você não tem que estar bem na corte manualmente. Calcule-os. Você sempre terá algum tipo de função. Ajude nossa biblioteca a calcular qualquer uma dessas coisas. A próxima vem variantes. Variante é usado para medir como os valores são distribuídos em torno de uma média. Então você é a média, que é a tendência central. Mas como os valores são distribuídos em torno da média? Eles estão mais perto da média? Eles conhecem longe todos os amigos? Quero dizer, você pode ter números variando de 4 a 6 com um arquivo mais malvado. E você pode ter números variando de 1 a 10 com uma luta pior. Então, mesmo que para ambos os cinco piores, a distribuição desses números é diferente. 4 a 6 e 1 a 10. Como você mede essa distribuição? E para isso você usa variância e desvio padrão. Então você basicamente vê que se o muito em pequeno são o padrão, desvio é pequeno, o muito na variabilidade nos dados é muito pequeno. Se os valores são altos, a própria capacidade é muito Então, como você vai sobre a computação? Um desvio padrão muito intenso. Então, no lado direito você tem uma tabela, uma tabela de exemplo nesta. Mas você vai começar a calcular a variância e o desvio padrão. A primeira coisa que você faz sobre aqui você tem, como fogo pontos de dados 54635 e para a primeira coisa que você faz é computar-me a média do valor. Todos esses valores são para uma vez que você calcula a média dos valores. Em seguida, você começa a subtrair cada valor da média. Então você diz quatro menos a maldade. Quatro. Então, quatro menos por um 06 menos. Desculpe pelo meu seis é menos dois. Começou. Você está fazendo maldade menos o valor. Então, para menos seis é menos dois quatro. Menos três é um para menos cinco s menos um. Então você obtém todos esses valores. Então o que você faz? Seu Escudeiro? Todos esses valores. Então escudeiro de zero é zero. Silêncio. Menos dois são quatro unicidade. Uma unicidade menos um é 12 oeste para então o que acontece quando você Squires? Você está basicamente eliminando o valor negativo da lista. Uma vez que você faz este coro, você soma todos os quadrados, a soma de todos os quadrados que fazem o subtrair cada número da média e então você escudeiro Adama. E então você os resumiu e você obtém um valor de 10. E como você obtém variação é dividir este número 10 pela contagem. Então, há uma luta. Cinco valores lá dentro, alguns fora Squires. Os stents, ou 10 por cinco são dois. Então, a variação dos dados disse que é também. Então, mais uma vez, você subtrai cada valor da média escureceu-os para cima e, em seguida, alguns para cima. Todos os quadrados dividem para alguns fora Squires por dois. E isso é tudo que você tem brilho para encontrar. Desvio padrão. Apenas convidado dividido fazer é rota tranquila fora das variantes e, em seguida, você começa desvio padrão. Uma coisa que você percebe é que as variantes a medida fora variantes é geralmente a unidade de medida é geralmente o quadrado fora da unidade fora dos valores individuais. O que eu quero dizer sobre isso é supor que cada um desses valores representa distância. Digamos que cada um deles é milhas quatro milhas, seis milhas, três milhas. Então variantes é na verdade quando você o quarto porque ele está quieto. Todas as variações de valores de duas milhas ao quadrado. Então obtê-lo para obter o valor na mesma unidade em milhas, você tem que Squire montá-los e você obter desvio padrão. Então aqui estão os dados ditos: Onde estão onde você tem uma lista definida? Eles disseram que a distância e milhas, o principal é de quatro milhas sob o desvio padrão ist 1,41 milhas. Então isso é tudo que você representa os dados aqui para média e desvio padrão em movimento. A próxima coisa que você quer ver é cerca de quartil quartil é usado para encontrar. Basicamente, ele realmente dá a você uma medida de nossas coisas fora, então ele dá a você uma medida da tendência central que ele lhe dá. Medida do alcance. O intervalo não é nada, mas com o valor mínimo e o valor máximo em um conjunto de dados. Alguma medida de inquilinos e tendência central mediam o intervalo, qual é o valor mínimo no valor máximo sobre como os dados foram distorcidos? É inclinado para o valor mínimo são inclinados para o valor máximo. Todos eles são medidos usando cabo. Então, dado um conjunto de observações, como você encontra quart else? Você deu um conjunto de observações que ordenou em sequência em Divida-os em quatro conjuntos iguais . Então ela tem um conjunto de valores. O mesmo conjunto de valores que você viu anteriormente para computação significa em você dividi-los em quarto sentido igual. Portanto, cada serviço, a 25% contém 25% de desconto nos valores no conjunto de dados. Então, o primeiro valor que você vê é o valor médio. O que você vê no percentil 25 é chamado de primeiro trimestre. Neste caso, é quatro, O que você vê no 20º percentil é chamado o segundo trimestre abaixo da mediana. O que você vê no 3º 1 ou 75 percentil é o terceiro quartil em um. O valor máximo realmente forma o quarto quartil como um valor máximo. O valor médio mediana do primeiro quartil, valor máximo do terceiro trimestre. Então, olhando para esses cinco corredores, os homens primeiro quartil mediam o quarto do que no máximo. Na verdade, ele usa a sua imagem agradável fora de como os dados são distribuídos. Uma coisa que você quer ver é lá entre o valor médio e a mediana, 50% dos valores ocorrem. Quero dizer, valor e mediana 50% dos valores novamente. Da mesma forma, entre a mediana e o valor máximo, outros 50% dos valores ocorrem. E o mais importante, entre o primeiro trimestre no terceiro trimestre, 50% de desconto nos valores, direita, primeiro trimestre e terceiro trimestre, 50% dos valores ocorrem. Então é assim que você olha e tenta caracterizar os dados e deixá-los ir e olhar para alguns exemplos aqui. Então, aqui está um conjunto de dados conjuntos todos os mesmos valores min e Max, mas dá-lhe como os dados podem variar e ter você pode interpretá-lo. Vejamos os primeiros dados e usando 1358 10. Isto é igualmente distribuído. Por que isso é igualmente distribuído é o melhor ins entre o minuto para primeiras quantidades como dedo do pé entre o primeiro e reunião Isso, como a mídia e terceiro quartil é como três, então é tipo de distribuído uniformemente entre cada um dos esses números. O 2º 1 que você vê é que a maioria dos valores estão mais perto dos centros. Você vê que 1456 e 10. Então, entre o primeiro e o terceiro trimestre, isso é quatro e seis. Você verá que 50% dos dados ocorrem USO 50 pessoa fora dos números em seu data center entre quatro e seis, enquanto o total varia entre um e 10. Assim, ele lhe dá outro tipo de variação onde um número de becos estão intimamente reunidos na mediana. Mas há um monte de valor lá estão eles frente eles, então é tipo de certos valores estão fora, mas a maioria deles são embalados na mídia. Terceiro conjunto de dados é onde você vê 1237 e 10. Então, mesmo que os intervalos entre um e 10 a história da reunião então 50% dos valores que eu apenas cobriu em 100 em outra 50 pessoa junta entre três e 10. Então é meio inclinado para a esquerda e você olha para a próxima rodada, você vê que o risco de dividir porque a mediana é sete. Então, entre sete e dez ou 50% dos seus valores, mas temos sido um contra sete, outro 50%. Então, mais comícios estão ocorrendo entre a mediana e a maxila apenas repetindo, enquanto há menos número de valores ocorrendo entre os homens e a mídia. Esta é uma boa apresentação fora. Você sabe, olhando para isso é como você olha para os dados e tentando descobrir, mas menos olhando para o trimestre. Você tenta encontrar uma série de coisas sobre os dados. Você gosta de ver o que a tendência central, qual é o alcance dos dados e eles distribuídos uniformemente, são resgatados, até parecem reais, todos eles apenas olhando para as quartas de final. A última coisa que queremos olhar para ele. Alguém comece as varas é o que nos chamamos de “outlier ”. Então, o que é um outlier em nosso jogador? É um valor de arte ocorrendo em um conjunto de dados sobre o vestido tipicamente para axinn tema ou o iminente do deserto? Porque ele já é, obviamente, vai ser para ele para o máximo e ímpar iminente do conjunto de dados todos os jogadores. Por que eles são importantes na análise é que eles pretendem começar o alguém começou varas do conjunto de dados. Então, se você estiver usando dados sem formação de jogadores aprendendo, ele pode começar o comportamento fora seus algoritmos de aprendizagem missão para Então essa é uma das principais coisas que você quer lembrar . Há jogadores são muito importantes quando você está passando dados para o algoritmo de aprendizagem de missão . Um exemplo aqui é geralmente você tem um conjunto de observações como 1245 em 20. Obviamente você vê imediatamente que 20 é como um número artístico sentado lá, é por isso que chamamos de “outlier”. Então, sem jogadores. Então vamos uma bandeja que tinha se desviado para calcular a média e desvio padrão desses dados disse com e sem nossos jogadores. Então, sem jogador, você vê o mais médio 6.4 eo desvio padrão de 6.94 Mas você remove o seu jogador e apenas pegar os 24 números 124 e cinco e tentar calcular a média Agora ver a média é apenas três, e desvio padrão é de apenas 1,5. Isto é o quanto e espero que você pode começar. Você é números, então você tem que ter muito cuidado com todos os jogadores. Sempre que você olhar para os dados seg e você tem que decidir que você quer manter os jogadores antigos para sua análise financeira não são. Caso contrário, terá esse tipo de desempenho distorcido. Pode dar-te uma ideia errada. Análise errada, ações erradas, todo tipo de coisas. Então você quer ter muito cuidado com nossos jogadores. Então isso completa nossa discussão sobre alguém começou 4. Distribuições estatísticas: Oi. Este é o seu instrutor, Cameron. Aqui estamos agora tentando ver na seção sobre distribuições. As distribuições estatísticas são distribuições de probabilidade. Distribuições são uma maneira Bischel fora de algumas corridas e mostrando tendências em você. Se você já foi usado Toe Analytics, você estará vendo muito sobre essas distribuições que em sua vida real. Então, o que são as distribuições de distribuição? Mostra como os valores de dados são espalhados em um dado. Observação disse que você tem um conjunto de dados. Você é colecionador. Número de observações ou amostras são exemplos. E então você está tentando descobrir como esses valores são distribuídos em um determinado conjunto de dados. Então, como você está? Distribuições é distribuições basicamente continha um conjunto de compartimentos. Os compartimentos são nossos grupos são mostrados no eixo X. Então, neste gráfico de exemplo no lado direito, os compartimentos são realmente como os tipos de feedback que você obtém como excelente. Muito bom, Good Farron mau. Então, cada um é um estado. Em seguida, você conta o número de observações que ocorreram em cada um dos compartimentos. Então suponha que você coletou feedback de, digamos, 50 pessoas e então você quer mostrar como a excelência maney você tem quão maney muito bem você tem. Como bens maney você tem em. Isto é como você mostrá-los em uma distribuição é você bife cada fora do tipo off classificação e colocá-los no eixo X e, em seguida, a contagem que você encontrar seu telefone como cinco colocar no eixo Y. E é assim que uma distribuição seria. É assim que você faz para um dado categórico ou comum. E quanto aos dados de intervalo ou proporção? No caso de intervalo ou proporção, você é Os compartimentos são geralmente intervalos fora de valores. Você os converte em intervalos de valores como 1 a 10 10 a 2020 a 30. Normalmente, eles são intervalos de tamanho igual. E então você mostra como os valores maney ocorreram em cada um desses intervalos. É assim que você faria uma distribuição para dados de intervalo ou proporção. Aqui está um exemplo de como você construiria uma distribuição. Então, no topo, você vê, como número 10. Então estes são os seus dados, disse que os dados disseram. Tem 10 números neles. Quero construir uma distribuição. Como faço isso? Primeiro, eu crio Stubbins de Ben mostrado aqui é que eu estou tentando criar caixas na faixa de dois números . Eles querem fazer 3 para 4567 para oito e nove hoje, e, em seguida, cada valor é tomado e colocado no sido correspondente. Então, os valores mais rápidos para eu pegar este quatro e colocar no compartimento 3 a 4 porque esse é o intervalo em que ele cai. Então você pega sete em colocá-los no no ben 78 porque isso é o arranjo em que cai em. Em seguida, você continua fazendo isso para cada valor que você encontrar no conjunto de dados. E, finalmente, você conta o número de valores que ocorrem. Cada um dos foram o número de valores de 1 a 2. O sido quer fazer há três valores seu país. Então, uma vez que você tem a contagem depende você plantar os grãos no eixo X. 123456 789 10 e sangue. As contagens no eixo Y em. Então você pop. Colocar nos pontos de barras são tudo o que você no show e é assim que você constrói um gráfico de distribuição para um determinado conjunto de dados. Agora, quando você tem distribuição que são diferentes formas. Você acaba quando faz uma distribuição. Então, quando você tem, quando você tenta desenhar liso nessas parcelas ou aqui, vamos dizer Volte para a distribuição anterior e você tenta desenhar SMU, treinar no enredo assim. Então, um dos que você dirige distribuição, você pode realmente desenhar um pequeno avião no topo de todas as barras. No topo dos pontos, você obtém uma forma na forma. Tipicamente, que as minas eram uma espécie de distribuição. É assim que existem diferentes tipos de distribuição, como a distribuição em forma de J. Você diz que os valores são os menores Ben tem muito fora valores do que os compartimentos mais altos no caso. Fora de uma distribuição normal, você vê que os compartimentos do meio têm a maioria dos valores na na parte inferior e superior para saber que esse número de dinheiro de valores no caso de uma distribuição retangular, todos os compartimentos têm igual número de valores em uma distribuição de modelo de compra. Você vê, os dois solavancos são duas montanhas nas distribuições de que é onde ele é chamado por modelo, então há um não na parte inferior dito. Há um sido que tem um monte de valores no lado superior, há uma vitória que tem um monte de valores. Depois, há os positivos. Q. E os negativos Que onde na morte do pastor, enquanto os ossos inferiores tipicamente têm um número mais de valores. No caso do Studi negativo, eventos maiores têm mais número de valores. É assim que a distribuição que são diferentes tipos de distribuições que normalmente estão lá. Então vem a coisa mais importante chamada distribuição de probabilidade. Então, o que é uma distribuição de probabilidade? Este é um conceito um pouco complexo se você quiser prestar mais atenção para tentar compreendê-lo , então ele atribui uma probabilidade toe cada substituto mensurável off. Possíveis resultados muitas vezes experimentam novamente. Há muita complexidade aqui. Vamos classificar um por um. Você tem uma experiência. Um experimento não é nada, mas estou coletando dados. Então, um homem extra, talvez como eu esteja tentando encontrar entre 100 pacientes. Sabe que tipo de Ohka acha que eu tenho 100 pacientes? Quero descobrir quais são as faixas etárias desses pacientes. Quando queriam a minha camisa, a idade varia entre estes pacientes e eu quero um plano de distribuição regular . O que eu faria normalmente é tirar a idade dos 100 pacientes desse paciente colocá-los em baldes de 0 a 10. 10 a 2030 22 30. Como isso ligado. Então eu quero colocar a contagem no eixo Y e tirar bom sangue. Isso é uma distribuição regular. Agora, o que faz uma distribuição provavelmente é em coisas plotando a contagem no eixo Y. Vou percorrer a probabilidade de cada uma destas gamas ocorrendo. Então, como faço isso? Deixe-me voltar ao enredo anterior e depois mostrar-lhe o “Não”. Aqui está a distribuição de área que você construiu. Mas o sol sido brilhou no eixo X e conta com o eixo Y. Agora só mudo o dedo do pé. Provavelmente estar em espera. Eu deveria ter tirado cada uma dessas curvas. É muito simples. Você só pega a contagem em cada um dos compartimentos, fique preocupado com o número total de valores e que se torna a probabilidade para cada um com ser assim, neste caso, o número total de valores fora para conter a contagem, e há Tem sido um dedo do pé fazer uma rua. Então três. Mas, em seguida, o nosso 30.3 é a probabilidade do sido queredpara apontar para a probabilidade do sido o que? Lindo. Então você grava provavelmente no eixo Y Ben no eixo X que se torna sua distribuição de probabilidade . Vamos voltar para o outro slide e começar a cavar um pouco mais fundo. Então, neste caso, digamos que eu tenha envelhecido no eixo X sobre a probabilidade de um paciente ter essa idade visto no eixo Y, que você está medindo dizendo que estou coletando dados de 100 pacientes e então eu estou colocando-os todos em uma distribuição e, em seguida, convertendo fazer uma distribuição provavelmente com a técnica Nós apenas ancorado ervas. Então cada possível rangers parte em torno do eixo X, que é, como dissemos, H 0 a 10 10 a 2020 a 30 em diante, então o provavelmente esse grupo etário em particular ocorre é o ponto no Eixo Y. probabilidade é sempre um valor, mas sendo 0 a 1. Então vimos que pode ser como se 30 agentes ditassem 30 pacientes em cada 100 pacientes são da faixa etária de 20 a 30 anos. A probabilidade de 20 a 30 é de 30 por 100. Sob este 1000.3, você pode ter provavelmente distribuições para serem discretas ou contínuas. Discreto significa que eles podem ser apenas Vince são. Pode ser. Você pode usá-los para plotar, continuar um conjunto de valores e, em seguida, traçar uma boa cobertura sobre eles, também, para que você possa fazer ambos em termos de distribuições de probabilidade. Uma das distribuições mais populares que você vê é chamada de distribuição normal são a distribuição Goshen. Então, o que é uma distribuição normal? R. distribuição normal é a distribuição onde quando você bloquear valores fora, dado conjunto de dados em um gráfico, ele leva o navio fora e nosso Melco Então você plotar os valores em um gráfico em um dados Devon e sob os dados leva o que é chamado normalmente olhando enrolado. O que é um carro normalmente procurando? Vamos ver o gráfico lateral direito. Um carro normal normalmente tem, supondo que eles são simétricos sobre a média, que significa que você toma a média, que é a barra do meio. Você vê o gráfico sendo cimentado. Ambos os lados são tipicamente os mesmos. Não há escunas. À esquerda estão escunas à direita ou qualquer coisa como um por moderno qualquer coisa assim. Portanto, é igualmente simétrico sobre a média. E há outras características sobre uma distribuição normal em que é ver. Vamos começar tentando entender o que cada uma das médias que diz, cerca de 68% de desconto nos valores de nossa vida dentro de um desvio padrão fora da média O que isso significa ? Então o mau é o irmão no meio? Mas só chamamos aqui de perito. Poderíamos ter ligado de novo. Há um pouco diferente, mas não queremos entrar nisso. E então o que faz X mais um sigma no que é X menos um sigma? Suponha que você sabe, dados dizem que a média dos valores é luta. Entenda que o desvio é muito tão X mais um sigma é cinco mais dois que um sete x menos um significa três. Assim, entre 3 a 7 68% dos valores ocorrem. Assim, os dados disseram que tinha 100 valores com um foram média off cinco e desvio padrão de para 68. Fora deles seria entre os valores três e sete. Deixe-me repetir. Eu tenho um dia faz isso fora 100 valores com uma média de cinco desvio padrão de 68. Fora deles será entre três e sete. Mas só, quero dizer mais um sigma e mineiros médios Uma vez que, então, você diz que 95% deles estarão entre dois desvios padrão da média, o que significa que 95% dos valores estarão entre expresso para um X menos dois, que é lutar mais fazer para fazer quatro. Então cinco mais quatro e cinco minutos para entre, Por que os valores um e nove, 94% dos valores estariam ocorrendo. Então você só mostra como os valores seriam distribuídos uniformemente se os valores são distribuídos desta maneira e confirmando o dedo do pé esta partícula de forma sobre esses números, torna-se uma distribuição normal na distribuição. Então, por que você quer que nós descubramos se seus dados são normais ou não? Porque uma vez que você sabe que seus dados parecem uma distribuição normal, há muitas fórmulas padrão padrão embutidas que você normalmente pode começar a jogar . Há um conjunto de pressupostos regulares que você não pode começar a aplicar aos seus dados. Você não tem que sentar e computar um monte de coisas. Muitas coisas já estão calculadas para você. Há agricultores e bibliotecas disponíveis para você, que você pode começar a usar se você sabe que seus dados são normalmente distribuídos em. Normalmente, também é dito que a maioria dos dados diz que você vai encontrar será normalmente distribuído. Palestras. Ok, sob à esquerda, disse, disse, Você vê outro gráfico que está dando-lhe como a distribuição normal vai olhar como para diferentes valores de mu. Em diferentes valores estão variantes do desvio padrão clássico de Myers de Sigma. Sigma Squired é radiante. Então, que valores diferentes de você e da divisão padrão? Como esses valores se parecem? Só as capas rápidas? Muito estreito. Isso é porque você vê os desvios padrão do espelho as variâncias muito menos como uma variância continua aumentando, a altura da curva desce na dispersão do CO sobe. Então isso é tudo que você vê. Diferentes distribuições normais estão tomando forma. Aqui está um exemplo de uma distribuição normal. É sobre funcionários de uma fábrica de cereais. Ele mostra sobre o número de anos que as pessoas trabalham e quantas pessoas caem nesse número específico fora da sua categoria. Assim, o número de anos tem plotado no eixo X. A frequência é frontal em torno do eixo Y. Isso significa o número de pessoas. Então vamos dizer que o único olhar para o número de nós trabalhar este oito há 100 de seu próprio povo em que um particular tem sido no meio fora. Estes dados são 10,21 O desvio padrão é 4,1. Então, quando você olha para uma figura como esta, ele imediatamente lhe dá uma bela imagem. Isolação de como os dados são espalhados. Você olha para as polegadas da imagem da justiça. Ok, estes são todos os meus dados. Parece que a média é por volta das 11. 11. Basta olhar para o gráfico. Você pode facilmente ver o mais mau em torno de 11. Eles fazem bem, espalhar o seu próprio, não distorcido. De qualquer forma, talvez você possa fazer algumas suposições sobre eles. Em seguida, vem uma distribuição muito importante chamada de distribuição por modelo por distribuição de modelo por uma distribuição nominal. Uma distribuição binomial é sobre dados em que a data olhos ou zero ou um. Não é um número oficialmente um 01 Suponha que você tenha um teste, que é você já desencadeou 100 pacientes. E você quer dizer, esse paciente tem câncer ou não? Então isso é um teste. Então você tem 100 pacientes. Você faz essa pergunta 100 vezes para cada um desses pacientes, você fez. Eu respondi com apenas um ou zero ou s ou não, vez que é apenas dois valores possíveis, ou seja, por sua chamada por um exército de em uma distribuição para esse tipo de dados é chamado distribuição binomial. Então, como traça uma distribuição binomial? Suponha que você tem é basicamente descreve uma probabilidade de um valentão, um resultado que é dizer que se eu tiver sob pacientes, qual é a probabilidade de que 30 pessoas tenham 30% de desconto em meus pacientes? Nós amamos câncer. Qual é a probabilidade de 50 de desconto meus pacientes terem câncer? Qual é a probabilidade de Sandy dos meus pacientes ter câncer? Isso é o que uma distribuição binomial geralmente tenta responder. Então vamos dizer o exemplo do lado direito, talvez sejamos como 10 pacientes, ok? E fora deste 10 pacientes estavam tentando encontrar a probabilidade de que para os pacientes têm câncer e que provavelmente estes apontam para ter 20% de desconto em meus pacientes. Qual é o problema com isso? Cinco pacientes podem ter câncer na probabilidade de estar em algum lugar aqui, como 50,12 são 12% dos pacientes. Então, se você tem, tipo, uma série de ensaios neste ensaio e nada além do número de observações neste caso que o número de pacientes, se eu tiver um número de pacientes e eu tenho kay, é o número de sucessos, Kay é o número de pacientes entre isso em que podem ter câncer. Qual é a probabilidade de você estar tentando uma forte distribuição de probabilidade e dizer, ok, qual é a festa que 10% dos pacientes, 20% dos meus pacientes, 30% dos medicamentos terão câncer. Então este é um enredo de toda a probabilidade. Então o problema é traçado no eixo Y o número de observações em ensaios no eixo X do número de pacientes e, em seguida, você apenas nossa barra de como você gostaria de olhar para isso. Aqui está um exemplo de distribuição binomial. Neste caso, o que você está fazendo é que você está tentando jogar uma moeda para vezes em que você joga uma moeda quatro vezes , que não é nada, mas quatro observações são quatro exemplos ou quatro tentativas cada. Para cada julgamento, você vai obter um binômio para cima. Vai ser cabeça ou cauda. Portanto, há apenas duas saídas possíveis em cada teste, cabeça ou cauda. Então você está tentando fazer todos os quatro testes e ver como eu posso ficar maney total cabeças. Então, quando você faz um flip off moedas quatro vezes, estes são todos a combinação possível. Há 16 combinações possíveis de como você teria cabeça nosso dia e eles são realmente mostrados aqui. Você pode ter cabeça, cabeça, cabeça cabeça. Ele tinha assumido talvez alguém como cauda de cabeça, cabeça de cauda. Então, embora o 16 observações você tentando encontrar quantas vezes eu vou entrar neste você personalizado produto com um gráfico aqui e dizer excesso, observando pelo número fora dele. Então, quantas vezes você vai ter zero cabeças? Então esse foi um que é quando você começa todas as histórias um em 60. Então bem, um outro 16 o provavelmente dividido por 16 é 160,6 para 5. Qual é o provavelmente eu vou chegar apenas a uma cabeça. Você tem quatro vezes nesta lista. Você verá que há quatro vezes que só terá uma cabeça. Então isso é quatro por seis vezes Howard. Eu tenho apenas 62 cabeças que tem seis por 16 Onley três acertam quatro por 16. Eu quero você. E onde arranjas as testas? Isso é ganho por 60. O euro é legal. Provavelmente isso está vindo aqui em cima. Então você vai com ela e sangue. Este é o número de hits que você iria obter para baixo o eixo X no provavelmente estar no eixo y. E você pega essa bela Belka assim. Isto é o que um exemplo de uma distribuição binomial. E você pode usar isso para descobrir. Você sabe como é a propriedade que eu vou chegar e então você pode olhar para Ok. É assim que a probabilidade é distribuída. Então isso completa nossa discussão sobre distribuições. Obrigado. 5. Correlações de estatísticas: alta nesta seção, vamos falar sobre correlação. Correlação é a base fora dos sinais de radar e aprendizagem de missão Você continua falando sobre quando fala sobre sinais de dados sobre sinais sobre a percepção, informação, conhecimento, todos os tipos de coisas. A base de todos eles é a correlação. Quando você conhece o aprendizado de missão, você está tentando proteger algo, mas algumas outras coisas. Aquilo que estás a tentar prever é o alvo. Essa coisa que você está tentando usar para prever é chamada de variável Preditora no dedo do pé. Preveja o alvo. Tem que haver uma correlação entre o preditor e o alvo. Se você tiver correlação, você pode usar o aprendizado de missão para prever. Se você não tem correlação, então você não pode fazer nada. A correlação é a base dos dados que os santos negociaram. Aprenda algo mais abortado. Então, o que é correlação? Correlação é uma conexão de relacionamento mútuo entre duas ou mais coisas. Portanto, há duas coisas que são representadas por dois conjuntos de números. Quando você diz correlação, isso significa que quando um conjunto de números, quando o valor sobe, o outro também sobe ou o valor desce de um lado. Desvalorização também ir pedra do outro lado. Então, no lado direito você tem um gráfico entre a pressão negra e a idade. Você vê que, à medida que oito aumenta, a pressão arterial também aumenta ou diminui. Isso mostra a relação entre a variável idade e a variável pressão do pão. Sobre isso, o que chamamos de correlação de perguntar. Quando uma coisa sobe, a outra também sobe. Mostra a interdependência entre dois conjuntos de valores são a interdependência entre dois valores duas variáveis. Então a correlação, como dissemos novamente, é com a correlação entre dois conjuntos de dados é o quanto um muda quando o outro também muda, quanto um muda, Quão perto um muda quando o outras mudanças também? E é a base dos sinais de dados. Como acabei de explicar, correlação é necessária entre a preditora e as variáveis alvo para que você faça previsões precisas. E aqui vimos um exemplo de correlação de medição da idade e da pressão arterial. Como você mede a correlação? Há uma série de maneiras que o braço garante, que temos usado para medir a correlação, mas o mais importante e o mais popular é o que chamamos de coeficiente de correlação de Pearsons . Nós estaríamos usando essa medida de coeficiente em todos os nossos exemplos em modelos de análise preditiva . Então, por favor, preste muita atenção a isso. coeficiente de correlação de Pearson é um número que vários entre menos um e mais um, quanto mais próximo o valor é dois menos um. Essa correlação mais negativa é mais próxima. O valor é dois mais um. Quanto mais positiva a correlação está no mais próximo, o valor é 20 Não há correlação sobre os exemplos para eles são realmente mostrados nos vários gráficos na parte inferior. Então suponha que você pegue duas variáveis e sangue uma no eixo X no outro no eixo Y em cada data separada e em cada exemplo. Nossa amostra deste produto aqui neste gráfico. Mas, disse ele, há uma correlação positiva perfeita no valor. É um que você vê que, à medida que aumenta o excesso de acesso, por que também aumenta em um plano realmente, realmente reto? Quando a correlação é como 0,8 correlação altamente positiva, você verá que eles quase caem em uma perna reta. Mas há pequenos altos e baixos em algum lugar quando seu valor de 0,3, que é baixa, correlação positiva, os valores começam a se espalhar, mas eles ainda estão meio que cair em uma linha reta, você sabe, alguma palavra em linha reta, mas há muitas variantes quando não há correlação. Claro, os valores estão em todo o lugar quando o valor zero e correlação negativa é quando um valor sobe a outra cidade fantasma, isso é o que você chama de condição negativa. Um sobe, o outro desce. Então, o mesmo encanamento no X e y você vê que quando há baixa correlação negativa, os valores estão em todo o lugar. Mas ainda está um pouco caindo em uma linha reta decrescente. Quando ele se move em uma alta correlação negativa, é quase uma linha reta em um negativo perfeito. A correlação é que foi uma linha recta em declínio. Portanto, esta é a nossa correlação entre dois conjuntos de valores pode variar entre si. Era importante para você continuar plotando seus dados nesse tipo de gráficos e continuar olhando para essa droga e vendo como, que tipo de correlação eu estou vendo nos gráficos e qual é a minha essência ser? Coeficiente de correlação mediu o que cada um deles uma coisa muito importante que sabemos não perceber sobre a correlação é qual é a relação entre correlação e causalidade. Então, a correlação como vimos, é que a relação entre dois valores a causação é a razão para uma mudança no valor. Você tem variavelmente e variável estar em quando a variável a sobe. Onde você estará também sobe. Isso significa que a variável um ISS, os carros fora da batida variável? Vamos tirar um exemplo simples. A relação iria invadir os níveis de colesterol da Andi. Você normalmente veria que, à medida que o peso sobe, os níveis de colesterol também sobe. É uma causa? Esperar é uma causa para a faculdade para os níveis de colesterol ir? Sim, isso é porque está cientificamente provado que quanto mais fora de onde você pesa tipicamente mais longe você tem em seu corpo em. Isso significa que vai ser uma série de científicos, não há razões para que você esteja tendo mais colesterol. Portanto, há uma razão para haver uma explicação para esta causalidade que quando o peso sobe, seu nível de colesterol também sobe. Façamos a pergunta inversa. O nível de colesterol é a concisão para esperar? Não, só porque seu nível de colesterol sobe não afeta o peso porque cientificamente refutado, é o peso que está afetando o colesterol, não o contrário. Certo? Heurística. Então a correlação pode não na causação do jogo, modo que isso é outra coisa importante. Então só porque para radia, as contas são mais tarde umas às outras só porque para usar objetos um sobe, o outro sobe não significa que um é uma causa para o outro. Então eu digo outro exemplo do tamanho do peito. Certo, vamos compactar. Tamanho do vestido contra o colesterol. 11. Quando o tamanho do vestido aumenta, normalmente o nível de colesterol também sobe. Isso significa que você é apenas o tamanho é a causa do nível de colesterol? Não, eles são dependentes. Eles estão correlacionados com 100. Mas a unicidade, não a causa para os outros tiveram. Na verdade, 1/3 custo eram apenas o seu peso. Então espere é a causa que então há uma correlação entre seu peso e tamanho do peito entre seu peso e níveis de colesterol e Vader, a causa que seus níveis de colesterol sobe em seu tamanho de vestido causa. Então correlação feita, talvez fazer a correlação entre duas variáveis pode ser fazer a causação. Eles podem ter um custo comum, como o tamanho do vestido na duh. Os níveis de colesterol têm um custo comum como maneira, ou pode ser apenas apenas incidental. Pode não haver razão. Então você tem que fazer. Sempre que você vê uma correlação entre duas variáveis, você tem que ir em frente, descobrir. Por que eles estão correlacionados um com o outro? Há alguma causa envolvida? Isso é uma causa comum na bola lá? Puramente incidental. Quando você tenta prever algo no aprendizado de missão, você quer as variáveis preditoras, Toby a causação para as variáveis alvo. Isso é quando a previsão será boa no futuro, quando suas variáveis preditoras são a causa para suas variáveis-alvo, há. Comissão Brent Aprendizagem vai ser bom se isso estiver faltando. Se o relacionamento for puramente incidental, não há garantia de que a correlação que você vê hoje também acontecerá amanhã se a relação for apenas acidental. Então você quer sempre ir e olhar para a razão pela qual algumas variáveis estão correlacionadas umas com outras quando você está fazendo o aprendizado de missão. Então aqui está um exemplo de uma relação entre as taxas de fatalidade da estrada dos EUA e limões frescos importantes os EUA EUA do México, uma coisa interessante que você vê é que pedir os limões frescos importantes do México. Continue indo para baixo. O para o primeiro foi menor. A taxa de fatalidade é alta. Então, por que a taxa de fatalidade na rodovia U S é alta de acidentes rodoviários quando as importações EUA EUA dos EUAdo México são baixas? Isto é puramente incidental. Como você vê, isso é culpa do tempo. Então pode haver duas coisas independentes diferentes que podem estar acontecendo neste piscar de tempo , o que está afetando ambos. , Mas os EUA EUA eu estava mais tarde não tem nenhuma relação com os limões frescos importados os EUA EUA do México. Então você e lá você vê uma correlação aqui. Não há razão para acreditar que há algum relacionamento um com o outro. Então você tem que ter muito cuidado quando você vê a correlação entre duas variáveis. Estabeleceram a verdade fundamental sobre por que veem este tipo de relacionamento. Isso completa a nossa discussão sobre as correlações. Obrigado