Fase de analise do GreenBelt Six Sigma do Lean: teste de hipótese usando Microsoft-Excel e Minitab | Dimple Sanghvi | Skillshare
Menu
Pesquisar

Velocidade de reprodução


  • 0.5x
  • 1x (Normal)
  • 1.25x
  • 1.5x
  • 2x

Fase de analise do GreenBelt Six Sigma do Lean: teste de hipótese usando Microsoft-Excel e Minitab

teacher avatar Dimple Sanghvi, Master Black Belt, Data Scientist, PMP

Assista a este curso e milhares de outros

Tenha acesso ilimitado a todos os cursos
Oferecidos por líderes do setor e profissionais do mercado
Os temas incluem ilustração, design, fotografia e muito mais

Assista a este curso e milhares de outros

Tenha acesso ilimitado a todos os cursos
Oferecidos por líderes do setor e profissionais do mercado
Os temas incluem ilustração, design, fotografia e muito mais

Aulas neste curso

    • 1.

      Introdução de analíticos de dados

      3:12

    • 2.

      Trabalho de projeto

      0:51

    • 3.

      Minitab

      2:16

    • 4.

      o que é estatística descritiva

      4:32

    • 5.

      Entenda o enredo de caixa parte 1

      5:22

    • 6.

      Entenda o enredo de caixa parte 2

      7:37

    • 7.

      Entenda a testofHypothesis

      5:27

    • 8.

      Entenda tipos de erros

      4:49

    • 9.

      Entenda tipos de erros-part2

      5:57

    • 10.

      Lembre-se do jingle

      4:34

    • 11.

      Seleção de teste

      5:40

    • 12.

      Entenda 1 teste t de sample

      6:57

    • 13.

      Entenda 2 exemplo de teste t 1

      5:32

    • 14.

      Entenda 2 exemplo de teste t de sample 2

      3:14

    • 15.

      Entenda o teste t emparelhado

      3:59

    • 16.

      Entenda um teste de amostra Z

      5:16

    • 17.

      Entenda uma proporção de amostra teste-1p-teste

      4:01

    • 18.

      Entenda duas proporções de amostra teste-2p-teste

      1:39

    • 19.

      Proporção de duas amostras test-2p-teste-Exemplo

      2:21

    • 20.

      Usando o Excel = um teste t de amostra

      6:51

    • 21.

      Entenda os dados não normais

      15:15

    • 22.

      Conclusão

      2:25

  • --
  • Nível iniciante
  • Nível intermediário
  • Nível avançado
  • Todos os níveis

Gerado pela comunidade

O nível é determinado pela opinião da maioria dos estudantes que avaliaram este curso. Mostramos a recomendação do professor até que sejam coletadas as respostas de pelo menos 5 estudantes.

401

Estudantes

23

Projetos

Sobre este curso

Este programa abrangente de Bootcamp de Analytics de Dados abrange os conceitos de base de estatística, analise dados usando o Minitab

  • Aprenda sobre
  • Básico de estatística
  • Estatística descritiva
  • Resumo gráfico
  • Distribuições
  • Histograma
  • Boxplot
  • Gráfico de barras
  • Gráfico de pizza
  • Teste de hipótese
  • Tipos de erros
  • Um teste T de amostra
  • Teste T de duas amostras
  • Teste T emparelhado
  • Annova de um só de ida
  • Teste de qui-quadrado

Para quem é esse curso?

 Qualquer pessoa que seja estudante de Lean Six Sigma ou queira entender e aplicar estatísticas  e análise gráfica

Lições principais

  • Entenda como fazer análise básica
  • Entender e aplicar as ferramentas necessárias durante a fase de medição e analyse dos projetos Six Sigma.
  • Que gráfico usar quando?
  • Alguns erros comuns que cometemos quando fazemos análise gráfica
  • Criar gráficos para desenhar a conclusão

Conheça seu professor

Teacher Profile Image

Dimple Sanghvi

Master Black Belt, Data Scientist, PMP

Professor

Empowering People to unleash their brilliance, and create impact | Consultant | Independent Director on Corporate Board, NSE & BSE | Lean Six Sigma Master BlackBelt | Leadership Coach & Mentor | Specializing in AI, ML, Data Science Coaching | Pet Lover

Let's connect on LinkedIn for professional growth and networking opportunities https://www.linkedin.com/in/dimplesanghvi/
Talks about #chatgpt, #dataanalytics, #coachingbusiness, #storytellingwithdata, and #leansixsigmablackbelt

Join me Join my Telegram channel to embark on the journey of Lean Six Sigma and Storytelling, where I'll share my expertise on data-driven insights, process optimization, predictive analytics, AI, ML, data science, and even ChatGPT. My commitment is to help others achieve results by sharing my kn... Visualizar o perfil completo

Level: All Levels

Nota do curso

As expectativas foram atingidas?
    Superou!
  • 0%
  • Sim
  • 0%
  • Um pouco
  • 0%
  • Não
  • 0%

Por que fazer parte da Skillshare?

Faça cursos premiados Skillshare Original

Cada curso possui aulas curtas e projetos práticos

Sua assinatura apoia os professores da Skillshare

Aprenda em qualquer lugar

Faça cursos em qualquer lugar com o aplicativo da Skillshare. Assista no avião, no metrô ou em qualquer lugar que funcione melhor para você, por streaming ou download.

Transcrições

1. introdução de análise de dados: Olá amigos. Vamos começar com este programa de treinamento, análise de dados de cantos usando o MiniTab. O que você vai aprender neste curso? Portanto, as habilidades que você aprenderá neste curso são algumas noções básicas de estatística. Estaremos cobrindo estatísticas descritivas, resumo gráfico, distribuições, histograma, box-plot, gráficos de barras e gráficos de pizza. Vou montar uma nova série sobre teste de hipótese, que vou compartilhar no link como um link no último vídeo. Mas vamos primeiro entender todos os diferentes tipos de análise gráfica. Quem deve assistir a essa aula? Qualquer pessoa que tenha, que seja estudante do Lean Six Sigma, que queira obter a certificação Green Belt, Black Belt ou que queira aplicar estatísticas e análises gráficas em seu local de trabalho. Mesmo que você seja um empreendedor ou um estudante e queira entender estatísticas usando o MiniTab. Eu vou cobrir tudo isso. Vamos aprender quais erros geralmente acontecem quando estamos analisando. Porque quando fazemos análises usando pontos de dados baseados em teoria simples, tudo parece ser normal. Então, vou mostrar algumas armadilhas nas quais nossa análise falhará e como você deve evitar essas armadilhas. Vamos tentar, no final deste programa, você, o que você vai tirar desse programa? Você entenderá como fazer algumas análises básicas. Você entenderá quais são as ferramentas necessárias durante a fase de medição, como cálculos de capacidade e assim por diante. Usaremos durante a fase de análise, se possível, para cobrir o teste de hipótese. Caso contrário, se conseguir, o vídeo fica maior, vou colocá-lo como uma visão separada. Ivan também cobre qual gráfico usar quando temos alguns erros comuns e realizamos análises gráficas e criamos gráficos. E como faço para obter insights e conclusões desses gráficos? Isso realmente ajudará você a entender esse programa muito bem. Vamos ver o que é um Minitab? O Minitab é um software estatístico que está disponível e tem várias regiões. Então eu vou encontrar um novo projeto. Minha tela do Minitab se parece com isso. Eu tenho um navegador no lado esquerdo. Tenho minha tela de saída na parte superior, minha planilha de dados, que é muito parecida com uma planilha do Excel, com a qual posso trabalhar. Posso continuar adicionando essas planilhas e ter muitos dados. Posso fazer muitas análises usando minhas opções. Vamos cobrir estatísticas básicas, regressão. Estaremos cobrindo muitas estatísticas básicas e cobriremos muitos gráficos usando diferentes tipos de dados, certo? Então, se você estava interessado em saber essas coisas, você definitivamente deveria se inscrever e assistir ao meu vídeo. Muito obrigado. 2. Trabalho de projeto: Vamos entender qual é o trabalho de projeto que vamos fazer neste programa de análise de dados usando o MiniTab. Como eu disse, vamos trabalhar com o MiniTab. E este é o Minitab que eu vou usar. Também compartilharei com você uma folha de dados, folha de dados do seu projeto, onde tenho vários exemplos, onde estamos fazendo cálculos sobre a capacidade. Vamos tentar ver as distribuições e você pode ver que existem várias guias. Exemplo um exemplo dois exemplo três, vamos tentar fazer alguma análise de tendências. Vamos tentar ver gráficos de Pareto. Temos muitos dados que foram compartilhados com você, o que lhe dará uma experiência prática no trabalho com dados, certo? Então, vamos começar. 3. Minitab: Nesta aula, vamos aprender sobre o teste de hipóteses. Vou te ensinar testes de hipóteses usando o MiniTab. Também vou ensinar testes de hipóteses usando o Microsoft Office. Isso é usar o Excel e Microsoft Office para aqueles que estão interessados em usar o MiniTab. Deixe-me mostrar de onde você pode baixar o Minitab. Minitab.com em Downloads. Aqui chegamos à seção de download. Você tem o software estatístico MiniTab e está disponível por 30 dias gratuitamente. Eu também baixei a versão de teste no meu sistema e a análise do Dando e mostrei que você a mostrou para você. Lembre-se de que ele está disponível por apenas 30 dias. Certifique-se de concluir todo o programa de treinamento nos primeiros 30 dias. Quando você sentir o valor disso, você definitivamente deve seguir em frente e usar a versão licenciada do MiniTab, que está disponível aqui. Só preciso clicar em Baixar e baixar o Woodstock. Tudo começa com uma avaliação gratuita de 30 dias. E é tempo suficiente para você praticar todos os exercícios que são conduzidos. Ele solicitará algumas informações pessoais para que eles possam entrar em contato com você e possam ajudá-lo com alguns descontos. Se houver algum. Você tem uma seção chamada Dr. MiniTab ou você tem um número de telefone. Se você estiver ligando do Reino Unido, será fácil ligar para lá. Mas se você estiver falando de outros lugares, falar com o MiniTab é uma opção muito mais fácil. Essa é uma ferramenta estatística muito boa e eles continuam atualizando os recursos regularmente. Então, pessoalmente, sinto que esse investimento valerá a pena. Mas para aqueles que não podem se dar ao luxo de obter a licença, eles podem usar o Microsoft Office, pelo menos alguns dos recursos, não todos, mas alguns dos recursos estão disponíveis. Então, inicialmente, mostrarei todo o exercício de diferentes tipos de hipóteses usando o MiniTab. E então passaremos para o Microsoft Excel, permaneceremos conectados e continuaremos aprendendo. 4. Estatística descritiva: Na sessão de hoje, vamos aprender sobre estatísticas descritivas. Estatística descritiva significa que eu quero entender as medidas do centro. Como medidas de centro, média, modo mediano. Eu quero entender as medidas de propagação. Isso não é nada além de intervalo, desvio padrão e variância. Vamos pegar os dados simples que eu tenho. Eu tenho tempo de ciclo em minutos para quase 100 pontos de dados. Vou pegar o tempo do ciclo em minutos a partir da folha de dados do meu projeto diário. Vou para o MiniTab e colarei meus dados onde quero fazer algumas estatísticas descritivas. Estatísticas. Clique em Estatísticas Básicas e diga Exibir estatísticas descritivas. Quando eu faço isso, ele me dá uma opção na janela pop-up, que é chamada de, que mostra os campos de dados disponíveis que eu tenho. Eu tenho tempo de ciclo em minutos. Então, ele está me dizendo que eu quero analisar o tempo de ciclo variável em minutos. Vou clicar em Ok, e imediatamente você encontrará isso na minha janela de saída. Eu posso simplesmente puxar isso para baixo. Na minha janela de saída. Ele está me mostrando que ele fez algumas análises estatísticas para o tempo de ciclo variável em minutos. Eu tenho 100 pontos de dados aqui. O número de valores faltantes é 0. A média é 10,064. erro padrão da média é 0,103, desvio padrão é de 1 para o valor mínimo é 7,5. Um não é nada, mas seu quartil é 9,1. Mediana, ou seja, seu Q2 é 10,35, Q3 é 10,868 e o valor máximo é 12,490. Se eu precisar de mais análise estatística, posso seguir em frente e repetir essa análise. Desta vez, vou clicar em Estatísticas. E eu posso olhar para os outros pontos de dados que eu preciso. Suponha que se eu precisar do intervalo, eu não preciso de erro padrão, eu preciso de um intervalo interquartil. Quero identificar qual é o clima. Quero identificar qual é a assimetria e meus dados. Qual é a curtose nos meus dados? Eu posso selecionar tudo e dizer, ok, eu vou clicar em, Ok. Quando eu fizer isso, todos os outros parâmetros estatísticos que eu selecionei aparecerão na minha janela de saída. Esta é minha janela de saída. Então, novamente, ele me diz aquele ponto de dados adicional que eu selecionei. Portanto, o raio não é nada além do seu desvio padrão ao quadrado. É 0,0541. Ele está me dizendo o intervalo que é máximo menos mínimo. É 4,95. intervalo interquartil é 1,707. Não há modo nos meus dados. E o número de pontos de dados em 0 porque não há mais, os dados não estão distorcidos. Os valores muito próximos de 0 , são 0,05, mas há curtose. Isso significa que meus dados não estão aparecendo como algo que não funciona. Tão bom, gostamos de ver como é a minha distribuição. Vamos fazer isso. Eu clico em estatísticas, clico em Estatísticas Básicas e clico no resumo gráfico. Estou selecionando o tempo do ciclo em minutos. E estou dizendo que quero ver um intervalo de confiança de 95%. Eu clico em, Ok, vamos ver a saída. O resumo dos minutos de diamante do ciclo. Está me mostrando a média, desvio padrão, variância. Todas as coisas estatísticas estão sendo exibidas no lado direito. Média, desvio padrão, variância, assimetria, curtose, número de pontos de dados mediana mínima do primeiro quartil , máximo do terceiro quartil. Esses pontos de dados que você vê como mínimo Q1, mediana, Q3 e máximo serão abordados no boxplot. O boxplot é enquadrado usando esses pontos de dados. E quando você olha para o velcro, ele diz que o sino não é uma curva íngreme, é uma curva um pouco mais gorda e, portanto, o valor da curtose é um valor negativo. Continuaremos nosso aprendizado mais detalhadamente no próximo vídeo. Obrigada. 5. Parte 1: Nesta lição, vamos aprender mais sobre o boxplot. Um boxplot é uma das técnicas gráficas que nos ajuda a identificar outliers, certo? Vamos entender como um boxplot é formado. Vamos entender o conceito primeiro antes de entrarmos nas práticas. Um boxplot é chamado de boxplot porque se parece com uma caixa e é viscoso como o gato. O gato está com o rosto. Agora, assim como o gato não pode ter e menos viscoso, o tamanho do bigode do gráfico da caixa será decidido em certos parâmetros. Você verá algumas terminologias importantes ao formar um boxplot. Número um, qual é o valor mínimo? Qual é o quartil? Qual é a mediana? O que é o core tight? Três, qual é o tamanho do bigode máximo? E qual é o valor máximo no ponto de dados? Aqui? O mínimo de cães acima do ponto mínimo e onde o bigode pode ser estendido. Q1 significa primeiro trimestre, o que significa 25% dos dados. Vamos supor que, com facilidade, temos 100 pontos de dados. 25 por cento dos dados estarão abaixo dessa marca. Entre Q1 e Q2. Vinte e cinco por cento dos seus dados serão formados, estarão presentes. segundo trimestre também é chamado de mediana ou centro de seus dados. Então, se eu organizar meus dados em ordem crescente ou decrescente, o ponto de dados do meio é chamado como mediana e é chamado como Q2. Q3, ou também chamado de quartil superior, fala sobre os vinte e cinco por cento dos dados após o meio. Então, tecnicamente, você já cobriu setenta e cinco por cento de seus dados estarão abaixo do terceiro quartis, 25 por cento abaixo do primeiro trimestre, 50% dos dados abaixo do segundo trimestre, setenta e cinco por cento dos os dados estão abaixo do terceiro trimestre. Então, tecnicamente, de 100% dos dados, 75% dos dados estão abaixo do terceiro trimestre. Isso significa que vinte e cinco por cento dos meus pontos de dados estarão acima do terceiro trimestre. Agora, a distância entre Q1 e Q3 é chamada, é chamada de tamanho da caixa. E esse tamanho de caixa também é chamado de intervalo interquartil. Q3 menos Q1 é chamado de intervalo interquartil. Como eu disse no início da aula, que o tamanho do bigode depende da faixa interquartil ou IQR. Q3. Eu posso essa linha formar 1,5 vezes o tamanho da caixa. Então, 1,5 vezes no IQR mais q3 será o limite superior para o meu bigode. No lado direito. Na parte superior. Se eu quiser desenhar o bigode no lado esquerdo, não é nada além do mesmo 1,5 vezes na faixa interquartil. Mas eu subtraio esse valor do Q1 e estendo até esse valor. Então, ele configura o limite inferior. Você pode ter pontos de dados que estão abaixo do ponto mínimo. Você pode ter pontos de dados que estão além do tamanho máximo do risco desses pontos de dados serem chamados de outliers. A beleza do boxplot é que ele ajudará você a identificar se há algum outliers em seu conjunto de dados. Vamos ver como posso construir um boxplot? Porque fisicamente não preciso me preocupar em descobrir 2525% por cento. E realmente por pessoa, iremos ao MiniTab e depois faremos o trabalho. Então, vamos ver essa folha de dados. Então, em nossa aula anterior, fizemos algumas estatísticas descritivas sobre isso. E encontramos os pontos de dados. Encontramos pontos de dados mínimos Q1, Q2, Q3 e máximo. Vamos tentar construir um boxplot para o tempo de ciclo em minutos. Então, vou clicar no gráfico. Vou ao box plot e vejo um boxplot simples e clico em, Ok, vou selecionar o tempo do ciclo em minutos. E eu vou dizer, Ok, vamos ver a visualização de dados. Se você olhar para este boxplot, a linha abaixo é chamada como a única. É 9.16. A mediana é a linha média e não precisa estar exatamente no centro. O topo da caixa é Q3, que é 10,86 nesse intervalo de dados, e o intervalo interquartil é 1,7. Minha caixa pode se estender por 1,5 vezes no cotovelo e pode ir 1,5 vezes em 1,7 no balão. E você está vendo que não há marcas de asterisco neste boxplot, indicando muito claramente que não há outliers no meu conjunto de dados atual. Vamos pegar um pouco mais de conjunto de dados. Em nosso próximo vídeo para entender como fazer o gráfico de caixa. 6. Parte 2: Vamos continuar nossa jornada entender os boxplots mais detalhadamente. Se você for para a pasta em seu arquivo de projeto, que é chamado de boxplot. Coletei dados do tempo de ciclo para cinco cenários diferentes. Como você pode ver que alguns lugares eu tenho mais pontos de dados, como eu tenho quase 401745 dados. Em alguns lugares, tenho apenas 14 pontos de dados. Então, vamos tentar analisar isso mais detalhes para entender como o boxplot funciona. Copiei esses dados para o Minitab, caso um, caso dois, T3 e T4. Então, a primeira coisa que eu gostaria de fazer é fazer algumas estatísticas descritivas básicas para todas as chaves estrangeiras. Estou selecionando tudo isso. E então estou vendo, quando vejo minha saída, posso ver que em três dos casos, tenho 45 pontos de dados. No quarto caso, tenho 18 pontos de dados. No quinto caso, tenho 14 pontos de dados. Portanto, o número de pontos de dados é muito, se você olhar para o meu valor mínimo, está variando de 1, um, vinte e um, vinte e dois. E o valor máximo está em algum lugar entre 4090 deles. Em um cenário, desenvolvi valores de 21 a 40. Em um cenário eu tenho valores de dois a 90, o que mostra muito claramente que o número de pontos de dados ou fazer isso. Mas minha faixa de valor é branca. Então, se você olhar para a taxa, ela está variando de 18,8 a 99 pontos. Então, no caso dois, eu tenho 1200 como intervalo, então 99 anos. E o mesmo também pode ser observado como desvio padrão. Você pode ver que a assimetria dos dados é diferente e a curtose é diferente. Vamos primeiro entender o gráfico da caixa em detalhes. E no próximo vídeo, quando eu estiver falando sobre o histograma, vamos entender o padrão de distribuição usando o mesmo conjunto de dados. Vamos começar. Eu clico no gráfico. Posso clicar no boxplot e clicar em simples. O que posso fazer é pegar 11 casos de cada vez para analisar meus dados. Então, caso um, ele me mostra um gráfico de caixa e esse boxplot mostra muito claramente que não há outlier em meus dados. E o intervalo está entre. Quando mantenho meu cursor aqui, tenho 45 pontos de dados. Meu bigode está variando de 21,6 a 4,4, e meu intervalo interquartil é 5,95. Minha mediana é 30,3. Meu primeiro quartil é 26,9. Meu terceiro quartil é 32,85. Vamos refazer isso para o caso dois. Quando eu faço minhas chaves também, se você olhar agora, a caixa parece muito pequena porque aqui meus pontos de dados são os mesmos. Fortified by Vickery está novamente variando de 21,6 a 40 para parecer meu cenário anterior. Mas eu tenho outliers aqui, que estão muito além. Se você se lembra, a estatística descritiva para crianças até o meu valor mínimo é um e meu valor máximo é 100. Minha mediana parecia com meu cenário anterior. Meu Q1 também é semelhante, não é o mesmo, mas semelhante. E o Q3 também é semelhante. Mas quando você olha para o gráfico de caixa, a caixa é muito pequena, indicando muito claramente que meu intervalo interquartil é 6,95. Meu viscoso só pode ir 1,5 vezes e qualquer ponto de dados além disso, Misko será chamado de outlier. Posso selecionar esses valores atípicos, certo? E é muito claro, k é dois, o valor é 100 e está na linha número um. Linha número 37, tenho um valor chamado 90. Na linha número 30, eu tenho um valor chamado é 88. E na linha número 21 eu tenho um valor chamado como um, que é um tamanho mínimo. Então, eu tenho outliers em ambos os lados. Vamos entender o caso três. Quando olho para a química, coloco meu cursor no boxplot. Eu tenho os mesmos 45 pontos de dados. Minha viscose ou de 21,6 a 40 para parecer meu caso um, caso dois. Mas nesse cenário, tenho muitos outliers. Na extremidade inferior. Ou seja, no fundo do meu núcleo, apertado, certo? É fácil para nós clicar em cada um deles e ver como estão minhas caixas. Agora, a beleza aqui é que eu tenho apenas 18 pontos de dados, mas ainda tenho um outlier. Vamos fazer isso para k é cinco. E entenda isso também. Eu tenho uma caixa menor. Eu tenho apenas 14 pontos de dados e eu tenho um outlier no botão para cima, e eu tenho um outlier na extremidade inferior. Aqui, o valor é 23. Mas ver esses enredos de forma diferente torna difícil para mim fazer uma comparação. Posso colocar tudo em uma tela? Então eu vou para o gráfico, eu vou para o boxplot. Eu farei um ambiente simples selecionado. Estou selecionando todos os casos juntos e vendo vários gráficos. Estou vendo a pele e estou vendo que o eixo deve ser visto. As linhas de grade devem ser vistas. E eu clico em, Ok. Estou obtendo todos os cinco pontos de dados, cenário de cinco casos em um gráfico. Isso facilitará para mim fazer a análise, nesse caso um. Então faça individualmente quando eu vi o caso, se estivermos nos mostrando uma grande faixa. Mas quando estou fazendo uma comparação de um ao lado do outro, posso saber que, no caso dois, tenho outliers na parte superior e inferior. No caso três, tenho outliers na parte inferior. No caso quatro, tenho valores atípicos no lado superior. No caso cinco, tenho tomadas em ambos os lados. O número de pontos de dados é diferente. Os bulks serão sacados. O tamanho da caixa não pode ser determinado pelo número de pontos de dados. Tenho 45 pontos de dados, mas minha caixa é muito estreita. E eu tenho 14 pontos de dados e minha caixa é branca. Então, o tamanho da caixa. Então, se eu tiver 14 pontos de dados, ele dividirá meus dados em quatro partes. Portanto, três pontos de dados abaixo do Q1, três pontos de dados entre Q1 e Q2, três pontos de dados entre Q2 e Q3 e três pontos de dados além do Q3. Enquanto que quando eu tinha 45 pontos de dados, ele estava sendo distribuído como 11111111. Minha mediana seria o número do meio. Então, o que está aprendendo esse exercício é que, olhando para o tamanho da caixa, você não pode determinar o número de pontos de dados. Mas o que você definitivamente pode determinar é que, em mente esse conjunto de dados, eu tenho pontos de dados que são extremamente altos ou baixos? Portanto, o propósito de desenhar um gráfico de caixa é ver a distribuição e identificar outliers, se houver. Espero que o conceito esteja claro. Se você tiver alguma dúvida, é livre para colocá-la no grupo de discussão. E ficarei feliz em respondê-las. Obrigada. 7. TestofHypothesis: Olá amigos. Vamos continuar nossa jornada na análise de dados do MiniTab. Hoje vamos aprender sobre testes de hipóteses. Você já deve ter ouvido falar que fazemos testes de hipóteses durante a fase de análise e melhoria do nosso projeto. Então, para entender como o teste de hipótese funciona, vamos entender um cenário de caso simples. Voltarei a este gráfico novamente e explicarei que é. Como você sabe, quando vamos ao tribunal, o sistema de justiça pode ser usado para explicar o conceito de teste de hipóteses. O juiz sempre começa com uma declaração que diz, a pessoa é considerada inocente até que se prove a culpa. Isso não é nada além de sua hipótese nula, o status quo. Quando eles são pegos, o caso continua. Os advogados tentaram produzir dados e evidências. E a menos e até que não tenhamos dados fortes e evidências fortes, a pessoa está na condição de inocente. Portanto, o réu ou o advogado da oposição está sempre tentando dizer que essa pessoa é culpada e eu tenho dados e evidências para provar isso. Ele está tentando trabalhar em hipóteses alternativas. E o juiz diz, eu vou com o status quo da hipótese nula por padrão. Deixe-me explicar de uma forma mais fácil. Você e eu, não somos levados ao tribunal porque, por padrão, todos nós estamos na OSA, esse é o status quo. Que são levados ao tribunal. Pessoas que têm uma chance de terem vindo, cometeram algum crime. Pode ser qualquer coisa. Então, da mesma forma. que tentamos fazer testes de hipóteses Em que tentamos fazer testes de hipóteses quando estou fazendo minha fase de análise do projeto. Portanto, tenho várias causas que podem estar contribuindo para o meu projeto. Por quê? Fazemos uma análise da causa raiz e ficamos sabendo disso, ok? Talvez o carregamento tenha atrasado. Talvez a máquina seja um problema, talvez o sistema de medição seja um problema. Talvez a matéria-prima não seja de boa qualidade. Temos vários motivos que existem. Agora eu quero provar isso usando dados, e esse é o lugar onde eu tentei usar o teste de hipóteses. Todos os processos têm variação. Sabemos que todos os processos seguem a curva do sino. Nunca adicionamos o centro. Há alguma variação em cada processo. Agora, os dados ou a amostra que você atualizou, é uma amostra aleatória vinda do mesmo banco? Ou é uma amostra que vem de uma curva de sino totalmente diferente? Portanto, o teste de hipóteses ajudará a analisar o mesmo. Sempre que montamos um teste de hipótese, temos dois tipos de hipótese, como eu disse, o status quo ou a hipótese padrão, que é sua hipótese nula. Por padrão, assumimos que a hipótese nula é verdadeira. Então, para rejeitar a hipótese nula, precisamos produzir evidências. hipótese alternativa é o lugar onde há uma diferença. E esta é a razão pela qual o teste de hipóteses foi realmente iniciado, certo? Nós entenderemos com muitos exemplos. Então fique conectado. Então, quando estou estruturando hipóteses nulas e alternativas, digamos, estou dizendo que meu mu não é nada além da minha média, minha média populacional é igual a algum valor. Lembre-se sempre de sua hipótese alternativa é mutuamente exclusiva. Se mu for igual a algum valor, a hipótese alternativa diria que mu não é igual a esse valor. Por exemplo, mu é menor que igual a algum valor como uma hipótese nula. Por exemplo, se estou vendendo Domino's Pizza, vejo que meu tempo médio de entrega é inferior a 30 minutos. O cliente vem e me diz, sabe, o tempo médio de entrega é superior a 30 minutos, que se torna meu substituto. Às vezes, se tivermos a hipótese nula é mu é maior que igual a algum valor. Por exemplo, minha qualidade média é maior que igual a 90%. Em seguida, o cliente volta e me diz que sabe que sua qualidade média é menor que essa porcentagem. Portanto, lembre-se sempre da hipótese nula e as hipóteses alternativas são mutuamente exclusivas e complementares entre si. Vamos pegar muitos outros exemplos à medida que avançarmos. 8. Tipos de erros: Vamos entender mais alguns exemplos de hipóteses nula e alternativa. Então, suponha que se meu projeto está prestes a se livrar de você, minha hipótese nula é um valor fixo. Então, eu diria que minha média atual do meu tempo médio atual para construir para compartilhar os 70% de Julie é. Atual. A média de P a S é de 70%. A hipótese alternativa significaria que não é 70%. Suponha que eu esteja pensando no teor de umidade de um projeto. Estou em uma configuração de fabricação e quero medir se o teor de umidade deve ser igual a 5%. Ou 5% é o que é aceitável pelo meu cliente, então posso dizer que meu teor de umidade é inferior a cinco por cento. Então, a hipótese alternativa afirmaria que o teor de umidade é maior que cinco por cento. O caso em que a média é maior que, então a hipótese nula. Não temos interesse nesse problema. Vamos entender melhor. A questão era, um processo recente de aprovação de empréstimos para pequenas empresas do TED reduziu processo recente de aprovação de empréstimos para pequenas empresas do TED reduziu o tempo médio de ciclo para processar o empréstimo? A resposta pode ser não. Significa que o tempo de ciclo não mudou. Ou o gerente pode ver que sim, o tempo médio do ciclo é inferior a 7,5%. Portanto, o status quo é igual a 7.514 minutos. E o suplente diz, não, são menos de 7.414 minutos ou dias, qualquer que seja a principal unidade de medida que estamos medindo, certo? Então, por padrão, seu status quo é hipótese nula. E o exemplo ou o status que você quer provar uma hipótese alternativa mais fácil. Agora, pode haver algum tipo de flecha quando tomamos decisões. Então, vamos voltar ao nosso caso de código. Na verdade, o réu não é culpado, certo? Deixe-me pegar meu raio laser. Por padrão, o réu ou a realidade é que o réu não é culpado. veredicto também vem que o réu, a pessoa não é culpada. É uma boa decisão, certo? Então, sim, tomamos uma decisão muito boa de que a pessoa é inocente. Na realidade, o réu é culpado. E o veredicto também vem de que ele é culpado. A decisão é uma boa decisão. O que acontece é que, na realidade, a pessoa não está garantida, mas o veredicto vem de que ele é culpado e uma pessoa inocente é condenada. É um erro. É um erro muito grande. Na pessoa do Norte, dada uma sentença e colocada na prisão, dada uma penalidade, isso é um erro. O erro pode até acontecer do outro lado, onde na realidade a pessoa é culpada, mas o veredicto vem de que ele não é culpado. A pessoa culpada é declarada inocente e está pronta para isso. Isso também é uma seta, mas que é um erro maior. Quanto maior o erro que você pode anotar na caixa de comentários, o que você acha? Qual erro é a seta maior? O erro é um erro maior ou o erro é a seta maior? nenhuma pessoa sã ser condenada é um erro maior ou se uma pessoa culpada se move nas estradas livremente, ou flecha maior? Espero que você já tenha escrito os comentários. Então, a realidade é que isso se torna meu maior erro. E isso é chamado de erro tipo um. Porque se um inocente for condenado, não podemos devolver o tempo que ele perdeu. Não podemos entender que ele passaria por muitos traumas emocionais. Se um culpado for declarado inocente, podemos levá-lo ao tribunal superior e à Suprema Corte e fazê-lo provar que sim, ele não é culpado, certo? Para que eu possa tomar essa decisão aqui de que a pessoa é condenada. Ele deve ser condenado e declarado culpado e deve ser punido. Portanto, esse erro é chamado de erro tipo dois. Se alguém lhe perguntar qual erro é maior, digite um erro, ele também é chamado de erro alfa. E isso é chamado de erro beta. Certo? Vamos continuar mais em nossa próxima aula. 9. Tipos de erros-parte2: Vamos entender os tipos de flechas mais uma vez. Então, como sabemos que se a pessoa não é culpada ou a pessoa é inocente, e o veredicto também está dizendo que a pessoa não é culpada. É uma boa decisão. Se a pessoa é culpada, veredicto é que ela é culpada. A decisão é novamente, uma boa decisão. O condenado não é, tem que ser sentenciado ou deve ser punido. O problema acontecerá quando uma pessoa inocente for provada culpada e sofrer. O segundo tipo de problema que acontece quando uma pessoa culpada, uma pessoa com um criminoso é declarada inocente. E ele disse, Isso é chamado de erro tipo um. Ou seja, uma pessoa inocente ser condenada ou punida é um erro do tipo um. Também é chamado de seta alfa. Uma pessoa culpada, criminosa libertada, é chamada de erro tipo dois ou erro beta, que também é um erro que queremos evitar. O nível de significância é definido pelo valor Alfa. Então, quão confiante você quer tomar a decisão certa? Então, o erro do tipo um acontece quando o nulo é verdadeiro, mas nós rejeitamos. erro do tipo dois acontece quando, na realidade, o nulo é falso, mas não o rejeitamos. Agora, como isso nos ajuda a processar? Então, vamos entender isso todos os dias para a folha de almoço. Certo? Vamos entender isso com mais detalhes. Esse é o cenário real. Vamos escrever o real no topo. E esses mitos como o julgamento. Ok, agora, vamos pensar sobre o processo. O processo não mudou. Não mudou. Nenhuma alternativa será o processo alterado. Agora, o julgamento está anotado. E o julgamento é que o processo melhorou. OK. Agora vou fazer uma pergunta muito importante. Se um processo não mudou e o julgamento é de que não há mudança, esta é a decisão correta. O processo mudou e o julgamento também é de que o processo melhorou. Essa também é uma decisão correta. Agora, imagine que o processo não mudou, mas declaramos que agora tenho um processo melhorado e um produto melhorado e informo ao cliente, Está correto? Um erro. E isso é chamado de erro tipo um porque parece antigo, mas nossa dívida é vendida ao cliente como novo produto. Você consegue entender o que acontecerá com a reputação da empresa? A equipe ou o produto é vendido ao cliente como novos produtos. Novo produto de um núcleo. Então, o que acontecerá com a reputação da empresa? Vai dar um lance e, portanto, dizemos, esta não é uma boa decisão. Agora entenda aqui também que o processo mudou. O processo melhorou, mas o julgamento não foi melhorado. Isso também é um erro. Eu não nego isso. Isso é chamado de erro tipo dois ou auditoria também é chamada de erro beta. Bem aqui. O que acontece é que não estamos comunicando ao cliente que a melhoria aconteceu, certo? Portanto, não estamos mantendo os itens aprimorados no produto da ninhada no armazém. Agora, isso também não está correto, mas o maior erro está aqui onde, na verdade, não fizemos uma melhoria, mas estou informando ao cliente que você é uma pessoa ruim. 10. Jingle: Quando fazemos o teste de hipóteses, sempre há duas hipóteses. Uma é a hipótese padrão, que é a hipótese nula, e a segunda é a hipótese alternativa que você deseja provar. E essa é a razão pela qual você está fazendo a hipótese. Então, quando você faz a hipótese, a razão pela qual fazemos é que nunca teremos acesso a toda a população. Então, quando coletamos a amostra, queremos entender, é a amostra proveniente da curva do sino ou a distribuição de onde estamos entendendo, seja qual for a variação que você vê, é? devido à propriedade natural do conjunto de dados. Às vezes, a amostra pode estar no canto final do velcro. E esse é um lugar onde ficamos confusos de que esses dados pertencem ao Velcro original ou pertencem ao segundo alternativo? Bem-vinda. Isso está lá. Estaremos fazendo exercícios que darão a você uma compreensão disso de forma mais fácil de fazer. Hipótese, você obtém informações como o valor de p além dos resultados das estatísticas de teste. Você também obtém o valor de p. Sempre comparamos o valor de p com o valor nulo que definimos. Suponha que você queira ter 95% de confiança. Em seguida, você define o valor de p como 5%. E se você definir o nível de confiança é 90%, então seu valor Alfa é dez por cento, ou seu valor de p é 0,10. A razão pela qual fazemos um valor de p é que, se você puder ver essa curva de sino, a observação mais provável é parte do centro do sino. Observações muito improváveis vêm da cauda. Esse valor de p, a razão verde, ajuda a saber se ele pertence ao Velcro original ou pertence à maior parte alternativa disso, você está tentando provar através da hipótese alternativa. Portanto, o valor de p vem como uma ajuda para você se lembrar disso facilmente. Lembre-se do jingle. Abaixo, null. Isso significa que se o valor de p for menor que o valor alfa, vou rejeitar a hipótese nula. P voo de alto nível. Se o valor de p for maior que o valor alfa, deixamos de rejeitar a hipótese nula, concluindo que não temos evidências estatísticas suficientes de que a hipótese alternativa existe. Faremos muitos exercícios e eu cantarei esse jingle várias vezes para que seja fácil para você se lembrar. Abaixo de null, vá atrás de nullcline. Alguns dos participantes com, quando eu faço o workshop ficam confusos, eles dirão que ninguém vai significa o quê? A outra coisa que eu digo a eles para se lembrarem facilmente é f para vôo e F para campo. Então, se P for alto nulo, vamos voar. Isso significa que você está falhando em rejeitar a hipótese nula. Hipótese nula existirá. A hipótese alternativa será rejeitada. Lembre-se de mais uma coisa que é feita principalmente durante a entrevista. O valor de p estava em 1,230,123. Você rejeitaria a hipótese nula ou aceitaria a hipótese nula? Ou você aceitaria a hipótese alternativa? Ou você aceitará a hipótese nula? Como estatístico? Nunca aceitamos nenhuma hipótese. Ou rejeitamos a hipótese nula ou deixamos de rejeitar a hipótese nula. Nós sempre dizemos isso do ponto de vista de null porque o status quo padrão mais fácil hipótese nula. Se o P for alto, não aceitamos a hipótese nula e alternativa. Será que não aceitamos a hipótese nula. Dizemos que não rejeitamos a hipótese nula. Se o p for baixo, não aceitamos alternativo, mas dizemos, rejeito a hipótese nula, concluindo que há evidências estatísticas suficientes de que os dados estão vindo do Bellcore alternativo . Continuaremos com muitos exercícios. E isso lhe dará confiança sobre como praticar, interpretar e usar estatísticas inferenciais em sua análise quando você estiver fazendo isso. 11. Seleção de testes: Uma das perguntas mais comuns que meus participantes fazem quando estou entrando no projeto é qual hipótese devo usar o aluguel? Portanto, esta é uma análise simples que o ajudará a entender isso. Quais testes devo usar? Assim como quando um paciente vai ao médico, o médico não prescreve todo o teste. Ele apenas colocou o teste apropriado com base no problema que o paciente está pescando. Se o paciente vir que eu tive um acidente, o médico diria que eu acho que você deveria fazer seu raio-X. Ele não estaria pedindo para ele fazer o COVID ou o teste RT-PCR. Se a pessoa estiver tossindo e sofrendo de febre, então a RT-PCR é sugerida. E nesse momento não conseguimos satisfazer o raio-x. Parece semelhante quando fazemos testes de hipóteses simples, estamos tentando entender ou comparar com a população. Queremos entender qual teste devemos realizar? Quando, se eu estiver testando médias, essa é a sua média, então você compara essa é a sua média, a média de uma amostra com o valor esperado. Então, estou comparando a amostra com a minha população. Então eu vou para o meu teste t de uma amostra. Eu tenho apenas uma amostra que estou comparando. Quero comparar se o desempenho médio do, se a média de vendas for igual a x valor, que é o valor esperado. Então, esperávamos que as vendas fossem, digamos, 5 milhões. Minha média está chegando a dizer 4,8. Eu conheci que não são. Então eu posso ir e fazer um teste t de uma amostra. Compare a média das amostras com duas proporções diferentes. Então, se eu tiver dois T's independentes, digamos que estou conduzindo um treinamento on-line. Estou conduzindo um treinamento offline. É o Santuário e eu tenho um grupo de alunos que estão participando do meu programa on-line. Eu tenho um grupo diferente de alunos que estão participando do meu programa. Quero comparar a eficácia do treinamento. Então eu tenho duas amostras, e essas são duas amostras independentes porque os participantes são diferentes. Então eu vou para o teste t de duas amostras. Se eu quiser comparar as duas amostras para que as pessoas venham para o meu treinamento. Eu faço uma avaliação antes meu programa de treinamento sobre a compreensão deles sobre o que Lean Six Sigma. E eu posso fazer o programa de treinamento e o mesmo grupo de participantes participa do teste após o programa de treinamento. Então, os participantes ou a cena. Mas a mudança que aconteceu foi o treinamento que foi impactado neles. Eu tenho os resultados do teste antes do treinamento e eu tenho os resultados do teste após o treinamento, eu quero comparar se o treinamento é eficaz. Então eu vou para o teste t pareado com duas amostras. Progredindo ainda mais. Suponha que se eu estiver testando a frequência, eu tenho dados discretos e quero testar a frequência porque em dados discretos eu não tenho médias. Eu tomo frequências. Então, quando estou comparando a contagem de alguma variável em uma amostra com a distribuição esperada, assim como fiz um teste t de amostra. O equivalente a isso para dados discretos seria meu ajuste qui-quadrado. Eu, por padrão, espera-se que seja um valor normal ou um valor específico ou um valor inesperado. E estou comparando isso. Até onde estão meus dados? Eu opto por um ajuste qui-quadrado . Este teste está disponível no MiniTab no Excel. Ele não está disponível. Então, vou criar um modelo e entregá-lo a você, o que tornará mais fácil para você fazer o teste qui-quadrado. Todos os três tipos diferentes de teste qui-quadrado usando o modelo do Excel. Se eu tiver que contar algumas das variáveis entre duas amostras. Portanto, será o teste t homogêneo do qui-quadrado. Estou verificando uma única amostra simples para ver se as variáveis discretas são independentes. Eu faço o teste de independência qui-quadrado. Se eu tiver uma proporção de dados, como aplicativos bons ou ruins, aceitei versus rejeitei. E estou dizendo que tudo bem, 50% das inscrições são aceitas, ou vinte e cinco por cento das pessoas são colocadas. Eu tenho uma proporção que eu quero testar. Se eu tiver apenas uma amostra, vou fazer um teste de proporção. Se eu quiser comparar a proporção de graduados em comércio versus graduados em ciências ou proporção de finanças, MBA, pessoas com MBA em marketing, tenho duas amostras diferentes, para que eu possa vá para o teste de duas proporções. Então, para resumir a coisa, quando estou testando, estou testando as médias? Estou testando frequências como dados discretos ou estou testando proporções? Dependendo disso, você está pegando o teste apropriado e trabalhando nele. Vamos praticar tudo isso usando o Men dab e usando exit. O conjunto de dados está disponível na seção de descrição. Na seção do projeto, convido todos vocês a praticá-lo e colocar seus projetos, sua análise na seção do projeto. Se você tiver alguma dúvida, pode colocar isso na seção de discussão e ficarei feliz em responder às suas dúvidas. Aprendizado feliz. 12. 1 teste de amostra t: Vamos entender quais testes de hipóteses devo usar? No Minitab, você tem um assistente que pode ajudá-lo a tomar essa decisão. Portanto, se você for ao teste de hipótese assistente, ele o ajudará a identificar com base no número de amostras que você tem. Para supor que, se você tiver uma amostra, você pode estar fazendo um teste t de uma amostra, um desvio padrão de amostra, uma porcentagem de amostra defeituosa, de ajuste qui-quadrado. Se você tiver duas amostras, então você tem duas amostras de teste t para amostras diferentes. Teste T se os itens antes e depois forem os mesmos. Desvio padrão da amostra para porcentagem amostral do teste qui-quadrado de associação defeituoso. Se você tiver mais de duas amostras, então temos um teste de desvio padrão ANOVA de sentido único, porcentagem do qui-quadrado é defeituosa e teste de associação do qui-quadrado. Estaremos praticando tudo isso com muitos exemplos. Então, vamos ao primeiro exemplo. Temos o TDAH de chamadas em minutos. Coletamos uma amostra de 33 pontos de dados. A média é sete, o valor mínimo é quatro minutos, valor máximo é dez minutos. A razão pela qual temos que fazer um teste de hipótese é o gerente dos processos que sua equipe é capaz de fechar a resolução ou na chamada em sete minutos. E a média do processo também é de sete minutos, mínimo é de quatro minutos. Mas o cliente vê que os agentes os mantêm em espera e leva mais de sete minutos na ligação. Então, agora eu quero validar estatisticamente se está correto ou não. Sempre que estamos configurando testes de hipóteses, temos que seguir a abordagem de cinco etapas e seis etapas. Etapa número um, defina a hipótese alternativa. Defina a hipótese nula, que nada mais é do que seu status quo. Qual é o nível de significância ou seu valor Alfa? Se nada for especificado, será enviado o valor Alpha como cinco por cento. Primeiro definimos a hipótese alternativa. Então, no nosso caso, o que o cliente está dizendo? O cliente vê que o tempo médio de tratamento é superior a sete minutos. O status quo ou o SLA acordado é o TDAH deve ser inferior a sete minutos. Como eu lhe disse, a hipótese nula e a alternativa serão mutuamente exclusivas e complementares uma à outra. Agora, identifique o teste a ser realizado. Quantas amostras eu tenho? Eu tenho apenas uma amostra do HD do contact center. Então, eu vou pegar um teste t de amostra. Está bem? Agora eu preciso fazer as estatísticas de teste e identificar o valor-p. Se você se lembra da lição de exemplo anterior, dissemos que se o valor de p for menor que o valor alfa, rejeitamos a hipótese nula. Se o valor de p for maior que cinco por cento ou valor Alfa, não rejeitamos a hipótese nula. Vamos fazer esse entendimento. Então, se você se lembra, temos os dados do nosso projeto. Nos dados do projeto, temos o teste de hipótese. Por aqui. Eu lhe dei o AHG de carvão em minutos. Então, eu copiei esses dados para o Minitab. Então, vamos fazer isso de duas maneiras. Primeira vez e mostre para você usando o assistente. Em segundo lugar, mostrarei a você usando estatísticas. Então, se eu for para o teste de hipótese assistente, qual é o objetivo que eu quero alcançar? É um teste t de uma amostra. Eu tenho uma amostra. É sobre maldade? É sobre desvio padrão? São números separados, defeituosos ou discretos? Estamos falando da média de 100 vezes. Então, vou fazer um teste t de amostra. Para dados em colunas. Eu selecionei isso. Qual é o meu valor-alvo? Meu valor alvo é sete. A hipótese alternativa é que a idade média da chamada em minutos é maior que sete. É isso que o cliente está reclamando. O valor alfa é 0,05 por padrão, eu clico em, Ok. Vamos ver a saída. Para ver a saída, você clicará em Exibir e somente saída. Você vai ver isso. Se você vir o valor-p, o valor-p é 0,278. Você se lembra abaixo do não-gol ser alto nullcline esse valor de 0,278 é maior que o valor alfa de 0,05? Sim, é. Portanto, posso concluir que a média é d do carvão não é significativamente maior do que o alvo. O que quer que você esteja vendo como maior do que o alvo, é apenas por acaso. Portanto, não há evidências suficientes para concluir que a média é maior que sete com nível de significância de cinco por cento. E também me mostra como é o padrão. Não há pontos de dados incomuns porque o tamanho amostral é de pelo menos 20. A normalidade não é um problema. O teste é preciso. E seria bom concluir que o tempo médio de tratamento não é significativamente maior do que sete minutos. Posso ir em frente e rejeitar a reclamação feita pelo cliente. As poucas chamadas que vemos como metas de alta qualidade e alto valor. Isso só pode ser por acaso. O mesmo teste. Também posso fazer isso clicando em de teste, estatísticas básicas. E vou salvar uma amostra de teste t, uma ou mais amostras, cada uma em uma coluna. Vou passar o dedo no seu TDAH selecionado. Eu quero realizar testes de hipóteses. média hipotética é sete. Eu vou para Opção e digo, qual é a hipótese alternativa que eu quero definir. Quero definir que a média real é maior do que a média hipotética. Clique em OK. Se eu precisar de gráfico, posso colocar esses gráficos. Clique em OK e clique em OK. Eu recebo essa saída. Então, a estatística descritiva, esta é a média, esse é o desvio padrão e assim por diante. hipótese nula é que mu é igual a sete. hipótese alternativa é que mu é maior que sete. valor de p é 0,278. Concluindo que o vôo nulo, deixamos de rejeitar a hipótese nula, concluindo que o tempo médio de 100 é cerca de sete minutos. Vamos continuar. Recebemos nossa produção. Vimos tudo isso e concluímos que o tempo médio de manuseio não é significativamente maior do que sete minutos. 13. 2 exemplo de teste t exemplo 1: Vamos fazer mais um exemplo de duas equipes, duas amostras. Então, neste exemplo, duas equipes cujo desempenho precisa ser medido. O gerente da DMB afirmou que sua equipe tem melhor desempenho do que o DNA. O gerente de uma equipe defende que essa reivindicação é inválida. Vamos ao nosso conjunto de dados. Então, se você for para o arquivo do projeto, você terá algo chamado de equipe a e equipe B. Então, deixe-me copiar esses dados. OK. Deixe-me ir aqui e colocar o radar no lado direito. Por que também posso pegar uma nova planilha e colar os dados. Certo? Então, vamos como teste de hipótese, teste t de duas amostras. Deixe-me excluir esse valor. E TB, a equipe a é diferente da VM. Eu também posso dizer com base na hipótese que a equipe seja reivindicada que sua equipe é melhor do que um. então eu posso dizer que é menos do que TV. E eu clico em Ok. Novamente, neste exemplo, obtenho uma saída que diz que a equipe não é significativamente menor que a TB. Você tem os valores de 27,727,3? Não há diferença estatística entre as duas dicas, certo? Então, os dois exemplos que obtivemos foram assim. Então, vamos ver mais um exemplo. Eu tomei o tempo do ciclo do processo um e o tempo do ciclo do processo B. Então, vamos apenas copiar esses dados. Esse é outro conjunto de dados. E eu digo, Qual é a minha hipótese alternativa? Ambos os feixes são diferentes. Qual é a hipótese nula? Ambas as equipes são iguais. Porque essas duas equipes são diferentes. Vou seguir em frente e fazer meu teste t de duas amostras. Os dados de cada equipe são separados. E eu estou vendo que é diferente do valor alfa de TB é 5%, e então eu clico em, Ok. Agora, se você vir a saída desta vez, ele diz que sim, o tempo de ciclo de a é significativamente diferente do tempo de ciclo de dB. Aqui, este 26,8, vinte e sete vírgula seis. Mas se eu olhar para a distribuição, a distribuição de que esse vermelho não se sobrepõe a esse vermelho. Portanto, há uma diferença no tempo de ciclo das duas equipes. Se eu tiver que fazer a mesma coisa usando estatísticas, estatísticas básicas, teste t de duas amostras. Como seu tempo de ser e na época das opções de TB, existem diferentes? Eu posso ter meus gráficos. Eu não quero um gráfico individual. Eu só vou pegar o boxplot e dizer, ok, mu1 é a média da população do tempo de ciclo dos processos, tempo do ciclo do processo B. Agora, se você ver que há um desvio padrão que é uma diferença. O valor de p é 0, dizendo que, sim, há uma diferença significativa entre as duas equipes. Seja baixo, nada legal. Então aqui estamos rejeitando a hipótese nula, dizendo que há uma diferença significativa entre E e D. Certo? Eu vi a mesma coisa com a distribuição continua. Portanto, há uma distribuição maior ou aqui e há uma distribuição menor. Posso fazer minha análise gráfica que aprendi à sua direita e depois ver como a equipe está se saindo. Então, este é o resumo do DNA. A média é 26, o desvio padrão é 1,5. E se eu rolar para baixo, eu chego para o time B e ele está vindo dessa maneira. Agora eu quero sobrepor esses gráficos para que eu possa clicar no gráfico e em um histograma. E eu vou dizer um pouco em forma e sedoso. E vou selecionar esses dois gráficos em painel separado do mesmo gráfico, mesma vitamina C max. Clique em, Ok. Clique em OK. Você consegue ver que a curva do sino de ambos é diferente? Vamos fazer um histograma gráfico sobreposto. E em várias sobreposições de solo neste gráfico. Você pode ver que o azul e o vermelho, há uma diferença? E, portanto, sim, a curtose é diferente, a inclinação é diferente, e essa é a conclusão no meu teste t de duas amostras, que diz que a distribuição lá é significativa diferença. Há uma diferença estatisticamente significativa entre o tempo sagrado de ser lutador EN, morrendo. A segunda coisa, aprenderemos sobre o teste t no leito em nosso próximo exemplo. 14. 2 exemplo de teste t de amostra 2: Vamos ao nosso exemplo. Dois. Existem dois centros cujo desempenho precisa ser medido. O gerente da sensorial alegou que sua equipe é uma equipe com melhor desempenho do que o centro B. A magnitude do centro ser defende que a alegação é inválida. Novamente, seguirei meu processo de cinco etapas. Qual é a hipótese alternativa? É melhor que B. Vamos tornar isso mais fácil. Não é igual a T, não é igual a TB ou centro não é igual a centro. O que o centro não hipotético a é igual ao centro V, nível de significância, cinco por cento. Quantas amostras eu tenho? Eu tenho duas amostras, editor central e dados do centro B. Como tenho duas amostras, preciso fazer o teste t de duas amostras. Vamos para nossa planilha do Excel. Eu tenho os dados para Centauri e centro B. Vou copiá-los no Minitab. Estou colocando meus dados aqui. Vamos fazer o teste t de duas amostras. Então eu vou para Stat, Estatísticas Básicas e digo teste t de duas amostras. Ambas as amostras estão em uma coluna. Cada amostra tem sua própria coluna, então vou selecionar essa amostra. Uma é a amostra sensorial. Você centra B? A opção é híbrida. Isso não é diferente. Portanto, a diferença entre a e B é 0. E eu vou em frente e faço isso. Eu posso ter meu gráfico de caixa individual e dizer OK, e dizer Ok, vamos ver a saída. Portanto, os dados sensoriais são seus e os dados do TBI estão aqui. E se você vir o valor-p, o valor-p é alto. vez, eu tenho um exemplo que diz que ser alta mosca nula, o que significa que não há diferença entre centro e centro B. Se você vê o valor individual, mas você vê a mesma coisa. Vamos ver o boxplot. O boxplot diz que a média não é significativamente diferente porque teria coletado uma amostra. Essa é a razão pela qual é, e você está vendo um valor de 0, que é um outlier. Então, devemos considerar isso. A mesma coisa. Deixe-me fazer isso usando testes de hipóteses. Teste t para duas amostras, média amostral. A amostra é diferente. A média do centro é diferente da média do centro B e C. Assim como a diferença média, a média de Santa Fé não é significativamente diferente da média fora do centro. Certo? Se você vir essa distribuição, poderá descobrir que a parte vermelha está completamente sobreposta uma à outra, dizendo que não há evidências suficientes para concluir que há uma diferença. Há uma diferença quando você vê a média, 6,86,5. Mas isso pode ser por causa de uma chance. E também há um desvio padrão. Portanto, eles mostram isso usando as barras vermelhas, dizendo que não há uma diferença significativa entre a semana sensorial e central. Continuaremos aprendendo sobre outros exemplos no próximo vídeo. 15. Teste t emparelhado: Vamos entender mais um exemplo. Este é um exemplo de teste t pareado. Se você olhar para este estudo de caso, os psicólogos queriam determinar se um determinado programa de corrida tem efeito na frequência cardíaca em repouso. A frequência cardíaca de 15 pessoas selecionadas aleatoriamente foi medida. As pessoas foram então colocadas em um programa de corrida e medidas novamente após um ano. Então, os participantes estão dizendo antes versus depois? Sim. E essa é a razão pela qual não é o teste t de duas amostras, mas é um teste t pareado, a medição antes e depois de cada pessoa ou em bandas de observação. Então, se eu voltar para o meu conjunto de dados, eu tenho algo chamado de antes e depois, há um estágio diferente, eu não estou tomando o valor da diferença. Peguei os dados das 15 pessoas e coloquei na mini guia. Certo? Agora, eu quero fazer porque é a mesma pessoa antes e depois de mim, queremos entender os diferentes testes de hipóteses. Vou fazer o teste t pareado. A primeira coisa foi, qual é a hipótese alternativa? Antes e depois é diferente. Se você se lembra, o programa de antes e depois, eles querem determinar se eles têm um efeito na corrida. A medição está antes, ferramenta de medição está ativa. média de antes é diferente da média de depois. Então essa é minha hipótese alternativa. Então, o que minha hipótese nula significa de antes é que não há mudança. O alternativo vê que o antes é diferente do depois. valor alfa é 0,05. Vamos clicar em Ok. Vamos ver a saída. Então, a média é diferente? O que é um valor-p de 0,007? A média de antes é significativamente diferente da média de depois. Se você olhar para o valor médio, foi 74,572,3. Mas há uma diferença. Então, se você perceber que a diferença é maior que 0. E se eu olhar para esses valores de antes versus depois, o ponto azul é depois que o ponto preto está antes. A maioria dos participantes, sua frequência cardíaca havia diminuído após o programa de corrida. Poucos deles foram uma exceção, mas isso poderia ser uma exceção. Não há diferenças pareadas incomuns porque nosso tamanho amostral é de pelo menos 20. A normalidade não é um problema. A amostra é suficiente para detectar a diferença na média. Então eu posso ver que, sim, há uma diferença entre os dois. Maravilhoso. Então, novamente, revisão rápida. Olá, objetivo nulo como o valor de p é menor que o nível de significância, concluímos que há uma diferença significativa entre as duas leituras. Se eu tiver que fazer a cena, clico em Estatísticas, Estatísticas Básicas. Detesto ruim, cada amostra em uma regra. Antes, depois da opção é que eles são diferentes. Deixe-me pegar apenas o boxplot e o histograma de não quero escolher o histograma. Só vou pegar o boxplot. Hipótese nula A diferença é 0. A hipótese alternativa é que a diferença é diferente de zero, valores de p baixos, concluindo que eu rejeito a hipótese nula. E há uma diferença ao adotar o programa. Portanto, se você vir o valor nulo, o ponto vermelho está muito longe da média do intervalo de confiança da caixa para concluir que há uma diferença entre submeter-se ao programa por esse especialista em coração, certo? Então, no próximo programa, aprenderemos, pegaremos mais exemplos. 16. Um teste de amostra Z: A rápida recapitulação dos diferentes tipos de testes que aprendemos é que, se eu estiver olhando para o quão diferente é meu grupo e entre a população, é meu grupo e entre a população, eu faço um teste t de uma amostra. Quando eu tenho dois grupos diferentes de amostras, então eu faço o teste t de duas amostras. Se essas amostras forem independentes. Se eu for para um teste t pareado. Teste t pareado. Se o grupo for o mesmo conjunto de pessoas, mas é ou ponto de tempo diferente. Como vimos o exemplo do batimento cardíaco. Então, as pessoas foram medidas em seus batimentos cardíacos. O relatório por meio de um programa em execução e publica o programa em execução. Como foi aquele batimento cardíaco quente em repouso, certo? Então, essas são as coisas que classificamos. Agora vamos continuar com mais exemplos. Então, adicionamos o caso de uso número cinco, análise de porcentagem de gordura. Os cientistas de uma empresa que fabricou processo que querem S é a porcentagem de gordura na fonte de água da empresa. A data de publicação do anúncio é de 15% e os cientistas medem que a porcentagem de gordura é de 20 amostras aleatórias. A medida anterior do desvio padrão da população é 2,6. Agora, esse é o desvio padrão da população. O desvio padrão da amostra é 2,2. Quando conheço o parâmetro da população, posso ir em frente e usar um teste z de amostra porque o número de amostras que tenho é um. E eu quero, eu tenho o desvio padrão conhecido da população. Agora, novamente, vou aplicar a mesma coisa que definiu a hipótese alternativa, certo? Então, o que eu vou dizer? Qual é a hipótese alternativa? A porcentagem de gordura não é igual a 603050. Qual é a porcentagem de gordura da hipótese nula é igual a 15%. Nível de significância de cinco por cento. Porque eu sei que é um teste de uma amostra e eu tenho o desvio padrão da população. Vou usar um teste z de amostra. Vamos fazer a análise. Eu abri o arquivo do projeto e tenho os IDs de amostra e causei uma grande porcentagem de dados aqui. Deixe-me copiar esses dados para o Minitab. Mas copiou a porcentagem de gordura com o que os cientistas fizeram. Como sabemos que o desvio padrão da população, posso ir em frente e usar o teste z de uma amostra. Meus dados estão presentes em uma coluna. É o fato apresentado. O desvio padrão conhecido foi de 2,6. Eu quero realizar testes de hipóteses. Média hipotética, é 15%. Então, minha hipótese nula é que a porcentagem de gordura é igual a 15. Minha hipótese é que gordura era um grande a não é igual a 15. Eu posso escolher um gráfico de boxplot e histograma e dizer, Ok, eu vou te mostrar a saída. Portanto, a hipótese nula é que a porcentagem de gordura é igual a 15. A hipótese alternativa é que a porcentagem de gordura não é igual a 15. valor alfa é 0,05. Meu valor de p é 0,012, pois meu valor de p é menor que o valor alfa, P baixo, nenhum legal. Então eu rejeito a hipótese nula, concluindo que o percentual de gordura não é igual a 50. Se você vir aqui, o percentual de gordura é superior a 50. Eu posso refazer o mesmo teste. Desta vez. Eu posso ir em frente e verificar. Minha porcentagem de gordura é maior do que a média hipotética. Vamos fazer isso. E ainda assim eu recebo meu valor p com mais confiança, 0,006 muito longe do meu valor Alfa. Concluindo que sim, o Alfa, o valor nulo é hipotetizado, a média é 15. Mas a amostra diz que há uma grande probabilidade de que sua porcentagem de gordura na fonte seja superior a 50. Qual é o conselho que daremos à empresa? Aconselhamos a empresa que você não pode vender o nome de que o contêiner é 15% porque nosso fator é superior a 15%. Então, por segurança, você pode mudar o rótulo do produto para dizer que o percentual de gordura é 18, certo? Porque temos cinco por cento está passando por 20. Assim, um consumidor ficará feliz em receber um produto que contenha menos gordura. Então, para receber um produto que contenha mais gordura porque estamos todos preocupados com a saúde, certo? Então, vamos continuar na próxima aula. 17. Uma amostra proporção teste-1p-teste: Continuaremos com nossos testes de hipóteses. Às vezes, podemos ter uma proporção da ação, certo? não temos médias ou desvio padrão ou variância para No entanto, não temos médias ou desvio padrão ou variância para medir, o que estamos fazendo. Vamos pegar este exemplo seis, o analista de marketing quer determinar se o homem, o anúncio do novo produto resultou em uma taxa de resposta diferente da média nacional. Normalmente, sempre que você coloca um anúncio no jornal, eles dizem que há a empresa de publicidade que geralmente vê é que seremos capazes impactar 6% de resultado ou 10% de resultado ou algum número resultado bem aqui. O que é, é o mesmo tipo de cenário. Aqui. Eles pegaram uma amostra aleatória de 1000 famílias que receberam propaganda. E dessas 10 mil famílias, amostra 87 delas fez compras depois de receber esse engrandecimento. Então, essa empresa, que é uma empresa de publicidade, está alegando que eu causei um impacto melhor do que os outros anúncios. O analista tem que realizar o teste z de uma proporção para determinar se a proporção de domicílios que fizeram uma compra foi diferente da média nacional de 6,5 porque isso é 8,7. Nesse caso. Qual é a sua hipótese alternativa? hipótese alternativa é que o anúncio é diferente da resposta ao anúncio é diferente da média nacional. Aqui, diremos que não há diferença. Ambos são pecado, valor alfa é de cinco por cento. E vamos fazer uma proporção, teste z, teste de proporção de eventos. Eu deveria te levar até o minuto. Então, vamos para o MiniTab. Eu posso ir em frente e esses pais, estatísticas básicas, uma proporção. Não tenho dados na minha coluna, mas resumi, certo? Então deixe-me fechar isso, cancelar, deixe-me fechar isso. Então, eu fiz um teste de proporção de amostra. Eu resumi os dados. Quantos eventos foram estamos absorvendo? Estamos observando 87 eventos que acontecerão. A amostra é de mil. Preciso realizar o teste de hipótese e a proporção hipotética, 6,5, 0,0656% .5, certo? Portanto, é 0,065. Essa proporção não é igual à proporção hipotética. Eu digo, Ok, eu vejo, ok. Agora, a hipótese nula é que a proporção é igual a 6,5 por cento. hipótese alternativa é que o impacto proporcional não é igual a 5,56 por cento. valor de p é 0,008. O que isso significa? Sim, seja baixo, nada legal. Portanto, rejeitamos a hipótese nula, concluindo que o efeito do anúncio, Ele não é 6,6,5 por cento, mas é mais porque se você ver o intervalo de confiança de noventa e cinco por cento, diz 0,7% a 10%, certo? Você tem uma proporção de 88,7%. E o intervalo de confiança de 95% da proporção está muito acima de 6,5, começa a partir de 7. Portanto, podemos concluir que há um impacto significativo do anúncio e podemos examinar essa empresa de publicidade. Vamos continuar em nossa próxima lição. 18. Duas amostras de proporção teste-2p-teste: Vamos fazer esse exercício mais uma vez usando o Assistente. Portanto, temos os 80 produtos de carne bovina numerados pelo fornecedor E que verificamos. 725 estão com defeito ou não defeituosos. Então, quantos isso é eficaz? Então, se eu fizer uma subtração, seria 777802 menos 725 é 77712 produtos de amostragem do fornecedor B foram selecionados por 73. Perfeito. Então, quanto está com defeito? Um, 39. Então, vamos tentar fazer nosso teste de duas proporções usando o assistente do Minitab como este teste de hipótese, peças de amostra, fezes, porcentagem de amostra do fornecedor defeituoso E, 0 a 7771 a 139. A pessoa com defeito do fornecedor E é menor que a porcentagem de defeito do fornecedor B. Vou seguir em frente e clicar em Ok. E eu entendo isso. Sim, essa porcentagem de defeituosos ou fornecedor é significativamente menor do que a porcentagem de defeituosos do fornecedor B. E se eu rolar para baixo, Sim. Então diz a diferença, esse fornecedor a está pronto para leitura. A partir do teste, você pode concluir que a porcentagem representativa do fornecedor é menor que o Fornecedor B no nível de significância de 5%. Quando você está vendo essa porcentagem. Além disso, você pode ver claramente que continuaremos com o próximo teste de hipóteses na próxima semana. 19. Duas proporções de amostra test-2p-teste-Exemplo: Agora vamos entender o próximo exemplo. Este é um exemplo em que um gerente de operação mostra um produto fabricado usando matéria-prima de dois fornecedores, determina se uma das matérias-primas de suprimentos tem maior probabilidade de produzir uma melhor produto de qualidade. Assim, 802 produtos foram amostrados do fornecedor E 725 ou perfeito, que não está com defeito. 712 produtos foram amostrados do Fornecedor B, 573 ou buffet. Ou seja, não está com defeito. Então, queremos realizar porque qual é porcentagem de não defeituosos de seus dados pessoais? Sim, eu tenho duas proporções, matriz de suprimentos e Fornecedor B. Vamos para o principal. Eu posso ir para Stat, Teste de duas proporções de Estatísticas Básicas. Eu tenho meus dados resumidos, os pares pela primeira facilidade, 725 ou ambos agem de 802. Então, vamos pegar 725025723712572371. A opção de eles verem é que há uma diferença e vamos descobrir. Portanto, o BVA, a hipótese nula, é que não há diferença entre a proporção. A hipótese alternativa é que há uma diferença entre as duas proporções. Quando eu estava olhando para o valor de p, o valor de p sai para ser Z, para ser nulo baixo. Está concluindo que eu tenho que rejeitar a hipótese nula. Há uma diferença no desempenho dos dois fornecedores. Agora, se eu pensar porque estou falando de perfeito ou não defeituoso, atualmente, amostra um tem 90% perfeito e a amostra dois tem 80% perfeita. Então, concluindo que o fornecedor E é um fornecedor melhor do que o Fornecedor B. Certo? Então, muito obrigado. Continuaremos na próxima lição. 20. Usando o Excel = um teste t de amostra: Muitas vezes entendemos o teste de hipótese, mas há um desafio que temos. O desafio é que eu não tenho o Minitab. Não posso fazer o teste de hipótese de uma maneira fácil em vez de passar por um cálculo manual usando uma calculadora estatística. Não se preocupe, isso é possível. Vou mostrar como posso fazer um teste de hipótese usando o Microsoft Excel. Vá para Arquivo. Vá para Opções. Ao acessar Opções, vá para Suplementos. Quando você clica em Suplementos. Deixe-me clicar aqui. Você tem uma opção chamada de suplemento do Excel na opção Gerenciar. Então, selecione o complemento do Excel e clique em Ir. Clique em Ferramentas de Análise e verifique se essa marca de verificação está ativada. Depois de fazer isso, você o encontrará na guia Dados. Você tem análise de dados disponível. Deixe-me clicar nele para que você entenda o que é possível. Na análise de dados. Eu tenho uma correlação OR, covariância, estatística descritiva, histograma, teste T, testes z, geração de números aleatórios, regressão de amostragem e todas essas coisas. Portanto, está ficando muito fácil fazer testes de hipóteses. Pelo menos a hipótese de dados contínuos também foi testada facilmente por meio do Microsoft Excel. Eu vou fazer com que você faça exercícios passo a passo por enquanto. Vamos voltar para a apresentação. Vamos pegar o primeiro problema. Ou seja, tenho as estatísticas descritivas do HD da chamada, do gerente dos processos em que sua equipe está trabalhando para fechar a resolução da chamada em sete minutos. Mas o cliente vê que ele ficou em espera por muito tempo e, portanto, está gastando mais de sete minutos. Se eu olhar para as estatísticas descritivas, está me dizendo dez minutos, mediana é sete, a média é 7,1. Agora eu gostaria de fazer essa análise usando a saída da Microsoft. Então, vamos começar. Eu tenho esse caso de uso nos dados do projeto que eu enviei, clique em ASD, é claro, ele leva você a este lugar. Agora, primeiro vou te ensinar como fazer estatísticas descritivas usando o Microsoft Excel. Vou clicar em análise de dados na guia Dados. Vou procurar estatísticas descritivas. Clique em, ok. Meu intervalo de entrada é daqui até a parte inferior. Eu selecionei. Meus dados são agrupados por colunas. O rótulo está presente na primeira linha. E eu quero que meu resultado vá para uma nova pasta de trabalho. Quero estatísticas resumidas e quero meu nível de confiança. Eu clico em OK. O Excel está fazendo alguns cálculos e preparando-os para isso. Sim. Aqui está minha saída. Eu clico no primeiro aqui para ver qual é a saída. Assim, você pode ver que você é média, modo mediano, desvio padrão, curtose, distorção, alcance, mínimo, máximo, soma, contagem, nível de confiança. Todas essas coisas são facilmente calculadas com o clique de um botão. Não preciso escrever tantas fórmulas. Agora, vamos voltar ao nosso conjunto de dados. Eu quero fazer o teste de hipóteses. Qual é a minha hipótese nula? Quando a hipótese nula é que o TDAH é igual a sete minutos. Hipótese alternativa. O TDAH não dura sete minutos. Há um valor alfa diferente que estou configurando como 5%. E com isso, vou realizar os testes que vou conectar é um teste t de uma amostra. Ao fazer um teste t de uma amostra usando o Microsoft Excel, você terá que seguir um pequeno truque. O truque é que vou inserir uma coluna aqui. E isso, eu vou chamá-lo de idiota. Porque o Microsoft Excel vem com a opção de teste t de duas amostras. Tenho HD da chamada em minutos e idiota, onde anotei em zeros, zeros. No entanto, a mediana média, tudo para 0 é sempre 0. Clique em análise de dados. Vou descer e direi teste t de duas amostras assumindo a mesma variância. Vou selecionar isso. Vou clicar em, Ok. Meu intervalo de entrada, um é essa linha. Meu alcance de entrada através deste manequim. Minha diferença média hipotética é de sete minutos. O rótulo está presente em ambos os valores Alpha definidos como cinco por cento. E estou dizendo que meu resultado precisa estar em uma nova pasta de trabalho. Eu clico em Ok, ele está fazendo o cálculo e me dando a saída. Você pode ver que os números foram transmitidos como uma prática Basta clicar no carma na seção Formato para que os números fiquem visíveis. Estou mudando a visualização porque o dummy não tem nenhum dado. Estou livre para excluir esta coluna. Agora vamos entender o que sempre procuramos? Procuramos esse valor, o valor p. Você se lembra da fórmula? Deixe-me pegar minhas fórmulas aqui. Sim. Qual é a conclusão? A conclusão é P alto. Eu não rejeito a hipótese nula. A conclusão do TDAH da ligação é de sete meses. Estou rejeitando a hipótese alternativa porque meu valor de p está além de 0,05. Vou abordar mais exemplos nas lições a seguir. Então, estou ansioso para que você continue esta série. Se você tiver alguma dúvida, solicitaria que você colocasse suas perguntas na seção de discussão abaixo e ficarei feliz em respondê-las. Obrigada 21. Compreender os dados não normais: Nosso normal ou não. Vamos tentar entender como trabalhamos quando meus dados não são normais? Ou mesmo antes de chegar lá, deixe-me apresentá-lo a esse senhor. Alguma suposição? Quem é o cavalheiro? Você pode digitar na janela de bate-papo se souber. E mesmo que você não saiba, está perfeitamente bem. Não há pontos de penalidade por suposições erradas. Sim. Alguns de vocês adivinharam, certo? Ele é a pessoa famosa por trás de nossa distribuição normal. Sr. Carl Cos. Ele é o grande matemático. E ele foi a pessoa que criou o conceito de distribuição gaussiana ou distribuição normal. Então, aqui está o cérebro por trás do conceito de distribuição normal e todos os testes paramétricos que estamos fazendo. Se meus dados não estiverem normais, eles podem ser distorcidos. Pode ser distorcido negativamente ou pode ser distorcido positivamente. Se eu disser distorcido negativamente , tecnicamente é ter uma cauda no lado esquerdo. Positivamente inclinado significa cauda no lado direito. Isso significa que meus dados não estão se comportando de maneira normal. Meus dados podem não ser normais porque estão seguindo uma distribuição uniforme ou plana como essa. Então, também não está seguindo a distribuição normal. Meus dados podem ter vários picos, algo assim, o que representa que há vários grupos de dados em meu conjunto de dados. E não é um comportamento normal. Porque meus dados têm todas essas coisas. Preciso tratar esses dados forma diferente quando estou fazendo meu teste de hipóteses. E por que esses dados não são normais? Pode ser por causa da presença de alguns valores atípicos. Pode ser por causa da distorção dos meus dados, ou pode ser por causa da curtose presente nos dados. Portanto, o motivo pelo qual seus dados não se comportam de maneira normal pode ser um desses. Vamos resumir, o que aprendemos? Meus dados não são normais se a distribuição tem uma assimetria, é unimodal, não é unimodal, mas na verdade essa distribuição bimodal ou multimodal. É uma distribuição de cauda pesada contendo valores discrepantes. Ou pode ser uma distribuição plana como uma distribuição uniforme. Esses são alguns motivos básicos pelos quais meus dados não estão se comportando de maneira normal. Estranho, não é uma distribuição normal, então existem várias distribuições. Também existem outras distribuições, que falam sobre a distribuição exponencial, que modela o tempo entre o evento. A distribuição log-normal. que diz que, se eu aplicar o logaritmo nos dados , meus dados seguirão uma distribuição normal. Distribuição de Poisson, distribuição binomial, distribuição multinomial. Vamos entender alguns exemplos, cenários da vida real em que as distribuições não normais podem ser aplicadas. Se você observar isso, sempre que estou tentando prever algo em um intervalo de tempo fixo. Então eu uso a distribuição de Poisson para minha análise e hipótese. Alguns exemplos da distribuição de Poisson ou do número de chamadas de atendimento ao cliente recebidas no call center. O número de pacientes que apresentam pronto-socorro de um hospital em um determinado dia, o número de solicitações de um determinado item em uma loja on-line em um determinado dia. O número de pacotes entregues pela empresa de entrega em um determinado dia, o número de itens defeituosos produzidos por uma empresa de manufatura em um determinado dia. Se você observar que há um comportamento comum aqui. Sempre que estamos tentando entender algo em um determinado período de tempo, pode ser um determinado dia, pode ser um determinado mês, dado B. Então, preferimos fazer nossa análise usando a distribuição de Poisson. Alguns exemplos de distribuição log-normal. O tamanho dos arquivos baixados da Internet, o tamanho das partículas em uma amostra de sedimento, a altura da árvore, o tamanho dos retornos financeiros, o tamanho do jogo de seguros. Se você ver esses exemplos, como se eu tomasse o exemplo dos retornos financeiros de seus investimentos, você pode ver que, fora do meu portfólio de investimentos, alguns investimentos me deram um retorno muito bom de 100%, 100%, 150 por cento, 80 por cento. E você também verá que fiz investimentos em alguma parte do meu portfólio porque isso resultou em um retorno zero ou um retorno negativo porque estou com prejuízo. Mas, no geral, meu portfólio está me dando um retorno de 12 a 15% ou 15 a 20 por cento. Você está tentando dizer que sua distribuição não é tecnicamente uma distribuição normal. Você tem retornos muito baixos e retornos muito altos. Mas se você aplicar o logaritmo em seus dados , ele se comportará como uma distribuição normal que, em geral, seu portfólio resultará em um retorno de cerca de X. mesmo se aplica até mesmo no pedido de seguro. Vamos tentar entender a aplicação da distribuição exponencial. O tempo entre a chegada dos clientes na fila, o tempo entre a falha em uma máquina, sua fábrica, o tempo entre as compras na loja de varejo, o tempo entre as ligações telefônicas e o contact center, o tempo entre as visualizações de página no site. Agora, se você ver entre a distribuição de Poisson e a distribuição exponencial, há um elemento comum. Qual é o elemento comum? Estamos tentando estudar com referência ao tempo. Sempre que você está fazendo uma distribuição normal, não é com referência ao tempo. Certo? Então, esses são alguns aplicativos. Mas a diferença entre um veneno e um exponencial está na distribuição de Poisson. É em um determinado dia, em um determinado dia, em uma determinada semana são dados meses. Aqui estamos tentando entender o tempo entre os dois eventos. Qual é o intervalo de tempo entre os dois eventos? Então, a distribuição exponencial pode ajudá-lo. Podemos, vamos entender a aplicação de alguma distribuição uniforme, como as alturas do aluno na turma. Necessidades de pacotes em um caminhão de entrega. Alguns pacotes são muito grandes, alguns pacotes são pequenos. Se você colocá-lo em uma distribuição, também descobrirá que é uma distribuição plana ou uniforme, pois para cada categoria de pacotes, você terá aproximadamente o mesmo número de pacotes, um para cada categoria de pacotes, você terá aproximadamente o mesmo número de pacotes, número similar de pacotes. Mercadorias que você está entregando. A distribuição dos resultados dos testes para um exame de múltipla escolha. A distribuição do tempo de espera em um semáforo, a distribuição do tempo de chegada de um cliente em uma loja de varejo. Então, se você ver todos esses exemplos seguindo uma distribuição uniforme, não é uma curva em forma de sino. Porque você tem continuamente pessoas que chegam à loja de varejo. Não é que haja um pico repentino. E os cenários reais de distribuição pesada significam a distribuição onde os valores discrepantes estão presentes, sinais da perda financeira e um setor de seguros ou outros sinais de perda financeira. Em algumas perguntas a um trader, ele veria esse número extremamente alto e extremamente baixo. O tamanho das chuvas extremas. Portanto, não temos chuvas extremas todos os anos. Portanto, não poderíamos dizer que o que quer que tenha acontecido é por causa de um outlier. E a distribuição de cauda pesada geralmente é afetada devido à presença de valores discrepantes. Portanto, se seus dados estão com valores discrepantes , você também pode ver que a distribuição por carga é uma distribuição pesada. E entenderemos, na próxima sessão, que tipo de testes não paramétricos devo realizar? Dependendo do tipo de dados não normais que estamos iniciando. O tamanho do consumo de energia, o tamanho da flutuação econômica da queda do mercado de ações. Todos esses são exemplos de sua distribuição pesada. Exemplos de dados bimodais. Aqui você precisa entender os meios bimodais. Há dois resultados que estamos tentando estudar. A distribuição das notas dos exames dos alunos que estudaram e dos que não estudaram. Distribuição das idades do indivíduo em uma população de duas faixas etárias distintas, altura de duas espécies diferentes, distribuição salarial de funcionários de dois departamentos diferentes. Boa velocidade em uma rodovia com dois grupos de motoristas lentos e rápidos. Então, aqui você pode ver que eu tenho dois grupos de dados que são diferentes. E estou tentando entender o comportamento de seguir em frente e fazer minha investigação como parte da minha hipótese ou do recurso que estou tentando fazer. Se eu tiver mais de dois grupos, dois diferentes, mais de dois grupos diferentes, como três grupos diferentes para grupos diferentes, então isso se torna uma distribuição multimodal. Certo? Então, acho que agora você já teria uma ideia de quais são as diferentes distribuições que não são distribuições normais. Então, como determino se meus dados não estão normalmente? O primeiro ponto que vem à nossa mente é um teste de normalidade. Mas mesmo antes de fazer um teste de normalidade, você pode usar métodos gráficos simples para descobrir se seus dados estão normais ou não. Você pode usar o histograma. E aqui o histograma mostra claramente vários movimentos. Portanto, posso ver claramente que essa não é uma distribuição normal. Se eu tentar colocar uma linha de ajuste , também posso ver que há distorção em meus dados. Também posso usar o gráfico de caixa para determinar se meus dados não são normais. Então, aqui você pode ver que eu tenho uma cauda pesada no lado esquerdo informando que meus dados estão distorcidos. Também posso ter valores discrepantes que um boxplot pode destacar facilmente. Então eu posso me esconder, identificar a distribuição pesada usando o boxplot. Além disso. Posso usar estatísticas descritivas simples onde posso ver os números do modo mediano médio. E quando vejo que esses números não estão sobrepostos ou não estão próximos um do outro, isso também indica que meus dados não são normais. Posso observar a curtose e a distorção da minha distribuição de dados e, em seguida, chegar a uma conclusão se meus dados estão se comportando normalmente ou não. Então, mostrei outras maneiras de identificar se seus dados estão seguindo uma distribuição não normal ou se seus dados estão seguindo uma distribuição normal. Agora eu diria mais uma coisa. Não se mate se sua média fosse 23,78 e a mediana fosse 24, e o modo fosse como 24,2 ou 24. Portanto, se houver uma leve deflação, ainda consideramos que é normal. Certo? distorção próxima de zero é uma indicação de que meus dados estão normais. Mas se minha distorção estiver além de menos dois ou mais dois, é definitivamente nossa prova de não normalidade. A cetose também é mais uma forma de identificar se meus dados estão seguindo a distribuição normal. Na maioria das vezes, preferimos que o número da curtose esteja em 0-3. Mas se sua cetose for negativa, significa que é uma curva plana. As auditorias seguem uma distribuição uniforme. auditoria pode ser uma distribuição exagerada de alta curtose e também pode ser uma indicação de que seus dados são perfeitos demais. E talvez você precise investigar se existem, eles não manipularam seus dados antes de entregá-los. Outro teste favorito do AdText ou Anderson-Darling, em que tentamos entender se meus dados são normais ou não. Portanto, a hipótese nula básica sempre que estou fazendo o teste NAT é que meus dados seguem uma distribuição normal. Portanto, esse é o único teste em que eu quero meu valor de p seja maior que 0,05 que obtenho, não rejeito a hipótese nula , concluindo que meus dados são normais, e recorro ao meu teste paramétrico favorito, que facilita a análise. Mas e se durante o teste ADA, seus dados e sua análise de dados mostrarem que o valor de p é significativo, que é menor que 0,05, talvez seja 0,02. Em seguida, conclui que meus dados não são uma distribuição normal. E eu preciso investigar que tipo de não normalidade ela tem. Assim, terei que fazer o teste e depois prosseguir. Continuaremos nossa sessão no próximo dia de Veneza. Espero que você tenha gostado. Se você tiver alguma dúvida, sinta-se à vontade para comentar no WhatsApp ou no canal do Telegram ou na seção de comentários aqui. Qualquer tópico que você gostaria de aprender como parte da sessão de quarta-feira. Eu ficaria feliz em investigar isso. Se você puder colocar esses comentários na caixa de bate-papo, no grupo do WhatsApp ou no telegrama. Eu realmente amo ensinar você e agradeço por ser maravilhoso. Estudantes. Cuide-se. 22. Conclusão: Gostaria de agradecer muito por concluir o programa. Isso mostra que você está altamente comprometido em sua jornada de aprendizado. Você quer se aprimorar e acredito que tenha aprendido muito. Espero que todos os seus conceitos também estejam claros. Quero garantir que eu lhe diga quais são os outros programas que eu quero compartilhar habilidades. Então, no Skillshare, eu tenho muitos outros programas que já estão lá e muitos surgirão nas próximas semanas e meses futuros. Como os programas são contar histórias com dados, como posso usar a análise, visualização de dados, análise preditiva sem codificação e muito mais. Além disso, também trabalho como instrutor corporativo. Garanto que todos os meus programas sejam altamente interativos e mantenham todos os participantes muito engajados. Eu projetei os livros que são personalizados para o meu workshop, o que também garante que todos os conceitos sejam claramente compreendidos pelos participantes. Meus jogos são projetados de tal forma que os conceitos obtêm empréstimos em um tempo em que jogam. Existem muitos jogos projetados para meus programas. E se você estiver interessado, você está livre para entrar em contato comigo. Também fiz mais de 2 mil horas de treinamento nos últimos dois anos durante a pandemia. Esses são apenas alguns dos workshops. Portanto, se sua organização quiser fazer algum programa de treinamento corporativo que seja offline ou online. Ou se você acha que pessoalmente deseja aprimorar seu aprendizado, pode entrar em contato comigo pelo meu e-mail. Fique conectado comigo no LinkedIn se você gostou do meu treinamento, por favor, certifique-se de escrever um comentário no LinkedIn. Além disso, eu também administro um canal no Telegram onde coloco muitas perguntas em que as pessoas podem aprender os conceitos e elas aprenderão, elas podem levar apenas alguns segundos para fazer isso. Além disso, certifique-se de escrever para deixar um comentário no Skillshare, como foi sua experiência de treinamento? se esqueça de concluir seu projeto. Eu amo as pessoas quando elas estão comprometidas e você provou que é uma delas. Por favor, fique conectado. Fique seguro e que Deus o abençoe.