2025 — fase de análise Lean Six Sigma GreenBelt — teste de hipóteses usando Microsoft-Excel e Minitab | Dimple Sanghvi | Skillshare

Velocidade de reprodução


1.0x


  • 0.5x
  • 0.75x
  • 1x (Normal)
  • 1.25x
  • 1.5x
  • 1.75x
  • 2x

2025 — fase de análise Lean Six Sigma GreenBelt — teste de hipóteses usando Microsoft-Excel e Minitab

teacher avatar Dimple Sanghvi, AI Consultant, Lean Six Sigma Master Black Belt

Assista a este curso e milhares de outros

Tenha acesso ilimitado a todos os cursos
Oferecidos por líderes do setor e profissionais do mercado
Os temas incluem ilustração, design, fotografia e muito mais

Assista a este curso e milhares de outros

Tenha acesso ilimitado a todos os cursos
Oferecidos por líderes do setor e profissionais do mercado
Os temas incluem ilustração, design, fotografia e muito mais

Aulas neste curso

    • 1.

      Fase de análise do DMAIC - introdução à análise de dados

      3:12

    • 2.

      Recapitulação da introdução ao Lean Six Sigma

      13:49

    • 3.

      Trabalho de projeto

      0:51

    • 4.

      Noções básicas de estatística

      4:34

    • 5.

      Importância dos níveis de medição ou tipos de dados

      15:57

    • 6.

      Medidas de centro e medidas de dispersão

      9:13

    • 7.

      Minitab L

      2:16

    • 8.

      o que é estatística descritiva

      4:32

    • 9.

      Estatística descritiva x inferencial

      9:13

    • 10.

      Conceitos de estatística inferencial, parte 2

      7:01

    • 11.

      Conceitos de testes de hipóteses em detalhes

      12:22

    • 12.

      Introdução às ferramentas de 7QC

      1:34

    • 13.

      Folha de verificação

      5:03

    • 14.

      Enredo de caixa

      8:33

    • 15.

      Entenda o enredo de caixa parte 1

      5:22

    • 16.

      Entenda o enredo de caixa parte 2

      7:37

    • 17.

      Análise de Pareto

      19:20

    • 18.

      Teste de hipóteses de conceito e significância estatística

      5:56

    • 19.

      Entenda o teste de hipótese

      5:27

    • 20.

      Conceito de hipóteses nula e alternativa

      7:01

    • 21.

      Estatísticas entendendo o valor de P

      7:48

    • 22.

      Entenda os tipos de erros

      4:49

    • 23.

      Entenda os tipos de erros — parte 2

      5:57

    • 24.

      Lembre-se do Jingle

      4:34

    • 25.

      Seleção de testes

      5:40

    • 26.

      Conceitos do T-Test em detalhes

      19:02

    • 27.

      Entenda um sample t test

      6:57

    • 28.

      Entenda 2 samples do teste t exemplo 1

      5:32

    • 29.

      Entenda 2 samples t (exemplo 2)

      3:14

    • 30.

      Entenda o teste t combinado

      3:59

    • 31.

      Entenda um teste Sample Z

      5:16

    • 32.

      Entenda uma proporção de amostra test-1p-test

      4:01

    • 33.

      Entenda a proporção de duas amostras test-2p-test

      1:39

    • 34.

      Proporção de duas amostras teste-2p-test-Example

      2:21

    • 35.

      Usando o Excel = um teste t de amostra

      6:51

    • 36.

      Análise de correlação

      27:56

    • 37.

      O conceito de análise de correlação de Pearson

      15:50

    • 38.

      Correlação biserial de pontos

      11:17

    • 39.

      Regressão logística

      19:43

    • 40.

      Prática de regressão logística

      20:01

    • 41.

      Curva ROC

      18:49

    • 42.

      Entenda os dados não normais

      15:15

    • 43.

      Teste de Kruskal Wallis com três ou mais grupos de dados não normais

      13:20

    • 44.

      Design de experimentos

      4:23

    • 45.

      As áreas de aplicação de um DOE

      4:01

    • 46.

      Tipos de designs em um DOE

      4:42

    • 47.

      Como reduzir o número de passagens

      5:23

    • 48.

      Tipo de efeitos

      4:30

    • 49.

      Design fatorial fracional

      10:48

    • 50.

      Design de Composição Plackett Burman Central

      3:13

    • 51.

      Conclusão

      2:25

  • --
  • Nível iniciante
  • Nível intermediário
  • Nível avançado
  • Todos os níveis

Gerado pela comunidade

O nível é determinado pela opinião da maioria dos estudantes que avaliaram este curso. Mostramos a recomendação do professor até que sejam coletadas as respostas de pelo menos 5 estudantes.

505

Estudantes

36

Projetos

Sobre este curso

Este programa abrangente de treinamento intensivo de análise de dados abrange os conceitos da base de estatísticas, analisando dados usando o Minitab

  • Saiba mais sobre
  • Noções básicas de estatística
  • Estatística descritiva
  • Resumo gráfico
  • Distribuições
  • Histograma
  • Enredo de caixa
  • Gráfico de barras
  • Gráfico de pizza
  • Teste de hipótese
  • Tipos de erros
  • Um Teste T de amostra
  • Teste T com duas amostras
  • Teste T combinado
  • One-Way-Annova
  • Teste de Chi-quadrado

Para quem é esse curso?

 Qualquer pessoa que seja um estudante de Lean Six Sigma ou que queira entender e aplicar estatísticas e análise gráfica

Lições principais

  • Entenda como fazer algumas análises básicas
  • Entenda e aplique ferramentas necessárias durante a fase de medição e análise de projetos de Seis Sigma
  • Qual gráfico usar quando?
  • Alguns erros comuns que cometemos quando realizamos análises gráficas
  • Criar gráficos para desenhar a conclusão

Conheça seu professor

Teacher Profile Image

Dimple Sanghvi

AI Consultant, Lean Six Sigma Master Black Belt

Professor

About Me

I am dedicated to empowering individuals to unlock their potential and make a meaningful impact. As a Consultant and Independent Director on a Corporate Board (NSE & BSE), I bring a wealth of experience to my roles, including being a Lean Six Sigma Master Black Belt and a Leadership Coach & Mentor. My expertise extends to AI, ML, and Data Science Coaching.

Let's connect on LinkedIn for professional growth and networking opportunities https://www.linkedin.com/in/dimplesanghvi/ to explore opportunities for professional growth and networking. I often discuss topics such as #ChatGPT, #DataAnalytics, #CoachingBusiness, #StorytellingWithData, and #LeanSixSigmaBlackBelt.

Join my Telegram channel to embark on a journey through Lean Six Sigma and Storytelling. Here,... Visualizar o perfil completo

Level: All Levels

Nota do curso

As expectativas foram atingidas?
    Superou!
  • 0%
  • Sim
  • 0%
  • Um pouco
  • 0%
  • Não
  • 0%

Por que fazer parte da Skillshare?

Faça cursos premiados Skillshare Original

Cada curso possui aulas curtas e projetos práticos

Sua assinatura apoia os professores da Skillshare

Aprenda em qualquer lugar

Faça cursos em qualquer lugar com o aplicativo da Skillshare. Assista no avião, no metrô ou em qualquer lugar que funcione melhor para você, por streaming ou download.

Transcrições

1. introdução de análise de dados: Olá amigos. Vamos começar com este programa de treinamento, análise de dados de cantos usando o MiniTab. O que você vai aprender neste curso? Portanto, as habilidades que você aprenderá neste curso são algumas noções básicas de estatística. Estaremos cobrindo estatísticas descritivas, resumo gráfico, distribuições, histograma, box-plot, gráficos de barras e gráficos de pizza. Vou montar uma nova série sobre teste de hipótese, que vou compartilhar no link como um link no último vídeo. Mas vamos primeiro entender todos os diferentes tipos de análise gráfica. Quem deve assistir a essa aula? Qualquer pessoa que tenha, que seja estudante do Lean Six Sigma, que queira obter a certificação Green Belt, Black Belt ou que queira aplicar estatísticas e análises gráficas em seu local de trabalho. Mesmo que você seja um empreendedor ou um estudante e queira entender estatísticas usando o MiniTab. Eu vou cobrir tudo isso. Vamos aprender quais erros geralmente acontecem quando estamos analisando. Porque quando fazemos análises usando pontos de dados baseados em teoria simples, tudo parece ser normal. Então, vou mostrar algumas armadilhas nas quais nossa análise falhará e como você deve evitar essas armadilhas. Vamos tentar, no final deste programa, você, o que você vai tirar desse programa? Você entenderá como fazer algumas análises básicas. Você entenderá quais são as ferramentas necessárias durante a fase de medição, como cálculos de capacidade e assim por diante. Usaremos durante a fase de análise, se possível, para cobrir o teste de hipótese. Caso contrário, se conseguir, o vídeo fica maior, vou colocá-lo como uma visão separada. Ivan também cobre qual gráfico usar quando temos alguns erros comuns e realizamos análises gráficas e criamos gráficos. E como faço para obter insights e conclusões desses gráficos? Isso realmente ajudará você a entender esse programa muito bem. Vamos ver o que é um Minitab? O Minitab é um software estatístico que está disponível e tem várias regiões. Então eu vou encontrar um novo projeto. Minha tela do Minitab se parece com isso. Eu tenho um navegador no lado esquerdo. Tenho minha tela de saída na parte superior, minha planilha de dados, que é muito parecida com uma planilha do Excel, com a qual posso trabalhar. Posso continuar adicionando essas planilhas e ter muitos dados. Posso fazer muitas análises usando minhas opções. Vamos cobrir estatísticas básicas, regressão. Estaremos cobrindo muitas estatísticas básicas e cobriremos muitos gráficos usando diferentes tipos de dados, certo? Então, se você estava interessado em saber essas coisas, você definitivamente deveria se inscrever e assistir ao meu vídeo. Muito obrigado. 2. Recapitulação da introdução ao Lean Six Sigma: Entendendo a função de transferência em seis sigma. Vamos agora explorar a função e sua relevância em seis sigma Isso começa com a compreensão da relação matemática. Y é uma função de X. Nessa equação, Y representa a saída e os resultados ou o resultado que queremos melhorar X representa a variável de entrada ou o padrão. F representa a função ou a transformação que pode ser aplicada nessas entradas Em essência, fix Sigma trata identificar e otimizar o fator X, entradas que impulsionam a Ao melhorar o Xs, devemos melhorar o Y ou nos concentramos em melhorar o Y. O exemplo da função de transferência em Dmth Vamos considerar um exemplo, chamando um suporte técnico para resolver uma proporção de computadores. Na fase definida, definimos um problema, quanto tempo leva para um cliente receber uma resolução. Y, que é igual ao tempo de resolução, O é o tempo total necessário para resolver o problema do cliente. Na fase de medição, identificamos e medimos os vários fatores envolvidos na chamada. Como o tempo na fila, o tempo com o suporte, o tempo gasto transferindo as chamadas entre agentes, o tempo de resolução Na fase de análise, determinamos quais Xs são críticos e quais são as variações típicas entre os fatores. Durante a fase de melhoria, implementamos mudanças para reduzir o tempo gasto em cada etapa. Talvez a automação de determinadas respostas ou otimização da lógica de rotina seja o que está abordado lá Durante a fase de controle, monitoramos o sistema para garantir que o Y, que é o momento resolução, tenha realmente melhorado e permanecido em funcionamento ao longo do tempo Esse processo pode ser repetido continuamente para promover melhorias adicionais. Quando seguido rigorosamente, o DMAC é uma poderosa metodologia repetível para obter um retorno mensurável para obter Melhoria adicional, metodologias em seis Sigma que temos O sistema é baseado em outras ferramentas, técnicas e práticas comprovadas , que incluem controle estatístico de processos Ele utiliza a carta de controles para monitorar a variação ao longo do tempo. Ele usa o limite de controle superior e inferior para identificar quando o processo está estatisticamente fora de controle As ferramentas SPC podem acionar o ciclo DMX quando a variação e o defeito excedem ferramentas de redução de variações e defeitos são comumente incluídas no gerenciamento da qualidade total Eles ajudam a identificar a causa raiz, as oportunidades de otimização. Essas ferramentas desempenham um papel fundamental durante a fase de análise e melhoria do DMC Trabalho em equipe e círculos de qualidade. Originado em Teta, a ênfase foi baseada na abordagem baseada em equipe para a melhoria do processo Funcionários de todos os níveis colaboram regularmente para resolver um problema usando as ferramentas e metodologias fornecidas no Six Os círculos de qualidade geralmente integram ferramentas estatísticas, técnicas DMAT e DPAduction Em seguida, os projetos Six Sigma e a estrada do Cinturão Amarelo. Na próxima seção, discutiremos os projetos Six Sigma e destacaremos o que a faixa amarela precisa saber, incluindo as funções e responsabilidades do projeto e o valor a faixa amarela agrega à equipe de melhoria Normalmente, a duração de um projeto Six Sigma pode variar significativamente Um projeto de curto prazo pode durar apenas algumas horas ou um dia, especialmente quando é conduzido por equipe pequena e de qualidade com o objetivo de obter documentos incrementais Um projeto de longo prazo pode durar mais de um ano, especialmente quando o escopo é complexo e multifuncional. É aqui que a faixa preta entra em jogo. No entanto, os projetos Six Sigma mais comuns, que são um cinturão verde, duram cerca de quatro a oito semanas, permitindo tempo suficiente para coletar os dados, percorrem permitindo tempo suficiente para coletar os dados, todas as fases do ciclo do DMC Papéis de adolescentes em seis projetos Sigma. Cada membro da equipe desempenha um papel distinto e crítico. Vamos entendê-los. Uma faixa preta master e um Blag. Essas pessoas estão liderando e gerenciando projetos. Eles garantem o alinhamento com a estratégia e orientam os membros da equipe Cinturões verdes. Eles realizaram análises detalhadas, coleta de dados e ajudaram a implementar a melhoria do processo cinturões amarelos são as pessoas que fornecem informações importantes, auxiliam na coleta de dados e apoiam a atividade de implementação Embora não sejam líderes de projeto, os Yellow Bells têm um papel muito essencial de membro da equipe, que está impulsionando a execução diária do projeto Six Sigma Quais são os objetivos comuns dos projetos Six Sigma? escopo do projeto varia e geralmente se concentra em reduzir a variação na experiência do cliente. No mundo de hoje, a experiência é muito importante. Acelerar o tempo de lançamento no mercado, eliminar erros e defeitos, reduzir os custos operacionais, reduzir os custos operacionais, algumas considerações essenciais para a implementação Six Sigma e o patrocínio executivo e Projetos sem forte apoio de liderança financiamento e visibilidade são muito diferentes do ecofaxe Adequação da metodologia . Pi Sigma é muito poderoso, mas não é adequado para todos os problemas Evite uma metodologia ou uma mentalidade única para todos. Comece pequeno e depois escale. Crie confiança e habilidades que sejam projetos menores e gerenciáveis antes de iniciar um esforço de transformação mais amplo Você sabe quando usar outras abordagens? Em alguns casos, metodologias alternativas podem ser mais apropriadas Iniciativa Lean, reengenharia de processos de negócios, chamamos isso de BPR, Business Process Management ou Ou a outra metodologia que pode ser usada. O controle do escopo é muito importante. Se o escopo do projeto for muito amplo e não tiver um resultado claro, ele se tornará incontrolável Custo versus benefício. Considere o ROI antes de investir tempo e recursos. Por exemplo, gastar 100 horas para economizar apenas 10 horas por ano não é uma compensação efetiva. Realizar uma avaliação de prontidão antes de iniciar um projeto é muito importante Isso ajuda a preparar sua organização antes de começarmos a escolher um projeto Defina o resultado desejado. O que estamos tentando alcançar e por quê? Estabeleça um critério de sucesso. Como é o sucesso tanto para a organização quanto para as pessoas envolvidas? Avalie a disponibilidade dos dados. Temos dados confiáveis, relevantes e oportunos para apoiar a análise? Monte a equipe certa. Temos pessoas com as habilidades, a influência e o compromisso de tornar o produto bem-sucedido? Crie um caso de negócios. Qual é o valor da melhoria? Quem tende a se beneficiar e quem pode resistir? Qual é o ROI esperado? Auxiliar na preparação organizacional é muito importante quando você planeja um projeto Six Sigma Essas perguntas são fundamentais porque são muito importantes. Ou seja, como é o estado futuro em comparação com a situação atual? Estamos resolvendo um problema da vida real em nossos negócios? Agora é o momento certo para implementar o Six Sigma? Uma avaliação cuidadosa garante que o projeto Six Sigma não seja apenas relevante, mas também viável e impactante Estamos avaliando o desempenho? Temos uma lógica sólida sobre aplicação do seis sigma em nosso caso de negócios E, finalmente, há algo mais acontecendo em seu projeto que precisa de sua atenção? No Six Sigma, existe realmente uma abordagem correta? Essas perguntas podem garantir que nossa organização esteja pronta para seis SEMA para um determinado problema Há três etapas principais para avaliar a prontidão organizacional Primeiro passo, avalie as perspectivas e o caminho futuro. Faça a pergunta, eu critico a cadeia? As empresas precisam disso agora. Avalie o desempenho atual. Faça a pergunta. Existe uma forte justificativa estratégica para aplicar o Six Sigma em nossos negócios Analise os sistemas e a capacidade de mudança. Faça a pergunta: a melhoria existente pode fornecer o nível de mudança necessário para nos manter bem-sucedidos competitivos sem usar o Six Sigma Para começar, considere a importância da experiência do cliente, da satisfação do cliente. Estamos nos concentrando na voz do cliente para impulsionar a mudança. As melhorias são essenciais e o cliente precisa delas. É aqui que as ferramentas de análise de dados Six Sigma são úteis. Isso nos ajuda a entender como o cliente realmente se preocupa. Six Sigma fornece uma ferramenta poderosa, planejamento estratégico futuro melhorando a eficácia do marketing, acertando na primeira vez e identificando o que realmente importa para o cliente em relação aos nossos projetos e serviços Uma dessas ferramentas valiosas no kit de ferramentas Six Sigma é o modelo CO, que nos ajuda a entender e priorizar as necessidades dos clientes O modelo CO é um método para coletar dados dos clientes e entender o que realmente importa para eles. O que diferencia nossas ofertas das demais? Isso nos ajuda a identificar coisas importantes, como quais são os recursos que podem aumentar a satisfação do cliente quando entregues de forma bem atribuída ao cliente. Quais são os possíveis fatores insatisfatórios que podem prejudicar a experiência do cliente se não forem resolvidos Ao analisar esses feedbacks, podemos priorizar melhorias que podem criar maior Agora, vamos considerar o planejamento estratégico. A análise Six Sigma pode desempenhar um papel fundamental ao identificar os principais fatores que impulsionam os clientes Satisfação do cliente, integrando-os ao planejamento estratégico As melhorias de desempenho são muito necessárias. uma cultura organizacional que faz parte de uma abordagem padrão da TIC Sigma, por meio de elaboração eficaz de projetos, desenvolvimento de métricas, sistemas de controle e equipes de círculo de qualidade, pode melhorar significativamente o alinhamento do desempenho em toda A lucratividade continua sendo uma prioridade máxima. Six Sigma é especificamente eficaz na redução do custo da qualidade Muitas organizações gastam de 20 a 75% do custo simplesmente para garantir a qualidade dos produtos e serviços. Ao reduzir esses custos, nos mantemos alinhados com as expectativas dos clientes e entregamos consistentemente melhor e entregamos consistentemente melhor e mais rápido do que Ok. Conceito de lente. manufatura enxuta, especialmente em um ambiente do setor de serviços, significa reconhecer a iniciativa de melhoria contínua Em sua essência, o N se concentra em simplificar e aprimorar processos para criar mais valor com seus recursos TahiOO, muitas vezes considerado o pai do pensamento moderno sobre garantias, enfatizou que a essência da garantia está em um princípio simples tempo calculado desde o recebimento do pedido do cliente até o recebimento do pagamento pelo cumprimento e, em seguida, trabalha continuamente para tornar esse tempo o mais curto possível e, em seguida, trabalha continuamente para tornar esse Len trata fundamentalmente eliminar o desperdício em toda a cadeia de valor, reduzindo tempo, esforço e recursos desnecessários O resultado é maximizar o valor, melhorar a eficiência, melhorar a qualidade e aumentar a satisfação do cliente. Em uma configuração de manufatura, as histórias de sucesso são muitas. Atualmente, temos muito, mesmo no setor de serviços. 3. Trabalho de projeto: Vamos entender qual é o trabalho de projeto que vamos fazer neste programa de análise de dados usando o MiniTab. Como eu disse, vamos trabalhar com o MiniTab. E este é o Minitab que eu vou usar. Também compartilharei com você uma folha de dados, folha de dados do seu projeto, onde tenho vários exemplos, onde estamos fazendo cálculos sobre a capacidade. Vamos tentar ver as distribuições e você pode ver que existem várias guias. Exemplo um exemplo dois exemplo três, vamos tentar fazer alguma análise de tendências. Vamos tentar ver gráficos de Pareto. Temos muitos dados que foram compartilhados com você, o que lhe dará uma experiência prática no trabalho com dados, certo? Então, vamos começar. 4. Noções básicas de estatísticas: Bem-vindo ao nosso próximo tópico importante, Fundamentos da estatística Neste vídeo, você aprenderá o que é estatística, o que é estatística descritiva e o que é estatística inferencial Vamos começar com a primeira pergunta. O que são estatísticas? estatística trata da coleta, análise e apresentação de dados. Por exemplo, se quisermos investigar se o gênero influencia o jornal preferido , gênero e jornal são nossas chamadas variáveis que queremos analisar. Analisar se o gênero influencia o jornal preferido. Primeiro, precisamos coletar dados. Para fazer isso, criamos um questionário que pergunta sobre gênero e jornal preferido Em seguida, enviaremos a pesquisa e aguardaremos duas semanas. Depois, podemos exibir as respostas recebidas em uma tabela nesta tabela. Temos uma coluna para cada variável, uma para gênero e outra para jornal. Por outro lado, cada linha representa a resposta de uma pessoa. Por exemplo, o primeiro entrevistado é do sexo masculino e declarou os tempos da Índia A segunda é feminina, afirmou a hindu, e assim por diante. Obviamente, os dados não precisam vir de uma pesquisa. Os dados também podem vir de um experimento no qual. Por exemplo, quero estudar o efeito de dois medicamentos na pressão arterial. Vamos considerar outro exemplo da vida real. Imagine que você é gerente de uma loja e quer saber se a exibição de um novo produto aumenta as vendas. Você poderia coletar dados sobre vendas antes. E depois que a nova tela for configurada, esses dados ajudarão você a analisar a eficácia da tela, ou suponha que o administrador da escola, queira entender se sessões extras de tutoria estão ajudando os alunos a melhorar suas notas em matemática Você poderia coletar as pontuações antes? Após as sessões de tutoria para analisar o impacto. Agora, a primeira etapa está concluída. Coletamos dados e podemos começar a analisá-los. Mas o que realmente queremos analisar? Não pesquisamos toda a população , mas coletamos uma amostra. Agora, a grande questão é: queremos apenas descrever os dados da amostra ou queremos fazer uma declaração sobre toda a população? Se nosso objetivo estiver limitado à amostra em si. Ou seja, queremos apenas descrever os dados coletados. Usaremos estatísticas descritivas. As estatísticas descritivas fornecerão um resumo detalhado da amostra Por exemplo, se pesquisássemos 100 pessoas sobre seu jornal preferido, estatísticas descritivas nos diriam quantas pessoas preferem a época da Índia ou da Índia No entanto, se quisermos tirar conclusões sobre a população como um todo. Usamos estatísticas inferenciais. Essa abordagem nos permite fazer inferências sobre a população com base em nossos dados de amostra Por exemplo, usando estatísticas inferenciais, podemos estimar a proporção de todos os adultos em uma cidade que preferem um jornal específico com base em uma amostra de 500 entrevistados As estatísticas inferenciais também podem nos ajudar a determinar se um determinado grupo demográfico, como o gênero, influencia significativamente as preferências dos jornais Ao analisar nossos dados de amostra, podemos fazer inferências sobre as preferências de jornais de toda a população Usando estatísticas descritivas e inferenciais, podemos obter uma compreensão mais profunda de nossas descobertas e tomar decisões informadas sobre estratégias de marketing ou criação de conteúdo para diferentes jornais Na próxima lição, vamos nos aprofundar nas aplicações práticas da estatística. Fique ligado. 5. Importância dos níveis de medição ou tipos de dados: Importância dos níveis de medição. Compreender o nível de medição é crucial por vários motivos. Análise apropriada. Diferentes níveis de medição exigem técnicas estatísticas diferentes. Usar o método errado pode levar a conclusões incorretas. Interpretação de dados. Saber o nível ajuda a interpretar incorretamente os resultados. Por exemplo, os valores médios são significativos para dados de intervalo e proporção, mas não para dados nominais ou ordinais Visualização e técnicas eficazes de visualização de dados variam de acordo com o nível de medição Os gráficos de barras são adequados para dados nominais, enquanto os histogramas são melhores para dados de intervalo e proporção Vamos nos aprofundar em cada nível de medição. Nível nominal de medição. As variáveis nominais categorizam os dados sem estabelecer nenhuma ordem significativa Por exemplo, perguntar aos entrevistados sobre seu meio de transporte para a escola, ônibus, carro, bicicleta ou caminhada é nominal Cada categoria é distinta, mas não há classificação ou ordem inerente entre elas. análise de dados nominais envolve contar frequências ou usar gráficos de barras para visualizar distribuições. nível ordinal de medição, as variáveis ordinais introduzem uma ordem ou classificação significativa entre as categorias, mas as diferenças entre as classificações não são mensuráveis de forma consistente Por exemplo, pedir aos alunos que classifiquem sua satisfação com o meio de transporte como muito satisfeita, satisfeita , neutra, satisfeita ou muito satisfeita demonstra uma medição ordinal Embora possamos classificar essas respostas da menos para a mais satisfeita, a diferença numérica entre satisfeito e muito satisfeito não é quantificável A análise normalmente envolve cálculos de mediana e testes não paramétricos Níveis de medição de intervalo e razão , variáveis métricas. As variáveis de intervalo e razão são consideradas variáveis métricas. Eles compartilham a característica de que os intervalos entre os valores são igualmente espaçados, mas as variáveis de razão também têm um ponto zero verdadeiro, tornando todas as operações aritméticas válidas Os exemplos incluem medir idade, peso ou renda. Por exemplo, perguntar aos entrevistados sobre o número de minutos necessários para chegar à escola mede os dados de intervalo, onde os intervalos entre as respostas, por exemplo, 10 minutos e 20 minutos são consistentes e significativos Isso permite medidas estatísticas, como o cálculo médias e o uso técnicas estatísticas avançadas, como análise de regressão Resumo. Compreender esses níveis de medição é crucial para criar pesquisas e escolher análises estatísticas apropriadas. Os dados nominais nos informam sobre categorias sem qualquer ordem Os dados ordinais permitem classificação, mas não a medição precisa das diferenças, e o intervalo e a proporção dos dados métricos permitem medições precisas e suportam uma ampla variedade de análises estatísticas Seja criando tabelas de frequência, gráficos de barras ou histogramas, selecionar o nível certo de medição garante uma interpretação precisa dos dados e insights significativos em vários campos de estudo e pesquisa Vamos examinar mais de perto cada nível de medição. Nível nominal de medição. Os dados nominais são o nível mais básico de medição. As variáveis nominais categorizam os dados, mas não permitem uma classificação significativa das categorias Os exemplos incluem sexo, macho, fêmea, tipos de animais, cachorro, gato, pássaro e jornais preferidos. Em todos esses casos, você pode distinguir entre valores, mas não pode classificar as categorias de forma significativa Por exemplo, investigar se o gênero influencia o jornal preferido envolve variáveis nominais Em um questionário, você listaria as respostas possíveis para ambas as variáveis Como não há uma ordem inerente, a organização das categorias no questionário não importa Os dados coletados podem ser exibidos em uma tabela e tabelas de frequência ou gráficos de barras podem ser usados para visualizar as distribuições Nível ordinal de medição. Os dados ordinais podem ser categorizados e classificados em uma ordem significativa, mas as diferenças entre as classificações não são matematicamente iguais Os exemplos incluem classificações, primeiro, segundo, terceiro, índices de satisfação, muito insatisfeito, insatisfeito, neutro, satisfeito, muito satisfeito, níveis de educação, ensino médio, bacharelado, mestrado, neste caso, embora a Os intervalos entre as classificações não são necessariamente iguais. Por exemplo, se um questionário perguntar: quão satisfeito você está com seu trabalho atual, com opções que variam de muito insatisfeito a muito satisfeito As categorias de resposta são ordenadas, mas a diferença exata entre cada nível de satisfação não é quantificável A análise de dados ordinais geralmente envolve cálculo de medianas e o uso de testes não Nível de intervalo de medição. Os dados de intervalo têm intervalos iguais entre os valores, mas não têm um ponto zero verdadeiro Os exemplos incluem temperatura em graus Celsius ou Fahrenheit. Os dados de intervalo permitem a medição das diferenças entre os valores. Mas como não existe um zero verdadeiro, as proporções não são significativas Operações estatísticas, como cálculo de médias e uso de técnicas como análise de regressão, e uso de técnicas como análise de regressão Nível de medição da proporção. Os dados de proporção têm intervalos iguais entre os valores e incluem um ponto zero verdadeiro Os exemplos incluem idade, peso ou renda, porque os dados da proporção incluem um zero verdadeiro. Todas as operações aritméticas são válidas. Esse nível permite o cálculo de índices e médias e permite o uso de métodos estatísticos avançados Ah. O que aprendemos até agora usando um exemplo. Imagine que você está conduzindo uma pesquisa em uma escola para entender como os alunos chegam à Aqui estão algumas perguntas que você pode fazer. Cada um corresponde a um nível diferente de medição. A primeira pergunta poderia ser qual meio de transporte você usa para chegar à escola? As opções podem incluir ônibus, carro, bicicleta ou caminhada. Essa é uma variável nominal. As respostas podem ser categorizadas, mas não há uma ordem significativa Isso significa que o ônibus não é maior que a bicicleta. A caminhada não é maior que o carro e assim por diante. Se quiser analisar os resultados dessa pergunta, você pode contar quantos alunos usam cada meio de transporte e apresentá-lo em um gráfico de barras. Em seguida, você pode perguntar: quão satisfeito você está com seu meio de transporte atual? opções podem incluir muito insatisfeito, insatisfeito, neutro, satisfeito ou muito Essa é uma variável ordinal. Você pode classificar as respostas para ver qual meio de transporte tem maior satisfação. Mas a diferença exata entre satisfeito e muito satisfeito. Por exemplo, não é quantificável. Para a pergunta final, quantos minutos você leva para chegar à escola? Aqui, os minutos para chegar à escola são uma variável métrica. Você pode calcular o tempo médio necessário para chegar à escola e usar todas as medidas estatísticas padrão. Podemos visualizar esses dados com um histograma que mostra a distribuição do tempo necessário para chegar à escola e comparar os diferentes Portanto, usando dados nominais, podemos categorizar e contar as respostas, mas não podemos inferir nenhuma ordem Os dados ordinais nos permitem classificar as respostas, mas não medir diferenças precisas entre as classificações Os dados métricos nos permitem medir as diferenças exatas entre os pontos de dados. Como já mencionado, os níveis métricos de medição podem ser subdivididos em intervalo e escala de razão Mas qual é a diferença entre os níveis de intervalo e proporção? Vamos explorar a diferença entre os níveis de medição de intervalo e proporção usando um exemplo. Intervalo versus nível de proporção de medição. Em uma maratona, o tempo gasto pelos corredores para concluir a corrida serve como exemplo prático Considere um cenário em que o corredor mais rápido termina em 2 horas e o mais lento termina Veja como classificamos o nível de medição com base nas informações fornecidas Nível de medição da proporção. Um nível de proporção de medição é caracterizado por ter um ponto zero verdadeiro, onde zero representa a ausência da quantidade que está sendo medida. No exemplo da Maratona, todos os corredores começam no mesmo tempo 0,0 quando começam a Com um verdadeiro ponto zero, podemos fazer comparações significativas, como afirmar que o corredor mais rápido levou três vezes menos tempo do que o corredor mais lento, podemos fazer comparações significativas, como afirmar que o corredor mais rápido levou três vezes menos tempo do que o corredor mais lento, 2 horas versus 6 horas. Esse nível permite operações significativas de multiplicação e divisão Por exemplo, se um corredor terminar em 4 horas e outro em 12 horas, podemos dizer com precisão que o primeiro corredor foi três vezes mais rápido que Nível de intervalo de medição. Um nível de intervalo de medição carece de um ponto zero verdadeiro. No contexto da maratona, se o cronômetro começar tarde e medirmos apenas as diferenças de tempo em relação ao corredor mais rápido que começou a tempo, perdemos a Embora os intervalos entre os valores ainda estejam igualmente espaçados e as operações aritméticas como adição e subtração sejam válidas, a multiplicação e multiplicação Por exemplo, dizer que um corredor terminou 4 horas antes do outro é significativo Mas não podemos afirmar que um corredor foi quatro vezes mais rápido do que outro sem saber o tempo total de ambos Em resumo, a medição do nível de intervalo permite intervalos iguais entre valores e suporta operações como adição e subtração, mas não possui um ponto zero verdadeiro necessário para Agora, um pequeno exercício para verificar se tudo está claro para você. Primeiro, temos o estado dos EUA, que é um nível nominal de medição. Isso significa que os dados são usados para rotular ou nomear categorias sem nenhum valor quantitativo Nesse caso, os estados são nomes sem ordem ou classificação inerentes. Em seguida, temos classificações de produtos em uma escala de 1 a 5. Esse é um exemplo de dados ordinais. Aqui, os números têm uma ordem ou classificação. Cinco é melhor do que um, mas os intervalos entre as avaliações não são necessariamente iguais Passando para nomes de departamentos como compras, vendas, operações, finanças, isso também é nominal As categorias aqui, como departamentos diferentes são para categorização e não implicam em nenhum pedido Em seguida, temos as emissões de CO 2 em um ano, que são medidas em uma escala de razão métrica. Esse nível permite uma gama completa de operações matemáticas, incluindo proporções significativas Zero emissões significam nenhuma emissão. Então temos números de telefone. Embora os números de telefone sejam numéricos, eles são classificados como Eles são apenas identificadores sem valor numérico para análise O nível de conforto é outro exemplo ordinal. Isso pode incluir níveis como cuidado baixo, médio e alto, que indicam uma ordem, mas não a diferença exata entre esses níveis. espaço vital em metros quadrados é medido em uma escala de proporção. Assim como as emissões de CO 2, metros quadrados significam que não há espaço habitável e comparações como o dobro ou a metade são significativas Por fim, temos a satisfação no trabalho em uma escala de 1 a 4. Esses são dados ordinais. Ele classifica os níveis de satisfação, mas a diferença entre cada nível não é quantificada Na próxima lição, vamos nos aprofundar nas aplicações práticas do projeto de experimentos. Fique ligado. 6. Medidas de centro e medidas de dispersão: Vamos examinar os dois métodos, começando com estatísticas descritivas Por que a estatística descritiva é importante? Por exemplo, se uma empresa quiser entender como seus funcionários se deslocam para o trabalho Ele pode criar uma pesquisa para coletar essas informações. Depois que dados suficientes são coletados, eles podem ser analisados usando estatísticas descritivas Então, o que exatamente é estatística descritiva, seu objetivo é descrever e resumir um conjunto de dados de uma forma significativa No entanto, é fundamental observar que as estatísticas descritivas refletem apenas os dados coletados e não tiram conclusões sobre uma população maior Em outras palavras, saber como alguns funcionários uma empresa se deslocam não nos permite saber como todos os funcionários se comportam Agora, para descrever os dados de forma descritiva, nos concentramos em quatro componentes principais medidas de tendência central, medidas de dispersão, tabelas de frequência e gráficos Vamos começar com medidas de tendência central, que incluem média, mediana e muito mais Primeiro, a média, a média aritmética, é calculada somando todas as observações e dividindo pelo Por exemplo, se tivermos as notas dos testes de cinco alunos, somamos as pontuações e dividimos por cinco para descobrir que a pontuação média do teste é 86,6 A seguir está a mediana. Quando os valores em um conjunto de dados são organizados em ordem crescente, a mediana é o valor médio Se houver um número ímpar de pontos de dados, é simplesmente o valor médio Se houver um número par, a mediana é a média dos dois valores médios Um aspecto importante da mediana é que ela é resistente a valores extremos ou valores discrepantes Por exemplo, independentemente da altura, a última pessoa está em um conjunto de dados alto. A mediana permanecerá a mesma. Embora a média possa mudar significativamente com base nesse valor, a mediana permanece inalterada independentemente da altura da última pessoa O que significa que não é afetado por valores discrepantes. Em contraste, os homens podem mudar significativamente com base na altura da última pessoa, tornando-a sensível a valores discrepantes Agora, vamos discutir o modo. O modo é o valor ou valores que ocorrem com mais frequência em um conjunto de dados. Por exemplo, se 14 pessoas viajam de carro, seis de bicicleta, cinco caminham e cinco usam transporte público , o carro é o modo, pois aparece com mais frequência Em seguida, passamos às medidas de dispersão, que descrevem a dispersão dos valores em um conjunto de dados As principais medidas de dispersão incluem variantes. desvio padrão e faixa de intequatle, começando Ele indica a distância média entre cada ponto de dados e a média. Isso nos diz o quanto os pontos de dados individuais se desviam da média Por exemplo, se o desvio médio da média for 11,5 centímetros, podemos calcular o desvio padrão usando Sigma é igual à raiz quadrada da soma de cada valor menos Quadrado, dividido por n, onde Sigma é o desvio padrão N é o número de indivíduos. X sub i é o valor de cada indivíduo e x bar é a média É importante observar que existem duas fórmulas para o desvio padrão divide por n, enquanto o outro divide por n menos um. O último é usado quando nossa amostra não cobre toda a população, como em estudos clínicos. O último é usado quando nossa amostra não cobre toda a população, como em estudos clínicos. Agora, como o desvio padrão difere da variância? O desvio padrão mede a distância média da média Já a variância é simplesmente o valor quadrado do desvio padrão A seguir, vamos discutir o alcance e o intervalo intequatle. O intervalo é a diferença entre os valores máximo e mínimo em um conjunto de dados. Por outro lado, o intervalo inequartil representa os 50% médios dos dados, calculados como a diferença entre o primeiro quartil, Q um e o terceiro quartil, qu Isso significa que 25% dos valores estão abaixo e 25% acima da faixa entre quartis Antes de prosseguirmos para os pontos finais, vamos comparar brevemente esses conceitos, medidas de tendência central e medidas de dispersão Vamos considerar a medição da pressão arterial dos pacientes. As medidas de tendência central fornecem um valor único que representa todo o conjunto de dados. Ajudando a identificar um ponto central em torno do qual os pontos de dados tendem a se agrupar. Por outro lado, medidas de dispersão, como desvio padrão, intervalo e intervalo inteQatile, intervalo e intervalo inteQatile indicam a dispersão dos pontos de dados Se eles estão agrupados ao redor do centro ou amplamente dispersos Em resumo, enquanto as medidas de tendência central destacam o ponto central do conjunto de dados, as medidas de dispersão descrevem como os dados são distribuídos em torno desse centro Agora, vamos passar às tabelas, focando nos tipos mais importantes, frequência e tabelas de contingência Uma tabela de frequência mostra com que frequência cada valor distinto aparece em um conjunto de dados. Por exemplo, uma empresa entrevistou seus funcionários sobre suas opções de deslocamento, carro, bicicleta, caminhada e transporte público Aqui estão os resultados de 30 funcionários mostrando suas respostas. Podemos criar uma tabela de frequência para resumir esses dados listando as quatro opções na primeira coluna e contando suas ocorrências na tabela É claro que o meio de transporte mais comum entre os funcionários é o carro. Com 14 funcionários escolhendo essa opção. A tabela de frequência fornece um resumo conciso dos dados Mas e se tivermos duas variáveis categóricas em vez de uma É aqui que uma tabela de contingência, também conhecida como tabulação cruzada, entra em jogo Imagine que a empresa tenha duas fábricas, uma em Detroit e outra em Cleveland Se também perguntarmos aos funcionários sobre seu local de trabalho, podemos exibir as duas variáveis usando uma tabela de contingência Essa tabela nos permite analisar e comparar a relação entre as duas variáveis categóricas As linhas representam as categorias de uma variável. Enquanto as colunas representam as categorias da outra, cada célula na tabela mostra o número de observações que se encaixam na combinação de categorias correspondente. Por exemplo, a primeira célula que indica quantos funcionários viajam de carro e trabalham em Detroit foi relatada Obrigada Nos vemos na próxima aula de estatística. 7. Minitab: Nesta aula, vamos aprender sobre o teste de hipóteses. Vou te ensinar testes de hipóteses usando o MiniTab. Também vou ensinar testes de hipóteses usando o Microsoft Office. Isso é usar o Excel e Microsoft Office para aqueles que estão interessados em usar o MiniTab. Deixe-me mostrar de onde você pode baixar o Minitab. Minitab.com em Downloads. Aqui chegamos à seção de download. Você tem o software estatístico MiniTab e está disponível por 30 dias gratuitamente. Eu também baixei a versão de teste no meu sistema e a análise do Dando e mostrei que você a mostrou para você. Lembre-se de que ele está disponível por apenas 30 dias. Certifique-se de concluir todo o programa de treinamento nos primeiros 30 dias. Quando você sentir o valor disso, você definitivamente deve seguir em frente e usar a versão licenciada do MiniTab, que está disponível aqui. Só preciso clicar em Baixar e baixar o Woodstock. Tudo começa com uma avaliação gratuita de 30 dias. E é tempo suficiente para você praticar todos os exercícios que são conduzidos. Ele solicitará algumas informações pessoais para que eles possam entrar em contato com você e possam ajudá-lo com alguns descontos. Se houver algum. Você tem uma seção chamada Dr. MiniTab ou você tem um número de telefone. Se você estiver ligando do Reino Unido, será fácil ligar para lá. Mas se você estiver falando de outros lugares, falar com o MiniTab é uma opção muito mais fácil. Essa é uma ferramenta estatística muito boa e eles continuam atualizando os recursos regularmente. Então, pessoalmente, sinto que esse investimento valerá a pena. Mas para aqueles que não podem se dar ao luxo de obter a licença, eles podem usar o Microsoft Office, pelo menos alguns dos recursos, não todos, mas alguns dos recursos estão disponíveis. Então, inicialmente, mostrarei todo o exercício de diferentes tipos de hipóteses usando o MiniTab. E então passaremos para o Microsoft Excel, permaneceremos conectados e continuaremos aprendendo. 8. Estatística descritiva: Na sessão de hoje, vamos aprender sobre estatísticas descritivas. Estatística descritiva significa que eu quero entender as medidas do centro. Como medidas de centro, média, modo mediano. Eu quero entender as medidas de propagação. Isso não é nada além de intervalo, desvio padrão e variância. Vamos pegar os dados simples que eu tenho. Eu tenho tempo de ciclo em minutos para quase 100 pontos de dados. Vou pegar o tempo do ciclo em minutos a partir da folha de dados do meu projeto diário. Vou para o MiniTab e colarei meus dados onde quero fazer algumas estatísticas descritivas. Estatísticas. Clique em Estatísticas Básicas e diga Exibir estatísticas descritivas. Quando eu faço isso, ele me dá uma opção na janela pop-up, que é chamada de, que mostra os campos de dados disponíveis que eu tenho. Eu tenho tempo de ciclo em minutos. Então, ele está me dizendo que eu quero analisar o tempo de ciclo variável em minutos. Vou clicar em Ok, e imediatamente você encontrará isso na minha janela de saída. Eu posso simplesmente puxar isso para baixo. Na minha janela de saída. Ele está me mostrando que ele fez algumas análises estatísticas para o tempo de ciclo variável em minutos. Eu tenho 100 pontos de dados aqui. O número de valores faltantes é 0. A média é 10,064. erro padrão da média é 0,103, desvio padrão é de 1 para o valor mínimo é 7,5. Um não é nada, mas seu quartil é 9,1. Mediana, ou seja, seu Q2 é 10,35, Q3 é 10,868 e o valor máximo é 12,490. Se eu precisar de mais análise estatística, posso seguir em frente e repetir essa análise. Desta vez, vou clicar em Estatísticas. E eu posso olhar para os outros pontos de dados que eu preciso. Suponha que se eu precisar do intervalo, eu não preciso de erro padrão, eu preciso de um intervalo interquartil. Quero identificar qual é o clima. Quero identificar qual é a assimetria e meus dados. Qual é a curtose nos meus dados? Eu posso selecionar tudo e dizer, ok, eu vou clicar em, Ok. Quando eu fizer isso, todos os outros parâmetros estatísticos que eu selecionei aparecerão na minha janela de saída. Esta é minha janela de saída. Então, novamente, ele me diz aquele ponto de dados adicional que eu selecionei. Portanto, o raio não é nada além do seu desvio padrão ao quadrado. É 0,0541. Ele está me dizendo o intervalo que é máximo menos mínimo. É 4,95. intervalo interquartil é 1,707. Não há modo nos meus dados. E o número de pontos de dados em 0 porque não há mais, os dados não estão distorcidos. Os valores muito próximos de 0 , são 0,05, mas há curtose. Isso significa que meus dados não estão aparecendo como algo que não funciona. Tão bom, gostamos de ver como é a minha distribuição. Vamos fazer isso. Eu clico em estatísticas, clico em Estatísticas Básicas e clico no resumo gráfico. Estou selecionando o tempo do ciclo em minutos. E estou dizendo que quero ver um intervalo de confiança de 95%. Eu clico em, Ok, vamos ver a saída. O resumo dos minutos de diamante do ciclo. Está me mostrando a média, desvio padrão, variância. Todas as coisas estatísticas estão sendo exibidas no lado direito. Média, desvio padrão, variância, assimetria, curtose, número de pontos de dados mediana mínima do primeiro quartil , máximo do terceiro quartil. Esses pontos de dados que você vê como mínimo Q1, mediana, Q3 e máximo serão abordados no boxplot. O boxplot é enquadrado usando esses pontos de dados. E quando você olha para o velcro, ele diz que o sino não é uma curva íngreme, é uma curva um pouco mais gorda e, portanto, o valor da curtose é um valor negativo. Continuaremos nosso aprendizado mais detalhadamente no próximo vídeo. Obrigada. 9. Estatísticas descritivas vs inferenciais: Vamos examinar os dois métodos, começando com estatísticas descritivas Por que a estatística descritiva é importante? Por exemplo, se uma empresa quiser entender como seus funcionários se deslocam para o trabalho Ele pode criar uma pesquisa para coletar essas informações. Depois que dados suficientes são coletados, eles podem ser analisados usando estatísticas descritivas Então, o que exatamente é estatística descritiva, seu objetivo é descrever e resumir um conjunto de dados de uma forma significativa No entanto, é fundamental observar que as estatísticas descritivas refletem apenas os dados coletados e não tiram conclusões sobre uma população maior Em outras palavras, saber como alguns funcionários uma empresa se deslocam não nos permite saber como todos os funcionários se comportam Agora, para descrever os dados de forma descritiva, nos concentramos em quatro componentes principais medidas de tendência central, medidas de dispersão, tabelas de frequência e gráficos Vamos começar com medidas de tendência central, que incluem média, mediana e muito mais Primeiro, a média, a média aritmética, é calculada somando todas as observações e dividindo pelo Por exemplo, se tivermos as notas dos testes de cinco alunos, somamos as pontuações e dividimos por cinco para descobrir que a pontuação média do teste é 86,6 A seguir está a mediana. Quando os valores em um conjunto de dados são organizados em ordem crescente, a mediana é o valor médio Se houver um número ímpar de pontos de dados, é simplesmente o valor médio Se houver um número par, a mediana é a média dos dois valores médios Um aspecto importante da mediana é que ela é resistente a valores extremos ou valores discrepantes Por exemplo, independentemente da altura, a última pessoa está em um conjunto de dados alto. A mediana permanecerá a mesma. Embora a média possa mudar significativamente com base nesse valor, a mediana permanece inalterada independentemente da altura da última pessoa O que significa que não é afetado por valores discrepantes. Em contraste, os homens podem mudar significativamente com base na altura da última pessoa, tornando-a sensível a valores discrepantes Agora, vamos discutir o modo. O modo é o valor ou valores que ocorrem com mais frequência em um conjunto de dados. Por exemplo, se 14 pessoas viajam de carro, seis de bicicleta, cinco caminham e cinco usam transporte público , o carro é o modo, pois aparece com mais frequência Em seguida, passamos às medidas de dispersão, que descrevem a dispersão dos valores em um conjunto de dados As principais medidas de dispersão incluem variantes. desvio padrão e faixa de intequatle, começando Ele indica a distância média entre cada ponto de dados e a média. Isso nos diz o quanto os pontos de dados individuais se desviam da média Por exemplo, se o desvio médio da média for 11,5 centímetros, podemos calcular o desvio padrão usando Sigma é igual à raiz quadrada da soma de cada valor menos Quadrado, dividido por n, onde Sigma é o desvio padrão N é o número de indivíduos. X sub i é o valor de cada indivíduo e x bar é a média É importante observar que existem duas fórmulas para o desvio padrão divide por n, enquanto o outro divide por n menos um. O último é usado quando nossa amostra não cobre toda a população, como em estudos clínicos. O último é usado quando nossa amostra não cobre toda a população, como em estudos clínicos. Agora, como o desvio padrão difere da variância? O desvio padrão mede a distância média da média Já a variância é simplesmente o valor quadrado do desvio padrão A seguir, vamos discutir o alcance e o intervalo intequatle. O intervalo é a diferença entre os valores máximo e mínimo em um conjunto de dados. Por outro lado, o intervalo inequartil representa os 50% médios dos dados, calculados como a diferença entre o primeiro quartil, Q um e o terceiro quartil, qu Isso significa que 25% dos valores estão abaixo e 25% acima da faixa entre quartis Antes de prosseguirmos para os pontos finais, vamos comparar brevemente esses conceitos, medidas de tendência central e medidas de dispersão Vamos considerar a medição da pressão arterial dos pacientes. As medidas de tendência central fornecem um valor único que representa todo o conjunto de dados. Ajudando a identificar um ponto central em torno do qual os pontos de dados tendem a se agrupar. Por outro lado, medidas de dispersão, como desvio padrão, intervalo e intervalo inteQatile, intervalo e intervalo inteQatile indicam a dispersão dos pontos de dados Se eles estão agrupados ao redor do centro ou amplamente dispersos Em resumo, enquanto as medidas de tendência central destacam o ponto central do conjunto de dados, as medidas de dispersão descrevem como os dados são distribuídos em torno desse centro Agora, vamos passar às tabelas, focando nos tipos mais importantes, frequência e tabelas de contingência Uma tabela de frequência mostra com que frequência cada valor distinto aparece em um conjunto de dados. Por exemplo, uma empresa entrevistou seus funcionários sobre suas opções de deslocamento, carro, bicicleta, caminhada e transporte público Aqui estão os resultados de 30 funcionários mostrando suas respostas. Podemos criar uma tabela de frequência para resumir esses dados listando as quatro opções na primeira coluna e contando suas ocorrências na tabela É claro que o meio de transporte mais comum entre os funcionários é o carro. Com 14 funcionários escolhendo essa opção. A tabela de frequência fornece um resumo conciso dos dados Mas e se tivermos duas variáveis categóricas em vez de uma É aqui que uma tabela de contingência, também conhecida como tabulação cruzada, entra em jogo Imagine que a empresa tenha duas fábricas, uma em Detroit e outra em Cleveland Se também perguntarmos aos funcionários sobre seu local de trabalho, podemos exibir as duas variáveis usando uma tabela de contingência Essa tabela nos permite analisar e comparar a relação entre as duas variáveis categóricas As linhas representam as categorias de uma variável. Enquanto as colunas representam as categorias da outra, cada célula na tabela mostra o número de observações que se encaixam na combinação de categorias correspondente. Por exemplo, a primeira célula que indica quantos funcionários viajam de carro e trabalham em Detroit foi relatada Obrigada. Nos vemos na próxima aula de estatística. 10. Conceitos de estatística inferencial parte 2: Vamos mergulhar nas estatísticas inferenciais. Começaremos com uma breve visão geral do que é. Seguido por uma explicação dos seis componentes principais. Então, o que é estatística inferencial? Isso nos permite tirar conclusões sobre uma população com base nos dados de uma amostra. Para esclarecer, a população é todo o grupo em que estamos interessados. Por exemplo, se quisermos estudar a altura média de todos os adultos nos Estados Unidos, nossa população inclui todos os adultos do país. A amostra, por outro lado, é um subconjunto menor retirado dessa população Por exemplo, se selecionarmos 150 adultos dos EUA, podemos usar essa amostra para fazer inferências sobre a população em geral Agora, aqui estão as seis etapas envolvidas nesse processo. Hipótese. Começamos com uma hipótese. Qual é a afirmação que pretendemos testar? Por exemplo, talvez queiramos investigar se um medicamento afeta positivamente pressão arterial em indivíduos com hipotensão Ah, nesse caso, nossa população consiste em todos os indivíduos com pressão alta nos EUA, já que é impraticável coletar dados de toda a população Contamos com uma amostra para fazer inferências sobre a população usando nossa amostra Empregamos testes de hipóteses. Esse é um método usado para avaliar uma afirmação sobre um parâmetro populacional com base em dados de amostra. Existem vários testes de hipóteses disponíveis e até o final deste vídeo. Vou orientá-lo sobre como escolher o caminho certo. Como funciona o teste de hipóteses? Começamos com uma hipótese de pesquisa. Também conhecida como hipótese alternativa, que é o que buscamos evidências em nosso estudo. Também chamada de hipótese alternativa. É para isso que estamos tentando encontrar evidências. No nosso caso, a hipótese é que o medicamento afeta a pressão arterial. No entanto, não podemos testar isso diretamente com um teste de hipótese clássico. Então, testamos a hipótese oposta, que a droga não tem efeito sobre a pressão arterial. Aqui está o processo. Primeiro, suponha a hipótese de não existir. Assumimos que o medicamento não tem efeito, o que significa que as pessoas que tomam o medicamento e aquelas que não têm a mesma pressão arterial média. T, colete e analise os dados da amostra. Coletamos uma amostra aleatória. Se o medicamento apresentar um grande efeito na amostra, determinamos a probabilidade de extrair essa amostra ou uma que se desvie ainda mais, se o medicamento realmente não tiver efeito, ou uma que se desvie ainda mais, se o medicamento realmente não tiver efeito, T, avalie o valor p da probabilidade Se a probabilidade de observar tal resultado sob a hipótese nula for muito baixa Consideramos a possibilidade de o medicamento ter efeito. Se tivermos evidências suficientes, podemos rejeitar a hipótese nula O valor p é a probabilidade que mede a força da evidência contra a hipótese nula Em resumo, a hipótese nula afirma não há diferença na população, e o teste de hipótese calcula a probabilidade de observar os resultados da amostra se a hipótese nula for observar os resultados da amostra se a hipótese nula Queremos encontrar evidências para nossa hipótese de pesquisa. O medicamento afeta a pressão arterial. No entanto, não podemos testar isso diretamente, então testamos a hipótese oposta, a hipótese nula O medicamento não tem efeito sobre a pressão arterial. Veja como funciona. Suponha a hipótese de não. Suponha que o medicamento não tenha efeito. Ou seja, pessoas que tomam o medicamento e aquelas que não têm a mesma pressão arterial média coletam e analisam dados. Pegue uma amostra aleatória. Se o medicamento mostrar um grande efeito na amostra. Determinamos a probabilidade de obter esse resultado ou um resultado mais extremo. Se o medicamento realmente não tiver efeito, calcule o valor p. O valor p é a probabilidade de observar uma amostra tão extrema quanto a nossa. Supondo que a hipótese nula seja verdadeira. Significância estatística. Se o valor de p for menor que um limite definido, geralmente 0,05 O resultado é estatisticamente significativo, o que significa que é improvável que tenha ocorrido apenas por acaso. Então, temos evidências suficientes para rejeitar a hipótese nula Um pequeno valor de p sugere que os dados observados são inconsistentes com a hipótese nula Levando-nos a rejeitá-la em favor da hipótese alternativa. Um grande valor de p sugere que os dados são consistentes com a hipótese nula Nós não o rejeitamos. Pontos importantes. Um pequeno valor de p não prova que a hipótese alternativa é verdadeira. Isso apenas indica que tal resultado é improvável se a hipótese nula for verdadeira Da mesma forma, um grande valor de p não prova que a hipótese nula é verdadeira Isso sugere que os dados observados provavelmente estão sob a hipótese nula Obrigada. Nos vemos na próxima aula de estatística. 11. Conceitos do teste de hipóteses em detalhes: Bem vindo de volta. Vamos entender a hipótese com mais detalhes. Hipótese de Temos uma população inteira que adoraríamos estudar. Mas sempre haveria restrição de tempo e recursos para estudar toda a população Portanto, pegamos uma amostra da população usando diferentes técnicas de amostragem e retiramos uma amostra Estudamos a amostra e extraímos algumas inferências sobre a população, seja, como estatística inferencial O que exatamente é uma hipótese? Uma hipótese é uma suposição que não pode ser propensa nem reprovada Em um processo de pesquisa, a hipótese é feita logo no início e o objetivo é rejeitar ou não rejeitar a hipótese. Para rejeitar ou deixar de rejeitar a hipótese, é necessário um exemplo de dados do experimento, uma pesquisa, que é então avaliada usando o teste de hipóteses. Usando hipóteses, geralmente as hipóteses são realizadas a partir de uma revisão literal Com base na revisão literal, você pode justificar por que formulou a hipótese dessa forma Um exemplo de hipótese seria os homens ganham mais do que as mulheres pelo mesmo emprego na Áustria. A hipótese é uma suposição de uma associação esperada Seu objetivo é rejeitar ou deixar de rejeitar a hipótese nula Você pode testar sua hipótese com base nos dados. A análise dos dados é feita usando o teste de hipóteses. Homens ganham mais do que mulheres pelo mesmo emprego na Áustria. Você fez uma pesquisa com quase 1.000 funcionários que trabalham na Austrália, um teste T de amostra independente. Neste teste, a hipótese que você precisa da pesquisa é um teste de hipótese adequado, como o teste T ou o teste de análise de correlação Podemos usar ferramentas on-line, como guia Dados ou as ferramentas do Excel, para resolver isso. Como faço para formular uma hipótese? Para formular uma hipótese, uma questão de pesquisa deve primeiro ser definida Uma hipótese formulada precisa sobre a população pode então ser derivada da questão de pesquisa Homens ganham mais do que mulheres pelo mesmo emprego na Austrália. Para o sujeito, qual é a pergunta que queremos fazer e qual é a hipótese? Em seguida, você fornecerá os dados para o teste de hipóteses e tirará a conclusão. Essa é uma representação visual muito bonita de como um teste de hipóteses é realizado. Hipóteses não são afirmações simples. Eles são formulados de forma que possam ser testados. Eles podem ser testados com os dados coletados no decorrer do processo de pesquisa. com os dados coletados no decorrer do processo de pesquisa Para testar hipóteses, é necessário definir exatamente quais variáveis estão envolvidas e como essas variáveis estão relacionadas. hipóteses, então, são suposições sobre a relação de causa e efeito da associação entre as variáveis O que é uma variável nesse caso? Variável nada mais é do que uma propriedade de um objeto ou evento que pode assumir valores diferentes. Por exemplo, a cor dos olhos é uma variável. Se for propriedade do objeto, posso assumir valores diferentes. Se você está pesquisando uma ciência social, suas variáveis podem ser gênero, renda, atitudes, proteção ambiental, etc Se você estiver pesquisando sobre a área médica , suas variáveis podem ser peso corporal, tabagismo, frequência cardíaca etc Então, o que exatamente é a hipótese nula e alternativa? Sempre há duas hipóteses que são exatamente opostas uma à outra e que afirmam ser opostas Essas hipóteses opostas são chamadas hipóteses nulas e alternativas e são representadas por H zero e H A ou H um, H zero e H um zero e H A hipótese nula de H naught pressupõe que não há diferença entre dois ou mais grupos com relação às características que estamos tentando estudar As hipóteses nulas são hen. A hipótese nula pressupõe que não há diferença entre dois ou mais grupos com relação às características Por exemplo, o salário dos homens e das mulheres não é diferente na Áustria. A hipótese alternativa é a hipótese que queremos provar ou estamos coletando dados para prová-la. Portanto, a hipótese alternativa, por outro lado, assume que há uma diferença entre os dois ou mais grupos Por exemplo, o salário dos homens e das mulheres é diferente na Áustria. A hipótese que você deseja testar ou o que deseja extrair da teoria geralmente indica o efeito. O gênero tem um efeito sobre o salário. Essa hipótese é chamada de hipótese alternativa. É uma declaração muito bonita, certo? Existe outra maneira de escrever isso, ou seja, o gênero afeta o salário, e o teste de hipóteses é chamado de hipótese alternativa. A hipótese nula geralmente afirma que não há efeito O gênero não tem efeito sobre o salário. No teste de hipóteses, somente a hipótese nula pode ser testada O objetivo é descobrir se hipótese nula é rejeitada ou não Existem diferentes tipos de hipóteses. Quais tipos de hipóteses estão disponíveis? A distinção mais comum é entre diferenças, correlação, pode ser hipótese direcional e não direcional Hipótese diferencial e de correlação. Hipóteses diferenciais são usadas quando diferentes grupos devem ser distinguidos entre o grupo de homens e o grupo hipóteses de correlação são usadas quando se deseja estabelecer uma relação ou uma correlação entre a variável deve ser testada A relação entre idade e altura. Hipótese de diferença. A hipótese de diferença é um teste em que se verifica se há uma diferença entre dois ou mais grupos. O exemplo da hipótese da diferença é que o grupo de homens ganha mais do que mulheres. Os fumantes têm maior risco de ataques cardíacos do que os não fumantes Há uma diferença entre Alemanha, Áustria e França em termos de horas de trabalho por semana. Assim, uma variável é sempre uma variável categórica, como sexo, tabagismo ou país Por outro lado, a outra variável é uma variável ordinal ou uma variável de salário, porcentagem de risco de ataque cardíaco e horas de trabalho por semana Agora, vamos entender a hipótese de correlação um pouco mais detalhadamente Um teste de hipótese de correlação, relações entre duas variáveis Por exemplo, a altura e o peso corporal. Conforme a altura da pessoa aumenta, o peso corporal é afetado A hipótese de correlação, por exemplo, é que quanto mais alta uma pessoa, quanto mais pesada ela é, quanto mais potência um carro tem, maior seu consumo de combustível Quanto melhor for a nota em matemática, maior será o salário futuro. Como você pode ver nos exemplos, a hipótese de correlação geralmente assume a forma de quanto mais, maior, menor Assim, pelo menos duas variáveis da escala ordinal estão sendo examinadas direcionais e não direcionais, as hipóteses são divididas em direcionais e não direcionais Ou seja, são hipóteses unilaterais ou bilaterais. Se a hipótese contém palavras como melhor do que, pior então, a hipótese geralmente é direcional Pode ser positivo ou negativo. No caso de hipóteses não direcionais, geralmente se descobre os blocos de construção, como se houvesse uma diferença entre a formulação, mas não se afirma em qual direção a diferença está qual direção a diferença Para a hipótese não direcional, a única coisa interessante é se há uma diferença no valor entre as variáveis em consideração Em uma hipótese direcional, qual é o interesse um grupo ser maior ou menor que o outro Você tem uma hipótese bilateral ou pode ter uma hipótese unilateral, ou pode ter uma hipótese unilateral como do lado esquerdo ou do lado direito Hipótese não direcional, uma hipótese não direcional testa se há uma diferença ou uma Não importa em qual direção o relacionamento existe ou os diferentes custos. No caso de uma hipótese de diferença, isso significa que há uma diferença entre dois grupos, mas não diz se um grupo tem um valor maior. Há uma diferença entre o salário de homens e mulheres, mas não diz quem ganha mais Há uma diferença no risco de ataques cardíacos entre fumantes e não fumantes, mas não diz quem está em maior Em relação à hipótese de correlação, significa que uma relação ou correlação entre duas variáveis Mas não se diz se o relacionamento é positivo ou negativo. Há uma correlação entre altura e peso e há uma correlação entre potência e consumo de combustível no carro Em ambos os casos, não se diz que a correlação é positiva ou negativa Quando você fala sobre uma hipótese direcional, também estamos indicando a direção do relacionamento ou a diferença No caso de hipóteses diferentes, é feita uma afirmação: qual grupo tem maior ou menor valor? Os homens ganham mais do que as mulheres. Os fumantes têm um risco maior ataques cardíacos do que os não fumantes No caso de uma hipótese de correlação, a relação é feita para determinar se a correlação é positiva ou negativa Quanto mais alta uma pessoa, mais pesada ela é. Quanto mais potência um carro tiver, maior será sua economia de combustível. hipótese alternativa direcional unilateral inclui somente os valores que diferem em uma direção dos valores da hipótese nula Agora, como interpretamos o valor p em uma hipótese direcional Normalmente, os softwares estatísticos sempre ajudam você a calcular o valor p. O Excel também se tornou muito inteligente no cálculo do valor p, ajuda no cálculo do teste não direcional e também ajuda a fornecer o valor p para isso do teste não direcional e também ajuda a fornecer o valor p Para obter o valor p para a hipótese direcional, ele deve verificar se o efeito está na direção certa, então o valor p é dividido por dois e se o nível de significância não é acelerado por dois, mas apenas por um lado Mais do que isso, temos um tutorial sobre o valor P. Então, por favor, assista isso na fase analisada do meu curso. Se você selecionar uma hipótese alternativa direcionada em um tipo de dados de software lil, para o cálculo da hipótese, a conversão será feita automaticamente e você só poderá ler. Agora, instruções passo a passo para testar a hipótese. Você deve fazer uma pesquisa bibliográfica, formular a hipótese, definir o nível da escala, determinar o nível de significância, determinar o teste de hipótese, qual teste de hipótese é adequado para níveis de escala e estilo de hipótese O próximo tutorial é sobre testes de hipóteses. Você aprenderá sobre testes de hipóteses e descobrirá qual é o melhor e como lê-lo. 12. Introdução às ferramentas 7Qc: T. Bem-vindo à nova classe de sete ferramentas de qualidade. Esse é um dos conceitos mais importantes se você estiver pensando em fazer pequenas melhorias contínuas em seu processo, operações ou configuração de fabricação. Mesmo se você estiver no setor de serviços, essas ferramentas ajudarão você a acompanhar a qualidade. Com isso, vamos começar. Então, as sete ferramentas de controle de qualidade, o que vou abordar como parte desse programa de treinamento São as sete ferramentas de controle de qualidade. Número um: catapulta de coisas, fluxograma, histograma, análise de Pareto, diagrama de Fishburn, também chamado de diagrama de Ishikawa. Execute planilhas de verificação de gráficos. Não vamos abordar essas ferramentas apenas em alto nível. Vamos fazer alguns exemplos como desenhar essas coisas usando o Microsoft Excel sempre que possível. Também forneceremos alguns exemplos de exercícios com dados que podem ajudá-lo a realizar essas atividades com muita facilidade. Vamos falar sobre o que é a ferramenta, como usá-la, quando usá-la, alguns erros comuns que devemos evitar e um guia passo para criar a saída necessária. 13. Planilha: Vamos para a próxima ferramenta de qualidade sete ferramentas de controle de qualidade, que é a folha de verificação Vamos aprender mais sobre a folha de verificação. As folhas de verificação são usadas para registrar e compilar sistematicamente os dados Das fontes históricas ou observações à medida que elas ocorrem. Ele pode ser usado para coletar dados em locais onde os dados são realmente gerados ao longo do tempo. Ele pode ser usado para capturar dados quantitativos e qualitativos. Então, eu mostrei uma folha de verificação simples onde você tem os tipos de defeitos e quantas vezes esse defeito específico está acontecendo Isso pode ser usado para registrar e compilar sistematicamente dados de fontes históricas ou observações à medida que elas ocorrem Ele pode ser usado para coletar dados em locais onde os dados são gerados em tempo real. Esse tipo de dado pode ser tanto quantitativo quanto qualitativo. A folha de verificação é um dos sete QC básicos. O que a folha de verificação faz? Ele é usado para criar dados fáceis de compreender e isso vem com um processo simples e eficiente Com cada entrada, crie uma imagem clara dos fatos, conforme proposto à opinião de cada membro da equipe. É por isso que é um dos orientados por dados. Ele padroniza o acordo sobre as definições de cada condição Como é usada uma forma de cheque? Concordamos com a definição de eventos ou condições que estão sendo observados. Exemplo. Se buscarmos a causa raiz dos defeitos de gravidade um , concordamos em considerá-la como gravidade um. Decida quem coleta os dados, decida a pessoa que estará envolvida nessa atividade Anote as fontes de onde os dados são coletados. Os dados devem estar na forma de amostra ou de toda a população. Pode ser tanto qualitativo quanto quantitativo. Decida o nível de conhecimento necessário para a pessoa envolvida no plano de coleta de dados. Decida a frequência da coleta de dados, se os dados devem ser coletados semanalmente, de hora em hora, diariamente ou mensalmente. Decida a duração da coleta de dados, ou seja, por quanto tempo os dados devem ser coletados para torná-los um resultado significativo. Crie uma planilha de verificação que seja simples usar, concisa, completa e consistente na acumulação dados durante todo o período Observe que as planilhas de verificação foram criadas como uma das ferramentas de qualidade quando estávamos na era industrial. Atualmente, estamos na era da informação. Temos muitos softwares de ERP, máquinas que capturam dados por causa da TI e vários outros relatórios gerados por computador que são aplicáveis Procure usar uma planilha de verificação somente e somente quando estiver em um processo de captura de dados totalmente manual É uma das ferramentas, mas a que menos usa nos últimos meses. Deixe-me reformular, menos use ferramentas nos últimos anos. A menos e até que sua empresa não tenha completamente nenhuma abordagem sistemática de captura de dados É uma ferramenta muito boa se você estiver usando pessoas que são funcionários de cor azul e não tem sistemas de alta tecnologia para capturar os dados. Por isso, anexei o modelo da planilha de verificação na seção de projetos e recursos. Você pode se referir a ele. Só me dê um segundo. Vou te mostrar a folha de cheque na tela. Assim, posso usar uma folha de verificação que lhe dei como parte do meu modelo de parado Você pode anotar as categorias aqui, me dizendo que é defeito um, defeito dois A altura é um problema de qualquer que seja o nome do seu defeito Liste todos os defeitos aqui, E então você pode comercializar isso com que frequência isso está acontecendo? Onde quer que esteja acontecendo, comece a escrever um. frequência você está vendo isso e quando está vendo? Além disso, posso usar esses dados posteriormente para minha análise de Pareto, para a qual criei um vídeo separado, você pode usar isso para a qual criei um vídeo separado, você pode usar Você não precisa de uma folha de verificação separada no mundo de hoje. Você pode usar o que eu dei aqui. Obrigada Te vejo na próxima aula. 14. Boxplot: Hoje, vamos aprender sobre o boxplot e entendê-lo em detalhes Todos nós teríamos visto o boxplot em várias instâncias. Mas vamos ver o que ele interpreta. Então, o que exatamente é um boxplot? Com um boxplot, você normalmente pode exibir graficamente muitas informações sobre seus A caixa indica a faixa dos 50% médios do local onde está seu valor. Vamos entender o gráfico da caixa, como ele é dividido. Se o início da caixa for chamado de Q um, é a extremidade inferior da caixa e também é chamado de primeiro quartil Q é a extremidade superior da caixa ou o terceiro quartil. A distância entre Q três e Q é chamada de intervalo entre quartis, que é a metade média dos seus dados Os 25% dos dados estão abaixo de Q um. Na caixa, você tem 50% dos dados e, portanto, 25% dos dados estão acima da caixa. Você tem uma linha principal e uma linha mediana dentro da caixa, que novamente divide os dados em 25 e 25% Então, digamos que quando mostramos a idade do participante, o gráfico da caixa, um tenha 31 anos. Isso significa que 25% dos participantes têm menos de 31 anos. Q três tem 63 anos. Isso significa que 25% dos participantes têm mais de 63 anos. 50% dos participantes têm entre 31 e 63 anos. A média e a mediana. A mediana está em 42, o que significa que metade dos participantes mais de 42 anos e a outra metade tem menos de 42 anos A linha tracejada também é chamada de linha média ou valor principal, que representa a média Como a média está longe da mediana, ela diz claramente que os dados estão A linha sólida representa a mediana e a linha pontilhada representa a Os pontos que estão mais distantes são chamados de valores atípicos. A altura do bigode é aproximadamente 1,5 vezes a faixa interquartal O bigode não consegue manter o ping indefinidamente. O outlier e o bigode em forma de ti. Se não houver discrepância, o valor máximo está aqui Se houver um valor atípico, o bigode em forma de T é o último ponto em que 1,5 vezes a faixa interquaral e outros são Como faço para criar um boxplot? Você tem uma planilha do Excel para criar seu boxplot e também pode fazer isso usando ferramentas online Sim, então eu posso escolher os gráficos. Com isso, posso dizer que estou pegando a variável métrica, então você tem a opção de histograma e também a opção de boxplot, que diz claramente que o Q é 29, é 66, a mediana é 42, Man é 46 O máximo é 99, a cerca superior é 99. Não há exceções. Vamos alterar os dados. Deixe-me fazer isso como 126. Assim que eu mudar o valor de uma pessoa para 126, quando você voltar, você descobrirá que há um valor atípico no histograma, e é muito evidente aqui que 126 é E aqui, a cerca superior é 92. O Q três ainda é o mesmo, o Q ainda é o mesmo. Portanto, o tamanho da caixa não muda e assim por diante. Certo? E se a pessoa for um herói? Nesse caso, você verá que não faz parte de uma exceção, mas ainda faz parte do disco Eu posso fazer o gráfico pequeno, eu posso mostrar a linha zero. Eu posso mostrar o desvio padrão. Eu posso mostrar os pontos. Eu posso fazer isso na horizontal e na vertical. Portanto, todas essas opções são possíveis usando uma ferramenta estatística on-line. Obviamente, posso baixar o arquivo Zip e trabalhar com ele. Ok. Como posso fazer o boxplot usando a planilha do Excel? Então, eu copiei os mesmos dados aqui. Eu tenho grupos diferentes, então selecionei minha idade como dados. E agora vou inserir o gráfico recomendado, vou para todos os gráficos e tenho um gráfico de caixas e bigodes E eu sou capaz de ver minha caixa e gráfico de bigodes. Posso remover minhas linhas de grade e adicionar os rótulos de dados, e isso mostra claramente meu caminho Talvez eu possa apenas aumentá-lo para torná-lo mais visível. Eu posso mudar a cor do meu gráfico para ser diferente. Ah, e eu posso escolher a Minha média está aqui. Minha mediana é 421, três e. Agora, no mesmo gráfico, também posso agrupá-lo com base nas raízes. Estou considerando o grupo e a idade. Eu clico em, posso clicar no gráfico recomendado, acessar todos os gráficos e fazer box and whisker Desta vez, tenho quatro caixas para cada membro do grupo. Eu posso mudar a cor do meu gráfico. Tudo bem Eu posso incluir os rótulos de dados. Quando eu o incluo aqui e clico no sinal de vírgula, você verá que os pontos tei foram . Portanto, é muito fácil desenhar um gráfico usando o Excel e também usando algumas ferramentas online Então, para os grupos, eu pego o grupo mais o A, e para isso, eu pego. Então, para A, digamos que para o grupo C, se eu mudar o valor para 100, você descobrirá que há um valor atípico ali O valor mínimo é dez, vamos alterar os valores 25. Você perceberá que é assim que os valores estão mudando. Ótimo. Então, nos vemos na próxima aula. Obrigada Ah. 15. Parte 1: Nesta lição, vamos aprender mais sobre o boxplot. Um boxplot é uma das técnicas gráficas que nos ajuda a identificar outliers, certo? Vamos entender como um boxplot é formado. Vamos entender o conceito primeiro antes de entrarmos nas práticas. Um boxplot é chamado de boxplot porque se parece com uma caixa e é viscoso como o gato. O gato está com o rosto. Agora, assim como o gato não pode ter e menos viscoso, o tamanho do bigode do gráfico da caixa será decidido em certos parâmetros. Você verá algumas terminologias importantes ao formar um boxplot. Número um, qual é o valor mínimo? Qual é o quartil? Qual é a mediana? O que é o core tight? Três, qual é o tamanho do bigode máximo? E qual é o valor máximo no ponto de dados? Aqui? O mínimo de cães acima do ponto mínimo e onde o bigode pode ser estendido. Q1 significa primeiro trimestre, o que significa 25% dos dados. Vamos supor que, com facilidade, temos 100 pontos de dados. 25 por cento dos dados estarão abaixo dessa marca. Entre Q1 e Q2. Vinte e cinco por cento dos seus dados serão formados, estarão presentes. segundo trimestre também é chamado de mediana ou centro de seus dados. Então, se eu organizar meus dados em ordem crescente ou decrescente, o ponto de dados do meio é chamado como mediana e é chamado como Q2. Q3, ou também chamado de quartil superior, fala sobre os vinte e cinco por cento dos dados após o meio. Então, tecnicamente, você já cobriu setenta e cinco por cento de seus dados estarão abaixo do terceiro quartis, 25 por cento abaixo do primeiro trimestre, 50% dos dados abaixo do segundo trimestre, setenta e cinco por cento dos os dados estão abaixo do terceiro trimestre. Então, tecnicamente, de 100% dos dados, 75% dos dados estão abaixo do terceiro trimestre. Isso significa que vinte e cinco por cento dos meus pontos de dados estarão acima do terceiro trimestre. Agora, a distância entre Q1 e Q3 é chamada, é chamada de tamanho da caixa. E esse tamanho de caixa também é chamado de intervalo interquartil. Q3 menos Q1 é chamado de intervalo interquartil. Como eu disse no início da aula, que o tamanho do bigode depende da faixa interquartil ou IQR. Q3. Eu posso essa linha formar 1,5 vezes o tamanho da caixa. Então, 1,5 vezes no IQR mais q3 será o limite superior para o meu bigode. No lado direito. Na parte superior. Se eu quiser desenhar o bigode no lado esquerdo, não é nada além do mesmo 1,5 vezes na faixa interquartil. Mas eu subtraio esse valor do Q1 e estendo até esse valor. Então, ele configura o limite inferior. Você pode ter pontos de dados que estão abaixo do ponto mínimo. Você pode ter pontos de dados que estão além do tamanho máximo do risco desses pontos de dados serem chamados de outliers. A beleza do boxplot é que ele ajudará você a identificar se há algum outliers em seu conjunto de dados. Vamos ver como posso construir um boxplot? Porque fisicamente não preciso me preocupar em descobrir 2525% por cento. E realmente por pessoa, iremos ao MiniTab e depois faremos o trabalho. Então, vamos ver essa folha de dados. Então, em nossa aula anterior, fizemos algumas estatísticas descritivas sobre isso. E encontramos os pontos de dados. Encontramos pontos de dados mínimos Q1, Q2, Q3 e máximo. Vamos tentar construir um boxplot para o tempo de ciclo em minutos. Então, vou clicar no gráfico. Vou ao box plot e vejo um boxplot simples e clico em, Ok, vou selecionar o tempo do ciclo em minutos. E eu vou dizer, Ok, vamos ver a visualização de dados. Se você olhar para este boxplot, a linha abaixo é chamada como a única. É 9.16. A mediana é a linha média e não precisa estar exatamente no centro. O topo da caixa é Q3, que é 10,86 nesse intervalo de dados, e o intervalo interquartil é 1,7. Minha caixa pode se estender por 1,5 vezes no cotovelo e pode ir 1,5 vezes em 1,7 no balão. E você está vendo que não há marcas de asterisco neste boxplot, indicando muito claramente que não há outliers no meu conjunto de dados atual. Vamos pegar um pouco mais de conjunto de dados. Em nosso próximo vídeo para entender como fazer o gráfico de caixa. 16. Parte 2: Vamos continuar nossa jornada entender os boxplots mais detalhadamente. Se você for para a pasta em seu arquivo de projeto, que é chamado de boxplot. Coletei dados do tempo de ciclo para cinco cenários diferentes. Como você pode ver que alguns lugares eu tenho mais pontos de dados, como eu tenho quase 401745 dados. Em alguns lugares, tenho apenas 14 pontos de dados. Então, vamos tentar analisar isso mais detalhes para entender como o boxplot funciona. Copiei esses dados para o Minitab, caso um, caso dois, T3 e T4. Então, a primeira coisa que eu gostaria de fazer é fazer algumas estatísticas descritivas básicas para todas as chaves estrangeiras. Estou selecionando tudo isso. E então estou vendo, quando vejo minha saída, posso ver que em três dos casos, tenho 45 pontos de dados. No quarto caso, tenho 18 pontos de dados. No quinto caso, tenho 14 pontos de dados. Portanto, o número de pontos de dados é muito, se você olhar para o meu valor mínimo, está variando de 1, um, vinte e um, vinte e dois. E o valor máximo está em algum lugar entre 4090 deles. Em um cenário, desenvolvi valores de 21 a 40. Em um cenário eu tenho valores de dois a 90, o que mostra muito claramente que o número de pontos de dados ou fazer isso. Mas minha faixa de valor é branca. Então, se você olhar para a taxa, ela está variando de 18,8 a 99 pontos. Então, no caso dois, eu tenho 1200 como intervalo, então 99 anos. E o mesmo também pode ser observado como desvio padrão. Você pode ver que a assimetria dos dados é diferente e a curtose é diferente. Vamos primeiro entender o gráfico da caixa em detalhes. E no próximo vídeo, quando eu estiver falando sobre o histograma, vamos entender o padrão de distribuição usando o mesmo conjunto de dados. Vamos começar. Eu clico no gráfico. Posso clicar no boxplot e clicar em simples. O que posso fazer é pegar 11 casos de cada vez para analisar meus dados. Então, caso um, ele me mostra um gráfico de caixa e esse boxplot mostra muito claramente que não há outlier em meus dados. E o intervalo está entre. Quando mantenho meu cursor aqui, tenho 45 pontos de dados. Meu bigode está variando de 21,6 a 4,4, e meu intervalo interquartil é 5,95. Minha mediana é 30,3. Meu primeiro quartil é 26,9. Meu terceiro quartil é 32,85. Vamos refazer isso para o caso dois. Quando eu faço minhas chaves também, se você olhar agora, a caixa parece muito pequena porque aqui meus pontos de dados são os mesmos. Fortified by Vickery está novamente variando de 21,6 a 40 para parecer meu cenário anterior. Mas eu tenho outliers aqui, que estão muito além. Se você se lembra, a estatística descritiva para crianças até o meu valor mínimo é um e meu valor máximo é 100. Minha mediana parecia com meu cenário anterior. Meu Q1 também é semelhante, não é o mesmo, mas semelhante. E o Q3 também é semelhante. Mas quando você olha para o gráfico de caixa, a caixa é muito pequena, indicando muito claramente que meu intervalo interquartil é 6,95. Meu viscoso só pode ir 1,5 vezes e qualquer ponto de dados além disso, Misko será chamado de outlier. Posso selecionar esses valores atípicos, certo? E é muito claro, k é dois, o valor é 100 e está na linha número um. Linha número 37, tenho um valor chamado 90. Na linha número 30, eu tenho um valor chamado é 88. E na linha número 21 eu tenho um valor chamado como um, que é um tamanho mínimo. Então, eu tenho outliers em ambos os lados. Vamos entender o caso três. Quando olho para a química, coloco meu cursor no boxplot. Eu tenho os mesmos 45 pontos de dados. Minha viscose ou de 21,6 a 40 para parecer meu caso um, caso dois. Mas nesse cenário, tenho muitos outliers. Na extremidade inferior. Ou seja, no fundo do meu núcleo, apertado, certo? É fácil para nós clicar em cada um deles e ver como estão minhas caixas. Agora, a beleza aqui é que eu tenho apenas 18 pontos de dados, mas ainda tenho um outlier. Vamos fazer isso para k é cinco. E entenda isso também. Eu tenho uma caixa menor. Eu tenho apenas 14 pontos de dados e eu tenho um outlier no botão para cima, e eu tenho um outlier na extremidade inferior. Aqui, o valor é 23. Mas ver esses enredos de forma diferente torna difícil para mim fazer uma comparação. Posso colocar tudo em uma tela? Então eu vou para o gráfico, eu vou para o boxplot. Eu farei um ambiente simples selecionado. Estou selecionando todos os casos juntos e vendo vários gráficos. Estou vendo a pele e estou vendo que o eixo deve ser visto. As linhas de grade devem ser vistas. E eu clico em, Ok. Estou obtendo todos os cinco pontos de dados, cenário de cinco casos em um gráfico. Isso facilitará para mim fazer a análise, nesse caso um. Então faça individualmente quando eu vi o caso, se estivermos nos mostrando uma grande faixa. Mas quando estou fazendo uma comparação de um ao lado do outro, posso saber que, no caso dois, tenho outliers na parte superior e inferior. No caso três, tenho outliers na parte inferior. No caso quatro, tenho valores atípicos no lado superior. No caso cinco, tenho tomadas em ambos os lados. O número de pontos de dados é diferente. Os bulks serão sacados. O tamanho da caixa não pode ser determinado pelo número de pontos de dados. Tenho 45 pontos de dados, mas minha caixa é muito estreita. E eu tenho 14 pontos de dados e minha caixa é branca. Então, o tamanho da caixa. Então, se eu tiver 14 pontos de dados, ele dividirá meus dados em quatro partes. Portanto, três pontos de dados abaixo do Q1, três pontos de dados entre Q1 e Q2, três pontos de dados entre Q2 e Q3 e três pontos de dados além do Q3. Enquanto que quando eu tinha 45 pontos de dados, ele estava sendo distribuído como 11111111. Minha mediana seria o número do meio. Então, o que está aprendendo esse exercício é que, olhando para o tamanho da caixa, você não pode determinar o número de pontos de dados. Mas o que você definitivamente pode determinar é que, em mente esse conjunto de dados, eu tenho pontos de dados que são extremamente altos ou baixos? Portanto, o propósito de desenhar um gráfico de caixa é ver a distribuição e identificar outliers, se houver. Espero que o conceito esteja claro. Se você tiver alguma dúvida, é livre para colocá-la no grupo de discussão. E ficarei feliz em respondê-las. Obrigada. 17. Análise de pareto: Olá amigos. Vamos continuar nosso aprendizado sobre sete ferramentas de controle de qualidade A ferramenta que vamos aprender hoje é gráficos de Pareto também são chamados de análise do parto Isso é baseado no famoso estatístico, não no estatístico Deixe-me me corrigir, economista que percorreu o mundo para estudar a proporção da riqueza em relação à população Quando ele fez isso, o Sr. Pareto descobriu o princípio 80 20 Vamos nos aprofundar nisso. Portanto, a análise de Pareto, o princípio que ajuda você a se concentrar no assunto mais importante para obter o máximo benefício Ele descreve o fenômeno que uma pequena quantidade de alto valor contribui mais para o total do que um alto número de valores baixos. O foco é: quais são esses atributos de alto valor nos quais eu preciso me concentrar, em vez de tantos itens de pequeno valor. Em resumo, isso é chamado de identificar os poucos vitais em vez dos muitos triviais O que são aqueles blocos vermelhos que são apenas três ou quatro? Mas a contribuição é importante. Em vez de analisar centenas de pequenas coisas em que a contribuição total é pequena. Mesmo se eu analisar minhas despesas pessoais, ou seja, da minha renda total que ganho, maior parte do meu dinheiro é gasta no pagamento de EMI, no pagamento de aluguéis e Então, essas são minhas poucas coisas vitais, em vez de muitas triviais, em que estou tentando ver as passagens de ônibus, a comida que estou comendo ou as pequenas compras que estou fazendo Então, se eu quiser economizar, preciso me concentrar em ver como posso pagar meu EMI mais rapidamente, como posso ter um aluguel, como posso ter um aluguel, que está dentro A análise de Pareto é baseada na famosa regra 80 20. Ele afirma que cerca de 80% dos resultados vêm de 20% do esforço. Muito bem dito, o esforço de 80% vem do esforço de 20%. Da mesma forma, 80% dos problemas ou efeitos de 20% das causas. Usamos isso para nossa análise de causa. A porcentagem exata pode variar de situação para situação, embora acreditemos que seja 80 20, mesmo que seja 75 25, devemos prosseguir e tentar corrigir esses poucos vitais. Às vezes podemos obtê-lo como 70 30, às vezes podemos até obtê-lo como 88 12. Esses são apenas alguns dos exemplos. A questão é quais são as principais causas, que eu posso corrigir com o mínimo esforço para obter o máximo de resultados. Em muitos casos, poucos esforços geralmente são responsáveis pela maioria dos resultados. Algumas causas geralmente são responsáveis pela maior parte do esforço. Se eu me relacionei com meu exame, há certos capítulos do meu livro que têm mais peso no meu exame Se eu for minucioso nesses capítulos, minha probabilidade de obter 60 a 70% se torna muito fácil Em vez de tentar ler todos os 20 capítulos da minha pasta de trabalho, talvez eu me concentre em alguns capítulos para obter A análise Sparto é usada pelos tomadores de decisão para identificar os esforços mais significativos para decidir quais selecionar primeiro, a tomada de decisão É usado em projetos de melhoria de processos para se concentrar nas causas que mais contribuem para um problema específico. Isso ajudará a priorizar as possíveis causas, os fatores e as principais entradas do processo do problema que está sendo investigado É um kit de ferramentas de melhoria contínua. A análise de Pareto é usada ao priorizar projetos para se concentrar em projetos significativos que agregarão valor ao cliente e ao negócio Em vez de fazer todos os projetos que estão na minha lista de projetos, eu me concentraria nesses poucos projetos, dois ou três grandes projetos, que podem me dar o máximo benefício. Você pode ter cuidado ao o escopo do projeto se estiver usando o Aysis parto ou ao priorizar seus recursos, que é a principal pessoa necessária para que é a principal pessoa necessária Também podemos usar a análise do parto para visualizar seus dados e saber rapidamente onde o foco deve ser colocado Por exemplo, eu tenho muitos dados de defeitos, como dez rasgos de captura densa Estou fazendo a análise e tenho esses dados. Se eu colocar na ordem decrescente dos defeitos, acho que arrancar é o esforço máximo E seguido por pinhole, depois, e assim por diante Aqueles que estão em cinza, não vou me concentrar muito porque eles não estão contribuindo muito. Se eu consertar o rasgo, obterei o máximo de resultados. Se eu for corrigir os três primeiros, obterei uma grande redução nos defeitos que estão acontecendo no meu processo. Por exemplo, se você coletar os dados sobre os tipos de defeitos, análise do operador poderá revelar qual tipo de defeito é mais frequente Você pode se concentrar em seus esforços para resolver a causa que tem mais efeito. O benefício da análise do parto é ajudar você a se concentrar no que realmente importa. Ele separa as principais causas do problema das menores Permite medir o impacto da melhoria cobrindo o antes e o depois. Isso permite chegar a um consenso sobre o que precisa ser abordado primeiro. Verificou-se que o princípio de Pareto é verdadeiro em muitas taxas, 20% de esforço para fornecer 80% de resultados Em vez de trabalho, também podemos chamá-lo 20% de causas que me dão 80% de efeito. Então, se estou pensando em análise de causa e efeito, novamente são 20% de causas, 80% de esforço. verdade, se eu também estiver analisando os resultados do esforço, dizemos que faça menos esforço para obter o máximo de resultados. 20% dos clientes da empresa são responsáveis por 80% de sua receita ou 80% da venda vem de 20% dos clientes. Então esse é o conceito de 20% de esforço versus resultados de 80%. O escritório da Lei de Análise de Pardo pode ser considerado como 20% dos trabalhadores realizam 80% do trabalho 20% do tempo gasto em uma tarefa leva a 80% dos resultados. 20% da população possui 80% da riqueza do país. Não é verdade, mesmo em nosso país, nosso estado, nossa comunidade? Descobrimos que há muito poucas pessoas que possuem a quantidade máxima de riqueza Você pode usar 20% das ferramentas domésticas, 80% do tempo. Você pode usar 20% de suas roupas, 80% do tempo. Então é hora de você aplicar a análise do parto em sua vida pessoal para limpar seu guarda-roupa, se você acredita no conceito de minimalismo 20% dos motoristas de automóveis causam 80% dos acidentes. 80% das reclamações dos clientes vêm de 20% dos clientes. Apenas algumas causas são responsáveis pela maior parte do efeito na vara de peixe. Se eu estiver convertendo minha análise de parto em uma vara de peixe, você descobrirá que existem poucas causas que contribuem para a principal Ao ouvir todos esses exemplos, você teria entendido que Pareto não se restringe a se inscrever apenas em seu escritório ou local de trabalho Você pode até mesmo aplicar a análise do parto em sua vida pessoal. Se eu usar o Twitter ou uma plataforma de mídia social como essa, maioria dos 20% ativos dos usuários do Twitter são responsáveis por 80% dos tweets em geral O gráfico de parto é um tipo especial de gráfico de barras que traça a frequência dos dados históricos Portanto, você precisa entender que esses dados são de ontem ou de hoje de manhã ou do mês passado. Portanto, é um dado categórico. O eixo x diz muito claramente que é um dado categórico e o eixo y fala sobre a frequência de ocorrência Portanto, a análise do parto não pode ser usada para dados contínuos, observe. Portanto, se você ver, terá dados categóricos com frequência plotada em ordem decrescente, as principais causas menos esforço para obter o menos esforço Os dados categóricos são o nível mais baixo de dados que resulta na classificação de pessoas, coisas Eu posso tornar isso mais simples. Tudo o que é feito com palavras é chamado de dados categóricos Localizações geográficas, clima, cor, tipo de dispositivo, tipo sanguíneo, sangue, tipo de conta bancária, como poupança ou corrente, FD ou empréstimo pessoal residencial , tipo de erro ou defeito, tipo de dados Análise de Pareto, o eixo vertical representa a frequência dos dados categóricos O eixo x representa as categorias dos rótulos. O eixo horizontal representa os dados categóricos que causam um problema ou os A barra é organizada em ordem decrescente da esquerda para a direita A que ocorre com mais frequência está no lado esquerdo, a menos frequente está no lado direito. Você não precisa se preocupar se tiver o Microsoft Excel, ele o desenhará para você. Se você estiver usando uma versão mais antiga do Excel, compartilharei um modelo na seção de projetos e recursos abaixo. Se você tiver muitas categorias, você pode agrupar essas pequenas categorias pouco frequentes na categoria chamada de outras. A última barra geralmente é um pouco mais alta que as anteriores. Opcionalmente, você pode colocar uma curva de frequência cumulativa acima da barra, fornecendo um eixo y secundário para representar a porcentagem cumulativa Isso simplesmente ajuda a interpretar os resultados com mais facilidade e a identificar a conexão 80 20 A análise do parto se concentra nos esforços nas categorias cuja barra vertical representa 80% dos resultados. Você deve procurar algo que seja as principais causas, máximo efeito e o mínimo esforço para obter o máximo de resultados. Se você observar os dois padrões de parto, A e B, qual é a melhor ilustração do padrão de parto. Eu sugeriria que é o padrão A porque padrão B mostra que a maioria deles está contribuindo quase igualmente. Essa é uma distribuição uniforme, então eu não aceitaria. Eu escolheria o que é da categoria A. E isso está errado. Se os gráficos resultantes ilustrarem claramente um padrão de parto Isso sugere que apenas algumas causas responsáveis por cerca de 80% do problema. Isso significa que há um efeito de parto e você pode concentrar seus esforços em lidar com essas poucas causas para obter o máximo resultado Se você tivesse recebido um padrão como o gráfico B , a análise do parto não funcionaria e também teremos que usar algum outro QC. No entanto, se nenhum padrão de parado for encontrado, não podemos dizer que algumas causas são mais importantes do que outras. Como eu acabei de dizer. Certifique-se de que seu gráfico de paradoxo contenha pontos de dados suficientes para torná-lo significativo No mundo de hoje, há muitos dados disponíveis, portanto, certifique-se capturar o máximo de dados possível A análise de Pareto sobre como construir um gráfico de parto. Se estiver com sua equipe, defina o problema que você está tentando resolver, identifique as possíveis causas usando o brainstorming ou técnicas similares Decida o método de medição a ser usado para comparação, a frequência, o custo e o tempo, etc Como construir um gráfico de parto, coletar os dados e exigir que os dados categóricos sejam analisados Calcule a frequência dos dados categóricos. Desenhe uma linha horizontal e posicione a barra vertical para indicar a frequência da categoria. Desenhe uma linha vertical à esquerda para colocar a frequência à esquerda da linha, caso você a esteja desenhando em um papel milimetrado. O Microsoft Excel pode fazer um gráfico de paradoxo automaticamente. Mas se você estiver fazendo isso manualmente, classifique as categorias na ordem de frequência de ocorrência , da melhor para a menor maior no lado esquerdo. Você deve calcular sua curva de frequência cumulativa e uma linha percentual cubultiva. Se você observar o efeito do desfile, concentre seu esforço de melhoria nas poucas categorias cuja barra vertical a mais importante É provável que essas causas tenham maior impacto na saída do seu processo. Coletei uma amostra de Pareto para analisar o motivo pelo qual o paciente está usando bem uma ligação em um hospital quando é internado Então, eles precisam de auxiliar de banheiro, precisam de comida ou água, reposicionamento da cama, problemas intravenosos, analgésicos, ligação urgente de volta para a cama, obter todas as que estão em cinza não são coisas que acontecem com frequência e não são Então, se focarmos nos primeiros três ou nos primeiros quatro. Então, se eu dissesse que quatro fatores contribuem para 40% do esforço, você obterá 70% do efeito. Então, talvez eu decida trabalhar apenas nos três primeiros, ou seja, 30% de esforço, para ainda obter 68% de esforço Tudo está bem. O conceito é que eu preciso me esforçar menos para obter o máximo de resultados. Reclamações de clientes em uma fábrica. Uma equipe de fábrica conduziu uma análise paralela para abordar o crescente número de reclamações do ponto de vista do cliente De certa forma, a gerência pode entender. É um tipo de reclamação de cliente, reclamação de produto, reclamação relacionada a documentos, reclamação relacionada a pacotes ou reclamação relacionada à entrega. Podemos ver pessoas que os clientes estão reclamando no máximo do tipo de produto ou do defeito do Seguido pelos problemas relacionados ao documento. Reclamação do cliente em uma fábrica, as categorias principais podem ser muito genéricas e podem ser divididas em subcategorias Então, se eu pensar em reclamações de produtos, elas estão em um nível alto, posso considerá-las subcomponentes do problema A. É um problema de arranhão, orifício, par de HMA Você também poderá solicitar novamente o parto na reclamação do produto Se quiser corrigir problemas relacionados a arranhões e amassados em uma reclamação de produto, a maioria das reclamações do produto será anulada. Tipo de reclamação de documentos, podemos ver que a falta de informações é a principal contribuição, seguida por erro na fatura, quantidade errada e outros. O gráfico de parto pode ser analisado mais detalhadamente usando as categorias principais a serem divididas em subcategorias ou subcomponentes em que o problema específico ocorre com mais frequência, chamados Reclamações de clientes em uma fábrica. Os resultados sugerem que há três subcategorias que ocorrem com mais frequência Observe que é possível mesclar dois gráficos em um. Portanto, tenho o tipo de reclamação de produtos e o tipo de documento, e posso prosseguir e analisá-los. Pero Principles recebeu o nome do economista italiano Wilfredo Joseph Juran aplicou os princípios da Peto ao gerenciamento da qualidade da produção comercial Em sua análise, considere usar dados contextuais, metadados e as colunas que contêm dados textuais bancos de dados geralmente contêm muitos dados categóricos sobre o ambiente do qual os dados são obtidos Esses dados podem ser muito úteis em análises posteriores ao investigar quem causa conceitos e ideias Os princípios de Pareto podem ajudá-lo a medir o impacto da melhoria comparando o antes com o depois Se você ver que o trabalho azul foi um grande auxiliar, depois dos projetos, você descobrirá que há uma grande melhoria nessa categoria O novo gráfico de parto pode mostrar que há uma grande redução na dose primária. Estatisticamente, os princípios do parado podem ser descritos pela distribuição do lote de energia e muitos fenômenos naturais para exibir a distribuição. Com isso, chego ao fim do conceito de análise do parto. No próximo vídeo, mostrarei como faço a análise de Pareto usando o Microsoft cel Nos vemos na próxima aula. 18. Teste de hipóteses de conceito e significância estatística (1): Vamos detalhar os conceitos relacionados ao teste de hipóteses e à significância estatística. Um, teste de hipóteses, ao realizar um teste de hipótese, começamos com uma hipótese de pesquisa, também chamada de hipótese alternativa. No seu caso, a hipótese da pesquisa de que o medicamento tem efeito sobre a pressão arterial. No entanto, não podemos testar diretamente essa hipótese usando um teste de hipótese clássico. Em vez disso, testamos a hipótese oposta que o medicamento não tem efeito sobre a pressão arterial. Começamos assumindo que, em média, as pessoas que tomam o medicamento e as pessoas que não o tomam têm a mesma pressão arterial na população Se observarmos um grande efeito da droga em uma amostra, perguntamos qual é a probabilidade de extrair essa amostra ou uma ainda mais extrema se a droga realmente não tiver efeito. A probabilidade de obter tal amostra, assumindo a hipótese nula, nenhum efeito é chamada de valor P. O valor P indica a probabilidade de obter uma amostra que se desvia tanto quanto nossa amostra observada ou ainda mais extrema se a hipótese nula fosse verdadeira Se o valor de p for muito baixo, normalmente menor que 0,05, temos evidências para rejeitar a hipótese nula em favor da hipótese alternativa Um pequeno valor p sugere que os dados ou a amostra observados são inconsistentes com a hipótese nula Então, três, significância estatística. Quando o valor p é menor que um limite predeterminado, geralmente O resultado é considerado estatisticamente significativo. Isso significa que é improvável que o resultado observado tenha ocorrido apenas por acaso, e temos evidências suficientes para rejeitar a hipótese nula O limite do valor p é definido em 5%, ou 0,05, um pequeno valor p sugere que dados ou a amostra observados são inconsistentes com a Por outro lado, um grande valor de p sugere que os dados observados são consistentes com a hipótese nula e não a rejeitamos Quatro, erros no teste de hipóteses. Lembre-se de que um pequeno valor de p não prova que a hipótese alternativa é verdadeira. Isso apenas sugere que o resultado observado é improvável sob a hipótese nula Da mesma forma, um valor P grande não prova que a hipótese nula é verdadeira Isso apenas sugere que o resultado observado é provável sob a hipótese nula Vamos agora entender os dois tipos de erros. O erro do tipo um e o erro do tipo dois. erro do tipo 1 ocorre quando rejeitamos por engano uma hipótese nula verdadeira No seu exemplo, isso significaria concluir que o medicamento funciona quando na verdade não funciona erro do tipo 1 é quando você rejeita a hipótese nula, quando, na realidade, a hipótese nula é verdadeira, mas sua decisão sobre a hipótese nula erro do tipo dois ocorre quando não rejeitamos uma hipótese nula falsa O erro do tipo dois ocorre quando você deixa de rejeitar a hipótese nula, quando, na realidade, a hipótese nula é falsa, mas sua decisão sobre a hipótese nula No seu exemplo, isso significaria perder o fato de que o medicamento funciona. A amostra coletada não mostrou muita diferença. Pensei erroneamente que a droga não está funcionando. Na próxima lição, vamos nos aprofundar nas aplicações práticas do projeto de experimentos. Fique ligado. 19. TestofHypothesis: Olá amigos. Vamos continuar nossa jornada na análise de dados do MiniTab. Hoje vamos aprender sobre testes de hipóteses. Você já deve ter ouvido falar que fazemos testes de hipóteses durante a fase de análise e melhoria do nosso projeto. Então, para entender como o teste de hipótese funciona, vamos entender um cenário de caso simples. Voltarei a este gráfico novamente e explicarei que é. Como você sabe, quando vamos ao tribunal, o sistema de justiça pode ser usado para explicar o conceito de teste de hipóteses. O juiz sempre começa com uma declaração que diz, a pessoa é considerada inocente até que se prove a culpa. Isso não é nada além de sua hipótese nula, o status quo. Quando eles são pegos, o caso continua. Os advogados tentaram produzir dados e evidências. E a menos e até que não tenhamos dados fortes e evidências fortes, a pessoa está na condição de inocente. Portanto, o réu ou o advogado da oposição está sempre tentando dizer que essa pessoa é culpada e eu tenho dados e evidências para provar isso. Ele está tentando trabalhar em hipóteses alternativas. E o juiz diz, eu vou com o status quo da hipótese nula por padrão. Deixe-me explicar de uma forma mais fácil. Você e eu, não somos levados ao tribunal porque, por padrão, todos nós estamos na OSA, esse é o status quo. Que são levados ao tribunal. Pessoas que têm uma chance de terem vindo, cometeram algum crime. Pode ser qualquer coisa. Então, da mesma forma. que tentamos fazer testes de hipóteses Em que tentamos fazer testes de hipóteses quando estou fazendo minha fase de análise do projeto. Portanto, tenho várias causas que podem estar contribuindo para o meu projeto. Por quê? Fazemos uma análise da causa raiz e ficamos sabendo disso, ok? Talvez o carregamento tenha atrasado. Talvez a máquina seja um problema, talvez o sistema de medição seja um problema. Talvez a matéria-prima não seja de boa qualidade. Temos vários motivos que existem. Agora eu quero provar isso usando dados, e esse é o lugar onde eu tentei usar o teste de hipóteses. Todos os processos têm variação. Sabemos que todos os processos seguem a curva do sino. Nunca adicionamos o centro. Há alguma variação em cada processo. Agora, os dados ou a amostra que você atualizou, é uma amostra aleatória vinda do mesmo banco? Ou é uma amostra que vem de uma curva de sino totalmente diferente? Portanto, o teste de hipóteses ajudará a analisar o mesmo. Sempre que montamos um teste de hipótese, temos dois tipos de hipótese, como eu disse, o status quo ou a hipótese padrão, que é sua hipótese nula. Por padrão, assumimos que a hipótese nula é verdadeira. Então, para rejeitar a hipótese nula, precisamos produzir evidências. hipótese alternativa é o lugar onde há uma diferença. E esta é a razão pela qual o teste de hipóteses foi realmente iniciado, certo? Nós entenderemos com muitos exemplos. Então fique conectado. Então, quando estou estruturando hipóteses nulas e alternativas, digamos, estou dizendo que meu mu não é nada além da minha média, minha média populacional é igual a algum valor. Lembre-se sempre de sua hipótese alternativa é mutuamente exclusiva. Se mu for igual a algum valor, a hipótese alternativa diria que mu não é igual a esse valor. Por exemplo, mu é menor que igual a algum valor como uma hipótese nula. Por exemplo, se estou vendendo Domino's Pizza, vejo que meu tempo médio de entrega é inferior a 30 minutos. O cliente vem e me diz, sabe, o tempo médio de entrega é superior a 30 minutos, que se torna meu substituto. Às vezes, se tivermos a hipótese nula é mu é maior que igual a algum valor. Por exemplo, minha qualidade média é maior que igual a 90%. Em seguida, o cliente volta e me diz que sabe que sua qualidade média é menor que essa porcentagem. Portanto, lembre-se sempre da hipótese nula e as hipóteses alternativas são mutuamente exclusivas e complementares entre si. Vamos pegar muitos outros exemplos à medida que avançarmos. 20. Conceito de hipótese nula e alternativa: Vamos mergulhar nas estatísticas inferenciais. Começaremos com uma breve visão geral do que é. Seguido por uma explicação dos seis componentes principais. Então, o que é estatística inferencial? Isso nos permite tirar conclusões sobre uma população com base nos dados de uma amostra. Para esclarecer, a população é todo o grupo em que estamos interessados. Por exemplo, se quisermos estudar a altura média de todos os adultos nos Estados Unidos, nossa população inclui todos os adultos do país. A amostra, por outro lado, é um subconjunto menor retirado dessa população Por exemplo, se selecionarmos 150 adultos dos EUA, podemos usar essa amostra para fazer inferências sobre a população em geral Agora, aqui estão as seis etapas envolvidas nesse processo. Hipótese. Começamos com uma hipótese. Qual é a afirmação que pretendemos testar? Por exemplo, talvez queiramos investigar se um medicamento afeta positivamente pressão arterial em indivíduos com hipotensão Ah, nesse caso, nossa população consiste em todos os indivíduos com pressão alta nos EUA, já que é impraticável coletar dados de toda a população Contamos com uma amostra para fazer inferências sobre a população usando nossa amostra Empregamos testes de hipóteses. Esse é um método usado para avaliar uma afirmação sobre um parâmetro populacional com base em dados de amostra. Existem vários testes de hipóteses disponíveis e até o final deste vídeo. Vou orientá-lo sobre como escolher o caminho certo. Como funciona o teste de hipóteses? Começamos com uma hipótese de pesquisa. Também conhecida como hipótese alternativa, que é o que buscamos evidências em nosso estudo. Também chamada de hipótese alternativa. É para isso que estamos tentando encontrar evidências. No nosso caso, a hipótese é que o medicamento afeta a pressão arterial. No entanto, não podemos testar isso diretamente com um teste de hipótese clássico. Então, testamos a hipótese oposta, que a droga não tem efeito sobre a pressão arterial. Aqui está o processo. Primeiro, suponha a hipótese de não existir. Assumimos que o medicamento não tem efeito, o que significa que as pessoas que tomam o medicamento e aquelas que não têm a mesma pressão arterial média. T, colete e analise os dados da amostra. Coletamos uma amostra aleatória. Se o medicamento apresentar um grande efeito na amostra, determinamos a probabilidade de extrair essa amostra ou uma que se desvie ainda mais, se o medicamento realmente não tiver efeito, ou uma que se desvie ainda mais, se o medicamento realmente não tiver efeito, T, avalie o valor p da probabilidade Se a probabilidade de observar tal resultado sob a hipótese nula for muito baixa Consideramos a possibilidade de o medicamento ter efeito. Se tivermos evidências suficientes, podemos rejeitar a hipótese nula O valor p é a probabilidade que mede a força da evidência contra a hipótese nula Em resumo, a hipótese nula afirma não há diferença na população, e o teste de hipótese calcula a probabilidade de observar os resultados da amostra se a hipótese nula for observar os resultados da amostra se a hipótese nula Queremos encontrar evidências para nossa hipótese de pesquisa. O medicamento afeta a pressão arterial. No entanto, não podemos testar isso diretamente, então testamos a hipótese oposta, a hipótese nula O medicamento não tem efeito sobre a pressão arterial. Veja como funciona. Suponha a hipótese de não. Suponha que o medicamento não tenha efeito. Ou seja, pessoas que tomam o medicamento e aquelas que não têm a mesma pressão arterial média coletam e analisam dados. Pegue uma amostra aleatória. Se o medicamento mostrar um grande efeito na amostra. Determinamos a probabilidade de obter esse resultado ou um resultado mais extremo. Se o medicamento realmente não tiver efeito, calcule o valor p. O valor p é a probabilidade de observar uma amostra tão extrema quanto a nossa. Supondo que a hipótese nula seja verdadeira. Significância estatística. Se o valor de p for menor que um limite definido, geralmente 0,05 O resultado é estatisticamente significativo, o que significa que é improvável que tenha ocorrido apenas por acaso. Então, temos evidências suficientes para rejeitar a hipótese nula Um pequeno valor de p sugere que os dados observados são inconsistentes com a hipótese nula Levando-nos a rejeitá-la em favor da hipótese alternativa. Um grande valor de p sugere que os dados são consistentes com a hipótese nula Nós não o rejeitamos. Pontos importantes. Um pequeno valor de p não prova que a hipótese alternativa é verdadeira. Isso apenas indica que tal resultado é improvável se a hipótese nula for verdadeira Da mesma forma, um grande valor de p não prova que a hipótese nula é verdadeira Isso sugere que os dados observados provavelmente estão sob a hipótese nula Obrigada Nos vemos na próxima aula de estatística. 21. Como entender o valor de P: O que é o valor p e como ele é interpretado? É isso que discutiremos neste vídeo. Vamos começar com um exemplo. Gostaríamos de investigar se há uma diferença de altura entre o homem americano médio e o jogador de basquete americano médio. O homem médio tem 1,77 metros de altura. Então, queremos saber se o jogador médio de basquete também tem 1,77 metros de altura Assim, declaramos a hipótese nula. A altura média de um jogador de basquete americano é de 1,77 metros. Assumimos que na população de jogadores de basquete americanos, a altura média é de 1,77 metros. No entanto, como não podemos pesquisar toda a população, extraímos uma amostra. De co, esta amostra não produzirá uma média exata de 1,77 metros. Isso seria muito improvável. Ah. Pode ser que a amostra retirada puramente por acaso se desvie 3 centímetros por 8 centímetros por 15 centímetros ou por qualquer outro valor Como estamos testando uma hipótese não direcionada, seja, só queremos saber se há alguma diferença Não nos importamos em qual direção a diferença vai. Agora chegamos ao valor p. Conforme mencionado, assumimos que, na população, há um valor médio de 1,77 metros. Se extrairmos uma amostra, ela será diferente da população em um determinado valor. O valor p nos diz qual é a probabilidade de extrair uma amostra que se desvia da população uma quantidade igual ou maior do que o valor observado Vamos dar uma olhada mais de perto novamente. Temos uma amostra que é diferente da população. Agora estamos interessados em saber probabilidade de extrair uma amostra que se desvie tanto quanto nossa amostra ou mais da população Assim, o valor p indica a probabilidade de extrair uma amostra cuja média esteja nessa faixa. Por exemplo, se por acaso a amostra se desviar em 3 centímetros de 1,77 O valor p nos diz qual é a probabilidade de extrair uma amostra que se desvia 3 centímetros ou mais da população Se, por acaso, a amostra se desviar 9 centímetros de 1,65 metros, o valor p nos diz qual é a probabilidade de extrair uma amostra que se desvia 9 centímetros ou mais da população Vamos dar um exemplo em que obtemos uma diferença de 9 centímetros e nosso software estatístico favorito Como o Mini tab, calcula o valor p de 0,03. Isso é 3%. Isso nos diz que há apenas 3% de probabilidade de extrair uma amostra igual ou superior a 9 centímetros diferente da média da população de 1,77 metros Para dados normalmente distribuídos. Isso significa que a probabilidade de a média estar nessa faixa é de 1,5% em uma direção e 1,5% na outra Totalizando 3%. Se essa probabilidade for muito baixa. É claro que se pode perguntar se a amostra vem de uma população com média de 1,65 metros Se essa probabilidade for muito baixa. É claro que se pode perguntar se a amostra vem de uma população com média de 1,77 metros É apenas uma hipótese de que o valor médio dos jogadores de basquete seja de 1,77 metros. E é exatamente essa hipótese que queremos testar. Portanto, se calcularmos um valor de p muito pequeno, isso nos dá evidências de que a média da população não é de 1,77 metros Assim, rejeitaríamos a hipótese nula, que pressupõe que a média seja de 1,77 Assim, rejeitaríamos a hipótese nula, que pressupõe que a média seja de 1,77 Mas em que ponto o valor p é pequeno o suficiente para rejeitar a hipótese nula Isso é determinado com o chamado nível de significância, também chamado de nível Alfa. Há duas coisas importantes a serem observadas aqui. Primeiro, o nível de significância é sempre determinado antes do estudo e não pode ser alterado posteriormente para finalmente obter os resultados desejados. Segundo, para garantir um certo grau de comparabilidade, o nível de significância geralmente é estabelecido em 5% ou 1% Um valor de AP inferior a 1% é considerado altamente significativo. Menos de 5% é chamado significativo e maior que 5% é chamado de significativo. Em resumo, o valor p nos dá uma indicação de se rejeitamos ou não a hipótese nula Como lembrete, a hipótese nula pressupõe que não há diferença Enquanto a hipótese alternativa pressupõe que há uma diferença Em geral, a hipótese nula é rejeitada se o valor de p for menor que 0,05 É sempre apenas uma probabilidade, e podemos estar errados com nossa afirmação. Se a hipótese nula for verdadeira na população, I, a média é 1,77 metros Mas extraímos uma amostra que por acaso está bem distante. Pode ser que o valor de p seja menor que 0,05. Rejeitamos erroneamente a hipótese nula. Isso é chamado de erro tipo um. Se estiver na população, a hipótese nula é falsa Ou seja, a média não é 1,77 metros, mas extraímos uma amostra que por acaso está muito próxima de 1,77 O valor de p pode ser maior que 0,05 e não podemos rejeitar a hipótese nula Isso é chamado de erro do tipo dois. Obrigado por aprender comigo. Nos vemos na próxima aula de estatística. 22. Tipos de erros: Vamos entender mais alguns exemplos de hipóteses nula e alternativa. Então, suponha que se meu projeto está prestes a se livrar de você, minha hipótese nula é um valor fixo. Então, eu diria que minha média atual do meu tempo médio atual para construir para compartilhar os 70% de Julie é. Atual. A média de P a S é de 70%. A hipótese alternativa significaria que não é 70%. Suponha que eu esteja pensando no teor de umidade de um projeto. Estou em uma configuração de fabricação e quero medir se o teor de umidade deve ser igual a 5%. Ou 5% é o que é aceitável pelo meu cliente, então posso dizer que meu teor de umidade é inferior a cinco por cento. Então, a hipótese alternativa afirmaria que o teor de umidade é maior que cinco por cento. O caso em que a média é maior que, então a hipótese nula. Não temos interesse nesse problema. Vamos entender melhor. A questão era, um processo recente de aprovação de empréstimos para pequenas empresas do TED reduziu processo recente de aprovação de empréstimos para pequenas empresas do TED reduziu o tempo médio de ciclo para processar o empréstimo? A resposta pode ser não. Significa que o tempo de ciclo não mudou. Ou o gerente pode ver que sim, o tempo médio do ciclo é inferior a 7,5%. Portanto, o status quo é igual a 7.514 minutos. E o suplente diz, não, são menos de 7.414 minutos ou dias, qualquer que seja a principal unidade de medida que estamos medindo, certo? Então, por padrão, seu status quo é hipótese nula. E o exemplo ou o status que você quer provar uma hipótese alternativa mais fácil. Agora, pode haver algum tipo de flecha quando tomamos decisões. Então, vamos voltar ao nosso caso de código. Na verdade, o réu não é culpado, certo? Deixe-me pegar meu raio laser. Por padrão, o réu ou a realidade é que o réu não é culpado. veredicto também vem que o réu, a pessoa não é culpada. É uma boa decisão, certo? Então, sim, tomamos uma decisão muito boa de que a pessoa é inocente. Na realidade, o réu é culpado. E o veredicto também vem de que ele é culpado. A decisão é uma boa decisão. O que acontece é que, na realidade, a pessoa não está garantida, mas o veredicto vem de que ele é culpado e uma pessoa inocente é condenada. É um erro. É um erro muito grande. Na pessoa do Norte, dada uma sentença e colocada na prisão, dada uma penalidade, isso é um erro. O erro pode até acontecer do outro lado, onde na realidade a pessoa é culpada, mas o veredicto vem de que ele não é culpado. A pessoa culpada é declarada inocente e está pronta para isso. Isso também é uma seta, mas que é um erro maior. Quanto maior o erro que você pode anotar na caixa de comentários, o que você acha? Qual erro é a seta maior? O erro é um erro maior ou o erro é a seta maior? nenhuma pessoa sã ser condenada é um erro maior ou se uma pessoa culpada se move nas estradas livremente, ou flecha maior? Espero que você já tenha escrito os comentários. Então, a realidade é que isso se torna meu maior erro. E isso é chamado de erro tipo um. Porque se um inocente for condenado, não podemos devolver o tempo que ele perdeu. Não podemos entender que ele passaria por muitos traumas emocionais. Se um culpado for declarado inocente, podemos levá-lo ao tribunal superior e à Suprema Corte e fazê-lo provar que sim, ele não é culpado, certo? Para que eu possa tomar essa decisão aqui de que a pessoa é condenada. Ele deve ser condenado e declarado culpado e deve ser punido. Portanto, esse erro é chamado de erro tipo dois. Se alguém lhe perguntar qual erro é maior, digite um erro, ele também é chamado de erro alfa. E isso é chamado de erro beta. Certo? Vamos continuar mais em nossa próxima aula. 23. Tipos de erros-parte2: Vamos entender os tipos de flechas mais uma vez. Então, como sabemos que se a pessoa não é culpada ou a pessoa é inocente, e o veredicto também está dizendo que a pessoa não é culpada. É uma boa decisão. Se a pessoa é culpada, veredicto é que ela é culpada. A decisão é novamente, uma boa decisão. O condenado não é, tem que ser sentenciado ou deve ser punido. O problema acontecerá quando uma pessoa inocente for provada culpada e sofrer. O segundo tipo de problema que acontece quando uma pessoa culpada, uma pessoa com um criminoso é declarada inocente. E ele disse, Isso é chamado de erro tipo um. Ou seja, uma pessoa inocente ser condenada ou punida é um erro do tipo um. Também é chamado de seta alfa. Uma pessoa culpada, criminosa libertada, é chamada de erro tipo dois ou erro beta, que também é um erro que queremos evitar. O nível de significância é definido pelo valor Alfa. Então, quão confiante você quer tomar a decisão certa? Então, o erro do tipo um acontece quando o nulo é verdadeiro, mas nós rejeitamos. erro do tipo dois acontece quando, na realidade, o nulo é falso, mas não o rejeitamos. Agora, como isso nos ajuda a processar? Então, vamos entender isso todos os dias para a folha de almoço. Certo? Vamos entender isso com mais detalhes. Esse é o cenário real. Vamos escrever o real no topo. E esses mitos como o julgamento. Ok, agora, vamos pensar sobre o processo. O processo não mudou. Não mudou. Nenhuma alternativa será o processo alterado. Agora, o julgamento está anotado. E o julgamento é que o processo melhorou. OK. Agora vou fazer uma pergunta muito importante. Se um processo não mudou e o julgamento é de que não há mudança, esta é a decisão correta. O processo mudou e o julgamento também é de que o processo melhorou. Essa também é uma decisão correta. Agora, imagine que o processo não mudou, mas declaramos que agora tenho um processo melhorado e um produto melhorado e informo ao cliente, Está correto? Um erro. E isso é chamado de erro tipo um porque parece antigo, mas nossa dívida é vendida ao cliente como novo produto. Você consegue entender o que acontecerá com a reputação da empresa? A equipe ou o produto é vendido ao cliente como novos produtos. Novo produto de um núcleo. Então, o que acontecerá com a reputação da empresa? Vai dar um lance e, portanto, dizemos, esta não é uma boa decisão. Agora entenda aqui também que o processo mudou. O processo melhorou, mas o julgamento não foi melhorado. Isso também é um erro. Eu não nego isso. Isso é chamado de erro tipo dois ou auditoria também é chamada de erro beta. Bem aqui. O que acontece é que não estamos comunicando ao cliente que a melhoria aconteceu, certo? Portanto, não estamos mantendo os itens aprimorados no produto da ninhada no armazém. Agora, isso também não está correto, mas o maior erro está aqui onde, na verdade, não fizemos uma melhoria, mas estou informando ao cliente que você é uma pessoa ruim. 24. Jingle: Quando fazemos o teste de hipóteses, sempre há duas hipóteses. Uma é a hipótese padrão, que é a hipótese nula, e a segunda é a hipótese alternativa que você deseja provar. E essa é a razão pela qual você está fazendo a hipótese. Então, quando você faz a hipótese, a razão pela qual fazemos é que nunca teremos acesso a toda a população. Então, quando coletamos a amostra, queremos entender, é a amostra proveniente da curva do sino ou a distribuição de onde estamos entendendo, seja qual for a variação que você vê, é? devido à propriedade natural do conjunto de dados. Às vezes, a amostra pode estar no canto final do velcro. E esse é um lugar onde ficamos confusos de que esses dados pertencem ao Velcro original ou pertencem ao segundo alternativo? Bem-vinda. Isso está lá. Estaremos fazendo exercícios que darão a você uma compreensão disso de forma mais fácil de fazer. Hipótese, você obtém informações como o valor de p além dos resultados das estatísticas de teste. Você também obtém o valor de p. Sempre comparamos o valor de p com o valor nulo que definimos. Suponha que você queira ter 95% de confiança. Em seguida, você define o valor de p como 5%. E se você definir o nível de confiança é 90%, então seu valor Alfa é dez por cento, ou seu valor de p é 0,10. A razão pela qual fazemos um valor de p é que, se você puder ver essa curva de sino, a observação mais provável é parte do centro do sino. Observações muito improváveis vêm da cauda. Esse valor de p, a razão verde, ajuda a saber se ele pertence ao Velcro original ou pertence à maior parte alternativa disso, você está tentando provar através da hipótese alternativa. Portanto, o valor de p vem como uma ajuda para você se lembrar disso facilmente. Lembre-se do jingle. Abaixo, null. Isso significa que se o valor de p for menor que o valor alfa, vou rejeitar a hipótese nula. P voo de alto nível. Se o valor de p for maior que o valor alfa, deixamos de rejeitar a hipótese nula, concluindo que não temos evidências estatísticas suficientes de que a hipótese alternativa existe. Faremos muitos exercícios e eu cantarei esse jingle várias vezes para que seja fácil para você se lembrar. Abaixo de null, vá atrás de nullcline. Alguns dos participantes com, quando eu faço o workshop ficam confusos, eles dirão que ninguém vai significa o quê? A outra coisa que eu digo a eles para se lembrarem facilmente é f para vôo e F para campo. Então, se P for alto nulo, vamos voar. Isso significa que você está falhando em rejeitar a hipótese nula. Hipótese nula existirá. A hipótese alternativa será rejeitada. Lembre-se de mais uma coisa que é feita principalmente durante a entrevista. O valor de p estava em 1,230,123. Você rejeitaria a hipótese nula ou aceitaria a hipótese nula? Ou você aceitaria a hipótese alternativa? Ou você aceitará a hipótese nula? Como estatístico? Nunca aceitamos nenhuma hipótese. Ou rejeitamos a hipótese nula ou deixamos de rejeitar a hipótese nula. Nós sempre dizemos isso do ponto de vista de null porque o status quo padrão mais fácil hipótese nula. Se o P for alto, não aceitamos a hipótese nula e alternativa. Será que não aceitamos a hipótese nula. Dizemos que não rejeitamos a hipótese nula. Se o p for baixo, não aceitamos alternativo, mas dizemos, rejeito a hipótese nula, concluindo que há evidências estatísticas suficientes de que os dados estão vindo do Bellcore alternativo . Continuaremos com muitos exercícios. E isso lhe dará confiança sobre como praticar, interpretar e usar estatísticas inferenciais em sua análise quando você estiver fazendo isso. 25. Seleção de testes: Uma das perguntas mais comuns que meus participantes fazem quando estou entrando no projeto é qual hipótese devo usar o aluguel? Portanto, esta é uma análise simples que o ajudará a entender isso. Quais testes devo usar? Assim como quando um paciente vai ao médico, o médico não prescreve todo o teste. Ele apenas colocou o teste apropriado com base no problema que o paciente está pescando. Se o paciente vir que eu tive um acidente, o médico diria que eu acho que você deveria fazer seu raio-X. Ele não estaria pedindo para ele fazer o COVID ou o teste RT-PCR. Se a pessoa estiver tossindo e sofrendo de febre, então a RT-PCR é sugerida. E nesse momento não conseguimos satisfazer o raio-x. Parece semelhante quando fazemos testes de hipóteses simples, estamos tentando entender ou comparar com a população. Queremos entender qual teste devemos realizar? Quando, se eu estiver testando médias, essa é a sua média, então você compara essa é a sua média, a média de uma amostra com o valor esperado. Então, estou comparando a amostra com a minha população. Então eu vou para o meu teste t de uma amostra. Eu tenho apenas uma amostra que estou comparando. Quero comparar se o desempenho médio do, se a média de vendas for igual a x valor, que é o valor esperado. Então, esperávamos que as vendas fossem, digamos, 5 milhões. Minha média está chegando a dizer 4,8. Eu conheci que não são. Então eu posso ir e fazer um teste t de uma amostra. Compare a média das amostras com duas proporções diferentes. Então, se eu tiver dois T's independentes, digamos que estou conduzindo um treinamento on-line. Estou conduzindo um treinamento offline. É o Santuário e eu tenho um grupo de alunos que estão participando do meu programa on-line. Eu tenho um grupo diferente de alunos que estão participando do meu programa. Quero comparar a eficácia do treinamento. Então eu tenho duas amostras, e essas são duas amostras independentes porque os participantes são diferentes. Então eu vou para o teste t de duas amostras. Se eu quiser comparar as duas amostras para que as pessoas venham para o meu treinamento. Eu faço uma avaliação antes meu programa de treinamento sobre a compreensão deles sobre o que Lean Six Sigma. E eu posso fazer o programa de treinamento e o mesmo grupo de participantes participa do teste após o programa de treinamento. Então, os participantes ou a cena. Mas a mudança que aconteceu foi o treinamento que foi impactado neles. Eu tenho os resultados do teste antes do treinamento e eu tenho os resultados do teste após o treinamento, eu quero comparar se o treinamento é eficaz. Então eu vou para o teste t pareado com duas amostras. Progredindo ainda mais. Suponha que se eu estiver testando a frequência, eu tenho dados discretos e quero testar a frequência porque em dados discretos eu não tenho médias. Eu tomo frequências. Então, quando estou comparando a contagem de alguma variável em uma amostra com a distribuição esperada, assim como fiz um teste t de amostra. O equivalente a isso para dados discretos seria meu ajuste qui-quadrado. Eu, por padrão, espera-se que seja um valor normal ou um valor específico ou um valor inesperado. E estou comparando isso. Até onde estão meus dados? Eu opto por um ajuste qui-quadrado . Este teste está disponível no MiniTab no Excel. Ele não está disponível. Então, vou criar um modelo e entregá-lo a você, o que tornará mais fácil para você fazer o teste qui-quadrado. Todos os três tipos diferentes de teste qui-quadrado usando o modelo do Excel. Se eu tiver que contar algumas das variáveis entre duas amostras. Portanto, será o teste t homogêneo do qui-quadrado. Estou verificando uma única amostra simples para ver se as variáveis discretas são independentes. Eu faço o teste de independência qui-quadrado. Se eu tiver uma proporção de dados, como aplicativos bons ou ruins, aceitei versus rejeitei. E estou dizendo que tudo bem, 50% das inscrições são aceitas, ou vinte e cinco por cento das pessoas são colocadas. Eu tenho uma proporção que eu quero testar. Se eu tiver apenas uma amostra, vou fazer um teste de proporção. Se eu quiser comparar a proporção de graduados em comércio versus graduados em ciências ou proporção de finanças, MBA, pessoas com MBA em marketing, tenho duas amostras diferentes, para que eu possa vá para o teste de duas proporções. Então, para resumir a coisa, quando estou testando, estou testando as médias? Estou testando frequências como dados discretos ou estou testando proporções? Dependendo disso, você está pegando o teste apropriado e trabalhando nele. Vamos praticar tudo isso usando o Men dab e usando exit. O conjunto de dados está disponível na seção de descrição. Na seção do projeto, convido todos vocês a praticá-lo e colocar seus projetos, sua análise na seção do projeto. Se você tiver alguma dúvida, pode colocar isso na seção de discussão e ficarei feliz em responder às suas dúvidas. Aprendizado feliz. 26. Conceitos do teste T em detalhes: O que esse vídeo ensina a você? Sobre o teste T? Este vídeo aborda tudo o que você precisa saber sobre o teste T. No final deste vídeo, você entenderá o que é o teste AT, quando usá-lo, os diferentes tipos de testes t, hipóteses e suposições envolvidos, como o teste AT é calculado e como interpretar O que é um teste t? Vamos começar com o básico. Um teste t é um procedimento de teste estatístico. Isso analisa se há uma diferença significativa entre as médias de dois grupos Por exemplo, podemos comparar a pressão arterial de pacientes que recebem o medicamento A versus Medicamento B, tipos de testes t. Existem três tipos principais de testes t, o teste t de uma amostra, o teste t de amostras independentes ou dois testes t e o teste t de amostras emparelhadas. O que é um teste t para uma amostra? Usamos um teste t de uma amostra quando queremos comparar a média de uma amostra com uma média de referência conhecida. Por exemplo, um fabricante de barras de chocolate afirma que suas barras pesam em média 50 gramas . Coletamos uma amostra. Encontre seu peso médio. Suponha que o peso da amostra seja 48 gramas e use um teste t de uma amostra para ver se ela difere significativamente dos 50 gramas declarados. O que é um teste t para amostras independentes? O teste t de amostras independentes compara as médias de dois grupos ou amostras independentes Por exemplo, podemos comparar a eficácia de duas cores de dor atribuindo aleatoriamente 60 pessoas a dois grupos Ao receber o medicamento A e o outro medicamento B. E depois usar um teste t independente para avaliar quaisquer diferenças significativas no alívio da dor. O que é um teste t para amostras emparelhadas? O teste t de amostras pareadas compara as médias de dois grupos dependentes Por exemplo, para avaliar a eficácia de uma dieta, poderíamos pesar 30 pessoas antes Após a dieta, usando amostras emparelhadas para testar, determinamos se há uma diferença significativa no peso anterior. Depois da dieta. Compreender a diferença entre amostras dependentes e independentes é crucial para escolher o tipo certo de teste t para sua análise. Amostras dependentes ou amostras emparelhadas referem-se aos casos em que cada observação em uma amostra é pareada com uma observação específica. Na outra amostra, esse emparelhamento surge da natureza da coleta de dados, como antes e depois das medições Nos mesmos indivíduos, pares combinados em um experimento O teste t de amostras emparelhadas é usado para avaliar se. A diferença média entre essas observações pareadas é estatisticamente significativa Por outro lado, amostras independentes são observações, retiradas de dois grupos separados, ou populações que não estão relacionadas ou pareadas de forma sistemática. Cada observação em uma amostra é totalmente independente de todas as outras observações. Na outra amostra, as amostras independentes, teste T avalia se as médias desses dois grupos independentes diferem significativamente entre si escolha entre esses tipos de testes t depende de como os dados foram coletados e da relação entre as amostras que estão sendo comparadas. Usar o teste t correto garante que sua análise estatística reflita com precisão a natureza de sua pergunta de pesquisa e a estrutura de seus dados. Aqui está uma nota interessante. O teste t de amostras emparelhadas é muito semelhante ao teste t de uma amostra. Também podemos pensar nas amostras emparelhadas para testar como tendo uma amostra que foi medida em dois momentos diferentes. Em seguida, calculamos a diferença entre os valores pareados, fornecendo um valor para uma amostra. A diferença é um menos cinco mais dois menos um menos três, e assim por diante Agora, queremos testar se o valor médio da diferença recém-calculada desvia de um valor de referência Nesse caso, zero, é exatamente isso que o teste t de uma amostra faz. Quais são as suposições? Para um teste t, é claro, primeiro precisamos de uma amostra adequada no teste t de uma amostra, precisamos de uma amostra e do valor de referência no teste t independente. Precisamos de duas amostras independentes e, no caso de um teste t pareado, uma amostra pareada, a variável para a qual queremos testar se há diferença entre as médias deve ser métrica. Exemplos de variáveis métricas são idade, peso corporal e renda. Por exemplo, o nível de educação de uma pessoa não é uma variável métrica. Além disso, a variável métrica deve ser distribuída normalmente em todas as três variantes de teste para saber como testar se seus dados estão normalmente distribuídos. No caso de um teste t independente, as variâncias nos dois grupos devem ser aproximadamente iguais Você pode verificar se as variâncias são iguais usando o teste L evens. Quais são as hipóteses do teste t? Vamos começar com o teste de uma amostra t no teste de uma amostra t. A hipótese nula é que a média da amostra é igual ao valor de referência fornecido Portanto, não há diferença, e a hipótese alternativa é a média da amostra não é igual ao valor de referência fornecido. E quanto às amostras independentes para testar? No teste t independente, a hipótese nula é que os valores médios em ambos os grupos são os mesmos Portanto, não há diferença entre os dois grupos, e a hipótese alternativa é que os valores médios em ambos os grupos não são iguais. Portanto, há uma diferença entre os dois grupos. E, finalmente, o teste t de amostras emparelhadas em um teste t de par, a hipótese nula é a média da diferença entre os pares é zero, e a hipótese alternativa é que a média da diferença entre os pares não é zero Agora sabemos quais são as hipóteses. Antes de vermos como o teste t é calculado. Vejamos um exemplo de por que realmente precisamos de um teste t. Digamos que haja uma diferença na duração do estudo de um diploma de bacharel entre homens. E mulheres na Alemanha. Nossa população é , portanto, composta por todos os graduados de um bacharelado que estudaram na Alemanha No entanto, como não podemos pesquisar todos os graduados de bacharelado, extraímos uma amostra o mais representativa possível Agora usamos o teste para testar a hipótese nula de que não há diferença na população Se não houver diferença na população, se não houver diferença na população, certamente ainda veremos uma diferença na duração do estudo na amostra. Seria muito improvável que extraíssemos uma amostra em que a diferença fosse exatamente zero. Em termos simples, agora queremos saber a diferença medida em uma amostra. Podemos dizer que a duração do estudo de homens e mulheres é significativamente diferente. E é exatamente isso que o teste t responde. Mas como calculamos um teste t? Para fazer isso? Primeiro calculamos o valor t para calcular o valor t. Precisamos de dois valores. Primeiro, precisamos da diferença entre as médias e, em seguida, precisamos do desvio padrão da média Isso também é conhecido como erro padrão. No teste t de uma amostra, calculamos a diferença entre a média da amostra e a média de referência conhecida. S é o desvio padrão dos dados coletados e n é o número de casos S dividido pela raiz quadrada de n é então o desvio padrão da média Qual é o erro padrão? No teste t de amostras dependentes, simplesmente calculamos a diferença entre as duas médias amostrais. Para calcular o erro padrão, precisamos do desvio padrão e do número de casos da primeira e da segunda amostra, dependendo se podemos assumir variância igual ou desigual para Existem fórmulas diferentes para o erro padrão. Em um teste t de amostra pareada, precisamos apenas calcular a diferença entre os valores pareados e calcular a média a partir disso. O erro padrão é então o mesmo de um teste t de uma amostra. O que aprendemos até agora sobre o valor t? Não importa qual teste, nós calculamos. O valor t será maior se tivermos uma diferença maior entre as médias, e o valor t será menor se a diferença entre as médias for menor. Além disso, o valor t fica menor quando temos uma maior dispersão da média, portanto, quanto mais dispersos os dados, menos significativas são dadas as diferenças médias Agora, queremos usar o teste t para ver se podemos rejeitar a hipótese nula ou não Para fazer isso, agora podemos usar o valor t de duas maneiras. Ou lemos o valor crítico t de uma tabela ou simplesmente calculamos o valor p a partir do valor t. Falaremos sobre os dois em um momento. Mas qual é o valor p? Um teste t sempre testa a hipótese nula de que não há diferença Primeiro, assumimos que não há diferença na população. Quando extraímos uma amostra, essa amostra se desvia da hipótese nula em uma certa quantidade O valor p nos diz a probabilidade de extrairmos uma amostra que se desvia da população na mesma quantidade ou mais do que uma amostra que extraímos Assim, quanto mais a amostra se desvia da hipótese nula, menor se torna o valor p Se essa probabilidade for muito pequena, podemos, é claro, perguntar se a hipótese nula é válida para a Talvez haja uma diferença, mas em que ponto podemos rejeitar a hipótese nula Essa borda é chamada de nível de significância, que geralmente é fixado em 5%. Se houver apenas 5% de chance de extrairmos essa amostra. Ou um que seja mais diferente. Então, temos evidências suficientes para supor que rejeitamos a hipótese nula Em termos simples, assumimos que há uma diferença, que a hipótese alternativa é verdadeira. Agora que sabemos qual é o valor p, podemos finalmente ver como o valor t é usado para determinar se a hipótese nula é rejeitada ou não Vamos começar com o caminho até o valor crítico de t, que você pode ler em uma tabela. Para fazer isso. Primeiro, precisamos de uma tabela de valores t críticos, que podemos encontrar na guia Dados em tutoriais e distribuição T. Vamos começar com a caixa dupla. Examinaremos brevemente a caixa única no final deste vídeo. Aqui abaixo, vemos a tabela. Primeiro, precisamos decidir qual nível de significância queremos usar. Vamos escolher um nível de significância de 0,05 de 5%. Em seguida, analisamos nesta coluna 120,05, que é 0,95. Agora precisamos dos graus de liberdade no de uma amostra e no teste t de amostras emparelhadas. Os graus de liberdade são simplesmente o número de casos menos um Se tivermos uma amostra de dez pessoas, há nove graus de liberdade. No teste t de amostras independentes, adicionamos o número de pessoas de ambas as amostras e calculamos isso menos dois porque temos duas amostras Observe que os graus de liberdade podem ser determinados de uma maneira diferente, dependendo se assumimos variância igual ou igual Então, se tivermos um nível de significância de 5% e nove graus de liberdade, obtemos um valor t crítico de 2,262 Agora, por um lado, calculamos um valor t com o teste t e temos o valor t crítico. Se nosso valor t calculado for maior que o valor t crítico. Nós rejeitamos a hipótese nula. Por exemplo, suponha que calculemos um valor t de 2,5. Esse valor é maior que 2,262 e, portanto, as duas médias são tão diferentes que podemos rejeitar a hipótese nula Por outro lado, também podemos calcular o valor p para o valor t que calculamos. Se inserirmos 2,5 para o valor t e nove para os graus de liberdade, obtemos um valor p de 0,034 O valor p é menor que 0,05 e, portanto, rejeitamos a hipótese nula como controle Se copiarmos o valor t de 2,262 aqui, obteremos exatamente um valor p de 0,05, que Se você quiser calcular o teste AT com a guia Dados, basta copiar seus próprios dados nesta tabela. Clique no teste de hipóteses e selecione as variáveis de interesse. Por exemplo, se você quiser testar se o gênero afeta a renda, basta clicar nas duas variáveis e obter automaticamente o teste AT, calculado para amostras independentes. Aqui abaixo. Você pode ler o valor p. Se você ainda não estiver preocupado com a interpretação dos resultados, basta clicar na interpretação interna Um teste t bicaudal para amostras independentes, variâncias iguais assumidas, mostrou que a diferença entre mulheres e homens em relação à variável dependente salário não foi estatisticamente significativa Assim, a hipótese nula é mantida. A pergunta final agora é qual é a diferença entre hipótese direcionada e hipótese não direcionada No caso não direcionado, a hipótese alternativa é que há uma diferença Por exemplo, há uma diferença entre o salário de homens e mulheres na Alemanha. Não nos importamos com quem ganha mais. Só queremos saber se há uma diferença ou não. Em uma hipótese direcionada. Também estamos interessados na direção da diferença. Por exemplo, a hipótese alternativa pode ser que os homens ganham mais do as mulheres ou as mulheres ganham mais do que os homens. Se observarmos graficamente a distribuição t, podemos ver que, no caso bilateral, temos um intervalo à esquerda e um intervalo à direita Queremos rejeitar a hipótese nula se estivermos aqui ou ali com um nível de significância de 5% Ambas as faixas têm uma probabilidade de 2,5%. Juntos, apenas 5%, se fizermos um teste T unilateral, a hipótese nula será rejeitada somente se estivermos nessa faixa ou dependendo da direção que queremos testar nessa faixa com um nível de significância de 5%, 5% caem dentro dessa faixa Obrigado por aprender comigo. Nos vemos na próxima aula de estatística. 27. 1 teste de amostra t: Vamos entender quais testes de hipóteses devo usar? No Minitab, você tem um assistente que pode ajudá-lo a tomar essa decisão. Portanto, se você for ao teste de hipótese assistente, ele o ajudará a identificar com base no número de amostras que você tem. Para supor que, se você tiver uma amostra, você pode estar fazendo um teste t de uma amostra, um desvio padrão de amostra, uma porcentagem de amostra defeituosa, de ajuste qui-quadrado. Se você tiver duas amostras, então você tem duas amostras de teste t para amostras diferentes. Teste T se os itens antes e depois forem os mesmos. Desvio padrão da amostra para porcentagem amostral do teste qui-quadrado de associação defeituoso. Se você tiver mais de duas amostras, então temos um teste de desvio padrão ANOVA de sentido único, porcentagem do qui-quadrado é defeituosa e teste de associação do qui-quadrado. Estaremos praticando tudo isso com muitos exemplos. Então, vamos ao primeiro exemplo. Temos o TDAH de chamadas em minutos. Coletamos uma amostra de 33 pontos de dados. A média é sete, o valor mínimo é quatro minutos, valor máximo é dez minutos. A razão pela qual temos que fazer um teste de hipótese é o gerente dos processos que sua equipe é capaz de fechar a resolução ou na chamada em sete minutos. E a média do processo também é de sete minutos, mínimo é de quatro minutos. Mas o cliente vê que os agentes os mantêm em espera e leva mais de sete minutos na ligação. Então, agora eu quero validar estatisticamente se está correto ou não. Sempre que estamos configurando testes de hipóteses, temos que seguir a abordagem de cinco etapas e seis etapas. Etapa número um, defina a hipótese alternativa. Defina a hipótese nula, que nada mais é do que seu status quo. Qual é o nível de significância ou seu valor Alfa? Se nada for especificado, será enviado o valor Alpha como cinco por cento. Primeiro definimos a hipótese alternativa. Então, no nosso caso, o que o cliente está dizendo? O cliente vê que o tempo médio de tratamento é superior a sete minutos. O status quo ou o SLA acordado é o TDAH deve ser inferior a sete minutos. Como eu lhe disse, a hipótese nula e a alternativa serão mutuamente exclusivas e complementares uma à outra. Agora, identifique o teste a ser realizado. Quantas amostras eu tenho? Eu tenho apenas uma amostra do HD do contact center. Então, eu vou pegar um teste t de amostra. Está bem? Agora eu preciso fazer as estatísticas de teste e identificar o valor-p. Se você se lembra da lição de exemplo anterior, dissemos que se o valor de p for menor que o valor alfa, rejeitamos a hipótese nula. Se o valor de p for maior que cinco por cento ou valor Alfa, não rejeitamos a hipótese nula. Vamos fazer esse entendimento. Então, se você se lembra, temos os dados do nosso projeto. Nos dados do projeto, temos o teste de hipótese. Por aqui. Eu lhe dei o AHG de carvão em minutos. Então, eu copiei esses dados para o Minitab. Então, vamos fazer isso de duas maneiras. Primeira vez e mostre para você usando o assistente. Em segundo lugar, mostrarei a você usando estatísticas. Então, se eu for para o teste de hipótese assistente, qual é o objetivo que eu quero alcançar? É um teste t de uma amostra. Eu tenho uma amostra. É sobre maldade? É sobre desvio padrão? São números separados, defeituosos ou discretos? Estamos falando da média de 100 vezes. Então, vou fazer um teste t de amostra. Para dados em colunas. Eu selecionei isso. Qual é o meu valor-alvo? Meu valor alvo é sete. A hipótese alternativa é que a idade média da chamada em minutos é maior que sete. É isso que o cliente está reclamando. O valor alfa é 0,05 por padrão, eu clico em, Ok. Vamos ver a saída. Para ver a saída, você clicará em Exibir e somente saída. Você vai ver isso. Se você vir o valor-p, o valor-p é 0,278. Você se lembra abaixo do não-gol ser alto nullcline esse valor de 0,278 é maior que o valor alfa de 0,05? Sim, é. Portanto, posso concluir que a média é d do carvão não é significativamente maior do que o alvo. O que quer que você esteja vendo como maior do que o alvo, é apenas por acaso. Portanto, não há evidências suficientes para concluir que a média é maior que sete com nível de significância de cinco por cento. E também me mostra como é o padrão. Não há pontos de dados incomuns porque o tamanho amostral é de pelo menos 20. A normalidade não é um problema. O teste é preciso. E seria bom concluir que o tempo médio de tratamento não é significativamente maior do que sete minutos. Posso ir em frente e rejeitar a reclamação feita pelo cliente. As poucas chamadas que vemos como metas de alta qualidade e alto valor. Isso só pode ser por acaso. O mesmo teste. Também posso fazer isso clicando em de teste, estatísticas básicas. E vou salvar uma amostra de teste t, uma ou mais amostras, cada uma em uma coluna. Vou passar o dedo no seu TDAH selecionado. Eu quero realizar testes de hipóteses. média hipotética é sete. Eu vou para Opção e digo, qual é a hipótese alternativa que eu quero definir. Quero definir que a média real é maior do que a média hipotética. Clique em OK. Se eu precisar de gráfico, posso colocar esses gráficos. Clique em OK e clique em OK. Eu recebo essa saída. Então, a estatística descritiva, esta é a média, esse é o desvio padrão e assim por diante. hipótese nula é que mu é igual a sete. hipótese alternativa é que mu é maior que sete. valor de p é 0,278. Concluindo que o vôo nulo, deixamos de rejeitar a hipótese nula, concluindo que o tempo médio de 100 é cerca de sete minutos. Vamos continuar. Recebemos nossa produção. Vimos tudo isso e concluímos que o tempo médio de manuseio não é significativamente maior do que sete minutos. 28. 2 exemplo de teste t exemplo 1: Vamos fazer mais um exemplo de duas equipes, duas amostras. Então, neste exemplo, duas equipes cujo desempenho precisa ser medido. O gerente da DMB afirmou que sua equipe tem melhor desempenho do que o DNA. O gerente de uma equipe defende que essa reivindicação é inválida. Vamos ao nosso conjunto de dados. Então, se você for para o arquivo do projeto, você terá algo chamado de equipe a e equipe B. Então, deixe-me copiar esses dados. OK. Deixe-me ir aqui e colocar o radar no lado direito. Por que também posso pegar uma nova planilha e colar os dados. Certo? Então, vamos como teste de hipótese, teste t de duas amostras. Deixe-me excluir esse valor. E TB, a equipe a é diferente da VM. Eu também posso dizer com base na hipótese que a equipe seja reivindicada que sua equipe é melhor do que um. então eu posso dizer que é menos do que TV. E eu clico em Ok. Novamente, neste exemplo, obtenho uma saída que diz que a equipe não é significativamente menor que a TB. Você tem os valores de 27,727,3? Não há diferença estatística entre as duas dicas, certo? Então, os dois exemplos que obtivemos foram assim. Então, vamos ver mais um exemplo. Eu tomei o tempo do ciclo do processo um e o tempo do ciclo do processo B. Então, vamos apenas copiar esses dados. Esse é outro conjunto de dados. E eu digo, Qual é a minha hipótese alternativa? Ambos os feixes são diferentes. Qual é a hipótese nula? Ambas as equipes são iguais. Porque essas duas equipes são diferentes. Vou seguir em frente e fazer meu teste t de duas amostras. Os dados de cada equipe são separados. E eu estou vendo que é diferente do valor alfa de TB é 5%, e então eu clico em, Ok. Agora, se você vir a saída desta vez, ele diz que sim, o tempo de ciclo de a é significativamente diferente do tempo de ciclo de dB. Aqui, este 26,8, vinte e sete vírgula seis. Mas se eu olhar para a distribuição, a distribuição de que esse vermelho não se sobrepõe a esse vermelho. Portanto, há uma diferença no tempo de ciclo das duas equipes. Se eu tiver que fazer a mesma coisa usando estatísticas, estatísticas básicas, teste t de duas amostras. Como seu tempo de ser e na época das opções de TB, existem diferentes? Eu posso ter meus gráficos. Eu não quero um gráfico individual. Eu só vou pegar o boxplot e dizer, ok, mu1 é a média da população do tempo de ciclo dos processos, tempo do ciclo do processo B. Agora, se você ver que há um desvio padrão que é uma diferença. O valor de p é 0, dizendo que, sim, há uma diferença significativa entre as duas equipes. Seja baixo, nada legal. Então aqui estamos rejeitando a hipótese nula, dizendo que há uma diferença significativa entre E e D. Certo? Eu vi a mesma coisa com a distribuição continua. Portanto, há uma distribuição maior ou aqui e há uma distribuição menor. Posso fazer minha análise gráfica que aprendi à sua direita e depois ver como a equipe está se saindo. Então, este é o resumo do DNA. A média é 26, o desvio padrão é 1,5. E se eu rolar para baixo, eu chego para o time B e ele está vindo dessa maneira. Agora eu quero sobrepor esses gráficos para que eu possa clicar no gráfico e em um histograma. E eu vou dizer um pouco em forma e sedoso. E vou selecionar esses dois gráficos em painel separado do mesmo gráfico, mesma vitamina C max. Clique em, Ok. Clique em OK. Você consegue ver que a curva do sino de ambos é diferente? Vamos fazer um histograma gráfico sobreposto. E em várias sobreposições de solo neste gráfico. Você pode ver que o azul e o vermelho, há uma diferença? E, portanto, sim, a curtose é diferente, a inclinação é diferente, e essa é a conclusão no meu teste t de duas amostras, que diz que a distribuição lá é significativa diferença. Há uma diferença estatisticamente significativa entre o tempo sagrado de ser lutador EN, morrendo. A segunda coisa, aprenderemos sobre o teste t no leito em nosso próximo exemplo. 29. 2 exemplo de teste t de amostra 2: Vamos ao nosso exemplo. Dois. Existem dois centros cujo desempenho precisa ser medido. O gerente da sensorial alegou que sua equipe é uma equipe com melhor desempenho do que o centro B. A magnitude do centro ser defende que a alegação é inválida. Novamente, seguirei meu processo de cinco etapas. Qual é a hipótese alternativa? É melhor que B. Vamos tornar isso mais fácil. Não é igual a T, não é igual a TB ou centro não é igual a centro. O que o centro não hipotético a é igual ao centro V, nível de significância, cinco por cento. Quantas amostras eu tenho? Eu tenho duas amostras, editor central e dados do centro B. Como tenho duas amostras, preciso fazer o teste t de duas amostras. Vamos para nossa planilha do Excel. Eu tenho os dados para Centauri e centro B. Vou copiá-los no Minitab. Estou colocando meus dados aqui. Vamos fazer o teste t de duas amostras. Então eu vou para Stat, Estatísticas Básicas e digo teste t de duas amostras. Ambas as amostras estão em uma coluna. Cada amostra tem sua própria coluna, então vou selecionar essa amostra. Uma é a amostra sensorial. Você centra B? A opção é híbrida. Isso não é diferente. Portanto, a diferença entre a e B é 0. E eu vou em frente e faço isso. Eu posso ter meu gráfico de caixa individual e dizer OK, e dizer Ok, vamos ver a saída. Portanto, os dados sensoriais são seus e os dados do TBI estão aqui. E se você vir o valor-p, o valor-p é alto. vez, eu tenho um exemplo que diz que ser alta mosca nula, o que significa que não há diferença entre centro e centro B. Se você vê o valor individual, mas você vê a mesma coisa. Vamos ver o boxplot. O boxplot diz que a média não é significativamente diferente porque teria coletado uma amostra. Essa é a razão pela qual é, e você está vendo um valor de 0, que é um outlier. Então, devemos considerar isso. A mesma coisa. Deixe-me fazer isso usando testes de hipóteses. Teste t para duas amostras, média amostral. A amostra é diferente. A média do centro é diferente da média do centro B e C. Assim como a diferença média, a média de Santa Fé não é significativamente diferente da média fora do centro. Certo? Se você vir essa distribuição, poderá descobrir que a parte vermelha está completamente sobreposta uma à outra, dizendo que não há evidências suficientes para concluir que há uma diferença. Há uma diferença quando você vê a média, 6,86,5. Mas isso pode ser por causa de uma chance. E também há um desvio padrão. Portanto, eles mostram isso usando as barras vermelhas, dizendo que não há uma diferença significativa entre a semana sensorial e central. Continuaremos aprendendo sobre outros exemplos no próximo vídeo. 30. Teste t emparelhado: Vamos entender mais um exemplo. Este é um exemplo de teste t pareado. Se você olhar para este estudo de caso, os psicólogos queriam determinar se um determinado programa de corrida tem efeito na frequência cardíaca em repouso. A frequência cardíaca de 15 pessoas selecionadas aleatoriamente foi medida. As pessoas foram então colocadas em um programa de corrida e medidas novamente após um ano. Então, os participantes estão dizendo antes versus depois? Sim. E essa é a razão pela qual não é o teste t de duas amostras, mas é um teste t pareado, a medição antes e depois de cada pessoa ou em bandas de observação. Então, se eu voltar para o meu conjunto de dados, eu tenho algo chamado de antes e depois, há um estágio diferente, eu não estou tomando o valor da diferença. Peguei os dados das 15 pessoas e coloquei na mini guia. Certo? Agora, eu quero fazer porque é a mesma pessoa antes e depois de mim, queremos entender os diferentes testes de hipóteses. Vou fazer o teste t pareado. A primeira coisa foi, qual é a hipótese alternativa? Antes e depois é diferente. Se você se lembra, o programa de antes e depois, eles querem determinar se eles têm um efeito na corrida. A medição está antes, ferramenta de medição está ativa. média de antes é diferente da média de depois. Então essa é minha hipótese alternativa. Então, o que minha hipótese nula significa de antes é que não há mudança. O alternativo vê que o antes é diferente do depois. valor alfa é 0,05. Vamos clicar em Ok. Vamos ver a saída. Então, a média é diferente? O que é um valor-p de 0,007? A média de antes é significativamente diferente da média de depois. Se você olhar para o valor médio, foi 74,572,3. Mas há uma diferença. Então, se você perceber que a diferença é maior que 0. E se eu olhar para esses valores de antes versus depois, o ponto azul é depois que o ponto preto está antes. A maioria dos participantes, sua frequência cardíaca havia diminuído após o programa de corrida. Poucos deles foram uma exceção, mas isso poderia ser uma exceção. Não há diferenças pareadas incomuns porque nosso tamanho amostral é de pelo menos 20. A normalidade não é um problema. A amostra é suficiente para detectar a diferença na média. Então eu posso ver que, sim, há uma diferença entre os dois. Maravilhoso. Então, novamente, revisão rápida. Olá, objetivo nulo como o valor de p é menor que o nível de significância, concluímos que há uma diferença significativa entre as duas leituras. Se eu tiver que fazer a cena, clico em Estatísticas, Estatísticas Básicas. Detesto ruim, cada amostra em uma regra. Antes, depois da opção é que eles são diferentes. Deixe-me pegar apenas o boxplot e o histograma de não quero escolher o histograma. Só vou pegar o boxplot. Hipótese nula A diferença é 0. A hipótese alternativa é que a diferença é diferente de zero, valores de p baixos, concluindo que eu rejeito a hipótese nula. E há uma diferença ao adotar o programa. Portanto, se você vir o valor nulo, o ponto vermelho está muito longe da média do intervalo de confiança da caixa para concluir que há uma diferença entre submeter-se ao programa por esse especialista em coração, certo? Então, no próximo programa, aprenderemos, pegaremos mais exemplos. 31. Um teste de amostra Z: A rápida recapitulação dos diferentes tipos de testes que aprendemos é que, se eu estiver olhando para o quão diferente é meu grupo e entre a população, é meu grupo e entre a população, eu faço um teste t de uma amostra. Quando eu tenho dois grupos diferentes de amostras, então eu faço o teste t de duas amostras. Se essas amostras forem independentes. Se eu for para um teste t pareado. Teste t pareado. Se o grupo for o mesmo conjunto de pessoas, mas é ou ponto de tempo diferente. Como vimos o exemplo do batimento cardíaco. Então, as pessoas foram medidas em seus batimentos cardíacos. O relatório por meio de um programa em execução e publica o programa em execução. Como foi aquele batimento cardíaco quente em repouso, certo? Então, essas são as coisas que classificamos. Agora vamos continuar com mais exemplos. Então, adicionamos o caso de uso número cinco, análise de porcentagem de gordura. Os cientistas de uma empresa que fabricou processo que querem S é a porcentagem de gordura na fonte de água da empresa. A data de publicação do anúncio é de 15% e os cientistas medem que a porcentagem de gordura é de 20 amostras aleatórias. A medida anterior do desvio padrão da população é 2,6. Agora, esse é o desvio padrão da população. O desvio padrão da amostra é 2,2. Quando conheço o parâmetro da população, posso ir em frente e usar um teste z de amostra porque o número de amostras que tenho é um. E eu quero, eu tenho o desvio padrão conhecido da população. Agora, novamente, vou aplicar a mesma coisa que definiu a hipótese alternativa, certo? Então, o que eu vou dizer? Qual é a hipótese alternativa? A porcentagem de gordura não é igual a 603050. Qual é a porcentagem de gordura da hipótese nula é igual a 15%. Nível de significância de cinco por cento. Porque eu sei que é um teste de uma amostra e eu tenho o desvio padrão da população. Vou usar um teste z de amostra. Vamos fazer a análise. Eu abri o arquivo do projeto e tenho os IDs de amostra e causei uma grande porcentagem de dados aqui. Deixe-me copiar esses dados para o Minitab. Mas copiou a porcentagem de gordura com o que os cientistas fizeram. Como sabemos que o desvio padrão da população, posso ir em frente e usar o teste z de uma amostra. Meus dados estão presentes em uma coluna. É o fato apresentado. O desvio padrão conhecido foi de 2,6. Eu quero realizar testes de hipóteses. Média hipotética, é 15%. Então, minha hipótese nula é que a porcentagem de gordura é igual a 15. Minha hipótese é que gordura era um grande a não é igual a 15. Eu posso escolher um gráfico de boxplot e histograma e dizer, Ok, eu vou te mostrar a saída. Portanto, a hipótese nula é que a porcentagem de gordura é igual a 15. A hipótese alternativa é que a porcentagem de gordura não é igual a 15. valor alfa é 0,05. Meu valor de p é 0,012, pois meu valor de p é menor que o valor alfa, P baixo, nenhum legal. Então eu rejeito a hipótese nula, concluindo que o percentual de gordura não é igual a 50. Se você vir aqui, o percentual de gordura é superior a 50. Eu posso refazer o mesmo teste. Desta vez. Eu posso ir em frente e verificar. Minha porcentagem de gordura é maior do que a média hipotética. Vamos fazer isso. E ainda assim eu recebo meu valor p com mais confiança, 0,006 muito longe do meu valor Alfa. Concluindo que sim, o Alfa, o valor nulo é hipotetizado, a média é 15. Mas a amostra diz que há uma grande probabilidade de que sua porcentagem de gordura na fonte seja superior a 50. Qual é o conselho que daremos à empresa? Aconselhamos a empresa que você não pode vender o nome de que o contêiner é 15% porque nosso fator é superior a 15%. Então, por segurança, você pode mudar o rótulo do produto para dizer que o percentual de gordura é 18, certo? Porque temos cinco por cento está passando por 20. Assim, um consumidor ficará feliz em receber um produto que contenha menos gordura. Então, para receber um produto que contenha mais gordura porque estamos todos preocupados com a saúde, certo? Então, vamos continuar na próxima aula. 32. Uma amostra proporção teste-1p-teste: Continuaremos com nossos testes de hipóteses. Às vezes, podemos ter uma proporção da ação, certo? não temos médias ou desvio padrão ou variância para No entanto, não temos médias ou desvio padrão ou variância para medir, o que estamos fazendo. Vamos pegar este exemplo seis, o analista de marketing quer determinar se o homem, o anúncio do novo produto resultou em uma taxa de resposta diferente da média nacional. Normalmente, sempre que você coloca um anúncio no jornal, eles dizem que há a empresa de publicidade que geralmente vê é que seremos capazes impactar 6% de resultado ou 10% de resultado ou algum número resultado bem aqui. O que é, é o mesmo tipo de cenário. Aqui. Eles pegaram uma amostra aleatória de 1000 famílias que receberam propaganda. E dessas 10 mil famílias, amostra 87 delas fez compras depois de receber esse engrandecimento. Então, essa empresa, que é uma empresa de publicidade, está alegando que eu causei um impacto melhor do que os outros anúncios. O analista tem que realizar o teste z de uma proporção para determinar se a proporção de domicílios que fizeram uma compra foi diferente da média nacional de 6,5 porque isso é 8,7. Nesse caso. Qual é a sua hipótese alternativa? hipótese alternativa é que o anúncio é diferente da resposta ao anúncio é diferente da média nacional. Aqui, diremos que não há diferença. Ambos são pecado, valor alfa é de cinco por cento. E vamos fazer uma proporção, teste z, teste de proporção de eventos. Eu deveria te levar até o minuto. Então, vamos para o MiniTab. Eu posso ir em frente e esses pais, estatísticas básicas, uma proporção. Não tenho dados na minha coluna, mas resumi, certo? Então deixe-me fechar isso, cancelar, deixe-me fechar isso. Então, eu fiz um teste de proporção de amostra. Eu resumi os dados. Quantos eventos foram estamos absorvendo? Estamos observando 87 eventos que acontecerão. A amostra é de mil. Preciso realizar o teste de hipótese e a proporção hipotética, 6,5, 0,0656% .5, certo? Portanto, é 0,065. Essa proporção não é igual à proporção hipotética. Eu digo, Ok, eu vejo, ok. Agora, a hipótese nula é que a proporção é igual a 6,5 por cento. hipótese alternativa é que o impacto proporcional não é igual a 5,56 por cento. valor de p é 0,008. O que isso significa? Sim, seja baixo, nada legal. Portanto, rejeitamos a hipótese nula, concluindo que o efeito do anúncio, Ele não é 6,6,5 por cento, mas é mais porque se você ver o intervalo de confiança de noventa e cinco por cento, diz 0,7% a 10%, certo? Você tem uma proporção de 88,7%. E o intervalo de confiança de 95% da proporção está muito acima de 6,5, começa a partir de 7. Portanto, podemos concluir que há um impacto significativo do anúncio e podemos examinar essa empresa de publicidade. Vamos continuar em nossa próxima lição. 33. Duas amostras de proporção teste-2p-teste: Vamos fazer esse exercício mais uma vez usando o Assistente. Portanto, temos os 80 produtos de carne bovina numerados pelo fornecedor E que verificamos. 725 estão com defeito ou não defeituosos. Então, quantos isso é eficaz? Então, se eu fizer uma subtração, seria 777802 menos 725 é 77712 produtos de amostragem do fornecedor B foram selecionados por 73. Perfeito. Então, quanto está com defeito? Um, 39. Então, vamos tentar fazer nosso teste de duas proporções usando o assistente do Minitab como este teste de hipótese, peças de amostra, fezes, porcentagem de amostra do fornecedor defeituoso E, 0 a 7771 a 139. A pessoa com defeito do fornecedor E é menor que a porcentagem de defeito do fornecedor B. Vou seguir em frente e clicar em Ok. E eu entendo isso. Sim, essa porcentagem de defeituosos ou fornecedor é significativamente menor do que a porcentagem de defeituosos do fornecedor B. E se eu rolar para baixo, Sim. Então diz a diferença, esse fornecedor a está pronto para leitura. A partir do teste, você pode concluir que a porcentagem representativa do fornecedor é menor que o Fornecedor B no nível de significância de 5%. Quando você está vendo essa porcentagem. Além disso, você pode ver claramente que continuaremos com o próximo teste de hipóteses na próxima semana. 34. Duas proporções de amostra test-2p-teste-Exemplo: Agora vamos entender o próximo exemplo. Este é um exemplo em que um gerente de operação mostra um produto fabricado usando matéria-prima de dois fornecedores, determina se uma das matérias-primas de suprimentos tem maior probabilidade de produzir uma melhor produto de qualidade. Assim, 802 produtos foram amostrados do fornecedor E 725 ou perfeito, que não está com defeito. 712 produtos foram amostrados do Fornecedor B, 573 ou buffet. Ou seja, não está com defeito. Então, queremos realizar porque qual é porcentagem de não defeituosos de seus dados pessoais? Sim, eu tenho duas proporções, matriz de suprimentos e Fornecedor B. Vamos para o principal. Eu posso ir para Stat, Teste de duas proporções de Estatísticas Básicas. Eu tenho meus dados resumidos, os pares pela primeira facilidade, 725 ou ambos agem de 802. Então, vamos pegar 725025723712572371. A opção de eles verem é que há uma diferença e vamos descobrir. Portanto, o BVA, a hipótese nula, é que não há diferença entre a proporção. A hipótese alternativa é que há uma diferença entre as duas proporções. Quando eu estava olhando para o valor de p, o valor de p sai para ser Z, para ser nulo baixo. Está concluindo que eu tenho que rejeitar a hipótese nula. Há uma diferença no desempenho dos dois fornecedores. Agora, se eu pensar porque estou falando de perfeito ou não defeituoso, atualmente, amostra um tem 90% perfeito e a amostra dois tem 80% perfeita. Então, concluindo que o fornecedor E é um fornecedor melhor do que o Fornecedor B. Certo? Então, muito obrigado. Continuaremos na próxima lição. 35. Usando o Excel = um teste t de amostra: Muitas vezes entendemos o teste de hipótese, mas há um desafio que temos. O desafio é que eu não tenho o Minitab. Não posso fazer o teste de hipótese de uma maneira fácil em vez de passar por um cálculo manual usando uma calculadora estatística. Não se preocupe, isso é possível. Vou mostrar como posso fazer um teste de hipótese usando o Microsoft Excel. Vá para Arquivo. Vá para Opções. Ao acessar Opções, vá para Suplementos. Quando você clica em Suplementos. Deixe-me clicar aqui. Você tem uma opção chamada de suplemento do Excel na opção Gerenciar. Então, selecione o complemento do Excel e clique em Ir. Clique em Ferramentas de Análise e verifique se essa marca de verificação está ativada. Depois de fazer isso, você o encontrará na guia Dados. Você tem análise de dados disponível. Deixe-me clicar nele para que você entenda o que é possível. Na análise de dados. Eu tenho uma correlação OR, covariância, estatística descritiva, histograma, teste T, testes z, geração de números aleatórios, regressão de amostragem e todas essas coisas. Portanto, está ficando muito fácil fazer testes de hipóteses. Pelo menos a hipótese de dados contínuos também foi testada facilmente por meio do Microsoft Excel. Eu vou fazer com que você faça exercícios passo a passo por enquanto. Vamos voltar para a apresentação. Vamos pegar o primeiro problema. Ou seja, tenho as estatísticas descritivas do HD da chamada, do gerente dos processos em que sua equipe está trabalhando para fechar a resolução da chamada em sete minutos. Mas o cliente vê que ele ficou em espera por muito tempo e, portanto, está gastando mais de sete minutos. Se eu olhar para as estatísticas descritivas, está me dizendo dez minutos, mediana é sete, a média é 7,1. Agora eu gostaria de fazer essa análise usando a saída da Microsoft. Então, vamos começar. Eu tenho esse caso de uso nos dados do projeto que eu enviei, clique em ASD, é claro, ele leva você a este lugar. Agora, primeiro vou te ensinar como fazer estatísticas descritivas usando o Microsoft Excel. Vou clicar em análise de dados na guia Dados. Vou procurar estatísticas descritivas. Clique em, ok. Meu intervalo de entrada é daqui até a parte inferior. Eu selecionei. Meus dados são agrupados por colunas. O rótulo está presente na primeira linha. E eu quero que meu resultado vá para uma nova pasta de trabalho. Quero estatísticas resumidas e quero meu nível de confiança. Eu clico em OK. O Excel está fazendo alguns cálculos e preparando-os para isso. Sim. Aqui está minha saída. Eu clico no primeiro aqui para ver qual é a saída. Assim, você pode ver que você é média, modo mediano, desvio padrão, curtose, distorção, alcance, mínimo, máximo, soma, contagem, nível de confiança. Todas essas coisas são facilmente calculadas com o clique de um botão. Não preciso escrever tantas fórmulas. Agora, vamos voltar ao nosso conjunto de dados. Eu quero fazer o teste de hipóteses. Qual é a minha hipótese nula? Quando a hipótese nula é que o TDAH é igual a sete minutos. Hipótese alternativa. O TDAH não dura sete minutos. Há um valor alfa diferente que estou configurando como 5%. E com isso, vou realizar os testes que vou conectar é um teste t de uma amostra. Ao fazer um teste t de uma amostra usando o Microsoft Excel, você terá que seguir um pequeno truque. O truque é que vou inserir uma coluna aqui. E isso, eu vou chamá-lo de idiota. Porque o Microsoft Excel vem com a opção de teste t de duas amostras. Tenho HD da chamada em minutos e idiota, onde anotei em zeros, zeros. No entanto, a mediana média, tudo para 0 é sempre 0. Clique em análise de dados. Vou descer e direi teste t de duas amostras assumindo a mesma variância. Vou selecionar isso. Vou clicar em, Ok. Meu intervalo de entrada, um é essa linha. Meu alcance de entrada através deste manequim. Minha diferença média hipotética é de sete minutos. O rótulo está presente em ambos os valores Alpha definidos como cinco por cento. E estou dizendo que meu resultado precisa estar em uma nova pasta de trabalho. Eu clico em Ok, ele está fazendo o cálculo e me dando a saída. Você pode ver que os números foram transmitidos como uma prática Basta clicar no carma na seção Formato para que os números fiquem visíveis. Estou mudando a visualização porque o dummy não tem nenhum dado. Estou livre para excluir esta coluna. Agora vamos entender o que sempre procuramos? Procuramos esse valor, o valor p. Você se lembra da fórmula? Deixe-me pegar minhas fórmulas aqui. Sim. Qual é a conclusão? A conclusão é P alto. Eu não rejeito a hipótese nula. A conclusão do TDAH da ligação é de sete meses. Estou rejeitando a hipótese alternativa porque meu valor de p está além de 0,05. Vou abordar mais exemplos nas lições a seguir. Então, estou ansioso para que você continue esta série. Se você tiver alguma dúvida, solicitaria que você colocasse suas perguntas na seção de discussão abaixo e ficarei feliz em respondê-las. Obrigada 36. Análise de correlação: Bem-vindo à próxima lição de nossa fase analisada no ciclo de vida do DMac de um projeto Lean Six Sigma Às vezes, entramos em uma situação que gostaríamos de fazer uma análise de correlação Por isso, pensei que hoje deveria mergulhar você profundamente no que é correlação Qual é a diferença entre correlação e Como faço para interpretar correlação quando vejo o gráfico de dispersão Que nível de significância posso definir ao fazer meu teste de hipóteses? Correlação de Pearson, correlação de Spearman, correlação serial ponto b e como fazer esses cálculos online usando Então, vamos começar. Então, o que exatamente é análise de correlação? análise de correlação é uma técnica estatística que fornece informações sobre a relação entre as variáveis análise de correlação pode ser calculada para investigar a relação das variáveis, quão forte a correlação é determinada pelo coeficiente de correlação, que é representado pela letra numérica r, que varia de menos análise de correlação pode , portanto, ser usada para fazer afirmações sobre a força e a direção da correlação Por exemplo, você deseja descobrir se existe uma correlação entre a idade em que uma criança fala sua primeira frase e o sucesso posterior na escola Em seguida, você pode usar a análise de correlação. Agora, sempre que trabalhamos com correlação, há um desafio Às vezes nos confundimos com coisas que são um problema. exemplo, se a análise de correlação mostra que duas características estão relacionadas entre si, pode-se verificar substancialmente se uma variável pode ser usada para prever as outras Se a correlação mencionada no exemplo for confirmada, por exemplo, pode-se verificar se o sucesso escolar pode ser previsto pela idade em que a criança fala sua primeira frase, isso significa que existe uma equação de regressão linear Eu tenho um vídeo separado explicar o que é uma regação linear Mas cuidado, a correlação não precisa ter uma relação causal Isso significa que qualquer correlação que possa ser descoberta deve, portanto, ser investigada mais de perto pelo especialista no assunto, mas nunca interpretada imediatamente em termos de conteúdo, mesmo que seja muito óbvio Vamos ver alguns exemplos de correlação e causalidade Se a correlação entre o valor das vendas e o preço for analisada, há uma forte correlação Seria lógico supor que o valor das vendas influenciado pelo preço e não pela pessoa sábia. O preço não acontece ao contrário. Essa suposição, no entanto, não pode ser comprovada com base em uma análise de correlação Além disso, pode acontecer que a correlação entre as variáveis x e y seja gerada pela variável Portanto, abordaremos isso em correlação parcial com mais detalhes No entanto, dependendo de qual variável pode ser usada, você pode ser capaz de falar sobre uma relação causal desde o início Vejamos um exemplo se houver uma correlação entre o H e o salário É claro que a idade influencia o salário, não o contrário. O salário não influencia a idade. Então, só porque minha idade está aumentando, ou só porque eu tenho um salário maior não significa que vou ficar velho. Caso contrário, todos gostariam de ganhar o mínimo de salário possível. Isso é só amor. Interprete a correlação. Com a ajuda da análise de correlação, duas afirmações podem ser feitas Um sobre a direção da correlação e outro sobre a força relação linear das duas métricas ou das variáveis de escala ordinária A direção indica se a correlação é positiva ou negativa Se a força determina se a correlação entre a variável é forte ou fraca Então, quando eu digo que existe uma correlação positiva entre nós estamos tentando dizer que os valores maiores da variável x são acompanhados pelos maiores valores da variável y e não o contrário A altura e o tamanho do sapato, por exemplo, estão correlacionados positivamente O coeficiente de correlação é de 0-1. Ou seja, é um valor positivo. A correlação negativa, por outro lado existe se um valor maior da variável x for acompanhado pelo menor valor da variável y e vice-versa O preço do produto e a quantidade de vendas geralmente têm uma correlação negativa Quanto mais caro for um produto , menor será a quantidade de vendas. Nesse caso, o coeficiente de correlação estará entre menos um e zero, supondo que seja Então, isso resulta em um negativo. Como determino a força da correlação? Com relação à força do coeficiente de correlação r, a tabela a seguir pode funcionar como um guia Se seu valor estiver entre 0,0 e 0,1 , podemos dizer claramente que não há correlação Se o valor estiver entre 0,1 e 0,3, dizemos que há uma pequena ou pequena correlação ou uma correlação Se o valor estiver entre 0,32 0,5, correlação média, se o valor estiver entre 0,5 0,7, dizemos que há uma correlação alta ou uma correlação forte, e se o valor estiver entre 0,7 a um, dizemos que é uma correlação e se o valor estiver entre 0,7 a um, dizemos que é uma dizemos que é uma No final deste módulo, mostrarei como calcular o cátion de correlação diretamente em uma ferramenta on-line Então, vamos mais longe. Ao fazer isso on-line, uma das ferramentas que usamos para analisar a correlação é um gráfico de dispersão, pois tanto o x quanto o y são tipos de dados variáveis ou tipos de dados métricos, como você os chama importante quanto considerar que o coeficiente de correlação é um gráfico de forma gráfica, podemos usar um Assim, quanto à idade, o eixo x sempre terá a variável de entrada, e o eixo y terá a variável de saída porque y é igual à função de x. E eu posso ver que, à medida que minha idade aumenta, meus salários aumentam O gráfico de dispersão fornece uma estimativa aproximada se há uma correlação, se há uma correlação linear ou não linear e se há alguma discrepância e se há alguma Quando fazemos a correlação, talvez também queiramos fazer nosso teste de hipóteses, testar a correlação quanto à significância Se houver uma correlação na amostra, ainda é necessário testar se há evidências suficientes de que a correlação também existe na população Assim, surge a questão quando o cópion de correlação é considerado estatisticamente significativo A significância da substância de correlação pode ser testada usando o teste t. Como regra, é testado se o coente de correlação é significativamente diferente Ou seja, uma dependência linear é testada. Nesse caso, a hipótese nula é que não há correlação entre as variáveis em estudo Em contraste, a hipótese alternativa pressupõe que há uma correlação Como em qualquer outro teste de hipóteses, o nível de significância é primeiro estabelecido em 5%. O valor Alfa é definido em 5%. Isso significa que eu deveria ter 95% de confiança na análise que estou fazendo. Se o valor p calculado estiver abaixo de 5%, a hipótese nula é rejeitada e a hipótese alternativa se aplica Se o valor de p estiver abaixo de 5%, ele assume que existe uma relação entre x e o. A fórmula do teste t que usamos para testar hipóteses é r em abaixo da raiz de n menos dois dividida por abaixo da raiz de um menos r quadrado. Onde n é o tamanho da amostra, r r é a correlação determinada da amostra e o valor p correspondente pode ser facilmente calculado na calculadora de correlação Hipótese direcional e não direcional. Com a análise de correlação pode ser testada para hipóteses direcional ou não direcional O que queremos dizer com hipótese de correlação não direcional Você só está interessado em saber se existe uma relação ou uma correlação entre duas variáveis Por exemplo, se existe uma correlação entre idade e salário, mas você não está interessado na direção das relações Quando você está fazendo uma hipótese de correlação direcional, você também está interessado na direção da Se há uma correlação positiva ou negativa entre as variáveis Sua hipótese alternativa é então um exemplo. A idade é influenciada positivamente no salário. O que você precisa prestar atenção é que, no caso de uma hipótese direcional, você seguirá a parte inferior do exemplo Então você vai dizer isso, existe uma influência positiva ou não? Então, normalmente, dizemos que não há correlação e há uma correlação Mas aqui diremos que não há correlação, e a hipótese alternativa dirá que há uma influência positiva na salada Então, agora vamos para a próxima parte. Essa é a análise de correlação de Pearson. Com a análise de correlação de Pearson, você obtém uma declaração sobre a correlação linear entre as variáveis da escala métrica A respectiva covariância é usada para o cálculo. A covariância fornece um valor positivo se houver uma correlação positiva entre as variáveis e um valor negativo se houver uma correlação negativa A covariância é calculada como COV ou covariância de X é calculada usando a fórmula fornecida na tela Não se preocupe. Não precisamos calculá-lo manualmente. Então, temos sistemas e ferramentas que podem fazer essa análise para nós. No entanto, a covariância não é padronizada e pode assumir valores entre mais e Isso dificulta a comparação da força da relação entre as variáveis Por esse motivo, o coeficiente de correlação também é uma correlação de movimento do produto E isso é calculado de uma maneira diferente. O coente de correlação é obtido pela normalização Para essa normalização, a variância das duas variáveis é calculada conforme dada O coente de correlação de Pearson agora pode assumir valores de menos um a mais um e pode ser interpretado O valor de menos um significa que há uma relação linear totalmente positiva, e quanto mais, menos um indica que existe uma relação totalmente negativa Quanto mais e menos. Com o valor zero, não há relação linear. A variável não se correlaciona com cada uma. A correlação de mais um será mais ou menos assim, o que só é possível em teoria correlação de 0,7 plus será mais ou menos assim, em que está no lado positivo e a maioria dos pontos está mais próxima eixo da luz de regressão Uma correlação de mais três será dispersa, mas está indo em uma direção positiva Quando você faz uma correlação, você tem uma correlação de -0,7, todas elas estão dispersas Assim, à medida que o valor de x aumenta, o valor de y diminui e a maioria dos pontos está e a maioria dos pontos espalhada pelo lado da regressão Obtemos o valor de correlação de zero de várias maneiras, ou os pontos estão completamente dispersos, ou você pode obter algumas linhas perfeitas como essa ou essa, o que, novamente, não seria, o que significa que você precisa fazer alguma outra análise para interpretar Agora, finalmente, a força do relacionamento pode ser interpretada e isso pode ser ilustrado pela história a seguir A força da correlação. Se for 0-0 0,1, não há correlação Se for 0,1 a 0,3, há uma pequena correlação 0,3 a 0,5 correlação média, 0,52 0,7, desculpe muito alta, alta correlação e 0,7 a um é uma Para verificar com antecedência se existe uma relação linear, gráficos de dispersão devem ser considerados Dessa forma, a respectiva relação entre as variáveis também pode ser verificada visualmente. A correlação de Pearson só é útil e objetiva se as relações de demor estiverem presentes A correlação de Pearson tem certos ems, que você deve ter em mente Para o PSM, sempre que você estiver usando isso, as variáveis devem ser distribuídas normalmente e deve haver uma relação linear entre as variáveis A distribuição normal pode ser testada analiticamente ou graficamente usando o gráfico QQ, que eu vou te ensinar como fazer Se as variáveis têm uma correlação linear, é melhor verificar com o gráfico de dispersão Se as condições não forem atendidas, correlação de Spearman pode ser usada Então, espero que você esteja claro até aqui e continuemos nosso aprendizado. Vamos continuar. O que fazemos quando meus dados não estão normais e eu quero estabelecer uma análise de correlação Nesse caso, usamos a correlação de classificação de Spearman. análise de correlação de classificação de Spearman é usada para calcular a relação entre duas variáveis que têm um nível ordinal Quando você tem dados variáveis, ou posso dizer dados contínuos, estamos usando a análise de correlação normal, como a análise de correção de Pearson Mas se meus dados forem ordinais ou não paramétricos, posso prosseguir com a análise de correlação de Spearman Portanto, esse procedimento é usado quando o pré-requisito da análise de correlação, ou seja, os procedimentos paraméticos não são atendidos ou quando não há dados métricos ou variáveis contínuas e os dados e os Nesse contexto, podemos chamá-la de correlação de Spearman ou linha de Spearman Significa a correlação de classificação de Spearman. A questão pode então ser tratada como se classificação de Spearman fosse semelhante à do coeficiente de correlação de Percy Exemplos. Existe uma correlação entre duas variáveis ou características Por exemplo, existe uma correlação entre idade e religiosidade na população da França O cálculo da correlação de classificação é baseado no sistema de classificação da série de dados Isso significa que as variáveis de medida de classificação não são usadas no cálculo, mas são transformadas em classificações. O teste é então realizado usando as classificações. Para o coeficiente de correlação de classificação, p, os valores entre menos um e um Se houver um valor menor que zero, p for menor que zero, há uma relação linear negativa. Se o valor for maior que zero, então há uma relação linear positiva. Se o valor for zero ou próximo de zero, como 0,1 a -0,1, podemos dizer que não há relação entre as variáveis Assim como no coeficiente de correlação de espareanos, força da correlação pode ser classificada da seguinte a força da correlação pode ser classificada da seguinte forma. Portanto, se for 0-0 0,1, não há correlação Se for 0,12 0,3, há uma pequena correlação Se houver 0,3 a 0,5, há uma retração média Há 0,5 0,7 alta correlação e 0,7 para um, correlação muito alta Se houver valores negativos, diremos correlação negativa menor, alta correlação negativa e assim por diante Existe outro tipo de correlação chamada esse ponto de correlação serial bi A correlação serial bi de pontos é usada quando uma das variáveis é dicotômica Exemplo, você estudou ou não estudou? A outra é uma variável métrica, como salário. Nesse caso, usamos uma correlação ponto por série. A correlação de um ponto por correlação serial é a mesma que a correlação de Pearson calculada Para calculá-lo, uma das duas expressões do valor dicotômico é codificada O outro é codificado como um. Análise de correlação calculada, mostraremos você usando o Excel ou outras ferramentas disponíveis gratuitamente Vou te mostrar o cálculo depois de algum tempo, mas vamos primeiro estudar o caso. Um aluno quer saber se há uma correlação entre altura e o peso dos participantes do curso de estatística Para tanto, o aluno extraiu uma amostra, que está distribuída abaixo. Então eu tenho as alturas das pessoas, eu tenho os pesos das pessoas Para analisar a relação linear por meio da análise de correlação, você pode calcular a correlação usando o Excel ou outras ferramentas disponíveis on-line Primeiro, copie a tabela na calculadora estatística. Em seguida, clique em correlação e selecione-a. E, finalmente, você poderá obter as seguintes inserções. Então, vamos fazer isso online. Então, eu vim para data tab.net. É uma calculadora estatística online. Os dados aqui têm 100% de segurança de dados porque os cálculos são feitos no seu navegador e os dados são inseridos e armazenados nos cookies do seu navegador. Os dados são 100%, e é por isso que o cálculo funciona muito rápido. Portanto, os dados não precisam de um servidor grande e, portanto, de você. Então eu tenho o peso corporal, eu tenho o peso e eu tenho a idade. Então, eu quero entender. Então, se eu cair, tenho uma cortação. Quero entender se existe uma relação entre a altura corporal e o peso corporal. Que tipo de correlação eu quero? Vamos escolher Pearsons primeiro. Há uma correlação Há uma correlação positiva. O nível de significância é definido. 5% Podemos testar as suposições e ele está fazendo a análise imediatamente Está fazendo o gráfico do QQ para mim. Está desenhando o histograma e mostrando os resultados, certo Portanto, podemos dizer que sim, mais ou menos os dados são normalmente distribuídos. Posso copiar isso clicando em Baixar PNG e o arquivo será copiado. E você poderá ver isso dessa forma. Então, agora, deixe-me fechar esta tumba, para que ela tenha sido testada quanto às suposições No resumo em versos, o resultado da correlação de Pearson mostrou que há uma correlação positiva muito alta entre peso corporal, altura e peso Os resultados mostraram que a relação entre peso corporal, altura e peso é estatisticamente significativa com um valor r positivo. R é 0,86 e o valor p é 0,01. 001. Então, quando você olha para a força da correlação, se o valor for maior que 0,7 e um, dizemos que é uma correlação muito alta e é uma decoração positiva Quando faço o teste de hipóteses, não há correlação ou há uma correlação negativa entre a altura corporal e o peso Há uma correlação positiva entre a altura corporal e o peso Quantos casos temos dez casos. O valor r é 0,86 e o valor p é 0,001, que é menor que Portanto, rejeitamos a hipótese de que não há correlação, e a hipótese alternativa aplica que há uma correlação positiva entre a altura corporal e o A vantagem de estar no rascunho de dados é que você tem interpretação de IA. Esta tabela resume os resultados da análise da altura e peso corporal, mostrando o coeficiente de correlação r e o O valor do coeficiente de correlação indica a força e a direção da relação entre a variável altura e peso, e o valor do coeficiente é 0,86, sugere que há uma correlação positiva muito Isso significa que geralmente, à medida que a altura corporal aumenta, o peso também tende a aumentar e vice-versa. O valor P. O valor p aqui assume que os dados disponíveis fornecem evidências suficientes para rejeitar a hipótese nula Nesse caso, a hipótese unilateral testada e a hipótese nula afirmam que há nenhuma correlação ou correlação negativa entre a altura e o peso na população Na maioria dos casos, o valor de p é menor que 0,05, consideramos que há uma significância estatística No nosso caso, o valor de p é 0,001, o que obviamente é menor que 0,5 A hipótese nula é rejeitada, e o resultado da correlação de Pearson mostra que há uma significância estatística da correlação positiva entre a altura corporal e o Portanto, o resultado da correlação de Pearson mostra que há uma correlação muito positiva entre altura e peso, e isso é armazenado pela correlação e isso é armazenado pela positiva estatisticamente significativa do valor r como 0,86 e o valor P é 0,05 Agora, há um gráfico de dispersão que está sendo feito automaticamente Posso clicar aqui e obter minha linha de regressão. Eu posso mudar meu eixo se eu não quiser começar do zero Eu quero uma linha zero Então, o zero está incluído, mas eu não o quero. Eu posso mudar isso. Como quero minha imagem, o PDM extra grande e assim por diante Posso clicar em Baixar TNG para baixar esta imagem. Agora, como eu disse, também podemos fazer o cálculo da covariância. Então, quando estou analisando a altura e o peso corporal, a covariância é 1,29, certo Então isso significa que existe um relacionamento. Então é assim que você está fazendo o cálculo. Agora, para uma calculadora serial ponto a ponto, podemos ter um tipo diferente podemos ter um tipo diferente de dados em que queremos analisar se a mudança no salário tem algo a ver com o gênero. Nesse caso, eu selecionaria o valor métrico como salário e a variável nominal como sexo e, em seguida, farei meu cálculo. Isso definiria o homem como zero e a mulher como um. Box plot, que indica que sim, os homens tendem a ter um salário maior quando comparados às mulheres. Então, quando um aluno quer saber se há uma correlação entre s elevados, fizemos essa análise A hipótese, se você puder optar por uma hipótese normal, não há correlação entre a altura corporal e o peso Há uma associação entre altura e peso, mas eu tinha adotado uma hipótese direcional em meu teste O valor P é esse, e vimos como podemos gerar a saída. Primeiro, você obterá a hipótese nula e alternativa. A hipótese nula afirma que não há correlação entre altura e peso, e então temos a hipótese alternativa que impede o oposto. Se você clicar em pássaros submarinos, obterá a interpretação que acabamos de ver Podemos prosseguir e, na verdade, testamos a hipótese de correlação direcional ou unilateral E no Excel, existem outras ferramentas que podem ajudá-lo a calcular. Então, acabamos de fazer o teste, dizendo que não há correlação ou correlação negativa entre a geração corporal e que há uma correlação positiva entre a altura corporal E quando vimos, percebemos que, sim, há uma correlação positiva muito forte e, portanto, o valor de p foi menor que 0,01 Nesse caso, você deve primeiro verificar se a correlação está em todas as direções da hipótese alternativa, ou seja, a altura e o peso estão positivamente correlacionados e, nesse caso, o valor p é dividido Portanto, apenas a distribuição unilateral é considerada. No entanto, essa ferramenta cuida dessas duas etapas e o resumo em verso é fornecido como vimos. Afirmamos que há uma correlação positiva entre a altura e o peso do conjunto de dados na amostra Portanto, podemos dizer que há uma significância positivamente correlacionada, e podemos ver que há uma correlação muito positiva entre as variáveis de Assim, há uma correlação positiva muito alta entre a altura da amostra e o pt Com isso, encerraremos nossa análise de correlação e nos vemos na próxima aula 37. Conceito de análise de correlação de Pearsons: Vamos continuar nossa jornada de correlação. Eu vou falar sobre a correlação de Pearson hoje. análise de correlação de Pearson é um exame da relação entre duas variáveis Por exemplo, é uma correlação entre a idade e o salário de uma pessoa Ambas são variáveis contínuas e, portanto, o diagrama será disperso Então, à medida que a idade da pessoa aumenta, o salário aumenta? Agora, você precisa lembrar que y é uma função de x, então seu eixo y terá o resultado e o eixo x terá a variável independente. Mais especificamente, podemos usar o coeficiente de correlação de Pearson para medir a relação linear entre Se a relação não for linear, essa equação de correlação não será de jeito nenhum Eu acho que você teria observado que eu mudei meu AR para esta gravação. Se você gostou, basta colocar um polegar para cima na seção de comentários Vamos continuar, a força e a direção da correlação Com a análise de correlação, podemos determinar o quão forte é a relação e em que direção a correlação vai Podemos ler a força e a direção da correlação na letra r do coeficiente de correlação de Pearson, cujo valor varia de menos A força da correlação, a força da correlação, pode ser lida na tabela O valor de r está entre zero menos um indica que não há correlação Se a quantidade do valor de r estiver entre 0,7 a um, é uma correlação muito forte e altamente correlacionada Agora, se os valores forem positivos, correlacionados positivamente e, se os valores forem negativos, negativamente Então, digamos que o valor r saia como -0,66. Então, podemos dizer que está altamente correlacionado negativamente. Então, isso eu retirei do livro de estatísticas. Vamos contê-lo. O que você quer dizer com a direção da correlação? Uma correlação positiva é uma correlação existe quando grandes valores de uma variável estão associados a grandes valores de outra variável ou quando uma pequena mudança em uma variável está associada a uma pequena mudança na outra Então, se for uma correlação positiva, se houver um valor maior no eixo x, isso corresponde a um valor maior no eixo y. E um valor menor no eixo x correlaciona com um valor menor no eixo y, como você pode ver nessas duas imagens Uma correlação positiva resulta em exemplos de altura e tamanho do calçado Isso resulta em uma correlação positiva. Assim, à medida que a altura da pessoa aumenta, o tamanho do sapato também aumenta. O resultado é um coeficiente de correlação positiva e r é maior e r é Agora, você viu que há um erro neste gráfico? O erro é que o tamanho do sapato é o resultado, e a altura é a variável independente, mas nós a mapeamos arbitrariamente de forma errada para evitá-la Então, deixe-me colocar meus comentários aqui. O que há de errado no gráfico de pow? A questão é: o aumento do tamanho do show tem efeito ou resulta no aumento da altura da pessoa ou o aumento da altura da pessoa serve para aumentar o tamanho do sapato. Por favor, escreva na seção dez abaixo. Sim Lembre-se, y é uma função de x. E aqui, y é a altura da pessoa e x é meu erro. X é a altura da pessoa e y é o tamanho do so. Espero que agora esteja claro o que estamos tentando dizer. Então y é uma função de x. Deixe-me transformar a letra em um pequeno y porque esse é o projeto y. X é a altura da pessoa. Então, aqui, o erro é que mostramos isso da maneira errada. A correlação negativa ocorre quando um valor grande em uma variável está associado um valor pequeno na outra variável e vice-versa. Portanto, se o eixo y for grande, o valor do eixo x será pequeno. E se o valor do eixo x for grande, o valor do eixo y será pequeno. Isso é chamado de correlação negativa. Os pontos estão fluindo. Ao contrário do anterior onde os pontos estavam fluindo Agora, a correlação negativa é encontrada entre o tamanho do produto e o valor das vendas Isso resulta em um cátion de correlação negativa. O que acontece quando o preço aumenta, o volume de vendas diminui. E se o preço for reduzido, as pessoas tendem a comprar mais volume. Resultando em mais vendas. Deixe-me escrever que faça aumentos. Muito bom Portanto, o resultado é uma correlação negativa, o valor da coesão de r é Quanto mais forte for a correlação, o valor se aproxima de menos E aqui o gráfico está correto. À medida que o preço aumenta, os volumes diminuem Agora, como calculamos o cliente de correlação de Pearson? Isso é uma coisa muito importante, certo? O índice de correlação de Pearson é calculado usando a equação calculado usando Aqui, r é o cliente de correlação de Pearson. X i é o valor individual de uma variável. Por exemplo, pode ser a idade da pessoa. A barra X é a idade média do conjunto de dados da amostra. Y um é o valor individual da outra variável ou da variável de resultado, e a barra Y nada mais é o salário médio do conjunto de dados da amostra Então, aqui, a barra x e a barra y são o valor médio de duas variáveis, respectivamente. Isso é todo dividido pela raiz inferior de x um menos x barra quadrada, y um menos y barra inteira Então, quando eu estiver quadrando e fazendo uma raiz inferior, tudo será resolvido Então, x um são os valores individuais e y um são os valores individuais da variável de resultado. R é a correlação de Pearson e o valor médio. Nessa equação, podemos ver que os respectivos valores médios da primeira são subtraídos da outra variável Em nosso exemplo, calculamos esse valor principal de idade e salário. Em seguida, subtraímos o valor principal de cada idade e salário em relação à média Em seguida, multiplicamos os dois valores. Em seguida, somamos os resultados individuais da multiplicação. A expiração do denominador garante que o coeficiente de correlação sempre varie entre menos um e mais um Lembre-se de que você não precisa calcular nada manualmente. Atualmente, temos esses recursos disponíveis no Excel e em vários sites online. Se você quiser vários dois valores positivos, obteremos um valor positivo. E se multiplicarmos dois valores negativos, também obteremos um valor positivo menos em menos Portanto, todos os valores que estão nessa faixa têm uma influência positiva no coeião de correlação À medida que a idade aumenta, o salário aumenta; à medida que a idade diminui, os salários diminuem Se multiplicarmos o valor positivo por um valor negativo, obteremos um valor negativo que é menos para mais é O tempo todo, há uma série de influências negativas no coeion de correlação Portanto, as coisas que estão destacadas na caixa roxa, se os dados estiverem caindo lá, isso resultará em uma correlação negativa Portanto, se nosso valor for predominantemente duas áreas verdes das duas figuras anteriores Obtemos um coeficiente de correlação positivo e, portanto, e, portanto, Se nossas pontuações estiverem predominantemente na área vermelha das figuras, obtemos um coeficiente de correlação negativo e, portanto, temos uma Se os pontos forem distribuídos por todas as quatro áreas, termos positivos e termos negativos, eles se anulam e podemos acabar com muito pequena ou nenhuma correlação Então, essa é uma parte muito importante, que você precisa entender. Certo? Se os pontos forem distribuídos globalmente , não resultaremos em nenhuma correlação Agora, como testar a correlação e o coeficiente são significativos Em geral, o coeficiente de correlação é calculado usando dados de uma amostra Na maioria dos casos, entretanto, queremos testar a hipótese sobre a população. Como não podemos estudar a população, fazemos uma amostragem, pegamos uma amostra e, ao estudar a amostra, queremos fazer inferências sobre a Nesse caso, na análise de correlação, queremos então saber se há uma correlação na população Para isso, testamos se o coeficiente de correlação na amostra é estatisticamente significativo e Agora, como fazemos testes de hipóteses? Para a correlação de Pearson? A hipótese nula e a hipótese alternativa para as correlações de Pearson A hipótese nula diz que não há correlação e, portanto, o valor R não é significativamente diferente de zero Não há relacionamento. A hipótese alternativa diz que há uma diferença significativa ou há uma correlação linear dos dados Atenção Sempre testamos se a hipótese nula é rejeitada ou não Isso é muito, muito importante. Nunca aceitamos ou nunca trabalhamos da mesma forma que eu. O fato é que sempre trabalhamos para provar ou rejeitar a hipótese nula Nunca tentamos provar a alternativa, embora nossa pesquisa comece porque existe uma alternativa. Em nosso exemplo, quando se do salário e da idade da pessoa, poderíamos, assim, dizer a pergunta. Existe uma correlação entre idade e salário para a população alemã Para descobrir, extraímos uma amostra e testamos se o coeficiente de correlação é significativamente diferente de zero nessa A hipótese nula é não há correlação entre salário e idade na população alemã A hipótese alternativa é que existe uma correlação entre o salário e a idade na população alemã Significância e o teste. Quando o teste de coeficiente de correlação de Pearson é significativamente diferente da pesquisa de amostra com base zero, nós o testamos usando a fórmula do teste Aqui, r é o coeficiente de correlação e n é o tamanho e n é Novamente, eu diria que é bom conhecer a fórmula, mas não se perder nela. Certo? Um valor P pode ser calculado a partir da estatística de teste t, e o valor p é menor do que o nível de significância especificado, que geralmente é 5%, então a hipótese nula é rejeitada, caso contrário, não Portanto, queremos garantir que o valor de p seja, se for maior que 0,05, falhamos em rejeitar a hipótese nula Se o valor de p for maior que 0,05, falhamos em rejeitar a hipótese nula Agora, quais são algumas suposições que existem na correlação de Pearson E quanto às suposições da correlação de Pearson? Aqui temos que distinguir se queremos calcular o coiente de correlação de Pearson ou se queremos testar Para calcular o coeião de correlação de Pearson, apenas duas variáveis métricas estão presentes Variáveis métricas, por exemplo, podem ser peso da pessoa, salário, consumo elétrico, etc. Resumindo, variável contínua. O cliente de correlação de Pearson então nos diz o quão grande é a relação linear, e existe uma Não podemos ler a coião de correlação de Pearson. Portanto, essa é uma correlação linear, e se seus dados forem executados ou aparecerem assim, tendemos a seguir em frente Então, neste caso, não há correlação No entanto, se quisermos testar se o coeficiente de correlação de Pearson é significativamente diferente de zero na amostra, queremos testar a hipótese de que as duas variáveis também estão normalmente Porque você não pode testar a correlação de Pearson para dados não normais Nesse caso, se as estatísticas de teste calculadas t e o valor p não puderem ser interpretados de forma confiável Se a suposição não for feita, correlação de classificação de Pearson será usada Isso significa que, para dados não normais, vou usar a correlação de classificação de Pearson Como faço para calcular a correlação de Pearson online usando o Excel e outras ferramentas? Eu vou mostrá-lo para você em breve. 38. Correlação bisserial de pontos: Vamos agora aprender sobre a correlação serial de pontos bi. Vou abordar a teoria e o exemplo e como podemos fazer isso na prática com uma calculadora on-line. Fique conectado. O que exatamente é correlação serial de ponto bi? Você já ouviu falar sobre isso antes ou seu rosto ficou mais ou menos assim? Ouvimos falar principalmente regressão linear, regressão logística Quando aprendemos sobre correlação, pensamos em correlação simples, correlação positiva, correlação negativa E sempre que estamos fazendo correlação, estamos pensando apenas em variáveis, variáveis contínuas no eixo x e no eixo y. Então, vamos entender o que é correlação ponto por série. É um caso especial de correlação de Pearson e examina a relação entre uma variável dicotômica e uma variável métrica OK. A regra para correlação é que ambas as variáveis devem ser contínuas ou métricas Mas usando a correlação serial ponto a ponto, posso até mesmo verificar se há variáveis dicotímicas, que podem ser Vamos entender o exemplo da variável dicotônica. Uma variável dicotímica é uma variável com dois valores, sexo, como masculino e feminino, e status de tabagismo, como fumante, não fumante As variáveis métricas, por outro lado, são o peso da pessoa, o salário da pessoa, o consumo de eletricidade e assim por diante. Então, se tivermos uma variável dicotômica e uma variável métrica, queremos saber se há Podemos usar a correlação ponto por série. Então, vamos entender a definição disso. correlação ponto a serial é um tipo especial de correlação e examina a relação entre dicotítica e uma variável métrica dicotônicas são variáveis com dois valores, e variáveis métricas são variáveis contínuas com valores infinitos, como altura, peso, salário, consumo de energia, etc Como exatamente a correlação ponto por série é calculada Ele usa o conceito de correlação de Pearson, mas na correlação de Pearson, também temos uma variável de natureza nominal Por exemplo, digamos que você esteja interessado em investigar a relação entre o número de horas estudadas em um teste e os resultados, ou seja, a pessoa foi aprovada ou reprovada Então, aqui eu posso ver quantas horas a pessoa passou estudando e isso resultou em aprovação ou reprovação? Coletamos dados para a amostra de 20 estudantes. 12 estudantes foram aprovados, oito alunos falharam. Registramos o número de horas de cada um dos alunos que estudaram no teste e atribuímos uma pontuação de um ao aluno que passou no teste e zero ao aluno que falhou no teste. Agora, podemos calcular a correlação de Pearson entre o tempo e os resultados do teste ou podemos usar equação para a correlação ponto por CDN Agora podemos calcular a correlação de tempo de Pearson e os resultados do teste com a Agora, aqui, x y é o valor médio das pessoas que falharam, e X um é o valor médio das pessoas que faleceram. N representa o número total de observações. Nenhum representa o número de pessoas que faleceram, n dois representa o número de pessoas que falharam. Assim como o conteúdo de correlação de Pearson, r, correlação serial ponto a ponto é rp B também varia entre menos Com a ajuda do cefent, podemos determinar duas coisas É o quão forte é o relacionamento. É uma correlação positiva? É uma correlação positiva fraca e em que direção a correlação vai É uma correlação positiva ou negativa A força da correlação pode ser lida na tabela. Se o valor estiver entre 0,0 e menor que 0,1, não há correlação Se o valor estiver entre 0,1 a menos de 0,3, há baixa correlação O valor está entre 0,3 e 0,5, há uma correlação média 0,52 0,7 alta correlação 0,7 para um, correlação muito Se o valor estiver entre zero e menos um, chamamos isso de correlação negativa Se o coeficiente estiver entre menos um e menor que zero, é uma correlação negativa, portanto, existe uma relação negativa entre existe Se o valor estiver entre zero e mais um, é uma correlação positiva Assim, existe uma relação positiva entre a variável e, se o resultado for próximo de zero, dizemos que não há correlação O coeficiente de correlação geralmente é calculado com os dados retirados da amostra No entanto, muitas vezes queremos testar hipóteses sobre a população. Queremos testar uma hipótese sobre a população porque não podemos estudar a população, estamos usando uma tecnologia de amostragem Calculamos o percentual de correlação dos dados da amostra. Agora podemos testar se o coeficiente de correlação é significativamente diferente A hipótese nula diz que o coeficiente de correlação não difere Não há relacionamento. hipótese alternativa diz que a coesão da correlação difere significativamente de zero Existe um relacionamento. Então, quando calculamos a correlação ponto por série, obtemos o mesmo valor p que calculamos o teste t para amostra independente para os Então, se testarmos a hipótese de correlação com correlação serial ponto a ponto ou uma hipótese de diferença do teste t, obtemos o mesmo valor de p. E quanto às suposições que devemos considerar sempre que fazemos uma correlação ponto por série Aqui, devemos distinguir se queremos apenas calcular o coeficiente de correlação ou se também queremos testar a hipótese Para calcular o coente de correlação, apenas uma variável métrica e uma variável dicotômica devem estar presentes apenas uma variável métrica e uma variável dicotômica devem estar presentes. No entanto, se você quiser testar se o coeficiente de correlação é significativamente diferente de zero, uma variável métrica também deve ser Se isso não for fornecido, as estatísticas de teste calculadas ou o valor p não podem ser interpretados de forma confiável Podemos usar calculadoras on-line, como a guia Data, que pode ajudá-lo a fazer a análise e que abordarei agora Estamos em apuros de dados. Preenchi alguns dados em termos de número de resultados de nossos testes de estudo e converti zero e um em aprovação e reprovação em zero e um Posso importar meus dados usando esse botão e posso limpar a tabela usando isso. Você tem configurações para decidir que tipo de configuração deseja usar para imagens. Agora vamos descer. Estou em correlação e tenho opções. Aqui, minha variável nominal é o resultado do teste. Minha variável métrica é nosso strded. Eu quero calcular as panelas e o convolu de Pearson. Por enquanto, vou mantê-lo como Pearsons. Minha variável nominal é o resultado do teste, assim que selecionei a variável nominal como resultado do teste, consegui identificar isso como uma correlação serial do ponto pi A hipótese diz que não há correlação entre nosso estudo e os resultados dos testes A hipótese alternativa diz que há uma associação entre o número de horas estudadas e os resultados do teste. A falha de correlação serial pontual está assumindo o valor de zero, Ps está assumindo o valor de um O valor de correlação ponto por série r é 0,31 graus de liberdade r 18 t é 0,14 valor p é 1,79 Eu tenho o boxplot aqui dizendo que meu boxplot para os alunos anteriores é assim 50% dos participantes estão estudando entre 8,5 a 19,25 horas, o que resultou em um passe As pessoas que falharam estão estudando de 7 a 13 horas, certo? Eu posso até mesmo fazer o download clicando no botão de download PNG. E você verá que eu sou capaz. Agora, como o cálculo funciona para a correlação serial do ponto b Se você calcular o ponto por correlação serial, escolha uma variável métrica e uma variável nominal com dois valores Antes de ir lá, deixe-me fazer um resumo em palavras. A correlação serial do ponto b foi executada para determinar a relação entre nossos estudos e os resultados dos testes Há uma correlação positiva entre nosso estudo e o resultado do teste, que não foi significativa, estatisticamente significativa porque o valor de p é maior que Se eu tivesse mais dados como esse, em que estou usando vários valores para determinar zero e um masculino e feminino, e então ele calculou. Então, diz: existe uma correlação entre o salário e o gênero E podemos ver claramente que sim, homens têm um salário significativamente maior quando comparados às mulheres. Mas se você ver o valor p, é muito próximo de 0,05, mas é 0,07 Portanto, deixamos de rejeitar a hipótese nula, dizendo que talvez seja por causa do erro de amostragem O 39. Regressão logística: Bem-vindo à próxima lição sobre regressão logística. Vamos entender o exemplo da teoria e como fazemos a interpretação. Quando usamos a regulamentação logística? Vamos dar um exemplo. Sempre que tivermos que verificar se é uma pessoa idosa que sofrerá de câncer, ou se é um homem ou uma mulher que está pegando mais doenças? É um fumante que está causando a doença? Quando quero verificar várias variáveis que podem infectar e me dizer se a doença é possível, qual é a probabilidade de ter uma doença Então, vamos nos aprofundar. O que exatamente é regressão? Uma análise de regressão é um método de modelagem da relação entre variáveis Isso possibilita inferir ou prever uma variável, se o cliente está feliz ou triste, com base em uma ou mais variáveis Então, estou tentando verificar se isso é possível, com base na qualificação da pessoa, no tempo necessário ou na idade. Qual é o fator que está afetando isso? A variável que queremos inferir ou prever é chamada variável dependente ou critério, e as variáveis que usamos para predição são chamadas de variáveis predição são chamadas independentes ou Qual é a diferença entre regressão linear e regulação logística Em uma regulação linear, a variável dependente é uma variável métrica. Exemplo, salário, eletricidade, consumo, etc. Isso significa que é uma variável contínua. Em uma regressão logística, a variável dependente é uma variável dicotômica O que é uma variável dicotônica ? Isso significa que a variável tem apenas dois valores. Por exemplo, se uma pessoa comprará ou não um determinado produto, ou se uma doença está presente ou não. Como a regulamentação logística pode ser usada? Com a ajuda da regulação logística, podemos determinar o que influencia presença ou não de uma determinada doença Poderíamos estudar a influência da idade, sexo e tabagismo nessa doença em particular? Nesse caso, zero significa não doente e um significa doente A probabilidade de ocorrência de uma doença ou uma característica significa que as características presentes são estimadas. Nosso site de dados encontrado é mais ou menos assim, onde minhas variáveis independentes podem ser sexo, status de tabagismo, e minha variável dependente pode ser uma variável composta de zeros e uns. Agora poderíamos investigar o que influencia a variável independente e fazer com que a doença tenha o efeito sobre a doença. Se houver uma influência, podemos prever a probabilidade uma pessoa ter uma determinada doença. Agora, é claro, surge a pergunta. Por que precisamos de regulamentação logística neste caso? Por que a recreação linear não funciona? Então, vamos fazer uma rápida recapitulação do que aconteceu na regressão linear Vamos fazer uma rápida recapitulação do que é regulação linear. Na regressão linear, essa é nossa equação de regressão. Y é ir para b1x1 mais b2x2 mais b3x3 , e assim por diante. B e xn mais c. Temos a variável dependente y, e temos variáveis independentes como x um, x 2x3tx E temos a coesão de regressão, b um, b2bt Bn b um, b2bt Bn Agora, no entanto, quando você olha para essa variável, a variável dependente é feita com zero ou um. E, portanto, sua saída será mais ou menos assim. Você tem muitos pontos na linha zero e muitos pontos em uma linha, mas não tem dados Não importa quanto valor você tenha, a variável independente pode contribuir para tornar a variável 0-1 Os resultados são sempre zero ou um. Em uma equação de regressão, precisamos simplesmente colocar uma linha reta nos pontos e vemos que há muitos erros Agora podemos ver que, no caso de uma regressão linear, valores entre mais e menos o infinito E, portanto, essa fórmula não funciona. Qual é a solução? No entanto, o objetivo da regressão logística é estimar a probabilidade de ocorrência O intervalo de valores da previsão deve, portanto, ser 0-1. E, portanto, queremos uma linha que caiba nessa linha e não uma diagonal como essa. Portanto, precisamos de uma função que só tenha valores entre os resultados em um valor zero e um. É exatamente isso que acontece com a função logística. Não importa onde você esteja no eixo x, você será; seu eixo y resultará em zero ou um. Entre o menos e o infinito positivo, os únicos resultados são E é exatamente isso que queremos. A equação da decoração logística será mais ou menos assim A função logística agora é usada na recreação logística Então, vamos detalhar a fórmula de recreação linear mais uma vez Um mais y é qu para b1x1 mais b2x2 mais t b x, e assim por diante. Essa equação agora será inserida na função. Quando você faz isso, é e elevado à potência de menos sua maior equação de recreação linear, 1/1 mais e à potência da equação 1/1 mais e à potência da Assim, a probabilidade da variável dependente é dada por isso. Como isso se parece em nosso exemplo? Qual é a probabilidade de uma determinada doença? P é disa. Qual é a probabilidade a pessoa estar doente igual a 1/1 mais e bar menos B um em H, B dois em sexo, P três em fumante mais É uma função do sexo e do status de tabagismo. Para Z, a equação da equação linear agora é simplesmente inserida. E quando você faz isso, descobrimos que a probabilidade de uma variável dependente é uma, dado esse exemplo. Em nosso exemplo, a probabilidade de contrair uma determinada doença com base no parâmetro de sexo e status de tabagismo. Como isso se parece em nosso exemplo? E elevado a menos B um, B dois, B três, são todos os coeficientes de determinação para que o modelo se ajuste melhor aos dados fornecidos Para resolver esse problema, chamamos isso de método de máxima iluminação Para isso, existem bons métodos numéricos para resolver o problema de forma eficiente Mas como você interpreta os resultados de uma regulamentação logística Vamos dar uma olhada no número de fixitios. Seu sexo, status de tabagismo e doença. 22 mulheres não fumantes e estão doentes, 25 mulheres fumantes estão doentes, 18 homens fumantes não estão doentes, 25 mulheres fumantes estão doentes, 18 homens fumantes não estão doentes, assim por diante. Quando colocamos isso em uma calculadora estatística on-line, vamos para a regressão e selecionamos quais são minhas variáveis dependentes e quais são minhas variáveis independentes? O que é mais uma previsão de doença ou não doença, e assim por diante E quando clicarmos nele, ele executará a equação de recreação para nós Então, queremos calcular a recreação logística, então teremos que clicar na guia recreação Em seguida, copiamos nossos dados para lá e as variáveis são mostradas aqui embaixo. Dependendo de como suas variáveis dependentes são usadas, calculadoras estatísticas on-line, como guia Dados, calcularão a recreação logística ou a recreação linear na guia Recreação Escolhemos doente como variável dependente A o sexo e o status de tabagismo como variável independente Agora, a calculadora fará a equação de regressão logística para nós Agora, examine toda a tabela lentamente e entenda, e vamos começar do topo. Se você não sabe como interpretar os resultados, existe um padrão chamado resumo em verso. Você pode copiá-lo no Word, copiar os resultados no Excel e também copiar a tabela de classificação. Então, vamos começar. A primeira coisa que aparece na tabela de resultados são os resultados, onde dizemos que o número total de casos é de 36 pessoas que foram examinadas. 26 foram estimados corretamente e isso representa 72,22 por cento em porcentagem Com a ajuda do cálculo, modelo de regressão, 26 dos 36% foram atribuídos corretamente Isso é 72%. Agora vamos para a tabela de classificação abaixo. Você tem a opção de exportá-lo para Word e Excel. Aqui você pode ver com que frequência as categorias não doentes e doenças são observadas e com que frequência elas são previstas Então, os valores observados são 11, cinco , cinco, 15, e as categorias previstas são assim. Portanto, podemos dizer que eles fizeram um meio de predição correto. Na realidade, a pessoa não está doente e o modelo também previu que ela não está doente Na realidade, a pessoa faleceu e o modelo previu a Ambos são positivos. Verdadeiro positivo e verdadeiro negativo. Mas temos um conceito chamado falso negativo e falso positivo. Na realidade, a pessoa não está doente, mas a modelo diz que está doente Portanto, esse é um caso de falso positivo, o que é normal porque você definitivamente pode optar pela segunda opinião e a pessoa é cuidadosa. A preocupação é com o falso negativo. Na verdade, a pessoa está doente, mas meu modelo não é capaz de prever isso Portanto, esses cinco pacientes perderão o tratamento se não fizerem o diagnóstico atual. No total, não são observadas doenças 16 11 mais 516. Desses 16, o modelo recreativo pontuou corretamente 11 como não doente e armazenou incorretamente cinco Dos 20 indivíduos doentes, 15 foram pontuados corretamente como doença, Pi foram pontuados incorretamente. Observe que, para decidir se uma pessoa está doente ou não, um limite Se a probabilidade for maior que 50%, estamos marcando como doente Como a probabilidade é menor que 50%, nós a marcamos como não diminuída Portanto, se o modelo de regressão estimar mais de 50%, a pessoa é designada como morta, caso contrário, não falecida Vamos fazer o teste do qui-quadrado. Temos um vídeo detalhado sobre o quadrado chi. O valor do quiquadrado é 8,79 graus de liberdade três e o valor p é 0,32 Se P for baixo, nulo. Vamos entrar no teste de hipóteses. Aqui podemos ler se o modelo em geral é significativo ou não. A resposta é sim. Agora vamos ver. Há dois modelos a serem comparados. Em um modelo, todas as variáveis independentes são usadas. No outro modelo, poucas variáveis independentes são usadas. Com a ajuda do teste do qui-quadrado, comparamos o quão boa é a previsão quando as variáveis dependentes são usadas e quão boa é quando as variáveis dependentes não são usadas. E o teste t do qui-quadrado nos diz se há uma diferença significativa entre os dois resultados A hipótese nula é que os dois modelos são iguais. O valor de p é menor que 0,05. Isso significa que a hipótese nula é rejeitada. Portanto, quando a hipótese nula é rejeitada, assumimos que há uma diferença significativa entre os modelos Assim, o modelo como um todo é significativo. Em seguida, vem o resumo do modelo. Nesta tabela, você verá uma mão com menos dois valores logarítmicos de verossimilhança e, por outro lado, você tem um coeficiente de determinação r valor e, por outro lado, quadrado diferente quadrado O resumo do modelo tem a seguinte aparência. Você pode exportá-lo facilmente para Word e Cell. Menos dois, a probabilidade logarítmica é 40,67, quadrado de Cosell r E os outros valores também são exibidos. O quadrado R é usado para descobrir o quão bem o modelo de recreação explica a variável dependente Na recriação linear, o quadrado R indica a porção da variação que pode ser explicada pelas variáveis independentes Quanto mais variância puder ser explicada, melhor será o modelo de regulação O quadrado R é usado para descobrir o quão bem o modelo de regulação explica a variável dependente. Em uma regulação linear, o quadrado R indica a porção da variância que pode ser explicada pelas variáveis independentes Quanto mais variância puder ser explicada e melhor será o modelo de regulação No entanto, no caso da regulação logística, o significado é diferente Existem diferentes formas de calcular r quadrado. Infelizmente, ainda não há acordo sobre qual é a melhor maneira de fazer isso. O quadrado R de acordo com a célula da moeda é 0,22 Nagker ki é 0,29 e E agora vem a tabela mais importante, tabela com o conteúdo do modelo O parâmetro mais importante do cliente é a razão de chances do valor B, p Os valores do coeficiente B estão aqui, os valores p estão aqui e a razão de chances está Podemos ver que o valor p do gênero é maior que 0,05. Isso significa que o gênero não é um fator contribuinte para a doença. Na primeira coluna, podemos ler os valores do coeficiente como 0,040 0,871 0,4 -2,73 e, em seguida, podemos inserir esses valores em vez Quando inserimos o cípion, obtemos uma equação como esta, 1/1 mais apagar 20,04 em H, 0,87 em gênero mais 1,34 em fumante menos a constante de 2,73, e então vamos em frente e calculamos obtemos uma equação como esta, 1/1 mais apagar 20,04 em H, 0,87 em gênero mais 1,34 em fumante menos a constante de 2,73, e então vamos em frente e calculamos. Com isso, agora podemos calcular a probabilidade de uma pessoa falecer Queremos saber qual a probabilidade de uma pessoa com 55 anos, mulher e fumante , falecer Substituímos o valor da idade por 55, sexo como zero porque não é homem e outro como fumante e depois calculamos o valor Quando fazemos esse cálculo, o valor da probabilidade é 0,69 Isso significa que há uma probabilidade de 69% de que uma mulher fumante de 55 anos Com base nessa previsão, agora seria decidido se deveria ou não investigar extensivamente O exemplo é puramente imaginário. Na realidade, pode haver muitos outros fatores e diferentes variáveis independentes, como o peso da pessoa, a idade da pessoa e muitas outras coisas para determinar se a pessoa está doente ou não Mas agora vamos voltar para a mesa. Na coluna, podemos ler coeficiente de diferença significativa a partir de zero A hipótese nula é que o coeficiente é zero na população A seguinte hipótese nula está sendo testada. O coeficiente é zero na população. Como a variável é menor que 0,05, o coeficiente previsto é uma influência significativa Em nosso exemplo, vemos que nenhum dos coeficientes tem um impacto significativo, pois todos os valores de p são maiores que 0,05 Agora vamos entender a razão de chances. A razão de chances é de 1,042 0,39 83,81. Por exemplo, a razão de chances é 1,04, significa que, para um aumento unitário na variável idade, o aumento da probabilidade de uma pessoa adoecer é de 1,04 E podemos ver que, para fumantes, a razão de chances é muito alta Com isso, chegamos ao fim da recreação logística. Nos vemos na sessão prática. Fique ligado. Obrigada. 40. Prática de regressão logística: Usaremos uma calculadora on-line para fazer a análise de regressão, especialmente a análise de regressão logística neste vídeo Eu enviei um vídeo separado sobre como você pode fazer essa análise usando o Excel. Então, vamos continuar com a calculadora estatística on-line. Posso importar meus dados clicando no botão de importação e soltando arquivos do Excel, SV ou arquivo da guia Dados Eu posso clicar em Procurar e colocar meus dados lá dentro. Certo? Então, eu já carrego meus dados, que você pode ver na tela. Eu tenho se uma pessoa faleceu ou não, idade, sexo, status de fumante Podemos ver que o tipo de dados foi identificado automaticamente pela calculadora estatística. Diz que a idade é uma variável métrica, sexo é nominal e o status de tabagismo também é normal. A doença é nominal. Agora, o que eu faço é clicar em regressão e rolar para baixo. Então, eu tenho uma boa quantidade de casos. Deixe-me rolar para baixo. Quando clico em regressão, posso fazer regressão linear simples, regressão multilinear e regulação Quais são minhas variáveis dependentes? A idade é minha variável dependente. O sexo é uma variável dependente. O status de tabagismo é uma variável dependente. O que eu quero prever? Quero prever se a pessoa está doente ou não. Estou selecionando a coisa certa? Não. Eu quero verificar, qual é a variável dependente? Qual é o meu y? Meu y é se a pessoa está morta ou E minhas variáveis independentes são sexo e status de tabagismo. Então, para referência de gênero, estou considerando o homem como um. Para referência ao status de tabagismo, estou considerando os fumantes como um só, e o modelo prevê se a pessoa está doente ou Agora eu posso clicar no resumo em palavras, e ele faz uma análise adequada e a mostra para mim. Certo? uma análise de regeneração logística foi realizada para examinar a influência da idade, sexo, mulher e status de não fumante como variáveis, a doença é prevista para a diminuição do valor, um modelo de análise logística mostrou que o um modelo de análise logística mostrou que qui-quadrado para os três é 8,79, o valor p é 0,32 e o número de observações é 36 Isso mostra claramente que uma análise de regeneração logística foi realizada para examinar a influência da idade, sexo, mulher e status de não fumante como variáveis, a doença é prevista para a diminuição do valor, um modelo de análise logística mostrou que o qui-quadrado para os três é 8,79, o valor p é 0,32 e o número de observações é 36. O coeficiente da variável p é 0,04, o que é positivo Isso significa que quando o aumento da idade está associado ao aumento da probabilidade da variável dependente doença. No entanto, o valor de p é 0,092, indicando que a influência não é estatisticamente significativa A razão de chances é de 1,04, indicando que, para um aumento unitário da variável oito, o aumento da chance de a variável dependente falecer aumenta O coeficiente da variável sexo feminino, valor B é 0,87 negativo Como essa variável é negativa, isso significa que o valor da variável sexo feminino, a probabilidade de a variável dependente se tornar doença diminui. No entanto, o valor de p de 2,0 0,28 indica que a influência não é estatisticamente significativa A razão de chances é de 0,42, o que significa que na variável sexo feminino, a probabilidade da variável dependente doença aumenta 0,42 O coeficiente da variável status de fumante, o valor p é -1,32, o que é negativo, o que significa que se o valor da variável do status de fumante for não fumante, a probabilidade de status de fumante for não fumante, a a variável dependente ser falecida diminui valor p é -1,32, o que é negativo, o que significa que se o valor da variável do status de fumante for não fumante, a probabilidade de a variável dependente ser falecida diminui . No entanto, o valor de p é 0,089, indicando que a influência não é estatisticamente significativa A razão de chances é 0,26 significa que a variável é o status de fumante probabilidade de não fumante a variável dependente falecer Agora, deixe-me escolher a referência como não fumante e a categoria como isso e nenhuma doença Agora, vamos ao resumo. Descobrimos que há uma pequena mudança na análise. Todos eles agora se tornaram negativos. Certo? A razão de chances mudou, dizendo que, para uma unidade de aumento na idade, 0,96 indica que a pessoa não falecerá porque agora estamos mirando em não falecer estamos mirando em não Portanto, você deve ter cuidado com o que está tomando como referência. que você acredita em sua hipótese, os homens são mais propensos a adoecer? Então, quando você considera o sexo masculino, o valor b é -0,87 Agora, aqui meu alvo não está doente. Portanto, parece que a probabilidade o homem não estar doente diminui em 0,97 Mas se eu estiver analisando doenças, você descobrirá que agora esse é um valor positivo O fumante também é um valor positivo. Portanto, devemos saber qual é a variável-alvo que queremos estudar. Agora vamos descer. Vamos ver os resultados, e eu até tenho uma interpretação de IA para me ajudar. A tabela resume o desempenho geral do de regressão logística binária Aqui, a interpretação é número total de casos é 36, que é o número total de observações. A tabela resume o desempenho geral do modelo logístico binário Aqui, a interpretação é o número total de casos de 36. Esse é o número total de observações ou instâncias nas quais o modelo foi testado. Nesse contexto, o número de indivíduos são itens nos quais o modelo tentou prever o resultado, seja a pessoa escritura ou não atribuição correta é de 26 dos 36 casos, o modelo previu o resultado de 26 deles. Essa previsão correta incluiu tanto os verdadeiros positivos, identificando corretamente a pessoa doente, quanto os verdadeiros negativos, identificando corretamente os casos sem Em porcentagem 72,22%. Essa é a precisão do modelo indicando que o número de tarefas é 26 dividido pelo número total de casos 36 Eu multiplico por dez para obter a porcentagem. Ele nos diz como o modelo faz a previsão correta. Agora, vamos entender a tabela de classificação. É onde estamos tentando classificar. Posso usar a ajuda da interpretação da IA para entendê-la. A tabela resume a qualidade da medida de ajuste da análise de regressão logística Aqui, os verdadeiros negativos positivos verdadeiros são 11 casos em que previmos corretamente que eles não estão doentes Falsos positivos são cinco casos em que cometemos um erro do tipo um. Falsos negativos são cinco casos em que previmos incorretamente que eles não estão doentes como erro do tipo dois Os verdadeiros positivos são corretamente previstos como doentes. Exatidão da previsão. A previsão correta para não estar doente é de 68,75%. O total de casos não doentes foi identificado corretamente. Predições corretas da doença, sensibilidade ou, como chamamos, 75% dos casos reais da doença foram identificados corretamente A precisão total é de 72,22% todas as proteções, sejam doenças ou não, identificadas corretamente Agora, vamos entender o teste do qui-quadrado. A beleza dessa calculadora estatística é que ela fornece uma interpretação de IA. Não preciso ir ao ChangeP para fazer isso. A tabela mostra os resultados do teste do qui-quadrado associado ao modelo de regressão logística binária O teste é frequentemente usado para avaliar a significância geral do modelo. Aqui, a interpretação de cada componente. quadrado I é a estatística em que a resposta é 8,79 no nosso Isso mede a diferença entre a frequência observada e esperada do resultado. Quanto maior o valor do qui-quadrado indica maior discrepância entre o valor esperado e o observado, sugerindo que os preditores do modelo têm uma Graus de liberdade, aqui, temos três graus de liberdade representando o número de preditores na regressão logística simples valor P é a probabilidade de observar as estatísticas do teste do qui-quadrado de forma tão extrema quanto uma observada sob a hipótese nula A hipótese nula é que não há relação entre frequência observada e esperada do resultado previsto pelo volume, o valor de P é 0,032, valor de P é 0,032, sugerindo que há 3,22% de probabilidade de que a estatística do qui-quadrado observada seja do qui-quadrado observada E a hipótese nula era verdadeira. O valor de p está 0,32 abaixo, indicando que é menor que o limite de 0,05, indicando que há um resultado de significância estatística Agora, vamos fazer um resumo do modelo. Então aqui diz que a probabilidade de menos dois logaritmos é 40,67. Ele mede a aptidão dos modelos. Quanto menor o valor, melhor o modelo se ajusta aos dados. No nosso caso, o valor é 40,67, ou seja, é um modelo relativamente saturado, um modelo com um ajuste perfeito Esse número por si só não nos diz muita coisa. Portanto, precisamos compará-lo com outros números diferentes. O valor quadrado R da célula de Cocina é 0,22. Essa é uma medida pseudo-R quadrada que indica a quantidade de variação na variável prevista explicada pelo modelo. Ele varia de 0 a 1 O valor de 0,22 indica que a variância de 22% é explicada pelo modelo No entanto, é importante notar que essa medida nunca chega a um, mesmo para um modelo perfeito. Vamos para o valor quadrado de Nagar K R. É 0,29. Novamente, tentamos ajustar o quadrado r para chegar a um. Mas lembre-se de que 29% da variação é explicada por esse modelo Isso significa que você precisa incluir mais variáveis para entender melhor o modelo. Quando analisamos isso, percebemos a diferença do modelo. O componente em questão representa os vários tamanhos, erro padrão, valor z, valor p, proporção esperada e 95% de confiança. Vamos fazer a interpretação. O modelo prevê o resultado básico como -2,73, onde o preditor é zero, a razão chances é 0,7 Sugerindo menores chances de resultado quando o preditor está no valor de referência Com cada aumento unitário da idade, a probabilidade de a pessoa falecer aumenta em 0,04 Isso representa um aumento de 4% nas chances. Se o sexo for masculino, há um aumento de 0,87%, e Vamos fazer a previsão. Se a pessoa tem 45 anos e a pessoa é do sexo masculino e a probabilidade de a pessoa ser fumante, qual é a probabilidade a pessoa ficar doente? Há 0,81 É mais do que 0,45? 50%? Sim uma probabilidade de a pessoa estar doente Mas se a pessoa for mulher, a probabilidade diminui. Além disso, se a pessoa não for fumante, há uma probabilidade muito menor que ela esteja doente Agora, passamos para o próximo exemplo em que estamos tentando verificar se a pessoa comprará um produto ou não. E as variáveis são sexo, idade e o tempo que passaram online. Então, vou clicar na equação de recreação. Qual é a variável dependente, sexo, idade e o tempo gasto on-line e o comportamento de compra é minha variável dependente. Há três tipos de previsões de que elas estão acontecendo, não duas como da última vez Compramos agora, compramos depois e não compramos nada. Categoria de referência para o sexo feminino, eu a considero feminina, e vamos ao resumo. Portanto, a análise de regressão logística realizada aqui mostra a influência do sexo masculino, da idade e do tempo gasto on-line na variável comportamento de compra pelo valor de até A análise de regressão logística mostra que o modelo, em geral, foi significativo O número de observações é 24. O coeficiente de que a variável sexo é do sexo masculino é 1,53, o que Isso significa que, quanto maior o valor da variável gênero, a probabilidade de a pessoa comprar aumenta. O valor de p é 0,201, indicando que a influência não é estatisticamente significativa A razão de chances é de 4,63, o que significa que o sexo é masculino, a probabilidade de que a variável dependente agora aumente em 4,63 O coeficiente da variável ag é p igual a -0,11, o que Isso significa que um aumento na idade está associado à diminuição da probabilidade de que a variável dependente esteja agora. No entanto, o valor de p é 0,07 indicando que a influência não é estatisticamente significativa A razão de chances é de 0,9, indicando que a cada aumento unitário na idade, a pessoa agora só aumenta 0,9 vezes. O coeficiente do tempo variável gasto na loja virtual é b -0,02, o que é Isso significa que quanto mais tempo gasto on-line, menor a probabilidade de eles comprarem agora. O valor P é 0,56 , indicando que não é estatisticamente significativo, e o tempo gasto on-line aumenta as chances em 0,98 24 casos 17 previstos corretamente em porcentagem 70. Vamos fazer a análise. Então, um número total de casos 24, atribuição correta 17 por cento 70. Agora, vamos para a tabela de classificação. Podemos entender que qual é o erro do tipo um e o erro do tipo dois? Verdadeiros negativos 13 casos foram previstos corretamente que eles não vão comprar. Falsos positivos são três casos que foram previstos incorretamente, pois estão fixados agora, mas, na realidade, eles não E os casos falsos são de que quatro deles realmente compraram, mas nosso modelo disse que eles não compraram. Quatro casos foram previstos corretamente como Pi agora. exatidão de agora é de 82%, exatidão de agora é de 50%. A precisão total é Se você observar a equação do qui-quadrado, obtemos o valor p de 0,42 Aqui, a probabilidade de um teste do qui-quadrado é extremamente importante como um dos valores observados da hipótese nula A hipótese nula é que não há relação entre a frequência observada e a esperada e a saída prevista a partir do modelo O valor P de 0,42 fica abaixo dessa convenção 0,5, estatisticamente significativo Se eu usar o modelo de alguém, podemos ver que os valores de r ao quadrado são muito w. E eu tenho o valor p. Então, agora vamos fazer uma previsão Se a pessoa for do sexo masculino e tiver 45 anos e o tempo gasto for 45 anos e o tempo gasto Qual é a probabilidade de uma pessoa comprar? Não há muita probabilidade. Mas se a pessoa tiver 20 anos, a probabilidade aumenta Assim, podemos entender que as pessoas da nova geração estão dispostas a comprar mais do que as pessoas mais velhas. Se tivermos uma pessoa de 80 anos , a probabilidade é absolutamente igual a 0,01 Então, espero que você aprenda a fazer regressão logística neste vídeo. Obrigada Ah. 41. ROC curve: D. Vamos entender a curva ROC Acabamos de concluir o aprendizado sobre regressão logística. Uma das formas de validar a precisão do modelo é usando a curva ROC Vamos entender a teoria com exemplos. Portanto, ROC significa características operacionais do receptor. É uma forma gráfica de representar o desempenho de um modelo de classificação binária, também chamado de modelo de regressão logística, e também para outros limites de classificação Vamos entender com um exemplo. Vamos supor que estamos realizando um teste de triagem em pacientes para identificar se o paciente está saudável ou doente Para que essa classificação seja feita, o farmacêutico está realizando alguns exames no sangue e depois decidindo quem deles ficará doente e quem Quando obtiveram a amostra de dez dados, decidiram estabelecer um limite, e qualquer pessoa abaixo desse limite será chamada saudável e qualquer pessoa acima do limite será chamada Agora, como decidimos qual deve ser o limite? Com base no qual você pode prever que o futuro é que o paciente esteja doente? Então, digamos que temos uma amostra de dez pessoas com seus níveis sanguíneos. Vemos que a maioria das pessoas doentes tem um nível sanguíneo mais alto E a maioria das pessoas saudáveis tem níveis sanguíneos mais baixos. Então, decidimos que vamos colocar um limite em 45. Então, quando colocamos um limite em 45, estamos dizendo que qualquer pessoa que esteja abaixo de 45, nós a classificaremos como saudáveis Qualquer pessoa que tenha mais de 45 anos, nós a classificaremos como doença. Agora podemos ver que há certos problemas aqui, e vamos entender esses problemas em detalhes. Então, neste caso, de seis pessoas que foram classificadas como doença, duas delas, quatro estão corretamente classificadas como doença, mas duas delas estão incorretamente classificadas como doença, mas, na realidade, são saudáveis Então, classificamos quatro de seis como doenças, e isso é chamado de duas taxas positivas. Também é chamado de sensibilidade. Por outro lado, dos quatro indivíduos saudáveis, classificamos erroneamente uma pessoa como doente Uma pessoa doente é saudável, e classificamos corretamente três pessoas saudáveis como saudáveis. Agora, quando classificamos erroneamente um em cada quatro como saudável, isso é chamado de taxa de falsos positivos e é representado por FPR ou é um menos No limite de 45, obtemos a taxa de verdadeiros positivos como 4/5, ou seja, 80% e a taxa de falsos positivos de 2/5 como 40% Então, o que exatamente é TPR ou duas taxas positivas? taxa de verdadeiros positivos nada mais é verdadeiros positivos divididos por verdadeiros positivos mais falsos negativos Dois pontos positivos são as pessoas que são classificadas corretamente como doença. Classificamos corretamente quatro deles como doenças. Falsos negativos são as pessoas que são classificadas incorretamente como saudáveis Então cometemos um erro com uma pessoa. Então, o total é 4/1. Portanto, os verdadeiros positivos não são nada, mas quatro deles foram corretamente classificados como doentes Mas o problema era que , das quatro que foram classificadas corretamente, esquecemos uma das pessoas doentes A razão pela qual precisamos conhecer o TPR é que porcentagem de pessoas ficará sem tratamento A especificidade é muito importante para entender que 20% da população pode não ser bem tratada, ou estamos classificando corretamente 80% da população que testamos Vamos entender o FPR, isso é falso positivamente. Falsos positivos são pessoas saudáveis, classificadas erroneamente como doentes, e dois negativos são indivíduos saudáveis classificadas erroneamente como doentes, e dois negativos Os indivíduos foram corretamente classificados como saudáveis. Então, dois deles foram classificados incorretamente como DCs. Então, começamos o tratamento para eles, dividido pelo número total que é cinco que estavam realmente saudáveis. Portanto, o número total de pessoas saudáveis dividido por quantas pessoas foram falso-positivas. Portanto, 40% das pessoas têm 0,4 é a taxa de FPR. Então, como calculamos o TPR e o FPR para cada limite? Devo colocar o limite como 38? Devo colocar o limite em 65, e assim por diante. Portanto, nesse caso, calculamos o TPR e o FPR para cada um dos limites Se eu colocar isso como zero , minha taxa de verdadeiros positivos está aumentando, mas minha taxa de falsos positivos é quase zero. Então, esses são precisamente os dois valores que estão sendo plotados na curva ROC A taxa de verdadeiros positivos é plotada no eixo y e a taxa de falsos positivos é plotada no Queremos decidir que, se você usar 0,240 0,2, nossa taxa de falsos positivos está aqui, mas o verdadeiro positivo está aumentando e, da mesma forma, em 0,4 0,6 0,8 e um Agora, vamos desenhar a curva ROC completa para nosso exemplo. Se escolhermos que o valor limite seja muito pequeno, ou seja, empurrar totalmente para a esquerda, classificaremos corretamente todos os cinco indivíduos doentes Mas também classificamos erroneamente todos os cinco indivíduos saudáveis Portanto, a verdadeira taxa positiva é cinco em cinco, ou seja, um. Da mesma forma, no entanto, classificamos erroneamente cinco indivíduos saudáveis como doentes Portanto, a taxa de falsos positivos é de cinco em cinco, ou seja, novamente, um. Por esse motivo, o primeiro ponto de dados está em um ponto um. Então, à medida que ultrapassamos o limite, ainda classificaremos corretamente se estou em Ainda estou classificando corretamente todos os cinco indivíduos como doentes, mas estou classificando quatro dos indivíduos saudáveis também Então, agora vou para o próximo ponto de dados. Então, se eu tomar 0,8 como limite, minha verdadeira taxa positiva é de cinco em cinco, então eu classifiquei corretamente todas as pessoas que faleceram como falecidas Mas de cinco indivíduos saudáveis, agora classificamos erroneamente apenas quatro em cada cinco E, portanto, estou em 0,8 em termos da taxa de falsos positivos. Para o próximo roshold, onde temos a taxa positiva de 0,1, estamos em 0,3 e vemos que classificamos corretamente todas as cinco pessoas como doentes, mas meus indivíduos saudáveis Então esse será meu terceiro ponto de dados. Cinco pessoas doentes estão classificadas corretamente. taxa de falsos positivos é que três deles foram classificados erroneamente como doença em cada cinco, ou seja, 0,6 No próximo limite, a pessoa doente é classificada erroneamente como saudável pela primeira vez Esse é o limite. Este é o lugar onde a pessoa doente está sendo classificada erroneamente como saudável E, portanto, vemos uma queda na taxa positiva verdadeira de 12,8 A taxa de verdadeiros positivos é de quatro em cinco, ou seja, 0,8, e a taxa de falsos positivos é de três em cinco, que é 0,6. Agora podemos fazer isso para todos os outros limites e, consequentemente, esboçamos nossa curva ROC Nesse ponto, por exemplo, 80% dos indivíduos das foram classificados corretamente como doença, 20% dos indivíduos saudáveis foram classificados incorretamente como doença Usando a curva ROC, podemos comparar diferentes métodos de classificação Os modelos de classificação são melhores quanto maior a curva. Portanto, quanto maior a área sob a curva, melhor é o modelo de classificação. Usando a curva ROC, podemos comparar diferentes métodos de classificação, e é precisamente a área que é refletida pela área AUC sob o valor da curva A área sob a curva é usada durante a avaliação do modelo de regressão linear O valor da AUC varia de 0 a 1. Quanto maior o valor, melhor o modelo. E quanto à curva ROC e à regressão logística? Por exemplo, poderíamos construir um novo modelo de classificação usando a regressão logística Aqui, poderíamos usar os valores adicionais, como valor sanguíneo, idade e sexo de cada pessoa, e tentar prever se a pessoa está saudável ou doente Sobre a curva ROC e a regressão logística, vamos continuar Em uma regressão logística, o valor estimado é então a probabilidade de uma pessoa em particular ter Muitas vezes, 50% deles simplesmente tomam como limite para classificar se uma pessoa está morta ou não Mas é claro que não é nisso que estamos pensando Portanto, você não pode considerar o limite de 50% sempre. Portanto, mesmo com a regulação logística, construímos a curva ROC para diferentes valores de limite e vemos que, em qual nível, temos a Então, como posso obter a curva ROC online? Sim. Então, agora vamos entender como eu posso fazer esse cálculo de ROC usando os dados Então, eu preenchi alguns valores de dados de mais de 40, quase 40 pessoas, diferentes níveis sanguíneos e se a pessoa está doente ou Então, posso escolher meu modelo de libertação e dizer que quero declarar a variável como doente O estado variável é sim ou não, e eu quero a variável de teste como valor sanguíneo. Então, imediatamente obtemos o ROC, e o ROC está mostrando em quais níveis especificidade A sensibilidade nada mais é do que minha verdadeira taxa positiva. Quantas dessas pessoas doentes eu classifiquei corretamente A especificidade, por outro lado, é quantas delas ou quantas pessoas saudáveis foram classificadas erroneamente como doentes E queremos que exista. Pessoas doentes têm 19 anos, não doentes têm 22, e positivo é maior que igual a um, a sensibilidade é uma e isso me mostra todos os dados Podemos perder alguns dados de amostra. E faça. Também posso encontrar isso no meu modelo de correlação Então, vou para a regulamentação, e estou dizendo que minha variável dependente está morta e o valor sanguíneo é minha variável independente O resumo em palavras, se a análise de regulação logística foi realizada para examinar se o valor sangüíneo de uma variável não permite predizer o valor como sim análise de recreação logística mostra que o valor do qui-quadrado é 5,23, o valor P Isso significa que o sangue é capaz de prever que não há influência do nível sanguíneo na doença. Rejeitamos a hipótese nula porque os valores de p são baixos. O cociente do valor sanguíneo B é 0,03, o que é Isso significa que o aumento do valor sangüíneo está associado ao aumento da probabilidade da variável dependente ser sim. O valor de p de 0,32 indica que a influência é estatisticamente significativa A razão ímpar é 1,03, indicando que um aumento unitário no valor sangüíneo aumentará as chances de a variável dependente ser sim em 0,13 Então, quando construímos a regressão logística, podemos ver que acabamos ler o resumo de que o valor de p é 0,03, indicando que há uma significância do valor do sangue para o A tabela resume que dos 41 casos que foram investigados são observados para a construção do modelo, neste contexto, o número de indivíduos que foram previstos como doentes ou saudáveis 28 deles de 41 foram classificados corretamente, indivíduos doentes classificados como doentes e indivíduos saudáveis classificados como A porcentagem é de 68,29. Ele indica o número total de pessoas que foram classificadas corretamente por 28, que é dividido por 41 e, em seguida, é multiplicado por 100 para obter uma porcentagem Se eu disser com que frequência o modelo faz a previsão correta, se a previsão é presença ou ausência de S. Então, podemos ver que isso é chamado de tabela de classificação. Pessoas que, na verdade, não estão doentes e foram corretamente previstas como não doentes, pessoas que estão doentes e previstas como Esse oito é minha preocupação. Por quê? Porque essas são as pessoas que não querem se tratar. E cinco deles foram classificados como doentes, quando, na realidade, não estavam sofrendo Então, construiremos o modelo ROC, e o ROC atualmente o AOC, A abaixo da curva é Quanto maior a curva, melhor o modelo. De 41 casos, a atribuição correta ocorreu em 28 casos e a atribuição incorreta ocorreu em 13 Então, 68% das pessoas foram classificadas corretamente. Agora, vamos fazer uma interpretação de IA. A interpretação da IA diz muito claramente que o ajuste do modelo é de dois logarítmicos de probabilidade. Quanto menor o valor, melhor o modelo. Aqui, o valor é 51,39 indicando que o modelo está relativamente saturado, um modelo com um ajuste perfeito O número por si só não diz muito. Precisamos compará-lo com outros modelos. Agora, vamos fazer a interpretação do modelo. A tabela mostra que fizemos uma análise de recursão logística binária, que analisa como os preditores influenciam a probabilidade de um Components, Cefion B. Isso representa o efeito de cada Um coeficiente positivo aumenta ou as chances logarítmicas do resultado, e o corião negativo as diminui. Erro padrão. Isso mede o desvio padrão da coesão estimada, com relação à precisão com que o modelo estima o valor da O valor z. Essa é a pontuação z calculada como um coeficiente dividido pelo erro padrão, usada para testar a hipótese nula de que o coeficiente é hipótese nula de que o coeficiente valor P indica a probabilidade de observar os dados ou algo mais extremo Se a hipótese nula for verdadeira, quanto menor for o valor de P e da palavra, o valor p indica a probabilidade de observar os dados ou algo mais extremo Se a hipótese nula for verdadeira, o valor de p mais baixo sugere que a hipótese nula de nenhum efeito é menos provável Interpretação. O modelo prevê as chances logarítmicas da linha de base como -1,31, todos os A razão ímpar é de 0,27, sugerindo que as chances de resultado são menores quando todos os preditores são do valor de referência Valor sanguíneo que aumenta em três. Agora, vamos fazer a previsão. Se meu valor sangüíneo for 85, então há 75% de probabilidade de eu estar sofrendo. Também vou ver a curva ROC. O ROC, a área sob a curva é 0,699. Ela é tímida 42. Compreender os dados não normais: Nosso normal ou não. Vamos tentar entender como trabalhamos quando meus dados não são normais? Ou mesmo antes de chegar lá, deixe-me apresentá-lo a esse senhor. Alguma suposição? Quem é o cavalheiro? Você pode digitar na janela de bate-papo se souber. E mesmo que você não saiba, está perfeitamente bem. Não há pontos de penalidade por suposições erradas. Sim. Alguns de vocês adivinharam, certo? Ele é a pessoa famosa por trás de nossa distribuição normal. Sr. Carl Cos. Ele é o grande matemático. E ele foi a pessoa que criou o conceito de distribuição gaussiana ou distribuição normal. Então, aqui está o cérebro por trás do conceito de distribuição normal e todos os testes paramétricos que estamos fazendo. Se meus dados não estiverem normais, eles podem ser distorcidos. Pode ser distorcido negativamente ou pode ser distorcido positivamente. Se eu disser distorcido negativamente , tecnicamente é ter uma cauda no lado esquerdo. Positivamente inclinado significa cauda no lado direito. Isso significa que meus dados não estão se comportando de maneira normal. Meus dados podem não ser normais porque estão seguindo uma distribuição uniforme ou plana como essa. Então, também não está seguindo a distribuição normal. Meus dados podem ter vários picos, algo assim, o que representa que há vários grupos de dados em meu conjunto de dados. E não é um comportamento normal. Porque meus dados têm todas essas coisas. Preciso tratar esses dados forma diferente quando estou fazendo meu teste de hipóteses. E por que esses dados não são normais? Pode ser por causa da presença de alguns valores atípicos. Pode ser por causa da distorção dos meus dados, ou pode ser por causa da curtose presente nos dados. Portanto, o motivo pelo qual seus dados não se comportam de maneira normal pode ser um desses. Vamos resumir, o que aprendemos? Meus dados não são normais se a distribuição tem uma assimetria, é unimodal, não é unimodal, mas na verdade essa distribuição bimodal ou multimodal. É uma distribuição de cauda pesada contendo valores discrepantes. Ou pode ser uma distribuição plana como uma distribuição uniforme. Esses são alguns motivos básicos pelos quais meus dados não estão se comportando de maneira normal. Estranho, não é uma distribuição normal, então existem várias distribuições. Também existem outras distribuições, que falam sobre a distribuição exponencial, que modela o tempo entre o evento. A distribuição log-normal. que diz que, se eu aplicar o logaritmo nos dados , meus dados seguirão uma distribuição normal. Distribuição de Poisson, distribuição binomial, distribuição multinomial. Vamos entender alguns exemplos, cenários da vida real em que as distribuições não normais podem ser aplicadas. Se você observar isso, sempre que estou tentando prever algo em um intervalo de tempo fixo. Então eu uso a distribuição de Poisson para minha análise e hipótese. Alguns exemplos da distribuição de Poisson ou do número de chamadas de atendimento ao cliente recebidas no call center. O número de pacientes que apresentam pronto-socorro de um hospital em um determinado dia, o número de solicitações de um determinado item em uma loja on-line em um determinado dia. O número de pacotes entregues pela empresa de entrega em um determinado dia, o número de itens defeituosos produzidos por uma empresa de manufatura em um determinado dia. Se você observar que há um comportamento comum aqui. Sempre que estamos tentando entender algo em um determinado período de tempo, pode ser um determinado dia, pode ser um determinado mês, dado B. Então, preferimos fazer nossa análise usando a distribuição de Poisson. Alguns exemplos de distribuição log-normal. O tamanho dos arquivos baixados da Internet, o tamanho das partículas em uma amostra de sedimento, a altura da árvore, o tamanho dos retornos financeiros, o tamanho do jogo de seguros. Se você ver esses exemplos, como se eu tomasse o exemplo dos retornos financeiros de seus investimentos, você pode ver que, fora do meu portfólio de investimentos, alguns investimentos me deram um retorno muito bom de 100%, 100%, 150 por cento, 80 por cento. E você também verá que fiz investimentos em alguma parte do meu portfólio porque isso resultou em um retorno zero ou um retorno negativo porque estou com prejuízo. Mas, no geral, meu portfólio está me dando um retorno de 12 a 15% ou 15 a 20 por cento. Você está tentando dizer que sua distribuição não é tecnicamente uma distribuição normal. Você tem retornos muito baixos e retornos muito altos. Mas se você aplicar o logaritmo em seus dados , ele se comportará como uma distribuição normal que, em geral, seu portfólio resultará em um retorno de cerca de X. mesmo se aplica até mesmo no pedido de seguro. Vamos tentar entender a aplicação da distribuição exponencial. O tempo entre a chegada dos clientes na fila, o tempo entre a falha em uma máquina, sua fábrica, o tempo entre as compras na loja de varejo, o tempo entre as ligações telefônicas e o contact center, o tempo entre as visualizações de página no site. Agora, se você ver entre a distribuição de Poisson e a distribuição exponencial, há um elemento comum. Qual é o elemento comum? Estamos tentando estudar com referência ao tempo. Sempre que você está fazendo uma distribuição normal, não é com referência ao tempo. Certo? Então, esses são alguns aplicativos. Mas a diferença entre um veneno e um exponencial está na distribuição de Poisson. É em um determinado dia, em um determinado dia, em uma determinada semana são dados meses. Aqui estamos tentando entender o tempo entre os dois eventos. Qual é o intervalo de tempo entre os dois eventos? Então, a distribuição exponencial pode ajudá-lo. Podemos, vamos entender a aplicação de alguma distribuição uniforme, como as alturas do aluno na turma. Necessidades de pacotes em um caminhão de entrega. Alguns pacotes são muito grandes, alguns pacotes são pequenos. Se você colocá-lo em uma distribuição, também descobrirá que é uma distribuição plana ou uniforme, pois para cada categoria de pacotes, você terá aproximadamente o mesmo número de pacotes, um para cada categoria de pacotes, você terá aproximadamente o mesmo número de pacotes, número similar de pacotes. Mercadorias que você está entregando. A distribuição dos resultados dos testes para um exame de múltipla escolha. A distribuição do tempo de espera em um semáforo, a distribuição do tempo de chegada de um cliente em uma loja de varejo. Então, se você ver todos esses exemplos seguindo uma distribuição uniforme, não é uma curva em forma de sino. Porque você tem continuamente pessoas que chegam à loja de varejo. Não é que haja um pico repentino. E os cenários reais de distribuição pesada significam a distribuição onde os valores discrepantes estão presentes, sinais da perda financeira e um setor de seguros ou outros sinais de perda financeira. Em algumas perguntas a um trader, ele veria esse número extremamente alto e extremamente baixo. O tamanho das chuvas extremas. Portanto, não temos chuvas extremas todos os anos. Portanto, não poderíamos dizer que o que quer que tenha acontecido é por causa de um outlier. E a distribuição de cauda pesada geralmente é afetada devido à presença de valores discrepantes. Portanto, se seus dados estão com valores discrepantes , você também pode ver que a distribuição por carga é uma distribuição pesada. E entenderemos, na próxima sessão, que tipo de testes não paramétricos devo realizar? Dependendo do tipo de dados não normais que estamos iniciando. O tamanho do consumo de energia, o tamanho da flutuação econômica da queda do mercado de ações. Todos esses são exemplos de sua distribuição pesada. Exemplos de dados bimodais. Aqui você precisa entender os meios bimodais. Há dois resultados que estamos tentando estudar. A distribuição das notas dos exames dos alunos que estudaram e dos que não estudaram. Distribuição das idades do indivíduo em uma população de duas faixas etárias distintas, altura de duas espécies diferentes, distribuição salarial de funcionários de dois departamentos diferentes. Boa velocidade em uma rodovia com dois grupos de motoristas lentos e rápidos. Então, aqui você pode ver que eu tenho dois grupos de dados que são diferentes. E estou tentando entender o comportamento de seguir em frente e fazer minha investigação como parte da minha hipótese ou do recurso que estou tentando fazer. Se eu tiver mais de dois grupos, dois diferentes, mais de dois grupos diferentes, como três grupos diferentes para grupos diferentes, então isso se torna uma distribuição multimodal. Certo? Então, acho que agora você já teria uma ideia de quais são as diferentes distribuições que não são distribuições normais. Então, como determino se meus dados não estão normalmente? O primeiro ponto que vem à nossa mente é um teste de normalidade. Mas mesmo antes de fazer um teste de normalidade, você pode usar métodos gráficos simples para descobrir se seus dados estão normais ou não. Você pode usar o histograma. E aqui o histograma mostra claramente vários movimentos. Portanto, posso ver claramente que essa não é uma distribuição normal. Se eu tentar colocar uma linha de ajuste , também posso ver que há distorção em meus dados. Também posso usar o gráfico de caixa para determinar se meus dados não são normais. Então, aqui você pode ver que eu tenho uma cauda pesada no lado esquerdo informando que meus dados estão distorcidos. Também posso ter valores discrepantes que um boxplot pode destacar facilmente. Então eu posso me esconder, identificar a distribuição pesada usando o boxplot. Além disso. Posso usar estatísticas descritivas simples onde posso ver os números do modo mediano médio. E quando vejo que esses números não estão sobrepostos ou não estão próximos um do outro, isso também indica que meus dados não são normais. Posso observar a curtose e a distorção da minha distribuição de dados e, em seguida, chegar a uma conclusão se meus dados estão se comportando normalmente ou não. Então, mostrei outras maneiras de identificar se seus dados estão seguindo uma distribuição não normal ou se seus dados estão seguindo uma distribuição normal. Agora eu diria mais uma coisa. Não se mate se sua média fosse 23,78 e a mediana fosse 24, e o modo fosse como 24,2 ou 24. Portanto, se houver uma leve deflação, ainda consideramos que é normal. Certo? distorção próxima de zero é uma indicação de que meus dados estão normais. Mas se minha distorção estiver além de menos dois ou mais dois, é definitivamente nossa prova de não normalidade. A cetose também é mais uma forma de identificar se meus dados estão seguindo a distribuição normal. Na maioria das vezes, preferimos que o número da curtose esteja em 0-3. Mas se sua cetose for negativa, significa que é uma curva plana. As auditorias seguem uma distribuição uniforme. auditoria pode ser uma distribuição exagerada de alta curtose e também pode ser uma indicação de que seus dados são perfeitos demais. E talvez você precise investigar se existem, eles não manipularam seus dados antes de entregá-los. Outro teste favorito do AdText ou Anderson-Darling, em que tentamos entender se meus dados são normais ou não. Portanto, a hipótese nula básica sempre que estou fazendo o teste NAT é que meus dados seguem uma distribuição normal. Portanto, esse é o único teste em que eu quero meu valor de p seja maior que 0,05 que obtenho, não rejeito a hipótese nula , concluindo que meus dados são normais, e recorro ao meu teste paramétrico favorito, que facilita a análise. Mas e se durante o teste ADA, seus dados e sua análise de dados mostrarem que o valor de p é significativo, que é menor que 0,05, talvez seja 0,02. Em seguida, conclui que meus dados não são uma distribuição normal. E eu preciso investigar que tipo de não normalidade ela tem. Assim, terei que fazer o teste e depois prosseguir. Continuaremos nossa sessão no próximo dia de Veneza. Espero que você tenha gostado. Se você tiver alguma dúvida, sinta-se à vontade para comentar no WhatsApp ou no canal do Telegram ou na seção de comentários aqui. Qualquer tópico que você gostaria de aprender como parte da sessão de quarta-feira. Eu ficaria feliz em investigar isso. Se você puder colocar esses comentários na caixa de bate-papo, no grupo do WhatsApp ou no telegrama. Eu realmente amo ensinar você e agradeço por ser maravilhoso. Estudantes. Cuide-se. 43. Kruskal Wallis testa dados não normais de 3 ou mais grupos: Este tutorial é sobre o teste do crus walus. Se você quiser saber o que é o teste crus c, walus e como ele pode ser calculado e Você está no lugar certo no final deste vídeo. Mostrarei como você pode calcular facilmente o teste de walus online E vamos começar agora mesmo. O teste crus Walus é um teste de hipóteses usado quando você deseja testar se há uma diferença entre vários grupos independentes Agora, você pode se perguntar um pouco e dizer: Ei, se houver vários grupos independentes, eu uso uma análise de variância. Isso mesmo. Mas se seus dados não forem distribuídos normalmente e as suposições para a análise de variância não forem O teste wus é usado. O teste Wace é a contrapartida não paramétrica da análise de variância de fator único Agora vou te mostrar o que isso significa. Há uma diferença importante entre os dois testes. Os testes de análise de variância, se houver diferença nas médias Então, quando temos nossos grupos, calculamos a média dos grupos e verificamos se todas as médias são iguais. Quando analisamos o teste crus C wals, por outro lado, não verificamos se as médias são iguais Verificamos se as somas de classificação de todos os grupos são iguais. O que isso significa? Agora, o que é uma classificação? E o que é uma soma de classificação no teste clássico de als? Não usamos os valores reais medidos, mas classificamos todas as pessoas por tamanho e, em seguida, a pessoa com o menor valor obtém o novo valor ou classificação um. A pessoa com o segundo menor valor obtém a classificação dois. A pessoa com o terceiro menor valor obtém a classificação três, e assim por diante, e quarta até que cada pessoa tenha recebido uma classificação. Agora atribuímos uma classificação a cada pessoa e, em seguida, podemos simplesmente somar as classificações do primeiro grupo. Some as classificações do segundo grupo e some as classificações do terceiro grupo. Nesse caso, obtemos uma soma de classificação de 54 para o primeiro grupo. 70 para o segundo grupo e 47 para o terceiro grupo. A grande vantagem é que, se não olharmos para a diferença principal, mas para a soma das classificações, os dados não precisam ser distribuídos normalmente ao usar o teste cruzado. Nossos dados não precisam satisfazer nenhuma forma distributiva e, portanto, também não precisamos que eles sejam distribuídos normalmente Exemplos do teste de rusk wallace para o teste de rusk walus. Obviamente, os mesmos exemplos podem ser usados para a análise de variância de fator único, mas com a adição de que os dados não precisam ser distribuídos normalmente Exemplo médico. Para uma empresa farmacêutica, você deseja testar se um medicamento XY tem influência no peso corporal. Para este propósito, o medicamento é administrado a 20 pessoas testadas. As pessoas que fazem o teste T recebem um placebo e 20 pessoas que fazem o teste não recebem nenhum medicamento ou placebo Objetivo: determinar se o medicamento XY tem um efeito estatisticamente significativo no peso corporal em comparação com placebo e grupos de controle Exemplo de ciências sociais. As três faixas etárias são diferentes? Em termos de consumo diário de televisão, questão e hipótese de pesquisa. A pergunta de pesquisa para o ruskal talvez fosse o teste. Há alguma diferença na tendência central de várias amostras independentes? Essa questão resulta na hipótese nula e alternativa Sem hipótese. Todas as amostras independentes têm a mesma tendência central e, portanto, vêm da mesma população. Hipótese alternativa, pelo menos uma das amostras independentes não tem a mesma tendência central das outras amostras e, portanto, originária de uma população diferente Antes de discutirmos como o abate de crostas, teste de walus é calculado, não se preocupe Realmente não é complicado. Primeiro, examinamos as suposições. Suposições. Quando usamos o crus c Teste de Walus? Usamos o teste crus Walus se tivermos uma variável nominal ou ordinal com mais E uma variável métrica, uma variável nominal ou ordinal com mais de dois valores é, por exemplo, a variável, jornal preferido, com os valores, Washington Post, New York Times, USA today Também pode ser a frequência de visualização diária de televisão várias vezes por semana. Na verdade, nunca uma variável métrica é, por exemplo, salário, bem-estar , estar ou peso das pessoas. Quais são as suposições agora? Somente várias amostras aleatórias independentes com escala pelo menos normal características de escala pelo menos normal devem estar disponíveis As variáveis não precisam satisfazer uma curva de distribuição. Portanto, a hipótese nula é que as amostras independentes têm todas a mesma tendência central E, portanto, vêm da mesma população ou em outras palavras. Não há diferença nas somas de classificação, e a hipótese alternativa pode ser que pelo menos uma das amostras independentes não tenha a mesma tendência central das outras amostras e, portanto, venha de uma população diferente Ou para dizer isso em outras palavras novamente. Pelo menos um grupo difere nas somas de classificação. Então, a próxima pergunta é: como calculamos um risco. Teste de Wallace Não é difícil. Digamos que você tenha medido o tempo de reação de três grupos. Grupo A no grupo C, e agora você quer saber se há uma diferença entre os grupos em termos de tempo de reação. Digamos que você tenha anotado o tempo de reação medido em uma tabela. Vamos supor que os dados não sejam distribuídos normalmente e, portanto, você precise usar o teste crus k was Então, nossa hipótese nula é que não há diferença entre os grupos, e vamos testar isso agora Primeiro, atribuímos uma classificação a cada pessoa. Esse é o menor valor. Então, essa pessoa fica na primeira posição. Esse é o segundo menor valor. Então essa pessoa fica na segunda posição, e fazemos isso agora para todas as pessoas. Se os grupos não tiverem influência no tempo de reação, as classificações devem, na verdade, ser distribuídas de forma puramente aleatória Na segunda etapa, agora calculamos a soma da classificação e a soma média da classificação para o primeiro grupo, a soma da classificação é dois mais quatro mais sete mais nove, que é igual a 22, e temos quatro pessoas no grupo. A soma média da classificação é 22/4, o que equivale a 5,5. Agora fazemos o mesmo para o segundo grupo. Aqui obtemos uma soma de classificação de 27 e a soma média de classificação de 6,75, e para o terceiro grupo, obtemos uma soma de classificação de 29 e a soma média de classificação de 7,25 Agora podemos calcular o valor esperado das somas das classificações. O valor esperado, se não houver diferença nos grupos, seria que cada grupo tivesse uma soma de classificação de 6,5 Agora temos quase tudo o que precisamos. Entrevistamos 12 pessoas. O número de casos é 12. O valor esperado das classificações é 6,5. Também calculamos as somas médias de classificação dos grupos individuais Os graus do caso pré-Domina são dois, e esses são simplesmente dados pelo número de grupos menos um, que faz três menos Por fim, precisamos da variância. A variância das classificações é dada por n ao quadrado -1/12. N é novamente um número de pessoas, então 12. Temos uma variação de 11,92. Agora temos tudo o que precisamos com esses valores. Agora podemos calcular nosso valor de teste g. A estatística de teste corresponde ao valor do quadrado g e é dada por essa fórmula n vezes a soma da barra r menos e r ao quadrado, tudo dividido por Sigma ao quadrado No nosso caso, o número de casos é 12. Sempre temos quatro pessoas por grupo. Assim, podemos extrair que E 5.5 é a classificação média do grupo A, 6,75 é a classificação média do grupo B e 7,25 é a classificação média do grupo C. Isso nos dá um valor arredondado de 0,5, como acabamos Como acabamos de dizer, esse valor corresponde ao valor quadrado. Agora podemos ler facilmente o valor quadrado crítico na tabela de valores quadrados críticos. Você também encontra essa tabela na Internet. Temos dois graus de liberdade. E se assumirmos que temos um nível de significância de 0,05, obtemos um valor quadrado crítico de 5,991 Obviamente, nosso valor é menor do que o valor crítico de g quadrado e, portanto, com base em nossos dados de exemplo, a hipótese nula é mantida e agora mostrarei como você pode calcular facilmente o teste de Cresco Wallace on-line com a Cálculo on-line. Para fazer isso, basta visitar data tab.net, clicar na calculadora de estatísticas e inserir seus próprios dados nessa tabela Além disso, você clica nessa guia e, nessa guia, encontrará muitos testes de hipóteses e, ao selecionar as variáveis que deseja testar, a ferramenta sugerirá o teste apropriado. Depois de copiar seus dados na tabela, você verá o tempo de reação e o grupo aqui na parte inferior Agora, basta clicar no tempo de reação e no grupo, e ele calcula automaticamente uma análise de variância para Mas não queremos uma análise de variância. Queremos o teste não paramétrico. Nós apenas clicamos aqui. Agora, a calculadora calcula automaticamente o teste Ruskal Wallace. Também obtemos um valor de e quadrado de 0,5, os graus de liberdade são dois e o valor p calculado é, e aqui abaixo, você pode ler a interpretação. Ruskal Walus mostrou que não há diferença significativa entre as categorias Com base no valor p, portanto, com os dados usados, deixamos de rejeitar a hipótese nula Apenas experimente você mesmo. É muito fácil. Fique conectado, continue aprendendo, continue crescendo, até a próxima aula. 44. Design de experimentos: Oi, e bem-vindo. Neste vídeo. Vamos mergulhar no fascinante mundo do design de experimentos Comumente chamado de DOE, discutimos o que é o design de experimentos ou DOE, as etapas do processo do projeto DOE Como o DOE pode ajudá-lo a reduzir o número de experimentos. Como estimar o número de experimentos necessários. E examinamos os tipos mais comuns de designs. Então, o que exatamente é o design de experimentos em sua essência, design de experimentos, DOE é um método estruturado usado para planejar, realizar e interpretar experimentos O objetivo principal do DOE é descobrir como diferentes variáveis de entrada, chamadas de fatores, afetam uma variável de saída, chamada de variável de resposta Aqui está uma explicação mais direta. Abordagem sistemática. O DOE é organizado e metódico. Ele segue um processo passo a passo para garantir que os experimentos sejam conduzidos de forma lógica e eficiente. Variáveis de entrada, fatores. Esses são os elementos que você altera em um experimento para ver como eles afetam o resultado. Por exemplo, se você estiver assando um bolo, os fatores podem incluir a quantidade de açúcar, o tempo de cozimento ou a temperatura do forno. Variável de saída, variável de resposta. Isso é o que você mede no experimento para ver o efeito das mudanças feitas nos fatores. No exemplo do bolo, a variável de resposta pode ser o sabor ou a textura do bolo. O objetivo do DOE é entender a relação entre esses fatores e a variável de resposta Ajudando você a determinar quais fatores têm o impacto mais significativo e como eles interagem entre si. Imagine que você está andando de bicicleta. A rotação suave das rodas depende da condição dos rolamentos. Se os rolamentos estiverem bem lubrificados, torque de atrito é mínimo, facilitando No entanto, se a lubrificação for inadequada ou a temperatura estiver muito alta, necessário mais esforço para manter a velocidade devido ao aumento do atrito Nesses casos, o DOE nos permite investigar sistematicamente fatores como tipos de lubrificação, como óleo ou graxa, e temperaturas variáveis baixas, médias e altas para quantificar com precisão seu impacto na condução por atrito quantificar Mas por que isso é importante? O design de experimentos nos permite projetar planos de teste eficientes que revelam esses insights de forma eficaz Ao manipular cuidadosamente os fatores e seus níveis, DOE nos ajuda a identificar quais variáveis influenciam significativamente Seja em sistemas mecânicos, como rolamentos, ou em cenários mais complexos envolvendo respostas humanas a medicamentos As aplicações do DOE são vastas e diversas, seja otimizando processos de fabricação, melhorando projetos de produtos ou refinando tratamentos médicos, ou refinando tratamentos médicos DOE serve como uma ferramenta poderosa para identificar fatores críticos e determinar as condições ideais para Ele capacita pesquisadores e engenheiros a tomar decisões informadas com base em dados empíricos, em vez de confiar Em nossos próximos segmentos, exploraremos as etapas essenciais do projeto ADOE, desde a criação de experimentos até a análise dos resultados À medida que avançamos no curso, descobrimos as complexidades do design de experimentos e descobrimos como essa abordagem metodológica pode revolucionar sua abordagem revolucionar sua descobrimos as complexidades do design de experimentos e descobrimos como essa abordagem metodológica pode revolucionar sua abordagem de experimentação e pesquisa. Fique ligado para obter mais informações e dicas práticas. 45. As áreas de aplicação para um DOE: Agora, vamos entender quais são as áreas de aplicação do DOE. As aplicações do DOE são amplas e variadas, seja para otimizar processos de fabricação, melhorar projetos de produtos ou refinar DOE é uma ferramenta poderosa para identificar principais fatores e determinar as melhores condições para alcançar os resultados desejados Ele ajuda pesquisadores e engenheiros a tomar decisões informadas com base em dados reais, em vez de suposições Etapas do projeto DOE, vamos dar uma olhada no processo de um projeto DOE, planejamento, triagem, otimização e Na primeira etapa, planejamento. As coisas são importantes. Primeiro, obtenha uma compreensão clara do problema e do sistema. Em segundo lugar, determine uma ou mais variáveis de resposta. Terceiro, identifique os fatores que podem influenciar significativamente a variável de resposta. A tarefa de determinar os fatores potenciais que influenciam a variável de resposta pode ser muito complexa e demorada. Por exemplo, um diagrama de espinha de peixe pode ser criado em uma equipe. Agora vem a segunda etapa. Triagem, se houver muitos fatores que possam ter uma influência. Normalmente, mais de quatro a seis fatores. Experimentos de triagem devem ser realizados para reduzir o número de fatores. Por que isso é importante? O número de fatores a serem investigados tem uma grande influência no número de experimentos necessários. Observe que, no planejamento de experimentos, os experimentos individuais também são chamados simplesmente de ensaios no planejamento fatorial completo, que discutiremos com mais detalhes em breve O número de experimentos ou ensaios é n igual a dois elevado à potência de k, onde n é o número de ensaios e k é o número de fatores. Aqui está uma pequena visão geral se tivermos três fatores. Por exemplo, temos que fazer pelo menos oito ensaios com sete fatores. Já são pelo menos 128 corridas, com dez fatores. Já são pelo menos 1024 corridas. Observe que esta tabela se aplica ao AD OE, onde cada fator tem apenas dois níveis, caso contrário. Haverá ainda mais execuções, dependendo da complexidade de um experimento individual. Portanto, pode valer a pena selecionar os chamados desenhos de triagem para quatro ou mais fatores Posteriormente, discutiremos o planejamento fatorial fracionário e o design plácido Que pode ser usado para experimentos de triagem. Uma vez identificados os fatores significativos por meio de desenhos de triagem, esperançosamente, o número de fatores tenha sido reduzido Agora, outros experimentos podem ser conduzidos. Os dados obtidos podem então ser usados para criar um modelo de regressão, que ajuda a determinar as variáveis de entrada forma que a variável de resposta seja otimizada Após a otimização, vem a verificação da etapa final. Isso envolve verificar mais uma vez se as variáveis de entrada ótimas calculadas realmente têm a influência desejada na variável de resposta. Dependendo se estamos na triagem ou na etapa de otimização. Existem diferentes tipos de designs. Agradecemos sua atenção. Na próxima lição, vamos nos aprofundar nas aplicações práticas do projeto de experimentos e em como interpretar os resultados de forma eficaz. Fique ligado. 46. Tipos de designs em um DOE: Tipos de projetos em experimentos do DOE. Quando estamos na etapa de triagem ou na etapa de otimização. Usamos diferentes tipos de métodos de design. Os mais conhecidos são o projeto fatorial completo, o projeto fatorial fracionário, o projeto Placet Berman, o projeto Box Benkin, o design composto central Box Vamos começar examinando o experimento fatorial completo e o experimento fatorial fracionário Também precisamos responder por que nos esforçamos tanto. Por que usamos o design de experimentos, DOE, e por que precisamos de estatísticas O motivo é que os experimentos levam tempo e custam dinheiro. Portanto, precisamos manter o número de ensaios experimentos individuais o mais baixo possível. No entanto, se fizermos poucas corridas, podemos perder diferenças importantes e não obter resultados precisos. Por exemplo, digamos que queremos descobrir quais fatores afetam a tensão de atrito de um rolamento Precisamos projetar cuidadosamente nossos experimentos para identificar esses fatores de forma eficiente sem realizar ensaios desnecessários. Como o número de experimentos no DOE é estimado? Vamos dar uma olhada em um exemplo. Queremos investigar quais fatores influenciam a força de atrito de um rolamento Vamos começar com um fator, a lubrificação. Queremos saber se a lubrificação afeta o torque de atrito se um rolamento estiver lubrificado ou lubrificado Para descobrir, pegamos uma amostra aleatória de dez rolamentos? Lubrificamos metade dos rolamentos e lubrificamos a outra metade. Agora podemos medir o atrito dos cinco rolamentos lubrificados e dos cinco rolamentos lubrificados Mas por que usar dez rolamentos Na maioria dos casos, cada corrida custa muito dinheiro Talvez possamos gerenciar com menos corridas. Quantos experimentos precisamos para descobrir se o lubrificante tem efeito na ferramenta de atrito Vamos começar com os dez rolamentos. Agora podemos calcular o valor médio do torque de atrito dos rolamentos lubrificados e lubrificados Então, podemos calcular a diferença entre os dois valores médios. Neste exemplo, podemos ver uma diferença entre rolamentos lubrificados e lubrificados No entanto, também notamos que o torque de atrito nos rolamentos lubrificados e lubrificados Se pegarmos outra amostra aleatória de dez rolamentos, a diferença pode ser maior ou pode estar na direção oposta Em outras palavras, a tensão de atrito dos rolamentos varia muito. Quanto maior o spread, mais difícil é identificar uma diferença ou efeito específico. Felizmente, podemos reduzir a variabilidade do valor médio aumentando o tamanho da amostra Quanto maior o tamanho da amostra, mais precisa é a estimativa da média Portanto, quanto menor o efeito e maior a dispersão da variável de resposta, maior deve ser o tamanho da amostra. Mas quanto maior, como você pode estimar o número de ensaios necessários? Você pode usar essa fórmula como uma aproximação para estimar o número de ensaios necessários, n é igual a Sigma Um quadrado aqui, n é o número de corridas. Sigma é o desvio padrão. Delta é o efeito a ser determinado. Por exemplo, se tivermos um desvio padrão de três newtons milímetros e uma diferença relevante de Precisamos de 22 corridas. Se o desvio padrão for de dois newtons milímetros. Só precisamos de dez corridas se o desvio padrão for de um newton Precisamos de quatro corridas. Portanto, usaríamos dois trechos com rolamentos lubrificados e dois trechos com rolamentos lubrificados Mas como o DOE pode ajudar você a reduzir o número de execuções? Veremos isso em detalhes na próxima lição. Obrigado pela sua atenção. Na próxima lição, vamos nos aprofundar nas aplicações práticas do projeto de experimentos e em como interpretar os resultados de forma eficaz. Fique ligado. 47. Como reduzir o número de corridas: Mas como o DOE pode ajudar você a reduzir o número de execuções? Vamos supor que o cálculo do número de ensaios resulte em 16 experimentos. Oito corridas com rolamentos lubrificados e oito corridas com rolamentos lubrificados Mas e se tivermos um segundo fator? Digamos que, além da lubrificação, tenhamos temperaturas com níveis baixos e altos Então, precisamos de mais oito corridas para levar esses fatores em consideração. Portanto, precisamos de 16 ensaios para verificar se o lubrificante tem efeito E 16 corridas para verificar se a temperatura tem efeito. Isso nos dá um total de 24 corridas. Agora surge a pergunta: é possível conseguir isso com menos ensaios, e isso nos leva ao projeto fatorial completo A questão é: por que devemos nos limitar a testar um fator por vez? Em vez disso, poderíamos criar um design que incorporasse todas as combinações potenciais, como graxa e Obviamente, ainda precisamos de 16 execuções por fator. Conseguimos isso fazendo quatro corridas com cada uma das quatro combinações. Depois, temos oito corridas com óleo e oito com graxa e, do outro lado, oito com baixa temperatura e oito com alta temperatura Agora temos um total de 16 corridas antes de 24 corridas. Agora precisamos de menos experimentos e obtemos ainda mais informações. Por que mais informações? Agora também sabemos se há uma interação entre temperatura e lubrificação. Por exemplo, rolamentos lubrificados podem mostrar uma variação no torque de atrito em diferentes temperaturas, que não é observado com Essas informações teriam sido perdidas anteriormente. Agora, quando temos três fatores em vez de dois, a economia é ainda maior. Se testarmos um dos três fatores por vez, precisaremos de 32 execuções. Se agora executarmos dois experimentos para cada combinação em um experimento fatorial completo, ainda precisaremos de apenas 16 No entanto, para cada fator, ainda temos oito ensaios por nível de fator. Por exemplo, para o fator de lubrificação, temos oito ciclos com óleo e oito com graxa Obviamente, também podemos criar projetos fatoriais completos com mais de dois níveis Por exemplo, o fator de temperatura pode ter três níveis: baixo, médio e alto. No entanto, conforme mencionado no início, mesmo com um planejamento fatorial completo com dois níveis em cada fator, o número de ensaios necessários aumenta muito rapidamente à medida que o número de fatores Vamos, portanto, agora dar uma olhada no design fatorial fracionário O planejamento fatorial fracionário é usado para projetos é usado para Ou seja, se você tiver mais do que aproximadamente quatro a seis fatores, é claro que reduzir o número de execuções significa reduzir as informações. Em experimentos fatoriais fracionários, a resolução é reduzida Qual é a resolução? A resolução é uma medida de quão bem DOE pode distinguir entre diferentes efeitos Mais precisamente, a resolução indica o quanto os efeitos principais e os efeitos de interação são confundidos em um design Mas o que são efeitos médios e efeitos de interação? O que significa confuso? No planejamento de experimentos, o termo efeito se refere ao impacto que um determinado fator ou uma combinação de fatores tem na variável de resposta de um experimento. Essencialmente, eles medem o quanto a variável de resposta muda quando você altera os fatores. Um efeito principal é a influência de um único fator na variável de resposta. Por exemplo, que influência a lubrificação de um rolamento tem na ferramenta de atrito Os efeitos de interação ocorrem quando o efeito de um fator na variável de resposta depende do nível de outro fator. Por exemplo, o efeito do lubrificante na conversa de atrito pode depender da temperatura Mas o que isso significa? Agradecemos sua atenção. Na próxima lição, vamos nos aprofundar nas aplicações práticas do projeto de experimentos. Fique ligado. 48. Tipo de efeitos: Mas quais são os efeitos principais e os efeitos de interação e o que significa confundido? No planejamento de experimentos. O termo efeito se refere ao impacto que um determinado fator ou uma combinação de fatores tem na variável de resposta de um experimento. Essencialmente, eles medem o quanto a variável de resposta muda quando você altera os fatores? Um efeito principal é a influência de um único fator na variável de resposta. Por exemplo, que influência a lubrificação de um rolamento tem no torque de atrito Os efeitos de interação ocorrem quando o efeito de um fator na variável de resposta depende do nível de outro fator. Por exemplo, o efeito do lubrificante na ferramenta de atrito pode depender da temperatura Mas o que isso significa? Digamos que temos um valor médio de torque de atrito de 102 newton milímetros para os rolamentos com óleo e um valor médio de 108 newton milímetros Então, temos um efeito principal de lubrificação de seis milímetros de newton Mas agora podemos dividir isso em altas e baixas temperaturas. Em alta temperatura, poderíamos obter 98 para óleo e 102 para graxa A diferença entre óleo e graxa é de apenas quatro newton milímetros Em baixa temperatura, poderíamos obter 104 e 112. Uma diferença de oito, então o fator de lubrificação é influenciado pela temperatura, e temos uma interação entre lubrificação e A interação leva a uma diferença de dois novos 10 milímetros em relação ao resultado original Portanto, temos um efeito de interação de dois newtons milímetros Projetos fatoriais completos levam em consideração todas as interações Em nosso exemplo de atrito em rolamentos, além dos fatores de temperatura do lubrificante, também analisamos a interação entre o lubrificante e a temperatura entre o lubrificante e No entanto, à medida que o número de fatores aumenta, inúmeras interações surgem rapidamente. Por exemplo, se tivermos cinco fatores, A, B, C D e E, obtemos a interação entre dois fatores. Entre três fatores, entre quatro fatores e entre todos os cinco fatores. Agora, é claro. A questão é: realmente precisamos de todas as interações ou podemos reduzir a resolução? Isso é exatamente o que o experimento fatorial fracionário faz em um experimento fatorial fracionário As interações podem ser confundidas com outras interações ou com os principais efeitos dos fatores O que significa confuso? Isso significa que os efeitos de diferentes fatores ou o efeito da interação de fatores não podem ser separados uns dos outros. A extensão em que o número de ensaios pode ser reduzido em detrimento da resolução é mostrada nesta tabela. A resolução geralmente é indicada por algarismos romanos. Exemplo três, quatro, cinco e assim por diante. Aqui na diagonal. Nós vemos os desenhos fatoriais completos. Examinaremos o que as resoluções três, quatro e cinco significam em um momento Por exemplo, se tivermos seis fatores, precisaremos de pelo menos 64 ensaios para um experimento fatorial completo Se escolhermos um desenho fatorial fracionário com uma resolução de seis Precisamos de 32 corridas com uma resolução de quatro. Precisamos de 16 corridas e com uma resolução de três. Precisamos de apenas oito corridas. Mas o que isso significa? Como isso funciona? O planejamento fatorial completo é sempre usado como ponto de partida Vamos dar uma olhada no exemplo com oito execuções. Na próxima lição, vamos nos aprofundar nas aplicações práticas do projeto de experimentos. Fique ligado. 49. Design fatorial fracionário: Vamos detalhar os pontos-chave sobre experimentos fatoriais fracionários em O que são experimentos fatoriais fracionários? Projetos fatoriais fracionários são uma forma eficiente de testar vários Eles reduzem significativamente o número de ensaios experimentais necessários. Por que usar experimentos fatoriais fracionários? O uso de experimentos fatoriais fracionários economiza tempo e recursos em comparação com experimentos fatoriais completos Além disso, eles permitem testar as interações entre os fatores, fornecendo informações valiosas com menos experimentos. Um, Resolução em experimentos fatoriais fracionários. Definição, resolução se refere à quantidade de informações capturadas em um projeto experimental. Em termos mais simples, ele nos diz quantos fatores, como A, B, C, podemos testar juntos e quão bem podemos separar seus efeitos uns dos outros Alta resolução, por exemplo, três ou três. Isso significa que podemos testar mais fatores juntos, mas também significa que os efeitos desses fatores podem se confundir com as interações. Esses fatores interagem entre si. Por exemplo, com a resolução três, os efeitos dos fatores principais podem ser misturados com interações envolvendo dois outros fatores. Resolução mais baixa, por exemplo. Em V ou quatro, aqui, não podemos testar tantos fatores juntos, mas é mais claro ver os efeitos principais de cada fator porque eles estão menos misturados com as interações Por exemplo, na resolução quatro, os efeitos dos fatores principais são confundidos com interações envolvendo três fatores Dois, efeitos de confusão, definição. Quando dizemos que os efeitos são confusos, isso significa que não podemos dizer exatamente qual fator está causando uma certa mudança nos resultados Isso acontece porque combinações diferentes de fatores podem ter efeitos semelhantes no resultado. Por exemplo, imagine testar os fatores , B e C, se adicionarmos um quarto fator, D, os resultados podem mostrar mudanças que não podemos atribuir apenas a D. O efeito de D pode estar misturado com a forma como A, B e C interagem entre si. Três, impacto da resolução no projeto do experimento. Explicação. A escolha de uma resolução afeta eficiência de nosso experimento e a clareza de nossos resultados. resolução mais alta nos permite testar mais fatores juntos, mas exige mais testes para ter confiança em nossos resultados. Uma resolução mais baixa requer menos testes, mas pode dificultar a compreensão dos efeitos de diferentes fatores Quatro exemplos práticos, ilustração, para entender melhor, pense testar diferentes receitas para fazer um bolo. Se você mudar um ingrediente, como açúcar, o sabor pode mudar. Mas se você trocar o açúcar e a farinha, é mais difícil dizer qual mudança causou, qual resultado. O design nos ajuda a equilibrar o teste muitos fatores e a entender seus impactos separados. Ao entender esses pontos, os pesquisadores podem criar experimentos que forneçam respostas claras sobre como os fatores afetam os resultados, mesmo quando testam vários fatores ao mesmo tempo. Examinaremos o que as resoluções três, quatro e cinco significam em um momento Por exemplo, se tivermos seis fatores, precisaremos de pelo menos 64 ensaios para um experimento fatorial completo Se escolhermos um experimento fatorial fracionário com uma resolução de seis, precisaremos de precisaremos Com uma resolução de quatro, precisamos de 16 execuções e, com uma resolução de três, precisamos de apenas oito execuções. Mas o que isso significa e como funciona? O planejamento fatorial completo é sempre usado como ponto de partida Vamos dar uma olhada em um exemplo com oito execuções. Suponha que tenhamos os fatores A, B e C com um planejamento fatorial completo, podemos testar se o fator A, B ou C tem efeito Também podemos testar se as interações entre dois fatores têm efeito e se as interações entre os três fatores têm efeito. Se agora quisermos testar não apenas três fatores com oito ensaios, mas um quarto fator adicional, o fator S D, devemos sacrificar algumas informações de uma das interações. Por exemplo, a interação de A, B, e se quisermos testar um quinto fator com oito tentativas, digamos o fator A, precisaríamos sacrificar outra interação. Por exemplo, na interação entre B e C, no entanto, não estamos realmente descartando as informações Estamos misturando o novo fator com a interação. Isso significa que confundimos o fator com a interação. O que isso significa? Isso significa que não podemos determinar se um efeito observado é devido ao fator D ou à interação de A, B e C. Da mesma forma, não podemos dizer se um efeito é devido ao fator A ou à interação de B e C de cose. É muito menos problemático misturar um fator com uma interação de três fatores do que com uma interação de dois fatores Da mesma forma, não podemos distinguir se um efeito resulta do fator A ou da interação de B e C. Agora, temos uma boa transição para a resolução. O que significam as resoluções três, quatro e cinco? Na resolução três, os efeitos principais podem ser confundidos com as interações de dois fatores Por exemplo, o fator D pode ser confundido com a interação dos experimentos dos fatores A e B com a resolução três , portanto , deve ser considerado crítico Eles só podem ser usados se a interação de dois fatores for significativamente menor do que os efeitos dos fatores principais. Caso contrário, a interação de dois fatores pode distorcer significativamente o resultado de um fator Experimentos na resolução quatro são muito menos críticos. Aqui, apenas os efeitos principais são confundidos com as interações de três fatores e os mais fatores envolvidos em uma interação Quanto menor for a probabilidade do efeito. Além disso, na resolução quatro, as interações de dois fatores são confundidas com as interações de outros dois fatores O Experimentos na resolução cinco não são considerados críticos. Os efeitos principais são confundidos apenas com interações de quatro fatores Da mesma forma, interações de dois fatores só são confundidas com interações de três fatores Mas como você confunde um fator e uma interação? Vamos dar uma olhada nesse exemplo. Aqui, temos o design fatorial completo dos três fatores, A, B e C. Esses oito ensaios são realizados no total Ainda consideramos apenas fatores com dois níveis, menos um representa um nível e um representa o outro Para nosso exemplo de conversa sobre atrito, o plano de teste seria assim para o fator temperatura, menos um é a temperatura baixa e o outro é a alta Se agora executarmos os experimentos, obteremos um valor para a variável de resposta para cada execução. Se o fator A for um ou menos um, isso terá um certo efeito no valor alvo O mesmo se aplica se o fator B for um ou menos um. O efeito de interação nos diz se há um efeito adicional. Os fatores I A e B são simultaneamente, um ou menos um, ou se ambos forem exatamente na direção oposta De um lado, temos os pares com o mesmo sinal e, do outro lado, os pares com um sinal desigual Podemos verificar se há diferença na variável de resposta, entre os valores no grupo verde e os valores no grupo vermelho. Se houver uma diferença, então há uma interação entre A e B. No entanto, se soubermos de antemão que há apenas uma interação muito pequena ou nenhuma interação, podemos usar essas combinações. Para testar um quarto fator, D, para fazer isso, simplesmente multiplicamos. A e B. Sempre temos um, se os fatores, e B tiverem o mesmo sinal e menos um se tiverem um sinal diferente Obviamente, um problema pode surgir. Ao analisar os resultados. Se houver uma diferença entre os valores verde e vermelho. Na variável de resposta, não podemos determinar se esse efeito vem da interação entre A e B ou do fator D se formos a. Mostre que não pode haver interação entre A e B. Isso não é um problema. Então, podemos ter certeza de que a diferença se deve ao fator D de forma semelhante. Podemos pegar a interação de A e C e também medir o fator A e a interação de A, B e C para medir o fator F, portanto. Nesse caso, medimos seis fatores com apenas oito ensaios, mas não podemos mais distinguir o fator D da interação do fator A e B da interação de A e C ou o fator F da interação de A, B e C. Na próxima lição, daremos uma visão detalhada dos outros tipos de projetos disponíveis no DOE Na próxima lição, vamos nos aprofundar nas aplicações práticas do projeto de experimentos. Fique ligado. 50. Design composto Plackett Burman Central: Bem-vindo hoje. Estamos mergulhando em diferentes tipos de design de experimentos. Ou DOE, vamos começar com o Placet Berman Design. O que é um design Placet Berman? Os designs Placet, Berman são normalmente usados com dois níveis e com resolução A principal vantagem desses projetos é que a interação entre dois fatores é distribuída entre vários outros fatores. Por exemplo, a interação entre os fatores A e B é confundida com todos os outros fatores, exceto A e B. Isso torna os designs de Plackett Burman ideais para lidar com muitos fatores e quando apenas os efeitos principais são No entanto, esses designs devem ser usados com cautela, se você presumir que as interações de dois fatores podem ser negligenciadas Embora esse requisito seja menos rigoroso do que nos fracionários clássicos desenhos fatoriais fracionários clássicos de Continuando, o que é um design de caixa Benkin? A caixa, o design Benkin, junto com o design composto central, são usados para analisar e otimizar alguns fatores em detalhes E para identificar dependências não lineares para detectar relacionamentos não lineares São necessários pelo menos três níveis por fator com um planejamento fatorial completo usando três O número de ensaios pode aumentar rapidamente. Por exemplo, com dois fatores em três níveis cada, você precisa de nove corridas e com três fatores em três níveis cada , aumenta para 27 corridas. Os projetos Box, Benkan resolvem isso criando um experimento fatorial completo com dois níveis E incluir pontos centrais, como três vezes para dois fatores ou com três fatores, ou com três fatores, que reduz o número de corridas de 27 Embora isso reduza o número de ensaios, ele pode identificar menos relacionamentos não lineares. A seguir, vamos discutir o design composto central. Esse design normalmente envolve três tipos de pontos de teste, dois pontos fatoriais de nível fol que formam os cantos de um cubo ou hipercubo Pontos centrais localizados no centro do espaço definido pelos pontos fatoriais Pontos axiais que se encontram nos eixos do espaço fatorial fora da fila Esses dois últimos tipos de pontos ajudam a estimar efeitos não lineares em seu modelo. Na próxima lição, vamos nos aprofundar nas aplicações práticas do projeto de experimentos. Fique ligado. 51. Conclusão: Gostaria de agradecer muito por concluir o programa. Isso mostra que você está altamente comprometido em sua jornada de aprendizado. Você quer se aprimorar e acredito que tenha aprendido muito. Espero que todos os seus conceitos também estejam claros. Quero garantir que eu lhe diga quais são os outros programas que eu quero compartilhar habilidades. Então, no Skillshare, eu tenho muitos outros programas que já estão lá e muitos surgirão nas próximas semanas e meses futuros. Como os programas são contar histórias com dados, como posso usar a análise, visualização de dados, análise preditiva sem codificação e muito mais. Além disso, também trabalho como instrutor corporativo. Garanto que todos os meus programas sejam altamente interativos e mantenham todos os participantes muito engajados. Eu projetei os livros que são personalizados para o meu workshop, o que também garante que todos os conceitos sejam claramente compreendidos pelos participantes. Meus jogos são projetados de tal forma que os conceitos obtêm empréstimos em um tempo em que jogam. Existem muitos jogos projetados para meus programas. E se você estiver interessado, você está livre para entrar em contato comigo. Também fiz mais de 2 mil horas de treinamento nos últimos dois anos durante a pandemia. Esses são apenas alguns dos workshops. Portanto, se sua organização quiser fazer algum programa de treinamento corporativo que seja offline ou online. Ou se você acha que pessoalmente deseja aprimorar seu aprendizado, pode entrar em contato comigo pelo meu e-mail. Fique conectado comigo no LinkedIn se você gostou do meu treinamento, por favor, certifique-se de escrever um comentário no LinkedIn. Além disso, eu também administro um canal no Telegram onde coloco muitas perguntas em que as pessoas podem aprender os conceitos e elas aprenderão, elas podem levar apenas alguns segundos para fazer isso. Além disso, certifique-se de escrever para deixar um comentário no Skillshare, como foi sua experiência de treinamento? se esqueça de concluir seu projeto. Eu amo as pessoas quando elas estão comprometidas e você provou que é uma delas. Por favor, fique conectado. Fique seguro e que Deus o abençoe.