Análise de dados - o que é retrocessão não linear? | Franz Buscha | Skillshare
Pesquisar

Velocidade de reprodução


1.0x


  • 0.5x
  • 0.75x
  • 1x (Normal)
  • 1.25x
  • 1.5x
  • 1.75x
  • 2x

Análise de dados - o que é retrocessão não linear?

teacher avatar Franz Buscha

Assista a este curso e milhares de outros

Tenha acesso ilimitado a todos os cursos
Oferecidos por líderes do setor e profissionais do mercado
Os temas incluem ilustração, design, fotografia e muito mais

Assista a este curso e milhares de outros

Tenha acesso ilimitado a todos os cursos
Oferecidos por líderes do setor e profissionais do mercado
Os temas incluem ilustração, design, fotografia e muito mais

Aulas neste curso

    • 1.

      Apresentação

      4:42

    • 2.

      O que é análise de regressão não linear?

      2:21

    • 3.

      Como funciona a regressão não linear?

      1:21

    • 4.

      Por que a análise de regressão não linear é útil?

      1:34

    • 5.

      Tipos de modelos de regressão não linear

      2:45

    • 6.

      Probabilidade máxima

      1:54

    • 7.

      O modelo de probabilidade linear

      5:40

    • 8.

      Transformação de logit e probit

      1:44

    • 9.

      Variáveis latentes

      2:38

    • 10.

      O que são efeitos marginais?

      2:41

    • 11.

      Variáveis explicativas de manequim

      2:45

    • 12.

      Regressão não linear

      3:17

    • 13.

      Bondade de ajuste

      5:39

    • 14.

      Uma nota sobre coeficientes de logit

      1:52

    • 15.

      Dicas para regressão de logit e probidade

      1:37

    • 16.

      Voltar ao modelo de probabilidade linear?

      2:13

    • 17.

      Stata - Exemplos de Logit e Probit

      18:30

  • --
  • Nível iniciante
  • Nível intermediário
  • Nível avançado
  • Todos os níveis

Gerado pela comunidade

O nível é determinado pela opinião da maioria dos estudantes que avaliaram este curso. Mostramos a recomendação do professor até que sejam coletadas as respostas de pelo menos 5 estudantes.

63

Estudantes

1

Projetos

Sobre este curso

Uma introdução fácil à regressão não linear na análise de dados

Aprender e aplicar novos métodos e técnicas podem ser uma experiência assustadora.

Este curso foi projetado para fornecer um curso compacto e fácil de entender, que se concentra nos princípios básicos de regressão na análise de dados.

Esta classe vai se concentrar no entendimento e aplicação de regressão não linear básica na análise de dados; especificamente logit e modelagem de probl.

Esta classe vai explicar o que é regressão e como funciona regressão Logit e Probit. Modelagem de Logit e Probit é frequentemente usado para analisar escolha e outros resultados discretos. Ambos os métodos apresentam conceitos importantes não lineares que são usados por métodos mais avançados.

O curso sem equações nem matemática. O foco desta classe é na aplicação e interpretação da regressão na análise de dados. O aprendizado neste curso é sustentado por gráficos animados que demonstram conceitos específicos.

Nenhum conhecimento prévio é necessário e este curso é para qualquer pessoa que queira se envolver com análise quantitativa.

Os principais resultados de aprendizagem são:

  1. Para aprender e entender a intuição básica por trás de regressão não linear

  2. Para estar à vontade com terminologia de regressão

  3. Para interpretar e analisar confortavelmente a saída de regressão logit/probit

  4. Para aprender dicas e truques

Tópicos específicos que serão abordados são:

    • Quais tipos de análise de regressão não linear

    • Como funciona a regressão não linear?

    • Por que regressão não linear é útil?

    • O que é a probabilidade máxima?

    • O modelo de probabilidade linear
    • Regressão de Logit e Probit

    • Variáveis latentes

    • Efeitos marginais

    • Variáveis manequim em Logit e regressão de probit

    • Estatísticas de bondade

    • Rácios estranhos para modelos Logit

    • Construção de modelos de Logit e Probit no Stata

    O software de computador Stata será usado para demonstrar exemplos práticos.

Conheça seu professor

Teacher Profile Image

Franz Buscha

Professor
Level: Beginner

Nota do curso

As expectativas foram atingidas?
    Superou!
  • 0%
  • Sim
  • 0%
  • Um pouco
  • 0%
  • Não
  • 0%

Por que fazer parte da Skillshare?

Faça cursos premiados Skillshare Original

Cada curso possui aulas curtas e projetos práticos

Sua assinatura apoia os professores da Skillshare

Aprenda em qualquer lugar

Faça cursos em qualquer lugar com o aplicativo da Skillshare. Assista no avião, no metrô ou em qualquer lugar que funcione melhor para você, por streaming ou download.

Transcrições

1. Introdução: Bem-vindo. A análise de dados pode ser difícil. Tantos métodos diferentes e tantas maneiras diferentes de analisar e interpretar dados podem dificultar o aprendizado. Nesta classe, quero lhe dar um esboço fácil e rápido de um método importante e análise de dados, regressão não linear. A chave para essa classe é que não há equações, nem matemática, nem pedaços complicados de conhecimento teórico. Para não dar uma explicação gráfica intuitiva do que é regressão não linear. E mostre uma série de exemplos práticos. Independentemente seu status de conhecimento profissional atual, você pode se sentir confiante em saber os prós e contras da regressão não linear após essa aula em particular. O que é regressão não linear? regressão linear é um método de regressão popular que é frequentemente usado e tentando modelar escolhas ou outros tipos de comportamento discreto. Muitas mensagens de regressão não linear disponíveis, regressão de logit por probit são as mais comuns. Ambos os métodos são quase idênticos. E vou me concentrar nesses dois porque eles são o método mais usado para analisar dados discretos. Eles também formaram uma base para métodos não lineares mais complicados. Regressão de propriedade e logit ou técnicas que examinam a relação entre uma variável binária e uma ou várias variáveis categóricas contínuas. Essas técnicas são usadas em muitas ciências diferentes. Muitas vezes, é usado para análise quantitativa de escolha e resultados discretos. Qualquer pessoa que deseje aprofundar o mundo da estatística de regressão deve ter um bom entendimento básico da modelagem de probate e logit. Um dos principais resultados de aprendizagem para aprender e entender a intuição básica por trás método de regressão não linear na análise de dados. E a terminologia associada e também os fundamentos para aprender a interpretar e analisar confortavelmente a saída de regressão não linear. Finalmente, talento algumas dicas e truques extras que o ajudarão. Análise integral. Para quem é essa classe? Esta classe tem como objetivo a dose ou começar suas carreiras e análise de dados pode ser praticantes, pessoas que trabalham em políticas governamentais e nos negócios, e aprofundar os alunos. Agora vamos contrastar. Esta é uma adição importante às habilidades básicas de regressão. O foco na modelagem não linear é um conceito um pouco mais avançado, mas é um conceito que é usado com muita frequência no mundo real. Que pré-reqs sem ajuda. Não há massa e você não precisa saber nenhuma matemática para acompanhar, tirar o máximo proveito desta aula. Você precisa dessa curiosidade. Algum estado e conhecimento podem ser úteis para a aplicação prática desta classe, mas isso não é necessário. Estado dos EUA e Stata é um programa de software estatístico que permite aos usuários estimar muitos tipos diferentes de modelos de regressão. Agora vamos usar este programa para demonstrar alguns exemplos de logit e probit. grande interesse em entender como os dados podem estar relacionados entre si. Muitas vezes, a análise de dados é sobre medir variáveis quantitativas. Podemos nos ver. Então, se você quiser saber como y está relacionado ao x, então este é o lugar certo para você. Usando o Stata. Usar o estator não demonstrou exemplos de regressão logit e probit afirmam que é um software estatístico comprável. E você pode descobrir mais em WW.State.com, muitas classes sobre como você pode usar dados. Você deve se interessar? Esta aula? Não vou ensinar dados. Vou me concentrar na interpretação da saída. Observe que a saída será muito semelhante a outros pacotes de software estatístico, como R ou SPSS. Se você usar dados por acaso e estiver interessado em replicar os exemplos dessa classe. Anexei um relevante para arquivos a essa classe. Dois arquivos são arquivos de sintaxe de status que contêm código que permitem replicar. Mas vou mostrar que você na tela usará o conjunto de dados de treinamento do NSW que vem incorporado com dados para exemplos práticos. Este é um conjunto de dados de treinamento que contém uma variedade de variáveis úteis e relacionamentos sobre os resultados do mercado de trabalho. Então, vamos prosseguir para a próxima seção e aprender mais sobre métodos de regressão não linear. 2. O que é a análise não linear de retrocesso?: O que é análise de regressão não linear? Assim como a análise de regressão linear, a análise de regressão não linear é uma técnica estatística que examina a relação entre uma variável dependente y e uma ou mais variáveis independentes X. Um termo alternativo usado para variável dependente é resultado, resposta ou variável endógena. Termos alternativos usados para variáveis independentes ou variáveis preditoras ou explicativas ou exógenas. Como modelos de regressão linear. Modelos de regressão não linear geralmente escrevem modelos na forma y igual a x, x1 mais x2 mais x3, etc O último termo será um termo de erro, geralmente denotado por E, que captura tudo que está faltando. Evitará escrever muitas equações neste curso. Vamos deixar essa expressão assim. As variáveis podem assumir várias formas e análises de regressão não linear. Eles podem ser contínuos. Em outras palavras, os dados podem ser medidos. Qualquer pessoa com uma linha numérica, muitos pontos decimais. Isso pode ser um formato inteiro, como 12 ou três. Os dados também podem estar em formatos binários, como 0 ou um. Às vezes, os dados são ordinais. Dados ordinais são dados categóricos classificados, como escalas likert. Finalmente, os dados também podem ser nominais. Estes são dados categóricos que são desembalados, por exemplo, diferentes modos de transporte. A principal diferença com a regressão linear é que para modelos de regressão não linear, a variável dependente geralmente não é contínua. regressão não linear é usada principalmente quando a variável dependente y é medida como uma variável inteira, binária, ordinal ou mesmo nominal. Isso obviamente se aplica a muitas variáveis na vida real. Essa é uma das razões pelas quais os métodos de regressão não linear são tão comuns. 3. Como funciona a Regression não linear?: Como funciona a regressão não linear? regressão não linear pressupõe que parâmetros variáveis com tardia à variável dependente de forma não linear. Muito parâmetros ou coeficientes é o que a análise de regressão estima. Por exemplo, y é igual a uma vez x. no mundo linear. Isso significa que para cada mudança de unidade em X, Y com aumento em uma unidade. No entanto, em um mundo não linear, não podemos ter certeza de qual é a mudança em y. A mudança em y depende do valor específico de x. Pode ser mais de um, ou pode ser menor que um. O valor exato dependerá do tipo de transformação não linear usada. Isso infelizmente torna a interpretação de modelos de regressão não lineares muito mais difícil. Os coeficientes de linha geralmente não têm interpretação razoável. É por isso que é importante entender como os coeficientes de modelos de regressão não lineares podem ser alcançados, transformados em algo útil. Muitas vezes, isso é feito usando o cálculo de efeitos marginais. 4. Por que a análise de repressão não linear é útil?: Por que a análise de regressão não linear é útil? Como regressão linear? regressão não linear é usada para responder a perguntas que requerem evidências quantitativas. Assim como a regressão linear, ela nos permite examinar o efeito de uma variável explicativa sobre uma variável dependente, controlando outros fatores. É usado para testes de hipóteses e para previsões. Muito parecido com a regressão linear. No entanto, a regressão não linear tem uma vantagem significativa com certos tipos de dados. Especificamente, isso nos ajuda a evitar uma previsão fora dos limites. Por exemplo, se uma variável dependente for medida como uma variável binária, em outras palavras, 0 ou uma, a regressão linear pode prever probabilidades maiores que uma ou menos que 0. Mas como podemos ter menos de 0 por cento de chance de fazer alguma coisa? Alternativamente, variáveis dependentes, como o tempo, exigem apenas previsões positivas. Se alguém tiver dado o medicamento, quanto tempo ele viverá? Bem, no mínimo, deve ser 0 ou mais, certo? Portanto, as previsões não devem estar abaixo de 0 desses modelos. Transformações não lineares, e com certeza que não prevemos absurdos de nossos modelos de regressão. 5. Tipos de modelos de repressão não lineares: Que tipos de modelos de regressão não linear existem? Muito na verdade, embora sejam modelos de regressão linear, como quadrados comuns, permaneceram o método de regressão mais comumente usado. Acontece que muitos métodos de regressão populares são realmente não lineares. O exemplo mais famoso de regressões não lineares provavelmente são modelos de regressão logit e probit. Estes são modelos de regressão para variáveis dependentes binárias. A variável dependente geralmente é medida como 0 ou uma. Exemplos comuns incluem decisões de votação, estar desempregado na realização educacional, escolher fazer alguma coisa, etc. Os modelos Logit e probit usam transformações não lineares para garantir que as previsões do modelo fique dentro do limite 01. Ambos os modelos são muito semelhantes, mas você transformações não lineares ligeiramente diferentes. Para analisar variáveis dependentes que ordenaram categorias, como escalas Likert. Muitas vezes, usamos modelos de logit e probit solicitados. Estes são muito semelhantes aos modelos logit e probit e usam transformações não lineares semelhantes. O truque adicional que esses modelos usaram é incluir pontos de corte em sua modelagem, que estimam onde as decisões são cortadas para que as previsões em diferentes categorias possam ser feitas. Outra classe de modelos não lineares em modelos logit multinomiais. Eles são frequentemente usados quando uma variável dependente consiste em categorias não ordenadas ou nominais. Um exemplo famoso inclui quais modos de transporte as pessoas tomam, o ônibus, o carro ou o trem. Observe que modelos de probit multinomiais existem, mas não são usados com frequência. No entanto, modelos não lineares para não só trabalhar em modelos de escolha categórica, alguns tipos de dados exigiam que as previsões fossem limitadas entre 0 e infinito positivo. Em outras palavras, o modelo não deve prever valores negativos. Exemplos incluem modelos de regressão de contagem e modelos de regressão de tempo. Ambos exigem transformações para que as previsões desses modelos não sejam negativas. Os modelos de regressão binomial de Poisson e negativo. Exemplos comuns de dados de contagem. Uma vez que o modelo de risco proporcional Cox é um exemplo comum, quando o tempo é a variável dependente em uma regressão. 6. Máxima probabilidade: Máxima probabilidade. Embora os quadrados ordinariamente estimados resolvendo as equações de mínimos quadrados, maioria dos modelos não lineares é estimada usando a máxima probabilidade. máxima probabilidade é um método numérico que estima o valor dos parâmetros. Após maior probabilidade de gerar a amostra observada de teta. probabilidade máxima geralmente é estimada iterativamente, que significa que o computador executa muitos cálculos para restringir os melhores parâmetros possíveis. Não vou explicar essa técnica em muitos detalhes. Mas aqui estão algumas dicas básicas que devem ser observadas ao lidar com a estimativa de máxima verossimilhança. máxima probabilidade deve ser usada quando as amostras tiverem mais de 100 observações, 500 ou mais observações é melhor. Mais parâmetros exigem mais observações. Uma regra geral é que pelo menos dez observações adicionais por parâmetro extra parecem razoáveis. No entanto, isso não implica que mínimo de 100 observações não seja necessário. estimativa de máxima verossimilhança é mais propensa a problemas de colinearidade. Muito mais dados são necessários se as variáveis explicativas forem altamente colineares entre si. Além disso, variará na variável dependente. Em outras palavras, muitos resultados em um ou 0 também podem levar a uma estimativa ruim. Finalmente, alguns modelos de regressão com funções complexas de máxima verossimilhança requerem mais dados, testá-los e modelos de carga são menos complexos. Modelos como modelos logit multinomiais de muito complexos. 7. O modelo de assinatura linear: Modelo de probabilidade linear. Vamos dar uma olhada e explorar por que a regressão não linear pode ser útil examinando o modelo de probabilidade linear. O modelo de probabilidade linear é uma regressão padrão ordinariamente quadrados aplicada a um modelo que a variável dependente y é binária. Mas antes de continuarmos, observe o seguinte. O modelo de probabilidade linear é frequentemente usado para demonstrar que o ponto é uma má ideia executar regressão linear por meio de dados categóricos. No entanto, muitas vezes os resultados do modelo de probabilidade linear serão muito semelhantes aos efeitos do módulo final de um modelo logit ou probit. Vou demonstrar isso mais tarde. Mas, por enquanto, esteja avisado de que, embora muitas vezes afirmemos que o modelo de probabilidade linear está errado, a verdade provavelmente é mais complexa. Pode ser surpreendentemente útil quando usado com a quantidade certa de conhecimento. Além disso, esteja ciente de que, se você decidir usar o modelo de probabilidade linear, você precisa usar erros padrão robustos, pois o modelo de probabilidade linear causa heteroscedasticidade. Imagine por um momento que temos um conjunto de dados muito simples que contém apenas duas variáveis, y e x. Estamos interessados na relação entre y e x. Imagine que y também seja medido como um binário variável, 0 ou uma, e x é medida como uma variável contínua. Antes de irmos mais longe, vamos ver como isso ficaria em um gráfico. Seria algo parecido com isso. Cada observação contínua x está associada a uma observação de 0 ou um fio. Um gráfico de dispersão desses dados provavelmente não é a melhor maneira de visualizar esse tipo de dados. Mas tenha cuidado comigo porque o tamanho da amostra não é enorme, podemos apenas descobrir que as observações aqui com valores mais altos de X são mais propensas a ter um valor de y igual a um. Embora observações com valores mais baixos de x pareçam mais propensas a ter um valor y de 0. Isso nos diz que parece haver uma relação positiva entre x e y. Aumenta o próximo lead para uma maior chance de y ser um. Até agora, tão bom. Mas é claro, fazer isso visualmente como seus limites. Não sabemos qual é a relação exata entre y e x. Poderíamos traçar a relação entre y e x usando um ajuste não paramétrico. Portanto, esse método nos diz claramente que há uma relação positiva entre y e x. Inicialmente, o relacionamento é inexistente. E então, com um certo valor de x, o relacionamento se torna positivo. Depois de um certo valor maior de x, o relacionamento se achata novamente e se torna inexistente. Ótimo. No entanto, já discutimos os problemas com não paramétricos em um curso anterior. Queremos ser capazes parametrizar a relação entre y e x que podemos compará-la com outros dados ou fornecer essas informações a outra pessoa. Como podemos fazer isso? Uma maneira é usar quadrados comuns e executar uma regressão linear simples em todos os dados que resultaria em algo parecido com isso. O ajuste linear estabelece claramente uma relação positiva entre y e x. O coeficiente de inclinação estimado dessa regressão tem aproximadamente 0,23. Em outras palavras, para cada unidade aumenta em x, a probabilidade de Y ser um aumenta em 23 pontos percentuais. Ótimo. Em seguida, vamos traçar os valores previstos estimados de y a partir do nosso modelo de regressão simples. Parece ser um problema com nosso modelo. As previsões do nosso modelo de regressão linear resultam em três observações, tendo um valor y previsto acima de 11 observações, tendo um valor y previsto abaixo de 0. Esse é o problema do modelo de probabilidade linear. Sua natureza linear, por definição, prevê valores fora dos nossos limites. Isso não faz sentido. Esses resultados são sem sentido. Não é possível ter uma probabilidade de votar no partido a de 120%. Infelizmente, não importa qual seja a relação entre y e x, qualquer relação linear irá, em algum momento prever valores y que saem da rejeição. E este exemplo aqui, desenhei uma inclinação de regressão um pouco mais rasa entre esses dados. Mas você ainda pode ver que em algum momento ele sairá dos limites. Não há escapar desse problema com regressão linear. Algo sempre estará um pouco errado. Claramente, precisamos de um tipo de modelo melhor. 8. O Logit e a transformação de Probit: A transformação logit e probit. A resposta é usar um modelo não linear. Especificamente neste caso, precisamos usar algum tipo de transformação que torne a relação linear entre y e x não linear. As duas transformações mais usadas para nosso problema anterior, a transformação logit e probit. Ambas as transformações garantem que a relação entre y e x permaneça limitada em 01. Em outras palavras, não pode haver previsões fora dos limites desses modelos de regressão. matemática vincula essas transformações pode parecer um pouco complexa. Vamos explorar as duas transformações visualmente. Aqui está a relação estimada entre Y e X de um ajuste logit e probit. Você pode ver que ambos são muito semelhantes em como eles se relacionam y e x juntos. Em geral, ambos têm uma forma muito semelhante e oferecem o mesmo tipo de previsões. Muitas vezes, há muito pouco motivo para preferir um em detrimento do outro. E ambos são usados com frequência. No trabalho aplicado. Ambos os modelos preveem valores y que agora estão limitados entre 01. Dê uma olhada. Os valores previstos de Y da regressão logit e probit permanecem dentro do limite 01 de y. Fantástico. Parece que resolvemos nosso problema. A probabilidade linear está fora e os modelos não lineares estão inseridos. 9. Variáveis latentes: Variáveis latentes. Modelos não lineares em geralmente mais difíceis de interpretar do que modelos lineares. Deixe-me explicar o porquê. Muitos modelos não lineares, como modelos logit e probit, assumem que há um processo linear na linha, cada variável dependente. O que isso significa? Bem, imagine sua decisão de comer, comer, não comer. Como você decide? Os modelos Logit e Probit assumem que sob sua decisão de comer ou não comer há uma escala de fome contínua e infinita. Se você não está com fome, você não come. Se você está com um pouco de fome, você não precisa. Se você está um pouco mais com fome, você ainda só. Mas em algum momento sua fome se torna demais e você decide comer. É assim que os modelos logit e probit funcionam. Eles assumem que cada decisão de escolha é a realização de pessoas passando algum ponto de corte invisível em um processo contínuo oculto. Chamamos esse processo de processo latente. Muitas vezes, denotamos esse processo com uma variável chamada estrela y. Em nossas equações, estrela y será uma função de muitos fatores. Por exemplo, se a estrela y estiver com fome, pode ser uma função do exercício. Se o exercício for medido x, a relação entre exercício e fome pode ter um coeficiente positivo de um. No entanto, a estrela y está sempre escondida de nós. Nós não vemos isso. Nunca podemos observar esse processo. Para tornar as coisas mais difíceis. É com isso que os coeficientes logit e probit se relacionam. Eles recuperam coeficientes relacionados à estrela y. Isso significa que sondar e coeficientes lógicos não têm interpretação natural. Eles simplesmente não fazem sentido. Um aumento de uma unidade em x levará a um aumento de uma unidade na fome invisível. Isso não faz sentido. O que observamos? Observamos a realização da estrela y, muitas vezes chamada y. Em outras palavras, alguém comeu ou não? Para descobrir como x está relacionado à realização da escolha, precisamos transformar os coeficientes de modelos não lineares, como regressão logit e probit em algo útil. Isso geralmente é feito usando efeitos marginais. 10. Como são os efeitos marginais?: O que são efeitos marginais? Efeito marginal ou coeficientes de inclinação às vezes também são chamados de efeitos parciais. Na regressão linear, coeficientes estimados são efeitos marginais. Isso porque eles têm uma inclinação constante que não muda. Cada aumento de uma unidade em x leva a uma alteração Beta em y. No entanto, em regressão não linear, como probit ou regressão carregada, as inclinações variam constantemente. Não há um único efeito moderno. É por isso que devemos calcular os efeitos do módulo em pontos específicos. É por isso que devemos calcular os efeitos marginais em determinados pontos. Dois tipos de cálculos são os mais populares. Efeitos calculados na média de x e o efeito médio de todos os efeitos calculados ao longo de cada ponto de x. Estes são os efeitos marginais mais comuns da prática. Mas os usuários também podem escolher qualquer outro ponto que faça sentido para eles. Deixe-me demonstrar isso visualmente. Aqui estamos de volta com um de nossos ajustes não lineares de y contra x. Neste caso, o ajuste é um ajuste probit. Cada ponto de dados tem um valor previsto de y. Ao longo desse ajuste, observamos que, à medida que x aumenta, a probabilidade de Y ser um. Também observamos que a relação entre x e y não é linear. Para entender o efeito de x em y, calculamos o efeito marginal, efeito marginal em uma inclinação nos respectivos pontos de x. Como você pode ver, a inclinação muda constantemente. Em valores baixos de x, a relação entre y e x é quase plana. Aplicativo, valores médios de x. O relacionamento é fortemente positivo. Em valores altos de x, a relação é plana. Mais uma vez. Precisamos escolher algum valor de x onde calcular nossos efeitos de módulo. A média de x geralmente é um bom valor. Neste caso particular, o coeficiente de inclinação é de aproximadamente 0,30. Isso significa que o efeito de X em Y é o seguinte. Uma mudança de uma unidade em x causa um aumento de 30 pontos percentuais na probabilidade de Y ser um. Apenas lembre-se, o relacionamento não se mantém em todos os valores de x. Em valores mais altos de x. Aumentos adicionais em x leva a aumentos muito menores em y sendo um. 11. Variáveis explicativas de mutilações: Variáveis explicativas fictícios. Até agora, estabelecemos que os coeficientes que saem de um modelo não linear exigem um pouco de trabalho extra para dar sentido. No entanto, só analisamos uma única variável contínua. Para ser preciso, analisamos o modelo ao longo das linhas de y igual a Beta X mais um termo de erro, onde x é uma variável que é medida continuamente. E se incluirmos uma variável fictícia adicional em nosso modelo? Em outras palavras, queremos estimar o modelo ao longo das linhas de y igual a Beta X mais beta uma variável fictícia mais uma hermética. Variáveis fictícios são variáveis binárias que muitas vezes levam os números 0 ou um bit, como nossa variável dependente y. Em regressão linear, coeficientes em variáveis fictícios, às vezes chamados de mudança de interceptação coeficiente porque eles mudam o intercepto. Em outras palavras, eles movem toda a relação entre x e y para cima, para baixo. No entanto, em modelos não lineares, seu efeito não é constante. Eles ainda mudam a relação não linear entre Y e X para cima ou para baixo, mas o tamanho do turno não é constante. Deixe-me mostrar isso graficamente. Neste exemplo, continuamos a ajustar um ajuste não linear em nossos dados observados. Y é medido como um ponto de variável e X é medido continuamente. No entanto, o modelo real abaixo é de um modelo de regressão também inclui uma variável fictícia. Variáveis fictícios atuam como uma mudança de interceptação. Observações com um valor fictício de um. Digamos, estes representam homens, têm uma maior probabilidade de observar um valor y de um para qualquer valor dado de x. No entanto, como pode ser visto claramente aqui, o tamanho desse efeito varia dependendo de onde estamos . Em valores baixos de x, o efeito da variável fictícia é quase insignificante. Valores médios de x, a diferença entre as duas curvas é alta. E, finalmente, em valores altos de x, o efeito da variável fictícia diminui. E, novamente, tudo isso faz sentido. Isso ocorre porque continuamos vinculando nossa relação entre y e x entre 01 através da transformação logística não linear, neste caso,. Portanto, qualquer efeito gradual de uma variável fictícia também deve ser não-linear para continuar a garantir que não saiamos dos limites com nossas previsões. 12. Regressão não linear: Regressão não linear múltipla. Finalmente, e quando temos um modelo de regressão com múltiplas variáveis de país contínuas? Como isso funciona? Vamos pegar nosso modelo anterior com uma variável fictícia e simplesmente adicionar outra variável explicativa contínua, vamos chamá-lo de x2. Isso nos dá um modelo ao longo das linhas de y igual a Beta vezes x1 mais beta vezes x2 mais tipos Beta de variável fictícia. A principal coisa a entender sobre regressão não linear múltipla é que o efeito de cada beta, ou muito, não apenas de acordo com o valor de x que estamos fora. Isso também em que valor de outro eixo. Considerando que, em outras palavras, o efeito de cada página que dependerá do valor de cada x, não apenas da variável em questão. Na prática, muitas vezes medimos a inclinação de cada coeficiente do valor médio da bola no eixo. Isso pode ser difícil de compreender. Então, novamente, deixe-me mostrar a você uma visualização de um modelo logit com duas variáveis contínuas e uma variável fictícia. Aqui está uma visualização do modelo de regressão logit acima mencionado. Nossos dados consistem em uma variável independente que leva apenas os valores 01. Ou seja, no gráfico à esquerda, esses dados são distribuídos no teto e no chão da imagem tridimensional. Desatualizado também consiste em duas variáveis explicativas contínuas, X1 e X2. Ambos têm uma relação positiva com Y. Mas é muito difícil descobrir isso no nosso gráfico de dispersão. No gráfico à direita, plotamos os valores previstos de uma regressão logit. Enquanto um modelo de regressão linear, como quadrados ordinariamente, tenta ajustar planos lineares tenta ajustar planos lineares de melhor ajuste através desses dados. regressão Logit se encaixa em planos não lineares de melhor ajuste por meio desses dados. No entanto, a dor logit do best-fit não é apenas não linear em relação a apenas uma variável x. A inclinação do plano muda acordo com ambas as variáveis X. Especificamente, o valor de ambos os x's determinará a relação entre X1 e Y, também x2 e y. Tudo isso pode ser um conceito bastante complicado de entender. Se adicionarmos mais variáveis explicativas, tudo isso se move para dimensões mais altas. Finalmente, o efeito da variável fictícia também é visualizado. Aqui. Temos dois planos de melhor ajuste neste gráfico. Um plano é para todos os valores de 0 para a variável fictícia, e o outro plano é para o nos valores de um para a variável fictícia. Acho óbvio ver o quão difícil pode ser dar sentido a esses modelos. É basicamente impossível. 13. Bondade: Bondade de ajuste. Agora que temos uma compreensão razoável de como a regressão não linear, como os modelos de regressão logit e probit funcionam. Vamos falar sobre como medir se esses modelos de regressão se encaixam bem nos dados. Valores tradicionais do quadrado R de quadrados comuns não existem para modelos não lineares. Não há cálculo de soma de quadrados proveniente desse tipo de modelos. Isso significa que não podemos calcular quanta variância é explicada e inexplicada. Outras formas de medir o ajuste necessário. Muitos pacotes de software computam algo chamado pseudo-R-quadrado. Isso tenta imitar o diagnóstico da bondade do ajuste primeiro estimando um modelo chamado nulo. Não modal é um modelo sem variável explicativa e apenas uma constante. Segundo modelo com covariância total é então estimado. E a comparação da função log-verossimilhança é feita. A proporção de quanto melhor é o modelo completo, é então fornecida como um pseudo-R quadrado. Pode ser uma estatística útil, mas nunca deve ser considerada semelhante ao tradicional zero quadrado. Há algum perigo aqui. Outra maneira de calcular a qualidade do ajuste é olhar para algo chamado tabela de classificação. A tabela de classificação atribui valores previstos do modelo para 0 ou um. Valores previstos para b1 e na verdade um seriam classificados como corretos. Da mesma forma, os valores que são previstos como 0 e, na verdade, 0 também são classificados corretamente. Quaisquer outros valores seriam classificados como incorretos. A proporção de valores classificados corretamente serve como um indicador de quão bem o modelo se ajusta aos dados. Aqui está um exemplo de uma tabela de classificação do Stata. Muita saída acontecendo aqui. Então deixe-me explicar o que está acontecendo. Na parte superior, vemos um modelo de regressão logística de arquivo de tabela de classificação. Temos um total de 100 observações. Destas 63 observações são classificadas como 137 observações são classificadas como 0 das 36 observações classificadas como 145. Valores reais de um nos dados da linha. 18 têm 0 valores. Da mesma forma, para aqueles com uma previsão de 011, na verdade não uma vez nos dados, e 26 são zeros nos dados mundiais. Em seguida, um total de 71 das 100 observações foram previstas corretamente. Podemos ver na parte inferior, 71% das observações estão corretamente classificadas. Um valor mais alto indica um modelo logit ou probit melhor ajustado. Geralmente, valores acima de 80 ou 90, ou excelentes. Os valores nos anos 70 são bons. Os valores nos anos 60 estão bem. E valores nos anos 50 e indicam um modelo de ajuste ruim. Lembre-se de que simplesmente rolando os dados, poderíamos esperar classificar 50% dos valores corretamente. Portanto, 50% devem ser vistos como a linha de base aqui. Existem algumas outras estatísticas nesta tabela, mas todas são apenas variações de um tema. No entanto, há um último item a ser observado. A classificação depende de um valor de corte. Meu padrão. Por padrão, muitos programas usam 0,5. Em outras palavras, valores acima de 0,5 são previstos como um e valores abaixo de 0,5 são previstos como 0. Isso é arbitrário. Digamos que o valor de 0,5 parece fazer sentido lógico. O valor do ponto de corte pode ser alterado. Isso resultará em ajustes de modelo completamente diferentes. Aqui está um exemplo disso. Neste vídeo, estou demonstrando o impacto na estatística de qualidade do ajuste alterando o corte de classificação. O gráfico mostra os pontos de dados da ala de uma regressão de uma variável y binária contra uma variável x contínua. Um modelo logit é estimado. Os valores previstos são plotados. Os valores vermelhos são classificados como 0 e os valores verdes são classificados como um. Valores de cinza, ligeiramente ampliados para melhor efeito visual. Denote valores classificados incorretamente. O ponto de corte inicial para classificar variáveis é definido em 0,5. Agora, vamos em frente e mudar isso. Podemos ver que, à medida que movemos o valor do ponto de corte entre 01, a proporção de pontos de dados corretamente classificados muda drasticamente. Em outras palavras, essa medida de bondade de ajuste está sujeita ao que pensamos ser o ponto de corte certo para classificar os pontos de dados. Isso nunca poderia acontecer em um modelo de regressão linear normal. Meu conselho pessoal é ficar com 0,5, a menos que haja motivos muito específicos para fazê-lo. Um motivo pode ser dados muito distorcidos. Por exemplo, se uma variável dependente binária tiver uma proporção muito alta ou baixa de uma. 14. Uma nota sobre os coeficientes do Logit: Uma nota sobre os coeficientes logit. coeficiente de probito não tem uma interpretação natural, pois se relaciona com o escore latente subjacente de uma variável dependente, que por definição é sempre invisível e oculta. No entanto, os coeficientes Logit têm uma interpretação natural. Graças a uma peculiaridade de matemática. Para modelos logit, os coeficientes estimados podem ser interpretados como um aumento de unidade em x causa um aumento beta nas chances de log de y ser um. Essa interpretação natural tem algum significado, mas a parte das probabilidades de log ainda pode ser um pouco estranha. Para superar isso, podemos exponenciar coeficientes de cargas de modelo. Isso permite que os coeficientes de logit o interpretem como probabilidades. Probabilidades. Especificamente, as razões de chances ainda são interpretadas complexas, mas isso significa que os usos são capazes de evitar o cálculo de efeitos marginais. Podemos interpretar um coeficiente logit exponenciado da seguinte forma. Para uma mudança de uma unidade em x, espera-se que as chances mudem por um fator de Beta, mantendo todo o resto, constante. As razões de chances têm uma base de uma quando as probabilidades são semelhantes. Portanto, se a pizza estiver acima de uma, podemos dizer que as probabilidades beta vezes maiores, a beta está abaixo de uma. Podemos dizer que as chances são beta vezes menores. No entanto, lembre-se de que, embora as probabilidades tenham algum significado, elas não revelam a magnitude da mudança na probabilidade de resultado. Somente efeitos marginais podem fazer isso. 15. Dicas para iniciar o Logit e Regression de projetos: Dicas para regressão logit e probit. Em que estado os requisitos para modelos não lineares tendem a ser maiores do que para modelos lineares. Deve-se notar que os modelos de regressão de teste e logit são muito robustos até mesmo pequenas amostras e variação de escala. Em outras palavras, enquanto modelos como modelos logit multinomiais exigem muitos dados, regressão logit e probit pode ser feita com um tamanho amostral muito menor. Muitas vezes, há muito pouco motivo para escolher entre modelos logit ou probit. Ambos os resultados. Ambos resultam em previsões muito semelhantes e efeitos marginais semelhantes. No entanto, uma das razões pelas quais algumas pessoas gravitam naturalmente em direção aos modelos de carga é a flexibilidade extra da interpretação das probabilidades de seu coeficiente. coeficientes Rho logit geralmente são 1,7 vezes maiores que a guerra, provavelmente coeficientes para o mesmo modelo. No entanto, os efeitos marginais serão muito semelhantes. Geralmente, é uma boa prática relatar efeitos marginais na média de todas as outras variáveis ou os efeitos marginais médios. Seria estranho não denunciá-los quando você usa esses modelos. No entanto, às vezes, computação de efeitos de modelo pode ser intensiva. Existem duas maneiras de superar isso. Coeficientes brutos dos modelos logit e probit. Eles permitirão que os usuários interpretem o tamanho relativo e o significado do sinal. Ou pode-se resultar em um modelo de probabilidade linear. Deixe-me explicar o porquê. 16. De volta ao modelo de Probabilidade linear?: De volta ao modelo de probabilidade linear. Começamos este curso com um exemplo claro de por que um modelo de probabilidade linear geralmente é uma má ideia. No entanto, acontece que há um forro prateado. Modelos de probabilidade linear geralmente produzem os mesmos efeitos marginais os efeitos marginais da regressão logit e probit. Se a maioria das variáveis no modelo de regressão tiverem dados normalmente comportados, cálculo de efeitos marginais geralmente produzirá as mesmas estimativas de inclinação que as estimativas de inclinação de um padrão regressão linear. Em outras palavras, é possível usar genuinamente modelos de probabilidade linear para calcular efeitos marginais para regressões com variáveis dependentes binárias. Isso pode ser realmente útil para situações em que o tempo computacional precisa ser reduzido. Alternativamente, pode ser útil para modelos complicados de regressão não linear, como modelos carregados de dados em painel para as complexidades matemáticas tornam cálculo do efeito marginal extremamente difícil. Aqui está um exemplo do que quero dizer. Aqui, estou usando o Stata para estimar uma regressão logística entre Y e X. E o coeficiente logit sai em torno de 1,26. cálculo do efeito marginal médio produz um resultado de cerca de 0,24. Em outras palavras, o fator marginal médio é que um aumento de uma unidade em x leva a um aumento de 24 pontos percentuais na probabilidade de Y ser um. Agora, vamos dar uma olhada nisso. Normalmente, quadra a regressão usando o mesmo modelo. E esse modelo estima um coeficiente de 0,23. Em outras palavras, uma mudança de uma unidade em x leva a um aumento de 23 pontos percentuais na probabilidade de Y ser um. Isso é quase idêntico ao modelo logit e destaca a utilidade potencial de um modelo de probabilidade linear. 17. Stata — exemplos de Logit e Probit aplicada: Vamos explorar alguns desses conceitos que estamos discutindo em um ambiente aplicado. Estamos agora no estator, que é um pacote de software estatístico comumente usado para analisar conjuntos de dados quantitativos. É semelhante a outros pacotes, como SPSS ou SAS. Não explicarei como operar estator ou o código que estou executando. Para obter esses resultados. Você pode aprender mais sobre o estator em estados ou cursos específicos. Já abri um conjunto de dados de treinamento chamado National Longitudinal Survey of Women em 1988. Vamos examiná-lo um pouco mais de perto antes de começarmos a executar regressões. Vamos começar com uma descrição dos dados. O retorno de saída por descreve os produtores informações de alto nível sobre os dados, como onde estão localizados, quantas observações e variáveis estão incluídas e seu tamanho. Nesse caso, nossos dados contêm 2246 observações e 17 variáveis. Esse é um tamanho amostral justo. Mas conjuntos de dados modernos tendem a ser muito maiores. Abaixo, estão informações sobre as variáveis. Ou as variáveis são medidas como variáveis numéricas. Enquanto alguns são medidas duas precisões diferentes. Não há variáveis de string nesses dados. As variáveis ou relacionadas aos resultados do mercado de trabalho de uma amostra de mulheres de 35 a 451988. Temos informações sobre suas idades, salários , ocupação, educação e muito mais. Bom. Agora vamos fazer um resumo rápido. Resumir nos fornece algumas estatísticas básicas para cada variável, como a contagem de observações, a média, o desvio padrão e os valores mínimo e máximo. A varredura dos dados revela que a maioria montanhosa parece normal para o que esperaríamos. A idade média é 39 anos e 64% da amostra são casadas. salários parecem bons. Embora saibamos que a variável Union tem observações ausentes. Agora, vamos fingir que estamos realmente interessados em explicar o determinante da filiação sindical. Já podemos começar a construir uma imagem em nossa cabeça de quais variáveis podem ser importantes explicar a escolha de ser um membro do sindicato. É improvável que os salários e a educação sejam fatores importantes. Talvez h2. Na verdade, muitas das variáveis aqui podem ser fatores importantes para determinar a decisão de alguém de ser um membro do sindicato. Para manter as coisas fáceis, isso inclui apenas um pequeno número de variáveis para começar. Vamos escolher idade, salário, casado e faculdade, graduar como nossas variáveis. A variável Union parece ser medida como uma variável binária. Vamos confirmar isso com uma tabulação. De fato, a variável é medida como uma nova variável de celeiro e 24,5 por cento dos membros da nossa amostra de um sindicato. Em seguida, vamos traçar a união variável, novamente, auto primeira variável na lista, idade. Este é um bom exemplo de por que uma análise gráfica de dados binários pode ser difícil. Não podemos ver nada aqui. Fora isso. Para cada ano de idade, há membros sindicais e membros não sindicais. Poderíamos desenhar um polinômio local mais suave através de seu enredo para obter uma melhor compreensão de como é a relação entre a idade e ser um membro do sindicato. Não se parece com isso. Existe uma relação particularmente forte entre idade e filiação sindical. Para fins de demonstração, vamos agora estimar uma relação paramétrica. O uso de um modelo logit só usará a idade como uma variável explicativa. Por enquanto. saída de regressão de logit de status parece muito semelhante à de uma saída de regressão padrão normalmente quadrados. As informações diagnósticas são apresentadas no topo e os resultados são apresentados abaixo disso. No topo dos resultados, vemos o processo de máxima probabilidade ocorrendo. Stator, calcule vários modelos com diferentes parâmetros e estimativas. Uma log-verossimilhança, em seguida, converge o melhor conjunto de parâmetros que oferecem a menor verossimilhança de registro. Como os modelos logit e probit são tão bem desenvolvidos, não são necessárias muitas iterações para alcançar um conjunto final de resultados. A verossimilhança final é apresentada aqui. Em seguida, temos informações sobre a contagem de observações e uma estatística qui-quadrado da razão de verossimilhança. Essa estatística é semelhante a um teste F para modelos lineares e nos diz que o modelo explica algo ou não. Nesse caso, a resposta não é uma vez que o valor-p da estatística qui-quadrado está muito acima de 0,05. Em seguida, o pseudo-R quadrado, que confirmou ainda que este é um ajuste terrível. O que nunca se deve traduzir isso como sendo análogo às estatísticas lineares R-quadrado. Um valor de 0,0001 é extremamente vinculado. Na seção de resultados, vemos por que o coeficiente na idade é muito pequeno. O erro padrão é alto. A estatística z associada é análoga à estatística t em regressão linear. Valores acima de 1,96 implicam significância estatística para amostras de tamanho razoável. O valor-p também tem o mesmo significado que para modelos lineares. Valores de 0,05 ou abaixo são estatisticamente significativos no nível de 95%. Tanto a estatística Z quanto o valor de p mostraram que a variável h é muito insignificante estatisticamente. Para ilustrar ainda mais isso, podemos calcular as probabilidades previstas de filiação sindical a partir desse modelo e traçar isso em nosso gráfico. Os pontos azuis representam os pontos de dados brutos e os pontos vermelhos representam as probabilidades previstas de filiação sindical. O resultado é que praticamente não há relação entre idade e filiação sindical. É difícil de ver, mas a relação prevista aqui ainda é não-linear. É que a parte não linear neste bit dos dados é tão plana que dificilmente podemos vê-la. Se previssemos essa relação em faixas de idade mais altas, poderíamos ver a transformação do logit. Aqui está. Usando uma faixa etária de menos 10000 a mais 1 mil, revela uma relação não linear entre idade e associação sindical a partir desse modelo logit específico. Obviamente, isso não faz muito sentido. Estamos prevendo muito fora dos limites. Além disso, idades abaixo de 0 ou não é possível. Vamos voltar ao nosso modelo logit e adicionar mais algumas variáveis. Sabemos que a idade não é estatisticamente significativa. Mas, a menos que haja um problema com o tamanho da amostra, meu conselho geralmente não exclui variáveis estatisticamente insignificantes. O motivo é que o controle de novas variáveis adicionais pode tornar variáveis anteriores estatisticamente significativas. Mais uma vez, vamos dar uma olhada. Adicionaremos salários, casados e graduados universitários como outras variáveis explicativas ao nosso modelo. O modelo agora tem uma estatística qui-quadrado de 48, o que é estatisticamente significativo. Isso significa que nossas variáveis explicam algo. Pseudo R quadrado é 0,023, o que é muito melhor do que antes. No entanto, ainda parece baixo valor. Vale a pena explorar isso ainda mais com uma tabela de classificação. O momento. Primeiro, observando os resultados, vemos que duas variáveis são estatisticamente significativas no nível 95%, salário e pós-graduação universitária. Uma variável, casada, é estatisticamente significativa. No nível de 10%. Os coeficientes atualmente apresentados são difíceis de interpretar, mas podemos inferir tamanho, sinal e significado. Os salários estão positivamente relacionados à probabilidade de ser um membro do sindicato. Ser graduado na faculdade também está positivamente relacionado. Ser casado está negativamente relacionado a ser um membro do sindicato. Formado universitário e casado. Variáveis explicativas fictícia. Assim, podemos inferir que o efeito de ser um graduado universitário é mais forte do que o efeito de ser casado. Isso ocorre porque o coeficiente absoluto de pós-graduação é em torno de 20% maior que o coeficiente de casados. Para entender os coeficientes de uma maneira mais significativa, normalmente calcularíamos efeitos marginais. Isso pode ser feito facilmente e estados e, por padrão, estado para calcular os efeitos marginais médios. Em outras palavras, todas as inclinações em todos os valores de x e, em seguida, médias. Estes aqui estão os resultados. Os estados são calculados os efeitos marginais médios relação a todas as variáveis. O efeito da idade é insignificante, mas a interpretação da estimativa é a seguinte. Em média, um aumento de uma unidade na idade aumenta a probabilidade de filiação sindical 0,1 ponto percentual. O salário também é uma variável contínua. A interpretação é, em média, um aumento de uma unidade. No salário por hora aumenta a probabilidade de adesão sindical em 1,2 pontos percentuais. Casados e universitários, ou variáveis fictícios. Assim, eles podem ser interpretados como, em média, ser casado diminui a probabilidade de filiação sindical em 3,9 pontos percentuais. Em média. Ser graduado na faculdade aumenta a probabilidade de adesão ao sindicato em 4,6 pontos percentuais. Ótimo. Também podemos calcular efeitos específicos de módulos para responder a perguntas sobre como pessoas específicas podem ser afetadas pela mudança em x. Por exemplo, o efeito de se casar na filiação sindical é menos cinco pontos percentuais. Para mulheres que têm 40 anos com formação universitária e um salário de US $30 por hora. Em seguida, vamos explorar a bondade do ajuste um pouco mais perto. O pseudo valor R quadrado foi 0,0231. Ao chamar uma tabela de classificação, podemos obter mais informações. A regressão logit do arquivo da tabela de classificação mostra que classificamos 75% das observações corretamente. E isso parece ser um número muito bom. Mas é importante examinar a tabela de classificação com mais detalhes. Embora nosso modelo tenha feito um bom trabalho de prever 0 valores que são realmente 0, é um trabalho muito ruim prever valores positivos. Prevê-se que apenas 20 observações sejam membros do sindicato. Sabemos de nossas estatísticas resumidas cerca de 450 observações. Na verdade, membros do sindicato, qual é a proporção de valores corretamente classificados é relativamente boa. Uma inspeção adicional da tabela de classificação nos diz que nosso modelo faz um trabalho ruim na previsão de valores positivos. Ele claramente precisa de mais trabalho. Em seguida, vamos comparar a saída do modelo logit. Os resultados de um modelo probital e de probabilidade linear comparando os coeficientes brutos não serão muito úteis. Vamos calcular os efeitos marginais para cada modelo. O modelo de probabilidade linear produz efeitos marginais por padrão. Para regressão logit e probit. Precisamos pedir ao STATA para calculá-las, armazenaremos essas estimativas e depois compará-las em uma tabela assim. A tabela de resultados indica que todos os três modelos produzem resultados muito semelhantes. Os efeitos marginais são quase idênticos. Por exemplo, ser casado resulta em uma diminuição total do ponto percentual na probabilidade de ser um membro do sindicato. Do modelo de probabilidade linear. Uma diminuição percentual de três pontos nove em relação ao modelo logit, e eles caem percentual diminuem parte do modelo probit. Finalmente, antes de terminarmos, deixe-me mostrar o conceito de variáveis Lake com um modelo probit. Isso pode ser um conceito difícil de entender, então prefiro demonstrar isso com dados simulados. Vamos limpar tudo em nossos dados. Vamos chamar o comando set que diz ao Stata para fazer algo 1000 vezes quando invocamos comandos numéricos aleatórios. Finalmente, vamos definir uma semente para que possamos reproduzir nossos resultados. Agora vou gerar uma nova variável do nada usando a função de número aleatório de status gerará uma nova variável chamada x que normalmente é distribuída. Vamos fazer um resumo para explorar o que eu fiz. Eu gerei um novo conjunto de dados que tem uma variável x. Essa variável é normalmente distribuída. Tem uma média de 0 e um desvio padrão de um. gráfico de densidade do kernel mostra a distribuição normal dessa variável. Em seguida, vamos gerar outra variável chamada e que também é normalmente distribuída. Essa variável imitará um termo de erro em uma regressão. Agora, vamos gerar uma terceira variável chamada ystar. Geramos estrela y igual a duas vezes x mais uma vez E. Portanto, há uma relação positiva entre estrela Y e X da inclinação dois. No entanto, vamos agora fingir que a estrela y é um processo latente e não observado. Na verdade, não vemos por que estrelar. O que vemos é por que a realização de ystar. Y é um. Se a estrela y for maior que 00, se for menor. Se tabularmos por que vemos que 51% das observações são 1, 9% das observações são 0. Agora, vamos querer provavelmente a regressão de y contra x. veja isso. O coeficiente Probit é aproximadamente dois. Esse coeficiente está relacionado à relação subjacente entre a estrela Y e X. Isso é o que queremos dizer quando falamos sobre variáveis latentes. Como o coeficiente logit e probit, ou o coeficiente de processos latentes subjacentes. Se mudarmos o valor de dois para quatro em nossa geração Weinstein, o modelo probit preverá um coeficiente de quatro. Espero que. Este pequeno exemplo de simuladores tornou o conceito de variáveis latentes mais real e mais fácil de entender.