Transcrições
1. Introdução: Bem-vindo. A
análise de dados pode ser difícil. Tantos métodos diferentes e
tantas maneiras diferentes de
analisar e interpretar dados podem dificultar
o aprendizado. Nesta classe,
quero lhe dar um esboço fácil e rápido de um método importante e análise de
dados, regressão
não linear. A chave para essa classe é
que não há equações, nem matemática, nem pedaços complicados
de conhecimento teórico. Para não dar uma explicação
gráfica intuitiva do que é
regressão não linear. E mostre uma série
de exemplos práticos. Independentemente seu status de
conhecimento profissional atual, você pode se sentir confiante em
saber os prós e contras da regressão não linear
após essa aula em particular. O que é regressão não linear? regressão linear é um método de regressão
popular que é frequentemente usado e tentando modelar escolhas ou outros tipos de comportamento
discreto. Muitas
mensagens de regressão não linear disponíveis, regressão de logit por
probit
são as mais comuns. Ambos os métodos são
quase idênticos. E vou me concentrar
nesses dois porque eles são o método mais usado para
analisar dados discretos. Eles também formaram uma base para métodos
não lineares
mais complicados. Regressão de propriedade e logit ou técnicas que examinam
a relação entre uma
variável binária e uma ou várias variáveis
categóricas contínuas. Essas técnicas são usadas
em muitas ciências diferentes. Muitas vezes, é usado para análise
quantitativa de
escolha e resultados discretos. Qualquer pessoa que deseje
aprofundar o mundo da estatística de
regressão deve ter um bom entendimento
básico da modelagem de probate e logit. Um dos principais
resultados de aprendizagem para aprender e entender a intuição básica por trás método de regressão
não linear na análise de dados. E a terminologia associada
e também os fundamentos para aprender a
interpretar e analisar confortavelmente a saída de regressão
não linear. Finalmente, talento algumas dicas
e truques extras que o ajudarão. Análise integral. Para quem é essa classe? Esta classe tem como objetivo a dose ou começar
suas carreiras e análise de
dados pode
ser praticantes, pessoas que trabalham em políticas
governamentais e nos negócios, e
aprofundar os alunos. Agora vamos contrastar. Esta é uma adição importante
às habilidades básicas de regressão. O foco na modelagem
não linear é um conceito um pouco mais
avançado, mas é um conceito que é usado com muita frequência
no mundo real. Que pré-reqs sem ajuda. Não há massa
e você não precisa saber nenhuma matemática para acompanhar, tirar o máximo proveito desta aula. Você precisa dessa curiosidade. Algum estado e conhecimento
podem ser úteis para a
aplicação prática desta classe, mas isso não é necessário. Estado dos EUA e Stata é um programa de software
estatístico que permite aos usuários estimar muitos tipos diferentes
de modelos de regressão. Agora vamos usar este programa para demonstrar alguns exemplos de logit
e probit. grande interesse em entender como os dados podem estar
relacionados entre si. Muitas vezes, a análise de dados
é sobre medir variáveis quantitativas.
Podemos nos ver. Então, se você quiser saber
como y está relacionado ao x, então este é o lugar
certo para você. Usando o Stata. Usar o estator
não demonstrou exemplos de
regressão
logit e probit afirmam que é um software
estatístico comprável. E você pode descobrir
mais em WW.State.com, muitas classes sobre como
você pode usar dados. Você deve se interessar? Esta aula? Não vou ensinar dados. Vou me concentrar na
interpretação da saída. Observe que a saída será muito
semelhante a outros
pacotes de software estatístico, como R ou SPSS. Se você
usar dados por acaso e estiver interessado em replicar os
exemplos dessa classe. Anexei um relevante
para arquivos a essa classe. Dois arquivos são arquivos de
sintaxe de status que contêm código que
permitem replicar. Mas vou mostrar que você na
tela usará
o conjunto de dados de treinamento do NSW que vem incorporado com dados
para exemplos práticos. Este é um conjunto de dados de treinamento
que contém uma variedade de variáveis
úteis
e relacionamentos
sobre os resultados do mercado de trabalho. Então, vamos prosseguir para a
próxima seção e aprender mais sobre métodos de
regressão não linear.
2. O que é a análise não linear de retrocesso?: O que é análise de
regressão não linear? Assim como a análise de
regressão
linear, a análise de regressão não linear é uma técnica estatística que
examina a relação entre uma variável dependente y e uma ou mais variáveis
independentes X. Um termo alternativo usado para variável
dependente é resultado, resposta ou variável endógena. Termos alternativos usados para variáveis
independentes ou variáveis preditoras ou explicativas
ou exógenas. Como modelos de regressão linear. Modelos de regressão não linear geralmente escrevem modelos na forma
y igual a x, x1 mais x2 mais x3, etc O último termo
será um termo de erro, geralmente denotado por E, que captura tudo
que está faltando. Evitará escrever muitas
equações neste curso. Vamos deixar essa
expressão assim. As variáveis podem assumir várias formas e análises de
regressão não linear. Eles podem ser contínuos. Em outras palavras, os dados
podem ser medidos. Qualquer pessoa com uma linha
numérica, muitos pontos decimais. Isso pode ser um
formato inteiro, como 12 ou três. Os dados também podem estar em
formatos binários, como 0 ou um. Às vezes, os dados são ordinais. Dados ordinais são
dados categóricos classificados, como escalas likert. Finalmente, os dados
também podem ser nominais. Estes são
dados categóricos que são desembalados, por exemplo, diferentes
modos de transporte. A principal diferença com a regressão
linear é que para modelos de
regressão não linear, a variável dependente geralmente não
é contínua. regressão não linear
é usada principalmente quando a variável dependente y
é medida como uma variável inteira, binária, ordinal ou
mesmo nominal. Isso obviamente se aplica
a muitas variáveis na vida real. Essa é uma das razões pelas quais os métodos de regressão
não linear são tão comuns.
3. Como funciona a Regression não linear?: Como funciona a
regressão não linear? regressão não linear
pressupõe que parâmetros
variáveis com tardia
à variável
dependente de forma não linear. Muito parâmetros ou coeficientes é o que a
análise de regressão estima. Por exemplo, y é igual
a uma vez x. no mundo linear. Isso significa que para cada
mudança de unidade em X, Y com aumento em uma unidade. No entanto, em um mundo não linear, não
podemos ter certeza de qual é
a mudança em y. A mudança em y depende
do valor específico de x. Pode ser mais de um, ou pode ser menor que um. O valor exato
dependerá do tipo de
transformação não linear usada. Isso infelizmente
torna a interpretação de modelos de regressão
não lineares muito mais difícil. Os coeficientes de linha geralmente não
têm
interpretação razoável. É por isso que é importante
entender como os coeficientes de
modelos de regressão
não lineares podem ser alcançados, transformados em
algo útil. Muitas vezes, isso é feito usando o cálculo de efeitos
marginais.
4. Por que a análise de repressão não linear é útil?: Por que a análise de
regressão não linear é útil? Como regressão linear? regressão não linear
é usada para responder a perguntas que requerem evidências
quantitativas. Assim como a regressão linear,
ela nos permite examinar o efeito de uma variável
explicativa sobre uma variável dependente, controlando outros fatores. É usado para
testes de hipóteses e para previsões. Muito parecido com a regressão
linear. No entanto, a
regressão não linear tem uma vantagem significativa
com certos tipos de dados. Especificamente, isso nos ajuda a evitar uma
previsão fora dos limites. Por exemplo, se uma variável
dependente for medida como uma
variável binária, em outras palavras, 0 ou uma, a regressão linear pode prever probabilidades maiores
que uma ou menos que 0. Mas como podemos ter menos de 0 por cento de
chance de fazer alguma coisa? Alternativamente,
variáveis dependentes, como o tempo, exigem apenas
previsões positivas. Se alguém tiver dado o medicamento, quanto tempo ele viverá? Bem, no mínimo, deve
ser 0 ou mais, certo? Portanto,
as previsões não devem estar abaixo de 0 desses modelos. Transformações não lineares,
e com certeza que não
prevemos
absurdos de nossos modelos de regressão.
5. Tipos de modelos de repressão não lineares: Que tipos de modelos de
regressão não linear existem? Muito na verdade, embora sejam modelos de
regressão linear, como quadrados comuns, permaneceram o método de regressão mais comumente
usado. Acontece que muitos métodos de regressão populares
são realmente não lineares. O exemplo mais famoso
de regressões não lineares provavelmente
são modelos de regressão logit e
probit. Estes são modelos de regressão para variáveis dependentes binárias. A variável dependente
geralmente é medida como 0 ou uma. Exemplos comuns incluem decisões de
votação, estar desempregado na realização
educacional, escolher fazer alguma coisa, etc. Os modelos
Logit e probit usam transformações
não lineares para garantir que as previsões do modelo fique dentro do limite 01. Ambos os modelos são muito semelhantes, mas você transformações
não lineares ligeiramente diferentes. Para analisar variáveis dependentes que ordenaram categorias, como escalas Likert. Muitas vezes, usamos modelos de
logit e probit solicitados. Estes são muito semelhantes
aos
modelos logit e probit e usam transformações
não lineares semelhantes. O
truque adicional que esses modelos usaram é incluir pontos de corte
em sua modelagem, que estimam onde
as decisões são cortadas para que as previsões em diferentes categorias
possam ser feitas. Outra classe de modelos
não lineares
em modelos logit multinomiais. Eles são frequentemente usados quando
uma variável dependente consiste em categorias não ordenadas
ou nominais. Um exemplo famoso inclui quais modos de
transporte as pessoas tomam, o ônibus, o carro ou o trem. Observe que modelos de
probit multinomiais existem, mas não são usados com frequência. No entanto, modelos não lineares para não só trabalhar em modelos de escolha
categórica, alguns tipos de dados exigiam que
as previsões fossem limitadas entre 0 e infinito positivo. Em outras palavras, o modelo
não deve prever valores negativos. Exemplos incluem modelos de
regressão de contagem
e modelos de regressão de tempo. Ambos exigem
transformações para que as previsões desses
modelos não sejam negativas. Os modelos de regressão
binomial de Poisson e negativo. Exemplos comuns
de dados de contagem. Uma vez que o modelo de
risco proporcional Cox é um exemplo comum, quando o tempo é a
variável dependente em uma regressão.
6. Máxima probabilidade: Máxima probabilidade. Embora os quadrados ordinariamente estimados resolvendo as
equações de mínimos quadrados, maioria dos modelos não lineares é estimada usando a
máxima probabilidade. máxima probabilidade é
um método numérico que estima o valor
dos parâmetros. Após maior probabilidade de gerar a
amostra observada de teta. probabilidade máxima geralmente é
estimada iterativamente, que significa que o
computador executa muitos cálculos para
restringir os melhores parâmetros
possíveis. Não vou explicar essa técnica em
muitos detalhes. Mas aqui estão algumas
dicas básicas que devem ser observadas ao lidar com a estimativa de
máxima verossimilhança. máxima probabilidade
deve ser usada quando as amostras tiverem
mais de 100 observações, 500 ou mais observações é melhor. Mais parâmetros exigem
mais observações. Uma regra geral é que pelo
menos dez
observações adicionais por parâmetro extra
parecem razoáveis. No entanto, isso
não implica que mínimo de 100 observações não
seja necessário. estimativa de máxima verossimilhança é mais propensa a problemas de colinearidade. Muito mais dados são necessários se as variáveis
explicativas forem altamente colineares entre si. Além disso, variará
na variável dependente. Em outras palavras,
muitos resultados em
um ou 0 também podem levar
a uma estimativa ruim. Finalmente, alguns modelos de
regressão com funções
complexas de máxima verossimilhança requerem mais
dados, testá-los e modelos de carga
são menos complexos. Modelos como modelos logit
multinomiais de muito complexos.
7. O modelo de assinatura linear: Modelo de probabilidade linear. Vamos dar uma olhada e explorar por que a
regressão não linear pode ser útil examinando o modelo de probabilidade
linear. O modelo de probabilidade linear é uma
regressão padrão ordinariamente quadrados aplicada a um modelo que a
variável dependente y é binária. Mas antes de continuarmos,
observe o seguinte. O modelo de probabilidade linear é frequentemente usado para
demonstrar que o ponto é uma má ideia executar regressão
linear por meio de dados
categóricos. No entanto, muitas vezes os resultados do
modelo de probabilidade linear serão muito semelhantes aos efeitos
do
módulo final de um modelo logit ou probit. Vou demonstrar isso mais tarde. Mas, por enquanto, esteja
avisado de que, embora
muitas vezes afirmemos que o modelo de
probabilidade linear está errado, a verdade provavelmente é
mais complexa. Pode ser surpreendentemente útil quando usado com a quantidade
certa de conhecimento. Além disso, esteja ciente de que,
se você decidir usar o modelo de probabilidade
linear, você precisa usar erros
padrão robustos, pois o modelo de probabilidade linear
causa heteroscedasticidade. Imagine por um
momento que temos um conjunto de dados muito simples
que contém apenas duas variáveis, y e x. Estamos interessados na
relação entre y e x. Imagine que y também seja
medido como um binário variável, 0
ou uma, e x é medida como uma variável
contínua. Antes de irmos mais longe, vamos ver como isso
ficaria em um gráfico. Seria
algo parecido com isso. Cada
observação contínua x está
associada a uma observação de 0 ou
um fio. Um gráfico de
dispersão desses dados provavelmente
não é a melhor maneira de
visualizar esse tipo de dados. Mas tenha cuidado comigo porque o tamanho da
amostra não é enorme, podemos apenas descobrir que as observações aqui
com valores mais altos de X são mais propensas a ter um
valor de y igual a um. Embora observações
com valores mais baixos de x pareçam mais propensas a
ter um valor y de 0. Isso nos diz que parece
haver uma relação positiva
entre x e y. Aumenta o próximo lead para uma maior chance de y ser um. Até agora, tão bom. Mas é claro, fazer isso
visualmente como seus limites. Não sabemos qual é a relação exata
entre y e x. Poderíamos traçar a
relação entre y e x usando um ajuste não paramétrico. Portanto, esse método
nos diz claramente que há uma
relação positiva entre y e x. Inicialmente, o relacionamento
é inexistente. E então, com um
certo valor de x, o relacionamento
se torna positivo. Depois de um certo valor
maior de x, o relacionamento se achata novamente e se torna inexistente. Ótimo. No entanto, já discutimos os problemas com não paramétricos
em um curso anterior. Queremos ser capazes parametrizar a
relação entre y e x que podemos
compará-la com outros dados ou fornecer essas informações
a outra pessoa. Como podemos fazer isso? Uma maneira é usar quadrados
comuns e executar uma regressão linear simples
em todos os dados que resultaria em algo
parecido com isso. O ajuste linear estabelece
claramente uma relação positiva
entre y e x. O
coeficiente de inclinação estimado dessa regressão tem
aproximadamente 0,23. Em outras palavras, para
cada unidade aumenta em x, a probabilidade de Y ser um aumenta em 23 pontos
percentuais. Ótimo. Em seguida, vamos traçar os valores
previstos estimados de y a partir do
nosso modelo de regressão simples. Parece ser um problema
com nosso modelo. As previsões do nosso
modelo de regressão linear resultam em três observações, tendo um valor y previsto
acima de 11 observações, tendo um
valor y previsto abaixo de 0. Esse é o problema do modelo de probabilidade
linear. Sua natureza linear,
por definição, prevê valores
fora dos nossos limites. Isso não faz sentido. Esses resultados são sem sentido. Não é possível
ter uma probabilidade de votar no partido a de 120%. Infelizmente, não importa qual seja a relação
entre y e x, qualquer relação linear
irá, em algum momento prever valores y que
saem da rejeição. E este exemplo aqui, desenhei uma inclinação de
regressão um pouco mais rasa entre esses dados. Mas você ainda pode ver que em algum momento ele
sairá dos limites. Não há escapar desse
problema com regressão linear. Algo sempre
estará um pouco errado. Claramente, precisamos de um tipo de modelo
melhor.
8. O Logit e a transformação de Probit: A
transformação logit e probit. A resposta é usar
um modelo não linear. Especificamente neste caso, precisamos usar algum tipo de
transformação que torne a relação linear
entre y e x não linear. As duas transformações mais
usadas para nosso problema anterior, a
transformação logit e probit. Ambas as transformações garantem
que a relação entre y e x permaneça
limitada em 01. Em outras palavras,
não pode haver previsões fora dos limites desses modelos
de regressão. matemática vincula
essas transformações pode parecer um pouco complexa. Vamos explorar as duas
transformações visualmente. Aqui está a
relação estimada entre Y e X de um ajuste logit e probit. Você pode ver que ambos são muito semelhantes em como eles se
relacionam y e x juntos. Em geral, ambos têm uma forma muito semelhante e oferecem o mesmo tipo
de previsões. Muitas vezes, há muito pouco motivo para preferir um em detrimento do outro. E ambos são
usados com frequência. No trabalho aplicado. Ambos os modelos preveem valores y que agora estão limitados entre 01. Dê uma olhada. Os valores previstos de Y
da regressão logit e probit permanecem
dentro do limite 01 de y. Fantástico. Parece que
resolvemos nosso problema. A probabilidade linear está fora
e os modelos não lineares estão inseridos.
9. Variáveis latentes: Variáveis latentes. Modelos não lineares em geralmente mais difíceis de interpretar
do que modelos lineares. Deixe-me explicar o porquê.
Muitos modelos não lineares, como modelos logit e probit, assumem que há um processo linear na linha,
cada variável dependente. O que isso significa? Bem, imagine sua
decisão de
comer, comer, não comer.
Como você decide? Os modelos Logit e Probit assumem que sob
sua decisão de
comer ou não comer há uma escala de fome contínua e
infinita. Se você não está com fome,
você não come. Se você está com um pouco de
fome, você não precisa. Se você está um pouco mais
com fome, você ainda só. Mas em algum momento
sua fome se torna demais e você decide comer. É assim que os modelos logit e
probit funcionam. Eles assumem que
cada decisão de escolha é a realização de pessoas passando algum ponto de corte invisível em um processo contínuo oculto. Chamamos esse processo
de processo latente. Muitas vezes, denotamos
esse processo com uma variável chamada estrela y. Em nossas equações, estrela
y será uma função
de muitos fatores. Por exemplo, se a
estrela y estiver com fome, pode ser uma
função do exercício. Se o exercício for medido x, a relação
entre exercício e fome pode ter um
coeficiente positivo de um. No entanto, a estrela y está
sempre escondida de nós. Nós não vemos isso. Nunca podemos observar
esse processo. Para tornar as coisas mais difíceis. É com isso que os
coeficientes logit e probit se relacionam. Eles recuperam coeficientes
relacionados à estrela y. Isso significa que
sondar e
coeficientes lógicos não têm interpretação
natural. Eles simplesmente não fazem sentido. Um aumento de uma unidade
em x levará a um aumento de uma unidade
na fome invisível. Isso não faz sentido. O que observamos? Observamos a realização
da estrela y, muitas vezes chamada y. Em outras palavras,
alguém comeu ou não? Para descobrir como x está relacionado à
realização da escolha, precisamos transformar
os coeficientes de modelos
não lineares,
como regressão logit e probit em
algo útil. Isso geralmente é feito
usando efeitos marginais.
10. Como são os efeitos marginais?: O que são efeitos marginais? Efeito marginal ou coeficientes de
inclinação às vezes também são
chamados de efeitos parciais. Na regressão linear, coeficientes
estimados
são efeitos marginais. Isso porque eles têm uma inclinação constante
que não muda. Cada aumento de uma unidade em x
leva a uma alteração Beta em y. No entanto, em
regressão não linear, como probit ou regressão
carregada, as inclinações variam constantemente. Não há um único efeito
moderno. É por isso que devemos calcular os efeitos do
módulo em pontos
específicos. É por isso que devemos calcular os efeitos marginais
em determinados pontos. Dois tipos de cálculos
são os mais populares. Efeitos calculados
na média de x e o efeito médio de todos os efeitos calculados
ao longo de cada ponto de x. Estes são os efeitos
marginais mais comuns da prática. Mas os usuários também podem escolher qualquer outro ponto
que faça sentido para eles. Deixe-me demonstrar
isso visualmente. Aqui estamos de volta com um de nossos ajustes não lineares
de y contra x. Neste caso, o
ajuste é um ajuste probit. Cada ponto de dados tem um valor
previsto de y. Ao longo desse ajuste, observamos
que, à medida que x aumenta, a probabilidade
de Y ser um. Também observamos que
a relação entre x e y não é linear. Para entender o
efeito de x em y, calculamos o efeito marginal, efeito
marginal em uma inclinação
nos respectivos pontos de x. Como você pode ver, a inclinação
muda constantemente. Em valores baixos de x, a relação entre
y e x é quase plana. Aplicativo, valores médios de x. O relacionamento é
fortemente positivo. Em valores altos de x, a relação é plana. Mais uma vez. Precisamos escolher algum valor de x onde calcular
nossos efeitos de módulo. A média de x
geralmente é um bom valor. Neste caso particular, o coeficiente de inclinação
é de aproximadamente 0,30. Isso significa que o efeito
de X em Y é o seguinte. Uma mudança de uma unidade em x causa um aumento de 30 pontos percentuais na probabilidade
de Y ser um. Apenas lembre-se, o
relacionamento
não se mantém em todos os valores de x. Em valores mais altos de x. Aumentos
adicionais em x leva a aumentos
muito menores
em y sendo um.
11. Variáveis explicativas de mutilações: Variáveis explicativas fictícios. Até agora, estabelecemos que os
coeficientes que saem de um modelo não linear exigem um pouco de trabalho extra
para dar sentido. No entanto, só analisamos uma
única variável contínua. Para ser preciso, analisamos
o modelo ao longo das linhas de y igual a Beta X
mais um termo de erro, onde x é uma variável que
é medida continuamente. E se incluirmos uma
variável fictícia adicional em nosso modelo? Em outras palavras, queremos
estimar o modelo
ao longo das linhas de y igual a Beta X mais beta uma variável fictícia
mais uma hermética. Variáveis fictícios são
variáveis binárias que muitas vezes levam os números 0 ou um bit, como nossa variável dependente y. Em regressão linear,
coeficientes em variáveis fictícios, às vezes chamados de
mudança de interceptação coeficiente porque eles mudam
o intercepto. Em outras palavras, eles movem toda
a relação entre x e y
para cima, para baixo. No entanto, em modelos não lineares, seu efeito não é constante. Eles ainda mudam a relação
não linear entre Y e X para cima ou para baixo, mas o tamanho do
turno não é constante. Deixe-me mostrar
isso graficamente. Neste exemplo, continuamos a ajustar um
ajuste não linear
em nossos dados observados. Y é medido como um ponto de variável e X é
medido continuamente. No entanto, o
modelo real abaixo é de um modelo de regressão também
inclui uma variável fictícia. Variáveis fictícios atuam como
uma mudança de interceptação. Observações com um valor
fictício de um. Digamos, estes representam homens, têm uma maior
probabilidade de observar um valor y de um para
qualquer valor dado de x. No entanto, como pode ser visto
claramente aqui, o tamanho desse efeito varia
dependendo de onde estamos . Em valores baixos de x, o efeito da
variável fictícia é quase insignificante. Valores médios de x, a diferença entre
as duas curvas é alta. E, finalmente, em valores
altos de x, o efeito da
variável fictícia diminui. E, novamente, tudo isso faz sentido. Isso ocorre porque
continuamos vinculando nossa relação entre y e x entre 01 através da
transformação logística não linear, neste caso,. Portanto, qualquer efeito gradual de uma variável fictícia também
deve ser não-linear
para continuar a garantir que não
saiamos dos limites
com nossas previsões.
12. Regressão não linear: Regressão não linear múltipla. Finalmente, e quando temos um modelo de regressão com múltiplas variáveis de
país contínuas? Como isso funciona? Vamos pegar nosso modelo anterior
com uma variável fictícia e simplesmente adicionar outra variável
explicativa contínua, vamos chamá-lo de x2. Isso nos dá um modelo
ao longo das linhas de y igual a Beta vezes x1 mais beta vezes x2 mais tipos
Beta de variável fictícia. A principal coisa a
entender sobre regressão não linear
múltipla é que o efeito de cada beta, ou muito, não apenas de
acordo com o valor de x que estamos fora. Isso também em que
valor de outro eixo. Considerando que, em outras palavras, o efeito de cada
página que
dependerá do valor de cada x, não apenas da variável
em questão. Na prática, muitas vezes
medimos a inclinação de cada coeficiente do
valor médio da bola no eixo. Isso pode ser difícil de compreender. Então, novamente, deixe-me mostrar a
você uma visualização de um modelo logit com duas variáveis contínuas
e uma variável fictícia. Aqui está uma visualização
do modelo de regressão
logit acima mencionado. Nossos dados consistem em uma variável independente que
leva apenas os valores 01. Ou seja, no gráfico
à esquerda, esses dados são distribuídos
no teto e no chão da imagem
tridimensional. Desatualizado também consiste em duas
variáveis explicativas contínuas, X1 e X2. Ambos têm uma
relação positiva com Y. Mas é muito difícil descobrir isso no nosso gráfico de dispersão. No gráfico à direita, plotamos os valores
previstos de uma regressão logit. Enquanto um modelo de
regressão linear, como quadrados ordinariamente,
tenta ajustar planos lineares tenta ajustar planos lineares de melhor ajuste através desses dados. regressão Logit se encaixa em planos
não lineares de melhor ajuste por meio desses dados. No entanto, a dor logit
do best-fit não é apenas não linear em relação
a apenas uma variável x. A inclinação do plano muda acordo com ambas
as variáveis X. Especificamente, o valor de ambos os x's determinará a
relação entre X1 e Y, também x2 e y. Tudo isso pode ser um conceito bastante
complicado de entender. Se adicionarmos mais variáveis
explicativas, tudo isso se move para dimensões
mais altas. Finalmente, o efeito
da variável fictícia também
é visualizado. Aqui. Temos dois planos de
melhor ajuste neste gráfico. Um plano é para todos os valores de 0 para
a variável fictícia, e o outro plano é para
o nos valores de um para
a variável fictícia. Acho óbvio ver o quão difícil pode ser dar
sentido a esses modelos. É basicamente impossível.
13. Bondade: Bondade de ajuste. Agora que temos uma compreensão
razoável de como a regressão não linear, como os modelos de
regressão logit e probit funcionam. Vamos falar sobre como medir
se esses
modelos de regressão se encaixam bem nos dados. Valores tradicionais do quadrado R
de quadrados comuns não
existem para modelos não lineares. Não há cálculo de soma de
quadrados proveniente desse
tipo de modelos. Isso significa que não podemos calcular quanta variância é
explicada e inexplicada. Outras formas de medir o
ajuste necessário. Muitos pacotes de software computam algo chamado
pseudo-R-quadrado. Isso tenta imitar o diagnóstico
da
bondade do ajuste primeiro estimando um modelo
chamado nulo. Não modal é um modelo
sem variável explicativa
e apenas uma constante. Segundo modelo com
covariância total é então estimado. E a comparação
da função log-verossimilhança é feita. A proporção de quanto
melhor é o modelo completo,
é então fornecida como
um pseudo-R quadrado. Pode ser uma estatística útil, mas nunca deve
ser considerada semelhante ao tradicional
zero quadrado. Há algum perigo aqui. Outra maneira de calcular
a qualidade do ajuste é
olhar para algo chamado tabela
de classificação. A tabela de classificação atribui valores
previstos do
modelo para 0 ou um. Valores
previstos para b1 e na verdade um seriam
classificados como corretos. Da mesma forma, os valores que
são previstos como 0 e, na verdade, 0 também são
classificados corretamente. Quaisquer outros valores seriam classificados como incorretos. A proporção de valores
classificados corretamente serve como um indicador de quão bem o
modelo se ajusta aos dados. Aqui está um exemplo de uma tabela de
classificação do Stata. Muita saída
acontecendo aqui. Então deixe-me explicar
o que está acontecendo. Na parte superior, vemos um modelo de regressão
logística de arquivo de tabela de classificação. Temos um total de
100 observações. Destas 63 observações são classificadas como 137 observações são classificadas como 0
das 36 observações
classificadas como 145. Valores reais de um
nos dados da linha. 18 têm 0 valores. Da mesma forma, para aqueles com
uma previsão de 011, na verdade
não uma vez nos dados, e 26 são zeros
nos dados mundiais. Em seguida, um total de 71 das 100 observações
foram previstas corretamente. Podemos ver na parte inferior, 71% das observações estão
corretamente classificadas. Um valor mais alto indica um modelo logit
ou probit melhor ajustado. Geralmente, valores acima de
80 ou 90, ou excelentes. Os valores nos anos 70 são bons. Os valores nos anos 60 estão bem. E valores nos anos 50 e
indicam um modelo de ajuste ruim. Lembre-se de que simplesmente
rolando os dados, poderíamos esperar classificar
50% dos valores corretamente. Portanto, 50% devem ser
vistos como a linha de base aqui. Existem algumas outras
estatísticas nesta tabela, mas todas são apenas
variações de um tema. No entanto, há um
último item a ser observado. A classificação
depende de um valor de corte. Meu padrão. Por padrão, muitos programas usam 0,5. Em outras palavras, valores
acima de 0,5 são previstos como um e valores abaixo de
0,5 são previstos como 0. Isso é arbitrário. Digamos que o valor de 0,5 parece
fazer sentido lógico. O valor do ponto de corte
pode ser alterado. Isso resultará em ajustes de modelo completamente
diferentes. Aqui está um exemplo disso. Neste vídeo, estou
demonstrando o impacto
na estatística de qualidade do ajuste alterando o corte de
classificação. O gráfico mostra os
pontos de dados da ala de uma regressão de uma variável y binária contra
uma variável x contínua. Um modelo logit é estimado. Os
valores previstos são plotados. Os valores vermelhos são classificados como 0 e os valores verdes são
classificados como um. Valores de cinza, ligeiramente ampliados
para melhor efeito visual. Denote valores
classificados incorretamente. O ponto de corte inicial
para classificar variáveis é definido em 0,5. Agora, vamos em frente
e mudar isso. Podemos ver que, à medida que movemos o valor do ponto de corte entre 01, a proporção de pontos de dados
corretamente classificados muda drasticamente. Em outras palavras, essa medida de bondade de ajuste está
sujeita ao que pensamos ser o
ponto de corte certo para classificar os pontos de dados. Isso nunca poderia acontecer em um modelo de
regressão linear normal. Meu conselho pessoal
é ficar com 0,5, a menos que haja motivos muito
específicos para fazê-lo. Um motivo pode ser dados
muito distorcidos. Por exemplo, se uma variável
dependente binária tiver uma
proporção muito alta ou baixa de uma.
14. Uma nota sobre os coeficientes do Logit: Uma nota sobre os coeficientes logit. coeficiente de probito não tem uma
interpretação natural, pois se relaciona com o escore latente
subjacente de uma variável dependente, que por definição é
sempre invisível e oculta. No entanto, os coeficientes Logit
têm uma interpretação natural. Graças a uma peculiaridade
de matemática. Para modelos logit, os coeficientes estimados
podem ser interpretados como um aumento de unidade em x causa um aumento beta nas chances de
log de y ser um. Essa interpretação natural
tem algum significado, mas a parte das probabilidades de log ainda
pode ser um pouco estranha. Para superar isso, podemos exponenciar coeficientes
de cargas de modelo. Isso permite que os coeficientes de logit
o interpretem como probabilidades. Probabilidades. Especificamente,
as razões de chances ainda são interpretadas complexas, mas isso significa que
os usos são capazes de
evitar o cálculo de
efeitos marginais. Podemos interpretar um
coeficiente logit exponenciado da seguinte forma. Para uma mudança de uma unidade em x, espera-se que
as chances
mudem por um fator de Beta, mantendo todo o
resto, constante. As razões de chances têm uma base de uma
quando as probabilidades são semelhantes. Portanto, se a
pizza estiver acima de uma, podemos dizer que as
probabilidades beta vezes maiores, a beta está abaixo de uma. Podemos dizer que as chances são
beta vezes menores. No entanto, lembre-se de que, embora
as probabilidades tenham algum significado, elas não revelam a magnitude da mudança na
probabilidade de resultado. Somente
efeitos marginais podem fazer isso.
15. Dicas para iniciar o Logit e Regression de projetos: Dicas para regressão logit e
probit. Em que estado os requisitos
para modelos não lineares tendem a ser maiores do que
para modelos lineares. Deve-se notar que os
modelos de regressão de teste e logit são muito robustos até mesmo pequenas amostras
e variação de escala. Em outras palavras,
enquanto modelos como modelos logit
multinomiais
exigem muitos dados, regressão
logit e probit pode ser feita com um tamanho amostral muito
menor. Muitas vezes, há muito
pouco motivo para escolher entre modelos logit
ou probit. Ambos os resultados. Ambos resultam em previsões muito
semelhantes e efeitos marginais semelhantes. No entanto, uma das
razões pelas quais algumas pessoas gravitam naturalmente
em direção aos modelos de carga é a flexibilidade extra
da interpretação
das probabilidades de seu coeficiente. coeficientes Rho logit geralmente
são 1,7 vezes maiores que a guerra, provavelmente coeficientes
para o mesmo modelo. No entanto, os efeitos marginais
serão muito semelhantes. Geralmente, é uma boa prática relatar efeitos marginais
na média de todas as outras variáveis ou os efeitos marginais médios. Seria estranho
não
denunciá-los quando você
usa esses modelos. No entanto, às vezes, computação de efeitos de
modelo
pode ser intensiva. Existem duas maneiras de
superar isso. Coeficientes brutos dos modelos
logit e probit. Eles permitirão que os usuários interpretem o tamanho relativo
e o significado do sinal. Ou pode-se resultar em um modelo de probabilidade
linear. Deixe-me explicar o porquê.
16. De volta ao modelo de Probabilidade linear?: De volta ao modelo de
probabilidade linear. Começamos este curso com
um exemplo claro de por que um modelo de probabilidade linear geralmente
é uma má ideia. No entanto, acontece que
há um forro prateado. Modelos de probabilidade linear geralmente produzem os mesmos
efeitos marginais os efeitos marginais da regressão
logit e probit. Se a maioria das variáveis
no modelo de regressão tiverem dados
normalmente comportados, cálculo de efeitos
marginais
geralmente produzirá as mesmas estimativas de inclinação que as
estimativas de inclinação de um padrão
regressão linear. Em outras palavras, é
possível usar genuinamente modelos
de probabilidade linear para calcular efeitos
marginais para regressões com variáveis dependentes binárias. Isso pode ser realmente útil para situações em que o
tempo computacional precisa ser reduzido. Alternativamente, pode ser útil para modelos complicados de
regressão não linear,
como modelos carregados de dados em painel para as
complexidades matemáticas tornam cálculo do efeito
marginal
extremamente difícil. Aqui está um exemplo
do que quero dizer. Aqui, estou usando o Stata para estimar uma
regressão logística entre Y e X. E o coeficiente logit
sai em torno de 1,26. cálculo do
efeito marginal médio produz um resultado de cerca de 0,24. Em outras palavras, o fator marginal
médio é que um aumento de uma unidade em x leva a um aumento de 24
pontos percentuais
na probabilidade de Y ser um. Agora, vamos dar uma olhada nisso. Normalmente, quadra a regressão
usando o mesmo modelo. E esse modelo estima
um coeficiente de 0,23. Em outras palavras, uma mudança de uma
unidade em x leva a um aumento de 23 pontos percentuais na probabilidade
de Y ser um. Isso é quase idêntico
ao modelo logit e destaca a utilidade
potencial de um modelo de probabilidade linear.
17. Stata — exemplos de Logit e Probit aplicada: Vamos explorar alguns
desses conceitos que estamos
discutindo em um ambiente
aplicado. Estamos agora no estator, que é um pacote de
software estatístico comumente usado para analisar conjuntos de dados
quantitativos. É semelhante a outros
pacotes, como SPSS ou SAS. Não explicarei como operar estator ou o código
que estou executando. Para obter esses resultados. Você pode aprender mais sobre o estator em
estados ou cursos específicos. Já abri um conjunto de dados de
treinamento chamado National Longitudinal
Survey of Women em 1988. Vamos examiná-lo um pouco mais de perto antes de começarmos a
executar regressões. Vamos começar com uma
descrição dos dados. O retorno de saída por
descreve os produtores informações de
alto nível
sobre os dados, como onde estão localizados, quantas observações
e variáveis estão incluídas e seu tamanho. Nesse caso, nossos dados contêm 2246 observações
e 17 variáveis. Esse é um tamanho amostral justo. Mas conjuntos de dados modernos
tendem a ser muito maiores. Abaixo, estão informações
sobre as variáveis. Ou as variáveis são medidas
como variáveis numéricas. Enquanto alguns são medidas
duas precisões diferentes. Não há
variáveis de string nesses dados. As variáveis ou relacionadas aos resultados do mercado de
trabalho de uma amostra de
mulheres de 35 a 451988. Temos informações
sobre suas idades,
salários , ocupação,
educação e muito mais. Bom. Agora vamos fazer um resumo rápido. Resumir nos fornece algumas estatísticas básicas
para cada variável, como a
contagem de observações, a média, o desvio padrão e os valores
mínimo e máximo. A varredura
dos dados revela que a maioria montanhosa parece normal
para o que esperaríamos. A idade média é 39 anos e 64% da
amostra são casadas. salários parecem bons. Embora saibamos
que a variável Union tem observações ausentes. Agora, vamos fingir
que estamos realmente interessados em explicar o determinante
da filiação sindical. Já podemos começar a construir
uma imagem em nossa cabeça de quais variáveis podem
ser importantes explicar a escolha de
ser um membro do sindicato. É improvável que os salários e
a educação sejam fatores importantes. Talvez h2. Na verdade, muitas das
variáveis aqui podem ser fatores
importantes para determinar a decisão de
alguém de
ser um membro do sindicato. Para manter as coisas fáceis, isso inclui apenas
um pequeno número de variáveis para começar. Vamos escolher idade, salário, casado e faculdade,
graduar como nossas variáveis. A variável Union
parece ser medida
como uma variável binária. Vamos confirmar isso
com uma tabulação. De fato, a variável é medida como uma
nova variável de celeiro e 24,5 por cento dos membros da nossa
amostra de um sindicato. Em seguida, vamos traçar
a união variável, novamente, auto primeira variável
na lista, idade. Este é um bom exemplo de por que uma análise gráfica de dados
binários pode ser difícil. Não podemos
ver nada aqui. Fora isso. Para cada ano de idade, há membros sindicais
e membros não sindicais. Poderíamos desenhar um polinômio local mais suave através de seu enredo para obter uma melhor compreensão
de como é a relação entre a idade e ser um membro do
sindicato. Não se parece com isso. Existe uma relação particularmente
forte entre idade e filiação
sindical. Para
fins de demonstração, vamos agora estimar uma
relação paramétrica. O uso de um modelo logit
só usará a idade como uma variável
explicativa. Por enquanto. saída de regressão de logit de status parece muito
semelhante à de uma saída de regressão padrão normalmente
quadrados. As informações diagnósticas são apresentadas no topo e os resultados são
apresentados abaixo disso. No topo dos resultados, vemos o
processo de máxima probabilidade ocorrendo. Stator, calcule vários modelos com diferentes parâmetros
e estimativas. Uma log-verossimilhança, em
seguida, converge o melhor conjunto de parâmetros que oferecem a menor
verossimilhança de registro. Como
os modelos logit e probit são tão bem desenvolvidos, não são necessárias
muitas iterações para alcançar um conjunto final de resultados. A verossimilhança final
é apresentada aqui. Em seguida, temos informações sobre a contagem de observações e uma estatística
qui-quadrado da razão de verossimilhança. Essa estatística é
semelhante a um teste F para modelos
lineares e nos diz que o modelo explica
algo ou não. Nesse caso, a
resposta não é uma vez que o valor-p da estatística
qui-quadrado está muito acima de 0,05. Em seguida, o pseudo-R quadrado, que confirmou ainda que
este é um ajuste terrível. O que nunca se deve
traduzir isso como sendo análogo às estatísticas lineares
R-quadrado. Um valor de 0,0001
é extremamente vinculado. Na seção de resultados, vemos por que o coeficiente
na idade é muito pequeno. O erro padrão é alto. A estatística z associada é análoga à estatística t
em regressão linear. Valores acima de 1,96 implicam significância
estatística para amostras de tamanho
razoável. O valor-p também tem o mesmo significado que
para modelos lineares. Valores de 0,05 ou abaixo são estatisticamente
significativos no nível de 95%. Tanto a estatística Z quanto o
valor de p mostraram que a variável h é muito insignificante
estatisticamente. Para ilustrar ainda mais isso, podemos calcular as probabilidades
previstas de filiação sindical a partir desse modelo e traçar isso em nosso gráfico. Os pontos azuis representam
os pontos de dados brutos e os pontos vermelhos representam as probabilidades previstas
de filiação sindical. O resultado é que
praticamente não há relação entre idade e filiação sindical. É difícil de ver, mas a relação prevista
aqui ainda é não-linear. É que a
parte não linear neste bit
dos dados é tão plana que dificilmente
podemos vê-la. Se previssemos
essa relação em faixas de idade mais altas, poderíamos ver a transformação do
logit. Aqui está. Usando uma faixa etária de menos
10000 a mais 1 mil, revela uma
relação não linear entre idade e associação sindical a partir
desse modelo logit específico. Obviamente, isso não
faz muito sentido. Estamos prevendo
muito fora dos limites. Além disso, idades abaixo de
0 ou não é possível. Vamos voltar ao nosso modelo logit e adicionar mais algumas variáveis. Sabemos que a idade não é
estatisticamente significativa. Mas, a menos que haja um
problema com o tamanho da amostra, meu conselho geralmente não exclui variáveis estatisticamente
insignificantes. O motivo é que o
controle de novas variáveis
adicionais pode
tornar variáveis anteriores
estatisticamente significativas. Mais uma vez, vamos dar uma olhada. Adicionaremos salários, casados e graduados universitários como outras
variáveis explicativas ao nosso modelo. O modelo agora tem uma estatística
qui-quadrado de 48, o que é estatisticamente
significativo. Isso significa que nossas variáveis
explicam algo. Pseudo R quadrado é 0,023, o que é muito
melhor do que antes. No entanto, ainda
parece baixo valor. Vale a pena explorar isso ainda mais com uma tabela de
classificação. O momento. Primeiro, observando os resultados, vemos que duas variáveis são estatisticamente significativas
no nível 95%, salário e pós-graduação universitária. Uma variável, casada, é
estatisticamente significativa. No nível de 10%. Os coeficientes atualmente
apresentados são difíceis de interpretar, mas podemos inferir tamanho,
sinal e significado. Os salários estão positivamente relacionados
à probabilidade de
ser um membro do sindicato. Ser graduado na faculdade
também está positivamente relacionado. Ser casado está negativamente relacionado a ser um membro do sindicato. Formado universitário
e casado. Variáveis explicativas fictícia. Assim, podemos inferir que
o efeito de ser um graduado universitário é mais forte do que o efeito
de ser casado. Isso ocorre porque o coeficiente
absoluto de pós-graduação é
em torno de 20%
maior que o coeficiente de casados. Para entender
os coeficientes
de uma maneira mais significativa, normalmente
calcularíamos efeitos
marginais. Isso pode ser feito facilmente
e estados e, por padrão, estado para calcular os efeitos marginais
médios. Em outras palavras, todas
as inclinações em todos os valores de x
e, em seguida, médias. Estes aqui estão os resultados. Os estados são calculados os efeitos marginais
médios relação a todas as variáveis. O efeito da idade
é insignificante, mas a interpretação
da estimativa é a seguinte. Em média, um
aumento de uma unidade na idade aumenta a probabilidade de
filiação
sindical 0,1 ponto percentual. O salário também é uma variável
contínua. A interpretação
é, em média, um aumento de uma unidade. No salário por hora aumenta
a probabilidade de adesão
sindical em
1,2 pontos percentuais. Casados e universitários,
ou variáveis fictícios. Assim, eles podem ser interpretados
como, em média, ser casado diminui
a probabilidade de filiação sindical em
3,9 pontos percentuais. Em média. Ser graduado na faculdade
aumenta a probabilidade de adesão ao sindicato em
4,6 pontos percentuais. Ótimo. Também podemos calcular efeitos específicos de
módulos para responder a perguntas sobre como pessoas
específicas podem ser afetadas
pela mudança em x. Por
exemplo, o efeito
de se casar na filiação sindical é menos
cinco pontos percentuais. Para mulheres que têm 40 anos com formação universitária e
um salário de US $30 por hora. Em seguida, vamos explorar a bondade
do ajuste um pouco mais perto. O pseudo
valor R quadrado foi 0,0231. Ao chamar uma tabela de
classificação, podemos obter mais informações. A regressão logit
do arquivo da tabela de classificação mostra que classificamos 75%
das observações corretamente. E isso parece ser um número
muito bom. Mas é importante examinar a
tabela de classificação com mais detalhes. Embora nosso modelo
tenha feito um bom trabalho de prever 0 valores
que são realmente 0, é um trabalho muito ruim
prever valores positivos. Prevê-se que apenas 20 observações sejam membros do sindicato. Sabemos de nossas estatísticas
resumidas cerca de 450 observações. Na verdade, membros do sindicato,
qual é a proporção de valores
corretamente classificados é relativamente boa. Uma inspeção adicional
da tabela de classificação nos diz que nosso modelo faz um trabalho ruim na
previsão de valores positivos. Ele claramente precisa de mais trabalho. Em seguida, vamos comparar a
saída do modelo logit. Os resultados de um modelo
probital e de probabilidade linear comparando os coeficientes brutos
não serão muito úteis. Vamos calcular os
efeitos marginais para cada modelo. O modelo de probabilidade linear produz
efeitos marginais por padrão. Para regressão logit e probit. Precisamos pedir ao STATA
para calculá-las, armazenaremos essas
estimativas e depois compará-las em uma tabela assim. A tabela de resultados indica que todos os três modelos produzem resultados
muito semelhantes. Os efeitos marginais
são quase idênticos. Por exemplo, ser
casado resulta em uma diminuição total do
ponto percentual
na probabilidade de
ser um membro do sindicato. Do modelo de
probabilidade linear. Uma diminuição
percentual
de três pontos nove em relação ao modelo logit, e eles caem percentual diminuem parte
do modelo probit. Finalmente, antes de terminarmos, deixe-me mostrar o conceito de variáveis
Lake com
um modelo probit. Isso pode ser um
conceito difícil de entender, então prefiro demonstrar
isso com dados simulados. Vamos limpar tudo
em nossos dados. Vamos chamar o comando set
que diz ao Stata para fazer algo 1000 vezes quando invocamos comandos
numéricos aleatórios. Finalmente, vamos definir uma semente para que possamos reproduzir nossos resultados. Agora vou
gerar uma nova variável do nada usando
a
função de número aleatório de
status gerará uma nova variável chamada x que normalmente
é distribuída. Vamos fazer um resumo para
explorar o que eu fiz. Eu gerei um novo conjunto de dados
que tem uma variável x. Essa variável é
normalmente distribuída. Tem uma média de 0 e um desvio
padrão de um. gráfico de densidade do kernel mostra a distribuição normal
dessa variável. Em seguida, vamos gerar
outra variável chamada e que também é
normalmente distribuída. Essa variável imitará um termo de
erro em uma regressão. Agora, vamos gerar uma terceira
variável chamada ystar. Geramos estrela y igual a duas vezes x mais uma vez E. Portanto, há uma
relação positiva entre estrela
Y e X da inclinação dois. No entanto, vamos agora fingir que a estrela
y é um processo latente e
não observado. Na verdade, não vemos por que estrelar. O que vemos é por que a
realização de ystar. Y é um. Se a estrela y for
maior que 00, se for menor. Se tabularmos por que vemos que
51% das observações são 1, 9% das observações são 0. Agora, vamos querer provavelmente a regressão
de y contra x. veja isso. O coeficiente Probit
é aproximadamente dois. Esse coeficiente está relacionado
à relação subjacente
entre a estrela Y e X. Isso é o que queremos dizer quando
falamos sobre variáveis latentes. Como o coeficiente logit e
probit, ou o coeficiente de processos
latentes subjacentes. Se mudarmos o valor de dois para quatro em nossa geração
Weinstein, o modelo probit preverá
um coeficiente de quatro. Espero que. Este pequeno
exemplo de simuladores tornou o conceito de variáveis
latentes mais
real e mais fácil de entender.