Transcripciones
1. INTRODUCCIÓN: Bienvenida.
El análisis de datos puede ser difícil. Tantos métodos diferentes y
tantas formas diferentes de
analizar e interpretar datos pueden hacer que el aprendizaje sea
muy difícil. En esta clase,
quiero darte un esquema fácil y rápido de un método importante y análisis de
datos, regresión
no lineal. La clave de esta clase es
que no hay ecuaciones, ni matemáticas, ni bits complicados
de conocimiento teórico. No para darte una explicación
gráfica intuitiva de lo que es
la regresión no lineal. Y mostrarte una gama
de ejemplos prácticos. No importa cuál sea su estado actual de
conocimiento profesional, puede sentirse seguro de
conocer los entresijos de la regresión no lineal
después de esta clase en particular. ¿ Qué es la regresión no lineal? regresión lineal es un método de regresión
popular que a menudo se usa e intenta modelar opciones u otros tipos de comportamiento
discreto. Muchos
mensajes de regresión no lineal disponibles, probit logit regresión
son los más comunes. Ambos métodos son
casi idénticos. Y me voy a centrar en
estos dos porque son el método más utilizado para
analizar datos discretos. También formaron una base para métodos
no lineales
más complicados. Regresión de propiedades y logit o técnicas que examinan
la relación entre una
variable binaria y una o muchas variables
categóricas continuas. Estas técnicas se utilizan
en muchas ciencias diferentes. A menudo se usa para el análisis
cuantitativo de
elección y resultados discretos. Cualquiera que desee
profundizar en el mundo de la estadística de
regresión debe tener una buena comprensión
de la
base del modelado de sucesiones y logit. Uno de los principales
resultados de aprendizaje para aprender y entender la intuición básica detrás método de regresión
no lineal en el análisis de datos. Y la terminología asociada
y también los fundamentos para aprender a
interpretar y analizar cómodamente la salida de regresión
no lineal. Por último, talento algunos consejos
y trucos extra que te ayudarán. Análisis integral. Para quién es esta clase? Esta clase está dirigida a dosificar o comenzar
sus carreras y análisis de
datos podría
ser practicantes, personas que trabajan en la política
gubernamental, y en los negocios, y
profundizar a los estudiantes. Ahora vamos a contrastar. Esta es una adición importante
a las habilidades básicas de regresión. El enfoque en el modelado
no lineal es un concepto un poco más
avanzado, pero es un concepto que se usa muy a menudo en
el mundo real. Qué prereqs sin ayuda. No hay masa
y no necesitas saber ninguna matemática para dar seguimiento, sacar el máximo provecho de esta clase. Necesitas esta curiosidad. Algún estado y conocimiento
pueden ser útiles para la
aplicación práctica de esta clase, pero no es necesario. Nosotros estado y Stata es un programa de software
estadístico que permite a los usuarios estimar muchos tipos diferentes
de modelos de regresión. Ahora usaremos este programa para demostrar algunos ejemplos logit
y probit. Profundo interés en entender cómo podrían estar
relacionados los datos entre sí. A menudo, el análisis de datos
se trata de medir variables cuantitativas.
Podemos vernos unos a otros. Entonces si quieres saber
cómo y se relaciona con x, entonces este es el lugar
adecuado para ti. Usando Stata. Ir a estar usando estator
no demostró logit y probit
regresión ejemplos afirman que se trata de un software
estadístico comprable. Y puedes saber
más en Www.state.com, muchas clases sobre cómo
puedes usar los datos. ¿ Deberías interesarte? Esta clase? No voy a enseñar datos. Me centraré en la
interpretación de la salida. Tenga en cuenta que la salida se
verá muy similar a otros
paquetes de software estadísticos como R o SPSS. Si lo haces por casualidad
usa datos y te interesa replicar los
ejemplos de esta clase. He adjuntado una relevante
a los expedientes a esta clase. Dos archivos son archivos de
sintaxis de estado que contienen código
que permiten replicar. Pero te estaré mostrando en
pantalla va a estar usando el dataset de entrenamiento de NSW que viene incorporado con datos
para ejemplos prácticos. Se trata de un conjunto de datos de capacitación
que contiene una variedad de variables
útiles
y relaciones sobre los resultados del mercado laboral. Así que pasemos a la
siguiente sección y aprendamos más sobre los métodos de
regresión no lineal.
2. ¿Qué es el análisis de regresión no lineal?: ¿ Qué es el análisis de
regresión no lineal? Al igual que el análisis de
regresión
lineal, el análisis de regresión no lineal es una técnica estadística que
examina la relación entre una variable dependiente
y una o más variables
independientes X. Un término alternativo utilizado para variable
dependiente es el resultado, respuesta o variable endógena. Términos alternativos utilizados para variables
independientes o variables predictoras o explicativas
o exógenas. Al igual que los modelos de regresión lineal. Los modelos de regresión no lineal suelen escribir modelos en la forma
y es igual a x, x1 más x2 más x3, etcétera El último término
será un término de error, a menudo denotado por E, que captura todo
que falta. Evitará escribir
demasiadas ecuaciones en este curso. Dejaremos esta
expresión así. Las variables pueden tomar muchas formas y análisis de
regresión no lineal. Pueden ser continuos. En otras palabras, se
pueden medir los datos. Cualquiera una línea numérica, demasiados puntos decimales. Eso puede ser un
formato entero como 12 o tres. Los datos también pueden estar en
formatos binarios como 0 o uno. En ocasiones los datos son ordinales. Los datos ordinales son
datos categóricos que se han clasificado, como escalas likert. Por último, los datos
también pueden ser nominales. Se trata de
datos categóricos que se desenvuelven, por ejemplo, diferentes
modos de transporte. La diferencia clave con regresión
lineal es que para los modelos de
regresión no lineal, la variable dependiente a menudo no
es continua. La regresión no lineal se usa principalmente cuando la variable dependiente y
se mide como variable entera, binaria, ordinal o
incluso nominal. Esto obviamente se aplica
a muchas variables en la vida real. Esta es una de las razones por las métodos de regresión
no lineal son tan comunes.
3. ¿Cómo funciona la regresión no lineal?: ¿ Cómo funciona la
regresión no lineal? La regresión no lineal
asume que los parámetros
variables con tardío a la variable dependiente de una
manera no lineal. Muy parámetros o coeficientes es lo que estima el
análisis de regresión. Por ejemplo, y es igual
a una vez x. En el mundo lineal. Esto significa que por
cada cambio de unidad en X, Y con aumento en una unidad. No obstante, en un mundo no lineal, no
podemos estar seguros cuál es
el cambio en y. El cambio en y depende
del valor específico de x. podría ser más de uno, o podría ser menor de uno. El valor exacto
dependerá del tipo de
transformación no lineal utilizada. Esto, lamentablemente,
hace mucho más difícil interpretar los modelos de regresión
no lineal. Los coeficientes de fila a menudo no
tienen una
interpretación razonable. Por eso es importante entender
cómo los coeficientes de los pueden alcanzar
los coeficientes de los
modelos de regresión
no lineal, transformados en
algo útil. A menudo, esto se hace usando el cálculo de efectos
marginales.
4. ¿Por qué es útil el análisis de regresión no lineal?: ¿ Por qué es útil el análisis de
regresión no lineal? ¿ Al igual que la regresión lineal? regresión no lineal
se utiliza para responder preguntas que requieren evidencia
cuantitativa. Al igual
que la regresión lineal, nos permite examinar el efecto de una variable
explicativa sobre una variable dependiente, controlando por otros factores. Se utiliza para
pruebas de hipótesis y para predicciones. Muy parecido a la regresión
lineal. No obstante,
la regresión no lineal tiene una ventaja significativa
con ciertos tipos de datos. Específicamente, nos ayuda a evitar una
predicción fuera de límites. Por ejemplo, si una variable
dependiente se mide como una
variable binaria, es decir, 0 o una, la regresión lineal puede predecir probabilidades de mayor
que una o menos de 0. Pero, ¿cómo podemos tener menos del 0 por ciento de
posibilidades de hacer algo? Alternativamente,
las variables dependientes como el tiempo, requieren solamente
predicciones positivas. Si alguien le ha dado la droga, ¿cuánto más vivirán? Bueno, como mínimo, debe
ser 0 o más, ¿verdad? Entonces, por lo tanto, las
predicciones no deben estar por debajo de 0 de tales modelos. Transformaciones no lineales,
y seguro que no
predecimos tonterías
a partir de nuestros modelos de regresión.
5. Tipos de modelos de regresión no lineales: ¿ Qué tipos de modelos de
regresión no lineal existen? Bastante en realidad, mientras que se trata de modelos de
regresión lineal, como los cuadrados ordinarios, seguían siendo el método de regresión más comúnmente
utilizado. Resulta que muchos métodos de regresión populares
son en realidad no lineales. El ejemplo más famoso
de regresiones no lineales son probablemente los modelos de regresión logit y
probit. Estos son modelos de regresión para variables binarias dependientes. La variable dependiente se mide
a menudo como 0 o una. Ejemplos comunes incluyen decisiones de
voto, estar desempleado en el logro
educativo, elegir hacer algo, etc. Los modelos
Logit y probit utilizan transformaciones
no lineales para asegurar que las predicciones modelo permanecer dentro del límite 01. Ambos modelos son muy similares, pero tú transformaciones
no lineales ligeramente diferentes. Analizar variables dependientes que han ordenado categorías, como una escala Likert. A menudo usamos modelos ordenados
logit y probit. Estos son muy similares
a los
modelos logit y probit y utilizan transformaciones
no lineales similares. El truco adicional
que utilizaron estos modelos es incluir puntos de corte
en su modelado, que estiman dónde se
recortan
las decisiones para que se
puedan hacer predicciones en diferentes categorías. Otra clase de modelos
no lineales
sobre modelos logit multinomiales. Éstas se usan a menudo cuando
una variable dependiente consiste en categorías desordenadas
o nominales. Un ejemplo famoso incluye qué modos de
transporte toma la gente, el autobús, el coche, o el tren. Tenga en cuenta que existen modelos de
probit multinomiales, pero luego no se usan con frecuencia. No obstante, los modelos no lineales para no solo trabajar en modelos de elección
categórica, algunos tipos de datos requirieron que las
predicciones estén delimitadas entre 0 y infinito positivo. En otras palabras, el modelo
no debe predecir valores negativos. Los ejemplos incluyen modelos de
regresión de Recuento
y modelos de regresión de tiempo. Ambos requieren
transformaciones para que las predicciones de estos
modelos no sean negativas. El Poisson y los modelos de regresión
binomial negativa. Ejemplos comunes
para datos de conteo. Una vez que el modelo de
riesgo proporcional de Cox es un ejemplo común, cuando el tiempo es la
variable dependiente en una regresión.
6. Máxima probabilidad: Máxima Verosimilitud. Si bien ordinariamente los cuadrados se estiman resolviendo las ecuaciones de
mínimos cuadrados, la mayoría de los modelos no lineales se estiman utilizando la
máxima verosimilitud. máxima verosimilitud es
un método numérico que estima el valor
de los parámetros. Después de mayor probabilidad de generar la
muestra observada de theta. máxima verosimilitud a menudo se
estima iterativamente, lo que significa que la
computadora realiza muchos cálculos para
reducir los mejores parámetros
posibles. No voy a explicar esta técnica
con mucho detalle. Pero aquí hay algunos
consejos básicos que se deben observar al tratar con la estimación de
máxima verosimilitud. Se
debe utilizar la máxima verosimilitud cuando las muestras tengan
más de 100 observaciones, 500 o más observación es la mejor. Más parámetros requieren
más observaciones. Una regla general es que al
menos diez
observaciones adicionales por parámetro extra
parecen razonables. No obstante, esto
no implica que no sean necesarias
un mínimo de 100 observaciones
. estimación de máxima verosimilitud es más propensa a problemas de colinealidad. Se necesitan mucho más datos si las variables
explicativas son altamente colineales entre sí. Además, va a variación
en la variable dependiente. En otras palabras,
demasiados resultados en
uno o 0 también pueden conducir
a una mala estimación. Por último, algunos modelos de
regresión con funciones
complejas de máxima verosimilitud requieren más datos, sondearlos y los modelos de carga
son menos complejos. Modelos como los modelos logit
multinomiales de muy complejos.
7. El modelo de probabilidad lineal: Modelo de probabilidad lineal. Echemos un vistazo y exploremos por qué
la regresión no lineal podría ser útil examinando el modelo de probabilidad
lineal. El modelo de probabilidad lineal es una
regresión estándar de cuadrados ordinariamente aplicada a un modelo donde la
variable dependiente y es binaria. Pero antes de continuar,
tenga en cuenta lo siguiente. El modelo de probabilidad lineal se utiliza a menudo para
demostrar que el punto es una mala idea para ejecutar regresión
lineal a través de datos
categóricos. No obstante, a menudo los resultados del
modelo de probabilidad lineal serán muy similares a los efectos finales del
módulo de un modelo logit o probit. Lo demostraré más adelante. Pero por ahora, se
advierte que si bien
con frecuencia declaramos que el modelo de
probabilidad lineal está equivocado, la verdad es probablemente
más compleja. Puede ser sorprendentemente útil cuando se usa con la cantidad
correcta de conocimiento. Además, tenga en cuenta que si alguna vez decide utilizar el modelo de probabilidad
lineal, es necesario
utilizar errores
estándar robustos ya el modelo de probabilidad lineal
causa heteroscedasticidad. Imagina por un
momento que tenemos un conjunto de datos muy simple
que contiene solo dos variables, y y x. nos interesa la
relación entre y y
xImagina que y también se
mide como binario variable, ya sea 0 o una, y x se mide como una variable
continua. Antes de ir más allá, veamos cómo se
vería esto en un gráfico. Se vería
algo así. Cada
observación continua x está
asociada a una observación de 0 o
un cable. Una gráfica de dispersión de dichos
datos probablemente
no sea la mejor manera de
visualizar este tipo de datos. Pero ten cuidado conmigo porque el tamaño de la
muestra no es enorme, podemos apenas alrededor de distinguir que las observaciones aquí
con valores más altos de X son más propensas a tener un
valor de y que sea igual a uno. Si bien las observaciones
con valores más bajos de x parecen más propensas a
tener un valor y de 0. Esto nos dice que parece
haber una relación positiva
entre x e
yAumenta la siguiente ventaja a una mayor probabilidad de y ser uno. Hasta ahora, tan bueno. Pero claro, haciendo esto
visualmente como sus límites. No sabemos cuál es la relación exacta
entre y y x. Podríamos trazar la
relación entre y y x usando un ajuste no paramétrico. Entonces este método
nos dice claramente que hay una
relación positiva entre y y x Inicialmente, la relación
es inexistente. Y luego a
cierto valor de x, la relación
se vuelve positiva. Después de un cierto valor
superior de x, la relación se aplana nuevo y se vuelve inexistente. Genial. No obstante, ya hemos discutido los problemas con no paramétricos
en un curso anterior. Queremos poder parametrizar la
relación entre y y x que podamos
compararla con otros datos o dar esta información
a otra persona. ¿ Cómo podemos hacer eso? Una forma es utilizar
ordinariamente cuadrados y ejecutar una regresión lineal simple a
lo largo de los datos que resultaría en algo
que se veía así. El ajuste lineal establece
claramente una relación positiva
entre y y x. El
coeficiente de pendiente estimado de esta regresión tiene
aproximadamente 0.23. Es decir, por cada
una unidad aumenta en x, la probabilidad de que Y sea una aumenta en 23 puntos
porcentuales. Genial. A continuación, trazar los valores estimados pronosticados de y a partir de
nuestro modelo de regresión simple. Parece ser un problema
con nuestro modelo. Las predicciones de nuestro
modelo de regresión lineal dan como resultado tres observaciones, teniendo un valor y predicho
por encima de 11 observaciones, teniendo un
valor y predicho de inferior a 0. Este es el problema del modelo de probabilidad
lineal. Su naturaleza lineal,
por definición, predice valores
fuera de nuestros límites. Eso no tiene sentido. Dichos resultados no tienen sentido. No es posible
tener una probabilidad de votar por partido a un de 120%. Desafortunadamente, no importa cuál sea la relación
entre y y x, cualquier relación lineal en algún momento
predecirá valores y que
salen de rebote. Y este ejemplo aquí, dibujé una pendiente de
regresión ligeramente más baja entre estos datos. Pero aún se puede ver que en algún momento se va
a pasar de límites. No hay escapada de este
problema con regresión lineal. Algo siempre
estará un poco mal. Claramente, necesitamos un
mejor tipo de modelo.
8. La transformación de la punta y el resultado: El logit y la
transformación del probit. La respuesta es utilizar
un modelo no lineal. Específicamente en este caso, necesitamos utilizar algún tipo de
transformación que haga no lineal
la relación lineal
entre y y x. Las dos transformaciones más
utilizadas para nuestro problema anterior, la
transformación logit y probit. Ambas transformaciones aseguran
que la relación entre y y x permanezca
delimitada dentro de 01. En otras palabras,
no puede haber predicciones fuera de límites a partir de estos modelos de regresión. Las matemáticas unen
estas transformaciones pueden parecer un poco complejas. Exploremos ambas
transformaciones visualmente. Aquí está la
relación estimada entre Y y X desde un logit y probit fit. Se puede ver que ambos son muy similares en cómo
se relacionan y y x juntos. En general, ambos tienen una forma muy similar y ofrecen el mismo tipo
de predicciones. A menudo hay muy poca razón para preferir una sobre la otra. Y ambos se
utilizan con frecuencia. En el trabajo aplicado. Ambos modelos predicen valores y que ahora están delimitados entre 01. Echa un vistazo. Los valores predichos de Y tanto
del logit regresión
probit permanecen
dentro del 01 encuadernado de y. fantástico. Parece que
resolvemos nuestro problema. La probabilidad lineal está fuera
y los modelos no lineales están adentro.
9. Variables latentes: Variables latentes. Modelos no lineales en generalmente más difíciles de interpretar
que los modelos lineales. Permítanme explicar por qué.
Muchos modelos no lineales, como los modelos logit y probit, asumen que hay un proceso lineal en la línea,
cada variable dependiente. ¿ Qué significa eso? Bueno, imagina tu
decisión de comer, comer, de no comer.
¿ Cómo se decide? Los modelos Logit y probit asumen que debajo de
tu decisión de
comer o no comer hay una escala de hambre continua e
infinita. Si no tienes hambre, no
comes. Si tienes un poco de
hambre, no necesitas. Si tienes un poco más de
hambre, sigues solo. Pero en algún momento
tu hambre se vuelve demasiado y decides comer. Así funcionan los modelos logit y
probit. Asumen que
toda decisión de elección es la realización de personas que pasan algún punto de corte invisible en un proceso continuo oculto. Llamamos a tal proceso
un proceso latente. A menudo denotamos
tal proceso con una variable llamada y star. En nuestras ecuaciones, y star será una función
de muchos factores. Por ejemplo, si y
star es hambre, podría ser una
función del ejercicio. Si se mide el ejercicio x, entonces la relación
entre ejercicio y hambre podría tener un
coeficiente positivo de uno. No obstante, y star
siempre nos esconde. No lo vemos. Nunca podemos observar
este proceso. Para hacer las cosas más difíciles. A esto se relacionan los
coeficientes logit y probit. Recuperan coeficientes
que se relacionan con y star. Esto significa que la
sonda y los
coeficientes lógicos no tienen interpretación
natural. Simplemente no tienen sentido. Un aumento de una unidad
en x conducirá a un aumento de una unidad
en el hambre invisible. Eso no tiene sentido. ¿ Qué observamos? Observamos la realización
de y star, a menudo llamada y En otras palabras, ¿
alguien comió o no? Para averiguar cómo se
relaciona x con la
realización de la elección, necesitamos transformar
los coeficientes de modelos
no lineales
como logit y regresión
probit en
algo útil. Esto a menudo se hace
usando efectos marginales.
10. ¿Qué son los efectos marginales?: ¿ Qué son el efecto marginal? coeficientes de efecto marginal o de
pendiente ocasiones también se
denominan efectos parciales. En regresión lineal, coeficientes
estimados
son efectos marginales. Eso es porque tienen una pendiente constante
que no cambia. Cada aumento de una unidad en x
conduce a un cambio Beta en y Sin embargo, en
regresión no lineal, como probit o regresión
cargada, las pendientes varían constantemente. No hay un solo efecto
moderno. Es por ello que debemos calcular los efectos
del módulo en puntos
particulares. Es por ello que debemos calcular los efectos marginales
en puntos particulares. Dos tipos de cómputos
son los más populares. Efectos calculados a
la media de x y el efecto promedio de todos los efectos calculados
a lo largo de cada punto de x Estos son los efectos
marginales más comunes de la práctica. Pero los usuarios también pueden elegir cualquier otro punto
que tenga sentido para ellos. Permítanme demostrar
esto visualmente. Aquí estamos de vuelta con uno de nuestros ataques no lineales
de y contra x. En este caso, el
ajuste es un probit fit. Cada punto de datos tiene un valor
predicho de y A lo largo de este ajuste, observamos
que a medida que x aumenta, también lo hace la probabilidad
de que Y sea uno. También señalamos que
la relación entre x e y no es lineal. Para entender el
efecto de x sobre y, calculamos efecto marginal, efecto marginal sobre unas pendientes
en puntos respectivos de x Como se puede ver, la pendiente
cambia constantemente. En valores bajos de x, la relación entre
y y x es casi plana. App, valores promedio de x. La relación es
fuertemente positiva. En valores altos de x, la relación es plana. Nuevamente. Tenemos que elegir algún valor de x donde calcular
nuestros efectos de módulo. La media de x
suele ser de buen valor. En este caso particular, el coeficiente de pendiente
es de aproximadamente 0.30. Esto significa que el efecto
de X en Y es el siguiente. Un cambio uniunificado en x provoca un aumento de 30 puntos porcentuales en la probabilidad
de que Y sea uno. Simplemente recuerde, la
relación
no se mantiene a través de todos los valores de x. a valores más altos de x. aumentos
adicionales en x conduce a incrementos
mucho menores
en y siendo uno.
11. Variables explicativas de tontos: Variables explicativas ficticia. Hasta ahora, hemos establecido que los
coeficientes que salen de un modelo no lineal requieren un poco de trabajo extra
para dar sentido. No obstante, solo miramos una
sola variable continua. Para ser precisos, miramos
el modelo a lo largo de las líneas de y es igual a Beta X
más un término de error, donde x es una variable que
se mide continuamente. ¿ Y si incluimos una
variable ficticia adicional en nuestro modelo? Es decir, queremos
estimar el modelo
siguiendo las líneas de y es igual a Beta X más beta una variable ficticia
más una hermética. Las variables ficticia son
variables binarias que a menudo toman los números 0 o un bit, como nuestra variable dependiente y. en regresión lineal,
coeficientes en variables ficticia, a veces llamadas
desplazamiento de interceptación porque cambian
la interceptación. Es decir, mueven toda
la relación entre x e y
hacia arriba, hacia abajo. No obstante, en los modelos no lineales, su efecto no es constante. Todavía desplazan la relación
no lineal entre Y y X hacia arriba o hacia abajo, pero el tamaño del
turno no es constante. Déjame mostrarte
esto gráficamente. En este ejemplo, seguimos ajustando un
ajuste no lineal a nuestros datos observados. Y se mide como un punto de variable y X se
mide continuamente. No obstante, el
modelo real debajo es de un modelo de regresión también
incluye una variable ficticia. Las variables ficticia actúan como
un turno de interceptación. Observaciones con un valor
ficticio de uno. Digamos, estos representan a los hombres, tienen mayor
probabilidad de observar un valor y de uno para
cualquier valor dado de x Sin embargo, como se puede ver
claramente aquí, el tamaño de este efecto varía
dependiendo de dónde estemos . En valores bajos de x, el efecto de la
variable ficticia es casi insignificante. Valores medios de x, la diferencia entre
las dos curvas es alta. Y por último, a valores
altos de x, el efecto de la
variable ficticia disminuye. Y de nuevo, todo esto tiene sentido. Esto se debe a que
seguimos ligando nuestra relación entre y y x entre 01 vía la no lineal, en este caso, la
transformación logística. Por lo tanto, cualquier efecto escalonado de una variable ficticia también
debe ser no lineal
para seguir asegurando que no
salgamos de límites
con nuestras predicciones.
12. Regresión no lineal múltiple: Regresión no lineal múltiple. Por último, ¿qué pasa cuando tenemos un modelo de regresión con múltiples variables continuas de
país? ¿ Cómo funciona eso? Tomemos nuestro modelo anterior
con una variable ficticia y simplemente añadamos otra variable
explicativa continua, llamémosla x2. Esto nos da un modelo
a lo largo de las líneas de y es igual a veces beta x1 más veces beta x2 más tipos
Beta de variable ficticia. Lo clave a
entender acerca de la regresión no lineal
múltiple es que el efecto de cada beta, o muy, no solo de
acuerdo con qué valor de x estamos fuera. Eso también en qué
valor de otro eje. Considerando que en otras palabras, el efecto de cada
página que
dependerá del valor de cada x, no sólo de la variable
en cuestión. En la práctica, a menudo
medimos la pendiente de cada coeficiente del
valor medio de la bola en el eje. Esto puede ser difícil de comprender. Así que de nuevo, déjame
mostrarte una visualización de un modelo logit con dos variables continuas
y una variable ficticia. continuación se presenta una visualización
del mencionado modelo de regresión
logit. Nuestros datos se componen de una variable independiente que
toma sólo los valores 01. Es decir y, en el gráfico de la
izquierda, que los datos se distribuyen
en el techo y el piso de la imagen
tridimensional. Anticuado también consta de dos
variables explicativas continuas, X1 y X2. Ambos tienen una
relación positiva con Y. pero es bastante difícil de entender eso de nuestra trama de dispersión. En el gráfico correcto, hemos trazado los valores
predichos a partir de una regresión logit. Considerando que un modelo de
regresión lineal, como ordinariamente cuadrados, intenta encajar planos lineales de mejor ajuste a través de estos datos. La regresión de Logit se ajusta a planos
no lineales de mejor ajuste a través de estos datos. No obstante, el dolor logit
de best-fit no
solo es no lineal en
relación con solo una variable x. El talud del plano cambia acuerdo con ambas
variables X. Específicamente, el valor de ambos x determinará la
relación entre X1 e Y, también x2 e y Todo esto puede ser un concepto bastante
complicado de comprender. Si agregamos más variables
explicativas, todo esto se mueve hacia dimensiones
más altas. Por último, también se visualiza
el efecto de la variable ficticia. Aquí. Tenemos dos planos de
best fit en este gráfico. Un plano es para todos los valores de 0 para
la variable ficticia, y el otro plano es para o en los valores de uno para
la variable ficticia. Creo que es obvio ver lo difícil que puede ser dar
sentido a tales modelos. Es básicamente imposible.
13. Bondad de los recursos: Bondad de ajuste. Ahora que tenemos una comprensión
razonable de cómo funcionan los modelos de regresión no lineal, como los modelos de
regresión logit y probit. Hablemos de cómo medir si tales
modelos de regresión se ajustan bien a los datos. Los valores R-cuadrados tradicionales de cuadrados
ordinariamente no
existen para los modelos no lineales. No hay suma de cómputos
cuadrados proveniente de
este tipo de modelos. Eso significa que no podemos calcular
cuánta varianza se
explica e inexplicable. Otras formas de medir el
ajuste necesario. Muchos paquetes de software calculan algo llamado
pseudo R-cuadrado. Esto intenta imitar el diagnóstico de
bondad de ajuste al estimar primero un
llamado modelo nulo. No modal es un modelo
sin variable explicativa
y sólo una constante. estima entonces segundo modelo con
covarianza completa. Y se hace la comparación de la
función log-verosimilitud. El ratio de cuánto
mejor es el modelo completo, se proporciona entonces como
un pseudo R-cuadrado. Puede ser una estadística útil, pero nunca debe
considerarse similar a la
nada tradicional al cuadrado. Aquí hay algún peligro. Otra forma de calcular
la bondad del ajuste es
mirar algo llamado tabla
de clasificación. La tabla de clasificación asigna valores
pronosticados del
modelo a 0 o uno. Valores que se
pronostican a b1 y son en realidad uno serían
clasificados como correctos. De igual manera, los valores que
se pronostican ser 0 y en realidad 0 también se
clasifican correctamente. Cualquier otro valor entonces
sería clasificado como incorrecto. La proporción de valores correctamente
clasificados
sirve entonces como indicador de qué tan bien se ajusta el
modelo a los datos. Aquí hay un ejemplo de una tabla de
clasificación de Stata. Bastante cantidad de salida
pasando aquí. Así que déjame explicarte
lo que está pasando. En la parte superior vemos un archivo de tabla de clasificación modelo de regresión
logística. Tenemos un total de
100 observaciones. De estas 63 observaciones se
clasifican como 137 observaciones se clasifican como el 0 de las 36 observaciones que
se clasifican como 145. Valores reales de uno
en los datos de la fila. 18 tienen 0 valores. De igual manera, para aquellos con
una predicción de 011, en realidad
no una vez en los datos, y 26 son ceros
en el mundo datos. Entonces un total de 71 de cada 100 observaciones
pronosticadas correctamente. Podemos ver en la parte inferior, el 71% de las observaciones se clasifican
correctamente. Un valor más alto indica un mejor modelo logit
o probit de ajuste. Generalmente, valores superiores a
80 o 90, o excelente. Los valores en los años 70 son buenos. Los valores en los años 60 están bien. Y valores en los años 50 e
indican un modelo de ajuste deficiente. Recuerda que simplemente
rodando los dados, podríamos esperar clasificar correctamente el
50% de los valores. Por lo tanto, el 50 por ciento debe ser
visto como el punto de referencia aquí. Hay bastantes otras
estadísticas en esta tabla, pero todas son solo
variaciones de un tema. No obstante, hay un
último elemento a tener en cuenta. La clasificación
depende de un valor de corte. Mi defecto. Por defecto, muchos programas usan 0.5. En otras palabras, los valores
por encima de 0.5 se pronostican como uno y los valores por debajo de
0.5 se pronostican como 0. Esto es arbitrario. Decir valor de 0.5
parece tener sentido lógico. El valor del punto de corte se
puede cambiar. Esto resultará en ajustes de modelo completamente
diferentes. Aquí hay un ejemplo de eso. En este video, estoy
demostrando el impacto en la estadística de bondad de ajuste al cambiar el corte de
clasificación. El gráfico muestra los
puntos de datos de barrio de una regresión de una variable binaria y frente
a una variable x continua. Se estima un modelo logit. Se trazan
los valores pronosticados. Los valores rojos se clasifican como 0 y los valores verdes se
clasifican como uno. Valores grises, ligeramente agrandados
para un mejor efecto visual. Denotar valores
clasificados incorrectamente. El punto de corte inicial
para clasificar variables se establece en 0.5. Ahora, sigamos adelante
y cambiemos esto. Podemos ver que a medida que movemos el valor del punto de corte entre 01, la proporción de puntos de datos
correctamente clasificados cambia drásticamente. Es decir, esta medida de
bondad de ajuste está
sujeta a lo que
creemos que es el
punto de corte adecuado para clasificar los puntos de datos. Esto nunca podría suceder en un modelo de
regresión lineal normal. Mi consejo personal
es apegarse a 0.5 a menos que existan razones muy
específicas para hacerlo. Una razón podría ser datos
muy sesgados. Por ejemplo, si una variable
dependiente binaria tiene una
proporción muy alta o baja de las.
14. Una nota sobre los coeficientes de los logotipos: Una nota sobre coeficientes logit. coeficiente probit no tiene una
interpretación natural ya que
se relacionan con la puntuación latente
subyacente de una variable dependiente, que por definición
siempre es invisible y oculta. No obstante, los coeficientes Logit sí tienen una interpretación natural. Gracias a una peculiaridad
de las matemáticas. Para los modelos logit, los coeficientes estimados
pueden interpretarse como un aumento unitario en x provoca un aumento beta en las probabilidades
log de y ser uno. Esta interpretación natural
tiene algún significado, pero la porción de probabilidades de registro todavía
puede ser un poco incómoda. Para superar esto, podemos exponenciar coeficientes
a partir de cargas de modelo. Esto permite que los coeficientes logit
lo interpreten como probabilidades. Probabilidades. Específicamente,
las proporciones de probabilidades siguen siendo complejas interpretan, pero sí significa que los
usos son capaces de
evitar el cómputo de
efectos marginales. Podemos interpretar un
coeficiente logit exponenciado de la siguiente manera. Para un cambio de una unidad en x, se espera que
las probabilidades
cambien por un factor de Beta, sosteniendo todo lo
demás, constante. Las proporciones de probabilidades tienen una base de uno
cuando las probabilidades son similares. Por lo tanto, si la
pizza está por encima de una, podemos decir que las
probabilidades beta veces más grandes, la beta está por debajo de una. Podemos decir que las probabilidades son veces
beta más pequeñas. No obstante, recuerda que si bien
las probabilidades tienen algún significado, no revelan la magnitud del cambio en la
probabilidad de resultado. Sólo los
efectos marginales pueden hacer eso.
15. Consejos para la regresión de los resultados y la punta: Consejos para logit y regresión
probit. qué se indican los requisitos
para los modelos no lineales tienden a ser más altos que
para los modelos lineales. Cabe señalar que los
modelos de regresión logit
y sondeo son muy robustos para incluso muestras pequeñas
y variación de escala. En otras palabras,
mientras que los modelos como los modelos logit
multinomiales
requieren una gran cantidad de datos, logit y
regresión probit se puede hacer con un tamaño de muestra mucho
menor. A menudo hay muy
poca razón para elegir entre modelos logit
o probit. Ambos resultados. Ambos resultan en predicciones muy
similares y efectos marginales similares. No obstante, una de las
razones por las que algunas personas gravitan naturalmente
hacia los modelos de carga es la flexibilidad extra de la interpretación
de probabilidades de su coeficiente. coeficientes de Rho logit
son generalmente 1.7 veces más grandes que la guerra, probablemente coeficientes
para el mismo modelo. No obstante, los efectos marginales
serán muy similares. Generalmente es buena práctica reportar efectos marginales a la media de todas las demás variables o los efectos marginales promedio. Sería extraño
no reportar estos cuando se
utilizan tales modelos. No obstante, a veces cómputo de efectos
modelo
puede ser intensivo. Hay dos formas de
superar esto. Coeficientes en bruto a partir de modelos
logit y probit. Permitirán a los usuarios interpretar el signo tamaño
y significado relativo. O uno podría resultar en un modelo de probabilidad
lineal. Permítanme explicar por qué.
16. ¿Volver al modelo de probabilidad lineal?: Volver al modelo de
probabilidad lineal. Empezamos este curso con
un claro ejemplo de por qué un modelo de probabilidad lineal
es generalmente una mala idea. No obstante, resulta que
hay un forro plateado. Los modelos de probabilidad lineal suelen producir los mismos efectos marginales que los efectos marginales de la regresión
logit y probit. Si la mayoría de las variables del modelo de regresión tienen
normalmente datos de comportamiento, cálculo de efectos
marginales
a menudo producirá las mismas estimaciones de pendiente que las estimaciones de pendiente a partir de un estándar
regresión lineal. En otras palabras, es
posible utilizar genuinamente unos
modelos de probabilidad lineales para calcular efectos
marginales para regresiones con variables binarias dependientes. Esto puede ser realmente útil para situaciones en las que se necesita reducir el
tiempo computacional. Alternativamente, puede ser útil para complicados modelos de
regresión no lineal,
como los modelos cargados de datos de panel para las
complejidades matemáticas hacen que cálculo de efectos
marginales sea
extremadamente difícil. Aquí hay un ejemplo
de lo que quiero decir. Aquí, estoy usando Stata para estimar una
regresión logística entre Y y X. Y el coeficiente logit
sale alrededor de 1.26. cálculo promedio de
efectos marginales produce un resultado de alrededor de 0.24. Es decir, el factor marginal
promedio es que un aumento de una unidad en x conduce a un aumento de 24
puntos porcentuales en la probabilidad de que Y sea uno. Ahora, echemos un vistazo. Ordinariamente cuadrados regresión
utilizando el mismo modelo. Y este modelo estima
un coeficiente de 0.23. Es decir, un cambio de una
unidad en x conduce a un aumento de 23 puntos porcentuales en la probabilidad
de que Y sea uno. Esto es casi idéntico
al modelo logit y destaca la utilidad
potencial de un modelo de probabilidad lineal.
17. Stata: ejemplos de logotipos aplicados y de punta: Vamos a explorar algunos de
estos conceptos que hemos estado discutiendo en un entorno
aplicado. Ahora estamos en el estator, que es un paquete de
software estadístico comúnmente utilizado para analizar conjuntos de datos
cuantitativos. Es similar a otros
paquetes como SPSS o SAS. No explicaré cómo operar estator ni el código
que estoy ejecutando. Para obtener estos resultados. Podrás conocer más sobre estator en
estado específico o cursos. Ya he abierto un conjunto de datos de
capacitación llamado Encuesta
Nacional Longitudinal de Mujeres en 1988. Examinémoslo un poco más de cerca antes de empezar a
ejecutar regresiones. Empecemos con una
descripción de los datos. El retorno de salida por
describir a los productores información de
alto nivel
sobre los datos, como dónde se encuentra, cuántas observaciones
y variables se incluyen, y su tamaño. En este caso, nuestros datos contienen 2246 observaciones
y 17 variables. Ese es un tamaño de muestra justo. Pero los conjuntos de datos modernos tienden
a ser mucho más grandes. A continuación se muestra información
sobre las variables. O las variables se miden
como variables numéricas. Mientras que algunos se miden
dos precisiones diferentes. No hay
variables de cadena en estos datos. Las variables o relacionadas con los resultados del mercado
laboral de una muestra de
mujeres de 35 a 451988. Contamos con información
sobre sus edades, salarios, ocupación,
educación, y más. Bueno. Ahora hagamos un resumen rápido. Resumir nos proporciona algunas estadísticas básicas
para cada variable, como el
recuento de observación, la media, la desviación estándar, y los valores
mínimo y máximo. El escaneo a través de
los datos revela que la mayoría montañas se ven normales
para lo que esperaríamos. El promedio de edad es 39 años y 64% de la
muestra están casados. Los salarios se ven bien. Si bien sabemos
que la variable Unión tiene observaciones faltantes. Ahora,
finjamos que realmente nos
interesa explicar el determinante
de la afiliación sindical. Ya podemos empezar a construir
una imagen en nuestra cabeza de qué variables podrían
ser importantes explicar la elección de
ser miembro sindical. Es poco probable que los salarios y
la educación sean factores importantes. Tal vez h2. De hecho, muchas de las
variables aquí podrían ser factores
importantes para determinar la decisión de
alguien de
ser miembro del sindicato. Para mantener las cosas fáciles, eso es sólo incluir
un pequeño número de variables para empezar. Escogemos la edad, el salario, casado, y la universidad,
graduemos como nuestras variables. La variable Unión
parece que se mide
como una variable binaria. Confirmemos esto
con una tabulación. En efecto, la variable se mide como una
nueva variable granero y 24.5 por ciento de nuestra
muestra miembros de un sindicato. A continuación, vamos a trazar
la unión variable, nuevo, auto primera variable
en la lista, edad. Este es un buen ejemplo de por qué un análisis gráfico de datos
binarios puede ser difícil. Realmente no podemos
ver nada aquí. Aparte de eso. Por cada año de edad, hay sindicalistas
y no sindicalistas. Podríamos dibujar un polinomio local más suave a través de su trama para obtener una mejor comprensión
de cómo se ve la relación entre la edad y ser miembro del
sindicato. No se ve así. Existe una relación particularmente
fuerte
entre la edad y la afiliación
sindical. Para
fines de demostración, ahora
calculemos una
relación paramétrica. El uso de un modelo logit
solo usará la edad como variable
explicativa. Por ahora. Status logit regresión
salida se ve muy similar a la de una salida de regresión de
cuadrados ordinariamente estándar. La información diagnóstica se presenta en la parte superior y los resultados
se presentan a continuación. En lo más alto de los resultados, vemos que se está llevando a cabo el
proceso de máxima verosimilitud. Estator, calcule varios modelos con diferentes parámetros
y estimaciones. Una log-verosimilitud,
luego converge en el mejor conjunto de parámetros que ofrecen la menor
probabilidad de registro. Debido a que
los modelos logit y probit están tan bien desarrollados, no
se
necesitan muchas iteraciones para lograr un conjunto final de resultados. Aquí se presenta el log-verosimilitud
final. A continuación, tenemos información sobre el recuento de observación y un estadístico
Chi-cuadrado de ratio de verosimilitud. Esta estadística es
similar a una prueba F para modelos
lineales y nos dice que el modelo explica
algo o no. En este caso, la
respuesta no es todo ya que el valor p de la estadística
chi-cuadrada está muy por encima de 0.05. A continuación está el pseudo R cuadrado, que confirmó además que
este es un ajuste terrible. Lo que es uno nunca debe
traducir esto como ser análogo a las estadísticas lineales
R cuadrado. Un valor de 0.0001
está extremadamente ligado. la sección de resultados, vemos por qué
el coeficiente de edad es muy pequeño. El error estándar es alto. El estadístico z asociado es análogo al estadístico t
en regresión lineal. Valores superiores a 1.96 implica significación
estadística para muestras de tamaño
razonable. El valor p también tiene el mismo significado que
para los modelos lineales. Valores de 0.05 o inferiores son estadísticamente
significativos en el nivel del 95%. Tanto la estadística Z como el
valor p mostraron que la variable h es muy
estadísticamente insignificante. Para ilustrar aún más esto, podemos calcular las probabilidades
predichas de afiliación
sindical a partir de este modelo y trazar esto en nuestro gráfico. Los puntos azules representan
los puntos de datos crudos y los puntos rojos representan las probabilidades previstas
de afiliación sindical. El resultado es que
prácticamente no hay relación entre edad y afiliación sindical. Es difícil de ver, pero la relación predicha
aquí sigue siendo no lineal. Es sólo que la
parte no lineal en este bit de los datos es tan plana que apenas
podemos verlo. Si predijéramos
esta relación en rangos más altos de edad, podríamos ver la transformación
logit. Aquí está. Usando un rango de edad de menos
10000 a más 1 mil, revela una
relación no lineal entre edad y afiliación sindical a partir de
este modelo logit en particular. Obviamente, esto no tiene mucho
sentido. Estamos pronosticando
muy fuera de límites. Además, edades menores de
0 o no posibles. Volvamos a nuestro modelo logit y añadamos algunas variables más. Sabemos que la edad no es
estadísticamente significativa. Pero a menos que haya un
problema con el tamaño de la muestra, mi consejo es generalmente no excluir una variables estadísticamente
insignificantes. El motivo es que
controlar nuevas variables
adicionales podría
hacer que las variables anteriores sean
estadísticamente significativas. Nuevamente, echemos un vistazo. Agregaremos salarios, casados y egresados universitarios como variables explicativas
adicionales a nuestro modelo. El modelo ahora tiene una estadística
chi-cuadrada de 48, que es estadísticamente
significativa. Esto significa que nuestras variables
expliquen algo. Pseudo R cuadrado es 0.023, que es mucho
mejor que antes. No obstante, todavía
parece de bajo valor. Vale la pena explorar esto más a fondo con una tabla de
clasificación. El momento. En primer lugar, al mirar los resultados, vemos que dos variables son estadísticamente significativas
en el nivel 95%, el salario y el egresado universitario. Una variable, casada es
estadísticamente significativa. En el nivel 10%. Los coeficientes actualmente
presentados son difíciles de interpretar, pero podemos inferir tamaño,
signo y significado. Los salarios están
relacionados positivamente con la probabilidad de
ser miembro sindical. Ser egresado universitario
también está positivamente relacionado. Estar casado está negativamente relacionado con ser miembro del sindicato. Tanto egresados universitarios
como casados. Un maniquí variables explicativas. Por lo que podemos inferir que
el efecto de ser egresado universitario es más fuerte que el efecto
de estar casado. Esto se debe a que el coeficiente
absoluto de egresado
universitario es
alrededor de 20%
mayor que el coeficiente de casado. Para dar sentido a
los coeficientes una
manera más significativa, normalmente
calcularíamos los efectos
marginales. Esto se puede hacer con facilidad
y estados y por defecto, estado para calcular los efectos marginales
promedio. En otras palabras, todas
las pendientes a través cada valor de x
y luego promedios. Estos aquí son los resultados. Se calcula a los Estados los efectos marginales
promedio con respecto a todas las variables. El efecto de la edad
es insignificante, pero la interpretación de
la estimación es la siguiente. En promedio, un
aumento de una unidad en la edad incrementa la probabilidad de afiliación
sindical 0.1 punto porcentual. El salario es también una variable
continua. La interpretación
es, en promedio, un aumento de una unidad. En el salario por hora aumenta
la probabilidad de afiliación
sindical en
1.2 puntos porcentuales. casado y universitario,
o variables ficticias. Por lo que pueden interpretarse
como, en promedio, estar casados disminuye
la probabilidad de afiliación
sindical en
3.9 puntos porcentuales. En promedio. Ser egresado universitario
aumenta la probabilidad de afiliación sindical en
4.6 puntos porcentuales. Genial. También podemos calcular efectos específicos del
módulo para responder preguntas sobre cómo las personas
específicas podrían verse afectadas
por el cambio en x Por
ejemplo, el efecto
de estar casado en la afiliación sindical es menos
cinco puntos porcentuales. Para las mujeres que tienen 40 años de edad con antecedentes universitarios y
un salario de 30 dólares por hora. A continuación, exploremos la bondad
de ajuste un poco más cerca. El
valor pseudo R cuadrado fue de 0.0231. Al llamar a una tabla de
clasificación, podemos obtener más información. El
archivo de tabla de clasificación logit regresión, muestra que clasificamos correctamente el 75%
de las observaciones. Y eso parece un número
bastante bueno. Pero es importante examinar la
tabla de clasificación con más detalle. Si bien nuestro modelo
hizo un buen trabajo de predecir valores 0
que en realidad son 0, es un trabajo muy malo al
predecir cualquier valor positivo. Se
prevé que sólo 20 observaciones sean sindicalistas. Sabemos por nuestras estadísticas
resumidas alrededor de 450 observaciones. En realidad los sindicalistas,
cuál es la proporción de valores
correctamente clasificados está relativamente bien. Una inspección adicional de la
tabla de clasificación nos dice que nuestro modelo hace un mal trabajo al
predecir valores positivos. Claramente necesita más trabajo. A continuación, comparemos la
salida del modelo logit. Los resultados de un modelo probit
y de probabilidad lineal que
comparen los coeficientes en bruto
no serán muy útiles. Vamos a calcular los
efectos marginales para cada modelo. El modelo de probabilidad lineal produce
efectos marginales por defecto. Para logit y regresión probit. Tenemos que pedirle
a STATA que los compute, almacenará estas
estimaciones y luego las
comparará en una tabla como tal. En la tabla de resultados se indica que los tres modelos producen resultados
muy similares. Los efectos marginales
son casi idénticos. Por ejemplo, estar
casado resulta en una disminución total de
puntos porcentuales en la probabilidad de
ser miembro del sindicato. Del modelo de
probabilidad lineal. Una disminución
porcentual
de tres puntos nueve con respecto al modelo logit, y caen porcentaje disminuyen parte
del modelo probit. Por último, antes de terminar, déjame mostrarte el concepto de variables
Lake con
un modelo probit. Este puede ser un
concepto difícil de entender, así que prefiero demostrar
esto con datos simulados. Vamos a aclarar todo
en nuestros datos. Invoquemos el comando set
que le dice a Stata que haga algo 1000 veces cuando invocamos comandos de
números aleatorios. Por último, vamos a establecer una semilla para que podamos reproducir nuestros resultados. Ahora voy a
generar una nueva variable fuera del aire usando
estado la
función de número aleatorio va a generar una nueva variable llamada x que normalmente
se distribuye. Hagamos un resumen para
explorar lo que he hecho. He generado un nuevo conjunto de datos
que tiene una variable x Esta variable se distribuye
normalmente. Tiene una media de 0 y una desviación
estándar de uno. La gráfica de densidad del kernel muestra la distribución normal
de esta variable. A continuación, generemos
otra variable llamada e que también se distribuye
normalmente. Esta variable imitará un término de
error en una regresión. Ahora, generemos una tercera
variable llamada y star. Generamos y star es igual a dos veces x más una veces E. Así que hay una
relación positiva entre estrella
Y y X de pendiente dos. No obstante, ahora pretendamos que y star es un proceso latente y
no observado. En realidad no vemos por qué estrella. Lo que vemos es por qué la
realización de y star. Y es uno. Si y star es
mayor que 00, si es menor. Si tabulamos por qué vemos que
51% de las observaciones son 1, 9% de observaciones son 0. Ahora, vamos a querer probablemente la regresión
de y contra x Mira eso. El coeficiente Probit
es aproximadamente dos. Este coeficiente se relaciona con
la relación subyacente
entre Y star y X. Esto es lo que queremos decir cuando
hablamos de variables latentes. Cómo logit y
probit coeficiente, o el coeficiente de procesos
latentes subyacentes. Si cambiamos el valor de dos a cuatro en nuestra generación
Weinstein, el modelo probit predecirá
un coeficiente de cuatro. Ojalá. Este pequeño
ejemplo de simuladores hizo que el concepto de variables
latentes fuera más
real y más fácil de entender.