Análisis de datos: ¿qué es una regresión no lineal? | Franz Buscha | Skillshare

Velocidad de reproducción


1.0x


  • 0.5x
  • 0.75x
  • 1x (Normal)
  • 1.25x
  • 1.5x
  • 1.75x
  • 2x

Análisis de datos: ¿qué es una regresión no lineal?

teacher avatar Franz Buscha

Ve esta clase y miles más

Obtenga acceso ilimitado a todas las clases
Clases enseñadas por líderes de la industria y profesionales activos
Los temas incluyen ilustración, diseño, fotografía y más

Ve esta clase y miles más

Obtenga acceso ilimitado a todas las clases
Clases enseñadas por líderes de la industria y profesionales activos
Los temas incluyen ilustración, diseño, fotografía y más

Lecciones en esta clase

    • 1.

      Introducción

      4:42

    • 2.

      ¿Qué es el análisis de regresión no lineal?

      2:21

    • 3.

      ¿Cómo funciona la regresión no lineal?

      1:21

    • 4.

      ¿Por qué es útil el análisis de regresión no lineal?

      1:34

    • 5.

      Tipos de modelos de regresión no lineales

      2:45

    • 6.

      Probabilidad máxima

      1:54

    • 7.

      El modelo de probabilidad

      5:40

    • 8.

      La transformación de márgenes

      1:44

    • 9.

      Variables latentes

      2:38

    • 10.

      ¿Qué son los efectos marginales?

      2:41

    • 11.

      Variables explicativas tontas

      2:45

    • 12.

      Regresión no lineal

      3:17

    • 13.

      Bondad de ajuste

      5:39

    • 14.

      Una nota sobre los coeficientes de márgenes

      1:52

    • 15.

      Consejos para una regresión de márgenes

      1:37

    • 16.

      ¿Cómo se puede encontrar un modelo de probabilidad lineal?

      2:13

    • 17.

      Stata: ejemplos de márgenes y Probit

      18:30

  • --
  • Nivel principiante
  • Nivel intermedio
  • Nivel avanzado
  • Todos los niveles

Generado por la comunidad

El nivel se determina según la opinión de la mayoría de los estudiantes que han dejado reseñas en esta clase. La recomendación del profesor o de la profesora se muestra hasta que se recopilen al menos 5 reseñas de estudiantes.

67

Estudiantes

1

Proyectos

Acerca de esta clase

Una introducción fácil a la regresión no lineal

Aprender y aplicar nuevos métodos y técnicas a menudo puede ser una experiencia desalentadora.

Esta clase está diseñada para proporcionarte una clase compacta y fácil de entender, que se centra en los principios básicos de regresión en el análisis de datos.

Esta clase se centrará en la comprensión y la aplicación de una regresión básica no lineal en el análisis de datos; específicamente en modelos de logit y probit.

Esta clase explicará qué es la regresión y cómo funciona la regresión de Logit y Probit. A menudo se usa modelado de logit y probit Ambos métodos introducen conceptos importantes no lineales que son utilizados por métodos más avanzados.

La clase sin usar ecuaciones o matemáticas. El enfoque de esta clase es la aplicación e interpretación de la regresión en el análisis de datos. El aprendizaje en esta clase se apoya en gráficos animados que demuestran conceptos particulares.

No es necesario tener conocimientos previos y esta clase es para cualquier persona que desee participar en análisis cuantitativo.

Los principales resultados de aprendizaje son:

  1. Para aprender y comprender la intuición básica detrás de una regresión no lineal

  2. Para estar a gusto con la terminología de regresión

  3. Para poder interpretar y analizar cómodamente la salida de regresión de logit/probit

  4. Para aprender consejos y trucos

Temas específicos que se abordarán son:

    • Qué tipos de análisis de regresión no lineal

    • ¿Cómo funciona la regresión no lineal?

    • ¿Por qué es útil una regresión no lineal?

    • ¿Qué es la probabilidad máxima?

    • El modelo de probabilidad
    • Regresión de márgenes y Probit

    • variables latentes

    • Efectos marginales

    • variables simuladas en regresión de márgenes y probit

    • Estadísticas de bondad

    • Ratios impares para modelos de logit

    • Construcción práctica de modelos de márgenes en Stata

    El software de computadora Stata se utilizará para demostrar ejemplos prácticos.

Conoce a tu profesor(a)

Teacher Profile Image

Franz Buscha

Profesor(a)

Habilidades relacionadas

Desarrollo Más Desarrollo Ciencia de datos
Level: Beginner

Valoración de la clase

¿Se cumplieron las expectativas?
    ¡Superadas!
  • 0%
  • 0%
  • Un poco
  • 0%
  • No realmente
  • 0%

¿Por qué unirse a Skillshare?

Mira las galardonadas Skillshare Originals

Cada clase tiene lecciones cortas y proyectos prácticos

Tu membresía apoya a los profesores de Skillshare

Aprende desde cualquier lugar

Ve clases sobre la marcha con la aplicación de Skillshare. Progresa en línea o descarga las clases para verlas en el avión, el metro o donde sea que aprendas mejor.

Transcripciones

1. INTRODUCCIÓN: Bienvenida. El análisis de datos puede ser difícil. Tantos métodos diferentes y tantas formas diferentes de analizar e interpretar datos pueden hacer que el aprendizaje sea muy difícil. En esta clase, quiero darte un esquema fácil y rápido de un método importante y análisis de datos, regresión no lineal. La clave de esta clase es que no hay ecuaciones, ni matemáticas, ni bits complicados de conocimiento teórico. No para darte una explicación gráfica intuitiva de lo que es la regresión no lineal. Y mostrarte una gama de ejemplos prácticos. No importa cuál sea su estado actual de conocimiento profesional, puede sentirse seguro de conocer los entresijos de la regresión no lineal después de esta clase en particular. ¿ Qué es la regresión no lineal? regresión lineal es un método de regresión popular que a menudo se usa e intenta modelar opciones u otros tipos de comportamiento discreto. Muchos mensajes de regresión no lineal disponibles, probit logit regresión son los más comunes. Ambos métodos son casi idénticos. Y me voy a centrar en estos dos porque son el método más utilizado para analizar datos discretos. También formaron una base para métodos no lineales más complicados. Regresión de propiedades y logit o técnicas que examinan la relación entre una variable binaria y una o muchas variables categóricas continuas. Estas técnicas se utilizan en muchas ciencias diferentes. A menudo se usa para el análisis cuantitativo de elección y resultados discretos. Cualquiera que desee profundizar en el mundo de la estadística de regresión debe tener una buena comprensión de la base del modelado de sucesiones y logit. Uno de los principales resultados de aprendizaje para aprender y entender la intuición básica detrás método de regresión no lineal en el análisis de datos. Y la terminología asociada y también los fundamentos para aprender a interpretar y analizar cómodamente la salida de regresión no lineal. Por último, talento algunos consejos y trucos extra que te ayudarán. Análisis integral. Para quién es esta clase? Esta clase está dirigida a dosificar o comenzar sus carreras y análisis de datos podría ser practicantes, personas que trabajan en la política gubernamental, y en los negocios, y profundizar a los estudiantes. Ahora vamos a contrastar. Esta es una adición importante a las habilidades básicas de regresión. El enfoque en el modelado no lineal es un concepto un poco más avanzado, pero es un concepto que se usa muy a menudo en el mundo real. Qué prereqs sin ayuda. No hay masa y no necesitas saber ninguna matemática para dar seguimiento, sacar el máximo provecho de esta clase. Necesitas esta curiosidad. Algún estado y conocimiento pueden ser útiles para la aplicación práctica de esta clase, pero no es necesario. Nosotros estado y Stata es un programa de software estadístico que permite a los usuarios estimar muchos tipos diferentes de modelos de regresión. Ahora usaremos este programa para demostrar algunos ejemplos logit y probit. Profundo interés en entender cómo podrían estar relacionados los datos entre sí. A menudo, el análisis de datos se trata de medir variables cuantitativas. Podemos vernos unos a otros. Entonces si quieres saber cómo y se relaciona con x, entonces este es el lugar adecuado para ti. Usando Stata. Ir a estar usando estator no demostró logit y probit regresión ejemplos afirman que se trata de un software estadístico comprable. Y puedes saber más en Www.state.com, muchas clases sobre cómo puedes usar los datos. ¿ Deberías interesarte? Esta clase? No voy a enseñar datos. Me centraré en la interpretación de la salida. Tenga en cuenta que la salida se verá muy similar a otros paquetes de software estadísticos como R o SPSS. Si lo haces por casualidad usa datos y te interesa replicar los ejemplos de esta clase. He adjuntado una relevante a los expedientes a esta clase. Dos archivos son archivos de sintaxis de estado que contienen código que permiten replicar. Pero te estaré mostrando en pantalla va a estar usando el dataset de entrenamiento de NSW que viene incorporado con datos para ejemplos prácticos. Se trata de un conjunto de datos de capacitación que contiene una variedad de variables útiles y relaciones sobre los resultados del mercado laboral. Así que pasemos a la siguiente sección y aprendamos más sobre los métodos de regresión no lineal. 2. ¿Qué es el análisis de regresión no lineal?: ¿ Qué es el análisis de regresión no lineal? Al igual que el análisis de regresión lineal, el análisis de regresión no lineal es una técnica estadística que examina la relación entre una variable dependiente y una o más variables independientes X. Un término alternativo utilizado para variable dependiente es el resultado, respuesta o variable endógena. Términos alternativos utilizados para variables independientes o variables predictoras o explicativas o exógenas. Al igual que los modelos de regresión lineal. Los modelos de regresión no lineal suelen escribir modelos en la forma y es igual a x, x1 más x2 más x3, etcétera El último término será un término de error, a menudo denotado por E, que captura todo que falta. Evitará escribir demasiadas ecuaciones en este curso. Dejaremos esta expresión así. Las variables pueden tomar muchas formas y análisis de regresión no lineal. Pueden ser continuos. En otras palabras, se pueden medir los datos. Cualquiera una línea numérica, demasiados puntos decimales. Eso puede ser un formato entero como 12 o tres. Los datos también pueden estar en formatos binarios como 0 o uno. En ocasiones los datos son ordinales. Los datos ordinales son datos categóricos que se han clasificado, como escalas likert. Por último, los datos también pueden ser nominales. Se trata de datos categóricos que se desenvuelven, por ejemplo, diferentes modos de transporte. La diferencia clave con regresión lineal es que para los modelos de regresión no lineal, la variable dependiente a menudo no es continua. La regresión no lineal se usa principalmente cuando la variable dependiente y se mide como variable entera, binaria, ordinal o incluso nominal. Esto obviamente se aplica a muchas variables en la vida real. Esta es una de las razones por las métodos de regresión no lineal son tan comunes. 3. ¿Cómo funciona la regresión no lineal?: ¿ Cómo funciona la regresión no lineal? La regresión no lineal asume que los parámetros variables con tardío a la variable dependiente de una manera no lineal. Muy parámetros o coeficientes es lo que estima el análisis de regresión. Por ejemplo, y es igual a una vez x. En el mundo lineal. Esto significa que por cada cambio de unidad en X, Y con aumento en una unidad. No obstante, en un mundo no lineal, no podemos estar seguros cuál es el cambio en y. El cambio en y depende del valor específico de x. podría ser más de uno, o podría ser menor de uno. El valor exacto dependerá del tipo de transformación no lineal utilizada. Esto, lamentablemente, hace mucho más difícil interpretar los modelos de regresión no lineal. Los coeficientes de fila a menudo no tienen una interpretación razonable. Por eso es importante entender cómo los coeficientes de los pueden alcanzar los coeficientes de los modelos de regresión no lineal, transformados en algo útil. A menudo, esto se hace usando el cálculo de efectos marginales. 4. ¿Por qué es útil el análisis de regresión no lineal?: ¿ Por qué es útil el análisis de regresión no lineal? ¿ Al igual que la regresión lineal? regresión no lineal se utiliza para responder preguntas que requieren evidencia cuantitativa. Al igual que la regresión lineal, nos permite examinar el efecto de una variable explicativa sobre una variable dependiente, controlando por otros factores. Se utiliza para pruebas de hipótesis y para predicciones. Muy parecido a la regresión lineal. No obstante, la regresión no lineal tiene una ventaja significativa con ciertos tipos de datos. Específicamente, nos ayuda a evitar una predicción fuera de límites. Por ejemplo, si una variable dependiente se mide como una variable binaria, es decir, 0 o una, la regresión lineal puede predecir probabilidades de mayor que una o menos de 0. Pero, ¿cómo podemos tener menos del 0 por ciento de posibilidades de hacer algo? Alternativamente, las variables dependientes como el tiempo, requieren solamente predicciones positivas. Si alguien le ha dado la droga, ¿cuánto más vivirán? Bueno, como mínimo, debe ser 0 o más, ¿verdad? Entonces, por lo tanto, las predicciones no deben estar por debajo de 0 de tales modelos. Transformaciones no lineales, y seguro que no predecimos tonterías a partir de nuestros modelos de regresión. 5. Tipos de modelos de regresión no lineales: ¿ Qué tipos de modelos de regresión no lineal existen? Bastante en realidad, mientras que se trata de modelos de regresión lineal, como los cuadrados ordinarios, seguían siendo el método de regresión más comúnmente utilizado. Resulta que muchos métodos de regresión populares son en realidad no lineales. El ejemplo más famoso de regresiones no lineales son probablemente los modelos de regresión logit y probit. Estos son modelos de regresión para variables binarias dependientes. La variable dependiente se mide a menudo como 0 o una. Ejemplos comunes incluyen decisiones de voto, estar desempleado en el logro educativo, elegir hacer algo, etc. Los modelos Logit y probit utilizan transformaciones no lineales para asegurar que las predicciones modelo permanecer dentro del límite 01. Ambos modelos son muy similares, pero tú transformaciones no lineales ligeramente diferentes. Analizar variables dependientes que han ordenado categorías, como una escala Likert. A menudo usamos modelos ordenados logit y probit. Estos son muy similares a los modelos logit y probit y utilizan transformaciones no lineales similares. El truco adicional que utilizaron estos modelos es incluir puntos de corte en su modelado, que estiman dónde se recortan las decisiones para que se puedan hacer predicciones en diferentes categorías. Otra clase de modelos no lineales sobre modelos logit multinomiales. Éstas se usan a menudo cuando una variable dependiente consiste en categorías desordenadas o nominales. Un ejemplo famoso incluye qué modos de transporte toma la gente, el autobús, el coche, o el tren. Tenga en cuenta que existen modelos de probit multinomiales, pero luego no se usan con frecuencia. No obstante, los modelos no lineales para no solo trabajar en modelos de elección categórica, algunos tipos de datos requirieron que las predicciones estén delimitadas entre 0 y infinito positivo. En otras palabras, el modelo no debe predecir valores negativos. Los ejemplos incluyen modelos de regresión de Recuento y modelos de regresión de tiempo. Ambos requieren transformaciones para que las predicciones de estos modelos no sean negativas. El Poisson y los modelos de regresión binomial negativa. Ejemplos comunes para datos de conteo. Una vez que el modelo de riesgo proporcional de Cox es un ejemplo común, cuando el tiempo es la variable dependiente en una regresión. 6. Máxima probabilidad: Máxima Verosimilitud. Si bien ordinariamente los cuadrados se estiman resolviendo las ecuaciones de mínimos cuadrados, la mayoría de los modelos no lineales se estiman utilizando la máxima verosimilitud. máxima verosimilitud es un método numérico que estima el valor de los parámetros. Después de mayor probabilidad de generar la muestra observada de theta. máxima verosimilitud a menudo se estima iterativamente, lo que significa que la computadora realiza muchos cálculos para reducir los mejores parámetros posibles. No voy a explicar esta técnica con mucho detalle. Pero aquí hay algunos consejos básicos que se deben observar al tratar con la estimación de máxima verosimilitud. Se debe utilizar la máxima verosimilitud cuando las muestras tengan más de 100 observaciones, 500 o más observación es la mejor. Más parámetros requieren más observaciones. Una regla general es que al menos diez observaciones adicionales por parámetro extra parecen razonables. No obstante, esto no implica que no sean necesarias un mínimo de 100 observaciones . estimación de máxima verosimilitud es más propensa a problemas de colinealidad. Se necesitan mucho más datos si las variables explicativas son altamente colineales entre sí. Además, va a variación en la variable dependiente. En otras palabras, demasiados resultados en uno o 0 también pueden conducir a una mala estimación. Por último, algunos modelos de regresión con funciones complejas de máxima verosimilitud requieren más datos, sondearlos y los modelos de carga son menos complejos. Modelos como los modelos logit multinomiales de muy complejos. 7. El modelo de probabilidad lineal: Modelo de probabilidad lineal. Echemos un vistazo y exploremos por qué la regresión no lineal podría ser útil examinando el modelo de probabilidad lineal. El modelo de probabilidad lineal es una regresión estándar de cuadrados ordinariamente aplicada a un modelo donde la variable dependiente y es binaria. Pero antes de continuar, tenga en cuenta lo siguiente. El modelo de probabilidad lineal se utiliza a menudo para demostrar que el punto es una mala idea para ejecutar regresión lineal a través de datos categóricos. No obstante, a menudo los resultados del modelo de probabilidad lineal serán muy similares a los efectos finales del módulo de un modelo logit o probit. Lo demostraré más adelante. Pero por ahora, se advierte que si bien con frecuencia declaramos que el modelo de probabilidad lineal está equivocado, la verdad es probablemente más compleja. Puede ser sorprendentemente útil cuando se usa con la cantidad correcta de conocimiento. Además, tenga en cuenta que si alguna vez decide utilizar el modelo de probabilidad lineal, es necesario utilizar errores estándar robustos ya el modelo de probabilidad lineal causa heteroscedasticidad. Imagina por un momento que tenemos un conjunto de datos muy simple que contiene solo dos variables, y y x. nos interesa la relación entre y y xImagina que y también se mide como binario variable, ya sea 0 o una, y x se mide como una variable continua. Antes de ir más allá, veamos cómo se vería esto en un gráfico. Se vería algo así. Cada observación continua x está asociada a una observación de 0 o un cable. Una gráfica de dispersión de dichos datos probablemente no sea la mejor manera de visualizar este tipo de datos. Pero ten cuidado conmigo porque el tamaño de la muestra no es enorme, podemos apenas alrededor de distinguir que las observaciones aquí con valores más altos de X son más propensas a tener un valor de y que sea igual a uno. Si bien las observaciones con valores más bajos de x parecen más propensas a tener un valor y de 0. Esto nos dice que parece haber una relación positiva entre x e yAumenta la siguiente ventaja a una mayor probabilidad de y ser uno. Hasta ahora, tan bueno. Pero claro, haciendo esto visualmente como sus límites. No sabemos cuál es la relación exacta entre y y x. Podríamos trazar la relación entre y y x usando un ajuste no paramétrico. Entonces este método nos dice claramente que hay una relación positiva entre y y x Inicialmente, la relación es inexistente. Y luego a cierto valor de x, la relación se vuelve positiva. Después de un cierto valor superior de x, la relación se aplana nuevo y se vuelve inexistente. Genial. No obstante, ya hemos discutido los problemas con no paramétricos en un curso anterior. Queremos poder parametrizar la relación entre y y x que podamos compararla con otros datos o dar esta información a otra persona. ¿ Cómo podemos hacer eso? Una forma es utilizar ordinariamente cuadrados y ejecutar una regresión lineal simple a lo largo de los datos que resultaría en algo que se veía así. El ajuste lineal establece claramente una relación positiva entre y y x. El coeficiente de pendiente estimado de esta regresión tiene aproximadamente 0.23. Es decir, por cada una unidad aumenta en x, la probabilidad de que Y sea una aumenta en 23 puntos porcentuales. Genial. A continuación, trazar los valores estimados pronosticados de y a partir de nuestro modelo de regresión simple. Parece ser un problema con nuestro modelo. Las predicciones de nuestro modelo de regresión lineal dan como resultado tres observaciones, teniendo un valor y predicho por encima de 11 observaciones, teniendo un valor y predicho de inferior a 0. Este es el problema del modelo de probabilidad lineal. Su naturaleza lineal, por definición, predice valores fuera de nuestros límites. Eso no tiene sentido. Dichos resultados no tienen sentido. No es posible tener una probabilidad de votar por partido a un de 120%. Desafortunadamente, no importa cuál sea la relación entre y y x, cualquier relación lineal en algún momento predecirá valores y que salen de rebote. Y este ejemplo aquí, dibujé una pendiente de regresión ligeramente más baja entre estos datos. Pero aún se puede ver que en algún momento se va a pasar de límites. No hay escapada de este problema con regresión lineal. Algo siempre estará un poco mal. Claramente, necesitamos un mejor tipo de modelo. 8. La transformación de la punta y el resultado: El logit y la transformación del probit. La respuesta es utilizar un modelo no lineal. Específicamente en este caso, necesitamos utilizar algún tipo de transformación que haga no lineal la relación lineal entre y y x. Las dos transformaciones más utilizadas para nuestro problema anterior, la transformación logit y probit. Ambas transformaciones aseguran que la relación entre y y x permanezca delimitada dentro de 01. En otras palabras, no puede haber predicciones fuera de límites a partir de estos modelos de regresión. Las matemáticas unen estas transformaciones pueden parecer un poco complejas. Exploremos ambas transformaciones visualmente. Aquí está la relación estimada entre Y y X desde un logit y probit fit. Se puede ver que ambos son muy similares en cómo se relacionan y y x juntos. En general, ambos tienen una forma muy similar y ofrecen el mismo tipo de predicciones. A menudo hay muy poca razón para preferir una sobre la otra. Y ambos se utilizan con frecuencia. En el trabajo aplicado. Ambos modelos predicen valores y que ahora están delimitados entre 01. Echa un vistazo. Los valores predichos de Y tanto del logit regresión probit permanecen dentro del 01 encuadernado de y. fantástico. Parece que resolvemos nuestro problema. La probabilidad lineal está fuera y los modelos no lineales están adentro. 9. Variables latentes: Variables latentes. Modelos no lineales en generalmente más difíciles de interpretar que los modelos lineales. Permítanme explicar por qué. Muchos modelos no lineales, como los modelos logit y probit, asumen que hay un proceso lineal en la línea, cada variable dependiente. ¿ Qué significa eso? Bueno, imagina tu decisión de comer, comer, de no comer. ¿ Cómo se decide? Los modelos Logit y probit asumen que debajo de tu decisión de comer o no comer hay una escala de hambre continua e infinita. Si no tienes hambre, no comes. Si tienes un poco de hambre, no necesitas. Si tienes un poco más de hambre, sigues solo. Pero en algún momento tu hambre se vuelve demasiado y decides comer. Así funcionan los modelos logit y probit. Asumen que toda decisión de elección es la realización de personas que pasan algún punto de corte invisible en un proceso continuo oculto. Llamamos a tal proceso un proceso latente. A menudo denotamos tal proceso con una variable llamada y star. En nuestras ecuaciones, y star será una función de muchos factores. Por ejemplo, si y star es hambre, podría ser una función del ejercicio. Si se mide el ejercicio x, entonces la relación entre ejercicio y hambre podría tener un coeficiente positivo de uno. No obstante, y star siempre nos esconde. No lo vemos. Nunca podemos observar este proceso. Para hacer las cosas más difíciles. A esto se relacionan los coeficientes logit y probit. Recuperan coeficientes que se relacionan con y star. Esto significa que la sonda y los coeficientes lógicos no tienen interpretación natural. Simplemente no tienen sentido. Un aumento de una unidad en x conducirá a un aumento de una unidad en el hambre invisible. Eso no tiene sentido. ¿ Qué observamos? Observamos la realización de y star, a menudo llamada y En otras palabras, ¿ alguien comió o no? Para averiguar cómo se relaciona x con la realización de la elección, necesitamos transformar los coeficientes de modelos no lineales como logit y regresión probit en algo útil. Esto a menudo se hace usando efectos marginales. 10. ¿Qué son los efectos marginales?: ¿ Qué son el efecto marginal? coeficientes de efecto marginal o de pendiente ocasiones también se denominan efectos parciales. En regresión lineal, coeficientes estimados son efectos marginales. Eso es porque tienen una pendiente constante que no cambia. Cada aumento de una unidad en x conduce a un cambio Beta en y Sin embargo, en regresión no lineal, como probit o regresión cargada, las pendientes varían constantemente. No hay un solo efecto moderno. Es por ello que debemos calcular los efectos del módulo en puntos particulares. Es por ello que debemos calcular los efectos marginales en puntos particulares. Dos tipos de cómputos son los más populares. Efectos calculados a la media de x y el efecto promedio de todos los efectos calculados a lo largo de cada punto de x Estos son los efectos marginales más comunes de la práctica. Pero los usuarios también pueden elegir cualquier otro punto que tenga sentido para ellos. Permítanme demostrar esto visualmente. Aquí estamos de vuelta con uno de nuestros ataques no lineales de y contra x. En este caso, el ajuste es un probit fit. Cada punto de datos tiene un valor predicho de y A lo largo de este ajuste, observamos que a medida que x aumenta, también lo hace la probabilidad de que Y sea uno. También señalamos que la relación entre x e y no es lineal. Para entender el efecto de x sobre y, calculamos efecto marginal, efecto marginal sobre unas pendientes en puntos respectivos de x Como se puede ver, la pendiente cambia constantemente. En valores bajos de x, la relación entre y y x es casi plana. App, valores promedio de x. La relación es fuertemente positiva. En valores altos de x, la relación es plana. Nuevamente. Tenemos que elegir algún valor de x donde calcular nuestros efectos de módulo. La media de x suele ser de buen valor. En este caso particular, el coeficiente de pendiente es de aproximadamente 0.30. Esto significa que el efecto de X en Y es el siguiente. Un cambio uniunificado en x provoca un aumento de 30 puntos porcentuales en la probabilidad de que Y sea uno. Simplemente recuerde, la relación no se mantiene a través de todos los valores de x. a valores más altos de x. aumentos adicionales en x conduce a incrementos mucho menores en y siendo uno. 11. Variables explicativas de tontos: Variables explicativas ficticia. Hasta ahora, hemos establecido que los coeficientes que salen de un modelo no lineal requieren un poco de trabajo extra para dar sentido. No obstante, solo miramos una sola variable continua. Para ser precisos, miramos el modelo a lo largo de las líneas de y es igual a Beta X más un término de error, donde x es una variable que se mide continuamente. ¿ Y si incluimos una variable ficticia adicional en nuestro modelo? Es decir, queremos estimar el modelo siguiendo las líneas de y es igual a Beta X más beta una variable ficticia más una hermética. Las variables ficticia son variables binarias que a menudo toman los números 0 o un bit, como nuestra variable dependiente y. en regresión lineal, coeficientes en variables ficticia, a veces llamadas desplazamiento de interceptación porque cambian la interceptación. Es decir, mueven toda la relación entre x e y hacia arriba, hacia abajo. No obstante, en los modelos no lineales, su efecto no es constante. Todavía desplazan la relación no lineal entre Y y X hacia arriba o hacia abajo, pero el tamaño del turno no es constante. Déjame mostrarte esto gráficamente. En este ejemplo, seguimos ajustando un ajuste no lineal a nuestros datos observados. Y se mide como un punto de variable y X se mide continuamente. No obstante, el modelo real debajo es de un modelo de regresión también incluye una variable ficticia. Las variables ficticia actúan como un turno de interceptación. Observaciones con un valor ficticio de uno. Digamos, estos representan a los hombres, tienen mayor probabilidad de observar un valor y de uno para cualquier valor dado de x Sin embargo, como se puede ver claramente aquí, el tamaño de este efecto varía dependiendo de dónde estemos . En valores bajos de x, el efecto de la variable ficticia es casi insignificante. Valores medios de x, la diferencia entre las dos curvas es alta. Y por último, a valores altos de x, el efecto de la variable ficticia disminuye. Y de nuevo, todo esto tiene sentido. Esto se debe a que seguimos ligando nuestra relación entre y y x entre 01 vía la no lineal, en este caso, la transformación logística. Por lo tanto, cualquier efecto escalonado de una variable ficticia también debe ser no lineal para seguir asegurando que no salgamos de límites con nuestras predicciones. 12. Regresión no lineal múltiple: Regresión no lineal múltiple. Por último, ¿qué pasa cuando tenemos un modelo de regresión con múltiples variables continuas de país? ¿ Cómo funciona eso? Tomemos nuestro modelo anterior con una variable ficticia y simplemente añadamos otra variable explicativa continua, llamémosla x2. Esto nos da un modelo a lo largo de las líneas de y es igual a veces beta x1 más veces beta x2 más tipos Beta de variable ficticia. Lo clave a entender acerca de la regresión no lineal múltiple es que el efecto de cada beta, o muy, no solo de acuerdo con qué valor de x estamos fuera. Eso también en qué valor de otro eje. Considerando que en otras palabras, el efecto de cada página que dependerá del valor de cada x, no sólo de la variable en cuestión. En la práctica, a menudo medimos la pendiente de cada coeficiente del valor medio de la bola en el eje. Esto puede ser difícil de comprender. Así que de nuevo, déjame mostrarte una visualización de un modelo logit con dos variables continuas y una variable ficticia. continuación se presenta una visualización del mencionado modelo de regresión logit. Nuestros datos se componen de una variable independiente que toma sólo los valores 01. Es decir y, en el gráfico de la izquierda, que los datos se distribuyen en el techo y el piso de la imagen tridimensional. Anticuado también consta de dos variables explicativas continuas, X1 y X2. Ambos tienen una relación positiva con Y. pero es bastante difícil de entender eso de nuestra trama de dispersión. En el gráfico correcto, hemos trazado los valores predichos a partir de una regresión logit. Considerando que un modelo de regresión lineal, como ordinariamente cuadrados, intenta encajar planos lineales de mejor ajuste a través de estos datos. La regresión de Logit se ajusta a planos no lineales de mejor ajuste a través de estos datos. No obstante, el dolor logit de best-fit no solo es no lineal en relación con solo una variable x. El talud del plano cambia acuerdo con ambas variables X. Específicamente, el valor de ambos x determinará la relación entre X1 e Y, también x2 e y Todo esto puede ser un concepto bastante complicado de comprender. Si agregamos más variables explicativas, todo esto se mueve hacia dimensiones más altas. Por último, también se visualiza el efecto de la variable ficticia. Aquí. Tenemos dos planos de best fit en este gráfico. Un plano es para todos los valores de 0 para la variable ficticia, y el otro plano es para o en los valores de uno para la variable ficticia. Creo que es obvio ver lo difícil que puede ser dar sentido a tales modelos. Es básicamente imposible. 13. Bondad de los recursos: Bondad de ajuste. Ahora que tenemos una comprensión razonable de cómo funcionan los modelos de regresión no lineal, como los modelos de regresión logit y probit. Hablemos de cómo medir si tales modelos de regresión se ajustan bien a los datos. Los valores R-cuadrados tradicionales de cuadrados ordinariamente no existen para los modelos no lineales. No hay suma de cómputos cuadrados proveniente de este tipo de modelos. Eso significa que no podemos calcular cuánta varianza se explica e inexplicable. Otras formas de medir el ajuste necesario. Muchos paquetes de software calculan algo llamado pseudo R-cuadrado. Esto intenta imitar el diagnóstico de bondad de ajuste al estimar primero un llamado modelo nulo. No modal es un modelo sin variable explicativa y sólo una constante. estima entonces segundo modelo con covarianza completa. Y se hace la comparación de la función log-verosimilitud. El ratio de cuánto mejor es el modelo completo, se proporciona entonces como un pseudo R-cuadrado. Puede ser una estadística útil, pero nunca debe considerarse similar a la nada tradicional al cuadrado. Aquí hay algún peligro. Otra forma de calcular la bondad del ajuste es mirar algo llamado tabla de clasificación. La tabla de clasificación asigna valores pronosticados del modelo a 0 o uno. Valores que se pronostican a b1 y son en realidad uno serían clasificados como correctos. De igual manera, los valores que se pronostican ser 0 y en realidad 0 también se clasifican correctamente. Cualquier otro valor entonces sería clasificado como incorrecto. La proporción de valores correctamente clasificados sirve entonces como indicador de qué tan bien se ajusta el modelo a los datos. Aquí hay un ejemplo de una tabla de clasificación de Stata. Bastante cantidad de salida pasando aquí. Así que déjame explicarte lo que está pasando. En la parte superior vemos un archivo de tabla de clasificación modelo de regresión logística. Tenemos un total de 100 observaciones. De estas 63 observaciones se clasifican como 137 observaciones se clasifican como el 0 de las 36 observaciones que se clasifican como 145. Valores reales de uno en los datos de la fila. 18 tienen 0 valores. De igual manera, para aquellos con una predicción de 011, en realidad no una vez en los datos, y 26 son ceros en el mundo datos. Entonces un total de 71 de cada 100 observaciones pronosticadas correctamente. Podemos ver en la parte inferior, el 71% de las observaciones se clasifican correctamente. Un valor más alto indica un mejor modelo logit o probit de ajuste. Generalmente, valores superiores a 80 o 90, o excelente. Los valores en los años 70 son buenos. Los valores en los años 60 están bien. Y valores en los años 50 e indican un modelo de ajuste deficiente. Recuerda que simplemente rodando los dados, podríamos esperar clasificar correctamente el 50% de los valores. Por lo tanto, el 50 por ciento debe ser visto como el punto de referencia aquí. Hay bastantes otras estadísticas en esta tabla, pero todas son solo variaciones de un tema. No obstante, hay un último elemento a tener en cuenta. La clasificación depende de un valor de corte. Mi defecto. Por defecto, muchos programas usan 0.5. En otras palabras, los valores por encima de 0.5 se pronostican como uno y los valores por debajo de 0.5 se pronostican como 0. Esto es arbitrario. Decir valor de 0.5 parece tener sentido lógico. El valor del punto de corte se puede cambiar. Esto resultará en ajustes de modelo completamente diferentes. Aquí hay un ejemplo de eso. En este video, estoy demostrando el impacto en la estadística de bondad de ajuste al cambiar el corte de clasificación. El gráfico muestra los puntos de datos de barrio de una regresión de una variable binaria y frente a una variable x continua. Se estima un modelo logit. Se trazan los valores pronosticados. Los valores rojos se clasifican como 0 y los valores verdes se clasifican como uno. Valores grises, ligeramente agrandados para un mejor efecto visual. Denotar valores clasificados incorrectamente. El punto de corte inicial para clasificar variables se establece en 0.5. Ahora, sigamos adelante y cambiemos esto. Podemos ver que a medida que movemos el valor del punto de corte entre 01, la proporción de puntos de datos correctamente clasificados cambia drásticamente. Es decir, esta medida de bondad de ajuste está sujeta a lo que creemos que es el punto de corte adecuado para clasificar los puntos de datos. Esto nunca podría suceder en un modelo de regresión lineal normal. Mi consejo personal es apegarse a 0.5 a menos que existan razones muy específicas para hacerlo. Una razón podría ser datos muy sesgados. Por ejemplo, si una variable dependiente binaria tiene una proporción muy alta o baja de las. 14. Una nota sobre los coeficientes de los logotipos: Una nota sobre coeficientes logit. coeficiente probit no tiene una interpretación natural ya que se relacionan con la puntuación latente subyacente de una variable dependiente, que por definición siempre es invisible y oculta. No obstante, los coeficientes Logit sí tienen una interpretación natural. Gracias a una peculiaridad de las matemáticas. Para los modelos logit, los coeficientes estimados pueden interpretarse como un aumento unitario en x provoca un aumento beta en las probabilidades log de y ser uno. Esta interpretación natural tiene algún significado, pero la porción de probabilidades de registro todavía puede ser un poco incómoda. Para superar esto, podemos exponenciar coeficientes a partir de cargas de modelo. Esto permite que los coeficientes logit lo interpreten como probabilidades. Probabilidades. Específicamente, las proporciones de probabilidades siguen siendo complejas interpretan, pero sí significa que los usos son capaces de evitar el cómputo de efectos marginales. Podemos interpretar un coeficiente logit exponenciado de la siguiente manera. Para un cambio de una unidad en x, se espera que las probabilidades cambien por un factor de Beta, sosteniendo todo lo demás, constante. Las proporciones de probabilidades tienen una base de uno cuando las probabilidades son similares. Por lo tanto, si la pizza está por encima de una, podemos decir que las probabilidades beta veces más grandes, la beta está por debajo de una. Podemos decir que las probabilidades son veces beta más pequeñas. No obstante, recuerda que si bien las probabilidades tienen algún significado, no revelan la magnitud del cambio en la probabilidad de resultado. Sólo los efectos marginales pueden hacer eso. 15. Consejos para la regresión de los resultados y la punta: Consejos para logit y regresión probit. qué se indican los requisitos para los modelos no lineales tienden a ser más altos que para los modelos lineales. Cabe señalar que los modelos de regresión logit y sondeo son muy robustos para incluso muestras pequeñas y variación de escala. En otras palabras, mientras que los modelos como los modelos logit multinomiales requieren una gran cantidad de datos, logit y regresión probit se puede hacer con un tamaño de muestra mucho menor. A menudo hay muy poca razón para elegir entre modelos logit o probit. Ambos resultados. Ambos resultan en predicciones muy similares y efectos marginales similares. No obstante, una de las razones por las que algunas personas gravitan naturalmente hacia los modelos de carga es la flexibilidad extra de la interpretación de probabilidades de su coeficiente. coeficientes de Rho logit son generalmente 1.7 veces más grandes que la guerra, probablemente coeficientes para el mismo modelo. No obstante, los efectos marginales serán muy similares. Generalmente es buena práctica reportar efectos marginales a la media de todas las demás variables o los efectos marginales promedio. Sería extraño no reportar estos cuando se utilizan tales modelos. No obstante, a veces cómputo de efectos modelo puede ser intensivo. Hay dos formas de superar esto. Coeficientes en bruto a partir de modelos logit y probit. Permitirán a los usuarios interpretar el signo tamaño y significado relativo. O uno podría resultar en un modelo de probabilidad lineal. Permítanme explicar por qué. 16. ¿Volver al modelo de probabilidad lineal?: Volver al modelo de probabilidad lineal. Empezamos este curso con un claro ejemplo de por qué un modelo de probabilidad lineal es generalmente una mala idea. No obstante, resulta que hay un forro plateado. Los modelos de probabilidad lineal suelen producir los mismos efectos marginales que los efectos marginales de la regresión logit y probit. Si la mayoría de las variables del modelo de regresión tienen normalmente datos de comportamiento, cálculo de efectos marginales a menudo producirá las mismas estimaciones de pendiente que las estimaciones de pendiente a partir de un estándar regresión lineal. En otras palabras, es posible utilizar genuinamente unos modelos de probabilidad lineales para calcular efectos marginales para regresiones con variables binarias dependientes. Esto puede ser realmente útil para situaciones en las que se necesita reducir el tiempo computacional. Alternativamente, puede ser útil para complicados modelos de regresión no lineal, como los modelos cargados de datos de panel para las complejidades matemáticas hacen que cálculo de efectos marginales sea extremadamente difícil. Aquí hay un ejemplo de lo que quiero decir. Aquí, estoy usando Stata para estimar una regresión logística entre Y y X. Y el coeficiente logit sale alrededor de 1.26. cálculo promedio de efectos marginales produce un resultado de alrededor de 0.24. Es decir, el factor marginal promedio es que un aumento de una unidad en x conduce a un aumento de 24 puntos porcentuales en la probabilidad de que Y sea uno. Ahora, echemos un vistazo. Ordinariamente cuadrados regresión utilizando el mismo modelo. Y este modelo estima un coeficiente de 0.23. Es decir, un cambio de una unidad en x conduce a un aumento de 23 puntos porcentuales en la probabilidad de que Y sea uno. Esto es casi idéntico al modelo logit y destaca la utilidad potencial de un modelo de probabilidad lineal. 17. Stata: ejemplos de logotipos aplicados y de punta: Vamos a explorar algunos de estos conceptos que hemos estado discutiendo en un entorno aplicado. Ahora estamos en el estator, que es un paquete de software estadístico comúnmente utilizado para analizar conjuntos de datos cuantitativos. Es similar a otros paquetes como SPSS o SAS. No explicaré cómo operar estator ni el código que estoy ejecutando. Para obtener estos resultados. Podrás conocer más sobre estator en estado específico o cursos. Ya he abierto un conjunto de datos de capacitación llamado Encuesta Nacional Longitudinal de Mujeres en 1988. Examinémoslo un poco más de cerca antes de empezar a ejecutar regresiones. Empecemos con una descripción de los datos. El retorno de salida por describir a los productores información de alto nivel sobre los datos, como dónde se encuentra, cuántas observaciones y variables se incluyen, y su tamaño. En este caso, nuestros datos contienen 2246 observaciones y 17 variables. Ese es un tamaño de muestra justo. Pero los conjuntos de datos modernos tienden a ser mucho más grandes. A continuación se muestra información sobre las variables. O las variables se miden como variables numéricas. Mientras que algunos se miden dos precisiones diferentes. No hay variables de cadena en estos datos. Las variables o relacionadas con los resultados del mercado laboral de una muestra de mujeres de 35 a 451988. Contamos con información sobre sus edades, salarios, ocupación, educación, y más. Bueno. Ahora hagamos un resumen rápido. Resumir nos proporciona algunas estadísticas básicas para cada variable, como el recuento de observación, la media, la desviación estándar, y los valores mínimo y máximo. El escaneo a través de los datos revela que la mayoría montañas se ven normales para lo que esperaríamos. El promedio de edad es 39 años y 64% de la muestra están casados. Los salarios se ven bien. Si bien sabemos que la variable Unión tiene observaciones faltantes. Ahora, finjamos que realmente nos interesa explicar el determinante de la afiliación sindical. Ya podemos empezar a construir una imagen en nuestra cabeza de qué variables podrían ser importantes explicar la elección de ser miembro sindical. Es poco probable que los salarios y la educación sean factores importantes. Tal vez h2. De hecho, muchas de las variables aquí podrían ser factores importantes para determinar la decisión de alguien de ser miembro del sindicato. Para mantener las cosas fáciles, eso es sólo incluir un pequeño número de variables para empezar. Escogemos la edad, el salario, casado, y la universidad, graduemos como nuestras variables. La variable Unión parece que se mide como una variable binaria. Confirmemos esto con una tabulación. En efecto, la variable se mide como una nueva variable granero y 24.5 por ciento de nuestra muestra miembros de un sindicato. A continuación, vamos a trazar la unión variable, nuevo, auto primera variable en la lista, edad. Este es un buen ejemplo de por qué un análisis gráfico de datos binarios puede ser difícil. Realmente no podemos ver nada aquí. Aparte de eso. Por cada año de edad, hay sindicalistas y no sindicalistas. Podríamos dibujar un polinomio local más suave a través de su trama para obtener una mejor comprensión de cómo se ve la relación entre la edad y ser miembro del sindicato. No se ve así. Existe una relación particularmente fuerte entre la edad y la afiliación sindical. Para fines de demostración, ahora calculemos una relación paramétrica. El uso de un modelo logit solo usará la edad como variable explicativa. Por ahora. Status logit regresión salida se ve muy similar a la de una salida de regresión de cuadrados ordinariamente estándar. La información diagnóstica se presenta en la parte superior y los resultados se presentan a continuación. En lo más alto de los resultados, vemos que se está llevando a cabo el proceso de máxima verosimilitud. Estator, calcule varios modelos con diferentes parámetros y estimaciones. Una log-verosimilitud, luego converge en el mejor conjunto de parámetros que ofrecen la menor probabilidad de registro. Debido a que los modelos logit y probit están tan bien desarrollados, no se necesitan muchas iteraciones para lograr un conjunto final de resultados. Aquí se presenta el log-verosimilitud final. A continuación, tenemos información sobre el recuento de observación y un estadístico Chi-cuadrado de ratio de verosimilitud. Esta estadística es similar a una prueba F para modelos lineales y nos dice que el modelo explica algo o no. En este caso, la respuesta no es todo ya que el valor p de la estadística chi-cuadrada está muy por encima de 0.05. A continuación está el pseudo R cuadrado, que confirmó además que este es un ajuste terrible. Lo que es uno nunca debe traducir esto como ser análogo a las estadísticas lineales R cuadrado. Un valor de 0.0001 está extremadamente ligado. la sección de resultados, vemos por qué el coeficiente de edad es muy pequeño. El error estándar es alto. El estadístico z asociado es análogo al estadístico t en regresión lineal. Valores superiores a 1.96 implica significación estadística para muestras de tamaño razonable. El valor p también tiene el mismo significado que para los modelos lineales. Valores de 0.05 o inferiores son estadísticamente significativos en el nivel del 95%. Tanto la estadística Z como el valor p mostraron que la variable h es muy estadísticamente insignificante. Para ilustrar aún más esto, podemos calcular las probabilidades predichas de afiliación sindical a partir de este modelo y trazar esto en nuestro gráfico. Los puntos azules representan los puntos de datos crudos y los puntos rojos representan las probabilidades previstas de afiliación sindical. El resultado es que prácticamente no hay relación entre edad y afiliación sindical. Es difícil de ver, pero la relación predicha aquí sigue siendo no lineal. Es sólo que la parte no lineal en este bit de los datos es tan plana que apenas podemos verlo. Si predijéramos esta relación en rangos más altos de edad, podríamos ver la transformación logit. Aquí está. Usando un rango de edad de menos 10000 a más 1 mil, revela una relación no lineal entre edad y afiliación sindical a partir de este modelo logit en particular. Obviamente, esto no tiene mucho sentido. Estamos pronosticando muy fuera de límites. Además, edades menores de 0 o no posibles. Volvamos a nuestro modelo logit y añadamos algunas variables más. Sabemos que la edad no es estadísticamente significativa. Pero a menos que haya un problema con el tamaño de la muestra, mi consejo es generalmente no excluir una variables estadísticamente insignificantes. El motivo es que controlar nuevas variables adicionales podría hacer que las variables anteriores sean estadísticamente significativas. Nuevamente, echemos un vistazo. Agregaremos salarios, casados y egresados universitarios como variables explicativas adicionales a nuestro modelo. El modelo ahora tiene una estadística chi-cuadrada de 48, que es estadísticamente significativa. Esto significa que nuestras variables expliquen algo. Pseudo R cuadrado es 0.023, que es mucho mejor que antes. No obstante, todavía parece de bajo valor. Vale la pena explorar esto más a fondo con una tabla de clasificación. El momento. En primer lugar, al mirar los resultados, vemos que dos variables son estadísticamente significativas en el nivel 95%, el salario y el egresado universitario. Una variable, casada es estadísticamente significativa. En el nivel 10%. Los coeficientes actualmente presentados son difíciles de interpretar, pero podemos inferir tamaño, signo y significado. Los salarios están relacionados positivamente con la probabilidad de ser miembro sindical. Ser egresado universitario también está positivamente relacionado. Estar casado está negativamente relacionado con ser miembro del sindicato. Tanto egresados universitarios como casados. Un maniquí variables explicativas. Por lo que podemos inferir que el efecto de ser egresado universitario es más fuerte que el efecto de estar casado. Esto se debe a que el coeficiente absoluto de egresado universitario es alrededor de 20% mayor que el coeficiente de casado. Para dar sentido a los coeficientes una manera más significativa, normalmente calcularíamos los efectos marginales. Esto se puede hacer con facilidad y estados y por defecto, estado para calcular los efectos marginales promedio. En otras palabras, todas las pendientes a través cada valor de x y luego promedios. Estos aquí son los resultados. Se calcula a los Estados los efectos marginales promedio con respecto a todas las variables. El efecto de la edad es insignificante, pero la interpretación de la estimación es la siguiente. En promedio, un aumento de una unidad en la edad incrementa la probabilidad de afiliación sindical 0.1 punto porcentual. El salario es también una variable continua. La interpretación es, en promedio, un aumento de una unidad. En el salario por hora aumenta la probabilidad de afiliación sindical en 1.2 puntos porcentuales. casado y universitario, o variables ficticias. Por lo que pueden interpretarse como, en promedio, estar casados disminuye la probabilidad de afiliación sindical en 3.9 puntos porcentuales. En promedio. Ser egresado universitario aumenta la probabilidad de afiliación sindical en 4.6 puntos porcentuales. Genial. También podemos calcular efectos específicos del módulo para responder preguntas sobre cómo las personas específicas podrían verse afectadas por el cambio en x Por ejemplo, el efecto de estar casado en la afiliación sindical es menos cinco puntos porcentuales. Para las mujeres que tienen 40 años de edad con antecedentes universitarios y un salario de 30 dólares por hora. A continuación, exploremos la bondad de ajuste un poco más cerca. El valor pseudo R cuadrado fue de 0.0231. Al llamar a una tabla de clasificación, podemos obtener más información. El archivo de tabla de clasificación logit regresión, muestra que clasificamos correctamente el 75% de las observaciones. Y eso parece un número bastante bueno. Pero es importante examinar la tabla de clasificación con más detalle. Si bien nuestro modelo hizo un buen trabajo de predecir valores 0 que en realidad son 0, es un trabajo muy malo al predecir cualquier valor positivo. Se prevé que sólo 20 observaciones sean sindicalistas. Sabemos por nuestras estadísticas resumidas alrededor de 450 observaciones. En realidad los sindicalistas, cuál es la proporción de valores correctamente clasificados está relativamente bien. Una inspección adicional de la tabla de clasificación nos dice que nuestro modelo hace un mal trabajo al predecir valores positivos. Claramente necesita más trabajo. A continuación, comparemos la salida del modelo logit. Los resultados de un modelo probit y de probabilidad lineal que comparen los coeficientes en bruto no serán muy útiles. Vamos a calcular los efectos marginales para cada modelo. El modelo de probabilidad lineal produce efectos marginales por defecto. Para logit y regresión probit. Tenemos que pedirle a STATA que los compute, almacenará estas estimaciones y luego las comparará en una tabla como tal. En la tabla de resultados se indica que los tres modelos producen resultados muy similares. Los efectos marginales son casi idénticos. Por ejemplo, estar casado resulta en una disminución total de puntos porcentuales en la probabilidad de ser miembro del sindicato. Del modelo de probabilidad lineal. Una disminución porcentual de tres puntos nueve con respecto al modelo logit, y caen porcentaje disminuyen parte del modelo probit. Por último, antes de terminar, déjame mostrarte el concepto de variables Lake con un modelo probit. Este puede ser un concepto difícil de entender, así que prefiero demostrar esto con datos simulados. Vamos a aclarar todo en nuestros datos. Invoquemos el comando set que le dice a Stata que haga algo 1000 veces cuando invocamos comandos de números aleatorios. Por último, vamos a establecer una semilla para que podamos reproducir nuestros resultados. Ahora voy a generar una nueva variable fuera del aire usando estado la función de número aleatorio va a generar una nueva variable llamada x que normalmente se distribuye. Hagamos un resumen para explorar lo que he hecho. He generado un nuevo conjunto de datos que tiene una variable x Esta variable se distribuye normalmente. Tiene una media de 0 y una desviación estándar de uno. La gráfica de densidad del kernel muestra la distribución normal de esta variable. A continuación, generemos otra variable llamada e que también se distribuye normalmente. Esta variable imitará un término de error en una regresión. Ahora, generemos una tercera variable llamada y star. Generamos y star es igual a dos veces x más una veces E. Así que hay una relación positiva entre estrella Y y X de pendiente dos. No obstante, ahora pretendamos que y star es un proceso latente y no observado. En realidad no vemos por qué estrella. Lo que vemos es por qué la realización de y star. Y es uno. Si y star es mayor que 00, si es menor. Si tabulamos por qué vemos que 51% de las observaciones son 1, 9% de observaciones son 0. Ahora, vamos a querer probablemente la regresión de y contra x Mira eso. El coeficiente Probit es aproximadamente dos. Este coeficiente se relaciona con la relación subyacente entre Y star y X. Esto es lo que queremos decir cuando hablamos de variables latentes. Cómo logit y probit coeficiente, o el coeficiente de procesos latentes subyacentes. Si cambiamos el valor de dos a cuatro en nuestra generación Weinstein, el modelo probit predecirá un coeficiente de cuatro. Ojalá. Este pequeño ejemplo de simuladores hizo que el concepto de variables latentes fuera más real y más fácil de entender.