Análisis de datos: ¿qué es una regresión lineal? | Franz Buscha | Skillshare

Velocidad de reproducción


1.0x


  • 0.5x
  • 0.75x
  • 1x (Normal)
  • 1.25x
  • 1.5x
  • 1.75x
  • 2x

Análisis de datos: ¿qué es una regresión lineal?

teacher avatar Franz Buscha

Ve esta clase y miles más

Obtenga acceso ilimitado a todas las clases
Clases enseñadas por líderes de la industria y profesionales activos
Los temas incluyen ilustración, diseño, fotografía y más

Ve esta clase y miles más

Obtenga acceso ilimitado a todas las clases
Clases enseñadas por líderes de la industria y profesionales activos
Los temas incluyen ilustración, diseño, fotografía y más

Lecciones en esta clase

    • 1.

      Introducción

      4:12

    • 2.

      ¿Qué es el análisis de regresión?

      2:45

    • 3.

      ¿Qué es una regresión lineal?

      1:48

    • 4.

      ¿Por qué es útil el análisis de regresión?

      1:37

    • 5.

      ¿Qué tipos de análisis de regresión?

      2:33

    • 6.

      Cómo explicar la regresión

      3:40

    • 7.

      Líneas de mejor ajuste

      7:58

    • 8.

      Causalidad vs correlación

      1:54

    • 9.

      ¿Qué es un mínimo ordinario?

      1:04

    • 10.

      Cuadros mínimos ordinarios

      4:15

    • 11.

      Cuadros mínimos ordinarios

      7:43

    • 12.

      Suma de cuadrados

      3:07

    • 13.

      Mejor estimador lineal

      4:43

    • 14.

      Las suposiciones de Gauss-Markov

      0:41

    • 15.

      Homoskedasticity

      2:13

    • 16.

      No existe una Collinearity

      2:35

    • 17.

      Lineal

      2:43

    • 18.

      Forma condicional

      2:14

    • 19.

      Cómo hacer pruebas y corregir la Endogeneity

      0:52

    • 20.

      Cómo recuperar suposiciones de Gauss-Markov

      1:56

    • 21.

      Ejemplos aplicados

      21:32

    • 22.

      Reflexiones y consejos finales

      3:54

  • --
  • Nivel principiante
  • Nivel intermedio
  • Nivel avanzado
  • Todos los niveles

Generado por la comunidad

El nivel se determina según la opinión de la mayoría de los estudiantes que han dejado reseñas en esta clase. La recomendación del profesor o de la profesora se muestra hasta que se recopilen al menos 5 reseñas de estudiantes.

343

Estudiantes

1

Proyectos

Acerca de esta clase

Una introducción fácil a la regresión en el análisis de datos

Aprender y aplicar nuevos métodos y técnicas a menudo puede ser una experiencia desalentadora.

Esta clase está diseñada para proporcionarte una clase compacta y fácil de entender, que se centra en los principios básicos de regresión en el análisis de datos.

Esta clase se centrará en entender y aplicar una regresión lineal

Esta clase explicará qué es la regresión y cómo funcionan los cuadrados mínimos ordinarios. Esto hará sin ecuaciones o matemáticas. El enfoque de esta clase es la aplicación e interpretación de la regresión en el análisis de datos. El aprendizaje en esta clase se apoya en muchos gráficos animados que demuestran conceptos particulares.

No es necesario tener conocimientos previos y esta clase es para cualquier persona que desee participar en análisis cuantitativo.

Los principales resultados de aprendizaje son:

  1. Para aprender y comprender la intuición básica detrás de la regresión lineal

  2. Para estar a gusto con la terminología de regresión

  3. Para poder interpretar y analizar la salida de regresión

  4. Para aprender consejos y trucos

Temas específicos que se abordarán son:

  • Qué tipos de análisis de regresión

  • Correlación versus causalidad

  • Métodos paramétricos y no paramétricos

  • El método de cuadrados

  • R cuadrado

  • Beta's, errores estándar

  • Estadísticas T, valores p e intervalos de confianza

  • Mejor estimador lineal

  • Las hipótesis de Gauss-Markov

  • Sesgo versus eficiencia

  • Homoskedasticity

  • Collinearity

  • Forma funcional

  • Promedio condicional

  • Regresión en troncos

  • Construcción práctica

  • Cómo entender la salida de regresión

  • Cómo presentar resultados de regresión

El software de computadora Stata se utilizará para demostrar ejemplos prácticos.

Conoce a tu profesor(a)

Teacher Profile Image

Franz Buscha

Profesor(a)

Habilidades relacionadas

Desarrollo Más Desarrollo Ciencia de datos
Level: Beginner

Valoración de la clase

¿Se cumplieron las expectativas?
    ¡Superadas!
  • 0%
  • 0%
  • Un poco
  • 0%
  • No realmente
  • 0%

¿Por qué unirse a Skillshare?

Mira las galardonadas Skillshare Originals

Cada clase tiene lecciones cortas y proyectos prácticos

Tu membresía apoya a los profesores de Skillshare

Aprende desde cualquier lugar

Ve clases sobre la marcha con la aplicación de Skillshare. Progresa en línea o descarga las clases para verlas en el avión, el metro o donde sea que aprendas mejor.

Transcripciones

1. Introducción: Bienvenida. El análisis de datos puede ser perjudicado. Hay tantos métodos diferentes y tantas formas diferentes de analizar e interpretar datos que pueden dificultar el aprendizaje. En esta clase, quiero darte un esquema fácil y rápido de uno de los métodos y análisis de datos más populares , la regresión lineal. La clave de esta clase es que no hay ecuación ya que no hay matemáticas, ni bits complicados de conocimiento teórico. Quiero darte una explicación intuitiva y gráfica de lo que es la regresión lineal. Y luego mostrarte una gama de ejemplos prácticos de análisis de datos. No importa cuál sea su estado actual de conocimiento profesional, puede sentirse seguro de conocer los entresijos de la regresión lineal. Después de esta clase. ¿ Qué es la regresión lineal? regresión lineal es el método de regresión más popular utilizado en el mundo. Las técnicas de regresión lineal disponibles, ordinariamente cuadrados, a menudo abreviadas a OLS, son las más comunes. Y me voy a centrar en cuadrados ordinariamente porque es de lejos el método de regresión más utilizado para el análisis de datos en el mundo. Ordinariamente cuadrados es una técnica que examina la relación entre una variable continua y una o más variables categóricas de información continua. Y esta técnica se utiliza en muchas disciplinas incluyendo la economía, sociología, la psicología, la droga, el miedo, e incluso la historia. Se usa en todo el mundo. Y también se usa a menudo en negocios para el análisis cuantitativo. Y sustenta muchos reportes gubernamentales que no realizan algún tipo de evaluación de políticas. Cualquiera que quiera tener una buena comprensión del análisis de datos tendrá que entender la regresión lineal. ¿ Cuáles son los principales resultados de aprendizaje? Aprender y entender la intuición básica detrás del mensaje de regresión lineal y análisis de datos. Aprender la terminología y los fundamentos asociados. Para aprender a entrar cómodamente y analizar la salida. Por último, aprender algunos consejos y trucos adicionales que te ayudarán en el análisis de datos. Para quién es este curso? Este curso está dirigido a quienes están iniciando la carrera en análisis de datos. Eso podrían ser practicantes, alguien en el gobierno, alguien y política, alguien en negocios, o incluso estudiantes. ¿ Qué requisitos previos en él. No hay masa y no necesitas preocuparte por ninguna ecuación para sacar el máximo provecho de este curso. La curiosidad es todo lo que se necesita. Algún estado del conocimiento puede ser útil para la aplicación práctica de este curso, pero no es necesario. Status es un programa de software estadístico que permite a los usuarios estimar muchos métodos cuantitativos diferentes. Voy a usarlo para demostrarles ordinariamente cuadrados ejemplos. Además, un gran interés en entender cómo podrían estar relacionados los datos entre sí es un requisito previo útil. A menudo, el análisis de datos se trata de medir variables cuantitativas entre sí. Si quieres saber cómo y se relaciona con x, entonces este lugar estomacal para ti usando Stata. Este curso estaré usando datos para demostrar algunos ejemplos. En cambio como software estadístico accesible. Hay muchos cursos sobre cómo se puede utilizar la declaración. ¿ Deberías estar interesado en este curso? No te enseñaré entresijos de Stata, pero me centraré en la interpretación de la salida. Existen muchos otros paquetes de software estadístico como R o SPSS que pueden hacer exactamente lo mismo. No obstante, si te interesa Stata y quieres replicar algunos de los ejemplos de este curso. He adjuntado los archivos de código correspondientes a este curso. Voy a estar usando algo llamado el conjunto de datos de entrenamiento automático que viene incorporado. ¿ Qué datos? Para ejemplos prácticos. Estos datos son un conjunto de entrenamiento que contiene una variedad de variables y relaciones útiles. Otro grande para fines de enseñanza. También puedes descargarlo como parte de este curso. Pasemos a la siguiente sección y aprendamos más sobre los métodos de regresión. 2. ¿Qué es el análisis de regreso?: ¿ Qué es el análisis de regresión? El análisis de regresión es una técnica estadística que intenta explorar la relación entre una variable dependiente y una o más variables independientes. Un término alternativo utilizado para la variable dependiente puede ser a veces la variable de resultado, la variable de respuesta, o en la variable endógena. La variable dependiente se denota normalmente por el símbolo y. términos alternativos para variables independientes o variables predictoras o explicativas o exógenas. Las variables explicativas se denotan normalmente por el símbolo x. Es común escribir modelos de regresión en la forma y igual a X1 más X2 más X3, etcétera. El último término será un término de error. Esto suele ser denotado por E. Esto captura todo lo que falta. No obstante, existen muchas prácticas diferentes. Estamos invitando modelos de regresión en forma matemática. Por lo que evitaremos todo eso en este curso. Las variables pueden tomar muchas formas diferentes y análisis de regresión. Pueden ser continuos. En otras palabras, los datos se pueden medir en cualquier lugar de la línea numérica, demasiados puntos decimales. E menos 2.305100.3. Los datos también pueden ser un formato entero como 12345, etc. Los datos también pueden estar en formato binario como 0 o uno. A menudo estos denotan respuestas binarias como sí y no. En ocasiones los datos son ordinales. Los datos ordinales son datos categóricos que se clasifican, como escalas likert. Por último, los datos también pueden ser normales. No, se trata de datos categóricos que se desenvuelven. Por ejemplo, modos de transporte. Es importante destacar que los datos siempre deben estar en formato numérico. En matemáticas y el software informático pueden hacer muy poco con datos de tipo cadena. Los datos de tipo cadena son datos que contienen las letras y otros caracteres no numéricos, como signos de exclamación. Los datos también se pueden transformar y este es un futuro común de los modelos de regresión. Por ejemplo, tomar el log de y y hacer esto la nueva variable dependiente es una técnica muy común en el análisis de regresión. Al hacerlo, se cambiará la interpretación de todo el modelo. Y claramente, esto debe ser considerado cuidadosamente al usar o analizar tales modelos. 3. ¿Qué es la Regression? lineal?: ¿ Qué es la regresión lineal? El análisis de regresión es un término catch-all para cada tipo de método de regresión. A menudo los métodos de regresión se dividen en métodos de regresión lineal y no lineal. Hay muchos métodos en ambos de estos dos campos. En este curso, nos centraremos únicamente en los métodos lineales, específicamente el método ordinariamente cuadrados, que es el método lineal más popular. La regresión lineal asume que los parámetros variables se relacionan con la variable dependiente de manera lineal. Los parámetros variables son lo que tratamos de estimar, pero los modelos de regresión y datos encuentran la relación entre x e y A menudo llamamos coeficientes de parámetros. Por ejemplo, un parámetro o coeficiente de uno significa que por cada cambio de unidad en X, Y, la variable dependiente cambia por una. Sin ser demasiado técnico, regresión lineal asume que las variables dependientes se miden como variables continuas. Las variables explicativas se pueden medir de cualquier manera. Cuando la variable dependiente es una no continua, el método de regresión correcto suele ser no lineal. No obstante, hay instancias en las que se pueden usar métodos lineales cuando la variable independiente no es continua. Cuando solo hay una variable explicativa en el modelo. En otras palabras, solo hay una variable x. esto llamamos regresión simple. Cuando hay múltiples variables explicativas, llamamos a esta regresión múltiple. La mayoría de las regresiones son de los múltiples tipos, como en la práctica, generalmente queremos probar o evaluar muchas variables frente a la variable dependiente y. 4. ¿Por qué el análisis de regresos?: ¿ Por qué es útil el análisis de regresión? El análisis de regresión es útil para cuando se necesita evidencia cuantitativa para responder a una pregunta en particular. El análisis cuantitativo, por definición, requiere el análisis de números. Lo contrario de esto es un análisis cualitativo que analiza datos no numéricos como palabras, historias, significado o conceptos. El análisis de regresión es útil porque permite la prueba de hipótesis. Por ejemplo, ¿realmente ganan los hombres más que las mujeres? ¿ El desempleo en la economía está relacionado con la inflación? ¿ O cuánto más helado se compra en días soleados? tipo de preguntas se pueden responder con estadísticas y a menudo escucharás un término que esto es estadísticamente significativo en el nivel del 5% en dicho análisis. No obstante, la regresión también permite predicciones. Porque los modelos de regresión estiman parámetros o coeficientes. Estos parámetros se pueden utilizar entonces para calcular nuevas estadísticas. Esto se puede hacer dentro de una muestra de datos e incluso fuera de esa muestra. Por ejemplo, después de una regresión de diversos factores explicativos sobre los salarios, podemos utilizar los parámetros estimados para calcular el salario esperado de un tipo de persona muy particular, si están en el muestra o no. Esta predicción es una gran fortaleza de los métodos de regresión y permite a las empresas, investigadores y legisladores calcular diversos efectos. 5. ¿Qué tipos de análisis de regresión existen?: ¿ Qué tipo de análisis de regresión existe? Hay muchos, demasiados para contar. De hecho, muchos métodos avanzados de regresión serán personalizados para la pregunta de investigación relevante y los datos. No obstante, existen algunos métodos básicos que debes tener en cuenta. Estos métodos son principalmente una función de la naturaleza de los datos y luego la naturaleza de la variable dependiente. El método más común son ordinariamente cuadrados. Este método requiere que la variable dependiente sea continua y a menudo se aplica a los datos de sección transversal. transversales son datos que no tienen elementos de tiempo repetidos dentro de él. Ordinariamente los cuadrados también sirve como base para muchos métodos avanzados como los mínimos cuadrados ponderados. Siguiente o tres métodos no lineales. Estos métodos son no lineales porque la variable dependiente ya no es continua. Los modelos Logit y probit son útiles para variables binarias dependientes. Los modelos logit ordenados y probit ordenados son útiles para cuando hay múltiples categorías ordenadas en la variable dependiente. Y los modelos logit multinomiales son útiles cuando hay categorías nominales, desordenadas y la variable dependiente. Si te estás preguntando qué son los modelos logit y probit, estos son simplemente dos formas comunes de lograr una relación no lineal entre las variables. Si bien existen algunas diferencias matemáticas entre los modelos y realidades logit y probit, estos suelen hacer poca diferencia en los resultados. También tenga en cuenta que también existen modelos multinomiales probit, pero no se usan con frecuencia, razón por la cual no los estoy enumerando aquí. A continuación, nuestros modelos de paneles, tanto lineales como no lineales. Hay muchos métodos en cada categoría, pero el Futuro Común es que todos trabajan con datos que se recopilan repetidamente a lo largo del tiempo. Esto podría ser paneles domésticos cortos o series de tiempo de negociación de alta frecuencia largas. A continuación, los modelos de datos de cuenta, que son similares a los modelos logit y probit, pero se transformaciones ligeramente diferentes para tener en cuenta las propiedades de recuento. Los datos. Ejemplos de recuentos son cosas como el número de visitas al médico o el número de sales de camisetas. Por último, a menudo se usan modelos de riesgos proporcionales de Cox cuando una variable dependiente es el tiempo. Un ejemplo común de una variable dependiente del tiempo como tiempo de supervivencia de los pacientes con cáncer. Y este método se usa a menudo en las ciencias de la salud. 6. Explicar la Regression: Explicando regresión. Ahora que tenemos alguna comprensión básica de los conceptos detrás análisis de regresión y también qué tipo de regresiones hay. Vamos a explorar cómo funciona realmente. Si eres un estudiante académico, regresión a menudo se aprende a través de una variedad de ecuaciones. A menudo ecuaciones de tipo matriz que tienen una gran cantidad de x e y y facilidad y uso en ellas. Ellos sirven a su propósito, pero en realidad no es necesario entenderlos para aprender cómo funciona la regresión. El uso de ayudas visuales puede lograr el mismo efecto. Y esto es algo en lo que nos enfocaremos en este curso. regresión lineal simple a menudo se explica a través de la correlación. Sigamos ese enfoque y luego lentamente sigamos construyendo las cosas más tarde. La correlación, a veces llamada asociación o dependencia, es la relación entre dos cosas. En estadística, estas cosas suelen ser variables, llamémoslas x e y por ahora. Tenga en cuenta que ambas variables x e y están conectadas al identificador. Sin este identificador, nada de esto funcionará. Se identifican a menudo está representado por el símbolo I. Y podemos imaginar que sea algo así como personas individuales o firmas o países o cualquier otra cosa que pueda conectar las dos variables de interés. Esta mesita por aquí, hay tres identifica, y cada uno identifica tiene un valor de y y un valor de x. vamos a seguir adelante y visualizar una versión más grande de esta tabla en el gráfico. Voy a trazar 100 puntos de datos en una gráfica de dispersión donde el eje y representa la variable y y el eje x representa la variable x Esta representación visual poco comienza a decirnos algo. En este caso, parece que tenemos una idea bastante buena de que parece ser una relación positiva entre y y x En otras palabras, como x aumenta, también Y. sin embargo, también hay algún ruido en los datos. Y esto parece ser algún aglutinamiento en los valores de y y y x alrededor de 0. La relación entre las dos variables también puede cambiar. Por ejemplo, la relación podría volverse más débil o incluso negativa. Aquí vemos un ejemplo de cómo los datos pueden cambiar su relación entre sí. La correlación entre Y y X se vuelve más débil, yendo todo el camino a ninguna correlación y luego volviéndose negativa, terminamos con una relación que es casi lo contrario a lo que empezamos con. Visualmente, es bastante fácil distinguir entre tipo extremo de relaciones. No obstante, puede ser más difícil identificar visualmente las diferencias entre solo cambios menores en las relaciones. Eche un vistazo a este ejemplo. Aquí hay algunos datos que se correlacionan de diferentes maneras. Es fácil contar una correlación más uno aparte de una correlación menos uno. No obstante, esta tarea se vuelve más difícil para pequeños cambios de correlación. A primera vista, probablemente sería bastante difícil identificar cualquier diferencia entre los dos primeros gráficos. A pesar de que la correlación es diferente, uno tiene que mirar bastante de cerca para identificar que la relación entre y y x se ha aplanado un poco en el segundo gráfico. Esto se vuelve especialmente complicado si hay muchos datos. Si tuviéramos un millón de puntos de datos, eso todo lo que veríamos, por ejemplo, es una gesta gigante de azul. Y es por eso que muchas veces queremos resumir la relación entre y y x a través de algún tipo de proceso de reducción de datos. 7. Líneas de mejores ajuste: Líneas de mejor ajuste, ¿qué son y cómo funcionan? Una cosa clave a entender antes de saltar al concepto de cómo producir líneas de mejor ajuste es que existen dos métodos que podemos usar. Se trata de métodos paramétricos y no paramétricos. Los métodos paramétricos son métodos que aplican algún tipo de parámetro o muchos parámetros a los datos. Los métodos paramétricos son métodos que aplican algún tipo de parámetro o muchos parámetros a los datos. A menudo los parámetros serán en forma de una ecuación como y igual a una. El parámetro en este caso es uno. Este método es el método que se utiliza en el análisis de regresión y en ordinariamente cuadrados. Y tiene la ventaja de la simplicidad y trabajar con datos de alta dimensión. Desventaja es que requiere supuestos más fuertes sobre los datos. Cuando no se cumplen estas suposiciones , tu análisis podría estar completamente equivocado, y a menudo es posible que ni siquiera lo sepas. Los métodos no paramétricos permiten que los datos hablen por sí mismos. Las ventajas que se necesita para hacer un menos supuestos sobre las relaciones iniciales en los datos. Una gran desventaja es que este método no es muy transposable. En otras palabras, no se puede decir fácilmente a otras personas al respecto. Además, y se vuelve extremadamente difícil de operar este tipo de método en entornos multidimensionales, a menudo usamos métodos no paramétricos para explorar las relaciones básicas entre Y y X. métodos paramétricos para explorar relaciones más complicadas entre y y x1 y x2 y x3, etc. Echemos un vistazo para ver a qué me refiero con todo esto. Empecemos con una gráfica de dispersión de algunos datos nuevos. En este caso, trabemos datos del conjunto de datos alterado del estator y tratemos de averiguar cómo se relaciona el precio de los autos las millas por galón de gasolina consumidas por los autos individuales. El scatterplot inicial aquí nos dice que hay algún tipo de relación entre el precio de costo y sus millas por galón. Parece un negativo, en otras palabras, pendiente hacia abajo. Ahora, intentemos estimar qué tipo de relación es exactamente esta. Empezaremos con un método no paramétrico como la regresión. Existen muchos métodos no paramétricos. Escojamos uno llamado regresión polinomial local. regresión polinomial local es una forma de regresión en movimiento. El usuario define un ancho de banda o permite que el equipo elija uno, y luego se estima una regresión dentro de ese ancho de banda. La banda luego se mueve continuamente a través del eje x paso a paso y repite este análisis, los pasos individuales y luego todos cosidos juntos para revelar lo que es esencialmente una trama media móvil de la datos. Veamos cómo funciona esto en la práctica. Los métodos no paramétricos que aquí se muestran se mueve lentamente a través del espacio de datos y actualiza continuamente la relación entre y x Vemos que la relación entre y y x comienza negativamente, pero termina siendo un poco más horizontal. En otras palabras, la relación entre y y x aquí no parece ser enteramente lineal. Una mayor ventaja de este método es que permite que los datos hablen por sí mismos y no se basan en funciones específicas o incluso teoría para adaptarse a los datos. Una desventaja de este método es que la relación aún necesita algún tipo de entrada. En este caso, se requiere el tamaño del ancho de banda. Si cambiamos el ancho de banda a algo más pequeño, la relación se verá diferente. Aquí hay un ejemplo de eso. Otra desventaja de este método es que es difícil transferir esta relación a otros usuarios. ¿ Cómo podemos explicar esta línea ondulante a alguien más? A menudo elegimos una relación paramétrica. La relación paramétrica es aquella que puede ser definida por algún tipo de ecuación. Por ejemplo, un ajuste de línea lineal a través de los datos tendrá un gradiente. Y ese gradiente será el parámetro que define la relación entre y y x. trazar una función lineal a través los datos y ver cómo se ve esto. Aquí vemos una línea lineal siendo ajustada a través de los datos. En este caso, el ajuste de línea se basa en minimizar la distancia total entre la línea ajustada y todos los puntos de datos disponibles. Este concepto es conocido como mínimos cuadrados, y lo exploraremos más detalle en la próxima sesión. Se sustenta la metodología de regresión de mínimos cuadrados ordinarios . La línea ajustada en este caso tiene una pendiente particular de menos 238. Es decir, por cada aumento de una unidad en millas por galón, el precio promedio del costo parece bajar en 238 dólares. Genial. No obstante, las líneas paramétricas de mejor ajuste no siempre necesitan ser lineales. También podemos añadir una línea cuadrática de mejor ajuste. En este caso, recuperamos dos parámetros para tener que encontrar la relación entre y y x Aquí hay un ejemplo de eso. En este caso, la relación entre y y x es parametrizada por un parámetro uno tirando de ancho hacia abajo a medida que aumenta x. Y el otro parámetro tirando y retrocediendo a medida que x aumenta. En este caso, los parámetros son aproximadamente menos 1200 por cada aumento en x y más 20 por cada aumento en x al cuadrado. No te preocupes por la x al cuadrado en este momento, explorará esto más adelante. Pero el concepto importante no es la forma funcional de líneas paramétricas de mejor ajuste se puede hacer para ser muy flexible siempre y cuando se disponga de suficientes parámetros. ¿ Cómo se relaciona todo esto con la regresión? Bueno, esto es regresión específicamente, esto es regresión simple donde Y se retrocede contra una variable x. ¿Qué tal la regresión lineal múltiple? regresión lineal múltiple es una extensión de regresión lineal simple, y agrega más variables al marco matemático. Una forma fácil de visualizar esto es agregando más dimensiones a la gráfica de dispersión, donde cada dimensión extra representa una variable adicional. Digamos, por ejemplo, que queríamos explorar el impacto de MPG en el precio del automóvil. Pero controlando por un peso causa, es probable que los autos más pesados tengan MPG más pobre. Y esto puede afectar el precio. Visualmente, podemos representar esto por una trama de dispersión tridimensional que grafica precio contra el MPG contra el peso. Podría verse un poco así. Además, al girar la gráfica de dispersión, podemos mirar la relación que cada variable explicativa tiene width y, e incluso examinar cómo se correlacionan las variables explicativas entre sí. Por último, lo que hace el análisis de regresión múltiple es en lugar de estimar una línea de mejor ajuste a través de los datos, se ajusta a un plano de mejor ajuste a través de los datos. Esto puede ser difícil de visualizar en una pantalla, pero aquí hay un crudo intento con el mío. Los gráficos de la izquierda muestran los puntos de datos reales en una gráfica de dispersión 3D. Si bien los gráficos correctos muestran la relación estimada entre estos puntos de datos, esta relación está representada por un plano 3D. Si se agregan más variables al marco, el plano de best-fit se convierte en un hiperplano de mejor ajuste. Es por ello que a veces escuchamos a la gente hablando multidimensionalidad al referirse al análisis de regresión. 8. Causalidad con Correlation: Causalidad versus correlación. Ojalá, los ejemplos anteriores te habremos dado una buena comprensión intuitiva de lo que intenta hacer el análisis de regresión. Hay muchas estadísticas y matemáticas en cada tipo de análisis, pero el concepto subyacente siempre seguirá siendo el mismo. análisis de regresión intenta decirle a los usuarios cómo se relacionan los datos entre sí de una manera que es más fácil entender que mirar los puntos de datos sin procesar. No obstante, es importante estar muy consciente del concepto de causalidad versus correlación. Cada método de regresión es un método estadístico que correlaciona los datos. Eso es todo. Una computadora o una ecuación matemática no pueden identificar qué es causal. causalidad siempre es interpretada por el usuario final. Y algunos modelos permiten mejores reclamos de causalidad que otros. evidencia obtenida del análisis de regresión sobre una relación fuerte y estadísticamente significativa entre dos variables puede atribuirse a la causalidad a través un marco teórico convincente y sentido común. Esto puede llevar mucha práctica y casi se convierte en una forma de arte. En ocasiones los datos ayudan. Por ejemplo, si los eventos de ayer se utilizan para explicar la acción de hoy, el elemento tiempo en el análisis se puede utilizar para hacer una mejor inferencia causal. No obstante, en otros entornos como los ajustes de encuestas transversales, puede ser mucho más difícil atribuir causalidad. ¿ Son felices las personas porque están sanas? ¿ O las personas están sanas porque son felices? Se trata de preguntas difíciles de responder y requieren un razonamiento teórico y filosófico además de las estadísticas. Por lo que siempre debes tener cuidado al tratar con el análisis de regresión. 9. ¿Qué es los cuadrados ordinarios de cuadrados?: ¿ Qué son ordinariamente cuadrados? Ordinariamente cuadrados es un método de regresión que se basa en el concepto de mínimos cuadrados. Menos cuadrados es un método estadístico que se ajusta a una línea o plano o hiperplano de mejor ajuste al minimizar la suma de residuos cuadrados entre la línea de mejor ajuste y los puntos de datos reales. Cuadramos los llamados residuos porque la suma de ellos es exactamente 0 cuando no están al cuadrado. Por lo tanto, los residuos negativos y positivos por encima y por debajo de la línea de best-fit se cancelan mutuamente. cuadramiento resuelve este problema. Existen muchas otras formas de ajustar la línea de best-fit. Un ejemplo es encajar una línea por el método de las desviaciones menos absolutas, donde en lugar de residuos cuadrados, se toma el valor absoluto de ellas. En otras palabras, los negativos se volvieron positivos. No obstante, los mínimos cuadrados es con mucho el método más popular. Por supuesto, todas las ciencias. 10. Los cuadrados inferiores ordinarios Visual 1: Exploremos los cuadrados ordinariamente visualmente. Entenderlo mejor. Imagina un pequeño conjunto de datos con unos pocos puntos de datos, un poco como éste. Ordinariamente los cuadrados encajarán una línea a través de estos puntos de datos. Esta línea puede ser lineal, pero también puede ser no lineal. Vamos con un ejemplo lineal. La línea roja representa la línea de mejor ajuste estimada por la mecánica de cuadrados ordinariamente. En este caso, la línea de mejor ajuste puede representarse mediante un único parámetro de pendiente llamado beta. A menudo usamos la letra griega Beta para denotar la pendiente de una línea de regresión. Esta pendiente nos informa de la relación estimada entre y y x. en este caso, y es el precio de un automóvil y x es el kilometraje y millas por galón. El desnivel es negativo, lo que significa que a medida que aumentan las millas por galón, el precio de los autos disminuye. No obstante, tenga en cuenta que nuestra pendiente no golpea ninguno de los puntos de datos reales. Eso se debe a que estamos estimando una relación promedio entre todos los puntos de datos disponibles. los puntos de datos reales se les suele llamar puntos de datos observados. En otras palabras, y observado. El valor predicho de y en cualquier valor dado de x es dado entonces por la línea de best-fit. A estos se les llama puntos de datos predichos o y pronosticados. La diferencia entre el valor observado y el valor predicho se denomina valor residual. Esto es lo que ordinariamente cuadrados intenta minimizar. Aquí se puede ver que hay tres puntos de datos y por lo tanto tres residuos diferentes. La suma de los tres es el valor más pequeño que podemos lograr. En este caso, si cambiamos la línea de best-fit, por ejemplo, moviendo la línea de best-fit hacia abajo, la suma total de los residuos aumentará. Esta es una explicación gráfica de lo que ordinariamente los cuadrados intentan hacer. Se encuentra una pendiente de regresión y la interceptación que conduce a la mejor suma mínima de residuos. Echemos otro vistazo a esto con más datos. En este ejemplo, vamos a utilizar los datos completos de entrenamiento automático para ver qué sucede con el error cuadrado medio raíz cuando aplicamos diferentes pendientes de regresión a los datos. En el panel izquierdo, observamos la pendiente de regresión pasando por los datos. Empezaremos con una pendiente positiva de más 100. En el panel derecho, vemos el tamaño de los residuos individuales. Los residuos se cuadran y luego se cuadran con raíces para asegurar que sólo se hicieron valores positivos. El valor más bajo que un residuo puede tener, por lo tanto, es 0. Valores residuales más altos significan que el punto de datos relevante está lejos de la línea de regresión real. El promedio de todos estos residuos se denomina error cuadrado medio raíz de los residuos. Y esto es representado por la línea roja. Nos dice cuán lejos, en promedio los puntos de datos están de la línea de regresión. Ahora veamos y veamos qué pasa cuando cambiamos la pendiente. Podemos ver que a medida que cambiamos lentamente la pendiente de la línea de regresión de valores positivos y valores negativos. El error promedio entre la línea y el punto de datos disminuye. Los residuos en promedio están a la baja a medida que disminuimos la pendiente. Esto sigue sucediendo hasta después de un cierto valor de pendiente, el promedio de los residuos comienza a aumentar nuevo en una pendiente de alrededor de menos 230. minimiza el error promedio de nuestra línea de mejor ajuste. Y por lo tanto, esa es nuestra línea de best-fit. Por supuesto, este gráfico es una versión simplificada de lo que sucede. Los modelos de regresión pueden tener muchas más variables y por lo tanto muchos más parámetros. Y necesitaríamos muchas más dimensiones para mostrar este tipo de modelos gráficamente. Ahora echemos un vistazo a cómo los modelos de cuadrados ordinariamente se presentan a menudo por computadora. 11. Los cuadrados mínimos ordinarios Visual 2: Aquí hay un ejemplo de cómo estator presenta la salida de regresión. Otros programas informáticos pueden presentar esto de manera diferente, pero la esencia de la información mostrada será similar entre todos los programas. A menudo parte de la salida de regresión mostrada será información de diagnóstico que proporcione información de alto nivel sobre el modelo de regresión general. En estados. Esta suele ser la parte superior de la salida. La parte inferior de la tabla de salida normalmente presenta los coeficientes estimados para las variables relevantes. esta tabla hay muchas piezas de información. No obstante, generalmente tres piezas importan más. El primero son las estimaciones de parámetros reales. Es decir, las pendientes estimadas son coeficientes de líneas o planos de mejor ajuste a través de los datos relevantes. En estados, esto se llama DOF, que es abreviatura de coeficiente. Cada variable explicativa tiene una relación con la variable dependiente, en este caso, precio. Cada variable explicativa también está condicionada entre sí. Es decir, el efecto de millas por galón, condicionado al control del peso, se detiene por cada aumento en una unidad de millas por galón, el precio cae en $49. El peso efectivo es el siguiente. Condicionado a millas por galón, un aumento en una unidad de peso conduce a un aumento de precio de $1.7. La variable final es una constante. Constantes sobre el valor que la variable dependiente, en este caso, el precio toma cuando todo en el modelo se establece en 0. Es decir, con un peso de 0 y a 0 millas por galón, un automóvil debería costar alrededor de $1946. De acuerdo con este modelo. Constantes a veces tiene sentido, y a veces no lo hacen. En este caso, no tiene mucho sentido porque causa nunca tendría un peso de 0 ni consumiría 0 millas por galón. Algunas personas dicen que constante debe eliminarse de los modelos, sobre todo cuando no tienen sentido . Creo que eso está mal. Sólo hay que cuidar a la hora de interpretar constantes. A menudo, las constantes no deben interpretarse sino dejarse en el modelo. La siguiente información más importante proviene de la columna llamada error std, que es abreviatura de error estándar. El estadístico de error estándar es una estadística que revela con qué grado de precisión se estima el coeficiente de pendiente. El error estándar es bajo en relación con el coeficiente. Entonces podemos estar más seguros de que el coeficiente estimado está cerca del verdadero parámetro poblacional. El error estándar es alto, podemos estar menos seguros y tener más ruido alrededor de nuestra estimación. El error estándar es importante porque nos permite determinar en qué medida los coeficientes estimados del modelo de regresión son estadísticamente significativos. Las columnas restantes completas en las salidas de resultados son todos cálculos adicionales del error estándar. Y eso es simplemente diferentes formas identificar el significado. El estadístico t, el valor p, los intervalos de confianza inferior y superior son esencialmente lo mismo y se basan puramente en los recálculos del error estándar. Vamos a ver lo que significan en un momento. Por último, la tercera pieza de información que más importa es algo llamado R-cuadrado. Esta información se da en las partes de diagnóstico de la tabla de salida y se puede encontrar aquí. R-cuadrado es un indicador común de bondad de ajuste para los modelos de regresión de cuadrados ordinariamente. Está delimitado entre 01 y valores superiores indican que el modelo Dr. se ajusta mejor a los datos. No obstante, muchos usuarios profesionales cocientarán contra una interpretación excesiva de las estadísticas de R cuadrado. Los números son relativos a la disciplina. Si está trabajando con datos de comportamiento como las personas y sus opciones que R cuadrado de 0.2 o 0.3 son muy comunes y generalmente indican buenos modelos de ajuste. Si estás trabajando con datos de series temporales, como las medidas macroeconómicas del PIB, entonces R cuadrado de 0.8 o 0.9 son muy comunes e indican buenos modelos de ajuste. Por último, hablemos un poco más sobre cómo relacionan los coeficientes estimados con la significación estadística. Comencemos con la estadística t. Esta estadística es un indicador de significancia estadística, y normalmente estamos buscando un valor de 1.96 o superior a uno. Estamos utilizando una muestra de tamaño razonable. Muestras de tamaño razonable significa alrededor de 100 o más observaciones en el medio. El estadístico t se calcula fácilmente dividiendo el valor del coeficiente estimado por el valor de error estándar estimado. Tenga en cuenta que cuando el coeficiente es negativo, estado que producirá una estadística T negativa. No obstante, debe ignorarse el signo en la estadística t. Junto a eso hay algo que se llama el valor p. Esto es déficit. valor de probabilidad indica la probabilidad de obtener los resultados observados de una prueba, suponiendo que la hipótesis nula sea correcta. La hipótesis nula en tablas de regresión, es normalmente que un resultado específico no es diferente de 0. En otras palabras, los pequeños valores p significan que hay evidencia más fuerte a favor de la hipótesis alternativa. La hipótesis alternativa es que el coeficiente es el coeficiente estimado real en términos lacos y número de 0.05 o inferior en el KD, estadístico significativo a nivel 95%, números por debajo de 0.01 indica significancia en el nivel del 99%, etcétera. Al siguiente, nuestros intervalos de confianza, hay un intervalo de confianza superior e inferior. Los intervalos de confianza superior e inferior se calculan sumando o restando 1.96 veces el error estándar del coeficiente estimado. En otras palabras, el intervalo de confianza suele estar dos errores estándar lejos de la estimación del coeficiente. Los intervalos de confianza son realmente útiles porque te permiten rápidamente, voy a las pruebas estadísticas. Cualquier número fuera del rango de intervalo de confianza, será estadísticamente significativamente diferente de la estimación del coeficiente. En este ejemplo, el MPG no es estadísticamente significativamente diferente de 0 porque 0 está dentro del rango de intervalo de confianza. No obstante, mpg es diferente de menos 500 porque este número está fuera del rango de intervalo de confianza. Esta puede ser una forma realmente útil de realizar rápidamente pruebas estadísticas. Y todo lo que implica es multiplicar el error estándar por aproximadamente dos suma de cuadrados. Ahora echemos un vistazo a la suma de cuadrados con un poco más de detalle. 12. Sum de cuadrados: El cuadro de regresión anterior también proporcionaba información de señal analógica pensada sobre la suma explicada de cuadrados, la suma residual de cuadrados, y la suma total de cuadrados. Estos valores indican cuánta variación se explica por el modelo ajustado. ¿ Cuánta variación inexplicable por el modelo? Cuánta variación total hay en los datos. Al comparar la proporción de suma explicada de cuadrados con la suma total de cuadrados, podemos producir algo llamado el coeficiente de determinación, a menudo llamado R-cuadrado. R-cuadrado. El valor R cuadrado es una medida de ajuste ampliamente utilizada para modelos de cuadrados ordinariamente. El valor indica qué tan bien se ajusta el modelo a los datos. Valores de una media, un ajuste perfecto. Valores de 0 significan un ajuste terrible. No obstante, el R-cuadrado básico sólo puede aumentar a medida que se agregan más variables explicativas al modelo. En otras palabras, los modelos con cientos de covariables aleatorias pueden saturar los datos y producir estadísticas artificialmente altas de bondad de ajuste. Es por ello que muchas veces también denunciamos el R-cuadrado ajustado, que impone sanciones. agregan dos variables más, dos modelos. Si las variables adicionales no son estadísticamente significativas, reducirán el valor R-cuadrado ajustado. Esta estadística intenta lograr un equilibrio entre los modelos gratificantes, buenos modelos de construcción y sobrecarga con variables innecesarias. No obstante, cabe señalar que R-cuadrado puede ser abusado fácilmente y debe tratarse con precaución. cuadrados R altos no implican necesariamente que un modelo sea más válido que otro. Echemos un vistazo a este ejemplo. En esta demostración, voy a cambiar el nivel de ruido alrededor de la línea de mejor ajuste. La verdadera relación entre y y x es una. Y esto es lo que se estima por la línea de best-fit. El dato original tiene muy poco ruido y la línea de regresión golpea casi todos los puntos de datos, lo que resulta en un R cuadrado de uno. Ahora vamos a seguir adelante y cambiar este nivel de ruido alrededor de la verdadera línea de regresión. Podemos ver ahora el R-cuadrado cambia rápidamente a medida que aumentamos el ruido alrededor de los datos. El R cuadrado cae rápidamente en valor, lo que sugiere que el modelo encaja esos datos peor y peor. No obstante, el modelo en realidad sigue siendo el mismo. Lo que está cambiando es sólo el ruido alrededor de los datos. Los datos ruidosos resultan en el valor R cuadrado inferior. Y el observador laico podría afirmar que esto es un modelo de encuesta. Pero como se puede ver, la relación entre y y x no ha cambiado en absoluto, y el modelo sigue recuperando el valor correcto del coeficiente. Ambos modelos en este caso tienen la misma validez, pesar de que tienen diferentes valores R cuadrados. Y por eso quiero que siempre tengas cuidado cuando R-cuadrado. El ejemplo de R cuadrado nos lleva a nuestro próximo punto de discusión. 13. Mejor estimación Linear lineal: Mejor estimador lineal imparcial. Ordinariamente cuadrados se establece para ser el mejor estimador lineal imparcial. Es, ciertas condiciones son ciertas. Tener una comprensión de estas condiciones es importante ya que algunos importan más que otros. Estas condiciones a menudo se llaman los supuestos de Gauss-Markov y se refieren a supuestos particulares a los que hay que hacer datos de boca. Si se cumplen estos supuestos, entonces se dice que el estimador de plazas ordinariamente es imparcial. Es decir, los resultados producidos por el estimado serán en promedio correctos. Si se cumplen los supuestos de Gauss-Markov. El estimador de OLS también estará ahí. Mejor estimador. Mejor es otra palabra para la eficiencia y las estadísticas. Esto simplemente significa que el estimador ordinario de mínimos cuadrados producirá los resultados más precisos con la menor cantidad de ruido. Vamos a explorar estos dos conceptos un poco más lejos antes de discutir los supuestos reales. eficiencia se refiere al ancho de la distribución de muestreo. Cuando se dice que un estimador es más eficiente, distribución de muestreo es menor que la de cualquier otro estimador. Podemos visualizar esto de una manera fácil asumiendo que tenemos dos estimadores diferentes, una cantidad infinita de datos. A partir de esta cantidad infinita de datos. Vamos a seguir adelante y seleccionar una muestra pequeña, luego tratar de estimar un coeficiente particular para una variable. Vamos a utilizar un estimador ineficiente y un estimador eficiente. Vamos a establecer el verdadero valor del coeficiente en uno. La primera vez que calculamos los coeficientes utilizando ambos estimadores, devolvemos un valor de alrededor de menos seis para el estimador ineficiente y menos dos para el estimador eficiente. Ahora vamos a seguir adelante y repetir este proceso. La segunda vez que nuestras estimaciones están más cerca. El estimador ineficiente predice un valor de alrededor menos uno y el estimador eficiente de alrededor de 0. Ambos siguen siendo alguna forma del verdadero valor, pero el estimador eficiente parece estar cada vez más cerca. Ahora vamos a seguir adelante y repetir este proceso rápidamente, cientos de veces y ver qué pasa. Ambos estimadores, en promedio obtienen el valor correcto de uno. No obstante, el estimador ineficiente está en promedio más lejos con sus predicciones que el estimador eficiente. Este es el concepto de eficiencia. Y una vez que normalmente no tenemos una cantidad infinita de datos, este concepto suele ser visible en los errores estándar del resultado de la vida real. En los estimadores eficientes tienden a tener errores de alto nivel, lo que resulta en más incertidumbre torno al verdadero valor estimado. A continuación, vamos a explorar el concepto de insesgo. Cuando se dice que un estimador es imparcial. Esto significa que la distribución media de muestreo de las estimaciones del coeficiente se aproximará al verdadero coeficiente poblacional. Podemos visualizar esto de una manera fácil al, de nuevo, asumiendo que tenemos dos estimadores diferentes y una cantidad infinita de datos seleccionará una pequeña muestra de estos datos e intentará estimar un particular coeficiente. El verdadero valor de este coeficiente se establece en uno, y esto se denota por la línea roja punteada. Utilizamos un estimador sesgado y un imparcial para estimar el mismo coeficiente. El primer pasado produce una estimación de alrededor de 0 para el estimador sesgado, 1.5 para el estimador imparcial. Ahora, hagámoslo de nuevo. En el segundo pase. El estimador sesgado desempeño mejor con el resultado de tres en comparación con el estimador imparcial con el resultado de cinco. Pero continuemos y repitamos este proceso. Muchas veces. Repetimos el proceso, vemos que en promedio, el estimador imparcial comienza a predecir un valor de uno. Cuál es el estimador imparcial predice el valor menos uno. Eso obviamente puede ser un gran problema. Por ejemplo, el objetivo podría ser realizar una evaluación de políticas. Y un estimador sesgado estima que la política tiene un efecto negativo. Lo que es en realidad, en realidad podría tener efectos positivos. El sesgo es un problema grave en la econometría. Y ordinariamente las plazas requieren algunos supuestos bastante estrictos para que las estimaciones sean imsesgadas. Es importante entonces tener alguna comprensión de los supuestos detrás de las casillas ordinariamente. 14. Los presupuestos de Gauss-Markov: Supuestos de Gauss-Markov. Los supuestos de Gauss-Markov son los supuestos subyacentes que hacen que los cuadrados ordinariamente sean los más eficientes, un estimador imparcial. En general, cuatro condiciones importantes en necesarias para lograr este resultado. Se trata de la asunción de homoscedasticidad, el atuendo del bloc de notas llamado asunción de linealidad, la suposición lineal en parámetros, y la media condicional 0, a veces llamada suposición de exogeneidad. En términos generales, los dos primeros se relacionan con la eficiencia, mientras que son los dos últimos se relacionan con sesgo. Expliquemos cada uno a su vez y tratemos de determinar qué importa más. 15. Homoskedasticity: El supuesto de homoscedasticidad. Esta suposición establece que la varianza de los residuos permanece estable en todo el espectro de variable independiente. En otras palabras, los errores producidos por la variable permanecen aproximadamente constantes cada vez que miramos una pequeña parte de esa variable, valor de esta suposición lleva a comprar errores estándar. Y esto significa que no podemos confiar en las pruebas de hipótesis. No obstante, muchos paquetes estadísticos modernos pueden probar y corregir fácilmente para esta suposición. Es muy común, por ejemplo, utilizar algo llamado errores estándar robustos, que aumentaron ligeramente la ineficiencia de las estimaciones, pero las hacen inmunes al fracaso de esta suposición. Sigamos adelante y veamos un ejemplo. En este video, hay dos gráficas. El gráfico izquierdo muestra la relación entre la variable explicativa x y la variable dependiente y. la relación general nunca cambia, sino la varianza a través de x voluntad. El gráfico correcto, vemos los residuos o errores de x. muestra la distancia de los puntos de datos reales a la línea de best-fit. El gráfico izquierdo también muestra la estimación de pendiente y el error estándar a partir de una regresión normal de mínimos cuadrados ordinarios y una regresión robusta ordinaria de mínimos cuadrados. Ahora vamos a seguir adelante y ejecutar este ejemplo y examinar lo que sucede cuando introducimos una varianza cambiante a través de x Vemos que a medida que aumentamos la varianza a través de x, el coeficiente de regresión real nunca cambia. No obstante, los errores estándar aumentan a medida que aumentamos la varianza a través de X. Además, los robustos errores estándar aumentan un poco más. Todo esto significa que el fracaso de la asunción de homoscedasticidad, conduce a estimaciones menos precisas. El mundo real con conjuntos de datos modernos, un fracaso de esta suposición a menudo tiene poco efecto general en los resultados reales, y la mayoría de los practicantes no se enfocan mucho en esta suposición. 16. No la Collinearity perfecta: No hay perfecta co-linealidad. Este supuesto establece que una variable explicativa no puede ser una combinación lineal exacta de otra variable explicativa. Si este es el caso, ordinariamente los cuadrados simplemente no se pueden estimar. Esto rara vez es un problema en la vida real, ya que nunca entrarías en la misma variable dos veces en una regresión. No obstante, cuando hay correlación parcial entre dos variables, decir, miden lo mismo hasta cierto punto. Entonces denominamos esta multicolinealidad. Y esto puede tener algún efecto en nuestras estimaciones. Específicamente, aumentará el ruido y por lo tanto los errores estándar de nuestras estimaciones. Este fenómeno es generalmente fácil probar y también fácil de tratar, pero ya sea excluyendo variables o transformándolas. Veamos un ejemplo. En este ejemplo, generé un conjunto que tiene cinco variables explicativas diferentes. Estos van desde x1 hasta x5. Cada variable X tiene un coeficiente de una. El gráfico de la derecha presenta las estimaciones a partir de una regresión ordinaria de mínimos cuadrados y el intervalo de confianza del 95% asociado alrededor de estas estimaciones. Podemos ver que ordinariamente cuadrados estima un valor de aproximadamente uno para cada una de las cinco variables. En el gráfico de la izquierda, vemos la correlación entre x1 y x2. Actualmente, no hay correlación entre ambas variables, razón por la cual los puntos de datos se dispersaron al azar. Vamos a seguir adelante y ver qué pasa cuando empezamos a introducir una correlación entre x1 y x2 y poco a poco forzamos X1 y X2, midemos lo mismo. Al principio, no sucede mucho, pero luego a medida que aumenta la correlación entre las dos variables, el error estándar y por lo tanto los intervalos de confianza tanto de x1 como de x2 se detiene. Esto sucede hasta que explotan hacia el final. Este es el efecto de la colinealidad. Alta colinealidad entre variables conduce a estimaciones muy ruidosas. Pero como ves, el ruido Explosión solo ocurre hacia el final. Y en la mayoría de los escenarios reales, apenas se notan los efectos de la colinealidad. 17. Linear en parámetros: El siguiente supuesto es que el modelo es lineal en parámetros. Esta suposición significa que la relación entre el eje y y z en el modelo ordinariamente cuadrados es lineal. Es decir, las estimaciones del coeficiente toman valores únicos y sólo se pueden sumar o restar, que no pueden exponerse, dividirse o multiplicarse. En general, esta suposición hace que los modelos de regresión de cuadrados ordinarios sean más fáciles de interpretar. Tenga en cuenta que esto solo se aplica a los coeficientes reales. Las variables se pueden transformar de cualquier manera, incluyendo formas no lineales. A menudo llamamos a esta forma funcional y podemos variar la forma funcional como nos plazca en regresión de mínimos cuadrados ordinarios. Por ejemplo, es común agregar polinomios de orden superior de variables a una ecuación de regresión. El ejemplo de uso común es H y H al cuadrado, donde ambas variables se introducen por separado. Esto tiene el efecto de introducir una curva en la línea de best-fit. Las variables también se pueden interactuar entre sí. Y a esto llamamos efectos de interacción. Esto significa que las líneas de mejor ajuste pueden asumir formas funcionales muy complicadas. Sigamos adelante y veamos un ejemplo. En este ejemplo, hay dos gráficas. El lado izquierdo muestra la trama de datos de los datos de automóviles donde se grafica el precio de los autos contra MPG. El gráfico de la derecha muestra los residuos o cuán lejos están los puntos de datos individuales de la línea de mejor ajuste. La distancia promedio está representada por la línea horizontal roja. La relación inicial trazada a través de los datos es lineal. Pero debería ser bastante obvio que esta relación probablemente no sea un buen ajuste. Entonces vamos a introducir un cuadrático en esta relación y poco a poco aumentemos el coeficiente en el término cuadrático de 0. Esto es lo que pasa. La línea de best-fit comienza a curvar hacia arriba, pone esta curva resulta en un mejor ajuste. Y podemos ver bajar los residuos, sobre todo para valores más altos de MPG. Mejora el ajuste del modelo. En algún momento, sobreajustamos el modelo aumentando continuamente el coeficiente cuadrático y luego el ajuste del modelo vuelve a empeorar. En este ejemplo se destaca el poder de la forma funcional. El modelo sigue siendo lineal en parámetros porque los dos coeficientes estimados sólo se suman o restan. Pero la manipulación cuadrada de x conduce a una complicada forma funcional no lineal que mejora el ajuste del modelo. 18. El medio de cero tiempo condicional: 0 media condicional, a menudo llamada suposición de exogeneidad. Este supuesto es uno de los supuestos más importantes en las plazas ordinariamente. El supuesto establece que no hay correlación entre una variable explicativa X y el término de error. El fracaso de esta suposición conduce a sesgos en la estimación del coeficiente. Esta suposición a menudo puede fallar en la vida real. Y porque implica el término error, que por definición no es observable, nunca se puede probar. Una buena regla general es que cada vez que una variable es una opción, especialmente en la elección individual, entonces es probable que sea impulsada por factores que no se observan. Y de ahí podría existir una relación con el término de error. Echemos un vistazo a un ejemplo. En este ejemplo, he configurado un dataset simulado que nuevamente contiene cinco variables explicativas. Cada variable como coeficiente de una en relación con y, la variable dependiente. En el gráfico de la derecha, podemos ver las estimaciones de mínimos cuadrados del propietario individual y el intervalo de confianza asociado para cada una de las cinco variables. Los resultados correctos son mostrados por la línea roja vertical. En el gráfico de la izquierda, vemos la correlación que tiene la variable x1 con el término de error. Nota, en realidad, nunca podemos observar esto ya que el término de error siempre estará oculto de nosotros. Sólo en este ejemplo simulado, podemos ver el término error. La correlación original entre X1 y el término de error se establece en alrededor de 0. Ahora sigamos adelante y aumentemos la correlación entre X1 y el término de error y veamos qué pasa. Observamos que la estimación de cuadrados ordinariamente para x1 se desvía lentamente a lo inmediato de su verdadero valor. Cuanto más aumentamos la correlación entre X1 y el término de error, mayor será el sesgo en nuestro resultado. Esto puede ser un problema real en el trabajo aplicado. Cuando tenemos tal problema, muchas veces lo llamamos endogeneidad. 19. Cómo probar y corregir la endogeneidad: Cómo probar y corregir la endogeneidad, no es posible probar algo que no se puede ver. Es por ello que los buenos modelos de cuadrados ordinariamente están fuertemente sustentados por marcos teóricos , literatura previa y argumentación racional. Esta suposición es también la razón por la cual muchos científicos argumentan en contra de la minería de datos ordinariamente cuadrados modelos. enfoques de minería de datos aumentan la probabilidad de que la condición de exogeneidad fracase y los resultados se vuelven sesgados. En el mundo real. La forma de lidiar con la endogeneidad es a menudo por más datos, mejor, más reflexivo modelo-construcción, diferentes formas funcionales. Y también a veces simplemente aceptando que los modelos pueden tener algún sesgo. 20. El resumen de presupuestos de Gauss-Markov: Vamos a recapitular las suposiciones de Gauss-Markov. El supuesto lineal en parámetros es una condición que requiere que todas las betas sean aditivas. Significa en términos lacos que las variables dependientes deben ser continuas. Pero no significa que la relación entre Y y X deba ser lineal. Las formas funcionales más complicadas se pueden trabajar en modelos de regresión ordinariamente cuadrados. violación de la suposición media condicional 0, a menudo llamada suposición de exogeneidad, puede conducir a estimaciones sesgadas. Esta es una suposición muy importante. No es posible probarlo. Estadísticamente. Identificar o defenderlo debe hacerse por motivos teóricos. No hay solución fácil si se viola esta suposición. Las opciones son incluir variables faltantes en el modelo de regresión, intentar técnicas de identificación alternativas, o dar como resultado métodos de tipo de simulación que intentan identificar el tamaño y la dirección de cualquier sesgo potencial. debe cumplir el supuesto no perfecto de co-linealidad o ordinariamente la regresión de cuadrados no funcionará. No obstante, una colinealidad más débil entre variables dará como resultado un aumento de los errores estándar. Afortunadamente, los errores estándar solo explotan. Ellas correlaciones extremas. Y esto se puede probar y corregir ya sea bajando variables o transformándolas. violación de la asunción de homoscedasticidad conduce a errores estándar incorrectos. Es fácil probar para el uso unas pruebas estadísticas adecuadas y fácil de corregir para con errores estándar robustos que se incluyen en casi todos los paquetes de software estadístico. 21. Ejemplos aplicados: Vamos a explorar algunos de estos conceptos que hemos estado discutiendo en un entorno más aplicado. Ahora estamos en Stata, que es un paquete de software estadístico comúnmente utilizado para analizar conjuntos de datos cuantitativos. Es similar a otros paquetes como SPSS o SAS. No voy a explicar cómo operar el estator, el código que estoy ejecutando para obtener los resultados. Puede conocer más sobre el estado específico de datos. Los cursos. Ya abrió un conjunto de datos de entrenamiento llamado auto. Vamos a seguir adelante y examinarlo un poco más de cerca antes de empezar a correr regresiones. Un error común es comenzar a analizar datos para rápidamente antes de comprender completamente lo que realmente hay dentro de los datos. Los conjuntos de datos modernos pueden ser muy complejos. Y más a menudo, el tiempo dedicado a la preparación y manipulación de datos superará el tiempo dedicado al análisis de regresión real. Vamos a describir los datos para ver qué tenemos. El retorno de salida por parte del escriba producirá cierta información de alto nivel sobre los datos, como dónde se encuentra, cuántas observaciones y cuántas variables se incluyen. En este caso, nuestros datos contienen 74 observaciones y 12 variables. No es muy grande. También tiene un título que nos dice que este dato está relacionado con automóviles de 1978. A continuación se encuentra información sobre las variables. Una de ellas es una variable de cadena que contiene los nombres de los tipos de autos, y el resto están todos en variables numéricas. Vamos a fingir que estamos realmente interesados en explicar los determinantes del precio del automóvil. Ya podemos empezar a construir una imagen en nuestra cabeza. ¿ Qué variables podrían ser importantes explicar el precio de un automóvil? El peso y el kilometraje parecen variables importantes. O es girando círculo probablemente sea menos importante para la mayoría de las personas que compran autos. A continuación, vamos a explorar algunas estadísticas resumidas de los datos para que tengamos alguna idea de cómo se miden las variables. Y distribuido. El precio parece medirse en dólares y el automóvil menos costoso cuesta alrededor de 3 mil dólares. Si bien es el auto más caro cuesta alrededor de $16 mil. Tales precios parecen razonables para 1978. También vemos que la variable web 78 tiene algunas observaciones faltantes. Sólo tiene 69 en lugar de 74. La mayoría de las variables también parecen medirse continuamente. No obstante, parece que la variable extranjera se mide como una nueva variable granero. Vamos a seguir adelante y confirmarlo rápidamente. Al tabular foro, vemos que de hecho el extranjero se mide como una variable de enlace alrededor del 29% de los autos extranjeros. Entonces vamos a seguir adelante y estimar algunos modelos de regresión de cuadrados ordinariamente. En lugar de entrar inmediatamente en un modelo completo con muchas variables y términos de interacción. Vamos a construirlo lentamente e interpretemos la salida y el diagnóstico a lo largo de cada paso. La variable extranjera lleva a sí misma a una bonita pregunta simple de autos extranjeros más caros que los costos domésticos? Podríamos responder a esta pregunta calculando rápidamente la media para ambos subconjuntos de los datos y simplemente comparando los medios. No obstante, también podemos lograr lo mismo en un marco de regresión. Permítanme mostrarles este código regresa la variable explicativa foránea frente al precio variable dependiente. Los resultados de regresión de esta tabla son bastante fáciles de interpretar. Pero antes de hacer eso, veamos rápidamente algunos diagnósticos. En la regresión se incluyen 74 observaciones. Entonces eso es bueno. No faltan observaciones. El estadístico S no es significativo. Aquí estamos buscando valores por debajo de 0.05. Valores por encima de 0.05 emplean que nuestro modelo total. En otras palabras, todas las variables en nuestra regresión ordinariamente cuadrados, no explican cómo precio bayas. De igual manera, el R-cuadrado es extremadamente bajo. Valor de 0.0024 significa que estamos explicando casi nada en términos de variación de precios con la variable extranjera. Ahora vamos a ver los resultados. Tenemos una variable llamada extranjera. No obstante, se trata de una variable final, no una variable continua. Tales variables tienen la siguiente interpretación. Si el valor de la variable se voltea de 0 a uno. Es decir, si un auto cambia de ser auto doméstico de renta a un auto extranjero, ¿ por cuánto aumentará el precio del costo? La respuesta aquí, paga ser de $312. No obstante, también observamos que el error estándar en torno a esta estimación es bastante grande. El error estándar es de $754. Eso significa que el estadístico t asociado está por debajo de 1.96. El valor P está por encima de 0.05. Esto significa que esta variable no es estadísticamente significativa en el nivel del 95%. Nos hacemos una idea de la incertidumbre al mirar el intervalo de confianza. Esto oscila entre menos $1200 más $1800. El verdadero valor está en algún lugar ahí, pero debido a que el intervalo de confianza cruza 0, no podemos reclamar significancia estadística en comparación con el valor 0. Por último, recuerde que el efecto de una variable está condicionado a otros controles. En este caso, no hay otras variables en el modelo, pero hay una constante. Y la constante es el valor del precio, es todo lo demás se establece en 0. En otras palabras, si un automóvil es doméstico y es un valor de extranjero, se establece en 0. Costará 6 mil dólares. Un auto extranjero es de $312, más caro costaría alrededor de los $6,300. También podemos visualizar esto. Aquí vemos el efecto estimado de los autos extranjeros sobre el precio. Los costos internos son más baratos en promedio, y el extranjero cuesta más caro en $312. Pero el intervalo de confianza de ambos valores es tan grande que no son estadísticamente diferentes. Genial. Vamos a seguir adelante e incrementar el número de variables en nuestro modelo. Podríamos arrojar todas nuestras variables y simplemente ver qué se pega. Esto es lo que haría generalmente un enfoque de minería de datos. Stata tiene diversas capacidades de minería de datos, incluyendo regresión escalonada que eliminará automáticamente variables que no son estadísticamente significativas. No obstante, existen algunos problemas conceptuales con este enfoque. Uno de los problemas más importantes es que impide a los usuarios pensar el problema en cuestión y no les permite entender cómo se relaciona ese análisis de datos subyacente teoría o sus hipótesis de investigación. Para esta demostración, vamos a seguir adelante y poco a poco añadir una variable tras otra variable a nuestro modelo de regresión. No vamos a quitar teléfono a pesar de que sea insignificante, pues la adición de otras variables puede cambiar su efecto. Vamos a seguir adelante y añadir millas por galón a nuestro modelo. Ahora vemos curiosamente que se han producido algunos cambios inmediatos, significativos. Nuestro R-cuadrado ha saltado drásticamente a 0.28. El R-cuadrado ajustado es un poco más bajo en 0.26, pero esto sigue siendo mucho, mucho más alto que antes. Nuestra nueva variable MPG es estadísticamente muy significativa con un pequeño error estándar. Y esconden t-statistic. Cada aumento en una unidad de mpg. Es decir, los costos consiguiendo más eficientes en combustible disminuirán el precio del automóvil en 294 dólares. No obstante, también vemos que el efecto de los autos extranjeros ha aumentado drásticamente hasta más 1700 dólares. El error estándar ha bajado un poco desde antes 752, ahora 700. La variable ahora es estadísticamente significativamente diferente de 0. Qué gran diferencia una variable puede término modelo. Es importante destacar que podemos explicar este cambio. Resulta que los costos extranjeros tienen significativamente más altos de millas por números significativamente más altos de millas por galón que los automóviles domésticos. Y una vez controlado este factor por el precio real de los costos extranjeros es mayor que para los costos internos. Esto se debe a que el efecto de mpg es negativo en el precio. Debido a que los autos extranjeros tienen MPG más alto, su precio fue más bajo. Ahora que este efecto se está controlando de forma y por lo tanto sacado de precio. El efecto real de que un automóvil sea extranjero es que causa un precio, el arroz. Este es un ejemplo perfecto de la suposición de exogeneidad de la que hablaba en la sesión anterior. Admitimos una variable importante del modelo de regresión. Y la variable explicativa que sí incluimos se correlacionó con Esa es variable importante en el término error. Por lo tanto, el resultado anterior fue sesgado. No obstante, porque ahora hemos trasladado la variable ofensiva MPG del término de error al modelo de regresión. Estamos controlando por ello. Y ojalá. Produjo una estimación menos sesgada. Esto realmente muestra la importancia de una cuidadosa construcción de modelos. Vamos a seguir adelante e introducir una tercera variable a nuestro modelo. Peso. Es probable que el peso sea una variable importante porque los autos pesados necesitan más materias primas, pero también porque un costo más pesado es poco probable que afecte el número de MPG. Y sabemos que esto a su vez afecta la estimación foránea. Entonces vamos a seguir adelante y añadirlo a nuestro modelo de regresión. Mira eso. Ahora, R-cuadrado saltar de nuevo por un gran margen. Y también nuestros efectos estimados han cambiado de nuevo. Vamos a explicarlo una vez más desde arriba. El nuevo peso variable es estadísticamente significativamente diferente de 0 debido a un pequeño error estándar, alta estadística t y pequeño valor p, el efecto es positivo. Es decir, cada libra adicional de peso en el auto incrementa el precio en 3.46 dólares. El efecto de mpg ahora es positivo en lugar de negativo. La inclusión de peso invierte el signo de esta estimación. mayor costo de MPG ahora conduce a precios más altos. Si bien este efecto no es estadísticamente significativo. Esto tiene sentido. Después de todo, millas más altas por galón, los autos son más eficientes en combustible y ahorran dinero. Esto puede requerir una mejor tecnología, y por lo tanto, tales automóviles pueden costar más. No obstante, el efecto anterior fue enmascarado por el hecho de que los autos más pesados Hepworth kilometraje. Ahora que esto se controla por el efecto de MPG se ha vuelto menos sesgado. Además, debido a que hay un efecto knock-on de MPG sobre el estatus extranjero, vemos ahora el efecto de los autos extranjeros saltar a $3,600 con un error estándar más bajo de 680. Este es otro ejemplo importante de barras de regresión. Se dejaron variables explicativas importantes en el término de error. Supongamos por un momento que ahora estamos terminados con nuestro modelo-building y que estamos contentos con la especificación que tenemos. El siguiente paso suele ser realizar algún tipo de estadísticas gnósticas, sobre todo en relación con la suposición Gauss-Markov discutida en la sesión anterior. Desafortunadamente, la suposición de exogeneidad no puede ser probada y sólo puede inferirse agregando otras variables al modelo como se acaba de mostrar o dando lugar a la teoría. Podemos sin embargo, probar la asunción de homoscedasticidad. Vamos a seguir adelante y hacer eso. Aquí hay datos que realizaron una prueba para la homoscedasticidad. Los resultados muestran que la hipótesis nula de una varianza constante es rechazada a favor de la hipótesis alternativa de heteroscedasticidad. En otras palabras, varianza variable. También podemos explorar esto visualmente examinando los residuos. Aquí hemos trazado los residuos frente a los valores ajustados. Esta gráfica residual versus ajustada muestra cómo los residuos se distribuyen alrededor del plano de valores de mejor ajuste cercanos a 0 significan un buen ajuste. Podemos ver claramente en esta parcela que cuando pasamos de valores ajustados bajos a valores ajustados más altos de precio, aumenta la varianza de los residuos alrededor de 0. Esto es una clara evidencia del cambio de varianza y necesita ser atendido. Podemos usar errores estándar robustos o especificar una forma funcional diferente que intente eliminar esta varianza cambiante. Mejorar el ajuste del modelo suele ser una mejor primera opción. Y en este caso, el problema podría ser causado por el hecho de que al igual que muchas variables de precio, precio del automóvil tiene una cola larga. A menudo transformamos tales variables con registros. Entonces sigamos adelante y hagamos eso. Ahora, vamos a ejecutar una nueva regresión con la variable dependiente como precio de registro en lugar de precio. Veamos qué pasa. A primera vista, parece que todo ha cambiado. Los coeficientes son completamente diferentes. No obstante, debido a que ahora hemos transformado la variable dependiente, todas las variables explicativas se relacionan con el precio de registro y no con el precio. Esto significa que su interpretación ligeramente diferente. Ahora, un aumento de peso de una unidad aumenta el precio de registro de un automóvil en 0. Para. Esta puede ser una forma bastante inconveniente de interpretar un modelo de estimaciones. Por lo que muchas veces leemos transformar los coeficientes para hacerlos más fáciles de entender. Cuando un modelo de regresión no tiene transformación log, ya sea para la variable dependiente o para la variable explicativa. Llamamos a esto un modelo de nivel. La interpretación es sencilla. Cuando se desbloquea una variable explicativa, la interpretación del coeficiente cambia en aumento porcentual en X. Causa una Beta dividida por 100 cambios unitarios en y. cuando el modelo tiene un log variable dependiente, la interpretación cambia a un cambio uniunificado en x, provoca un cambio de tiempos beta al 100% en Y. cuando el modelo es un modelo log-log, la interpretación es que cambian 1% en x provoca un cambio por ciento Beta en y. lo que en este caso, un cambio de una unidad en peso provoca un 0.0004 veces 100 equivale a 0.04% de incremento en el precio. De igual manera, el costo extranjero ahora cuesta alrededor del 53% más en términos de precio. Ahora volvamos y prueba la asunción de homoscedasticidad. Nuevamente. El estadístico de prueba revela que ahora podemos aceptar la hipótesis nula de homoscedasticidad. También podemos volver a visualizar esto usando la trama residual versus ajustada. Aquí podemos ver que a medida que avanzamos a lo largo de los valores de precios ajustados, la propagación de los residuos alrededor la línea 0 horizontal es mucho más pareja. Esto es evidencia visual de que nuestro modelo ahora tiene errores homoscedásticos de que podemos aceptar esa suposición particular. A continuación, vamos a revisar la co-linealidad. Estas pruebas de factor de inflación de varianza destacan en qué medida cada variable infla la varianza del modelo. Valores altos arriba, digamos, 50 o así sucesivamente. Las variables particulares son indicativas de que estas variables particulares son co-lineales con otras variables. Aquí, no hay evidencia de alta colinealidad en nuestro modelo porque todas las variables tienen valores de factor de inflación de varianza muy bajos. Por último, también podemos introducir formas funcionales más complicadas. Los parámetros deben ser lineales, pero las variables pueden transformarse y ofrecer formas más complejas que solo relaciones lineales. Por ejemplo, podemos incluir una variable de peso cuadrado en la regresión para permitir que exista una relación cuadrática entre el precio de registro y la espera. Estos nuevos estados de regresión se incluyen, esperan, y esperan variable cuadrada. Es importante que las variables interactivas se analicen juntas. Si bien la variable de peso no es estadísticamente significativa, la variable de peso cuadrado es estadísticamente significativa. Y yo, las pruebas unidas se deben hacer en ambos para ver si el par es significativo o no. Supongamos por un momento que son de manera conjunta significativa. La interpretación de la salida se vuelve un poco más complicada. Pero los efectos de interacción también se pueden visualizar y estados, puedo hacer eso por nosotros. Aquí podemos ver que la relación de nuestro modelo de cuadrados ordinariamente predicho entre el peso y precio de registro no es realmente lineal, pero vale la pena ser de naturaleza cuadrática. Es decir, hay una curva que atraviesa la relación entre precio y peso. Aumenta el peso, el precio del registro aumenta cada vez más y más. Genial. Ahora supongamos que estamos hechos de construcción de modelos. Los modelos de regresión a menudo no se presentan ya que se muestran en los programas estadísticos. Simplemente hay demasiada información en las tablas presentadas por los programas estadísticos, mayoría de los cuales es redundante o no útil para los lectores laicos. También es común incluir múltiples modelos de regresión en una tabla para que los lectores puedan seguir el progreso de los coeficientes a medida se incluyen o se eliminan variables adicionales de los modelos. Aquí hay un ejemplo de cómo las tablas de regresión suelen verse en los informes. Esto aquí es una tabla clásica de salida de regresión que contiene el coeficiente a tres decimales y errores estándar a tres decimales. Se incluyen asteriscos para identificar fácilmente efectos estadísticamente significativos. El diagnóstico sólo incluye el recuento de observación y la estadística de R cuadrado. Esta tabla permite fácilmente a los lectores leer y examinar cómo cambia el efecto de la variable Extranjero en el precio, por ejemplo, a medida que cambiamos nuestra especificación de modelo. Este tipo de enfoque es importante ya que se trata de un enfoque transparente que muestra los ingredientes de cómo se realizó esta comida estadística en particular. Los lectores pueden juzgar por sí mismos si están acuerdo con su conclusión particular o no. Esto concluye esta sesión práctica sobre regresión ordinariamente cuadrados. 22. Reflexiones y consejos finales: Pensamientos finales y algunos consejos. Ojalá hayas disfrutado de esta introducción al análisis de regresión lineal. Tengo algunos consejos que quizá quieras considerar al aplicar análisis de regresión a los datos. Practicar. Al igual que con muchas cosas en la vida, es la práctica y la aplicación frecuente lo que lleva a una comprensión cada vez mayor del tema en cuestión. Lo mismo es cierto para el análisis de regresión. Toda la teoría del mundo no superará la falta de compromiso o aplicación. Siempre recomiendo que la gente simplemente se quede atascada y comience a explorar datos. Pienso detenidamente en tu objetivo original. ¿ Estás tratando de entender simplemente las correlaciones en tus datos? O estás tratando de determinar causa y efecto? El primero se puede hacer simplemente jugando con los datos y el modelo de regresión. El segundo necesitará pensamientos mucho más deliberados sobre los fundamentos teóricos y la argumentación racional. ¿ Por qué X podría causar Y? Y qué podría el mecanismo de transmisión B. ¿Qué más podría influir en dicha transmisión? Estimar múltiples modelos con pequeñas variaciones. Los resultados son más convincentes cuando diferentes modelos muestran continuamente el mismo tipo de resultado. De esta manera, la inclusión de una variable en particular, cambiar todo o ¿sus coeficientes siguen siendo robustos? Mostrar un camino hacia su especificación preferida final es una parte muy importante del análisis de regresión moderno. La calidad de los datos y el tamaño de la muestra importan tanto como la construcción de modelos. datos Desde la década de 1980 han sucedido grandes innovaciones en calidad y tamaño de los No todos los modelos necesitan ser algo complicado. calidad y los datos pueden agregar credibilidad significativa a cualquier resultado, y no debes rehuir de afirmar que estos datos son los mejores datos disponibles para responder a esta investigación en particular pregunta. Los datasets de alta calidad a menudo requieren una complicada manipulación de datos. Muchos errores de regresión no emergen de la mala construcción de modelos, sino de la mala codificación de datos. No subestime la cantidad de tiempo que debe dedicarse a la limpieza de datos y preparar los datos para el análisis de regresión. Por lo general, los cuadrados siguen siendo el método de regresión más comúnmente utilizado en el mundo. Sería un error descartarlo como un método simplista. Jugar con forma funcional a través de efectos de interacción puede llevar a complicados modelos de cuadrados ordinariamente que se asemejaban de cerca a la realidad. No tengas miedo de explorar modelos más complicados que usan términos cuadráticos y otros términos de interacción. Entender el papel de los diagnósticos en el análisis de regresión. No te cuelgues sobre los diagnósticos de libros de texto, pero sí consulta dónde se conservan los supuestos de regresión sobre los datos. Otros supuestos que podrían ser demasiado fuertes para los datos en cuestión. Por último, tener una dosis saludable de escepticismo cuando alguien está reclamando una relación causal. coeficientes de regresión suelen contener algún tipo de sesgo. Al mismo tiempo. No seas nariz, pelo, y rechaces todo. Al igual que muchas cosas en la vida, análisis de regresión es una herramienta extra que debe usarse en conjunto con otras evidencias, como resultados previos, marcos teóricos, y también evidencia cualitativa. Existe una fina línea entre el arte y la estadística en el análisis de regresión.