Transcripciones
1. Introducción: Bienvenida. El análisis de datos puede ser perjudicado. Hay tantos métodos
diferentes y tantas formas diferentes de
analizar e interpretar datos que pueden
dificultar el aprendizaje. En esta clase,
quiero darte un
esquema fácil y rápido de uno de
los métodos y análisis de
datos más populares , la regresión
lineal. La clave de esta clase
es que
no hay ecuación ya que no hay matemáticas, ni bits complicados de conocimiento
teórico. Quiero darte una explicación intuitiva
y gráfica de lo que es la regresión lineal. Y luego mostrarte una gama de ejemplos
prácticos de análisis de datos. No importa cuál sea su estado actual de conocimiento
profesional, puede sentirse seguro de
conocer los entresijos de la regresión
lineal. Después de esta clase. ¿ Qué es la regresión lineal? regresión lineal es el
método de regresión más popular utilizado en el mundo. Las
técnicas de regresión lineal disponibles, ordinariamente cuadrados, a menudo abreviadas a
OLS, son las más comunes. Y me voy a centrar en cuadrados
ordinariamente
porque es de lejos el método de
regresión más utilizado para el análisis de datos en el mundo. Ordinariamente cuadrados
es una técnica que examina la
relación entre una variable continua
y una o más variables
categóricas de información
continua. Y esta técnica se utiliza en muchas disciplinas
incluyendo la economía, sociología, la psicología, la droga,
el miedo, e incluso la historia. Se usa en todo el mundo. Y también se usa a menudo en negocios para el análisis
cuantitativo. Y sustenta muchos
reportes gubernamentales que no realizan algún
tipo de evaluación de políticas. Cualquiera que quiera tener
una buena comprensión del análisis de datos tendrá que
entender la regresión lineal. ¿ Cuáles son los principales resultados de
aprendizaje? Aprender y entender
la intuición básica
detrás del mensaje de regresión lineal y análisis de datos. Aprender la
terminología y los fundamentos asociados. Para aprender a entrar cómodamente
y analizar la salida. Por último, aprender
algunos consejos y
trucos adicionales que
te ayudarán en el análisis de datos. Para quién es este curso? Este curso está dirigido a quienes
están iniciando la carrera en análisis de datos. Eso podrían ser practicantes,
alguien en el gobierno, alguien y política, alguien en negocios, o incluso estudiantes. ¿ Qué requisitos previos en él. No hay masa y
no necesitas
preocuparte por ninguna ecuación para sacar
el máximo provecho de este curso. La curiosidad es todo lo que se necesita. Algún estado del
conocimiento puede ser útil para la
aplicación práctica de este curso, pero no es necesario. Status es un programa de
software estadístico que permite a
los usuarios estimar muchos métodos cuantitativos
diferentes. Voy a
usarlo para
demostrarles ordinariamente
cuadrados ejemplos. Además, un gran interés en
entender cómo
podrían estar relacionados los datos entre sí
es un requisito previo útil. A menudo, el análisis de datos
se trata de medir
variables cuantitativas entre sí. Si quieres saber
cómo y se relaciona con x, entonces este lugar estomacal
para ti usando Stata. Este curso estaré usando datos para demostrar algunos ejemplos. En cambio como software
estadístico accesible. Hay muchos cursos sobre
cómo se puede utilizar la declaración. ¿ Deberías estar interesado
en este curso? No te enseñaré
entresijos de Stata, pero me centraré en la
interpretación de la salida. Existen muchos otros paquetes de
software estadístico como R o SPSS que pueden
hacer exactamente lo mismo. No obstante, si te
interesa Stata y
quieres replicar algunos de los
ejemplos de este curso. He adjuntado los archivos de
código correspondientes a este curso. Voy a estar usando
algo llamado el conjunto de datos de entrenamiento
automático
que viene incorporado. ¿ Qué datos? Para ejemplos
prácticos. Estos datos son un
conjunto de entrenamiento que contiene una variedad de
variables y relaciones útiles. Otro grande para fines de
enseñanza. También puedes descargarlo
como parte de este curso. Pasemos a la
siguiente sección y aprendamos más sobre los métodos de
regresión.
2. ¿Qué es el análisis de regreso?: ¿ Qué es el análisis de regresión? El análisis de regresión es
una técnica estadística que intenta explorar la relación entre
una variable dependiente y una o más variables
independientes. Un término alternativo utilizado para la variable
dependiente puede
ser a veces la variable de resultado, la variable de respuesta, o
en la variable endógena. La variable dependiente se
denota normalmente por el símbolo y. términos
alternativos para variables
independientes o variables predictoras o explicativas
o exógenas. Las variables explicativas
se
denotan normalmente por el símbolo x. Es común escribir modelos de
regresión en la forma y igual a X1 más X2
más X3, etcétera. El último término
será un término de error. Esto suele ser denotado por E. Esto captura todo lo
que falta. No obstante, existen muchas prácticas
diferentes. Estamos invitando
modelos de regresión en forma matemática. Por lo que evitaremos todo
eso en este curso. Las variables pueden tomar muchas formas diferentes y análisis de
regresión. Pueden ser continuos. En otras palabras, los datos se pueden medir
en cualquier lugar de la línea numérica, demasiados puntos decimales. E menos 2.305100.3. Los datos también pueden ser un
formato entero como 12345, etc. Los datos también pueden estar en
formato binario como 0 o uno. A menudo estos denotan
respuestas binarias como sí y no. En ocasiones los datos son ordinales. Los datos ordinales son
datos categóricos que se clasifican, como escalas likert. Por último, los datos
también pueden ser normales. No, se trata de
datos categóricos que se desenvuelven. Por ejemplo, modos de transporte. Es importante destacar que los datos
siempre deben estar en formato numérico. En matemáticas y el software
informático pueden hacer muy poco con datos de tipo
cadena. Los datos de tipo cadena son datos que
contienen las letras y otros caracteres no numéricos,
como signos de exclamación. Los datos también se pueden transformar y este es un futuro común
de los modelos de regresión. Por ejemplo, tomar el
log de y y hacer esto la nueva variable
dependiente es una técnica muy común
en el análisis de regresión. Al hacerlo, se
cambiará
la interpretación de todo el modelo. Y claramente, esto debe
ser considerado cuidadosamente al usar o
analizar tales modelos.
3. ¿Qué es la Regression? lineal?: ¿ Qué es la regresión lineal? El análisis de regresión es un
término catch-all para cada tipo
de método de regresión. A menudo
los métodos de regresión se dividen en métodos de
regresión
lineal y no lineal. Hay muchos métodos en
ambos de estos dos campos. En este curso, nos centraremos
únicamente en los métodos lineales, específicamente el método
ordinariamente cuadrados, que es el método lineal más
popular. La regresión lineal asume que los parámetros
variables se relacionan con la variable
dependiente de manera lineal. Los parámetros variables son
lo que tratamos de estimar, pero los
modelos de regresión y datos encuentran la relación
entre x e y A menudo
llamamos
coeficientes de parámetros. Por ejemplo, un parámetro
o coeficiente de uno significa que por
cada cambio de unidad en X, Y, la
variable dependiente cambia por una. Sin ser demasiado técnico, regresión
lineal asume que las variables
dependientes se miden
como variables continuas. Las variables explicativas
se pueden medir de cualquier manera. Cuando la variable dependiente
es una no continua, el
método de regresión correcto suele ser no lineal. No obstante, hay instancias
en las que se
pueden usar métodos lineales cuando la variable independiente no
es continua. Cuando solo hay una
variable explicativa en el modelo. En otras palabras, solo
hay una variable x. esto llamamos regresión simple. Cuando hay múltiples variables
explicativas, llamamos a esta regresión
múltiple. La mayoría de las regresiones son de los múltiples tipos,
como en la práctica, generalmente
queremos
probar o evaluar muchas variables frente a
la variable dependiente y.
4. ¿Por qué el análisis de regresos?: ¿ Por qué es útil el
análisis de regresión? El análisis de regresión es útil para cuando se necesita evidencia
cuantitativa para responder a una pregunta en particular. El análisis cuantitativo,
por definición, requiere el
análisis de números. Lo contrario de esto es
un análisis cualitativo que analiza
datos no numéricos como palabras, historias, significado o conceptos. El análisis de regresión es útil porque permite la prueba
de hipótesis. Por ejemplo, ¿realmente
ganan los hombres más que las mujeres? ¿ El desempleo en la
economía está relacionado con la inflación? ¿ O cuánto más helado
se compra en días soleados? tipo de preguntas se pueden responder con
estadísticas y
a menudo escucharás un término que esto es
estadísticamente significativo en el nivel del 5%
en dicho análisis. No obstante, la regresión también
permite predicciones. Porque los modelos de regresión estiman parámetros
o coeficientes. Estos parámetros se pueden
utilizar entonces para calcular nuevas estadísticas. Esto se puede hacer
dentro de una muestra de datos e incluso fuera de esa muestra. Por ejemplo, después de
una regresión de diversos
factores explicativos sobre los salarios, podemos utilizar los
parámetros estimados para calcular el salario esperado de un tipo de persona muy
particular, si están en
el muestra o no. Esta predicción es
una gran fortaleza de los métodos de regresión y
permite
a las empresas, investigadores y legisladores calcular diversos efectos.
5. ¿Qué tipos de análisis de regresión existen?: ¿ Qué tipo de
análisis de regresión existe? Hay muchos,
demasiados para contar. De hecho, muchos métodos avanzados de
regresión serán personalizados para la
pregunta de investigación relevante y los datos. No obstante, existen
algunos métodos básicos que debes tener en cuenta. Estos métodos son
principalmente una función de la naturaleza de los datos y luego la naturaleza de la variable
dependiente. El método más común
son ordinariamente cuadrados. Este método requiere que la variable
dependiente sea
continua y a menudo se aplica
a los datos de sección transversal. transversales son
datos que no tienen elementos de
tiempo repetidos dentro de él. Ordinariamente los cuadrados también
sirve como base para muchos métodos avanzados
como los mínimos cuadrados ponderados. Siguiente o tres métodos
no lineales. Estos métodos son
no lineales porque la variable dependiente ya
no es continua. Los modelos Logit y probit son útiles para variables binarias
dependientes. Los modelos logit ordenados y
probit ordenados son útiles para cuando hay múltiples categorías
ordenadas en la variable dependiente. Y los modelos logit multinomiales son útiles cuando hay categorías nominales, desordenadas y
la variable dependiente. Si te estás preguntando qué son los modelos
logit y probit, estos son simplemente
dos formas comunes de
lograr una relación no lineal
entre las variables. Si bien existen algunas diferencias
matemáticas entre los modelos y realidades
logit y probit, estos suelen hacer poca
diferencia en los resultados. También tenga en cuenta que también existen modelos multinomiales
probit, pero no se usan
con frecuencia, razón por la
cual no los estoy
enumerando aquí. A continuación, nuestros modelos de paneles, tanto lineales como
no lineales. Hay muchos métodos
en cada categoría, pero el Futuro Común es
que todos trabajan con datos que se recopilan
repetidamente a lo largo del tiempo. Esto podría ser paneles
domésticos cortos o series de
tiempo de
negociación de alta frecuencia largas. A continuación, los modelos de datos de cuenta, que son similares a los modelos
logit y probit, pero se
transformaciones ligeramente diferentes para tener en cuenta las propiedades de recuento. Los datos. Ejemplos de recuentos son
cosas como el número de visitas
al médico o el
número de sales de camisetas. Por último, a menudo
se usan modelos de
riesgos proporcionales de Cox cuando una variable
dependiente es el tiempo. Un ejemplo común de
una
variable dependiente del tiempo como
tiempo de supervivencia de los pacientes con cáncer. Y este método se
usa a menudo en las ciencias de la salud.
6. Explicar la Regression: Explicando regresión. Ahora que tenemos alguna comprensión
básica de los conceptos detrás análisis de
regresión y también qué tipo de
regresiones hay. Vamos a explorar cómo
funciona realmente. Si eres un estudiante académico, regresión a menudo se aprende a través de una variedad de ecuaciones. A menudo ecuaciones de tipo matriz
que tienen una gran cantidad de x e y y facilidad
y uso en ellas. Ellos sirven a su propósito, pero en realidad no
es necesario
entenderlos para aprender cómo funciona
la regresión. El uso de ayudas visuales puede
lograr el mismo efecto. Y esto es algo en lo que nos
enfocaremos en este curso. regresión lineal simple
a menudo se explica a
través de la correlación. Sigamos ese
enfoque y luego lentamente sigamos construyendo
las cosas más tarde. La correlación, a veces llamada
asociación o dependencia, es la relación
entre dos cosas. En estadística, estas cosas
suelen ser variables, llamémoslas x e y por ahora. Tenga en cuenta que ambas variables x e y están conectadas al identificador. Sin este identificador,
nada de esto funcionará. Se identifican a menudo está
representado por el símbolo I. Y podemos imaginar que
sea algo así como personas
individuales o firmas o países o cualquier otra cosa que pueda conectar las dos
variables de interés. Esta mesita por aquí, hay tres identifica, y cada uno identifica tiene un
valor de y y un valor de x. vamos a seguir adelante y visualizar una versión más grande de esta
tabla en el gráfico. Voy a trazar 100
puntos de datos en una gráfica de dispersión donde el eje y representa
la variable y y el eje x representa
la variable x Esta representación visual poco comienza a
decirnos algo. En este caso, parece que
tenemos una idea bastante buena de
que parece ser una
relación positiva entre y y x En otras palabras, como x
aumenta, también Y. sin embargo, también hay
algún ruido en los datos. Y esto parece
ser algún aglutinamiento en los valores de y y y x alrededor de 0. La relación entre las dos variables también
puede cambiar. Por ejemplo, la relación podría volverse más débil
o incluso negativa. Aquí vemos un ejemplo de cómo los datos pueden cambiar su
relación entre sí. La correlación entre
Y y X se vuelve más débil, yendo todo el camino a ninguna correlación y luego
volviéndose negativa, terminamos con una
relación que es casi lo contrario a
lo que empezamos con. Visualmente, es bastante fácil distinguir entre
tipo extremo de relaciones. No obstante, puede ser más
difícil
identificar visualmente las diferencias entre solo cambios menores en las relaciones. Eche un vistazo a este ejemplo. Aquí hay algunos datos que se
correlacionan de diferentes maneras. Es fácil contar una correlación más uno aparte de una correlación menos
uno. No obstante, esta tarea se vuelve más difícil para pequeños cambios de
correlación. A primera vista, probablemente
sería bastante difícil identificar cualquier diferencia entre los dos primeros gráficos. A pesar de que la
correlación es diferente, uno tiene que mirar bastante de cerca para identificar que la
relación entre y y x se ha aplanado un poco en
el segundo gráfico. Esto se vuelve especialmente complicado
si hay muchos datos. Si tuviéramos un millón de puntos de datos, eso todo lo que
veríamos, por ejemplo, es una gesta gigante de azul. Y es por eso que muchas veces queremos resumir la
relación entre y y x a través de algún tipo de proceso de reducción de
datos.
7. Líneas de mejores ajuste: Líneas de mejor ajuste, ¿qué son y
cómo funcionan? Una cosa clave a entender antes de saltar
al concepto de cómo producir líneas de mejor ajuste es que existen dos
métodos que podemos usar. Se trata de métodos paramétricos y
no paramétricos. Los métodos paramétricos son métodos
que aplican algún tipo de parámetro o muchos
parámetros a los datos. Los métodos paramétricos son
métodos que aplican algún tipo de parámetro o muchos
parámetros a los datos. A menudo los parámetros
serán en forma de una ecuación como
y igual a una. El parámetro en
este caso es uno. Este método es el
método que se utiliza en el análisis de
regresión y
en ordinariamente cuadrados. Y tiene la ventaja de la simplicidad y trabajar con datos
de alta dimensión. Desventaja es que requiere
supuestos más fuertes sobre los datos. Cuando no se cumplen estas suposiciones
, tu análisis podría
estar completamente equivocado, y a menudo es posible que
ni siquiera lo sepas. Los métodos no paramétricos permiten que los
datos hablen por sí mismos. Las ventajas que
se necesita para hacer un menos supuestos sobre
las relaciones iniciales
en los datos. Una gran desventaja es que este método no es
muy transposable. En otras palabras, no se puede decir
fácilmente a otras
personas al respecto. Además, y se vuelve
extremadamente difícil de operar este tipo de método en entornos
multidimensionales, a menudo
usamos métodos
no paramétricos para explorar las relaciones básicas
entre Y
y X. métodos paramétricos para explorar relaciones
más complicadas entre
y y x1 y x2 y x3, etc. Echemos un vistazo para ver a
qué me refiero con todo esto. Empecemos con una
gráfica de dispersión de algunos datos nuevos. En este caso,
trabemos datos del
conjunto de datos alterado
del estator y tratemos de
averiguar cómo se relaciona
el precio
de los autos las millas por galón de gasolina consumidas por los autos
individuales. El scatterplot inicial aquí nos
dice que hay algún tipo de relación entre
el precio de costo y sus millas por galón. Parece un negativo, en otras palabras,
pendiente hacia abajo. Ahora, intentemos estimar qué tipo de relación es exactamente
esta. Empezaremos con un
método no paramétrico como la regresión. Existen muchos métodos
no paramétricos. Escojamos uno llamado regresión
polinomial local. regresión polinomial local es una forma de regresión en movimiento. El usuario define un ancho de banda o permite que el equipo elija uno, y luego se
estima una regresión dentro de ese ancho de banda. La banda luego se mueve
continuamente a través del eje x paso a paso y
repite este análisis, los pasos individuales y luego
todos cosidos juntos para revelar lo que es esencialmente una
trama media móvil de la datos. Veamos cómo
funciona esto en la práctica. Los métodos no paramétricos que aquí se
muestran se mueve lentamente a través del espacio de datos y
actualiza continuamente la relación
entre y x Vemos que la
relación entre y y x comienza negativamente, pero termina siendo
un poco más horizontal. En otras palabras, la
relación entre y y x aquí no parece
ser enteramente lineal. Una mayor ventaja de
este método es que permite que los datos hablen
por sí mismos y no se basan en funciones
específicas o incluso teoría para adaptarse a los datos. Una desventaja de
este método es que la relación aún
necesita algún tipo de entrada. En este caso, se requiere
el tamaño del ancho de banda. Si cambiamos el ancho de banda
a algo más pequeño, la relación se
verá diferente. Aquí hay un ejemplo de eso. Otra desventaja de
este método es que es difícil transferir esta
relación a otros usuarios. ¿ Cómo podemos explicar esta línea
ondulante a alguien más? A menudo elegimos una relación
paramétrica. La relación paramétrica es aquella que puede ser definida por algún
tipo de ecuación. Por ejemplo, un
ajuste de línea lineal a través de los datos
tendrá un gradiente. Y ese gradiente será el parámetro que define la
relación entre y y x. trazar una
función lineal a través los datos y ver cómo se ve esto. Aquí vemos una línea lineal
siendo ajustada a través de los datos. En este caso, el ajuste de línea
se basa en minimizar la distancia total entre la línea ajustada y todos
los puntos de datos disponibles. Este concepto es conocido
como mínimos cuadrados, y lo exploraremos más detalle en la próxima sesión. Se sustenta la metodología de
regresión de
mínimos cuadrados ordinarios . La línea ajustada en este caso tiene una pendiente particular de menos 238. Es decir, por cada aumento de una unidad
en millas por galón, el precio promedio del costo
parece bajar en 238 dólares. Genial. No obstante, las líneas paramétricas de mejor ajuste no siempre
necesitan ser lineales. También podemos añadir una
línea cuadrática de mejor ajuste. En este caso, recuperamos dos parámetros para tener que encontrar la relación
entre y y x Aquí hay un ejemplo de eso. En este caso, la relación entre y y x es parametrizada por un parámetro uno tirando de
ancho hacia abajo a medida que aumenta x. Y el otro
parámetro tirando
y retrocediendo a medida que x aumenta. En este caso, los parámetros son aproximadamente menos 1200 por cada aumento en x y más 20 por cada aumento
en x al cuadrado. No te preocupes por la
x al cuadrado en este momento, explorará esto más adelante. Pero el concepto importante no es la forma funcional de líneas
paramétricas de mejor ajuste se puede hacer para ser muy flexible siempre y cuando se disponga de suficientes
parámetros. ¿ Cómo se
relaciona todo esto con la regresión? Bueno, esto es regresión
específicamente, esto es regresión simple donde Y se retrocede contra
una variable x. ¿Qué tal la regresión
lineal múltiple? regresión lineal múltiple es una extensión de regresión
lineal simple, y agrega más variables
al marco matemático. Una forma fácil de
visualizar esto es agregando más dimensiones
a la gráfica de dispersión, donde cada dimensión extra representa una variable
adicional. Digamos, por ejemplo, que queríamos explorar el
impacto de MPG en el precio del automóvil. Pero controlando por
un peso causa, es probable que los autos más
pesados
tengan MPG más pobre. Y esto puede afectar el precio. Visualmente, podemos
representar esto por una
trama de dispersión tridimensional que grafica precio contra el MPG
contra el peso. Podría verse un
poco así. Además, al girar
la gráfica de dispersión, podemos mirar la
relación que cada
variable explicativa tiene width y, e incluso examinar cómo se
correlacionan las variables explicativas entre sí. Por último, lo que hace el análisis de
regresión múltiple es en lugar de estimar una línea de mejor ajuste
a través de los datos, se ajusta a un plano de mejor
ajuste a través de los datos. Esto puede ser difícil de
visualizar en una pantalla, pero aquí hay un crudo
intento con el mío. Los gráficos de la izquierda muestran los puntos de datos reales
en una gráfica de dispersión 3D. Si bien los gráficos correctos muestran la relación estimada
entre estos puntos de datos, esta relación está
representada por un plano 3D. Si se
agregan más variables al marco, el plano de best-fit se convierte en
un hiperplano de mejor ajuste. Es por ello que a veces
escuchamos a la gente hablando multidimensionalidad al referirse al análisis de
regresión.
8. Causalidad con Correlation: Causalidad versus correlación. Ojalá, los
ejemplos anteriores te habremos dado una buena comprensión intuitiva de lo que intenta hacer el
análisis de regresión. Hay muchas estadísticas y matemáticas en cada tipo de análisis, pero el concepto subyacente siempre
seguirá siendo el mismo. análisis de regresión
intenta decirle a los usuarios cómo se
relacionan los datos entre
sí de una manera que es más fácil entender que
mirar los puntos de datos sin procesar. No obstante, es importante
estar muy consciente
del concepto de causalidad
versus correlación. Cada método de regresión es
un método estadístico
que correlaciona los datos. Eso es todo. Una computadora o una ecuación
matemática no pueden identificar qué es causal. causalidad siempre es
interpretada por el usuario final. Y algunos modelos permiten mejores reclamos de
causalidad que otros. evidencia obtenida del análisis de
regresión sobre una relación fuerte y estadísticamente significativa entre dos variables puede atribuirse a la causalidad
a través un
marco teórico convincente y sentido común. Esto puede llevar mucha práctica y casi
se convierte en una forma de arte. En ocasiones los datos ayudan. Por ejemplo, si los eventos de
ayer se
utilizan para explicar la acción de
hoy, el elemento tiempo en
el análisis
se puede utilizar para hacer una mejor inferencia
causal. No obstante, en otros entornos
como los ajustes de
encuestas transversales, puede ser mucho más difícil
atribuir causalidad. ¿ Son felices las personas porque
están sanas? ¿ O las personas están sanas
porque son felices? Se trata de preguntas difíciles de
responder y requieren un razonamiento
teórico y
filosófico además de las estadísticas. Por lo que siempre debes tener cuidado al tratar con el análisis de
regresión.
9. ¿Qué es los cuadrados ordinarios de cuadrados?: ¿ Qué son ordinariamente cuadrados? Ordinariamente cuadrados es
un método de regresión que se basa en el
concepto de mínimos cuadrados. Menos cuadrados es un método
estadístico que se ajusta a una línea o plano o hiperplano de mejor ajuste al
minimizar la suma de residuos
cuadrados
entre la línea de mejor ajuste y los puntos de datos
reales. Cuadramos los llamados
residuos porque la suma de ellos es exactamente 0 cuando no
están al cuadrado. Por lo tanto, los residuos negativos
y positivos por encima y por debajo de la línea de best-fit se cancelan mutuamente. cuadramiento resuelve este problema. Existen muchas otras formas de ajustar
la línea de best-fit. Un ejemplo es encajar una línea por el método de las desviaciones menos
absolutas, donde en lugar de residuos
cuadrados, se toma
el valor absoluto
de ellas. En otras palabras, los negativos
se volvieron positivos. No obstante, los mínimos cuadrados es con
mucho el método más popular. Por supuesto, todas las ciencias.
10. Los cuadrados inferiores ordinarios Visual 1: Exploremos los
cuadrados ordinariamente visualmente. Entenderlo mejor. Imagina un pequeño conjunto de datos
con unos pocos puntos de datos, un poco como éste. Ordinariamente los cuadrados encajarán una línea a través de
estos puntos de datos. Esta línea puede ser lineal, pero también puede ser no lineal. Vamos con un ejemplo lineal. La línea roja
representa la línea de mejor ajuste estimada por la mecánica de cuadrados
ordinariamente. En este caso, la línea
de mejor ajuste puede
representarse mediante un único parámetro de
pendiente llamado beta. A menudo usamos la letra
griega Beta para denotar la pendiente
de una línea de regresión. Esta pendiente nos informa de la relación estimada
entre y y x. en este caso, y es el precio de un automóvil y x es el kilometraje
y millas por galón. El desnivel es negativo, lo que significa que a medida que aumentan las
millas por galón, el precio de los autos disminuye. No obstante, tenga en cuenta que nuestra pendiente no golpea ninguno de los puntos de datos
reales. Eso se debe a que
estamos estimando una relación promedio entre todos los puntos de datos disponibles. los puntos de datos reales se les suele llamar puntos de
datos observados. En otras palabras, y observado. El valor predicho de y en cualquier valor dado de x es dado
entonces por la
línea de best-fit. A estos se les llama puntos de
datos predichos o y pronosticados. La diferencia entre
el valor observado y el valor predicho se
denomina valor residual. Esto es lo que ordinariamente
cuadrados intenta minimizar. Aquí se puede ver que hay tres puntos de datos y por lo tanto tres residuos
diferentes. La suma de los tres es el valor más pequeño
que podemos lograr. En este caso, si
cambiamos la línea de
best-fit,
por ejemplo, moviendo la línea
de best-fit hacia abajo, la suma total de
los residuos aumentará. Esta es una explicación gráfica de lo que ordinariamente los
cuadrados intentan hacer. Se encuentra una pendiente de regresión
y la interceptación que conduce a la mejor suma
mínima de residuos. Echemos otro
vistazo a esto con más datos. En este ejemplo,
vamos a utilizar los
datos completos de entrenamiento automático para ver qué sucede con el error
cuadrado medio raíz cuando aplicamos diferentes
pendientes de regresión a los datos. En el panel izquierdo, observamos la
pendiente de regresión pasando por los datos. Empezaremos con una
pendiente positiva de más 100. En el panel derecho, vemos el tamaño de los residuos
individuales. Los residuos se
cuadran y luego se cuadran con raíces para asegurar que sólo se hicieron valores
positivos. El valor más bajo que un residuo
puede tener, por lo tanto, es 0. Valores residuales más altos significan que el punto de datos relevante está lejos de la línea de
regresión real. El promedio de todos
estos residuos se denomina
error cuadrado medio raíz de los residuos. Y esto es representado
por la línea roja. Nos dice cuán lejos, en promedio los puntos de datos
están de la línea de regresión. Ahora veamos y veamos qué pasa cuando
cambiamos la pendiente. Podemos ver que a medida que cambiamos
lentamente la pendiente de la línea de regresión de valores
positivos y valores
negativos. El error promedio entre la línea y el
punto de datos disminuye. Los residuos en promedio están a la baja a medida que
disminuimos la pendiente. Esto sigue sucediendo hasta
después de un cierto valor de pendiente, el promedio de los residuos
comienza a aumentar nuevo en una pendiente de
alrededor de menos 230. minimiza el error promedio de nuestra
línea de mejor ajuste. Y por lo tanto, esa es
nuestra línea de best-fit. Por supuesto, este gráfico es una versión simplificada
de lo que sucede. Los modelos de regresión pueden tener muchas más variables y
por lo tanto muchos más parámetros. Y necesitaríamos
muchas más dimensiones para mostrar este tipo de
modelos gráficamente. Ahora echemos un vistazo a
cómo los
modelos de cuadrados ordinariamente se
presentan a menudo por computadora.
11. Los cuadrados mínimos ordinarios Visual 2: Aquí hay un ejemplo de cómo estator presenta
la salida de regresión. Otros programas informáticos pueden
presentar esto de manera diferente, pero la esencia de la
información mostrada será similar
entre todos los programas. A menudo parte de la
salida de regresión mostrada será información de
diagnóstico
que proporcione información de
alto nivel sobre el modelo de
regresión general. En estados. Esta suele ser la
parte superior de la salida. La parte inferior de la tabla de
salida normalmente presenta los
coeficientes estimados para las variables relevantes. esta tabla hay muchas piezas de
información. No obstante, generalmente tres
piezas importan más. El primero son las estimaciones de
parámetros reales. Es decir, las
pendientes estimadas son coeficientes de líneas o planos de mejor ajuste
a través de los datos relevantes. En estados, esto se llama DOF, que es abreviatura de coeficiente. Cada variable explicativa tiene una relación con la variable
dependiente, en este caso, precio. Cada variable explicativa
también está condicionada entre sí. Es decir, el efecto
de millas por galón, condicionado al
control del peso, se detiene
por cada aumento en una unidad de millas por galón, el precio cae en $49. El peso efectivo
es el siguiente. Condicionado a millas por galón, un aumento en una unidad de peso conduce a un
aumento de precio de $1.7. La variable final
es una constante. Constantes sobre el valor que
la variable dependiente, en este caso, el precio toma cuando todo en
el modelo se establece en 0. Es decir, con un peso de 0 y a 0 millas por galón, un automóvil debería costar alrededor de $1946. De acuerdo con este modelo. Constantes a veces tiene sentido, y a veces no lo hacen. En este caso, no tiene mucho sentido
porque causa
nunca tendría un peso de 0 ni
consumiría 0 millas por galón. Algunas personas dicen que constante debe
eliminarse de los modelos, sobre todo cuando no tienen
sentido . Creo que eso está mal. Sólo hay que cuidar a la
hora de interpretar constantes. A menudo, las constantes no deben interpretarse sino
dejarse en el modelo. La siguiente información más
importante
proviene de la columna
llamada error std, que es abreviatura de error
estándar. El estadístico de error estándar es una estadística que revela con qué grado de precisión se estima
el coeficiente de pendiente. El error estándar es bajo en
relación con el coeficiente. Entonces podemos estar más seguros de que el coeficiente estimado está cerca del verdadero parámetro
poblacional. El error estándar es alto, podemos estar menos seguros y tener más ruido alrededor de nuestra estimación. El error estándar es
importante porque nos
permite
determinar en qué medida los coeficientes estimados
del modelo de regresión son
estadísticamente significativos. Las columnas restantes completas
en las salidas de resultados son todos cálculos adicionales
del error estándar. Y eso es simplemente diferentes formas identificar el significado. El estadístico t, el valor p, los intervalos de
confianza inferior y superior son esencialmente lo mismo y se basan puramente en los recálculos
del error estándar. Vamos a ver lo que
significan en un momento. Por último, la tercera pieza
de información que más
importa es algo
llamado R-cuadrado. Esta información se da en las partes de diagnóstico de la tabla de salida y se
puede encontrar aquí. R-cuadrado es un
indicador común de bondad de ajuste para los modelos de
regresión de cuadrados ordinariamente. Está delimitado entre 01 y valores superiores indican que el modelo Dr. se ajusta
mejor a los datos. No obstante, muchos
usuarios profesionales cocientarán contra una interpretación excesiva
de las estadísticas de R cuadrado. Los números son relativos
a la disciplina. Si está trabajando con datos de
comportamiento como las personas y sus
opciones que R cuadrado de 0.2 o 0.3 son muy comunes y generalmente indican
buenos modelos de ajuste. Si estás trabajando con datos de series
temporales, como las medidas macroeconómicas
del PIB, entonces R cuadrado de 0.8 o 0.9 son muy comunes e
indican buenos modelos de ajuste. Por último, hablemos un
poco más sobre cómo relacionan
los coeficientes estimados con la
significación estadística. Comencemos con la estadística t. Esta estadística es un indicador de significancia
estadística, y normalmente estamos
buscando un valor de 1.96 o superior a uno. Estamos utilizando una muestra de
tamaño razonable. Muestras de tamaño razonable significa alrededor de 100 o más
observaciones en el medio. El estadístico t se
calcula fácilmente dividiendo el valor del coeficiente estimado
por el valor de error
estándar estimado. Tenga en cuenta que cuando el
coeficiente es negativo, estado que producirá
una estadística T negativa. No obstante,
debe ignorarse el signo en la estadística t. Junto a eso hay algo que
se llama el valor p. Esto es déficit. valor de probabilidad
indica la probabilidad de obtener los
resultados observados de una prueba, suponiendo que la
hipótesis nula sea correcta. La hipótesis nula
en tablas de regresión, es normalmente que
un resultado específico no
es diferente de 0. En otras palabras, los pequeños
valores p significan que hay evidencia
más fuerte a favor de
la hipótesis alternativa. La hipótesis alternativa es
que el coeficiente es el
coeficiente estimado real en términos
lacos y número de
0.05 o inferior en el KD, estadístico significativo
a nivel 95%, números por debajo de 0.01 indica significancia en el
nivel del 99%, etcétera. Al siguiente, nuestros intervalos de
confianza, hay un intervalo de confianza superior e
inferior. Los intervalos de
confianza superior e inferior
se calculan sumando
o restando 1.96 veces el
error estándar del coeficiente
estimado. En otras palabras, el
intervalo de confianza suele estar dos errores estándar lejos de
la estimación del coeficiente. Los intervalos de confianza son realmente útiles porque te
permiten rápidamente,
voy a las pruebas estadísticas. Cualquier número fuera del rango de intervalo de
confianza, será estadísticamente
significativamente diferente de la estimación del
coeficiente. En este ejemplo, el MPG
no es estadísticamente
significativamente diferente de 0 porque 0 está dentro del rango de intervalo de
confianza. No obstante, mpg es
diferente de menos 500 porque este número está fuera del rango de
intervalo de confianza. Esta puede ser una forma realmente
útil de realizar rápidamente pruebas
estadísticas. Y todo lo que implica es
multiplicar el error estándar por aproximadamente
dos suma de cuadrados. Ahora echemos un vistazo a la suma de cuadrados con un poco más de detalle.
12. Sum de cuadrados: El
cuadro de regresión anterior también proporcionaba información de señal
analógica pensada sobre la suma explicada de cuadrados, la suma residual de cuadrados, y la suma total de cuadrados. Estos valores indican
cuánta variación se explica por
el modelo ajustado. ¿ Cuánta variación
inexplicable por el modelo? Cuánta variación total
hay en los datos. Al comparar la proporción
de suma explicada de cuadrados con la
suma total de cuadrados, podemos producir algo
llamado el coeficiente de determinación, a menudo
llamado R-cuadrado. R-cuadrado. El valor R cuadrado es una medida de ajuste ampliamente utilizada
para modelos de cuadrados ordinariamente. El valor indica qué tan bien se ajusta
el modelo a los datos. Valores de una media,
un ajuste perfecto. Valores de 0 significan un ajuste terrible. No obstante, el
R-cuadrado básico sólo puede aumentar a medida que
se agregan más variables
explicativas al modelo. En otras palabras, los modelos con cientos de
covariables aleatorias pueden
saturar los datos y producir estadísticas
artificialmente altas de bondad
de ajuste. Es por ello que muchas veces
también denunciamos el R-cuadrado
ajustado,
que impone sanciones. agregan dos variables más, dos modelos. Si las variables adicionales
no son estadísticamente significativas, reducirán el valor R-cuadrado
ajustado. Esta estadística intenta lograr un equilibrio
entre los modelos gratificantes, buenos
modelos de construcción
y sobrecarga con variables
innecesarias. No obstante, cabe
señalar que R-cuadrado puede ser abusado fácilmente y debe
tratarse con precaución. cuadrados R altos no implican
necesariamente que un modelo sea más
válido que otro. Echemos un
vistazo a este ejemplo. En esta demostración,
voy a cambiar el nivel de ruido alrededor de
la línea de mejor ajuste. La verdadera relación
entre y y x es una. Y esto es lo que se estima
por la línea de best-fit. El dato original tiene
muy poco ruido y la línea de regresión golpea
casi todos los puntos de datos, lo que resulta en un
R cuadrado de uno. Ahora vamos a seguir adelante y cambiar este nivel de ruido alrededor de
la verdadera línea de regresión. Podemos ver ahora el
R-cuadrado cambia rápidamente a medida que aumentamos el
ruido alrededor de los datos. El R cuadrado
cae rápidamente en valor, lo que sugiere que el modelo encaja
esos datos peor y peor. No obstante, el modelo
en realidad sigue siendo el mismo. Lo que está cambiando es sólo
el ruido alrededor de los datos. Los datos ruidosos resultan en el valor R cuadrado
inferior. Y el observador laico podría afirmar que
esto es un modelo de encuesta. Pero como se puede ver, la relación entre y
y x no ha cambiado en absoluto, y el modelo sigue recuperando el valor correcto del
coeficiente. Ambos modelos en este caso
tienen la misma validez, pesar de que tienen
diferentes valores R cuadrados. Y por eso quiero que
siempre tengas cuidado
cuando R-cuadrado. El ejemplo de R cuadrado
nos lleva a nuestro próximo punto de discusión.
13. Mejor estimación Linear lineal: Mejor estimador lineal imparcial. Ordinariamente cuadrados se establece para ser el mejor estimador lineal
imparcial. Es, ciertas condiciones son ciertas. Tener una comprensión
de estas condiciones es importante ya que algunos importan
más que otros. Estas condiciones a menudo se llaman los
supuestos de Gauss-Markov y se refieren a supuestos
particulares a los que
hay que hacer datos de boca. Si se cumplen estos supuestos, entonces se dice que
el
estimador de plazas ordinariamente es imparcial. Es decir, los
resultados producidos por el estimado serán en
promedio correctos. Si se cumplen los
supuestos de Gauss-Markov. El estimador de OLS también
estará ahí. Mejor estimador. Mejor es otra palabra para la
eficiencia y las estadísticas. Esto simplemente significa que el estimador ordinario de mínimos
cuadrados
producirá los resultados más
precisos con la menor cantidad de ruido. Vamos a explorar estos dos
conceptos un poco más lejos antes de discutir los supuestos
reales. eficiencia se refiere al ancho de la distribución de muestreo. Cuando se dice que
un estimador es más eficiente, distribución de muestreo es menor que la de
cualquier otro estimador. Podemos visualizar
esto de una manera
fácil asumiendo que tenemos dos estimadores
diferentes, una cantidad infinita de datos. A partir de esta
cantidad infinita de datos. Vamos a seguir adelante y
seleccionar una muestra pequeña, luego tratar de estimar un coeficiente particular
para una variable. Vamos a utilizar un estimador
ineficiente y un estimador eficiente. Vamos a establecer
el verdadero valor del coeficiente en uno. La primera vez que calculamos los coeficientes utilizando
ambos estimadores, devolvemos un valor de
alrededor de menos seis para el estimador ineficiente y menos dos para el estimador
eficiente. Ahora vamos a seguir adelante y
repetir este proceso. La segunda vez que nuestras
estimaciones están más cerca. El estimador ineficiente
predice un valor de alrededor menos uno y el
estimador eficiente de alrededor de 0. Ambos siguen siendo alguna
forma del verdadero valor, pero el estimador eficiente
parece estar cada vez más cerca. Ahora vamos a seguir adelante y
repetir este proceso rápidamente, cientos de veces y
ver qué pasa. Ambos estimadores, en promedio obtienen el valor
correcto de uno. No obstante, el
estimador ineficiente está en promedio más lejos con
sus predicciones que el estimador eficiente. Este es el concepto
de eficiencia. Y una vez que normalmente no tenemos una cantidad infinita de datos, este concepto suele ser visible en los errores estándar del resultado
de la vida real. En los estimadores eficientes tienden a tener errores de alto nivel, lo que resulta en más incertidumbre torno al verdadero valor estimado. A continuación, vamos a explorar el
concepto de insesgo. Cuando se
dice que un estimador es imparcial. Esto significa que la distribución media de
muestreo de las estimaciones del coeficiente se
aproximará al verdadero coeficiente
poblacional. Podemos visualizar esto de
una manera fácil al, de nuevo, asumiendo que tenemos dos estimadores diferentes
y una cantidad infinita de datos seleccionará
una pequeña muestra de estos datos e intentará estimar
un particular coeficiente. El verdadero valor de este
coeficiente se establece en uno, y esto se denota por
la línea roja punteada. Utilizamos un estimador sesgado y un imparcial para
estimar el mismo coeficiente. El primer pasado
produce una estimación de alrededor de 0 para el estimador
sesgado, 1.5 para el estimador imparcial. Ahora, hagámoslo de nuevo. En el segundo pase. El estimador sesgado desempeño mejor con el resultado de tres en comparación con el estimador
imparcial con el resultado de cinco. Pero continuemos y
repitamos este proceso. Muchas veces. Repetimos el proceso, vemos que en promedio, el estimador imparcial comienza
a predecir un valor de uno. Cuál es el estimador imparcial predice el valor menos uno. Eso obviamente puede
ser un gran problema. Por ejemplo, el objetivo podría ser realizar una evaluación
de políticas. Y un estimador sesgado estima que la política
tiene un efecto negativo. Lo que es en realidad, en realidad
podría tener efectos
positivos. El sesgo es un
problema grave en la econometría. Y ordinariamente las plazas requieren algunos supuestos bastante estrictos para que las estimaciones sean imsesgadas. Es importante entonces tener alguna comprensión de los supuestos detrás de las casillas
ordinariamente.
14. Los presupuestos de Gauss-Markov: Supuestos de Gauss-Markov. Los supuestos de Gauss-Markov son los
supuestos subyacentes que hacen que los cuadrados
ordinariamente sean los más eficientes, un estimador
imparcial. En general, cuatro condiciones importantes en necesarias para lograr
este resultado. Se trata de la asunción de
homoscedasticidad, el atuendo del bloc de notas llamado asunción de
linealidad, la suposición lineal en
parámetros, y la media condicional 0, a veces llamada suposición de
exogeneidad. En términos generales, los
dos primeros se relacionan con la eficiencia, mientras que son los
dos últimos se relacionan con sesgo. Expliquemos cada uno a su vez y tratemos de determinar
qué importa más.
15. Homoskedasticity: El supuesto de homoscedasticidad. Esta suposición establece que
la varianza de los residuos permanece estable en todo el espectro de variable
independiente. En otras palabras, los errores
producidos por la variable permanecen aproximadamente constantes
cada vez que miramos una pequeña parte de esa variable, valor de esta suposición
lleva a comprar errores estándar. Y esto significa que no podemos
confiar en las pruebas de hipótesis. No obstante, muchos paquetes
estadísticos modernos pueden probar y corregir fácilmente
para esta suposición. Es muy común, por ejemplo, utilizar algo llamado errores estándar
robustos, que aumentaron ligeramente la ineficiencia de las estimaciones, pero las hacen inmunes al
fracaso de esta suposición. Sigamos adelante y
veamos un ejemplo. En este video,
hay dos gráficas. El gráfico izquierdo muestra la
relación entre la variable explicativa x
y la variable dependiente y. la relación general
nunca cambia, sino la varianza a través de x voluntad. El gráfico correcto, vemos
los residuos o errores de x. muestra la distancia de
los puntos de datos reales
a la línea de best-fit. El gráfico izquierdo también muestra la estimación de pendiente y
el error estándar a partir de una regresión normal de mínimos
cuadrados ordinarios
y una regresión robusta ordinaria de
mínimos cuadrados. Ahora vamos a seguir adelante y ejecutar
este ejemplo y examinar lo que sucede cuando introducimos una varianza
cambiante a través de x Vemos que a medida que aumentamos
la varianza a través de x, el
coeficiente de regresión real nunca cambia. No obstante, los errores estándar aumentan a medida que aumentamos
la varianza a través de X. Además, los robustos errores
estándar aumentan un poco más. Todo esto significa que el fracaso de la asunción de
homoscedasticidad, conduce a estimaciones menos
precisas. El mundo real con conjuntos de datos
modernos, un fracaso de esta
suposición a menudo tiene poco efecto general
en los resultados reales, y la mayoría de los practicantes
no se enfocan mucho en esta
suposición.
16. No la Collinearity perfecta: No hay perfecta co-linealidad. Este supuesto establece que una variable explicativa no puede ser una combinación lineal exacta de otra variable explicativa. Si este es el caso, ordinariamente los cuadrados simplemente
no se pueden estimar. Esto rara vez es un
problema en la vida real, ya que nunca
entrarías en la misma variable dos veces
en una regresión. No obstante, cuando hay correlación
parcial
entre dos variables, decir, miden lo mismo hasta cierto punto. Entonces denominamos esta
multicolinealidad. Y esto puede tener algún
efecto en nuestras estimaciones. Específicamente, aumentará el ruido y por lo tanto los errores
estándar
de nuestras estimaciones. Este fenómeno es
generalmente fácil probar y también
fácil de tratar, pero ya sea excluyendo variables
o transformándolas. Veamos un ejemplo. En este ejemplo,
generé un conjunto que tiene cinco variables
explicativas diferentes. Estos van desde x1 hasta x5. Cada variable X tiene un
coeficiente de una. El gráfico de la derecha presenta las estimaciones a partir de una regresión ordinaria de
mínimos cuadrados y el intervalo de
confianza del 95% asociado alrededor de estas estimaciones. Podemos ver que ordinariamente
cuadrados estima un valor de aproximadamente uno para
cada una de las cinco variables. En el gráfico de la izquierda, vemos la correlación
entre x1 y x2. Actualmente,
no hay correlación entre
ambas variables, razón por la
cual los
puntos de datos se dispersaron al azar. Vamos a seguir adelante y ver qué pasa cuando
empezamos a introducir una correlación entre x1 y
x2 y poco a poco forzamos X1 y X2, midemos lo mismo. Al principio, no sucede mucho, pero luego a medida que aumenta la correlación entre las dos
variables, el error estándar y por lo tanto
los intervalos de confianza
tanto de x1 como de x2 se detiene. Esto sucede hasta que
explotan hacia el final. Este es el efecto
de la colinealidad. Alta colinealidad
entre variables conduce a estimaciones muy ruidosas. Pero como ves, el ruido Explosión solo
ocurre hacia el final. Y en
la mayoría de los escenarios reales, apenas
se notan los efectos de la colinealidad.
17. Linear en parámetros: El siguiente supuesto es que el modelo es lineal
en parámetros. Esta suposición significa que
la relación entre el eje y y z en el modelo ordinariamente
cuadrados es lineal. Es decir, las estimaciones del
coeficiente toman valores
únicos y sólo
se pueden sumar o restar, que no pueden exponerse,
dividirse o multiplicarse. En general, esta
suposición hace que los modelos de regresión de cuadrados
ordinarios sean más fáciles de interpretar. Tenga en cuenta que esto solo se aplica a
los coeficientes reales. Las variables se pueden transformar de cualquier manera, incluyendo formas
no lineales. A menudo llamamos a esta
forma funcional y podemos variar la forma funcional como nos plazca en regresión de mínimos
cuadrados ordinarios. Por ejemplo, es común agregar polinomios de
orden superior
de variables a una ecuación de regresión. El ejemplo de uso común es H y H al cuadrado, donde ambas variables
se introducen por separado. Esto tiene el efecto
de introducir una curva en la
línea de best-fit. Las variables también se pueden
interactuar entre sí. Y a esto llamamos efectos de
interacción. Esto significa que las líneas
de mejor ajuste pueden
asumir formas
funcionales muy complicadas. Sigamos adelante y
veamos un ejemplo. En este ejemplo,
hay dos gráficas. El lado izquierdo
muestra la trama de datos de los datos de automóviles donde se grafica el precio de los autos contra MPG. El gráfico de la derecha muestra
los residuos o cuán lejos
están los puntos de datos individuales de la línea de mejor ajuste. La distancia promedio está representada por la línea horizontal
roja. La relación inicial trazada a través de los datos es lineal. Pero debería ser
bastante obvio que esta relación
probablemente no sea un buen ajuste. Entonces vamos a introducir un cuadrático
en esta relación y poco a poco aumentemos
el coeficiente en el término cuadrático de 0. Esto es lo que pasa. La línea de best-fit
comienza a curvar hacia arriba, pone esta curva resulta
en un mejor ajuste. Y podemos ver bajar
los residuos, sobre todo para
valores más altos de MPG. Mejora el ajuste del modelo. En algún momento, sobreajustamos el modelo aumentando
continuamente el coeficiente cuadrático y luego el ajuste del modelo
vuelve a empeorar. En este ejemplo se destaca el
poder de la forma funcional. El modelo sigue siendo lineal
en parámetros porque los dos coeficientes estimados sólo
se suman o restan. Pero la
manipulación cuadrada de x conduce a una complicada forma
funcional no lineal que mejora el ajuste del modelo.
18. El medio de cero tiempo condicional: 0 media condicional, a menudo llamada suposición de
exogeneidad. Este supuesto es uno de los supuestos más importantes
en las plazas ordinariamente. El supuesto establece que no
hay correlación entre una
variable explicativa X y el término de error. El fracaso de esta suposición conduce a sesgos en la estimación del
coeficiente. Esta suposición
a menudo puede fallar en la vida real. Y porque implica
el término error, que por definición no
es observable, nunca se
puede probar. Una buena regla general es que
cada vez que una variable es una opción, especialmente en la elección individual, entonces es probable que sea impulsada por factores que no se observan. Y de ahí podría existir una relación con
el término de error. Echemos un vistazo a un ejemplo. En este ejemplo, he configurado un dataset simulado que nuevamente contiene cinco variables
explicativas. Cada variable como
coeficiente de una en relación con y,
la variable dependiente. En el gráfico de la derecha, podemos ver las estimaciones de mínimos cuadrados del
propietario individual y el intervalo de
confianza asociado para cada una de las cinco variables. Los resultados correctos son
mostrados por la línea roja vertical. En el gráfico de la izquierda, vemos la correlación que tiene
la variable x1
con el término de error. Nota, en realidad, nunca
podemos observar esto ya que el término de error
siempre estará oculto de nosotros. Sólo en este ejemplo simulado, podemos ver el término error. La correlación original
entre X1 y el término de error se
establece en alrededor de 0. Ahora sigamos adelante y
aumentemos la correlación entre X1 y el
término de error y veamos qué pasa. Observamos que la estimación de
cuadrados ordinariamente para x1 se desvía lentamente a lo
inmediato de su verdadero valor. Cuanto más aumentamos
la correlación entre X1 y el término de error, mayor será
el sesgo en
nuestro resultado. Esto puede ser un
problema real en el trabajo aplicado. Cuando tenemos tal problema, muchas veces lo
llamamos endogeneidad.
19. Cómo probar y corregir la endogeneidad: Cómo probar y corregir
la endogeneidad, no
es posible probar algo que no se puede ver. Es por ello que los buenos modelos de cuadrados
ordinariamente están fuertemente sustentados
por marcos teóricos , literatura
previa y argumentación
racional. Esta suposición es también la
razón por la cual muchos científicos argumentan en contra de la minería
de datos ordinariamente cuadrados modelos. enfoques de minería de datos
aumentan la probabilidad de que la condición de exogeneidad fracase y los resultados se vuelven sesgados. En el mundo real. La forma de lidiar con la endogeneidad
es a menudo por más datos, mejor, más reflexivo
modelo-construcción, diferentes formas funcionales. Y también a veces simplemente aceptando que los modelos
pueden tener algún sesgo.
20. El resumen de presupuestos de Gauss-Markov: Vamos a recapitular las suposiciones de
Gauss-Markov. El
supuesto lineal en parámetros es una condición que requiere que
todas las betas sean aditivas. Significa en términos lacos que las variables dependientes
deben ser continuas. Pero no significa
que la relación entre Y y X deba ser lineal. Las formas
funcionales más complicadas se pueden trabajar en modelos de regresión ordinariamente
cuadrados. violación de la suposición media
condicional 0, a menudo llamada suposición de
exogeneidad, puede conducir a estimaciones sesgadas. Esta es una suposición muy
importante. No es
posible probarlo. Estadísticamente. Identificar o
defenderlo debe hacerse por motivos
teóricos. No hay solución fácil si se viola
esta suposición. Las opciones son incluir variables
faltantes en
el modelo de regresión, intentar técnicas de
identificación alternativas, o dar como resultado métodos de
tipo de simulación que intentan
identificar el tamaño y la dirección
de cualquier sesgo potencial. debe
cumplir el
supuesto no perfecto de co-linealidad o ordinariamente la
regresión de cuadrados no funcionará. No obstante, una
colinealidad más débil entre variables dará como resultado
un aumento de los errores estándar. Afortunadamente,
los errores estándar solo explotan. Ellas correlaciones extremas. Y esto se puede probar
y corregir ya sea bajando variables
o transformándolas. violación de la asunción de
homoscedasticidad conduce a errores
estándar incorrectos. Es fácil probar para el uso unas
pruebas estadísticas adecuadas y fácil de corregir para con
errores estándar robustos que se incluyen en casi todos los paquetes de
software estadístico.
21. Ejemplos aplicados: Vamos a explorar algunos de
estos conceptos que hemos estado discutiendo en un entorno más
aplicado. Ahora estamos en Stata, que es un paquete de
software estadístico comúnmente utilizado para analizar conjuntos de datos
cuantitativos. Es similar a otros
paquetes como SPSS o SAS. No voy
a explicar cómo operar el estator, el código que estoy ejecutando
para obtener los resultados. Puede conocer más sobre el estado específico de
datos. Los cursos. Ya abrió un
conjunto de datos de entrenamiento llamado auto. Vamos a seguir adelante y
examinarlo un
poco más de cerca antes de empezar a
correr regresiones. Un error común es comenzar a
analizar datos para rápidamente antes de
comprender completamente lo que
realmente hay dentro de los datos. Los conjuntos de datos modernos pueden
ser muy complejos. Y más a menudo, el tiempo
dedicado a la preparación y
manipulación de datos superará el tiempo dedicado al análisis de
regresión real. Vamos a describir los datos
para ver qué tenemos. El retorno de salida por parte
del escriba producirá cierta información de alto nivel
sobre los datos, como dónde se encuentra, cuántas observaciones y cuántas variables se incluyen. En este caso, nuestros datos contienen 74 observaciones y 12
variables. No es muy grande. También tiene un título
que nos dice que este dato está
relacionado con automóviles de 1978. A continuación se encuentra información
sobre las variables. Una de ellas es una variable de
cadena que contiene los nombres
de los tipos de autos, y el resto están todos
en variables numéricas. Vamos a fingir que
estamos realmente interesados en explicar los
determinantes del precio del automóvil. Ya podemos empezar a construir
una imagen en nuestra cabeza. ¿ Qué variables
podrían ser importantes explicar el
precio de un automóvil? El peso y el kilometraje
parecen variables importantes. O es girando
círculo probablemente sea menos importante para la mayoría de
las personas que compran autos. A continuación, vamos a explorar algunas estadísticas
resumidas de los datos para que tengamos
alguna idea de cómo se miden las
variables. Y distribuido. El precio parece
medirse en dólares y el automóvil menos costoso
cuesta alrededor de 3 mil dólares. Si bien es el auto más
caro cuesta alrededor de $16 mil. Tales precios parecen
razonables para 1978. También vemos que
la variable web 78 tiene algunas
observaciones faltantes. Sólo tiene 69 en lugar de 74. La mayoría de las variables también
parecen medirse continuamente. No obstante, parece que la variable extranjera se mide
como una nueva variable granero. Vamos a seguir adelante y
confirmarlo rápidamente. Al tabular foro, vemos que de hecho el extranjero
se mide como una variable de enlace alrededor del
29% de los autos extranjeros. Entonces vamos a seguir adelante y estimar algunos modelos de regresión de
cuadrados ordinariamente. En lugar de entrar
inmediatamente en un modelo completo con muchas variables y términos de
interacción. Vamos a construirlo
lentamente e interpretemos la salida y el diagnóstico
a lo largo de cada paso. La variable extranjera
lleva a sí misma a una bonita pregunta simple de autos
extranjeros
más caros que los costos domésticos? Podríamos responder a esta pregunta
calculando rápidamente la media para ambos subconjuntos de los datos y simplemente
comparando los medios. No obstante, también podemos lograr lo
mismo en un marco de
regresión. Permítanme mostrarles este código regresa la variable
explicativa foránea frente al precio variable
dependiente. Los resultados de regresión de esta tabla son bastante
fáciles de interpretar. Pero antes de hacer eso, veamos rápidamente algunos diagnósticos. En la regresión se incluyen
74 observaciones. Entonces eso es bueno. No faltan
observaciones. El estadístico S
no es significativo. Aquí estamos buscando valores
por debajo de 0.05. Valores por encima de 0.05 emplean
que nuestro modelo total. En otras palabras,
todas las variables en nuestra regresión ordinariamente
cuadrados, no explican cómo precio bayas. De igual manera, el R-cuadrado
es extremadamente bajo. Valor de 0.0024 significa
que estamos explicando casi nada en términos de variación de precios con
la variable extranjera. Ahora vamos a
ver los resultados. Tenemos una variable
llamada extranjera. No obstante, se trata de
una variable final, no una variable continua. Tales variables tienen la
siguiente interpretación. Si el valor de la variable
se voltea de 0 a uno. Es decir, si un auto cambia de ser auto doméstico de
renta
a un auto extranjero, ¿
por cuánto aumentará el precio del
costo? La respuesta aquí,
paga ser de $312. No obstante, también observamos que el error estándar en torno a
esta estimación es bastante grande. El error estándar es de $754. Eso significa que el
estadístico t asociado está por debajo de 1.96. El valor P está por encima de 0.05. Esto significa que esta variable no es estadísticamente significativa
en el nivel del 95%. Nos hacemos una idea de la incertidumbre
al mirar el intervalo de confianza. Esto oscila entre
menos $1200 más $1800. El verdadero valor está en
algún lugar ahí, pero debido a que el
intervalo de confianza cruza 0, no
podemos reclamar significancia
estadística en comparación con el valor 0. Por último, recuerde que
el efecto de una variable está condicionado a
otros controles. En este caso, no hay
otras variables en el modelo, pero hay una constante. Y la constante es
el valor del precio, es todo lo demás se establece en 0. En otras palabras, si un automóvil es doméstico y es un valor
de extranjero, se establece en 0. Costará 6 mil dólares. Un auto extranjero es de $312, más caro
costaría alrededor de los $6,300. También podemos visualizar esto. Aquí vemos el efecto estimado de los autos extranjeros sobre el precio. Los costos internos son
más baratos en promedio, y el extranjero cuesta más
caro en $312. Pero el intervalo de confianza de ambos valores es tan grande que no son
estadísticamente diferentes. Genial. Vamos a seguir adelante e incrementar el número de variables
en nuestro modelo. Podríamos arrojar todas nuestras variables y simplemente ver qué se pega. Esto es lo que haría generalmente un
enfoque de minería de datos. Stata tiene diversas capacidades de
minería de datos, incluyendo
regresión escalonada que eliminará automáticamente
variables que no
son estadísticamente
significativas. No obstante, existen algunos problemas conceptuales
con este enfoque. Uno de los
problemas más importantes
es que impide
a los usuarios pensar el problema en cuestión y no les
permite entender cómo se relaciona
ese análisis de datos subyacente teoría o sus hipótesis de
investigación. Para esta demostración,
vamos a seguir adelante y poco a poco añadir una variable tras otra variable a
nuestro modelo de regresión. No vamos a quitar teléfono a
pesar de que sea insignificante, pues la adición de otras variables puede
cambiar su efecto. Vamos a seguir adelante y añadir millas
por galón a nuestro modelo. Ahora vemos curiosamente
que se
han producido algunos cambios inmediatos, significativos. Nuestro R-cuadrado ha saltado
drásticamente a 0.28. El R-cuadrado ajustado es un
poco más bajo en 0.26, pero esto sigue siendo mucho, mucho más alto que antes. Nuestra nueva variable MPG es estadísticamente muy
significativa con un pequeño error estándar. Y esconden t-statistic. Cada aumento en
una unidad de mpg. Es decir, los costos
consiguiendo más
eficientes en combustible disminuirán
el precio del automóvil en 294 dólares. No obstante, también vemos que
el efecto de los autos extranjeros ha aumentado drásticamente
hasta más 1700 dólares. El error estándar ha
bajado un poco desde antes 752, ahora 700. La variable ahora es estadísticamente significativamente
diferente de 0. Qué gran diferencia una
variable puede término modelo. Es importante destacar que podemos
explicar este cambio. Resulta que los costos
extranjeros tienen significativamente más altos de millas por números
significativamente más altos de millas por
galón que los automóviles
domésticos. Y una vez controlado este factor
por el precio real de los costos
extranjeros es
mayor que para los costos internos. Esto se debe a que el efecto
de mpg es negativo en el precio. Debido a
que los autos extranjeros tienen MPG más alto, su precio fue más bajo. Ahora que este efecto se está
controlando de forma y por lo tanto sacado de precio. El efecto real de que un automóvil sea extranjero es que
causa un precio, el arroz. Este es un ejemplo perfecto de la suposición de exogeneidad de la que
hablaba en
la sesión anterior. Admitimos una variable importante del modelo de regresión. Y la
variable explicativa que sí incluimos se
correlacionó con Esa es variable
importante
en el término error. Por lo tanto, el
resultado anterior fue sesgado. No obstante, porque ahora
hemos trasladado la variable ofensiva MPG del término de error
al modelo de regresión. Estamos controlando por ello. Y ojalá. Produjo una estimación menos sesgada. Esto realmente muestra la importancia de una cuidadosa construcción de modelos. Vamos a seguir adelante e introducir una tercera variable a nuestro modelo. Peso. Es probable que el peso sea
una variable importante porque los autos pesados necesitan
más materias primas, pero también porque un costo más pesado es poco probable que afecte
el número de MPG. Y sabemos que esto a
su vez afecta la estimación
foránea. Entonces vamos a seguir adelante y
añadirlo a nuestro modelo de regresión. Mira eso. Ahora, R-cuadrado saltar de
nuevo por un gran margen. Y también nuestros
efectos estimados han cambiado de nuevo. Vamos a explicarlo una vez
más desde arriba. El nuevo peso variable es
estadísticamente significativamente diferente de 0 debido a un
pequeño error estándar, alta estadística t
y pequeño valor p, el efecto es positivo. Es decir, cada libra
adicional de peso en el auto incrementa
el precio en 3.46 dólares. El efecto de mpg ahora es
positivo en lugar de negativo. La inclusión de peso invierte el signo
de esta estimación. mayor costo de MPG ahora
conduce a precios más altos. Si bien este efecto no es
estadísticamente significativo. Esto tiene sentido. Después de todo,
millas más altas por galón, los autos son más
eficientes en combustible y ahorran dinero. Esto puede requerir
una mejor tecnología, y por lo tanto, tales
automóviles pueden costar más. No obstante, el
efecto anterior fue enmascarado por el hecho de que los
autos más pesados Hepworth kilometraje. Ahora que esto se controla
por el efecto de MPG se ha vuelto menos sesgado. Además, debido a que
hay un
efecto knock-on de MPG sobre el estatus extranjero, vemos ahora el efecto
de los autos extranjeros saltar a $3,600 con un error
estándar más bajo de 680. Este es otro
ejemplo importante de barras de regresión. Se
dejaron
variables explicativas importantes en el término de error. Supongamos por un momento
que ahora estamos terminados con nuestro modelo-building
y que estamos contentos con la
especificación que tenemos. El siguiente paso suele ser
realizar algún tipo de estadísticas
gnósticas, sobre todo en relación con la suposición Gauss-Markov discutida en la sesión
anterior. Desafortunadamente, la suposición de
exogeneidad no
puede ser probada y sólo puede inferirse
agregando otras variables
al modelo como se
acaba de mostrar o
dando lugar a la teoría. Podemos sin embargo, probar la asunción de
homoscedasticidad. Vamos a seguir adelante y hacer eso. Aquí hay datos que realizaron una
prueba para la homoscedasticidad. Los resultados muestran que la hipótesis nula de
una varianza constante es rechazada a favor de la hipótesis alternativa
de heteroscedasticidad. En otras palabras,
varianza variable. También podemos explorar esto visualmente examinando
los residuos. Aquí hemos trazado los residuos frente a los valores ajustados. Esta gráfica residual versus ajustada muestra cómo los residuos
se distribuyen alrededor del plano de valores de mejor ajuste cercanos
a 0 significan un buen ajuste. Podemos ver claramente en esta
parcela que cuando pasamos de valores ajustados bajos a valores ajustados
más altos de precio, aumenta
la varianza de los residuos
alrededor de 0. Esto es una clara evidencia del
cambio de varianza y
necesita ser atendido. Podemos usar errores
estándar robustos o especificar una forma funcional diferente que intente eliminar esta varianza
cambiante. Mejorar el ajuste del modelo suele ser
una mejor primera opción. Y en este caso,
el problema podría ser causado por el hecho de que al
igual que muchas variables de precio, precio
del automóvil tiene una cola larga. A menudo transformamos tales
variables con registros. Entonces sigamos adelante y hagamos eso. Ahora, vamos a ejecutar una
nueva regresión con la variable dependiente como precio de
registro en lugar de precio. Veamos qué pasa. A primera vista,
parece que todo ha cambiado. Los coeficientes son
completamente diferentes. No obstante, debido a que
ahora hemos transformado la variable
dependiente, todas las
variables explicativas se relacionan con el precio de registro y no con el precio. Esto significa que su interpretación
ligeramente diferente. Ahora, un aumento de peso
de una unidad aumenta el precio de registro de
un automóvil en 0. Para. Esta puede ser una forma bastante
inconveniente de interpretar un modelo de estimaciones. Por lo que muchas veces leemos transformar los coeficientes para
hacerlos más fáciles de entender. Cuando un modelo de regresión no
tiene transformación log, ya sea para la variable
dependiente o para la variable explicativa. Llamamos a esto un modelo de
nivel. La interpretación
es sencilla. Cuando se desbloquea una
variable explicativa, la interpretación
del coeficiente cambia en aumento porcentual
en X. Causa una Beta dividida por
100 cambios unitarios en y. cuando el modelo tiene un
log variable dependiente, la interpretación cambia
a un cambio uniunificado en x, provoca un cambio de tiempos beta al
100% en Y. cuando el modelo es
un modelo log-log, la interpretación es
que cambian 1% en x provoca un cambio
por ciento Beta en y. lo que en este caso, un cambio de una unidad en
peso provoca un 0.0004 veces 100 equivale a
0.04% de incremento en el precio. De igual manera, el costo extranjero ahora cuesta alrededor del 53% más en
términos de precio. Ahora volvamos y prueba la
asunción de homoscedasticidad. Nuevamente. El
estadístico de prueba revela que ahora
podemos aceptar
la hipótesis nula de homoscedasticidad. También podemos volver a visualizar esto usando la trama residual
versus ajustada. Aquí podemos ver que a medida que avanzamos a lo largo de los valores de precios ajustados, la propagación de
los residuos alrededor la línea 0 horizontal
es mucho más pareja. Esto es evidencia visual de
que nuestro modelo ahora tiene errores
homoscedásticos de que podemos aceptar esa
suposición particular. A continuación, vamos a revisar
la co-linealidad. Estas pruebas de
factor de inflación de varianza destacan en
qué medida cada variable infla la varianza
del modelo. Valores altos arriba, digamos, 50 o así sucesivamente. Las variables particulares
son indicativas de que estas variables particulares son co-lineales con otras variables. Aquí, no hay evidencia de alta colinealidad en nuestro modelo porque todas las variables tienen valores de factor de
inflación de varianza
muy bajos. Por último, también podemos introducir formas
funcionales
más complicadas. Los parámetros deben ser lineales, pero las variables pueden
transformarse y ofrecer formas
más complejas que
solo relaciones lineales. Por ejemplo, podemos
incluir una variable de peso cuadrado
en la regresión para permitir que exista una
relación
cuadrática entre el precio de
registro y la espera. Estos nuevos
estados de regresión se incluyen, esperan, y esperan variable
cuadrada. Es importante que las variables interactivas
se analicen juntas. Si bien la variable de peso no
es estadísticamente
significativa, la variable de peso cuadrado
es estadísticamente significativa. Y yo, las pruebas unidas se
deben hacer en ambos para ver si el par
es significativo o no. Supongamos por un momento
que son de manera conjunta significativa. La interpretación de la salida se vuelve un poco
más complicada. Pero los efectos de interacción
también se pueden visualizar y estados, puedo hacer eso por nosotros. Aquí podemos ver que
la relación de nuestro modelo de
cuadrados ordinariamente predicho entre el peso y precio de
registro no es
realmente lineal, pero vale la pena ser de naturaleza
cuadrática. Es decir,
hay una curva que
atraviesa la relación
entre precio y peso. Aumenta el peso, el precio del registro aumenta
cada vez más y más. Genial. Ahora supongamos que estamos
hechos de construcción de modelos. Los modelos de regresión
a menudo no se presentan ya que se muestran en los programas
estadísticos. Simplemente hay
demasiada información en las tablas presentadas por los programas
estadísticos, mayoría de los cuales es redundante o no útil para los lectores laicos. También es común incluir
múltiples modelos de regresión en
una tabla para que los lectores puedan seguir el progreso de
los coeficientes a medida se
incluyen o se eliminan variables
adicionales de los modelos. Aquí hay un ejemplo de cómo las tablas de
regresión
suelen verse en los informes. Esto aquí es una
tabla clásica de salida de
regresión que contiene el coeficiente a tres
decimales y errores
estándar a
tres decimales. Se incluyen asteriscos para
identificar fácilmente efectos estadísticamente
significativos. El diagnóstico sólo incluye el recuento de observación
y la estadística de R cuadrado. Esta tabla permite fácilmente a
los lectores leer y examinar cómo cambia el efecto de la
variable Extranjero en el precio, por
ejemplo, a medida que cambiamos nuestra
especificación de modelo. Este tipo de enfoque
es importante ya que se trata de un
enfoque transparente que muestra los ingredientes de cómo se realizó
esta comida
estadística en particular. Los lectores pueden juzgar por
sí mismos si están acuerdo con su
conclusión particular o no. Esto concluye esta sesión
práctica sobre regresión ordinariamente
cuadrados.
22. Reflexiones y consejos finales: Pensamientos finales y algunos consejos. Ojalá hayas disfrutado de
esta introducción al análisis de regresión lineal. Tengo algunos consejos que quizá quieras
considerar al aplicar análisis de
regresión a los datos. Practicar. Al igual que con muchas cosas en la vida, es la práctica y la aplicación
frecuente
lo que lleva a una comprensión cada vez
mayor del tema en cuestión. Lo mismo es cierto para el análisis de
regresión. Toda la teoría
del mundo no
superará la falta de
compromiso o aplicación. Siempre recomiendo que la
gente simplemente se quede
atascada y comience a
explorar datos. Pienso detenidamente
en tu objetivo original. ¿ Estás tratando de
entender simplemente las correlaciones
en tus datos? O estás tratando de
determinar causa y efecto? El primero se puede hacer
simplemente
jugando con los datos y
el modelo de regresión. El segundo necesitará pensamientos mucho
más deliberados
sobre los fundamentos teóricos y la argumentación racional. ¿ Por qué X podría causar Y? Y qué podría el mecanismo
de transmisión B. ¿Qué más podría influir en
dicha transmisión? Estimar múltiples modelos
con pequeñas variaciones. Los resultados son más convincentes cuando diferentes modelos muestran
continuamente el mismo tipo de resultado. De esta manera, la inclusión de
una variable en particular, cambiar todo o ¿sus
coeficientes siguen siendo robustos? Mostrar un camino hacia su
especificación preferida final es una parte muy importante del análisis de regresión
moderno. La calidad de los datos y el tamaño de la muestra importan tanto como la
construcción de modelos. datos Desde la década de 1980 han sucedido grandes innovaciones en calidad y
tamaño de los No todos los modelos necesitan
ser algo complicado. calidad y los datos pueden agregar credibilidad
significativa
a cualquier resultado, y no debes rehuir de afirmar que estos datos son los mejores datos disponibles para
responder a esta
investigación en particular pregunta. Los datasets de alta calidad a menudo requieren una complicada manipulación de
datos. Muchos errores de regresión
no emergen de la mala
construcción de modelos, sino de la mala codificación de datos. No subestime la cantidad de tiempo que debe
dedicarse a la limpieza de datos y preparar los datos para el análisis de
regresión. Por lo general, los cuadrados siguen siendo el método de
regresión más comúnmente utilizado en el mundo. Sería un error
descartarlo como un método simplista. Jugar con forma
funcional a través de
efectos de interacción puede llevar a complicados modelos de
cuadrados ordinariamente que se asemejaban de cerca a la realidad. No tengas miedo de explorar modelos
más complicados que usan términos
cuadráticos y
otros términos de interacción. Entender el papel de los diagnósticos en el análisis de
regresión. No te cuelgues sobre los diagnósticos de
libros de texto, pero sí consulta dónde se conservan
los supuestos de regresión
sobre los datos. Otros supuestos
que podrían ser demasiado fuertes para los datos en cuestión. Por último, tener una dosis saludable de escepticismo cuando alguien está reclamando una relación causal. coeficientes de regresión suelen
contener algún tipo de sesgo. Al mismo tiempo. No seas nariz,
pelo, y rechaces todo. Al igual que muchas cosas en la vida, análisis de
regresión
es una herramienta extra que debe usarse en
conjunto con otras evidencias, como resultados previos, marcos
teóricos, y
también evidencia cualitativa. Existe una fina línea entre el arte y la estadística en el análisis de
regresión.