Transcription
1. Introduction: Bienvenue. L'analyse des données peut être nuisible. Il existe tellement de méthodes
différentes et de nombreuses façons différentes d'
analyser et d'interpréter les données qui peuvent rendre l'apprentissage
très difficile. Dans cette classe, je
veux vous donner un
aperçu facile et rapide de l'une des méthodes et analyses de
données
les plus populaires , la régression
linéaire. La clé de cette classe
est qu'il
n'y a pas d'équation puisqu'il n'y a pas de mathématiques, pas de connaissances
théoriques délicates. Je veux vous donner une explication graphique
et intuitive de ce qu'est la régression linéaire. Ensuite, montrez une série d'exemples
pratiques d' analyse de données. Quel que soit le statut actuel de vos connaissances
professionnelles, vous pouvez être sûr de
connaître les tenants et aboutissants de la régression
linéaire. Après ce cours. Qu'est-ce que la régression linéaire ? régression linéaire est la
méthode de régression la plus utilisée dans le monde. Les
techniques de régression linéaire disponibles, généralement carrées, souvent abrégées en
OLS, sont les plus courantes. Et je vais me concentrer sur les carrés
habituels
car c'est loin la méthode de
régression la plus utilisée dans le monde
pour l'analyse des données. Habituellement, les carrés
sont une technique qui examine la
relation entre une variable continue
et une ou plusieurs variables de catégorie info
continues. Et cette technique est utilisée dans nombreuses disciplines,
notamment l'économie, sociologie, la psychologie, la drogue,
la peur et même l'histoire. Il est utilisé partout dans le monde. Et il est également souvent utilisé dans les entreprises pour l'analyse
quantitative. Et cela sous-tend de nombreux
rapports gouvernementaux qui ne réalisent
pas d'évaluation des politiques. Quiconque souhaite avoir
une bonne compréhension de l'analyse des données devra
comprendre la régression linéaire. Quels sont les principaux résultats
d'apprentissage ? Apprendre et comprendre
l'intuition de base derrière le
message de régression linéaire et l'analyse des données. Découvrez la
terminologie et les fondements associés. Apprendre à intégrer et analyser confortablement
la sortie. Enfin, pour découvrir
quelques
trucs et astuces supplémentaires qui
vous aideront dans l'analyse des données. À qui s'adresse ce
cours ? Ce cours s' adresse à ceux qui
débutent leur carrière dans
l'analyse de données. Il peut s'agir de praticiens, d'
un membre du gouvernement, quelqu'un et d'une politique, d'une personne en affaires ou même d'étudiants. Quelles sont les conditions préalables à cela. Il n'y a pas de masse et
vous n'avez pas besoin de vous
soucier des équations pour tirer
le meilleur parti de ce cours. La curiosité est tout ce qu'il faut. Un certain état des
connaissances peut être utile pour l'
application pratique de ce cours, mais ce n'est pas nécessaire. Status est
un logiciel statistique qui permet aux utilisateurs d'estimer de nombreuses méthodes quantitatives
différentes. Je vais l'
utiliser pour
leur montrer des exemples de
carrés ordinaires. De plus, un vif intérêt à
comprendre comment les données peuvent être liées entre elles
est une condition préalable utile. L'analyse des données
consiste souvent à
mesurer les variables quantitatives les unes par rapport aux autres. Si vous voulez savoir
comment y est lié à x, alors cet estomac est placé
pour vous en utilisant Stata. Ce cours, j'utiliserai des données pour illustrer quelques exemples. Au lieu de cela, en tant que logiciel
statistique accessible. Il existe de nombreux cours sur la
façon dont vous pouvez utiliser la déclaration. Ce cours devriez-vous vous
intéresser ? Je ne vais pas vous enseigner les tenants et
les aboutissants de Stata, mais je me concentrerai sur l'
interprétation de la production. Il existe de nombreux autres
progiciels statistiques tels que R ou SPSS qui peuvent
faire exactement la même chose. Toutefois, si Stata vous
intéresse et
que vous souhaitez reproduire certains des
exemples de ce cours. J'ai joint les fichiers de
code pertinents à ce cours. Je vais utiliser
quelque chose appelé le jeu de données
de formation
automatique intégré. Quelles données ? Pour
des exemples pratiques. Ces données sont un
ensemble de formation qui contient une variété de
variables et de relations utiles. Un autre excellent pour
l'enseignement. Vous pouvez également le télécharger dans
le cadre de ce cours. Passons à la section
suivante en savoir plus sur les méthodes de
régression.
2. Qu'est-ce que l'analyse de régression ?: Qu'est-ce que l'analyse de régression ? L'analyse de régression est
une technique statistique qui tente d'explorer la relation entre
une variable dépendante et une ou plusieurs variables
indépendantes. Un autre terme utilisé pour variable
dépendante peut parfois
être la variable de résultat, la variable de réponse ou
la variable endogène. La variable dépendante est normalement
désignée par le symbole y. Termes
alternatifs pour variables
indépendantes ou prédictrices ou variables explicatives
ou exogènes. Les variables explicatives sont normalement désignées par le symbole x. Il est courant d'écrire des modèles de
régression sous la forme y égale à X1
plus X2 plus X3, etc. Le dernier terme
sera un terme d'erreur. Ceci est souvent indiqué par E. Ceci capture tout ce
qui manque. Cependant, il existe de nombreuses pratiques
différentes. Nous invitons des
modèles de régression sous forme mathématique. Nous allons donc éviter tout
cela dans ce cours. Les variables peuvent prendre de nombreuses formes et des analyses de
régression différentes. Ils peuvent être continus. En d'autres termes, les données peuvent être mesurées n'importe où
sur la ligne numérique, trop de décimales. E moins 2,305100.3. Les données peuvent également être
au format entier tel que 12345, etc. Les données peuvent également être au
format binaire tel que 0 ou un. Ces réponses indiquent souvent
des réponses binaires telles que oui et non. Parfois, les données sont ordinales. Les données ordinales sont des
données catégorielles classées,
telles que des échelles de likert. Enfin, les données peuvent
également être normales. Non, il s'agit de
données catégoriques qui sont décapsulées. Par exemple, les modes de transport. Il est important de noter que les données doivent
toujours être au format numérique. En mathématiques et les logiciels
informatiques peuvent très peu
faire avec les données de type
chaîne. Les données de type chaîne sont des données
contenant les lettres et autres caractères non numériques,
tels que les points d'exclamation. Les données peuvent également être transformées et il
s'agit d'un avenir courant
des modèles de régression. Par exemple, prendre le
journal de y et en
faire la nouvelle variable
dépendante est une technique très courante
dans l'analyse de régression. Ce faisant, l'interprétation de l'ensemble du modèle
sera modifiée. Et clairement, cela doit
être soigneusement pris en compte lors de l'utilisation ou de l'
analyse de tels modèles.
3. Qu'est-ce que la régression linéaire ?: Qu'est-ce que la régression linéaire ? L'analyse de régression
est un
terme fourre-tout pour chaque type
de méthode de régression. Les
méthodes de régression sont souvent
divisées méthodes de
régression linéaire et non linéaire. Il existe de nombreuses méthodes dans ces
deux camps. Dans ce cours, nous nous concentrerons
uniquement sur les méthodes linéaires, particulier la méthode des carrés
ordinaires, qui est la méthode linéaire la plus
populaire. régression linéaire suppose que les paramètres des
variables se rapportent à la variable
dépendante de manière linéaire. Les paramètres variables sont
ce que nous avons essayé d'estimer, mais les
modèles de régression et les données trouvent la relation
entre x et y. Nous appelons souvent des
coefficients de paramètres. Par exemple, un paramètre
ou un coefficient d' un signifie que pour
chaque changement d'unité en X, Y, la
variable dépendante change d'un. Sans être trop technique, régression
linéaire suppose que les variables
dépendantes sont mesurées
en tant que variables continues. Les variables explicatives peuvent
être mesurées de n'importe quelle façon. Lorsque la variable dépendante
est non continue, la
méthode de régression correcte est souvent non linéaire. Cependant, il existe des cas
où des méthodes linéaires peuvent être utilisées lorsque la variable indépendante n'
est pas continue. Lorsqu'il n'y a qu'une seule
variable explicative dans le modèle. En d'autres termes, il n'
y a qu'une seule variable x. Nous appelons cela une simple régression. Lorsqu'il existe plusieurs variables
explicatives, nous appelons cette régression
multiple. La plupart des régressions sont
de plusieurs types,
car en pratique, nous voulons généralement
tester ou évaluer de
nombreuses variables par rapport à la variable dépendante y.
4. Pourquoi l'analyse de régression est-elle utile ?: Pourquoi l'
analyse de régression est-elle utile ? L'analyse de régression
est utile lorsque preuves
quantitatives sont nécessaires pour répondre à une question particulière. L'analyse quantitative,
par définition, nécessite l'
analyse des nombres. Le contraire est
une analyse qualitative
qui analyse des données non numériques telles que des mots, des
histoires, des significations ou des concepts. L'analyse de régression
est utile car elle permet
de tester des hypothèses. Par exemple, les hommes
gagnent-ils vraiment plus que les femmes ? Le chômage dans l'
économie est-il lié à l'inflation ? Ou combien de crème glacée
est achetée les jours ensoleillés ? On peut
répondre à ce genre de questions par des
statistiques et vous entendrez souvent un terme
statistiquement significatif
au niveau de 5 % de cette analyse. Cependant, la régression
permet également des prédictions. Parce que les modèles de régression estiment les paramètres
ou les coefficients. Ces paramètres peuvent ensuite être utilisés pour calculer de nouvelles statistiques. Cela peut être fait
au sein d'un échantillon de données et même en dehors de cet échantillon. Par exemple, après
une régression de divers
facteurs explicatifs sur les salaires, nous pouvons utiliser les
paramètres estimés pour calculer le salaire attendu d'un type de personne très
particulier, qu'
il s'agisse
du échantillon ou non. Cette prédiction constitue
une grande force des méthodes de régression et
permet aux entreprises, chercheurs et
aux décideurs politiques de calculer divers effets.
5. Quels types d'analyse de régression en question ?: Quel type d'
analyse de régression existe ? Il y en a beaucoup,
trop nombreux à compter. En fait, de nombreuses méthodes de
régression avancées seront personnalisées en fonction de la
question de recherche pertinente et des données. Cependant, il y a
certaines méthodes essentielles que vous devez connaître. Ces méthodes sont
principalement fonction de la nature des données
, puis de la nature de la variable
dépendante. méthode la plus courante
est généralement les carrés. Cette méthode nécessite que la variable
dépendante soit continue et est souvent appliquée
aux données transversales. Les données transversales sont des données qui ne contiennent pas d'éléments de
temps répétés. Habituellement, les carrés
servent également de base de nombreuses méthodes avancées
telles que les moindres carrés pondérés. Prochaines ou trois méthodes
non linéaires. Ces méthodes sont
non linéaires car la variable dépendante
n'est plus continue. Les modèles Logit et Probit sont utiles pour les variables
dépendantes binaires. Les modèles logit commandés et
probit commandés sont utiles lorsqu'il existe plusieurs catégories
ordonnées dans la variable dépendante. les modèles logit multinomiaux sont utiles lorsqu'il existe des catégories nominales, non ordonnées et
la variable dépendante. Si vous vous demandez ce que sont les modèles
logit et probit, agit simplement de
deux façons courantes d'
établir une relation non linéaire
entre les variables. Bien qu'il existe certaines différences
mathématiques entre les modèles
logit et probit et les réalités,
elles ne font souvent que peu de
différence dans les résultats. Notez également que les modèles
probit multinomiaux existent également, mais ils ne sont pas
fréquemment utilisés, c'est
pourquoi je ne les
énumére pas ici. Ensuite, nos modèles de panneaux, à la fois linéaires et
non linéaires. Il existe de nombreuses méthodes
dans chaque catégorie, mais l'avenir commun est
qu'elles fonctionnent toutes avec des données collectées
à plusieurs reprises au fil du temps. Il peut s'agir de panneaux
domestiques courts ou longues séries chronologiques
de trading à haute fréquence. Ensuite, les modèles de données de compte, qui sont similaires aux modèles
logit et probit, mais vous différenciez légèrement les
transformations pour tenir compte des propriétés de compte. Les données. Des exemples de dénombrements sont
notamment le nombre de visites
chez le médecin ou le
nombre de sels de t-shirts. Enfin, les modèles de
risque proportionnel Cox sont souvent utilisés lorsqu'une variable
dépendante est le temps. Un exemple courant de
variable dépendante du temps comme durée de survie
des patients atteints d'un cancer. Et cette méthode est souvent
utilisée dans les sciences de la santé.
6. Expliquer la régression: Expliquer la régression. Maintenant que nous avons une certaine compréhension
de
base des concepts derrière analyse de
régression et du
type de
régressions qui existent. Examinons comment
cela fonctionne réellement. Si vous êtes un étudiant universitaire, régression est souvent apprise par diverses équations. Souvent, des équations de type matriciel
qui ont beaucoup de x et de y et qui sont faciles
et utilisables. Ils servent leur but, mais vous n'avez pas
besoin de
les comprendre pour apprendre comment fonctionne la
régression. L'utilisation d'aides visuelles peut
obtenir le même effet. Et c'est quelque chose sur lequel nous allons nous
concentrer dans ce cours. régression linéaire simple est souvent expliquée
par corrélation. Suivez cette
approche et continuons
lentement à construire
les choses plus tard. La corrélation, parfois appelée
association ou dépendance, est la relation
entre deux choses. Dans les statistiques, ces éléments
sont souvent des variables, appelons-les x et y pour l'instant. Notez que les variables x et y sont toutes deux connectées à l'identificateur. Sans cet identifiant,
rien de tout cela ne fonctionnera. Ils sont souvent
représentés par le symbole I. Et nous pouvons imaginer qu'il
s'agisse personnes
individuelles, d'entreprises ou pays ou de tout autre élément
pouvant relier les deux
variables d'intérêt. Ce petit tableau ici, il y a trois identifications, et chaque identification a une
valeur y et une valeur de x. Allons de l'avant et visualisons une version plus grande de ce
tableau sur le graphique. Je vais tracer 100
points de données sur un diagramme de points où l'axe des Y représente
la variable y et l'axe des X représente
la variable x. Cette représentation visuelle commence
lentement à nous
dire quelque chose. Dans ce cas, nous semblons
avoir une assez bonne idée qu' ils semblent être une
relation positive entre y et x. En d'autres termes, à mesure que x
augmente, Y. Cependant, il y a aussi
du bruit dans les données. Et cela
semble s'agglutiner dans les valeurs de y et x autour de 0. La relation entre les deux variables
peut également changer. Par exemple, la relation pourrait devenir plus faible,
voire négative. Nous voyons ici un exemple de la façon dont les données peuvent modifier leurs
relations les unes avec les autres. La corrélation entre
Y et X s'affaiblit, allant jusqu'à l' absence de corrélation, puis
devenant négative, nous finissons par une
relation qui est presque à l'opposé de
ce que nous avons commencé. Visuellement, il est assez facile de
distinguer entre les
types extrêmes de relations. Cependant, il peut être plus
difficile d'
identifier visuellement les différences entre seulement des changements mineurs de relation. Jetez un coup d'œil à cet exemple. Voici quelques données
corrélées de différentes manières. Il est facile de déterminer une corrélation plus une en dehors d'une corrélation moins
une. Toutefois, cette tâche devient plus difficile pour de plus petits changements de
corrélation. À première vue, il
serait probablement assez difficile d'identifier une différence entre les deux premiers graphiques. Même si la
corrélation est différente, il
faut regarder de près pour identifier que la
relation entre y et x s'est légèrement aplatie dans
le deuxième graphique. Cela devient particulièrement délicat
s'il y a beaucoup de données. Si nous avions un million de points de données, tout
ce que nous
verrions, par exemple, c'est une énorme tache bleue. C'est pourquoi nous voulons souvent résumer la
relation entre y et x via un processus de réduction des
données.
7. Les lignes de mieux adapté: lignes les mieux ajustées, que sont-elles et
comment fonctionnent-elles ? Une chose clé à comprendre avant de se lancer dans
le concept de la façon de
produire des lignes les plus adaptées est qu'il existe deux
méthodes que nous pouvons utiliser. Il s'agit de méthodes paramétriques et
non paramétriques. Les méthodes paramétriques sont des méthodes
qui appliquent un type de paramètre ou plusieurs
paramètres aux données. Les méthodes paramétriques sont
des méthodes qui appliquent un type de paramètre ou plusieurs
paramètres aux données. Souvent, les paramètres
se présentent sous la forme d' une équation telle que
y est égal à 1. Dans
ce cas, le paramètre est un. Cette méthode est la
méthode utilisée dans analyse de
régression et
dans les carrés ordinaires. Et il présente l'avantage de simplicité et de l'utilisation de données
de haute dimension. L'inconvénient est qu'il nécessite des
hypothèses plus fortes concernant les données. Lorsque ces hypothèses ne
sont pas respectées, votre analyse peut
être complètement erronée, et souvent, vous ne le savez peut-être
même pas. méthodes non paramétriques permettent aux
données de parler d'elles-mêmes. Les avantages dont
vous avez besoin pour faire moins
d'hypothèses sur les relations initiales
dans les données. Un gros inconvénient est que cette méthode n'est pas
très transposable. En d'autres termes, on ne peut pas facilement en parler à d'autres
personnes. De plus, et il devient
extrêmement difficile d'utiliser ce type de méthode dans des environnements
multidimensionnels, nous utilisons souvent des méthodes
non paramétriques pour explorer les relations de base
entre Y et X. ce type de méthode dans des environnements
multidimensionnels,
nous utilisons souvent des méthodes
non paramétriques pour
explorer les relations de base
entre Y et X.
méthodes paramétriques pour explorer des relations
plus complexes entre y et x1 et x2 et x3, etc. Voyons
ce que je veux dire par tout cela. Commençons par un
nuage de points de quelques nouvelles données. Dans ce cas,
tracons les données du
jeu de données altéré
du stator et essayons déterminer comment le prix
des voitures est lié
aux miles par gallon d' essence consommés par les voitures
individuelles. Le nuage de points initial nous indique qu'il existe une sorte de relation entre
le prix et ses miles par gallon. Cela semble négatif, en d'autres termes, en
pente descendante. Essayons maintenant d'estimer de quel type de relation il
s'agit exactement. Nous commencerons par une
méthode non paramétrique comme la régression. Il existe de nombreuses méthodes
non paramétriques. Choisissons une régression
polynomiale locale. régression polynomiale locale est une forme de régression mobile. L'utilisateur définit une bande passante ou laisse l'ordinateur en choisir une, puis une régression est ensuite
estimée dans cette bande passante. La bande se déplace ensuite
continuellement sur l' axe des X, étape par étape et
répète cette analyse, les étapes individuelles, puis
toutes cousues ensemble pour révéler ce qui est essentiellement un
diagramme moyen mobile du données. Voyons comment cela
fonctionne dans la pratique. Les méthodes non paramétriques
présentées ici se déplacent lentement dans l'espace de données et
mettent à jour continuellement la relation
entre y et x. Nous voyons que la
relation entre y et x commence négativement, mais elle finit par être
légèrement plus horizontale. En d'autres termes, la
relation entre y et x ici ne
semble pas entièrement linéaire. plus grand avantage de
cette méthode est qu'elle permet aux données de parler
d'elles-mêmes et ne repose pas sur
des fonctions spécifiques ou même sur une théorie pour s'adapter aux données. L'un des inconvénients de
cette méthode est que la relation
nécessite encore une certaine contribution. Dans ce cas, il faut
la taille de la bande passante. Si nous changeons la bande passante par
quelque chose de plus petit, relation sera
différente. Voici un exemple de cela. Un autre inconvénient de
cette méthode est qu'il est difficile de transférer cette
relation à d'autres utilisateurs. Comment expliquer cette ligne
tordue à quelqu'un d'autre ? Nous choisissons souvent une relation
paramétrique. La relation paramétrique est une relation qui peut être définie par
une certaine équation. Par exemple, un
ajustement linéaire à travers les données
comporte un dégradé. Et ce dégradé sera le paramètre définissant la
relation entre y et x. Tracons une
fonction linéaire à travers les données et voyons à quoi cela ressemble. Ici, une ligne linéaire
est ajustée à travers les données. Dans ce cas, l'ajustement de la ligne
repose sur
la réduction de la distance globale entre la ligne ajustée et tous
les points de données disponibles. Ce concept est connu
sous le nom de moindres carrés, et nous l'examinerons
plus en détail lors de la prochaine session. Il sous-tend la méthodologie ordinaire de
régression des
moindres carrés. Dans ce cas, la ligne ajustée présente une pente particulière de moins 238. En d'autres termes, pour chaque augmentation unitaire
en milles par gallon, le prix de revient moyen
semble chuter de 238$. Super. Cependant, les lignes paramétriques les mieux ajustées n'ont pas toujours
besoin d'être linéaires. Nous pouvons également ajouter une
ligne quadratique de meilleur ajustement. Dans ce cas, nous récupérons deux paramètres pour trouver la relation
entre y et x. Voici un exemple de cela. Dans ce cas, la relation entre y et x est paramétrée par un seul paramètre qui s'éloigne
à mesure que x augmente. Et l'autre
paramètre tirant y vers le haut au fur et à mesure que x augmente. Dans ce cas, les paramètres sont approximativement moins 1200 pour chaque augmentation de x et plus 20 pour chaque
augmentation de x carré. Ne vous inquiétez pas pour le
x carré pour l'instant, je vais explorer cela plus tard. Mais le concept important n'est pas que la forme fonctionnelle des lignes
paramétriques de meilleur ajustement peut être rendue très flexible tant que suffisamment de
paramètres sont disponibles. Comment tout cela est-il
lié à la régression ? Eh bien, c'est
précisément une régression, c'est une régression simple où Y est régressé par rapport à
une variable x. Que diriez-vous de régression
linéaire multiple ? régression linéaire multiple est une extension de la régression
linéaire simple, et elle ajoute d'autres variables
au cadre mathématique. Un moyen simple de le
visualiser consiste à ajouter
d'autres dimensions
au nuage de points, où chaque dimension supplémentaire représente une variable
supplémentaire. Supposons, par exemple, que nous voulions explorer l'
impact de MPG sur le prix des voitures. Mais en contrôlant le poids d'
une cause, les voitures
plus lourdes risquent
d'avoir un MPG plus faible. Cela peut avoir une incidence sur le prix. Visuellement, nous pouvons le
représenter par un
nuage de points tridimensionnel qui représente prix par rapport au MPG par
rapport au poids. Cela pourrait ressembler un
peu à cela. De plus, en faisant pivoter
le nuage de points, nous pouvons examiner la
relation que chaque
variable explicative a une largeur y, et même examiner comment les variables explicatives sont
corrélées entre elles. Enfin, ce que
fait l'analyse de
régression multiple , au lieu d'estimer une ligne de meilleur ajustement
à travers les données, elle correspond à un plan qui
correspond le mieux aux données. Cela peut être difficile à
visualiser sur un écran, mais voici une
tentative grossière avec le mien. Les graphiques de gauche montrent les points de données réels
sur un diagramme de points 3D. Alors que les bons graphiques montrent
la relation estimée
entre ces points de données, cette relation est
représentée par un plan 3D. Si d'autres variables sont
ajoutées au framework, le plan du meilleur ajustement devient
un hyperplan du meilleur ajustement. C'est pourquoi nous
entendons parfois des gens parler multidimensionnalité lorsqu'ils font référence à l'analyse de
régression.
8. Causalité et corrélation: Causalité contre corrélation. J'espère que
les exemples précédents que nous vous aurons donné une bonne compréhension intuitive de ce que l'
analyse de régression essaie de faire. Il y a beaucoup de statistiques et mathématiques dans chaque type d'analyse, mais le concept
sous-jacent restera toujours le même. L'analyse de régression
tente d'indiquer aux utilisateurs comment les données sont
liées les unes aux autres d'une manière plus facile à comprendre que d'
examiner les points de données brutes. Cependant, il est important
d'être très conscient du concept de causalité
par rapport à
la corrélation. Chaque méthode de régression est
une méthode statistique
qui met en corrélation les données. C'est ça. Un ordinateur ou une équation
mathématique ne peuvent pas identifier ce qui est causal. causalité est toujours
interprétée par l'utilisateur final. Et certains modèles permettent meilleures allégations de
causalité que d'autres. Les preuves obtenues à partir de l'analyse de
régression concernant une relation forte et statistiquement significative entre deux variables peuvent être attribuées
à la causalité à travers un
cadre théorique convaincant et bon sens. Cela peut nécessiter beaucoup de pratique et
devient presque une forme d'art. Parfois, les données sont utiles. Par exemple, si
les événements d'
hier sont utilisés pour expliquer l'action d'
aujourd'hui, l'élément temporel de
l'analyse peut être utilisé pour obtenir une meilleure inférence
causale. Cependant, dans d'autres contextes tels que les paramètres d'
enquête transversaux, il peut devenir beaucoup plus difficile d'
attribuer la causalité. Les gens sont-ils heureux parce
qu'ils sont en bonne santé ? Ou les gens sont-ils en bonne santé
parce qu'ils sont heureux ? Il s'agit de questions difficiles
à répondre et nécessitent un raisonnement
théorique et
philosophique en plus des statistiques. Vous devez donc toujours être prudent lorsque vous traitez une analyse de
régression.
9. Qu'est-ce que les carrés ordinaires ?: Qu'est-ce que les carrés habituellement ? Habituellement, les carrés sont
une méthode
de régression basée sur le
concept de moindres carrés. Les moindres carrés est une méthode
statistique qui ajuste une ligne, un plan ou un hyperplan du meilleur ajustement en
minimisant la somme des valeurs résiduelles
carrées
entre la ligne de meilleur ajustement et les points de données
réels. Nous quadrillons les
valeurs dites résiduelles parce que la somme d' entre elles est exactement 0 lorsqu'
elles ne sont pas au carré. Par conséquent, les valeurs résiduelles négatives
et positives au-dessus et au-dessous de la ligne
de meilleur ajustement s'annulent mutuellement. Le quadrillage résout ce problème. existe de nombreuses autres façons d'adapter
la ligne de meilleur ajustement. Un exemple consiste à ajuster une ligne selon la méthode des écarts
absolus les moins
élevés, où la valeur absolue de ces valeurs est prise au lieu
des valeurs résiduelles carrées . En d'autres termes, les négatifs
sont devenus positifs. Cependant, les moindres carrés sont de
loin la méthode la plus populaire. Bien sûr, toutes les sciences.
10. Les carres ordinaires à la surface 1: Explorons visuellement
les carrés. Comprenez-le mieux. Imaginez un petit jeu de données
avec quelques points de données, un peu comme celui-ci. Habituellement, les carrés correspondent à une ligne à travers
ces points de données. Cette ligne peut être linéaire, mais elle peut également être non linéaire. Prenons un exemple linéaire. La ligne rouge
représente la ligne de meilleur ajustement estimée par les mécaniciens
habituellement carrés. Dans ce cas, la ligne
de meilleur ajustement peut être représentée par un seul paramètre de
pente appelé bêta. Nous utilisons souvent la lettre
grecque bêta pour indiquer la pente
d'une droite de régression. Cette pente nous informe de la relation estimée
entre y et x. Dans ce cas, y est le prix d' une voiture et x représente le kilométrage
et le kilométrage par gallon. La pente est négative, ce qui signifie qu'à mesure que le
kilomètre par gallon augmente, le prix des voitures diminue. Cependant, notez que notre pente n'atteint aucun des points de données
réels. C'est parce que
nous estimons une relation moyenne entre tous les points de données disponibles. Les points de données réels sont souvent appelés points de
données observés. En d'autres termes, j'ai observé. La valeur prédite de y à n'importe quelle valeur donnée de x est ensuite donnée par la
ligne du meilleur ajustement. Ces points sont appelés points de
données prédits ou prédits y. La différence entre
la valeur observée et la valeur prédite est
appelée valeur résiduelle. C'est ce que
les carrés tentent habituellement de minimiser. Vous pouvez voir ici qu'il existe trois points de données et donc trois valeurs résiduelles
différentes. La somme des trois est la plus petite valeur
que nous puissions atteindre. Dans ce cas, si nous
modifions la ligne du
meilleur ajustement,
par exemple, en déplaçant la ligne
du meilleur ajustement vers le bas, la somme totale des
valeurs résiduelles augmentera. Il s'agit d'une explication graphique de ce que
les carrés tentent habituellement de faire. Il trouve une pente de régression
et l'interception qui conduit à la meilleure somme
minimale de résidus. Regardons
cela avec plus de données. Dans cet exemple,
nous allons utiliser toutes
les
données d'entraînement automatique pour voir ce qui advient de l'erreur
quadratique moyenne racine lorsque nous appliquons différentes
pentes de régression aux données. Dans le panneau de gauche, nous observons la
pente de régression traversant les données. Nous commencerons par une
pente positive de plus 100. Sur le panneau de droite, nous voyons la taille des valeurs résiduelles
individuelles. Les valeurs résiduelles sont
carrées puis
carrées pour garantir que seules des valeurs
positives ont été établies. La valeur la plus faible qu'un résiduel
peut avoir est donc 0. valeurs résiduelles élevées signifient que le point de données pertinent est loin de la ligne de
régression réelle. La moyenne de toutes
ces valeurs résiduelles est appelée
erreur quadrillée moyenne racine des valeurs résiduelles. Et cela est représenté
par la ligne rouge. Il nous indique à quelle distance, en
moyenne, les points de données
se situent par rapport à la droite de régression. Voyons maintenant ce qui se passe lorsque nous
changeons de pente. Nous pouvons le constater lorsque nous modifions
lentement la pente de la droite de régression à partir de valeurs
positives et
négatives. L'erreur moyenne entre la ligne et le
point de données diminue. Les valeurs résiduelles sont en moyenne baisse lorsque nous
diminuons la pente. Cela se produit jusqu'à ce qu'
après une certaine valeur de pente, la moyenne des valeurs résiduelles
recommence à augmenter à une pente d'
environ moins 230. L'erreur moyenne de notre
ligne de meilleur ajustement est minimisée. C'est donc
notre gamme de produits les mieux adaptés. Bien sûr, ce graphique est une version simplifiée
de ce qui se passe. Les modèles de régression peuvent comporter beaucoup plus de variables et
donc de nombreux autres paramètres. Et nous aurions besoin
de beaucoup plus de dimensions pour afficher de tels
modèles graphiquement. Jetons maintenant un coup d'œil à la
façon dont les
modèles carrés sont souvent
présentés par ordinateur.
11. Les carres ordinaires visuels 2: Voici un exemple de la façon dont stator présente la sortie de
régression. D'autres programmes informatiques peuvent
présenter cela différemment, mais l'essence des
informations affichées sera similaire
parmi tous les programmes. Souvent, une partie de la
sortie de régression affichée informations de
diagnostic
qui fournissent des informations de
haut niveau sur le modèle de
régression global. Dans les États. Il s'agit généralement de la
partie supérieure de la sortie. La partie inférieure du tableau de
sortie
présente normalement les
coefficients estimés pour les variables pertinentes. Il y a beaucoup d'
informations dans ce tableau. Cependant, en général, trois
pièces comptent le plus. La première est l'estimation réelle des
paramètres. En d'autres termes, les
pentes estimées sont des coefficients de lignes ou de plans les mieux adaptés
à travers les données pertinentes. Dans les États, c'est ce qu'on appelle DOF, qui est abréviation de coefficient. Chaque variable explicative a une relation avec la variable
dépendante, dans ce cas, le prix. Chaque variable explicative est également conditionnelle l'une à l'autre. En d'autres termes, l'effet
des milles par gallon, conditionné au
contrôle du poids, est arrêté pour chaque augmentation une unité de miles par gallon, le prix baisse de 49$. Le poids effectif
est le suivant. Selon les milles par gallon, une augmentation d'une unité de poids entraîne une
hausse de prix de 1,7$. La dernière variable
est une constante. Constantes sur la valeur que
prend
la variable dépendante, dans ce cas, le prix dans ce cas, le prix lorsque tout dans
le modèle est défini sur 0. En d'autres termes, à un poids de 0 et à 0 mille le gallon, une voiture devrait coûter environ 1946$. Selon ce modèle. Les constantes ont parfois du sens, et parfois elles ne le font pas. Dans ce cas, cela n'a pas beaucoup de sens
car la cause
n'aurait jamais un poids de 0 ni
consommer 0 miles par gallon. Certaines personnes disent que constante doit être
supprimée des modèles, surtout lorsqu'elles n'ont pas de
sens . Je pense que c'est mal. Il vous suffit de faire attention
lorsque vous interprétez les constantes. Souvent, les constantes ne doivent pas être interprétées mais
laissées dans le modèle. La prochaine information la plus importante provient de la colonne
appelée erreur std, abréviation d'erreur
standard. La statistique d'erreur type est une statistique qui révèle avec quel degré de précision le coefficient de pente
est estimé. L'erreur type est faible
par rapport au coefficient. Nous pouvons alors être plus sûrs que le coefficient estimé est proche du vrai paramètre de
population. L'erreur standard est élevée, nous pouvons être moins certains et avoir plus de bruit autour de notre estimation. L'erreur type est
importante car elle permet de déterminer dans quelle
mesure les coefficients estimés
du modèle de régression sont
statistiquement significatifs. Les colonnes restantes complètes
des sorties des résultats sont tous des calculs supplémentaires
de l'erreur standard. Et c'est simplement différentes façons d'identifier la signification. La statistique t, la valeur de p, les intervalles de
confiance inférieur et supérieur sont essentiellement
la même chose et
reposent uniquement sur les la même chose et
reposent recalculs
de l'erreur type. Nous allons voir ce
qu'ils veulent dire dans un instant. Enfin, le troisième élément
d'information qui compte le plus est
appelé R-carré. Ces informations sont fournies dans les parties de diagnostic de la table de sortie et
peuvent être trouvées ici. R-carré est un
indicateur courant de l'adéquation de l' ajustement pour les modèles de
régression ordinairement carrés. Il est limité entre 01 et les valeurs supérieures indiquent que le modèle Dr. correspond
mieux aux données. Cependant, de nombreux
utilisateurs professionnels vont s'
opposer à une surinterprétation
des statistiques R au carré. Les chiffres sont relatifs
à la discipline. Si vous travaillez avec des données
comportementales telles que les personnes et leurs
choix, le R carré de 0,2 ou 0,3 est très courant et indique
généralement des modèles adaptés. Si vous travaillez avec des données de séries
chronologiques, telles que des mesures macroéconomiques
du PIB
, les R carrés de 0,8 ou 0,9 sont très courants et
indiquent des modèles adaptés. Enfin, parlons un
peu plus de
la façon dont les coefficients estimés sont liés à la
signification statistique. Commençons par une statistique. Cette statistique est un indicateur de signification
statistique, et normalement nous
recherchons une valeur de 1,96 ou supérieure à une. Nous utilisons un échantillon de
taille raisonnable. Des échantillons de taille raisonnable
signifient environ 100
observations ou plus parmi les deux. La statistique t est facilement
calculée en divisant la valeur du coefficient estimé
par la valeur d'erreur
type estimée. Notez que lorsque le
coefficient est négatif, l'état produira
une statistique T négative. Le signe sur la statistique t
doit cependant être ignoré. À côté de cela, il y
a quelque chose appelé la valeur de p. Il s'agit d'un manque à gagner. valeur de probabilité
indique la probabilité d'obtenir les
résultats observés d'un test, en supposant que l'
hypothèse nulle soit correcte. L'hypothèse nulle
dans les tables de régression est normalement qu'
un résultat spécifique n'
est pas différent de 0. En d'autres termes, les petites
valeurs de p signifient qu'il existe preuves
plus solides en faveur de
l'hypothèse alternative. L'hypothèse alternative
est que le coefficient est le
coefficient estimé réel en termes
profanes et le nombre de
0,05 ou moins dans la KD, statistique significatif
au niveau de 95 %, chiffres inférieur à 0,01 indique une signification au
niveau de 99 %, et ainsi de suite. Ensuite, nos intervalles de
confiance, il y a un intervalle de confiance supérieur et
inférieur. Les intervalles de
confiance supérieurs et inférieurs sont calculés en ajoutant
ou en soustrayant 1,96 fois l'
erreur type du coefficient
estimé. En d'autres termes, l'
intervalle de confiance est généralement deux erreurs standard loin de
l'estimation du coefficient. Les intervalles de confiance sont vraiment utiles car ils vous
permettent de faire rapidement, je vais faire des tests statistiques. Tout nombre en dehors de la plage d'intervalle de
confiance sera statistiquement
significativement différent de l'estimation du
coefficient. Dans cet exemple, MPG
n'est pas statistiquement
significativement différent de 0, car 0 se situe dans la plage d'intervalle de
confiance. Toutefois, mpg est
différent de moins 500 car ce nombre est en dehors de la plage d'
intervalle de confiance. Cela peut être un moyen très
utile d'effectuer rapidement
des tests statistiques. Et il suffit de
multiplier l'erreur type par environ
deux sommes de carrés. Examinons maintenant la somme des carrés un peu plus en détail.
12. Une somme de carres: Le
tableau de régression précédent fournissait également des informations de signal
analogique réfléchi sur la somme des carrés expliquée, la somme résiduelle des carrés et la somme totale des carrés. Ces valeurs indiquent la variation
expliquée par
le modèle ajusté. Quelle est la variation
inexpliquée par le modèle ? Quelle est la variation
totale des données. En comparant la proportion
de la somme des
carrés expliquée à la
somme totale des carrés, nous pouvons produire quelque chose
appelé coefficient de détermination, souvent
appelé R carré. R au carré. La valeur R carré est une mesure largement utilisée de l'ajustement pour les modèles habituellement carrés. La valeur indique dans quelle mesure
le modèle s'adapte aux données. Les valeurs d'un seul moyen,
un ajustement parfait. Les valeurs de 0 signifient un ajustement terrible. Toutefois, le
carré R de base ne peut augmenter que lorsque des variables plus
explicatives sont ajoutées au modèle. En d'autres termes, les modèles comportant des centaines de
covariables aléatoires peuvent saturer les données et produire des statistiques
d'ajustement
artificiellement élevées. C'est pourquoi nous signalons souvent
également le R carré
ajusté,
qui impose des pénalités. Deux autres variables sont
ajoutées, deux modèles. Si les variables supplémentaires
ne sont pas statistiquement significatives, elles réduiront la valeur R carré
ajustée. Cette statistique tente de
trouver un équilibre
entre des modèles gratifiants, bons
modèles
et de surcharge avec des variables
inutiles. Cependant, il convient de
noter que R-squared peut être facilement abusé et doit
être traité avec prudence. Les carrés R élevés n'impliquent pas
nécessairement qu'un modèle est plus
valide qu'un autre. Jetons un coup d'
œil à cet exemple. Dans cette démonstration,
je vais modifier le niveau de bruit autour de
la ligne de meilleur ajustement. La vraie relation
entre y et x est une. Et c'est ce qui est estimé
par la ligne du meilleur ajustement. Les données originales ont
très peu de bruit et la ligne de régression atteint
presque tous les points de données, ce qui donne un
R carré de 1. Allons maintenant et modifions ce niveau de bruit autour de
la vraie ligne de régression. Nous pouvons maintenant voir les changements au
carré R rapidement à mesure que nous augmentons le
bruit autour des données. La valeur du R-carré
baisse rapidement, ce qui suggère que le modèle s'adapte
de pire en pire à ces données. Cependant, le
modèle reste le même. Ce qui change, c'est uniquement
le bruit autour des données. Les données bruyantes entraînent la valeur R carré
inférieure. Et l'observateur profane pourrait prétendre qu'
il s'agit d'un modèle de sondage. Mais comme vous pouvez le constater, la relation entre y
et x n'a pas du tout changé, et le modèle continue de
récupérer la valeur correcte du
coefficient. Dans ce cas, les deux modèles
ont la même validité, même s'ils ont des valeurs R au carré
différentes. Et c'est pourquoi je veux que vous soyez
toujours prudent
quand vous êtes au carré. L'exemple R carré
nous amène à notre prochain point de discussion.
13. Meilleur estiment de Unbiased linéaire et de l'un des meilleurs de Unbiased linéaire: Meilleur estimateur linéaire impartial. Habituellement, les carrés sont définis comme étant le meilleur estimateur linéaire
impartial. Certaines conditions sont vraies. Il est
important
de comprendre ces conditions , car certains sont
plus importants que d'autres. Ces conditions sont souvent appelées
hypothèses de Gauss-Markov et se réfèrent à des hypothèses
particulières qui
doivent être faites aux données buccales. Si ces hypothèses sont respectées
, on dit que l'
estimateur des carrés
habituels est impartial. En d'autres termes, les
résultats obtenus par l' estimation seront
en moyenne corrects. Si les
hypothèses de Gauss-Markov sont respectées. L'estimateur OLS
sera également présent. Meilleur estimateur. Best est un autre mot pour désigner
l'efficacité et les statistiques. Cela signifie simplement que l'estimateur ordinaire
des moindres carrés
produira les résultats les plus
précis avec le moins de bruit. Examinons ces deux
concepts un peu plus loin avant de discuter des hypothèses
réelles. L'efficacité fait référence à la largeur de la distribution d'échantillonnage. Lorsqu'un estimateur est considéré
comme le plus efficace, distribution d'échantillonnage
est inférieure à celle de
n'importe quel autre estimateur. Nous pouvons
le visualiser facilement en supposant que nous ayons deux estimateurs
différents, une quantité infinie de données. À partir de cette
quantité infinie de données. Allons de l'avant et
sélectionnons un petit échantillon, puis essayons
d'estimer un coefficient particulier
pour une variable. Nous allons utiliser un estimateur
inefficace et un estimateur efficace. Nous allons définir
la valeur réelle du coefficient à un seul. La première fois que nous estimons les coefficients à l'aide des
deux estimateurs, nous renvoyons une valeur d'
environ moins six pour l'estimateur inefficace et moins deux pour l'estimateur
efficace. Allons de l'avant et
répétons ce processus. La deuxième fois, nos
estimations se rapprochent. L'estimateur inefficace
prédit une valeur d'environ moins un et l'
estimateur efficace d'environ 0. Les deux sont encore une
source de valeur réelle, mais l'estimateur efficace
semble se rapprocher. Nous allons maintenant
répéter ce processus rapidement,
des centaines de fois, et
voyons ce qui se passe. Les deux estimateurs obtiennent en
moyenne la valeur
correcte d'un. Toutefois, l'
estimateur inefficace est en moyenne plus éloigné de
ses prévisions que l'estimateur efficace. C'est le concept
d'efficacité. Et une fois que nous ne
disposons normalement pas d'une quantité infinie de données, ce concept est souvent visible dans les erreurs standard
du résultat réel. Dans les estimateurs efficaces, les erreurs
de type sont généralement élevées, ce qui entraîne une plus grande incertitude autour de la valeur estimée réelle. Explorons ensuite le
concept d'impartialité. Quand on
dit qu'un estimateur est impartial. Cela signifie que la distribution moyenne
d'échantillonnage
des estimations des coefficients se
rapprochera du coefficient de
population réel. Nous pouvons le visualiser facilement en supposant que nous ayons
deux estimateurs différents
et qu' une quantité infinie de
données sélectionnera
un petit échantillon de données sélectionnera
un petit échantillon de ces données et essaiera d'estimer
un particulier. coefficient. La valeur réelle de ce
coefficient est définie sur un, ce qui est indiqué par
la ligne rouge pointillée. Nous utilisons un estimateur biaisé et impartial pour
estimer le même coefficient. Le premier passé
produit une estimation d'environ 0 pour l'estimateur
biaisé, 1,5 pour l'estimateur impartial. Maintenant, refaisons-le. Au deuxième passage. Le rendement de l'estimateur biaisé est meilleur avec le résultat de trois comparativement à l'estimateur
impartial avec le résultat de cinq. Mais continuons et
répétons ce processus. Plusieurs fois. Nous répétons le processus, nous voyons qu'en moyenne, l'estimateur impartial commence
à prédire une valeur de 1. Quel est l'estimateur impartial qui prédit la valeur moins un. Il peut évidemment
s'agir d'un gros problème. Par exemple, l'objectif peut être d'effectuer une évaluation
de stratégie. Et un estimateur biaisé estime que la politique
a un effet négatif. En réalité, cela pourrait avoir des effets
positifs. préjugés constituent un
problème sérieux en économétrie. règle générale, les carrés
exigent des hypothèses assez strictes pour que les estimations soient impartiales. Il est donc important d'avoir une certaine compréhension
des hypothèses derrière
les carrés ordinaires.
14. Les hypothèques Gauss-Markov: Hypothèses de Gauss-Markov. Les hypothèses de Gauss-Markov sont
les hypothèses sous-jacentes qui font des carrés
ordinaires l'estimateur
impartial le plus efficace. En général, quatre conditions
majeures sont nécessaires pour atteindre
ce résultat. agit de l'hypothèse d'
homoscédasticité, la tenue du bloc-notes appelée hypothèse de
linéarité, de
l'hypothèse des
paramètres et de la moyenne conditionnelle 0, parfois appelée hypothèse d'
exogénéité. En gros, les
deux premiers concernent l'efficacité, tandis que les
deux derniers concernent le biais. Expliquons chacun à tour de rôle et essayons de déterminer
ce qui compte le plus.
15. Homoskedasticity: L'hypothèse de l'homoscédasticité. Cette hypothèse indique que
la variance des valeurs résiduelles reste stable sur
l'ensemble du spectre des variables
indépendantes. En d'autres termes, les erreurs
produites par variable restent peu près constantes
chaque fois que nous examinons une petite partie de cette variable, la valeur de cette hypothèse
conduit à des erreurs standard d'achat. Cela signifie que nous ne pouvons pas
compter sur des tests d'hypothèses. Cependant, de nombreux paquets
statistiques modernes peuvent facilement tester et corriger
cette hypothèse. Il est très courant, par exemple, utiliser ce qu'on appelle des erreurs standard
robustes, ce qui a légèrement augmenté l'inefficacité des estimations, mais les rend immunisés contre l'
échec de cette hypothèse. Allons de l'avant et
regardons un exemple. Dans cette vidéo, il
y a deux graphiques. Le graphique de gauche montre la
relation entre la variable explicative x
et la variable dépendante y. La relation globale
ne change jamais, mais la variance entre x le sera. Dans le bon graphique, nous voyons les
valeurs résiduelles ou les erreurs de x. Il montre la distance entre
les points
de données réelles et la ligne du meilleur ajustement. Le graphique de gauche montre également l'estimation de la pente et
l'erreur type d' une régression normale
des moindres carrés ordinaires
et d'une régression robuste des
moindres carrés ordinaires. allons maintenant lancer
cet exemple et examiner ce qui se passe lorsque nous introduisons une variance
changeante entre x. Nous constatons que lorsque nous augmentons
la variance entre x, le
coefficient de régression réel ne change jamais. Cependant, les erreurs standard augmentent à mesure que nous augmentons
la variance entre X. De plus, les erreurs
standard robustes augmentent un peu plus. Tout cela signifie que l' échec de l'hypothèse d'
homoscédasticité conduit à des estimations moins
précises. le monde réel avec les jeux de données
modernes, l'échec de cette
hypothèse a souvent peu d'effet global
sur les résultats réels, et la plupart des praticiens
ne se concentrent pas beaucoup sur cette
hypothèse.
16. Pas de Collinearity parfaite: Aucune co-linéarité parfaite. Cette hypothèse indique qu' une variable explicative ne peut pas être une combinaison linéaire exacte d'une autre variable explicative. Si tel est le cas, carrés
ne peuvent
généralement pas être estimés. C'est rarement un
problème dans la vie réelle, car vous n'
entrerez jamais la même variable deux fois
dans une régression. Cependant, lorsqu'il existe une corrélation partielle
entre deux variables, est-à-dire qu'elles mesurent la même chose dans une certaine mesure. Ensuite, nous appelons cette
multicolinéarité. Cela peut avoir un certain
effet sur nos estimations. Plus précisément, cela augmentera le bruit et donc les erreurs
standard
de nos estimations. Ce phénomène est
généralement facile à tester et aussi
facile à gérer,
mais soit en excluant les variables
, soit en les transformant. Voyons un exemple. Dans cet exemple, j'ai
généré un jeu de données comportant cinq variables
explicatives différentes. Ceux-ci vont de x1 à x5. Chaque variable X a un
coefficient d'un. Le graphique de droite présente
les estimations d'une régression ordinaire des
moindres carrés et de l'intervalle de
confiance associé à 95 % autour de ces estimations. Nous pouvons voir que
les carrés estiment généralement une valeur d'environ un pour
chacune des cinq variables. Sur le graphique de gauche, nous voyons la corrélation
entre x1 et x2. Actuellement, il
n'existe aucune corrélation entre
les deux variables, c'est
pourquoi les
points de données sont dispersés de manière aléatoire. Allons de l'avant et voyons ce qui se passe lorsque nous
commençons à introduire une corrélation entre x1 et x2 et que nous forçons lentement X1 et X2, mesurez la même chose. Au début, il ne se passe pas grand-chose, mais alors que la corrélation entre les deux
variables augmente, l'erreur standard et donc
les intervalles de confiance des arrêts x1 et x2 augmentent. Cela arrive jusqu'à ce qu'ils
explosent vers la fin. C'est l'effet
de la colinéarité. Une colinéarité élevée
entre les variables conduit à des estimations très bruyantes. Mais comme vous le voyez, le bruit Explosion ne
se produit que vers la toute fin. Et dans la plupart des scénarios réels, les effets de la colinéarité
sont à peine perceptibles.
17. Paramètres linéaires: L'hypothèse suivante est que le modèle est linéaire
en paramètres. Cette hypothèse signifie que
la relation entre les axes y et z dans le modèle de
carrés ordinaires est linéaire. En d'autres termes, les estimations des
coefficients prennent des valeurs
uniques et ne peuvent
être ajoutées ou soustraites
que, qui ne peuvent être exponentiées,
divisées ou multipliées. En général, cette
hypothèse facilite l' interprétation des
modèles de régression des carrés
ordinaires. Notez que cela ne s'
applique qu'aux coefficients réels. Les variables peuvent être transformées de
n'importe quelle manière , y compris de manière
non linéaire. Nous appelons souvent cette
forme fonctionnelle et nous pouvons varier la forme fonctionnelle à notre guise dans la régression ordinaire
des moindres carrés. Par exemple, il est courant d'ajouter des polynômes
de variables d'
ordre supérieur à une équation de régression. L'exemple couramment utilisé est H et H au carré, où les deux variables
sont saisies séparément. Cela a pour effet
d'introduire une courbe dans la
ligne du meilleur ajustement. Les variables peuvent également être
interactives entre elles. Et nous appelons cela des effets
d'interaction. Cela signifie que les lignes
de meilleur ajustement peuvent prendre des formes
fonctionnelles très compliquées. Allons de l'avant et
regardons un exemple. Dans cet exemple, il
existe deux graphiques. Le côté gauche
montre le diagramme de données des données automatiques où le prix des voitures est tracé par rapport au MPG. Le graphique de droite montre
les valeurs résiduelles ou la distance entre
les points de données individuels et la ligne du meilleur ajustement. La distance moyenne est représentée par la ligne horizontale
rouge. La relation initiale tracée à travers les données est linéaire. Mais il devrait être
assez évident que cette relation ne convient
probablement pas. Introduisons donc un quadratique
dans cette relation et augmentons lentement
le coefficient sur le terme quadratique à partir de 0. Voici ce qui se passe. La ligne du meilleur ajustement
commence à se courber vers le haut, ce
qui donne un meilleur ajustement
à cette courbe. Et nous pouvons voir les valeurs
résiduelles descendre, surtout pour des
valeurs plus élevées de MPG. ajustement du modèle s'améliore. À un moment donné, nous surdimensionnons le modèle
en augmentant continuellement le coefficient quadratique
, puis l'ajustement du modèle s'
aggrave à nouveau. Cet exemple met en évidence la
puissance de la forme fonctionnelle. Le modèle est toujours linéaire
en paramètres car les deux coefficients estimés sont uniquement ajoutés ou soustraits. Mais la
manipulation carrée de x conduit à une forme
fonctionnelle non linéaire complexe qui améliore l'ajustement du modèle.
18. Le moyen conditionnel à zéro: 0 moyenne conditionnelle, souvent appelée hypothèse d'
exogénéité. Cette hypothèse est
l'une des hypothèses les plus importantes
dans les carrés ordinaires. L'hypothèse indique qu'
il n'y a pas de corrélation entre une
variable explicative X et le terme d'erreur. L'échec de cette hypothèse
entraîne un biais dans l'estimation du
coefficient. Cette hypothèse peut
souvent échouer dans la vraie vie. Et parce qu'il implique
le terme d'erreur, qui par définition n'
est pas observable, ne
peut jamais être testé. Une bonne règle générale est que
chaque fois qu' une variable est un choix, surtout dans un choix individuel
, elle est susceptible d'être influencée par des facteurs qui ne sont pas observés. Par conséquent, une relation avec
le terme d'erreur peut exister. Jetons un coup d'œil à un exemple. Dans cet exemple, j'ai configuré un jeu de données simulé qui
contient à nouveau cinq variables
explicatives. Chaque variable
est un coefficient d' un par rapport à y,
la variable dépendante. Sur le graphique de droite, nous pouvons voir les estimations des moindres carrés du
propriétaire individuel et l'intervalle de
confiance associé pour chacune des cinq variables. Les résultats corrects sont affichés
par la ligne rouge verticale. Sur le graphique de gauche, nous voyons la corrélation entre la variable x1 et le terme d'erreur. Notez qu'en réalité, nous ne
pouvons jamais observer cela car le terme d'erreur nous sera
toujours caché. n'est que dans cet exemple simulé que nous
pouvons voir le terme d'erreur. La corrélation initiale
entre X1 et le terme d'erreur est
définie sur environ 0. Maintenant,
augmentons la corrélation entre X1 et le
terme d'erreur et voyons ce qui se passe. Nous observons que l'estimation
des carrés habituels pour x1 s'écarte
lentement de sa valeur réelle. Plus nous augmentons
la corrélation entre X1 et le terme d'erreur, plus
le biais de
notre résultat est élevé. Cela peut poser un réel
problème dans le travail appliqué. Lorsque nous avons un tel problème, nous appelons souvent cela l'endogénéité.
19. Comment tester et corriger Endogeneity: Comment tester et corriger
l'endogénéité, il n'est pas possible de tester quelque chose qui ne peut être vu. C'est pourquoi les bons modèles de carrés
ordinaires sont fortement étayés
par des cadres théoriques, littérature
antérieure et une argumentation
rationnelle. Cette hypothèse est également la
raison pour laquelle de nombreux scientifiques soutiennent que l'exploration de données constituerait habituellement des carrés de modèles. approches d'exploration de données
augmentent la probabilité
que la condition d' exogénéité échoue et que les résultats deviennent biaisés. Dans le monde réel. La façon de faire face à l'endogénéité
est souvent de plus en plus de données, de
meilleurs
modèles et de
formes fonctionnelles plus réfléchies . Et aussi parfois simplement accepter que les modèles
peuvent avoir un certain biais.
20. Les hypothèses Gauss-Markov: Récapitulons les hypothèses de
Gauss-Markov. L'
hypothèse des paramètres linéaires est une condition qui exige que
tous les bêtas soient additifs. Cela signifie, en termes simples, que les variables dépendantes
doivent être continues. Mais cela ne signifie pas
que la relation entre Y et X doit être linéaire. Des formes fonctionnelles plus complexes peuvent être utilisées dans des modèles de régression généralement
carrés. violation de l'hypothèse moyenne
conditionnelle 0, souvent appelée hypothèse d'
exogénéité, peut entraîner des estimations biaisées. Il s'agit là d'une hypothèse très
importante. Il n'est pas
possible de le tester. Statistiquement. L'identification ou la défense contre elle doit se faire pour des raisons
théoriques. Il n'y a pas de solution facile si
cette hypothèse est violée. Les options consistent à inclure des variables
manquantes dans
le modèle de régression, à tenter
d'autres techniques d'identification ou à générer des méthodes de
type de simulation qui tentent d'
identifier la taille et la direction
de tout biais potentiel. L'
hypothèse d'absence de co-linéarité parfaite doit être respectée, sinon la
régression des carrés ne fonctionnera pas. Toutefois, une
colinéarité plus faible entre les variables entraînera
une augmentation des erreurs standard. Heureusement, les
erreurs standard ne font qu'exploser. Ils sont des corrélations extrêmes. Et cela peut être testé
et corrigé en des variables
ou en les transformant. violation de l'hypothèse d'
homoscédasticité entraîne des erreurs
standard incorrectes. Il est facile de tester l'utilisation tests statistiques appropriés et facile à corriger
avec des erreurs standard robustes incluses dans presque tous les
progiciels statistiques.
21. Exemples appliqués: Examinons certains de
ces concepts dont nous avons discuté dans un environnement plus
appliqué. Nous sommes maintenant dans Stata, un
progiciel statistique couramment utilisé pour analyser les jeux de données
quantitatifs. Il est similaire à d'autres
paquets tels que SPSS ou SAS. Je n'expliquerai pas comment
faire fonctionner
le stator, le code que j'exécute
pour obtenir les résultats. Vous pouvez en savoir plus sur l'état spécifique des
données. Les cours. Vous avez déjà ouvert un jeu de
données d'entraînement appelé auto. Allons de l'avant et
examinons cela un
peu plus près avant de commencer
à faire régressions. Une erreur courante consiste à commencer à
analyser rapidement les données avant de bien
comprendre ce qui se trouve
réellement dans les données. ensembles de données modernes peuvent
être très complexes. Et plus souvent, le temps
consacré à la préparation et à la
manipulation des données l'
emportera sur le temps consacré à l'analyse de
régression réelle. Décrivons les données
pour voir ce que nous avons. Le retour en sortie par
le scribe produira
des informations de haut niveau
sur les données, telles que l'endroit où elles se trouvent, nombre d'observations et nombre de variables incluses. Dans ce cas, nos données contiennent 74 observations et 12
variables. Ce n'est pas très grand. Il a également un titre
qui nous indique que ces données sont liées
aux voitures datant de 1978. Vous trouverez ci-dessous des informations
sur les variables. L'une d'elles est une variable de
chaîne qui contient les noms
des types de voitures, et les autres sont tous
en variables numériques. Imaginons que nous
sommes vraiment intéressés à expliquer les
déterminants du prix de la voiture. Nous pouvons déjà commencer à construire
une image dans notre tête. Quelles sont les variables qui
peuvent être importantes expliquer le
prix d'une voiture ? Le poids et le kilométrage
semblent être des variables importantes. Ou le tournant est
probablement moins important pour la plupart des
gens qui achètent des voitures. Examinons ensuite quelques statistiques
récapitulatives
des données pour
avoir une idée de la façon dont les
variables sont mesurées. Et distribué. Le prix semble être
mesuré en dollars et la voiture la moins chère
coûte environ 3 000$. Bien que la voiture la plus
chère coûte environ 16 000$. Ces prix semblent
raisonnables pour 1978. Nous constatons également que
la variable web 78 comporte des
observations manquantes. Il n'en compte que 69 au lieu de 74. La plupart des variables semblent également
être mesurées en continu. Cependant, il semble que la variable étrangère soit mesurée
comme une nouvelle variable de grange. Allons de l'avant et
confirmons cela rapidement. En tabulant le forum, nous constatons qu'en effet l'étranger
est mesuré comme une variable de liaison autour de
29 % des voitures étrangères. Allons de l'avant et estimons certains modèles de régression habituellement
carrés. Plutôt que
d'entrer
immédiatement dans un modèle complet avec de nombreuses variables et termes d'
interaction. Construissons-le
lentement et interprétons la sortie et les diagnostics
à chaque étape. La variable étrangère
mène à une simple question de voitures
étrangères
plus chères que les coûts domestiques ? Nous pourrions répondre à cette question
en calculant rapidement la moyenne des deux sous-ensembles
de données et
en comparant simplement les moyennes. Cependant, nous pouvons également atteindre la même chose dans un cadre de
régression. Permettez-moi de vous montrer que ce code régresse la variable
explicative étrangère par rapport au prix variable
dépendant. Les résultats de régression de ce tableau sont assez
faciles à interpréter. Mais avant de le faire, examinons rapidement quelques diagnostics. La régression comprend
74 observations. C'est donc bien. n'y a pas d'
observations manquantes. La statistique S
n'est pas significative. Nous
recherchons ici des valeurs inférieures à 0,05. Les valeurs supérieures à 0,05 utilisent
ce modèle total. En d'autres termes,
toutes les variables notre régression ordinairement
carrées, n'expliquent pas comment les baies sont tarifées. De même, le carré R
est extrêmement bas. valeur de 0,0024 signifie
que nous n'
expliquons presque rien en termes de variation de prix avec
la variable étrangère. Allons maintenant
regarder les résultats. Nous avons une variable
appelée étrangère. s'agit toutefois
d'une variable finale et non d'une variable continue. Ces variables ont l'interprétation
suivante. Si la valeur de la variable
passe de 0 à un. En d'autres termes, si une voiture passe d'une voiture de location domestique
à une voiture étrangère, quel point le
prix de revient augmentera-t-il ? La réponse ici, c'est qu'il est
payant de 312$. Cependant, nous constatons également que l'erreur type autour de
cette estimation est assez importante. L'erreur standard est de 754$. Cela signifie que la
statistique t associée est inférieure à 1,96. La valeur de P est supérieure à 0,05. Cela signifie que cette variable n'est pas statistiquement significative
au niveau de 95 %. Nous avons une idée de l'incertitude en
examinant l'intervalle de confiance. Cela varie entre
moins 1200$ plus 1800$. La vraie valeur est
quelque part là-dedans, mais comme l'
intervalle de confiance dépasse 0, nous ne pouvons pas revendiquer la signification
statistique par rapport à la valeur 0. Enfin, n'oubliez pas que
l'effet d'une variable est subordonné aux
autres contrôles. Dans ce cas, il n'y a pas
d'autres variables dans le modèle, mais il existe une constante. Et la constante est
la valeur du prix, est-ce que tout le reste est réglé sur 0. En d'autres termes, si une voiture est domestique et qu'elle est une valeur
étrangère, elle est définie sur 0. Il en coûtera 6 000$. Une voiture étrangère coûte 312$, plus
coûterait environ 6 300$. Nous pouvons également visualiser cela. Nous constatons ici l'effet estimé des voitures étrangères sur le prix. Les coûts intérieurs sont
moins chers en moyenne, et les coûts étrangers sont plus
chers de 312$. Mais l'intervalle de confiance des deux valeurs est si important qu'elles ne sont pas
statistiquement différentes. Super. Allons de l'avant et augmentons le nombre de variables
de notre modèle. Nous pouvions jeter toutes nos variables et simplement voir ce qui reste. C'est ce que ferait généralement une
approche d'exploration de données. Stata possède diverses capacités d'
exploration de données, y compris la
régression progressive qui éliminera automatiquement les
variables qui ne
sont pas statistiquement
significatives. Toutefois, cette approche pose
des
problèmes conceptuels. L'un des
problèmes les plus importants est qu' il
empêche les utilisateurs de penser au problème en cause et ne leur
permet pas de comprendre comment cette analyse de données est liée au sous-jacent. théorie ou leurs hypothèses de
recherche. Pour cette démonstration,
allons-y et
ajoutons lentement une variable après une autre à
notre modèle de régression. Nous ne supprimerons pas le téléphone
même s'il est insignifiant, car l'ajout d' autres variables peut
modifier son effet. Allons de l'avant et ajoutons des kilomètres
par gallon à notre modèle. Il est maintenant intéressant de constater
que des changements immédiats et significatifs se
sont produits. Notre R carré a grimpé de
façon spectaculaire à 0,28. Le R carré ajusté est un
peu plus bas à 0,26, mais il reste beaucoup, beaucoup plus élevé qu'auparavant. Notre nouvelle variable MPG est statistiquement très
significative avec une petite erreur type. Et ils cachent la statistique T. Chaque augmentation d'
une unité de mpg. En d'autres termes, les coûts qui
deviennent plus
économes en carburant réduiront
le prix de la voiture de 294$. Cependant, nous constatons également que
l'effet des voitures étrangères a augmenté de façon spectaculaire
pour atteindre 1700$. L'erreur standard est
tombée un peu par rapport
à 752, maintenant 700. La variable est maintenant statistiquement significativement
différente de 0. Quelle grande différence une
variable peut être terme modèle. Il est important de noter que nous pouvons
expliquer ce changement. Il s'avère que les coûts
étrangers ont un nettement plus élevé de miles par nombre
nettement plus élevé de miles par
gallon que
les voitures domestiques. Et une fois que ce facteur
est contrôlé le prix réel des coûts
étrangers est
plus élevé que pour les coûts nationaux. Cela est dû au fait que l'effet
de mpg est négatif sur le prix. Parce que les voitures étrangères
ont des MPG plus élevés, leur prix était plus bas. Maintenant que cet effet
est contrôlé et donc retiré du prix. L'effet réel d'une voiture étrangère est qu'elle
cause un prix, le riz. C'est un exemple parfait de l'hypothèse d'exogénéité dont je parlais lors de
la session précédente. Nous avons admis une variable importante du modèle de régression. Et la
variable explicative que nous avons incluse était corrélée à la variable
That's importante
dans le terme d'erreur. Par conséquent, le
résultat précédent était biaisé. Cependant, parce que
nous avons maintenant déplacé la variable fautive MPG du terme d'erreur vers
le modèle de régression. Nous contrôlons cela. Et j'espère. On a produit une estimation moins biaisée. Cela montre vraiment l'importance
d'une construction de modèles minutieux. Allons de l'avant et introduisons une troisième variable à notre modèle. poids. Le poids est susceptible
d'être une variable importante car les voitures lourdes ont besoin de
plus de matières premières, mais aussi parce qu'un coût plus élevé n'affectera probablement pas
le nombre de MPG. Et nous savons que cela affecte à son tour l'estimation
étrangère. Nous allons donc l'ajouter
à notre modèle de régression. Regardez-moi ça. Maintenant, le R carré saute
à nouveau d'une grande marge. De plus, nos
effets estimés ont de nouveau changé. Expliquons-le
encore une fois par le haut. Le nouveau poids variable est
statistiquement significativement différent de 0 en raison d'
une petite erreur type, d' statistique t
élevée
et d'une faible valeur de p, l'effet est positif. En d'autres termes, chaque livre
supplémentaire de poids sur la voiture augmente
le prix de 3,46$. L'effet de mpg est désormais
positif plutôt que négatif. L'inclusion du poids renverse le signe
de cette estimation. hausse des coûts MPG
entraîne désormais une hausse des prix. Bien que cet effet ne soit pas
statistiquement significatif. C'est logique. Après tout, plus de
kilomètres par gallon, voitures sont plus économes en carburant et
économisent de l'argent. Cela peut nécessiter
une meilleure technologie
et, par conséquent, ces
voitures peuvent coûter plus cher. Cependant, l'
effet précédent était masqué par le fait que les
voitures plus lourdes Hepworth kilométrage. Maintenant que cela est contrôlé
pour l'effet de MPG est devenu moins biaisé. De plus, étant donné qu'
il y a un
effet de choc de MPG sur le statut étranger, nous voyons maintenant que les voitures étrangères passent à 3 600$ avec une erreur
type inférieure de 680. Il s'agit d'un autre
exemple important de barres de régression. variables explicatives importantes ont été laissées dans le terme d'erreur. Supposons un instant
que nous avons terminé notre construction de modèles
et que nous sommes satisfaits des
spécifications que nous avons. L'étape suivante consiste généralement à réaliser certains types de statistiques
gnostiques, en
particulier en ce qui concerne l'hypothèse de Gauss-Markov discutée lors de la session
précédente. Malheureusement, l'hypothèse d'
exogénéité ne peut pas être testée et ne
peut être déduite qu'en ajoutant d'autres variables
au modèle comme il vient de le montrer ou en
résultant à la théorie. Nous pouvons cependant tester l'hypothèse d'
homoscédasticité. Allons-y et faisons-le. Voici les données effectuées un
test d'homoscédasticité. Les résultats montrent que l'hypothèse nulle d'
une variance constante est rejetée en faveur de l'hypothèse alternative
de l'hétéroscédasticité. En d'autres termes,
variance variable. Nous pouvons également explorer cela visuellement en examinant
les valeurs résiduelles. Ici, nous avons tracé les valeurs résiduelles
par rapport aux valeurs ajustées. Ce diagramme résiduel par rapport à celui ajusté montre comment les valeurs résiduelles
sont réparties autour du
plan des valeurs les plus ajustées proches
de 0 signifient un bon ajustement. Nous pouvons clairement voir sur ce
graphique que lorsque nous passons de valeurs basses ajustées à des valeurs de prix ajustées
plus élevées, la variance des valeurs résiduelles
autour de 0 augmente. Il s'agit d'une preuve claire de l'
évolution de la variance et
doit être réglée. Nous pouvons soit utiliser des erreurs
standard robustes, soit spécifier une autre forme fonctionnelle qui tente de supprimer cette variance
changeante. L'amélioration de l'ajustement du modèle est souvent
une meilleure première option. Et dans ce cas,
le problème pourrait être causé par le fait que,
comme beaucoup de variables de prix, prix
de la voiture a une longue queue. Souvent, nous transformons ces
variables avec des journaux. Allons-y et faisons-le. Maintenant, exécutons une
nouvelle régression avec la variable dépendante comme prix du
journal plutôt que prix. Voyons ce qui se passe. À première vue, on
dirait que tout a changé. Les coefficients sont
complètement différents. Cependant, étant donné que nous avons maintenant transformé la variable
dépendante, toutes les
variables explicatives concernent le prix du journal et non le prix. Cela signifie que leur interprétation
est légèrement différente. Maintenant, une augmentation
de poids d'une unité augmente le prix de la bûche d'
une voiture de 0. Pour. Cela peut être un moyen plutôt
gênant d'interpréter les estimations d'un modèle. Nous lisons donc souvent transformer les coefficients pour
les rendre plus faciles à comprendre. Lorsqu'un modèle de régression n'
a pas de transformation de journal, ce soit pour la variable
dépendante ou pour la variable explicative. Nous appelons cela un modèle de
niveau. L'interprétation
est simple. Lorsqu'une
variable explicative est déverrouillée, l'interprétation
du coefficient change
en fonction du pourcentage d'augmentation de X. Provoque une bêta divisée par
100 unités de variation en y. Lorsque le modèle possède un
journal variable dépendante, l'interprétation change
en un changement d'une unité en x, provoque une variation bêta fois
100 % de Y. Lorsque le modèle est
un modèle log-log, l'interprétation est
qu'ils changent de 1 % en x provoque une variation bêta en
pourcentage de y. Ainsi, dans ce cas, un changement de
poids d'une unité provoque une augmentation de 0,0004 fois 100 équivaut à une augmentation du prix de
0,04 %. De même, les coûts étrangers coûtent maintenant environ 53 % de plus en
termes de prix. Revenons maintenant en arrière et testons l'
hypothèse d'homoscédasticité. Une fois encore. La
statistique de test révèle que nous pouvons maintenant accepter
l'hypothèse nulle de l'homoscédasticité. Nous pouvons également le visualiser à nouveau à l'aide du diagramme résiduel
par rapport à celui ajusté. Nous pouvons voir ici qu'au fur et à mesure que nous avançons sur les valeurs de prix ajustées, l'écart des valeurs
résiduelles autour la ligne horizontale 0
est beaucoup plus uniforme. C'est la preuve visuelle
que notre modèle comporte désormais des erreurs
homoscédastiques que nous pouvons accepter cette
hypothèse particulière. Ensuite, allons vérifier
la co-linéarité. Ces tests de
facteur d'inflation de variance mettent en évidence dans
quelle mesure chaque variable gonfle la variance
du modèle. Des valeurs élevées supérieures, disons, 50 ou plus. Des variables particulières indiquent que ces variables sont co-linéaires avec d'autres variables. Ici, il n'y a aucune preuve de colinéarité élevée dans notre modèle car toutes les variables ont des valeurs de facteur d'
inflation de variance
très faibles. Enfin, nous pouvons également introduire formes
fonctionnelles
plus compliquées. Les paramètres doivent être linéaires, mais les variables peuvent être
transformées et offrent des formes
plus complexes que de
simples relations linéaires. Par exemple, nous pouvons
inclure une variable au
carré de poids dans la régression pour permettre l'existence d'une
relation
quadratique entre le prix du
journal et l'attente. Ces nouveaux
états de régression sont inclus, attendent et attendent une variable
carrée. Il est important que les variables interactives
soient analysées ensemble. Bien que la variable de poids ne
soit pas statistiquement
significative, la variable de poids carré
est statistiquement significative. Et moi, des tests joints
devraient être effectués sur les deux pour voir si la paire
est significative ou non. Supposons un instant
qu'ils sont significatifs ensemble. L'interprétation de la sortie devient un peu
plus compliquée. Mais les effets d'interaction peuvent également être visualisés et des états, je peux le faire pour nous. Nous pouvons voir ici que
la relation à partir de notre modèle de
carrés ordinairement prédits entre le poids et prix du
log n'est pas
réellement linéaire, mais qu'il est payant d'être
quadratique. En d'autres termes, il
y a une courbe qui
traverse la relation
entre le prix et le poids. poids augmente, le prix de la bûche augmente de
plus en plus. Super. Supposons maintenant que nous avons
fini de construire des modèles. Les modèles de régression ne sont
souvent pas présentés , car ils sont présentés par
des programmes statistiques. Il y a tout simplement
trop d'informations dans les tableaux présentés par les programmes
statistiques, dont la
plupart sont redondantes ou non utiles aux lecteurs profanes. Il est également courant d'inclure plusieurs modèles de régression dans
un tableau afin que les lecteurs puissent suivre la progression des
coefficients à mesure que variables
supplémentaires sont
incluses ou supprimées des modèles. Voici un exemple de l'apparence des tables
de
régression dans les rapports. Il s'agit ici d'une
table de sortie de
régression classique qui contient le coefficient à trois
décimales et les erreurs
standard à
trois décimales. astérisques sont inclus pour
identifier facilement les effets statistiquement
significatifs. Les diagnostics incluent uniquement le nombre d'observations
et la statistique R au carré. Ce tableau permet aux
lecteurs de lire et examiner comment l'effet de la
variable Foreign sur le prix, par
exemple, change au fur et à mesure que nous modifions les
spécifications de notre modèle. Ce type d'approche
est important car il s'agit d'une
approche transparente qui montre
les ingrédients de la façon dont ce repas
statistique a été préparé. Les lecteurs peuvent juger
par eux-mêmes s'ils sont d'accord avec votre
conclusion particulière ou non. Cela conclut cette session
pratique sur la régression ordinairement
carrée.
22. Réflexions finales et conseils: Réflexions finales et quelques conseils. J'espère que
cette introduction
à l'analyse de régression linéaire vous a plu . J'ai quelques conseils que vous voudrez peut-être
prendre en compte lorsque vous appliquez une analyse de
régression aux données. Pratique. Comme c'est le cas pour beaucoup de choses dans la vie, c'est la pratique et l'application
fréquente qui permettent
de
mieux comprendre le problème à l'étude. Il en va de même pour l'analyse de
régression. Toute la théorie
du monde ne permettra pas surmonter le manque d'
engagement ou d'application. Je recommande toujours
aux gens de
rester coincés et de commencer à
explorer les données. Je réfléchis attentivement à
votre objectif initial. Essayez-vous simplement de comprendre les corrélations
dans vos données ? Ou essayez-vous de
déterminer la cause à effet ? La première peut se faire en
jouant simplement avec les données et
le modèle de régression. Le second nécessitera des réflexions beaucoup
plus délibérées sur les fondements théoriques et l'argumentation rationnelle. Pourquoi X pourrait-il causer Y ? Et quel pourrait être le mécanisme
de transmission B. Qu'est-ce qui pourrait influencer
une telle transmission ? Estimez plusieurs modèles
avec de petites variations. Les résultats sont plus convaincants lorsque différents modèles affichent
continuellement le même type de résultat. Ainsi, l'inclusion d'
une variable particulière, modifie tout ou vos
coefficients reste-t-il robustes ? affichage d'un chemin vers votre
spécification préférée finale est un élément très important de l'analyse de régression
moderne. La qualité des données et la taille de l'échantillon comptent autant que la
création de modèles. De grandes innovations en matière de qualité et de
taille des
données se sont produites
depuis les années 1980. Tous les modèles ne doivent
pas
être compliqués. La qualité et les données peuvent ajouter une crédibilité significative
à tous les résultats, et vous ne devez pas hésiter à affirmer que ces données sont les meilleures données disponibles pour
répondre à cette
recherche particulière. question. Les jeux de données de haute qualité
nécessitent souvent une manipulation compliquée
des données. De nombreuses erreurs de régression
ne résultent pas d'une mauvaise
construction de modèles, mais d'un mauvais codage des données. Ne sous-estimez pas le temps à
consacrer au nettoyage
des données et à
la préparation des données en vue de l'analyse de
régression. Habituellement, les carrés restent la méthode de
régression la plus couramment utilisée dans le monde. Il serait faux de le
rejeter comme une méthode simpliste. Jouer avec une forme
fonctionnelle grâce à
des effets d'interaction peut conduire à modèles de
carrés ordinairement
compliqués qui ressemblent étroitement à la réalité. N'ayez pas peur
d'explorer des modèles plus complexes utilisant des termes
quadratiques et
d'autres termes d'interaction. Comprendre le rôle des diagnostics dans l'analyse de
régression. Ne vous renseignez pas sur les diagnostics des
manuels scolaires, mais demandez où se trouvent les hypothèses de régression
concernant les données. Autres hypothèses
qui peuvent être trop fortes pour les données à portée de main. Enfin, ressentez une bonne dose de scepticisme lorsque quelqu'un réclame une relation causale. coefficients de régression
contiennent souvent une sorte de biais. En même temps. Ne soyez pas un nez, cheveu et ne rejetez pas tout. Comme beaucoup de choses dans la vie, analyse de
régression
est un outil supplémentaire qui doit être utilisé
conjointement avec d'autres preuves, telles que des résultats antérieurs, cadres
théoriques et
aussi des preuves qualitatives. Il existe une fine frontière entre art et les statistiques dans l'analyse de
régression.