Analyse de données - Qu'est-ce que la régression linéaire ? | Franz Buscha | Skillshare

Vitesse de lecture


1.0x


  • 0.5x
  • 0.75x
  • 1 x (normale)
  • 1.25x
  • 1.5x
  • 1.75x
  • 2x

Analyse de données - Qu'est-ce que la régression linéaire ?

teacher avatar Franz Buscha

Regardez ce cours et des milliers d'autres

Bénéficiez d'un accès illimité à tous les cours
Suivez des cours enseignés par des leaders de l'industrie et des professionnels
Explorez divers sujets comme l'illustration, le graphisme, la photographie et bien d'autres

Regardez ce cours et des milliers d'autres

Bénéficiez d'un accès illimité à tous les cours
Suivez des cours enseignés par des leaders de l'industrie et des professionnels
Explorez divers sujets comme l'illustration, le graphisme, la photographie et bien d'autres

Leçons de ce cours

    • 1.

      Introduction

      4:12

    • 2.

      Qu'est-ce que l'analyse de la régression ?

      2:45

    • 3.

      Qu'est-ce que la régression linéaire ?

      1:48

    • 4.

      Pourquoi l'analyse de régression est-elle utile ?

      1:37

    • 5.

      Quels types d'analyse de régression existe-t-il ?

      2:33

    • 6.

      Expliquer la régression

      3:40

    • 7.

      Lignes de la meilleure adaptation

      7:58

    • 8.

      Causalité vs corrélation

      1:54

    • 9.

      Qu'est-ce que les petits carrés ordinaires ?

      1:04

    • 10.

      Moindre carrés ordinaires Visual 1

      4:15

    • 11.

      Moindre carrés ordinaires Visual 2

      7:43

    • 12.

      Somme de carrés

      3:07

    • 13.

      Meilleur Estimateur non biaisé linéaire

      4:43

    • 14.

      Les hypothèses de Gauss-Markov

      0:41

    • 15.

      Homoskedasticity

      2:13

    • 16.

      Pas de Collinearity parfaite

      2:35

    • 17.

      Linéaire en paramètres

      2:43

    • 18.

      Moyenne conditionnelle zéro

      2:14

    • 19.

      Comment tester et corriger l'endogénéité

      0:52

    • 20.

      Les hypothèses de Gauss-Markov se retrouvent

      1:56

    • 21.

      Exemples appliqués

      21:32

    • 22.

      Réflexions finales et conseils

      3:54

  • --
  • Niveau débutant
  • Niveau intermédiaire
  • Niveau avancé
  • Tous niveaux

Généré par la communauté

Le niveau est déterminé par l'opinion majoritaire des apprenants qui ont évalué ce cours. La recommandation de l'enseignant est affichée jusqu'à ce qu'au moins 5 réponses d'apprenants soient collectées.

343

apprenants

1

projets

À propos de ce cours

Une introduction facile à la régression dans l'analyse de données

L'apprentissage et l'application de nouvelles méthodes et techniques peuvent souvent être une expérience intimidante.

Ce cours est conçu pour vous fournir un cours compact, facile à comprendre, qui se concentre sur les principes de base de la régression dans l'analyse de données.

Ce cours sera axé sur la compréhension et l'application de la régression linéaire dans l'analyse des données

Ce cours vous expliquera ce qu'est la régression et le fonctionnement des petits carrés ordinaires (OLS). Il le fera sans équations ni mathématiques. L'accent de ce cours est mis sur l'application et l'interprétation de la régression dans l'analyse de données. L'apprentissage sur ce cours est appuyé par de nombreux graphiques animés qui montrent des concepts particuliers.

Aucune connaissance préalable n'est nécessaire et cette classe s'adresse à toute personne souhaitant s'engager dans une analyse quantitative.

Les principaux résultats d'apprentissage sont les suivants :

  1. Apprendre et comprendre l'intuition de base derrière la régression linéaire

  2. Être à l'aise avec la terminologie de régression

  3. Pour être en mesure d'interpréter et d'analyser confortablement la sortie de régression

  4. Pour apprendre des trucs et des astuces

Les sujets spécifiques qui seront abordés sont :

  • Quels types d'analyses de régression existent

  • Corrélation contre la cause

  • Méthodes paramétriques et non paramétriques

  • La méthode des moins carrés

  • R-carré

  • Les bêta et erreurs standard

  • T-statistiques, valeurs T-statistics, intervalles de confiance

  • Meilleur Estimateur non biaisé linéaire

  • Les hypothèses de Gauss-Markov

  • Biais par rapport à l'efficacité

  • Homoskedasticity

  • Collinearity

  • Forme fonctionnelle

  • Moyenne conditionnelle nulle

  • Régression dans des journaux

  • Construction de modèles pratiques

  • Comprendre la sortie de régression

  • Présentation de la sortie de régression

Le logiciel Stata sera utilisé pour démontrer des exemples pratiques.

Rencontrez votre enseignant·e

Teacher Profile Image

Franz Buscha

Enseignant·e
Level: Beginner

Notes attribuées au cours

Les attentes sont-elles satisfaites ?
    Dépassées !
  • 0%
  • Oui
  • 0%
  • En partie
  • 0%
  • Pas vraiment
  • 0%

Pourquoi s'inscrire à Skillshare ?

Suivez des cours Skillshare Original primés

Chaque cours comprend de courtes leçons et des travaux pratiques

Votre abonnement soutient les enseignants Skillshare

Apprenez, où que vous soyez

Suivez des cours où que vous soyez avec l'application Skillshare. Suivez-les en streaming ou téléchargez-les pour les regarder dans l'avion, dans le métro ou tout autre endroit où vous aimez apprendre.

Transcription

1. Introduction: Bienvenue. L'analyse des données peut être nuisible. Il existe tellement de méthodes différentes et de nombreuses façons différentes d' analyser et d'interpréter les données qui peuvent rendre l'apprentissage très difficile. Dans cette classe, je veux vous donner un aperçu facile et rapide de l'une des méthodes et analyses de données les plus populaires , la régression linéaire. La clé de cette classe est qu'il n'y a pas d'équation puisqu'il n'y a pas de mathématiques, pas de connaissances théoriques délicates. Je veux vous donner une explication graphique et intuitive de ce qu'est la régression linéaire. Ensuite, montrez une série d'exemples pratiques d' analyse de données. Quel que soit le statut actuel de vos connaissances professionnelles, vous pouvez être sûr de connaître les tenants et aboutissants de la régression linéaire. Après ce cours. Qu'est-ce que la régression linéaire ? régression linéaire est la méthode de régression la plus utilisée dans le monde. Les techniques de régression linéaire disponibles, généralement carrées, souvent abrégées en OLS, sont les plus courantes. Et je vais me concentrer sur les carrés habituels car c'est loin la méthode de régression la plus utilisée dans le monde pour l'analyse des données. Habituellement, les carrés sont une technique qui examine la relation entre une variable continue et une ou plusieurs variables de catégorie info continues. Et cette technique est utilisée dans nombreuses disciplines, notamment l'économie, sociologie, la psychologie, la drogue, la peur et même l'histoire. Il est utilisé partout dans le monde. Et il est également souvent utilisé dans les entreprises pour l'analyse quantitative. Et cela sous-tend de nombreux rapports gouvernementaux qui ne réalisent pas d'évaluation des politiques. Quiconque souhaite avoir une bonne compréhension de l'analyse des données devra comprendre la régression linéaire. Quels sont les principaux résultats d'apprentissage ? Apprendre et comprendre l'intuition de base derrière le message de régression linéaire et l'analyse des données. Découvrez la terminologie et les fondements associés. Apprendre à intégrer et analyser confortablement la sortie. Enfin, pour découvrir quelques trucs et astuces supplémentaires qui vous aideront dans l'analyse des données. À qui s'adresse ce cours ? Ce cours s' adresse à ceux qui débutent leur carrière dans l'analyse de données. Il peut s'agir de praticiens, d' un membre du gouvernement, quelqu'un et d'une politique, d'une personne en affaires ou même d'étudiants. Quelles sont les conditions préalables à cela. Il n'y a pas de masse et vous n'avez pas besoin de vous soucier des équations pour tirer le meilleur parti de ce cours. La curiosité est tout ce qu'il faut. Un certain état des connaissances peut être utile pour l' application pratique de ce cours, mais ce n'est pas nécessaire. Status est un logiciel statistique qui permet aux utilisateurs d'estimer de nombreuses méthodes quantitatives différentes. Je vais l' utiliser pour leur montrer des exemples de carrés ordinaires. De plus, un vif intérêt à comprendre comment les données peuvent être liées entre elles est une condition préalable utile. L'analyse des données consiste souvent à mesurer les variables quantitatives les unes par rapport aux autres. Si vous voulez savoir comment y est lié à x, alors cet estomac est placé pour vous en utilisant Stata. Ce cours, j'utiliserai des données pour illustrer quelques exemples. Au lieu de cela, en tant que logiciel statistique accessible. Il existe de nombreux cours sur la façon dont vous pouvez utiliser la déclaration. Ce cours devriez-vous vous intéresser ? Je ne vais pas vous enseigner les tenants et les aboutissants de Stata, mais je me concentrerai sur l' interprétation de la production. Il existe de nombreux autres progiciels statistiques tels que R ou SPSS qui peuvent faire exactement la même chose. Toutefois, si Stata vous intéresse et que vous souhaitez reproduire certains des exemples de ce cours. J'ai joint les fichiers de code pertinents à ce cours. Je vais utiliser quelque chose appelé le jeu de données de formation automatique intégré. Quelles données ? Pour des exemples pratiques. Ces données sont un ensemble de formation qui contient une variété de variables et de relations utiles. Un autre excellent pour l'enseignement. Vous pouvez également le télécharger dans le cadre de ce cours. Passons à la section suivante en savoir plus sur les méthodes de régression. 2. Qu'est-ce que l'analyse de régression ?: Qu'est-ce que l'analyse de régression ? L'analyse de régression est une technique statistique qui tente d'explorer la relation entre une variable dépendante et une ou plusieurs variables indépendantes. Un autre terme utilisé pour variable dépendante peut parfois être la variable de résultat, la variable de réponse ou la variable endogène. La variable dépendante est normalement désignée par le symbole y. Termes alternatifs pour variables indépendantes ou prédictrices ou variables explicatives ou exogènes. Les variables explicatives sont normalement désignées par le symbole x. Il est courant d'écrire des modèles de régression sous la forme y égale à X1 plus X2 plus X3, etc. Le dernier terme sera un terme d'erreur. Ceci est souvent indiqué par E. Ceci capture tout ce qui manque. Cependant, il existe de nombreuses pratiques différentes. Nous invitons des modèles de régression sous forme mathématique. Nous allons donc éviter tout cela dans ce cours. Les variables peuvent prendre de nombreuses formes et des analyses de régression différentes. Ils peuvent être continus. En d'autres termes, les données peuvent être mesurées n'importe où sur la ligne numérique, trop de décimales. E moins 2,305100.3. Les données peuvent également être au format entier tel que 12345, etc. Les données peuvent également être au format binaire tel que 0 ou un. Ces réponses indiquent souvent des réponses binaires telles que oui et non. Parfois, les données sont ordinales. Les données ordinales sont des données catégorielles classées, telles que des échelles de likert. Enfin, les données peuvent également être normales. Non, il s'agit de données catégoriques qui sont décapsulées. Par exemple, les modes de transport. Il est important de noter que les données doivent toujours être au format numérique. En mathématiques et les logiciels informatiques peuvent très peu faire avec les données de type chaîne. Les données de type chaîne sont des données contenant les lettres et autres caractères non numériques, tels que les points d'exclamation. Les données peuvent également être transformées et il s'agit d'un avenir courant des modèles de régression. Par exemple, prendre le journal de y et en faire la nouvelle variable dépendante est une technique très courante dans l'analyse de régression. Ce faisant, l'interprétation de l'ensemble du modèle sera modifiée. Et clairement, cela doit être soigneusement pris en compte lors de l'utilisation ou de l' analyse de tels modèles. 3. Qu'est-ce que la régression linéaire ?: Qu'est-ce que la régression linéaire ? L'analyse de régression est un terme fourre-tout pour chaque type de méthode de régression. Les méthodes de régression sont souvent divisées méthodes de régression linéaire et non linéaire. Il existe de nombreuses méthodes dans ces deux camps. Dans ce cours, nous nous concentrerons uniquement sur les méthodes linéaires, particulier la méthode des carrés ordinaires, qui est la méthode linéaire la plus populaire. régression linéaire suppose que les paramètres des variables se rapportent à la variable dépendante de manière linéaire. Les paramètres variables sont ce que nous avons essayé d'estimer, mais les modèles de régression et les données trouvent la relation entre x et y. Nous appelons souvent des coefficients de paramètres. Par exemple, un paramètre ou un coefficient d' un signifie que pour chaque changement d'unité en X, Y, la variable dépendante change d'un. Sans être trop technique, régression linéaire suppose que les variables dépendantes sont mesurées en tant que variables continues. Les variables explicatives peuvent être mesurées de n'importe quelle façon. Lorsque la variable dépendante est non continue, la méthode de régression correcte est souvent non linéaire. Cependant, il existe des cas où des méthodes linéaires peuvent être utilisées lorsque la variable indépendante n' est pas continue. Lorsqu'il n'y a qu'une seule variable explicative dans le modèle. En d'autres termes, il n' y a qu'une seule variable x. Nous appelons cela une simple régression. Lorsqu'il existe plusieurs variables explicatives, nous appelons cette régression multiple. La plupart des régressions sont de plusieurs types, car en pratique, nous voulons généralement tester ou évaluer de nombreuses variables par rapport à la variable dépendante y. 4. Pourquoi l'analyse de régression est-elle utile ?: Pourquoi l' analyse de régression est-elle utile ? L'analyse de régression est utile lorsque preuves quantitatives sont nécessaires pour répondre à une question particulière. L'analyse quantitative, par définition, nécessite l' analyse des nombres. Le contraire est une analyse qualitative qui analyse des données non numériques telles que des mots, des histoires, des significations ou des concepts. L'analyse de régression est utile car elle permet de tester des hypothèses. Par exemple, les hommes gagnent-ils vraiment plus que les femmes ? Le chômage dans l' économie est-il lié à l'inflation ? Ou combien de crème glacée est achetée les jours ensoleillés ? On peut répondre à ce genre de questions par des statistiques et vous entendrez souvent un terme statistiquement significatif au niveau de 5 % de cette analyse. Cependant, la régression permet également des prédictions. Parce que les modèles de régression estiment les paramètres ou les coefficients. Ces paramètres peuvent ensuite être utilisés pour calculer de nouvelles statistiques. Cela peut être fait au sein d'un échantillon de données et même en dehors de cet échantillon. Par exemple, après une régression de divers facteurs explicatifs sur les salaires, nous pouvons utiliser les paramètres estimés pour calculer le salaire attendu d'un type de personne très particulier, qu' il s'agisse du échantillon ou non. Cette prédiction constitue une grande force des méthodes de régression et permet aux entreprises, chercheurs et aux décideurs politiques de calculer divers effets. 5. Quels types d'analyse de régression en question ?: Quel type d' analyse de régression existe ? Il y en a beaucoup, trop nombreux à compter. En fait, de nombreuses méthodes de régression avancées seront personnalisées en fonction de la question de recherche pertinente et des données. Cependant, il y a certaines méthodes essentielles que vous devez connaître. Ces méthodes sont principalement fonction de la nature des données , puis de la nature de la variable dépendante. méthode la plus courante est généralement les carrés. Cette méthode nécessite que la variable dépendante soit continue et est souvent appliquée aux données transversales. Les données transversales sont des données qui ne contiennent pas d'éléments de temps répétés. Habituellement, les carrés servent également de base de nombreuses méthodes avancées telles que les moindres carrés pondérés. Prochaines ou trois méthodes non linéaires. Ces méthodes sont non linéaires car la variable dépendante n'est plus continue. Les modèles Logit et Probit sont utiles pour les variables dépendantes binaires. Les modèles logit commandés et probit commandés sont utiles lorsqu'il existe plusieurs catégories ordonnées dans la variable dépendante. les modèles logit multinomiaux sont utiles lorsqu'il existe des catégories nominales, non ordonnées et la variable dépendante. Si vous vous demandez ce que sont les modèles logit et probit, agit simplement de deux façons courantes d' établir une relation non linéaire entre les variables. Bien qu'il existe certaines différences mathématiques entre les modèles logit et probit et les réalités, elles ne font souvent que peu de différence dans les résultats. Notez également que les modèles probit multinomiaux existent également, mais ils ne sont pas fréquemment utilisés, c'est pourquoi je ne les énumére pas ici. Ensuite, nos modèles de panneaux, à la fois linéaires et non linéaires. Il existe de nombreuses méthodes dans chaque catégorie, mais l'avenir commun est qu'elles fonctionnent toutes avec des données collectées à plusieurs reprises au fil du temps. Il peut s'agir de panneaux domestiques courts ou longues séries chronologiques de trading à haute fréquence. Ensuite, les modèles de données de compte, qui sont similaires aux modèles logit et probit, mais vous différenciez légèrement les transformations pour tenir compte des propriétés de compte. Les données. Des exemples de dénombrements sont notamment le nombre de visites chez le médecin ou le nombre de sels de t-shirts. Enfin, les modèles de risque proportionnel Cox sont souvent utilisés lorsqu'une variable dépendante est le temps. Un exemple courant de variable dépendante du temps comme durée de survie des patients atteints d'un cancer. Et cette méthode est souvent utilisée dans les sciences de la santé. 6. Expliquer la régression: Expliquer la régression. Maintenant que nous avons une certaine compréhension de base des concepts derrière analyse de régression et du type de régressions qui existent. Examinons comment cela fonctionne réellement. Si vous êtes un étudiant universitaire, régression est souvent apprise par diverses équations. Souvent, des équations de type matriciel qui ont beaucoup de x et de y et qui sont faciles et utilisables. Ils servent leur but, mais vous n'avez pas besoin de les comprendre pour apprendre comment fonctionne la régression. L'utilisation d'aides visuelles peut obtenir le même effet. Et c'est quelque chose sur lequel nous allons nous concentrer dans ce cours. régression linéaire simple est souvent expliquée par corrélation. Suivez cette approche et continuons lentement à construire les choses plus tard. La corrélation, parfois appelée association ou dépendance, est la relation entre deux choses. Dans les statistiques, ces éléments sont souvent des variables, appelons-les x et y pour l'instant. Notez que les variables x et y sont toutes deux connectées à l'identificateur. Sans cet identifiant, rien de tout cela ne fonctionnera. Ils sont souvent représentés par le symbole I. Et nous pouvons imaginer qu'il s'agisse personnes individuelles, d'entreprises ou pays ou de tout autre élément pouvant relier les deux variables d'intérêt. Ce petit tableau ici, il y a trois identifications, et chaque identification a une valeur y et une valeur de x. Allons de l'avant et visualisons une version plus grande de ce tableau sur le graphique. Je vais tracer 100 points de données sur un diagramme de points où l'axe des Y représente la variable y et l'axe des X représente la variable x. Cette représentation visuelle commence lentement à nous dire quelque chose. Dans ce cas, nous semblons avoir une assez bonne idée qu' ils semblent être une relation positive entre y et x. En d'autres termes, à mesure que x augmente, Y. Cependant, il y a aussi du bruit dans les données. Et cela semble s'agglutiner dans les valeurs de y et x autour de 0. La relation entre les deux variables peut également changer. Par exemple, la relation pourrait devenir plus faible, voire négative. Nous voyons ici un exemple de la façon dont les données peuvent modifier leurs relations les unes avec les autres. La corrélation entre Y et X s'affaiblit, allant jusqu'à l' absence de corrélation, puis devenant négative, nous finissons par une relation qui est presque à l'opposé de ce que nous avons commencé. Visuellement, il est assez facile de distinguer entre les types extrêmes de relations. Cependant, il peut être plus difficile d' identifier visuellement les différences entre seulement des changements mineurs de relation. Jetez un coup d'œil à cet exemple. Voici quelques données corrélées de différentes manières. Il est facile de déterminer une corrélation plus une en dehors d'une corrélation moins une. Toutefois, cette tâche devient plus difficile pour de plus petits changements de corrélation. À première vue, il serait probablement assez difficile d'identifier une différence entre les deux premiers graphiques. Même si la corrélation est différente, il faut regarder de près pour identifier que la relation entre y et x s'est légèrement aplatie dans le deuxième graphique. Cela devient particulièrement délicat s'il y a beaucoup de données. Si nous avions un million de points de données, tout ce que nous verrions, par exemple, c'est une énorme tache bleue. C'est pourquoi nous voulons souvent résumer la relation entre y et x via un processus de réduction des données. 7. Les lignes de mieux adapté: lignes les mieux ajustées, que sont-elles et comment fonctionnent-elles ? Une chose clé à comprendre avant de se lancer dans le concept de la façon de produire des lignes les plus adaptées est qu'il existe deux méthodes que nous pouvons utiliser. Il s'agit de méthodes paramétriques et non paramétriques. Les méthodes paramétriques sont des méthodes qui appliquent un type de paramètre ou plusieurs paramètres aux données. Les méthodes paramétriques sont des méthodes qui appliquent un type de paramètre ou plusieurs paramètres aux données. Souvent, les paramètres se présentent sous la forme d' une équation telle que y est égal à 1. Dans ce cas, le paramètre est un. Cette méthode est la méthode utilisée dans analyse de régression et dans les carrés ordinaires. Et il présente l'avantage de simplicité et de l'utilisation de données de haute dimension. L'inconvénient est qu'il nécessite des hypothèses plus fortes concernant les données. Lorsque ces hypothèses ne sont pas respectées, votre analyse peut être complètement erronée, et souvent, vous ne le savez peut-être même pas. méthodes non paramétriques permettent aux données de parler d'elles-mêmes. Les avantages dont vous avez besoin pour faire moins d'hypothèses sur les relations initiales dans les données. Un gros inconvénient est que cette méthode n'est pas très transposable. En d'autres termes, on ne peut pas facilement en parler à d'autres personnes. De plus, et il devient extrêmement difficile d'utiliser ce type de méthode dans des environnements multidimensionnels, nous utilisons souvent des méthodes non paramétriques pour explorer les relations de base entre Y et X. ce type de méthode dans des environnements multidimensionnels, nous utilisons souvent des méthodes non paramétriques pour explorer les relations de base entre Y et X. méthodes paramétriques pour explorer des relations plus complexes entre y et x1 et x2 et x3, etc. Voyons ce que je veux dire par tout cela. Commençons par un nuage de points de quelques nouvelles données. Dans ce cas, tracons les données du jeu de données altéré du stator et essayons déterminer comment le prix des voitures est lié aux miles par gallon d' essence consommés par les voitures individuelles. Le nuage de points initial nous indique qu'il existe une sorte de relation entre le prix et ses miles par gallon. Cela semble négatif, en d'autres termes, en pente descendante. Essayons maintenant d'estimer de quel type de relation il s'agit exactement. Nous commencerons par une méthode non paramétrique comme la régression. Il existe de nombreuses méthodes non paramétriques. Choisissons une régression polynomiale locale. régression polynomiale locale est une forme de régression mobile. L'utilisateur définit une bande passante ou laisse l'ordinateur en choisir une, puis une régression est ensuite estimée dans cette bande passante. La bande se déplace ensuite continuellement sur l' axe des X, étape par étape et répète cette analyse, les étapes individuelles, puis toutes cousues ensemble pour révéler ce qui est essentiellement un diagramme moyen mobile du données. Voyons comment cela fonctionne dans la pratique. Les méthodes non paramétriques présentées ici se déplacent lentement dans l'espace de données et mettent à jour continuellement la relation entre y et x. Nous voyons que la relation entre y et x commence négativement, mais elle finit par être légèrement plus horizontale. En d'autres termes, la relation entre y et x ici ne semble pas entièrement linéaire. plus grand avantage de cette méthode est qu'elle permet aux données de parler d'elles-mêmes et ne repose pas sur des fonctions spécifiques ou même sur une théorie pour s'adapter aux données. L'un des inconvénients de cette méthode est que la relation nécessite encore une certaine contribution. Dans ce cas, il faut la taille de la bande passante. Si nous changeons la bande passante par quelque chose de plus petit, relation sera différente. Voici un exemple de cela. Un autre inconvénient de cette méthode est qu'il est difficile de transférer cette relation à d'autres utilisateurs. Comment expliquer cette ligne tordue à quelqu'un d'autre ? Nous choisissons souvent une relation paramétrique. La relation paramétrique est une relation qui peut être définie par une certaine équation. Par exemple, un ajustement linéaire à travers les données comporte un dégradé. Et ce dégradé sera le paramètre définissant la relation entre y et x. Tracons une fonction linéaire à travers les données et voyons à quoi cela ressemble. Ici, une ligne linéaire est ajustée à travers les données. Dans ce cas, l'ajustement de la ligne repose sur la réduction de la distance globale entre la ligne ajustée et tous les points de données disponibles. Ce concept est connu sous le nom de moindres carrés, et nous l'examinerons plus en détail lors de la prochaine session. Il sous-tend la méthodologie ordinaire de régression des moindres carrés. Dans ce cas, la ligne ajustée présente une pente particulière de moins 238. En d'autres termes, pour chaque augmentation unitaire en milles par gallon, le prix de revient moyen semble chuter de 238$. Super. Cependant, les lignes paramétriques les mieux ajustées n'ont pas toujours besoin d'être linéaires. Nous pouvons également ajouter une ligne quadratique de meilleur ajustement. Dans ce cas, nous récupérons deux paramètres pour trouver la relation entre y et x. Voici un exemple de cela. Dans ce cas, la relation entre y et x est paramétrée par un seul paramètre qui s'éloigne à mesure que x augmente. Et l'autre paramètre tirant y vers le haut au fur et à mesure que x augmente. Dans ce cas, les paramètres sont approximativement moins 1200 pour chaque augmentation de x et plus 20 pour chaque augmentation de x carré. Ne vous inquiétez pas pour le x carré pour l'instant, je vais explorer cela plus tard. Mais le concept important n'est pas que la forme fonctionnelle des lignes paramétriques de meilleur ajustement peut être rendue très flexible tant que suffisamment de paramètres sont disponibles. Comment tout cela est-il lié à la régression ? Eh bien, c'est précisément une régression, c'est une régression simple où Y est régressé par rapport à une variable x. Que diriez-vous de régression linéaire multiple ? régression linéaire multiple est une extension de la régression linéaire simple, et elle ajoute d'autres variables au cadre mathématique. Un moyen simple de le visualiser consiste à ajouter d'autres dimensions au nuage de points, où chaque dimension supplémentaire représente une variable supplémentaire. Supposons, par exemple, que nous voulions explorer l' impact de MPG sur le prix des voitures. Mais en contrôlant le poids d' une cause, les voitures plus lourdes risquent d'avoir un MPG plus faible. Cela peut avoir une incidence sur le prix. Visuellement, nous pouvons le représenter par un nuage de points tridimensionnel qui représente prix par rapport au MPG par rapport au poids. Cela pourrait ressembler un peu à cela. De plus, en faisant pivoter le nuage de points, nous pouvons examiner la relation que chaque variable explicative a une largeur y, et même examiner comment les variables explicatives sont corrélées entre elles. Enfin, ce que fait l'analyse de régression multiple , au lieu d'estimer une ligne de meilleur ajustement à travers les données, elle correspond à un plan qui correspond le mieux aux données. Cela peut être difficile à visualiser sur un écran, mais voici une tentative grossière avec le mien. Les graphiques de gauche montrent les points de données réels sur un diagramme de points 3D. Alors que les bons graphiques montrent la relation estimée entre ces points de données, cette relation est représentée par un plan 3D. Si d'autres variables sont ajoutées au framework, le plan du meilleur ajustement devient un hyperplan du meilleur ajustement. C'est pourquoi nous entendons parfois des gens parler multidimensionnalité lorsqu'ils font référence à l'analyse de régression. 8. Causalité et corrélation: Causalité contre corrélation. J'espère que les exemples précédents que nous vous aurons donné une bonne compréhension intuitive de ce que l' analyse de régression essaie de faire. Il y a beaucoup de statistiques et mathématiques dans chaque type d'analyse, mais le concept sous-jacent restera toujours le même. L'analyse de régression tente d'indiquer aux utilisateurs comment les données sont liées les unes aux autres d'une manière plus facile à comprendre que d' examiner les points de données brutes. Cependant, il est important d'être très conscient du concept de causalité par rapport à la corrélation. Chaque méthode de régression est une méthode statistique qui met en corrélation les données. C'est ça. Un ordinateur ou une équation mathématique ne peuvent pas identifier ce qui est causal. causalité est toujours interprétée par l'utilisateur final. Et certains modèles permettent meilleures allégations de causalité que d'autres. Les preuves obtenues à partir de l'analyse de régression concernant une relation forte et statistiquement significative entre deux variables peuvent être attribuées à la causalité à travers un cadre théorique convaincant et bon sens. Cela peut nécessiter beaucoup de pratique et devient presque une forme d'art. Parfois, les données sont utiles. Par exemple, si les événements d' hier sont utilisés pour expliquer l'action d' aujourd'hui, l'élément temporel de l'analyse peut être utilisé pour obtenir une meilleure inférence causale. Cependant, dans d'autres contextes tels que les paramètres d' enquête transversaux, il peut devenir beaucoup plus difficile d' attribuer la causalité. Les gens sont-ils heureux parce qu'ils sont en bonne santé ? Ou les gens sont-ils en bonne santé parce qu'ils sont heureux ? Il s'agit de questions difficiles à répondre et nécessitent un raisonnement théorique et philosophique en plus des statistiques. Vous devez donc toujours être prudent lorsque vous traitez une analyse de régression. 9. Qu'est-ce que les carrés ordinaires ?: Qu'est-ce que les carrés habituellement ? Habituellement, les carrés sont une méthode de régression basée sur le concept de moindres carrés. Les moindres carrés est une méthode statistique qui ajuste une ligne, un plan ou un hyperplan du meilleur ajustement en minimisant la somme des valeurs résiduelles carrées entre la ligne de meilleur ajustement et les points de données réels. Nous quadrillons les valeurs dites résiduelles parce que la somme d' entre elles est exactement 0 lorsqu' elles ne sont pas au carré. Par conséquent, les valeurs résiduelles négatives et positives au-dessus et au-dessous de la ligne de meilleur ajustement s'annulent mutuellement. Le quadrillage résout ce problème. existe de nombreuses autres façons d'adapter la ligne de meilleur ajustement. Un exemple consiste à ajuster une ligne selon la méthode des écarts absolus les moins élevés, où la valeur absolue de ces valeurs est prise au lieu des valeurs résiduelles carrées . En d'autres termes, les négatifs sont devenus positifs. Cependant, les moindres carrés sont de loin la méthode la plus populaire. Bien sûr, toutes les sciences. 10. Les carres ordinaires à la surface 1: Explorons visuellement les carrés. Comprenez-le mieux. Imaginez un petit jeu de données avec quelques points de données, un peu comme celui-ci. Habituellement, les carrés correspondent à une ligne à travers ces points de données. Cette ligne peut être linéaire, mais elle peut également être non linéaire. Prenons un exemple linéaire. La ligne rouge représente la ligne de meilleur ajustement estimée par les mécaniciens habituellement carrés. Dans ce cas, la ligne de meilleur ajustement peut être représentée par un seul paramètre de pente appelé bêta. Nous utilisons souvent la lettre grecque bêta pour indiquer la pente d'une droite de régression. Cette pente nous informe de la relation estimée entre y et x. Dans ce cas, y est le prix d' une voiture et x représente le kilométrage et le kilométrage par gallon. La pente est négative, ce qui signifie qu'à mesure que le kilomètre par gallon augmente, le prix des voitures diminue. Cependant, notez que notre pente n'atteint aucun des points de données réels. C'est parce que nous estimons une relation moyenne entre tous les points de données disponibles. Les points de données réels sont souvent appelés points de données observés. En d'autres termes, j'ai observé. La valeur prédite de y à n'importe quelle valeur donnée de x est ensuite donnée par la ligne du meilleur ajustement. Ces points sont appelés points de données prédits ou prédits y. La différence entre la valeur observée et la valeur prédite est appelée valeur résiduelle. C'est ce que les carrés tentent habituellement de minimiser. Vous pouvez voir ici qu'il existe trois points de données et donc trois valeurs résiduelles différentes. La somme des trois est la plus petite valeur que nous puissions atteindre. Dans ce cas, si nous modifions la ligne du meilleur ajustement, par exemple, en déplaçant la ligne du meilleur ajustement vers le bas, la somme totale des valeurs résiduelles augmentera. Il s'agit d'une explication graphique de ce que les carrés tentent habituellement de faire. Il trouve une pente de régression et l'interception qui conduit à la meilleure somme minimale de résidus. Regardons cela avec plus de données. Dans cet exemple, nous allons utiliser toutes les données d'entraînement automatique pour voir ce qui advient de l'erreur quadratique moyenne racine lorsque nous appliquons différentes pentes de régression aux données. Dans le panneau de gauche, nous observons la pente de régression traversant les données. Nous commencerons par une pente positive de plus 100. Sur le panneau de droite, nous voyons la taille des valeurs résiduelles individuelles. Les valeurs résiduelles sont carrées puis carrées pour garantir que seules des valeurs positives ont été établies. La valeur la plus faible qu'un résiduel peut avoir est donc 0. valeurs résiduelles élevées signifient que le point de données pertinent est loin de la ligne de régression réelle. La moyenne de toutes ces valeurs résiduelles est appelée erreur quadrillée moyenne racine des valeurs résiduelles. Et cela est représenté par la ligne rouge. Il nous indique à quelle distance, en moyenne, les points de données se situent par rapport à la droite de régression. Voyons maintenant ce qui se passe lorsque nous changeons de pente. Nous pouvons le constater lorsque nous modifions lentement la pente de la droite de régression à partir de valeurs positives et négatives. L'erreur moyenne entre la ligne et le point de données diminue. Les valeurs résiduelles sont en moyenne baisse lorsque nous diminuons la pente. Cela se produit jusqu'à ce qu' après une certaine valeur de pente, la moyenne des valeurs résiduelles recommence à augmenter à une pente d' environ moins 230. L'erreur moyenne de notre ligne de meilleur ajustement est minimisée. C'est donc notre gamme de produits les mieux adaptés. Bien sûr, ce graphique est une version simplifiée de ce qui se passe. Les modèles de régression peuvent comporter beaucoup plus de variables et donc de nombreux autres paramètres. Et nous aurions besoin de beaucoup plus de dimensions pour afficher de tels modèles graphiquement. Jetons maintenant un coup d'œil à la façon dont les modèles carrés sont souvent présentés par ordinateur. 11. Les carres ordinaires visuels 2: Voici un exemple de la façon dont stator présente la sortie de régression. D'autres programmes informatiques peuvent présenter cela différemment, mais l'essence des informations affichées sera similaire parmi tous les programmes. Souvent, une partie de la sortie de régression affichée informations de diagnostic qui fournissent des informations de haut niveau sur le modèle de régression global. Dans les États. Il s'agit généralement de la partie supérieure de la sortie. La partie inférieure du tableau de sortie présente normalement les coefficients estimés pour les variables pertinentes. Il y a beaucoup d' informations dans ce tableau. Cependant, en général, trois pièces comptent le plus. La première est l'estimation réelle des paramètres. En d'autres termes, les pentes estimées sont des coefficients de lignes ou de plans les mieux adaptés à travers les données pertinentes. Dans les États, c'est ce qu'on appelle DOF, qui est abréviation de coefficient. Chaque variable explicative a une relation avec la variable dépendante, dans ce cas, le prix. Chaque variable explicative est également conditionnelle l'une à l'autre. En d'autres termes, l'effet des milles par gallon, conditionné au contrôle du poids, est arrêté pour chaque augmentation une unité de miles par gallon, le prix baisse de 49$. Le poids effectif est le suivant. Selon les milles par gallon, une augmentation d'une unité de poids entraîne une hausse de prix de 1,7$. La dernière variable est une constante. Constantes sur la valeur que prend la variable dépendante, dans ce cas, le prix dans ce cas, le prix lorsque tout dans le modèle est défini sur 0. En d'autres termes, à un poids de 0 et à 0 mille le gallon, une voiture devrait coûter environ 1946$. Selon ce modèle. Les constantes ont parfois du sens, et parfois elles ne le font pas. Dans ce cas, cela n'a pas beaucoup de sens car la cause n'aurait jamais un poids de 0 ni consommer 0 miles par gallon. Certaines personnes disent que constante doit être supprimée des modèles, surtout lorsqu'elles n'ont pas de sens . Je pense que c'est mal. Il vous suffit de faire attention lorsque vous interprétez les constantes. Souvent, les constantes ne doivent pas être interprétées mais laissées dans le modèle. La prochaine information la plus importante provient de la colonne appelée erreur std, abréviation d'erreur standard. La statistique d'erreur type est une statistique qui révèle avec quel degré de précision le coefficient de pente est estimé. L'erreur type est faible par rapport au coefficient. Nous pouvons alors être plus sûrs que le coefficient estimé est proche du vrai paramètre de population. L'erreur standard est élevée, nous pouvons être moins certains et avoir plus de bruit autour de notre estimation. L'erreur type est importante car elle permet de déterminer dans quelle mesure les coefficients estimés du modèle de régression sont statistiquement significatifs. Les colonnes restantes complètes des sorties des résultats sont tous des calculs supplémentaires de l'erreur standard. Et c'est simplement différentes façons d'identifier la signification. La statistique t, la valeur de p, les intervalles de confiance inférieur et supérieur sont essentiellement la même chose et reposent uniquement sur les la même chose et reposent recalculs de l'erreur type. Nous allons voir ce qu'ils veulent dire dans un instant. Enfin, le troisième élément d'information qui compte le plus est appelé R-carré. Ces informations sont fournies dans les parties de diagnostic de la table de sortie et peuvent être trouvées ici. R-carré est un indicateur courant de l'adéquation de l' ajustement pour les modèles de régression ordinairement carrés. Il est limité entre 01 et les valeurs supérieures indiquent que le modèle Dr. correspond mieux aux données. Cependant, de nombreux utilisateurs professionnels vont s' opposer à une surinterprétation des statistiques R au carré. Les chiffres sont relatifs à la discipline. Si vous travaillez avec des données comportementales telles que les personnes et leurs choix, le R carré de 0,2 ou 0,3 est très courant et indique généralement des modèles adaptés. Si vous travaillez avec des données de séries chronologiques, telles que des mesures macroéconomiques du PIB , les R carrés de 0,8 ou 0,9 sont très courants et indiquent des modèles adaptés. Enfin, parlons un peu plus de la façon dont les coefficients estimés sont liés à la signification statistique. Commençons par une statistique. Cette statistique est un indicateur de signification statistique, et normalement nous recherchons une valeur de 1,96 ou supérieure à une. Nous utilisons un échantillon de taille raisonnable. Des échantillons de taille raisonnable signifient environ 100 observations ou plus parmi les deux. La statistique t est facilement calculée en divisant la valeur du coefficient estimé par la valeur d'erreur type estimée. Notez que lorsque le coefficient est négatif, l'état produira une statistique T négative. Le signe sur la statistique t doit cependant être ignoré. À côté de cela, il y a quelque chose appelé la valeur de p. Il s'agit d'un manque à gagner. valeur de probabilité indique la probabilité d'obtenir les résultats observés d'un test, en supposant que l' hypothèse nulle soit correcte. L'hypothèse nulle dans les tables de régression est normalement qu' un résultat spécifique n' est pas différent de 0. En d'autres termes, les petites valeurs de p signifient qu'il existe preuves plus solides en faveur de l'hypothèse alternative. L'hypothèse alternative est que le coefficient est le coefficient estimé réel en termes profanes et le nombre de 0,05 ou moins dans la KD, statistique significatif au niveau de 95 %, chiffres inférieur à 0,01 indique une signification au niveau de 99 %, et ainsi de suite. Ensuite, nos intervalles de confiance, il y a un intervalle de confiance supérieur et inférieur. Les intervalles de confiance supérieurs et inférieurs sont calculés en ajoutant ou en soustrayant 1,96 fois l' erreur type du coefficient estimé. En d'autres termes, l' intervalle de confiance est généralement deux erreurs standard loin de l'estimation du coefficient. Les intervalles de confiance sont vraiment utiles car ils vous permettent de faire rapidement, je vais faire des tests statistiques. Tout nombre en dehors de la plage d'intervalle de confiance sera statistiquement significativement différent de l'estimation du coefficient. Dans cet exemple, MPG n'est pas statistiquement significativement différent de 0, car 0 se situe dans la plage d'intervalle de confiance. Toutefois, mpg est différent de moins 500 car ce nombre est en dehors de la plage d' intervalle de confiance. Cela peut être un moyen très utile d'effectuer rapidement des tests statistiques. Et il suffit de multiplier l'erreur type par environ deux sommes de carrés. Examinons maintenant la somme des carrés un peu plus en détail. 12. Une somme de carres: Le tableau de régression précédent fournissait également des informations de signal analogique réfléchi sur la somme des carrés expliquée, la somme résiduelle des carrés et la somme totale des carrés. Ces valeurs indiquent la variation expliquée par le modèle ajusté. Quelle est la variation inexpliquée par le modèle ? Quelle est la variation totale des données. En comparant la proportion de la somme des carrés expliquée à la somme totale des carrés, nous pouvons produire quelque chose appelé coefficient de détermination, souvent appelé R carré. R au carré. La valeur R carré est une mesure largement utilisée de l'ajustement pour les modèles habituellement carrés. La valeur indique dans quelle mesure le modèle s'adapte aux données. Les valeurs d'un seul moyen, un ajustement parfait. Les valeurs de 0 signifient un ajustement terrible. Toutefois, le carré R de base ne peut augmenter que lorsque des variables plus explicatives sont ajoutées au modèle. En d'autres termes, les modèles comportant des centaines de covariables aléatoires peuvent saturer les données et produire des statistiques d'ajustement artificiellement élevées. C'est pourquoi nous signalons souvent également le R carré ajusté, qui impose des pénalités. Deux autres variables sont ajoutées, deux modèles. Si les variables supplémentaires ne sont pas statistiquement significatives, elles réduiront la valeur R carré ajustée. Cette statistique tente de trouver un équilibre entre des modèles gratifiants, bons modèles et de surcharge avec des variables inutiles. Cependant, il convient de noter que R-squared peut être facilement abusé et doit être traité avec prudence. Les carrés R élevés n'impliquent pas nécessairement qu'un modèle est plus valide qu'un autre. Jetons un coup d' œil à cet exemple. Dans cette démonstration, je vais modifier le niveau de bruit autour de la ligne de meilleur ajustement. La vraie relation entre y et x est une. Et c'est ce qui est estimé par la ligne du meilleur ajustement. Les données originales ont très peu de bruit et la ligne de régression atteint presque tous les points de données, ce qui donne un R carré de 1. Allons maintenant et modifions ce niveau de bruit autour de la vraie ligne de régression. Nous pouvons maintenant voir les changements au carré R rapidement à mesure que nous augmentons le bruit autour des données. La valeur du R-carré baisse rapidement, ce qui suggère que le modèle s'adapte de pire en pire à ces données. Cependant, le modèle reste le même. Ce qui change, c'est uniquement le bruit autour des données. Les données bruyantes entraînent la valeur R carré inférieure. Et l'observateur profane pourrait prétendre qu' il s'agit d'un modèle de sondage. Mais comme vous pouvez le constater, la relation entre y et x n'a pas du tout changé, et le modèle continue de récupérer la valeur correcte du coefficient. Dans ce cas, les deux modèles ont la même validité, même s'ils ont des valeurs R au carré différentes. Et c'est pourquoi je veux que vous soyez toujours prudent quand vous êtes au carré. L'exemple R carré nous amène à notre prochain point de discussion. 13. Meilleur estiment de Unbiased linéaire et de l'un des meilleurs de Unbiased linéaire: Meilleur estimateur linéaire impartial. Habituellement, les carrés sont définis comme étant le meilleur estimateur linéaire impartial. Certaines conditions sont vraies. Il est important de comprendre ces conditions , car certains sont plus importants que d'autres. Ces conditions sont souvent appelées hypothèses de Gauss-Markov et se réfèrent à des hypothèses particulières qui doivent être faites aux données buccales. Si ces hypothèses sont respectées , on dit que l' estimateur des carrés habituels est impartial. En d'autres termes, les résultats obtenus par l' estimation seront en moyenne corrects. Si les hypothèses de Gauss-Markov sont respectées. L'estimateur OLS sera également présent. Meilleur estimateur. Best est un autre mot pour désigner l'efficacité et les statistiques. Cela signifie simplement que l'estimateur ordinaire des moindres carrés produira les résultats les plus précis avec le moins de bruit. Examinons ces deux concepts un peu plus loin avant de discuter des hypothèses réelles. L'efficacité fait référence à la largeur de la distribution d'échantillonnage. Lorsqu'un estimateur est considéré comme le plus efficace, distribution d'échantillonnage est inférieure à celle de n'importe quel autre estimateur. Nous pouvons le visualiser facilement en supposant que nous ayons deux estimateurs différents, une quantité infinie de données. À partir de cette quantité infinie de données. Allons de l'avant et sélectionnons un petit échantillon, puis essayons d'estimer un coefficient particulier pour une variable. Nous allons utiliser un estimateur inefficace et un estimateur efficace. Nous allons définir la valeur réelle du coefficient à un seul. La première fois que nous estimons les coefficients à l'aide des deux estimateurs, nous renvoyons une valeur d' environ moins six pour l'estimateur inefficace et moins deux pour l'estimateur efficace. Allons de l'avant et répétons ce processus. La deuxième fois, nos estimations se rapprochent. L'estimateur inefficace prédit une valeur d'environ moins un et l' estimateur efficace d'environ 0. Les deux sont encore une source de valeur réelle, mais l'estimateur efficace semble se rapprocher. Nous allons maintenant répéter ce processus rapidement, des centaines de fois, et voyons ce qui se passe. Les deux estimateurs obtiennent en moyenne la valeur correcte d'un. Toutefois, l' estimateur inefficace est en moyenne plus éloigné de ses prévisions que l'estimateur efficace. C'est le concept d'efficacité. Et une fois que nous ne disposons normalement pas d'une quantité infinie de données, ce concept est souvent visible dans les erreurs standard du résultat réel. Dans les estimateurs efficaces, les erreurs de type sont généralement élevées, ce qui entraîne une plus grande incertitude autour de la valeur estimée réelle. Explorons ensuite le concept d'impartialité. Quand on dit qu'un estimateur est impartial. Cela signifie que la distribution moyenne d'échantillonnage des estimations des coefficients se rapprochera du coefficient de population réel. Nous pouvons le visualiser facilement en supposant que nous ayons deux estimateurs différents et qu' une quantité infinie de données sélectionnera un petit échantillon de données sélectionnera un petit échantillon de ces données et essaiera d'estimer un particulier. coefficient. La valeur réelle de ce coefficient est définie sur un, ce qui est indiqué par la ligne rouge pointillée. Nous utilisons un estimateur biaisé et impartial pour estimer le même coefficient. Le premier passé produit une estimation d'environ 0 pour l'estimateur biaisé, 1,5 pour l'estimateur impartial. Maintenant, refaisons-le. Au deuxième passage. Le rendement de l'estimateur biaisé est meilleur avec le résultat de trois comparativement à l'estimateur impartial avec le résultat de cinq. Mais continuons et répétons ce processus. Plusieurs fois. Nous répétons le processus, nous voyons qu'en moyenne, l'estimateur impartial commence à prédire une valeur de 1. Quel est l'estimateur impartial qui prédit la valeur moins un. Il peut évidemment s'agir d'un gros problème. Par exemple, l'objectif peut être d'effectuer une évaluation de stratégie. Et un estimateur biaisé estime que la politique a un effet négatif. En réalité, cela pourrait avoir des effets positifs. préjugés constituent un problème sérieux en économétrie. règle générale, les carrés exigent des hypothèses assez strictes pour que les estimations soient impartiales. Il est donc important d'avoir une certaine compréhension des hypothèses derrière les carrés ordinaires. 14. Les hypothèques Gauss-Markov: Hypothèses de Gauss-Markov. Les hypothèses de Gauss-Markov sont les hypothèses sous-jacentes qui font des carrés ordinaires l'estimateur impartial le plus efficace. En général, quatre conditions majeures sont nécessaires pour atteindre ce résultat. agit de l'hypothèse d' homoscédasticité, la tenue du bloc-notes appelée hypothèse de linéarité, de l'hypothèse des paramètres et de la moyenne conditionnelle 0, parfois appelée hypothèse d' exogénéité. En gros, les deux premiers concernent l'efficacité, tandis que les deux derniers concernent le biais. Expliquons chacun à tour de rôle et essayons de déterminer ce qui compte le plus. 15. Homoskedasticity: L'hypothèse de l'homoscédasticité. Cette hypothèse indique que la variance des valeurs résiduelles reste stable sur l'ensemble du spectre des variables indépendantes. En d'autres termes, les erreurs produites par variable restent peu près constantes chaque fois que nous examinons une petite partie de cette variable, la valeur de cette hypothèse conduit à des erreurs standard d'achat. Cela signifie que nous ne pouvons pas compter sur des tests d'hypothèses. Cependant, de nombreux paquets statistiques modernes peuvent facilement tester et corriger cette hypothèse. Il est très courant, par exemple, utiliser ce qu'on appelle des erreurs standard robustes, ce qui a légèrement augmenté l'inefficacité des estimations, mais les rend immunisés contre l' échec de cette hypothèse. Allons de l'avant et regardons un exemple. Dans cette vidéo, il y a deux graphiques. Le graphique de gauche montre la relation entre la variable explicative x et la variable dépendante y. La relation globale ne change jamais, mais la variance entre x le sera. Dans le bon graphique, nous voyons les valeurs résiduelles ou les erreurs de x. Il montre la distance entre les points de données réelles et la ligne du meilleur ajustement. Le graphique de gauche montre également l'estimation de la pente et l'erreur type d' une régression normale des moindres carrés ordinaires et d'une régression robuste des moindres carrés ordinaires. allons maintenant lancer cet exemple et examiner ce qui se passe lorsque nous introduisons une variance changeante entre x. Nous constatons que lorsque nous augmentons la variance entre x, le coefficient de régression réel ne change jamais. Cependant, les erreurs standard augmentent à mesure que nous augmentons la variance entre X. De plus, les erreurs standard robustes augmentent un peu plus. Tout cela signifie que l' échec de l'hypothèse d' homoscédasticité conduit à des estimations moins précises. le monde réel avec les jeux de données modernes, l'échec de cette hypothèse a souvent peu d'effet global sur les résultats réels, et la plupart des praticiens ne se concentrent pas beaucoup sur cette hypothèse. 16. Pas de Collinearity parfaite: Aucune co-linéarité parfaite. Cette hypothèse indique qu' une variable explicative ne peut pas être une combinaison linéaire exacte d'une autre variable explicative. Si tel est le cas, carrés ne peuvent généralement pas être estimés. C'est rarement un problème dans la vie réelle, car vous n' entrerez jamais la même variable deux fois dans une régression. Cependant, lorsqu'il existe une corrélation partielle entre deux variables, est-à-dire qu'elles mesurent la même chose dans une certaine mesure. Ensuite, nous appelons cette multicolinéarité. Cela peut avoir un certain effet sur nos estimations. Plus précisément, cela augmentera le bruit et donc les erreurs standard de nos estimations. Ce phénomène est généralement facile à tester et aussi facile à gérer, mais soit en excluant les variables , soit en les transformant. Voyons un exemple. Dans cet exemple, j'ai généré un jeu de données comportant cinq variables explicatives différentes. Ceux-ci vont de x1 à x5. Chaque variable X a un coefficient d'un. Le graphique de droite présente les estimations d'une régression ordinaire des moindres carrés et de l'intervalle de confiance associé à 95 % autour de ces estimations. Nous pouvons voir que les carrés estiment généralement une valeur d'environ un pour chacune des cinq variables. Sur le graphique de gauche, nous voyons la corrélation entre x1 et x2. Actuellement, il n'existe aucune corrélation entre les deux variables, c'est pourquoi les points de données sont dispersés de manière aléatoire. Allons de l'avant et voyons ce qui se passe lorsque nous commençons à introduire une corrélation entre x1 et x2 et que nous forçons lentement X1 et X2, mesurez la même chose. Au début, il ne se passe pas grand-chose, mais alors que la corrélation entre les deux variables augmente, l'erreur standard et donc les intervalles de confiance des arrêts x1 et x2 augmentent. Cela arrive jusqu'à ce qu'ils explosent vers la fin. C'est l'effet de la colinéarité. Une colinéarité élevée entre les variables conduit à des estimations très bruyantes. Mais comme vous le voyez, le bruit Explosion ne se produit que vers la toute fin. Et dans la plupart des scénarios réels, les effets de la colinéarité sont à peine perceptibles. 17. Paramètres linéaires: L'hypothèse suivante est que le modèle est linéaire en paramètres. Cette hypothèse signifie que la relation entre les axes y et z dans le modèle de carrés ordinaires est linéaire. En d'autres termes, les estimations des coefficients prennent des valeurs uniques et ne peuvent être ajoutées ou soustraites que, qui ne peuvent être exponentiées, divisées ou multipliées. En général, cette hypothèse facilite l' interprétation des modèles de régression des carrés ordinaires. Notez que cela ne s' applique qu'aux coefficients réels. Les variables peuvent être transformées de n'importe quelle manière , y compris de manière non linéaire. Nous appelons souvent cette forme fonctionnelle et nous pouvons varier la forme fonctionnelle à notre guise dans la régression ordinaire des moindres carrés. Par exemple, il est courant d'ajouter des polynômes de variables d' ordre supérieur à une équation de régression. L'exemple couramment utilisé est H et H au carré, où les deux variables sont saisies séparément. Cela a pour effet d'introduire une courbe dans la ligne du meilleur ajustement. Les variables peuvent également être interactives entre elles. Et nous appelons cela des effets d'interaction. Cela signifie que les lignes de meilleur ajustement peuvent prendre des formes fonctionnelles très compliquées. Allons de l'avant et regardons un exemple. Dans cet exemple, il existe deux graphiques. Le côté gauche montre le diagramme de données des données automatiques où le prix des voitures est tracé par rapport au MPG. Le graphique de droite montre les valeurs résiduelles ou la distance entre les points de données individuels et la ligne du meilleur ajustement. La distance moyenne est représentée par la ligne horizontale rouge. La relation initiale tracée à travers les données est linéaire. Mais il devrait être assez évident que cette relation ne convient probablement pas. Introduisons donc un quadratique dans cette relation et augmentons lentement le coefficient sur le terme quadratique à partir de 0. Voici ce qui se passe. La ligne du meilleur ajustement commence à se courber vers le haut, ce qui donne un meilleur ajustement à cette courbe. Et nous pouvons voir les valeurs résiduelles descendre, surtout pour des valeurs plus élevées de MPG. ajustement du modèle s'améliore. À un moment donné, nous surdimensionnons le modèle en augmentant continuellement le coefficient quadratique , puis l'ajustement du modèle s' aggrave à nouveau. Cet exemple met en évidence la puissance de la forme fonctionnelle. Le modèle est toujours linéaire en paramètres car les deux coefficients estimés sont uniquement ajoutés ou soustraits. Mais la manipulation carrée de x conduit à une forme fonctionnelle non linéaire complexe qui améliore l'ajustement du modèle. 18. Le moyen conditionnel à zéro: 0 moyenne conditionnelle, souvent appelée hypothèse d' exogénéité. Cette hypothèse est l'une des hypothèses les plus importantes dans les carrés ordinaires. L'hypothèse indique qu' il n'y a pas de corrélation entre une variable explicative X et le terme d'erreur. L'échec de cette hypothèse entraîne un biais dans l'estimation du coefficient. Cette hypothèse peut souvent échouer dans la vraie vie. Et parce qu'il implique le terme d'erreur, qui par définition n' est pas observable, ne peut jamais être testé. Une bonne règle générale est que chaque fois qu' une variable est un choix, surtout dans un choix individuel , elle est susceptible d'être influencée par des facteurs qui ne sont pas observés. Par conséquent, une relation avec le terme d'erreur peut exister. Jetons un coup d'œil à un exemple. Dans cet exemple, j'ai configuré un jeu de données simulé qui contient à nouveau cinq variables explicatives. Chaque variable est un coefficient d' un par rapport à y, la variable dépendante. Sur le graphique de droite, nous pouvons voir les estimations des moindres carrés du propriétaire individuel et l'intervalle de confiance associé pour chacune des cinq variables. Les résultats corrects sont affichés par la ligne rouge verticale. Sur le graphique de gauche, nous voyons la corrélation entre la variable x1 et le terme d'erreur. Notez qu'en réalité, nous ne pouvons jamais observer cela car le terme d'erreur nous sera toujours caché. n'est que dans cet exemple simulé que nous pouvons voir le terme d'erreur. La corrélation initiale entre X1 et le terme d'erreur est définie sur environ 0. Maintenant, augmentons la corrélation entre X1 et le terme d'erreur et voyons ce qui se passe. Nous observons que l'estimation des carrés habituels pour x1 s'écarte lentement de sa valeur réelle. Plus nous augmentons la corrélation entre X1 et le terme d'erreur, plus le biais de notre résultat est élevé. Cela peut poser un réel problème dans le travail appliqué. Lorsque nous avons un tel problème, nous appelons souvent cela l'endogénéité. 19. Comment tester et corriger Endogeneity: Comment tester et corriger l'endogénéité, il n'est pas possible de tester quelque chose qui ne peut être vu. C'est pourquoi les bons modèles de carrés ordinaires sont fortement étayés par des cadres théoriques, littérature antérieure et une argumentation rationnelle. Cette hypothèse est également la raison pour laquelle de nombreux scientifiques soutiennent que l'exploration de données constituerait habituellement des carrés de modèles. approches d'exploration de données augmentent la probabilité que la condition d' exogénéité échoue et que les résultats deviennent biaisés. Dans le monde réel. La façon de faire face à l'endogénéité est souvent de plus en plus de données, de meilleurs modèles et de formes fonctionnelles plus réfléchies . Et aussi parfois simplement accepter que les modèles peuvent avoir un certain biais. 20. Les hypothèses Gauss-Markov: Récapitulons les hypothèses de Gauss-Markov. L' hypothèse des paramètres linéaires est une condition qui exige que tous les bêtas soient additifs. Cela signifie, en termes simples, que les variables dépendantes doivent être continues. Mais cela ne signifie pas que la relation entre Y et X doit être linéaire. Des formes fonctionnelles plus complexes peuvent être utilisées dans des modèles de régression généralement carrés. violation de l'hypothèse moyenne conditionnelle 0, souvent appelée hypothèse d' exogénéité, peut entraîner des estimations biaisées. Il s'agit là d'une hypothèse très importante. Il n'est pas possible de le tester. Statistiquement. L'identification ou la défense contre elle doit se faire pour des raisons théoriques. Il n'y a pas de solution facile si cette hypothèse est violée. Les options consistent à inclure des variables manquantes dans le modèle de régression, à tenter d'autres techniques d'identification ou à générer des méthodes de type de simulation qui tentent d' identifier la taille et la direction de tout biais potentiel. L' hypothèse d'absence de co-linéarité parfaite doit être respectée, sinon la régression des carrés ne fonctionnera pas. Toutefois, une colinéarité plus faible entre les variables entraînera une augmentation des erreurs standard. Heureusement, les erreurs standard ne font qu'exploser. Ils sont des corrélations extrêmes. Et cela peut être testé et corrigé en des variables ou en les transformant. violation de l'hypothèse d' homoscédasticité entraîne des erreurs standard incorrectes. Il est facile de tester l'utilisation tests statistiques appropriés et facile à corriger avec des erreurs standard robustes incluses dans presque tous les progiciels statistiques. 21. Exemples appliqués: Examinons certains de ces concepts dont nous avons discuté dans un environnement plus appliqué. Nous sommes maintenant dans Stata, un progiciel statistique couramment utilisé pour analyser les jeux de données quantitatifs. Il est similaire à d'autres paquets tels que SPSS ou SAS. Je n'expliquerai pas comment faire fonctionner le stator, le code que j'exécute pour obtenir les résultats. Vous pouvez en savoir plus sur l'état spécifique des données. Les cours. Vous avez déjà ouvert un jeu de données d'entraînement appelé auto. Allons de l'avant et examinons cela un peu plus près avant de commencer à faire régressions. Une erreur courante consiste à commencer à analyser rapidement les données avant de bien comprendre ce qui se trouve réellement dans les données. ensembles de données modernes peuvent être très complexes. Et plus souvent, le temps consacré à la préparation et à la manipulation des données l' emportera sur le temps consacré à l'analyse de régression réelle. Décrivons les données pour voir ce que nous avons. Le retour en sortie par le scribe produira des informations de haut niveau sur les données, telles que l'endroit où elles se trouvent, nombre d'observations et nombre de variables incluses. Dans ce cas, nos données contiennent 74 observations et 12 variables. Ce n'est pas très grand. Il a également un titre qui nous indique que ces données sont liées aux voitures datant de 1978. Vous trouverez ci-dessous des informations sur les variables. L'une d'elles est une variable de chaîne qui contient les noms des types de voitures, et les autres sont tous en variables numériques. Imaginons que nous sommes vraiment intéressés à expliquer les déterminants du prix de la voiture. Nous pouvons déjà commencer à construire une image dans notre tête. Quelles sont les variables qui peuvent être importantes expliquer le prix d'une voiture ? Le poids et le kilométrage semblent être des variables importantes. Ou le tournant est probablement moins important pour la plupart des gens qui achètent des voitures. Examinons ensuite quelques statistiques récapitulatives des données pour avoir une idée de la façon dont les variables sont mesurées. Et distribué. Le prix semble être mesuré en dollars et la voiture la moins chère coûte environ 3 000$. Bien que la voiture la plus chère coûte environ 16 000$. Ces prix semblent raisonnables pour 1978. Nous constatons également que la variable web 78 comporte des observations manquantes. Il n'en compte que 69 au lieu de 74. La plupart des variables semblent également être mesurées en continu. Cependant, il semble que la variable étrangère soit mesurée comme une nouvelle variable de grange. Allons de l'avant et confirmons cela rapidement. En tabulant le forum, nous constatons qu'en effet l'étranger est mesuré comme une variable de liaison autour de 29 % des voitures étrangères. Allons de l'avant et estimons certains modèles de régression habituellement carrés. Plutôt que d'entrer immédiatement dans un modèle complet avec de nombreuses variables et termes d' interaction. Construissons-le lentement et interprétons la sortie et les diagnostics à chaque étape. La variable étrangère mène à une simple question de voitures étrangères plus chères que les coûts domestiques ? Nous pourrions répondre à cette question en calculant rapidement la moyenne des deux sous-ensembles de données et en comparant simplement les moyennes. Cependant, nous pouvons également atteindre la même chose dans un cadre de régression. Permettez-moi de vous montrer que ce code régresse la variable explicative étrangère par rapport au prix variable dépendant. Les résultats de régression de ce tableau sont assez faciles à interpréter. Mais avant de le faire, examinons rapidement quelques diagnostics. La régression comprend 74 observations. C'est donc bien. n'y a pas d' observations manquantes. La statistique S n'est pas significative. Nous recherchons ici des valeurs inférieures à 0,05. Les valeurs supérieures à 0,05 utilisent ce modèle total. En d'autres termes, toutes les variables notre régression ordinairement carrées, n'expliquent pas comment les baies sont tarifées. De même, le carré R est extrêmement bas. valeur de 0,0024 signifie que nous n' expliquons presque rien en termes de variation de prix avec la variable étrangère. Allons maintenant regarder les résultats. Nous avons une variable appelée étrangère. s'agit toutefois d'une variable finale et non d'une variable continue. Ces variables ont l'interprétation suivante. Si la valeur de la variable passe de 0 à un. En d'autres termes, si une voiture passe d'une voiture de location domestique à une voiture étrangère, quel point le prix de revient augmentera-t-il ? La réponse ici, c'est qu'il est payant de 312$. Cependant, nous constatons également que l'erreur type autour de cette estimation est assez importante. L'erreur standard est de 754$. Cela signifie que la statistique t associée est inférieure à 1,96. La valeur de P est supérieure à 0,05. Cela signifie que cette variable n'est pas statistiquement significative au niveau de 95 %. Nous avons une idée de l'incertitude en examinant l'intervalle de confiance. Cela varie entre moins 1200$ plus 1800$. La vraie valeur est quelque part là-dedans, mais comme l' intervalle de confiance dépasse 0, nous ne pouvons pas revendiquer la signification statistique par rapport à la valeur 0. Enfin, n'oubliez pas que l'effet d'une variable est subordonné aux autres contrôles. Dans ce cas, il n'y a pas d'autres variables dans le modèle, mais il existe une constante. Et la constante est la valeur du prix, est-ce que tout le reste est réglé sur 0. En d'autres termes, si une voiture est domestique et qu'elle est une valeur étrangère, elle est définie sur 0. Il en coûtera 6 000$. Une voiture étrangère coûte 312$, plus coûterait environ 6 300$. Nous pouvons également visualiser cela. Nous constatons ici l'effet estimé des voitures étrangères sur le prix. Les coûts intérieurs sont moins chers en moyenne, et les coûts étrangers sont plus chers de 312$. Mais l'intervalle de confiance des deux valeurs est si important qu'elles ne sont pas statistiquement différentes. Super. Allons de l'avant et augmentons le nombre de variables de notre modèle. Nous pouvions jeter toutes nos variables et simplement voir ce qui reste. C'est ce que ferait généralement une approche d'exploration de données. Stata possède diverses capacités d' exploration de données, y compris la régression progressive qui éliminera automatiquement les variables qui ne sont pas statistiquement significatives. Toutefois, cette approche pose des problèmes conceptuels. L'un des problèmes les plus importants est qu' il empêche les utilisateurs de penser au problème en cause et ne leur permet pas de comprendre comment cette analyse de données est liée au sous-jacent. théorie ou leurs hypothèses de recherche. Pour cette démonstration, allons-y et ajoutons lentement une variable après une autre à notre modèle de régression. Nous ne supprimerons pas le téléphone même s'il est insignifiant, car l'ajout d' autres variables peut modifier son effet. Allons de l'avant et ajoutons des kilomètres par gallon à notre modèle. Il est maintenant intéressant de constater que des changements immédiats et significatifs se sont produits. Notre R carré a grimpé de façon spectaculaire à 0,28. Le R carré ajusté est un peu plus bas à 0,26, mais il reste beaucoup, beaucoup plus élevé qu'auparavant. Notre nouvelle variable MPG est statistiquement très significative avec une petite erreur type. Et ils cachent la statistique T. Chaque augmentation d' une unité de mpg. En d'autres termes, les coûts qui deviennent plus économes en carburant réduiront le prix de la voiture de 294$. Cependant, nous constatons également que l'effet des voitures étrangères a augmenté de façon spectaculaire pour atteindre 1700$. L'erreur standard est tombée un peu par rapport à 752, maintenant 700. La variable est maintenant statistiquement significativement différente de 0. Quelle grande différence une variable peut être terme modèle. Il est important de noter que nous pouvons expliquer ce changement. Il s'avère que les coûts étrangers ont un nettement plus élevé de miles par nombre nettement plus élevé de miles par gallon que les voitures domestiques. Et une fois que ce facteur est contrôlé le prix réel des coûts étrangers est plus élevé que pour les coûts nationaux. Cela est dû au fait que l'effet de mpg est négatif sur le prix. Parce que les voitures étrangères ont des MPG plus élevés, leur prix était plus bas. Maintenant que cet effet est contrôlé et donc retiré du prix. L'effet réel d'une voiture étrangère est qu'elle cause un prix, le riz. C'est un exemple parfait de l'hypothèse d'exogénéité dont je parlais lors de la session précédente. Nous avons admis une variable importante du modèle de régression. Et la variable explicative que nous avons incluse était corrélée à la variable That's importante dans le terme d'erreur. Par conséquent, le résultat précédent était biaisé. Cependant, parce que nous avons maintenant déplacé la variable fautive MPG du terme d'erreur vers le modèle de régression. Nous contrôlons cela. Et j'espère. On a produit une estimation moins biaisée. Cela montre vraiment l'importance d'une construction de modèles minutieux. Allons de l'avant et introduisons une troisième variable à notre modèle. poids. Le poids est susceptible d'être une variable importante car les voitures lourdes ont besoin de plus de matières premières, mais aussi parce qu'un coût plus élevé n'affectera probablement pas le nombre de MPG. Et nous savons que cela affecte à son tour l'estimation étrangère. Nous allons donc l'ajouter à notre modèle de régression. Regardez-moi ça. Maintenant, le R carré saute à nouveau d'une grande marge. De plus, nos effets estimés ont de nouveau changé. Expliquons-le encore une fois par le haut. Le nouveau poids variable est statistiquement significativement différent de 0 en raison d' une petite erreur type, d' statistique t élevée et d'une faible valeur de p, l'effet est positif. En d'autres termes, chaque livre supplémentaire de poids sur la voiture augmente le prix de 3,46$. L'effet de mpg est désormais positif plutôt que négatif. L'inclusion du poids renverse le signe de cette estimation. hausse des coûts MPG entraîne désormais une hausse des prix. Bien que cet effet ne soit pas statistiquement significatif. C'est logique. Après tout, plus de kilomètres par gallon, voitures sont plus économes en carburant et économisent de l'argent. Cela peut nécessiter une meilleure technologie et, par conséquent, ces voitures peuvent coûter plus cher. Cependant, l' effet précédent était masqué par le fait que les voitures plus lourdes Hepworth kilométrage. Maintenant que cela est contrôlé pour l'effet de MPG est devenu moins biaisé. De plus, étant donné qu' il y a un effet de choc de MPG sur le statut étranger, nous voyons maintenant que les voitures étrangères passent à 3 600$ avec une erreur type inférieure de 680. Il s'agit d'un autre exemple important de barres de régression. variables explicatives importantes ont été laissées dans le terme d'erreur. Supposons un instant que nous avons terminé notre construction de modèles et que nous sommes satisfaits des spécifications que nous avons. L'étape suivante consiste généralement à réaliser certains types de statistiques gnostiques, en particulier en ce qui concerne l'hypothèse de Gauss-Markov discutée lors de la session précédente. Malheureusement, l'hypothèse d' exogénéité ne peut pas être testée et ne peut être déduite qu'en ajoutant d'autres variables au modèle comme il vient de le montrer ou en résultant à la théorie. Nous pouvons cependant tester l'hypothèse d' homoscédasticité. Allons-y et faisons-le. Voici les données effectuées un test d'homoscédasticité. Les résultats montrent que l'hypothèse nulle d' une variance constante est rejetée en faveur de l'hypothèse alternative de l'hétéroscédasticité. En d'autres termes, variance variable. Nous pouvons également explorer cela visuellement en examinant les valeurs résiduelles. Ici, nous avons tracé les valeurs résiduelles par rapport aux valeurs ajustées. Ce diagramme résiduel par rapport à celui ajusté montre comment les valeurs résiduelles sont réparties autour du plan des valeurs les plus ajustées proches de 0 signifient un bon ajustement. Nous pouvons clairement voir sur ce graphique que lorsque nous passons de valeurs basses ajustées à des valeurs de prix ajustées plus élevées, la variance des valeurs résiduelles autour de 0 augmente. Il s'agit d'une preuve claire de l' évolution de la variance et doit être réglée. Nous pouvons soit utiliser des erreurs standard robustes, soit spécifier une autre forme fonctionnelle qui tente de supprimer cette variance changeante. L'amélioration de l'ajustement du modèle est souvent une meilleure première option. Et dans ce cas, le problème pourrait être causé par le fait que, comme beaucoup de variables de prix, prix de la voiture a une longue queue. Souvent, nous transformons ces variables avec des journaux. Allons-y et faisons-le. Maintenant, exécutons une nouvelle régression avec la variable dépendante comme prix du journal plutôt que prix. Voyons ce qui se passe. À première vue, on dirait que tout a changé. Les coefficients sont complètement différents. Cependant, étant donné que nous avons maintenant transformé la variable dépendante, toutes les variables explicatives concernent le prix du journal et non le prix. Cela signifie que leur interprétation est légèrement différente. Maintenant, une augmentation de poids d'une unité augmente le prix de la bûche d' une voiture de 0. Pour. Cela peut être un moyen plutôt gênant d'interpréter les estimations d'un modèle. Nous lisons donc souvent transformer les coefficients pour les rendre plus faciles à comprendre. Lorsqu'un modèle de régression n' a pas de transformation de journal, ce soit pour la variable dépendante ou pour la variable explicative. Nous appelons cela un modèle de niveau. L'interprétation est simple. Lorsqu'une variable explicative est déverrouillée, l'interprétation du coefficient change en fonction du pourcentage d'augmentation de X. Provoque une bêta divisée par 100 unités de variation en y. Lorsque le modèle possède un journal variable dépendante, l'interprétation change en un changement d'une unité en x, provoque une variation bêta fois 100 % de Y. Lorsque le modèle est un modèle log-log, l'interprétation est qu'ils changent de 1 % en x provoque une variation bêta en pourcentage de y. Ainsi, dans ce cas, un changement de poids d'une unité provoque une augmentation de 0,0004 fois 100 équivaut à une augmentation du prix de 0,04 %. De même, les coûts étrangers coûtent maintenant environ 53 % de plus en termes de prix. Revenons maintenant en arrière et testons l' hypothèse d'homoscédasticité. Une fois encore. La statistique de test révèle que nous pouvons maintenant accepter l'hypothèse nulle de l'homoscédasticité. Nous pouvons également le visualiser à nouveau à l'aide du diagramme résiduel par rapport à celui ajusté. Nous pouvons voir ici qu'au fur et à mesure que nous avançons sur les valeurs de prix ajustées, l'écart des valeurs résiduelles autour la ligne horizontale 0 est beaucoup plus uniforme. C'est la preuve visuelle que notre modèle comporte désormais des erreurs homoscédastiques que nous pouvons accepter cette hypothèse particulière. Ensuite, allons vérifier la co-linéarité. Ces tests de facteur d'inflation de variance mettent en évidence dans quelle mesure chaque variable gonfle la variance du modèle. Des valeurs élevées supérieures, disons, 50 ou plus. Des variables particulières indiquent que ces variables sont co-linéaires avec d'autres variables. Ici, il n'y a aucune preuve de colinéarité élevée dans notre modèle car toutes les variables ont des valeurs de facteur d' inflation de variance très faibles. Enfin, nous pouvons également introduire formes fonctionnelles plus compliquées. Les paramètres doivent être linéaires, mais les variables peuvent être transformées et offrent des formes plus complexes que de simples relations linéaires. Par exemple, nous pouvons inclure une variable au carré de poids dans la régression pour permettre l'existence d'une relation quadratique entre le prix du journal et l'attente. Ces nouveaux états de régression sont inclus, attendent et attendent une variable carrée. Il est important que les variables interactives soient analysées ensemble. Bien que la variable de poids ne soit pas statistiquement significative, la variable de poids carré est statistiquement significative. Et moi, des tests joints devraient être effectués sur les deux pour voir si la paire est significative ou non. Supposons un instant qu'ils sont significatifs ensemble. L'interprétation de la sortie devient un peu plus compliquée. Mais les effets d'interaction peuvent également être visualisés et des états, je peux le faire pour nous. Nous pouvons voir ici que la relation à partir de notre modèle de carrés ordinairement prédits entre le poids et prix du log n'est pas réellement linéaire, mais qu'il est payant d'être quadratique. En d'autres termes, il y a une courbe qui traverse la relation entre le prix et le poids. poids augmente, le prix de la bûche augmente de plus en plus. Super. Supposons maintenant que nous avons fini de construire des modèles. Les modèles de régression ne sont souvent pas présentés , car ils sont présentés par des programmes statistiques. Il y a tout simplement trop d'informations dans les tableaux présentés par les programmes statistiques, dont la plupart sont redondantes ou non utiles aux lecteurs profanes. Il est également courant d'inclure plusieurs modèles de régression dans un tableau afin que les lecteurs puissent suivre la progression des coefficients à mesure que variables supplémentaires sont incluses ou supprimées des modèles. Voici un exemple de l'apparence des tables de régression dans les rapports. Il s'agit ici d'une table de sortie de régression classique qui contient le coefficient à trois décimales et les erreurs standard à trois décimales. astérisques sont inclus pour identifier facilement les effets statistiquement significatifs. Les diagnostics incluent uniquement le nombre d'observations et la statistique R au carré. Ce tableau permet aux lecteurs de lire et examiner comment l'effet de la variable Foreign sur le prix, par exemple, change au fur et à mesure que nous modifions les spécifications de notre modèle. Ce type d'approche est important car il s'agit d'une approche transparente qui montre les ingrédients de la façon dont ce repas statistique a été préparé. Les lecteurs peuvent juger par eux-mêmes s'ils sont d'accord avec votre conclusion particulière ou non. Cela conclut cette session pratique sur la régression ordinairement carrée. 22. Réflexions finales et conseils: Réflexions finales et quelques conseils. J'espère que cette introduction à l'analyse de régression linéaire vous a plu . J'ai quelques conseils que vous voudrez peut-être prendre en compte lorsque vous appliquez une analyse de régression aux données. Pratique. Comme c'est le cas pour beaucoup de choses dans la vie, c'est la pratique et l'application fréquente qui permettent de mieux comprendre le problème à l'étude. Il en va de même pour l'analyse de régression. Toute la théorie du monde ne permettra pas surmonter le manque d' engagement ou d'application. Je recommande toujours aux gens de rester coincés et de commencer à explorer les données. Je réfléchis attentivement à votre objectif initial. Essayez-vous simplement de comprendre les corrélations dans vos données ? Ou essayez-vous de déterminer la cause à effet ? La première peut se faire en jouant simplement avec les données et le modèle de régression. Le second nécessitera des réflexions beaucoup plus délibérées sur les fondements théoriques et l'argumentation rationnelle. Pourquoi X pourrait-il causer Y ? Et quel pourrait être le mécanisme de transmission B. Qu'est-ce qui pourrait influencer une telle transmission ? Estimez plusieurs modèles avec de petites variations. Les résultats sont plus convaincants lorsque différents modèles affichent continuellement le même type de résultat. Ainsi, l'inclusion d' une variable particulière, modifie tout ou vos coefficients reste-t-il robustes ? affichage d'un chemin vers votre spécification préférée finale est un élément très important de l'analyse de régression moderne. La qualité des données et la taille de l'échantillon comptent autant que la création de modèles. De grandes innovations en matière de qualité et de taille des données se sont produites depuis les années 1980. Tous les modèles ne doivent pas être compliqués. La qualité et les données peuvent ajouter une crédibilité significative à tous les résultats, et vous ne devez pas hésiter à affirmer que ces données sont les meilleures données disponibles pour répondre à cette recherche particulière. question. Les jeux de données de haute qualité nécessitent souvent une manipulation compliquée des données. De nombreuses erreurs de régression ne résultent pas d'une mauvaise construction de modèles, mais d'un mauvais codage des données. Ne sous-estimez pas le temps à consacrer au nettoyage des données et à la préparation des données en vue de l'analyse de régression. Habituellement, les carrés restent la méthode de régression la plus couramment utilisée dans le monde. Il serait faux de le rejeter comme une méthode simpliste. Jouer avec une forme fonctionnelle grâce à des effets d'interaction peut conduire à modèles de carrés ordinairement compliqués qui ressemblent étroitement à la réalité. N'ayez pas peur d'explorer des modèles plus complexes utilisant des termes quadratiques et d'autres termes d'interaction. Comprendre le rôle des diagnostics dans l'analyse de régression. Ne vous renseignez pas sur les diagnostics des manuels scolaires, mais demandez où se trouvent les hypothèses de régression concernant les données. Autres hypothèses qui peuvent être trop fortes pour les données à portée de main. Enfin, ressentez une bonne dose de scepticisme lorsque quelqu'un réclame une relation causale. coefficients de régression contiennent souvent une sorte de biais. En même temps. Ne soyez pas un nez, cheveu et ne rejetez pas tout. Comme beaucoup de choses dans la vie, analyse de régression est un outil supplémentaire qui doit être utilisé conjointement avec d'autres preuves, telles que des résultats antérieurs, cadres théoriques et aussi des preuves qualitatives. Il existe une fine frontière entre art et les statistiques dans l'analyse de régression.