Analyse de données - Qu'est-ce que la régression non linéaire ? | Franz Buscha | Skillshare
Recherche

Vitesse de lecture


1.0x


  • 0.5x
  • 0.75x
  • 1 x (normale)
  • 1.25x
  • 1.5x
  • 1.75x
  • 2x

Analyse de données - Qu'est-ce que la régression non linéaire ?

teacher avatar Franz Buscha

Regardez ce cours et des milliers d'autres

Bénéficiez d'un accès illimité à tous les cours
Suivez des cours enseignés par des leaders de l'industrie et des professionnels
Explorez divers sujets comme l'illustration, le graphisme, la photographie et bien d'autres

Regardez ce cours et des milliers d'autres

Bénéficiez d'un accès illimité à tous les cours
Suivez des cours enseignés par des leaders de l'industrie et des professionnels
Explorez divers sujets comme l'illustration, le graphisme, la photographie et bien d'autres

Leçons de ce cours

    • 1.

      Introduction

      4:42

    • 2.

      Qu'est-ce que l'analyse de la régression non linéaire ?

      2:21

    • 3.

      Comment fonctionne la régression non linéaire ?

      1:21

    • 4.

      Pourquoi l'analyse de la régression non linéaire est-elle utile ?

      1:34

    • 5.

      Types de modèles de régression non linéaire

      2:45

    • 6.

      Probabilité maximale

      1:54

    • 7.

      Le modèle de probabilité linéaire

      5:40

    • 8.

      La transformation du Logit et du Probit

      1:44

    • 9.

      Variables latentes

      2:38

    • 10.

      Quels sont les effets marginaux ?

      2:41

    • 11.

      Variables explicatives factices

      2:45

    • 12.

      Régression non linéaire multiple

      3:17

    • 13.

      Bonté à l'ajustement

      5:39

    • 14.

      Une note sur les coefficients de Logit

      1:52

    • 15.

      Conseils pour la régression de Logit et de Probit

      1:37

    • 16.

      Retour au modèle de probabilité linéaire ?

      2:13

    • 17.

      Stata - Exemples de logit et de probit appliqués

      18:30

  • --
  • Niveau débutant
  • Niveau intermédiaire
  • Niveau avancé
  • Tous niveaux

Généré par la communauté

Le niveau est déterminé par l'opinion majoritaire des apprenants qui ont évalué ce cours. La recommandation de l'enseignant est affichée jusqu'à ce qu'au moins 5 réponses d'apprenants soient collectées.

63

apprenants

1

projets

À propos de ce cours

Une introduction facile à la régression non linéaire dans l'analyse des données

L'apprentissage et l'application de nouvelles méthodes et techniques peuvent souvent être une expérience intimidante.

Ce cours est conçu pour vous fournir un cours compact, facile à comprendre, qui se concentre sur les principes de base de la régression dans l'analyse de données.

Cette classe sera axée sur la compréhension et l'application de la régression non linéaire de base dans l'analyse des données, notamment la modélisation des logits et des probits.

Ce cours vous expliquera ce qu'est la régression et le fonctionnement de la régression Logit et Probit. La modélisation de Logit et de Probit est souvent utilisée pour analyser le choix et d'autres résultats discrets. Les deux méthodes présentent des concepts non linéaires importants utilisés par des méthodes plus avancées.

Le cours sans équations ou mathématiques L'accent de ce cours est mis sur l'application et l'interprétation de la régression dans l'analyse de données. L'apprentissage sur ce cours est appuyé par des graphiques animés qui montrent des concepts particuliers.

Aucune connaissance préalable n'est nécessaire et cette classe s'adresse à toute personne souhaitant s'engager dans une analyse quantitative.

Les principaux résultats d'apprentissage sont les suivants :

  1. Apprendre et comprendre l'intuition de base derrière la régression non linéaire

  2. Être à l'aise avec la terminologie de régression

  3. Pour être en mesure d'interpréter et d'analyser confortablement la sortie de régression logit/probit

  4. Pour apprendre des trucs et des astuces

Les sujets spécifiques qui seront abordés sont :

    • Quels types d'analyse de régression non linéaire

    • Comment fonctionne la régression non linéaire ?

    • Pourquoi la régression non linéaire est-elle utile ?

    • Qu'est-ce que la probabilité maximale ?

    • Le modèle de probabilité linéaire
    • Régression de Logit et de Probit

    • variables latentes

    • Effets marginaux

    • variables factices dans la régression de Logit et de Probit

    • Statistiques de bonne forme

    • Ratios Odd-ratios les modèles Logit

    • Construction de modèles Logit et Probit pratiques à Stata

    Le logiciel Stata sera utilisé pour démontrer des exemples pratiques.

Rencontrez votre enseignant·e

Teacher Profile Image

Franz Buscha

Enseignant·e
Level: Beginner

Notes attribuées au cours

Les attentes sont-elles satisfaites ?
    Dépassées !
  • 0%
  • Oui
  • 0%
  • En partie
  • 0%
  • Pas vraiment
  • 0%

Pourquoi s'inscrire à Skillshare ?

Suivez des cours Skillshare Original primés

Chaque cours comprend de courtes leçons et des travaux pratiques

Votre abonnement soutient les enseignants Skillshare

Apprenez, où que vous soyez

Suivez des cours où que vous soyez avec l'application Skillshare. Suivez-les en streaming ou téléchargez-les pour les regarder dans l'avion, dans le métro ou tout autre endroit où vous aimez apprendre.

Transcription

1. Introduction: Bienvenue. L'analyse des données peut être difficile. Tant de méthodes différentes et de nombreuses façons différentes d' analyser et d'interpréter les données peuvent rendre l'apprentissage très difficile. Dans cette classe, je veux vous donner un aperçu facile et rapide d' une méthode importante et d'analyse de une méthode importante et données, la régression non linéaire. La clé de cette classe est qu'il n'y a pas d'équations, pas de mathématiques, pas de connaissances théoriques délicates. Ne pas vous donner une explication graphique intuitive de ce qu'est la régression non linéaire. Et vous montrez une série d'exemples pratiques. Quel que soit statut actuel de vos connaissances professionnelles, vous pouvez être sûr de connaître les tenants et aboutissants de la régression non linéaire après cette classe particulière. Qu'est-ce que la régression non linéaire ? régression linéaire est une méthode de régression populaire qui est souvent utilisée et tente de modéliser des choix ou d'autres types de comportements discrets. Beaucoup de messages de régression non linéaire disponibles, régression probit logit est la plus courante. Les deux méthodes sont presque identiques. Et je vais me concentrer sur ces deux-là car ils sont méthode la plus utilisée pour analyser des données discrètes. Ils ont également servi de base à des méthodes non linéaires plus complexes. Régression de propriété et de logit ou techniques qui examinent la relation entre une variable binaire et une ou plusieurs variables catégoriques continues. Ces techniques sont utilisées dans de nombreuses sciences différentes. Il est souvent utilisé pour l' analyse quantitative du choix et des résultats discrets. Quiconque souhaite approfondir le monde de la statistique de régression devrait avoir une bonne compréhension de base modélisation de l'homologation et du logit. L'un des principaux résultats d'apprentissage permettant d'apprendre et de comprendre l'intuition de base derrière méthode de régression non linéaire dans l'analyse des données. Et la terminologie associée ainsi que les fondements pour apprendre à interpréter et analyser confortablement la sortie de régression non linéaire. Enfin, faites du talent quelques trucs et astuces supplémentaires qui vous aideront. Analyse intégrale. À qui s'adresse ce cours ? Ce cours vise à doser ou à commencer leur carrière et analyse des données pourrait être des praticiens, des personnes travaillant dans la politique gouvernementale et dans les affaires, et approfondir les étudiants. Maintenant, voyons le contraste. Il s'agit d'un ajout important aux compétences de régression de base. L'accent mis sur la modélisation non linéaire est un concept légèrement plus avancé, mais c'est un concept très souvent utilisé dans le monde réel. Ce qui prévaut sans aide. n'y a pas de masse et vous n'avez pas besoin connaître les mathématiques pour suivre, tirer le meilleur parti de cette classe. Vous avez besoin de cette curiosité. Certains états et connaissances peuvent s'avérer utiles pour l' application pratique de ce cours, mais ce n'est pas nécessaire. Us state and Stata est un logiciel statistique qui permet aux utilisateurs d'estimer différents types de modèles de régression. Nous allons maintenant utiliser ce programme pour démontrer quelques exemples logit et probit. vif intérêt pour comprendre comment les données peuvent être liées les unes aux autres. L'analyse des données consiste souvent à mesurer des variables quantitatives. Nous pouvons nous voir les uns les autres. Donc, si vous voulez savoir comment y est lié à x, c'est le bon endroit pour vous. En utilisant Stata. L'utilisation de stator n'a pas démontré exemples de régression logit et probit indiquent qu'il s'agit d'un logiciel statistique achetable. Et vous pouvez en savoir plus sur www.State.com, nombreuses classes sur la façon dont vous pouvez utiliser les données. Devriez-vous vous intéresser ? Ce cours ? Je n'enseignerai pas les données. Je me concentrerai sur l' interprétation de la sortie. Notez que la sortie sera très similaire à celle d'autres progiciels statistiques tels que R ou SPSS. Si vous utilisez par hasard des données et que vous souhaitez répliquer les exemples de cette classe. J'ai joint un document pertinent aux fichiers de cette classe. Deux fichiers sont des fichiers de syntaxe d'état qui contiennent code qui vous permet de répliquer. Mais je vais vous montrer à l'écran que vous utiliserez le jeu de données de formation de la Nouvelle-Galles du Sud fourni avec des données à titre d'exemples pratiques. Il s'agit d'un jeu de données de formation qui contient une variété de variables utiles et de relations sur les résultats du marché du travail. Passons donc à la section suivante pour en savoir plus sur les méthodes de régression non linéaire. 2. Qu'est-ce que l'analyse de la régression non linéaire ?: Qu'est-ce que l'analyse de régression non linéaire ? Tout comme l'analyse de régression linéaire, l'analyse de régression non linéaire est une technique statistique qui examine la relation entre une variable y dépendante et une ou plusieurs variables indépendantes X. Un autre terme utilisé pour la variable dépendante est le résultat, la réponse ou la variable endogène. Termes alternatifs utilisés pour des variables indépendantes ou variables prédictrices ou explicatives ou exogènes. Comme les modèles de régression linéaire. Les modèles de régression non linéaire écrivent souvent modèles sous la forme y égale à x, x1 plus x2 plus x3, etc. Le dernier terme sera un terme d'erreur, souvent indiqué par E, qui capture tout. c'est absent. Il évitera d'écrire trop d' équations dans ce cours. Nous laisserons cette expression comme ça. Les variables peuvent prendre de nombreuses formes et une analyse de régression non linéaire. Ils peuvent être continus. En d'autres termes, les données peuvent être mesurées. N'importe qui a une ligne numérique, trop de décimales. Il peut s'agir d'un format entier tel que 12 ou trois. Les données peuvent également être sous des formats binaires tels que 0 ou un. Parfois, les données sont ordinales. Les données ordinales sont des données catégorielles classées, telles que des échelles de likert. Enfin, les données peuvent également être nominales. Il s'agit de données catégorielles qui sont déballées, par exemple différents modes de transport. La principale différence avec régression linéaire est que pour les modèles de régression non linéaire, la variable dépendante n' est souvent pas continue. régression non linéaire est principalement utilisée lorsque la variable dépendante y est mesurée sous la forme d'une variable entière, binaire, ordinale ou même nominale. Cela s'applique évidemment à de nombreuses variables dans la vie réelle. C'est l'une des raisons pour lesquelles les méthodes de régression non linéaire sont si courantes. 3. Comment fonctionne la régression non linéaire ?: Comment fonctionne la régression non linéaire ? régression non linéaire suppose que les paramètres de variables ayant un retard à la variable dépendante de manière non linéaire. Les paramètres ou coefficients sont ce que l' analyse de régression estime. Par exemple, y est égal à une fois x. Dans le monde linéaire. Cela signifie que pour chaque unité, changement en X, Y avec une augmentation d'une unité. Cependant, dans un monde non linéaire, nous ne pouvons pas savoir quel est le changement en y. Le changement de y dépend de la valeur spécifique de x. Il peut s'agir de plusieurs ou de moins d'un. La valeur exacte dépend du type de transformation non linéaire utilisé. Cela rend malheureusement l'interprétation des modèles de régression non linéaire beaucoup plus difficile. Les coefficients de ligne n' ont souvent aucune interprétation raisonnable. C'est pourquoi il est important de comprendre comment les coefficients des modèles de régression non linéaire peuvent être atteints, transformés en quelque chose d'utile. Cela se fait souvent à l'aide du calcul des effets marginaux. 4. Pourquoi l'analyse de la régression non linéaire est-elle utile ?: Pourquoi l'analyse de régression non linéaire est-elle utile ? Vous aimez la régression linéaire ? régression non linéaire est utilisée pour répondre à des questions nécessitant des preuves quantitatives. Comme la régression linéaire, elle permet d'examiner l'effet d'une variable explicative sur une variable dépendante, contrôlant d'autres facteurs. Il est utilisé pour les tests d'hypothèses et pour les prédictions. Très similaire à la régression linéaire. Toutefois, la régression non linéaire présente un avantage significatif avec certains types de données. Plus précisément, il nous aide à éviter une prédiction hors limites. Par exemple, si une variable dépendante est mesurée en tant que variable binaire, c'est-à-dire 0 ou une, la régression linéaire peut prédire des probabilités supérieures à un ou moins de 0. Mais comment pouvons-nous avoir moins de 0 % de chances de faire quelque chose ? Par ailleurs, les variables dépendantes telles que le temps ne nécessitent que des prédictions positives. Si quelqu'un a donné le médicament, combien de temps va-t-il vivre ? Eh bien, au minimum, il doit être égal à 0 ou plus, non ? Par conséquent, les prévisions ne doivent pas être inférieures à 0 à partir de ces modèles. Transformations non linéaires, et nous sommes sûrs que nous ne prédisons pas les absurdités à partir de nos modèles de régression. 5. Types de modèles de régression non linéaires: Quels types de modèles de régression non linéaire existent ? En fait, bien qu'il s'agisse de modèles de régression linéaire, tels que les carrés ordinaires, sont restés la méthode de régression la plus couramment utilisée. Il s'avère que de nombreuses méthodes de régression populaires sont en fait non linéaires. L'exemple le plus connu de régressions non linéaires probablement les modèles de régression logit et probit. Il s'agit de modèles de régression pour les variables dépendantes binaires. La variable dépendante est souvent mesurée à 0 ou 1. Parmi les exemples courants, citons les décisions de vote chômage dans le niveau de scolarité, choix de faire quelque chose, etc. Les modèles Logit et Probit utilisent des transformations non linéaires pour garantir que les prédictions du modèle rester à l'intérieur de la limite 01. Les deux modèles sont très similaires, mais vous différenciez légèrement les transformations non linéaires. Pour analyser les variables dépendantes qui ont ordonné des catégories, telles qu'une échelle Likert. Nous utilisons souvent des modèles logit et probit commandés. Ils sont très similaires aux modèles logit et probit et utilisent des transformations non linéaires similaires. L' astuce supplémentaire utilisée par ces modèles est d'inclure des points de coupe dans leur modélisation, qui estiment où les décisions sont coupées afin que des prédictions dans différentes catégories puissent être faites. Une autre classe de modèles non linéaires sur des modèles logit multinomiaux. Ils sont souvent utilisés lorsqu' une variable dépendante est constituée de catégories non ordonnées ou nominales. Un exemple célèbre inclut modes de transport que prennent les gens, le bus, la voiture ou le train. Notez que des modèles probit multinomiaux existent, mais ils ne sont pas fréquemment utilisés. Cependant, les modèles non linéaires ne fonctionnant pas uniquement sur des modèles à choix catégorique, certains types de données exigent que les prédictions soient limitées entre 0 et l'infini positif. En d'autres termes, le modèle ne doit pas prédire les valeurs négatives. Les exemples incluent les modèles de régression Count et les modèles de régression temporelle. Les deux nécessitent des transformations afin que les prévisions de ces modèles ne soient pas négatives. Les modèles de régression binomiale de Poisson et négatifs. Exemples courants de données de comptage. Une fois que le modèle de risque proportionnel Cox est un exemple courant, lorsque le temps est la variable dépendante d'une régression. 6. Probabilité maximale: Probabilité maximale. Alors que les carrés sont généralement estimés en résolvant les équations des moindres carrés, la plupart des modèles non linéaires sont estimés en utilisant une probabilité maximale. La probabilité maximale est une méthode numérique qui estime la valeur des paramètres. Après la plus grande probabilité de générer l' échantillon observé de thêta. La probabilité maximale est souvent estimée de manière itérative, ce qui signifie que l' ordinateur effectue nombreux calculs pour réduire les meilleurs paramètres possibles. Je ne vais pas expliquer cette technique en détail. Mais voici quelques conseils de base qui doivent être observés lors de l'estimation de la vraisemblance maximale. La probabilité maximale doit être utilisée lorsque les échantillons sont supérieurs à 100 observations, 500 observations ou plus sont les meilleures. Plus de paramètres requièrent plus d'observations. La règle générale est qu' au moins dix observations supplémentaires par paramètre supplémentaire semblent raisonnables. Toutefois, cela ne signifie pas qu'il est pas nécessaire de disposer d'un minimum de 100 observations. L'estimation de vraisemblance maximale est plus sujette à des problèmes de colinéarité. Il faut beaucoup plus de données si les variables explicatives sont très colinéaires les unes avec les autres. De plus, cela va varier dans la variable dépendante. En d'autres termes, un trop grand nombre de résultats à un ou à zéro peut également entraîner une mauvaise estimation. Enfin, certains modèles de régression dotés fonctions de probabilité maximale complexes nécessitent plus de données, sondent et les modèles de charge sont les moins complexes. Des modèles comme les modèles logit multinomiaux de très complexes. 7. Le modèle de probabilité linéaire: Modèle de probabilité linéaire. Examinons pourquoi la régression non linéaire peut être utile en examinant le modèle de probabilité linéaire. Le modèle de probabilité linéaire est une régression standard habituellement carrée appliquée à un modèle où la variable dépendante y est binaire. Mais avant de continuer, veuillez noter ce qui suit. Le modèle de probabilité linéaire est souvent utilisé pour démontrer que le point est une mauvaise idée d'exécuter régression linéaire à travers des données catégoriques. Cependant, les résultats du modèle de probabilité linéaire sont souvent très similaires aux effets du module final d'un modèle logit ou probit. Je vais le démontrer plus tard. Mais pour l'instant, sachez que même si nous avons souvent déclaré que le modèle de probabilité linéaire est erroné, la vérité est probablement plus complexe. Il peut être étonnamment utile lorsqu'il est utilisé avec la bonne quantité de connaissances. Sachez également que si vous décidez d'utiliser le modèle de probabilité linéaire, vous devez utiliser des erreurs standard robustes car le modèle de probabilité linéaire provoque une hétéroscédasticité. Imaginez un instant que nous ayons un jeu de données très simple qui ne contient que deux variables, y et x. La relation entre y et xnous intéresse. Imaginez que y soit également mesuré comme un binaire variable, 0 ou 1, et x est mesuré sous la forme d'une variable continue. Avant d'aller plus loin, voyons à quoi cela ressemblerait sur un graphique. Ça ressemblerait à ça. Chaque observation x continue est associée à une observation à 0 ou à un fil. Un nuage de points de ces données n'est probablement pas le meilleur moyen de visualiser ce type de données. Mais supportez moi parce que la taille de l' échantillon n'est pas énorme, nous pouvons simplement constater que observations avec des valeurs plus élevées de X sont plus susceptibles d'avoir une valeur y égale à un. Alors que les observations dont les valeurs sont inférieures à x semblent plus susceptibles d' avoir une valeur Y de 0. Cela nous indique qu' il semble y avoir une relation positive entre x et y. Augmente la prochaine avance pour augmenter les chances que y soit un. Jusqu'à présent, c'est tellement bien. Mais bien sûr, le faire visuellement comme ses limites. Nous ne savons pas quelle est la relation exacte entre y et x. Nous pourrions tracer la relation entre y et x à l'aide d'un ajustement non paramétrique. Cette méthode nous indique donc clairement qu' il existe une relation positive entre y et x. Au départ, la relation est inexistante. Et puis, à une certaine valeur de x, la relation devient positive. Après une certaine valeur supérieure de x, la relation s'aplatit à nouveau et devient inexistante. Super. Cependant, nous avons déjà discuté des problèmes avec le non-paramétrique dans un cours précédent. Nous voulons pouvoir paramétrer la relation entre y et x que nous puissions les comparer à d'autres données ou donner ces informations à quelqu'un d'autre. Comment pouvons-nous faire cela ? L'une des façons consiste à utiliser habituellement des carrés et à exécuter une simple régression linéaire dans l' ensemble des données qui entraînerait quelque chose qui ressemblait à ceci. L'ajustement linéaire établit clairement une relation positive entre y et x. Le coefficient de pente estimé de cette régression est d'environ 0,23. En d'autres termes, pour chaque augmentation d' une unité de x, la probabilité que Y soit un augmente de 23 points de pourcentage. Super. Nous allons ensuite tracer les valeurs prédites estimées de y à partir de notre modèle de régression simple. Cela semble être un problème avec notre modèle. Les prévisions de notre modèle de régression linéaire donnent lieu à trois observations , avec une valeur y prédite supérieure à 11 observations , avec une valeur Y prédite inférieure à 0. C'est le problème du modèle de probabilité linéaire. Sa nature linéaire, par définition, prédit des valeurs en dehors de nos limites. Cela n'a pas de sens. Ces résultats sont absurdes. Il n'est pas possible d' avoir une probabilité de vote pour un parti a de 120 %. Malheureusement, quelle que soit la relation entre y et x, toute relation linéaire prédit à un moment donné les valeurs y qui ne rebondissent pas. Et dans cet exemple, j'ai dessiné une pente de régression légèrement plus faible entre ces données. Mais vous pouvez toujours voir qu'à un moment donné, il sera hors limites. Il n'est pas possible d'échapper à ce problème avec la régression linéaire. Quelque chose va toujours être un peu mal. Il est clair que nous avons besoin d'un meilleur modèle. 8. La transformation de Logit et Probit: La transformation logit et probit. La réponse est d'utiliser un modèle non linéaire. Plus précisément dans ce cas, nous devons utiliser une sorte de transformation qui rend la relation linéaire entre y et x non linéaire. Les deux transformations les plus couramment utilisées pour notre problème précédent, la transformation logit et probit. Les deux transformations garantissent que la relation entre y et x reste limitée dans 01. En d'autres termes, il ne peut y avoir de prédictions hors limites à partir de ces modèles de régression. Les mathématiques lient ces transformations peuvent paraître un peu complexes. Explorons visuellement les deux transformations. Voici la relation estimée entre Y et X à partir d'un ajustement logit et probit. Vous pouvez voir que les deux sont très similaires dans la façon dont ils relient y et x ensemble. En général, les deux ont une forme très similaire et offrent le même type de prédictions. Il y a souvent très peu de raisons de préférer l'un à l'autre. Et les deux sont fréquemment utilisés. Dans les travaux appliqués. Les deux modèles prédisent les valeurs Y qui sont maintenant limitées entre 01. Jetez un coup d'œil. Les valeurs prédites de Y provenant de la régression logit et probit restent dans la limite 01 de y. Fantastique . On dirait que nous résolvons notre problème. probabilité linéaire est dépassée et les modèles non linéaires sont en place. 9. Variables latentes: Variables latentes. Des modèles non linéaires sur des modèles généralement plus difficiles à interpréter que les modèles linéaires. Permettez-moi d'expliquer pourquoi. De nombreux modèles non linéaires, comme les modèles logit et probit, supposent qu'il existe un processus linéaire sur la ligne, chaque variable dépendante. Qu'est-ce que cela signifie ? Imaginez votre décision de manger, de manger, de ne pas manger. Comment décidez-vous ? Les modèles Logit et Probit supposent qu'en dessous de votre décision de manger ou de ne pas manger se trouve une échelle de faim continue et infinie. Si vous n'avez pas faim, vous ne mangez pas. Si vous avez un peu faim, vous n'en avez pas besoin. Si vous avez un peu plus faim, vous n'avez qu'à vous. Mais à un moment donné, votre faim devient trop forte et vous décidez de manger. C'est ainsi que fonctionnent les modèles logit et probit. Ils supposent que chaque décision de choix consiste à réaliser que les gens passent un point de coupe invisible sur un processus continu caché. Nous appelons un tel processus un processus latent. Nous désignons souvent un tel processus avec une variable appelée y étoile. Dans nos équations, y étoile sera fonction de nombreux facteurs. Par exemple, si y star a faim, cela peut être fonction de l'exercice. Si l'exercice est mesuré x , la relation entre l'exercice et faim peut avoir un coefficient positif de 1. Cependant, y étoile est toujours cachée de nous. Nous ne le voyons pas. Nous ne pouvons jamais observer ce processus. Pour rendre les choses plus difficiles. C'est ce à quoi correspondent les coefficients logit et probit. Ils récupèrent des coefficients liés à mon étoile. Cela signifie que la sonde et les coefficients logiques n'ont pas d'interprétation naturelle. Ils n'ont tout simplement pas de sens. Une augmentation d'une unité de x entraînera une augmentation d'une unité de la faim invisible. Cela n'a pas de sens. Qu'est-ce que nous observons ? Nous observons la réalisation de l'étoile Y, souvent appelée y. En d'autres termes, quelqu'un a-t-il mangé ou non ? Pour comprendre comment x est lié à la réalisation du choix, nous devons transformer les coefficients modèles non linéaires tels que la régression logit et probit en quelque chose d'utile. Cela se fait souvent à l'aide d'effets marginaux. 10. Que sont les effets marginaux ?: Quels sont les effets marginaux ? coefficients d'effet marginal ou de pente sont parfois appelés effets partiels. En régression linéaire, coefficients estimés sont des effets marginaux. C'est parce qu'ils ont une pente constante qui ne change pas. Chaque augmentation d'une unité de x entraîne un changement bêta de y. Cependant, en régression non linéaire, telle que probit ou régression chargée, pentes varient constamment. n'y a pas d'effet moderne unique. C'est pourquoi nous devons calculer effets des modules à des moments particuliers. C'est pourquoi nous devons calculer les effets marginaux à des moments particuliers. Deux types de calculs sont les plus populaires. Effets calculés à la moyenne de x et l'effet moyen de tous les effets calculés le long de chaque point de x. Ce sont les effets marginaux les plus courants de la pratique. Mais les utilisateurs peuvent également choisir n'importe quel autre point qui leur convient. Permettez-moi de le démontrer visuellement. Nous voici de retour avec l'un de nos ajustements non linéaires de y contre x. Dans ce cas, l' ajustement est un ajustement probit. Chaque point de données a une valeur prédite de y. Au cours de cet ajustement, nous observons qu'à mesure que x augmente, la probabilité que Y soit un. Nous notons également que la relation entre x et y n'est pas linéaire. Pour comprendre l' effet de x sur y, nous calculons l'effet marginal, effet marginal sur une pente à des points respectifs de x. Comme vous pouvez le voir, la pente change constamment. À des valeurs faibles de x, la relation entre y et x est presque plate. App, valeurs moyennes de x. La relation est fortement positive. À des valeurs élevées de x, la relation est plate. Une fois encore. Nous devons choisir une valeur de x où calculer les effets de nos modules. La moyenne de x est généralement de bonne valeur. Dans ce cas particulier, le coefficient de pente est d'environ 0,30. Cela signifie que l'effet de X sur Y est le suivant. Un changement d'une unité de x entraîne une augmentation de 30 points de pourcentage de la probabilité que Y soit un. Rappelez-vous simplement que la relation ne s'applique pas à toutes les valeurs de x. À des valeurs plus élevées de x. augmentations supplémentaires de x entraînent augmentations beaucoup plus faibles de y étant un. 11. Variables explicatives mannequins: Variables explicatives factices. Jusqu'à présent, nous avons établi que les coefficients issus d' un modèle non linéaire nécessitent un peu de travail supplémentaire pour comprendre le sens. Cependant, nous n'avons examiné qu'une seule variable continue. Pour être précis, nous avons examiné le modèle selon les lignes de y égal à la bêta X plus un terme d'erreur, où x est une variable mesurée en continu. Et si nous incluons une variable factice supplémentaire dans notre modèle ? En d'autres termes, nous voulons estimer le modèle selon la ligne de y est égal à Bêta X plus bêta une variable factice plus une variable hermétique. Les variables fictives sont des variables binaires qui prennent souvent les nombres 0 ou un bit, comme notre variable dépendante y. En régression linéaire, les coefficients sur les variables factices, parfois appelés décalage d'interception coefficient parce qu'ils modifient l'interception. En d'autres termes, ils déplacent toute la relation entre x et y vers le haut, vers le bas. Cependant, dans les modèles non linéaires, leur effet n'est pas constant. Ils déplacent toujours la relation non linéaire entre Y et X vers le haut ou vers le bas, mais la taille du décalage n'est pas constante. Permettez-moi de vous montrer cela graphiquement. Dans cet exemple, nous continuons d' adapter un ajustement non linéaire à nos données observées. Y est mesuré en tant que point de variable et X est mesuré en continu. Cependant, le modèle actuel en dessous provient d'un modèle de régression inclut également une variable factice. Les variables factices agissent comme un décalage d'interception. Observations avec une valeur factice de 1. Disons que ces derniers représentent les hommes, ont une probabilité plus élevée d'observer une valeur Y de 1 pour n'importe quelle valeur donnée de x. Cependant, comme on le voit clairement ici, la taille de cet effet varie en fonction de l'endroit où nous sommes . À des valeurs faibles de x, l'effet de la variable factice est presque négligeable. Les valeurs moyennes de x, la différence entre les deux courbes est élevée. Enfin, à des valeurs élevées de x, l'effet de la variable factice diminue. Et encore une fois, tout cela a du sens. C'est parce que nous continuons de lier notre relation entre y et x entre 01 par le biais de la transformation logistique non linéaire, dans ce cas. Par conséquent, tout effet d'une variable factice doit également être non linéaire pour continuer à garantir que nous ne sortons pas des limites avec nos prévisions. 12. Régression non linéaire multiple: Régression non linéaire multiple. Enfin, qu'en est-il lorsque nous disposons d'un modèle de régression avec plusieurs variables nationales continues ? Comment cela fonctionne-t-il ? Prenons notre modèle précédent avec une variable factice et ajoutons simplement une autre variable explicative continue, appelons-la x2. Cela nous donne un modèle suivant la ligne de y est égal à Bêta fois x1 plus bêta fois x2 plus les types bêta de variables factices. La chose clé à comprendre au sujet régression non linéaire multiple est que l'effet de chaque bêta, ou très, pas seulement en fonction de la valeur de x que nous avons sortie. Cela aussi à quelle valeur d'un autre axe. En d'autres termes, l'effet de chaque page qui dépendra de la valeur de chaque x, pas seulement de la variable en question. En pratique, nous mesurons souvent la pente de chaque coefficient de la valeur moyenne de la balle sur l'axe. Cela peut être difficile à comprendre. Là encore, permettez-moi de vous montrer la visualisation d' un modèle logit avec deux variables continues et une variable factice. Voici une visualisation du modèle de régression logit mentionné ci-dessus. Nos données sont constituées d' une variable indépendante qui ne prend que les valeurs 01. C'est-à-dire y, sur le graphique de gauche, que les données sont distribuées au plafond et au sol de l'image tridimensionnelle. Désuet se compose également de deux variables explicatives continues, X1 et X2. Les deux ont une relation positive avec Y. Mais il est assez difficile de le comprendre à partir de notre nuage de points. Sur le graphique de droite, nous avons tracé les valeurs prédites à partir d'une régression logit. Alors qu'un modèle de régression linéaire, tel que des carrés ordinairement, tente d'adapter les plans linéaires mieux adaptés à ces données. régression Logit s'adapte aux plans non linéaires mieux adaptés à ces données. Cependant, la douleur logit du meilleur ajustement n'est pas seulement non linéaire par rapport à une seule variable x. La pente du plan change en fonction des deux variables X. Plus précisément, la valeur des deux x déterminera la relation entre X1 et Y, également x2 et y. Tout cela peut être un concept assez difficile à saisir. Si nous ajoutons des variables explicatives supplémentaires, tout cela passe à des dimensions plus élevées. Enfin, l'effet de la variable factice est également visualisé. Ici. Nous avons deux plans qui correspondent le mieux à ce graphique. Un plan correspond toutes les valeurs de 0 pour la variable factice, et l'autre est pour o sur les valeurs d'un pour la variable factice. Je pense qu'il est évident de voir à quel point il peut être difficile de donner un sens à de tels modèles. C'est fondamentalement impossible. 13. Bonne bonne coupe: Bonté d'ajustement. Nous avons maintenant une compréhension raisonnable du fonctionnement de la régression non linéaire, comme les modèles de régression logit et probit. Parlons de la façon de mesurer si de tels modèles de régression correspondent bien aux données. valeurs R carrées traditionnelles provenant de carrés ordinaires n' existent pas pour les modèles non linéaires. Il n'y a pas de somme de calculs carrés provenant de ce type de modèles. Cela signifie que nous ne pouvons pas calculer la quantité de variance expliquée et inexpliquée. Autres moyens de mesurer l' adéquation selon les besoins. De nombreux progiciels calculent quelque chose appelé pseudo R-squared. Cela tente d'imiter le diagnostic de la qualité de l'ajustement en estimant d'abord un modèle dit nul. non modal est un modèle sans variable explicative et uniquement une constante. Le deuxième modèle avec covariance totale est ensuite estimé. Et ils comparent la fonction log-vraisemblance. Le rapport entre le meilleur modèle complet est ensuite fourni sous la forme d'un pseudo R carré. Il peut s'agir d'une statistique utile, mais elle ne doit jamais être considérée comme semblable au carré traditionnel . Il y a un danger ici. Une autre façon de calculer la qualité de l'ajustement consiste à examiner ce qu'on appelle une table de classification. La table de classification attribue les valeurs prédites du modèle à 0 ou à un. valeurs qui sont prédites à b1 et en font partie seraient classées comme correctes. De même, les valeurs prédites à 0 et 0 sont également classées correctement. Toutes les autres valeurs seraient alors classées comme incorrectes. La proportion de valeurs correctement classées sert ensuite d'indicateur de l'adéquation du modèle aux données. Voici un exemple de tableau de classification de Stata. y a beaucoup de résultats ici. Permettez-moi donc d'expliquer ce qui se passe. En haut, nous voyons un modèle de régression logistique du fichier de classification. Nous avons un total de 100 observations. Parmi ces 63 observations sont classées comme 137 observations sont classées comme étant le 0 des 36 observations classées comme 145. Valeurs uniques réelles dans les données de ligne. 18 ont 0 valeurs. De même, pour ceux qui ont une prédiction de 011, pas réellement une fois dans les données, et 26 sont des zéros dans le monde. Ensuite, 71 observations sur 100 ont été correctement prédites. On peut voir en bas que 71 % des observations sont correctement classées. Une valeur supérieure indique un modèle logit ou probit mieux adapté. Généralement, des valeurs supérieures à 80 ou 90, ou excellentes. Les valeurs dans les années 70 sont bonnes. Les valeurs dans les années 60 sont correctes. Et les valeurs dans les années 50 indiquent un modèle d'ajustement médiocre. N'oubliez pas qu' en lançant les dés, on peut s'attendre à classer correctement 50 % des valeurs. Par conséquent, 50 % devraient être considérés comme la base de référence ici. Il y a beaucoup d'autres statistiques dans ce tableau, mais toutes ne sont que des variations d'un thème. Cependant, il y a un dernier élément à noter. La classification dépend d'une valeur de coupe. Ma valeur par défaut. Par défaut, de nombreux programmes utilisent 0,5. En d'autres termes, les valeurs supérieures à 0,5 sont prédites comme 1 et les valeurs inférieures à 0,5 sont prédites à 0. C'est arbitraire. Dites que la valeur de 0,5 semble logique. La valeur du point de coupe peut être modifiée. Cela se traduira par des ajustements de modèles complètement différents. Voici un exemple de cela. Dans cette vidéo, je démontre l'impact sur la qualité de la statistique d'ajustement en modifiant la coupe de classification. Le graphique montre les points de données de paroisse d'une régression d' une variable Y binaire par rapport à une variable X continue. Un modèle logit est estimé. Les valeurs prédites sont tracées. Les valeurs rouges sont classées comme 0 et les valeurs vertes sont classées comme un. Valeurs de gris légèrement agrandies pour un meilleur effet visuel. Indiquez des valeurs mal classées. Le point de coupe initial pour la classification des variables est fixé à 0,5. Maintenant, allons-y et changeons cela. Nous pouvons constater que lorsque nous déplacons la valeur du point de coupe entre 01, la proportion de points de données correctement classés change considérablement. En d'autres termes, cette mesure de la qualité de l'ajustement est soumise à ce que nous pensons être le bon point de coupe pour classer les points de données. Cela ne pourrait jamais se produire dans un modèle de régression linéaire normal. Mon conseil personnel est de m'en tenir à 0,5 à moins qu'il y ait des raisons très spécifiques de le faire. L'une des raisons peut être des données très biaisées. Par exemple, si une variable dépendante binaire a une proportion très élevée ou faible de variables. 14. Une note sur les coefficients de Logit: Remarque sur les coefficients logit. coefficient Probit n'a pas d' interprétation naturelle car il se rapporte au score latent sous-jacent d'une variable dépendante, qui, par définition, est toujours invisible et caché. Cependant, les coefficients Logit ont une interprétation naturelle. Grâce à une bizarrerie de mathématiques. Pour les modèles logit, les coefficients estimés peuvent être interprétés comme une augmentation d'une unité de x entraîne une augmentation bêta des coefficients de log que y soit un. Cette interprétation naturelle a une certaine signification, mais la partie des cotes de journaux peut encore être un peu gênante. Pour y remédier, nous pouvons exponentier les coefficients des charges de modèle. Cela permet aux coefficients logit de l'interpréter comme des cotes. Les cotes. Plus précisément, les ratios de cotes restent des interprétations complexes, mais cela signifie que les utilisateurs peuvent éviter le calcul des effets marginaux. Nous pouvons interpréter un coefficient logit exponentié comme suit. Pour un changement d'une unité de x, les cotes devraient changer d'un facteur de bêta, tout le reste étant constant. Les ratios de cotes ont une base de 1 lorsque les cotes sont similaires. Par conséquent, si la pizza est au-dessus d'une, on peut dire que les cotes bêta sont plus grandes, la bêta est inférieure à 1. On peut dire que les chances sont bêta plus petites. Cependant, n'oubliez pas que même si les chances ont une certaine signification, elles ne révèlent pas l'ampleur du changement de probabilité de résultat. Seuls les effets marginaux peuvent le faire. 15. Conseils pour le Logit et la Régression Probit: Conseils pour régression logit et probit. Dans quel état les exigences pour les modèles non linéaires ont tendance à être plus élevées que pour les modèles linéaires. Il convient de noter que les modèles de régression de sonde et logit sont très robustes même pour les petits échantillons et la variation d'échelle. En d'autres termes, alors que des modèles tels modèles logit multinomiaux nécessitent beaucoup de données, régression logit et probit peut être effectuée avec une taille d'échantillon beaucoup plus petite. Il y a souvent très peu de raisons de choisir entre des modèles logit ou probit. Les deux résultats. Les deux se traduisent par des prédictions très similaires et des effets marginaux similaires. Cependant, l'une des raisons pour lesquelles certaines personnes gravitent naturellement vers les modèles de charge est la flexibilité supplémentaire de l'interprétation des coefficients de coefficient. coefficients de rho logit sont généralement 1,7 fois plus élevés que la guerre, probablement des coefficients pour le même modèle. Cependant, les effets marginaux seront très similaires. Il est généralement recommandé signaler les effets marginaux à la moyenne de toutes les autres variables ou des effets marginaux moyens. Il serait étrange de ne pas les signaler lorsque vous utilisez de tels modèles. Cependant, le calcul des effets de modèle peut parfois être intensif. Il existe deux façons de surmonter cette situation. Coefficients bruts des modèles logit et probit. Ils permettront aux utilisateurs d'interpréter la taille et la signification relatives du signe. Ou on pourrait aboutir à un modèle de probabilité linéaire. Permettez-moi d'expliquer pourquoi. 16. Vous retrouvez le modèle de probabilité linéaire ?: Retour au modèle de probabilité linéaire. Nous avons commencé ce cours avec un exemple clair de la raison pour laquelle un modèle de probabilité linéaire est généralement une mauvaise idée. Cependant, il s'avère qu' il y a une doublure argentée. Les modèles de probabilité linéaire produisent souvent les mêmes effets marginaux que les effets marginaux de la régression logit et probit. Si la plupart des variables modèle de régression ont normalement des données, le calcul des effets marginaux produira souvent les mêmes estimations de pente que les estimations de pente à partir d'une norme. régression linéaire. En d'autres termes, il est possible d'utiliser véritablement modèles de probabilité linéaire pour calculer les effets marginaux des régressions avec des variables dépendantes binaires. Cela peut être très utile dans les situations où le temps de calcul doit être réduit. Il peut également être utile pour les modèles de régression non linéaire complexes, tels que les modèles chargés de données de panneau pour les complexités mathématiques qui rendent extrêmement difficile le calcul des effets marginaux. Voici un exemple de ce que je veux dire. Ici, j'utilise Stata pour estimer une régression logistique entre Y et X. Et le coefficient logit se situe autour de 1,26. calcul de l'effet marginal moyen produit un résultat d'environ 0,24. En d'autres termes, le facteur marginal moyen est qu'une augmentation d'une unité de x entraîne une augmentation de 24 points de pourcentage de la probabilité que Y soit un. Maintenant, jetons-y un coup d'œil. Habituellement, elle place la régression à l'aide du même modèle. Et ce modèle estime un coefficient de 0,23. En d'autres termes, un changement d'une unité de x entraîne une augmentation de 23 points de pourcentage de la probabilité que Y soit un. Cela est presque identique au modèle logit et met en évidence l'utilité potentielle d'un modèle de probabilité linéaire. 17. Stata - Exemples de logit appliqué et de Probit: Examinons certains de ces concepts dont nous avons discuté dans un environnement appliqué. Nous sommes maintenant dans Stator, un progiciel statistique couramment utilisé pour analyser les jeux de données quantitatifs. Il est similaire à d'autres paquets tels que SPSS ou SAS. Je n'expliquerai pas comment utiliser stator ou le code que j'exécute. Pour obtenir ces résultats. Vous pouvez en savoir plus sur Stator dans un état ou des cours spécifiques. J'ai déjà ouvert un ensemble de données de formation intitulé National Longitudinal Survey of Women en 1988. Examinons cela un peu plus près avant de commencer à subir des régressions. Commençons par une description des données. Le rendement de la production décrit aux producteurs informations de haut niveau sur les données, telles que l'endroit où elles se trouvent, nombre d'observations et de variables incluses et leur taille. Dans ce cas, nos données contiennent 2246 observations et 17 variables. C'est une taille d'échantillon juste. Mais les jeux de données modernes ont tendance à être beaucoup plus volumineux. Vous trouverez ci-dessous des informations sur les variables. Les variables sont également mesurées sous forme de variables numériques. Alors que certaines sont mesurées deux précisions différentes. n'y a pas de variables de chaîne dans ces données. Les variables ou liées aux résultats sur le marché du travail d' un échantillon de femmes âgées de 35 à 45 à 1988. Nous avons des informations sur leur âge, salaire, leur profession, leur éducation, etc. Bien. Faisons maintenant un résumé rapide. Summarize nous fournit des statistiques de base pour chaque variable, telles que le nombre d'observations, la moyenne, l'écart type et les valeurs minimales et maximales. Le balayage des données révèle que la plupart des montagnes semblent normales à ce que nous attendions. L'âge moyen est 39 ans et 64 % de l' échantillon sont mariés. Les salaires ont l'air bien. Bien que nous sachions que la variable Union a des observations manquantes. Maintenant, supposons que nous sommes vraiment intéressés à expliquer le déterminant de l'appartenance syndicale. Nous pouvons déjà commencer à dresser une image dans notre tête des variables qui pourraient être importantes expliquer le choix d' être membre d'un syndicat. Les salaires et l'éducation ne sont probablement pas des facteurs importants. Peut-être H2. En fait, de nombreuses variables ici peuvent être facteurs importants pour déterminer la décision d'une personne d' être membre d'un syndicat. Pour que les choses soient faciles, il suffit d'inclure un petit nombre de variables pour commencer. choisissons l'âge, le salaire, mariés et les études collégiales comme variables. La variable Union semble être mesurée sous la forme d'une variable binaire. Confirmons cela par une tabulation. En effet, la variable est mesurée comme une nouvelle variable de grange et 24,5 % de notre échantillon membres d'un syndicat. Ensuite, tracons l'union des variables, encore une fois, la variable auto-première de la liste, l'âge. C'est un bon exemple des raisons pour lesquelles une analyse graphique des données binaires peut être difficile. Nous ne pouvons vraiment rien voir ici. part ça. Pour chaque année, il y a des membres syndicaux et des membres non syndicaux. Nous pourrions dessiner un polynôme local plus lisse à travers son intrigue pour mieux comprendre à quoi ressemble la relation entre l'âge et le fait d'être membre du syndicat. Ça ne ressemble pas à ça. Il existe une relation particulièrement forte entre l'âge et l'appartenance syndicale. À des fins de démonstration, estimons maintenant une relation paramétrique. L'utilisation d'un modèle logit utilisera uniquement l'âge comme variable explicative. Pour l'instant. sortie de régression du logit de statut ressemble beaucoup à celle d'une sortie de régression standard habituellement carrée. Les informations diagnostiques sont présentées en haut et les résultats sont présentés ci-dessous. en haut des résultats, nous voyons le processus de vraisemblance maximale. Stator, calculez plusieurs modèles avec différents paramètres et estimations. Une probabilité de journal, puis converge vers le meilleur ensemble de paramètres offrant la plus faible probabilité de journal. Étant donné que les modèles logit et probit sont si bien développés, il ne faut pas beaucoup d'itérations pour obtenir un ensemble final de résultats. La dernière probabilité de log-probabilité est présentée ici. Ensuite, nous avons des informations sur le nombre d'observations et une statistique du Khi deux du rapport de vraisemblance. Cette statistique est similaire à un test F pour les modèles linéaires et nous indique que le modèle explique quelque chose ou non. Dans ce cas, la réponse n'est pas tout car la valeur de p de la statistique du Khi est bien supérieure à 0,05. Ensuite, c'est le pseudo R-carré, qui a confirmé qu'il s' agit d'un ajustement terrible. Ce qu'on ne devrait jamais traduire cela comme étant analogue aux statistiques linéaires R carré. Une valeur de 0,0001 est extrêmement liée. la section des résultats, nous voyons pourquoi le coefficient sur l'âge est très faible. L'erreur type est élevée. La statistique z associée est analogue à la statistique t en régression linéaire. Les valeurs supérieures à 1,96 impliquent une signification statistique pour des échantillons de taille raisonnable. La valeur de p a également la même signification que pour les modèles linéaires. Les valeurs de 0,05 ou moins sont statistiquement significatives au niveau de 95 %. statistique Z et la valeur p ont toutes deux montré que la variable h est statistiquement insignifiante. Pour illustrer davantage cela, nous pouvons calculer les probabilités prédites d' appartenance à un syndicat à partir de ce modèle et le tracer sur notre graphique. Les points bleus représentent les points de données bruts et les points rouges représentent les probabilités prédites d'appartenance à un syndicat. en résulte qu'il n'y a pratiquement aucune relation entre âge et l'appartenance syndicale. C'est difficile à voir, mais la relation prédite est toujours non linéaire. C'est juste que la partie non linéaire de ce bit de données est si plate qu' on peut difficilement la voir. Si nous avions prédit cette relation vers des tranches d'âge plus élevées, nous pourrions voir la transformation logit. Le voilà. L'utilisation d'une tranche d'âge de moins 10000 à plus 1 000 révèle une relation non linéaire entre l'âge et l'appartenance syndicale à partir de ce modèle logit particulier. De toute évidence, cela n'a pas beaucoup de sens. Nous prédisons loin des limites. De plus, les âges sont inférieurs à 0 ou pas possibles. Revenons à notre modèle logit et ajoutons d'autres variables. Nous savons que l'âge n'est pas statistiquement significatif. Mais à moins qu'il n'y ait un problème avec la taille de l'échantillon, mon conseil est généralement de ne pas exclure une variable statistiquement insignifiante. La raison en est que le contrôle de nouvelles variables supplémentaires peut rendre les variables antérieures statistiquement significatives. Encore une fois, jetons un coup d'œil. Nous ajouterons les salaires, les mariés et les diplômés collégiaux comme variables explicatives supplémentaires à notre modèle. Le modèle possède désormais une statistique du Khi deux de 48, ce qui est statistiquement significatif. Cela signifie que nos variables expliquent quelque chose. pseudo R carré est de 0,023, ce qui est bien mieux qu'avant. Cependant, il semble toujours de faible valeur. Cela vaut la peine d' approfondir cette question à l'aide d'un tableau de classification. Le moment. abord, en examinant les résultats, nous constatons que deux variables sont statistiquement significatives au niveau de 95 %, soit le salaire et le diplôme d'études collégiales. Une variable, le mariage, est statistiquement significative. Au niveau de 10 %. Les coefficients actuellement présentés sont difficiles à interpréter, mais nous pouvons en déduire la taille, le signe et la signification. Les salaires sont positivement liés à la probabilité d' être membre d'un syndicat. fait d'être diplômé d'un collège est également positivement lié. fait d'être marié est négativement lié au fait d'être membre d'un syndicat. Tous deux diplômés et mariés. Une variable explicative factice. Nous pouvons donc en déduire que l'effet d'être diplômé du collège est plus fort que celui du mariage. Cela s'explique par le fait que le coefficient absolu des diplômés du collège est environ 20 % supérieur au coefficient des mariés. Pour mieux comprendre les coefficients , nous calculons normalement les effets marginaux. Cela peut être fait facilement et états et, par défaut, pour calculer les effets marginaux moyens. En d'autres termes, toutes les pentes sur chaque valeur de x, puis sont moyennes. Voici les résultats. Les États sont calculés les effets marginaux moyens par rapport à toutes les variables. L'effet de l'âge est insignifiant, mais l'interprétation de l'estimation est la suivante. En moyenne, une augmentation d'âge d'une unité augmente la probabilité d'affiliation syndicale de 0,1 point de pourcentage. Le salaire est également une variable continue. L'interprétation est, en moyenne, une augmentation d'une unité. Dans le salaire horaire, la probabilité d'appartenance à un syndicat augmente de 1,2 point de pourcentage. Diplômé marié et collégial, ou variables factices. Ils peuvent donc être interprétés comme, en moyenne, le fait d'être mariés diminue la probabilité d' appartenance syndicale de 3,9 points de pourcentage. En moyenne. fait d'être diplômé d'un collège augmente la probabilité d'appartenance syndicale de 4,6 points de pourcentage. Super. Nous pouvons également calculer des effets de modules spécifiques pour répondre à des questions sur la façon dont certaines personnes peuvent être affectées par le changement de x. Par exemple, l'effet du mariage sur l'appartenance à un syndicat est négatif. cinq points de pourcentage. Pour les femmes âgées de 40 ans ayant une formation collégiale et un salaire de 30$ l'heure. Explorons ensuite la bonne forme un peu plus près. La valeur pseudo-R au carré était de 0,0231. En appelant une table de classification, nous pouvons obtenir plus d'informations. La régression logit du fichier de la table de classification montre que nous avons correctement classé 75 % des observations. Et cela semble être un bon nombre. Mais il est important d'examiner plus en détail le tableau de classification. Bien que notre modèle ait bien prédit des valeurs 0 qui sont en réalité 0, c'est un très mauvais travail pour prédire les valeurs positives. On prévoit que seulement 20 observations sont membres du syndicat. Nos statistiques récapitulatives nous ont permis de constater environ 450 observations. En fait, les membres du syndicat, quelle est la proportion de valeurs correctement classées est relativement correcte. Une inspection plus poussée du tableau de classification nous indique que notre modèle fait mal la prédiction des valeurs positives. Il est clair qu'il faut plus de travail. Ensuite, comparons la sortie du modèle logit. Les résultats d'un modèle probit et de probabilité linéaire comparant les coefficients bruts ne seront pas très utiles. Calculons les effets marginaux pour chaque modèle. Le modèle de probabilité linéaire produit des effets marginaux par défaut. Pour régression logit et probit. Nous devons demander à STATA de les calculer, stocker ces estimations, puis les comparer dans un tableau semblable. Le tableau des résultats indique que les trois modèles produisent des résultats très similaires. Les effets marginaux sont presque identiques. Par exemple, le fait d'être marié entraîne une diminution totale d'un point de pourcentage la probabilité d' être membre du syndicat. À partir du modèle de probabilité linéaire. Une diminution de trois points de neuf pourcentages par rapport au modèle logit, et ils diminuent en pourcentage une partie du modèle probit. Enfin, avant de terminer, permettez-moi de vous montrer le concept de variables Lake avec un modèle Probit. Ce concept peut être difficile à comprendre, donc je préfère le démontrer à l'aide de données simulées. Effacons tout ce qui se trouve dans nos données. Appelons la commande set qui indique à Stata de faire quelque chose 1000 fois lorsque nous invoquons des commandes de nombres aléatoires. Enfin, fixons une graine pour que nous puissions reproduire nos résultats. Je vais maintenant générer une nouvelle variable à de l'air mince en utilisant la fonction de numéro aléatoire de statut qui va générer une nouvelle variable appelée x qui est normalement distribuée. Faisons un résumé pour explorer ce que j'ai fait. J'ai généré un nouveau jeu de données comportant une variable x. Cette variable est normalement distribuée. Il a une moyenne de 0 et un écart type de 1. diagramme de densité du noyau montre la distribution normale de cette variable. Ensuite, nous allons générer une autre variable appelée e qui est également distribuée normalement. Cette variable imite un terme d'erreur dans une régression. Maintenant, nous allons générer une troisième variable appelée y star. Nous avons généré y étoile égale à deux fois x plus une fois E. Il existe donc une relation positive entre étoile Y et X de la pente deux. Cependant, supposons maintenant que mon étoile est un processus latent et non observé. Nous ne voyons pas vraiment pourquoi star. Ce que nous voyons, c'est pourquoi la réalisation de ystar. Y est un. Si l'étoile y est supérieure à 00, si elle est inférieure à 00. Si nous calculons pourquoi nous constatons que 51 % des observations sont de 1, 9 % des observations sont nulles. Maintenant, voulons-nous probablement la régression de y contre x. Regardez-moi ça. Le coefficient Probit est d'environ deux. Ce coefficient est lié à la relation sous-jacente entre l'étoile Y et X. C'est ce que nous voulons dire lorsque nous parlons de variables latentes. Comment coefficient logit et probit, ou coefficient des processus latents sous-jacents. Si nous modifions la valeur de deux à quatre dans notre génération Weinstein, le modèle Probit prédit un coefficient de quatre. J'espère. Ce petit exemple de simulateurs a rendu le concept de variables latentes plus réel et plus facile à saisir.