Transcription
1. Preview: Bienvenue au cours Zero Toe notre héros, où vous apprendrez la programmation artistique et comment exploiter de puissants outils d'analyse statistique pour les signes de données. m'appelle David, et je suis professeur en climatologue avec plus de 10 ans d'expérience dans l'utilisation de notre programmation ainsi que pour un chercheur et un enseignant. Je suis passionné par l'enseignement et je m'efforce de rendre mon contenu de cours accessible à tous, quel que soit votre niveau d'expérience. J' ai conçu ce cours pour tourner autour de l'utilisation des ensembles de données de la vie réelle des
instructions étape par étape sur les mains pratiques sur les activités afin que vous puissiez apprendre de nouvelles compétences étaient vote devenir chauve vers le bas dans la théorie complexe. À la fin de ce cours, vous aurez développé une base de capacité de base à programmer et êtes capable d'
effectuer des analyses statistiques largement utilisées et vous êtes familier avec voté. Générez un graphique significatif des résultats. L' étudiant idéal pour ce cours est intéressé à élargir ses
capacités d'analyse de données sur apprendre le mieux en travaillant avec des exemples riel, il n'y a aucune exigence pour s'inscrire autre qu'une volonté d'apprendre notre programme. N' hésitez pas à consulter la description du cours sur. Je serai impatient de vous voir en vue
2. Introduction à R: Je voudrais commencer par une brève introduction à notre programmation et expliquer pourquoi c'est une très bonne chose à utiliser. Tout d'abord, c'est absolument gratuit. Le programme lui-même est libre d'installer toutes les fonctionnalités supplémentaires que nous allons utiliser est gratuit à installer afin que vous puissiez choisir ce programme sur votre propre machine ou sur votre
ordinateur de bureau et ne jamais avoir à payer pour cela. Are est aussi un langage de programmation, il est
donc hautement personnalisable. Vous pouvez effectuer très unique, très personnalisé annonce des tâches parce que vous écrivez tout ce qui peut. Il est également facile de réexécuter ces analyses complexes car elles sont refroidies. Tout est enregistré dans un fichier de script, sorte que vous pouvez l'ouvrir plusieurs années plus tard. ONU. Analyse effectuée exactement la même semaine est également vraiment facile à automatiser et sont donc c' est une chose énorme pour vous faire gagner du temps. Vous savez qu'il faut beaucoup de temps pour effectuer des analyses à la main, surtout si vous faites quelque chose de vraiment répétitif sur un grand ensemble de données. Mais comme il s'agit d'un langage de programmation, nous pouvons parcourir cet ensemble de données à travers ces analyses. Les tâches, contrairement à l'ordinateur, font le levage lourd pour nous. Il est également génial et sont parce que vous pouvez produire des graphismes vraiment de haute qualité et vraiment professionnel de sorte que vous pouvez vraiment élever vos résultats dans vos résultats. Il y a aussi beaucoup de paquets divers ou extensions disponibles et sont donc il ya beaucoup de fonctionnalités intégrées dans le programme de base de notre, Mais il ya aussi
beaucoup, beaucoup de paquets là-bas qui ont été développés toe add fonctionnalité supplémentaire au programme de base. Nous en utiliserons beaucoup. Il y a aussi beaucoup de communauté. La ressource est donc il y a tellement de gens qui utilisent sont dans le monde que les chances sont que
peu importe le problème que vous rencontrez et que vous codez quelqu'un d'autre a probablement déjà eu le même problème qui a posté une solution en ligne. Donc Google est ton ami. Il y a beaucoup de blogs et la ressource est sur l'aide. Andi Jittery ALS là-bas que vous pouvez puiser dans une trouver une solution à votre problème sont également très largement utilisé, un universitaire sur la recherche commerciale, Mawr et plus de gens utilisent notre chaque jour, et il est très beaucoup devenir la norme pour l'analyse statistique et la science des données, et enfin notre comme open source, ce qui
signifie que la fonctionnalité est continuellement ajoutée orteil sont ainsi, évolue constamment pour vous fournir des fonctionnalités supplémentaires pour effectuer de nouvelles analyses tâches. Cela dit,
il y a aussi des raisons pour lesquelles sont peut être une énorme douleur, surtout quand vous commencez et apprendre pour la première fois sont comme la voie de commande pilotée. Donc, il ne sert à rien de cliquer sur votre chemin vers le Nirvana. n'y a pas de système de menu allumé. Tout doit être cité à la main. Donc, avec cela vient une courbe d'apprentissage très raide. C' est comme apprendre une nouvelle langue est difficile et cela prendra du temps. Mais je suis là pour vous aider. Comparons donc notre courbe d'apprentissage avec la courbe d'apprentissage d'autres programmes. Évidemment, plus vous passez à apprendre quelque chose, plus vous pratiquez longtemps, mieux vous deviendrez. Mais certaines choses sont plus difficiles que d'autres. Donc, si nous regardons notre courbe d'apprentissage là-bas, vous verrez que c'est d'abord très raide, et le bas nous risquons de perdre certains d'entre vous en chemin. Je suis là pour vous aider à surmonter cette bosse et à atteindre un plateau où vous devenez un
expert confiant , notre utilisateur, pour illustrer à quel point sont largement utilisés dans le monde entier. Je veux vous poser cette question. Je veux vous demander, Qu'est-ce que les Pirates ? Langage de programmation préféré ? Eh bien, ce sont, bien
sûr, sont des metes. C' est juste une petite blague. Mais s'il vous plaît rejoignez-moi dans la vidéo suivante, où nous allons regarder des exemples de notre code et regarder comment lire le cordon, regarder sa structure et déterminer ce qu'il fait réellement, donc je vais vous attraper dans la prochaine.
3. Comment lire le code: dans cette vidéo, je voudrais vous montrer brièvement un exemple de notre code et parler de la façon dont nous
reconnaissons ce que fait le cordon, comment lire le cordon sur la façon dont nous pensons à sa structure. Alors pourquoi lisons-nous ce morceau de code ? Que devrions-nous chercher ? Devrions-nous chercher des lettres ou des mots ? Devrions-nous regarder les chiffres ? Devrions-nous regarder les symboles qui sont utilisés ? Eh bien, en fait, on ne devrait pas regarder ces choses. Tout d'abord, non. Tout d'abord, nous devrions chercher les commentaires. Les commentaires ont été écrits par la personne qui a écrit le code en premier lieu sur l' expliquer ce que le code fait. Il est donc vital qu'on les lise. Suivant. Nous allons regarder le poids, espace, l'espace, les voies vides, l'indentation qui est autour du bateau, le cordon qui nous dit beaucoup de choses sur la structure du cordon sur ce que fait le cordon. Ensuite, nous allons regarder ce qui était en fermant cet espace blanc. Ceux-ci pourraient être des mots comme fonction ou fin, ou ils pourraient être des symboles, y compris des
parenthèses, des parenthèses et des accolades. Ensuite, nous allons regarder assembles mots sur les lettres sur la dernière de tous les chiffres qui
sont utilisés. Alors que nous regardons en arrière cet exemple, morceau de code, la première chose que nous recherchons sont les commentaires. Ce commentaire me dit que ce morceau de code est une simulation binomiale. Si je lis la description ci-dessous,
cela me dit que cela pourrait être de calculer la proportion hors tête sur les contes qui sont atteints lors du lancement d'une pièce de monnaie. Vous remarquerez qu'il y a un bloc de commentaires est entouré par des hashtags ou des signes pone et sont le hashtag Roponen. Sane dit à l'ordinateur, Ne pas lire cela. C' est Humain Speak. C' est l'anglais. Je n'ai pas à exécuter ça. C' est là que nous cherchons des explications sur ce que fait le cordon. Nous pouvons alors commencer à regarder l'espace blanc ici et en ligne. 23. Nous voyons qu'il y a un peu d'espace blanc. Cela indique que Ok, nous avons eu quelques commentaires. Maintenant, nous allons commencer à faire un peu pourrait. On n'a plus d'espace blanc sur la voie 32. Donc, cela signifie que de 24 à 31 toutes ces lignes de code font une chose, puis en ligne 33 à 44. Nous avons un autre morceau de Courtis séparé par un espace blanc. Cela dit, une autre section de la cour fait autre chose. Une autre chose que nous avons, c'est l'indentation des lignes 34 à 43. Chaque ligne de code y est indentée ou tapée vers l'intérieur. Cela me dit visuellement, que chaque ligne là, comme avec n ou partie hors de la boucle extérieure qui se passe ici. Ensuite, nous commençons également à remarquer qu'il y a des accolades sur certaines parenthèses. L' accolade bouclée dans ce cas indique où une boucle quatre se passe. Tout dans ces accolades bouclés de Lane 33 Toe Lane 44, nous avons du code qui fonctionne sur itérer dans une boucle. Nous avons également des parenthèses et des parenthèses, air indiquant généralement où une fonction se passe. Donc, ici, nous avons voir des parenthèses. Il s'agit de la fonction innée simultanée qui relie ou regroupe des éléments. Nous avons également des symboles et des opérateurs dans ce code. Si nous allons la voie d'orteil 26 J'ai cerclé quelque chose qui ressemble à une flèche est un Chevron, suivi d'un tiret ou d'un trait d'union qui est l'opérateur d'affectation et sont donc ici en ligne. 26. On attribue un nombre tain à la variable flips ici. Dans la boucle for, nous avons une instruction F, qui évalue si je suis supérieur à deux. C' est donc un opérateur logique. Il est d'évaluer si je suis plus que deux ont été retournés, vrai ou faux. Et enfin, nous avons un signe inégal. J' ai dessiné un cercle par ici. Cela vient dans une fonction. Ondas assigner quelque chose à un argument appelé Main Dans la fonction ici attribue proportion hors têtes une chaîne de texte, donc les programmes sont simplement des instructions. Il s'agit de flux séquentiels hors instructions que l'ordinateur va lire. Donc, passant des lignes de code à une belle sortie, belle figure. Joli projet n'est pas magique. C' est simplement l'ordinateur qui lit ces lignes de cour. Donc, nous devons réfléchir soigneusement un bateau, l'ordre que nous présentons ceux dans sur si l'ordinateur va avoir un sens d'eux ou non, selon endurer Dextre, un grand ingénieur logiciel, grand père de l'informatique. Tous les programmes peuvent être structurés et à quatre façons possibles, nous pouvons avoir une séquence, nous pouvons avoir facilité de
branche, affaiblir des boucles et nous pouvons avoir des modules. Donc c'est Luca, chacune de ces différentes structures. En bref, parce que chacun de ces éléments constitue la base de la logique de programmation. Nous avons un flux séquentiel strict où nous avons simplement un morceau de cordon, une autre pièce et d'autres clés, et il effectue sur analyse. Donc étirer le sol séquentiel. Étape 123 sur Tada aura alors quelque chose appelé une branche, qui est une déclaration conditionnelle. Donc, ce serait comme une déclaration if. Nous avons quelque chose qui est fait à la place. Un, il l'est. Alors testez manger. Une déclaration logique est testée. Je ne deviens jamais vrai ou faux, et cela détermine si nous suivons Puff un ou si nous suivons le chemin pour que vous puissiez voir le code se ramifie en deux ou plusieurs chemins. Ensuite, nous avons des boucles, ces air se répètent continuellement jusqu'à ce que la condition soit remplie. Vous pourriez donc penser à cela comme une boucle à travers une table de données. Une table de données avec, disons, 100 rose. Vous commencez par la règle 1. Vous effectuez une analyse dans la boucle, puis vous allez croître 2345 Donc vous avez itéré à travers 100 rose jusqu'à ce que vous atteigniez le dernier à
la fin des arrêts de boucle. Les modules mettent simplement de nombreuses parties de l'analyse ou des étapes d'accord avec une fonction A. Donc, ici, nous avons plusieurs étapes de la cour que nous suivons séquentiellement. Et au lieu d'écrire chacune de ces lignes à chaque fois, nous voulons que l'ordinateur lise,
euh, euh, affaiblir mettre quatre de ces boîtes quatre de ces étapes de code avec un module ou une fonction sans fin , et ensuite nous pouvons appeler toutes ces fonctionnalités. Chaque fois que nous le voulons, nous voterons pour évaluer toutes les étapes individuelles. Donc ce sont des choses que chacun de ces aspects du code que nous allons examiner pendant que nous suivons ce cours. Mais au-delà de la structure, qu'est-ce qu'on regarde d'autre ? Nous examinons les variables. Il va avoir des types différents ou des structures différentes pour eux. Il y a des vecteurs qui sont des groupes hors du même élément qui sont des matrices, qui sont essentiellement des tables hors colonnes et grandit. Et puis dans notre il y a une structure spéciale appelée un bloc de données, qui est une table de données. Mais il peut contenir différentes variables avec des éléments différents, donc il pourrait contenir des données numériques. qui pourrait contenir des données textuelles. Il peut contenir de nombreux types de variables différents dans la même table de données. Nous avons aussi des opérations, ces verbes à l'ail et le langage de ces termes d'action aérienne. Ils peuvent être la soustraction d'addition mathématique, division de
multiplication où ils pourraient être un opérateur logique comme supérieur à inférieur ou égal à. Et puis nous avons la façon dont nous interagissons le dialogue entre nous sur la machine. Donc, en regardant à nouveau ce morceau de cordon, nous pouvons voir des branches à l'intérieur. Nous avons ici une déclaration « if » qui évalue si j'ai plus de deux. Si j'ai plus de deux, nous courrons. Le tribunal est à l'intérieur de cette déclaration. Nous avons aussi une boucle ici qui est en boucle pour les essais I et un deux-points. Donc, cela veut dire que pour un à travers la longueur des épreuves que nous avons
assignées plus loin , voie 27 est 100. Donc, pour un à 100 yeux allant à égal un dans la première génération, je serai égal à dans la deuxième génération 34 etcetera jusqu'à ce qu'il atteigne 100 nanite
terminera . Nous avons aussi des marshals dans ce domaine. Pourrions-nous avoir une fonction à l'intérieur que nous avons une fonction d'échantillon à l'intérieur que nous avons une fonction
concoquée, innée. Donc, nous voici, encapsulant de nombreuses étapes dans une seule fonction. Ensuite, nous avons des données et nous avons des opérateurs. Nous assignons des données numériques à deux têtes, deux flips, deux essais à la vitesse. Nous effectuons également des opérations logiques avec le plus grand savoir et aussi le signe égal . Là, vous l'avez. C' est comme ça que nous regardons le cordon. Est-ce que nous commençons à comprendre ce qu'il fait, comment nous lisons le cordon. Donc non, continuons sans plus tarder et pratiquons réellement l'écriture de code.
4. Installer R et RStudio: Alors commençons. La première chose que nous devons faire est d'installer deux programmes. Le premier programme est le nôtre. Et puis nous devons installer notre studio, qui est plus d'une interface utilisateur graphique qui nous permet d'interagir plus facilement avec notre Alors ouvrez votre navigateur Web en allant sur Internet sur Google ou recherchez notre téléchargement. Et la première chose qui devrait arriver, c'est notre projet d'informatique statistique. Cliquez sur ce que Nana dit que notre site Web et ensuite le côté gauche nous voyons un tas de menus. Nous avons un téléchargement sur un bouton cran, alors cliquez sur Cran. Cela nous amène à une liste de miroirs ou de serveurs qui hébergent essentiellement notre autour du monde . Donc, peu importe ce que vous êtes, faites défiler vers le bas jusqu'à un serveur ou une matière qui est proche de votre emplacement. Je vais faire défiler jusqu'aux
U.S. U.S A. et je vais choisir l'Université de Californie, Berkeley. Mais vous devriez choisir quelque chose qui est proche de l'endroit où vous êtes réellement situé. Quand je clique sur que je n'ai pas été téléchargé et volé notre j'ai trois options. Téléchargez notre pour Lennox pour Mac et téléchargez notre pour Windows. Donc, je suis sur un Mac, donc je vais cliquer sur Télécharger notre pour Mac. Il m'emmène à une page supplémentaire où je reçois un installateur de paquet pour la version 3.6 point un de notre est continuellement mis à jour. Alors venez à cela et prenez la version la plus récente qui va télécharger. Une fois qu'il est téléchargé, vous pouvez l'installer. La prochaine chose que nous allons chercher est le téléchargement de notre studio On. La première chose qui arrive est de télécharger notre studio depuis notre studio, Dr Cohn va cliquer dessus. Cela nous amène à notre site de studio, et nous acceptons Seigneur, notre bureau de studio pour le téléchargement de clic gratuit défile un peu vers le bas de la page, et nous pouvons choisir notre système d'exploitation à nouveau. Je suis un Max quand je vais cliquer sur l'option Makbul West, et cela va aussi télécharger, et puis vous pouvez l'installer. Vous pouvez et ouvrir notre à partir de vos applications, peur si vous êtes sur un Mac ou à partir de fichiers programme. Si vous êtes sur les fenêtres et lorsque vous ouvrez notre, vous obtenez la fenêtre de la console sont, donc c'est un os très nu limité Regardez notre Il vous dit juste un peu sur le programme lui-même, et il vous donne un curseur clignotant, un voie de commande à laquelle vous pouvez commencer la notation pourrait. Donc, par
exemple, je peux écrire deux plus deux décocher que oui, c'est toujours égal pour que c'est bon à savoir, si précis. Ou entrez tout mon code dans la console ici, mais soyez un peu encombrant. Si je veux créer plusieurs lignes de code et les ajouter et les changer et revenir en arrière, ouvrez-les, enregistrez-les ce genre de chose. Donc ce qu'on va faire, c'est ne pas utiliser la console elle-même. Nous allons plutôt utiliser notre studio qui communique avec lui. Donc, quand nous ouvrirons notre studio après votre installation, vous verrez qu'il y a plusieurs problèmes, et la première chose que nous allons faire est d'aller dans le fichier dans notre studio, et nous allons faire un nouveau fichier, notre script, Donc, cela va ouvrir une nouvelle fenêtre. Donc nous avons quatre problèmes ou quatre fenêtres ici, et ce nouveau fait est sans titre, document de script
vide. Donc ici, je peux commencer à écrire des lignes de cordon et ensuite je peux les exécuter. Et la console qui est en bas dans la fenêtre en bas à gauche. Donc, c'est juste une version plus petite de la console sont elle-même donc je peux écrire un script dans la fenêtre
supérieure gauche, l'
exécuter dans la fenêtre inférieure gauche sur. Pendant ce temps, je commencerai à voir que les variables que je crée ou les ensembles de données avec lesquels je travaille sont remplis dans la fenêtre en haut à droite. C' est ce qu'on appelle l'environnement. Cela me montre toutes les variables avec lesquelles je travaille dans mon environnement actuel. Et il donnera un résumé de ces variables, puis dans le fond, douleur
droite. Nous avons quelques choses intéressantes. Nous avons un onglet pour les parcelles. C' est donc là que tous les chiffres que nous créons apparaîtront sur nous pouvons les exporter. From Here est différents types de fichiers. Nous avons également un onglet d'aide, qui est vraiment, vraiment pratique. Il nous donne des explications sur les fonctions, sorte que nous pouvons très facilement obtenir de l'aide. Donc, par
exemple, j'ai déjà la fonction de tracé ouvert ici. Il me dit ce qu'est la fonction d'intrigue. Il me donne une description, me
dit comment l'utiliser, me
donne les arguments qu'il nécessite. Et aussi, si je fais défiler plus loin vers le bas, cela me donne des exemples de la façon d'utiliser cette fonction ainsi que des liens vers des fonctions connexes. Et je peux rechercher n'importe quelle fonction ici. Donc, l'un des premiers que nous allons utiliser il y a une table de points de roseau afin que je puisse taper et lire table de
points ici appuyez sur Retour sur. Il me donne besoin de documentation et d'aide pour cela. Il me dit ce qu'il fait me montre l'utilisation de cela me dit ce que les arguments sont si vraiment, vraiment pratique. Très facile d'obtenir de l'aide dans le cadre de notre studio ici. On pourrait aider une fonction dans la fenêtre droite de Boston. Pourquoi écrire ou utiliser la fonction et la fenêtre en haut à gauche et l'exécuter dans la fenêtre en bas à gauche ? C' est donc un environnement très agréable de faire notre programmation pour obtenir de l'aide immédiatement , avec cette fenêtre d'environnement ici, nous pouvons voir ce que nous créons immédiatement et avoir une idée de si cela semble correct, Colonel. Donc, nous allons utiliser notre studio pour toute notre programmation dans cette classe, et je vous encourage à continuer à l'utiliser dans le futur est un environnement très cool travail orteil et rend notre programmation beaucoup plus facile.
5. Introduction aux analyses de base: bonjour et bienvenue au cours. Je suis vraiment super excité que tu sois là. Je suis vraiment excité de commencer notre voyage et deux sont ensemble dans ce dernier. Nous allons apprendre tant de nouvelles choses que nous allons continuer à construire sur celles-ci pendant que nous travaillons avec les ensembles de données Riel à travers la classe. Mais voici ce que nous allons apprendre spécifiquement dans cette première section de la classe. Tout d'abord, nous allons apprendre à charger des données dans notre environnement où elles vont larrin ho, pour préparer ou pré-traiter les données pour vérifier les erreurs possibles sur la façon de corriger les erreurs que nous pouvons trouver. Nous allons également apprendre à créer des parcelles de base, y compris des grammes sifflés, parcelles de
boîtes et des parcelles de dispersion, ainsi que quelques autres types de parcelles de base. Nous allons également calculer des statistiques descriptives. Ceux-ci comprennent des choses comme la moyenne et la médiane leurs moyens de décrire une donnée dire, sur la population d'intérêt. Nous allons également travailler avec plusieurs types de variables,
y compris des vecteurs sur quelque chose appelé facteurs. Nous allons créer des cadres de données qui sont des objets de données vraiment importants dans notre environnement
de programmation. Nous allons également créer des fonctions définies par l'utilisateur où non seulement nous utilisons des fonctions intégrées dans notre, nous allons réellement créer certaines des nôtres. Nous allons également apprendre à itérer à travers les vecteurs sur les blocs de données, en utilisant des structures en boucle afin d'automatiser notre code. Et enfin, nous allons effectuer des statistiques inférentielles. Des choses comme les tests T, une novas, corrélation et la régression. Je veux dire différence entre les statistiques descriptives inférentielles que les statistiques inférentielles alos à demander et répondre plus dans la dette. Des questions sur notre ensemble de données pour obtenir des informations. Souvent, les données qui travailleront dans cette première section de la classe sont appelées Temps et Vie. C' est un ensemble de données que j'ai aidé à créer il y a de nombreuses années, et c'est un ensemble de données où nous avons demandé aux personnes du public Quel âge pensez-vous avoir ? Les membres du public ont reçu un morceau de papier avec ce diagramme de cheveux en croix dessus. Vous verrez qu'il y a ah, voie noire
horizontale sur une ligne noire verticale au milieu, et on leur a demandé de regarder cette croix ici et d'imaginer que la voie horizontale est le temps sur la voie verticale, qui se croisent avec elle est le présent ont ensuite été invités à réfléchir à l'endroit où ils sont dans leur vie et à tracer des lignes verticales. Sur ce diagramme. Nous leur avons demandé de tracer une ligne à gauche de la voie verticale centrale, indiquant quand ils sont nés et tracer une ligne à droite de la ligne centrale verticale , indiquant quand ou où ils pensent mourir. Donc on demande vraiment aux gens de juger, où sont-ils en ce moment ? Par rapport à leur durée de vie ? En d'autres termes, quel âge pensent-ils vraiment avoir ? Sont-ils proches de la mort ou est-ce beaucoup plus loin dans l'avenir ? Donc, par
exemple, si je remplissais cette enquête, je mettrais ma naissance assez près de maintenant parce que je ne suis pas si vieille. Et je mettrais ma mort là où je pense que je vais mourir une ligne verticale que je ne mettrais pas
loin dans le futur,
parce que je pense que je vais vivre éternellement. dans le futur, Nous mesurerions ensuite ces voies sur. Nous étions déterminés à quel point quelqu'un pense qu'il est dans sa vie. Nous pourrions ensuite comparer cela avec les tableaux actuariels que les statisticiens utilisent en particulier ceux qui travaillent dans le domaine de l'assurance-vie et qui vendent ce genre de polices. Ces tableaux indiquent aux statisticiens combien de temps une personne est susceptible de vivre en fonction du moment où elle née, est
née,
afin que nous puissions comparer l'âge d'une personne statistiquement à l'âge auquel elle pense avoir. Quand on a fait ça, on a pu déterminer si leur idée si je suis vieux, ils sont négatifs par rapport à leur âge réel. Et si c'était le cas, cela signifiait
qu'ils se sentaient plus jeunes qu'ils ne le sont en réalité. Cela signifie qu'ils se sentent plus jeunes. Ils pensent qu'ils sont plus loin de la mort, alors ils le sont en fait, et certaines personnes obtiendraient un chiffre positif. Certaines personnes surestimeraient leur temps dans la vie. On pourrait penser qu'ils sont plus âgés, alors ils sont en fait. Ensuite, nous demandons également à ces personnes de fournir des tas d'autres variables, comme s'ils étaient mariés, s'ils sont employés, quel est leur niveau de scolarité ? Nous utiliserions ces autres variables pour prédire comment les personnes âgées pensent qu'elles sont. Nous allons donc entrer dans ces données, disons, commençons à les regarder, et je sais que vous allez trouver fascinant de recueillir ces idées et d'analyser
cet ensemble de données et de créer des chiffres vraiment intéressants et visualisations de ce que nous apprenons à ce sujet. Alors commençons. Je te verrai dans la prochaine vidéo.
6. Configurer votre environnement de programmation: avant de commencer à écrire un code réel et sont. Je pense que c'est une très bonne idée de mettre en place un système de dossiers pour stocker notre code, nos données sur notre sortie. J' ai donc créé un dossier de détection sur mon ordinateur. Vous pouvez nous créer où que vous vouliez dans un endroit qui fonctionne pour vous. Si nous regardons dans mon dossier Section un, vous verrez alors que j'ai quelques dossiers pour la sortie de données et quelque chose appelé SRC qui signifie source. C' est là que je vais enregistrer notre décodage de code source qui était en train d'écrire. Si je clique sur le dossier de données, vous verrez que j'ai déjà chargé le fichier txt de données
de temps et de vie que nous allons travailler et lire dans la première section du cours. Il pouvait également voir le dossier choisi de nuit où nous allons stocker les parcelles et généralement sortie, ainsi que le dossier source où nous allons enregistrer notre code source. Donc, après avoir mis ça en place, on va ouvrir les orteils. Notre studio dans notre studio est un excellent environnement pour travailler et sont et vous remarquerez que nous avons un fichier de script sans titre et la douleur de la main supérieure gauche. Si vous ne l'avez pas, vous pouvez ouvrir un nouveau fichier de script en allant déposer un nouveau fichier sur notre script. C' est là que nous allons commencer à écrire le cordon. Donc, la première chose que nous devrions faire est de nommer le fichier de script et de créer un peu un commentaire où nous allons écrire ce que c'est du code en tant que bateau, quoi il sert. J' ai donc déjà créé un script pour le faire. Je vais juste copier une fin, mais vous pouvez la copier dans votre document sans titre. Et tout cela, comme encore une fois, est des hashtags. AARP propres signes indiquant à l'ordinateur qui est de ne pas lire que ce sont des commentaires humains sur Dive écrit que c'est une introduction à l'analyse statistique et notre je dis que nous allons faire la prière de données sur l'analyse de base et nous utilisons le données de temps et de vie préparées
à l'origine par moi. David Keeling est ce soir, nous avons quelque chose écrit dans le fichier de script. Nous devrions probablement l'enregistrer, Donc pour ce faire, nous pouvons appuyer sur le bouton Enregistrer ou nous pouvons aller enregistrer le fichier comme et nous allons naviguer vers tout ce que vous avez créé votre section un dossier, aller dans le dossier source, et ensuite nous allons nommer ce fichier pour le sauvegarder. Donc, je vais simplement appeler ce code de soulignement statistique d'analyse de soulignement. Donc en lui donnant une description de base, quelque chose que je comprendrai. Et je vais l'enregistrer dans le dossier source. Donc maintenant, il n'est plus sans titre. Nous lui avons donné un nom, et nous pouvons continuer à cliquer sur le bouton Enregistrer pendant que nous continuons à pieds ADM. Ou plus de lignes de code à cela. Alors attrape-moi dans la prochaine vidéo où on va commencer à évaluer le cordon. J' ai effectivement lu dans l'ensemble de données et commence à le vérifier pour les erreurs au sud. On se voit alors.
7. Lecture dans un ensemble de données et modifiez les noms de colonne: Commençons par écrire nos premières lignes de notre code. La première chose que je vais faire est d'écrire un commentaire à moi-même qui dit, C'est là que je charge et prépare à nouveau les données requises. Écrire des commentaires est super important, pas seulement pour vous aider. Quand vous regardez en arrière, vous avez écrit, mais aussi quand quelqu'un d'autre regarde votre accord, cela les aide à comprendre ce que vous écriviez réellement. Donc, la fonction que nous allons utiliser pour lire et les données s'appelle Reader Table. C' est une fonction, donc elle a une table de rétorsion de nom, et elle est suivie de parenthèses. Dans ces parenthèses est l'endroit où nous spécifions des arguments, séparés par des virgules et menace classe. Nous allons utiliser beaucoup,
beaucoup de fonctions, donc je vous encourage à chaque fois que nous rencontrons une nouvelle fonction, pause la vidéo, regarde l'enfer sur cette fonction. Donc, j'ai déjà chargé pour aider ici en bas. Douleur de la main droite pour la table de points reid Et rappelez-vous, vous pouvez rechercher n'importe quel nom de fonction en utilisant la barre de recherche ici, donc lisez, pas la table nécessite trois arguments. Le premier argument est le chemin d'accès et le nom de fichier à toutes vos données se trouvent sur votre ordinateur. Mais pour rendre les choses un peu plus faciles, je vais utiliser la fonction de fichier Chien à mâcher. Quand je cours dans ce,
cela va réellement ouvrir une fenêtre de Finder ou une fenêtre de l'Explorateur Windows et ce bas je devais
naviguer vers toutes les données sont sur nos machines. L' argument suivant est défini dit est nécessaire parce que nos besoins de savoir quel type de séparateur est entre les données et notre ensemble de données. Donc, vous avez peut-être entendu parler de CSP coma valeurs séparées, mais nous allons en fait utiliser un ensemble de données point txt ici. Donc ces valeurs séparées par l'onglet air. Donc, entre chaque colonne et non l'ensemble de données, il y a un onglet et nos besoins pour savoir ce que c'est. Donc, il sait où il y a séparation entre les colonnes et de spécifier que nous allons mettre guillemets
doubles. Je vais mettre une barre oblique c'est comme
ça que notre nez est un personnage de tabulation. Le dernier argument est l'en-tête sur. Nous devons spécifier si l'en-tête est égal à false ou hander égal à true. Si l'en-tête est égal à true, alors on va supposer que la première ligne de données et notre ensemble de données est en fait les en-têtes de
colonne ou les noms de colonne dans notre ensemble de données n'a pas de noms. Et donc nous allons dire que l'en-tête est égal à faux afin que nous sachions que les premières données de
route sont juste la première ligne de données sur ne pas l'appeler noms. Maintenant. Nous pourrions exécuter ceci tel quel,
mais c'est beaucoup plus utile si nous l'assignons à une variable. Donc, je vais l'assigner à une variable appelée Life Data en utilisant l'opérateur d'affectation Chevron et le Dash. Voyons donc ce qui se passe lorsque nous exécutons cette ligne de code en utilisant le retour de commande ou le
retour de contrôle , en fonction de votre machine, alors ouvre immédiatement une fenêtre de finder. Donc, c'est là que je vais naviguer vers mon dossier Section un,
le dossier de données dans ce dossier. Et c'est là que je trouve mes données de temps et de vie point txt que j'ai déjà téléchargé à partir du site de la classe. Donc, je vais cliquer sur cela et aller de l'avant sur l'ouvrir si immédiatement. Vous voyez que dans la fenêtre de l'environnement parler droit. Nous avons des données de vie est un bloc de données. Il a 210 observations sur 13 variables. Il s'agit donc essentiellement d'une table de données avec 13 colonnes et 210 lignes. Nous pouvons le voir plus en détail si nous cliquons sur le bouton flèche blanc et bleu il montre est que nous avons des colonnes V un à la 13. Donc encore une fois, nous avons spécifié toe sont qu'il n'y avait pas d'en-têtes dans cet ensemble de données, donc notre est allé de l'avant fait certains maintenant là. Non, le plus descriptif. Donc nous devrons faire quelque chose à ce sujet. Mais il nous permet également de voir un échantillon des données qui se trouvent dans chacune de ces colonnes. Il nous dit si c'est un entier, un facteur. Origin America, qui dit, est le type de données qui se trouve dans chaque colonne. Et puis il nous donne les premiers bits de données dans lesquels ils sont, chacun hors des colonnes, une
autre façon de voir les données et notre est simplement de serrer les données de vie, pas la variable que nous avons créée. Et lancez cela, et vous verrez que notre imprime l'ensemble de données dans la console en bas à gauche afin que nous puissions voir les 13 colonnes, mais seulement les 76 premières lignes art le font. Cela coupe l'ensemble de données de sorte qu'il ne remplit pas la console avec des
volumes de données particulièrement importants. Une autre façon cool que nous pouvons regarder l'ensemble de données est utilisée. La tête de fonction de tête retournera par défaut pour six lignes d'un ensemble de données. Nous avons donc spécifié des données de vie. Mais disons qu'on ne veut pas seulement des rôles sexuels. Disons que nous voulons 10 lignes, mais nous pouvons, dans le deuxième argument, spécifier le nombre de règles que nous voulons. Quand nous courons que nous obtenons seulement les 10 premières lignes de données de vie, une autre fonction cool à savoir comme queue. Cela fait exactement la même chose que la tête. Mais comme vous l'avez peut-être deviné, cela regarde réellement la queue ou la fin de l'ensemble de données, et vous pouvez spécifier le nombre de règles que vous voulez voir à partir de la dernière règle dans l'ensemble de données . La prochaine chose que nous voulons faire est de corriger ces noms de colonnes. V un à 13 n'est pas très descriptif, et ça ne va pas nous aider quand nous essayons d'analyser cet ensemble de données. J' ai donc déjà préparé une liste des noms de variables qui sont dans cet ensemble de données. Je vais juste les copier et les coller, et ici quand je renverrai ça un peu pour que vous puissiez les voir. Tous ces éléments sont hors des noms de variables. Vous remarquerez que je les ai mis tous et des citations doubles. Cela dit notre qu'il ya des chaînes de texte leur langage humain, pas pour qu'il lise. Andi. J' ai aussi celui de Coleman entre eux parce que la première chose que nous voulons faire avec ceux-ci comme nous voulons les concocter innés ensemble en utilisant la fonction C et cela va créer un vecteur sur ces éléments comme, tous ces textes ensemble et ensuite ce que nous allons faire car nous allons à un signe pas aux noms de colonnes de l'ensemble de données afin que je puisse utiliser les noms d'appel de fonction. Je peux lui donner des données de vie et ensuite je peux assigner des chaînes de texte Maiken Katyn 82 à cela. Voyons ce qui se passe quand nous mettons juste en évidence les noms d'appel données de vie et ne pas exécuter Il nous donne le V un à la 13 afin que nous puissions réellement attribuer sur le dessus de ces nouveaux noms. Donc, quand nous exécutons ce morceau de code entier et peu importe que nous soyons revenus à la fin de ces lignes parce que nous avons un coma. Il y a du nez pour continuer à chercher une autre ligne de code jusqu'à ce qu'elle atteigne les
parenthèses fermantes afin que nous puissions exécuter toute cette chose ensemble. Et ce que nous voyons immédiatement, c'est que dans la vie de la télévision de données un à 13 noms de colonnes ont tous été remplacés par des noms de chaînes de texte plus descriptifs que nous reconnaissons comme des humains. Alors rejoignez-moi dans la prochaine vidéo, où nous allons explorer l'état qui plus loin, nous allons la vérifier pour les erreurs qu'il peut avoir sur. On va arranger ces Evers pour que je t'attrape dans le prochain.
8. Vérification d'erreurs dans un dataset: La prochaine chose que nous voulons faire est de vérifier l'ensemble de données pour d'éventuelles erreurs. Donc, je voulais commenter Ici, vérifier l'ensemble de données pour les erreurs de l'une des façons les plus faciles que nous pouvons rechercher des problèmes dans l'ensemble de données est d'utiliser cette fonction de résumé. Donc, nous allons dire des données de vie sommaires et exécuter ça. Laisse-moi juste agrandir la console pour qu'on puisse voir ce qui s'est passé quand on a couru. Résumé des données sur la durée de vie effectue essentiellement un résumé statistique sur chaque colonne de l'
ensemble de données . Donc nous obtenons des choses comme les hommes médian, Mean et Max, le premier quartile du troisième trimestre, hors des données dans chaque colonne, et immédiatement je peux voir qu'il y a un problème et la colonne temporelle. Je vois qu'il y a quelque chose ici appelé tous les jours sur leur 10 hors ils savent dans notre discours, tous les moyens, pas un nombre ou dans la valeur manquante. C' est donc un problème. On en a 10 dans la colonne Temps. Nous semblons aussi avoir 10 ans à l'âge de 10 ans et la mort sur le nombre de valeurs manquantes ailleurs , aussi. Nous voyons également que dans la colonne Sexe, nous avons M pour les hommes et F pour les femmes 100 participants de chacun, mais nous avons aussi un blanc pour 10. Donc, parce que le sexe est en fait une variable de facteur, il n'en utilise pas. Mais au lieu de cela, quand il voit une valeur manquante ou inexistante, il crée un facteur hors de rien. Donc, nous devrons aussi réparer ça. En outre, quand je regarde la colonne d'âge, je peux voir que cela a été enregistré en mois, âge de protestation, menthe en mois et ce que je vois. Nos chiffres sont tous assez proches les uns des autres. Mais alors j'ai une valeur maximale ici. 1430. Si je partageais cela par 12 pour connaître l'âge de cette personne en années, je constaterais que cette personne a plus de 119 ans. Il est possible que nous ayons échantillonné un participant aussi ancien, mais c'est peu probable. Ce qui est probablement plus probable, c'est que, puisque l'âge est proche de l'heure indiquée dans cet ensemble de données, quelqu'un qui a enregistré cet ensemble de données a
peut-être transposé 14 30 ou 2 30 dans l'après-midi et pour l'âge du participant. Nous avons également 10 valeurs manquantes dans ce froid je commence aussi à remarquer que dans la température corporelle, les participants température corporelle et degrés Fahrenheit ont une très faible valeur de 90,8. Près de la température moyenne du corps humain est de 98,6. Donc l'attention de 19.8 le signifierait. Cette personne était en hypothermie sur probablement mort. J' ai aussi une valeur maximale de 118 F. Cette personne serait aussi morte. Il n'est pas possible d'avoir le corps humain à ces températures, donc nous devrons corriger pour les bas. Une autre chose que j'ai remarqué à propos de la température corporelle est que nous avons 11 Énéas. Donc, nous avons même mawr valeurs manquantes ici que dans certaines des autres colonnes. Donc on va réparer ça. Eh bien, tout d'
abord, regardons une autre façon de visualiser ces erreurs. Une bonne façon de le faire est de créer un tracé de boîte. On peut dire une boîte de données de la vie, et je veux spécifiquement regarder l'âge parce que nous avons vu qu'il y avait quelque chose de drôle qui
se passait là avec les 1413 mois. Donc, pour ce faire parce que les données de vie sont un bloc de données, je peux utiliser le signe du dollar et le bon âge. Et cela signifie pour nous que je ne suis intéressé qu'à regarder la colonne d'âge dans le bloc de
données de vie . Donc, quand je cours en ce que je reçois en fait un tracé de base de toutes les données, et je peux voir qu'à 1430 la valeur est beaucoup plus élevée que tout le reste est un
menteur très fort . Je pourrais faire la même chose avec la température du corps en spécifiant les données de vie, signe du
dollar, température
du corps. Je peux exécuter ça et voir que oui, j'ai la température du corps de 118 F, la personne qui brûle. J' ai aussi quelques valeurs qui sont beaucoup plus basses,
beaucoup plus froides que le corps humain devrait l'être. Donc, je peux voir visuellement ces menteurs et voir qu'il doit y avoir une erreur là-bas. Une autre chose que je peux faire pour visualiser où toutes ces valeurs manquantes sont utilisées. C' est point dans une fonction, et quand je fournit l'orteil de cadre de données de vie est chien, tout ce qui va faire est de chercher partout où il y a une valeur manquante, et quand je cours, Pas qu'est-ce que nous obtenons ? , Si vous me permettez, quelqu'un est la console. Je peux voir qu'il a traversé notre bloc de données partout où il n'y en a pas, il met une fausse valeur. Et partout où il n'y en a pas, c'est vrai. Donc, comme je suis à la recherche de dinos, par
exemple, je vois le sur la ligne 24. Il y a une vraie valeur. Cela signifie donc qu'il s'agit d'une valeur manquante dans la ligne 24. Andi COLONNE six. Nous n'avons pas imprimé l'ensemble de données car il a été coupé à nouveau pour préserver l'espace. Mais ce que je peux faire, c'est regarder la queue de l'ensemble de données. Je peux lui donner des données de vie, et je peux spécifier que je veux les 35 dernières lignes. Je veux faire ça. Je peux voir ça. Oh, ouais, il y a là où les autres et les vallées sont là où il y a des
valeurs manquantes et des hausses. Donc, de la ligne 201 à 210, il manque toutes les valeurs. Donc, cela me donne une façon vraiment agréable de voir rapidement où se trouvent les problèmes. Dans cet ensemble de données, une autre chose que je peux faire est de spécifier que je veux retirer la rose de mon ensemble de données où j'ai valeurs
manquantes pour voir seulement ces roses spécifiques. Non, une façon de le faire est d'utiliser la fonction Y at-il à nouveau ? Et nous avons mis sa fille dans une autre fonction appelée Rose ums. Donc, je mets Rose um, parenthèses et est porte tout dedans. Donc Rose Somms va essentiellement résumer les valeurs de n'importe quoi dans chaque ligne. Donc, il va calculer le nombre d'Énée parce que c'est ce qui n'est pas fait son retour. Qu' il y ait un là-bas ou non sur Rose Ums va résumer ces chiffres sur tout dans chaque route. Alors je veux vraiment juste voir Rose où leur bras ou Énée que zéro. Je veux voir Rose où Énée existe, donc je peux mettre dans un opérateur logique ici supérieur à et je peux spécifier zéro. Je veux la rose où le nombre d'Énée est supérieur à zéro. Ensuite, je peux utiliser ces doubles fonctions ici avec l'opérateur logique pour sous-ensemble ou extraire données
de vie, et je le fais en disant des données de vie sur n'importe quel crochets, et notre allié était de sous-définir une note de bloc de données dans crochets. Nous devons spécifier la ligne sur la colonne séparée par un coma. Donc je vais mettre une virgule après zéro. Donc, je suis là, comptant le nombre d'ennemis qui sont dans chaque rangée sur. Puis je suis à la recherche de Rose, où il ya Maura, Anais que zéro où Énée existe sur. Ensuite, je dis, je veux chaque ligne de l'ensemble de données de vie où cela est vrai en spécifiant le coma
, puis je laisse les blancs de désignation de colonne. Je ne mettrai rien après ce coma. Donc, ce sera les gens comme toutes les règles où il ya des ennemis sur elle, va refroidir chaque colonne à travers ces roses. Voyons ce qui se passe quand on fait ça. Quand nous courons que nous voyons, nous obtenons la ligne 24 puis nous obtenons la route 201 à 210. Donc, cela se sent partout où nous avons une valeur manquante. Donc, dans la ligne 24, nous avons la plupart des données ont été recueillies, mais la température du corps manque un enregistrement ici. On manque le record de température corporelle pour le participant numéro 24. Mais pour les participants 201 à 210. On est en train de jouer. Absolument à chaque Pensez. Il y a qu'on manque toutes les données et on est passé à un jusqu'à 210. Alors, s'il vous plaît rejoignez-moi dans la prochaine vidéo où nous allons corriger ces erreurs allaient se
débarrasser de l'Énée. Nous allons nous débarrasser des valeurs de menteur sur. Nous allons les remplacer par des valeurs appropriées et corriger cet ensemble de données. Alors je te verrai alors.
9. Correction d'erreurs dans un dataset de données: après avoir identifié les erreurs dans cet ensemble de données, la prochaine chose que nous voulons faire est d'essayer de corriger ces erreurs. C' est l'un des moyens les plus faciles que je peux me débarrasser des valeurs manquantes dans un ensemble de données est d'utiliser que n'importe quelle fille a rencontré la fonction. Voyons ce qui se passe quand je dirige un médecin. Amit, vous pouvez voir qu'il imprime à la console Besoin d'un ensemble. Rappelez-vous d'avant que nous avions une valeur manquante hors température corporelle dans la ligne 24. Donc, quand nous utilisons un chien omettre non, seulement il va supprimer cette valeur de cette règle. Mais ça va enlever toute la corde. Et cela peut ne pas être souhaitable parce que c'était la seule valeur manquante et a écrit 24. Il y avait d'autres points de données d'enregistrement, donc nous ne voulons pas nécessairement perdre toutes les données qui ont été effectivement collectées. Ok, encore une fois, vous pouvez voir ici qu'il va de la route 23 à la ligne 25 manquante route numéro 24. Donc une autre façon que je peux contourner cela est d'utiliser les sommes de rôti et on pense
que toutes les fonctions que nous avons utilisées précédemment, donc je vais juste les copier ici. Ce que nous voyons ici encore, c'est que nous comptons le nombre d'Énée dans chaque rangée. Ensuite, nous pouvons extraire seulement les lignes qui ont mawr que zéro Énée de l'ensemble de données. Donc vraiment entendre ce que nous voulons faire est cool il a augmenté qui ont moins de nombre d'Énée. Ainsi, en fonction de ce que vous décidez pour votre ensemble de données, vous pouvez déterminer le nombre de valeurs manquantes que vous voulez dans les colonnes. Donc, nous allons changer. Zéro 22 et on va changer sont plus grands que le signe orteil moins que ça. Ça va oreiller rose de l'ensemble de données où il y a moins de deux malaises. Donc ça va polir Rose, où ils sont zéro Énée, n'y a pas de données manquantes et
où il y a une rose plus fraîche où il n'y a qu'un point de
données manquant . Donc, si je change cela à trois, il supprimerait les règles où il y a 01 ou deux points de données manquants. Donc c'est ce que vous pourriez décider. Combien de points de données manquants est toujours OK, Nous allons juste dire que nous ne voulons qu'une seule valeur manquante, donc une variable à travers la règle peut être manquante. Alors voyons ce qui se passe quand on court que je vais agrandir la console. On va aller voir si écrit 24 est toujours là. Oui, c'est le cas. Nous avons toujours écrit 24 inclus dans l'ensemble de données avec cette valeur manquante pour la
température corporelle . Alors maintenant, comment puis-je créer l'ensemble de données avec seulement ces seules valeurs manquantes ? Et bien, je peux simplement aller sur cette voie 30 qu'on vient d'écrire. Je peux écrire des données de vie, et je peux attribuer la sortie de cette ligne de code que nous venons d'exécuter. Donc, ici, je sélectionne toutes les lignes où il y a zéro pour jusqu'à une valeur manquante. Des animas signant tous ces données ont augmenté à la vie. Donc, j'écris sur l'ensemble de données de vie avec juste la rose qui ont zéro ou jusqu'à un point de données
manquant. Alors rappelez-vous que nous avons eu toutes ces Énéas dans la dernière rose et est monté à un jusqu'à 210. Voyons ce qui se passe. Non, quand nous lançons ça et puis nous lançons un résumé de notre nouvel objet de données de vie. Ce que nous pouvons voir à nouveau, c'est notre résumé statistique de chaque colonne. Je sais. Nous voyons, par
exemple, que le temps, l'âge et la mort n'ont pas ces 10 et un Zen eux. Donc nous nous sommes débarrassés de ces rangées qui avaient plusieurs Énée. Mais nous avons toujours la chambre 24 qui en a une. Elle n'apparaît pas à la température corporelle. Donc, la prochaine chose que nous voulons faire est que nous voulons chercher Rose qui ont une valeur manquante afin que nous puissions revenir à votre code. Je sais qu'on peut revoir les données de la vie. Nous pouvons utiliser ce dysfonctionnement Rosa et est point tout et nous voulons voir des valeurs où il y a plus de zéro valeurs manquantes dans une corde. Quand nous courons que ça va refroidir juste la rangée où j'ai une valeur manquante contre elle sort la route 24 la seule valeur manquante est celle pour la température corporelle. Alors, comment puis-je retirer juste cette valeur manquante ? Je ne suis intéressé que par cette valeur manquante pour la température corporelle. C' est vraiment ce que je veux en venir. Et je veux remplacer par quelque chose. Je veux le réparer. Donc, une façon que je peux le faire est de nouveau en utilisant est dot any et je peux spécifier la température corporelle
saine dollar de données de vie . Donc, je tire note de toutes les valeurs de la température corporelle. Et puis je l'utilise pour sous-ensemble entre crochets de la température corporelle, la colonne entière de la température corporelle. Donc encore une fois, je spécifie des données de vie Dollar ST température corporelle qui refroidit juste cette colonne pour une
température corporelle . Je peux ensuite utiliser les crochets pour sous-ensemble de la température du corps. Donc, par
exemple, si je fais du temps de corps de données de vie, je l'exécute juste. Il me donnera les 200 valeurs hors température corporelle, y compris la valeur de la Route 24. Donc, c'est essentiellement un vecteur de nombres et de sous-ensemble Aiken, pas Victor par un vecteur logique. Donc, comme si n'importe quel souvenir teste comme ils sont sur n'importe quelle valeur ou n'est pas là, il retourne false là où il n'y en a pas et true si c'est le cas, il risque de tourner une vraie valeur sur la ligne 24. Donc, si je cours ces deux-là ensemble, je vais être sous-définir ce vecteur hors de la température corporelle par True sur des faux au seul endroit où ce n'est pas vrai n'est pas la 24e valeur Donc c'est pourquoi il ne reviendra que. Et une valeur 24 est un A No. Qu' est-ce que je peux faire avec ça ? Eh bien, je peux remplacer cette valeur par la médiane de la colonne. Donc je peux dire que là où tout est que je viens de sélectionner. Je vais attribuer à tout ce que je vais signer la valeur médiane des données de vie signe dollar, température
corporelle. Je vais dire que je veux tout point r m en égal. Vrai. Donc, je dis ici que toute valeur va être remplacée par la valeur médiane toutes les mesures de température corporelle que nous avons enregistrées dans l'ensemble de données. Et je vais dire que tout RM est égal à vrai pour supprimer toutes les valeurs. Parce que si j'exécute les statistiques médianes sur la température corporelle des données de vie, il va retourner un éditeur parce qu'ils sont toujours dans n'importe quelle valeur dans leur présent. Non, nous allons remplacer cette valeur par la valeur médiane. Alors voyons ce qui se passe quand nous courons sur lequel nous l'avons exécuté. Non, nous allons courir, c'est à nouveau. La première partie de cela, nous obtenons un zéro numérique. n'y a aucune valeur car nous avons remplacé celle de la ligne 24 par la valeur médiane l'ensemble de données. Donc, si je vais aux données de la vie Andi, je spécifie que je veux la 24e rangée. Toutes les colonnes se souviennent des premières valeurs ont augmenté et coma. Colonnes des valeurs suivantes. Si je laisse des colonnes vides avec des crochets qui reviendront, tous sur die run qu'il me donne écrit est allé pour Et maintenant je vois que la température du corps au lieu d'être tout au lieu de manquer, a été remplacé par 97.4, qui est la valeur médiane de toutes les températures corporelles enregistrées. Donc, il a remplacé la valeur manquante ici par une valeur U. La prochaine chose que nous voulons essayer de faire en tant que Luke pour les menteurs dehors et la température du corps. Alors rappelez-vous non, seulement avons-nous une valeur manquante, mais nous en avions aussi quelques-uns qui étaient irréalistes tout simplement pas physiquement possibles. 118 F et près de 90 degrés pour ceux serait vraiment trop loin pour appeler, cette personne serait en grave, grave problème médical. Hey aurait un gros problème sur les mains. Alors quoi ? Nous allons faire maintenant est de chercher ces valeurs aberrantes et une façon nous pouvons facilement accéder aux
dépliants comme en disant, Block box plot, dot stats Et nous allons lui donner les données de vie sur spécifier la température corporelle. Donc, cela va courir dans la boîte des coups bloqués qui fonctionne uniquement sur notre
colonne de bande corporelle . Alors voyons ce qui se passe quand on court que ça nous donne plusieurs choses. Il nous donne des statistiques qu'il nous donne, et pour cette taille de l'échantillon nous donne confiance. Et ça nous donne quelque chose appelé ces dépliants d'air. Dans l'ensemble de données, nous avons 91.41 18 et 19.8 sur 11 Donc ces mesures d'air probablement irréalistes pour la température de la personne. Ce sont des erreurs. Il y avait quelque chose qui ne allait pas avec le thermomètre ou la personne qui l'utilisait. Il n'a pas été correctement formé, donc nous voulons nous en débarrasser. Nous voulons les remplacer par des valeurs réalistes du MAWR. Donc une façon de le faire est revenue à ses statistiques sur les points de la boîte. Nous pouvons spécifier à partir de cela en utilisant le dollar sain vote afin que nous puissions accéder à ces valeurs de vote les quatre valeurs au téléphone étaient des valeurs aberrantes statistiques ici en utilisant le dollar vu sur la sortie d'une fonction droite. Nous avons donc utilisé des signes dollar pour accéder aux colonnes et à un bloc de données, mais nous pouvons également utiliser le signe dollar pour accéder aux attributs, aux sorties ou aux valeurs à partir d'une fonction. Donc, quand nous faisons juste cette ligne de code, nous obtenons juste ces quatre valeurs qui tracent les statistiques de points identifiées comme si des joueurs. Donc la prochaine chose que nous pouvons faire avec ceci est que nous pouvons les affecter à l'avoine variable. Ce sont les joueurs que nous pouvons diriger ça. Donc pas d'Oates, nous serons apparus. Et notre environnement, nous avons des out qui dit qu'il est en numérique victor est les chiffres pour tous d'entre eux. 18 91 1 Non, nous pouvons remplacer ces valeurs par la médiane de la température corporelle, tout comme nous l'avons fait avec la valeur manquante. Donc, ce que nous voulons faire est d'accéder aux données de vie Onda. Nous voulons accéder en particulier à n'importe quelle température corporelle. Donc, nous allons mettre des données sur la vie dollar disant la température corporelle et ensuite nous allons utiliser des
crochets pour sous-ensemble à partir de la colonne de température corporelle des données de vie. Nous allons dire où tous les données de la vie disent, Body Tim est dans nos votes vecteur eso Nous voulons extraire toute valeur qui est l'un de ces quatre qui a été identifié comme un menteur. Donc, nous pouvons le faire et nous faisons des sorties en pourcentage et en pourcentage. C' est ce que cela fait est de dire que toute valeur de la température corporelle qui est avec N les quatre valeurs et sorties dans le cadre de cette sortie d'Enter va être extraite de la
température du corps . Cole est donc nous sommes encore sous-ensemble ici. Voyons ce qui se passe quand on fait ça. Donc il est dit que nous avons ces quatre valeurs parce que nous retirons les
valeurs de température corporelle là-bas dans le vecteur de menteur. Donc nous avons les mêmes quatre valeurs que nous avons dans les sorties, et maintenant nous allons affecter sur celles que nous allons écrire sur Top Waltham. La valeur médiane du signe dollar des données sur la vie, température
corporelle. Nous allons utiliser ce n'importe quel point notre argument am juste pour nous assurer que nous ne sommes pas foutus par des valeurs manquantes. Alors faisons-le ça, je sais. Faisons un résumé des données de vie une fois de plus juste pour voir combien nous avons corrigé. Donc, nous allons agrandir la console et regardons ce résumé. Donc on a juste travaillé sur la température corporelle. Donc maintenant, nous voyons que le minimum pour le corps Champions 94 qui est plus acceptable. Nous voyons le maximum est 100.3, et c'est probablement cette personne est un peu chaude, mais c'est toujours à l'intérieur des os de la réalité sur, nous ne voyons pas non plus de valeurs manquantes. Donc, cet ensemble de données est juste un bateau fixé. Nous n'avons plus de valeurs manquantes. Onda. Nous avons aussi corrigé ces valeurs irréalistes,
ces valeurs irréalistes, température
hors du corps. Donc la prochaine fois que nous voulons faire est de corriger cette personne vraiment irréaliste de 119 ans avec les 1430 mois de congé de leur âge enregistré. Donc ce que nous pouvons faire pour réparer c'est,
disons, disons, la vie des données dollar signe l'âge. Nous allons utiliser les crochets pour sous-définir les données sur la vie, dollar indiquant l'âge. Donc, nous voyons frappés des données de vie où les données de vie sont égales à 1430. Donc, nous devons utiliser Le double signe égal est un opérateur logique et notre si j'utilise un seul signe
égal. Nous le savons en tant qu'opérateur d'affectation. Donc, nous voulons évaluer ici s'ils sont égaux ou non. Donc, nous utilisons le signe double égal. Nous sortons donc de l'âge des données sur la vie où l'âge des données sur la vie est égal à 1430. Si nous courons juste ça, nous obtenons 1430 parce que c'est là que 1430 est égal à 1430. Nous allons attribuer en plus de ça, la médiane de
l'âge du signe du dollar des données sur la vie, et nous allons utiliser le tout. Ne supprimez pas à nouveau l'argument juste pour vous assurer que nous n'avons pas de valeurs
manquantes qui affectent un calcul de ce médium. Donc nous remplaçons ces 1430 à l'âge médian. Donc, l'âge médian courir que votre rapide est 307 et 1/2 mois. Donc, nous remplaçons cette valeur de 1000 ancien et 30 par trois et 7.5, donc nous pouvons le faire sur Regardons juste le résumé des données de vie à nouveau. Allons regarder l'âge. L' âge ne dit pas que les minimums 216 le maximum est 811. Donc nous nous sommes débarrassés de la valeur non 1430 et l'avons remplacée par la valeur médiane de l'âge. La dernière chose avec laquelle nous avons un problème ici, c'est d'acheter cette colonne de six. Nous avons des mâles et des femelles 100 de chacun, mais ensuite nous avons ce blanc et nous en avons zéro. C' est là que nous avions des valeurs manquantes dans le sexe lors d'un appel en hommage. Donc, nous voulons vraiment nous débarrasser de ces valeurs manquantes, mais elles ne sont pas reconnues comme n'importe quelle parce que c'est une variable de facteur. Donc nous devons faire quelque chose d'un peu différent ici pour réparer ça. Ce que nous devons faire, c'est que nous avons à dire, baisser les niveaux, et cela va chercher des variables de facteurs avec n données de vie, le premier argument et le deuxième argument et les niveaux de baisse comme ce que vous allez dessiner en
tant que niveau et le facteur. Donc, si nous avons spécifié M ou F ici pour se débarrasser de chaque mâle ou de chaque femelle, et pas de variable de facteur Mais ce que nous voulons nous débarrasser est alors manquer les valeurs que nous avons. Zéro détenu. Donc, nous disons exclure égal à rien dans les guillemets, pas d'espace, juste rien entre ces citations. Donc non, nous pouvons Assane ça aux données de la vie et ça va supprimer cette variable de facteur vide de notre six froid. Je sais qu'on peut faire un résumé des données sur la vie une dernière fois. Je sais que nous pouvons voir que la colonne de sexe a juste des objectifs pour les hommes s pour les femmes et pas de
valeurs vides sont des niveaux de facteurs vides là-bas. Nous avons donc entièrement nettoyé cet ensemble de données. Nous nous sommes débarrassés des valeurs manquantes. Nous avons remplacé les valeurs manquantes par des valeurs plus réalistes que les valeurs médianes. Nous avons également identifié les acheteurs dans l'ensemble de données nos valeurs erronément élevées et physiquement impossibles, et nous avons remplacé ces valeurs par des valeurs médianes et nous avons également supprimé une variable de facteur
vide. Alors rejoignez-moi dans la prochaine vidéo où nous allons commencer à regarder les variables de cetensemble de
données,à ensemble de
données, faire quelques tracés et à effectuer des analyses très basiques. Alors je vous attraperai dans le prochain
10. Explorer un ensemble de données (histograms, illustrations, images de boîtes , données de données): Bonjour et bienvenue dans cette vidéo, nous allons faire quelques tracés de base et exécuter quelques exemples de statistiques sur les
variables continues . Dans cet ensemble de données, vous vous souviendrez qu'il existe des variables continues comme l'âge, la mesure de la différence. Et puis il y a des variables catégoriques, comme le sexe sur l'éducation dans cet ensemble de données. Mais tout d'abord, nous allons explorer les variables continues. La première chose que j'ai fait est de créer une boîte avec un commentaire à l'intérieur, disant que c'est là que nous explorons ces variables continues. Donc, qui est juste sépare visuellement cette section de cordon de la section précédente où nous étions en train de fixer l'ensemble de données. Et la première chose que je vais faire est de changer le périphérique graphique. Donc, la dernière fois que nous avons fait une boîte comme celle-ci dans le bas, à
droite, droite, vous avez vu que,
aussi, aussi, attrapé toute la fenêtre de traçage et rappelez-vous que nous pouvons l'exporter à partir d'ici en utilisant enregistrer son image ou enregistrer au format pdf. Mais disons que je veux créer deux parcelles sur. Je veux qu'ils soient à côté de l'autre. Je veux les voir tous les deux en même temps. Ce que je peux faire est d'utiliser la fonction par et je peux spécifier l'argument MF Row et je vais dire que c'est égal. Tu vois un coma aussi. Donc, je suis concocté en train de jouer ensemble ici. Un coma à celui spécifie que je veux une règle, et les deux spécifie que je veux des colonnes. Donc essentiellement, cela va se diviser, sont la fenêtre de tracer au milieu, et cela va me permettre de tracer une intrigue d'abord sur le côté gauche, puis la deuxième intrigue ira sur le côté droit. Donc on dirige ça. Essentiellement, nous ne voyons pas que ça a fait quoi que ce soit, mais il a divisé cette fenêtre pour nous. La prochaine chose que je veux faire est que je vais créer une esta graham à partir de cette
variable dépendante , qui est la mesure de différence. Si vous vous souvenez de l'introduction de cet ensemble de données, vous vous souviendrez qu'une mesure de différence est négative lorsque le participant pense qu'il est plus jeune qu'
il ne l'est en fait sur son positif lorsque la menthe de protestation pense qu'il plus âgé qu'ils ne le sont réellement. Donc, faisons un hist un gramme en utilisant la fonction de test, et nous spécifions à cela les données de vie Stoller, même diff pour la mesure de différence ou variable dépendante. On va étiqueter l'axe X sur cette histoire, Graham, en utilisant X, lumière ou X agneau. Nous allons étiqueter l'axe X avec la mesure de différence de texte où cela doit être entre guillemets parce que c'est un langage humain, donc ne sera pas le lire. Nous allons dire le titre principal de cette intrigue et l'argument principal est égal à tout. Je vais vous expliquer pourquoi. Plus tard, nous allons donner aux barres Hester Graham huit couleurs, les deux bleu ciel, alors vous pouvez spécifier les couleurs comme des chaînes de texte. Laissez-moi ouvrir ce document qui vous montre les couleurs Andi. Comment sont les reconnaît comme anneau de texte afin que vous puissiez spécifier quelques couleurs très spécifiques en utilisant des noms
très spécifiques pour ces couleurs sur notre volonté. Reconnaissez-les. Je vous encourage orteil jouer avec cela et essayer différents noms de nos couleurs. Vous pouvez trouver une description de la zone située. C' est ah, pdf avec les différentes couleurs sur leurs noms. Je vais juste utiliser le bleu ciel parce que c'est une belle couleur pour Let's Run This d'abord. Hester Graham. Là, nous allons et l'histoire Graham est apparue sur la gauche sur le site de cette intrigue
au lieu d'être centré et de prendre toute la fenêtre de traçage. La prochaine chose que j'aime faire est que je veux ajouter une représentation hors densité le long de l'axe
X cette histoire, Graham. Et pour ce faire, je vais utiliser la fonction tapis. Je vais fournir des données sur la vie en disant la mort. Voir ce qui se passe quand on court, pas continuer à regarder le sifflement d'un gramme pour voir ce qui se passe. Vous verrez que tous ces petits tirets sont apparus le long de l'axe X. Donc je suppose que c'est juste une autre indication visuelle de l'endroit où les données se trouvent dans notre ensemble de données, ainsi que d'avoir les barres elles-mêmes sur le plus haut d'un gramme pour m'emmener un
peu dans cette intrigue . La dernière chose que j'aimerais faire est de créer une boîte englobante autour d'elle, en utilisant la fonction boîte, cette boîte ouverte et fermée parenthèses, et cela crée une belle boîte englobante autour de mon intrigue rangements un peu, fait ressembler un peu plus professionnel et poli. La prochaine chose que je vais faire est de créer un tracé de boîte qui apparaîtra sur le côté droit . Donc, je vais dire la boîte. Je vais lui donner vie Data Dollar vu def, puis va spécifier une étiquette Y pour l' axe
Y de la boîte comme mesure de différence sur. Ensuite, je vais répéter, Main est égal à tout. Je ne donne pas encore de titre principal, et je vais aussi dire couleur égale à Skyy Blue pour le garder cohérent avec l'
intrigue précédente . Ajoutons le tracé de la boîte. Voilà, tu y vas. Nous obtenons une belle boîte dans la deuxième position de traçage. La deuxième colonne de cette fenêtre de traçage. Maintenant, je vais réellement restaurer le périphérique graphique à une seule fenêtre de traçage, et pour ce faire, j'utilise la fonction de pièce que nous avons utilisée ci-dessus. Mais je vais enlever le à et pourrait un là-bas. Donc, je suis de retour à être une règle une colonne ou une seule fenêtre de traçage. Vous verrez que ça n'a rien fait à nos complots. Cela ne change pas ce qui est déjà tracé. Il n'agira que sur ce que nous n'avons pas encore comploté. Non, je peux ajouter un titre au commentaire de l'intrigue à moi-même ici que j'ajoute un titre. Je pourrais le faire en utilisant la fonction title et je peux spécifier principal égal différence maker. Voyons ce qui se passe quand je fais ça. Non, je reçois une table principale de mesure de différence centrée au-dessus des deux parcelles. Si je n'avais pas spécifié, Main équivaut à n'importe quel retour ici dans chacune de ces parcelles que j'ai faites. Si je leur avais donné une table, alors ils auraient eu des titres individuels au-dessus centrés au-dessus de chaque intrigue. Donc, en utilisant une partie de cette semaine, aucun Onley Aloes est de tracer des parcelles séparées sur la même page. Mais aussi Aloes est d'ajouter des titres généraux au-dessus de plusieurs parcelles. Si nous définissons le tracé du périphérique graphique à un seul, voit
très une ligne deux colonnes. C' est donc une façon soignée que vous pouvez rendre vos parcelles beaucoup plus professionnelles. La prochaine chose que j'aimerais faire est de créer un nouveau bloc de données dessus. Nous allons stocker des statistiques récapitulatives, donc je vais appeler cette nouvelle donnée encadrée Si et je vais dire que def est une donnée ne
cadre pas ,
et dans cette fonction, je peux commencer à créer un bloc de données sur spécifier différentes colonnes de données. Donc la première colonne, je vais étiqueter N pour la taille de l'échantillon et je vais dire qu'il est égal à la durée de vie du dollar des données de la mort vue. Voyons ce qui se passe quand nous faisons tourner le dollar des données sur la vie terrestre. Dire la mort qui renvoie 200 terres pour est une fonction qui calcule la durée d'un vecteur. Donc, il compte combien de lignes il a. Cela veut dire que les dollars de données sur la vie et s'il y a 200 participants, c'est ce que nous savons qu'il est. Nous pouvons alors créer un autre attribut appelé Hommes. Et nous allons dire que les hommes sont égaux à la fonction hommes vie appliquée des orteils, dollar
des données, même diff. Quand je cours, les hommes fonctionnent tout seul. Je reçois en valeur minimale dans l'ensemble de données. Je vais signer pas aux hommes. Je vais calculer un certain nombre de ces statistiques sommaires. Donc je vais juste copier et coller quelque chose que j'ai préparé plus tôt pour voir que nous avons des terres de Nous avons des hommes. Nous avons également une variance médiane moyenne maximale et un écart-type. J' utilise donc la fonctionnalité intégrée dans notre pour calculer chacune de ces mesures
statistiques sur Nana Miss signant à un nom de variable dans ce nouveau bloc de données que nous créons. Voyons ce qui se passe quand je lance ça. Il crée un nouveau bloc de données, donc vous verrez et notre environnement ici nous avons un nouveau bloc de données appelé La mort est une observation off, sept variables. Donc, si nous regardons la mort, nous voyons que nous avons et 200. Nous avons un minimum de maximum, une variance médiane moyenne et un écart-type. Nous avons donc créé essentiellement un sept colonne une ligne de données définissant ces différentes valeurs
statistiques. Dans la vidéo suivante, je vais tester vos nouvelles compétences de codage téléphonique en vous demandant de créer des diagrammes sifflés et diagrammes de
boîtes ainsi que des résumés statistiques pour un autre hors des variables de cet ensemble de
données. Alors je te verrai alors.
11. défi n° 1 - Créer des cartes et des sommaires statistiques d'une variable: Bonjour. Dans cette vidéo, je vous pose votre premier défi. Je veux tester vos compétences en codage juste un peu. Je veux que vous créiez un hist, un gramme, une boîte Onda, résumé
statistique pour la variable indépendante de l'âge dans notre bloc de données de vie. Et pour vous donner un indice pour cela, cela devrait être vraiment similaire au code ci-dessus que nous avons fait pour la variable. Donc, essentiellement, je veux que vous fassiez exactement la même chose, mais pour la variable d'âge. Alors allez-y et mettez en pause cette note vidéo. Essaie de travailler là-dessus. Et si vous êtes coincé, revenez à cette valeur parce que je ne vais pas vous montrer la solution à ce défi. Bonne chance. Alors maintenant tu es de retour dans cette vidéo et je veux te montrer comment faire ça. Donc la façon la plus simple de le faire est en fait de revenir notre code interne, et nous allons aller de l'avant et copier tout de la pose 47 à la voie 66. On va le coller en dessous. Notre défi sur essentiellement tout ici est très similaire. Sauf qu'il faut changer la différence. Variable à la variable d'âge. Donc, le premier endroit que je vois la variable de différence ici est dans l'histoire. Graham, je veux changer le dollar des données de la vie en disant la mort à la vie, le dollar signe l'âge que je peux et changer mon texte ici. Je ne vais plus tracer la mesure de la différence. Au lieu de cela, je suis en train de tracer l'âge et je peux ajouter quelque chose pour le rendre un peu plus descriptif. En voyant dans des mois pour éviter la confusion, je vais laisser le reste. La même personne implose. Quelque chose de différent ici. Changeons la couleur. Disons que ça va être quelqu'un de la couleur ou Onda. Nous allons aussi changer le tapis sous l'intrigue,
la densité à vieillir au lieu de sourds. Ils allaient faire la même chose ici, dans la boîte. Nous devons changer la mort en âge. On va changer l'étiquette de l'axe Y en vieillissant dans l'un d'entre eux qui va copier ce truc d'en haut. Je vais changer la couleur aussi au saumon et ensuite je vais leur donner un titre hors âge des participants au lieu de la mesure de différence. C' est donc le titre général pour les deux parcelles. Je vais dire l'âge des participants. La prochaine chose que je vais faire est de changer ce bloc de données Def deux ans huit Efraim et remplacer les statistiques sommaires sur la mesure de différence par celle de la variable d'âge dans ce bloc de données. Donc je vais juste changer la mort en âge. Et puis je vais passer à travers et changer partout où les données de la mort sont référencées à l'âge. Donc je vais juste aller de l'avant sur copier ceci et changer chacun de ceux-ci. Tu dois faire attention quand tu fais ça. Non, au rythme à leur propre place ou deux. Retirez toutes les parenthèses, donc presque terminé de remplacer chacun de ces décès par la variable d'âge. Allons-y et lançons ça et vous verrez que maintenant nous avons un juge et notre environnement . Onda nous pouvons regarder ce qu'il
est, et les hommes, variance médiane moyenne
maximale et l'écart-type. Donc, nous avons ah valeur statistique pour chacune de ces mesures sur une observation pour sept variables, Essentiellement. Il s'agit donc de sept colonnes d'une règle sur chacun de ces noms de variables que nous avons créés à l'intérieur. Alors, voilà. C' est le défi d'aller à l'exhaustivité. J' espère que vous allez gérer cela sans regarder cette solution. Mais si tu ne l'as pas fait, ne t'en fais pas. C' est encore très tôt. Continuons à écrire du code plus excitant sur essayer d'améliorer votre compréhension de notre sur l'apprentissage des choses vraiment cool. Alors je vous attraperai dans la prochaine.
12. Exporter des tracées et des résumés statistiques: bonjour Et cette vidéo, je voudrais vous montrer comment mettre en place un stockage de poot pour les résumés statistiques pour tout ce qui est imprimé sur la console et aussi pour un opiacé graphique comme des parcelles. Pour ce faire, nous allons créer un fichier texte pdf Onda dans lequel nous coulons ou mettons tout ce que nous faisons dans notre environnement. Alors laissez-moi créer un co signifiait ici au début de notre cordon variable continu que nous avons écrit dans les vidéos précédentes et ensuite simplement le dire ici. Nous allons mettre en place des chiffres mettant à un
fichier texte en format pdf sur tabulaire ou statistique dans l'alimentation . Et je vais utiliser des chemins de fichiers et des répertoires ici. Vous devez donc vous assurer que vous allez les changer pour ce qui est approprié sur votre machine car nous ne partageons pas les mêmes chemins de fichiers. Donc, la première fonction que nous allons utiliser en pdf sur l'argument que je vais utiliser comme fichier et je vais spécifier un chemin de fichier No. Et Mac, c'est ce que j'utilise. Je peux aller dans ma fenêtre de recherche et je peux aller dans mon dossier de sortie de la Section 1 et mon dossier de classe
You Amy. Non, sur un Mac quand je clique avec le bouton droit sur Oh, mettre, je reçois une option de copie pour copier ce dossier, mais si je maintiens l'option, vous verrez que j'obtiens une autre option de copie. Je peux copier Oh, mettre comme nom de chemin tant que je maintiens enfoncé le bouton d'option sur le clavier. C' est ce que je veux faire. Je veux faire un clic gauche tout en maintenant le bouton d'option enfoncé et copier Okkert comme son nom de chemin . Vous verrez quand je copierai ça dans le script R, j'obtiens mon chemin de fichier avec la barre oblique qu'elle fait face vers l'avant. La prochaine chose que je dois faire comme mettre des guillemets autour de cela, et puis enfin, et le dossier de sortie, je dois avoir une autre barre oblique avant et créer mon nom de fichier, que je vais appeler corn vars dot pdf. Parce que sur cette section du cordon, nous regardons des variables continues, et il doit être un point pdf. La prochaine chose que je vais faire est de créer un évier pour le texte et pour les choses imprimées sur la console. Donc, je vais dire fonction de lavabo, et je vais spécifier ce même chemin de fichier. Donc je vais juste copier tout dans les citations. Je n'ai pas à dire que le fichier est égal et la fonction ST. Je spécifie simplement le chemin du fichier. Maintenant, je dois changer le fichier qu'il va conv notre point txt parce que la
fonction de l'évier va tout accepter à un fichier texte. Ni pdf Non, Si vous êtes dans Windows, ce sera un peu différent pour vous. Donc, je vais laisser un commentaire pour vous aider à comprendre comment mettre votre chemin ici . Donc, si vous utilisez Windows, vous devez copier le chemin d'accès du fichier à partir de la barre d'adresse de l'Explorateur Windows ou vous devez
maintenir la touche Maj enfoncée et faire un clic droit sur le dossier. Alors maintenez, Shefki et cliquez avec le bouton droit sur le dossier. Non, cela ne s'applique qu'aux machines Windows. Et quand tu feras ça, tu auras quelque chose comme ça. Donc si mon ordinateur était une machine Windows, j'aurais quelque chose comme voir le Dr Coloane. Ensuite, je récupérerais des barres obliques à travers mes dossiers à travers mes répertoires vers ce
dossier de sortie dans la section un du dossier de dommages et encore une fois qui sera différent en fonction endroit où vous avez créé ces dossiers sur votre propre ordinateur. Mais il y a un problème avec cela parce que vous remarquez la barre oblique de la facilité leurs barres obliques arrière et sont va seulement reconnaître les barres obliques avant. Donc, vous devez passer par et changer manuellement ces barres obliques en avant, noter les barres obliques arrière, ou vous pouvez faire une double barre oblique inverse et notre va reconnaître que, donc de toute façon, vous devez faire l'une de ces choses. Un ouvrier possible dans cette affaire. Si vous êtes sous Windows, si vous ne voulez pas modifier manuellement toutes ces barres obliques pour affecter quelque chose au chemin appelé
disponible, nous allons utiliser le presse-papiers de lecture. Ceci est une fonction, et notre si vous utilisez uniquement Windows qui lira ce que vous avez copié dans le presse-papiers. Donc, vous êtes toujours allé à votre Explorateur Windows à la barre d'adresse et copié l'adresse à quelque chose qui ressemble à ceci qui viendra avec la barre oblique inverse qu'elle est. Mais lorsque vous exécutez cette fonction de lecture du presse-papiers, il appellera P à partir du presse-papiers, et il le convertira automatiquement en port. Are est capable de lire. Donc, dans le chemin, vous aurez réellement stocké quelque chose qui ressemble à ça. Donc, il l'a converti en l'ancienne lecture Arkan. Donc c'est juste une façon de contourner ça. Et Windows A vous permet de jouer avec cela et de décider par vous-même avec lequel vous préférez travailler ? Non. La prochaine chose que je veux ajouter au code est d'imprimer certaines mesures statistiques . N' oubliez pas que nous avons créé ce cadre de données sur la mort qui contenait les résumés statistiques , comme les hommes de taille de l'échantillon , la médiane moyenne
maximale etc. Donc, nous allons ajouter après cette voie ces voies de pourrions-nous laisser un commentaire qui dit, quand une impression non bloc de données arrondie à trois chiffres, je vais utiliser l'impression de fonction, et je vais mettre en double cite la mort. Ça va juste imprimer les sourds comme un langage humain pour que je sache ce que c'est. Et puis je dirai imprimer à nouveau. Je vais imprimer le bloc de données de la mort que nous avons créé ci-dessus, et je vais faire des chiffres de coma égal à trois qui parcourront ce bloc de données et les données qu'il contient à trois chiffres pour que je l'ai bien et coupé ne le fasse pas. La prochaine chose que nous voulons faire, c'est que nous voulons descendre et faire de même pour la
variable d'âge que nous remplissons fait partie de ce défi de sections. Donc, après avoir créé le bloc de données sur l'âge, nous allons faire la même chose Nous allons imprimer des citations sur l'agent et nous allons imprimer le bloc de
données sur l'âge arrondi à trois chiffres sur les dernières choses que nous avons à faire sont que nous devons arrêter
naufrage. On dit juste couler et fermer les parenthèses. Nous devons également désactiver le périphérique graphique en utilisant dev dot off open and close parenthèses sur Lorsque nous exécutons ces deux fonctions, il va arrêter Oh, mettre à la feuille de texte. Il cessera de mettre au pdf, et il les sauvera pour que nous puissions les ouvrir jusqu'à ce que nous courons. Sink et dev dot off Il ne fermera pas ces fichiers sur. On ne pourra pas aller les regarder. Et puis les dernières choses qui allaient faire nous allons enlever l'âge et nous allons supprimer la mort en utilisant le R et la fonction. Cela supprime ces deux variables de notre environnement afin que nous ne soyons pas confondus avec elles plus tard. Sachez que nous les avons mis dans un fichier texte. Nous n'avons plus vraiment besoin de ces variables et de notre environnement. Alors allons de l'avant et exécutons cette section entière de code une fois de plus. Je vais juste appeler signifiait ces choses spécifiques à Windows que je t'ai montrées. Donc, nous allons courir du mensonge 47 jusqu'à la fin ici,
et vous verrez que dans l'environnement, nous savons que nous avons seulement notre bloc de données de vie que nous avons commencé avec, et nous avons également cette valeur de sortie de la correction des données. Dites que nous avons supprimé l'âge et que nous avons supprimé si vous remarquerez également que rien n'a été tracé ici . C' est parce que les tracés, lorsque vous avez un PDF en cours d'exécution, vous envoyez les tracés directement à ce document. Ils n'apparaîtront pas dans la fenêtre de l'intrigue de notre studio. Alors allons dans notre dossier,
un dossier vers lequel nous avons envoyé ces choses, et nous voyons que nous avons un arrêt de feu de maïs. PDF et nous avons des informations sur txt. Regardons d'abord l'arnaque point txt, et vous verrez que nous avons la mort, puis nos statistiques d'échantillon sur les hommes médians moyens et max etcetera pour la mesure de la différence. Nous avons également vieilli imprimé, puis les statistiques sommaires pour cela. C' est donc un excellent moyen de stocker la sortie statistique afin que vous puissiez toujours revenir et ouvrir. Ce n'est pas se perdre dans la console que vous l'avez imprimé aussi. Vous l'aurez là afin que vous puissiez revenir et faire d'autres analyses plus tard. Si nous regardons dans le maïs vars dot pdf Que voit-on ? Eh bien, nous voyons notre différence mesurer le Hester Graham et la boîte que nous avons créée précédemment . Et nous avons aussi un âge des participants sifflé un gramme dans la boîte de parcelle que nous avons complètement précédemment. Et ceci est dans un document pdf de deux pages que nous pouvons ouvrir offre que nous pouvons exporter à tout ce que nous pouvons utiliser et publications ou analyses ultérieures. Donc là, vous l'avez. C' est ainsi que vous connaissez la sortie graphique poot sur la sortie statistique. Deux dossiers sur votre machine. Alors rejoignez-moi dans la prochaine vidéo où nous allons explorer les variables catégoriques de l'ensemble de données. Je te verrai alors
13. Explorer des variables de catégorie catégorie (plaques de barres, proportions, illustrations, parties multi-parties): Bonjour Et bienvenue dans cette vidéo, nous allons explorer les variables catégoriques dans l'ensemble de données et exécuter quelques statistiques d'échantillon très basiques parce que leurs variables catégoriques étaient essentiellement juste pour
regarder la proportion qui sont dans les différents niveaux au sein de chaque variable de catégorie. Donc, la première chose que je voudrais faire est de regarder une table. Nous allons effectuer des dénombrements de chaque variable de facteur à chaque niveau à l'intérieur. Donc, par
exemple, je peux exécuter la fonction de table sur les données de vie Dollar sain d'esprit six. Maintenant, vous vous souvenez peut-être que la variable de sexe est M pour les hommes et F pour les femmes. Sur ça, nous avons 100 rabais chacun. Je peux vérifier brièvement cela à nouveau en utilisant la fonction str ou structure. Je vais juste exécuter ceci dans la console et je peux l'exécuter sur les données de la vie. Et quand je le ferai,
vous verrez que nous obtenons le résumé comme nous l'avons fait dans le menu déroulant de l'environnement. Et nous voyons que le sexe est en effet un facteur. Variable avec deux niveaux f sur em. Alors regardons plus dans la dette au sexe supportable en utilisant la fonction de table quand nous sommes sur la table. Nous voyons que nous avons 100 EFS pour les femmes et 100 heures pour les hommes. Nous pouvons exécuter la fonction de table sur d'autres variables de catégorie. Par exemple, nous pouvons dire la vie de table, le dollar
des données disant mariage. C' est l'état matrimonial des participants. Ce que nous voyons ici, c'est que ce sont des zéros et des uns. Nous avons 132 zéros, gens que nous ne sommes pas mariés et 68 personnes qui sont mariées afin que vous puissiez aller de l'avant et jouer avec la fonction de table sur toutes les autres variables catégoriques. Mais la prochaine chose que nous allons faire comme nous allons mettre en place un dispositif graphique que Carlos va ouvrir plusieurs parcelles sur cette même fenêtre, comme nous l'avons fait auparavant. Et on va installer un dispositif graphique ici où on doit se lever et trois colonnes et notre fenêtre de sortie. Donc, pour le faire encore, nous utilisons par et l'argument MF Row, nous allons spécifier qu'ils peuvent Katyn huit fonction, et cette fois nous allons choisir de calmer trois, signifie que nous avons augmenté de trois colonnes sur. Nous allons exécuter cela de sorte que notre appareil graphique soit amorcé pour avoir six parcelles à travers elle. On va avoir un rôle de trois et une proportion de l'intrigue, et ensuite on peut avoir une autre rangée de trois en dessous de ça. Donc les premières complots qui allaient faire pour notre écorce ressemble. Nous allons donc créer des diagrammes à barres à partir de la proportion de sujets et de chaque facteur de chaque variable
catégorique. Et pour ce faire, nous allons dire que l'intrigue de bar utilisait la fonction d'horloge de bar sur. Et au lieu du premier argument étant les données que nous voulons faire entrer le diagramme de barre, nous allons réellement spécifier la fonction de table sur. On va dire la vie de table, le dollar
des données disant le sexe. Donc, nous savons que d'en haut que cela renvoie 100 hommes et 100 femmes. Mais maintenant, ce qu'on va faire, c'est diviser ça par le dollar des données sur la durée de vie en disant sexe. Rappelez-vous, la fonction land renvoie la longueur d'une colonne ou d'un ensemble de données. Donc, ici, nous avons un calcul de la longueur du sexe, qui est 200 participants sur. Nous divisons la table de 100 femmes et 100 repas par cette longueur de 200. Donc les 100 femmes et les 100 repas, nous serons tous les deux divisés par 200. Ensuite, nous allons spécifier la couleur. Je vais juste utiliser le bleu ciel à nouveau, mais n'hésitez pas à jouer avec ces couleurs partout où vous voulez. Je vais également spécifier pourquoi limb pourquoi Lim est un argument qui restreint le pourquoi l'accès à une portée définie ou à une limite définie. Et parce que nous calculons des proportions ici. Je veux que l'axe Y soit limité entre l'origine zéro et un parce que si sont étiquetés l'
axe y 1.1 ou 1.2, alors cela n'aurait aucun sens parce que vous ne pouvez pas avoir sa proportion qui est supérieure une fois. Je veux m'assurer que notre comportement est là. La prochaine chose que je veux ajouter à cette fonction est sur l'étiquette X pour le sexe, et je veux avoir une étiquette Y pour la proportion. Et puis je dirai que le titre principal de cette intrigue est le sexe off participants. Je vais alors spécifier que les noms utilisés pour nommer les barres et cette intrigue vont être le repas féminin Andi au lieu de simplement utiliser AM. Et si on y va, on va faire ça. Vous pouvez voir que nous obtenons un petit terrain de bar dans la première vente de notre matrice deux par trois. Nous allons vous le dire un peu en ajoutant une limite de boîte comme nous l'avons fait avant. Ça le rend un peu plus propre. Je sais que vous pouvez faire la même chose avec d'autres variables catégoriques, donc je vais juste copier le code. La même chose est au-dessus, mais je vais changer de sexe pour le mariage. Variable de catégorie sur. Ensuite, je vais changer le label X pour marié sur congé Proportion comme il est, et puis va dire que le titre principal de l'intrigue comme état matrimonial sur sou va
changer les noms des barres pour savoir non marié Andi. Oui, nous sommes mariés. Essayons de faire ça. Voilà, tu y vas. On a de belles parcelles de bar. Ils montrent la proportion des variables de catégorie dans chaque niveau de la
variable de catégorie . Donc, si nous avons des hommes, femmes ou si nous avons épousé oui ou non et donc vous pouvez continuer à le faire pour les autres variables catégoriques, et ils continueront à se peupler dans cette fenêtre de traçage. N' oubliez pas que lorsque vous avez terminé le tracé, vous devez toujours restaurer le périphérique graphique à une seule configuration de tracé. Juste pour que vous n'ayez pas de surprises soudaines lorsque vous venez tracer votre prochain objet. Et donc je vais vous attraper dans la prochaine vidéo où nous allons réellement commencer à obtenir inférence avec des statistiques sur son début à poser des questions plus spécifiques en utilisant tests
statistiques comme les tests T sur Nova. On va commencer à faire des recherches sur cet ensemble de données. Alors je te verrai dans la prochaine vidéo.
14. Travailler avec des types de données (veurs, facteurs, images de données): Bonjour. Dans cette vidéo, nous allons nous préparer à effectuer une analyse statistique supplémentaire qui
nous permettra de répondre à des questions inférentielles sur son ensemble de données. J' ai donc créé une nouvelle boîte de commentaire ici qui va séparer cette partie du code et expliquer ce que nous faisons sur Tout d'abord, nous allons analyser les variables catégoriques avant de le faire. C' est très bénéfique si nous attachons d'abord les variables des données de vie. Donc les noms de colonnes et les données de vie sont ce que nous allons attacher à notre environnement. Alors voyons ce que c'est. On va utiliser la fonction d'attache. Je lui fournit juste des données sur la vie. Nous fournissons donc joindre des données Life, qui est notre bloc de données qui contient des noms de colonnes. Et quand nous exécutons cela, vous verrez qu'il a attaché les noms de variables suivants. Donc, non, nous pouvons réellement utiliser ces noms de variables directement sans avoir à référencer les données de vie dans notre environnement. Ainsi, par
exemple, nous avions l'habitude d'obtenir un résumé que nous utilisions pour faire des données sur la vie signe dollar âge, par
exemple, sur qui nous donnerait un résumé statistique de la variable d'âge dans les données de vie. Mais maintenant, nous l'avons attaché. Nous pouvons nous débarrasser du dollar en disant que nous pouvons aussi nous débarrasser des données sur la vie et simplement dire l'âge. Et je reconnaîtrai de ce dont nous parlons afin que nous puissions le faire et obtenir un
résumé statistique de la vieillesse savoir que nous avons joint ces variables. Nous voulons également ranger un peu nos variables factorielles ou catégoriques et leur donner niveaux dans leur structure catégorique, des noms plus descriptifs. Donc, par
exemple, dans le sexe, tout ce que nous avons pour le moment est am pour mâle ou F pour femelle. On veut vraiment les appeler repas et femelle. Donc ce qu'on va faire, c'est dire sexe. Nous pouvons nous référer à cela non directement parce que nous l'avons attaché à notre environnement et nous pouvons dire facteur fonction sexe. Et on peut dire des étiquettes égales pour voir les parenthèses, féminines et masculines. Ce que nous faisons dans cette fonction de facteur, c'est que nous disons que la variable de sexe change ses étiquettes. C' est des niveaux dans la variable catégorique de sexe féminin et masculin, ou transformer FFT, femelle et AM et deux hommes sur écraser la variable de sexe. Alors, où se signent en plus de la variable de sexe. Voyons ce qui se passe quand on fait ça. Non, si je fais un résumé de sexe stone ici et la console voir, je reçois au lieu de f n m femelle et mâle. Donc, je suis allé de l'avant. Je suis préparé du code pour transformer nos variables catégoriques et deux autres étiquettes descriptives. Donc voici quelque chose que j'ai préparé précédemment. On a un mariage. Nous changeons les étiquettes des zéros et des autres, aussi. Pas marié et marié. On change de travail. Variable par rapport aux zéros et aux
chômeurs, la variable familiale au chômage n'a qu'à voir si le participant estime qu'il avait beaucoup de famille autour d'eux pour subvenir à ses besoins. Donc, s'ils n'ont pas de famille ou ils ont de la famille, puis le niveau d'éducation du participant, Que ce soit hs pour l'école secondaire, vous avez attrapé pour métro ou diplômé pour diplôme d'études supérieures. Vous remarquerez également ici que j'utilise un signe égal pour réaffecter ces variables et que
vous pouvez utiliser un signe égal ou l'opérateur de flèche que nous avons utilisé précédemment pour effectuer des affectations, mais je préfère utiliser l'opérateur de flèche. Égale pour moi, serait trop facile à confondre avec un opérateur mathématique, donc je préfère utiliser le signe IRA, Mais vous pouvez utiliser des égaux si vous le souhaitez. Alors allons de l'avant et exécutons ces autres variables. Nous les transformons en quelque chose de beaucoup plus descriptif. Vous pouvez voir ici qu'ils apparaissent dans notre environnement. La prochaine chose que nous voulons faire est de créer des cadres de données pour la variable dépendante sur pour les variables indépendantes catégoriques. Donc, la variable dépendante est ce qui nous intéresse, et c'est la variable de réponse la mesure de différence. Nous voulons déterminer ou prédire quelle est la mesure de la différence et les participants en fonction de toutes
les autres variables que nous avons recueillies. Et nous allons également utiliser des variables catégoriques et
indépendantes, qui sont les variables prédictrices qui essayaient de protéger la variable dépendante de. Et c'est ce que nous allons regarder ici. Mais tout d'abord, nous voulons créer un bloc de données pour la variable dépendante. Nous allons dire que la variable dépendante vient de sourds à nouveau. Nous avons joint ceci afin que vous puissiez vous y référer sans le bloc de données de vie. Nous allons aussi dire que nous fabriquons un chat adulte de cadre de données de vie pour les
variables catégoriques et nous allons dire le cadre de points de données et nous allons lui donner le sexe un
travail de mariage , famille sur l'éducation Donc nous faisons un nouveau bloc de données il y a ici les emploi, variables relatives au mariage sexuel, à l'
emploi,à la
famille et à l'éducation. Alors allons de l'avant et exécutons les deux. Vous pouvez voir qu'ils sont également ajoutés à notre environnement. Et puis la dernière chose que nous voulons faire est de créer un vecteur de noms de variables. Nous allons créer un vecteur ou une variable Names sur étaient pour le faire. Nous allons dire que les variables vars pensées catégoriques, et nous allons lui fournir les noms de colonnes rappelez-vous, nous utilisons not function avant d'aller fournir une colonne. Noms de données de vie dot cat Donc qui a pris les noms de deux-points de notre nouvelle base de données de vie chat point données de chat. Andi les a assignés à la variable vars dot cat. Donc, si nous courons, juste Vars dot cat, nous voyons que nous avons le sexe,
le mariage, le travail, la famille et l'éducation. Donc, quand nous reviendrons dans la prochaine vidéo, nous allons continuer notre analyse statistique de ces variables catégoriques, et nous allons le faire en utilisant notre propre fonction que nous allons créer. Au lieu d'utiliser des fonctions existantes, nous allons créer les nôtres, donc c'est très excitant sur. J' ai hâte de vous voir dans la prochaine vidéo.
15. Créer une fonction personnalisée pour l'analyse des statistiques (t-test, ANOVA, d'ébauche): bonjour et bienvenue. Dans cette vidéo, nous définirons notre propre fonction. Le but de la fonction est de rechercher les relations entre les variables catégoriques et notre ensemble de données. Donc, des choses comme l'éducation, le sexe, la famille, l'emploi et l'état matrimonial sur la question de savoir si l'une de ces variables n'a pas d'incidence sur la mesure de la différence. Alors quel âge ou jeune quelqu'un pense qu'il est ? Donc, en réalité, ce que nous voulons faire est d'analyser les différences dans les facteurs ou les niveaux au sein de ces
variables catégoriques . , Par
exemple, nous voulons voir s'il y a une différence entre les hommes et les femmes et comment ils perçoivent
leur âge ou s'il y a une différence entre les couples mariés et non mariés et comment ils perçoivent quel âge ils ont. Mais avant d'écrire cette fonction, ce que je veux faire est de vous montrer à quoi ressemblera la sortie et ce que nous nous efforçons de créer. Donc, j'ai fait la console plus grande pour que vous puissiez voir la sortie que nous allons obtenir, donc vous saurez cette année qui dit signe dollar femelle. La première chose qui permet de fonctionner que nous allons créer fera est de créer un résumé
statistique de la mesure de différence pour toutes les participantes. Donc, nous serons en mesure de voir ce que la médiane et la moyenne etcetera ou les participantes comme sur. Et nous serons également en mesure de voir ce que sont ces statistiques sommaires pour les participants masculins. Donc, si nous regardons ce vrai rapide, nous voyons qu'ils signifient pour les participantes comme un 0,57 actif et la moyenne pour les
participants masculins est un peu plus faible à 3,437 négatif Donc juste en regardant ces signifie que j'imagine peut-être que les hommes ont tendance à penser qu'ils sont plus jeunes qu'ils ne le sont en fait parce nous avons une valeur plus négative en moyenne et que les participants masculins, L'autre chose que nous faisons ici est de créer un complot. Donc, si nous regardons toute la fenêtre d'applaudissements en bas à droite, nous verrons que nous avons une boîte. Cela a divisé les participantes et les participantes masculines. Nous avons étiqueté l'axe X chacun de nos sur nous avons étiqueté le Pourquoi accéder à une mesure de différence , qui est ce que nous essayons de comprendre, et vous verrez ici que ces deux parcelles de boîte et de moustaches ressemblent assez à la moyenne masculine avec la ligne en gras est un peu plus bas que la moyenne féminine, mais ils n'ont pas l'air si différent. Donc, vraiment, ce que nous voulons faire, c'est voir si ces différences et les significations que nous observons dans l' encadré OLP et dans les résumés statistiques sont statistiquement significativement différentes. D' une façon que nous conduisons qui est, d'utiliser quelque chose appelé un test T. Un test T examine les différences entre les moyennes et les sous-populations, sorte qu'il nous indique si elles signifient dans le groupe féminin hors. La mesure de la différence est vraiment statistiquement différente de celle du groupe postal sur la savoir si, en fait, femmes et les hommes
le long et les populations différentes, car il y a vraiment une différence entre les hommes et les femmes quand il s'agit de l'âge qu'ils pensent avoir. Donc, quand nous exécutons le test T, nous obtenons cette sortie statistique. Ce qui nous intéresse le plus est la valeur P ce nombre ici, la valeur de 0,2453 p nous indique la signification car il s'agit d'un test
statistique inférentiel . Nous n'avons aucune hypothèse, et nous avons une hypothèse alternative. L' hypothèse nulle est que les femmes et les hommes ne sont pas différents et comment ils perçoivent leur
âge, donc il n'y a pas de différence. Et ils signifient entre les femelles et les mâles. Statistiquement terroriste, si je profite est, est que ces valeurs moyennes de mesure de différence sont en fait différentes, qu'il ya une différence entre les hommes et les femmes. Et si la valeur P est inférieure à 0,5, nous allons rejeter l'hypothèse nulle selon laquelle il
n'y a pas de différence sur. Nous allons dire qu'il existe des données statistiques indiquant qu'il y a une différence dans la réalité entre les hommes et les femmes et comment ils perçoivent l'âge qu'ils y ont. Parce que ce sont des valeurs P 0.2453 Cela signifie que ce n'est pas moins de 0.5 Nous ne pouvons pas rejeter l'
hypothèse nulle , et nous ne pouvons pas dire qu'il y a vraiment une différence entre les hommes et les femmes ici. Donc, l'autre chose que cette fonction fait est qu'elle ajoute la valeur P à l'intrigue. Ici, vous verrez que nous avons la valeur P 0.2453 et la dernière chose que la fonction fait est qu'elle étiquette la boîte avec un titre. C' est le sexe, parce que c'est la différence entre les repas et les femmes donc et on a vu quelle sortie nous
allons pour. Regardons comment nous écrivons la fonction elle-même. Donc je vais aller de l'avant et minimiser la console. Et c'est la fonction que j'ai déjà écrite. J' ai écrit quelques commentaires à partir de la voie 175 et et la fonction est initialement nommée sur Lane 180, elle fonctionne jusqu'à 222. Je sais que c'est beaucoup de code beaucoup de voies ici, mais nous allons passer par là une ligne par fois pour vraiment nous rendre et expliquer ce qu'il fait réellement. Donc, je vous encourage à tout d'abord, écoutez l'explication des lignes de code qui entrent dans cette fonction avant d'essayer réellement copier le cordon. Je laisserais ça jusqu'à après, ou posais la vidéo et le faire pour que nous commencions par les commentaires que je nous ai laissés ici Je dis que c'est une fonction pour l'analyse de variables indépendantes catégorielles par rapport à la . variable dépendante
continue. Encore une fois, notre variable dépendante comme mesure de différence qui dépend de toutes les autres variables qui ont été échantillonnées. C' est ce que nous essayons de protéger. Et les variables indépendantes catégoriques sont les variables comme l'éducation, la
famille, famille, sexe et ainsi de suite qui sont catégoriques signifiant qu'elles ne sont pas continues. Ce sont des zéros et des hommes, des femmes là-bas. Non, une mesure continue sur les fonctions peut venir dans le cadre des paquets que vous installez et que vous êtes, ou vous pouvez créer les vôtres. Donc, ce que nous faisons ici est de définir notre propre fonction sur nous nommons la fonction de chat de maïs fun. C' est un nom que j'ai trouvé. Tu pourrais l'appeler comme tu veux. Je l'ai appelé non parce que nous essayons de prédire ou de regarder une variable continue la mesure de la différence sur. Nous examinons l'influence que les variables catégoriques ont un non, et c'est une fonction. Donc, je l'ai appelé fonds ou le dysfonctionnement amusant Cone Cat prendra trois arguments. Donc, nous savons qu'entre parenthèses est l'endroit où nous pourrions arguments pour les fonctions. Nous allons en avoir trois dans cette fonction sur ce qui est l'endroit où nous définissons la fonction et toutes ces lignes ont pu. Mais une fois que nous devons le trouver, nous pouvons alors l'appeler quand nous le voulons sans avoir à écrire toutes ces lignes à nouveau, donc nous l'appelons simplement et nous le donnons à trois arguments et cela fonctionne en arrière-plan. Refocalisez-vous, d'
avoir à écrire toutes ces voies de la cour encore et encore. C' est donc la vraie puissance des fonctions qui vous permet d'utiliser une tâche d'analyse complexe encore et encore sans avoir à écrire orteil encore et encore. Donc en ligne 100 années 80, où on nomme la fonction, on va l'appeler « Cone Cat fun ». C' est comme si on définissait une variable. Utilisaient l'opérateur d'affectation, l'iro, le Chevron avec le tableau de bord, et nous disons que le plaisir de chat Kong va être assigné une fonction. Donc, c'est une fonction, fonction et un bleu là, et nous disons des parenthèses et en nommant les trois arguments qu'il nécessite. J' ai donc appelé le premier argument chacun de nos pour ce qui signifie ceci comme chaque
variable catégorique . Donc, nous envoyons un de ceux atteints à ces fonctions. Je viens de l'appeler chacun de nos où puis j'ai eu le deuxième argument. Ça s'appelle le nom. C' est le nom de la variable catégorique, puis nous avons une réponse. C' est la variable dépendante ou la mesure de surdité Donc c'est ce que nous donnons à cette fonction. La première chose que nous faisons offenser la fonction est que nous avons une accolade ici et qui définit
vraiment où la fonctionnalité réelle commence. Nous avons donc nommé la fonction avec le gouvernement les trois arguments. Mais c'est vraiment la viande de la fonction. C' est ce qu'il fait à l'intérieur, pas Curly Brace je suis retourné sur. J' ai écrit un commentaire moi-même disant, La première chose que nous allons faire comme imprimer quelqu'un des statistiques de la variable dépendante par chaque variable indépendante et les facteurs à l'intérieur. Donc, c'est là que nous imprimons un résumé des statistiques que nous devrions regarder cela précédemment dans la console. Donc, la moyenne de la médiane sauf pour les femmes juste voit les hommes droite, donc nous le faisons pour chaque niveau dans la variable catégorique. Donc, pour l'éducation, nous nous retirons buste un résumé testable pour ces menthes de protestation que seulement à
l'enseignement secondaire ceux qui ont des études de premier cycle et ceux qui ont une éducation de deuxième cycle . Donc, pour ce faire, nous utilisons la fonction T appliquer. Vous pouvez rechercher que dans l'aide essentiellement t appliquer va effectuer ou appliquer une
fonction à travers rose sur l'ensemble de données. Donc, nous donnons t Appliquer la variable de réponse de la mesure de différence et nous disons que nous voulons appliquer une fonction de résumé à toutes les valeurs de mesure de différence qui
correspondent à la variable de catégorie sur chaque élément à l'intérieur. Donc c'est là que nous disons, OK, faites un résumé à travers tout d'abord, toutes les femmes dans la variable catégorique du sexe et quelqu'un de l'Inde à travers tous les repas dans la variable de catégorie de sexe. pour l'imprimer sur la console. Donc c'est comme ça que nous obtenons notre production que nous avons regardé ici au large des hommes femmes premier portale moyenne moyenne etcetera. Donc la prochaine chose que nous allons faire c'est que nous allons faire une boîte. Nous allons créer un diagramme de boîte à partir de la variable dépendante subdivisée par chaque
variable indépendante sur les facteurs qu'elle contient. Donc, nous utilisons notre fonction de tracé de livres que nous avons vu auparavant. Nous spécifions que la griffe de boîte est une réponse, puis nous utilisons l'opérateur tilde pour dire que nous voulons réponse contre chaque variable que nous donnons à cette fonction. Donc, tout d'abord, nous lui donnons la variable de sexe. Nous voulons tracer la mesure de la différence de réponse Verre voit chaque facteur et la variable de sexe. Nous allons dire que dans le titre principal off, l'intrigue est égale au nom, donc le nom est l'un des arguments de la fonction. Nous allons donc lui fournir le nom de la première variable de facteur de combat, qui est le sexe. C' est là qu'il obtient le titre de six ici dans le terrain sportif et on lui
fournit le label Why Lab For Why ? Et nous disons que c'est égal à la différence de mesure. Donc ça va étiqueter ou pourquoi l'accès. La prochaine chose que nous devons faire est d'avoir une déclaration de branchement et notre flux de programme ici parce qu'il y a une variable catégorique qui n'a pas deux facteurs à l'intérieur. Il en a trois. La variable éducation. Nous avons des études secondaires de premier cycle et de deuxième cycle, donc si nous regardons de nouveau notre environnement, nous constatons que l'éducation en a trois. La famille doit travailler, doit se marier, a deux niveaux et les insectes a deux niveaux. Il y a donc une possibilité que nous aurons une variable catégorique entrer dans cette fonction qui a trois niveaux ont été repoussés au lycée de premier cycle et de deuxième cycle. Et c'est un problème parce que le test T pour voir s'il y a vraiment une
différence statistique dans les niveaux de la variable factorielle comme nous l'avons fait pour les
tests T masculins et féminins ne peut être utilisé que lorsqu'il y a trop de niveaux dans le facteur. Donc, si nous en avons plus de deux comme nous le faisons dans l'éducation, alors nous devons appliquer à l'analyse du test de variance à la place. Donc, pour tenir compte de cela, il est possible qu'un facteur à trois niveaux vienne à cette fonction. Nous devons utiliser If déclarations pour brancher le cordon. Donc si un facteur à deux niveaux comme le sexe, le sexe masculin et la femme vient à cette fonction, on descend une branche. Si un facteur à trois niveaux comme l'éducation, où il y a lycée premier et diplômé vient à cette fonction, il suivra une branche différente sur faire une analyse différente. C' est pourquoi cette fonction est vraiment intelligente. Donc, nous allons faire une déclaration if et cette instruction if évalue si les niveaux dans chaque barre sont égaux à deux ou non. Alors comment on fait ça ? Eh bien, nous les donnons chacun loin, ce qui, comme disons, notre variable de sexe et ensuite les niveaux fonctionnent ici. La fonction intérieure va tout d'abord, Teyla combien de niveaux sont dans chaque loin. Donc pour le sexe, ça va dire à, et puis on va calculer la longueur sur ces niveaux donc ça va compter un pour un nen. Nous allons évaluer avec le double signe égal cet opérateur logique que nous allons
évaluer comme ce nombre égal à deux. Donc, oui, avec le sexe il y aura un repas et une femme. Il va y avoir deux niveaux. La longueur va être égale à, et donc deux égale à deux. Donc, cette déclaration si serait vraie. Et donc nous ferions ce qui vient après en suivant l'accolade bouclée. C' est ainsi que vous configurez une instruction if, vous dites f parenthèses et vous mettez une instruction logique que vous voulez évaluer. Et puis, si c'est vrai, vous allez à la cour va exécuter ce qui vient après l'accolade bouclée. Donc, si c'est le sexe qui va être vrai, alors il effectuera un test T, donc nous allons effectuer un test t en utilisant le test t point sur. Nous donnons que la variable de réponse de la mesure de différence sur n'importe quelle variable que nous avons donnée à la fonction, donc si nous sommes sexe sommet, nous allons évaluer sexe mâle, femelle sur une mesure de différence et effectuer 80 points fonction de test sur cette option. Ensuite, nous allons assigner ouvert de cette fonction au test T variable. On peut imprimer des impressions de test, la sortie de la fonction, et c'est ce que vous avez vu ici dans la console. Et il imprime toute cette sortie statistique sur la console pour que nous puissions la voir. La prochaine chose que nous voulons faire est d'avoir une déclaration if avec dans cette déclaration if. Donc nous imbriquons une déclaration si ici dans une autre bière avec moi. Donc, la raison pour laquelle nous faisons cela est parce que nous en faisons une valeur P qui a beaucoup de zéros, beaucoup de chiffres après le point. Andi, si nous avons une valeur P qui s'éteint et trop de chiffres au-delà de la virgule décimale, ça peut devenir un peu désordonné. Et ce n'est pas vraiment la chose faite ou vraiment appropriée de signaler une valeur P qui a beaucoup chiffres après le point. Vraiment, si nous avions, disons, 20 chiffres après le point, donc 0.0 etcetera. Ensuite, dans un sens statistique sur une publication pour être professionnel, vous voudriez simplement signaler que la valeur P est inférieure à 0,1 c'est tout ce que vous diriez. Parce qu'une fois qu'il est inférieur à 0,1, nous n'avons plus vraiment autant de confiance et ça. Et nous ne voulons pas le signaler dans une publication. Cette instruction si va évaluer si la valeur P de test T est devenue vraiment, vraiment petite et
vraiment longtemps passée la virgule décimale ou non. Donc nous allons dire si et ensuite nous le fournissons avec le test t. La variable que nous avons créée ci-dessus avec le local hors du test statistique T allait dire valeur
dollar ST p point. Donc, la sortie de la fonction de test T a des attributs à l'intérieur, et nous pouvons accéder à ces attributs en utilisant des signes dollar comme nous l'avons fait et
des cadres de données et l'un de ces attributs d'un test T comme valeur paedo. Donc, nous disons ici que si la valeur T teste P est inférieure à 0,1 alors si c'est vrai, nous allons créer une variable appelée valeur P et nous allons signer une chaîne de texte entre
guillemets inférieurs à 0,1 Donc c'est ce que nous faisons. Si c'est vrai, c'est pourquoi il est placé entre ces crochets bouclés. Non, si ce n'est pas vrai, on ne voit pas d'autre. Donc, c'est ce qui se passe si la valeur P n'est pas inférieure à 0,1 Nous ignorons l'attribution de
la valeur P à la chaîne de texte inférieure à 0,1 et à la place nous descendons et nous sape Evil va la valeur de p tests T, mais nous allons l'arrondir
à quatre chiffres significatifs. Donc j'utilise la fonction romaine. Mais je dis Roman à la valeur de la valeur P que nous obtenons la fonction de test T et j'utilise son deuxième argument off chiffres égaux pour ainsi encore une fois, cette Nestea. Si ici tout ce qu'il fait est de regarder la valeur P du test T qui a été effectué ici, et qu'il regarde et l'évaluation n'est pas inférieure à 0,1 Si c'est le cas et que je vais créer une variable, a le texte chaîne inférieure à 0,1 ? Mais si ce n'est pas le cas, je vais arrondir la valeur P à quatre chiffres, et je vais dire pas à la variable p mal. La prochaine chose que nous faisons est d'ajouter la valeur P à l'intrigue. Cyanose. Ici, ce tracé de boîte que nous avons créé a la valeur P deux-points 0.2453 au-dessus. Donc ce sont ceux qui font rapport sur les applaudissements. Agréable et pratique. Ensuite, quand quelqu'un regarde moins de tracé plus tard, ils voient ces deux parcelles à boîte. Ils voient qu'ils sont assez semblables. Peut-être qu'ils se demandent Est-ce vraiment les mêmes ? Qu' est-ce qu'ils sont différents ? Eh bien, ayant la valeur P juste ici, nous allons leur dire ça. Donc, nous allons coller ensemble la valeur p texte avec la valeur P réelle qui est sortie un test
statistique. Donc nous allons dire,
Pete, Pete, labo
Evil pour l'étiquette P Value. Nous créons une nouvelle variable ici, et nous lui assignons cette fonction de collage et de coller les bas est de coller des chaînes de texte
et des nombres ensemble. Donc nous collons ensemble ce texte le langage humain hors de guillemets, maïs de valeur
P et ensuite dire la virgule P. Val. Donc, il y a P mal est tout ce que nous avons sauvé ici dans cette déclaration. Donc, si c'était un nombre vraiment petit, il va être inférieur à zéro utilisateur un point zéro. Si elle n'était pas inférieure à 0,1 PVA sera en fait égale à la valeur arrondie de P du
test statistique . La prochaine chose que nous faisons est d'ajouter cela à l'intrigue. Nous ajoutons l'étiquette de valeur P mal AARP à l'intrigue en utilisant la fonction de texte M. C' est ainsi que nous avons réussi à obtenir un appel de valeur P sur 0.2453 au-dessus de cette intrigue. Donc c'est la valeur P n'était pas inférieure à 0,1 C'était 0,2453 et probablement d'autres chiffres, mais nous l'avons arrondie à quatre chiffres significatifs là-bas. Non, le reste de cette fonction fait essentiellement la même chose, sauf que nous avons l'autre instruction F ici qui va évaluer si les niveaux off sont variables sont supérieurs à deux. Donc ça va attraper l'éducation. L' éducation comporte trois niveaux, sorte que l'éducation passera par cette analyse au bas de la page. Cette fonction que nous définissons, qui est essentiellement exactement la même que ce que nous avons fait pour qu'elle nivelle variable catégorique ci-dessus. Mais la seule différence indique que nous allons faire ou effectuer l'analyse de la variance parce qu'il y a trois niveaux. Une analyse de la variance cherche essentiellement à déterminer les différences dans les moyennes entre trois
niveaux ou Mawr dans une variable factorielle. C' est ce que nous devons utiliser ici. Donc, il va effectuer une analyse de la variance, et il va faire la même chose pour évaluer si la valeur P est très faible. Et si c'est non, ça va finir et ça va ajouter ça à l'intrigue. C' est donc ce qui se passera lorsque la variable d'éducation est fournie à nous fonction. Encore une fois. Je vous encourage à regarder cette vidéo à nouveau. Écoutez l'explication de cette fonction. Je sais que cela a Bean la chose la plus compliquée que nous avons faite jusqu'à présent, et ce n'est pas facile quand vous commencez à définir une fonction, et aussi quand cette fonction est relativement longue et fait beaucoup de choses différentes que nous avons . Si des déclarations imbriquées dans une autre déclaration F et que nous avons quelques tests statistiques lancés ici
à nouveau, Rita a lu les commentaires ici sur Gua Church. L' explication vidéo encore. Mais fondamentalement, c'est une fonction que nous avons définie. Et dans la fonction, nous créons un résumé statistique, nous créons un diagramme de boîte, puis nous avons une déclaration de ramification qui se ferme pour faire face à si nous avons des
niveaux de facteurs ou nous avons trois niveaux de facteurs, et qui est seul est de brancher le cordon dans cette fonction. Alors regarde ça un peu plus. Quand nous reviendrons dans la vidéo suivante, nous allons réellement utiliser cette fonction sur nous allons imbriquer cette fonction dans une structure en
boucle qui nous permet d'itérer toutes nos variables catégoriques et que l'ordinateur fasse le travail de toutes les analyses pour nous. Donc, je l'espère, ce sera très utile, très important vidéo, et j'espère vous voir. Alors je vous attraperai dans le prochain
16. Écrire une boucle pour exécuter la fonction d'analyse personnalisée: bonjour et bienvenue. Dans la dernière vidéo, nous avons créé notre propre fonction définie par l'utilisateur pour effectuer des tâches d'analyse très spécifiques sur notre ensemble de
données. Donc, ce que je veux faire dans cette vidéo vous assurer comment appeler ou comment utiliser cette fonction ? Et nous allons également placer cette fonction dans une courte structure de boucle à
quatre boucles qui nous permettra de répéter cette fonction à travers nos cinq variables catégoriques
indépendantes. Ainsi, notre éducation, l' emploi
familial, l' état
matrimonial et les variables de sexe permettent d'automatiser l'analyse au lieu d'évaluer plus de cinq fois. Donc, la première chose que nous devons faire est que nous devons exécuter la fonction que nous avons créée qu'elle fasse partie de notre environnement et que nous reconnaissons cela comme une fonction. Donc je vais remonter, faire défiler le script que nous avons écrit à l'endroit où nous avons défini le plaisir du chat de maïs sur la ligne 180 Je le mets en évidence jusqu'à l'accolade bouclée de fermeture sur la ligne 222 et je vais aller de l'avant sur la course et vous verrez qu'il s'exécute dans la console. Nous avons couru toutes ces voies accordant toute la définition de la fonction parce qu'il n'a
rien fait de bien. On ne se fait pas applaudir. Nous n'obtenons pas de poot statistique huit parce que c'est tout aussi définir la fonction. Nous ne lui avons pas encore envoyé quoi que ce soit, nous avons
donc défini la fonction et vous verrez la fenêtre de l'environnement final. Nous avons maintenant une tête dans les fonctions froides et nous avons du plaisir à l'escroc et c'est là. Il dit que c'est une fonction et il indique que les trois arguments que nous avons définis qu'il a besoin pour qu'il s'exécute. Donc, la prochaine chose que nous allons faire comme nous allons créer une structure vivante où nous pouvons réellement utiliser cette fonction, Donc la première chose que je vais faire est de créer un commentaire pour nous essentiellement ici. Je dis que c'est une boucle que nous allons envoyer des variables catégoriques pour effectuer l'analyse et la fonction en utilisant la fonction que nous avons définie ci-dessus. Cette boucle va répéter ou continuer à courir à travers le terrain de toutes les
variables catégoriques qui se trouvent dans le cadre de données catégoriques que nous avons créé précédemment, et nous allons utiliser une variable à la fois, donc si nous regardons en arrière notre environnement en haut à droite ? Rappelez-vous, nous avons créé un chat de données de vie. Il s'agit d'un bloc de données dont seules les embauches sont cinq variables de catégorie. Mais bien sûr, il a de vieux 200 participants. Donc c'est cinq colonnes et 200 roses. Donc, pour commencer cette boucle, nous allons écrire quatre. Et nous allons dire que je suis le terme d'index ou le nombre de fédérations sur lesquelles la boucle est sur. Je l'appelle juste. Tu peux l'appeler comme tu veux. J' ai tendance à penser que je suis bon parce que ça signifie index ou fédération, et je vais dire dans Et puis je vais écrire le numéro un Coloane. Et puis je vais dire longueur de la vie chat point de données. Donc, je dis ici que je vais calculer la durée de vie des données point chat. Voyons ce qui se passe lorsque nous exécutons simplement des données sur la durée de vie. Dog Cat me dit que c'est
bon, bon, parce qu'il y a cinq variables dans le bloc de données de chat de données de vie ne me dit pas 200. C' est un certain nombre de participants. Cela me donne cinq étant la chute du nombre de variables et je dis un à cinq. Donc, dans cette structure à lèvres ici, nous sommes en train de dire que je vais égaler un sur la première fédération qu'il sera égal à 345 et ensuite ça s'arrêtera. Donc c'est tout ce que ça dit. C' est dire que je vais égaler un. Il gagnera égal à 34 et cinq à mesure qu'il génère à travers cette boucle. Alors qu'est-ce qu'on va faire en vue de la boucle ? Eh bien, nous utilisons actuellement à nouveau des accolades, va créer quelques voies vierges pour nous écrire cette boucle. Vous remarquerez que le in dense pour est automatiquement, mais c'est pour nous aider visuellement. Voyez ça. Ok, c'est une boucle sur. Tout est indenté, c'est ce que Luke fait à chaque itération. Donc, si nous allons expliquer des choses à notre fonction, nous devons tout d'abord, définir des variables pour les arguments que la fonction nécessite. Donc, je vais dire que chacun de nos souvenirs C'est l'un des arguments que la fonction acquiert, et je vais le dire. Life data dot cat et je vais utiliser des crochets pour sous-définir ce bloc de données et rappelez-vous, entre
crochets, nous pouvons donner aux nombres. Nous donnons le numéro de la règle Coma numéro de colonne. Et si je veux tout de la rose, je la laisse vide. Souviens-toi, avant qu'on ne veuille toutes les colonnes, donc je ne pouvais rien faire dans le coma. Et puis j'ai spécifié l'appel que je veux. Et ici, je vais dire que je parce que je dans la première génération à travers cette boucle va égal un. Donc, en effet, je dis que je veux sous-ensemble du bloc de données chat de données de vie la première colonne toutes les lignes. Donc, je suis debout toute la première variable catégorique à chacun de nos je crée une nouvelle variable appelée chaque loin qui a toute la variable catégorique dedans et je dois ensuite
définir un autre argument sans nom que la fonction nécessite. Et je vais dire que le nom va manger. Eh bien, les vars ne se souviennent pas de vars dot cat que nous avons défini précédemment et c'est comme un vecteur qui a les noms d'Oliver cinq catégories variables travail de mariage sexuel, famille, éducation. Donc je vais mettre des crochets après ça pour le sous-ensemble, et je vais juste me mettre parce que ce n'est pas un bloc de données. Bars dot cat est juste un vecteur off. Cinq choses Le sexe, le mariage, le travail, la famille et l'éducation n'est qu'une dimension. Donc, je n'ai qu'à spécifier que je n'ai pas de coma ici quand j'en équivaut à un sur la première génération . Grâce à cette boucle, il faudra le premier élément de notre chien chat, qui est le sexe sur la deuxième génération du travail de mariage prendre, etcetera comme il passe en boucle. Et la dernière chose que nous voulons faire à l'intérieur de nous pour boucle est,
disons, disons fonds d'
escroc. Donc, nous appelons la fonction que nous avons créée, et nous lui donnons les arguments qu'elle nécessite chaque nom loin, puis le troisième argument que dire qu'il y a besoin comme réponse pour la réponse, je vais ensemble données de vie dot devi variable dépendante la variable de réponse et vous verrez dans notre environnement que le point de données de vie devi, tant que vecteur numérique qui a 200 valeurs, a obtenu la mesure de différence pour tous les 200 participants. Ce n'est pas un bloc de données. C' est juste un vecteur de 200 valeurs. Je donne toutes ces 200 valeurs à la fonction. Maintenant, vous pouvez être un peu confus pensant, Whoa, nous avons dit que chaque nom loin ils ne devraient pas ce troisième argument être un voyage de réponse ? On doit appeler ça comme ça. Non, c'est juste le nom de l'argument que nous avons défini dans la fonction. Nous pouvons donner ce que nous voulons comme argument de réponse. Il est juste arrivé que j'ai appelé chaque barre et nom ici la même chose que les arguments et la fonction. Donc, chaque ici, je suis en train de définir une nouvelle variable en dehors de la fonction avec la première colonne du bloc de données catégorique. Et puis et je dis le nom de cette variable vient des bars. Chat noir. Le premier élément de cela, j'aurais pu appeler ces tout ce que je voulais et les mettre dans la fonction à la place de chaque loin sur le nom. Donc c'est toute la boucle de quatre là-bas. Et comme cela itérait, il va exécuter la fonction, lui donnant une variable à la fois. Ensuite, il fera le deuxième, le troisième, le quatrième et le cinquième. Donc, pour vous donner un exemple de cela, nous pouvons aller de l'avant. Ça vient de lancer une fédération et pour ce faire, je vais descendre à la console et je vais dire que je vais signer je le numéro un. Donc, c'est un bas. Moi de courir ce que Sen nous a sauvé pour une boucle où les gens le laissent itérer à travers tout. Je vais dire que je suis égal à un, puis je vais juste exécuter le code qui est à l'intérieur la boucle quatre. Je ne vais pas exécuter la boucle quatre elle-même. Je fais juste tourner ce cordon une fois, et quoi que je sois ne sera pas égal au numéro un. Et donc quand je cours que je reçois la sortie que nous avons vu avant d'obtenir les résumés statistiques pour la différence féminine et masculine mesurer leur quoi ? Les différences entre les hommes et les femmes. Je reçois le fruit oap du test t tiré avec la valeur P pour faire exploser la balle ici avec une valeur P ajoutée au sommet de celui-ci. Donc, n'avez pas fait pas vous avez vu ces résultats avant. Je vous les ai montrés quand on définissait la fonction en premier lieu. Voyons ce qui se passe quand je dis que je vais le signer aussi. Donc non plus, allons sur Highlight. Juste ce qu'il y a dans cette boucle à nouveau. Juste la perspicacité. La viande des quatre boucles sur la course qui savent que je suis égal à savoir. Vous verrez qu'il est allé à la deuxième variable catégorique Onda. On peut voir ici dans la console que nous avons le résumé pour ne pas être marié, et nous avons le résumé pour les mariés, et vous pouvez voir que nous avons un moyen pour ceux qui ne sont pas mariés. C' est positif. 3.432 semble donc que les personnes non mariées pensent qu'elles sont plus âgées qu'elles ne le sont en réalité. Et puis pour ceux qui sont mariés, nous avons un fortement négatif 12.556 Les valeurs moyennes semblent que ceux qui sont mariés pensent qu'ils sont plus jeunes. Alors ils le sont en fait. Donc, si nous voulons savoir si c'est une différence statistiquement significative ou non, nous pouvons regarder la valeur P que nous voyons ici. P valeurs un très petit nombre. C' est 9.238 e au négatif 10. C' est pour la notation scientifique. Donc, c'est 19.238 fois 10 à la négative 10. Donc, c'est un très petit nombre. Très significatif, beaucoup plus bas et 100,5 seuil que nous avons utilisé pour rejeter l'hypothèse nulle, ce qui
signifie que nous pouvons voir qu'il y a une différence statistiquement entre ceux qui sont mariés et ceux qui ne sont pas mariés. Donc, quand nous venons et regardons la boîte qu'il a créé, nous voyons que pas marié des valeurs beaucoup plus élevées, puis marié. Il semble donc que quand vous êtes marié, vous pensez être plus jeune que vous ne l'êtes. La valeur P du test T confirme que, et cette valeur P est très faible. Donc, la fonction a correctement rapporté comme moins de 0,1 par opposition à écrire dans 9.238 fois 10 à la négative 10. Donc, c'est intéressant semble que si vous êtes marié, vous vous sentez plus jeune et vous vous sentez peut-être plus heureux. Donc c'est Ah, c'est un résultat pour les livres pour que vous puissiez aller de l'avant et exécuter cette boucle quatre. Non. Et quand vous exécutez l'ensemble, il va de l'avant, et il va parcourir toutes les variables et la fenêtre de traçage. Par exemple, la dernière variable qui a produit était la variable « éducation », et nous voyons ici une différence légèrement significative entre le premier cycle et le premier cycle du secondaire apparaît. Ceux qui ont plus d'éducation se sentent plus jeunes qu'ils ne le sont en réalité, ce qui est un peu intéressant. Et nous pouvons revenir aux anciennes parcelles en cliquant sur cette flèche bleue gauche ici pour que vous puissiez également voir soutien
familial. Cela ne semble pas être une différence si vous avez de la famille ou non. Un emploi. Que vous soyez employé ou non semble que les gens qui ont un emploi,
ils ont tendance à penser qu'ils sont plus jeunes qu'ils ne le sont en réalité. Et c'est une différence statistiquement significative là-bas. C' est pas moins de 0,1 Donc on a rapporté ça arrondi à quatre décimales, puis on est retour au mariage. Et bien sûr, nous avons aussi des variables de sexe là-bas que nous avons vu auparavant, donc vous pouvez parcourir des parcelles ici comme ça. Et puis dans la console, vous obtiendrez la sortie statistique imprimée Si vous faites défiler vers le haut. Tout d'abord, prends le sexe. Ok, alors on a le mariage. Ensuite, nous avons l'emploi, leur famille et enfin, nous avons le niveau d'éducation sur les résultats de l'Unova parce que c'était trois niveaux avec n cette variable catégorique. Disons que vous voulez enregistrer automatiquement ces choses, ce que nous avons déjà fait. Disons que nous voulons, Comme nous exécutons ceci pour Luke, faire remplir les diagrammes dans un document pdf sur Voulons-nous faire
imprimer toutes ces statistiques sur la console aller dans un fichier texte afin que nous puissions avoir ceux facilement disponibles les
ouvrir quand nous ne sommes pas encore dans notre environnement ou sur une autre machine, ou les envoyer à quelqu'un ou autre ? Donc, ce qui affaiblit en raison d'un faible pour que cela se produise, c'est que nous pouvons mettre en place une
fonction pdf et une fonction d'évier qui enverra ces analyses et ces tracés à notre machine. Donc, j'ai ajouté un pré préparé lignes de carburant de la cour ici sur 2 25 3 à 28. Ce que nous faisons ici encore, une mise en place de stockage orteil bas, les chiffres pour aller à un document pdf sur la statistique et quatre pour aller à un fichier texte. Donc, j'utilise la fonction pdf. Je spécifie où cela se passe sur ma machine. J' utilise le chemin d'accès ici à un fichier pdf. J' appelle cat var stats et mon dossier de manteau sur mon dossier Section un pour la classe Demi . Et puis j'utilise la fonction d'évier et spécifie un chemin d'accès à un fichier texte que j'appelle nouveau
cat VARS stats. Vous devrez changer ces chemins et noms de fichiers à l'endroit qui convient à votre machine, où vous voulez que votre sortie aille. Et rappelez-vous, si vous êtes sur une machine Windows qu'il barre oblique, elle doit être des barres obliques et non backsplashes. Et puis après la boucle quatre, nous allons vouloir arrêter de sombrer vers le texte échouer. Et aussi, nous allons vouloir arrêter d'envoyer des chiffres au pdf. Donc, pour ce faire, nous fermons l'évier en disant lavabo entre parenthèses ouvertes et fermées, puis dev dot off pour fermer le périphérique graphique. Voyons donc ce qui se passe lorsque nous exécutons ces lignes de code toutes ensemble. Donc on a fait ça, et on n'a rien vu se passer avec les complots. Nous n'avons rien vu imprimer sur la console ou sur l'enregistrement que nous exécutons. Mais non, si nous allons dans notre dossier sur notre machine Andi, ouvrez la fenêtre du Finder ici. Si on va dans le dossier de notre machine, je vais descendre dans mon dossier Jammy. Je vais à ma section un sur ma sortie. J' ai maintenant deux nouveaux dossiers ici, un appelé cat vars stats. Et c'est là que je reçois un PDF sur chaque page du document pdf. J' ai ces chiffres que nous avons créés. Donc, je conçois ceux dans le pdf et le regarde à tout moment. Et puis j'ai aussi le chat commence loin toute cette sortie statistique facilement disponible là et il fichier texte. Donc, dans la prochaine vidéo, nous allons continuer à faire quelques étapes très similaires d'analyses indéfinies dans une nouvelle fonction pour analyser nos variables continues par opposition à nos variables catégoriques. Nous allons donc poursuivre notre analyse pour terminer notre examen de cet ensemble de données sur la vie
ou de l'ensemble de données sur le temps et la vie. Alors j'espère que tu t'amuses. Jusqu' à présent, nous tirons déjà des informations vraiment significatives à partir de ces données. Andi, je vais t'attraper dans la prochaine vidéo
17. Écrire une boucle pour créer des tracées épargnantes: bonjour et bienvenue par la prochaine chose que nous allons faire dans le script car nous allons
commencer à analyser les variables continues que nous avons dans notre ensemble de données. Ceux-ci comprennent l'âge, la température corporelle, choses comme la fréquence cardiaque, niveau de soutien des participants réseau ainsi que la façon dont ils ont évalué leur propre santé. J' ai donc créé une boîte de commentaire ici qui va séparer cette nouvelle section de code pour est visuellement et j'ai dit que c'est des variables continues. Nous allons exécuter des statistiques descriptives. Encore une fois, nous allons faire des diagrammes de dispersion, examiner une analyse de corrélation ainsi que faire une analyse de régression et exécuter des diagnostics pour cela. Donc, dans cette section de cordon, nous allons définir une autre fonction que nous allons utiliser effin else sera également nettoyer
,
mettre , en place pour faire paraître les parcelles un peu mieux. Donc, la première chose que nous voulons réellement faire est de créer un cadre de données pour les variables
indépendantes continues , comme nous l'avons fait auparavant pour les variables catégoriques. Donc ce que je vais dire, c'est du maïs à points de données sur la vie. Souviens-toi avant qu'on ait un chien chat, mais je dis que les données de vie sont des points de maïs pour les variables continues. Je vais affecter à cette nouvelle fonction de trame de points de données de bloc. Donc je fais un bloc de données et je vais lui donner la température du corps d'âge variable. Rappelez-vous que nous pouvons nous référer à ces juste en utilisant leurs noms parce que nous les avons attachés à nos environnements que nous n'avons plus à référencer les données de vie Dollar disant chacun de ces affaiblir. Utilisez les noms tels qu'ils sont. Nous voulons également que Teoh attache un niveau de soutien de la fréquence cardiaque sur la santé. Ces données diffusent les variables continues restantes de notre ensemble de données. Alors allons de l'avant et exécutons ça. Vous verrez que nous obtenons un nouveau bloc de données appelé Life data dot corn. C' est 200 observations sur cinq variables, et je peux utiliser un petit ballon façon arabe sur les orteils. Regardez ce qu'ils sont de l'âge, le soutien de la fréquence cardiaque sur la santé et il me donne à nouveau des échantillons de ces choses. Ce sont tous des entiers ou des nombres sur le fait. Ils sont vieux en continu. La prochaine chose que je voudrais que nous fassions est de créer un vecteur de noms de variables pour les noms de nos variables continues, donc je vais juste faire un commentaire à moi-même. Je crée un vecteur de ces noms de variables et je vais créer un nouvel objet appelé vars. Le Dr Korn est comme si nous avions fait notre virus Dark Kat auparavant pour des variables catégoriques. Et je vais utiliser cette fonction de noms d'appel à nouveau pour obtenir des noms de colonnes. Et je vais extraire l'appel des noms du maïs des données de vie. La vie a fait il ya point com cadre de données que nous venons de faire. Donc je vais obtenir une colonne Noms de lui. Jusqu' à présent, je sais avoir un nouvel objet ici valeur dans mon environnement appelé cône
de points vars comme un vecteur de caractères avec les cinq noms de ces variables continues, tout comme nous avons précédemment fait vars chien chat pour les variables catégoriques, la prochaine chose que nous allons faire est de faire des diagrammes de dispersion des cinq variables
indépendantes continues . Et pour ce faire, nous allons utiliser une structure courte
en boucle une fois de plus. Donc, cela vous donnera une chance d'explorer les boucles un peu plus loin dans la pratique, écrivant à nouveau, nous commençons par quatre. Nous allons dire pour moi et un à travers la longueur de la vie point de données de la vie de maïs pris de données de la vie maïs
point de maïs est le nouveau bloc de données que nous avons créé. Si nous exécutons la durée de vie des données point com, il nous dira qu'il a un terrain pour cinq parce qu'il s'agit de cinq variables dans ce
bloc de données . Et ils chantaient ceci pour Luke que je vais être égal à un à cinq. Donc, dans chaque génération, la première génération je vais égaler une la deuxième génération de égal à trois et ainsi de suite. Et pour commencer le butin, nous devons utiliser une accolade bouclée. Je vais créer de la pièce et citer à nouveau la boucle où indenté remarque la fonctionnalité qui va se produire à l'intérieur de cette boucle quatre. Donc c'est indenté, et nous allons écrire chacun de nos nouvelles variables appelées chacun de nos Quand nous allons dire données de
vie, Dr Korn et nous allons sous-ensemble ne pas utiliser les crochets une fois de plus Dites virgule,
j'affaiblit encore une fois sous-ensemble un bloc de données à l'aide de crochets. Le premier numéro est le numéro de règle, puis le numéro de colonne virgule. Donc, si je laisse le numéro de route couvertures va retourner tous rose et je vais sous-ensemble une fois
colonne sur la première génération. A travers ce regard, j'égalerai un. Donc, je vais extraire juste la première colonne de données de vie point Khan et je ne suis pas assigné à une nouvelle variable appelée chacun de nos Je vais ensuite écrire un nom en créant une nouvelle variable, nom
froid sur. Je vais dire que c'est Vars dot corn et je vais sous-définir cela en utilisant de la glace à nouveau. C' est comme ce que nous avons fait auparavant pour les variables catégoriques pour les virus dot Con. C' est un vecteur de caractère. Il y a donc cinq noms et pas vecteur. Donc, dans chaque génération par ici, je vais en retirer un à la fois, selon ce que je suis égal, soit 1234 ou le cinquième élément dans vars Dr Korn. Et puis, au lieu d'appeler une fonction définie par l'utilisateur comme nous l'avons fait précédemment ici, je vais utiliser la fonction de tracé intégrée. Et je vais dire chacune de nos données de vie,
Dr Devi, Dr Devi, sorte que comme notre ensemble de données précédent que nous avons constitué, ne sont
que les 200 observations toutes les variables dépendantes de la mesure de la différence de sorte qu'
en tant que vecteur numérique ici, dans notre environnement. On a un jeu de numéros, Eric Vector 200 observations sur ces différents scores, donc je lui envoie la variable continue. Je suis debout à la mesure de la différence sur. Ensuite, je vais dire que l'étiquette X,
l'étiquette d'accès Y, va à un nom égal, que j'ai défini ici comme le premier nom de variable et mon cône de points vars. Et puis je vais dire l'étiquette Y comme égale à la mesure de différence parce que la
mesure de différence va être constante sur l'axe Y, peu
importe ce que Variable envoyait pour chaque variable continue. Nous évaluons toujours cela par rapport à la mesure de différence afin que je puisse étiqueter la mesure de différence d'
axes d'accès . Débarrassez-vous de cet extra couché ici et voyons ce que cela fait quand nous l'exécutons. Encore une fois, nous pouvons descendre à la console. On peut dire qu'on m'en attribuera un, et on revient à ne pas l'exécuter. Et puis nous pouvons exécuter juste les lignes de code qui sont à l'intérieur de ceci pour Luke. Et on y va. Donc, il est en cours d'exécution juste la première variable, qui, si nous regardons les barres dot com, la première variable est l'âge et nous pouvons voir ici que nous avons un juge. C' est et encore des mois. On pourrait avoir des princes et des mois, mais on utilise juste le nom. Donc on voit juste l'âge. Nous avons un nuage de points avec des cercles vides indiquant les points de données individuels avec la relation entre l'âge sur la différence d'enregistrement. Mesurez le participant afin que nous puissions aller de l'avant sur cette boucle entière quatre et nous verrons que fait en fait tous les chiffres. Donc, la dernière variable était la santé. Salut. Les participants ont évalué leur état de santé. On peut utiliser la flèche bleue pour revenir à travers les parcelles précédentes avec moi. Donc, nous pouvons également voir le soutien ici comment les taux de participants sont mesurés, leur réseau de soutien. Je le soutiens. Ils se sentaient allumés. Nous avons également une fréquence cardiaque que nous avons mesurée pour chaque participant. Onda. Nous avons la température corporelle pour chaque participant, puis retour à la cueillette d'âge initiale. Donc, cela comme un moyen rapide de sortir, faire plusieurs parcelles, utiliser de nombreuses variables différentes et laisser notre faire le travail pour vous. Iterant toutes ces cinq variables, Andi les compare à la mesure de différence. Donc, au lieu d'écrire l'intrigue cinq fois, nous avons créé la boucle for Onda. Nous pouvons faire ce complot et tout ce travail pour nous. Alors, restez avec elle. Dans la vidéo suivante, nous allons créer notre deuxième fonction définie par l'utilisateur à un mensonge était de faire l'analyse et en particulier l'analyse de régression toutes ces variables continues Teoh Answer Mawr impliqué des questions à leur sujet, donc je vous attraperai dans la prochaine.
18. Créer une fonction personnalisée pour l'analyse des statistiques (corrélations et régression): bonjour et bienvenue dans cette vidéo. Nous allons définir une autre fonction et notre code. Et cette fonction va nous permettre de faire des analyses de toutes les
variables indépendantes continues et de rechercher des relations entre ces variables indépendantes sur la
variable dépendante ou les mesures de différence. Donc, comme je l'ai fait avant, j'ai déjà collé dans cette fonction, et nous allons passer à travers et en discuter une ligne par fois. Mais avant de le faire, je veux vous montrer ce que nous voulons, ce que la fonction va réellement produire. Alors laissez-moi maximiser la console sur Regardons sur l'intrigue que nous sortons de cette fonction. Donc, la première chose que cette fonction fait est qu'elle évalue la
corrélation du moment produit de Pearson . Donc nous obtenons une valeur R de Pearson de cette fonction. La corrélation de Pearson ou R de Pearson est une valeur entre le cou, si une valeur est positive. Si la valeur est positive, cela signifie
qu'il existe une corrélation linéaire complète entre la variable indépendante et la variable
dépendante. Si la valeur R de Pearson est nulle, cela signifie qu'il n'y a aucune corrélation. Et si c'est Pearson R, la valeur est négative. Cela signifie qu'il existe une corrélation linéaire négative complète entre la variable indépendante et dépendante. Donc, lorsque nous exécutons la corrélation des moments de produit de Pearson, nous obtenons d'abord une valeur p. Et cela nous indique si la corrélation est statistiquement significativement différente de zéro ou non. Qu' il y ait une corrélation statistiquement significative positive ou négative entre les variables sur, nous voyons ici que la valeur P est inférieure à 2,2 fois 10 à la valeur négative 16. C' est une valeur P très significative, très petite, beaucoup moins de 160,5 Donc, nous pouvons supposer que la corrélation ici est fortement différente de zéro. Mais qu'est-ce réellement là où nous descendons ici plus loin de la valeur de corrélation réelle qui a été appelée et c'est négatif 0.558 Donc cela signifie qu'il y a une corrélation
négative assez forte entre notre variable indépendante et notre variable dépendante ici. Et qu'est-ce qu'on regarde en ce moment ? On regarde l'âge. La fonction a mis cet en-tête ici pour les personnes âgées. Entouré par les hashtags sont des signes de pin. Donc, entre l'âge sur la variable dépendante, nous nous attendons à une forte corrélation linéaire négative. Donc c'est une autre chose que cette fonction va faire pour nous. Il va créer un nuage de points, comme vous pouvez le voir ici en bas de la fenêtre de l'intrigue. Super. Et il crée un nuage de points avec l'âge sur l'axe X. Souviens-toi, c'est dans des mois sur la différence. Mesurez notre variable dépendante sur l'axe Y et nous pouvons voir ici. Si nous regardons simplement les points noirs,
les points de données ici, nous pouvons voir qu'il y a cette pente descendante qui augmente l'âge, plus
la mesure de la différence tend à devenir négative. Donc, il a tendance à être que plus personne âgée est plus jeune qu'elle pense être. Je suppose que vous pourriez dire que plus près de la mort, quelqu'un comme plus loin ils aiment penser qu'ils en sont loin, ce qui peut avoir un certain sens. L' autre chose que la fonction fait autre que la création du nuage de points car il dessine une
ligne rouge à travers les données que cela comme l'ajustement d'un modèle linéaire ou d'une ligne de régression. C' est la meilleure ligne d'ajustement à travers tous les points de données, sorte que nous pouvons voir visuellement que cette ligne rouge diminue de gauche à droite, qui
indique que son âge augmente vers le haut de l'axe X. La mesure de la différence va diminuer pour devenir plus fortement négative. Une autre chose que la fonction fait est qu'elle ajoute, le R ajusté au carré du modèle linéaire, ou régression au-dessus de ce diagramme. Il y a donc une régression r au carré et linéaire qui explique la quantité de variance que le
modèle linéaire couvre ou explique. Ce modèle linéaire explique donc un bateau de 31% de la variance au sein de ces données. Donc, il fait un travail raisonnable d'expliquer pourquoi nous avons cette diminution de la valeur P ici comme valeur clé dans la régression linéaire. Et si la valeur P ici est inférieure à 0,5, cela signifie que la pente de cette régression linéaire est significativement différente de zéro. Donc, ici, nous avons une valeur P qui est inférieure à 0,1 étaient également fonction sans fin, mettant la sortie statistique ou les analyses de l'ajustement de cette régression linéaire et ne pas assurer ici. Maintenant que nous avons vu ce que fait la fonction, regardons à nouveau les voies individuelles hors de la fonction. Je vous encourage à tout d'abord, écouter mon explication de ce que fait cette fonction avant de commencer à copier les voies de corde. Vous pouvez toujours mettre la vidéo en pause et le faire, mais je pense qu'il est préférable que vous n'essayez pas de copier le cordon pendant que je
l'explique en premier lieu. J' ai donc lu dans un commentaire moi-même en disant cette fonction. En ce qui concerne l'analyse des variables indépendantes continues par rapport aux variables dépendantes continues, nous appelons ça amusant cette fois. Donc, parce que nous analysons des variables continues par rapport à la variable dépendante continue, j'ai dit que c'est
continu, continu, et je l'appelle amusant pour la fonction. Et encore une fois, nous assignons la fonction à cela en lui donnant les trois arguments chaque nom et
réponse loin , tout comme nous l'avons fait auparavant avec le fonds de plafond de maïs que nous avons fait dans la vidéo précédente. Tout d'abord, nous allons créer l'en-tête qui sorte de ranger notre sortie statistique, allaient dire une nouvelle variable appelée Header, et nous allons lui assigner en utilisant la fonction de collage, une ligne de Hashtags nom coma que nous obtenons du deuxième argument de la fonction coma, une deuxième rangée de balises de hachage pour faire un beau diviseur et son en-tête et la statistique a put, et nous allons imprimer cet en-tête que nous venons de faire en utilisant la fonction de collage. Ensuite, nous allons imprimer les résultats de la corrélation d'un Pearson. Donc, pour exécuter le test de corrélation, nous utilisons le test de points de base comme fonction et dans les parenthèses, nous allons lui fournir la variable de réponse. Donc, notre mesure de différence pour chaque participant et ensuite nous allons fournir à la variable indépendante
continue que nous voulons évaluer la corrélation avec notre
mesure de différence . Ainsi, par
exemple, en âge, je donne ici la mesure de la différence. Et puis je donne l'âge des participants à cette fonction de test de points de base. Et puis j'imprime la sortie de cette fonction. Toutes les analyses statistiques deux console D. La prochaine chose que nous faisons est de créer l'intrigue. Donc ce que nous disons fonction d'intrigue, parenthèses, chacun de nos. Donc, nous donnons, par
exemple, la variable d'âge où ils disent que la variable pourquoi dans ce diagramme va être la
réponse que la mesure de différence étaient alors étiquetés l'axe X avec l'argument de nom que nous allons dans cette fonction de sorte que dans ce cas serait l'âge. Et puis on dit, pourquoi l'amour ? Ou pourquoi l'étiquette égale à la mesure de différence ? Ce sera toujours la mesure de différence,
car l' étiquette blanche est toujours la variable dépendante ou la mesure de différence, quelle que
soit la variable qui lisait dans cette fonction. Et puis nous disons que le type est égal à P car nous voulons un diagramme de points. Nous voulons des points ou un nuage de points sur, puis en utilisant une fonction supplémentaire appelée PCH, et je dis que c'est égal à 19 qui détermine quel type de points j'obtiens. Donc PC H égale 19 me donne des cercles remplis. Je vais donc vous laisser lire l'aide sur Plaut et rechercher quelles autres valeurs de PCH vous pouvez utiliser. Vous terminez l'exécution avec cela si vous le souhaitez. Mais PCH équivaut à 19 cadeaux. Ce sont ces cercles remplis et je dis, tu vois, le pétrole est égal aux Noirs. Je dis que la couleur est égale au noir. C' est pour ça que nous sommes remplis de points noirs sur ce nuage de dispersion. La prochaine chose que nous faisons et cette fonction est que nous adaptons un modèle linéaire en utilisant la
fonction L am , et nous lui donnons la réponse, la mesure de différence et nous disons, Tilda, la variable qui nous le donnons en termes sur la variable continue indépendante. Donc, par
exemple, si nous utilisons l'âge, ce serait la différence. Mesurer Tilda, la variable d'âge qu'il donnerait à la fonction de modèle linéaire. Et puis nous assignons ouvert de cette fonction de modèle linéaire à l'ajustement variable. Nous pouvons ensuite ajouter la fete de ce modèle Lanier à l'intrigue que nous avons faite en utilisant cette fonction de
ligne d'abeille qui ajoute une voie à n'importe quel tracé. Onda. Nous lui donnons l'ajustement. C' est donc la sortie du modèle linéaire que nous avons défini deux voies précédemment. Et puis nous disons Coma on disait que la couleur va égaler le rouge et l'ambre disant calma L W d égal à deux L W d est l'argument pour la ligne. Attendez Donc, vous, par défaut ici, en avez un. Je l'ai rendu un peu plus lourd, un peu plus épais ligne rouge en disant L W D égal à deux étaient alors créer un résumé modèle linéaire ou
la graisse de régression en fournissant à la fonction de résumé l'ajustement que la
sortie de la fonction encore une fois et nous allons à un signe ouvert de ce résumé à une nouvelle variable appelée Fit Some. Ensuite, nous pouvons imprimer, pas adapter certains à la console afin que nous puissions voir un résumé statistique de notre modèle linéaire Now, comme nous l'avons fait auparavant. J' utilise une déclaration de ramification ici pour ranger nos valeurs P. Donc encore une fois, si la valeur de clé est inférieure à 0,1, nous voulons simplement signaler que moins de 0,1 Nous ne voulons pas avoir beaucoup de chiffres loin au-delà de la virgule décimale. Andi, si ce n'est pas moins de 0.0.1, je suis arrondi à quatre chiffres significatifs. Je fais cela en utilisant l'ajustement certains. Donc, le résumé de l'ajustement statistique n'est pas variable que nous avons créé quelques lignes ci-dessus, puis en utilisant le dollar disant pour accéder à ses attributs. Et puis j'accède à la mer ou à l'année pour le coefficient. Attribut Andi. intérieur de cela, j'accède à la deuxième règle sur la quatrième colonne, crochets
amusants pour sous-définir cet attribut de coefficient et en adapter certains. C' est là que je trouverai la valeur P dans le O Poot hors de cette fonction d'ajustement du modèle linéaire . Donc, dans cette déclaration f, je peux évaluer si cette valeur p que je retire ce coefficient est inférieur à zéro point utilisateur un. Dans ce cas, si c'estvrai, vrai, je crée une variable appelée valeur P qui sera inférieure à 0,1 en tant que chaîne de texte et entre guillemets. Et si ce n'est pas vrai, je dis que sinon la valeur P va se voir attribuer les quatre chiffres significatifs arrondis cette valeur p
que je tire de ce résumé statistique de ce modèle linéaire correspondent à l'
ajustement que nous avons créé. La prochaine chose que je veux faire est d'ajouter ceci est une étiquette à l'intrigue afin d'obtenir le R carré sur la valeur P ici sur cette parcelle afin que les gens puissent le voir facilement. Je vais créer une variable appelée labo Tech star label texte sur. Je vais Idem à cela en utilisant la fonction de collage que je vais coller ensemble la chaîne de texte AJ sont ajustés un point d j et imputer notre capital sont des carottes disant à pour ajusté R carré du côlon. Donc c'est un verre texto. Je vais cadrer avec ça. La ligne correspond en effet à certains points ajustés r au carré. Donc, aucun effet sur ce résumé de l'ajustement statistique. J' utilise le signe du dollar pour refroidir et attribuer. C' est le r ajusté au carré. Et il est en fait appelé un point de deejay r carré dans cette sortie statistique. C' est ainsi que j'accède à la valeur au carré R. Et j'ai arrondi ça à quatre chiffres significatifs juste pour le ranger un peu. Et puis j'utilise un autre coma sur le collage de la valeur P cool, puis un autre coma pour coller cela avec la valeur P qui a été déterminée ici dans cette précédente instruction de
branchement F et puis je vais ajouter cela à l'intrigue. J' utilise donc la fonction de texte M. Je lui fournit le texte de laboratoire que j'ai défini précédemment, et je dis coma et je lui donne l'argument côté égal à trois qui dit notre que je voulais être sur le dessus de l'intrigue par opposition à dessous, ou il soit sites ou laisser vous cherchez de l'aide à ce sujet. Je veux ensuite définir le dispositif graphique en utilisant la commande Leo une grille deux par deux qui sera remplie de quatre chiffres. Pourquoi je fais ça ? Parce que cette fonction que nous définissons ici va également faire des diagnostics sur le diagramme de régression. Donc si je vais de l'avant, un complot ici va vous montrer à quoi ça ressemble. Nous obtenons nos tests de diagnostic standard pour notre régression. Donc, nous obtenons un graphique résiduels résidus sont là, entre dans la régression, nous obtenons un diagramme Q Q. Ce qui montre si les valeurs résiduelles de régression sont normalement distribuées. C' est l'une des hypothèses de régression selon lesquelles ils doivent être normalement distribués. Donc affaiblir le test ici sur butin visuellement pour voir si notre régression est en fait 50 dokey si elle viole l'une des hypothèses de régression ou non. Mais pour rassembler toutes ces parcelles dans une seule fenêtre de traçage, nous devons changer le dispositif graphique. Et ce que je fais ici est de dire dans la fonction de mise en page, je fournit une matrice où
je spécifie, je vais avoir quatre parcelles. 1234 sur. Je les mets dans une matrice deux par deux pour gouverner la matrice de deux colonnes à Afin d'obtenir les besoins , quatre à afficher l'un à côté de l'autre, au lieu d'aller sur des pages individuelles. J' utilise cette commande de matrice avec les fonctions de mise en page. Je vais te laisser chercher de l'aide pour ça. Mais Leo est un moyen très utile de diviser les parcelles en une seule page. Où alors, dire défauts de parcelle ou tracer la fete off. Ces modèles statistiques sur non traceront par défaut ces diagrammes de diagnostic. Et parce que nous avons déjà défini ce Lion pour être une matrice deux par deux, ça va les mettre pour une page. Et puis la dernière chose que nous faisons dans cette fonction est de remettre le périphérique graphique à sa valeur par défaut. Un tracé, une colonne, une règle, un tracé par page. Donc c'est la fonction là. Donc, je vous encourage à écouter à nouveau l'explication sur Rechercher l'aide sur chacune de ces nouvelles fonctions que nous utilisons et lire ces commentaires que j'ai laissés tout au long de cette fonction à nouveau, ceci est très similaire à la précédente que nous avons défini pour les variables catégoriques sauf non, nous faisons des diagrammes de points, un graphique de boîtes supposées, et nous ajustons un modèle linéaire en regardant ses diagnostics. Alors, s'il vous plaît, rejoignez-moi dans la prochaine vidéo où nous allons réellement exécuter cette fonction, nous allons placer qui incite à une boucle quatre sur. Nous allons voir les graphiques de nos variables indépendantes continues et examiner si elles ont une relation statistique avec la variable dépendante. Alors je te verrai dans la prochaine.
19. Challenge #2 - Écrivez une boucle pour exécuter la fonction d'analyse personnalisée: Bonjour. Et bienvenue dans cette vidéo, j'aimerais vous poser votre deuxième défi. J' aimerais tester vos compétences en boucle un peu plus. Et ce que je vais vous demander de faire est de créer une boucle for qui génère à travers les
variables continues dans le bloc de données que nous avons créé, je veux que vous disiez, et une variable à la fois au nouveau fonds de maïs que nous venons de définir dans le vidéo précédente. Et pour vous donner un indice dans cette tâche, nous l'avons déjà fait pour les variables catégoriques. Donc c'est loin. Luke aura l'air très similaire pour aller de l'avant sur pause votre vidéo. Maintenant, avant de commencer à expliquer comment faire cela. Alors bienvenue, tout le monde. J' espère que vous avez réussi à créer une boucle quatre, et cela fonctionne bien pour vous si vous ne vous inquiétez pas à ce sujet, car les boucles sont très délicates. Donc je vais aller de l'avant sur la droite de la boucle quatre avec, vous savez, donc la première chose que je vais faire est de créer un commentaire pour moi-même. Je dis ici que c'est une boucle pour envoyer des variables continues à la
fonction d'analyse continue que nous avons définie dans la vidéo précédente. La première chose que nous voulons dire comme quatre. C' est une boucle de quatre, et nous allons dire moi et un à travers la terre hors des données de vie points de maïs. C' est donc le bloc de données variable continu que nous avons créé précédemment. Données de vie point com Vous pouvez voir qu'il est ici. Dans notre environnement est 200 observations sur les cinq variables continues âge, corps, tamp, soutien de la fréquence
cardiaque et santé toutes ces variables numériques continues. Ensuite, j'ai besoin, bien
sûr, comme une accolade bouclée, je commence la boucle for avec l'accolade bouclée. Rappelez-vous que dans la première partie de ce étaient dire I et 13 longueur de données de vie point cône souvenir avec décharge de données de vie point Conus Combien de variables air dedans ? Il va être cinq, et nous disons un à cinq, puis je vais égaler un à cinq. Donc, dans la première itération de cette boucle, la première fois qu'elle s'exécute, je vais égaler une seconde fois de 234 légal puis cinq. AnAnAnd. Il prendra fin. Donc la première ligne de ce Luton en dense est bien sûr, parce que cela montre visuellement qui étaient avec la fin Ah, structure
en boucle Nous allons définir disponible, appelé chaque barre. Tu peux appeler ça comme tu veux. Je vais juste être cohérent ici et l'appeler de plus. Et je dis que cela va égaler les données de vie point contre afin que le bloc de
données variable continue . Et je suis en train de régler ça en utilisant les crochets. Andi I à nouveau entre crochets un lotus pour sous-définir un bloc de données. La première valeur entre crochets indique est la route sur le coma sépare la colonne. Le nombre est le deuxième nombre. Donc ici, quand je dis les données de vie point de colon carré, je ne mets rien pour la Rose. Donc nous sommes un tour toutes les routes. Et puis après le coma en compétition, je sorte que va extraire celui qui l'appelle hors de l' itération de la boucle étaient sur. Donc, la première fois à travers la boucle, je vais égaler un. Il va extraire la première colonne, qui dans les données de vie dot maïs comme l'âge deuxième fois à travers la température corporelle et la fréquence cardiaque eso sur endroit où je vais définir une variable appelée nom. Nous allons dire que c'est égal à Vars dot corn et nous allons pouvoir je pourrais entre crochets Vars dot corn que nous avons créé précédemment nous pouvons chercher un environnement d'heure ici comme des barres point contre. C' est un vecteur de personnage avec cinq chaînes de caractères et la température corporelle de l'âge, soutien de la fréquence
cardiaque sur la santé. Donc, comme nous avons itéré à travers le salut, je vais égaler un premier de tous afin qu'il recueille le nom âge qu'il sera égal à la température corporelle si poli. Et alors nous allons envoyer ces nouvelles variables que nous avons créées à notre fonds de maïs le
1er 1 est chacune de nos que nous envoyons. C' est le premier argument pour Cone Cone fun ou ensuite aller dire nom. Et nous allons dire une vie,
une donnée Dr Devi, qui est la variable dépendante ou la mesure de la différence encore ici comme un environnement vie data dot devi que les 200 scores différents participants ? Non, cela appellera la fonction et lui enverra ces variables. Mais rappelez-vous, avant de lancer cela pour une boucle, nous devons déjà avoir exécuté la fonction une fois et je l'ai déjà fait pas ici, mais vous devrez avoir écrit toutes les lignes de cette fonction que nous avons discutées dans la vidéo précédente. Tu devras vraiment exécuter ça. Alors allez-y et exécutez cela de sorte qu'il soit dans notre environnement, vous savez, Voir, dans l'environnement, nous avons sous-titre de fonctions. Nous avons des connaissances sur les fonds communs ainsi que le fonds pour les chats de maïs que nous avons défini précédemment. Donc non, nous pouvons aller de l'avant et exécuter cette boucle quatre sur Il a traversé sur la sortie
les résumés statistiques à la console. Donc affaiblir défilement un peu sur nous voyons que nous avons l'âge statistique Kupfer une valeur p une valeur corrélation. Nous avons une sortie d'erreur du modèle linéaire. Ensuite, on se dirige vers la température du corps. Nous avons une analyse de corrélation de valeur P ici sur DSO sur. Nous avons aussi les parcelles. Donc, nous revenons ici et nous voyons que c'est le diagramme de la santé, pas la valeur p significative que la voie de régression linéaire n'est pas différente de zéro. C' est plat. Donc, nous ne pouvons pas dire que la santé a une relation pour revenir à travers plus de diagnostics à la valeur clé de la variable de support pas moins de 0,5 Donc, nous ne pouvons pas dire que pas la
ligne de régression est significativement différente de zéro. y a donc aucune relation entre le soutien et la mesure de la différence. Dans l'ensemble de données, nous pouvons revenir à plus de diagnostics à la fréquence cardiaque et à la valeur P, pas moins de pointer vers vos cinq. Donc, aucune relation statistique entre la fréquence cardiaque et la mesure de la différence ne remonte à travers plus de diagrammes diagnostiques à la température corporelle à nouveau. Valeur P non significative, pas moins de point à vos cinq. Donc, aucune relation entre la température corporelle sur la différence mesure à travers mawr. Et c'est ce que nous avons déjà vu. La variable d'âge là comme une relation statistique entre l'âge et la différence mesure. Donc on peut dire que les personnes âgées, j'ai tendance à penser qu'elles sont plus jeunes qu'elles ne le sont en réalité. Les jeunes ont tendance à penser qu'ils sont plus âgés qu'ils ne le sont en réalité. Donc, sur cette note qui conclut la première section des analyses et de la notation du code. Je pensais que vous l'avez trouvé utile, et j'espère que vous avez appelé l'analyse que nous avons fait un peu intéressante. La prochaine vidéo terminera cette section par un résumé off. Ce que nous avons appris à la fois en termes de notation peut être tout aussi bien que ce que nous avons appris en termes d'analyses statistiques. Ensuite, nous passerons à la deuxième section de la classe, qui se concentrera sur l'analyse des séries chronologiques. Je te verrai alors.
20. Examen du cours: Bonjour. Félicitations à vous d'avoir réussi le cours. J' espère que vous avez appris beaucoup,
beaucoup de choses nouvelles et que vous avez trouvé cela intéressant en cours de route. J' espère qu'ils appliquent toutes ces nouvelles choses à un ensemble de données sur la vie de riel a vraiment aidé à comprendre comment utiliser notre peu d'importance hors de ce que nous faisons pour effectuer des analyses
vraiment. Cela dit, passons en revue sur parler un peu de toutes les choses que nous avons apprises dans notre Alors voici ce que nous avons fait dans la première section de la classe sur laquelle nous avons chargé des données. On a changé les noms des colonnes. Donc, nous allons dans un ensemble de données à partir d'un fichier sur votre ordinateur sur DWI. Modifiez les colonnes. Nous avons nettoyé ces données, nous avons
donc vérifié les erreurs, et nous avons également corrigé ces erreurs. Beaucoup d'autres étaient associés à des valeurs manquantes, mais nous avions aussi des valeurs irréalistes pour des choses comme la température corporelle pendant des mois de vieillissement. Donc nous avons appris à rendre compte de ces findem Andi, les
réparer. Nous avons également appris à créer de nombreuses parcelles de base différentes. Dans cette première section de la classe, nous avons créé des barres flottantes pour la proportion d'un facteur voit très un autre facteur dans notre ensemble de
données. Nous avons créé des boîtes pour montrer les différences entre les différentes variables et notre ensemble de données. Nous avons également rencontré des grammes A sifflés, et nous avons également fait des diagrammes de dispersion tant de diagrammes de base différents qui vous aideront à travers
beaucoup d'analyses descriptives différentes. Nous avons également créé des parcelles multiples ou des parcelles en plusieurs parties, où nous greffons de nombreuses parcelles sur la même page. Cela pourrait être très utile si vous soumettez quelque chose pour une présentation rapport ou une publication. Nous avons également cherché à mettre des chiffres sur les analyses statistiques dans des fichiers pdf et des fichiers texte. Donc, comme nous avons traversé, en particulier, ces fonctions et ces structures en boucle à l'automne un record, il était très utile d'avoir des parcelles et huit statistiques mis que nous produisons aller directement aux documents pdf sur fichiers texte. Nous avons travaillé avec de nombreux types différents de variables de données et incluons des vecteurs, qui sont des groupes d'un seul élément. Nous avons également travaillé avec des facteurs qui sont pour des variables catégoriques qui ont des valeurs différentes avec les repousser. Ainsi, par
exemple, la variable de sexe que nous avions des hommes et des femmes, nous avons
donc travaillé avec ces données franches et nous avons également créé des cadres de données et travaillé avec ceux-ci. Nous avons appris à créer des noms de colonnes. Nous avons appris des blocs de données totus sous-ensemble, ce qui a été très utile. Où la célérité pour créer sur la fonction si à travers elle sont utilisaient des fonctions tout le temps . Et la plupart de ces fonctions proviennent de notre programme lui-même ou de paquets que nous
allons installer dans cette classe. Mais nous apprenons aussi ici une perception erronée comment écrire nos propres fonctions pour effectuer des analyses très spécifiques sur notre ensemble de données. Nous avons également appris à utiliser des structures en boucle pour automatiser notre code afin de créer plusieurs analyses et des diagrammes multiples pour différentes variables à la fois, sans avoir à écrire beaucoup, beaucoup plus de lignes de cordon répétitif. Et nous avons également appris à utiliser si les déclarations orteil sur cordon pour se ramifier dans différents flux pour tenir compte des différences et des types d'analyses que nous devons effectuer. Nous avons également effectué de nombreux tests statistiques. Nous avons créé des statistiques descriptives. Nous avons appris à synthétiser nos données en utilisant des médianes de moyens sur d'autres mesures des généraux, des statistiques
descriptives, et nous avons également appris aujourd'hui à effectuer des tests statistiques inférentiels qui nous disent quelque chose d'un peu plus sur la dette pour obtenir de meilleures données. Donc on a utilisé des tests T sur Nova. Nous avons utilisé l'analyse de corrélation, nous avons également effectué des régressions et examiné brièvement les diagrammes diagnostiques de ces régressions. Et enfin,
peut-être le plus important, nous avons analysé
ici un ensemble de données sur la vie de riel. Nous avons donc pris des données réelles d'une étude que j'ai menée il y a des années et nous avons effectivement effectué analyse statistique
de base à ce sujet. Nous avons créé des graphiques des données, nous visualisons les données et nous avons également répondu aux questions sur ces données. Examinons donc brièvement certaines des choses que nous avons découvertes. C' était une des parcelles que nous avons créées. Ceci montre la variable indépendante du mariage sur l'axe X sur. Nous montrons la mesure de la différence sur le chemin d'accès. Encore une fois, on ne s'est pas mariés et on s'est mariés. Donc, les individus qui n'étaient pas mariés à gauche et ceux qui étaient mariés à droite et puis nous avons la mesure de différence. Et rappelez-vous, si la mesure de la différence est négative, cela signifie que l'individu pense qu'il est plus jeune qu'il ne l'est en réalité. Ils se perçoivent comme étant plus jeunes, et si la mesure de la différence est positive, ils se perçoivent comme étant plus âgés ou plus longs dans leur vie qu'ils ne sont
en réalité. Et ce que nous avons constaté, c'est qu'il y a une différence statistiquement significative entre mariés
et non mariés, et nous avons constaté que ceux qui sont mariés sont en fait plus susceptibles de se percevoir comme plus jeunes ou moins longtemps dans leur vie . Nous avons effectué un test T pour voir s'il y avait une différence réelle et
statistiquement significative entre ces deux groupes, et nous avons constaté qu'elle était significative. Donc, nous pouvons dire statistiquement que ceux qui ont été mariés se
perçoivent vraiment comme étant plus jeunes ? Nous trouvons également quelque chose de similaire avec le statut d'emploi. Nous avons des chômeurs à gauche et un emploi à droite, et nous avons constaté que ceux qui travaillent travaillent travaillent dix pour constater qu'ils sont plus jeunes ou qu'ils ont sentiment qu'ils sont plus jeunes qu'ils ne le sont en réalité. Et encore une fois, nous avons effectué un test T à moins et de constater qu'il était statistiquement significatif avec une valeur P inférieure à 0,5. Ensuite, nous sommes arrivés au niveau de l'éducation où nous avons des études secondaires, premier cycle au niveau des cycles supérieurs et nous constatons ici que plus vous êtes éduqué, plus vous êtes avancé dans votre scolarité. Plus vous percevez que vous êtes plus jeune que vous ne l'êtes réellement. Nous avons donc fait un test de nova parce que nous avons plus de deux groupes ici. Nous avons effectué une analyse de la variance entre ces groupes et nous avons constaté qu'il était statistiquement significatif qu'il y ait en fait une différence entre ces groupes et que plus vous avez d' éducation, plus vous croyez être jeune. Enfin, nous avons examiné certaines des variables continues que nous avons examinées à l'âge du participant. Dans les mois plus tard, nous constatons que plus le participant
est âgé, plus il se sent jeune. Encore une fois, nous avons effectué une analyse de régression à ce sujet et avons constaté que cela était statistiquement significatif . Cette corrélation négative est statistiquement significativement différente de l'absence de corrélation . Donc, nous constatons ici que les plus jeunes ont tendance à penser qu'ils sont plus vieux qu'en réalité. Les personnes âgées ont tendance à penser qu'elles sont plus jeunes qu'elles ne le sont en réalité. Donc, nous avons effectué ah, beaucoup d'analyse assez basique mais très instructive ici, et j'espère que vous avez trouvé cela intéressant et j'espère que vous avez aimé apprendre à faire toutes ces choses et sont