Les bases de base du nettoyage des données : façonnez vos données pour l'exploration | Ginette Methot & Curtis Seare | Skillshare

Vitesse de lecture


1.0x


  • 0.5x
  • 0.75x
  • 1 x (normale)
  • 1.25x
  • 1.5x
  • 1.75x
  • 2x

Les bases de base du nettoyage des données : façonnez vos données pour l'exploration

teacher avatar Ginette Methot & Curtis Seare, Data Crunch Podcast Cohosts

Regardez ce cours et des milliers d'autres

Bénéficiez d'un accès illimité à tous les cours
Suivez des cours enseignés par des leaders de l'industrie et des professionnels
Explorez divers sujets comme l'illustration, le graphisme, la photographie et bien d'autres

Regardez ce cours et des milliers d'autres

Bénéficiez d'un accès illimité à tous les cours
Suivez des cours enseignés par des leaders de l'industrie et des professionnels
Explorez divers sujets comme l'illustration, le graphisme, la photographie et bien d'autres

Leçons de ce cours

    • 1.

      Bande-annonce du cours

      1:51

    • 2.

      Trois principes de nettoyage des données

      1:09

    • 3.

      Installation de Trifacta

      3:04

    • 4.

      Flux

      1:20

    • 5.

      Téléchargement de données

      2:23

    • 6.

      À l'intérieur d'un flux

      0:50

    • 7.

      Aperçu du panneau de grille

      4:52

    • 8.

      Aperçu des recettes de données

      2:43

    • 9.

      Étapes de recettes prêtes à l'emploi

      3:37

    • 10.

      Changements rapides de recettes

      1:25

    • 11.

      Cartes de suggestions

      6:01

    • 12.

      Gardez et supprimez

      2:34

    • 13.

      Changements de menus déroulants

      5:27

    • 14.

      Exportation des résultats

      1:58

    • 15.

      Explication de projet

      1:20

    • 16.

      Nous sommes là pour vous !

      0:12

  • --
  • Niveau débutant
  • Niveau intermédiaire
  • Niveau avancé
  • Tous niveaux

Généré par la communauté

Le niveau est déterminé par l'opinion majoritaire des apprenants qui ont évalué ce cours. La recommandation de l'enseignant est affichée jusqu'à ce qu'au moins 5 réponses d'apprenants soient collectées.

221

apprenants

1

projets

À propos de ce cours

Rejoignez les cohôtes de Data Crunch Podcast, Curtis Seare et Ginette Methot, pour une intrigue amusante au nettoyage des données. Ce cours s'adresse à tous ceux qui cherchent à commencer à travailler avec des données pour la première fois OU à tous ceux qui veulent simplement une introduction à la version gratuite du logiciel Trifacta, de l'outil de nettoyage de données préféré de Curtis et de Ginette.

À la fin de ce cours, vous pourrez utiliser trois principes de base des données et de nombreuses transformations pour créer une recette de données en six étapes : le terme de Trifacta pour les changements que vous apportez à vos données. Nous vous verrons en classe !

Rencontrez votre enseignant·e

Teacher Profile Image

Ginette Methot & Curtis Seare

Data Crunch Podcast Cohosts

Enseignant·e

Hi there! I'm Curtis Seare, and I'm Ginette Methot, and we cohost an Austin-based podcast called Data Crunch. We talk to people who do amazing things with data, often growing from their deeply passionate involvement with a subject--like detecting eye cancer in little children to saving the lives of honeybees. These world-changers are in every industry and every subject. There is no area or corner of the world that won't eventually be touched by the power of data.

We are passionate that you, no matter where you are or what work you do, can learn to be data literate in a data-focused world, not only to be able to understand the changing world culture, but also to do fascinating things while fusing your passions with data, because you can with the right tools and instruction. We're ... Voir le profil complet

Notes attribuées au cours

Les attentes sont-elles satisfaites ?
    Dépassées !
  • 0%
  • Oui
  • 0%
  • En partie
  • 0%
  • Pas vraiment
  • 0%

Pourquoi s'inscrire à Skillshare ?

Suivez des cours Skillshare Original primés

Chaque cours comprend de courtes leçons et des travaux pratiques

Votre abonnement soutient les enseignants Skillshare

Apprenez, où que vous soyez

Suivez des cours où que vous soyez avec l'application Skillshare. Suivez-les en streaming ou téléchargez-les pour les regarder dans l'avion, dans le métro ou tout autre endroit où vous aimez apprendre.

Transcription

1. Bande-annonce du cours: Bonjour, je suis courtoisie ici, et je suis l'un des instructeurs pour ce cours, et dans ce cours, nous allons vous enseigner les principes de la préparation des données. Je travaille professionnellement dans l'espace de données depuis environ huit ans. Je suis le directeur de l'analyse. Ça démarrera ici à Austin. J' ai une maîtrise en analytique, et j'ai également co-organisé un podcast appelé Data Crunch qui interroge des gens qui font des choses intéressantes avec des données. Donc, les données sont vraiment au cœur de ce que je fais. Et je suis vraiment excité de partager certaines de ces compétences avec ce cours. Nous allons parler des trois principes de base du nettoyage des données, et nous allons vous apprendre aussi les compétences techniques que vous devez apprendre. Pour pouvoir le faire, on va utiliser un logiciel appelé Tri Factor, qui est gratuit. Vous pouvez télécharger, essayer, factifier et commencer tout de suite. Et la raison pour laquelle nous avons choisi cet outil est parce que nous pensons qu'il est le plus facile de travailler avec. J' ai regardé beaucoup d'outils logiciels de préparation de données et le facteur sec est de loin le plus facile pour vous. C' est pourquoi nous allons l'utiliser dans ce cours de débutant pour vous montrer comment le faire. Alors ne vous inquiétez pas. Si vous n'avez pas beaucoup d'expérience et de données ou même de compétences techniques, cela peut vraiment être fait par n'importe qui. Mais le logiciel le rend vraiment simple. Et nous allons vous faire passer étape par étape à travers ce qu'il faut pour nettoyer et préparer vos données . Et je ne suis pas le seul à enseigner ça. Je suis rejointe par ma co-animatrice de podcast Jeanette. Je suis Jeanette Method et je suis l'autre professeur qui enseignera ce cours. J' ai obtenu mes diplômes en anglais et en sciences humaines et j'ai récemment commencé à travailler avec des données, donc je peux probablement en parler plus que la plupart des autres. Mais vous n'avez pas besoin d'avoir un arrière-plan dans les données pour travailler avec les données, n'y a donc aucune exigence pour vous d'avoir un arrière-plan à prendre. Ce cours que vous allez créer votre propre recette de données en six étapes et une recette de données en termes de pratique d'essai est fondamentalement les différentes étapes que vous prenez pour nettoyer vos données. Nous sommes donc très heureux de travailler avec vous, et nous sommes très heureux de voir ce que vous créez 2. Trois principes de nettoyage des données: Bonjour et bienvenue au cours. Nous sommes vraiment excités que vous ayez décidé de vous joindre à nous pour un peu de fond. On allait utiliser un ensemble de données d'éruptions volcaniques. Cela vient du Smithsonian Institute, leur programme mondial de volcanisme. Et ce sont toutes les éruptions confirmées qui se sont produites dans le monde. Donc c'est assez intéressant. Nous allons y plonger et nous allons vous apprendre les trois principes de base du nettoyage des données . Nous allons donc vous apprendre à rechercher des erreurs dans votre ensemble de données et à les supprimer. Deux. Nous allons vous montrer comment rechercher des données qui n'ont pas vraiment besoin d'être dans votre ensemble de données . Ce n'est pas pertinent et retirez-le. Et nous allons vous montrer comment trouver des moyens de clarifier l'ensemble de données afin qu'il soit plus logique pour un utilisateur final. Donc ce sont les trois principes que nous allons répéter et encore, nous allons utiliser Tri Factor. Donc on va aussi t'apprendre les compétences dont tu as besoin en tri facteur. Pour ce faire, nous allons vous montrer comment télécharger des données vous montrera comment créer une recette de données vous montrera comment créer des transformations qui déplacent vos données à travers les étapes nécessaires pour transformer. Donc, sans plus tarder, nous allons juste sauter droit dedans, et nous allons vous montrer comment télécharger le facteur de piste. 3. Installer Trifacta: Salut là, Jeanette. Donc, avant de faire quoi que ce soit que vous aurez besoin de télécharger, essayez le facteur Wrangler, et je vous expliquerai, étape par étape. Et si vous l'avez déjà téléchargée dans le passé et que vous l'avez sur votre ordinateur , passez cette leçon et passez à la suivante. Et gardez à l'esprit que pendant que nous passons à travers ces leçons, hésitez pas à visionner des vidéos positives à tout moment. Si vous avez besoin de plus de temps pour télécharger ou suivre les étapes. Pour ceux d'entre vous qui ne l'ont pas téléchargé sur votre ordinateur, commençons. OK, donc d'abord vous allez essayer la page d'accueil des facteurs. Donc, ouvrez un navigateur Internet et tapez tri facteur dot com. De là, vous allez regarder en haut à droite de l'écran et vous verrez ici qu'il y a un bouton qui indique Télécharger. Sélectionnez-le, et il vous amènera à une autre page qui contient un peu d'informations pour vous. Juste un survol rapide. Si vous avez des questions sur la configuration système requise, vous pouvez accéder au lien ici à partir d'ici. Venez à ce bouton sur la droite qui dit, Essayez le facteur Wrangler télécharger et vous remarquerez qu'il y a une petite balise bêta sur le bouton . Gardez cela à l'esprit car il s'agit d'un logiciel qui est encore en développement et qui met à jour le cours sera mis à jour. Vous avez les informations les plus récentes à côté d'aller de l'avant et sélectionnez ce bouton de téléchargement, et il apparaîtra maintenant un écran d'inscription et demandera une entreprise et un titre d'emploi. Mais vous êtes un étudiant dans le cours, donc je vous recommande de mettre ce que vous êtes à l'aise avec, mais comme suggestion, quelque chose que vous pourriez mettre ici sous compagnie serait la formation Try Factor et le titre d'emploi pourrait être étudiant, et à partir de là, il faut un numéro de téléphone. Maintenant, j'ai mis mon numéro de téléphone et dans le passé, et je ne les ai jamais fait appeler à ma connaissance, et je n'ai jamais eu de messagerie vocale de leur part, donc je ne pense pas qu'ils vous appelleront ici. Mettez dans votre pays sur votre état, puis votre e-mail, et à partir de là vous allez créer un mot de passe. Vous sélectionnez également que vous n'êtes pas un robot et acceptez le contrat de licence. Après avoir soumis votre candidature, vous accédez à cette dernière page et sélectionnez ici ce dont vous aurez besoin pour votre PC ou votre Mac. Maintenant, je vais dire ça à mon bureau pour essayer le facteur Wrangler et laisser le téléchargement se produire. Une fois votre téléchargement terminé, il suffit d'aller de l'avant et de sélectionner le fichier que vous avez téléchargé. Mon ordinateur demande qu'un bâton dans mon dossier d'applications. Alors je vais aller de l'avant et faire ça. Vous pouvez le dire ici. C' est juste le copier dans mon dossier d'applications. Donc, une fois qu'il est chargé et que vous savez qu'il est prêt à aller trouver l'application et ouvrir trifecta maintenant sur un Mac, il va vous demander si vous voulez ouvrir cette application parce qu'elle est à partir d'Internet, allez-y et dites Devinez en sélectionnant le bouton d'ouverture Félicitations et vous êtes prêt à jouer avec les données, nous allons plonger directement dans l'utilisation des principes de base des données et explorer un cas d'utilisation de ce que cet outil peut dio 4. Flux: ici, nous sommes entrés dans l'écran des flux, et un flux est fondamentalement un paquet qui contient à la fois vos données et les modifications que vous y apportez . Et l'écran vous montrera éventuellement une liste de tous vos flux au fur et à mesure que vous les créez au fil du temps. Pour l'instant. Puisque nous n'avons pas encore commencé un flux, c'est totalement vide. Mais vous verrez qu'il y a trois onglets ici, l'onglet Flux, qui étaient sur l'onglet Jeux de données, qui vous montrera les jeux de données que vous avez téléchargés une fois que vous avez téléchargé des ensembles de données, puis résultats une fois que vous avez réellement exécuté des tâches et que vous ont des résultats à montrer. Mais passons à l'écran de flux, et nous allons sélectionner créer un flux. Ici, vous pouvez écrire n'importe quel nom de flux, n'importe quelle description de flux, mais nous allons importer aujourd'hui un ensemble de données de volcan. Donc, pour le nom du flux, je vais aller de l'avant et écrire les éruptions volcaniques du monde. Vous pouvez mettre ce que vous voulez là qui a du sens pour vous et ensuite comme faras la description. C' est un endroit où vous écririez tout ce qui aide à décrire le flux et tous les autres mots que vous pourriez vouloir leur. Donc ici, je vais écrire quelque chose à l'effet de toutes les éruptions volcaniques confirmées de tous les temps. Allez-y et appuyez sur Créer. Et cela va créer votre tout premier flux. 5. Téléchargement de données: Maintenant, nous devons ajouter un ensemble de données volcan pour essayer facteur. Et pour ce faire, vous devrez trouver et télécharger le document Data Excel à partir du partage de compétences. Alors allez dans l'onglet de vos projets sous ce cours et regardez la barre de droite pour trouver la pièce jointe. Téléchargez le fichier de données appelé un volcan. Éruptions de soulignement Jeu de données souligné. Une fois que vous avez fait ça, essayez de nous faire. Laissez le bouton importer et ajouter des jeux de données sur cet écran d'importation de données. Vous avez ici quelques options pour ajouter vos données. Vous pouvez soit faire glisser le fichier, soit choisir le fichier depuis votre ordinateur. Choisissez la méthode de téléchargement qui vous convient le mieux. Maintenant, j'ai le fichier sur mon bureau, donc je vais aller de l'avant et le glisser et le déposer dans Trifecta. Ce fichier prendra un peu de temps pour télécharger car il a plusieurs onglets dedans et essayez Factor doit les identifier et les afficher séparément pour vous donner des options de téléchargement. Alors n'hésitez pas à mettre votre vidéo en pause pendant que l'ordinateur est en téléchargement pour cette classe étaient sur Lee vont travailler avec le premier onglet en sélectionnant le signe plus à côté de cet onglet supérieur ici. Donc, bien que vous ayez la possibilité d'ouvrir d'autres sources de données répertoriées ici, nous allons rester avec cet onglet pour l'instant. Mais à votre connaissance, si vous allez au signe plus pour l'ensemble du fichier ici, il propose de chat mater l'ensemble de données en un seul ensemble de données, et cela signifie essentiellement qu'il combine les onglets ensemble et crée un fichier de données. Et vous voulez être très prudent à ce sujet. Il se peut que ce ne soit pas tout à fait ce que vous cherchez. En outre, si vous le souhaitez, vous pouvez sélectionner tous les onglets en cochant le signe plus suivant, chacun d'entre eux, et cela les garderait séparés. Vous remarquerez également qu'il y a un petit symbole d'œil sur le côté droit que vous pouvez utiliser pour afficher un aperçu si vous ne vous souvenez pas quel onglet contient quelles données, et cela pourrait être un outil très utile. Maintenant, lorsque vous sélectionnez les signes plus sur l'ensemble de données que vous voulez, vous les verrez se charger ici sur la droite, et c'est prêt pour le téléchargement, donc il ne l'a pas encore téléchargé. Lorsque vous sélectionnez ce symbole plus maintenant ici, vous pouvez le renommer. Vous pouvez les décrire. Vous pouvez les supprimer à travers ce symbole corbeille, et vous avez encore la possibilité de les prévisualiser à travers cet autre petit symbole I ici . Alors allez-y et sélectionnez le bouton d'importation des ensembles de données. 6. À l'intérieur d'un flux: nous sommes arrivés à l'intérieur d'un flux et nous voyons trois icônes. Le premier symbole représente vos données importées, le second symbole représentant une liste de modifications apportées à vos données d'origine, et le troisième symbolise vos données nettoyées avec ces modifications appliquées. Et lorsque vous sélectionnez les options, vous pouvez voir qu'il y a des informations de fichier associées à chacune d'elles dans ce panneau de détails. En outre, nous sélectionnons chaque symbole, il y a un bouton d'action bleu pour chacun d'eux que nous pouvons sélectionner, et vos options sont soit swap, soit edit. échange de recettes signifie simplement échanger vos données contre un ensemble de données différent, ou l'autre option que vous verrez sur les deux autres symboles est de modifier la recette pour que nous puissions entrer et jouer avec les données. Sélectionnons ce bouton, et maintenant nous pouvons aller faire les trucs amusants 7. Aperçu du panneau de grille: Maintenant, on est là où on peut faire la magie. Et jetons un coup d'œil à certains des outils de base à portée de main. Voici vos données et en mode grille, comme vous l'avez vu auparavant dans Excel. Vous avez augmenté ici et vous avez des colonnes ici, et vous pouvez faire défiler la grille avec un défilement tactile facile si votre ordinateur prend en charge cela , ou vous pouvez simplement faire défiler en utilisant les barres de défilement à droite ou en bas du cred. Une autre chose à noter est que lorsque vous faites défiler le trait d'union à côté de la Rose, il vous montre quel numéro de rôle c'est après. Essayez facteur importé et quelle route est à partir de la source de données d'origine, ce qui est utile à certains moments. Alors que cette ligne est la ligne numéro un maintenant, elle montre qu'elle était en fait la route à partir de la source d'origine, ce qui nous fait alors demander, Où est la route numéro un ? Et c'est votre ligne d'en-tête maintenant ici, la ligne d'en-tête a les noms de colonnes et flanquant chaque colonne de chaque côté du nom de la colonne sont à menus déroulants, qui explorera plus en détail plus tard. Mais comme un bref aperçu. Celui de gauche change rapidement le type de données tel un code postal ou ainsi le numéro de sécurité ou quel que soit le type de données qu'il est. Et c'est là que tu le catégoriserais. Lorsque nous passons au menu déroulant de droite, nous voyons qu'il offre une multitude de façons de modifier vos données maintenant sous la ligne d'en-tête. Avec les menus déroulants pour, vous avez des outils vraiment impressionnants. abord, il y a la barre de qualité des données, qui vous donne un aperçu approximatif des colonnes Ah . Qualité des données. Il s'agit d'un contrôle de qualité limité, mais il vous montre gris foncé pour toutes les valeurs manquantes dans une colonne. Comme vous le verrez ici, il montre que vous lisez pour toutes les valeurs de non-correspondance ou, en d'autres termes, les valeurs qui ne correspondent pas au type de données que la colonne a été catégorisée, comme vous verrez ici et vert pour toutes les valeurs valides valeurs. Mais gardez à l'esprit que Green ne signifie pas que les données sont parfaites. pourrait encore y avoir beaucoup de choses qui ne vont pas, même s'il est marqué vert. Tout cela vous indique vraiment qu'une cellule n'est pas vide, et qu'elle correspond au type de données de colonne pour cette colonne respective. Le deuxième outil fabuleux ici est la colonne, sifflé un gramme, qui vous montre une représentation graphique des données dans chaque appel. Chaque barre représente ici une valeur de mot ou une catégorie dans la colonne, et juste en dessous du sifflement d'un gramme, vous verrez une boîte d'informations blanche qui ressemble réellement à une ligne. Mais si vous remarquez qu'il n'a pas de tiret à côté comme ces autres roses. Donc c'est l'indice que ce n'est pas une rangée. Cette boîte d'informations modifie le contenu en fonction de vos actions. Par exemple, découvrons quel volcan est le plus nommé. Lorsque je fais défiler ces barres avec mon réticule, jetez un oeil à la boîte de contenu en dessous. Comme vous pouvez le voir, Etna est écrit 197 fois, ce qui représente environ 2% de la colonne. Tout cela nous dit vraiment que Aetna apparaît actuellement dans plus de lignes dans cette colonne de l'ensemble de données que toute autre chose. Si nous regardons la Rose, nous réalisons que chaque rangée représente une éruption distincte, donc nous savons que c'est là que le plus grand nombre d'éruptions ont eu lieu, d' après nos connaissances actuelles de l'ensemble de données, gardez à l'esprit qu'il peut y avoir plus le contexte de l'ensemble de données que nous n'avons pas encore découvert. Mais d'un coup d'oeil rapide, il semble qu'Aetna soit le vainqueur de la plupart des éruptions confirmées dans l' histoire mondiale enregistrée . Cette vue de grille vous indique également quelques autres choses ici au milieu supérieur. Cela vous montre que vous avez un ensemble de données complet. Maintenant. Ceci est important pour Trife a agi pour vous dire, parce que si vous avez une quantité incroyablement grande de données, facteur d' essai ne prendra qu'un petit échantillon aléatoire de celui-ci est que vous pouvez travailler avec elle. La raison en est que si les données étaient trop volumineuses, cela rendrait votre ordinateur vraiment lent ou n'a pas assez de mémoire orteil charger tout et travailler avec elle. Et c'est pourquoi il pourrait simplement échantillonner l'ensemble de données à côté de cette mesure. Il vous dit que vous avez 24 colonnes, 9815 lignes et cinq types de données. Tout ce qui est bleu ici, comme ce cinq, vous pouvez sélectionner pour en savoir plus. Une autre chose que vous pouvez faire ici sur la droite est que vous pouvez filtrer la grille. Donc, s'il y a un mot que vous cherchez quelque chose en particulier, vous pouvez le taper ici, et il va filtrer la grille pour vous. Pour les besoins de cette classe utilisaient la vue de la grille, qui est la vue que nous sommes en ce moment avec des colonnes et des lignes. Mais vous remarquerez que tout le chemin ici à gauche que vous avez également l'option d'une vue de navigateur de colonne dans cette vue d'ensemble de colonne. Vous pouvez faire des choses comme évaluer rapidement les données masquer les colonnes que vous ne voulez pas voir dans la vue de la grille ou appliquer des modifications très rapides sur plusieurs colonnes, comme supprimer un tas de colonnes de l'ensemble de données. Maintenant, c'est quelque chose que vous devriez certainement explorer plus en détail plus tard, mais pour l'instant, concentrons-nous sur notre bonne vue. 8. Aperçu des données: accord, il est temps de parler de recettes de données, ce qui, je pense, est l'une des meilleures fonctionnalités qui ont essayé Factor a. Donc, si vous jetez un oeil avec moi dans le coin droit, il y a cette icône qui ressemble à un défilement, et si vous allez de l'avant et cliquez dessus, ça va ouvrir ce qu'on appelle la recette de données maintenant Recette de données. Il s'agit d'une liste étape par étape de toutes les modifications que Test Factor apporte à vos données. Donc, chaque étape est un changement qui fait essayer Factum se produit sur votre ensemble de données en termes de facteur Tri Ces étapes qu'ils sont connus sous le nom de transformations, et il fait fondamentalement ce qu'il décrit. Chaque étape transforme vos données d'une manière ou d'une autre, et l'imagerie est vraiment intéressante à penser. C' est un peu comme une recette de cuisson ou quelque chose qui a beaucoup de pas que vous prenez. Mais la chose chanceuse ici est que si vous arrivez à gâcher l'une de vos étapes, vous pouvez simplement revenir en arrière et facilement le supprimer ou le changer en appuyant sur le bouton d'annulation juste ici. Et vous pouvez aussi refaire si vous décidez que vous en fait, une de ces étapes pour être là. Donc, la raison pour laquelle les recettes sont si géniales est parce qu'il vous donne une trace automatique de ce que vous faites avec vos données. Si vous utilisez Excel comme beaucoup de gens, faites le travail sur vos données. Vous rencontrerez souvent le problème que vous avez fait beaucoup de choses à vos données. Vous avez ajouté des colonnes. Vous avez supprimé des colonnes. Tu as supprimé Rose. Vous avez modifié certaines données dans les cellules, et vous avez fait toutes ces étapes et finalement arriver à un résultat. Mais tu réalises que j'ai fait une erreur il y a cinq pas. Mais à moins de documenter et d'écrire tout, vous faites un excellent, il est vraiment difficile d'essayer de revenir en arrière et de comprendre ce que vous avez fait et ce qui a mal tourné et comment le réparer. Et l'autre chose est, disons que vous faites toutes vos transformations correctement et excellez et que vous le présentez à quelqu'un , et qu'ils ont une question à savoir si c'est exact ou si vous avez fait quelque chose de bien. Si vous le faites dans Excel, il n'y a vraiment aucun moyen de montrer à qui que ce soit ce que vous avez réellement fait aux données, sauf si vous arrachez minutieusement toutes les étapes et tout ce que vous faites, donc il n'y a pas de transparence là. n'y a pas de piste d'audit. Essayez facteur vous aide à le faire. Et c'est une chose nécessaire quand vous avez affaire à des données parce que tant de choses peuvent mal tourner et il est si important d'avoir de la transparence quand vous regardez ici les étapes, si vous arrivez à faire une erreur, Vous pouvez retourner à l'étape 3 ou à l'étape pour dire, Oh, c' est en fait ce que j'ai fait. C'est là que mon erreur est. Je peux facilement le réparer, et toutes les étapes après cela seront automatiquement mises à jour. Ou si quelqu'un veut savoir ce que vous avez fait dans vos données pour préparer votre analyse, vous pouvez très facilement les amener directement ici à l'écran de recette et leur montrer chaque chose que vous avez fait aux données. Il est donc reproductible, transparent, et c'est quelque chose que vous devez avoir lorsque vous travaillez avec des ensembles de données volumineux et complexes. Sinon, vous allez finir par perdre beaucoup de temps 9. Étapes de la recette prête à la fabrication: Nous avons parlé un peu des recettes et des transformations, alors jetons un coup d'oeil et découvrez ce que trifecta a déjà fait automatiquement pour vous. Lorsque vous chargez cet ensemble de données, il l'a déjà suivi à travers ces quatre étapes. Et juste pour que vous puissiez avoir un bref aperçu et comprendre ce que fait l'essai ici, nous allons les examiner très rapidement. On pourrait aller plus loin, mais pour l'instant on va garder ça haut niveau. Jetons un coup d'oeil à ce à quoi ressemblent vos données avant de les mettre en facteur Try. Il s'agit du fichier texte brut de vos données. Vous remarquerez ici volcan numéro volcan nom ces air vos en-têtes et puis vous commencez voir chacune de ces lignes est une sorte d'une autre ligne dans les données triste. Et il semble qu'ils utilisent des virgules pour séparer où les colonnes devraient être. Donc, c'est à quoi ressemblent vos données, mais vous ne pouvez pas vraiment travailler avec ça. Donc, trifecta s'appliquent réellement. Certaines se transforment dans la recette pour l'obtenir dans un format utilisable. Jetons donc un coup d'oeil à chacune de ces étapes. Si vous cliquez sur la première étape Qu'est-ce que le fait d'essayer va faire est en fait griser le reste de ces étapes, et il va vous montrer ce que le résultat de cette première étape qu'il a prise. Donc vos données entrent, voici le fichier trifecta. Est-ce que cette étape initiale et c'est le résultat. Donc, il est en train de diviser vos données en lignes et il a ce petit s notre symbole dans un cercle qui signifie que c'est la transformation de rose fendue. Ce que vous remarquerez ici, c'est que vous avez rose. La première année a le nombre de volcan tous. Pouvez-vous nommer la deuxième ligne, troisième ligne et ainsi de suite. C' est tout ce que ce premier pas a fait, c'est juste te donner Rose. Voyons ce qu'il fait lorsque vous faites la deuxième étape afin que nous puissions simplement cliquer dessus. Il le sort du gris, puis il vous montre les résultats de la deuxième étape à laquelle il a pris vos données. Vous le remarquerez comme un SP ici. C' est la transformation scindée. Et puis il vous dit qu'il a divisé la colonne un en 24 Collins sur une virgule. Vous avez remarqué juste là. Entre ces guillemets, il utilise une virgule, tout comme nous avons vu ici qu'il y a un tas de virgules qui semblent diviser l' ensemble de données . Ça va dire, accord, dans cette étape, nous avons des choses séparées par des virgules et nous allons prendre ces virgules, et nous allons créer des sauts de colonne avec chacun de ces commentaires. Alors maintenant, vous avez vos colonnes. D' accord, on s'approche, mais on n'est pas encore là. Il a encore ces moches citations. Tous ces champs de données contiennent des guillemets, ce qui n'est pas vraiment facile à utiliser. Donc, la troisième étape ici essayer les devinettes factorielles. Nous voulons probablement nous débarrasser de ces citations. Donc, il utilise ce r P dans le cercle connu sous le nom de transformation de remplacement. Donc, c'est dire Prenez toutes les citations et remplacez-les par fondamentalement rien. Donc, il est juste d'utiliser ces deux citations ici et de ne rien mettre entre elles, ce qui signifie fondamentalement que nous sommes juste en train de se débarrasser des citations parce que nous les remplaçons par rien. Donc, vous remarquerez toutes les citations qui étaient autour de ces nombres et et les mots sont maintenant partis. C' est génial. La dernière chose ici, nous remarquerons également dans cette première ligne, nous avons en fait nos noms d'en-tête de colonne. Mais nous ne voulons pas vraiment ça. Dans notre ensemble de données, nous voulons que ce sont les noms de colonnes ? Eh bien, essayez les faits. Ah, encore une fois devine que c'est ce que nous voulons faire. Donc, quand on regarde cette dernière transformation, cette hee transformée, qui est la transformation d'en-tête. Ce que cela fait, c'est qu'il prend cette première ligne et qu'il les convertit en nom de colonne. Donc maintenant tout dans cette première rangée est maintenant que vous êtes le nom de la colonne, le numéro du volcan, le nom du volcan, le numéro de l' éruption, et ainsi de suite. 10. Changements de recettes rapides: Parlons un peu plus de ces transformations. Si vous n'aimez pas l'une de ces étapes, pour une raison quelconque, vous avez certaines options que vous pouvez supprimer ou modifier l'une d'entre elles à tout moment. Donc vous remarquez que quand je planais dessus, vous avez les trois options ici. Poubelle. Cran va complètement s'en débarrasser. Donc, je veux juste supprimer cette transformation. Il est parti de mon ensemble de données et maintenant les en-têtes ne sont plus dans les noms de colonnes. Maintenant, ils sont en bas. En fait, je veux ça. Donc je vais juste faire et ça va ramener ça sur le dos. Vous pouvez également modifier si vous appuyez simplement sur cette icône de crayon et vous avez également plus d'options si vous appuyez sur l'ellipse juste ici. Donc, en dessous, vous avez quelques options. Vous pouvez effectivement copier une étape si vous voulez la dupliquer, coller ou même la coller dans une autre tentative. Fait une fenêtre dans laquelle vous travaillez sur un autre ensemble de données et vous avez également la possibilité d' insérer des étapes avant et après l'étape en cours. Donc, si je décidais que je devais marcher avant cet en-tête, je pourrais juste en insérer un avant, et puis il y a une autre étape que je peux construire. Donc, maintenant, nous avons vu toutes ces étapes que la trifecta a prises pour préparer vos données. Et maintenant, vous savez comment les orteils modifient ou les supprimer si vous le souhaitez. Et maintenant, le fait de piste a fait ces quatre premières étapes. Les six prochaines étapes que vous ajoutez sont celles qui compteront dans votre projet de recette en six étapes que vous avez peut-être déjà ajouté comme nous l'avons fait ici, et si oui, et si oui, allez de l'avant et téléchargez une photo de celui-ci. 11. Cartes de suggestion: cette leçon dans la prochaine sont la viande de ce cours. Et si vous ne l'avez pas déjà fait, je vous recommande d'imiter sur votre ordinateur ce que je fais ici comme je le fais. Cela vous aidera à tirer le meilleur parti de cette section. Donc, une capacité incroyablement optimiste que trifecta a est qu'elle suggère ce qu'il pense que vous voudriez faire pour préparer vos données. Faisons un peu d'impôt à l'intérieur de la grille. Maintenant, vous verrez qu'il y a une section en bas qui est apparue. Cette section répertorie plusieurs options sur les cartes de transformation pour savoir comment modifier les données que vous avez sélectionnées. Au-dessus de ces cartes de transformation, vous avez trois options. Annulez votre sélection, modifiez votre sélection ou ajoutez-la à la recette de données. Pour l'instant, annulons ça. Sélectionnez toute la catégorie d'éruption de colonne en allant jusqu'à la ligne d'en-tête en sélectionnant son nom. Notez ici que si nous n'annulons pas notre sélection de colonne et que nous choisissons une autre colonne dans la grille, facteur d' essai ajoutera cette deuxième colonne En plus de ce que nous avons déjà sélectionné. Au lieu de penser que nous essayons d'apporter deux changements différents, c'est peut-être quelque chose que nous voulons faire, mais peut-être pas. Et si nous ne voulons pas le faire, affaiblir simplement de sélectionner les colonnes indésirables en sélectionnant à nouveau les noms de colonnes. La première suggestion répertoriée ici est Drop et Try Factor l'a automatiquement sélectionnée pour nous. Drop signifie que nous supprimons la colonne entière de l'ensemble de données, et il y a en fait une différence entre drop et delete, ce qui entrera en détail dans la leçon suivante. Maintenant, alors que nous regardons un peu plus près au bas de la carte, il y a du texte explicatif gris clair ici. Ce texte explique ce que cette modification affectera ou créera. Cette carte confirme le fait qu'elle ne fera que tomber cette colonne, et si vous regardez votre recette, il y met une étape temporaire pour vous montrer à quoi ressemblera votre recette si vous choisissez cette option. En fait, pensez à tomber. C' est un grand mouvement parce que, comme nous pouvons le voir dans le sifflement d'un gramme, toutes les valeurs de cette colonne, sauf pour le nom d'en-tête de colonne, disent exactement la même chose a confirmé l'éruption. Et je n'ai pas besoin de ces informations dans mon ensemble de données, car il s'agit d' informations évidentes et implicites dans l'ensemble de données. Donc on va aller de l'avant et laisser tomber cette colonne. Ceci est un exemple de la façon de simplifier nos données. L' un des principes de nettoyage des données que nous avons mentionnés au début. Maintenant, essayez facteur rend cela très facile. Donc je vais aller de l'avant et laisser tomber la colonne et nous pouvons le faire en sélectionnant le bouton de l'annonce à la recette ici sur la droite au-dessus des cartes d'option. Ok, choisissons une autre colonne. Que diriez-vous de la colonne VE I ? Cette fois, sélectionnons la carte renommée. Comme nous pouvons le voir, il montre un aperçu de ce que ce changement pourrait ressembler. Ici. Essayez les facteurs. Mettez un nom d'espace réservé appelé nouveau nom de colonne jusqu'à ce que nous mettions dans notre propre valeur de nom pour changer le nom. Sélectionnez le bouton Modifier en sélectionnant le bouton Modifier. Il nous emmène au Transform Builder, un endroit où nous pouvons modifier, essayer des facteurs, des suggestions ici. Renommons notre colonne en remplissant la nouvelle section de nom juste ici. Notez que vous ne pouvez pas avoir d'espace dans vos noms de colonnes. Par conséquent, si vous voulez un espace, utilisez un symbole de soulignement. Essayez aussi les facteurs. La convention de nommage est sensible à la casse, donc c'est un autre bon conseil à garder à l'esprit. Maintenant, depuis que j'ai appris que je représente Volcanic Explosive Iity Index, énonçons l'acronyme de cet ensemble de données. Ce nom pourrait être important à changer si notre public ne sait pas ce que signifie cet acronyme . Ce changement clarifie donc nos données. Un autre principe que nous avons mentionné au début de la classe. Maintenant que nous avons renommé la colonne, vous remarquerez que Try Factor nous montre un aperçu de ce à quoi ressemblerait la colonne si nous faisions ce changement orteil. En fait, faites le changement. Allez-y et sélectionnez. Ajouter à la recette. Maintenant, choisissons une autre colonne. Et le volcan ? Colonne Nein. Nous voyons une option pour agréger. Comme il s'agit d'une transformation intermédiaire qui couvrira dans une future classe. Passons celle-là. Pour l'instant, recherchons un qui a plusieurs points d'option en dessous. Ceci est un bon exemple que si la carte de transformation manque, nous voyons ci-dessous la carte d'option qu'il y a ces quatre points. Chaque point d'option offre une modification du nom du volcan dans cette colonne, la première option ou, s'il manque, option propose de remplacer une cellule qui manque un nom par autre chose de notre choix. Ou nous pouvons en minuscules tous les noms ici, jamais caser tous les noms ici ou même le cas approprié ? Les noms que vous demandez peut-être, pourquoi je voudrais changer le mot casse ? Et une raison hypothétique pourquoi vous pourriez avoir besoin de combiner cet ensemble de données avec un autre , et vous devez faire correspondre la casse du mot pour garder la majuscule cohérente. Cela permettrait de rationaliser et de clarifier les données, ce qui est l'un de nos principes de nettoyage des données d'aujourd'hui. Let's cas approprié voleurs noms de volcan en sélectionnant ajouter à la recette. Lorsque vous ajoutez à la recette, vous remarquerez que l'aperçu qu'il vous montre disparaît et qu'il apporte réellement la modification solidifie l'étape de la recette. Notez également ici que la barre de qualité et le type de données peuvent changer lorsque nous travaillons avec les données parce que nous les modifions, et par conséquent, et par conséquent, essayez les mises à jour des facteurs en conséquence. En outre, comme Curtis l'a mentionné, nous pouvons modifier une étape de recette à tout moment dans la recette de données. Maintenant que nous avons construit quelques étapes, regardons de plus près lorsque nous sélectionnons une étape pour la modifier. La recette ne prévisualisera aucune étape après le point avec sélectionné, et son Curtis nous a montré les étapes ou gris clair. Lorsqu' ils ne sont pas activés, vous pouvez également supprimer une étape à tout moment du chemin, et les autres personnes restent à cette étape et dans le dernier état sur lequel nous travaillions, et cela restera ainsi jusqu'à ce que nous sélectionnions la dernière étape dans la liste recette, puis il va activer tous nos autres changements. Aussi comme un avertissement. Gardez à l'esprit que si nous supprimons une des étapes ici, cela pourrait invalider les étapes futures. Voici un bon exemple de cela. Si nous prenons cette étape, cela n'invalide rien. Mais si nous prenons cette étape, c'est le cas. 12. Contenir et supprimer: J' ai remarqué quelque chose d'audible. On regarde la colonne Nom du volcan. La colonne manque en fait une valeur, et c'est bizarre parce que c'est censé être une liste de toutes les éruptions volcaniques confirmées dans l'histoire du monde, donc nous ne devrions pas avoir une valeur vide sur la colonne du nom du volcan. Voyons donc quelle valeur est manquante. Pour ce faire, nous pouvons sélectionner la valeur manquante dans la barre de qualité des données ici. Et une fois que nous avons fait cela, nous voyons qu'il y a de nouvelles informations qui apparaissent ici à côté de cette barre de filtre. Il a augmenté d'un deux-points, puis les mots tous et transformé une rangée. Si nous sélectionnons la ligne transformée au lieu de tout, nous le remarquerons sur Lee. La valeur manquante apparaît ici. Et en faisant défiler les colonnes, nous voyons qu'il n'y a rien d'autre dans cette rangée, qui me fait me demander où était ce rôle dans l'ensemble de données d'origine. Donc, même dans ce mode d'aperçu, nous avons la possibilité de faire défiler ce trait d'union à côté d'une route pour en savoir plus , et cela nous donne des informations utiles maintenant parce qu'il nous dit que ce rôle était initialement Row 9816, ce qui signifie qu'il était la dernière ligne de l'ensemble de données, et il n'a pas d'informations précieuses, donc nous pouvons aller de l'avant et simplement supprimer cela. Et la suppression supprime Rose d'un ensemble de données. Contrairement à Dropping, qui supprime les colonnes de l'ensemble de données, et cela peut sembler un peu étrange, Toe ont deux termes différents pour ce qui à la surface semble être la même action. Je me débarrasse de Rose. Mais les colonnes et les lignes fonctionnent légèrement différemment, et donc traditionnellement elles ont été traitées différemment. Les colonnes ont des noms et Rose, Ken et devraient généralement avoir une colonne I D unique, qui identifie également la ligne. Cependant, il est facile de se débarrasser d'une colonne en disant simplement Drop the volcan number column. Mais pour se débarrasser de Rose, vous devez dire, supprimez les lignes qui correspondent à certains ensembles de critères. Par exemple, dans notre ensemble de données, les critères pour supprimer une ligne pourraient avoir pour effet de supprimer All Rose, où le numéro du volcan de colonne est blâmé, donc la différence est nuancée. Et c'est pourquoi ces transformations d'enlèvement apparemment identiques ont des noms différents. Voyons maintenant quelles sont nos options dans les cartes de suggestions. La première option est l'option keep, qui, dans certaines circonstances, serait utile car elle garderait sur Lee les lignes qui correspondent à nos spécifications de sorte à l'opposé de delete. Mais dans ce cas, nous ne voulons pas garder cette ligne, Alors passons à la carte suivante qui indique Supprimer. Et c'est ce que nous voulons. Alors allons de l'avant et supprimé en sélectionnant la carte de suppression et en l'ajoutant à notre recette. En supprimant cette ligne vide, nous utilisons le principe important de nettoyage des données de suppression des erreurs sont des valeurs manquantes de l'ensemble de données le cas échéant. 13. Changements de menus Dropdown: Ok, passons à la dernière voie. Nous allons nettoyer les données et ajouter des étapes de recette dans ce cours, donc au-dessus du sifflement d'un gramme et d'une barre de qualité, nous voyons qu'il y a deux zones pour les menus déroulants, que nous avons brièvement abordées au début du cours. Celui à gauche est le type de données, et en utilisant ce menu déroulant, nous pouvons rapidement changer le type de données de la colonne. Ne vous laissez pas berner par la simplicité du concept d'un type de données. C' est vraiment important d'avoir ça maintenant. En regardant la colonne numéro d'éruption, nous remarquons que c'est un code postal, ce qui est un exemple amusant, parce que essayez facteur, rencontrer un très bon invité ici parce que c'est un numéro à cinq chiffres qui pourrait passer est un zip code. C' est facile de comprendre pourquoi c'est arrivé, mais c'est faux, donc nous devons le réparer. Puisque nous avons ces menus déroulants, il y a un moyen rapide et facile de le faire. Maintenant, allez dans le menu déroulant sur la gauche, et voici comment nous changeons le type de données. Ici, nous voyons d'autres types de données à partir desquels nous pouvons choisir une autre catégorie pour nos données. Les principales catégories sont les plus générales et communes à presque tous les programmes qui fonctionnent avec des données. Donc, vous avez vos cordes entre jurés décimales, qui pourrait également être connu sous le nom de flotteurs et de nombreux autres programmes et langages. Et nous avons des milliards. Donc, nous avons la catégorie de chaîne, et c'est une catégorie qui a généralement des mots et des lettres regroupés sous elle. Mais une chaîne peut aussi être des nombres avec lesquels nous ne voudrions pas faire de maths, comme potentiellement un nombre d'éruption, comme potentiellement un nombre d'éruption,que vous n'ajouteriez pas à un autre en vous, soustrayez ou divisez ou ne feriez aucune de ces fonctions mathématiques. Alors continuons à regarder ici. Ensuite, nous avons des entiers, qui sont des nombres entiers avec lesquels nous ferions des calculs, puis des nombres avec des nombres décimaux, puis booléens, ce qui signifie que les données ne peuvent contenir que deux valeurs généralement affichées comme true ou false. Et puis vous avez également un type de données pour les dates de cette classe qui ignoraient l'objet dans le tableau et se dirigeaient vers plus d'options, qui sont des types de spécialité dans trifecta et son explicatif comme vous pouvez le voir ici. Donc, parmi ces trois options. La chaîne semble être le meilleur ajustement parce que nous ne voulons pas faire de maths avec ces nombres. Cependant, voici un conseil pro. Il y a une raison importante pour laquelle, dans des situations similaires, nous pourrions vouloir choisir des intrus. Et la raison en est que puisque c'est une colonne I D, nous pouvons vouloir la joindre à une autre source de données. Et les jurés Inter se joignent généralement plus vite que les cordes. Les cordes prennent également un peu plus de mémoire. Donc, pour les petits ensembles de données, peu importe si nous choisissons String ou Inter juré parce que la différence mémoire et de vitesse est négligeable. Mais si nous travaillions avec un ensemble vraiment, vraiment big data, nous pourrions vouloir choisir des intrus. Donc, puisque notre ensemble de données est vraiment petit, nous pourrions vraiment choisir de faire cette colonne soit chaîne ou entré votre ici. Mais si vous choisissez un entier, n'oubliez pas de ne pas faire de transformation mathématique sur cette colonne et tout ira bien. Ensuite, passons à la flèche vers le bas sur le côté droit de la colonne, et quand nous sélectionnons ce bouton, nous voyons de nombreuses options de sélection rapides qui offrent une autre façon de faire certains des changements que nous avons déjà parlé , comme renommer une colonne ou changer le type de données, ce qui est un peu redondant. Mais il y a aussi des options dont nous n'avons pas parlé, comme l'édition de la colonne. C' est là que nous consorons la colonne en sélectionnant si nous voulons que les colonnes datées montent ou descendent . Ou nous pouvons changer l'ordre des colonnes autour, et nous pouvons même dupliquer ou haut pour l'appeler ici. Maintenant, l'option de tri peut être particulièrement utile. Par exemple, depuis que nous avons compris ce que je représente, j'ai été vraiment curieux de savoir comment Maney a confirmé que les éruptions étaient plus élevées sur cette échelle, zéro étant l'éruption volcanique la plus douce et huit étant le le plus lourd frappeur. Alors passons à cette colonne pour utiliser cette fonction de tri. Trier des nombres les plus élevés aux plus bas, alors choisissez décroissant. Il nous montre des valeurs vides. est donc ce qu'il est placé comme la valeur la plus élevée à sélectionner sur Lee, les lignes avec des valeurs saisies choisissent les valeurs valides sur la barre de qualité des données, puis sélectionnez transformée au-dessus, vous vous demandez peut-être pourquoi nous ne supprimons pas les lignes avec aucune valeur ici. Mais comme il y a d'autres informations importantes le long de ces lignes. Nous ne voulons pas nous en débarrasser maintenant. Nous ne voyons que les valeurs qui ont des nombres, et de cette façon, il est plus facile d'explorer les données. Ici, nous pouvons voir quelques éruptions de volcan puissantes en haut, et en faisant défiler la rose, nous découvrons leurs noms et quand ils ont éclaté, ce qui offre des informations vraiment intéressantes maintenant. Une autre chose que j'ai remarqué dans la colonne du nom du volcan était qu'il y a un volcan sans nom qui a éclaté à un moment donné, et je suis vraiment curieux de savoir si c'est la seule fois que cela s'est produit ou s'il y a d'autres éruptions volcaniques confirmées qui ne sont pas nommés. Et pour ce faire, je vais filtrer notre grille pour les volcans sans nom, et il semble qu'il y en a 14 rangées. Maintenant, vérifions la latitude et la longitude pour voir s'ils ont réellement un emplacement, et on dirait qu'ils dio. Et non seulement cela, il y en a plusieurs qui sont des récidivistes que nous pouvons voir ici et maintenant. Je suis curieux quand ces éruptions se sont produites. Allons passer et déplacer le début près de la colonne à côté de ces colonnes pour comparer plus facilement. Nous voyons que ces volcans n'ont pas été enveloppés il y a si longtemps, comparativement dans l'histoire du monde. Donc, une hypothèse est que ces volcans n'ont tout simplement pas de noms. Mais au moins, nous savons que ce ne sont pas des erreurs que nous devrions supprimer dans l'ensemble de données, alors laissez-nous tranquille. 14. Exporter les résultats: Maintenant, nous avons presque terminé notre exemple. Travaillez sur cet ensemble de données. Il y a certainement plus qu'on pourrait en faire. Mais c'est ce que vous allez faire dans votre projet de recette en six étapes. Plus de travail sur cet ensemble de données, alors nous allons simplement envoyer ce début. Tu es de retour à l'endroit où c'était. Maintenant que nous avons regardé les dates à côté de la longitude et de la latitude. Et pendant que nous regardons le début, je voulais juste vous dire dans une bizarrerie avant que vous commenciez à travailler sur votre projet. Les dates dans le facteur tri sont une situation unique, et vous remarquerez qu'il y a des valeurs de non-correspondance ici, et quand vous les regardez, ce sont toujours des dates. Ce ne sont que des états antérieurs à 14h quand nous avons cherché à essayer les faits et leur avons posé des questions à ce sujet. Et ils ont dit que les émissions qui ont généralement une limite inférieure à leurs dates, et ils ont choisi 1400 a. D. comme limite inférieure. Donc, toute date antérieure à 1400 a. D est considérée comme une valeur non appariée, même si c'est une date légale, et ils ont également dit qu'ils n'avaient jamais entendu de commentaires que cette limite n'était pas suffisante. Alors qui sait ? Peut-être que ça changera à l'avenir, et vos dates ne seront pas marquées comme mal appariées. Si cela vous dérange vraiment, vous pouvez changer le type de données pour entrer Jer. Finissons maintenant notre dernière étape, qui consiste à exécuter ces changements sur toutes nos données et à obtenir nos résultats. Et nous le faisons en allant jusqu'au bouton Générer les résultats ici et en le sélectionnant. Cela nous conduit à ce nouvel écran et ici nous pouvons choisir le format de fichier que vous voulez. Je vais juste choisir un CSFB déposé en vérifiant le Jason et voir SV signifie des valeurs séparées par des virgules , qui est un type de fichier. Je peux ouvrir dans Excel, puis aller de l'avant et appuyez sur Générer des résultats. Et voici les résultats. Nous pouvons consulter le résumé des résultats ici, qui est un aperçu de vos données. Vous pouvez regarder autour des 20 premières valeurs, et vous pouvez également voir des choses comme la médiane, minimum et le maximum. Mais ouvrons un résultat. En naviguant ici, nous pouvons voir certains de nos changements et de nos choix comme lorsque nous abandonnons la colonne de catégorie d'éruption et nous avons renommé la colonne V I, et aussi que nous avons choisi de ne pas laisser tomber les volcans sans nom 15. Explication de projet: D' accord. Donc nous avons suivi le cours, et maintenant vous pouvez appliquer ce que vous avez appris. Donc, dans ce projet, ce que nous allons vous demander de faire, c'est de prendre l'ensemble des données volcaniques et appliquer six transformations. Donc six étapes dans cette recette de données au-delà des quatre. Ce facteur d'essai fait automatiquement pour vous. Donc, pendant que vous faites cela, gardez à l'esprit les trois principes de données que nous avons repris. C' est trouver des erreurs et les supprimer, trouver des données qui n'ont pas vraiment d'importance. Ce n'est pas pertinent pour ce que vous essayez de faire pour vous en débarrasser et clarifier l' ensemble de données . Essayez donc de garder ces trois principes à l'esprit. Au fur et à mesure que vous venez avec vos transformations, vous n'avez pas seulement à utiliser les transformations. On est allés en classe. Vous pouvez vraiment utiliser tout ce que vous voulez. Le but est de pouvoir appliquer six nouvelles étapes de données à votre recette et de sortir avec un ensemble de données plus propre que ce qu'il a reçu et de vous aider à résoudre ce problème. Gardez simplement à l'esprit où vous voulez prendre l'ensemble de données. Peut-être que vous voulez créer une carte des éruptions volcaniques de la villa ou faire quelque chose comme ça. Dans ce cas, vous pouvez,par exemple, par exemple, supprimer beaucoup de colonnes qui n'ont rien à voir avec la latitude et la longitude ou positionnement de ce que vous essayez de faire, appliquez simplement ces données et appliquer ces transformations pour essayer d'y arriver. Et une fois que vous avez fait cela, allez-y et prenez simplement une capture d'écran et téléchargez-la pour que nous puissions voir l'excellent travail que vous faites. 16. Nous sommes là pour vous !: félicitations pour avoir terminé le cours. Nous sommes très heureux de voir les projets que vous venez avec, et si vous avez des questions en cours de route, n' hésitez pas à nous contacter et à nous poser des questions. C' est pour ça que nous sommes là.