Premières étapes de l'analyse de données à l'aide du bloc-notes Python, Pandas et Jupyter | Paul O'Neill | Skillshare

Vitesse de lecture


1.0x


  • 0.5x
  • 0.75x
  • 1 x (normale)
  • 1.25x
  • 1.5x
  • 1.75x
  • 2x

Premières étapes de l'analyse de données à l'aide du bloc-notes Python, Pandas et Jupyter

teacher avatar Paul O'Neill

Regardez ce cours et des milliers d'autres

Bénéficiez d'un accès illimité à tous les cours
Suivez des cours enseignés par des leaders de l'industrie et des professionnels
Explorez divers sujets comme l'illustration, le graphisme, la photographie et bien d'autres

Regardez ce cours et des milliers d'autres

Bénéficiez d'un accès illimité à tous les cours
Suivez des cours enseignés par des leaders de l'industrie et des professionnels
Explorez divers sujets comme l'illustration, le graphisme, la photographie et bien d'autres

Leçons de ce cours

    • 1.

      Intro

      1:03

    • 2.

      Aperçu du cours

      1:24

    • 3.

      obtenir des données pour travailler

      1:09

    • 4.

      installer anaconda

      5:14

    • 5.

      ouvrir Jupyter Notebook

      6:32

    • 6.

      Analyser les données

      12:39

    • 7.

      Fonction de cheatsheet et d'aide

      2:44

  • --
  • Niveau débutant
  • Niveau intermédiaire
  • Niveau avancé
  • Tous niveaux

Généré par la communauté

Le niveau est déterminé par l'opinion majoritaire des apprenants qui ont évalué ce cours. La recommandation de l'enseignant est affichée jusqu'à ce qu'au moins 5 réponses d'apprenants soient collectées.

353

apprenants

2

projets

À propos de ce cours

Il s'agit d'un cours d'analyse de données de niveau débutant utilisant le carnet de notes Python, pandas et Jupyter. J'explique en classe quel logiciel vous avez besoin et comment l'installer, c'est assez simple. Tout est libre et libre et fonctionne sur un ordinateur Windows, Mac ou Linux. À la fin de la classe, vous aurez un environnement de travail où vous pourrez utiliser des pandas pour explorer certaines données. Le cours ne nécessite aucune expérience préalable de programmation ou d'analyse de données.

Rencontrez votre enseignant·e

Teacher Profile Image

Paul O'Neill

Enseignant·e

Hello, I'm Paul. I am an artist, cartoonist, teacher and data analyst. I live in Ireland but I've also lived in Japan for a significant portion of my adult life.

Voir le profil complet

Level: Beginner

Notes attribuées au cours

Les attentes sont-elles satisfaites ?
    Dépassées !
  • 0%
  • Oui
  • 0%
  • En partie
  • 0%
  • Pas vraiment
  • 0%

Pourquoi s'inscrire à Skillshare ?

Suivez des cours Skillshare Original primés

Chaque cours comprend de courtes leçons et des travaux pratiques

Votre abonnement soutient les enseignants Skillshare

Apprenez, où que vous soyez

Suivez des cours où que vous soyez avec l'application Skillshare. Suivez-les en streaming ou téléchargez-les pour les regarder dans l'avion, dans le métro ou tout autre endroit où vous aimez apprendre.

Transcription

1. Intro: Salut. Bienvenue dans cette classe sur l'analyse de données à l'aide de pandas Python sur le bloc-notes Jupiter. Je m'appelle Paul. Il est maintenant analyste de données depuis environ 12 ans. C' est un cours de niveau débutant, donc je ne m'attends pas à ce que les gens aient des connaissances préalables ou des pandas ont commandé son cahier. Et en effet, il se peut que vous n'ayez aucune connaissance préalable de faire une analyse de données. Le but du verre est de mettre en place un environnement de travail afin que vous ayez Jupiter notebook sur les panders et que vous puissiez analyser vos propres données. Définissez vos propres données. La capacité d'analyser les données pour transformer les données de rouleau en informations est une compétence très précieuse à posséder de nos jours. Beaucoup d'employeurs apprécieraient quelqu'un qui possède ces compétences au sein de leur équipe, alors j'espère que vous pourrez suivre tout au long de la classe. Sur cela, vous serez en mesure de créer votre propre projet dans votre propre analyse Dan à la fin de la classe 2. Aperçu du cours: D' accord. Cette classe a quatre parties d'hommes après l'introduction. La première partie consiste à obtenir un ensemble de données à utiliser. Dans cette vidéo, je vais vous montrer différents endroits où vous pouvez télécharger votre propre ensemble de données pour travailler avec. Ils sont tous open source sur leur ancien libre de travailler avec le numéro deux, puis est d'installer Anaconda. La distribution Anaconda comprend de nombreux paquets de plus de 100 paquets sur. Il inclut les pandas sur le cahier Jupiter, tous deux dont nous aurons besoin pour ce cours. Ensuite, numéro trois est juste ouvrir le voyage il ou ordinateur portable et préparez-vous à faire quelques analyses de données sur le dernier est de réellement commencer à faire un peu avec. Est-ce que l'analyse de l'objectif à la fin des classes d'avoir un environnement de travail, vous pouvez analyser des ensembles de données en utilisant des pandas. Carnet d'entrepreneur. Alors, qu'est-ce que les pandas ? C' est une bibliothèque logicielle écrite pour le langage de programmation Python pour la manipulation et l'analyse des données Sur le bloc-notes dribbler est une application Web open source qui permet de créer et partager des documents qui contiennent des visualisations d'équations de code de vie sur de nombreux d'autres choses. Vous pouvez l'utiliser pour ça. Une transformation de nettoyage , visualisation de données etc. 3. pour faire travailler quelques données et les: OK, puisque c'est un cours très pratique, plie pratique. Je suggère fortement que vous suiviez autant que possible avec la classe. Pour ce faire, vous devrez trouver un ensemble de données. Vouliez-vous travailler avec ça Peu importe le déficit, tant que c'est quelque chose qui vous intéresse. Il y a beaucoup d'endroits que vous pouvez trouver un ensemble ces jours-ci. Les gouvernements, par exemple, sont un baiser. Donc, ici, nous avons vous portail de données ouvert. Vous avez également des portails de données du gouvernement canadien, des portails de données du gouvernement américain. Choisissez un sujet qui vous intéresse. Gwynn, exemple, etc. Éducation. Trouvez un ensemble de données qui vous intéresse. C' est tout ce que vous avez à faire pour commencer. Une fois que vous aurez votre ensemble de données et la section suivante, nous allons examiner les actifs chargés par Harvick Naxi dans un environnement de travail et commencer faire quelques analyses 4. installez anaconda: Ok, Donc une fois ont été choisis un ensemble de données que nous voulons travailler avec. La prochaine chose que nous voulons télécharger cela et puis trouver quelque part sur notre ordinateur, qui affaiblir magasin il. Donc je stocke tout le mien sur mon disque D. C' est une machine à fenêtres. J' ai créé un dossier sur le répertoire Cold. fait l'analyse à l'intérieur que j'ai beaucoup plus de répertoires. l'argent, plus de dossiers. Chacun est pour un déficit spécifique. Donc nous en avons une sur l'armure. Que ce soit un ensemble Brexit Bitcoin beaucoup d'autres. Je conseille de faire cela pour que tout soit gardé séparé plutôt que tout soit dans un seul répertoire, qui pourrait devenir très désordonné une fois que vous commencez à avoir beaucoup d'ensembles de données et beaucoup de cahiers Jupiter et d'autres choses stockées là. Ok, donc la nuit, nous avons mis en place notre ensemble de données. La prochaine chose que nous devons faire est de créer un environnement de travail afin que nous puissions réellement faire quelques analyses ? Um, je recommande sur un préservatif, qui est une collection de python. Est-ce que l'analyse ? Est-ce qu'une science paquets ? Ça inclut une analyse morte sur un réseau neuronal d'apprentissage automatique. Ce genre de chose. Il y a environ 100 paquets inclus dans cette distribution anaconda. Hum, et vous pouvez l'obtenir sur les machines Windows. Mac sur les systèmes d'exploitation UNIX. Aussi, c'est ce que vous allez sur un condo dot com. Um, cliquez sur le bouton de téléchargement tri. Il se rend compte que je suis sur une machine Windows, mais si vous êtes sur un Mac ou l'année prochaine, cela fonctionnera tout aussi bien. Euh, vous devez alors choisir quelle version de Paice et vous voulez utiliser. Vous pouvez utiliser Pace et trois ou Peyton, à mon conseil serait d'utiliser le python. Trois. Je ne sais pas ce que cette version. La raison en est que le patient va bien, si vous allez au look de python dot org, vous voyez qu'ils sont en python coulant du soleil, aussi, ce qui est une autre façon de dire python deux essentiellement morts. Vous pouvez continuer à utiliser place dans si vous le souhaitez, mais il n'est plus pris en charge, moins pas officiellement pris en charge. Donc, cela signifie que s'il y a des problèmes, il y a des problèmes de sécurité avec le rythme à ils ne seront pas résolus à l'avenir. Euh, cela est entré en vigueur généralement le 1er 2020 Donc, comme je le dis, je recommande de commencer par le python trois. Donc, une fois que vous téléchargez Python trois. Euh, tu devrais avoir un environnement de travail. Vous êtes sur une machine Windows et allez dans le menu Démarrer. On verra. Il y en a un. Selon trois. Développez ça. Il y a le Navigator Anaconda, et c'est un bon endroit pour commencer. Lorsque vous venez de commencer, nous cliquons sur le navigateur. Ouvre-le. Vous verrez qu'il existe différentes applications disponibles. Les applications exactes que vous avez faites exactement les mêmes que celles-ci peuvent être arrangées dans un ordre différent, mais celle qui nous intéresse vraiment est le cahier Jupiter. Donc, lorsque vous cliquez sur lancer pour le carnet de travail Jupiter, il s'ouvrira dans quel que soit votre navigateur par défaut est. Je ne sais pas quelque chose comme ça, euh, le répertoire des hommes qu'il t'a dit. Rappelez-vous, j'avais tous ces répertoires différents pour mes différents DigiScents. Donc ce gamin va commencer à regarder l'ensemble de données que j'ai choisi l'armure. Que ce soit dit, Si nous allons là-dessus ici, vous verrez qu'il y a de nouveau avec un nous pouvons étendre cela. C' est écrit Notebook, Python 3. Si vous avez installé le patient à, il dira le rythme dans deux ans. Donc j'ai cliqué sur que nous allons avoir un nouveau cahier Jupiter, et c'est à ça que ça ressemble. Donc si vous êtes là, vous avez Ah, vous avez Ah, nouveau cahier de Jupiter s'est ouvert. Bien joué. C' est le premier grand pas vers l'analyse. A utilisant des pandas sur le cahier Jupiter ? 5. Ouvrez le carnet de notes Jupyter: Ok, Donc si vous avez suivi et que vous n'auriez pas dû, vous êtes Jupiter bloc-notes mis en place. Un ensemble de données ? Non. Doit être dans le même répertoire. C' est plus facile de travailler avec. Donc, non, on va commencer. La première chose que nous devons faire est d'importer des pandas. Um, on travaille et Python. C' est la même chose que n'importe quelle autre clé de programme python. Ce qui est importé sur la bibliothèque qui nous intéresse est Pandas Library. Nous allons devoir référencer cette bibliothèque plusieurs fois. Alors plutôt que de taper des pandas chaque fois qu'on pourrait être Lizzie, donne-lui un nouveau nom et c'est leur nom. On va l'appeler comme P. D. Ok, on peut faire ça. Donc tu as un look star. Espérons que cela reviendra bientôt à un chiffre. Oui. Ok, donc c'est chargé avec succès des pandas. Euh, s'il y a eu un problème, vous obtiendrez une sorte de message d'erreur. Alors vous devez essayer de comprendre ce qui ne va pas. Il y a beaucoup et beaucoup de forums disponibles où les gens pourraient essayer de répondre à vos questions. Ou vous pouvez rechercher des problèmes similaires que d'autres personnes ont eu. Quelles solutions que je suis Ils ont trouvé. Mais j'espère que tout fonctionne. Importation réussie de la bibliothèque pandas. Nous ne pouvons pas importer notre fait. Donc nous allons importer les données dans une chose qu'Agrim a fait pour lui. C' est juste une structure de données dans les pandas avec les données sont stockées et vous pouvez le considérer comme une feuille de calcul à deux dimensions. de calcul Excel. Il a rose sur les colonnes. Donc nous appellerons nos données pour lui juste DF à nouveau. Il Caesar type DF et les données de frappe à chaque fois. Mais vous pouvez l'appeler comme vous voulez cette idée d'égal. Maintenant, on va appeler la Bibliothèque Panis. Donc PD sur dans la bibliothèque des pandas, il y a une fonction lecture froide. Tu vois, SV, nous l'avons fait est dans un dossier du CSE. Nous allons utiliser la fonction de lecture voir SV pour obtenir ces données sur moi pour appeler la fonction en utilisant notation point donc p d point lu CSTV souligné depuis les parenthèses. Nous devons lui dire le nom du fichier que nous voulions aller chercher sur le fichier que j'ai est appelé si point CSP si vous avez fait un fichier, votre jeu de données n'est pas dans le même répertoire que votre bloc-notes Jupiter. Vous allez devoir lui donner le chemin complet du répertoire pour qu'il puisse aller le trouver. Si vous ne le faites pas, il reviendra simplement avec un message d'erreur indiquant que le fichier est manquant ou quelque chose. Bien. Ok, donc on recommence ça, tu vois, ça change en numéro. Donc Ron correctement, nous pouvons juste vérifier que je faisais une impression, donc imprimer des supports ouverts DF. Maintenant, si nous exécutons simplement ceci, il retournera toutes les lignes. Andi, ça va prendre beaucoup de l'écran parce qu'il y a des milliers de roses, ou au moins des centaines de roses de toute façon. Donc on peut juste regarder en haut. Shiro utilisant une autre fonction cette fois appelée tête. Ouvrez les crochets. Si nous mettons un nombre là-dedans, il ramènera ce nombre de lignes par défaut si vous le laissez juste vide. La valeur par défaut est, je pense, cinq lignes. Donc nous essayons de faire ça. Oui. Donc ramène cinq rangées. Cette colonne de nombres ne fait pas partie de votre acceptation. C' est un index. Les autres donne les données, ami donc la première règle zéro seconde rose 1234 Cet index pourrait être utilisé alors pour saisir un certain rôle ou un groupe de rose que vous voulez analyser plus tard. Donc c'est une chose utile à avoir. Nous avons sept colonnes pour cette année de déficit. La température maximale du mois dans ce mois, la température minimale le nombre de jours dans ce mois qui avaient sur leur gel le total renforcé ce mois en millimètres sur le soleil total mesuré dans le nôtre pour ce mois . Vous voyez, l'état de remonte à Janvier 1940 Il Vous pouvez également regarder la partie inférieure de l' ensemble de données si vous voulez. C' est essentiellement le CME. Appelle-moi ça au lieu de la tête. Um, la fonction s'appelle sarcelle et encore une fois vous pouvez mettre un numéro ici. Si vous ne le faites pas, il ramènera cinq rangées à nouveau. Donc, si nous courons que vous le voyez, c' est jusqu'à l'année 2015 cm Idée mois températures acceptées. Ok, donc pas avec succès importé ou fait A C'est dans une chose appelée Agrim, qui est cette structure de données en deux dimensions dans les pandas. On n'est pas en position. Nous pouvons commencer à analyser les données 6. Analysez les données: D' accord. Dans la dernière section, nous avons importé nos données dans nos données, ami. Nous vérifions juste que tout s'était chargé correctement, en utilisant la tête sur les fonctions de queue sur elle semblait que tout s'était chargé correctement. Donc, maintenant, nous sommes en mesure de commencer à faire une analyse de données. Je me suis donc donné quatre tâches ou quatre questions auxquelles je vais essayer de répondre. Lorsque vous faites votre propre projet, vous pouvez choisir ses nombreuses tâches. Problème comme si numéro un. Je vais essayer de trouver ce qui a été perdu sur la température la plus élevée enregistrée dans ces données Set sur Quand a fait acres ou quel était le mois de l'année ? Numéro deux. Quelle est la quantité de lumière du soleil ? Très au cours de l'année. Analyse actuelle Comme un graphique, nous allons essayer de faire. Certains ont fait une ization visuelle plutôt que de simplement extraire des nombres de l'ensemble de données. numéro trois a changé de nouveau le nombre de givre atmosphérique par année. Nous présenter est un graphique un numéro quatre. Y a-t-il une corrélation entre les différentes valeurs et le déficit ? Je vais essayer de le présenter graphiquement aussi. Ok, donc la première tâche est d'obtenir les températures les plus basses du déficit. J' ai donc deux variables. Lois. Tentant la température la plus élevée. Et je vais essayer d'obtenir des valeurs et de les mettre dans ces variables. Donc, nous disons Lewis temp égale D F. Ou a fait un ami original fait de lui et les crochets de l'équipe des citations fermé les tribunaux, vêtements les crochets de la notation point à nouveau sur la fonction de ses hommes. Donc, cette fonction obtient juste la valeur minimale dans cette colonne particulière. Donc, nous utilisons les crochets. Les guillemets sur le nom pour spécifier la colonne de l'ami de données qui nous intéresse . Tu te souviendras qu'il y avait sept colonnes dans cette autre. Nous ne sommes intéressés que par la température minimale. Soyez prudent avec les crochets sur la course. Est-ce que les fonctions de parenthèses prennent généralement une série de parenthèses. Get le mixage, vous obtiendrez des messages d'erreur folles. Ok, donc on dirige celui-là et on peut imprimer sa fille aussi. Valeurs. Donc, vous voyez, moins 3,8 Celsius était la température la plus basse de cet ensemble de données sur 23 points. C' était la température la plus élevée du déficit. Non, nous voulons aussi savoir quand ceux-ci se sont produits et nous pouvons prendre les deux règles sur les données dites. Mais si la dette de pour lui et qui nous donnera le mois de l'année où les températures se sont produites. ce faire, vous vous souviendrez que j'ai dit que ces chiffres sur le côté gauche étaient des index. Donc, mangez le cadre fait A donne à chaque ligne son propre identifiant unique. C' est ce qu'on va essayer de trouver. Non. Encore une fois, deux variables. On lui dit de regarder la température minimale dans les données à partir de la température maximale l' a fait pour lui. Ces deux colonnes, je vais utiliser une fonction I d X hommes et I D X max. C' est donc l'indice de la valeur minimale sur l'indice de la valeur maximale. Donc, une fois que nous les exécutons, ces deux variables vont soutenir des nombres comme quatre il 11 ou quel que soit le nombre de la règle était. Donc tu les fais maintenant en imprimant ces deux numéros, accord ? Donc, nous pouvons voir notre température minimale est en rose 754 sur nos températures maximales et ligne 497. Donc maintenant, tout le monde pour réellement saisir ces deux euros utilisait une fonction appelée look ou emplacement Lorsque vous passez l'index à l'emplacement, l'index doit être entre crochets, et puis cela doit être entre crochets. Ensuite, bien sûr, la fonction d'impression prend les supports Rhonda. On dirige celui-là. Ok, donc vous pouvez voir en Décembre 2010 était notre température minimale courir la prochaine. Donc juillet 1989 a été notre température la plus élevée. Ok, donc la tâche suivante était Hodges, la quantité de lumière du soleil, très pendant l'année. Donc, je vais le regarder par mois, et je vais calculer la moyenne ou le nombre principal de nos rayons de soleil pour Janvier pour Février, Mars et ainsi de suite, puis tracer cela dans un graphique. Donc, pour ce faire, je vais créer une nouvelle donnée à partir de laquelle est un sous-ensemble de nos hommes l'ont fait pour lui. Je vais utiliser un groupe par fonction parce que j'ai besoin de regrouper tous les résultats de janvier . Tout le mois de février est un peu des résultats de mars, et ainsi de suite. Je regarde cette colonne en particulier, les heures de soleil et encore, j'appelle la fonction Ming. Donc ça va le coupler. La moyenne moyenne de ce rhume pour chaque mois. Ok, donc il a lancé celui-ci quelques lignes. C' est juste pour définir la taille du bateau. Cela me permet d'imprimer de l'art. Le graphique dans le bloc-notes contributeur sur elle me réside également pour définir la taille. Les valeurs par défaut ne sont pas très grandes dans le bloc-notes de contributeur sur Il est difficile de lire les années. Un autre numéro. Donc, cela le rend juste un peu plus grand, un peu plus facile à lire. Ok, alors nous applaudissons. 1er 1 qui serait mais est un graphique à barres. Ok, donc on peut voir Début d'ici Janvier Février. Pas beaucoup de soleil. Quand tu arriveras en mai et juin, il y en a plus. Quand tu arriveras en mai et juin, Ananta recommence à s'enfuir vers la fin de l'année. La chose si intéressante sur celui-ci est que la quantité maximale de soleil semble être mai, mais le jour le plus long est en juin. Donc il se passe quelque chose d'intéressant. Um, vous travaillez avec les données. Il pourrait y avoir plusieurs possibilités. Les données elles-mêmes pourraient être corrompues d'une manière ou d'une autre. Ça pourrait être incorrect. Le code pourrait être correct. Je ne pense pas que cette citation soit une autre possibilité. Vous devriez vérifier alors une autre possibilité est juste qu'il se passe quelque chose d'intéressant . Nous nous attendrions à ce que la quantité de lumière du jour soit plus élevée en juin. Mais c'est en regardant le soleil la quantité de soleil qui n'est pas exactement le cas. Il peut être juste le Juin une charge, les jours ou plus. Peut-être qu'il y a plus de Clyde en Juin en général, sur les temps de mai tend à être certains ici, une houle comme des graphiques à barres. Vous avez d'autres choix. Nous la saleté commune, cette ligne et sur le commentaire. Celui qui exécute cette méthode produit juste la fonction de tracé vous donne juste un graphique linéaire sur vous pouvez changer la couleur. Euh, donc tu peux juste mettre la première lettre de certaines des couleurs de l'homme comme notre est rouge ou est orange G est vert. Donc, dans celui-ci, j'ai aussi changé la transparence. bois ont rendu le rouge plus d'une couleur rose saumon. Encore une fois, vous pouvez varier cela de zéro à un. Ok, donc c'est notre deuxième question. Le suivant était, Est-ce que le nombre de gelées d'air par année a changé à nouveau. Présent. C' est un graphique. On fait quelque chose de très similaire. Nous utilisons un groupe par fonction. Cette fois, nous sommes regroupés par année. Nous examinons le nombre de jours qui ont eu un gel de l'air sur l'endroit où totalisaient ou résumaient ces jours. Ok, si on exécute celui-là et qu'on vérifie l'impression. D' accord. Nous avons un an sur le nombre d'air pour nous par an. Exécutez à nouveau celui-ci. S' assure juste que la taille du graphique est lisible. Jamais terminé. Je vais bien, donc vous pouvez voir qu'il y a beaucoup de variation entre mai 20 et plus de 80 jours avec leur pour nous, il ne semble pas y avoir de schéma fort. Mais encore une fois, vous pourriez être une enquête plus approfondie a fait une analyse pour voir s'il y a ou non variations dans le temps s'il y a des tendances dans vos données. Ok, donc c'est dur. Troisième question. La troisième fois, c'est la dernière. Nous allons chercher des corrélations entre les différentes valeurs, les différentes colonnes du déficit. Alors vous exécutez ce code, d'accord ? Dit code produit cette apparence psychédélique a fait une visualisation. Donc, ce sont des corrélations. Nous avons donc nos sept colonnes, les mois d' année, températures et ainsi de suite le long du haut du côté, et chacun de ces carrés est la corrélation entre les colonnes. Donc, en haut à gauche du bas à droite, vous allez obtenir une corrélation maximale. Eh bien, jaunes, parce que l'année, évidemment, Carly, c'est avec l'année, le mois avec le mois et ainsi de suite. Ce sont ces autres places qui nous intéressent afin que vous puissiez voir que l'année n'est pas vraiment fortement corail vivant avec quoi que ce soit. Mais si vous regardez des mois, il y a une certaine corrélation avec la température maximale, température minimale, gelées d' air et ensuite, si nous regardons les températures elles-mêmes, il y a très fort positif corrélation entre T. Max dans l'équipe et aussi entre l'équipe et Team Max. Il y a aussi une forte corrélation négative entre T. Max sur le nombre de jours qui n'ont pas été diffusés en premier. Donc, en d'autres termes, comme la température, l'équipe Max augmente le nombre de jours qui ont une force aérienne diminue, qui est ce que nous attendons, et vice contre Donc que le nombre de jours avec un air le gel augmente, la température maximale va diminuer. Ce type de visualisation est donc très bon pour rechercher des corrélations au sein de vos données. Si vous aviez des affaires, si par exemple, il se peut que, um, um, certaines données sur vos clients soient en corrélation avec d'autres données, ce qui peut être que personne n'avait jamais réalisé au sein de votre entreprise. Qui pourrait être un moyen utile de découvrir ces choses ? 7. la fonction d'aide et de cheat : donc vous vous souviendrez que l'une des premières choses que nous avons fait était de lire les données d'un CSP tomber dans, ah, des données pour lui en utilisant cette fonction, lire CSP si vous connaissez le nom de la fonction, mais vous n'êtes pas sûr de ce que tous les paramètres possibles sont, il y a une fonction utile que vous pouvez utiliser dans Jupiter Notebook. C' est cette aide. Vous avez donc aidé à ouvrir les parenthèses. P d point reid CSP fermer les parenthèses. Sur cette fonction, je vous donnerais beaucoup d'informations propres, lire CST ou toute fonction que vous essayez de trouver, y compris tous les paramètres que vous pouvez passer dans certaines notes et ce qu'il fait à cette lecture CSC fichiers séparés par des virgules dans un fait pour lui plus d'informations que tous les paramètres, y compris ce que vous pouvez passer dans des exemples, etcetera. Donc c'est un orteil de fonction très utile, bien sûr, si vous ne connaissez pas le nom d'une fonction, hum, c'est un problème différent. Je suggère d'avoir une feuille de triche de pandas sur leurs tas de ceux-ci. Un exemple est ici sur ce site cargo. Donc cette feuille de triche a, hum, des choses comme se débarrasser de la rose en double. Je vérifie la rose manquante ou les données manquantes dans Rose et ainsi de suite. C' est donc un endroit utile pour commencer. Et il y a beaucoup pas un seul bétail, mais beaucoup d'autres sites Web ont les feuilles de triche pandas . Ce bascule de site Web est également une bonne source d'ensembles de données, donc ils ont des compétitions. Mais ils ont aussi Martin. Beaucoup de jeux de données à nouveau. Ceux-ci sont open source et vous pouvez les télécharger et travailler avec eux pour mourir. Déchargez-les bien que vous ayez besoin d'ouvrir un compte. Andi, ça fait longtemps que je n'ai pas ouvert mon confort. D' après ce dont je me souviens, vous avez besoin d'une adresse e-mail valide, mais vous devez également leur donner votre numéro de téléphone cellulaire et ils vous enverront par SMS , un numéro de pin que vous devez mettre dans. Je pense que tu n'as qu'à faire ça que la première fois. Que vous ouvrez votre compte est juste pour vérifier votre type. Mais si vous êtes assez heureux de le faire, il y a des centaines et des centaines d'ensembles de données possibles sur toutes sortes de sujets.