Science des données en Python | Vishal Rajput | Skillshare

Vitesse de lecture


1.0x


  • 0.5x
  • 0.75x
  • 1 x (normale)
  • 1.25x
  • 1.5x
  • 1.75x
  • 2x

Regardez ce cours et des milliers d'autres

Bénéficiez d'un accès illimité à tous les cours
Suivez des cours enseignés par des leaders de l'industrie et des professionnels
Explorez divers sujets comme l'illustration, le graphisme, la photographie et bien d'autres

Regardez ce cours et des milliers d'autres

Bénéficiez d'un accès illimité à tous les cours
Suivez des cours enseignés par des leaders de l'industrie et des professionnels
Explorez divers sujets comme l'illustration, le graphisme, la photographie et bien d'autres

Leçons de ce cours

    • 1.

      Introduction au cours de la science des données

      3:05

    • 2.

      Explorer des ensembles de données Kaggle

      5:39

    • 3.

      Prétraitement de données à l'aide de Pandas

      29:39

    • 4.

      Tableaux à onglets

      47:17

    • 5.

      Fonctions agglomérées en Python

      18:24

    • 6.

      Statistiques pour la science des données

      24:07

  • --
  • Niveau débutant
  • Niveau intermédiaire
  • Niveau avancé
  • Tous niveaux

Généré par la communauté

Le niveau est déterminé par l'opinion majoritaire des apprenants qui ont évalué ce cours. La recommandation de l'enseignant est affichée jusqu'à ce qu'au moins 5 réponses d'apprenants soient collectées.

34

apprenants

--

projet

À propos de ce cours

La science des données est l'un des domaines les plus émergents de l'informatique. Apprenez la science des données en mettant en œuvre des concepts dans la programmation Python et devenez un scientifique des données.

Qu'apprendrez-vous ?

  • Qu'est-ce que la science des données ?
  • Techniques de prétraitement des données
  • Agrégation de données
  • Échantillonnage de données
  • Python

Rencontrez votre enseignant·e

Teacher Profile Image

Vishal Rajput

Programming Instructor from India

Enseignant·e

I am a software developer with 4 years of experience in making products and working for startups.

I am a passionate teacher and educator at ThinkX Academy. I have experience in making good content for students to help them learn programming and get jobs in IT sector or build your own products.

Enroll in my classes to get in love with programming!!

Happy Coding :)

Voir le profil complet

Level: Intermediate

Notes attribuées au cours

Les attentes sont-elles satisfaites ?
    Dépassées !
  • 0%
  • Oui
  • 0%
  • En partie
  • 0%
  • Pas vraiment
  • 0%

Pourquoi s'inscrire à Skillshare ?

Suivez des cours Skillshare Original primés

Chaque cours comprend de courtes leçons et des travaux pratiques

Votre abonnement soutient les enseignants Skillshare

Apprenez, où que vous soyez

Suivez des cours où que vous soyez avec l'application Skillshare. Suivez-les en streaming ou téléchargez-les pour les regarder dans l'avion, dans le métro ou tout autre endroit où vous aimez apprendre.

Transcription

1. Introduction à la science des données: Bonjour à tous, bienvenue dans les scores Data Science. Dans ce cours, nous allons couvrir tous les aspects pratiques de la science des données. Il s'agit en fait d'un projet basé également sur B, en fait, soumissionnant sur un projet et nous utilisons les concepts en science des données et nous l'avons appliqué à ce projet. Après la fin de ce cours, vous pourrez vous familiariser avec tous les concepts importants de la science des données, notamment l'analyse des données, prétraitement des données et les techniques de visualisation. Donc, fondamentalement x plus, n'est-ce pas ? Ou est-ce que cela signifie qu' est-ce que la science des données ? Et je vais vous donner un aperçu de ce que vous allez couvrir exactement dans ce cours. Tout d'abord, vous pouvez constater que la science des données consiste à extraire des connaissances et des informations à partir de données bruyantes et non structurées l'aide de certains éléments et de certains processus. Fondamentalement, il y a beaucoup d'entreprises et de nombreux secteurs utilisent réellement différents types de données. Ils ont des millions de disques. Afin de leur structurer la main, vous extrayez les connaissances au profit de leurs entreprises. Ils nécessitent des techniques de visualisation des données, des techniques de prétraitement des données également, car la science est le pied grandissant et émergent et de nombreuses opportunités pour les scientifiques des données. Et pendant toute cette période, la norme est en hausse dans l'industrie. Au cours de ce cours, je ferai de mon mieux pour vous donner un aperçu caché de la façon de mettre en œuvre tous les concepts construits dans la science des données. Commençons par le docteur a répondu à mon discours sur le sel, l'importateur de phosphate de escalade est le combat et Browning. De plus, nous commencerons par la programmation Python. Je suis d'accord avec les bases de 500 vidéos de ce cours, vous pourrez comprendre ces Oreos épicés. Et après cela, vous pourrez commencer la science des données sur six. Très bien, donc la prochaine exigence est le dévouement, car l'analyse des données est très ancienne et McDonald's parce qu'ils l'ont acheté que vous avez un McDonald's parce qu'ils l'ont acheté que bon nombre de vacances. Pour comprendre ce qu'est le jeu de données, comprendre quelles sont les techniques dont vous aurez besoin pour trouver un jeu de données. Chaque bien que j'ai dit sera différent des autres et il doit y avoir différentes manières et techniques différentes. Il sera traité ces données, analysera ces données qui nécessitent beaucoup de dévouement. Et c'est la raison pour laquelle il s'agit d'un domaine émergent. Voyons maintenant quels sont les outils que nous utiliserons trop longtemps, comme je le suppose, nous n'utiliserions pas de programmation pilote, de bagarres et de bibliothèques. Nous pouvons utiliser Jupyter Notebook, qui est en fait votre type IDE dans une mégabase huit, l'autre à droite, l'ancien les inviter à analyser différents jeux de données. Le talon a décalé après avoir téléchargé les jeux de données importants et jeté un coup d'œil à ce que nous pouvons faire exactement. Ensuite, il y a quelques bibliothèques importantes comme la bibliothèque pandas, scikit-learn, qui est très moderne, retraitent les données, apportant également une expérience que vous pouvez voir. Leur cavité FEV1 et Microsoft ici est utilisée pour la visualisation des données que nous avons des bibliothèques de conseil telles que TensorFlow, Python utilisant le Deep Learning. Il fait également quelques embellissements comme la classification aléatoire des forêts, les arbres de décision et certains modèles d'apprentissage automatique. Et aussi, faites-vous cela dans ces jeux de données, abordant en grande partie des choses très pratiques qui sont prêtes à venir dans ce cours. Alors, rendez-vous dans les prochaines heures du didacticiel. La logique. 2. Explorer les ensembles de données Kaggle: Il s'agit de la première vidéo de ce cours. Ces scores de science des données et v vont réaliser beaucoup de choses comme le prétraitement des données, visualisation des données et beaucoup de choses comme l'échantillonnage des données, l' agrégation, la réduction de la dimensionnalité, toutes ces choses que vous allez faire. Mais avant de commencer par l'un des concepts, je veux d'abord vous familiariser avec le site Kaggle, qui est kaggle.com. Je vais donc vous donner tous les avantages de l'utilisation du calcul et par chaque passionné de science des données utilise l'omoplate. Tout d'abord, il vous suffit d'aller sur le site Web. Et ici, Kaggle est essentiellement un site Web qui fournit de nombreux jeux de données et beaucoup de choses qui sont vraiment utiles à tous les étudiants qui veulent apprendre et à tous les étudiants qui ont également Je voulais concourir, n'est-ce pas ? y a donc aussi des compétitions. Donc tout d'abord, vous pouvez voir sur ce var ici, ici nous avons le jeu de données. Donc, si je clique ici, vous pouvez voir qu'il nous montre une liste de quelques jeux de données de formation que vous pouvez voir il a parlé des données, des données boursières de Google. Et il y a beaucoup de jeux de données populaires que vous pouvez voir ici comme Boston Housing, NSL, KDD, classification des prix mobiles. Donc, dans l'ensemble du cours, nous allons effectuer beaucoup de choses comme le prétraitement des données. Pour cela, nous allons récupérer différents jeux de données de Kaggle. explique par le fait que lorsque vous disposez de différents types de jeux de données, vous serez confronté à différents types de défis. Et cela vous aide vraiment à valoriser les compétences en science des données lorsque vous étudiez réellement la science des données. Par exemple, supposons que vous ayez un jeu de données et que vous vouliez voir comment il y en a, exemple, un ASR disponible dans notre jeu de données et qu'il y a des éléments en double dans ce jeu de données. Il y a aussi d'autres défis. Pour cela, si vous allez choisir différents jeux de données différents, choisir différents jeux de données différents, vous aurez une bonne visibilité sur les différents types de défis auxquels vous pourriez être confronté dans votre carrière dans la science des données. Nous allons donc récupérer divers jeux de données et je choisirai cet ensemble de données pour résoudre ou simplement vous montrer certains concepts. Et ici, vous pouvez voir que nous avons ces jeux de données. Il comporte également des cours et de l'asthme. Il y a aussi d'autres choses comme les compétitions. Fondamentalement, Kaggle est exactement comme un GitHub pour les développeurs, donc Kaggle est pour la science des données. Nous avons donc des compétitions ici. Ils sont également basés sur les prix. Vous pouvez donc obtenir l' argent si vous y participez et vous, lors de ces compétitions, vous pouvez voir que ce sont quelques-uns des calculs ici. Maintenant, nous avons un cours, partie intéressante maintenant dans le calcul que vous allez utiliser la programmation Python pour écrire et faire toutes les données, retraiter, analyser trucs. Pour cela, vous n'avez même pas besoin de créer un environnement Python complet. Vous pouvez simplement cliquer sur Créer ici. Et ici, vous pouvez simplement cliquer directement sur le nouveau carnet de chargement et vous pouvez créer votre propre carnet de notes, n'est-ce pas ? C'est donc une chose intéressante. Vous pouvez le faire directement dans ce bloc-notes, qui est l'environnement Python, vous donnera également accès à la bibliothèque de Panda, scikit-learn, de sorte que vous n'avez pas besoin de les installer manuellement dans votre prochain sommet. Vous pouvez voir ici que nous avons quelques jeux de données. Une partie intéressante que je vais vous montrer ici est que ce jeu de données qui prendra un certain temps à charger ici. Ici, nous avons une progression du classement des utilisateurs et tout ça. Jetons donc un coup d'œil à quelques jeux de données ici. Bon, donc nous avons ici le Boston Housing. Je vais juste cliquer sur celui-ci. Et ici, vous pouvez voir que cela s'ouvrira dans une minute. Vi possède différents types de jeux de données et pas vraiment ces jeux de données. Les gens, la communauté du fret, publient en fait beaucoup de leurs propres ordinateurs portables et leurs méthodes d' analyse des données sur Kaggle. Ce que vous pouvez faire, c'est que vous pouvez voir qu'il y a des cahiers et vous pouvez apprendre d'eux. C'est vraiment une très bonne chose. Tout comme vous voyez le code de quelqu'un sur GitHub et que vous en apprenez ici. Je pense que je dois le rafraîchir. Il est ouvert maintenant. Vous pouvez donc voir ici les données. Vous pouvez voir que les données sont au format CSV par points et il s'agit de l'ensemble de données. Mais ce qui est intéressant ici, c'est la partition, un onglet ici. Donc, si vous continuez à froid, vous serez en mesure de voir qu'il y a beaucoup de gens hors de cette communauté d' échafaudages qui les attirent tous pour visualiser ou prétraiter ces données, n'est-ce pas ? Cliquez ensuite sur celui-ci, qui est ici. Vous pouvez voir que cela montre qu'il s'agit du bloc-notes et qu'il s'agit des bibliothèques utilisées par ce bloc-notes. Nous allons les utiliser dans tout ce cours. Je vous donne simplement un aperçu de la façon dont vous pouvez utiliser Goggle de la façon dont vous pouvez utiliser Goggle car c'est un outil très important pour tous les scientifiques des données. Vous pouvez donc voir que nous avons réfléchi à Mark Floyd, seaborne pour la visualisation des données et la science-fiction. Et ici, vous pouvez voir que cette personne a écrit son propre code ici et pour visualiser le jeu de données, comprendre et tracer le jeu de données. Vous pouvez tout voir ici et commander également ici. Vous pouvez voir qu'il y a du bien aussi. C'est donc une très bonne plateforme pour apprendre la science des données. En gros, nous allons enseigner toutes ces fonctions et tous ces complexes, grâce à vous. Vous n'avez donc pas besoin de vous en inquiéter. C'est juste que je vous donne une idée de ce que vous pouvez attendre de ce site Kaggle. Donc, en gros, c'est tout pour ce tutoriel. Dans le prochain tutoriel, nous allons commencer par récupérer un jeu de données et l'importer à l' aide de la bibliothèque Pandas en Python. C'est donc tout pour ce tutoriel. Merci d'avoir regardé. 3. Démarrer avec les Pandas: Dans cette vidéo, nous allons discuter de certaines des fonctions très importantes de la bibliothèque Pandas. Et nous discuterons exactement de ce que nous pouvons faire et utiliser, en utilisant bibliothèques Python et Pandas pour analyser les données importantes, comprendre et extraire un formulaire de connaissances d'un jeu de données donné. Ce tutoriel va donc être très important. Et celui-là, nous allons couvrir certaines des fonctions très élémentaires. Et au fur et à mesure que nous allons passer à ce cours, nous explorerons certaines tâches plus importantes que certaines tâches complexes qui peuvent être effectuées facilement à l'aide de la bibliothèque Pandas. Les premières choses pour nous doivent déclencher le carnet Jupyter. Voici donc le cahier Jupyter Open et ici nous devons créer un nouveau bloc-notes Python à l'aide de l'arborescence Python. J'en ai déjà créé un qui porte le nom pi bond comme central. Et ce que nous devons faire, c'est que nous devons simplement ouvrir celui-ci ici. Maintenant, nous pouvons écrire le programme Python et effectuer toutes les tâches de science des données que nous voulons faire ici, n'est-ce pas ? La prochaine étape consiste donc à télécharger le jeu de données. Vous pouvez télécharger ici n'importe quel jeu de données de votre choix. J'ai téléchargé le jeu de données Boston Housing Prices et il est disponible sur google.com. Et je vais également donner tout le lien à cela. Dans la description de cette vidéo. Vous pouvez le télécharger à partir de là. Et ici, j'ai un dossier nommé données de logement. Et vous pouvez voir que nous avons un CSV de logement ici. Si je veux juste le faire, je devrai d'abord voir à quoi ressemble cet ensemble de données. Pour cela, je vais l'ouvrir ici. La première chose que nous pouvons voir ici, qu'il y a quelques colonnes dans ce jeu de données et il y a beaucoup de lignes dans ce jeu de données. Ce que nous voulons faire, c'est nous assurer que ce fichier CSV de logement que nous créons, nous allons créer un DataFrame qui utilisera ce jeu de données entier et il l' importera ici dans Carnet Jupyter. Et quoi que nous fassions sur ce DataFrame, cela n'aura pas d'impact sur nos données d'origine. Donc, même si quelque chose ne va pas dans la programmation Python, si nous faisons quelque chose de mal ici, cela n'aura pas d'impact sur les données d'origine. Tout d'abord, importons la bibliothèque des pandas. Nous allons donc utiliser la commande import pandas. Et depuis, nous pouvons l' attribuer comme Elias ou un nom ici, qui est BD, n'est-ce pas ? Ainsi, chaque fois que nous voulons utiliser la bibliothèque des mineurs, nous pouvons utiliser le raccourci SPD. La première chose est que nous devons créer un DataFrame. Appelons ça comme DS. Et cette DataFrame contiendra en fait le jeu de données de notre boîtier csv point. Voyons donc comment importer le jeu de données ici. Nous allons donc utiliser la fonction csv csv de lecture de points de soulignement de point, qui est une fonction intégrée de la bibliothèque Pandas. Et ici, nous pouvons spécifier le chemin d'accès aux données sur le logement, qui se trouvent sur ces données de logement de Boulder. Et le nom du fichier contient le point csv. Vous pouvez donc voir ici que j'ai importé l'ensemble de données ici. Et cette DataFrame, qui est une variable DF ici va contenir l' ensemble du jeu de données ici, c' est-à-dire les lignes et les colonnes du logement dorsi. Maintenant, la première passe que nous allons voir est de trouver les cinq premières lignes de ce jeu de données, disons. C'est la première partie que nous voulons faire. Pour cela, nous pouvons utiliser une fonction très utile, qui est la fonction tête. Head signifie les règles de départ. Je peux donc spécifier n'importe quel numéro ici. Supposons donc que nous voulions en préciser cinq. Maintenant, si je vais appuyer sur Control Enter. Maintenant, vous pouvez voir ici qu'il va me montrer les cinq premières lignes de ce DataFrame, qui est Bf. Maintenant, rappelez-vous que je vous ai déjà dit que si nous apportons des modifications à ce jeu de données, disons que je modifie n'importe quelle valeur de ce DataFrame, qui est df. Cela n'aura pas d'impact sur les données et le point de logement csv. Donc, même si nous voulions apporter des changements, nous avons une ligne distincte pour ce que nous pouvons faire. Mais ici, l' essentiel est que nous pouvons faire n'importe quoi ici, comme tâches de prétraitement des données et tout, et cela n'aura pas d'impact sur les données d'origine. C'est ainsi que nous pouvons voir comment extraire les 54 premières lignes à l'aide de la variable de tête. Passons maintenant à la fonction très importante suivante, qui est la fonction queue. Disons maintenant que nous voulons connaître la première, disons les cinq dernières lignes de ces données. Ok, donc nous le faisons essentiellement parce qu'il est très important que lorsque nous recevons un jeu de données, nous l'analysions très bien. Nous utiliserons ces fonctions très souvent à l'intérieur de nos programmes de science des données, peu importe ce qui sera écrit ici, car disons que je souhaite effectuer une tâche de prétraitement des données et maintenant je veux voir quelles sont les modifications apportées au jeu de données. Je n'ai donc pas besoin de charger l'ensemble de données ici. Je peux simplement charger les quatre ou cinq premières lois et me faire une idée de la façon dont cela a changé le jeu de données. C'est donc très important. Découvrons maintenant quelles sont les cinq dernières lignes de ce jeu de données. Vous pouvez voir quand je cliquerai sur Entrée, Contrôle Entrée, vous verrez qu'il y a les dernières lignes. Et ici, vous pouvez voir à ce stade qu'il y a 488 règles et à l'intérieur de cet ensemble de données. fonction très importante ici. Passons maintenant à d'autres fonctions également. La première fonction importante est la fonction de forme. Et ce n'est pas vraiment une fonction, c'est une propriété. Donc, si je clique sur Control Enter, vous pouvez voir la forme du point df. Il me donne ce résultat ici. Ce résultat indique qu' il y a 489 lois, il y a quatre colonnes. C'est une propriété très importante car la plupart du temps, nous n'allons pas ouvrir l'ensemble du jeu de données. Nous pouvons simplement déclencher cette propriété de forme et nous pouvons savoir quel est le nombre de lignes et de colonnes à l'intérieur de notre jeu de données. Passons maintenant à une fonction très importante, qui est la fonction décrite. Je vais contrôler Enter ici. Maintenant, lorsque nous utilisons la fonction de description sur n'importe quel détail, il s'agit d'une fonction très importante et d'un outil très important pour les scientifiques des données qui l' utilisent réellement pour comprendre le jeu de données. Vous pouvez voir ici les quatre règles de ce jeu de données. Les quatre premières colonnes, qui est impair m, c'est le rapport de pile B3 et m'ont donné raison. Nous pouvons donc voir ici que lorsque nous utilisons la fonction de description, elle nous montre le nombre moyen. Std est synonyme d'écart-type avec une constante. Ces termes signifient et écart-type dans une vidéo distincte car ils sont très importants en science des données. Ensuite, nous avons des hommes 2550  % et max. Maintenant, ce qui nous donne, il décrit l'ensemble du jeu de données et nous donne une idée de la moyenne de toute la colonne ici. Vous pouvez donc voir que l'atome, atome est une colonne entière et la moyenne de cette colonne est 6,2 pour l'écart type est de 0,6 pour quelque chose, et l'élément minimum est de 3,56 quelque chose. Ces valeurs sont également essentielles dans la visualisation des données. Donc, lorsque nous voulons visualiser nos données, nous devons également voir quels sont les écarts types, les moyens et tous ces éléments, n'est-ce pas ? Il s'agit donc là encore d'une fonction très importante, qui est la fonction de description. Passons à d' autres fonctions cruciales. La première fonction que nous allons faire est la fonction drop, qui est dans DFS a été supprimée. Ici. Nous allons spécifier une colonne. Disons donc que je veux déposer un atome de colonne. Je vais donc spécifier l'article ici. Ce que je vais faire, c'est que je vais spécifier l'axe. Donc, l'axe un signifie colonne. Si l'accès est égal à 0, cela signifie qu' il est faible. Donc ici, j'ai spécifié l'axe égal à un parce que je voulais spécifier que l'élément est en fait de colonne si c'était un non, si phi 0 ici. Maintenant, si je veux supprimer ce jeu de données, n'est-ce pas ? Donc, si je dois appuyer sur Control Enter maintenant, vous pouvez voir que ce jeu de données ne comporte maintenant que trois colonnes, est-ce que m est supprimé. Très bien, vous pouvez voir ici que nous avons déplacé cette RMD depuis le jeu de données. Maintenant, une chose importante que vous remarquerez ici est que si je vais jeter un coup d'œil à df.head, si je me souviens de cette fonction et si je clique sur Contrôle Entrée, vous pouvez voir que cet élément est toujours présent dans ce DataFrame. Maintenant, cela signifie qu'il est en train de le supprimer temporairement et non définitivement de ce DataFrame. Cela signifie donc que nous devrons faire quelque chose pour qu' il soit réellement supprimé de ce DataFrame. Il existe maintenant deux façons de le faire. Nous pouvons réaffecter DFS, df est égal à df dot drop. Donc maintenant, si je vais appeler la fonction df.head. Vous pouvez maintenant voir qu'il a supprimé la colonne RM d'ici. C'est un moyen, mais j'ai un moyen plus pratique ici. Au lieu de faire ce vf équivaut à cela, nous pouvons utiliser ici un autre paramètre qui est en place. est égal à vrai. Ensuite, nous allons exécuter ça. Il supprimera les données, gagnera ces colonnes atomiques du jeu de données. Et sur place est égal à vrai signifie qu'il va supprimer à la place du DataFrame. Donc maintenant, si je vais appuyer sur Contrôle Entrée, vous pouvez clairement voir ici que l'élément est réellement déplacé vers la droite ? Donc, l'utilisation de ce paramètre sur place n' est-elle que correcte ? Passons maintenant à d'autres fonctions importantes. La prochaine chose importante est que nous puissions également utiliser le df trois. Je vais appuyer sur Control Enter. Vous voyez qu'il me donnera les trois premières rangées, n'est-ce pas ? Donc, au lieu d'utiliser la tête, nous pouvons également utiliser cette instruction qui est df, puis crochets, et nous avons un deux-points ici, puis trois. C'est un. Une autre façon de ne pas le faire si vous ne voulez pas écrire la fonction tête, vous pouvez également l'utiliser. Il est plus rapide dans la nature. Passons maintenant à d'autres fonctions comme suppression des premières colonnes, n'est-ce pas ? Nous allons donc accomplir cette tâche. Supposons maintenant que vous souhaitiez supprimer ces deux ou trois premières colonnes d'un jeu de données. Alors, comment allez-vous faire cela ? Jetons un coup d'œil à ça. Maintenant, nous avons la fonction DFT, et évidemment nous allons utiliser la fonction drop ici. Medicare, les paramètres vont changer. La première chose, c'est que je vais écrire des colonnes. Et je vais spécifier ces colonnes de paramètres. Je devrai donc spécifier toutes les colonnes que je veux croire. La façon de faire est d'utiliser des colonnes égales à df.columns. Ici, je peux spécifier le nombre de colonnes. Donc, si je veux croire aux deux premières colonnes, je vais devoir utiliser un deux-points. Et vous pouvez voir ici que je vais devoir lui écrire. Maintenant. Le paramètre suivant est l'axe. N'oubliez pas de toujours spécifier l'axe car il indique si nous avons des lignes ou des colonnes. Quatre colonnes, nous avons l'axe 1. Pour les lignes, nous avons l'axe 0. Et évidemment, le dernier est le paramètre X en place . Je vais passer par ici. Maintenant, si je veux essayer d'écrire df.head. Vous pouvez maintenant constater qu'il a supprimé les deux premières colonnes de notre DataFrame. premier do est en fait représenté en utilisant ce deux-points et deux. Et ici, nous avons df.columns. Nous avons donc spécifié les colonnes à l'aide de cette fonction df.columns. Voyons maintenant comment supprimer les n dernières colonnes. Supprimer et dernière colonne. Supposons donc que vous ayez une tâche dans laquelle vous souhaitez supprimer les deux ou trois dernières colonnes du jeu de données. Encore une fois, nous utiliserons la fonction drop. Ce sont donc essentiellement les, vous pouvez voir les variations de la fonction drop et elles sont très cruciales car vous utiliserez ces choses importantes vous utiliserez ces choses importantes quotidiennement lorsque vous analysez le jeu de données. Donc, si nous voulons que les N dernières colonnes insérées, pour nous, nous devrons spécifier que nous voulons supprimer les colonnes. Pour ça. Je vais à nouveau utiliser df.columns. Juste ici. Je vais préciser, disons moins un contre spécifier l' axe, qui sera un. Parce que la suppression de colonnes et sur place est égale à true. Maintenant, ce que je vais faire c'est jeter un coup d'œil au jeu de données lui-même. Très bien, vous pouvez voir ici, lorsque je spécifie moins un, il supprimera une colonne de la fin. Vous pouvez donc voir la dernière colonne qui a été créée, est maintenant supprimée de celle-ci, n'est-ce pas ? Donc, si j'en écris deux ici et que je le réexécute, vous pouvez voir un moins deux avec la colonne est supprimée. Il supprime en fait une colonne à cette position d'index. Nous devrons donc spécifier deux points ici. Parce que si nous ne spécifions pas la colonne, il ne va pas supprimer les n dernières colonnes, n'est-ce pas ? Il ne supprimera que la colonne et l'index moins deux qui se trouve ici. Maintenant, si je vais frapper ça maintenant, vous pouvez voir qu'il essaie réellement de supprimer certaines des colonnes ici, n'est-ce pas ? Vous pouvez donc voir que les deux premières colonnes ont été supprimées. Ici. Je peux encore faire une chose. Voyons ce qui se passera si j'écris ici et un deux-points, n'est-ce pas ? Maintenant, vous pouvez voir que si j'en écris deux et que c'est le cas, les deux-points sont à la fin, les deux dernières colonnes ont été supprimées. Vous pouvez donc essayer ces différentes variantes pour examiner ce que nous pouvons faire exactement à l'intérieur du jeu de données, car c'est très important. Deux points signifie que nous supprimons les n premières colonnes. Et si je lis, je fais deux-points, il va supprimer les n dernières colonnes de notre jeu de données. Sur le DataFrame, pas sur le jeu de données car le jeu de données est intact, n'est-ce pas ? Passons maintenant à d'autres choses également, savoir essayer de supprimer des lignes de notre bloc de données. Nous avons le bloc de données ici. Il s'agit de notre DataFrame. Supposons que nous voulions croire les premières n lignes de ce nouveau bloc de données. Voyons maintenant comment nous pouvons le faire. Maintenant. Encore une fois, nous utiliserons la fonction drop. La fonction est en fait une fonction très importante pour la suppression. Donc, Df Dot Dot Drop. Rappelez-vous maintenant que nous le voulons ici, nous ne voulons pas supprimer la colonne, donc nous n'allons pas utiliser de colonnes égales à deux. Nous allons utiliser la fonction df.head. Supposons que nous voulions supprimer les trois premières lignes de notre jeu de données, c'est pourquoi je vais le fournir. Le prochain paramètre important est maintenant l'axe. Maintenant, l'accès est faible, solos sont en fait 0 et le dernier paramètre est en place, ce qui est vrai. Jetons un coup d'œil à ça. Très bien, vous pouvez maintenant voir que c'est spécifique. Il montre ici que nous avons une modification ici, c' est-à-dire que vous pouvez voir ou trouver dans l'accès. Donc, ce que nous devrons faire ici, df.head dot index, nous devrons spécifier l'index ici. Alors seulement, il croira aux trois premières rangées, n'est-ce pas ? Par conséquent, df.head trois signifie les trois premières lignes de ce DataFrame. L'index de points lui donnera l'index, la valeur, et il supprimera en fait les trois faux rôles. Vous pouvez donc voir que dans notre DataFrame, je montre les premières photos. Les premières photos ne sont donc pas à partir de 0123, elles commencent à 3456 ici. Si j'en spécifie cinq ici vous pouvez voir que le jeu de données va changer, n'est-ce pas ? Ainsi, les cinq premières lignes, les lignes vont être supprimées de cette façon. Voyons maintenant comment supprimer les n dernières lignes. Je ne peux le faire ici qu'en utilisant simplement la méthode de la queue. Par conséquent, d of cinq nous donnera les cinq dernières lignes du DataFrame. Et l'indice de points va en fait nous donner un dysfonctionnement de l'indice de la cinquième et de la dernière cinquième colonne et il va les baisser. Donc maintenant, si je veux écrire ici au lieu de la tête, si je veux écrire la queue. Vous pouvez maintenant voir que notre jeu de données comportait au départ 488 lignes, et maintenant il montre que le dernier est 4083, ce qui signifie qu'il a supprimé cinq lignes de notre bloc de données. C'est ainsi que nous pouvons supprimer premières et les lignes et les dix dernières règles en utilisant la fonction d'index de points df.head. Df dot, fonction d'index de points. C'est vrai ? Donc maintenant, je vais juste venir là-dedans parce que nous allons maintenant passer à d'autres fonctions importantes. Voyons maintenant comment résoudre les colonnes. C'est une chose très importante. est très important de trier les colonnes sur la base, par exemple, noms ou de leurs valeurs numériques par ordre croissant ou de noms ou de leurs valeurs numériques par ordre croissant ou décroissant. Et vous allez le faire très fréquemment dans les jeux de données. Pour cela, nous avons une fonction simple qui est la fonction de tri des valeurs. Nous allons juste écrire des valeurs de tri des points df. Maintenant, ce que nous allons faire, c'est qu'ils devront spécifier la colonne en utilisant, disons que nous voulons trier le volume RM, n'est-ce pas ? Et vous pouvez voir qu'il s'agit de la colonne de l'article. Et ici, nous avons 5.796, puis 5.859. Après avoir trié cela, il va en fait changer dans l'ordre croissant, n'est-ce pas ? Donc, par article. Maintenant, la prochaine chose que nous devons spécifier est la méthode sur place, qui sera vraie, n'est-ce pas ? Maintenant, je vais juste afficher df.loc. Et ici, je vais spécifier la tranche ici. Maintenant, vous pouvez voir que c'est le cas, essayons-le ici. Vous pouvez maintenant voir que cette variable d' élément est maintenant triée. C'est donc la principale utilisation de la fonction de tri des valeurs. Il triera en fait toutes les valeurs et toutes les valeurs de ces colonnes RM. Vous pouvez donc voir que maintenant il s'agit de 3.5613.863 et de cette manière. C'est ainsi que fonctionne la fonction des valeurs de tri. Supposons maintenant que nous voulions supprimer des valeurs en double dans notre DataFrame. Supposons donc que nous ayons un DataFrame où il y a des valeurs en double dans une colonne. Voyons donc comment nous pouvons le faire. Je vais commenter cela, et je viendrai également dans celui-ci. Passons maintenant à la façon de supprimer les doublons. Nous voulions supprimer les éléments en double du DataFrame que nous possédons. Encore une fois, une fonction très simple, qui est la fonction BF a obtenu la fonction de doublons de soulignement. Nous écrirons en place égal à vrai. Ce qu'il va faire, c'est qu'il supprimera tous les doublons d'un DataFrame. Puisque dans cet ensemble de données, nous n'avons pas de doublons, nous ne pouvons pas le voir en action. Mais ce que vous pouvez faire, c'est que je vais vous confier une tâche très simple. Vous pouvez en fait ouvrir le fichier CSV de point de logement et créer des valeurs dupliquées à l'intérieur de celui-ci, puis utiliser cette fonction d de points, doublons de points. Et vous pouvez ensuite voir et visualiser comment il a supprimé ces valeurs en double en place, ce qui signifie qu'il est prêt à apporter des ce qui signifie qu'il est prêt à apporter modifications dans le DataFrame d'origine. Très bien, il s'agissait donc de certaines des fonctions importantes, de la suppression, du tri et beaucoup de choses que c'est maintenant la tâche très importante, dont beaucoup est très importante comme connu sous le nom de tranchage. Le découpage implique ici deux fonctions très importantes , à savoir la fonction LOC et la fonction Lucy. Donc LLC signifie essentiellement localisation. Il existe deux méthodes, LOC et Lucy of the Pandas DataFrame, qui nous aident à trancher les colonnes et les lignes. Parce que, parfois, lorsque vous analysez un jeu de données, vous ne souhaitez pas analyser l'ensemble du jeu de données. Que voulez-vous analyser ? Partie simple et simple de ce jeu de données. Vous voulez donc découper cela afin que vous puissiez visualiser cela et que vous puissiez faire beaucoup de choses avec cela. Très bien, voyons comment utiliser la fonction LLC et I LOC. La première chose est que nous utiliserons la fonction df.loc. Et ici, nous préciserons 04. Maintenant, je vais spécifier les noms des colonnes ici, c'est-à-dire RM. Et disons que nous allons spécifier une autre colonne. C'est LSAT. Ce qu'il va faire, c'est qu'il va réellement trancher l' ensemble de données. 0 signifie les quatre premières lignes et les colonnes que je veux deux tranches, RAM et comme affaissement, non ? Si je veux juste écrire la fonction de forme de point df, si je clique sur OK. Ici, vous pouvez voir que ce n'est pas aussi triste que cela ici, donc c'était une erreur. Maintenant, vous pouvez voir ici que cela me montre que nous avons ce DF. Je vais appuyer sur Control Enter. Vous pouvez voir qu'il s'agit en fait du jeu de données de tranche de tous les jeux de données. Il n'a choisi que ces deux colonnes, qui sont notre pile MNL. Et la plage des lignes est comprise entre 0 et quatre. Je peux donc le changer en, disons de deux à six. Et si je clique sur Entrée, vous pouvez voir 23456, n'est-ce pas ? Les lois sont donc de deux à six et les colonnes sont des balises RM et S. Il s'agit donc d'un verrou très important. Il ne s'agit pas réellement d'une fonction, mais d'un localisateur. Donc LLC signifie essentiellement localiser ceux-ci à l'aide de ces deux index et il a été tranché vers le bas. Ce que nous pouvons faire, c'est que nous pouvons assigner dfs comme ds égal à celui-ci. Si j'essaie d' afficher df.head, cela me montrera ça. Nous pouvons réellement le trancher et nous pouvons le réaffecter au DataFrame si nous le voulons. Et ici, nous avons cette fonction LOC fonction très importante et nous utiliserons cette fonction si nous voulons analyser une petite partie du jeu de données. Nous avons maintenant un autre localisateur qui est l'ILC. Lucy est fondamentalement la même chose que LLC, mais c'était la différence majeure, c' est-à-dire qu'elle ne prend pas de valeurs extrêmes. Il n'utilisera que les valeurs numériques pour localiser ou utiliser les index, n'est-ce pas ? Par conséquent, au lieu des éléments dans la pile, nous devrons spécifier les valeurs numériques. Donc ici, si j'essaie d'exécuter une commande très simple ici, vous pouvez voir lequel est ILC. De 0 à quatre. Il va trancher les quatre premières lignes du jeu de données. Nous ne pouvons donc pas spécifier ici les noms de colonnes proprement dits. Nous pouvons en fait simplement trancher ce rayon ici, si je veux, simplement, c'est deux virgules quatre. Et si je dois appuyer sur Entrée, d'accord , nous n' avons pas quatre colonnes ici. Écrivons trois. Maintenant, appuyez sur Entrée ici. Maintenant, vous pouvez voir que cela signifie deux-points pour rater les deux premières rangées. Et deux-trois signifie les trois premières colonnes. Si je veux écrire trois deux-points, cela signifie que nous avons les trois dernières colonnes. Vous pouvez, vous pouvez voir que d'ici aussi, nous avons utilisé votre queue, qui se trouve ici. Vous pouvez voir que nous utilisons deux-points deux pour spécifier les n premières colonnes dans les deux-points afin de spécifier la fin des dernières colonnes. La même chose que l' approvisionnement et adhérer à la fonction ILC car la section colonne, nous ne pouvons pas spécifier cela. C'est pourquoi nous faisons cela ici. Donc, si je clique sur Control Enter maintenant, vous pouvez voir qu' il ne spécifiera que les trois dernières colonnes. Et vous pouvez voir qu'il s' agit en fait du milieu des années 70, qui est la dernière colonne elle-même. Donc, si je veux en faire un. Maintenant, chez Visual Me, les trois dernières colonnes ici, vous pouvez faire beaucoup de choses. Vous pouvez jouer avec cette chose. Que se passera-t-il si je veux préciser ici, disons 32. Ici, vous pouvez voir que trois et ne fonctionneront pas parce que ce n'est pas bon. Ce n'est pas une gamme ici. Je devrai donc préciser, disons 310. Toutes les lignes de trois à dix sont spécifiées ici. Nous avions donc en fait tranché les lois de trois à dix. Ici. Un à deux signifie qu'il va réellement sélectionner les colonnes de la position 1 à la position deux. Si je veux en faire trois. Vous pouvez voir qu'il sélectionne toutes les colonnes de une à trois. Vous pouvez donc jouer avec ces valeurs. Vous pouvez spécifier des valeurs négatives ici et examiner ce qui se passe dans le DataFrame et comment se déroule le découpage. Et cela vous aidera beaucoup à effectuer des analyses de données. Également. Dans le prochain tutoriel, nous allons commencer par la tâche de prétraitement des données. Et maintenant, vous avez une bonne idée de la façon d' utiliser la bibliothèque des pandas. Assurez-vous d'essayer toutes ces fonctions par vous-même et regardez comment la sortie change à l' aide la fonction de tête de point df ou de dot df. Vous pourrez voir les modifications apportées au jeu de données. C'est donc tout pour ce tutoriel. Merci d'avoir regardé. 4. Tableaux numpy: Dans cette vidéo, nous allons commencer par une bibliothèque très importante, qui est la bibliothèque numpy. La première chose que je vais faire ici c'est que je vais importer numpy comme np. Np est essentiellement aliasé. Dans le tutoriel précédent de ces scores de science des données, nous avons déjà couvert une bibliothèque très importante , la bibliothèque des pandas. Et nous avons vu comment nous pouvons faire en sorte que divers patients l'utilisent. Nous allons maintenant effectuer ces tâches de prétraitement des données dans les prochaines vidéos. Et pour cela, nous allons utiliser ces deux bibliothèques importantes, la bibliothèque NumPy et Pandas. Fondamentalement, si vous voulez voir toute la documentation du non-être, vous pouvez simplement aller sur numpy dot ORG, qui est le site officiel de la bibliothèque NumPy. Vous trouverez toutes les fonctions que cette bibliothèque est un bateau. Maintenant, puisque nous nous concentrons sur objectifs de la science des données et les tâches de prétraitement des données. J'ai rassemblé certaines des fonctions très importantes de la bibliothèque NumPy. Et en gros, je les ai sélectionnés parmi divers projets que j'ai réalisés. Nous allons donc les couvrir tous et la plupart d'entre eux sont très utiles et nous les utiliserons dans les prochaines vidéos. Il existe donc deux utilisations de base de la bibliothèque NumPy. Le premier est le num d'Alice. Et le second est l'analyse numérique ou opérations numériques que nous voulons effectuer. NumPy signifie donc Python numérique. Nous allons donc être ici, avoir ces deux parties ici. Mais dans cette vidéo, nous ne couvrirons que les tableaux Numpy. Et dans la vidéo suivante, nous verrons comment effectuer des opérations mathématiques comme le logarithme, la moyenne de l' écart type, tout cela. Dans la vidéo suivante. Commençons par l'iris NumPy. Donc, fondamentalement, pour nous, nous devons comprendre pourquoi avons-nous besoin de NumPy. Donc, en gros, créons une liste simple. Je vais simplement créer une liste ici, qui est une. Elle comportera trois éléments. Ou disons que ce sont les quatre éléments. Donc, si nous pouvons déjà créer un moins de, disons que j'imprime ceci, imprimez le type de cette liste ici. Si je clique sur Contrôle Entrée, vous pouvez voir que cela appartient à la liste des classes à l'aide de tableaux. Pourquoi utilisons-nous Eris ? Discutons d'abord de cela. Maintenant, la chose est dans la liste. En fait, il n'est pas stocké dans des emplacements de mémoire continue. Ces quatre éléments ne sont donc pas stockés dans une allocation de mémoire continue. C'est la raison principale pour laquelle nous n' aurons pas un accès plus rapide à ces éléments de la liste, car ils ne sont pas stockés en continu dans la mémoire. C'est pourquoi nous avons besoin de num par adultes. Parce que dans la science des données voulons effectuer des opérations plus rapidement, nous voulons accéder à ces éléments plus rapidement. Nous allons donc utiliser les tableaux NumPy. Et la deuxième chose, c'est que nous pouvons utiliser certaines opérations mathématiques sur ces artistes, comme les multiplications matricielles. Et nous pouvons même créer des tableaux multidimensionnels à l'aide de NumPy. Très bien, commençons par la première transposition, qui consiste en fait à créer un tableau NumPy. Aucune baie NumPy n'est réellement MDRD. Et MDRD signifie tableau à n dimensions. Nous pouvons donc créer un tableau à n dimensions en utilisant ces octets, qui est l'emplacement essentiellement continu des objets. Il s'agit de l'objet n dimensionnel. Je vais donc dire ici et les objets dimensionnels, non ? Voyons donc comment créer un tableau. Je vais donc créer une annonce ici avec le nom ARR. Une façon de le faire est que vous utiliserez np dot. Et ici, il suffit de spécifier les éléments de l'étude. Donc, si je spécifie une virgule, deux virgule trois, ce sera un tableau NumPy, non ? Essayons donc de marquer le genre de ceci. Nous saurons donc ce que c'est réellement ici. Vous pouvez voir ici qu'il appartient à la classe. ARR est donc une variable et la fonction tie nous donnera le type de cette variable. Vous pouvez donc voir qu'il définit qu'il s'agit d'un tableau NumPy. Il s'agit donc d'un ajout m par n dimensionnel. Voyons maintenant comment nous pouvons le découvrir. La dimension de ce réglage, nous pouvons utiliser la fonction dim, la fonction endocrinienne, qui nous montrera le nombre de dimensions du Sadie. Sadie n'a qu'une seule dimension, que vous pouvez voir ici, 123. Créons maintenant une autre dimension ici en utilisant un coma séparé. Et nous allons spécifier une autre liste d' éléments comme 567, n'est-ce pas ? Vous pouvez donc maintenant voir qu'il est dit que le type de données n'est pas compris. La raison pour laquelle cela se produit est donc que ceux-ci doivent être inclus dans une seule. Que nous devons écrire un autre crochets ici, comme ça, et nous devons le fermer ici. Touchons maintenant sur Control Enter. Maintenant, vous pouvez voir qu'il s'agit d'une zone bidimensionnelle. Donc, si nous voulons spécifier un tableau bidimensionnel, nous devrons le spécifier comme ceci. La première dimension comportera donc ces trois éléments. La deuxième dimension comportera ces éléments. Si je veux créer plus de dimensions, je les inclurai dans ce site de crochets. Même si je veux augmenter la dimension de ces deux éléments, ces deux listes, je peux simplement ajouter d'autres crochets ici, n'est-ce pas ? Donc, si j'ajoute trois crochets, intéressant de constater que cela a augmenté la dimension du tableau. Ainsi, plus le nombre de ces crochets est élevé, le mode est le nombre de dimensions. Vous pouvez donc voir maintenant que j'ai mentionné qu'il y a sept, même si nous n'avons que ces deux éléments, n'est-ce pas ? Donc, si j'essaie d'imprimer cet adder ici, vous pouvez voir que c'est comme ça qu'il va apparaître. De cette façon, nous pouvons créer ces annonces en nombre de dimensions. Et maintenant, je vais le faire en deux dimensions. Bon, maintenant, nous avons ce tableau bidimensionnel. Voyons maintenant comment créer des zones en quatre dimensions et en cinq dimensions. Créons une autre zone qui est à une du égale à NumPy. Imaginons ici que nous voulons créer 123 en trois dimensions. C'est ainsi que nous allons spécifier les trois dimensions. Ici, je vais écrire une virgule deux, une virgule trois. Nous allons créer une autre liste composée de quatre virgules cinq, virgule six. Et le dernier est sept virgule 89. Essayons maintenant de l'imprimer. Essayons d'ouvrir le nombre de dimensions de cet Addie. Avez-vous vu ici que nous avons trois dimensions et c' est ainsi que nous avons l'autre. De cette manière, nous pouvons créer n'importe quel objet n dimensionnel. Fondamentalement, vous pouvez voir que nous pouvons créer des annonces qui sont n dimensionnelles. Cela nous aidera donc beaucoup dans le prétraitement des données également. Et en gros, lorsque nous le combinerons avec des multiplications matricielles et des opérations cruciales telles que les journaux et la moyenne de l'écart type, nous obtiendrons une très bonne tâche de prétraitement et quelques trucs très importants, non ? C'était donc une étape complète et voyons maintenant quelles opérations nous pouvons réellement effectuer sur ces atomes. Nous savons maintenant comment créer un tableau, comment créer une Hillary endommagée. Voyons maintenant comment nous pouvons réellement procéder à l'indexation de ces domaines. Donc, en gros, je vais écrire l'indexation. Disons que nous avons ajouté cette ARR. Et ici, j'écris un coma. Voyons quelle est la sortie ici. Vous pouvez voir une virgule. Ce sont les deux éléments qui fournissaient. L'indexation signifie essentiellement quoi, comment puis-je accéder à un élément particulier à l'intérieur de cet ensemble donné ? Vous pouvez donc voir que c'est notre grenier. Si j'écris une virgule 11 nous indiquera la dimension dans laquelle nous sommes. Vous pouvez donc voir que nous avons deux dimensions ici, et cela commence à 01. Il s'agit donc de la dimension zéro et c'est la fausse dimension. Donc, on est en train d'indexer cela. Nous trouvons maintenant l' élément à l'intérieur de cette liste. Nous pouvons dire cette dimension. Le prochain qui se trouve ici spécifie l'élément de cette liste. Donc, ici, nous trouvons en fait 25671 signifie que nous pointons ou indexons réellement le premier élément. Donc, cinq sont en fait à 0, à la position six, à la position unique. Si j'écris trois ici, voyons voir. Nous obtiendrons une erreur car il y a, ils ne font pas que les éléments 012 ici, n'est-ce pas ? Faisons donc, nous en aurons sept ici. Vous pouvez voir, voyons maintenant ce qui va se passer si j'écris 0 virgule deux. Maintenant, vous pouvez voir 0 signifie que nous sommes en train de regarder cela. En ajoutant ici, qui est le 0 en position , nous atteignons le deuxième élément, qui est en fait trois. Nous en avons donc trois dans la sortie. Très bien, c'est ainsi que vous pouvez effectuer l'indexation. Le premier élément nous donnera la dimension dans laquelle nous nous trouvons. Et le deuxième élément de cette indexation nous donnera la position correcte de l'élément. Passons à une autre opération que nous allons effectuer. Très souvent dans ces zones, connues sous le nom de tranchage. Nous avons déjà vu des tranches dans des pandas. Et nous avons vu comment faire le découpage et les blocs de données. Voyons maintenant comment nous pouvons le faire dans certains domaines, n'est-ce pas ? Nous allons considérer le même Adi, qui est ARR. Et ici, je vais juste écrire cette commande Hill, qui est un et deux points puis trois. Voyons le résultat de cela. Maintenant, vous pouvez voir que 13 me donne 567. Pourquoi on va avoir ça. Vous pouvez voir que nous sommes en train de trancher cet Adi. Cela a déjà ces deux dimensions, comme on peut le voir ici. La première dimension compte 123 et la deuxième dimension 567. Nous coupons l'ADA de 133 signifie cependant que tous les éléments que nous avons d'une seule position nette. Vous pouvez donc voir que nous avons des zéros ici, puis nous avons la première position ici, puis toutes les tranches qui se produisent de la première position jusqu'à la deuxième position parce que trois ne sont pas inclus ici. Je vais donc écrire ici que trois ne sont pas inclusifs. Il va donc trancher la donnée à partir de la première position. Deuxième position parce que trois ne sont pas inclusifs, n'est-ce pas ? Voyons comment nous pouvons le faire dans le deuxième domaine auquel on ajoute. OK, donc dans les deux lèvres ajoutées écrivez la même commande pour voir la sortie. Maintenant, vous pouvez voir ici que nous n'avons rien à l'intérieur de cet Adi. Voyons pourquoi cela se produit, car dans la première position, nous n'avons aucun objet. C'est le trou est la 0e position, alors essayons 0 ici. Et maintenant, vous pouvez rapidement voir qu'ici, si nous essayons de le trancher de 0, nous avons 0 virgule une, virgule deux. À ces trois positions, nous avons tous ces éléments. C'est donc à la 0e position, celle-ci ajoute la fausse position, et celle-ci est à la deuxième position. Vous pouvez donc voir que c'est le résultat du tranchage que nous avons fait. Maintenant, vous devez jouer avec différents types d'artères et vous devez jouer avec ces différentes valeurs pour jeter un coup d'œil à ce qui se passe dans le résultat, pour obtenir un une meilleure compréhension de la façon dont les choses fonctionnent. Parce que vous ne pouvez pas apprendre tous ces termes. Vous ne pouvez pas mémoriser tous ces trucs. Vous devrez continuer à vous entraîner avec des tableaux dimensionnels différents. trancher avec des valeurs différentes. Ici au lieu de 0 à trois, supprimons 0 et voyons ce qui va se passer ici. Vous pouvez voir qu'il n' y a pas de changement ici. La raison est que lorsque nous écrivons del trois, cela signifie essentiellement que le premier 012 n'a pas été entravé, non ? Très bien, c' est ainsi que nous pouvons faire le tranchage à l'intérieur de la maison. Voyons maintenant comment nous pouvons effectuer le découpage des étapes. Ici. Ce que je vais faire, c'est que je vais imprimer ça. Nous étudions maintenant le découpage, ce qui est un autre concept très important. Donc, nous avons reçu le Sadie et nous allons faire le tranchage ici, les étapes de coupe. Voyons ce que c'est exactement. Je vais donc apporter de l'ajout ici. Je vais écrire un coma. Essayons 10 contre un à deux. Et voyons ce que nous obtenons exactement le résultat ici. Donc, au lieu de diapositives et vous pouvez voir nous avons cela en conséquence. Donc, au fond, qu'est-ce que c'est exactement ce tranchage ? Au lieu de trancher, nous disons que nous voulons trancher l'Eddie donné, mais nous allons suivre ces étapes. Nous allons donc d'abord spécifier, nous spécifions ces trois valeurs. Donc c'était le cas, il va en fait passer de 0 à un. Et puis il a été tranché d'un à deux, non ? Donc, en fait, il va se faire trancher en vitesse pas à pas. Donc, au lieu de trancher à partir de l'ensemble du tableau, nous pouvons créer de petites parties du tableau en utilisant le découpage des étapes. Il existe d'autres façons de le faire. Nous pouvons même essayer toutes ces méthodes. Donc, en gros, je vais créer un autre atome ici, que j'appellerai comme ajouté trois. Et là, je vais utiliser num biotic. Et cela va avoir les éléments, disons. Virgule trois, virgule 456, virgule sept. Et créons un autre qui est 11 virgule deux virgule trois. Le dernier sera seulement trois virgules quatre, n'est-ce pas ? Nous avons donc ces éléments ici. Cela, vous devrez être très prudent lorsque vous créez un tableau NumPy car il faudra s' assurer que le nombre de dimensions réellement celui que vous désirez, n'est-ce pas ? Nous avons donc ici la faute, la dimension, et nous avons ici la deuxième liste d'éléments. Disons maintenant que je veux inclure ces deux-là dans une seule dimension. Je peux le faire en utilisant, en les incluant réellement dans ces crochets simples. Donc maintenant, si je veux les inclure dans une autre dimension, je peux le faire en utilisant une autre, en créant un autre crochet carré, n'est-ce pas ? Ainsi, chaque fois que vous souhaitez créer une dimension, vous devez vous assurer créer un enregistrement carré pour elle. Maintenant, ce que vous allez faire, c'est essayer. Utilisez la fonction de fin, qui nous indiquera réellement la dimension de ce tableau. Et assurez-vous d'utiliser ces fonctions de fin afin de savoir si vous obtenez les dimensions requises. Et l'ADA est aussi la zone requise que vous voulez, n'est-ce pas ? Vous pouvez donc voir le nombre de dimensions ou de deux ici, qui est ici, le résultat est ici. Maintenant, ce que je veux juste faire, nous avons ici deux dimensions. Dans la dimension positive, j'ai ces deux positions, et dans la deuxième dimension, j'ai ces deux atomes ici. Je veux faire le tranchage. Cela en a ajouté trois. Et je veux le faire, disons que j'écris une virgule quatre. Appuyez sur Entrée ici et voyons ce qui va se passer. Maintenant, vous pouvez voir qu'il ne nous montre rien. Donc, faisons-le à 0. Ce sera un. Ce que nous faisons ici, c'est dans la première partie, je spécifie que nous sommes à la 0e position, ce qui signifie la dimension zéro. Dans la dimension 0, nous sommes en train de trancher d' un jusqu'à ce qu'elle comprenne, faites-le glisser de 0 à deux. Il inclura donc tous les éléments de 01 inclus et la dimension que nous examinons est 0. Donc, si je veux en faire un, voyons quel en sera le résultat. Vous pouvez voir que cela montre le résultat que nous avons 123 et trois quarts, qui est que vous pouvez voir dans ce dommage qui pointe vers la première position, n'est-ce pas ? Par conséquent, si vous souhaitez trancher une dimension particulière, vous pouvez spécifier la dimension ici. Je vais donc écrire ici un commentaire indiquant que la première position spécifie la dimension et le deuxième index de position de tranchage. De cette façon. Vous serez en mesure de le comprendre plus rapidement. Que ce premier paramètre appartient à la dimension que nous examinons, que nous voulons effectuer un tranchage. Et ici, nous écrivons, comment voulons-nous faire le tranchage, n'est-ce pas ? Nous voulons trancher 012. Mais ici, si nous voulons faire des tranches échelonnées, nous pouvons également le faire. Nous pouvons en fait spécifier que je veux des éléments de 0 à un, puis de un à trois, qui est le tableau numpy. S'il contient ce nombre d'éléments, il sera en mesure de les découper. C'est ainsi que nous pouvons effectuer le découpage à l'intérieur d'un tableau. Vous pouvez jouer en créant différentes zones avec un nombre différent de dimensions et un nombre d'éléments différents. Et vous serez en mesure de comprendre comment fonctionne cette étape de découpage et comment ce type d' indexation fonctionne. C'est vrai ? Nous allons maintenant passer à un autre concept, c'est-à-dire que nous voulons tester certaines fonctions de NumPy. Disons que nous voulons calculer la moyenne et d'autres choses aussi. Donc, dans ce cas, disons que je veux créer un ensemble de nombres continus et naturels. Disons que je veux créer un tableau n nombres naturels. Dans ce cas, nous n'avons pas besoin de créer un tableau en écrivant les numéros manuellement. Ce que nous pouvons faire, c'est que nous pouvons simplement, disons que je veux créer un tableau. Ce qui est NrT. Et je veux inclure les 20 premiers chiffres naturels pour pouvoir écrire un point V, n'est-ce pas ? Et disons que je veux créer un nombre naturel qui commence par une certitude d'alerte. C'est vrai ? Ce qui va se passer, c'est cette bibliothèque NumPy va la créer et l'ajouter, qui va de un à 20. Si je veux simplement imprimer ceci et l'ajouter ici, vous pourrez le voir dans l'occiput, n'est-ce pas ? Donc ici, il est dit que le module numpy n'a pas, d'accord, donc il devrait être unique. Maintenant, vous pouvez voir que nous avons ces éléments qui commencent de 1 à 19. Vous voyez donc que 20 ne sont pas inclus, n'est-ce pas ? Le dernier n'est donc pas inclus. Donc, si j'écris 20, ça commencera à n et ça ira jusqu'à 19. Pourquoi faisons-nous ça maintenant ? Parce que si nous voulons jouer avec un ensemble de nombres naturels, nous pouvons utiliser cette fonction et nous assurer qu'il ne s'agit que d' un seul cheveu, n'est-ce pas ? Ce n'est pas W. Ok, alors voyons quoi d'autre, comment vous pouvez être d'accord avec plus de valeurs. Supposons que nous voulions créer des nombres flottants à partir d' une position deux, disons d'un nombre à l'autre. La façon de procéder est donc de créer une autre zone qui est ajoutée ici. Disons que nous voulons créer décidés. Nous utiliserons à nouveau la fonction arranger. Ici. Nous allons spécifier la plage à partir de l'endroit où nous voulons les nombres flottants, n'est-ce pas ? Disons que je veux des nombres flottants de 1 à n, qui sont dix ici. Et maintenant, je vais devoir spécifier le type de données ici en utilisant le type. Et ici, je vais préciser le flotteur. C'est vrai. Maintenant, cela créera et symbiotique avec des nombres flottants de un à dix. Vous pouvez donc voir qu'il ne s' agit pas d'un nombre flottant. Il a donc 1.2.03 point. Et de la même façon, non ? C'est donc une autre chose intéressante. N'oubliez pas que toutes ces fonctions vont entrer dans la tâche de prétraitement des données. Alors assurez-vous que vous les pratiquez par nous-mêmes. Tous ces éléments sont très importants et nous les avons déjà utilisés dans certains projets. Assurez-vous donc que vous pratiquez cela également. Passons à un concept très important, qui consiste à changer la forme. Modification de la forme du tableau. Supposons que nous ayons un tableau avec une dimension donnée. Disons qu'une dimension est trois par trois dimensions éclairée trois par trois dimensions éclairée deux par deux. Et maintenant, nous voulons modifier la forme du tableau. Nous voulons modifier la dimension de la baie. Voyons donc comment nous pouvons le faire. La première chose est de voir comment nous pouvons vérifier la forme de l'anodique. Donc pour cela, je vais le jouer anodique a égal à numpy dot ID. Ici, je vais simplement spécifier une virgule deux, une virgule trois. Et je vais imprimer la forme de points Hill, non ? La forme n'est pas une fonction, c'est une propriété. Donc, si je clique sur Entrée, cela nous montrera que la forme est trois virgules et rien n'est ici car nous n'avons pas spécifié les colonnes. n'y a que trois éléments ici, donc c'est le cas. Créons-en un de plus. Au lieu de créer un tableau comme cet ascenseur, pressez et des nombres naturels en utilisant la fonction arranger np.arange. Créons six éléments. Donc, pour cela, je vais en préciser six. Et voici ce que nous avons, disons que j'utilise la fonction remodelage. Disons maintenant que je veux remodeler ce tableau. Disons que nous avons celui-ci ici et que j' écris ici une forme sombre. Nous savons que cela montrera trois Homère, quelque chose de bon à savoir. Je veux le remodeler pour pouvoir utiliser la fonction remodelage, non ? Nous allons donc le réattribuer, remodeler les points. Et comme il y a trois éléments ici, nous pouvons créer d'autres éléments pour que nous puissions réellement en modifier la forme. Nous allons donc ajouter d'autres éléments. J'ajouterai 456789. Également. Nous avons créé ces éléments ici. Et ce que je veux, c'est que je veux, ce sont en fait les neuf éléments et il y a une virgule de dimension neuf. Donc, si je clique sur Entrée ou Contrôle Entrée, cela me montrera que la forme de cette époque est de neuf virgules une. Ce que je veux, c'est que je veux y convertir cette dimension unique. Je veux remodeler en matrice trois par trois, n'est-ce pas ? La façon de procéder est donc de spécifier les positions ici. Donc, si je voulais une forme trois par trois, j'ai réalisé trois virgules trois. Ce qui va faire, c' est qu'il va rapidement changer la forme de cet ensemble donné, qui est ici, en un tableau tridimensionnel. Donc ici, si je dois appuyer sur Contrôle Entrée, vous pouvez rapidement voir que maintenant le changement, la forme a été modifiée à trois par trois, n'est-ce pas ? Jetons donc un coup d'œil à la forme de l'ajout avant d'utiliser la fonction remodelage. Donc, si je veux écrire une forme de point ajoutée, vous pouvez voir qu' au départ il s'agissait vous pouvez voir qu' au départ il s'agissait de neuf virgules 0 et maintenant il s' agit de trois virgules trois. Nous avons donc changé la forme ou la dimension décidée par trois. Ce qui va se passer, c'est que maintenant les lèvres essaient d'apporter ça ici. Maintenant, vous pouvez voir au lieu d'un seul seul, il est maintenant 123. Ensuite, nous avons quatre combattants et 789. Nous avons donc ici un tableau tridimensionnel. Et il l'a divisé comme ça, n'est-ce pas ? Que se passera-t-il si j' écris trois virgules deux ici ? Voyons s'il sera en mesure de le faire. Maintenant, vous verrez rapidement l'évaluateur dit que nous ne pouvons pas remodeler la zone de la taille neuf dans ce domaine. qui signifie que chaque fois que vous voulez faire un remodelage, vous devrez vous assurer que le produit de ces deux-là, c' est-à-dire que nous allons écrire dans cette fonction de forme est égal au nombre de éléments à l'intérieur du décor. Quoi d'autre ? Vous ne pourrez pas le faire. Très bien, n'incluons que six éléments ici. Et maintenant, nous savons que le produit de trois virgule deux est six. Donc, si j'appuie sur Control Enter, vous pouvez maintenant voir qu'il a créé un tableau avec deux éléments ici et il y en a deux, et il s'agit d'une matrice deux par trois. Nous avons deux colonnes et trois rangées. Ici, nous avons trois virgules deux. Et maintenant, passons à deux virgules trois. Maintenant, vous verrez rapidement ici dans le maladroit que les éléments sont trois, mais nous n'avons que deux dimensions ici. C'est ainsi que nous pouvons remodeler ces éléments d' un tableau NumPy donné, n'est-ce pas ? Il est donc très important que vous utilisiez souvent cette vidéo lorsque nous effectuons l'analyse, bien que les tâches de prétraitement des données passent également à une autre fonction importante que je continue de voir. Beaucoup de projets sur la science des données, qui remplacent les éléments par un. Disons que je veux remplacer tous les éléments de monadique par la valeur 1. Voyons donc comment je peux le faire, comment je peux le faire. Tout d'abord, je vais créer un nouveau tableau. Et au lieu d'écrire les éléments manuellement, j'utiliserai simplement cette fonction arranger. Ici, je vais créer un tableau avec, disons que nous avons quatre éléments dedans. Maintenant, ce que je vais faire, c'est que je vais remplacer. Je vais essayer de simplement vous montrer la valeur de ce domaine. Vous pouvez voir que cette baie possède 0123. Maintenant, ce que je vais faire, c'est que je vais utiliser une fonction très importante qui est soulignement de point np, la fonction Like. Ici, je vais le fournir avec la nouvelle RA. Je vais appuyer sur Control Enter. Maintenant, vous pouvez voir qu'il les a tous remplacés par un seul. C'est donc important, c'est utile dans de nombreux cas lorsque nous voulons effectuer une catégorisation des données, nous le voulons, nous pouvons le faire en utilisant cela, n'est-ce pas ? Il est donc important que ce soit un mode qui est Zero Lake. Donc, si je relate des zéros ici, cela les convertira tous en zéros. Vous pouvez voir ici, il s'agit de deux fonctions très importantes que j'ai vues et que j'ai personnellement utilisées dans certains projets. Assurez-vous donc de les pratiquer également. Et je vois qu'il y a des zéros et une échelle. Passons maintenant à la partie suivante, qui est la façon dont nous pouvons concaténer deux artères ici. Je vais écrire ici en concaténant. Très bien, donc pour cela, je vais devoir m'adresser. Créons-en un autre. Lorsque nous créons un premier cycle, c'est ici. Créons donc certains éléments de ce tableau, qui seront disposés par points numpy. Et ici, disons que nous voulons des éléments de la part des tuteurs six. Ici, je vais créer un autre tableau qui sera différent. Cela passera de sept. Nous avons ces deux atomes, puis nous voulons les concaténer en un seul tableau. Pour ce faire, c'est très facile. Nous pouvons simplement utiliser, disons que nous allons créer une autre zone qui représente la majorité des zones A1 et A2. Pour ce faire, nous avons une fonction très simple, qui est la fonction de concaténation de points np. Ici, il suffit de spécifier ces deux baies. Maintenant, rappelez-vous que c' est la fonction et nous voulons spécifier A1 et A2. La façon de le faire n'est pas comme ça. Certaines personnes aiment ça, comme A1, A2. Vous ne pouvez pas le faire comme ça. Vous devrez spécifier cela comme une paire de crochets circulaires sans fin comme celui-ci. Nous pouvons donc maintenant voir que nous avons un seul support qui est la fonction de concaténation. Ce deuxième support spécifie A1 et A2 en tant que joueur. Maintenant, si je veux essayer d'ajouter autant de choses, vous pouvez voir qu'il montre les plages de noms, d'accord, donc ici il devrait être np.arange, pas dans le coma de pointe. Vous pouvez maintenant voir qu'il vous contacte à ces deux flèches dans un même tableau. Vous pouvez être utilisé, vous utiliserez beaucoup cette fonction, qui consiste à combiner deux ou plusieurs tableaux. C'est ainsi que nous pouvons faire la partie concaténation. Passons à la partie contraire de cela, c'est comme ça que nous pouvons diviser l'annonce, disons que je veux diviser ce module. Et pour ce faire, ce que je vais faire, c'est que je le ferai. Commençons par créer une autre idée. Je l'appellerai comme un papa non ému. Ici, j'utiliserai une fonction très simple ici, qui est utilisée pour faire la partie fractionnée, qui est nulle division de points à elle. Ajout d'une fonction de partage de soulignement. Ici, je veux simplement préciser la mortalité. Ensuite, nous devrons préciser, disons trois. Très bien, j'ai donc voulu le diviser en troisième position. Maintenant, je vais essayer d' imprimer ce papa non ému. Papa avait tous ces éléments, 2345678. voyons donc ici. Le même nom, fusionné n' est pas le cas final, donc ce n'était pas beaucoup, c'était le plus souligné ARR. Il va donc diviser les données de l'image à partir de la troisième position. Nous pouvons donc voir ici, nous avons 23457891011. Et maintenant, vous pouvez voir que trois signifie que c'est le cas, divisez-le en trois parties égales. La première partie est à trois pour la seconde partie par 7891011, n'est-ce pas ? Changeons donc cela pour le faire et voyons ce qui va se passer. Maintenant, vous pouvez voir qu'il tombe crée un tableau avec cinq éléments et l'ère suivante avec quatre éléments. De cette façon, nous pouvons diviser les AR dans plusieurs domaines, n'est-ce pas ? Passons maintenant à une autre partie importante qui consiste à effectuer la recherche à l'intérieur d'une donnée. Utiliser cette bibliothèque NumPy. Nous voulons rechercher certains éléments. Prenons d'abord un exemple. Appelons ça comme ici. Je vais prendre le premier exemple à partir d'ici seulement. Celui-là. Ensuite, créez et ajoutez un avec quelques nombres aléatoires. Je n'utilise que des nombres aléatoires ici. Et disons que je voulais rechercher 87 à l'intérieur de cet ajout, qui est le nœud qu'il est à 0123. Il est en troisième position et nous voulons le chercher. La façon de procéder est donc très simple. Je vais d'abord créer un élément x, qui obtient en fait l' emplacement des 87e éléments. Nous avons donc une fonction bizarre qui est utilisée pour effectuer la partie de recherche. Donc, np point où la fonction obtiendra deux paramètres. Un seul paramètre fonctionne. E est égal à deux équivaut à deux. Je dois préciser l' élément qui est 87. Maintenant, ce qu'il va faire, c' est qu'il va chercher 87 à l'intérieur de ce qui est donné à un E ici, n'est-ce pas ? Donc, si je veux essayer d'imprimer x, vous pouvez voir ici qu'il montre la recherche. Et maintenant, il est dit à une, troisième position et le type de données de l' élément est entier 64. Vous pouvez voir ici que c'était en troisième position. C'est donc la première, désolé, la 0e position. Et la première, la deuxième, la troisième position. Il nous a donc donné la position. Et vous pouvez voir que puisque nous utilisons Eris, recherche est la source d' accueil dans ce cas. Passons maintenant à une autre partie importante qui est le tri. Tableau donné. Le tri est également important. Ensuite, triez cet ERD uniquement. Vous pouvez voir que cette annonce n'est pas triée. Essayons de régler ça. Je vais écrire à Brent. Et la fonction de tri des points P. Et à l'intérieur de ce contrôleur de tri spécifiez E ici. Vous pouvez voir qu'il s'agit des données triées par ordre croissant, n'est-ce pas ? Vous pouvez donc voir au départ qu'il n'a pas été trié. Et maintenant, c'est trié à un. Fonctions simples et très simples, ces fonctions utilitaires vous aideront beaucoup dans la tâche de prétraitement des données. est très important de les pratiquer. Et quand vous ferez de plus en plus de produits, vous vous familiariserez avec tous ces produits. Et vous aurez une bonne maîtrise de toutes ces fonctions ici, n'est-ce pas ? Bon, alors passons à un autre. Et celle-ci est triangulaire supérieure. Maintenant, cette fonction est, je l'ai vu dans beaucoup de projets. Comment créer des triangles VR. Et c'est un concept très important. Concentrez-vous donc sur cette partie, car il est vraiment important comprendre pourquoi il est important de créer des triangles de relations publiques. Disons donc que je crée un tableau ici. Je l'appellerai comme en ajoutant un. Appelons ça comme un 0. Ici, je n'utiliserai aucun point. Prenons moi comme exemple. Nous allons utiliser E, qui est ici. Pour créer des triangles PR. Que je le ferai, je vais juste imprimer b point u, qui est une forme courte de triangulaire supérieur ou triangulaire, signifie triangle, vous voulez dire au-dessus. Ainsi, aucun point triangulaire U signifie qu'il créera un triangle supérieur de la matrice donnée. Pour cela, créons une matrice tridimensionnelle. Je vais rapidement créer une matrice tridimensionnelle. Tout ce que nous avons déjà créé une matrice tridimensionnelle ci-dessus. Lorsque nous faisions la partie remodelage, nous avons également créé celle-ci. Créons encore une fois. Ici. J'utiliserai B dot orange, et j'inclurai des éléments du blanc un à neuf. Et je vais rapidement remodeler la matrice trois par trois. Et jetons un coup d' œil à ça, à 0. Le premier Nexi, qu'il soit correct ou non, dit qu'il devrait s'agir d' un Nexi appelé Martin. Nous avons ceci, vous pouvez voir que c'est l'addie. Nous avons 123456789. Donc, une matrice trois par trois, vous pouvez la considérer comme une matrice trois par trois. Ensuite, nous voulons créer un triangulaire supérieur. Ce que nous pouvons faire, c'est d' examiner comment la RA va changer lorsque nous appliquerons le triangle supérieur ici. Triangle bip. Je vais donc imprimer la fonction np dot u. Ici. Je vais spécifiquement le faire, je vais juste spécifier deux paramètres ici. Le premier paramètre sera le tableau où nous voulons le triangle supérieur et le second élément est 0. Je vais vous dire ce que peut être exactement ce deuxième élément. Changez vraiment cette valeur. Il peut être en fait 0 moins 11. Nous verrons les valeurs en quoi cela change lorsque nous appliquons le deuxième paramètre en tant que 0, puis moins un, puis un. Nous allons donc appuyer sur Control Enter pour voir la sortie ici. Vous pouvez voir quand j'ai spécifié 0, il a créé un triangle supérieur. C'était donc au départ le RID. Et maintenant, après avoir créé un triangle, vous pouvez voir tous les éléments au-delà. Vous pouvez voir ce sont les éléments diagonaux, 159 millimètres. Et maintenant, vous pouvez voir qu'il est en train de former ce triangle. 123569 est en train de former un triangle ici, que vous pouvez voir ici. Et ces éléments sont devenus 0, n'est-ce pas ? Donc, une fois qu'ils sont devenus 0, nous avons un triangle supérieur ici. Passons maintenant cette valeur de 0 à une. Voyons quel sera le changement ici, n'est-ce pas ? Maintenant, vous pouvez voir ici, si nous en écrivons un, il inclura également les éléments diagonaux. Il va donc créer un triangle supérieur. Vous pouvez voir que deux trois-sixièmes sont impliqués dans ce triangle. Ces éléments sont devenus 0. Si je change cela par moins un, et que je cliquerai sur Control Enter. Maintenant, vous pouvez voir que V0 a acheté un triangle supérieur, mais seul le dernier élément est 0, n'est-ce pas ? Donc tous les éléments au-dessus de ce nul 0. Ainsi, nous pouvons créer des triangles de bot et vous verrez l'importance de les créer. Triangles à l'intérieur du moment où nous commencerons les tâches de prétraitement des données. Vous verrez beaucoup de ces dysfonctionnements secs que vous avez utilisés dans de nombreux projets également. Vous avez maintenant une bonne idée de la façon dont cette fonction va changer l'ajout. Maintenant, ce que je vais faire, c'est que nous passons maintenant à la dernière fonction, qui consiste à modifier le type de données de l'ajout des éléments du tableau. Très bien, donc pour cela, je vais créer un autre ajout de 23. Et ici, je vais utiliser np.edu. Créons des éléments dont les valeurs flottantes automatiques sont 2.11.2. Et donnons une molaire, qui est, voyons voir, une molaire en trois points. Maintenant, nous avons tout ce tableau NumPy. Ce que je vais faire, c'est que je vais imprimer le type de ce site. Donc, tout d'abord, je vais créer un nouveau tableau. Ici. Je vais utiliser IRR comme fonction Merci. Je vais écrire ici. Maintenant, ce qui va se passer, c'est qu'il va créer un nouveau tableau, mais qui a toutes les valeurs ajoutées à trois. Il va le convertir en votre rôle. Jetons donc un coup d'œil à quoi ressemblera exactement notre nouvel Adam. Ainsi, la nouvelle Audi aura tous ces éléments, mais seulement la partie entière de ces éléments. Ici, vous pouvez voir changer le type de données, et maintenant il a 123 et il a ignoré ces parties décimales. De cette façon, vous pouvez les modifier à l'intérieur. 5. Fonctions numpy dans Python: Dans ce CD, dans ce cours, nous avons déjà couvert les baies NumPy. Nous avons donc couvert certaines des fonctions très importantes que nous pouvons accomplir sur des non-acheteurs. Et dans cette vidéo, nous allons couvrir toutes les opérations mathématiques NumPy prises en charge et nous pourrons les réaliser sur Dina biotas. Voici donc quelques-unes des fonctions de base et certaines des fonctions très importantes que vous utiliserez tout au long de votre carrière en science des données. Commençons donc par ça maintenant. Tout d'abord, je vais importer numpy comme np liquidement ici. Et ici, je vais créer une matrice qui sera np.array. Ici, nous allons simplement créer trois éléments ici, soit 123456789. Vous pouvez voir ici que j'ai créé une matrice. Vérifions rapidement si nous l'avons défini correctement en imprimant cela. Vous pouvez donc voir ici que j'ai créé cette matrice qui contient ces neuf éléments, n'est-ce pas ? Ce que je vais faire, c'est que je vais effectuer certaines opérations mathématiques sur cette matrice ici. Par exemple, le produit en points, l' écart type, moyenne et toutes les fonctions statistiques également. Commençons par quelques-uns des éléments de base. Le premier ici est donc deux. Calculer le moment maximum, ce qui est un bit très important qui donnera réellement l'élément maximum de cette matrice entière. Je vais imprimer, utiliser la fonction np dot max, qui va réellement nous donner l'élément maximum de cette matrice. Vous pouvez voir que si je clique sur Contrôle Entrée, vous pouvez voir que neuf est l'élément maximum de cette matrice entière. Maintenant, ce que je vais faire ici, c'est supposons que nous voulions savoir quel est l'élément maximum de cet axe, qui est la loi ici. Ce que je peux faire, c'est que je peux spécifier l'axe ici aussi que Access est égal à 0 si j'appuie sur Contrôle Entrée. Vous pouvez maintenant voir que l'axe 0789 est l'élément maximum. Nous pouvons donc également le faire. Donc, si j'en écris un ici et que j'aime contrôler Enter, vous pouvez voir qu'il sera 369. Ainsi, lorsque vous modifiez l'accès, vous pouvez renvoyer l'élément maximum en fonction de l'accès qui est constitué de lignes et de colonnes. La partie suivante, qui est similaire, consiste à calculer l'élément minimum. Et pour cela, nous avons également la même technique qui utilise la fonction principale np dot. Et ici, je peux simplement spécifier la matrice. Et vous pouvez voir que le minimum, l'élément minimum de cette matrice est un, et c'est ce qu'il imprime ici. De même, nous pouvons également fournir ici l'axe à 01. Passons maintenant à d' autres fonctions. Il s'agit en fait des fonctions statistiques. Donc, dans ce cours, je n'ai pas encore abordé ces sujets de statistiques, c'est-à-dire la signification de l' écart type, la moyenne de variance. Ce sont quelques-uns des sujets très cruciaux qui doivent être abordés dans la science des données. Donc ce que je fais ici, c'est dans ce tutoriel, je vais juste montrer comment les utiliser. Et dans la vidéo suivante, je vais enseigner tous les concepts importants de ces statistiques comme variance, la moyenne, l' écart type. De cette façon, vous serez en mesure de mieux comprendre comment ces fonctions sont utiles en science des données. Commençons donc par le très basique, qui consiste à calculer la moyenne de l'Eddie donné. Disons que nous avons reçu cette matrice ici, qui est celle-ci, je veux calculer la moyenne. La moyenne est essentiellement moyenne. Donc, ce que je peux faire, c'est que je veux en imprimer la moyenne. Donc pour cela, je vais juste utiliser la fonction np dot moyenne et je vais juste devoir la fournir avec la matrice. Et vous pouvez voir ici qu'il renvoie cinq en moyenne parce qu'il s'agit en fait de la moyenne de tous les éléments. Nous discuterons plus que de ces éléments, qui sont les concepts de statistiques en détail dans le prochain tutoriel. Passons donc à un autre concept de statistiques qui est la variance. Variance. Nous allons les couvrir tous dans cette seule cellule ici. Variance et écart-type. Ce sont les deux choses qui sont très importantes et elles sont largement utilisées dans la science des données, car elles sont en fait très utiles pour effectuer certaines des méthodes importantes de prétraitement des données. De plus, ici, nous pouvons imprimer le moyen. Et si nous voulons peindre la variance, je peux simplement la fournir avec celle-ci. Vous pouvez donc voir que la variance de cette matrice est de 6,66. De même, si je veux l'écart type, je peux le faire en utilisant np dot SDD, qui est l'écart type. Et je vais l'appliquer avec la matrice ici. Vous pouvez voir si je clique sur Control Enter, cela me donnera l' écart type. Nous étudierons ces trois concepts importants, et il y a un autre concept important qui est une distribution normale. Nous allons également étudier cela. Passons maintenant à certains sujets de l'algèbre linéaire. Qu'il s'agisse de concepts mathématiques, le produit ponctuel et la multiplication et l' ajout de matrices. Alors, effectuons ces soins de santé. La première méthode que nous allons effectuer consiste à calculer la transposition d'une matrice. Donc, fondamentalement, ce cours exige que vous ayez des connaissances de base en mathématiques, c' est-à-dire les matrices et les déterminants. Voyons donc comment calculer la transposition d'une matrice. Pour cela, c'est très simple. Je peux juste écrire matrice point majuscule T. Si je vais appuyer sur Control Enter. Maintenant, vous pouvez voir qu'il s'agit de la transposition d'une matrice. Vous pouvez donc voir que les rôles sont devenus des colonnes ici. Donc, 123 était en fait une rangée dans la matrice ici. Ensuite, nous voulons calculer arbalètes et devenir la loi. Vous pouvez voir maintenant que sa colonne est 123. C'est ainsi que nous pouvons calculer la transposition d'une matrice. Passons maintenant à la façon de calculer le déterminant d'une matrice. Ce sont tous les concepts de base de l'algèbre linéaire. Et c'est la seule mathématique requise en Data Science, à savoir les statistiques, les probabilités et l'algèbre linéaire. Même si vous connaissez les bases de ces concepts, vous êtes prêt à y aller. Voyons comment calculer le déterminant de cette matrice. Pour cela, nous allons utiliser la bibliothèque NumPy avec cette fonction ici. Donc np dot LIN LG fonction, qui est en fait une fonction de propriété dans l'ordre. Ensuite, nous utiliserons le DEP pour calculer le déterminant de cette matrice. Vous pouvez voir que le déterminant de cette matrice est cette colline, np point LIBNAME point db. Très bien, passons donc à la façon de calculer le rang d'une matrice. Fondamentalement, le rang est calculé comme n moins un, où n représente la fin, correspond essentiellement au nombre de dimensions. Très bien, en ajoutant, vous pouvez voir que cette zone était une émission thêta. Donc, si je voulais calculer le rang, ce que je peux simplement faire, c'est que je devrai à nouveau utiliser l'algèbre linéaire np dot. Dot LAN LG est ici synonyme d'algèbre linéaire. Et comme nous utilisons les fonctions d'algèbre linéaire et ici je suis comme le rang de soulignement matriciel. Ici. Je vais le fournir avec la matrice ou le grenier. Ici, vous pouvez voir que c'est bien le rang de cette matrice, n'est-ce pas ? C'est ainsi que vous pouvez calculer le rang de ces matrices. Nous voulons donc passer à d'autres fonctions importantes. Voyons donc comment calculer les valeurs propres et les vecteurs propres. Les valeurs propres et les vecteurs propres sont également importants. Ici, vous utiliserez ces fonctions plus souvent dans les tâches de prétraitement des données. Voyons comment calculer les valeurs propres. En gros, supposons que nous ayons une matrice carrée a. Si je multiplie, si je fais un produit à points avec v sera égal à k, ce qui est les vecteurs propres. Et encore une fois, dotez le produit avec v, qui est les valeurs propres. Donc, fondamentalement, le but des vecteurs propres est d' augmenter la forme de la matrice carrée et non la direction. Donc, ici, je peux même écrire cela, alors vous l'appliquerez. Transformation linéaire. Les vecteurs propres changent, modifient la forme de la direction de la matrice NANDA. Bon, voyons comment on peut calculer ces deux valeurs. Encore une fois, nous allons calculer les valeurs propres et les vecteurs de cette matrice que nous utilisons dans tout ce programme. La première chose est que si vous souhaitez calculer les valeurs propres, définissez d'abord les variables ici. Définissons deux variables qui sont des valeurs propres et des vecteurs propres. Nous avons une fonction qui va renvoyer les deux, qui est Np point algèbre linéaire point EEG, et l'appliquer avec le mutex. Qu'est-ce que cette fonction renvoie les valeurs propres et les vecteurs propres et ce qu'elle sera stockée ici, n'est-ce pas ? Essayons donc de voir ces valeurs en imprimant ces valeurs ici, c' est-à-dire des valeurs propres. Et ici, je vais imprimer les vecteurs propres. Si je clique sur Contrôle Entrée, vous pouvez voir qu' il s'agit des valeurs propres. Ce trou que vous pouvez voir est un vecteur propre. Passons à d'autres fonctions. Voyons comment nous pouvons le faire. Calculez le produit à points. Le produit Dot est également très important. Voyons comment nous pouvons le faire. Tout d'abord, je vais devoir créer deux matrices ici. Créons une matrice très simple, 123. Et je vais créer une matrice de plus, qui est la matrice deux. Et cela aura des valeurs pour V6. Maintenant, je veux calculer le produit à points. Donc, si je voulais calculer le produit à points, je le ferai. Tout d'abord, ce sera un tableau de points np. Cela se fera également en mode non périodique. Très bien, donc maintenant si je voulais imprimer ça, je vais devoir utiliser la fonction point np dot. Il aura donc une fonction sombre ici. Et j'ai juste besoin de fournir ces deux matrices dans l'argument qui est la matrice 1, matrice Q. Vous pouvez voir ici que le produit à points a 3232 est le produit à points de ces deux matrices. Rappelez-vous que lorsque nous calculons le produit Dotnet Dotnet Dot, vous devez d'abord comprendre les concepts d'algèbre linéaire sur la façon de calculer le produit à points et comment vous assurer que les lignes les colonnes de ces deux colonnes correspondent ou non, n'est-ce pas ? Nous pourrons donc calculer le produit à points. Passons à la façon d'ajouter deux tableaux, c' est-à-dire l'ajout de ces vecteurs. C'est vrai ? Nous allons donc prendre ces deux matrices une, matrice deux seulement. Donc, si j'écris une matrice d'impression en utilisant la fonction et que nous voulons ajouter la matrice une, matrice deux. Vous pouvez voir que si j'essaie de les ajouter, leurs valeurs sont leurs valeurs correspondantes qui sont ajoutées et elles sont stockées dans un autre vecteur. Il est de 79, donc un plus quatre fait cinq, puis c'est la F7, puis on en a neuf. De même, si vous souhaitez effectuer la soustraction, vous devrez effectuer la même étape. Vous devrez imprimer la fonction de produit NumPy np dot. Encore une fois, les fournisseurs ayant ces deux valeurs, à savoir la matrice 1. Matrice deux. Encore une fois, voyez que si je les soustrais, un moins quatre me donne moins trois à moins pi me donnera moins trois. Et de même moins V ici. C'est ainsi que nous pouvons calculer la soustraction. Et voyons comment nous pouvons faire la multiplication. Il s'agit d'une multiplication, et non du produit à points. Je vais donc écrire ici que ce n'est pas le produit à points. Il s'agit d'une multiplication matricielle. Vous verrez ici quelle est la différence entre eux. Donc pour cela, je vais utiliser le nous pouvons multiplier deux matrices en utilisant simplement un statut comme celui-ci et il multipliera ces deux matrices. Quatre multipliés par un sont donc quatre, puis dix ans, puis 181018 ans. La réponse ici. Il s'agit donc en fait de la multiplication de deux matrices qui est différente du produit en points contre vous. Ce produit en points était en fait 32. Nous allons maintenant passer à d'autres fonctions également. Je vais commencer par calculer l' inverse d'une matrice. Pour calculer l'inverse d'une matrice, nous devrons à nouveau utiliser la fonction algèbre linéaire. Et je finis que nous fonctionnons là. Je vais juste devoir le fournir avec la matrice. Si j'appuie sur Contrôle Entrée, vous pouvez voir qu'il se déplace simplement calculer l' inverse de cette matrice. Il s'agit donc de l'utilisation de la fonction INV inverse ici, qui appartient à la propriété de l'algèbre linéaire. Nous allons maintenant voir comment générer des valeurs aléatoires, ce qui est encore une fois un concept très important, comment générer des valeurs aléatoires à l'aide de NumPy. Pour cela, je vais créer un programme très simple qui permettra de trouver cinq valeurs aléatoires. Ici, je vais écrire un commentaire ici. Permettez-moi de calculer les cinq neuvième sur des valeurs comprises entre un et dix. Si je voulais calculer cinq valeurs aléatoires entre un et dix, voyons comment nous pouvons le faire. Je vais utiliser la fonction aléatoire de points np. Et, et ici je devrai lui fournir trois variables. Ils passeront de 0 à 11, et je veux cinq valeurs. Ce sera donc comme ça. Vous pouvez voir ici qu'il calculera les cinq valeurs aléatoires de 1 à 10110 à six par ces valeurs, et 011 en sont exclues. C'est ainsi que vous pouvez calculer cette valeur connue. Une chose intéressante ici est que si vous appuyez à nouveau sur Control Enter, cela modifiera ces valeurs aléatoires et cela continuera à changer cela. Donc, afin de rendre cette constante comme si vous ne voulez pas que les valeurs aléatoires changent à chaque fois, vous pouvez utiliser une chose très importante connue sous le nom de semence. Pour cela, vous pouvez utiliser la fonction np dot random.seed. Ici. Vous pouvez lui en fournir un que vous ne souhaitez pas modifier la taille. Donc, si je clique sur Control Enter, je suppose que je continuerai à appuyer sur Control Enter. Cette valeur ne changera pas. Cela deviendra constant cause de ce plafond que nous avons fait ici. Passons maintenant à une autre chose importante. Disons que nous voulons générer des valeurs aléatoires à partir de la distribution normale. La distribution normale est un autre concept important de la science des données, car elle appartient au statut, aux statistiques et aux probabilités. Nous en discuterons également dans le prochain tutoriel que je vais aborder ces concepts sur les statistiques. Le x plus c, comment obtenir les valeurs de la distribution normale. Pour cela, nous pouvons utiliser la fonction normale de point aléatoire np dot. Et puis j'ai simplement besoin de lui donner une valeur. Donnons-lui donc une valeur 1, ce qui sera réellement méchant. Nous devons donc lui donner trois paramètres. Le premier sera la moyenne, le second sera l' écart type. Et le troisième est celui que vous souhaitez générer. 1 est la moyenne, alors nous avons 10 et l' écart type. Et le numéro que je voulais faire, cliquerai sur Control Enter. Il prélèvera automatiquement ces dix nombres de la distribution normale de la moyenne de la moyenne et de l'écart type donnés. Donc, fondamentalement, ce sont toutes les fonctions importantes de cette bibliothèque NumPy. Nous en découvrirons davantage dans l'acide. Nous allons aller de l'avant dans ce cours. Donc, fondamentalement, ce n'est pas ce que cette factorielle annule de regarder. 6. Statistiques pour la science des données !: Passons maintenant au premier sujet que nous allons étudier, qui est un moyen. Nous avons une moyenne, un écart type, une distribution de lavage et une variance. Nous allons couvrir ces sujets très importants et ils sont humains dans les données. Merci beaucoup. Commençons par la moyenne et essayons de comprendre quelle est la signification de l'être. Ici, j'ai dessiné un graphique d'exemple. Prenons donc un exemple très simple. Considérons qu'il existe une entreprise de smartphones et que cette entreprise vend réellement les smartphones. Et d'après de mauvaises données, j'ai récupéré sept jours de ventes. Ici, vous pouvez voir que dans les données, j'ai ces sept éléments dedans. 151030 vingt-cinq, vingt-cinq, vingt-cinq, vingt-cinq. Sur ce graphique, vous pouvez voir sur cet axe que j'ai le numéro de jour, qui est 1234567. Pour quelle semaine nous avons vendu ce nombre de téléphones. Vous pouvez voir pour le premier jour, 15, je vais vendre les téléphones pour le deuxième jour et le nombre de téléphones ont été vendus. De même, pour le troisième jour, 30 numéros ont été vendus. C'est ainsi que j'ai tracé ces points de vue, ces points bleus qui représentent les données. Voyons maintenant comment calculer la moyenne. La moyenne est en fait la moyenne de ces valeurs. Nous pouvons calculer la moyenne en les démarrant et en la divisant par ID et par nombre de points de données dont nous disposons, soit sept dans notre cas. Ici, vous pouvez voir que sur le calcul, vous obtenez 150 sur sept, soit 18,57. Vous pouvez voir ici une ligne rouge qui passe par ce graphique. Ici, vous pouvez voir qu'il s'agit d'une moyenne absolument présente, qui est de 18,57, et vous pouvez voir qu'elle se situe entre 1520. Essayons maintenant de comprendre ce qui est méchant. La signification de la moyenne est très simple et nous donne la moyenne de la moyenne quotidienne des sept derniers jours. Cela signifie qu'en fait, c'est 18,57. Supposons qu'il s'agisse d'une valeur absolue de 18. Cela signifie en fait que 18 téléphones ont été vendus chaque jour au cours des sept derniers jours en moyenne. Maintenant, il s'agit d'une information très cruciale, car parfois l'entreprise ne s'intéresse pas à ce qui se passe, quantité d'os vendus en une seule journée, ce qu'elle voulait, qu'elle voulait calculez la moyenne, la moyenne. Ici, vous pouvez voir que la moyenne est de 18. On peut donc dire que 18 téléphones ont été vendus chaque jour en moyenne en une semaine seulement. Mais si vous deviez jeter un coup d'œil ici, il y a une information intéressante qui manque dans ce graphique. Ce moyen est en fait trompeur. La raison pour laquelle c'est trompeur, c'est que supposons un point de données éloigné de cette ligne, qui est loin de cette moyenne. Ce qui signifie que si je calcule la moyenne maintenant, la moyenne deviendra plus élevée. Cette valeur de viande va augmenter et si elle augmente, intellectuel était une valeur qui, supposons que la valeur augmente à 30. Cela montrera donc que totalement les téléphones pratiquement tous les jours, ce qui n'est pas vrai du tout. Un point de données, va en fait mal interpréter la moyenne. Puisque la moyenne est mal interprétée, elle nous donnera à l'entreprise une information fausse et trompeuse selon laquelle chaque jour 18 années quarantaine ont été vendues, ce qui n'était pas vrai parce qu'il était moyen. Il était donc vrai que vous n'aviez pas mis virtuel. Si vous voyez que si nous avons tels points de données qui sont en fait des anomalies dans les données, ils peuvent en fait mal interpréter et cela est trompeur. Pour éviter ce fait trompeur, nous pouvons réellement améliorer ces informations. Nous pouvons le rendre bien plus que dilutif. J'y ajoute l' écart type. Essayons de comprendre en termes très simples recherchés, qu'est-ce que l' écart type ? Par conséquent, l'écart type est en fait la distance et la distance est en fait l'écart uniquement. Il s'agit d'une distance de la distance entre les points et la moyenne. Vous pouvez voir que dans les atomes verts, vous pouvez voir que c' est la distance, à partir de ce point. La moyenne. L'écart type nous indique en fait combien tous ces points de données sont éloignés de la moyenne. La raison pour laquelle nous faisons cela est de comprendre à quel point ces points de données sont plus proches de la moyenne. Si je dis qu' il y a 18 téléphones vendus chaque jour depuis sept jours. Et l' écart type est également moindre. Dans cet écart type est inférieur, cela signifie que les distances sont inférieures. Cela signifie que les points de données sont plus proches de la moyenne. Ce sera une bonne information. Mais si l' écart type est élevé, cela signifie que ces points sont en réalité éloignés de la moyenne. S'ils sont loin de la moyenne, cela signifie qu'ils s' écartent de la moyenne. Et cela pourrait dire l'entreprise qu'en fait, la moyenne était aussi noire. Les points présenteraient en fait écart important est une information intéressante à ajouter à celle-ci. Comprenons comment calculer l'écart type. C'est très simple. Il suffit de calculer ces distances vertes. Vous pouvez voir que si je voulais obtenir cette distance verte, j'ai juste besoin de soustraire cette valeur de cinq avec la moyenne. Si je soustrais 18 de cinq, j'obtiendrai cette région. Ce que je vais faire, c'est que je vais calculer pour eux tous. Et alors, même si ce n'est pas négatif, nous ne voulons pas le faire, nous ne sommes pas intéressés par les valeurs négatives car l'écart type est en fait l' ampleur de ces points de données. sont loin de la moyenne. Nous prenons les carrés de ces distances. Puisque nous voulons que l' écart représente l'écart de tous les points qui les résument et nous l' afficherons ainsi. Et le numérateur. Encore une fois, voir 130 par sept, je l'ai pris d'ici, ce qui est la moyenne. N'utilisez pas Indian Point 57 car les calculs deviendront beaucoup de ses cheveux. Si vous utilisez 130 par sept, il vous suffit de le soustraire de 15. Vous pouvez aller au loin et nous allons quadriller toutes ces distances comme celle-ci. Et ensuite, nous allons les additionner. Enfin, nous allons le diviser par le nombre de points de données dont nous disposons. Nous disposons de sept points de données sur le calcul. Si vous calculez cette valeur entière, vous obtiendrez une valeur de 69,357, qui se trouve ici. Puisque nous avons fait le carré de ces chiffres, il faudra le notifier. Pour cela, nous allons utiliser la racine carrée. Donc, après avoir obtenu la racine carrée, j'obtiens cette valeur, qui est 8,32, et c' est en fait l' écart type. 8,32 est l' écart type de ce graphique. Essayons de comprendre ce qu' est ces informations et comment elles amélioreront l'information. Alors 8.32, qu'avons-nous présenté ? Cela signifie que 1818 téléphones ont été vendus chaque jour en moyenne au cours des sept derniers jours. Mais il y a eu un écart de huit points. Je vais écrire ici plus huit points. En fait, c'était 8,32. Je vais devoir écrire qu' il y a eu un écart de 8,32, ou nous pouvons dire qu'il y a eu une déviation de huit os. Maintenant que cette déviation peut être plus huit et moins huit environ, je devrai donc l'écrire plus moins huit. C'est vrai ? Ce n'est pas une très bonne information. À partir de ces informations, une personne saura que oui, 18 téléphones ont été vendus en moyenne et que l' écart type était de huit, n'est-ce pas ? Il n'y a donc pas eu de hausse et de baisse des ventes en une seule journée, n'est-ce pas ? Donc, si l'écart type est inférieur à celui-ci, c'est le bon parce que cela signifie que ces valeurs sont en fait plus proches de cette ligne, c'est-à-dire la ligne rouge, qui est la moyenne. Et s'ils sont plus proches, cela signifie que la valeur que nous allons obtenir ici est en fait proche de la moyenne. Et l'information sera bien meilleure car 18 points pourraient être vendus et il y aura moins dxy une ou deux cellules, ce qui n'aura pas beaucoup d'importance. C'est ainsi que nous calculons l'écart type. Et c'est la signification de écart type, car il complète cette information et ajoute à cette information qu'il y aura un accroissement ou une diminution de cette valeur. à l'intérieur de cette moyenne, 18 volts seront vendus chaque jour en moyenne, mais il pourrait y avoir une augmentation ou des degrés de huit points maximum. Passons maintenant au deuxième. Le troisième, qui est la variance. Nous avons maintenant migré la racine carrée de cette valeur ici. Si ce n'est pas le cas, cette valeur est connue sous le nom de variance. Vous pouvez voir ici que c'est des Lydiens. Donc 69,387, c'est des millions. Que signifie maintenant la variance ? Cette variance est également la somme des distances entre tous ces points de données et la moyenne. Que se passera-t-il si la variance est moindre ? Comprenons donc ce qui se passera si la variance est une leçon. Nous voulons également comprendre quelle est la signification de cette valeur ? Que se passera-t-il si la variance est élevée ? Si la variance est plus faible ? S'il est plus bas, cela signifie que les distances entre ce point et la moyenne sont en fait plus faibles. Parce que plus bas, cela signifie que ces points sont très proches de la moyenne. Ils sont plus proches de la moyenne. Ici, je peux écrire que les lectures sont abaissées. Cela signifie que les points sont proches de moi. C'est la distance. S'il est plus bas, cela signifie qu'ils sont très proches de la moyenne. Que se passera-t-il si la variance est élevée ? Si la variance est élevée, c'est essentiellement parce que ces distances étaient très élevées. Ces différences étaient très élevées. Donc, si ces distances sont très élevées, cela signifie que les points sont très éloignés de cette moyenne. Nous avons la moyenne ici et les points sont dispersés. Leur startup, cela signifie qu'il est loin de l'être. Voyons maintenant comment nous pouvons utiliser ces deux éléments importants sujet de la variance pour l' appliquer réellement en science des données ou en apprentissage automatique. Dans le machine learning, il existe un concept connu sous le nom de clustering. Et en regroupant ce que nous faisons, nous avons essayé de former des groupes au sein d'une donnée. Ce que je vais faire ici, c'est que je vais dessiner un graphique très simple ici. Considérons que nous avons ici ces points marqués en noir. Et ensuite, nous avons ces esprits. Micelle était peut-être due, n'est-ce pas ? Nous avons donc tout ce jeu de données, mais Margaret est divisé en deux groupes ou clusters différents. Maintenant, ce que je peux faire, c'est que la variance sera réduite. Cela signifie que les valeurs sont plus proches. La variance est élevée, alors cela signifie que les valeurs sont loin de la moyenne. Pour former des clusters ou des groupes au sein de nos données, il existe deux conditions. La première condition est qu'au sein d'un groupe, si vous considérez ce groupe, au sein du groupe, les éléments de données doivent être plus proches les uns des autres. Ils doivent être plus proches les uns des autres. Et comment pouvons-nous nous assurer qu' ils sont plus proches les uns des autres en calculant la variance qu'ils sont plus proches ? De même, si vous voyez cela, si nous voulons créer cette boucle, nous devrons nous assurer que ces éléments sont très proches les uns des autres. C'était la première condition que les éléments, les éléments d'un groupe au sein d'un groupe soient plus proches. C'était la première condition. Nous savons que nous pouvons utiliser l'alias pour cela. Il y a également une deuxième condition. La deuxième condition indique que si vous souhaitez former des groupes, première consiste à s'assurer que les éléments d'un groupe sont proches les uns des autres. Deuxièmement, il fallait s'assurer que les valeurs de ce groupe et de ce groupe sont loin les unes des autres. Très bien, donc ces valeurs devraient être loin les unes des autres. Et c'est logique parce que nous voulions nous assurer que les groupes sont plus proches. Ils ne savaient pas au sein d'un groupe que le point de données devait être plus proche. Par conséquent, ils forment une grappe. Mais nous voulons également nous assurer qu'ils sont loin l'un de l'autre, alors seuls nous pourrons faire distinction entre ces deux groupes. Nous pouvons utiliser ce concept de variance pour garantir ce regroupement au sein d'un jeu de données. Et c'est très important et cela ne sera compris que si vous savez comment la variance, si vous augmentez la variance, elle sera loin de la moyenne et les points sont loin les uns des autres. C'est une chose. Permettez-moi maintenant de passer au dernier concept très important, connu sous le nom de distribution normale et gaussienne. Donc, pour cela, je vais supprimer ce graphique ici. Très bien, essayons donc de comprendre ce qu'est la distribution gaussienne normale. Avant de comprendre cela, nous devons comprendre la signification de la distribution. Un exemple très simple de distribution est disons que j'ai dix chocolats et qu'il y a des caractéristiques. Et ce que je peux faire, c'est que je peux leur distribuer ces 10$. Et c'est en fait connu sous le nom de distribution. C'est la signification anglaise de la distribution, la même chose qu'ici. De plus, dans la distribution, nous avons essayé de distribuer le x, c' est-à-dire les entrées. Faites un réarrangement. Nous appelons y aux sorties. Dans la gamme. Supposons que nous ayons une fourchette de 0 à un. J'ai ces points de données et je distribue ces points de données dans ces plages en les tracant, n'est-ce pas ? Donc, pour cela, j'ai besoin d'une fonction f de x, qui va réellement prendre cet inverse. Et il veillera à ce que ces entrées se situent entre ces deux-là, c' est-à-dire celle-ci, c' est-à-dire cette plage. Ce n'est qu'un exemple pour expliquer ce qu'est la distribution. Donc, si nous voulons distribuer les éléments, nous utiliserons différents types de distributions. Si la sortie, qui est la plage, si elle est provabilité, est connue sous le nom de distribution de probabilité. Comprenons maintenant ce qu' est la distribution gaussienne. La distribution gaussienne est également connue sous le nom de distribution normale. Et nous devrons vraiment le comprendre à l'aide d'un graphique. Ce graphique a à, que je vais dessiner est en fait une représentation de cette fonction ici que j'ai là. Vous pouvez voir que ce f de x un divisé par tout, sous la racine de deux pi e élevé à la puissance moins la moitié, x moins la moyenne et l'écart type carré entier. Il s'agit donc d'une fonction qui représente la distribution de prudence. Et ici, vous pouvez voir ce symbole qui est rho. Cela représente l' écart type. Cette valeur, qui est mu, représente la moyenne. Ici, nous avons l' écart type et ici nous avons la moyenne. Donc, si nous avons une moyenne et un écart type, nous pouvons utiliser la distribution gaussienne. Ce x ici représente les points de données dont nous disposons. Donc, si je dois fournir les points de données ici au x, il va me donner et il va réellement distribuer l' entrée sur une certaine plage. Quelle que soit la valeur que cette fonction f x me donnera, je la tracerai. Et les mains de la hanche, c'est en fait dans une gamme que nous appelons ça comme les sorties, non ? Nous allons maintenant comprendre quelles sont les étapes à suivre pour créer réellement le graphique de la distribution normale, qui est le graphique de cette fonction. La première étape consiste à marquer une valeur qui se trouve au centre de cet axe. Et cette valeur sera la moyenne. Donc, 18,57 c'est la moyenne. Pour plus de simplicité, je ne fais que préciser la valeur absolue. C'est en fait la méchante ici. Je vais utiliser Mu pour représenter ça, n'est-ce pas ? Maintenant, la deuxième étape consiste à ajouter, à créer d'autres marqueurs ici en ajoutant et en soustrayant l' écart type. Alors, comment puis-je le faire ? L'écart type est de 8,32. Et encore une fois, je vais prendre la valeur absolue de huit. Si je l'ajoute à ça. Ici, je l'obtiendrai quand D6. Si je soustrais huit de cela, j'ai une valeur de dix. Il s'agit en fait l'écart type qui est représenté par le rho. Et rho est égal à huit. Dans notre cas, je prends la valeur absolue. C'est la première étape. C'est ce qu' on appelle en fait le premier. Un écart type. Maintenant, la troisième étape consiste à calculer le total et le deuxième écart type. Et c'est aussi simple. Il suffit d'ajouter l'écart type à ce nombre. 26 plus huit équivaut en fait à 34. Ici, nous avons un NAD et je vais devoir faire de même ici. Je devrai soustraire la valeur de huit de ces dix, puis la valeur sera due. Ainsi de suite, nous pouvons le faire comme ça sur ce graphique. Il s'agissait du premier écart type. Vous pouvez voir que celui-ci était ici le premier écart type. Celui-ci est le deuxième. De même, nous pouvons créer beaucoup plus d'écarts types ici en ajoutant simplement l' écart type à la moyenne. La question se pose donc : qu' est-ce que nous essayons de faire avec ce graphique ? Quel est le motif de ce graphique et ce que nous allons utiliser dans la science des données ? Revenons maintenant à notre exemple. Dans notre exemple, nous avons indiqué que le nombre de ventes en moyenne était 18 et qu'il y a eu une augmentation ou une diminution de huit téléphones mobiles. Ici. Si j'essaie de dessiner cela, si vous pouvez le voir ici, nous avons une moyenne et un écart type. Ce que nous voulons faire, c'est analyser que si l'écart type augmente, si l' écart type augmente, quel sera l'impact sur les points. Si j'incrémente l' écart type, quel sera l'impact sur ces points de données ? Vont-ils se rapprocher la moyenne ou ils vont s' éloigner de la moyenne ? Ce que nous faisons, c'est que nous complotons cela. Nous prenons la moyenne et nous prenons l'écart type et les points que nous avons fournis à cette fonction. Et on observe que si vous fournissez cette fonction, vous obtiendrez un graphique comme celui-ci. La quatrième étape consiste à dessiner le graphique pour cela. Il s'agit de l'axe Y. Cet axe des Y représente une valeur faible et une valeur élevée. Nous voyons donc ici une situation moins probable. Et ici, nous constatons une situation très probable. Donc, fondamentalement, cela signifie que si la valeur de cette fonction fx est hauteur, si elle est plus élevée, cela signifie que le point est très susceptible d'être plus proche de la moyenne. L'essentiel est donc que nous voulons nous assurer que nous voulons comprendre à partir de ce graphique comment les points de données s' écartent de la moyenne. Est-ce qu'ils se rapprochent de la moyenne ou ils vont loin à la moyenne pour ce graphique qui aidera. Maintenant, dessinons ce graphique. Donc, 18 c'est la moyenne. Je vais donc juste tracer une ligne pointillée ici. Maintenant, si vous essayez de dessiner ce graphique, il s'agit de la première déviation. Je vais donc dessiner une autre ligne pointillée ici comme celle-ci. Il s'agissait donc de notre premier écart type et c'est la moyenne. Essayons maintenant de dessiner à travers les effets de cohorte, qui est ici. On observe qu'un golf en forme de cloche est observé. Ça se passe comme ça. Lorsqu'il touche le premier écart type, il commence à augmenter. Ta neige remonte comme ça. Et quand il atteint la moyenne, commence à descendre comme ça. Et puis il est noirci comme ça. Ceci est connu ici sous le nom de courbe en forme de cloche, et c'est l'objectif de f de x, qui est cette fonction. Voyons quels sont les faits importants à ce sujet. On observe que lorsque vous fournissez ces entrées, la moyenne et l' écart type, lorsque nous obtiendrons cette courbe, il est absorbé que 34 % de tous les points de données se trouvent dans cette région, que je marque ici. 34% la mentiront et 34% de la ligne dans cette autre moitié. Au total, 68 % de tous les points de données se situeront dans ce premier écart type. Qu'est-ce que cela signifie ? Cela signifie que si je prends cette valeur de dix, cela signifie que si le nombre de ventes se situait entre dix et 26, 68 % sont en réalité là, ce qui est plus proche de la moyenne. Essayons maintenant de comprendre ce qui se passera si je prends une valeur ici, supposons ici une valeur qui repose sur la moyenne. La valeur repose sur la moyenne. Jetons un coup d' œil à cette formule. S'il est 91, la moyenne, elle a une valeur égale à la moyenne, qui est 18,57. Cette valeur est ici 18,57 moins 18,57. Cela deviendra en fait 0. Et comme il y a moins de moitié multiplié par 0, il sera 0. Et ensuite, nous avons été élevés au pouvoir 0 ici. Cette valeur entière sera égale à 0. E élevé à la puissance 0 est égal à un. Ce que nous obtenons, c'est que seul fx est égal à un par un sous la racine de deux pi, alors la valeur du point de données est en fait égale à la moyenne. La valeur d'un par deux pi, je l'ai déjà calculée. Il est en fait égal à 0,4, ce qui est ici une contrainte. Je peux réellement écrire ici la fonction f de x est égale à 0,4 divisée par l'écart type. Vous pouvez voir l' écart type. Et vous pouvez voir les effets de fonction, ils sont inversement proportionnels les uns aux autres. Puisqu'ils sont inversement proportionnels les uns aux autres. La valeur de l' écart type va augmenter. La valeur de l'écart type augmente la valeur de l' éthique que nous obtiendrons. Vous pouvez voir à partir de la courbe lorsque l'écart type augmente, que le graphique baisse. C'est un point important ici que si l'écart type, ce qui est fondamentalement logique parce que l'écart type est en fait la distance entre le point et la moyenne. Vous allez augmenter cette distance, puis il sera moins probable que le point soit plus proche de la moyenne. Donc c'est mon dysfonctionnement qui a une valeur inférieure. Maintenant, supposons ici, essayons de comprendre un graphique de plus, ce qui est une autre chose ici, ce qui est très intéressant. Supposons donc qu'au lieu de cela , nous avons un écart type de deux. Donc, au lieu de huit, j'ai un écart type de deux. Supposons que la valeur soit deux. Dans ce cas. S'il s'agit de deux, nous savons qu'il est inférieur à ce cas. Cela signifie que les points sont beaucoup plus proches de la moyenne. Essayons donc de tracer cela sur ce graphique et sur Lexi, que notre logique selon laquelle les points se rapprochent de la moyenne reste vraie dans le graphique ou non. Nous savons que les étapes du dessin du graphique sont simples. Nous devrons ajouter l' écart type à la moyenne. Donc ici, 18 plus deux deviendront 2018 moins deux deviendront 16. Maintenant, si je veux dessiner, le graphique se déroulera comme ça et le graphique sera plat. Mais quand il atteint l'écart type complet, commence à augmenter comme ça. Mais maintenant, la question est la suivante : va-t-elle baisser ou va aller plus haut ? Ce code, va-t-il baisser ? Et ensuite, vers le bas ? Ou va-t-il aller plus haut ? Et alors je ne sais pas ? La réponse à cette question est la logique elle-même. Il y a deux logiques qui expliquent cela. Le premier, c'est que 68 % des points qu'on observe qu'il va occuper ici. Il est donc évident que si vous deviez réduire cela, vous devrez augmenter la courbe pour tenir compte de ces valeurs de 68 %. C'est la première logique que vous pouvez déduire. logique de bon sens la plus importante ici est que si vous diminuez l'écart type, vous avez des degrés de l' écart type. Cela signifie que les points sont plus proches de la moyenne. S'ils sont déjà plus proches de la moyenne , ils vont devenir plus élevés. C'est très probable. Il est souligné que les points sont plus proches de la moyenne. Cette valeur deviendra ainsi et elle redescendra, le premier écart type, et encore une fois elle deviendra plate. Tout cela concerne ces sujets importants et vous utiliserez ces concepts importants dans l'apprentissage automatique. Vous utiliserez la variance et apprentissage automatique pour les groupes dispersés. Vous utiliserez votre régularisation des bonbons également étudié le problème du surajustement. En gros, c'est tout pour cette vidéo. Merci d'avoir regardé.