Transcription
1. Introduction à la science des données: Bonjour à tous, bienvenue dans
les scores Data Science. Dans ce cours, nous
allons couvrir tous les
aspects pratiques de la science des données. Il s'agit en fait d'un
projet basé également sur B, en
fait, soumissionnant sur
un projet et nous utilisons les concepts en science des données et nous l'avons appliqué à ce projet. Après la fin de ce cours, vous pourrez vous
familiariser avec
tous les concepts importants de la science des données, notamment l'analyse des données, prétraitement des
données et les techniques de
visualisation. Donc, fondamentalement x plus, n'est-ce pas ? Ou est-ce que cela signifie qu'
est-ce que la science des données ? Et je vais vous donner
un aperçu de ce que vous allez
couvrir
exactement dans ce cours. Tout d'abord, vous pouvez constater que la science des données consiste à
extraire des
connaissances et des informations à partir de données bruyantes
et non structurées l'aide de certains éléments
et de certains processus. Fondamentalement, il y a beaucoup d'entreprises et
de nombreux secteurs
utilisent réellement différents types de données. Ils ont des millions de disques. Afin de leur structurer la main, vous extrayez les connaissances au profit de leurs entreprises. Ils nécessitent des techniques de
visualisation des
données, des techniques de prétraitement des
données également, car la science est le pied
grandissant et émergent et de nombreuses opportunités
pour les scientifiques des données. Et pendant toute cette période,
la norme est en hausse dans l'industrie. Au cours de ce cours,
je ferai de mon mieux pour vous donner un aperçu caché de la façon
de mettre en œuvre tous les concepts
construits dans la science des données. Commençons par le docteur
a répondu à mon discours sur le sel, l'importateur de phosphate de escalade est le
combat et Browning. De plus, nous commencerons par
la programmation Python. Je suis d'accord avec les bases de
500 vidéos de ce cours, vous pourrez
comprendre ces Oreos épicés. Et après cela, vous
pourrez
commencer la science des
données sur six. Très bien, donc la prochaine
exigence est le dévouement, car l'analyse des données
est très ancienne et
McDonald's parce
qu'ils l'ont acheté que
vous avez un McDonald's parce
qu'ils l'ont acheté que bon
nombre de vacances. Pour comprendre ce qu'est
le jeu de données, comprendre quelles
sont les techniques dont vous aurez besoin
pour trouver un jeu de données. Chaque bien que j'ai dit sera différent des autres et il doit y avoir différentes manières
et techniques différentes. Il sera traité ces données, analysera ces données qui
nécessitent beaucoup de dévouement. Et c'est la raison pour laquelle il s'agit d'un domaine émergent. Voyons maintenant quels sont
les outils que nous
utiliserons trop longtemps, comme je le
suppose, nous n'utiliserions pas de programmation
pilote, de
bagarres et de bibliothèques. Nous pouvons utiliser Jupyter Notebook, qui est en fait votre
type IDE dans une mégabase huit, l'autre à droite,
l'ancien
les inviter à analyser
différents jeux de données. Le talon a décalé après avoir téléchargé les jeux de données importants et jeté
un coup d'œil à ce que nous pouvons faire
exactement. Ensuite, il y a quelques bibliothèques
importantes comme la bibliothèque pandas,
scikit-learn, qui est très moderne,
retraitent les données, apportant
également une expérience
que vous pouvez voir. Leur
cavité FEV1 et Microsoft ici est utilisée pour la visualisation
des données
que nous avons des bibliothèques de
conseil
telles que TensorFlow, Python utilisant le Deep Learning. Il fait également quelques embellissements
comme la classification aléatoire des forêts, les arbres de
décision et certains modèles d'apprentissage
automatique. Et aussi, faites-vous
cela dans ces jeux de données, abordant
en grande partie des choses
très pratiques qui sont prêtes à
venir dans ce cours. Alors, rendez-vous dans les prochaines heures du
didacticiel. La logique.
2. Explorer les ensembles de données Kaggle: Il s'agit de la première
vidéo de ce cours. Ces scores de science des données
et v vont
réaliser beaucoup de choses
comme le prétraitement des données, visualisation
des données et beaucoup de choses
comme l'échantillonnage des données, l'
agrégation, la réduction de la dimensionnalité, toutes ces choses que
vous allez faire. Mais avant de commencer par l'un
des concepts, je veux d'abord vous familiariser avec le site Kaggle,
qui est kaggle.com. Je vais donc vous donner
tous les avantages de l'utilisation du calcul et par
chaque
passionné de science des données utilise l'omoplate. Tout d'abord, il vous
suffit d'aller sur le site Web. Et ici, Kaggle est
essentiellement un site Web qui fournit
de nombreux jeux de données et beaucoup de choses qui sont vraiment utiles à tous les étudiants qui veulent apprendre et à tous les étudiants qui ont également
Je voulais concourir, n'est-ce pas ? y a donc aussi des compétitions. Donc tout d'abord, vous pouvez
voir sur ce var ici, ici nous avons le jeu de données. Donc, si je clique ici, vous
pouvez voir qu'il nous montre une liste de quelques jeux de données de formation que vous pouvez voir il a parlé
des données, des données boursières de Google. Et il y a beaucoup de jeux de données
populaires que vous pouvez voir ici comme Boston Housing, NSL, KDD, classification des
prix mobiles. Donc, dans
l'ensemble du cours, nous allons effectuer beaucoup de choses comme le prétraitement
des données. Pour cela, nous allons
récupérer différents jeux de données de Kaggle. explique par le fait que lorsque vous
disposez
de différents types
de jeux de données,
vous serez confronté à différents
types de défis. Et cela vous
aide vraiment à valoriser les compétences en science des données lorsque vous
étudiez réellement la science des données. Par exemple, supposons que
vous ayez un jeu de données et que
vous vouliez voir
comment il y en a, exemple, un ASR disponible dans notre jeu de données et qu'il y a des éléments
en double dans ce jeu de données. Il y a aussi d'autres
défis. Pour cela, si vous allez choisir différents jeux de données
différents, choisir différents jeux de données
différents,
vous aurez
une bonne visibilité sur les
différents types de défis auxquels vous pourriez être confronté dans votre carrière dans
la science des données. Nous allons donc récupérer divers jeux de données et
je choisirai cet ensemble de données pour résoudre ou simplement vous
montrer certains concepts. Et ici, vous pouvez voir que nous
avons ces jeux de données. Il comporte également des
cours et de l'asthme. Il y a aussi d'autres choses
comme les compétitions. Fondamentalement, Kaggle est exactement comme un GitHub pour les développeurs, donc Kaggle est pour la science des données. Nous avons donc des
compétitions ici. Ils sont également basés sur les prix. Vous pouvez donc obtenir l'
argent si vous
y participez et vous, lors de ces compétitions, vous pouvez voir que ce sont quelques-uns
des calculs ici. Maintenant, nous avons un cours, partie
intéressante maintenant dans le calcul que
vous allez
utiliser la programmation Python
pour écrire et faire toutes les données, retraiter, analyser trucs. Pour cela, vous n'avez même
pas besoin de créer un environnement
Python complet. Vous pouvez simplement cliquer
sur Créer ici. Et ici, vous pouvez simplement cliquer
directement sur le nouveau carnet de chargement et vous pouvez créer votre propre carnet de notes, n'est-ce pas ? C'est donc une chose
intéressante. Vous pouvez le faire
directement dans ce bloc-notes, qui est l'environnement Python, vous
donnera également accès
à la bibliothèque de Panda, scikit-learn, de sorte
que vous n'avez pas besoin de les installer manuellement
dans votre prochain sommet. Vous pouvez voir ici que
nous avons quelques jeux de données. Une partie intéressante que je
vais vous montrer ici est que ce jeu de données qui
prendra un certain temps à charger ici. Ici, nous avons une progression
du classement des utilisateurs et tout ça. Jetons donc un coup d'œil
à quelques jeux de données ici. Bon, donc nous avons ici
le Boston Housing. Je vais juste
cliquer sur celui-ci. Et ici, vous pouvez voir que
cela s'ouvrira dans une minute. Vi possède différents types de
jeux de données et pas vraiment
ces jeux de données. Les gens, la communauté du fret, publient
en fait beaucoup de
leurs propres ordinateurs portables et leurs méthodes d'
analyse des données sur Kaggle. Ce que vous pouvez faire, c'est que vous pouvez voir qu'il y a des cahiers et vous pouvez apprendre d'eux. C'est vraiment une très bonne chose. Tout comme vous voyez le code de
quelqu'un sur GitHub et que vous
en apprenez ici. Je pense que je dois le rafraîchir. Il est ouvert maintenant. Vous pouvez
donc voir ici les données. Vous pouvez voir que les données sont
au format CSV par points et il
s'agit de l'ensemble de données. Mais ce qui est intéressant ici,
c'est la partition, un onglet ici. Donc, si vous continuez à froid, vous serez en mesure de voir
qu'il y a beaucoup de gens hors de cette communauté d'
échafaudages qui les attirent tous pour visualiser ou prétraiter
ces données, n'est-ce pas ? Cliquez ensuite sur
celui-ci, qui est ici. Vous pouvez voir que cela montre
qu'il s'agit du bloc-notes et
qu'il s'agit des bibliothèques utilisées par ce bloc-notes. Nous allons les utiliser
dans tout ce cours. Je vous donne simplement un aperçu
de la façon dont vous
pouvez utiliser Goggle de la façon dont vous
pouvez utiliser Goggle car c'est un outil
très important pour tous les scientifiques des données. Vous pouvez donc voir que nous avons
réfléchi à Mark Floyd, seaborne pour
la visualisation des données et la science-fiction. Et ici, vous pouvez voir que cette personne a
écrit son propre code ici et pour visualiser le
jeu de données,
comprendre et tracer le jeu de données. Vous pouvez tout voir
ici et commander également ici. Vous pouvez voir qu'il y a du bien aussi. C'est donc une très bonne plateforme
pour apprendre la science des données. En gros, nous
allons enseigner toutes
ces fonctions et tous
ces complexes,
grâce à vous. Vous n'avez donc pas besoin
de vous en inquiéter. C'est juste que je
vous donne une idée de
ce que vous pouvez attendre
de ce site Kaggle. Donc, en gros, c'est
tout pour ce tutoriel. Dans le prochain tutoriel,
nous allons commencer par récupérer un jeu de données et l'importer à l' aide de la bibliothèque Pandas en Python. C'est donc tout pour ce
tutoriel. Merci d'avoir regardé.
3. Démarrer avec les Pandas: Dans cette vidéo, nous
allons discuter de certaines
des fonctions très importantes
de la bibliothèque Pandas. Et nous discuterons
exactement de
ce que nous
pouvons faire et utiliser,
en utilisant bibliothèques Python et
Pandas pour analyser les données
importantes,
comprendre et extraire un formulaire de connaissances d'un jeu de données donné. Ce tutoriel va donc être
très important. Et celui-là, nous
allons couvrir certaines des fonctions très
élémentaires. Et au fur et à mesure que nous allons passer
à ce cours, nous explorerons certaines tâches
plus importantes que certaines tâches complexes qui peuvent être effectuées facilement à
l'aide de la bibliothèque Pandas. Les premières choses pour nous doivent déclencher le carnet Jupyter. Voici donc le
cahier Jupyter Open et ici nous devons créer
un nouveau bloc-notes Python à l'aide de l'arborescence Python. J'en ai déjà créé
un qui porte
le nom pi bond comme central. Et ce que nous devons faire, c'est que
nous devons simplement
ouvrir celui-ci ici. Maintenant, nous pouvons écrire le programme Python
et effectuer toutes les tâches de science des données que nous voulons faire ici, n'est-ce pas ? La prochaine étape consiste donc à
télécharger le jeu de données. Vous pouvez télécharger ici n'importe quel
jeu de données de votre choix. J'ai téléchargé le jeu de données Boston
Housing Prices et il est disponible
sur google.com. Et je vais également donner tout
le lien à cela. Dans la description
de cette vidéo. Vous pouvez le télécharger à partir de là. Et ici, j'ai un dossier
nommé données de logement. Et vous pouvez voir que nous avons
un CSV de logement ici. Si je veux juste le faire, je devrai d'abord voir à quoi ressemble
cet ensemble de données. Pour cela, je vais
l'ouvrir ici. La première chose que nous pouvons voir ici, qu'il y a quelques colonnes dans
ce jeu de données et il y
a beaucoup de lignes
dans ce jeu de données. Ce que nous voulons faire,
c'est nous
assurer que ce fichier
CSV de logement que nous
créons, nous allons
créer un DataFrame qui utilisera ce jeu de données entier et il l'
importera ici dans
Carnet Jupyter. Et quoi que nous fassions
sur ce DataFrame, cela n'aura pas d'impact sur
nos données d'origine. Donc, même si quelque chose
ne va pas dans la programmation
Python, si nous faisons quelque chose de mal ici, cela n'aura pas d'impact sur
les données d'origine. Tout d'abord, importons la bibliothèque des pandas. Nous allons donc utiliser la
commande import pandas. Et depuis, nous pouvons l'
attribuer comme Elias ou un nom ici, qui est BD, n'est-ce pas ? Ainsi, chaque fois que nous voulons
utiliser la bibliothèque des mineurs, nous pouvons utiliser le raccourci SPD. La première chose est que nous devons
créer un DataFrame. Appelons ça comme DS. Et cette DataFrame
contiendra en fait le jeu de données de
notre boîtier csv point. Voyons donc comment
importer le jeu de données ici. Nous allons donc utiliser la fonction csv csv de lecture de points de
soulignement de point, qui est une fonction intégrée
de la bibliothèque Pandas. Et ici, nous pouvons spécifier le
chemin d'accès aux données sur le logement, qui se trouvent sur ces données de logement de
Boulder. Et le nom du fichier
contient le point csv. Vous pouvez donc voir ici que j'ai
importé l'ensemble de données ici. Et cette DataFrame, qui
est une variable DF ici va contenir l'
ensemble du jeu de données ici, c'
est-à-dire les lignes et les
colonnes du logement dorsi. Maintenant, la première passe que
nous allons voir est de
trouver les cinq premières lignes de ce jeu
de données,
disons. C'est la première partie
que nous voulons faire. Pour cela, nous pouvons utiliser une fonction
très utile, qui est la fonction tête. Head signifie les règles de départ. Je peux donc spécifier
n'importe quel numéro ici. Supposons donc que nous
voulions en préciser cinq. Maintenant, si je vais appuyer sur Control Enter. Maintenant, vous pouvez voir ici
qu'il va me montrer les cinq premières lignes de ce
DataFrame, qui est Bf. Maintenant, rappelez-vous que je vous ai
déjà dit que si nous apportons des modifications
à ce jeu de données, disons que je modifie n'importe quelle valeur de ce
DataFrame, qui est df. Cela n'aura pas d'impact sur les données et le point de
logement csv. Donc, même si nous voulions
apporter des changements, nous avons une ligne distincte pour ce
que nous pouvons faire. Mais ici, l'
essentiel est que nous pouvons faire n'importe quoi ici, comme tâches de prétraitement des
données et tout, et cela n'aura pas d'impact sur
les données d'origine. C'est ainsi que nous
pouvons voir comment extraire les 54 premières lignes à
l'aide de la variable de tête. Passons maintenant à la fonction
très importante suivante, qui est la fonction queue. Disons maintenant que nous
voulons connaître la première, disons les cinq dernières
lignes de ces données. Ok, donc nous le
faisons essentiellement parce qu'il est très important que lorsque
nous recevons un jeu de données, nous l'analysions très bien. Nous utiliserons ces
fonctions très souvent à l'intérieur de nos programmes de
science des données, peu importe ce qui sera écrit ici, car disons que je
souhaite effectuer une tâche de
prétraitement des données et maintenant je veux voir quelles sont les modifications apportées
au jeu de données. Je n'ai donc pas besoin de charger
l'ensemble de données ici. Je peux simplement charger les quatre
ou cinq premières lois et me faire une idée de la façon dont cela
a changé le jeu de données. C'est donc très important. Découvrons maintenant quelles sont
les cinq dernières lignes
de ce jeu de données. Vous pouvez voir quand
je cliquerai sur Entrée, Contrôle Entrée, vous verrez
qu'il y a les dernières lignes. Et ici, vous pouvez voir à ce
stade qu'il y a 488 règles et à l'intérieur
de cet ensemble de données. fonction très importante ici. Passons maintenant à
d'autres fonctions également. La première fonction importante
est la fonction de forme. Et ce n'est pas vraiment une
fonction, c'est une propriété. Donc, si je clique sur Control Enter, vous pouvez voir la forme du point df. Il me donne ce résultat ici. Ce résultat indique qu'
il y a 489 lois, il y a quatre colonnes. C'est une
propriété très importante car la plupart du temps, nous n'allons pas
ouvrir l'ensemble du jeu de données. Nous pouvons simplement déclencher cette propriété de
forme et nous pouvons savoir quel est le nombre de
lignes et de colonnes
à l'intérieur de notre jeu de données. Passons maintenant à une fonction
très importante, qui est la fonction décrite. Je vais contrôler Enter ici. Maintenant, lorsque nous utilisons la
fonction de description sur n'importe quel détail, il s'agit d'une fonction très importante et d'un outil très important pour les scientifiques
des données qui l'
utilisent réellement pour comprendre
le jeu de données. Vous pouvez voir ici
les quatre règles de ce jeu de données. Les quatre premières colonnes, qui est impair m, c'est le
rapport de pile B3 et m'ont donné raison. Nous pouvons donc voir ici que lorsque nous utilisons la fonction de
description, elle nous montre le nombre moyen. Std est synonyme
d'écart-type avec une constante. Ces termes signifient et
écart-type dans une vidéo distincte
car ils sont très importants en science des données. Ensuite, nous avons des hommes 2550
% et max. Maintenant, ce qui
nous donne, il décrit l'ensemble du
jeu de données et
nous donne une idée
de la moyenne de toute la colonne ici. Vous pouvez donc voir que l'atome, atome est une colonne entière et
la moyenne de cette colonne est 6,2 pour l'écart type
est de 0,6 pour quelque chose, et l'élément minimum
est de 3,56 quelque chose. Ces valeurs
sont également
essentielles dans la
visualisation des données. Donc, lorsque nous voulons
visualiser nos données, nous devons également voir quels sont
les écarts types, les moyens et tous ces éléments,
n'est-ce pas ? Il s'agit donc là encore d'une fonction très
importante, qui est la fonction de description. Passons à d'
autres fonctions cruciales. La première fonction
que nous allons faire est la fonction drop, qui est dans DFS a été supprimée. Ici. Nous allons
spécifier une colonne. Disons donc que je veux
déposer un atome de colonne. Je vais donc
spécifier l'article ici. Ce que je vais faire, c'est que je vais spécifier l'axe. Donc, l'axe un signifie colonne. Si l'accès est égal à 0, cela signifie qu'
il est faible. Donc ici, j'ai spécifié l'axe égal à un
parce que je voulais spécifier que l'élément est en fait
de colonne si c'était un non, si phi 0 ici. Maintenant, si je veux
supprimer ce jeu de données, n'est-ce pas ? Donc, si je dois appuyer sur Control
Enter maintenant, vous pouvez voir que ce jeu de données ne
comporte maintenant que trois colonnes, est-ce que m est supprimé. Très bien,
vous pouvez voir ici que nous avons déplacé
cette RMD
depuis le jeu de données. Maintenant, une chose importante que
vous remarquerez ici est que si je vais jeter
un coup d'œil à df.head, si je me souviens de cette fonction
et si je clique sur Contrôle Entrée, vous pouvez voir que cet élément est toujours
présent dans ce DataFrame. Maintenant, cela signifie qu'il
est en train de le supprimer temporairement et non
définitivement de ce DataFrame. Cela signifie donc que nous
devrons faire quelque chose pour
qu' il soit réellement supprimé
de ce DataFrame. Il existe maintenant deux
façons de le faire. Nous pouvons réaffecter DFS, df est égal à df dot drop. Donc maintenant, si je vais appeler
la fonction df.head. Vous pouvez maintenant voir qu'il a supprimé la colonne RM d'ici. C'est un moyen, mais j'ai
un moyen plus pratique ici. Au lieu de faire ce
vf équivaut à cela, nous pouvons utiliser
ici un autre paramètre qui est en place. est égal à vrai. Ensuite, nous allons exécuter ça. Il
supprimera les données, gagnera ces colonnes atomiques
du jeu de données. Et sur place est égal à
vrai signifie qu'il va supprimer à la place
du DataFrame. Donc maintenant, si je vais
appuyer sur Contrôle Entrée, vous pouvez clairement voir ici que l'élément est réellement
déplacé vers la droite ? Donc, l'utilisation de ce paramètre
sur place n'
est-elle que correcte ? Passons maintenant à d'autres
fonctions importantes. La prochaine
chose importante est que nous puissions également utiliser le df trois. Je vais appuyer sur Control Enter. Vous voyez qu'il me
donnera les
trois premières rangées, n'est-ce pas ? Donc, au lieu d'utiliser la tête, nous pouvons également utiliser cette
instruction qui est df, puis crochets,
et nous avons un deux-points ici, puis trois. C'est un. Une autre façon de
ne pas le faire si vous ne voulez pas
écrire la fonction tête, vous pouvez également l'utiliser. Il est plus rapide dans la nature. Passons maintenant à
d'autres fonctions comme suppression des premières colonnes, n'est-ce pas ? Nous allons donc accomplir cette tâche. Supposons maintenant que
vous souhaitiez supprimer ces deux ou trois premières
colonnes d'un jeu de données. Alors, comment allez-vous faire cela ? Jetons un coup d'œil à ça. Maintenant, nous avons la fonction DFT, et évidemment nous allons
utiliser la fonction drop ici. Medicare,
les paramètres vont changer. La première chose, c'est que je
vais écrire des colonnes. Et je vais spécifier ces colonnes de
paramètres. Je devrai donc spécifier toutes les colonnes que
je veux croire. La façon de faire est d'utiliser
des colonnes égales à df.columns. Ici, je peux spécifier le
nombre de colonnes. Donc, si je veux croire aux deux
premières colonnes, je vais devoir utiliser un deux-points. Et vous pouvez voir ici que je
vais devoir lui écrire. Maintenant. Le paramètre suivant est l'axe. N'oubliez pas de toujours
spécifier l'axe car il indique si nous
avons des lignes ou des colonnes. Quatre colonnes, nous
avons l'axe 1. Pour les lignes, nous avons l'axe 0. Et évidemment, le
dernier est le
paramètre X en place . Je vais
passer par ici. Maintenant, si je veux
essayer d'écrire df.head. Vous pouvez maintenant constater
qu'il a supprimé les deux premières colonnes
de notre DataFrame. premier do est en fait
représenté en utilisant
ce deux-points et deux. Et ici, nous avons df.columns. Nous avons donc spécifié les colonnes à l'aide de cette fonction df.columns. Voyons maintenant comment
supprimer les n dernières colonnes. Supprimer et dernière colonne. Supposons donc que vous ayez une tâche
dans laquelle vous souhaitez supprimer les deux ou trois dernières
colonnes du jeu de données. Encore une fois, nous utiliserons
la fonction drop. Ce sont donc essentiellement les, vous pouvez voir les variations de la fonction drop et
elles sont très cruciales car vous utiliserez
ces choses importantes vous utiliserez
ces choses importantes
quotidiennement lorsque vous
analysez le jeu de données. Donc, si nous voulons que les
N dernières colonnes insérées, pour nous, nous devrons
spécifier que nous voulons supprimer les
colonnes. Pour ça. Je vais à nouveau utiliser
df.columns. Juste ici. Je vais préciser, disons moins un contre spécifier l'
axe, qui sera un. Parce que la suppression de colonnes
et sur place est égale à true. Maintenant, ce que je vais faire c'est jeter un coup d'œil
au jeu de données lui-même. Très bien, vous pouvez voir ici, lorsque je spécifie moins un, il supprimera une
colonne de la fin. Vous pouvez donc voir la dernière
colonne qui a été créée, est maintenant supprimée de celle-ci, n'est-ce pas ? Donc, si j'en écris deux
ici et que je le
réexécute, vous pouvez voir un moins deux
avec la colonne est supprimée. Il supprime en fait une
colonne à cette position d'index. Nous devrons donc
spécifier deux points ici. Parce que si nous ne
spécifions pas la colonne, il ne va pas supprimer
les n dernières colonnes, n'est-ce pas ? Il ne supprimera que
la colonne et l'index moins deux
qui se trouve ici. Maintenant, si je vais frapper ça maintenant,
vous pouvez voir qu'il essaie
réellement de supprimer certaines des colonnes ici, n'est-ce pas ? Vous pouvez donc voir que les
deux premières colonnes ont été supprimées. Ici. Je peux encore faire une chose. Voyons ce qui se
passera si j'écris ici et un deux-points, n'est-ce pas ? Maintenant, vous pouvez voir que si
j'en écris deux et que c'est
le cas, les deux-points sont à
la fin, les deux dernières colonnes
ont été supprimées. Vous pouvez donc essayer
ces
différentes variantes pour examiner
ce que nous
pouvons faire exactement à l'intérieur
du jeu de données, car
c'est très important. Deux points signifie que nous
supprimons les n premières colonnes. Et si je lis, je fais deux-points, il va supprimer les n
dernières colonnes de notre jeu de données. Sur le DataFrame,
pas sur le jeu de données car le jeu de données
est intact, n'est-ce pas ? Passons maintenant à d'autres
choses également, savoir essayer de supprimer des
lignes de notre bloc de données. Nous avons le bloc de données ici. Il s'agit de notre DataFrame. Supposons que nous voulions croire les premières n lignes de
ce nouveau bloc de données. Voyons maintenant comment
nous pouvons le faire. Maintenant. Encore une fois, nous utiliserons
la fonction drop. La fonction est en fait une fonction très importante pour la suppression. Donc, Df Dot Dot Drop. Rappelez-vous maintenant que nous le voulons
ici, nous ne voulons pas
supprimer la colonne, donc nous n'allons pas
utiliser de colonnes égales à deux. Nous allons utiliser
la fonction df.head. Supposons que nous voulions supprimer les trois premières lignes
de notre jeu de données, c'est pourquoi je vais le fournir. Le prochain
paramètre important est maintenant l'axe. Maintenant, l'accès est faible, solos sont en fait 0 et le dernier paramètre est en
place, ce qui est vrai. Jetons un coup d'œil à ça. Très bien, vous pouvez maintenant
voir que c'est spécifique. Il montre ici que nous
avons une modification ici, c'
est-à-dire que vous pouvez voir
ou trouver dans l'accès. Donc, ce que nous devrons faire ici, df.head dot index, nous devrons spécifier
l'index ici. Alors seulement, il croira
aux trois premières rangées, n'est-ce pas ? Par conséquent, df.head trois signifie les trois premières lignes
de ce DataFrame. L'index de points
lui donnera l'index, la valeur, et il supprimera en fait les trois
faux rôles. Vous pouvez donc voir que
dans notre DataFrame, je montre
les premières photos. Les premières photos
ne sont donc pas à partir de 0123, elles commencent à
3456 ici. Si j'en spécifie cinq ici vous pouvez voir que le jeu de données
va changer, n'est-ce pas ? Ainsi, les cinq premières lignes, les
lignes vont être
supprimées de cette façon. Voyons maintenant comment
supprimer les n dernières lignes. Je ne peux le faire ici qu'en utilisant
simplement la méthode de la queue. Par conséquent, d of cinq nous donnera les cinq dernières lignes
du DataFrame. Et l'indice de points va en fait nous
donner un dysfonctionnement
de l'indice de la cinquième et de la
dernière cinquième colonne et il va les baisser. Donc maintenant, si je veux écrire
ici au lieu de la tête, si je veux écrire la queue. Vous pouvez maintenant voir que notre jeu de données comportait
au départ 488 lignes, et maintenant il montre
que le dernier est 4083, ce qui signifie qu'il a supprimé cinq lignes de notre bloc de données. C'est ainsi que nous pouvons supprimer premières et les lignes et
les dix dernières règles en utilisant la fonction d'index de
points df.head. Df dot, fonction d'index de points. C'est vrai ? Donc maintenant, je vais juste
venir là-dedans parce que nous allons maintenant
passer à d'autres
fonctions importantes. Voyons maintenant comment
résoudre les colonnes. C'est une chose très importante. est très important de trier les colonnes sur la
base, par exemple, noms ou de leurs
valeurs numériques par ordre
croissant ou de
noms ou de leurs
valeurs numériques par ordre
croissant ou décroissant. Et vous allez
le faire très fréquemment dans les jeux de données. Pour cela, nous avons une fonction simple qui est
la fonction de tri des valeurs. Nous allons juste écrire des valeurs de tri des points
df. Maintenant, ce que nous allons faire,
c'est qu'ils devront spécifier la colonne
en utilisant, disons que nous voulons
trier le volume RM, n'est-ce pas ? Et vous pouvez voir qu'il
s'agit de la colonne de l'article. Et ici, nous avons
5.796, puis 5.859. Après avoir trié cela,
il va en fait
changer dans l'ordre croissant, n'est-ce pas ? Donc, par article. Maintenant, la prochaine chose que
nous devons spécifier est la méthode sur place, qui sera vraie, n'est-ce pas ? Maintenant, je vais juste
afficher df.loc. Et ici, je vais spécifier la
tranche ici. Maintenant, vous pouvez voir que
c'est le cas, essayons-le ici. Vous pouvez maintenant voir que cette variable d'
élément est maintenant triée. C'est donc la principale utilisation de
la fonction de tri des valeurs. Il
triera en fait toutes les valeurs et toutes les valeurs
de ces colonnes RM. Vous pouvez donc voir que maintenant il s'agit de 3.5613.863 et de cette manière. C'est ainsi que fonctionne la fonction
des valeurs de tri. Supposons maintenant que nous voulions supprimer des valeurs en double
dans notre DataFrame. Supposons donc que nous ayons un
DataFrame où il
y a des valeurs en double
dans une colonne. Voyons donc comment nous pouvons le faire. Je vais commenter cela, et je
viendrai également dans celui-ci. Passons maintenant à la
façon de supprimer les doublons. Nous voulions supprimer les éléments
en double
du DataFrame que nous possédons. Encore une fois, une fonction très simple, qui est la fonction BF a obtenu la fonction de doublons de
soulignement. Nous écrirons en
place égal à vrai. Ce qu'il va faire, c'est qu'il
supprimera tous les doublons
d'un DataFrame. Puisque dans cet ensemble de données, nous
n'avons pas de doublons, nous ne pouvons pas le voir en action. Mais ce que vous pouvez faire, c'est que je vais vous confier une tâche
très simple. Vous pouvez en fait ouvrir
le fichier CSV de point de logement et créer des
valeurs dupliquées à l'intérieur de celui-ci, puis utiliser cette fonction d
de points, doublons de points. Et vous pouvez ensuite voir et
visualiser comment il a supprimé ces valeurs en double en
place,
ce qui signifie qu'il est
prêt à apporter des ce qui signifie qu'il est
prêt à apporter modifications dans le DataFrame
d'origine. Très bien, il s'agissait donc de certaines
des fonctions importantes, de la suppression, du tri et
beaucoup de choses que c'est maintenant la tâche très
importante, dont beaucoup est très importante comme
connu sous le nom de tranchage. Le découpage implique ici deux fonctions très
importantes
, à savoir la fonction LOC
et la fonction Lucy. Donc LLC signifie essentiellement localisation. Il existe deux méthodes, LOC et Lucy of the
Pandas DataFrame, qui nous aident à
trancher les colonnes et les lignes. Parce que, parfois, lorsque
vous analysez un jeu de données, vous ne souhaitez pas analyser
l'ensemble du jeu de données. Que voulez-vous analyser ? Partie simple et simple
de ce jeu de données. Vous voulez donc découper cela
afin que vous puissiez visualiser cela et que vous puissiez faire
beaucoup de choses avec cela. Très bien,
voyons comment
utiliser la fonction LLC et I LOC. La première chose est que nous
utiliserons la fonction df.loc. Et ici, nous préciserons 04. Maintenant, je vais spécifier les noms des colonnes
ici, c'est-à-dire RM. Et disons que nous allons spécifier
une autre colonne. C'est LSAT. Ce qu'il va faire, c'est qu'il va réellement trancher l'
ensemble de données. 0 signifie les quatre premières lignes et les colonnes que
je veux deux tranches, RAM et comme affaissement, non ? Si je veux juste écrire la fonction de forme de point
df, si je clique sur OK. Ici, vous pouvez voir que ce
n'est pas aussi triste que cela ici, donc c'était une erreur. Maintenant, vous pouvez voir ici que cela
me montre que nous avons ce DF. Je vais appuyer sur Control Enter. Vous pouvez voir qu'il
s'agit en fait du jeu de données de tranche
de tous les jeux de données. Il n'a choisi que ces
deux colonnes, qui sont notre pile MNL. Et la plage des
lignes est comprise entre 0 et quatre. Je peux donc le changer en, disons de deux à six. Et si je clique sur Entrée, vous pouvez voir 23456, n'est-ce pas ? Les lois sont donc de deux à six et les colonnes
sont des balises RM et S. Il s'agit donc d'un verrou très important. Il ne s'agit pas réellement d'une fonction, mais d'un localisateur. Donc LLC
signifie essentiellement
localiser ceux-ci à l'aide de
ces deux index et il a été tranché vers le bas. Ce que nous pouvons faire,
c'est que nous pouvons assigner dfs comme ds égal à celui-ci. Si j'essaie d'
afficher df.head, cela me montrera ça. Nous pouvons réellement le
trancher et nous pouvons le
réaffecter au
DataFrame si nous le voulons. Et ici, nous avons cette fonction LOC fonction
très importante
et nous
utiliserons cette fonction
si nous voulons analyser une petite
partie du jeu de données. Nous avons maintenant un autre
localisateur qui est l'ILC. Lucy est fondamentalement la même chose que LLC, mais c'était la différence majeure, c'
est-à-dire qu'elle ne prend
pas de valeurs extrêmes. Il n'utilisera que les valeurs numériques pour localiser ou utiliser
les index, n'est-ce pas ? Par conséquent, au lieu des éléments dans la pile, nous devrons spécifier
les valeurs numériques. Donc ici, si j'essaie d'exécuter une commande
très simple ici, vous pouvez voir lequel est ILC. De 0 à quatre. Il va trancher les
quatre premières lignes du jeu de données. Nous ne pouvons donc pas spécifier ici
les noms de colonnes proprement dits. Nous pouvons en fait simplement
trancher ce rayon ici, si je veux, simplement, c'est deux virgules quatre. Et si je dois appuyer sur Entrée,
d'accord , nous n'
avons pas quatre colonnes ici. Écrivons trois. Maintenant, appuyez sur Entrée ici. Maintenant, vous pouvez voir
que cela signifie deux-points pour rater
les deux premières rangées. Et deux-trois signifie
les trois premières colonnes. Si je veux écrire trois deux-points, cela signifie que nous avons
les trois dernières colonnes. Vous pouvez, vous pouvez voir
que d'ici aussi, nous avons utilisé votre queue, qui se trouve ici. Vous pouvez voir que nous utilisons
deux-points deux pour spécifier les n premières colonnes dans les deux-points afin de spécifier la
fin des dernières colonnes. La même chose que l'
approvisionnement et adhérer à la fonction ILC car
la section colonne, nous ne pouvons pas spécifier cela. C'est pourquoi nous
faisons cela ici. Donc, si je clique sur Control Enter
maintenant, vous pouvez voir qu' il ne spécifiera que
les trois dernières colonnes. Et vous pouvez voir qu'il s'
agit en fait du milieu des années 70, qui est la dernière colonne elle-même. Donc, si je veux en faire un. Maintenant, chez Visual Me, les trois dernières
colonnes ici, vous pouvez faire beaucoup de choses. Vous pouvez jouer
avec cette chose. Que se passera-t-il si
je veux préciser ici, disons 32. Ici, vous pouvez voir que
trois et ne fonctionneront pas parce que ce n'est pas bon. Ce n'est pas une gamme ici. Je devrai donc
préciser, disons 310. Toutes les lignes de trois
à dix sont spécifiées ici. Nous avions donc en fait tranché
les lois de trois à dix. Ici. Un à deux signifie qu'il
va réellement sélectionner les colonnes de
la position
1 à la position deux. Si je veux en faire trois. Vous pouvez voir qu'il sélectionne toutes les colonnes
de une à trois. Vous pouvez donc jouer
avec ces valeurs. Vous pouvez spécifier des valeurs
négatives ici et examiner ce qui se passe dans le DataFrame et comment
se déroule le découpage. Et cela vous aidera beaucoup
à effectuer des analyses de données. Également. Dans le prochain tutoriel, nous allons commencer par la tâche de prétraitement des
données. Et maintenant, vous avez une bonne idée de la façon d'
utiliser la bibliothèque des pandas. Assurez-vous
d'essayer toutes ces fonctions par vous-même et
regardez comment la sortie
change à l' aide la fonction de tête de point df
ou de dot df. Vous pourrez voir les
modifications apportées au jeu de données. C'est donc tout pour ce
tutoriel. Merci d'avoir regardé.
4. Tableaux numpy: Dans cette vidéo, nous
allons commencer par une bibliothèque très importante, qui est la bibliothèque numpy. La première chose que
je vais faire ici c'est que je vais
importer numpy comme np. Np est essentiellement aliasé. Dans le tutoriel précédent de
ces scores de science des données, nous avons déjà couvert une bibliothèque
très importante
, la bibliothèque des pandas. Et nous avons vu comment nous pouvons faire en sorte que
divers patients l'utilisent. Nous allons maintenant effectuer ces tâches de prétraitement des données dans les prochaines vidéos. Et pour cela, nous allons
utiliser ces deux bibliothèques
importantes, la bibliothèque NumPy
et Pandas. Fondamentalement, si vous voulez voir toute
la documentation
du non-être, vous pouvez simplement aller
sur numpy dot ORG, qui est le site officiel
de la bibliothèque NumPy. Vous trouverez toutes les fonctions que cette bibliothèque est un bateau. Maintenant, puisque nous nous concentrons sur objectifs de
la science des données et les tâches de prétraitement des
données. J'ai rassemblé certaines
des fonctions très importantes
de la bibliothèque NumPy. Et en gros, je les ai sélectionnés
parmi divers projets
que j'ai réalisés. Nous allons donc
les couvrir tous et la plupart d'entre eux sont très utiles et nous
les utiliserons dans les
prochaines vidéos. Il existe donc deux utilisations de
base de la bibliothèque NumPy. Le premier est
le num d'Alice. Et le second est l'analyse numérique ou opérations
numériques
que nous voulons effectuer. NumPy signifie donc Python
numérique. Nous allons donc être ici, avoir ces deux parties ici. Mais dans cette vidéo, nous ne couvrirons que les tableaux Numpy. Et dans la vidéo suivante, nous verrons comment effectuer des opérations
mathématiques
comme le logarithme, la
moyenne de l'
écart type, tout cela. Dans la vidéo suivante. Commençons par l'iris NumPy. Donc, fondamentalement, pour
nous, nous devons comprendre
pourquoi avons-nous besoin de NumPy. Donc, en gros,
créons une liste simple. Je vais simplement créer
une liste ici, qui est une. Elle comportera trois
éléments. Ou disons que ce sont
les quatre éléments. Donc, si nous pouvons déjà
créer un moins de, disons que j'imprime ceci, imprimez le type de
cette liste ici. Si je clique sur Contrôle Entrée, vous pouvez voir que cela appartient à la liste des classes à l'aide de tableaux. Pourquoi utilisons-nous Eris ? Discutons d'abord de cela. Maintenant, la chose est dans la liste. En fait, il n'est pas stocké dans des emplacements de mémoire
continue. Ces quatre éléments ne sont donc pas stockés dans une allocation de
mémoire continue. C'est la
raison principale pour laquelle nous n'
aurons pas un accès plus rapide
à ces éléments de la liste, car ils ne
sont pas stockés en continu
dans la mémoire. C'est pourquoi nous avons
besoin de num par adultes. Parce que dans la science
des données voulons effectuer
des opérations plus rapidement, nous voulons accéder à
ces éléments plus rapidement. Nous allons donc
utiliser les tableaux NumPy. Et la deuxième chose, c'est
que nous pouvons utiliser certaines opérations mathématiques sur ces artistes, comme les multiplications
matricielles. Et nous pouvons même créer des tableaux
multidimensionnels à l'aide de NumPy. Très bien,
commençons par la première transposition, qui consiste en fait à
créer un tableau NumPy. Aucune baie NumPy n'est réellement MDRD. Et MDRD signifie tableau à
n dimensions. Nous pouvons donc créer un
tableau à n dimensions en utilisant ces octets, qui est l'emplacement essentiellement
continu des objets. Il s'agit de l'objet n dimensionnel. Je vais donc dire ici et les objets dimensionnels, non ? Voyons donc comment
créer un tableau. Je vais donc créer une annonce
ici avec le nom ARR. Une façon de le faire est que vous
utiliserez np dot. Et ici, il suffit de spécifier les éléments
de l'étude. Donc, si je spécifie une virgule, deux virgule trois, ce sera un tableau
NumPy, non ? Essayons donc de marquer
le genre de ceci. Nous saurons donc ce que c'est
réellement ici. Vous pouvez voir ici
qu'il appartient à la classe. ARR est donc une variable
et la fonction tie nous
donnera le type
de cette variable. Vous pouvez donc voir qu'il définit
qu'il s'agit d'un tableau NumPy. Il s'agit donc d'un ajout m par n
dimensionnel. Voyons maintenant comment
nous pouvons le découvrir. La dimension de ce réglage, nous pouvons utiliser la fonction dim, la
fonction endocrinienne, qui nous
montrera le nombre de
dimensions du Sadie. Sadie n'a qu'une seule dimension, que vous pouvez voir ici, 123. Créons maintenant
une autre dimension ici en utilisant un coma séparé. Et nous allons spécifier
une autre liste d' éléments comme 567, n'est-ce pas ? Vous pouvez donc maintenant voir qu'il est
dit que le type de données n'est
pas compris. La raison pour laquelle
cela se produit est donc que
ceux-ci doivent être inclus
dans une seule. Que nous devons écrire un
autre crochets ici, comme ça, et nous
devons le fermer ici. Touchons maintenant sur Control Enter. Maintenant, vous pouvez voir qu'il s'agit
d'une zone bidimensionnelle. Donc, si nous voulons spécifier un tableau
bidimensionnel, nous devrons le
spécifier comme ceci. La première dimension comportera
donc ces trois éléments. La deuxième dimension
comportera ces éléments. Si je veux créer
plus de dimensions, je les inclurai dans
ce site de crochets. Même si je veux augmenter la dimension de
ces deux éléments, ces deux listes,
je peux simplement ajouter d'autres
crochets ici, n'est-ce pas ? Donc, si j'ajoute trois
crochets, intéressant de
constater que cela a augmenté la
dimension du tableau. Ainsi, plus le nombre de
ces crochets est élevé, le mode est le
nombre de dimensions. Vous pouvez donc voir maintenant que
j'ai mentionné qu'il y a sept, même si nous n'avons que
ces deux éléments, n'est-ce pas ? Donc, si j'essaie d'imprimer
cet adder ici, vous pouvez voir que c'est comme
ça qu'il va apparaître. De cette façon, nous pouvons créer ces annonces en
nombre de dimensions. Et maintenant, je
vais le faire en deux dimensions. Bon, maintenant, nous avons ce tableau
bidimensionnel. Voyons maintenant comment
créer des zones en quatre dimensions et en
cinq dimensions. Créons une autre
zone qui est à une du égale à NumPy. Imaginons ici que nous voulons
créer 123 en trois dimensions. C'est ainsi que nous allons
spécifier les trois dimensions. Ici, je vais écrire une
virgule deux, une virgule trois. Nous allons créer
une autre liste composée de quatre virgules cinq, virgule six. Et le dernier
est sept virgule 89. Essayons maintenant
de l'imprimer. Essayons d'ouvrir le nombre
de dimensions de cet Addie. Avez-vous vu ici que nous avons trois dimensions et c'
est ainsi que nous avons l'autre. De cette manière, nous pouvons créer
n'importe quel objet n dimensionnel. Fondamentalement, vous pouvez voir que
nous pouvons
créer des annonces qui
sont n dimensionnelles. Cela nous aidera donc beaucoup dans le prétraitement
des données également. Et en gros, lorsque
nous
le combinerons avec des
multiplications matricielles
et des opérations cruciales telles que les journaux et la moyenne de
l'écart type, nous obtiendrons une très
bonne tâche de prétraitement et quelques
trucs très importants, non ? C'était donc une
étape complète et voyons maintenant quelles opérations nous pouvons réellement
effectuer sur ces atomes. Nous savons maintenant comment
créer un tableau, comment créer une Hillary
endommagée. Voyons maintenant comment nous pouvons réellement procéder à l'indexation
de ces domaines. Donc, en gros, je vais
écrire l'indexation. Disons que nous avons ajouté
cette ARR. Et ici, j'écris un coma. Voyons quelle est
la sortie ici. Vous pouvez voir une virgule. Ce sont les deux éléments
qui fournissaient. L'indexation signifie essentiellement quoi, comment puis-je accéder à un élément particulier à l'intérieur
de cet ensemble donné ? Vous pouvez donc voir que
c'est notre grenier. Si j'écris une virgule 11 nous indiquera la
dimension dans laquelle nous sommes. Vous pouvez donc voir que nous
avons deux dimensions ici, et cela commence à 01. Il s'agit donc de la dimension zéro et c'est la fausse dimension. Donc, on est en train
d'indexer cela. Nous trouvons maintenant l'
élément à l'intérieur de cette liste. Nous pouvons dire cette dimension. Le prochain qui se trouve ici spécifie l'élément
de cette liste. Donc, ici, nous trouvons en fait 25671 signifie que
nous pointons ou
indexons réellement le premier élément. Donc, cinq sont en fait à 0,
à la position six,
à la position unique. Si j'écris trois
ici, voyons voir. Nous obtiendrons une erreur
car il y a, ils ne font pas que les éléments
012 ici, n'est-ce pas ? Faisons donc, nous en
aurons sept ici. Vous pouvez voir,
voyons maintenant ce qui va se passer si j'écris 0 virgule deux. Maintenant, vous pouvez voir 0 signifie que nous sommes en
train de regarder cela. En ajoutant ici, qui est
le 0 en position
, nous atteignons le
deuxième élément, qui est en fait trois. Nous en avons donc
trois dans la sortie. Très bien, c'est ainsi
que vous pouvez effectuer l'indexation. Le premier élément
nous donnera la dimension dans laquelle nous nous trouvons. Et le deuxième élément de
cette indexation nous
donnera la
position correcte de l'élément. Passons à
une autre opération que nous allons effectuer. Très souvent dans ces zones, connues sous le nom de tranchage. Nous avons déjà vu
des tranches dans des pandas. Et nous avons vu comment faire le
découpage et les blocs de données. Voyons maintenant comment nous pouvons le
faire dans certains domaines, n'est-ce pas ? Nous allons considérer le
même Adi, qui est ARR. Et ici, je vais juste
écrire cette commande Hill, qui est un et deux
points puis trois. Voyons le résultat de cela. Maintenant, vous pouvez voir que
13 me donne 567. Pourquoi on va avoir ça. Vous pouvez voir que nous
sommes en train de trancher cet Adi. Cela a déjà
ces deux dimensions, comme on peut le voir ici. La première dimension compte 123 et la deuxième
dimension 567. Nous coupons l'ADA
de 133 signifie cependant que tous les éléments que nous
avons d'une seule position nette. Vous pouvez donc voir que nous
avons des zéros ici, puis nous avons la première
position ici, puis toutes les tranches
qui se produisent de la première position jusqu'à la deuxième position parce que
trois ne sont pas inclus ici. Je vais donc écrire ici
que trois ne sont pas inclusifs. Il va donc
trancher la donnée à partir de la première position. Deuxième position parce que trois ne
sont pas inclusifs, n'est-ce pas ? Voyons comment nous pouvons le faire dans le deuxième domaine
auquel on ajoute. OK, donc dans les deux lèvres ajoutées écrivez la même commande
pour voir la sortie. Maintenant, vous pouvez voir ici que nous
n'avons rien à l'intérieur de cet Adi. Voyons pourquoi
cela se produit, car dans la première position,
nous n'avons aucun objet. C'est le trou est
la 0e position, alors essayons 0 ici. Et maintenant, vous pouvez
rapidement voir qu'ici, si nous essayons de le trancher de 0, nous avons 0 virgule une, virgule deux. À ces trois positions, nous avons tous ces éléments. C'est donc à la 0e position, celle-ci ajoute
la fausse position, et celle-ci est à
la deuxième position. Vous pouvez donc voir que c'est le résultat du tranchage
que nous avons fait. Maintenant, vous devez
jouer avec différents types
d'artères et vous
devez jouer avec ces différentes valeurs pour jeter un coup d'œil à ce qui se passe
dans le résultat, pour obtenir un
une meilleure compréhension de la façon dont les choses fonctionnent. Parce que vous ne pouvez pas apprendre
tous ces termes. Vous ne pouvez pas mémoriser
tous ces trucs. Vous devrez continuer à vous entraîner
avec des tableaux
dimensionnels différents. trancher avec des valeurs
différentes. Ici au lieu de 0 à trois, supprimons 0 et
voyons ce qui va se passer ici. Vous pouvez voir qu'il n'
y a pas de changement ici. La raison est que lorsque
nous écrivons del trois, cela signifie essentiellement que le
premier 012 n'a pas été entravé, non ? Très bien, c'
est ainsi que nous pouvons faire le tranchage à l'intérieur
de la maison. Voyons maintenant comment nous
pouvons effectuer le découpage des étapes. Ici. Ce que je vais faire, c'est que
je vais imprimer ça. Nous
étudions maintenant le découpage, ce qui est un autre concept très
important. Donc, nous
avons reçu le Sadie
et nous allons faire le tranchage ici,
les étapes de coupe. Voyons ce que c'est exactement. Je vais donc
apporter de l'ajout ici. Je vais écrire un coma. Essayons 10 contre un à deux. Et voyons ce que
nous obtenons exactement le résultat ici. Donc, au lieu de diapositives
et vous pouvez voir nous avons cela en conséquence. Donc, au fond, qu'est-ce que c'est
exactement ce tranchage ? Au lieu de trancher,
nous disons que nous
voulons trancher l'Eddie donné, mais nous allons
suivre ces étapes. Nous
allons donc d'abord spécifier, nous spécifions
ces trois valeurs. Donc c'était le cas, il va
en fait passer de 0 à un. Et puis il a été tranché
d'un à deux, non ? Donc, en fait, il va se
faire trancher
en vitesse pas à pas. Donc, au lieu de trancher
à partir de l'ensemble du tableau, nous pouvons créer de petites parties du
tableau en utilisant le découpage des étapes. Il existe d'autres façons de le faire. Nous pouvons même essayer toutes
ces méthodes. Donc, en gros, je vais
créer un autre atome ici, que j'appellerai
comme ajouté trois. Et là, je vais
utiliser num biotic. Et cela va avoir
les éléments, disons. Virgule trois,
virgule 456, virgule sept. Et créons
un autre qui est 11 virgule deux virgule trois. Le dernier sera seulement trois
virgules quatre, n'est-ce pas ? Nous avons donc ces éléments ici. Cela, vous devrez être très prudent lorsque vous
créez un tableau NumPy car il faudra s'
assurer que le nombre de dimensions réellement celui
que vous désirez, n'est-ce pas ? Nous avons donc ici la
faute, la dimension, et nous avons ici la
deuxième liste d'éléments. Disons maintenant que je veux inclure ces deux-là dans
une seule dimension. Je peux le faire en
utilisant, en les incluant réellement
dans ces crochets simples. Donc maintenant, si je veux les inclure
dans une autre dimension, je peux le faire en utilisant une autre, en créant un autre crochet
carré, n'est-ce pas ? Ainsi, chaque fois que vous
souhaitez créer une dimension, vous devez vous assurer créer un enregistrement carré pour elle. Maintenant, ce que vous allez
faire, c'est essayer. Utilisez la fonction de fin, qui nous indiquera réellement
la dimension de ce tableau. Et assurez-vous d'utiliser ces fonctions de fin
afin de savoir si vous obtenez
les dimensions requises. Et l'ADA est aussi la zone requise
que vous voulez, n'est-ce pas ? Vous pouvez donc voir le nombre
de dimensions ou de deux ici, qui est ici, le
résultat est ici. Maintenant, ce que je veux juste faire, nous avons
ici deux dimensions. Dans la dimension positive, j'ai ces deux positions, et dans la deuxième
dimension, j'ai ces deux atomes ici. Je veux faire le tranchage. Cela en a ajouté trois. Et je veux le faire, disons que j'écris
une virgule quatre. Appuyez sur Entrée ici et
voyons ce qui va se passer. Maintenant, vous pouvez voir qu'il
ne nous montre rien. Donc, faisons-le à 0. Ce sera un. Ce que nous faisons ici,
c'est dans la première partie, je spécifie que nous
sommes à la 0e position, ce qui signifie la
dimension zéro. Dans la dimension 0, nous sommes en train de trancher d'
un jusqu'à ce qu'elle comprenne, faites-le glisser de 0 à deux. Il inclura donc
tous les éléments de 01 inclus et la dimension
que nous examinons est 0. Donc, si je veux en faire un, voyons quel en
sera le résultat. Vous pouvez voir que cela montre
le résultat que nous
avons 123 et trois quarts, qui est que vous pouvez voir dans
ce dommage qui pointe vers la
première position,
n'est-ce pas ? Par conséquent, si vous souhaitez trancher
une dimension particulière, vous pouvez spécifier la
dimension ici. Je vais donc écrire ici
un commentaire indiquant que la première position spécifie la dimension et le deuxième index de
position de tranchage. De cette façon. Vous serez en mesure de le
comprendre plus rapidement. Que ce premier
paramètre appartient à la dimension que
nous examinons, que nous voulons
effectuer un tranchage. Et ici, nous écrivons, comment voulons-nous faire
le tranchage, n'est-ce pas ? Nous voulons trancher 012. Mais ici, si nous voulons
faire des tranches échelonnées, nous pouvons également le faire. Nous pouvons en fait
spécifier que je veux des éléments de 0 à un, puis de un à trois, qui est le tableau numpy. S'il contient ce
nombre d'éléments, il sera en mesure de les
découper. C'est ainsi que nous pouvons effectuer le
découpage à l'intérieur d'un tableau. Vous pouvez jouer en
créant différentes zones avec un nombre différent de dimensions et un
nombre d'éléments différents. Et vous serez
en mesure de comprendre comment fonctionne cette étape de découpage et comment ce type d'
indexation fonctionne. C'est vrai ? Nous allons maintenant passer à
un autre concept, c'est-à-dire que nous voulons
tester certaines fonctions de NumPy. Disons que nous voulons calculer la moyenne et
d'autres choses aussi. Donc, dans ce cas,
disons que je veux créer un ensemble de nombres continus
et naturels. Disons que je veux créer
un tableau n nombres naturels. Dans ce cas, nous n'avons
pas besoin de créer un tableau en écrivant
les numéros manuellement. Ce que nous pouvons faire, c'est que nous pouvons simplement, disons que je veux
créer un tableau. Ce qui est NrT. Et je veux inclure les
20 premiers chiffres naturels pour pouvoir écrire un
point V, n'est-ce pas ? Et disons que je veux créer
un nombre naturel qui commence par une certitude
d'alerte. C'est vrai ? Ce qui va se passer, c'est cette bibliothèque NumPy va la
créer et l'ajouter, qui va de un à 20. Si je veux simplement imprimer
ceci et l'ajouter ici, vous pourrez le voir dans
l'occiput, n'est-ce pas ? Donc ici, il est dit que le module
numpy n'a pas, d'accord, donc il devrait être unique. Maintenant, vous pouvez voir que nous avons ces éléments qui
commencent de 1 à 19. Vous voyez donc que 20 ne
sont pas inclus, n'est-ce pas ? Le dernier n'est donc pas inclus. Donc, si j'écris 20, ça commencera à n
et ça ira jusqu'à 19. Pourquoi faisons-nous ça maintenant ? Parce que si nous voulons jouer avec
un ensemble de nombres
naturels, nous pouvons utiliser
cette fonction et nous assurer qu'il ne s'agit que d'
un seul cheveu, n'est-ce pas ? Ce n'est pas W. Ok, alors voyons quoi d'autre, comment vous pouvez être d'accord
avec plus de valeurs. Supposons que nous voulions créer des nombres
flottants à partir d'
une position deux, disons d'un
nombre à l'autre. La façon de procéder est donc de créer une autre zone
qui est ajoutée ici. Disons que nous voulons
créer décidés. Nous utiliserons à nouveau la fonction
arranger. Ici. Nous allons spécifier
la plage à partir de l'endroit où nous voulons
les nombres flottants, n'est-ce pas ? Disons que je veux des
nombres flottants de 1 à n, qui sont dix ici. Et maintenant, je vais devoir spécifier le type de données ici
en utilisant le type. Et ici, je vais préciser le flotteur. C'est vrai. Maintenant, cela créera
et symbiotique avec des
nombres flottants de un à dix. Vous pouvez donc voir qu'il ne s'
agit pas d'un nombre flottant. Il a donc 1.2.03 point. Et de la même façon, non ? C'est donc une autre chose
intéressante. N'oubliez pas que toutes
ces fonctions
vont entrer dans la tâche de
prétraitement des données. Alors assurez-vous que vous les
pratiquez par nous-mêmes. Tous ces éléments sont très importants et nous
les avons déjà utilisés dans certains projets. Assurez-vous donc que vous pratiquez cela
également. Passons à un concept très
important, qui consiste à changer la forme. Modification de la forme du tableau. Supposons que nous ayons un tableau
avec une dimension donnée. Disons qu'une dimension est trois par trois dimensions
éclairée trois par trois dimensions
éclairée
deux par deux. Et maintenant, nous voulons modifier
la forme du tableau. Nous voulons modifier la
dimension de la baie. Voyons donc comment nous pouvons le faire. La première chose est de voir comment nous pouvons vérifier
la forme de l'anodique. Donc pour cela, je
vais le jouer anodique a égal à numpy dot ID. Ici, je vais simplement spécifier
une virgule deux, une virgule trois. Et je vais imprimer la forme de points
Hill, non ? La forme n'est pas une fonction, c'est une propriété. Donc, si je clique sur Entrée, cela nous montrera
que la forme est trois virgules et rien n'est ici car nous n'avons pas
spécifié les colonnes. n'y a que trois
éléments ici, donc c'est le cas. Créons-en un de plus. Au lieu de créer un
tableau comme cet ascenseur, pressez et des nombres naturels en utilisant la
fonction arranger np.arange. Créons six éléments. Donc, pour cela, je
vais en préciser six. Et voici ce que nous avons, disons que j'utilise la fonction
remodelage. Disons maintenant que je
veux remodeler ce tableau. Disons que nous avons
celui-ci ici et que j'
écris ici une forme sombre. Nous savons que cela
montrera trois Homère, quelque chose de bon à savoir. Je veux le remodeler
pour pouvoir utiliser la fonction remodelage, non ? Nous allons donc le
réattribuer, remodeler les points. Et comme il y a
trois éléments ici, nous pouvons créer
d'autres éléments pour
que nous puissions réellement en
modifier la forme. Nous allons donc ajouter d'autres éléments. J'ajouterai 456789. Également. Nous avons créé
ces éléments ici. Et ce que je veux, c'est que je veux, ce sont en fait
les neuf éléments et il y a une virgule de
dimension neuf. Donc, si je clique sur Entrée
ou Contrôle Entrée, cela me montrera
que la forme de cette époque est de neuf virgules une. Ce que je veux, c'est que je veux y
convertir cette
dimension unique. Je veux remodeler en matrice trois
par trois, n'est-ce pas ? La façon de procéder est donc de
spécifier les positions ici. Donc, si je voulais une forme
trois par trois, j'ai réalisé trois virgules trois. Ce qui va faire, c'
est qu'il va rapidement changer la forme de
cet ensemble donné, qui est ici, en un tableau tridimensionnel. Donc ici, si je dois
appuyer sur Contrôle Entrée, vous pouvez rapidement voir
que maintenant le changement, la forme a été modifiée
à trois par trois, n'est-ce pas ? Jetons donc un coup d'œil à la forme de l'ajout avant
d'utiliser la fonction remodelage. Donc, si je veux écrire une forme de point
ajoutée, vous pouvez voir qu'
au départ il s'agissait vous pouvez voir qu'
au départ il s'agissait de
neuf virgules 0 et maintenant il s'
agit de trois virgules trois. Nous avons donc changé
la forme ou la dimension décidée
par trois. Ce qui va se passer, c'est que maintenant
les lèvres essaient d'apporter ça ici. Maintenant, vous pouvez voir au lieu
d'un seul seul,
il est maintenant 123. Ensuite, nous avons quatre
combattants et 789. Nous avons donc ici un
tableau tridimensionnel. Et il l'a divisé comme ça, n'est-ce pas ? Que se passera-t-il si j'
écris trois virgules deux ici ? Voyons s'il
sera en mesure de le faire. Maintenant, vous verrez rapidement l'évaluateur dit que nous ne pouvons pas remodeler la zone
de la taille neuf dans ce domaine. qui signifie que chaque fois que
vous voulez faire un remodelage, vous devrez vous assurer
que le produit de ces deux-là, c'
est-à-dire que nous
allons écrire dans cette fonction de forme est égal au nombre de éléments
à l'intérieur du décor. Quoi d'autre ? Vous ne
pourrez pas le faire. Très bien,
n'incluons que six éléments ici. Et maintenant, nous savons que le produit de trois virgule deux est six. Donc, si j'appuie sur Control Enter, vous pouvez
maintenant voir qu'il
a créé un tableau avec deux éléments
ici et il y en a deux, et il s'agit d'une matrice
deux par trois. Nous avons deux colonnes
et trois rangées. Ici, nous avons trois virgules deux. Et maintenant,
passons à deux virgules trois. Maintenant, vous verrez rapidement
ici dans le maladroit que les
éléments sont trois, mais nous n'avons que deux
dimensions ici. C'est ainsi que
nous pouvons remodeler
ces éléments d' un tableau
NumPy donné, n'est-ce pas ? Il est donc très
important que vous utilisiez
souvent cette vidéo lorsque nous
effectuons l'analyse, bien que les tâches de prétraitement des
données passent
également à une autre fonction
importante que je continue de voir. Beaucoup de projets
sur la science des données, qui remplacent les
éléments par un. Disons que je veux
remplacer tous les éléments de monadique par la valeur 1. Voyons donc comment je peux le faire,
comment je peux le faire. Tout d'abord, je vais
créer un nouveau tableau. Et au lieu d'écrire
les éléments manuellement, j'utiliserai simplement cette fonction
arranger. Ici, je vais créer
un tableau avec, disons que nous avons
quatre éléments dedans. Maintenant, ce que je vais faire,
c'est que je vais remplacer. Je vais essayer de simplement vous montrer
la valeur de ce domaine. Vous pouvez voir que
cette baie possède 0123. Maintenant, ce que je vais
faire, c'est que je vais
utiliser une
fonction très importante qui est soulignement de point
np, la fonction
Like. Ici, je vais
le fournir avec la nouvelle RA. Je vais appuyer sur Control Enter. Maintenant, vous pouvez voir qu'il les a tous
remplacés par un seul. C'est donc important, c'est utile dans de nombreux
cas lorsque nous voulons
effectuer une catégorisation des données, nous le voulons, nous pouvons le faire
en utilisant cela, n'est-ce pas ? Il est donc important que ce soit
un mode qui est Zero Lake. Donc, si je relate des zéros ici, cela les convertira tous
en zéros. Vous pouvez voir ici, il s'agit de
deux fonctions très importantes que j'ai vues et que
j'ai personnellement utilisées
dans certains projets. Assurez-vous donc de les
pratiquer également. Et je vois qu'il y a des
zéros et une échelle. Passons maintenant
à la partie suivante, qui est la façon dont nous pouvons concaténer
deux artères ici. Je vais écrire
ici en concaténant. Très bien, donc pour cela, je vais devoir m'adresser. Créons-en un autre. Lorsque nous créons un
premier cycle, c'est ici. Créons donc certains
éléments de ce tableau, qui seront disposés par
points numpy. Et ici, disons que nous voulons des
éléments de la part des tuteurs six. Ici, je vais créer un autre tableau qui
sera différent. Cela passera de sept. Nous avons ces deux
atomes, puis nous
voulons les concaténer
en un seul tableau. Pour ce faire, c'est très facile. Nous pouvons simplement utiliser, disons que nous allons
créer une autre zone qui représente
la majorité des zones A1 et A2. Pour ce faire, nous avons
une fonction très simple, qui est la fonction de
concaténation de points np. Ici, il suffit de
spécifier ces deux baies. Maintenant, rappelez-vous que c'
est la fonction et nous voulons
spécifier A1 et A2. La façon de le faire n'est pas comme ça. Certaines personnes aiment
ça, comme A1, A2. Vous ne pouvez pas le faire comme ça. Vous devrez spécifier cela comme une paire de
crochets circulaires sans fin comme celui-ci. Nous pouvons donc maintenant voir que nous avons un seul support qui est
la fonction de concaténation. Ce deuxième support spécifie
A1 et A2 en tant que joueur. Maintenant, si je veux essayer
d'ajouter autant de choses, vous pouvez voir
qu'il montre les plages de noms, d'accord, donc ici il devrait être np.arange, pas dans le coma de pointe. Vous pouvez maintenant voir qu'il vous
contacte à ces deux
flèches dans un même tableau. Vous pouvez être utilisé, vous utiliserez beaucoup cette
fonction, qui consiste à combiner
deux ou plusieurs tableaux. C'est ainsi que nous pouvons faire
la partie concaténation. Passons à la partie
contraire de cela, c'est comme ça que nous pouvons
diviser l'annonce, disons que je veux
diviser ce module. Et pour ce faire,
ce que je vais faire, c'est que je le ferai. Commençons par créer une autre idée. Je l'appellerai comme un papa non ému. Ici, j'utiliserai une fonction très
simple ici, qui est utilisée pour faire
la partie fractionnée, qui est nulle division de points à elle. Ajout d'une fonction de
partage de soulignement. Ici, je veux simplement
préciser la mortalité. Ensuite, nous devrons
préciser, disons trois. Très bien, j'ai donc voulu le
diviser en troisième position. Maintenant, je vais essayer d'
imprimer ce papa non ému. Papa avait tous ces
éléments, 2345678. voyons donc ici. Le même nom, fusionné n'
est pas le cas final, donc ce n'était pas beaucoup, c'était le plus souligné ARR. Il va donc diviser les données de
l'image à partir de la
troisième position. Nous pouvons donc voir ici,
nous avons 23457891011. Et maintenant, vous pouvez voir
que trois signifie que c'est le cas, divisez-le en trois parties égales. La première partie est à
trois pour la seconde partie par 7891011,
n'est-ce pas ? Changeons donc cela pour le faire et
voyons ce qui va se passer. Maintenant, vous pouvez voir qu'il
tombe crée un tableau avec cinq éléments et l'ère
suivante avec quatre éléments. De cette façon, nous pouvons diviser les AR dans plusieurs domaines, n'est-ce pas ? Passons maintenant à une autre
partie importante qui consiste à effectuer la recherche
à l'intérieur d'une donnée. Utiliser cette bibliothèque NumPy. Nous voulons
rechercher certains éléments. Prenons d'abord un exemple. Appelons ça comme ici. Je vais prendre le premier
exemple à partir d'ici seulement. Celui-là. Ensuite, créez et ajoutez
un avec quelques nombres aléatoires. Je n'utilise que des nombres
aléatoires ici. Et disons que je voulais
rechercher 87 à l'intérieur de cet ajout, qui est le nœud
qu'il est à 0123. Il est en troisième position
et nous voulons le chercher. La façon de procéder est donc très simple. Je vais d'abord créer
un élément x, qui obtient en fait l'
emplacement des 87e éléments. Nous avons donc une fonction bizarre qui est utilisée pour effectuer
la partie de recherche. Donc, np point où la fonction
obtiendra deux paramètres. Un seul paramètre fonctionne. E est égal à deux équivaut à deux. Je dois préciser l'
élément qui est 87. Maintenant, ce qu'il va faire, c'
est qu'il va chercher 87 à l'intérieur de ce qui est donné à
un E ici, n'est-ce pas ? Donc, si je veux essayer d'imprimer x, vous pouvez voir ici qu'il
montre la recherche. Et maintenant, il est dit à une, troisième position et le type de données de l'
élément est entier 64. Vous pouvez voir ici que
c'était en troisième position. C'est donc la première, désolé, la 0e position. Et la première, la deuxième, la
troisième position. Il nous a donc donné la position. Et vous pouvez voir que
puisque nous utilisons Eris, recherche est la source d'
accueil dans ce cas. Passons maintenant à une autre partie importante
qui est le tri. Tableau donné.
Le tri est également important. Ensuite, triez cet ERD uniquement. Vous pouvez voir que cette
annonce n'est pas triée. Essayons de régler ça. Je vais écrire à Brent. Et la fonction de tri des points P. Et à l'intérieur de ce
contrôleur de tri spécifiez E ici. Vous pouvez voir qu'il s'agit des données triées par ordre
croissant, n'est-ce pas ? Vous pouvez donc voir au départ
qu'il n'a pas été trié. Et maintenant, c'est trié à un. Fonctions simples et très
simples, ces fonctions utilitaires
vous
aideront beaucoup dans la tâche de
prétraitement des données. est
très important de les pratiquer. Et quand vous ferez de
plus en plus de produits, vous vous familiariserez
avec tous ces produits. Et vous aurez une bonne maîtrise de toutes ces fonctions
ici, n'est-ce pas ? Bon, alors passons
à un autre. Et celle-ci est triangulaire
supérieure. Maintenant, cette fonction est, je l'ai vu dans
beaucoup de projets. Comment créer des triangles VR. Et c'est un concept très
important. Concentrez-vous donc sur cette partie,
car il est vraiment important comprendre pourquoi il est important de créer des
triangles de relations publiques. Disons donc que je crée
un tableau ici. Je l'appellerai comme en ajoutant un. Appelons ça comme un 0. Ici, je n'utiliserai aucun point. Prenons moi comme exemple. Nous allons utiliser
E, qui est ici. Pour créer des triangles PR. Que je le ferai, je vais
juste imprimer b point u, qui est une forme courte de triangulaire
supérieur ou triangulaire, signifie triangle, vous voulez dire au-dessus. Ainsi, aucun point triangulaire U signifie qu'il créera un triangle supérieur
de la matrice donnée. Pour cela, créons une matrice
tridimensionnelle. Je vais rapidement créer une matrice
tridimensionnelle. Tout ce que nous avons déjà créé une
matrice tridimensionnelle ci-dessus. Lorsque nous faisions
la partie remodelage, nous avons également créé celle-ci. Créons encore une fois. Ici. J'utiliserai B dot orange, et j'inclurai des éléments
du blanc un à neuf. Et je vais rapidement remodeler la matrice
trois par trois. Et jetons un coup d'
œil à ça, à 0. Le premier Nexi,
qu'il soit correct ou non, dit
qu'il devrait s'agir d'
un Nexi appelé Martin. Nous avons ceci, vous pouvez voir
que c'est l'addie. Nous avons 123456789. Donc, une matrice trois par trois, vous pouvez la considérer comme une matrice
trois par trois. Ensuite, nous voulons créer
un triangulaire supérieur. Ce que nous pouvons faire, c'est d'
examiner comment la RA va changer lorsque nous
appliquerons le
triangle supérieur ici. Triangle bip. Je vais donc imprimer la fonction np
dot u. Ici. Je vais spécifiquement le faire, je vais juste spécifier
deux paramètres ici. Le premier paramètre sera le tableau où nous voulons le triangle supérieur et
le second élément est 0. Je vais vous dire ce que peut être exactement
ce deuxième élément. Changez vraiment cette valeur. Il peut être en fait 0 moins 11. Nous verrons les valeurs en quoi cela change lorsque nous
appliquons le deuxième
paramètre en tant que 0, puis moins un, puis un. Nous allons donc appuyer sur Control
Enter pour voir la sortie ici. Vous pouvez voir quand j'ai spécifié 0, il a créé un triangle supérieur. C'était donc au départ le RID. Et maintenant, après avoir
créé un triangle, vous pouvez voir tous les
éléments au-delà. Vous pouvez voir ce sont
les éléments diagonaux, 159 millimètres. Et maintenant, vous pouvez voir qu'il est
en train de former ce triangle. 123569 est en train de former un triangle ici, que
vous pouvez voir ici. Et ces éléments
sont devenus 0, n'est-ce pas ? Donc, une fois qu'ils sont devenus 0, nous avons un triangle supérieur ici. Passons maintenant cette
valeur de 0 à une. Voyons quel sera
le changement ici, n'est-ce pas ? Maintenant, vous pouvez voir
ici, si nous en écrivons un, il inclura également les éléments
diagonaux. Il va donc créer
un triangle supérieur. Vous pouvez voir que
deux trois-sixièmes sont impliqués dans ce triangle. Ces éléments sont devenus 0. Si je change cela par moins un, et que je cliquerai sur Control Enter. Maintenant, vous pouvez voir que V0 a
acheté un triangle supérieur, mais seul le dernier
élément est 0, n'est-ce pas ? Donc tous les éléments
au-dessus de ce nul 0. Ainsi, nous pouvons
créer des triangles de bot et vous verrez l'importance
de les créer. Triangles à l'intérieur du moment où nous
commencerons les tâches de
prétraitement des données. Vous verrez beaucoup
de ces
dysfonctionnements secs que vous avez utilisés
dans de nombreux projets également. Vous avez maintenant une bonne idée de la façon dont cette fonction
va changer l'ajout. Maintenant, ce que je vais
faire, c'est que nous passons
maintenant à
la dernière fonction, qui consiste à modifier le type
de données de l'ajout des
éléments du tableau. Très bien, donc pour cela, je vais créer un autre ajout de 23. Et ici, je vais utiliser np.edu. Créons des éléments dont les valeurs
flottantes automatiques sont 2.11.2. Et donnons une molaire,
qui est, voyons voir, une molaire en
trois points. Maintenant, nous avons tout
ce tableau NumPy. Ce que je vais faire,
c'est que je vais imprimer le type de ce site. Donc, tout d'abord, je vais
créer un nouveau tableau. Ici. Je vais utiliser IRR
comme fonction Merci. Je vais écrire ici. Maintenant, ce qui va se passer,
c'est qu'il va créer un nouveau tableau, mais qui a toutes
les valeurs ajoutées à trois. Il va le convertir
en votre rôle. Jetons donc un coup d'œil à quoi ressemblera
exactement notre nouvel Adam. Ainsi, la nouvelle Audi aura
tous ces éléments, mais seulement la
partie entière de ces éléments. Ici, vous pouvez voir
changer le type de données, et maintenant il a 123 et il a ignoré
ces parties décimales. De cette façon, vous pouvez les
modifier à l'intérieur.
5. Fonctions numpy dans Python: Dans ce CD, dans ce cours, nous avons déjà
couvert les baies NumPy. Nous avons donc couvert certaines
des fonctions très importantes que nous
pouvons accomplir sur des non-acheteurs. Et dans cette vidéo,
nous allons couvrir toutes les
opérations mathématiques
NumPy prises en charge et nous pourrons les
réaliser sur Dina biotas. Voici donc quelques-unes des fonctions
de base et certaines
des fonctions très importantes que vous
utiliserez tout au long de votre carrière en science
des données. Commençons donc par ça maintenant. Tout d'abord, je vais importer
numpy comme np liquidement ici. Et ici, je vais
créer une matrice qui sera np.array. Ici, nous allons simplement
créer trois éléments
ici, soit 123456789. Vous pouvez voir ici que
j'ai créé une matrice. Vérifions rapidement
si nous l'avons défini correctement
en imprimant cela. Vous pouvez donc voir ici que j'ai créé cette matrice qui contient ces
neuf éléments, n'est-ce pas ? Ce que je vais faire, c'est
que je vais effectuer certaines opérations mathématiques
sur cette matrice ici. Par exemple, le produit en points, l'
écart type, moyenne et toutes les fonctions
statistiques également. Commençons par quelques-uns
des éléments de base. Le premier ici est donc deux. Calculer le moment maximum, ce qui est un
bit très important qui
donnera réellement l'élément maximum
de cette matrice entière. Je vais imprimer, utiliser la fonction np dot max, qui va réellement nous donner l'élément maximum
de cette matrice. Vous pouvez voir que si
je clique sur Contrôle Entrée, vous pouvez voir que neuf est l'élément maximum
de cette matrice entière. Maintenant, ce que je vais faire ici, c'est supposons que nous
voulions savoir quel est l'élément
maximum de cet axe, qui est la loi ici. Ce que je peux faire, c'est que je peux spécifier l'axe ici
aussi que Access est égal à
0 si j'appuie sur Contrôle Entrée. Vous pouvez maintenant voir que l'axe 0789 est l'élément maximum. Nous pouvons donc également le faire. Donc, si j'en écris un ici
et que j'aime contrôler Enter, vous pouvez voir qu'il sera 369. Ainsi, lorsque vous modifiez l'accès, vous pouvez renvoyer l'élément maximum en fonction de l'accès qui est constitué de
lignes et de colonnes. La partie suivante, qui
est similaire, consiste à calculer
l'élément minimum. Et pour cela, nous avons également la même technique qui
utilise la fonction principale np dot. Et ici, je peux simplement
spécifier la matrice. Et vous pouvez voir
que le minimum, l'élément minimum de
cette matrice est un, et c'est ce qu'il
imprime ici. De même, nous pouvons également fournir
ici l'axe à 01. Passons maintenant à d'
autres fonctions. Il s'agit en fait des fonctions
statistiques. Donc, dans ce cours, je n'ai pas encore abordé
ces sujets de statistiques, c'est-à-dire la signification de l' écart type, la moyenne de
variance. Ce sont quelques-uns des sujets
très cruciaux qui doivent être abordés
dans la science des données. Donc ce que je fais ici,
c'est dans ce tutoriel, je vais juste montrer comment les utiliser. Et dans la
vidéo suivante, je vais
enseigner tous les concepts importants de ces statistiques comme variance, la moyenne, l'
écart type. De cette façon, vous serez en
mesure de mieux comprendre comment ces fonctions sont
utiles en science des données. Commençons donc par
le très basique, qui consiste à calculer la
moyenne de l'Eddie donné. Disons que nous avons
reçu cette matrice ici, qui est celle-ci, je veux calculer la moyenne. La moyenne est essentiellement moyenne. Donc, ce que je peux faire, c'est que
je veux en imprimer la moyenne. Donc pour cela, je
vais juste utiliser la fonction np dot moyenne et je vais juste devoir la fournir
avec la matrice. Et vous pouvez voir ici
qu'il renvoie cinq en moyenne parce qu'il s'agit en fait de la moyenne de
tous les éléments. Nous discuterons
plus que de ces éléments, qui sont les concepts
de statistiques en détail dans le prochain tutoriel. Passons donc à un autre concept de statistiques
qui est la variance. Variance. Nous allons les couvrir tous
dans cette seule cellule ici. Variance et écart-type. Ce sont les deux choses qui sont très importantes et
elles sont largement utilisées dans la science des données, car elles
sont en fait très utiles pour effectuer certaines
des méthodes importantes
de prétraitement des données. De plus, ici, nous pouvons
imprimer le moyen. Et si nous voulons
peindre la variance, je peux simplement la fournir avec
celle-ci. Vous pouvez donc voir que
la variance de cette matrice est de 6,66. De même, si je veux
l'écart type, je peux le faire en
utilisant np dot SDD, qui est l'écart type. Et je vais l'appliquer
avec la matrice ici. Vous pouvez voir si je
clique sur Control Enter, cela me donnera l'
écart type. Nous étudierons ces trois concepts
importants, et il y a un autre concept
important qui est une distribution normale. Nous allons également étudier cela. Passons maintenant à certains sujets de
l'algèbre linéaire. Qu'il s'agisse de concepts
mathématiques, le produit ponctuel et la multiplication et l'
ajout de matrices. Alors, effectuons ces soins de santé. La première méthode que nous
allons effectuer consiste à calculer la
transposition d'une matrice. Donc, fondamentalement, ce
cours exige que vous ayez des
connaissances de base en mathématiques, c'
est-à-dire les matrices
et les déterminants. Voyons donc comment calculer la transposition
d'une matrice. Pour cela, c'est très simple. Je peux juste écrire
matrice point majuscule T. Si je vais appuyer sur Control Enter. Maintenant, vous pouvez voir qu'il s'agit de
la transposition d'une matrice. Vous pouvez donc voir que les rôles sont
devenus des colonnes ici. Donc, 123 était en fait une
rangée dans la matrice ici. Ensuite, nous voulons calculer arbalètes
et devenir la loi. Vous pouvez voir maintenant
que sa colonne est 123. C'est ainsi que nous pouvons calculer
la transposition d'une matrice. Passons maintenant à la façon de calculer le déterminant
d'une matrice. Ce sont tous les concepts de
base de l'algèbre
linéaire. Et c'est la seule mathématique requise
en Data Science, à
savoir
les statistiques, les
probabilités et l'algèbre linéaire. Même si vous connaissez les bases de ces concepts, vous
êtes prêt à y aller. Voyons comment calculer le déterminant de cette matrice. Pour cela, nous allons utiliser la bibliothèque
NumPy avec
cette fonction ici. Donc np dot LIN LG fonction, qui est en fait une fonction de
propriété dans l'ordre. Ensuite, nous utiliserons le
DEP pour calculer le déterminant de cette matrice. Vous pouvez voir que
le déterminant de cette matrice est cette colline, np point LIBNAME point db. Très bien, passons donc
à la façon de calculer
le rang d'une matrice. Fondamentalement, le rang est
calculé comme n moins un, où n représente la fin, correspond
essentiellement au
nombre de dimensions. Très bien, en ajoutant, vous pouvez voir que cette
zone était une émission thêta. Donc, si je voulais
calculer le rang, ce que je peux simplement faire, c'est que je devrai à
nouveau utiliser l'algèbre linéaire np
dot. Dot LAN LG est ici synonyme d'algèbre
linéaire. Et comme nous utilisons les
fonctions d'algèbre linéaire et ici je suis comme le rang de
soulignement matriciel. Ici. Je vais le fournir avec
la matrice ou le grenier. Ici, vous pouvez voir que c'est bien le rang de cette matrice, n'est-ce pas ? C'est ainsi que vous pouvez calculer
le rang de ces matrices. Nous voulons donc
passer à d'autres fonctions
importantes. Voyons donc comment calculer
les valeurs propres
et les vecteurs propres. Les valeurs propres et les vecteurs propres
sont également importants. Ici, vous utiliserez ces fonctions plus souvent
dans les tâches de prétraitement des données. Voyons comment
calculer les valeurs propres. En gros, supposons que
nous ayons une matrice carrée a. Si je multiplie, si je
fais un produit à points avec v sera égal à k, ce qui est les vecteurs propres. Et encore une fois, dotez le produit avec v, qui est les valeurs propres. Donc, fondamentalement, le but des
vecteurs propres est d'
augmenter la forme de la matrice carrée et
non la direction. Donc, ici, je peux même écrire cela, alors vous l'appliquerez. Transformation linéaire. Les vecteurs propres changent, modifient la forme de la direction de la
matrice NANDA. Bon, voyons comment on peut
calculer ces deux valeurs. Encore une fois, nous allons
calculer les valeurs propres
et les vecteurs de cette matrice que nous
utilisons dans tout ce programme. La première chose est que si vous
souhaitez calculer les valeurs propres, définissez d'abord
les variables ici. Définissons deux variables qui sont des valeurs propres et des vecteurs propres. Nous avons une fonction qui
va renvoyer les deux, qui est Np point
algèbre linéaire point EEG, et l'appliquer avec le mutex. Qu'est-ce que cette fonction
renvoie les valeurs propres et les vecteurs propres et ce qu'elle
sera stockée ici, n'est-ce pas ? Essayons donc de voir
ces valeurs en
imprimant ces valeurs ici, c'
est-à-dire des valeurs propres. Et ici, je vais imprimer
les vecteurs propres. Si je clique sur Contrôle Entrée, vous pouvez voir qu'
il s'agit des valeurs propres. Ce trou que vous pouvez voir
est un vecteur propre. Passons à d'autres fonctions. Voyons comment nous pouvons le faire. Calculez le produit à points. Le produit Dot est également
très important. Voyons comment nous pouvons le faire. Tout d'abord, je vais devoir
créer deux matrices ici. Créons une matrice très
simple, 123. Et je vais créer
une matrice de plus, qui est la matrice deux. Et cela aura des
valeurs pour V6. Maintenant, je veux calculer
le produit à points. Donc, si je voulais calculer
le produit à points, je le ferai. Tout d'abord, ce
sera un tableau de points np. Cela se fera également
en mode non périodique. Très bien, donc maintenant si je
voulais imprimer ça, je vais devoir utiliser la fonction point
np dot. Il aura donc une fonction
sombre ici. Et j'ai juste besoin de fournir ces deux matrices dans l'argument qui est la
matrice 1, matrice Q. Vous pouvez voir ici que
le produit à points a 3232 est le produit à points
de ces deux matrices. Rappelez-vous que lorsque nous calculons
le produit Dotnet Dotnet Dot, vous devez d'abord
comprendre les concepts
d'algèbre linéaire sur
la façon de calculer le produit à points et comment vous
assurer que les lignes les colonnes de ces deux colonnes
correspondent ou non, n'est-ce pas ? Nous pourrons donc
calculer le produit à points. Passons
à la façon d'ajouter deux tableaux, c'
est-à-dire l'ajout
de ces vecteurs. C'est vrai ? Nous allons donc prendre ces deux matrices une,
matrice deux seulement. Donc, si j'écris
une matrice d'impression en utilisant la fonction et que nous voulons ajouter la
matrice une, matrice deux. Vous pouvez voir que si
j'essaie de les ajouter, leurs valeurs sont leurs valeurs
correspondantes qui sont ajoutées et elles sont
stockées dans un autre vecteur. Il est de 79, donc un
plus quatre fait cinq,
puis c'est la F7,
puis on en a neuf. De même, si vous
souhaitez effectuer la soustraction, vous devrez
effectuer la même étape. Vous devrez imprimer la fonction de produit NumPy
np dot. Encore une fois, les fournisseurs ayant ces deux valeurs,
à savoir la matrice 1. Matrice deux. Encore une fois, voyez que si
je les soustrais, un moins quatre me donne moins
trois à moins pi me
donnera moins trois. Et de même moins V ici. C'est ainsi que nous pouvons
calculer la soustraction. Et voyons comment nous pouvons
faire la multiplication. Il s'agit d'une multiplication, et
non du produit à points. Je vais donc écrire ici que ce n'est pas
le produit à points. Il s'agit d'une multiplication matricielle. Vous verrez ici quelle est
la différence entre eux. Donc pour cela, je vais
utiliser le nous pouvons multiplier deux matrices en utilisant
simplement un statut comme celui-ci et
il multipliera ces deux matrices. Quatre multipliés
par un sont donc quatre, puis dix ans, puis 181018 ans. La réponse ici. Il s'agit donc en fait de
la multiplication de deux matrices qui est différente du
produit en points contre vous. Ce produit en points
était en fait 32. Nous allons maintenant passer
à d'autres fonctions également. Je vais commencer par
calculer l'
inverse d'une matrice. Pour calculer
l'inverse d'une matrice, nous devrons à nouveau utiliser
la fonction algèbre linéaire. Et je finis que nous fonctionnons là. Je vais juste devoir
le fournir avec la matrice. Si j'appuie sur Contrôle Entrée,
vous pouvez voir qu'il se déplace simplement calculer l'
inverse de cette matrice. Il s'agit donc de l'utilisation de la fonction INV
inverse ici, qui appartient à
la propriété de l'algèbre linéaire. Nous allons maintenant voir comment
générer des valeurs aléatoires, ce qui est encore une fois un concept très
important, comment générer des
valeurs aléatoires à l'aide de NumPy. Pour cela, je vais créer un programme très simple qui permettra de
trouver cinq valeurs aléatoires. Ici, je vais
écrire un commentaire ici. Permettez-moi de calculer
les cinq neuvième sur des valeurs comprises entre un et dix. Si je voulais calculer cinq valeurs aléatoires
entre un et dix, voyons comment nous pouvons le faire. Je vais utiliser la fonction
aléatoire de points np. Et, et ici je devrai lui
fournir trois variables. Ils passeront de 0 à 11, et je veux cinq valeurs. Ce sera donc comme ça. Vous pouvez voir ici
qu'il calculera les cinq
valeurs aléatoires de 1 à 10110 à six par ces valeurs, et 011 en sont exclues. C'est ainsi que vous pouvez calculer
cette valeur connue. Une chose intéressante ici est que si vous
appuyez à nouveau sur Control Enter, cela modifiera ces valeurs aléatoires et cela continuera à changer cela. Donc, afin de rendre cette
constante comme si vous ne voulez
pas que les valeurs aléatoires changent
à chaque fois, vous pouvez utiliser une chose très
importante connue sous le nom de
semence. Pour cela, vous pouvez utiliser la fonction np
dot random.seed. Ici. Vous pouvez lui en
fournir un que vous ne souhaitez pas modifier la taille. Donc, si je clique sur Control Enter, je suppose que je continuerai à
appuyer sur Control Enter. Cette valeur ne changera pas. Cela deviendra constant cause de ce plafond
que nous avons fait ici. Passons maintenant à
une autre chose importante. Disons que nous voulons générer
des valeurs aléatoires à partir de
la distribution normale. La distribution normale est
un autre concept important de la science des données, car elle appartient au statut,
aux statistiques et aux probabilités. Nous en discuterons également dans le prochain tutoriel
que je vais aborder ces concepts sur les statistiques. Le x plus c, comment obtenir les valeurs de la distribution
normale. Pour cela, nous pouvons utiliser la fonction normale de
point aléatoire np dot. Et puis j'ai simplement
besoin de lui donner une valeur. Donnons-lui donc une valeur 1, ce qui sera réellement méchant. Nous devons donc
lui donner trois paramètres. Le premier sera la moyenne, le second sera l'
écart type. Et le troisième est
celui que vous
souhaitez générer. 1 est la moyenne, alors nous avons 10 et l'
écart type. Et le numéro que
je voulais faire, cliquerai sur Control Enter. Il
prélèvera automatiquement ces dix nombres de la distribution normale de la moyenne de la moyenne
et de l'écart type donnés. Donc, fondamentalement, ce sont toutes les fonctions importantes
de cette bibliothèque NumPy. Nous en découvrirons davantage
dans l'acide. Nous allons aller de l'avant dans ce cours. Donc, fondamentalement, ce n'est pas ce que cette factorielle annule de regarder.
6. Statistiques pour la science des données !: Passons maintenant
au premier sujet que nous allons étudier, qui est un moyen. Nous avons une moyenne, un
écart type, une distribution de
lavage
et une variance. Nous allons couvrir ces sujets
très importants et ils sont humains
dans les données. Merci beaucoup. Commençons par la
moyenne et essayons de
comprendre quelle est la
signification de l'être. Ici, j'ai dessiné un
graphique d'exemple. Prenons donc un exemple
très simple. Considérons qu'il
existe une entreprise de smartphones et que cette entreprise
vend réellement les smartphones. Et d'après de mauvaises données, j'ai récupéré sept
jours de ventes. Ici, vous pouvez voir
que dans les données, j'ai ces sept éléments dedans. 151030 vingt-cinq,
vingt-cinq, vingt-cinq, vingt-cinq. Sur ce graphique, vous pouvez
voir sur cet axe que j'ai le numéro de jour,
qui est 1234567. Pour quelle semaine nous avons vendu ce
nombre de téléphones. Vous pouvez voir pour
le premier jour, 15, je vais vendre les téléphones pour le deuxième jour et le nombre
de téléphones ont été vendus. De même, pour le troisième jour, 30 numéros ont été vendus. C'est ainsi que j'ai
tracé ces points de vue, ces points bleus qui
représentent les données. Voyons maintenant comment
calculer la moyenne. La moyenne est en fait la
moyenne de ces valeurs. Nous pouvons calculer la moyenne en les
démarrant et en la divisant par ID et par nombre de points de
données
dont nous disposons, soit sept dans notre cas. Ici, vous pouvez voir que
sur le calcul, vous obtenez 150 sur sept, soit 18,57. Vous pouvez voir ici une ligne rouge qui passe
par ce graphique. Ici, vous pouvez voir qu'il s'agit d'une moyenne
absolument présente, qui est de 18,57, et vous pouvez voir qu'elle
se situe entre 1520. Essayons maintenant de
comprendre ce qui est méchant. La signification de la moyenne est
très simple et nous donne la moyenne de la moyenne quotidienne
des sept derniers jours. Cela signifie qu'en fait, c'est 18,57. Supposons qu'il s'agisse d'une valeur
absolue de 18. Cela signifie en fait que
18 téléphones ont été vendus chaque jour au cours des
sept derniers jours en moyenne. Maintenant, il s'agit d'une
information très cruciale, car parfois l'entreprise ne
s'intéresse pas à ce qui se passe, quantité d'os
vendus en une seule journée, ce qu'elle voulait, qu'elle voulait calculez la moyenne, la moyenne. Ici, vous pouvez voir que
la moyenne est de 18. On peut donc dire que
18 téléphones ont été vendus chaque jour en
moyenne en une semaine seulement. Mais si vous deviez
jeter un coup d'œil ici, il y a une
information intéressante qui manque dans ce graphique. Ce moyen est
en fait trompeur. La raison pour laquelle c'est
trompeur, c'est que
supposons un point de données éloigné de cette ligne, qui est
loin de cette moyenne. Ce qui signifie que si je calcule la moyenne maintenant, la
moyenne deviendra plus élevée. Cette valeur de viande va augmenter
et si elle augmente, intellectuel était une valeur qui, supposons que la
valeur augmente à 30. Cela montrera donc que totalement les
téléphones pratiquement tous les jours, ce qui n'est pas vrai du tout. Un point de données, va en fait
mal interpréter la moyenne. Puisque la moyenne est
mal interprétée, elle nous donnera
à l'entreprise une information fausse
et trompeuse selon laquelle chaque
jour 18 années quarantaine ont été vendues, ce qui n'était pas
vrai parce qu'il était moyen. Il était donc vrai que vous
n'aviez pas mis virtuel. Si vous voyez que si nous avons tels points de données qui sont en fait des anomalies dans les données, ils peuvent en fait mal interpréter
et cela est trompeur. Pour éviter ce fait trompeur, nous pouvons réellement améliorer
ces informations. Nous pouvons le rendre bien
plus que dilutif. J'y ajoute l'
écart type. Essayons de comprendre en termes
très simples recherchés, qu'est-ce que l'
écart type ? Par conséquent, l'écart type
est en fait la distance et la distance est
en fait l'écart uniquement. Il s'agit d'une distance de la distance
entre les points et la moyenne. Vous pouvez voir que dans
les atomes verts, vous pouvez voir que c'
est la distance, à partir de
ce point. La moyenne.
L'écart type nous indique en fait combien tous
ces points de données sont
éloignés de la moyenne. La raison pour laquelle nous faisons
cela est de comprendre à quel point ces points de données
sont plus proches de la moyenne. Si je dis qu'
il y a 18 téléphones vendus chaque jour
depuis sept jours. Et l'
écart type est également moindre. Dans cet
écart type est inférieur, cela signifie que les distances sont inférieures. Cela signifie que les points de données
sont plus proches de la moyenne. Ce sera une bonne information. Mais si l'
écart type est élevé, cela signifie que ces points sont en réalité éloignés de la moyenne. S'ils sont loin de la moyenne, cela signifie qu'ils s'
écartent de la moyenne. Et cela pourrait dire l'entreprise qu'en fait,
la moyenne était aussi noire. Les points présenteraient en fait écart
important est une information intéressante
à ajouter à celle-ci. Comprenons comment calculer
l'écart type. C'est très simple.
Il suffit de calculer ces distances vertes. Vous pouvez voir que si je voulais
obtenir cette distance verte, j'ai juste besoin de soustraire cette
valeur de cinq avec la moyenne. Si je soustrais 18 de cinq, j'obtiendrai cette région. Ce que je vais faire, c'est que je vais
calculer pour eux tous. Et alors, même si ce n'est pas négatif,
nous ne voulons pas le faire, nous ne sommes pas
intéressés par les valeurs négatives car l'écart type est en fait l'
ampleur de ces points de données.
sont loin de la moyenne. Nous prenons les carrés
de ces distances. Puisque nous voulons que l'
écart représente l'écart de tous les points qui
les
résument et nous l'
afficherons ainsi. Et le numérateur. Encore une fois, voir 130 par sept, je l'ai pris d'ici,
ce qui est la moyenne. N'utilisez pas Indian
Point 57 car les calculs
deviendront beaucoup de ses cheveux. Si vous utilisez 130 par sept, il
vous suffit de le
soustraire de 15. Vous pouvez aller au loin
et nous allons
quadriller toutes ces
distances comme celle-ci. Et ensuite, nous allons
les additionner. Enfin, nous
allons le diviser par
le nombre de
points de données dont nous disposons. Nous disposons de sept
points de données sur le calcul. Si vous calculez
cette valeur entière, vous obtiendrez une valeur de
69,357, qui se trouve ici. Puisque nous avons fait le
carré de ces chiffres, il
faudra le notifier. Pour cela, nous allons
utiliser la racine carrée. Donc, après avoir obtenu la
racine carrée, j'obtiens cette valeur, qui est 8,32, et c' est en fait l'
écart type. 8,32 est l'
écart type de ce graphique. Essayons de comprendre
ce qu' est ces informations et comment elles amélioreront
l'information. Alors 8.32, qu'avons-nous présenté ? Cela signifie que 1818 téléphones ont été vendus chaque jour
en moyenne au cours des sept derniers jours. Mais il y a eu un écart
de huit points. Je vais écrire ici
plus huit points. En fait, c'était 8,32. Je vais devoir écrire qu'
il y a eu un écart de 8,32, ou nous pouvons dire qu'il y a eu
une déviation de huit os. Maintenant que cette déviation peut être plus huit et
moins huit environ, je devrai
donc l'écrire
plus moins huit. C'est vrai ? Ce n'est pas
une très bonne information. À partir de ces informations, une personne saura que oui, 18 téléphones ont été vendus en
moyenne et que l'
écart type était de huit, n'est-ce pas ? Il n'y a donc pas eu de hausse et
de baisse des ventes en une
seule journée, n'est-ce pas ? Donc, si l'écart type
est inférieur à celui-ci, c'est le bon parce que cela signifie que ces valeurs sont en fait
plus proches de cette ligne, c'est-à-dire la ligne rouge,
qui est la moyenne. Et s'ils sont plus proches,
cela signifie que la valeur que nous allons obtenir ici est en fait
proche de la moyenne. Et l'information
sera bien meilleure car 18 points pourraient être
vendus et il y aura moins dxy une ou deux cellules, ce qui n'aura pas beaucoup d'importance. C'est ainsi que nous calculons
l'écart type. Et c'est la signification de écart type,
car il complète cette information et ajoute à cette information
qu'il y aura un accroissement ou une diminution de cette valeur. à l'intérieur
de cette moyenne, 18 volts seront vendus
chaque jour en moyenne, mais il pourrait y avoir une
augmentation ou
des degrés de huit points maximum. Passons maintenant
au deuxième. Le troisième, qui
est la variance. Nous avons maintenant migré la racine carrée de
cette valeur ici. Si ce n'est pas le cas, cette
valeur est connue sous le nom de variance. Vous pouvez voir ici que
c'est des Lydiens. Donc 69,387, c'est des millions. Que signifie maintenant la variance ? Cette variance est également la somme des distances entre tous ces points de
données et la moyenne. Que se passera-t-il si
la variance est moindre ? Comprenons donc
ce qui se passera si la variance est une leçon. Nous voulons également
comprendre quelle est la signification de cette valeur ? Que se passera-t-il si
la variance est élevée ? Si la variance est plus faible ? S'il est plus bas, cela signifie
que les distances entre ce point et la
moyenne sont en fait plus faibles. Parce que plus bas, cela signifie que ces points sont très
proches de la moyenne. Ils sont plus proches de la moyenne. Ici, je peux écrire que
les lectures sont abaissées. Cela signifie que les
points sont proches de moi. C'est la distance.
S'il est plus bas, cela signifie qu'ils sont
très proches de la moyenne. Que se passera-t-il si
la variance est élevée ? Si la variance est élevée, c'est essentiellement parce que ces distances
étaient très élevées. Ces différences
étaient très élevées. Donc, si ces distances
sont très élevées, cela signifie que les points sont très
éloignés de cette moyenne. Nous avons la moyenne ici et
les points sont dispersés. Leur startup, cela signifie
qu'il est loin de l'être. Voyons maintenant comment nous pouvons utiliser
ces deux éléments importants sujet de la variance pour l'
appliquer réellement en science des données
ou en apprentissage automatique. Dans le machine learning, il existe un concept connu sous le nom de clustering. Et en regroupant ce que nous faisons, nous avons essayé de former des groupes
au sein d'une donnée. Ce que je vais faire ici,
c'est que je vais dessiner un graphique très simple ici. Considérons que nous avons ici
ces points
marqués en noir. Et ensuite, nous avons ces esprits. Micelle
était peut-être due, n'est-ce pas ? Nous avons donc tout ce jeu de données, mais Margaret est divisé en deux
groupes ou clusters différents. Maintenant, ce que je peux faire, c'est que la
variance sera réduite. Cela signifie que les
valeurs sont plus proches. La variance est élevée, alors cela signifie que les valeurs
sont loin de la moyenne. Pour former des clusters
ou des groupes au sein de nos données, il existe deux conditions. La première condition est
qu'au sein d'un groupe, si vous considérez ce
groupe, au sein du groupe, les éléments de données doivent
être plus proches les uns des autres. Ils doivent être plus proches
les uns des autres. Et comment pouvons-nous nous assurer qu' ils sont plus proches les uns des autres en
calculant la variance
qu'ils sont plus proches ? De même, si vous voyez cela, si nous voulons créer cette boucle, nous devrons nous assurer que ces éléments sont très
proches les uns des autres. C'était la première condition
que les éléments, les éléments d'un groupe au sein
d'un groupe soient plus proches. C'était la première condition. Nous savons que nous pouvons utiliser
l'alias pour cela. Il y a également une deuxième
condition. La deuxième condition indique que si vous souhaitez former des groupes, première consiste à
s'assurer que les éléments d'un groupe
sont proches les uns des autres. Deuxièmement,
il fallait s'assurer que les valeurs de ce groupe et de ce groupe
sont loin les unes des autres. Très bien, donc ces valeurs
devraient être loin les unes des autres. Et c'est logique
parce que nous voulions nous assurer que les
groupes sont plus proches. Ils ne savaient pas au sein
d'un groupe que le point de données
devait être plus proche. Par conséquent, ils
forment une grappe. Mais nous voulons également nous
assurer qu'ils sont
loin l'un de l'autre, alors seuls nous pourrons faire distinction entre
ces deux groupes. Nous pouvons utiliser ce
concept de variance pour garantir ce regroupement
au sein d'un jeu de données. Et c'est très important
et cela
ne sera compris que si vous savez
comment la variance, si vous augmentez la variance, elle sera loin de la moyenne et les points sont
loin les uns des autres. C'est une chose. Permettez-moi maintenant de
passer au dernier concept très important, connu
sous le nom de distribution normale et
gaussienne. Donc, pour cela, je vais supprimer ce graphique ici. Très bien,
essayons donc de comprendre ce qu'est la distribution
gaussienne normale. Avant de comprendre
cela, nous devons comprendre la
signification de la distribution. Un exemple très simple de
distribution est
disons que j'ai dix chocolats
et qu'il y a des caractéristiques. Et ce que je peux faire,
c'est que je peux leur
distribuer ces 10$. Et c'est en fait
connu sous le nom de distribution. C'est la signification
anglaise de la distribution, la même chose qu'ici. De plus, dans la distribution,
nous avons essayé de distribuer le x, c'
est-à-dire les entrées. Faites un réarrangement. Nous
appelons y aux sorties. Dans la gamme. Supposons que nous ayons
une fourchette de 0 à un. J'ai ces points de données
et je distribue ces points de données
dans ces plages en les tracant, n'est-ce pas ? Donc, pour cela, j'ai besoin
d'une fonction f de x, qui va réellement
prendre cet inverse. Et il veillera à ce que ces entrées se situent
entre ces deux-là, c'
est-à-dire celle-ci, c'
est-à-dire cette plage. Ce n'est qu'un exemple pour
expliquer ce qu'est la distribution. Donc, si nous voulons
distribuer les éléments, nous utiliserons différents
types de distributions. Si la sortie,
qui est la plage, si elle est provabilité, est connue
sous le nom de distribution de probabilité. Comprenons maintenant ce qu'
est la distribution gaussienne. La distribution gaussienne est également connue sous le nom de distribution normale. Et nous devrons vraiment le
comprendre à l'aide d'un graphique. Ce graphique a à, que
je vais dessiner est en fait une représentation de cette fonction ici
que j'ai là. Vous pouvez voir que ce f de
x un divisé par tout, sous la racine de deux pi e élevé
à la puissance moins la moitié, x moins la moyenne et
l'écart type carré entier. Il s'agit donc d'une fonction qui représente la distribution de
prudence. Et ici, vous pouvez voir ce
symbole qui est rho. Cela représente l'
écart type. Cette valeur, qui est mu,
représente la moyenne. Ici, nous avons l'
écart type et ici nous avons la moyenne. Donc, si nous avons une moyenne et un
écart type, nous pouvons utiliser la distribution
gaussienne. Ce x ici représente
les points de données dont nous disposons. Donc, si je dois fournir les points de
données ici au x, il va
me donner et il va réellement distribuer l'
entrée sur une certaine plage. Quelle que soit la valeur
que cette fonction f x me donnera, je la tracerai. Et les mains de la hanche, c'est en fait dans une gamme que nous appelons ça
comme les sorties, non ? Nous allons maintenant comprendre
quelles sont les étapes à suivre pour créer
réellement le graphique
de la distribution normale, qui est le graphique
de cette fonction. La première étape consiste à
marquer une valeur qui se trouve
au centre de cet axe. Et cette valeur sera la moyenne. Donc, 18,57 c'est la moyenne. Pour plus de simplicité, je ne
fais que préciser la valeur absolue. C'est en fait la méchante ici. Je vais utiliser Mu pour
représenter ça, n'est-ce pas ? Maintenant, la deuxième étape consiste à ajouter, à créer d'autres marqueurs
ici en ajoutant et en soustrayant l'
écart type. Alors, comment puis-je le faire ? L'écart type est de 8,32. Et encore une fois, je vais prendre
la valeur absolue de huit. Si je l'ajoute à ça. Ici, je l'obtiendrai quand D6. Si je soustrais huit de cela, j'ai une valeur de dix. Il s'agit en fait l'écart type qui
est représenté par le rho. Et rho est égal à huit. Dans notre cas, je prends
la valeur absolue. C'est la première étape. C'est ce qu'
on appelle en fait le premier. Un écart type.
Maintenant, la troisième étape consiste à calculer le total et le deuxième
écart type. Et c'est aussi simple. Il suffit d'ajouter l'écart type
à ce nombre. 26 plus huit équivaut
en fait à 34. Ici, nous avons un NAD et je vais
devoir faire de même ici. Je devrai soustraire la
valeur de huit de ces dix, puis la valeur sera due. Ainsi de suite, nous pouvons le faire comme
ça sur ce graphique. Il s'agissait du premier
écart type. Vous pouvez voir que celui-ci
était ici le premier
écart type. Celui-ci est le deuxième. De même, nous pouvons créer beaucoup plus d'écarts types ici en ajoutant simplement l'
écart type à la moyenne. La question se pose donc : qu'
est-ce que nous essayons de faire
avec ce graphique ? Quel est le motif
de ce graphique et ce que nous allons
utiliser dans la science des données ? Revenons maintenant
à notre exemple. Dans notre exemple, nous avons indiqué que le nombre de
ventes en moyenne était 18 et qu'il y a eu une augmentation ou une diminution
de huit téléphones mobiles. Ici. Si j'essaie de dessiner cela, si vous pouvez le voir ici, nous avons une moyenne et un
écart type. Ce que nous voulons faire, c'est analyser que si l'écart type
augmente, si l'
écart type augmente,
quel sera l'impact sur les points. Si j'incrémente l'
écart type, quel sera l'impact
sur ces points de données ? Vont-ils se rapprocher la moyenne ou ils vont s'
éloigner de la moyenne ? Ce que nous faisons, c'est que nous
complotons cela. Nous prenons la moyenne et nous prenons
l'écart type et
les points que nous avons fournis
à cette fonction. Et on observe que si
vous fournissez cette fonction, vous obtiendrez
un graphique comme celui-ci. La quatrième étape consiste à
dessiner le graphique pour cela. Il s'agit de l'axe Y. Cet axe des Y représente
une valeur faible et une valeur élevée. Nous voyons donc ici une situation moins
probable. Et ici, nous constatons une situation très
probable. Donc, fondamentalement, cela signifie
que si la valeur de cette fonction fx est hauteur, si elle est plus élevée, cela
signifie que le point est très susceptible d'être
plus proche de la moyenne. L'essentiel est donc que
nous voulons nous assurer que nous voulons comprendre à
partir de ce graphique comment les points de données s'
écartent de la moyenne. Est-ce qu'ils se rapprochent de
la moyenne ou ils vont loin à la moyenne pour
ce graphique qui aidera. Maintenant, dessinons ce graphique. Donc, 18 c'est la moyenne. Je vais donc juste
tracer une ligne pointillée ici. Maintenant, si vous essayez de
dessiner ce graphique, il
s'agit de la première déviation. Je vais donc dessiner une autre ligne
pointillée ici comme celle-ci. Il s'agissait donc de notre premier
écart type et c'est la moyenne. Essayons maintenant de dessiner à travers les effets de cohorte,
qui est ici. On observe qu'un golf
en forme de cloche est observé. Ça se passe comme ça. Lorsqu'il touche le premier
écart type, il commence à augmenter. Ta neige remonte comme ça. Et quand il atteint la moyenne, commence à descendre comme ça. Et puis il est
noirci comme ça. Ceci est connu ici sous le nom
de courbe en forme de cloche, et c'est l'objectif de f de x, qui est cette fonction. Voyons quels sont les
faits importants à ce sujet. On observe que lorsque
vous fournissez ces entrées, la moyenne et l'
écart type, lorsque nous obtiendrons cette courbe, il est absorbé que 34 % de tous les points de données se trouvent dans cette région, que
je marque ici. 34% la mentiront et 34% de
la ligne dans cette autre moitié. Au total, 68 % de tous les points de données se
situeront dans ce premier
écart type. Qu'est-ce que cela signifie ? Cela signifie que si je
prends cette valeur de dix, cela signifie que si le nombre de ventes se situait entre dix et 26, 68 % sont en réalité là, ce qui est plus proche de la moyenne. Essayons maintenant de
comprendre ce qui
se passera si je prends une valeur ici, supposons ici une valeur
qui repose sur la moyenne. La valeur repose sur la moyenne. Jetons un coup d'
œil à cette formule. S'il est 91, la moyenne, elle a une valeur égale à
la moyenne, qui est 18,57. Cette valeur est ici
18,57 moins 18,57. Cela deviendra en fait 0. Et comme il y a moins de moitié multiplié par 0, il sera 0. Et ensuite, nous avons été élevés
au pouvoir 0 ici. Cette valeur entière
sera égale à 0. E élevé à la puissance
0 est égal à un. Ce que nous obtenons, c'est que seul
fx est égal à un
par un sous la racine de deux pi, alors
la valeur du point de données est en fait
égale à la moyenne. La valeur d'un par deux pi, je l'ai déjà calculée. Il est en fait égal à 0,4, ce qui est ici une contrainte. Je peux réellement écrire
ici la fonction f de x est égale à 0,4 divisée
par l'écart type. Vous pouvez voir l'
écart type. Et vous pouvez voir les effets de
fonction, ils sont inversement
proportionnels les uns aux autres. Puisqu'ils sont inversement
proportionnels les uns aux autres. La valeur de l'
écart type va augmenter. La valeur de l'écart type augmente la valeur de l'
éthique que nous obtiendrons. Vous pouvez voir à partir de
la courbe lorsque l'écart type
augmente, que
le graphique baisse. C'est un point important ici que si l'écart type, ce qui est fondamentalement logique
parce que l'écart type est en fait la distance entre
le point et la moyenne. Vous allez augmenter cette distance, puis il sera moins probable que le point
soit plus proche de la moyenne. Donc c'est mon dysfonctionnement
qui a une valeur inférieure. Maintenant, supposons ici, essayons de comprendre
un graphique de plus, ce qui est une autre chose ici, ce qui est très intéressant. Supposons donc qu'au lieu de
cela , nous avons un
écart type de deux. Donc, au lieu de huit, j'ai un
écart type de deux. Supposons que la
valeur soit deux. Dans ce cas. S'il s'agit de deux, nous savons qu'il est
inférieur à ce cas. Cela signifie que les points sont
beaucoup plus proches de la moyenne. Essayons donc de tracer cela
sur ce graphique et sur Lexi, que notre logique selon laquelle les points se
rapprochent
de la moyenne reste
vraie dans le graphique ou non. Nous savons que les étapes du
dessin du graphique sont simples. Nous devrons ajouter l'
écart type à la moyenne. Donc ici, 18 plus deux deviendront 2018 moins deux deviendront 16. Maintenant, si je veux dessiner, le graphique se déroulera comme ça et
le graphique sera plat. Mais quand il atteint l'écart type
complet, commence à augmenter comme ça. Mais maintenant, la question est la suivante : va-t-elle baisser ou va aller plus haut ? Ce code, va-t-il baisser ? Et ensuite, vers le bas ? Ou va-t-il aller plus haut ? Et alors je ne sais pas ? La réponse à cette question
est la logique elle-même. Il y a deux logiques
qui expliquent cela. Le premier, c'est que 68 %
des points
qu'on observe qu'il va occuper ici. Il est donc évident que si vous
deviez réduire cela, vous devrez
augmenter la courbe pour
tenir compte de ces valeurs de 68 %. C'est la première logique
que vous pouvez déduire. logique de bon
sens la plus importante ici est que si vous diminuez
l'écart type, vous avez des degrés de l'
écart type. Cela signifie que les points
sont plus proches de la moyenne. S'ils sont déjà
plus proches de la moyenne
, ils vont
devenir plus élevés. C'est très probable. Il est souligné que les
points sont plus proches de la moyenne. Cette valeur deviendra ainsi et elle redescendra, le premier écart type, et encore une fois elle deviendra plate. Tout cela concerne ces sujets
importants et vous utiliserez ces
concepts importants dans l'apprentissage automatique. Vous utiliserez la variance et apprentissage automatique pour les
groupes dispersés. Vous utiliserez votre régularisation des
bonbons également étudié le
problème du surajustement. En gros, c'est tout pour cette vidéo. Merci d'avoir regardé.