Transcription
1. Introduction: Bonjour et bienvenue au camp d'entraînement de programmation de
classe R pour la science des données et l'apprentissage
automatique. Dans ce cours, je vais vous
apprendre à ajouter de la programmation, qui est le deuxième
langage de programmation le plus populaire utilisé dans les domaines de l'apprentissage automatique
et de la science des données. Le premier casier, Python. Donc, si vous souhaitez apprendre la programmation
R et exceller dans votre carrière en science des données
et en apprentissage automatique, ce cours
est fait pour vous. Je suis Sunil, votre
professeur pour ce cours. J'ai
travaillé pendant des années dans des sociétés de
développement de logiciels
et des analystes technologiques au cours des 12
dernières années et j'ai enseigné
des sujets liés à la science des données et à l'apprentissage
automatique au cours des six dernières
années . Je vais donc vous apprendre
la
programmation , des bases aux sujets
les plus avancés. Et nous verrons comment utiliser notre programmation sans loi
pour analyser les données,
pour visualiser les données et comment
nous pouvons utiliser la programmation R pour créer nos modèles de science des données et d'apprentissage
automatique à utiliser dans les domaines de l'apprentissage automatique
et de la science des données. Donc, si vous êtes
intéressé par l'apprentissage et programmation pour la science des données
et l'apprentissage automatique, ce
cours est fait pour vous. Donc, si vous êtes intéressé,
inscrivez-vous à ce cours, je vous verrai lors de
la prochaine conférence. Merci.
2. Installation R: Bonjour et bienvenue. Donc, dans cette conférence, nous allons voir le processus
d'installation artistique. Et à la fin de cette conférence, nous pourrons exécuter nos
programmes dans notre console. Commençons donc à
installer R sur notre machine. Nous devons aller sur le site Web. Les canaux de la glande granifère sont un projet de
trait d'union. Observation dans le noir. Cnn Dot are Hyphen
Project ou Towards you, qui est le
site officiel de notre programmation. Et vous pouvez consulter
une archive R complète. Lorsque vous venez ici, vous
constaterez peut-être un rythme différent si nous
arrivons à un
moment différent au bout de quelques mois. Mais plus ou moins, vous verrez le Comprehensive R
Archive Network ici. Et puis ici, vous
verrez télécharger et installer R. Et
ici, vous verrez les différentes
options du système d'exploitation que vous pouvez télécharger R4. Nous voici donc sur
la machine Windows. Je vais donc opter pour ce
téléchargement R pour Windows. Si vous utilisez Linux ou
macOS, vous pouvez accéder aux systèmes
d'exploitation correspondants. Nous devons donc cliquer
sur le téléchargement R pour le
système d'exploitation correspondant à mes enfants. Je clique sur les fenêtres. Ici. Vous pouvez sélectionner installer
R pour la première fois. D'accord ? Et voici le téléchargement de R pour point
ou point pour Windows. Cliquez dessus ou non. Ou un trait d'union, quatre points, 0, n2, un trait d'union, un point vert, le fichier EXE
commencera à se télécharger. Il s'agit du fichier de 83,6 Mo. Et mon Internet est un peu
lent aujourd'hui, depuis le matin. Cela prend donc du temps. Si vous êtes sur Internet haut
débit, cela peut prendre quelques minutes et le fichier dot EXE sera téléchargé. Il suffit d'attendre
qu'il soit téléchargé. Et une fois que ce sera fait
, nous commencerons le
style et le processus. Le fichier Dot EXE
a maintenant été téléchargé. Nous devons double-cliquer dessus. Et vous serez invité
à installer l'œuvre d'art. Il suffit de cliquer
sur Oui pour autoriser l'administrateur à accéder au processus
d'installation. Et une fois que vous aurez fait cela, l'invite d'écoute des histones se
présentera comme suit. Et ici, nous devons sélectionner la
langue pour que vous puissiez sélectionner la
vôtre et cliquer sur. D'accord. Nous devons maintenant connaître les conditions de
Thompson, comme contrat de
licence publique générale
GNU. Vous devez donc le lire
, puis nous devons
cliquer sur Suivant. Vous pouvez maintenant sélectionner
le répertoire. Je le garde dans le répertoire par défaut
du fichier C. Et nous devons cliquer sur Suivant. La chose existe déjà parce
qu'elle était déjà là. Il me suffit donc de cliquer pour
installer de quelque manière que ce soit. Cliquez dessus et vous pouvez le laisser tel quel
et cliquer sur Suivant. Cliquez sur Suivant. Ici, vous pouvez, si vous le souhaitez, sélectionner
pour ne pas créer le dossier du menu
Démarrer, d'accord ? Si tu veux, je
veux être créé. Je vais donc cliquer sur Suivant. Et ici, vous devez sélectionner, il vous suffit de sélectionner les données. Les gouttes suivantes sont des raccourcis
qui vous permettent lancer facilement l'illustration. Chaque fois que vous
voulez écrire un programme, vous pouvez simplement cliquer sur
cet intestin de tracé supplémentaire et le programme peut commencer. Cliquez sur Suivant. Et maintenant, l' étrange est en train de s'installer
sur notre système. Cela peut prendre quelques minutes. À peine. Cela prendra deux
à 3 minutes tout au plus. C ici. Maintenant, la partie rpart, nous sommes à l'intérieur, point
ou point à point, rigide. Et il dit que c'est fini. Il suffit donc de cliquer sur la finition et R est installé
sur votre machine. Pour vérifier si cet objet est
installé ou non, vous devez cliquer sur le menu Démarrer de Windows
et il vous suffit faire défiler l'écran vers le bas pour vérifier si
des artistes ne le sont pas. Voir ici. Voici le dossier artistique. Et lorsque vous cliquez dessus, cliquez sur le dossier artistique, vous verrez que les deux
options sont I1, I3, un T6, et ajoutez un tel T4. Donc, si vous utilisez un système
d'exploitation Windows 7 ou Windows 10 ou supérieur, vous pouvez opter pour la version
quatre bits. Sinon, vous pouvez
opter pour le 386. OK, donc je suis sur des machines à moins de
64 bits, donc je vais cliquer dessus
et r sera perdu. Voici donc le R Do Re, et voici la console R. Et ici, nous pouvons commencer à
écrire le programme cardiaque. Supposons que j'aime quatre plus cinq
et que ça me donne neuf. Si vous écrivez le simple programme
Hello World pour l'art. Nous devons donc écrire. Et puis, entre
guillemets, Hello world, et Hello world s'affichera. Alors à tout de suite. Il s'agit du simple programme Hello
World en R. Voici
donc comment nos programmes
peuvent s'exécuter dans la console. Mais pour ce cours,
nous n'allons pas
utiliser l'interface graphique de notre console. Au lieu de cela, nous allons
utiliser RStudio, qui est un IDE
pour R. Et c'est option la
plus préférable
et pour poursuivre
la programmation R. Dans la prochaine conférence,
nous allons donc commencer à télécharger
et à installer RStudio. Vous me verrez lors de la prochaine conférence.
3. Installer et explorer RStudio: Dans la conférence précédente, nous avons téléchargé et
installé sur notre machine. Et nous avons vu comment travailler
avec la console d'art, n'est-ce pas ? Oui. Mais nous n'
allons pas poursuivre. Nous allons donc télécharger
RStudio pour ce cours. Et tout au long de ce cours, nous utiliserons RStudio. Rstudio est un
environnement de développement intégré (IDE )
pour la programmation R. Et avec cela, nous
pouvons faire les choses facilement et gérer les choses de
manière organisée. AD aide beaucoup à la programmation. Nous pouvons donc enduire facilement et voir les résultats. La semaine prochaine, nous
opterons donc pour le RStudio. Donc, tout d'abord, nous devons télécharger RStudio. Donc, pour télécharger RStudio, nous devons nous rendre sur
le site art studio.com. Ceci est le
site officiel de RStudio. Et lorsque nous atteindrons le site Web de
RStudio, vous verrez les différentes
options telles que les produits, solutions, les clients, les
ressources et bien d'autres choses. Et en haut, vous pouvez voir que
le téléchargement
ne cliquera pas dessus. Avant cela, nous allons
juste voir quels sont les produits de
level chez RStudio. Il y a donc notre studio, le premier IDE pour R. Ensuite serveur
RStudio, c'est leur
signe, est déjà là. Et les packages RStudio
sont également présents. Nous allons donc
utiliser RStudio, l'ID, puis nous
utiliserons des packages R pour diverses utilisations lorsque nous exporterons cet apprentissage
automatique de la science des données .
Toutes ces choses
utiliseront ensuite des packages R. OK, donc les
packages RStudio et R que nous allons utiliser. Cliquez donc sur RStudio. RStudio est donc un
environnement de développement intégré pour l'art. Il inclut un
éditeur de mise en évidence de
la syntaxe de la console qui prend en charge l'exécution
directe du code, ainsi que des outils de traçage, historique, de débogage
et de gestion du contenu. OK, donc toutes ces choses que
nous pouvons faire avec RStudio, nous allons utiliser
la dernière version RStudio un point trois. Et il existe deux
versions de RStudio niveau supérieur, à savoir RStudio
Desktop et RStudio Server. Nous n'allons donc pas
utiliser le serveur RStudio. Nous allons utiliser RStudio
sur nos deck-stops, donc nous allons cliquer dessus. Et quand vous verrez un
autre espace de stockage supplémentaire, encore une fois, vous verrez
les deux options :
open source, qui
est essentiellement gratuite, et RStudio Desktop Pro, qui est destiné
à un usage commercial et pour que cet artiste puisse lire Extra Pro, nous devons payer 995 dollars. Nous n'allons pas utiliser
celui-ci à des fins commerciales. Pour ce cours, nous allons utiliser la version
open source gratuite de RStudio, c'
est-à-dire une
troisième version GPL, sous licence gratuite. Je vais donc cliquer dessus. Téléchargement, RStudio
extra. Cliquez dessus. Et lorsque vous cliquez dessus, vous entrez dans la phase
de téléchargement difficile. Et ici, nous pouvons choisir cette version gratuite et
cliquer sur Télécharger. Et lorsque vous cliquez sur Télécharger, vous accédez à votre système d'exploitation
respectif. Nous avons terminé. Je vais donc
télécharger RStudio pour Windows. Si vous utilisez un autre système
d'exploitation, vous pouvez cliquer dessus. Comme Coben,
macOS, Fedora, BBN, quel que soit votre
système d'exploitation, il
vous suffit de sélectionner ce fichier
et de cliquer sur Télécharger. Je vais donc télécharger RStudio pour
Windows et cliquer dessus. Et le fichier EXE Artists, Artist Studio Dot
sera téléchargé. Le téléchargement commencera ici. Je vais donc attendre ça. Ce
fichier EXE RStudio point a donc été téléchargé, me suffit
donc de
double-cliquer dessus. L'
assistant de configuration So Artists Reduce a démarré. Alors pourquoi simplement
cliquer sur Next Next ? vous suffira de cliquer sur Next Next et ce sera fait. Pas besoin de faire quoi que ce soit de plus. Cliquez donc sur Next, Next, Next. Et ce sera fait
en quelques minutes. La
configuration du studio d'artiste est donc terminée. Vous cliquez simplement sur
Terminer et RStudio est complètement bloqué
sur vos machines ou maintenant, l'application de tâches en panne est
là, cliquez simplement sur Conduite. Un studio d'artiste
sera lancé. Les zones Cell sont donc chargées. Rstudio, Eh bien, il semblerait que cette année, vous aurez la
possibilité d'écrire votre script. Et voici la
console où nous pouvons voir les résultats
de ces scripts. Et puis, dans ce coin supérieur
droit vous pouvez voir l'
environnement, l'histoire. Quelle que soit la commande et suppression, nous utilisons
Dorsal Stream. Vous pouvez alors voir cette
connexion, puis le tutoriel. Donc, si vous voulez en savoir plus sur un
package en particulier ou quelque chose comme ça, vous pouvez vous rendre ici et
en savoir plus à ce sujet. Et puis ici, vous pouvez voir les fichiers
du répertoire de travail.
Les fichiers seront affichés ici. Ensuite, les tracés, lorsque nous
utilisons des tracés
et tous les graphes, et si
nous utilisons un paysage pour tracer quelque chose
sous forme graphique, tous ces tracés et
tout le reste seront bientôt disponibles. Les packages que nous
utilisons dans notre script. Ces packages
seront de notre niveau ici. Donc, tous les packages qui
sont installés ici. Et vous pouvez simplement sélectionner, et si vous souhaitez
supprimer ce package, vous pouvez le supprimer à partir d'ici. Si vous souhaitez en savoir
plus sur le package, vous pouvez cliquer sur
ce lien en savoir plus
sur le package. Vous pouvez donc voir ici
le nom du package
, puis la description du package et le
libellé du package, puis explorer
puis supprimer le mob. L'option package existe. Si vous souhaitez installer
un nouveau package, vous suffit de
cliquer sur Installer et nouveau nom du package pour spécifier le
nouveau nom du package pour
le télécharger. OK, et puis voici
une opération d'aide et vous voulez en savoir plus
sur R et RStudio, ou voulez-vous consulter
les manuels sont
volumineux,
vous pouvez y les manuels sont
volumineux, aller et obtenir de l'
aide sur n'importe quel sujet, d'accord, alors nous avons vu connexins et des didacticiels
et tout sera là. Et à partir de là, les trois points. Vous pouvez voir
que lorsque vous cliquez dessus, vous pouvez sélectionner le répertoire de
travail que vous souhaitez définir
pour votre RStudio. Supposons donc que vous sélectionniez notre 2020
comme répertoire de travail. Je vais donc simplement sélectionner cela. Ensuite, nous devons cliquer
sur cette option supplémentaire et l' option
Définir comme
répertoire de travail est qu'il vous suffit
de cliquer dessus. Donc, senior set, WD a dit que WE est la commande permettant de
définir notre répertoire de travail. Donc, bénéficiaire de la subvention
imprimée à deux points en C ou D. Cette arborescence a été définie sur
le répertoire de travail. Donc, si vous ne voulez pas le faire
à partir d'ici, vous pouvez utiliser cette commande pour définir le
répertoire de travail, d'accord ? Et puis ici, vous pouvez créer un nouveau dossier,
vous pouvez le supprimer, vous pouvez renommer toutes ces options à notre niveau ici et ici, nous pouvons simplement écrire notre script
par plus de cinq. Et cette exécution, vous pouvez sélectionner cette ligne et
cliquer sur Exécuter. Ce script ou
cette instruction s'
exécutera et vous
verrez le résultat ici,
phi plus pipe, alors vous pouvez
simplement.
Si vous voulez imprimer quelque chose,
bonjour, RStudio et que vous
voulez cliquer sur Exécuter, vous verrez qu'il y a
LTL hello, RStudio. D'accord ? Et dans l'historique, vous
verrez toutes les commandes
en cours de calcul. D'accord ? Voici donc les éléments et
ce fichier que vous pouvez enregistrer. Si vous souhaitez enregistrer ce fichier, vous pouvez cliquer sur Enregistrer, et il sera enregistré dans votre répertoire de travail
actuel. Vous pouvez donc donner
n'importe quel nom en rouge. Il sera enregistré dans notre fichier. D'accord, de même, si nous
voulons créer un nouveau fichier, vous suffit de cliquer ici et vous verrez
le groupe de l'artiste. Vous allez créer notre fichier de script, notre bloc-notes
ou notre fichier R Markdown. Nous verrons ce qu'est le fichier
R Markdown. Nous allons en apprendre davantage
sur cette méthode agile. D'accord ? Ensuite, si vous cliquez, vous pouvez créer un nouveau
projet ou un nouveau répertoire, ou vous pouvez accéder au répertoire
existant. Et ici, vous pouvez voir
le contrôle de version. D'accord ? Voici donc les
différentes options de niveau. Si vous cliquez à nouveau sur le fichier, vous verrez le
nouveau script File R. McDonald's, ces choses
que vous pouvez voir ici. Et des parcelles aurifères que
nous avons vues ici. Même chose. Les outils de création et de
débogage ne le sont pas. Nous allons donc explorer toutes les options pour savoir quand et où cela est nécessaire. Et nous allons explorer toutes
ces choses pour le moment. C'est la partie de l'écriture du script, et ici nous verrons qu'il s'agit d'un juge, et ici nous pouvons voir répertoire de travail actuel et les intrigues
sombres et tout le reste. Si nous l'utilisons, vous pouvez
voir que vos packages peuvent être installés et qu'
ils sont volumineux à partir d'ici. Et ici, vous pouvez voir
l'histoire et tout. OK, donc
tout tourne autour de RStudio. Et maintenant, nous sommes prêts
à commencer la programmation R
avec ce RStudio Ib. Donc, à partir de la prochaine
conférence, nous allons apprendre
notre programmation. Steven tape donc la conférence suivante.
4. Pourquoi apprendre R: Bonjour et bienvenue.
Dans cette conférence, nous allons apprendre pourquoi et pourquoi devrions-nous apprendre le langage de programmation
R ? Pour répondre à cette question, nous devons donc
passer en revue deux choses. Tout d'abord, qu'
est-ce que r et pourquoi
devrions-nous savoir si vos régions sont traîne dans l'apprentissage de notre programmation ? Commençons donc par ce
qu'est r ? R est donc le langage le plus
populaire dans le monde de la science des données. L'analyse des données est statique. Il est donc largement utilisé pour
analyser des données à la fois structurées et
non structurées. De nos jours, nous
recevons d'énormes quantités de données appelées mégadonnées, qui sont pour la plupart non structurées. Et si vous souhaitez
analyser ces mégadonnées, vous pouvez facilement utiliser
la programmation R ou impair. Étrange. Étrange. Odd est un langage de programmation
et un logiciel de réchauffement
destinés à
l'analyse statistique et aux graphiques. La présentation et le compte rendu de
ce qui a été créé par Eros Yamaka et
Robert Jackson Man et l'université d'
Auckland, en Nouvelle-Zélande. Et c'est actuellement
qu'ils sont bloqués par notre équipe de développement principale. R est donc inventé par Yamaka
et Robert Gentleman. C'est pourquoi son nom est étrange car en hiver, le nom
commence par Roth et Robert et ils
l'ont nommé d'après leur nom. Et cela s'appelle notre
programmation à partir d'eux. Régions pour apprendre R. R est un logiciel open source
disponible gratuitement ,
que vous pouvez brancher et utiliser. Et si nous voulons contribuer à l'art, vous pouvez également le faire. Et c'est la licence publique
générale GNU. Vous n'avez donc pas besoin de payer
quoi que ce soit librement. Et c'est la meilleure raison
d'utiliser notre programmation. Compatible avec plusieurs plateformes. Donc, peu importe que vous exécutiez
notre programme sous Windows, Linux ou
macOS. Il fonctionnera parfaitement
et vous donnera le même résultat sur n'importe laquelle
de ces plateformes. Ces artistes très flexibles
et évolutifs de nature
flexible ? Et elle évolue beaucoup. Et c'est actuellement
plus de 2 millions bien plus que 2
millions d'utilisateurs, qui utilisent nos
industries et domaines de programmation. Notre programmation a été largement utilisée. Comme vous nommez le secteur vous découvrirez l'utilisation de
notre programmation dans le
domaine financier qu' ils utilisent pour détecter les transactions frauduleuses
dans le domaine des télécommunications. Ils sont utilisés pour la
programmation artistique. Trop. Très loin, le profilage des abonnés. Dans le domaine de la biologie, vous trouverez l'outil de biologie
computationnelle pour effectuer l'analyse du génome. De très nombreux domaines. Ils utilisent R. Et
c'est une immense communauté, comme je vous l'ai dit, 2 millions utilisateurs et une communauté de
développeurs. Et Odd en a
plus de 10 000. Les derniers packages et l'absence de fonctions
intégrées répondent à divers besoins. Donc, que vous souhaitiez effectuer une simple
opération de somme ou que vous
souhaitiez trouver la moyenne de certaines
fonctions, vous devez utiliser des nombres. Ou vous
souhaitez utiliser d'autres
représentations graphiques de vos données. Vous pouvez le faire facilement avec les packages d'audit et les fonctions
intégrées. Et nos packages sont parfaits
pour la manipulation de
données, la visualisation de données, l'apprentissage
automatique, la science des
données et la modélisation
statistique, l'
imputation et de nombreux autres packages conçus
pour être utilisés de manière ludique. R est idéal pour la visualisation. Et les packages R tels que GG
plot to Gibbs vous permettent de créer des visualisations afin
que vous puissiez facilement visualiser les données grâce à
notre programmation. Et de nombreuses grandes entreprises,
comme Facebook et Google, utilisent l'art pour répondre à
leurs différents besoins. Odd est égal au
langage. Cela tient en partie au fait que l'analyse
statistique
et la science des données à od sont largement utilisées
dans la science des données, l'apprentissage
automatique, l'analyse données, l'exploration de données, etc. Dieu est donc le langage de prédilection
pour toutes ces choses. Et si nous voulons apprendre, si vous voulez vous lancer dans la science des données
et l'apprentissage automatique,
je pense que vous devez commencer par
la programmation. Parce que si vous connaissez les
bases de la programmation, vous pouvez facilement
apprendre les concepts de science des données et d'apprentissage
automatique et vous pouvez facilement implémenter ces concepts, ces algorithmes avec une programmation
étrange.
5. Premier programme et opérateurs de R: Bonjour et bon retour. Dans cette conférence,
nous allons donc
écrire notre premier fichier de script R, ou d'abord notre programme, et nous allons voir la syntaxe
de notre programmation. OK, donc tout d'abord, nous devons créer notre fichier. J'ai donc créé dans la
conférence précédente les premières données, je vais juste les fermer. Et il suffit de cliquer ici. Et nous allons sélectionner notre script. Vous pouvez également utiliser Control Shift et
créer notre fichier de script. Et voilà, ce que je vais faire, je vais essayer de l'enregistrer en
cliquant ici. Vous pouvez placer des contrôleurs
et donner ce nom en premier. En panne. D'accord. Point. Point, point, c'est pourquoi les élections
et quels programmes. OK, ajoutez un script. Je vais donc simplement cliquer sur Enregistrer. Notre premier fichier de
script de programmes artistiques est maintenant terminé. Maintenant, ce que je vais faire, c'est
commencer par quelques variables. Supposons X, X, 0
et une oreille précieuse. Et je veux attribuer la
valeur sept ou huit. Nous pouvons donc attribuer une
valeur en utilisant un trait d'union inférieur à un
signe, c'est-à-dire x. Et lorsque nous utilisons moins de huit, cela signifie que cet
objet x dans notre
programmation est un objet. Nous pouvons donc appeler x en tant que variable n, ou nous pouvons l'appeler en tant qu'objet. En tant qu'objet ou variable. Donc x est un objet, et nous lui
attribuons la valeur huit. Comment pouvons-nous vérifier cela ? Il n'a plus de valeur huit maintenant ? Ainsi, lorsque vous
cliquez sur Exécuter ici, vous pouvez voir et voir ici dans l'onglet
Environnement global, vous pouvez voir x valeurs x. Donc, l'objet x
reçoit une boucle complète. C'est. Nous pouvons simplement utiliser la commande d'impression. Et on peut y mettre X. Ensuite, lorsque nous exécuterons cela, nous obtiendrons la valeur huit. OK, on y arrive. Maintenant, ce que je vais faire, simplement écrire un programme
pour ajouter deux nombres. Je vais donc utiliser x égal à huit et j'attribuerai y égal à neuf. Et puis, voyez ici ce que j'ai fait. J'ai assigné à x, à y, puis j'ai encore utilisé une autre variable ou un autre objet. Et j'ai assigné x
plus y égal à jet. Et ce que j'ai fait, j'ai
imprimé
les détails pour que le X et Y soient morts. Nous
transporterons donc X plus Y, X plus Y plus 917. Nous obtenons donc
la valeur I, juste 17. De même, ce que je vais faire, que
nous pouvons également utiliser une chaîne. Sous le porche, je perds mon ressort. Et je vais lui attribuer une valeur de
chaîne. Supposons que je quitte mon domicile. Rien, d'accord ?
C'est la chaîne que j'attribue à
ma valeur de chaîne. Alors maintenant, l'
objet MyString
obtiendra ce que je trouve chez moi, n'est-ce pas ? Donc, ce que je vais faire,
c'est
juste essayer d'imprimer la valeur de ma chaîne, et je vais essayer de l'exécuter. Pourquoi deviennent-ils plus nombreux ? Parce que je n'ai pas exécuté cette ligne et que nous exécutons pas cette instruction d'impression. Nous devons donc exécuter
ligne par ligne, d'accord ? Et si nous voulons
exécuter immédiatement, il
suffit de
cliquer sur la source. Cliquez donc sur la source et tout
sera égal à 17 pour cette impression, puis sur ma page d'accueil pour cette valeur de chaîne. D'accord ? C'est donc comme ça que tu veux. Encore une fois. Supposons que j'utilise x. égal à 910. Imprimez x ici. Et si je lance ça, j'en aurai huit. Donc, à cause de cette déclaration que j'
ai et que vous avez créée plus tôt, je reçois X4 8. La nouvelle valeur, x égal à neuf, x égal à dix, n'est pas exécutée. Donc, pour exécuter cela, je dois faire
ce que je dois faire, et
il exécutera cette ligne. Et si je lance cette
instruction, encore une fois, j'obtiendrai la valeur n, n'est-ce pas ? Si je lance toute cette source,
ce que j'obtiendrai en premier, j'obtiendrai x plus y
17 parce qu'ici, jusqu'ici, la valeur x est huit. Mais lorsque nous avançons
dans le programme, valeur
X est réaffectée à dix. Et c'est pourquoi nous obtenons ici
la valeur X égale à dix. D'accord ? La valeur MyString
est donc une variable de chaîne, U et X, Y, j, les autres nombres, d'accord ? Et supposons quelque chose, si
vous voulez le soutenir, je ne veux pas utiliser
x égal à dix. Je peux le
commenter en utilisant Hess. D'accord, maintenant cette instruction ne
sera pas exécutée. Donc maintenant, si je lance tout
ce programme, tout ce script, ce que je vais obtenir, je vais obtenir x égal à huit. D'accord ? Je n'ai pas
le soleil, le PDG. Maintenant, j'obtiens la valeur x
est la valeur x à 818910. Si je supprime ce commentaire, encore une fois, j'en aurai dix. La valeur C x est en baisse. Donc, si vous voulez
ajouter quelque chose, vous pouvez utiliser Hess, cette déclaration
sera commentée. De même, nous pouvons exécuter tous les
opérateurs mathématiques sur les variables. Supposons donc que je
veuille utiliser quatre sur cinq. J'en aurai 25, 20. Si je veux, utilisez 25/5 et nous en aurons cinq. Donc, toutes ces choses que nous pouvons faire, nous pouvons exécuter tous les opérateurs
mathématiques ici. Supposons que je veuille utiliser
25/2, j'obtiendrai 12,5. Donc, toutes ces choses que
nous pouvons faire ici, nous pouvons également utiliser nos activités
exponentielles. Supposons que je veuille utiliser trois exponentiels à la règle de l'
exposant. Nous en aurons neuf, non ? Alors lancez ceci et voyez, vous en
aurez neuf. De même, si j'utilise
25 exponentiel 25, combien obtiendrons-nous ? Voyons voir. OK. C'est donc la grande valeur. Je n'aurais pas dû en utiliser. 25 exponentiels, deux
donneront 625, je suppose. Oui, c'est x 25. Nous pouvons donc utiliser ici tous ces
opérateurs mathématiques. Si vous voulez utiliser
six exponentiels, vous en aurez toujours six, n'est-ce pas ? Si on en fait deux, on en aura 36. Donc, tous ces
opérateurs et calculs mathématiques que nous pouvons utiliser dans R comme d'habitude, d'accord ? De même, nous pouvons également effectuer des
soustractions. 78 moins trois plus
six obtiendront 22. Nous avons donc vu, comme
Edison, une multiplication exponentielle, et nous avons un opérateur
spécial
qui est le module. Également. Supposons que j'utilise 45 et le modèle, utilisons-en deux fois. Donc 45 modélistes. Supposons que j'en utilise cinq. Donc 45 modulus phi
donnera zéro, non ? Oui. Et si j'utilisais
45 module quatre, j'en obtiendrais un, z. Donc, si j'utilise 25, trois
sans bordure, j'obtiendrai 41. D'accord ? Le module
conservera donc le reste. Donc 3/20, 5/3 nous donneront 13 sur 824, puis nous
recevrons celui en guise de rappel. D'accord, donc lorsque nous
effectuerons
la division, le reste sera
donné sous forme de module. Ce sont donc les
opérateurs que nous avons vus dans le sens de
la multiplication exponentielle de Jackson, puis du module.
6. Types de données en R: Bonjour et bon retour. Dans cette conférence, nous
allons en apprendre davantage sur les types de données
dans la programmation R. Donc, contrairement à d'autres
langages de programmation comme Java ou C, ou C plus plus, où nous déclarons une variable, nous déclarons la variable
sans type de données, n'est-ce pas ? Supposons que si nous voulons utiliser
une variable de type entier, déclarons cette variable int x. N' est-ce pas ? Maintenant, pourquoi notre
personnage est le X, n'est-ce pas ? Ficelle. Pourquoi enchaîner un, l'enchaîner comme
ça, non ? Mais dans notre programmation, nous ne déclarons pas de variables
avec un type de données, n'est-ce pas ? Supposons que j'aie effacé mon
probablement, comme ici, j'ai attribué x ou dix, n'est-ce pas ? J'ai attribué dix au x. Donc, on attribue à cet objet
une valeur obtenue. Le type de données de cet
objet deviendra donc un type de données, type de données portant ce
numéro dix, n'est-ce pas ? Donc, cette variable ou ceci, supposons que c'est dix
sous la forme d'un nombre entier. Ce type de données d'objet
deviendra donc un numéro. Si j'assigne x égal
à une chaîne, cela deviendra la variable de chaîne de
caractères. Nous ne décidons donc pas à l'avance ce que nous avons attribué à
la variable ou à l'objet, cet objet
deviendra un type d'objet. C'est donc quatre ou moins comme luminosité de
notre miroir dynamique. Nous n'indiquons donc pas le type de
données à l'avance. Il sera décidé du
type de valeur
attribué à cet objet. Et cet objet
deviendra ce type d'objet de valeur, n'est-ce pas ? Permettez-moi donc de créer un autre fichier dans lequel nous verrons
les types de données apparaître. Alors laisse-moi effacer cette limite. Eh bien, il existe donc essentiellement
six types d'objets. Et ils disent : « Oh,
rectus, inférieurs ». Rectus. Puis des listes. Et puis il y a Alice. Et puis nous avons des matrices. Et puis il y a des facteurs. Facteurs, puis étude. D'accord ? Et puis nous avons les dataframes. D'accord ? Voici donc les six
autres types d'objets que nous avons dans notre programmation. Alors laissez-moi vous expliquer cela. Les types de données un par un ou les types d'
objets un par un. D'accord ? Donc, tout d'abord, nous allons voir le vecteur, donc l'objet vectoriel avec l'objet le plus simple
de notre programmation. Et la mort, je
suppose, comporte six types de données. Nous allons donc voir, supposons que j'
utilise x égal à vrai. Et si j' imprime x, ce que nous aimons, je pourrai
l'écrire et le soutenir. Si je veux savoir quel type de données correspond
ce x, ce que je peux faire, je peux utiliser l'impression,
puis utiliser verre dans la classe
d'âge d'impression X. D'accord ? Et si je l'exécute, j'obtiens que
la classe x est logique, donc c'est le type de données
logique de sortie. D'accord ? De même, nous avons un support
numérique. Si j'assigne x égal à 90, et que je le copie en y. Et je mettrai plus de y ici. Et si je gère toute la source, la classe Why
Swing Nomadic, non ? Maintenant, nous n'
attribuons pas d'otorrhée, ne déclarons pas le type de données y. Quelle que soit la valeur que nous
attribuons en fonction de cela. Les variables sont, le
type de données est en cours de décision. D'accord ? Il a donc dû se désintoxiquer,
compte tenu de la logique. C'est donc logique. Et ici, nous avons donné nomade, donc c'est noétique. La prochaine étape est l'Inde, n'est-ce pas ? Supposons que 90,9. Alors, quel sera le C ? Ce n'est pas un tarif nomade. Maintenant, la prochaine chose est un entier
très fin. Supposons donc D, et je vais attribuer
quelques valeurs, bien sûr 34. D'accord ? Ensuite, j'utiliserai le brillant à
imprimer Plaza de. Quand j'utilise Print Class
, jusqu'à vous, quel hayon ? Tu vois, je suis en train de devenir nomade. Désolée, je vais rentrer. Non, classez cet entier d est type de données entier supérieur, n'est-ce pas ? De même, nous avons un nombre
complexe supposé et déclaré un nombre complexe, supérieur de trois à plus cinq. Hein ? Et quand je place le groupe V, ce que nous aimons,
c' est que la classe de I est complexe, donc ce V, chaque complexe
numéro deux plus phi. De même, supposons que sine
C soit un programme ReLU. Si je soulève le verre, vois ce que ce serait un
personnage, n'est-ce pas ? Laisse-moi lire la source
complète C. Maintenant, je trouve le personnage de
Glass Up Sis. Ensuite, quelle que soit
la compatibilité, je vais utiliser le bleu et
lui attribuer un nouveau caractère à dessiner et utiliser Java. Et si j'imprime la
classe du problème B, ce serait le cas, voyons voir. C'est le cru. D'accord ? Ensuite, les objets étranges
sont appelés vecteurs, d'accord ? Ce sont donc des types de vecteurs
comme le verre et w
est un bâtonnet rapproché. C est la classe de caractères où v est un nombre
complexe plus
ou p est un entier, la
classe de y est numérique et x en gros plan est logique. Ce sont donc les
types de données ou les types d'objets, vous pouvez le dire dans notre programmation. Permettez-moi donc également de sauvegarder
ce fichier. Types de données. Dans la prochaine conférence,
nous verrons
comment créer notre vecteur, d'accord ?
7. Créer des vecteurs en R: Bonjour et bon retour. Ainsi, dans la
conférence précédente, nous avons vu les différents
types de données dans la programmation R. Dans cette conférence, nous allons en
apprendre davantage sur les vecteurs. Comment créer un vecteur
avec l'élément le plus grand
nombre de personnes, plusieurs éléments
ou Control N. Je vais créer un nouveau fichier de script R. Et dans ce document, nous allons
écrire les étapes à suivre pour créer un vecteur à
plusieurs éléments, plus d'un élément. D'accord ? Donc, ce que je vais faire, essayer de créer
et de transformer le hockey. Alors soutenez. Je veux créer un
vecteur appelé g. Et je veux
l'attribuer à plusieurs valeurs. Donc, dans notre programmation, lorsque nous voulons créer un
vecteur avec plusieurs éléments, nous devons utiliser une fonction
appelée fonction C, n'est-ce pas ? Cette fonction C nous
permettra donc de créer et de rectifier avec
plusieurs éléments. D'accord ? Ainsi, lorsque vous voyez
et fermez le crochet, puis à l'intérieur, nous pouvons
écrire le support de nos éléments. Je souhaite créer le nom
d'un pays. Supposons Alport,
Australie, Grande-Bretagne. D'accord. Afrique du Sud. Supporte les éléments numériques. Je crée à l'intérieur de ce vecteur. D'accord, nous pouvons donc utiliser
la fonction pour créer un vecteur avec
plusieurs éléments. Hein ? Maintenant, j'utilise simplement
print et je mets Ci. Cela imprimera donc les
valeurs dans le directeur. Alors laisse-moi exécuter ça. Permettez-moi de sauvegarder ce fichier. Et je vais enregistrer ce
fichier en tant que Rector Dot. D'accord ? Et tous ces fichiers
seront à notre niveau dans ce répertoire de travail actuel
que nous avons zippé. Et je vais attester ces fichiers. Vous pouvez donc déjà télécharger
et vous pouvez marcher dessus. OK, alors laissez-moi exécuter
ce fichier source. Maintenant que c'est fait, laissez-moi effacer cette console et la
lancer et l'exécuter à nouveau. Donc, maintenant, nous obtenons la valeur du
vecteur t en Australie, en
Grande-Bretagne, en Amérique du Sud
et en Russie, n'est-ce pas ? Donc, cela dit, et
un vecteur contenant plusieurs
éléments. Nous le pouvons, nous avons
vu comment trier. Nous avons vu comment
créer notre vecteur avec un seul élément, comme l'Inde. Et cela nous donnera de la
valeur pour le cerveau. Cela nous sera utile lors de l'audit. Ainsi, de cette façon, nous pouvons
créer un vecteur et un
objet avec un seul
élément et utiliser la fonction c pour créer un
vecteur avec plusieurs éléments. Et supposons que si vous souhaitez imprimer un verre de G, quel en sera le résultat ? Peux-tu deviner ? Voyons voir. Caractère C, les caractères
nuls. Cela nous donne donc le caractère S du vecteur
cluster T. Supposons que si je change
cela à 0, désolé, laissez-moi d'abord imprimer cette classe de t. Donc, le cluster doit être
marqué ici. Maintenant, ce que je vais faire, c'est
juste le modifier à 200, une valeur numérique, d'accord ? Et je vais essayer de courir, ai essayé de lancer ça. Ensuite, je vais essayer de faire cette dernière déclaration C. Et maintenant, nous levons
le verre. B a un nomade. De même, si je change
ici 120367900. Et si je lance ce fichier source, ce que nous obtenons, nous
obtiendrons le 12367900. Et la classe de G est
maintenant passée à numérique. Donc, quelles que soient
les données que vous allez utiliser en
fonction de ce type de vecteur, elles ne seront pas décidées à
l' avance, comme c'est le cas pour la
programmation en C ou Java, d'accord ? C'est donc la différence
entre C et Java n, n'est-ce pas ? Donc, quoi que vous
utilisiez en fonction de
cela, ce sera décidé.
8. Séquence en R: Dans cette conférence, nous allons en
apprendre davantage sur la séquence. Nous allons en apprendre davantage sur
la fonction de séquence dans r. Alors, que faisons-nous de la fonction de séquence
que nous allons voir ? Mais avant cela,
permettez-moi de vous dire une autre chose
importante que j'ai oublié d'inclure
dans la conférence précédente, le soutien. Je crée un vecteur
et j'utilise la fonction C. Et si comme ici, j'ai créé une fonction
utilisant uniquement des valeurs numériques. La classe de ce paramètre sera donc numérique car tous
les éléments sont numériques. Et si je donnais un caractère,
puis je donnais un chiffre, puis je
suivais une logique et je donnais un entier. Et si je lance ceci, et si je
me laisse d'abord apporter cette recta,
voyez, vous savez, bonjour, 67 à travers tout, jusqu'
à une citation. Pourquoi ? Parce que si nous créons une fonction vectorielle z et que l'un des
éléments est un caractère, tous les autres éléments ayant un entier
numérique ou logique seront convertis
en chaîne. Donc, si je me permets de copier ceci, et si je mets un verre de liquide, il
entrera dans le caractère. Tous les autres éléments seront donc
convertis en personnage. Si un élément est un caractère, tous les autres éléments numériques,
divins, logiques ou entiers, tous les
autres éléments seront convertis en caractère et la classe de ce vecteur
sera un caractère. N'oubliez donc pas que
si tout est numérique, ce sera numérique. Si toutes les classes
d'entiers doivent être des entiers, mais si elles sont mélangées à des
nombres entiers et à des caractères, l'entier sera
converti en caractère. Si quelqu'un ou un élément
est un personnage, tout sera
converti en personnage. OK, c'est pour clarifier. Ensuite, je vais
créer un nouveau fichier script. Je ne sais pas pourquoi cela
n'augmente pas. OK. C'est une sorte d'erreur. Je ne sais pas pourquoi. Nous allons donc maintenant en
apprendre davantage sur la séquence. Donc, dans R, nous pouvons
créer une séquence de nombres comme supposons que je
veuille créer un à dix. Je veux imprimer les
chiffres de un à dix. Je peux le faire en deux étapes. De deux manières. Je peux le faire en deux étapes, mais je peux le faire de deux manières. Je peux utiliser un opérateur deux-points ou utiliser la fonction de
séquence. Donc, tout d'abord,
je vais essayer de créer une
séquence de nombres. Je vais lui attribuer une certaine valeur. Supposons que je
veuille obtenir la séquence. Supposons que je dise, vous voyez, que
je suis en train de créer un produit prêt à l'emploi, que
nous verrons que nous
aurons de la valeur. Je veux lui attribuer une valeur un à sept ou un à obtenir,
ou une à cent. Alors, comment puis-je faire ça ? Un colon, 100. Si je fais une couleur à
100 et que, si je la lance, ce qu'elle fera, elle
créera une séquence de 1 à 100. Laisse-moi voir. Voir ici. 1200 numéros
ont été générés, donc cela créera une
séquence de nombres, de 1 à 100. Laissez-moi donc placer la
console sur la droite. Maintenant, il sera facile de comprendre et d'écrire le code ici et la sortie
sera là. Et laisse-moi, d'accord. Maintenant, ce que nous devons faire
pour créer n'importe quelle séquence, nous devons donner le premier numéro à partir duquel nous voulons commencer. Ensuite, nous devons
donner le numéro final. Supposons que si j'en obtiens dix et que
cela échoue sur cet outil, cela créera une séquence 1 à 10. Donc, si nous voulons
créer une séquence, vous pouvez utiliser cet opérateur deux-points et créer une
séquence de nombres. Supposons que je veuille
créer des nombres de 1 à 20, ou que je veuille créer de deux à 20. Comment pouvons-nous le faire ? Si je le lance, ce que nous verrons, nous obtiendrons de 2468 à 20. Donc, chaque élément. Une séquence de nombres comme
un sera multipliée par 22 sera multipliée
par deux. Comme ça. Nous y arriverons, d'accord. De même, je peux créer la séquence
des points. Je voulais créer une
séquence de 2,5 à quatre. Je peux le faire. Si j'imprime f c Ici, j'obtiens 2,53, 0,5 parce que le
prochain sera pour Valley. Il imprimera donc la
séquence à partir de la version 2.52. Et si j'utilise ici 40, cela lui donnera un ecto de 0,53, 0,5 à 39 points
, n'est-ce pas ? De la même manière, supposons que je
veuille créer une séquence à partir de deux points, 20 moins un. Et si j'imprime D, pouvez-vous deviner quelle
sera la réponse ? Voyons voir. Maintenant, on passe de 1 à 19. Pourquoi il passe de
1 à 19, car personne ne sera moins
que ce 1,20. Il générera donc en fait le nombre De un à 19, à moins 11 et moins 119. Les planches nous donneront donc
le même résultat ici. D'accord ? Ensuite, nous pouvons également le faire d'une manière
différente. Je peux utiliser, désolée. Je peux utiliser une variable a, je peux attribuer une valeur huit. Et puis ce que je peux faire, je peux, je veux
générer des nombres de 1 à 8. Donc, si je lance cet
outil, je vais obtenir une séquence de chiffres
de 1 à 8, n'est-ce pas ? Donc, de cette façon,
nous pouvons également attribuer une valeur à
la variable ou à l'objet e, puis nous pouvons
lui attribuer une valeur au lieu de la poinçonner, nous pouvons mettre une valeur est à a. Et cela
nous donnera également le même chiffre. Un à huit numéros
m'ont été générés. Je peux
également mettre un moins a et voir quel sera le résultat de zéro à sept,
car ce sera le
cas, une séquence moins 172027
sera générée. Si je mets un moins
un entre crochets. Et si j'essaie de l'exécuter, maintenant j'obtiens un à sept parce que ce sera
exécuté en premier, d'accord ? Ce sera donc 7.1, ce sera un parce que nous ne soustrayons pas
celui-ci d'ici. Parce que s'il est entre crochets,
le support recevra les pré-impressions
les plus élevées. Cela s'exécutera donc en premier. Un vaut sept, ça veut dire. Cela générera des nombres de 1 à 7. En dehors de cela, nous pouvons utiliser séquence pour créer une
séquence de nombres à l'appui qui vous donnera SEQ
finie et je vais donner
une virgule, une virgule cinq. Quel résultat vais-je obtenir ? Je vais obtenir la séquence
de chiffres de 1 à 5, non ? De même, si je donne
une séquence de neuf, et quelle
séquence cible numérique de chiffres de 1 à 9. Ici, je donne un
à cinq, cela signifie 1 à 5. Et si je ne donne pas
le quatrième chiffre, ce qu'il faudra, cela
générera 1 à 9 par défaut, d'accord ? C'est la
nature par défaut de la séquence. D'accord ? Ensuite, nous pouvons également utiliser cette fonction d'une manière
différente. Je peux utiliser de l'aqueux pour supposer 8,2 à 32. Et si je le lance,
ce qu'il fera, il générera des nombres
à partir de 32, 32, d'accord ? De même, nous pouvons également utiliser la séquence car je peux conserver
le premier numéro. Alors je peux donner les deux
chiffres, supposons huit. Ensuite, je pourrai donner à quoi
ces deux-là iront. Ce sera le cas. C'est ce que l'on appelle l'étape. Alors laissez-moi l'écrire ici. Séquence allouer au coma, appuyer la virgule graveleuse, passer à. Cet argument est une étape. Alors laissez-moi d'abord exécuter ceci,
puis je vais expliquer. Voyez ici ce que nous
obtenons. Nous obtenons. 24681012. Ce qu'il fait, au lieu de créer une
séquence de 234 à 12, ce qu'
il fait,
il crée, cela nous
donne deux à quatre. Il y a un écart vers la droite, car nous avons donné
la valeur de l'étape à deux. Donc deux plus 244
plus 266 plus 28, alors nous ferons la différence
entre ces deux séquences. C'est donc l'argument de l'
utilisateur, c'est l'étape de
sortie alors que c'est l'argument de l'étape, n'est-ce pas ? Nous pouvons également voir un autre exemple. Supposons que je veuille créer
une séquence de dix, 10-25. Et je veux augmenter la
séquence en ajoutant du vin, sept flammes. Alors laisse-moi exécuter ça. Saudi Cl, ce que nous
obtenons, la séquence de chiffres
commence à partir de dix parce que vous avez donné
dix et ça va jusqu'à 25. Et ce qu'il fait, c'est ajouter 0,75 à chaque valeur ou
dix, il va démarrer, puis il ajoutera 0,75, puis 10,75. Ce qu'il fera, il ajoutera encore
0,75, 0,5, 12,25. Donc, cet octet, sept
ou cinq minutes, augmentera
la valeur de 0,75. Supposons que si je le fais par trois, ce que cela fera, cela
ajoutera 101-316-1920, 2,25. Si j'augmente cette
valeur à cinq, ce que cela fera, ce sera
1015 en 2025 comme ça. D'accord ? Ainsi, nous pouvons
générer la séquence. Il y a une autre chose
qui s'appelle la longueur. Supposons donc que je veuille
créer des nombres de 25 à 50 et que je veuille garder une
longueur égale à six. Ce qu'il va faire ici, c'est nous le donner à
partir de 25, puis de 630, puis de 35,40, 45, puis de 50. Il va donc générer une séquence
de six nombres compris entre 25. Et si je le fais, je suppose, alors ce que cela produira, est qu'il générera les nombres 25, 27. Donc, ce que ça va faire, 25-50, ça va générer dix
nombres égaux, comme 205-20-7303 points,
quelque chose comme ça. D'accord ? Si je lui donnais 100, il générera des centaines
de séquences, non ? Si je le donnais à quelqu'un, ce qu'il fera, il ne
générera qu'un seul chiffre 25-50. Si je donne deux, cela générera deux nombres. 25,50. Si j' en garde trois,
ce sera
divisé par trois,
soit 2 537,5 et 50, d'accord ? Comme ça. Il va donc essayer de générer
trois séquences, 25-50.
9. Répliquer la fonction: Dans cette conférence, nous allons en
apprendre davantage sur la fonction de
réplication. Alors, quelle
fonction de réplication fera l'affaire. Nous utiliserons donc ce terme de représentation de
l'application répliquer et quand nous
voulons répliquer quelque chose. Alors, laissez-moi
vous montrer un exemple. Supposons donc que je veuille créer une séquence dans laquelle je
souhaite répéter 58 fois. Je vais utiliser cette fonction et j'en
donnerai cinq que je souhaite répéter. Et ici, je vais donner trois
fois 28. Donc, ce que fera cette
fonction de réplication, elle se répétera cinq fois. Donc, ce que vous voyez
ici, 5558 fois. D'accord ? Cette fonction de réplication
répliquera donc le même numéro. Répliquer signifie répéter, cela
se répétera huit fois. De même, nous pouvons également utiliser des
personnages. Un soutien que cela nous apportera. Ensuite, je vais spécifier des temps
égaux à trois ou deux. Il imprimera trois
ds, ds, ds. Il créera une séquence
de SDS BSD à trois reprises. D'accord ? Alors souvenez-vous de ceci, quoi que
nous donnions ici, il sera épuisé
plusieurs fois, d'accord ? De la même manière que nous pouvons utiliser even, nous pouvons transmettre l'objet à l'
autre fonction de l'application. Supposons que je le
veuille, j'ai créé pour soutenir la fonction de réplication
artistique. Je veux créer une variable R. Eh bien, je veux
générer la séquence 3-6. Alors, qu'est-ce que ces
trois, trois ou six, nous allons faire bizarre. Si je l'imprime, le support 34568 sera
créé. J'utilise la
fonction de réplication ici. Et ce que je ferai, je transmettrai que cet art
pourrait être reproduit. Et ici, vous obtenez deux fois plus de temps. Ce qu'il va faire, c'est répéter cette séquence, 3 à 6 fois. D'accord ? Donc, si nous l'exécutons, ce que cela donnera, il obtiendra 3456 et encore 32562 fois. Si j'en fais trois, cette séquence sera
répétée trois fois. Donc 3456, encore 3456,
et encore 3456. Donc, nombre de fois,
cela sera répété, toute
la séquence sera répétée autant de fois, n'est-ce pas ? De la même manière, désolée, nous avons un autre
argument. Dans cette fonction d'application. C'est-à-dire, supposons que j'
utilise notre même zone d'objets et que je veuille y appliquer chacun d'eux. Si je postule chaque année, j'ai postulé trois fois
. Maintenant, j'applique
chacun égal à deux. Alors à quoi ça va servir, voyons voir. Supposons que je lance ça.
Ce qu'il fait. C'est le cas, chaque élément 3-6
sera répété deux fois, puis il passera au nombre de mois
suivant, soit trois, deux fois 33, puis 44, puis 55, puis 663-344-5566. Ainsi, chaque élément
sera répété
, puis on passera
à l'élément suivant. Et plus tôt dans le temps, chaque élément
sera répété. Ici ? Chaque élément
sera répété, puis on passera
à l'élément suivant. Et ici, toute la
séquence a été répétée. 3456, puis à nouveau 3456. Et pourtant, 3344 ont soutenu
notre portrait. Troisièmement, ce qu'il va faire, il le fera, chaque élément
sera le protecteur, heure 333444, puis 555666. Il s'agit donc de la
différence entre les temps et chacun dans la fonction de
réplication. Dans la
fonction de réplication, il y a deux fois des arguments, puis chaque fois,
la séquence
entière sera répétée autant de fois. Et chaque testament, chaque élément
sera répété de nombreuses fois. Ensuite, la séquence sera créée comme 333444, comme ceci.
10. Accéder aux éléments de vecteur: Bonjour et bon retour. Dans cette conférence, nous
allons en apprendre davantage sur l'accès aux éléments vectoriels. Nous avons vu comment créer un vecteur dans R.
Maintenant, ce que je vais faire, créer et vectoriser Henry pour
essayer d'accéder à l'
élément des vecteurs. Nous allons voir comment accéder
aux éléments vectoriels dans R. Donc, pour cela, je dois créer un fichier et
lui donner un nom. Ric point R. D'accord ? Maintenant, ce que je vais faire, créer un rectangle
avec un nom, un mois. Et pour le vecteur du mois, quelle Alice est grande et petite. Mois. Janvier,
février, mars, avril comme ça. D'accord ? La fonction c, et je vais
essayer de stocker les valeurs. Ce que je fais ici, créer un vecteur, et j'installe
ce vecteur dans le mois de l'objet, d'accord ? Et puis combien
stockent les valeurs ? Janvier, février,
jusqu'en décembre. D'accord. Nous avons maintenant créé et rectifié la manière dont nous allons accéder
aux éléments du vecteur. Donc, pour cela, ce que je vais faire, c'est effacer la console ici afin que nous puissions
voir le résultat ici. Donc, si je cours ce mois, janvier à décembre, d'accord ? Et maintenant, et si je veux accéder
à l'application Play ? Août ou septembre comme ça, accord, pour cela,
ce que nous devons faire, je peux le créer, je peux créer un autre outil du mois de
support vectoriel. Et pour ça, ce que je vais
faire, c'est un mois énorme. Et c'était la tranche des majuscules
et vous ne voyez que la fonction. Et dans la fonction C, je conserverai l'index du
support le 1er janvier 2344. Virgule sept. Virgule neuf. D'accord. Donc, euh, je veux accéder à
The Month for 7.9 et un outil Fray Print Month. Donc, si je calcule ces deux indices, ce que nous obtenons maintenant, c'est avril, juillet et septembre, parce
que l'indice est de quatre, puis 567 pour juillet et de neuf pour
septembre. Ainsi, nous pouvons appeler notre accès les éléments
d'une fonction vectorielle. Un vecteur. Nous pouvons donc accéder à un objet vectoriel
comme le serait le X si vous souhaitez accéder à
un élément particulier. Tu peux le faire. Si je le change en trois, superposez un et deux fois. Et si je fais ces
deux déclarations, ce que nous pouvons voir, oui, nous aurons le mois de mars, puis
normalement et les inverserons,
c'est le lundi mai. Ainsi, nous pouvons accéder
aux éléments vectoriels. Nous pouvons également x être les éléments
vectoriels en utilisant logique en utilisant l'indexation logique. Comment s'y prendre ? Supposons donc que je crée
un autre objet, le troisième
mois, et que je précise le mois
auquel je souhaite
accéder chaque mois. Et le crochet majuscule
et à l'intérieur de la fonction C, ce que je vais
faire, c'est d'abord donner vrai, puis faux. Et puis je deviendrai faux. Alors je deviendrai vrai. Supposons donc que je transmette
ces quatre valeurs, vrai, faux, vrai. Et
si j' imprime le troisième mois,
que se passera-t-il ? Laisse-moi exécuter ceci et
voir le résultat. Ce que nous recevons,
nous obtenons janvier. Le premier mois,
c'est Jan Dish True. Il est donc imprimé ici. Puis le prochain Faux, Faux. Donc, février et mars
seront faux, signifie que ce ne sera pas le cas, nous n'accèderons pas aux
mois de février et mars, n'est-ce pas ? Ces deux valeurs ne
seront donc pas présentes non plus. Nous sommes en février, mars n'
est pas imprimé ici. Ensuite, pour le quatrième
, c'est vrai. Nous en arrivons donc à quatre. Et puis le reste de l'
élément que nous n'avons pas donné. Il arrive donc en mai,
août et septembre. Cela se répète. Alors imaginez ce qu'il est en train de faire. Il mène à nouveau le
même combat à ce sujet. Janet Britain est maire
en septembre et décembre. Cela revient donc à répéter la chose. D'accord. La prochaine chose est de savoir ce que nous pouvons faire. Nous pouvons utiliser une indexation négative. Supposons donc que je crée
un autre objet, mois pour et ce que je vais faire, nous attribuions le
mois au mois de l'alcool, et que nous voyions au moins la fonction. Et voici un projectile avec
moins deux virgules moins cinq. Alors, à quoi cela sera-t-il utile et
soutiendra le quatrième mois d'impression. Et si je lance ces
deux appareils, que se passera-t-il ? Je reçois janvier-mars
et peut-être pas Il y a février et mai qui ne sont pas
imprimés parce que moins deux signifient la deuxième indexation
moins deux à laquelle chaque mois de
février, février, nous ne voulons pas accéder à
moins deux et -5 minutes le deuxième mois et
le mois auquel nous ne
voulons pas accéder, sauf que tout le
reste sera imprimé. D'accord. Les mois de février et
mai ne seront donc pas imprimés. Voir ici, février
et ne pas l'imprimer. Acceptez que tous les autres soient imprimés. Si je mets -12, décembre ne
sera pas imprimé également. Alors maintenant, la norme est que
quelqu'un n'est pas là. Donc, si vous souhaitez accéder à des éléments et si nous
voulons en laisser certains, vous pouvez utiliser de la dopamine pour cet indice et il ne
sera pas imprimé.
11. Manipulation de vecteur en R: Bonjour et bon retour. Dans cette conférence,
nous allons donc en
apprendre davantage sur la manipulation vectorielle. Nous allons donc voir comment former une lésion au sein des éléments
vectoriels. Comment ajouter deux vecteurs, comment soustraire deux vecteurs, comment effectuer une division
au sein de deux acteurs. Et nous verrons
comment multiplier
les vecteurs. Alors allons-y. Je vais donc créer un
fichier de script R et lui donner un nom. Beaucoup de manipulations stupides. OK. Permettez-moi donc d'effacer la console ici afin que
nous puissions voir correctement. OK, donc tout d'
abord, ce que je vais faire, je vais l'exécuter automatiquement, ce
n'est souvent pas à moins de deux
avec deux vecteurs. Donc, tout d'
abord, ce que nous allons faire, créer deux vecteurs, créer et soutenir
notre vecteur F1. Et je vais créer un
vecteur, le vecteur F1. Et ce que je vais faire, attribuer des valeurs. Supposons qu'ils ne le soient pas
encore, quelque chose comme 95. OK, je vais donc créer un vecteur, F1 et le copier-coller. Et je vais créer
un autre vecteur, F2. Et nous en trouverons
quelque part des types D et 20. D'accord ? Ça va donner, d'accord. Nous avons donc maintenant deux
vecteurs, F1 et F2. Je souhaite effectuer une addition. D'accord ? Ce que je vais faire, c'est créer un autre vecteur, un
autre objet a. Et ce que je vais faire, attribuer F1, F1 plus F2. Donc, ce que je fais ici, ajouter ces deux vecteurs, c'est ajouter ces deux vecteurs,
F1 et F2, et je les assigne à l'
objet a. Maintenant, ce que je vais
faire, c'est imprimer a. Alors laissez-moi exécuter ce n. Vous avez terminé numériquement. Tu vois, tu sais ce que je vais obtenir ? J'obtiens le résultat 24, 24, y plus 212. Le premier élément de
ces deux vecteurs sera ajouté, 12 plus 214. Alors 78 plus huit
font 690 plus 31, 25 plus 25, 30. De cette façon, nous pouvons
effectuer une région. Supposons que je veuille
interpréter certains morceaux et que
je vais simplement les copier. J'ai vraiment donné aux
locataires ce jour-là. Oui. Et je vais apporter des larmes
et ce que je vais faire, faire de la F1 moins de la F2. Donc F1 moins F2. Si je fais quel hayon ? Tu vois, j'obtiens 107060
et -20 y encore, 12 moins 21078 -70, 90 -30, 65 -25, 20. Ainsi, nous pouvons effectuer la
soustraction de la même manière. Si vous multipliez par la vôtre, je créerai au-dessus de moi et
quel faible F1 et F2. Et je vais imprimer, si je lance ceci, ce que nous
obtiendrons 12 quand deux contre 24, 78 dans 862490 dans
3027005205125. De même, nous pouvons
effectuer une division. Supposons donc que je crée
un vecteur d et que je fasse F1 divisé par deux. Et je vais imprimer l'offre. Et si je lance ça, je te rendrai
malade de deux à 678/9, 0,759, 0,7, 5,90, 233 5/25, soit 0,2. D'accord ? Ainsi, nous pouvons effectuer une soustraction, une
multiplication et une division décentes . Alors laissez-moi écrire ici, il s'agit d'une application multiple. Et puis voici la région. Ainsi, nous pouvons
effectuer des additions, soustractions, des multiplications
et des divisions sur le rectus. C'est ce qu'on appelle la manipulation
vectorielle.
12. Recyclage d'éléments vectoriels: Bonjour et bon retour. Donc, dans cette conférence, je vais vous dire quelque chose
que je n'ai pas totalement compris, vous ne vous avez pas enseigné
lors de la conférence précédente. Et c'est une question tout à fait
unique que vous vous êtes peut-être posée s'il s'agit d'un cours physique
ou hors ligne. Et vous avez dû vous poser
cette question, elle aussi, vous est peut-être
venue à l'esprit. Supposons donc que j'aie deux
vecteurs, F1 et F2. Et F1 a quatre éléments, et F2 n'en a
que deux. Et si j'ajoutais
ces deux vecteurs ? Supposons que j'exécute
les conditions initiales sur F1 plus F2. Voici donc quatre éléments et
voici deux éléments, une liste. Alors, comment ça va se passer. Donc, dans R, si nous essayons d'
exécuter F1 plus F2, si nous essayons d'ajouter deux vecteurs
inégaux, alors le second vecteur, qui est de plus courte longueur, cela signifie que le
vecteur de tri le sera, éléments seront recyclés pour faire de la longueur sombre
du premier vecteur. Alors, dans ce cas,
que va-t-il se passer ? Vector va devenir
comme ça. En interne. Quoi ? F2 sera comme
deux virgules huit. Virgule deux, virgule huit. D'accord ? Donc, si deux deviennent
quelque chose comme ça, d'accord ? Vous aussi, cela sera
répété jusqu'à ce
que le nombre
d'éléments de la F1 soit atteint. Il y a donc quatre éléments, donc cela va lui être répété. Cela va donc devenir
quelque chose comme ça. Et puis il effectuera
l'opération automatique. Laisse-moi analyser ce que j'ai traité
pour t'en faire une meilleure idée. Laissez-moi clarifier cela et
exécuter ceci. Voir ici. Le résultat est maintenant de 14, 86, 90 à 13. Comment faire plus quatre, désolé, deux plus deux. Désolé, 12 plus 214. Et puis 78 plus 886, puis 90 plus deux. Parce que les deux, ça
va se répéter. Donc 90 plus 292,5 plus 813. Donc ça va devenir comme ça. Si j'ajoute un élément supplémentaire
ici, supposons 80. Et si je lance ça,
que se passera-t-il ? Voyons voir. Regardez ici, nous avons
une erreur ici. longueur d'objet plus longue n'est pas un multiple de la longueur de
l'objet de départ. Cela signifie qu'il ne faut pas encore le voir. Cet élément est un quatrième à deux éléments.
Deux éléments. Et F1 s'
amuse à avoir des
variables phi, non ? Nous nous endettons. Le second, le premier élément est
d'avoir deux éléments,
et celui-ci, d'en avoir cinq. Donc cinq n'est pas un
multiple de deux, non ? C'est pourquoi nous
en sommes là, car deux, si vous divisez cinq par deux, vous obtiendrez le reste. Dans ce cas, cette
réputation ne fonctionnera pas. Mais si j'ajoute un
élément supplémentaire, supposons sept. Et si j'ai essayé de l'exécuter,
cela fonctionnera cette fois. Nous obtenons maintenant le graphique car le nombre
d'éléments est maintenant de six. Et le second est
22268/2, non ? Six est multiple jusqu'
au premier L. Les éléments
plus longs et les
vecteurs plus longs porteront la marque. Autant de chiffres. Le nombre d'éléments
serait multiple.
Certains éléments
aiment-ils six, n' est-ce pas ? Six est donc la multipolaire de cette fonction,
de cette multiplication, de
cette division
ou de cette addition que vous pouvez effectuer. Mais si c'est cinq, alors deux ne seront pas le phi ne sera pas
le multiple de deux, et cela générera
une erreur comme celle-ci. D'accord ? Alors j'espère que tu l'as. De même, si vous souhaitez
effectuer une multiplication, vous pouvez également le faire. Ici, nous obtenons la division de
multiplication, tout sera fait. Le recyclage des éléments ne se
produira donc que si plus
les éléments du vecteur
le plus long sont souples , plus
le multiple des éléments
du vecteur trié est faible. Donc, des vecteurs plus longs, le nombre
d'éléments serait le multiple de ces
éléments, d'accord ? Numérotez les éléments de tri. OK. J'espère que c'
est clair pour toi.
13. Trier des éléments de vecteur: Bonjour et bon retour. Dans cette conférence, nous allons donc découvrir qui trie des
vecteurs. Voyons donc comment
trier les vecteurs. D'accord ? Donc, ce que nous allons apprendre, c'est faire du
tri recta. D'accord ? Nous avons donc pour cela une
fonction appelée sort. Nous allons donc utiliser
la fonction de tri. Donc, tout d'abord, laissez-moi créer et
vectoriser une épave 0. Et pour cela, je vais
donner un nombre aléatoire, 349-082-7543, des nombres aléatoires. D'accord ? Et supposons que je veuille
trier ces éléments vectoriels. Donc, ce que je peux faire, je peux simplement créer
un autre objet comme une épave. Et ce que je vais faire, appeler les barres
de fonction de tri c'est appeler les barres
de fonction de tri comme le vecteur nul
de la fonction de tri. Et à quoi servira cette
fonction de tri. Cela va démarrer ce vecteur. Et ensuite, ce que je vais faire, c'est simplement imprimer et démarrer. Je suis donc en train d'imprimer
le vecteur trié et
voici le recto supplémentaire. Et je passe ce vecteur
à la fonction de tri, puis j'imprime
la valeur vectorielle triée. Exécutons ceci et voyons que ce
terminal est définitivement clair et réexécutons-le. Vous voyez, vous savez, nous
obtenons un vecteur trié. Donc 349, 273-043-6408. Il est donc trié par ordre
croissant. Donc, par défaut, il sera
trié par ordre croissant. Ainsi, les éléments les plus bas se
déplaceront en premier, puis ils
continueront à augmenter. D'accord ? De cette façon, nous pouvons
trier et vectoriser dans R. Et si je
voulais trier cet aboiement ? Je veux par ordre décroissant. Donc, pour cela, ce que je peux faire, je peux utiliser la même fonction de
tri. Et voici ce que je vais faire, je vais simplement continuer à
diminuer, à diminuer. C'est logique. Et oui, je vais te dire la vérité. Donc en diminuant,
je vais garder l'inconvénient car par défaut c'est faux. Et c'est ce qu'il fera. Ordre croissant,
non ? Ordre croissant. Par défaut, il sera
trié par ordre croissant. Donc, ce que je vais faire, c'est créer de véritables moyens
culturels trier le vecteur par ordre
décroissant. Exécutons donc ceci et voyons
maintenant ce tri dans le nettoyage ou un 98 d'abord,
puis 463-06-3420, 79.4. Ainsi, nous pouvons trier par
ordre décroissant. Ensuite, nous
allons voir le tri caractère, caractère,
caractère droit. Donc, nous pouvons également supposer que
j'ai un rectangle, un rectangle, qui a des valeurs comme pour certaines choses aléatoires. Et le pays rouge et
bleu. N'importe quoi sous la forme d'un personnage. OK, voici le vecteur de
caractères. C'est avoir des valeurs
dans son caractère. Et supposons que je veuille
trier cela et
stocker la valeur vectorielle triée
dans le vétérinaire pour fonctionner. Je vais appeler la
fonction de tri et transmettre cette recta à
la fonction de tri. Et si je lance ces deux lignes, quel algorithme ? Qu'
est-ce que tu aimes ? Passons à cet outil d'impression. Donc, si je lis cette ligne, comme
nous l'aimons,
et tu deviens bleu, puis country plutôt que quatre,
puis noie, dendrite. Pourquoi c'est ainsi parce que B, puis C, puis F, puis r. D'accord, ce
sera donc par ordre alphabétique. Et si je veux faire le tri
? Mais il a été plus dur. Je peux vous appeler de façon décroissante pour dessiner et maintenant
voir que c'est mérité. Quand nous avons commencé, il
y a f, puis C, puis B. Donc D doit résoudre le problème de la pauvreté, du coton Ce sera ainsi que nous
pourrons trier les vecteurs, à la fois les caractères et
les chiffres, d'accord ?
14. Prise de décision en R: Bonjour et bon retour. Dans cette conférence, nous allons donc en apprendre davantage sur la
prise dans nos autres langages
de programmation. Nous avons l'instruction if, nous avons l'instruction if else et nous avons l'instruction switch. Cela nous permet de prendre
des décisions. Si une instruction signifie que
quelque chose est vrai, alors l'
instruction suivante sera exécutée. Et cela signifie que si
quelque chose est vrai et que vous
donnez une condition mais que cette condition n'
est pas remplie, alors l'instruction else
sera exécutée. Switch verra comment l'égalité de la variable sera
testée. Voici la liste des valeurs, nous verrons si
c'est le cas. Ensuite, nous verrons le commutateur. Permettez-moi donc de créer notre fichier de
script ici. Et je vais lui donner un nom. Prise de décision, art noir. Algues marines. Permettez-moi de nettoyer la console pour
que nous puissions voir le gel. Donc, d'abord, ce que nous allons voir, nous verrons si je suis désolée, je dois d'abord taper ici. Nous verrons s'il s'agit d'une déclaration. D'accord. Donc, d'abord, la réalité, c'est la déclaration. Et si c'est le cas, s'
il s' agit d'eaux pluviales, c'est
constant, constant. Maintenant, expression booléenne
et déclaration suivante. Donc, si l'
expression booléenne est vraie, l'
instruction suivante sera exécutée. Soutenez ce que je vais faire ici. Je vais créer un objet a et lui attribuer une valeur 67. Tu peux écrire n'importe quoi, d'accord ? Et ce que je vais faire, écrire si la déclaration est inférieure à 70, alors ce que je vais faire, je vais essayer d'imprimer,
est inférieure à 17. D'accord ? Supposons que
c'est ce que je veux faire. Donc, si je lance ça, qu'est-ce que j'obtiendrai ? Tu vois, le résultat que j'
obtiens est inférieur à 70. Supposons que je change
cette valeur à 75, 75. Et si j'essayais de le lancer
, que se passerait-il ? Je n'obtiendrai aucune
sortie car E est 75. Et si j'entre dans
cette déclaration, serait coudre
qu'un chiffre
inférieur à 70 est supérieur à 70. Il n'entrera donc pas
dans cette déclaration. Il ne répondra pas à l'état du
chien et cette déclaration
ne sera pas imprimée, n'est-ce pas ? Cela s'appelle donc une
déclaration IF, n'est-ce pas ? De même, je peux écrire comme un entier à points. Donc, l'autre partie est un entier, puis je passe à E. Et une lumière, c'est. Permettez-moi donc de lancer ceci parce que
c'est un chiffre ici. Et ce que je suis en train de tester, c'est que
s'il s'agit d'un entier, alors je dois imprimer un entier,
n'est-ce pas ? Si je mets, fais en sorte que ce soit un entier, tendant à être égal à 75
L. Et si je lance ceci, tu
vois, maintenant a est un entier. Ce sera de la peinture. De cette façon. Si cette condition est
remplie, il imprimera cette déclaration
suivante. D'accord ? De même, nous pouvons ajouter
une autre déclaration ici. S'il s'agit de chaque entier,
il l'imprimera. Je peux imprimer autre chose. Le lac est nomade. OK, donc si je cours, c'est un entier. Si je le change en numérique, et si je le réexécute, ce que nous obtiendrons, nous
obtiendrons du numérique. Laisse-moi essayer. Si j'ai déjà touché, c'est numérique. Et si je lance ça, que s'est-il passé ? OK, il faut que je mette ça. Et si je lance ceci, chaîne est un entier. Je dois modifier
l'instruction ici, New Relic et ici
entier, n'est-ce pas ? Maintenant. Parce que a est nomade, cette condition se réalise. C'est donc l'impression nomade, le taux est numérique, c'est nomade. Et cette déclaration ne l'est pas, elle ne va pas
à l'autre partie. Donc, de cette façon, nous pouvons mettre une instruction
switch
pour l'instant. La déclaration Switch. Donc, l'instruction switch
supposera que j'ai un vecteur D et que j'utiliserai switch. Et puis un aperçu
de ce que je vais faire. Je vais appuyer quatre virgules une. Et je vais donner 2345. Ensuite, je vais fermer l'interrupteur. Alors si je mets en d, quelle valeur nous obtiendrons. Voyons voir. Quand tu en auras quatre, parce que je passe pour ce que l'instruction
Switch suffira. Il passera à la quatrième valeur et affichera cette valeur. Donc, un an pour 1234, il en imprimera quatre. Supposons que j'
écrive autre chose ici. Bonjour. Ce bonjour
sera donc imprimé. D'accord ? Permettez-moi de vous montrer cette
impression, bonjour. Et supposons que si j'en fais un ou deux, cela sera imprimé vers, il ira vers le
correspondant, s'il vous plaît. D'accord. Pour l'instant, deux, ce
sera le 12. Il les imprimera. Pour trois, ça ira
au bonjour pour quatre, ça ira au bonjour. Cinq, il en imprimera 55. Donc, ce qu'elle fera, une instruction switch
permet de
tester l'égalité d'une valeur par rapport à la liste de valeurs. Voici donc la liste des valeurs. Et pour eux,
l'indexation est de 1 234,5. Quel que soit l'indice
que vous
allez vous donner, cette valeur d'indice
sera imprimée. Supposons que j'en ai donné trois. La valeur d'indice
trois sera donc imprimée. 3 minutes, 123. Allez-vous acheter un cadeau pour ? Ensuite, bonjour sera imprimé. C. De cette
façon, nous pouvons utiliser
Switch Statement dans Heart.
15. Contrôle de la boucle en utilisant la répétition et en boucle: Bonjour et bon retour. Dans cette conférence,
nous allons donc en
apprendre davantage sur l'
instruction en boucle dans notre article, qu'est-ce qu'une boucle ? Une boucle est une fonction. Tu peux dire une boucle. Avec une boucle, nous pouvons exécuter une instruction ou groupe d'instructions
plusieurs fois. Donc, lorsque nous mettons une boucle, lorsque nous mettons une instruction
à l'intérieur de la boucle, elle sera exécutée
plusieurs fois jusqu'à ce que la condition soit satisfaite,
n'est-ce pas ? Jusqu'à ce que
la condition ne soit
pas satisfaite , la même
déclaration continuera à tourner en boucle encore et encore. Ainsi, une instruction en boucle nous
permet
d'exécuter une instruction ou groupe d'instructions
plusieurs fois. Et il en existe trois types. Il existe trois types
d'instructions de boucle
dans R. La première est une instruction réputée,
la seconde est une boucle entière. Et puis il y a la
très populaire boucle à boucle unique. Donc, ce que je vais faire, commencer par une boucle de
répétition. Voyons donc ce qu'est une boucle de
répétition en R. Supposons que nous ayons un
recto selon lequel les chemins de fer soutiennent l'Inde, Burton, d'accord ? Comme ça. Je le dirai donc un peu plus tard. Nous avons donc n vecteur dont les valeurs sont
l'Inde, les États-Unis et la Grande-Bretagne. Et supposons que je prenne
un autre itinéraire, supposons que je lui ai donné un nombre de noms. Et je donne à Kant
un soutien égal à quatre. Et puis, ce que je vais faire, c'était la fonction « pieds sales » ici. Et je veux imprimer le vecteur d'un certain
nombre de temps. D'accord ? Donc, ce que je vais faire, c'est imprimer le rapport que j'ai donné. Si vous comptez ici, si le nombre est inférieur à dix, alors ce que je veux faire, imprimer la notice. D'accord ? Alors ils diront Quelle lettre. Donc, si je lance ça, que se passera-t-il ? Voyons voir. On se voit. Il continuera à imprimer ceci parce que le compte est dû et à la condition
que j'ai donnée. On me dit que si le compte
est inférieur à dix, cette Ford
sera toujours inférieure à dix, n'est-ce pas ? Donc, ce que je vais faire,
c'est compter, compter plus un. Donc, chaque robe et moi augmenterons
la valeur du compte à une. Maintenant, laisse-moi arrêter ça. Et laissez-moi réexécuter ce code. Maintenant, voyez ce qui se passe. Il l'imprime 123456
fois, y est l'extrême. C'est la première fois que ça arrivera. Le compte est égal à quatre. Il s'imprimera donc à
chaque fois que vous y retournerez. Le compte deviendra donc cinq. Ensuite, il en imprimera quatre. Puis 54678 jusqu'à neuf. Ensuite, extranet, le
décompte passera à dix. Il n'imprimera pas,
il en imprimera 45. Elle imprimera 445 678,9. Pour que le courant net
devienne dix, il sortira de cette boucle. C'est donc la boucle habituelle. D'accord ? Donc de cette façon, nous pouvons utiliser
la boucle de répétition, d'accord ? De la même manière, nous allons essayer d'utiliser la boucle while. Donc, ce que je vais faire, c'est devenir fou. Et encore une fois, le décompte de Waterloo
est inférieur à ce que l'on suppose. Bien que le compte soit inférieur à
huit, ce que je vais faire, imprimer les comtés
les plus âgés pour et ce que je vous donne
un décompte inférieur à huit, puis il imprimera le
réveil et
augmentera le nombre
tout en bouclant bien d'un point. Donc, si on lance ça, on obtient l'Inde et les États-Unis.
quatre fois, non ? Parce qu'il imprimera
44, imprimera le profil. Il en imprimera pour six,
il en imprimera 47. Et bientôt, le compte
deviendra huit. Il en sortira
en boucle. D'accord ? De cette façon, nous pouvons
utiliser la boucle while.
16. Pour la boucle et la prochaine déclaration: Dans cette conférence, nous
allons en apprendre davantage sur la boucle for dans R. Supposons
que je crée
un vecteur d par voie rectale, qui contiendra
quelque chose comme deux à 20, d'accord ? Des planches, si je les apporte me donneront les chiffres de 2 à 20. D'accord ? Maintenant, ce que je vais faire, je vais l'écrire ici, je vais le faire. Je vais utiliser une variable i dans D. Donc, pour chaque valeur de I dans le, pour chaque valeur de ce vecteur d, ce que je veux faire, je
veux l'imprimer, n'est-ce pas ? Et puis je veux
faire I plus un. Je suis égal à I plus un. Laisse-moi, d'accord. Je vais le dire par lettre. Alors laissez-moi analyser ceci et
voir ce que nous obtenons. Ce que j'obtiens, c'est 234 à 20. Donc, ce qu'il fait, c'est vérifier si ce I, dans le, pour moi, ce sera 11 n'est pas là, puis il l'augmentera d'un. Il va donc venir et
vérifier ici aussi, c'est qu'en D deux, puis à nouveau, je suis égal à trois, puis il en imprimera trois. Comme ça. Il en imprimera 20 , puis il
sortira de la boucle. Donc, de cette façon, nous pouvons utiliser
la boucle for, non ? De la même manière que je peux faire. Si je mets ici une chose simple. Je vais le supprimer. Et oui, que faire d'autre ? Je peux mettre l'intérieur
en bon état. Si j'appelle aussi Support 15, alors je ferai ce que je vais faire, j'
imprimerai, j'écrirai. Si je suis égal à 15, j'imprimerai. J'ai changé ici, je vais mettre le suivant. Ensuite, je vais imprimer. Imprimer, c'est vrai. Alors à bientôt, que va-t-il se passer ? Laisse-moi expliquer pourquoi nous en arrivons là. expliquer pourquoi nous en arrivons là. Nous l'avons encore fait. Quoi, que se passe-t-il ici ? Je veux chaque valeur et moi, il l'imprime, mais il vérifie la valeur. Si j'appelle deux avions, ce sera le cas. Que faire ensuite ? Donc, ici, vous voyez
2345678 jusqu'à 13, 14, il s'imprime correctement
et puis il faut penser, accord, je suis égal à 15. Ensuite, Next signifie qu'il
ignorera ce titrage. 15 ne seront donc pas imprimés ici car le mois prochain, ce traceur
sera oublié. J'ai donc dit qu'une préimpression
signifie cette adresse et nous
serons évadés et
aucune empreinte ne sera imprimée. Ensuite, il
passera à la cystéine ,
puis 161-718-1920,
réimprimé. Alors le mois prochain, je ne
m'habillerai pas. Donc, si j'utilise ici, supposons 17, alors les 17e
titrages seront ignorés. impressions 16, 17 ne seront pas
imprimées, et 18, d'accord.
Donc, si vous voulez omettre un
azote, vous pouvez utiliser le suivant. J'espère que vous avez compris comment
l'utiliser ensuite. Rendez-vous lors de la prochaine conférence.
17. Fonctions en R: Bonjour et bon retour. Dans cette conférence, nous
allons apprendre les fonctions en
R. Dans R, il existe deux
types de fonctions. L'une concerne les fonctions
intégrées, les fonctions
intégrées, et l'autre les fonctions
définies par l'utilisateur. Défini. D'accord ? Il existe donc deux
types de fonctions, les fonctions intégrées et les fonctions
définies par l'utilisateur. Alors d'abord, laissez-moi
vous expliquer ce qu'est une fonction. La fonction est en fait comme
si nous voulions exécuter un groupe d' instructions et effectuer
des calculs, nous voulions faire quelque chose. Donc, en gros, c'est comme si une
fonction était un mot clé. Et dans le
V fonctionnel, c'est essentiellement pour un groupe de déclarations amusantes, d'accord ? Notre groupe de fonctions de
regroupement de calculs. Nous allons effectuer
un calcul ou nous ferons quelque chose
qui est une fonction. D'accord ? Permettez-moi donc vous
expliquer la
structure de base d'une fonction. Supposons donc que notre fonction prenne, supposons que ce soit un mot-clé de
fonction dans R. Et ce qu'il faut, c'est qu'elle
prenne des arguments, n'est-ce pas ? Il prend donc des arguments, donc il peut prendre n'importe quel nombre d' augmentations augmentées,
un, une virgule deux. Ce sera donc une
fonction, d'accord ? Et dans cette fonction, nous pouvons
tout faire avec ces
arguments, n'est-ce pas ? Supposons que ces arguments
puissent avoir certaines valeurs, afin que je puisse les supporter, que je puisse utiliser certaines d'entre
elles pour augmenter, afin de pouvoir effectuer
une augmentation plus deux. Et je pourrais imprimer une partie de ces
12 mois trois. C'est donc une fonction
dans laquelle ce que je fais, j'exécute certaines
d'entre elles pour augmenter
, augmenter et augmenter, et je trouve certaines d'entre elles pour augmenter l'outil One
Plus Segment. Il s'agit donc d'une fonction
et je peux appeler cette fonction en
passant l'argument. Supposons donc que je donne un
nom à cette fonction, une fonction, et que je lui attribue
cette fonction entière. Et je vais lui donner un
nom, une fonction. D'accord ? Maintenant, que puis-je faire ? Je peux appeler cette fonction, n'est-ce pas ? Je donne la parole aux deux arguments, argument un, argument deux. Pour que je puisse m'amuser. Et ici, je peux exécuter trois
virgules six. Je peux réussir. Si je lance ça, laisse-moi lancer le premier
sous une forme amusante. Et puis je lance ça, vois, OK, oui,
Hawks One, ça l'est. Alors laisse-moi le réexécuter. Et si j'appelle la
fonction en passant, accord, c'est également une erreur
saoudienne pour cette erreur. Et si j'appelle cette fonction en passant
ces deux arguments, 3.6, j'obtiendrai le
résultat neuf, car trois plus six font neuf. Il s'agit donc d'une fonction
définie par l'utilisateur, à
droite, nous avons déjà
vu une fonction intégrée. Alors, quelles sont les
fonctions intégrées que nous avons vues, nous avons vu des séquences comme la
séquence une virgule huit. Et cela nous donnera la
séquence des nombres de 1 à 8. Cette fonction de séquence
est donc une fonction intégrée
que nous avons dans notre, donc c'est une
fonction intégrée qui l'exécute. Nous n'avons pas besoin d'écrire un programme
pour imprimer les chiffres de 1 à 8. Cela
se fera automatiquement car dans cette séquence, la fonction
a été écrite en arrière, comme dans la coda, elle a été définie
que lorsque nous utilisons une séquence, nous
fournirons deux arguments. La première est d'aider, elle
générera les chiffres de 1 à 8. Cela a donc déjà été défini et c'est pourquoi
on les appelle « fonctions
intégrées énormes, désolées », n'est-ce pas ? Il s'agit donc de
fonctions intégrées comme nous
l'
avons vu un été. L'un a 28 ans. Et cela nous donnera la somme
des nombres de 1 à 1. Il nous fournira les
statistiques des résultats de la même manière. Nous avons la fonction principale. Donc je suis en train de taper, oui, je veux dire, supposons que j'arrive au
numéro 23, virgule 90, 87. Et si je ne
m'ai pas vue et que nous lisons 23 peut aussi signifier deux virgules neuf. Et les soins dentaires gratuits,
j'en aurai 5,5. Nous pouvons donc utiliser doc pour séquencer toutes ces fonctions
intégrées. Nous avons donc vu que ces publicités
sont des fonctions définies par l'utilisateur, définies par l'utilisateur. Et cette séquence
et un peu d'eau. Fonctions intégrées D'accord ? Maintenant, ce que je vais faire, voir comment on peut appeler
cette fonction de somme. D'accord ? Permettez-moi donc de copier cette somme. Nous pouvons donc appeler cette fonction en fournissant les arguments ici. Et nous pouvons aussi appeler cela x, une à quatre virgules de deux à neuf. Maintenant, j'obtiens également 13 de
cette façon, nous pouvons, c'est ma position et
c'est faire varier l'argument, nom, l'argument, l'
argument un égal à. Pour un argument égal
à neuf,
comme celui-ci, nous pouvons fournir. C'est donc une autre façon d'
appeler la fonction, d'accord ? Maintenant, ce que je vais faire, écrire
notre fonction pour découvrir les villes carrées
n'ont personne de séries de nombres. Donc, ce que je vais faire ici, te tuer. Fonction silencieuse. Et ce que je vais transmettre à cela
et passer un chiffre par main. Ce que je vais faire, c'est créer
une séquence de nombres, donc je vais utiliser la boucle for ici. Et ce que je vais faire
pour moi dans un à dix, accord, donc quel que soit le nombre, ce sera de ce chiffre à dix. Je souhaite créer une
séquence de nombres. Ensuite, ce que je veux faire, je veux l'attribuer, je démissionne. Je veux mettre la
valeur I au carré et l'attribuer à b. Et ensuite je veux la ramener
à la valeur b, d'accord ? C'est donc la fonction fonction racine
carrée que je définis ici. Maintenant, ce que je vais faire, c'est appeler cette fonction carrée en transmettant un support numérique
pour ce qu'elle va faire. Il créera d'abord des
numéros de 4 à 10, puis il en faudra
45678 à dix, et il imprimera les numéros. OK, alors laisse-moi m'occuper de ça. Regarde, on a de la cystéine. Le premier numéro
sera 44 carré 16, puis la cystéine sera imprimée. Ensuite, le chiffre suivant
sera cinq. Il imprimera 2055 au carré 25, puis 630-67-4097 au carré. 409849 correspond, au sens quadratique, à
1,10 cent carré. De cette façon, nous pouvons créer une fonction simple qui
trouvera cette
série de nombres silencieuse. Le chiffre de Syriza est donc de quatre à dix et nous arrivons ici à
quatre à dix carrés. Chaque chiffre sera mis au carré
et nous passerons la prochaine chose
que je vais faire. Je vais trouver la
somme des nombres pairs. Je vais donc écrire
un programme pour trouver
des nombres pairs
entre deux nombres. D'accord ? Donc, ce que je vais faire, supposons un à dix. Je veux d'abord trouver
un à un nombre pair, 1 à 10, une somme de nombres pairs, d'accord ? Il ne s'agit pas d'une somme
au carré des nombres pairs. D'accord ? Donc, ce que je vais faire, est écrire une
somme de fonctions paires. Et ce que je vais faire,
je vais l'écrire ici, d'abord, je vais générer
le nombre pair. Et comment générer un nombre pair. Et vous voyez de l'alginate
un à dix nombres pairs. Donc, ce que je vais faire, multiplier le nombre par deux. Il s'agira donc de résumer
les nombres de 1 à 10. Ensuite, ce que je vais faire, imprimer et imprimer ce que je fais la somme de
ces nombres pairs, donc et favoriser le nombre pair, cette séquence de nombres pour la somme, la fonction de
somme, puis ça se tord. Alors, avant cela, permettez-moi d'en
venir au nombre indiqué. D'accord ? Ensuite, je sortirai et
j'appellerai la fonction pair. D'accord ? Alors laisse-moi exécuter ça. OK, c'est le
C. minuscule. Vous
obtenez pour la première fois 246810, somme de nombres pairs de 1 à 10. Donc, ce sont souvent des numéros
pairs de 1 à 20, d'accord ? Parce que je multiplie par deux. Si j'en fais cinq, ce sera le plus tôt
ce que nous avons écrit. Ce ne serait pas ça, d'accord. 246810. D'accord.
Ainsi, nous pouvons envoyer la somme des nombres pairs, la somme des nombres. Et puis, lorsque vous aurez
terminé avec cette fonction, certains nombres pairs. Il résumera donc tout et nous
donnera le résultat. D'accord ? Ainsi, lorsque vous additionnez ces
nombres, vous obtiendrez 110. Donc, de cette façon, nous
obtenons
des nombres pairs de 2 à 2001 à 20. D'accord ? Donc, de cette façon, nous pouvons le faire. La prochaine chose est que je vais
faire une fonction d'appel
sans document. C'est très simple, appeler une fonction
sans arguments. Donc, ce que je vais faire ici, je vais simplement créer un mot-clé function, hello, h function. Et dans le mot clé function, ce que je vois même ici, nous avons également
appelé certaines fonctions paires, certaines fonctions paires sans
passer aucun argument. D'accord ? La même chose que nous
allons faire ici également. Ce que je vais faire ici,
c'est simplement utiliser une impression et je vais dire bonjour. Comment allez-vous ? Alors ? Oh,
location. Dis bonjour. C'est juste que je l'appelle. D'accord. Donc, avant cela, je
dois l'exécuter. Alors laissez-moi lancer ceci
et voir, oui, nous allons recevoir un bonjour et comment allez-vous cette façon, nous pouvons appeler une
fonction sans augmentation.
18. Matrices en R: Bonjour et bon retour. Dans cette conférence, nous
allons en apprendre davantage sur les métriques dans notre analyse
matricielle, concept
très important et
nous devons le comprendre. Parce que lorsque nous allons
au-delà de ce cours, lorsque vous essayez de mettre en œuvre le concept artistique
permettant d'analyser les données,
vous essayez d'utiliser la R4 pour la manipulation des données,
la visualisation des données
ou même l'exploration de
données, l'analyse de données et
des projets
de science
des données dans le cadre de l'apprentissage automatique. Les matrices seront donc très complètes et nous allons les
utiliser à de nombreux endroits. Dans notre matrice. C'est un objet ou un objet. Dans l'art, tout est objet. Et de cette façon, les
matrices sont aussi
nos objets, n'est-ce pas ? Les matrices sont donc
les objets d'art dans lesquels s'arrangent les éléments du
même type atomique. Donc, dans matrice, matrice, nous
allons ajouter au même
type d'éléments, les mêmes types atomiques d'éléments dans une disposition
rectangulaire bidimensionnelle. Il en sera de même pour les matrices rectangulaires
en pierre diamantée. La matrice est une fonction. Alors, comment allons-nous
créer la matrice ? Nous allons utiliser la
fonction matricielle intégrée à R. Créez des métriques et des illustrations. La syntaxe serait matricielle. Ensuite, nous fournissons les données, déterminons les éléments de la matrice nous allons fournir ici. Ensuite, nous allons
fournir le nombre de lignes et rho est le nombre de lignes dans la
matrice, puis n colonnes, nombre de colonnes dans la matrice. Ensuite, nous allons
dire par ligne, nous voulons ajouter
les éléments par ligne, par colonne que nous allons
définir par cet argument. Ensuite, nous allons donner aux diamants que
les fils qui lui ont
donné le nom de moyens. Nous allons conserver le
nom des dimensions. D'accord ? Les données sont donc un vecteur d'entrée, qui devient les éléments de
données de la matrice que vous pouvez dessiner. Il s'agit
du nombre de lignes à créer et du
nombre universitaire de colonnes à créer par rho est un indice
logique. Si c'est vrai, éléments du vecteur
d'entrée
sont organisés par ligne. Donc, si vous voulez
créer une matrice en assignant les
éléments par ligne, nous devons donner par
rho égal à vrai. Sinon, ce
sera, par défaut
, sous forme de
colonne, d'accord ? Les valeurs en colonnes, par exemple, si l'
on nous donne les éléments un à dix, seront 12 ou trois. termes de colonnes, ce
sera le cas, si vous donnez vrai, alors ce sera Viral Hockey. Et le nom dim est le nom attribué aux lignes
et aux colonnes. D'accord ? C'est donc ce
que nous devons savoir de base. Et maintenant, ce que je vais faire, dévier de la matrice. D'accord ? Donc pour cela, j'ai
déjà créé notre fichier dans lequel j'ai
écrit quelques programmes, quelques fonctions permettant de
créer des métriques afin ne pas perdre notre temps à écrire le code
encore et encore. Et écrire
prend beaucoup de temps. J'ai donc déjà créé ces deux matrices qui
parsèment nos fichiers. Expliquez ce que je vais
faire à chaque étape. D'accord ? Donc, tout d'abord, nous
allons créer une matrice dans laquelle les éléments sont organisés séquentiellement par
colonne, par défaut. D'accord ? Supposons donc que je crée une matrice et que je
lui donne un nom M1. On sera donc un
objet en NADH qui va contenir cette matrice. Je vais donc utiliser la fonction
matricielle. Et voici ce que je transmets, ce sont les données
que je transmets. 12 à 35 signifie qu'il
créera les numéros 12-351213, 14 à 35. Ce seront donc des données
, puis ce que je vais donner à
la prochaine étape, Andrew, le nombre de lignes six. Je ne fais donc que transmettre les données et donner le
nombre de lignes. Je veux créer
une matrice
ayant le nombre de Rogers six. C'est ça Je ne donne aucune valeur de
colonne ou quoi que ce soit d'autre. Je passe juste
le lecteur de données à 35 numéros et le numéro
de Rogers à six. Je ne donne pas cet argument par ligne ou par
colonne. Je ne vais pas passer par ici. Je suis donc en train de créer une
matrice qui a, qui sera créée avec
les six lignes et qui
sera remplie avec les données jusqu'à 35. Alors laisse-moi
le créer. Si je lance ça. bientôt, M1 est un pour six, donc un est pour 412 à 36,
des données seront fournies. Et si j'imprime cette matrice
M1 C ici, nous avons
maintenant six lignes, 123456 lignes totalisant six routes. Et dans ces six lignes
se trouvent les données 12, 13, 14. Voyez d'abord la première
colonne qui remplira
l' année
(colonne 112, 131-415-1617). Ensuite, il ira dans la colonne 24 à 29, puis 30 à 35. De cette façon, les données sont
remplies par colonne, n'est-ce pas ? Pour laver la colonne 1, la colonne 2, puis la colonne 3. D'accord ? Parce que je n'ai rien
donné, oui, je n'ai pas spécifié par rho un
équivalent à quelque chose ici. D'accord ? Ensuite, si j'utilise by rho égal à false, ce qu'il fera, il
fera la même chose. Donc, si je l'exécute également, encore une fois, j'obtiendrai la même sortie, même matrice
sera à nouveau imprimée. Mais si je fournis ici le même
code par rho égal à true, maintenant la matrice sera créée
en remplissant d'abord les lignes. Donc, rincez 12131415,
la première ligne échouera. Puis 16, 17, 18, deuxième rangée, puis 2021, 22, 24e
rangée, comme ça. OK, si vite, les
règles seront redéfinies. Et puis la deuxième rangée, puis la troisième rangée comme ça. Et là, c'était la première
ligne, puis la deuxième, la
première colonne, la deuxième colonne, la
troisième colonne, comme si
c'était le cas ici. Première rangée, deuxième rangée,
troisième rangée,
colonne ou ligne. Donc, si vous voulez
remplir les données par ligne, vous devez donner par
rho égal à vrai. D'accord ? Compris. La prochaine étape consiste à donner les noms des
colonnes et des lignes. Supposons que je veuille donner
le nom de la colonne ici, et
que je veuille également donner le nom de cette ligne. Comment est-ce que je peux faire ça ? Je peux utiliser la fonction C et je peux donner un nom
aux lignes de colonnes. Supposons donc que je
veuille alors six rangées. Je veux donner à chaque
ligne le nom de la ligne 1, ligne deux, de la ligne 6. Je vais donc utiliser la fonction c et créer un
objet contenant des noms de lignes, et je vais créer un autre
objet contenant des noms de colonne plutôt que de conserver les
colonnes une, deux,
trois, quatre, quel que soit le nom que vous voulez
donner, vous pouvez vous le donner. Ensuite, lors de la création la
matrice, ce
que je vais faire,
je vais d'abord transmettre matrice de
données à l'intérieur de la matrice forêt
fonctionnelle, les données. Et puis je vais donner
le nombre de lignes, six. Ensuite, je vais donner par
ligne, tu peux donner le vrai ou le faux
ce que tu veux, d'accord ? Et puis ici, le prochain argument sera considéré comme étant le nom des
dimensions. Et voici ce que je vais faire, je vais créer une liste. Et dans la
liste, ce que je vais faire, transmettre les noms des lignes
et les colonnes de lignes sous forme
d'arguments à deux. Cela créera donc les
dimensions de la matrice. noms des lignes et des colonnes
seront récupérés à partir d' ici et transmis à la liste. Et cela créera la ligne et la colonne
nommées pour la matrice. Permettez-moi donc de lire ces deux lignes. OK, désolée, je dois tout
gérer. Voir ici. Nous obtenons maintenant une matrice avec le nom de la
colonne, colonne un, colonne deux, colonne trois, colonne quatre. Et les noms des
lignes sont les suivants : ligne 1,
ligne 2 , ligne trois, ligne quatre, ligne 5, lignes six. De cette façon,
nous devons d'abord créer une liste de colonnes nom de
la colonne, les
noms des lignes de colonne et le nom des colonnes. Et nous devons fournir ces arguments à des noms
obscurs, d'accord, par le biais de notre liste, d'accord ? Ensuite,
une ligne sera créée et les noms de colonnes
seront donnés dans cette matrice. La prochaine étape consiste à accéder aux
éléments depuis la matrice. Supposons donc que je veuille accéder à
l'élément depuis le M5, cette matrice,
la première colonne et la troisième ligne. Alors, comment puis-je faire ça ? La troisième ligne, trois virgules une, m phi, puis le crochet
et trois virgules une. Cela signifie que je veux
récupérer la troisième colonne, troisième ligne et la première colonne. Le premier argument concerne la ligne et le
second est quelle colonne ? Troisième ligne, le premier élément
sera imprimé. La troisième ligne signifie
celle-ci et la colonne
un mois, c'est beaucoup. Donc, si je gère ça,
je devrais avoir 20 ans, 32 ans. Je vais voir ici que nous en avons 20. Donc m5 est la matrice. Et je veux terminer
la troisième colonne, troisième rangée, la première colonne, la troisième rangée, la première colonne. De même, je veux d'
abord faire défiler la valeur de la cinquième ligne, puis la
deuxième colonne. Il s'agit de la
page précédente de la deuxième colonne, donc la 29e serait imprimée ici. Oui, on en aura 29. De même, supposons que je
veuille passer à la sixième ligne. D'accord ? Je peux donc donner à m phi et
rho six et la valeur de la colonne. Je vais le laisser. Donc, si tu donnes
comme ça, qu'est-ce que tu obtiendras ? Vous obtiendrez la
valeur c de la ligne six ici, 323-033-4305. Voici donc la sixième rangée.
Tu vas l'obtenir. D'accord ? De même, si je veux accéder
à la deuxième colonne, je peux donner, je peux quitter la ligne et je peux donner
une valeur de colonne d'un litre. Et si je lis ceci, je vais ouvrir la chronique
pour vous voir. 13, 17. Il s'agit des colonnes 213-17-2120, 5.20, 9.33, 29, 30. Ainsi, nous pouvons
présenter la valeur de la colonne. Ensuite, il y a l'
addition et la soustraction matricielles. Nous pouvons effectuer des multiplications, des additions, des soustractions et des
divisions avec Duck Matrix. Supposons donc que j'aie une matrice M1, laissez-moi imprimer ceci. Vous voyez, c'est le M1 et j'ai
une autre matrice qui est M2. Les deux sont donc la même matrice, mais quelles sont les différentes mesures
différentes, mais
les valeurs sont les mêmes. D'accord ? Donc support, je
veux ajouter m1 et m2, donc je peux simplement faire m1 plus m2. Et je vais attribuer cette
valeur à un objet. Donc, si je lance ceci, et si j'imprime
la valeur totale c ici, j'obtiendrai la garantie pour 36, comme s'ils étaient
stockés 2012 +12, 241-313-2614 plus
14, 20e comme ça. D'accord, de même, nous
pouvons faire m1 moins m2 et nous obtiendrons 000 parce que
les deux mesures sont identiques, n'est-ce pas ? M1 en m2. Nous pouvons faire des multiplications,
désolée pour cela. 12 en 12, 24, 30 et amusez-vous une fois que
c'est transformé comme ça. D'accord ? Et de la même
manière , nous pouvons effectuer
la multiplication matricielle
où chaque élément sera divisé
par chaque élément, d'accord ? Eh bien, en 121, comme ça. D'accord ? Donc, de cette façon, nous pouvons
utiliser une matrice et nous pouvons effectuer, ce n'est pas
une soustraction et nous pouvons accéder aux éléments de la matrice.
19. Facteurs en R: Bonjour et bienvenue. Dans cette conférence, nous
allons en apprendre davantage sur Dustin R. Alors, qu'
est-ce qui entre en ligne de compte ? Les facteurs sont des objets de données, comme nous l'avons appris jusqu'à présent
que tout est un objet. Les facteurs sont donc
également des objets de données dans R qui sont utilisés pour
catégoriser les données. Donc, en gros, des facteurs
sont utilisés pour classer les données, puis les stocker, classer les données en niveaux. Il va donc d'abord
catégoriser les données, puis créer des données étiquetées Spot, esquiver, catégoriser. Ensuite, il stockera
ces étiquettes, d'accord ? Il stockera ces données
dans ces niveaux, n'est-ce pas ? Et des facteurs sont utilisés pour
représenter les données catégorielles. Et ils peuvent stocker à la fois
des chaînes et des nombres entiers. Et ils ont créé un
vecteur entier ayant un niveau. Supposons qu'un vecteur entier ait un niveau, quelque chose comme ça. D'accord ? Donc, en gros,
supposons que nous ayons des données, supposons un homme ou une femme. Nous pouvons donc le stocker. Il vaut mieux le stocker
sous forme de 0.1, non ? Donc, ce que cela va faire,
c'est en supposant que nous disposions données sur les hommes et les femmes,
d'
une population de données où nous
avons nos données pour les hommes
et les femmes, les deux. Quels facteurs agiront
? Cela créera une catégorie de données
avec des hommes et des femmes, et
il stockera ces données dans la catégorie
des hommes et des femmes. Et puis vous pouvez facilement trouver combien d'hommes il y a et combien de femmes,
quelque chose comme ça. D'accord. Permettez-moi d'ouvrir le fichier dans lequel j'
ai créé quatre vecteurs. J'ai donc déjà créé
un facteur de fichier dans R point R. Et ici, je vais également
savoir comment créer un facteur dans R. La première étape pour
créer un facteur dans R est de créer un vecteur. Donc, voici ce que je suis en train de faire, je crée un vecteur
pour la profession du visage. Et ici, dans le
vecteur de la profession, il y aura un Dr. ingénieur charpentier, un
Dr. mécanicien, pilote, un Dr. charpentier
au Kenya, comme ça. D'accord. Il y a donc quelques professions
que j'ai créées ici. C'est donc le vecteur professeur où j'ai conservé le
professeur des personnes. D'accord ? Donc, si je lance ces deux
lignes, ce que cela va faire, cela créera un vecteur
pour la France et c'est vrai. Et il y aura le Dr Ingénieur Carpenter, Dr. Voir l'adoptant se
répète à droite. Dr. Il
y a tellement de médecins, n'est-ce pas ? Supposons donc qu'il s'agisse d'un
vecteur que j'ai créé. Si je veux vérifier si ce vecteur est notre
facteur ou non, je peux utiliser une
fonction appelée chaque facteur. Donc quoi qu'il en soit, si nous voulons
vérifier s'il s'agit d'un facteur ou non, vous pouvez utiliser chaque fonction
factorielle et transmettre ce vecteur ou cet objet à chaque fonction factorielle
et cela
vous indiquera qu'il s'agit d'un facteur ou non. OK, alors allons-y. Voyez ici, cela nous montre que c'est faux. Cela signifie que ce vecteur n'
est pas un facteur. Il s'agit d'un vecteur et non d'un facteur. Alors, comment convertir ce professeur et ce
vecteur en facteur ? C'est ce que nous allons faire. L'étape suivante. L'étape suivante consiste à
appliquer la fonction factorielle. Alors soutenez. Maintenant, je veux convertir cette compétence
avec un facteur. Je suis donc en train d'en créer un autre, de
créer un autre objet dont
le trait de soulignement est pris en compte. Professeur. Bon, maintenant je vais utiliser
la fonction factorielle et transmettre ce vecteur de
profession à la fonction factorielle afin que ce vecteur de profession
soit converti en facteur. D'accord ? Maintenant, si je lance ceci, et si je l'exécute, quelle allocation, voyez ici. Dans cette étape, nous allons créer le facteur à partir de ce vecteur
professeur. Alors maintenant, ce facteur,
professeur, facteur nasal, pour que je puisse vérifier, est un facteur. Ici, il nous montre comment passer. Et lorsque j'imprime
ce facteur de manière professionnelle, qui est un facteur, ce que j'obtiens,
j'obtiens le même résultat. Dr. charpentier d'intérieur, dr. Comme ça, les mêmes données. Mais ici, j'obtiens une autre
sortie qui est celle des étiquettes. Et les étiquettes, c'est
un professeur de menuisier, Dr. Donc toutes ces choses ne
seront pas des étiquettes, n'est-ce pas ? Les autres niveaux sont charpentier, docteur chauffeur en junior, mécanicien, pilote et professeur. Si j'utilise la fonction de tableau
et que je transmets ce facteur, la fonction de tableau,
ce qu'elle fera, elle nous donnera la même
chose, des étiquettes, d'accord ? Et si j'utilise le résumé,
ce que nous aimons. Si vous utilisez quelqu'un, vous obtiendrez
combien de charpentiers y a-t-il dans ces données ? Donc, à un charpentier, à trois médecins, un chauffeur, à un ingénieur, à un mécanicien, à un pilote
et à des professeurs. D'accord ? De cette façon, nous pouvons créer
et vectoriser le facteur. Factor constatera qu'il
a créé un facteur, Carpenter Dr., et
cela nous donne les données selon lesquelles il
y a deux médecins. Il y a deux charpentiers, trois médecins, un
chauffeur comme ça. Il va donc catégoriser les données. Maintenant, le facteur, quel
facteur s'est comporté ? Il a classé ces données, ces données dans la catégorie
des professions telles que charpentier,
Dr., et il
nous donne des chiffres tels que ces nombreux charpentiers ou leurs principaux médecins lorsque des
ingénieurs figurent dans nos données. Le facteur sera donc utile lors de l'analyse des données qui sont des données catégorielles, n'est-ce pas ? Nous allons donc voir comment nous pouvons faire analyse
catégorique en
utilisant des facteurs dans R. Donc, pour l'instant, il suffit de
comprendre comment créer un facteur dans R à partir
du vecteur, d'accord ? Nous pouvons donc appliquer une fonction
factorielle
au vecteur et ce vecteur sera
converti en facteur. Et la condition
est que ce professeur des vecteurs d'avoir
des données catégorielles. D'accord ? Ensuite, nous pouvons vérifier
chaque fonction factorielle. Avec la fonction de chaque facteur, nous pouvons vérifier si un vecteur
est un facteur ou non, d'accord ? Et nous pouvons utiliser un tableau pour voir les niveaux du
facteur et nous pouvons utiliser la fonction de résumé
pour vérifier quels sont
les chiffres, par exemple
combien y a-t-il de Dr. Combien d'
ingénieurs y a-t-il ? Donc, quelqu'un qui augmente le
facteur sera vu en utilisant la
fonction de résumé, d'accord ?
20. Trames de données en R: Bonjour et bon retour. Dans cette conférence, nous allons donc en
apprendre davantage sur les DataFrames dans notre programmation et sur la façon dont
nous pouvons utiliser les DataFrames. C'est le sujet
de cette conférence. Alors laissez-moi d'abord
vous expliquer ce qu'est DataFrame. trame de données est une table ou une
structure de type tableau bidimensionnel dans laquelle chaque colonne contient
les valeurs d'une variable et chaque ligne contient un ensemble
de valeurs de chaque colonne. Tu as compris ce que j'ai dit. dataframe est une structure semblable à une table ou un tableau
bidimensionnel, pourrait-on dire, dans lequel chaque colonne contient
les valeurs d'une variable. Chaque colonne contiendra
des valeurs provenant des valeurs d'une variable, et chaque ligne contiendra l'ensemble
des valeurs de chaque colonne. D'accord ? Et il s'agit d'un
cas particulier de liste dans lequel chaque élément de chaque composant aura
la même longueur et chaque composant formera la colonne et le contenu des
composants sur la route. Compris. Chaque composant forme la colonne. Chaque composant
formera la colonne et le contenu du composant
formera les routes. Vous comprendrez que lorsque
nous ferons des exercices pratiques, vous le comprendrez mieux. Ainsi, un DataFrame dans R
aura les fonctionnalités suivantes. La première chose est que les
noms de ligne doivent être uniques. Le nom de ligne doit donc
toujours être unique. Donc, les noms de lignes seraient uniques. Vous ne pouvez pas avoir les mêmes
noms de ligne dans un DataFrame, d'accord ? Chaque nom de ligne doit donc
être unique et nom de
colonne ne doit pas être vide. Donc, le nom de la colonne ne doit pas être vide. Il ne doit pas être vide. Donc, tous les noms de colonnes
auraient des entrées, d'accord ? Et les données stockées dans
un DataFrame peuvent être hors facteur numérique ou
type de caractère. Vous pouvez donc stocker n'importe lequel de ces types de données dans DataFrame, facteur
numérique ou type de
caractère. Et chaque colonne
contient donc le même nombre
d'éléments de données. Chaque colonne contient donc le
même nombre d'éléments de données. Donc, DataFrame sous la forme d'une table ou d'une structure de
type tableau bidimensionnel
dans R, dans laquelle chaque colonne contient la valeur d'une variable et chaque ligne contient
l'ensemble des valeurs de chaque colonne. D'accord ? Commençons donc
par le pratique. OK, donc ce que j'ai fait, j'ai déjà écrit programme et le nom de fichier
est DataFrame point r. Ce que je fais ici, je crée un DataFrame. Ainsi, le DataFrame peut être créé
comme suit comment créer un DataFrame. Nous utilisons. Data.frame. La fonction Data.frame sera
utilisée pour créer une trame de données. Et cet étudiant est un objet auquel je vais
attribuer ce DataFrame. D'accord ? Donc data.frame. Et puis, ce que je fais ici, c'est tout d'
abord créer
un numéro de série. D'accord ? Donc numéro de série,
je crée 1-5. Et puis huit, je donne, j'utilise la fonction C pour
créer l'âge, d'accord ? Je crée un vecteur ici,
voir 201-15-1030, 5.45. Les A auront donc ces entrées. Ensuite, je crée un nom. Le nom contiendra les nombreuses entrées. D'accord. Donc cinq entrées, Shaggy, Ronnie est John et Tom d'aujourd'hui, et puis je termine ça. D'accord ? Ainsi, nous pouvons
créer un DataFrame. Alors laissez-moi d'abord
exécuter cette ligne pour obtenir un DataFrame. Voir ici. Alors laisse-moi imprimer ceci. PDG étudiant. Maintenant, l'étudiant est
un DataFrame, non ? Et ce qu'il contient, c'est une ligne ou une
colonne contenant le numéro de série, l'âge et le nom, parce que nous
avons donné le numéro de série, puis huit, puis le nom. Et chaque colonne. Le numéro de série et le nom
contiendront les valeurs. Quel numéro de série
contiendra la valeur de un à cinq, donc 12345 numéros de série,
puis les âges 201-15-1030, 5,40. Et le nom aura
ces valeurs, d'accord ? Ainsi, chaque colonne aura les valeurs du nom, du
nom et de la variable. C'est ce que nous avons appris
dans la partie théorique. De cette façon, nous pouvons créer
notre étudiant DataFrame, dont le numéro de
série de la colonne sera un nom et qui contiendra les valeurs des lignes. Du numéro de série 1 à 5, à 21 ans. Et ce cinq, c'est que nous avons donné un nom, nous en avons spécifié un
dans la variable name. Ces valeurs de variables
deviendront donc l'
entrée de ce tableau, n'est-ce pas ? C'est donc une structure semblable à une table. D'accord ? C'est donc ce que l'on appelle
DataFrame dans R. Et nous pouvons voir la structure notre DataFrame en
utilisant la fonction STR. Nous pouvons utiliser STR puis transmettre le DataFrame. Cela nous donnera la
structure du DataFrame. Le DataFrame avait une structure
et nous dirons un dataframe. Et il a cinq
rangées sur trois précieuses. Voir ici 12345. Donc cinq objets, soit cinq
lignes et trois variables. Trois variables sont des séries, le numéro est un nom. Telles sont les trois variables. Les noms des colonnes sont
appelés variables. Donc trois variables
et cinq lignes, cinq objets de trois variables. Et ces variables sont le numéro
de série, l'est et le nom. Ainsi, le numéro de série est
un entier, un chiffre et des marines de caractères, de
type et de sénior, chaque variable ou
chaque colonne
aura le même nombre d'éléments comme le numéro de série
est de un à cinq. L'âge comporte également
cinq entrées et nom en a également
cinq, n'est-ce pas ? Donc, tous devraient avoir le même
nombre d'entrées, non ? D'accord. Supposons que si je donne six
ans, que se passera-t-il ? Permettez-moi de lancer cette
édition de DataFrame. Parce que le
numéro de série est compris entre 1 6.8, il ne comporte que cinq entrées, et le nom comporte également
cinq entrées, n'est-ce pas ? Donc, ici, l'erreur que
nous recevons est
une erreur dans la trame de données
et l'utilisation d' arguments implique un
nombre différent de lignes six et 6,5. Ainsi, une variable
comporte six lignes, six éléments et toutes
les autres ont 51 feuilles. C'est pourquoi il nous
montre l'erreur. Il devrait donc y en avoir 55 pour chacun. OK, donc ici, vous pouvez en mettre
cinq et quand nous l'exécuterons, nous n'aurons aucune erreur. Et il fonctionnera
avec succès. Avec le STR. Nous pouvons obtenir la structure
du DataFrame. Ensuite, nous
allons apprendre que composants de
DataFrame sont
accessibles sous la forme d'une liste
ou d'une matrice. Nous allons donc d'abord voir comment
accéder à la liste Leica. Nous pouvons donc utiliser, si vous souhaitez
accéder à des listes similaires, nous pouvons utiliser l'une ou
l'autre de ces trois. Nous pouvons utiliser notre opérateur en dollars ou nous pouvons utiliser le
double crochet, ou nous pouvons utiliser le crochet
simple, d'accord ? Pour accéder aux données
depuis le DataFrame. OK, donc supposons que
je veuille accéder au nom à partir du DataFrame
is student, l'un des noms. Donc, si je peux le faire
avec cet étudiant, puis à l'intérieur de la colonne, je peux transmettre le nom de la variable ou le
nom de la colonne. D'accord ? Et si je l'exécute, j'obtiendrai tous les noms
du DataFrame. De même, je peux faire
la même chose avec ce symbole du dollar, n'est-ce pas ? Opérateurs dollar student, c'
est-à-dire le nom DataFrame, puis dollar, puis le colonne ou le nom d'une variable. Donc, si je lance ceci, j'obtiendrai le même résultat que le nom d'un étudiant
senior. Il vous donnera le nom
de tous les étudiants. D'accord ? Et de même, nous pouvons aussi le faire
, c'est louer. Et entre parenthèses. Encore une fois, entre parenthèses,
nous pouvons transmettre le nom. Ces trois éléments vous
donneront le même résultat. D'accord ? Maintenant, nous pouvons faire comme si
nous avions donné un nom. Le nom est la troisième colonne située
juste à l'intérieur de ce DataFrame. Nous pouvons donc également transmettre le numéro de
colonne, étudiant trois, afin que vous
obteniez la troisième colonne. Le nom. nom est la troisième et troisième colonne de ce DataFrame. Tu vois, si j'
y arrive, ça nous donnera l'âge. Ca, ça nous donnera les Is. De cette façon, nous pouvons transmettre le numéro de colonne et récupérer
les données du DataFrame. La prochaine étape consiste à modifier
les éléments du DataFrame. Nous pouvons également modifier le DataFrame en C que vous allez
donner à cet étudiant, c'
est-à-dire un nom DataFrame. Et puis ici, nous allons garder
le 11 signifie la première ligne, puis je vais donner
H. Et je veux modifier la première ligne comme étant 291. D'accord ? Alors laissez-moi exécuter ceci et
imprimez l'étudiant. Voir ici. Maintenant, la première ligne est, est modifiée en 91. Plus tôt, c'était 21, maintenant c'est 91. Donc, de cette façon, nous pouvons. Modifiez les éléments du cadre
DataFrame. Nous pouvons ajouter des lignes au
composant Roche au DataFrame. Supposons que je veuille
ajouter une autre ligne. Supposons qu'il
y ait cinq rangées, n'est-ce pas ? Je veux ajouter une ligne supplémentaire
au DataFrame Halloween, je peux le faire, je peux utiliser
la fonction rbind. Notre fonction est utilisée pour ajouter
une ligne dans le DataFrame. Dans le rbind, je dois transmettre le nom du DataFrame
, puis utiliser une liste. Et à l'intérieur de la liste,
je dois indiquer
le numéro de série six,
puis l'âge de un à vingt ans, et puis les noms
seraient variés, donc rien ne doit être vide. Tout ce que nous avons à donner, il y a trois colonnes, donc nous
devons donner trois colonnes ici. Le numéro de série est n, nom. Et si je lance ceci, une
ligne supplémentaire sera ajoutée. remède contre la crise six et vingt a été ajouté au DataFrame pour étudiants. De même, nous pouvons également ajouter
un composant de colonne au composant de colonne
du DataFrame. Et comment y parvenir, nous pouvons le faire avec le C1. C1 signifie que la columbine est une
vitamine qui lie les lignes. OK, donc fonction cbind, nous avions l'habitude d'ajouter une colonne
dans le DataFrame. Donc, dans la même chose, nous devons transmettre le nom
DataFrame. Ensuite, nous devons supposer une colonne que je souhaite
ajouter en tant que pays. Je dois donc donner le nom de la
colonne country ,
puis utiliser la fonction c et transmettre le pays, le numéro de pays. Je dois donc passer par les
six pays qui s'y trouvent, non ? 12345, d'accord ? Et si je lance ceci, parce que c'est la sixième valeur, nous ne nous sommes pas engagés. Ce n'est donc pas l'année à venir. Ou dans un DataFrame,
il ne reste que cinq lignes, c'est ajouter la ligne Phi, d'accord ? Nous pouvons donc
ajouter une autre colonne, contrairement à notre DataFrame. Ensuite, nous
pouvons attribuer le pays de la même
manière qu'une liste, comme des listes, comme un devoir, nous pouvons utiliser le pays
en dollars étudiants. Cela signifie que dans le DataFrame, nous allons ajouter
une autre colonne. C'est-à-dire que ce
sera un nom de pays. Et nous allons
ajouter les entrées comme ces pays, d'accord ? Six en Inde, neutre
et aux États-Unis, au Japon et en Chine. D'accord ? Et si je fais ces
deux déclarations, je verrai que le pays a été ajouté ici et que les noms des
pays sont là. De cette façon, nous pouvons ajouter une colonne
dans une liste, comme une assignation. D'accord ? Ensuite, nous pouvons supprimer un composant
de DataFrame. Nous pouvons donc supprimer une
colonne entière en utilisant cette chose. OK, étudiant, c'
est le nom de DataFrame, le nom de la colonne
dollar, nom, et je peux attribuer une valeur nulle. Donc, si j'attribue une valeur nulle, la colonne entière
sera supprimée. Alors laisse-moi m'occuper de ça et à bientôt. Maintenant. numéro de série est et la colonne de nom des pays
a été supprimée car nous avons défini
la colonne des noms comme nulle. D'accord, de cette façon, nous pouvons
supprimer toute la colonne. De la même manière, nous pouvons
supprimer une ligne entière. Donc, pour supprimer la
ligne entière, ce que nous pouvons faire, nous pouvons utiliser student
et moins deux, puis nous pouvons supprimer
la ligne entière. Alors laisse-moi exécuter ça. Ici. La ligne 2 a été supprimée. Deux correspond à une empreinte de deux
en Nouvelle-Zélande qui a été supprimée. Donc, si vous souhaitez supprimer
une ligne particulière, vous pouvez indiquer ici moins
deux, que la deuxième ligne sera supprimée du DataFrame de
l'étudiant. Ainsi, nous pouvons supprimer une ligne
entière d'un DataFrame. Voici donc comment créer un DataFrame
en utilisant data.frame. Et nous pouvons fournir le nombre de colonnes ou le nombre de variables. Ensuite, nous devons fournir
le nombre de valeurs pour ces variables
soient appelées nombre d'
éléments, ici cinq. Donc, tous les A et les
noms seraient 55, alors seulement cela
créera un DataFrame. Ensuite, nous pouvons obtenir la structure d' un DataFrame en
utilisant la fonction STR. Ensuite, nous pouvons mettre en phase
la colonne en question en fournissant
le nom de la colonne à l'aide de ce crochet ou
du symbole dollar. Et nous pouvons acheter le numéro de colonne. Nous pouvons modifier
DataFrame comme ceci, éléments de
DataFrame comme
celui-ci et toutes ces choses, cbind, Irvine, toutes ces
choses que nous avons vues, n'est-ce pas ? J'espère donc que vous avez mieux compris
les DataFrames dans R. Et j'espère vous avoir fait
comprendre ce qu'est DataFrame et comment nous pouvons fonctionner
avec les DataFrames. Rendez-vous lors de la prochaine conférence.
21. Combiner des trames de données: Bonjour et bon retour. Dans cette conférence, nous
allons apprendre comment combiner des vecteurs
dans des DataFrames. Cela signifie que nous supposons que nous avons
trois ou quatre vecteurs. Et je veux créer un
DataFrame à partir de ces vecteurs. Alors, comment pouvons-nous y parvenir ? Ensuite,
ce que nous allons essayer de faire, de combiner également
les DataFrames. OK, alors allons-y. Donc, tout d'abord, pour combiner les vecteurs, nous devons créer le vecteur. Donc, voici ce que je suis en train de faire, je crée pour les vecteurs, noms, la ville,
le code postal et le salaire. Ces quatre vecteurs seront donc les quatre vecteurs que je suis en train de créer. Et ce que je vais faire, combiner ces quatre éléments
pour créer un DataFrame. Ces quatre vecteurs
créeront donc un DataFrame pour moi. OK, donc le premier recteur, ce sont les noms. Et dans le vecteur de noms, ce que je donne dans le
vecteur de noms, ce que je donne, j'utilise la
fonction C et je donne noms de
la lactamase de
Parsons,
des Rockies, de Henry et du singe. Et puis le second
vecteur est le vecteur de la ville. Et à l'intérieur, je donne à
cela leurs villes
respectives nommées Bangalore, Londres, New York et Mumbai. OK, et puis je donne le code cadeau pour ces
villes dans le troisième vecteur. Et puis le quatrième
vecteur est le salaire, dans lequel j'installe
leur salaire respectif. Il y aura donc
le salaire du derme, le salaire raquette et, récemment, la
mantisse. Salaire de Mantissa. Nous pouvons ainsi
créer ces quatre vecteurs que nous avons appris dans le chapitre
sur les vecteurs de la conférence sur les vecteurs. Alors laisse-moi exécuter ça. Cela va donc créer ces
quatre vecteurs, d'accord ? Maintenant, je veux combiner ces quatre vecteurs et
créer un DataFrame. Je souhaite créer un DataFrame en utilisant ces quatre vecteurs. Je veux donc combiner ces quatre vecteurs et
créer un DataFrame. Donc, pour cela, ce que je fais, je donne un
nom de DataFrame ici pour impliquer des détails. Les détails des points EMP
seront donc le nom du DataFrame. Ce que je vais
faire, c'est utiliser la fonction
cbind pour
combiner ces vecteurs. D'accord ? Donc, comme ce sera le nom
City Deep Code, ce sera l'équipe des colonnes. Donc, naturellement, j'utilise
C bind ici pour combiner les noms des colonnes,
la ville et le code postal. Et malheureusement, ce sont les quatre, ce seront les quatre
colonnes du DataFrame. J'utilise donc c wine et je fournis le nom
des colonnes,
comme les noms, le vecteur, le vecteur de la ville
, le code postal et le salaire. D'accord ? Alors laisse-moi exécuter ça. OK. Maintenant, laissez-moi imprimer les coordonnées de l'
employé. OK. Laissez-moi donc voir les
détails des employeurs. Voir ici. Désormais, les
détails de l'employé sont DataFrame. Et nous pouvons voir le nom des colonnes,
la ville, le code postal et le salaire. Et les entrées sont nulles,
adresse bancaire, code postal et salaire, Rockies City, Londres, vous
avez ça et le salaire. Puis Henry. Vous voyez ici qu'à partir de ces quatre
vecteurs pour lesquels nous avons créé, commençant par ces
quatre vecteurs, nous avons créé un
DataFrames, n'est-ce pas ? Supposons que si je mets les noms et que je lance
ce nom, j'obtiens un leader
nommé de la même manière, ville et la ruelle des courants. J'ai donc combiné les
vecteurs dans une trame de données. Nous avons donc maintenant une structure en
forme de table qui est un DataFrame. Nous avons donc maintenant un DataFrame. De même, que vais-je faire ? Je vais lire, vous pouvez utiliser la fonction C-A-T cat
pour imprimer quelque chose. OK, donc ici, j'
imprime simplement le fichier DataFrame
à partir de quatre vecteurs. Et ça, alors ça
viendra comme ça. OK, donc le premier
DataFrame à partir de quatre vecteurs contient des
détails implicites, des détails de points EMP. D'accord ? Donc, si vous
voulez imprimer un titre, vous pouvez utiliser la
fonction de chat, d'accord ? Ensuite, imprimez les coordonnées de l'
employé que j'ai déjà imprimées ici. Et vous pouvez également
l'imprimer ici. Et puis ce que je suis en train de faire maintenant, tâche suivante est de combiner deux
DataFrames en un seul. Nous avons donc un DataFrame
impliquant des détails que nous
avons créés à partir des quatre
vecteurs. Maintenant, ce que je vais faire. Créez un autre vecteur, désolé, je vais créer un autre DataFrame, les détails des
employés et les détails des points
EMP, avec la fonction Hale-Bopp
DataFrame. Et ici, manuellement. Dans le DataFrame, je vais donner le nom : vecteur c t,
vecteur, code postal, salaire. D'accord ? Ainsi, nous pouvons
également créer, dans un premier temps, ce que nous avons fait. Nous avons créé le
nom de la ville, le code postal et le vecteur
salarial séparément, puis nous l'avons suspendu à la fonction cbind
pour créer un DataFrame. Et ce que nous faisons maintenant, est
transmettre directement ces vecteurs. Nous créons les vecteurs dans la fonction DataFrame. Nous ne vieillissons pas en C Y, et nous
utilisons ici data.frame, fonction
DataFrame pour
créer un DataFrame. Et dans la
fonction DataFrame que nous transmettons, nous créons des noms. Vecteur, vecteur de densité, puis vecteur de
code postal et
entrées , nous ne donnons qu'
ici, d'accord ? Le salaire et un facteur d'
avantage sont faux. D'accord ? Et puis, si nous l'
exécutons, nous créerons
un DataFrame. Ce sont également les détails des employés. D'accord ? Et si je lance cet outil, nous obtiendrons le deuxième DataFrame
utilisé. Il a tendance à nommer du code
stratégique et possède 3,2 % de
RAM en minuscules et du push pop. Et le code postal de leur ville et leurs salaires respectifs
imprimés ici. Nous avons maintenant les deux DataFrames, les détails des
employés et
les détails implicites de ce que je voulais faire. Je souhaite combiner les lignes des deux DataFrames et créer un autre DataFrame qui
contiendra tous les détails des employés, qui contiendra tous les détails
implicites provenant implicitement un et utilisés dans
DataFrame. Je suis donc en train de créer un autre objet, tous les détails des employés. D'accord, ce sera le DataFrame qui combinera les lignes
du DataFrame et du
DataFrame des employés et impliquera des
détails dans DataFrame. Donc, pour cela, ce que
je vais utiliser, je vais utiliser, c'est
acheter hors bande parce que nous voulons
combiner les routes ici, trois rangées et ici quatre
rangées avec ces quatre rangées. Et ces trois lignes, je veux les combiner et
créer un autre DataFrame. C'est pourquoi j'utilise le mode hors bande
pour combiner les lignes. Ensuite, à l'intérieur de l'Audubon, je fournirai le premier DataFrame ,
puis le second DataFrame. Ensuite, nous pouvons utiliser
la fonction de chat pour imprimer les titres qui,
combinés, impliquent des détails. Ensuite, je peux imprimer. OK, alors laisse-moi m'occuper de ça. bientôt. Nous avons maintenant tous
les détails implicites de DataFrame, qui contiendra
les sept lignes, quatre du
premier DataFrame et le dernier tiers provenant
du second DataFrame. Ainsi, nous pouvons
combiner deux DataFrames. D'accord ? Quelles sont donc les choses que
nous avons apprises ? Tout d'abord, nous avons
appris à créer un DataFrame à partir de vecteurs. Ensuite, nous avons vu
comment combiner les deux DataFrames
en une seule trame de données. D'accord, de cette façon, nous pouvons combiner les DataFrames et créer également un DataFrame à partir
des vecteurs. Rendez-vous lors de la prochaine conférence.
22. Analyser les données en R à partir du fichier CSV: Bonjour et bon retour. Dans cette conférence, nous allons donc apprendre le concept très
important, analyse de données en R. savoir l'analyse de données en R.
Donc, dans cette conférence, nous allons abord
essayer de lire un fichier CSV,
des fichiers CSV séparés par des virgules. Et c'est comme un vrai
siège auquel vous pouvez penser. Et il contiendra la
somme des détails implicites. Ensuite, ce que nous allons faire, essayer de lire ce
fichier CSV avec notre programmation. Ensuite, après avoir lu les données, nous essaierons d'analyser les données qui se trouvent dans le fichier CSV détaillé des
employés. Et nous essaierons d'obtenir des
informations à partir de ces données. D'accord, laissez-moi d'abord
vous montrer le fichier CSV. Voici donc le fichier CSV
que j'ai créé. Et nous verrons ici qu'il s'
agit du fichier CSV à
points des détails de l'employé et qu'il s'agit
d'un fichier séparé par des virgules. Donc, le premier identifiant d'employé, nom de
l'employé, le salaire, les données relatives
à l'adhésion et au service. Ce sont les quatre colonnes. Il s'agira de la colonne
du tableau ou du
siège Excel, comme vous pouvez le voir. Et puis ce
sera la première rangée. Les valeurs sont séparées par des virgules. L'un sera l'identifiant de l'employé, puis la liste sera le nom de
cet employé. Le salaire sera de 3 000$. Ils ont cliqué sur Rejoindre ça. Ensuite, le département
sera le CSE ou quelque chose comme ça. D'accord. Voici
donc quelques données que j'ai conservées
dans ce fichier CSV. Maintenant,
je vais essayer de récupérer ces données, je vais essayer de récupérer ces données, ces colonnes et ces valeurs de lignes
grâce à notre programmation. Ensuite, nous essaierons
d'analyser les données. Donc, le premier type consiste à lire
un fichier CSV via notre, d'
accord, alors laissez-moi passer au code. La première chose à faire est de définir
notre répertoire
de travail. Donc, pour définir le répertoire de travail, vous devez accéder aux
fichiers ici, dans cette section, et voir si vous cliquez sur
ces trois points ici, vous devez accéder aux
fichiers ici, dans cette section,
et voir si vous cliquez sur
ces trois points ici,
vous pouvez parcourir les
fichiers sur votre ordinateur. vous pouvez parcourir les
fichiers sur votre ordinateur. Et voici ce que je vais faire, je vais me rendre à l'Art
2020 parce que c'est mon répertoire de travail
et je veux définir cet endroit comme notre répertoire de
travail. Je vais sélectionner cela. Et maintenant, nous sommes dans
ce répertoire d'art 2020. Maintenant, je veux que ce
taux d'imposition fasse l'objet d'un répertoire de travail, afin de pouvoir le faire. Je peux y aller plus souvent. Et année d'aptitudes, Définir
comme répertoire de travail, donc je vais cliquer sur Définir
comme répertoire de travail. D'accord, donc de cette façon, nous pouvons en faire notre répertoire 2020
en tant que répertoire de travail. Vous pouvez également simplement
utiliser la commande set WD. Set WD est une fonction qui permet de
définir le répertoire de travail. Wd signifie répertoire de travail et segments configurant
le répertoire de travail. Donc, en définissant work set, WD est la fonction
à l'intérieur de laquelle vous pouvez fournir le chemin
de votre répertoire. Et ce chemin
sera votre répertoire de travail
lorsque vous l'exécuterez. D'accord ? Nous avons maintenant défini
le répertoire de travail. Ce que j'ai fait, j'ai conservé le fichier CSV à points
sur les employés ici afin que ceux qui le lisent puissent facilement
le lire. Nous n'avons pas besoin de transmettre le chemin complet ici
puisque nous l'avons à l'intérieur, nous sommes dans le répertoire de
travail et fichier CSV tilde point de
notre employé se trouve également dans le même
répertoire, d'accord ? Et si ce n'est pas le cas, nous devons donner
le chemin complet ici et une partie complète de ce fichier. D'accord ? La première étape consiste donc à
lire le fichier CSV dans son intégralité. Donc,
je vais d'abord créer une variable que vous pouvez exprimer ou objecter dans nos données d'emploi, des données EMP point. Il s'agit d'un invariable
où je veux stocker tout ce que je vais
lire à partir de ce fichier CSV. Pour lire un fichier CSV dont nous avons besoin, nous avons besoin d'une fonction
appelée read.csv. read.csv sera donc utilisé
pour lire le fichier CSV. Et dans cette
fonction, read.csv, nous devons fournir
le nom du fichier CSV point
afin que notre nom de fichier soit le point CSV
des détails de l'employé. C'est ça. Lorsque nous exécutons
cette fonction, elle lira les données de ce point d'employé
CSV et les
stockera dans cet employé. Alors laissez-moi d'abord exécuter ceci. Voir ici. Maintenant, lorsque vous voyez ici, cela nous montre que nous montre données EMP point des
employés, huit
objets de cinq variables. Cela signifie qu'il y a huit lignes et cinq colonnes
dans le fichier CSV. Identifiant de l'employé, un à
huit implique un nom. Ce sont le nom implicite, taux de
salaire en hausse de l'adhésion. Et c'est le cas, vous pouvez
voir les détails ici. Nous avons maintenant lu le fichier CSV et nous avons stocké les données
dans ces données EMP point. Je peux maintenant imprimer ces données EMP point et voir quels
détails elles contiennent. Lancez-le et à bientôt. Laisse-moi recommencer. Maintenant, nous avons la structure de la table.
J'aime bien la structure, n'est-ce pas ? Identifiant Emp, nom de l'employé, salaire, date d'embauche
et département. Ce sont les
noms des colonnes et
les valeurs, n'est-ce pas ? Lignes. Pour les
colonnes correspondantes, n'est-ce pas ? Il comporte huit lignes
et cinq colonnes. Cinq variables
correspondent à cinq colonnes. Pouvez-vous donc expliquer de quel type
de données il s'agit dans l'art ? C'est ce que l'on appelle DataFrame. Le dataframe aura une structure
semblable à une table, n'est-ce pas ? Donc, quoi que nous
lisions dans le fichier CSV, il sera stocké sous forme
de bloc de données dans R. Et nous pouvons vérifier s'il s'agit d'un DataFrame ou non en
utilisant chaque donnée. Chaque fonction point data.frame, droite, est une fonction point
data.frame. Et nous pouvons transmettre cet objet de données d'
employé. Alors laisse-moi exécuter ça. Voyez ici que
le résultat est vrai. Cela signifie que les données EMP
point de ces employés sont notre DataFrame. Quoi que nous lisions, read.csv obtiendra une trame de données. Nous avons donc maintenant un DataFrame ici. La prochaine étape est que nous
avons maintenant notre structure de
type table DataFrame ici. Maintenant, je peux trouver le nombre de colonnes en utilisant une fonction
appelée. Je peux donc utiliser un charbon et ensuite transmettre le nom
DataFrame ici. Et cela
nous donnera le nombre de colonnes dans le DataFrame. Ce fichier CSV
comporte donc cinq colonnes. De même, nous pouvons utiliser et rho, et rho est le nombre de lignes. Lorsque nous exécutons cela, nous
obtiendrons le nombre de lignes, soit huit lignes, dans ce DataFrame. Voyez ici avec quelle facilité nous avons lu le fichier CSV et
créé une table ou un DataFrame dans R. Et
maintenant, nous trouvons avec n deux-points et lignes le
nombre de colonnes et le nombre de lignes
dans ce DataFrame. Maintenant, nous allons obtenir des
informations intéressantes avec R. Alors maintenant, je veux trouver
le salaire maximum. Quel est le
salaire maximum d'un employé ? Je peux donc utiliser la fonction max et transmettre les données des employés. Salaire en dollars. Cela signifie que je souhaite transmettre
la colonne des salaires, cette colonne des salaires
à la fonction maximale, la colonne des salaires, les données EMP point. Le salaire en dollars signifie que
je suis en train de récupérer cette colonne et de la
transmettre à la fonction maximale. Ainsi, cette fonction maximale
fonctionnera en interne et trouvera le maximum
de ces salaires. Cela nous donnera donc le résultat de 95 200. Permettez-moi d'imprimer ce salaire maximum. Voyez ici que
le salaire maximum d'
un employé est de 95 200$. D'accord ? Ainsi, nous pouvons trouver
le salaire maximum. Nous pouvons également trouver le salaire moyen en
utilisant la fonction moyenne. Donc, dans la fonction principale, nous allons
fournir cette colonne salariale. Et cela nous donnera le
salaire moyen des employés. Votre salaire moyen
sur la place. Chaque salaire qu'il reçoit
se chiffre à 53 009, soit 24. Et si nous utilisons somme du
salaire de tous les employés et que nous la divisons par huit, parce qu'il y a
huit employés obtiendrons le même taux que le PDG. Ainsi, nous pouvons trouver le salaire moyen
des employés. De la même manière, nous
pouvons trouver le maximum. Nous pouvons trouver les
détails de l'employé ayant un salaire maximum, nous avons constaté que 95 200
est le salaire maximum. L'un implique d'obtenir. Nous pouvons maintenant trouver cet
employé avec ce détail. Nous pouvons donc utiliser la fonction de sous-ensemble et
transmettre cela implique des données. Et puis nous pouvons ajouter
un autre argument : le salaire est égal au salaire maximum. Donc, ce que nous allons faire, c'est trouver l'employé
qui touche
le salaire maximum. Cela nous donnera donc des informations détaillées sur l'
employé qui souhaite obtenir le salaire
maximum. Laisse-moi exécuter ça. Voyez ici le
nom profond de cet employé qui
reçoit le salaire maximum
et voici ses coordonnées. Ainsi, de cette façon, nous pouvons
mettre le point qui peut être le salaire le plus ensoleillé, le détail de l'employé qui reçoit le salaire maximum. Ainsi, nous pouvons trouver l'employé qui
reçoit le salaire maximum, le salaire le plus élevé. De la même manière. Nous pouvons également l'exécuter. Faites en sorte que tous les employés
travaillent dans la finance, travaillent dans le département des finances et obtiennent un salaire
supérieur à 85 000. Vous voyez, c'est
le département, donc c'est le
ministère des finances. Il y a deux employés et tous deux en vendent
plus de 85 000. Alors, quelles conditions donnons-nous ? Nous donnons la fonction d'appel la fonction de sous-ensemble et
fournissons les données des employés. Ensuite, nous
donnons une condition un ministère égal aux finances et des salaires
supérieurs à 85 000 dollars. Cela nous donnera donc tous les
employés
dont le département est chargé des finances et des salaires, soit
plus de 85 000. Laisse-moi imprimer ça.
Laisse-moi exécuter ça. Ici. Nous sommes de plus en plus implicites. Laisse-moi le réexécuter.
Nous obtenons donc ici l'identifiant d'employé 3.8
signifie et exécutez. Ce sont les deux
employés qui appartiennent
au département des finances et leur salaire est
supérieur à 85 000. Ces deux employés
recrutent donc, le département des finances, le département des finances, et leurs salaires s'élèvent à plus de 85 000 dollars. Ensuite, je veux trouver
les personnes impliquées qui nous ont rejoint
en 2000 ou après. Nous avons donc une date d'
adhésion ici aussi, non ? Je souhaite donc retrouver tous les employés qui ont
rejoint l'entreprise après 2000. Honor, après 2000. Je peux donc fournir les données des employés et je
peux donner la date d'Ashdod. Et à l'intérieur, je donnerai
la date d'adhésion. Donc, les données se noient, je
fournis à cette date une fonction. Et cela devrait être
supérieur à la date d'ajout de la date de connexion. Premier janvier 2000. D'accord. Ainsi, tous les employés
dont les données de Joanne sont
supérieures à celles de ce tutoriel, First Gen à Tarjan obtiendront
les détails de ces employés ici. Alors laisse-moi exécuter ça. Attends encore une fois, regarde ici. Maintenant, nous avons compris les
implications de Priyanka Mahesh. Ils nous rencontrent donc lorsque ces
cinq personnes impliquent qu'ils ont rejoint l'entreprise en 2000 et
que, par la suite ou pas après 2000, ils ont rejoint l'
entreprise et nous obtenons les coordonnées des employés. Les personnes qui ont rejoint, euh, ont souvent des années 2000. Ainsi, nous pouvons
analyser le fichier CSV et les données que nous avons dans
le fichier CSV dans Excel. C'est donc une analyse assez
intéressante que nous pouvons effectuer avec des fonctions
simples. Hein ? Maintenant, ce que je veux faire, que nous avons lu un fichier CSV, n'est-ce pas ? Nous avons lu le
fichier CSV et nous avons effectué toutes ces analyses. Maintenant, ce que je veux faire, est écrire un fichier CSV. Je veux obtenir des données. Je souhaite générer des données, et je souhaite que ces données soient
publiées dans un fichier CSV. Comment est-ce que je peux faire ça ? Je peux le faire avec ça. Write.csv. Read.csv est en train
de lire le fichier CSV. Et write.csv signifie lire
ou écrire un fichier CSV. Nous voulons écrire un fichier CSV. Quelles que soient les
données, celles
que j'ai trouvées indiquent qui a rejoint l'entreprise
après 2000, n'est-ce pas ? Je veux donc écrire ce tableau ou ces données dans un fichier CSV. Je vais donc passer cet
objet joint après 2000 à ce fichier write.csv. Et ici, je vais donner
le nom du fichier CSV. On me donne donc le nom du fichier CSV sous forme point d'
employé entrelacé après le point d'origine de
la dent. Toutes ces données seront donc
écrites dans ce fichier CSV. Un nouveau fichier CSP sera créé. OK, alors
laissez-moi voir si
ce fichier est déjà là, voyez ici, ce fichier
est déjà là. Donc, ce que je vais faire, c'est
supprimer ça. D'accord ? Ensuite, je vais y retourner
et lancer ça. OK, alors laisse-moi m'occuper de ça. Et laissez-moi accéder au dossier
qui se trouve ici. Vous voyez maintenant que nous avons créé
un nouveau fichier. Laissez-moi vous montrer les données. Ici. Nous avons 12345 lignes. m'a dit que j'ai
consulté Eddie que les données allant jusqu'à n sont : 2000, 2018, 2 914,2018. Toutes ces entreprises ont
adhéré après 2000. Des données similaires se trouvent donc ici. Maintenant que les données ont été
insérées dans ce nouveau fichier CSP, utilisées
après coup et que nous avons
vu
à quel point il est facile d'obtenir le
résultat ici et de l'écrire dans un fichier CSV que nous avons créé tout à l'
heure, nous pouvons également écrire les résultats
dans un fichier CSV. Et maintenant, je peux lire, utiliser le point de lecture csv pour relire ce fichier
CSV et l'imprimer. Alors laisse-moi exécuter ça. Ici. Nous obtenons le même
résultat ici également. Ainsi, nous pouvons nous écrire via fichier
CSV et
lire un fichier CSV. Et nous pouvons effectuer toutes ces analyses, comme
trouver le salaire maximum, trouver l'employé
qui a le salaire le
plus élevé. Nous pouvons trouver les employés qui rejoignent le groupe après une date donnée. Nous pouvons trouver le
salaire moyen des employés. Nous pouvons trouver la
moyenne du salaire. Nous pouvons trouver bien d'autres choses, selon les besoins de votre
entreprise. Si tu veux. Pour arriver à une conclusion particulière, en
agrandissant les données ,
vous pouvez utiliser les fonctions étranges et
analyser vos données. J'espère donc que vous avez découvert la force de notre
programmation et comment mettre en valeur des données dans
la programmation R lecture
et l'écriture, lecture et l'écriture d'un fichier CSV. Rendez-vous lors de la prochaine conférence.
23. Créer un graphique à la tarte en R: Bonjour et bon retour. Dans cette conférence,
nous allons donc en apprendre davantage
sur le diagramme circulaire. Permettez-moi donc de faire une première année sur
ces consoles
et ces objets et de fermer ce fichier. Et j'ai créé un fichier qui s'appelle
byte char Tatar. J'ai donc écrit le programme, j'ai écrit les
fonctions pour créer un graphique
circulaire à partir de données. Nous supposons donc que nous
disposons de certaines données et que
nous voulons
les représenter sous forme de graphique circulaire. Et nous voulons analyser
les données afin de pouvoir publier très facilement
une annonce qui publier très facilement est également populaire pour
cette fonctionnalité, car nous pouvons visualiser les
données à l'aide de différents graphiques. L'une des guitares est donc le diagramme circulaire et c'est ce que nous allons
apprendre dans cette conférence. Donc, tout d'
abord, tout d'abord, nous devons créer
les données pour le graphique. Je crée donc un
vecteur n et je donne des valeurs comme
307-82-3309, quelque chose comme ça. Tu peux donner ce que tu veux. Ensuite, je crée les étiquettes a, B, C, D pour cette valeur. La valeur sera donc 30, 78, c, 23 et D 39, comme ça. D'accord ? Maintenant, je peux obtenir le nom du
fichier de données pour le chat Quel que soit le graphique que je crée, je peux lui donner un nom comme abc point PNG ou un graphique
circulaire point PNG. Supposons donc que je lui donne un
nom par Jarred point PNG. Tout ce que tu peux donner. D'accord. Je vais donc lui donner un nom. Je peux utiliser la fonction PMT et je peux donner un fichier égal
au nom du fichier. Je souhaite donc créer un fichier image PNG à points sous forme de
diagramme circulaire. Tout ce qui sera créé sera stocké dans un format d'image
PNG. OK, donc ça peut aussi être
fait avec cette ligne. C'est donc optionnel, si vous voulez un fichier PNG
sur un fichier image, vous pouvez le créer avec celui-ci. Sinon, vous pouvez
venir directement ici et utiliser la fonction Pie et
transmettre les données. Cela entrera donc dans les données et vous pourrez ensuite transmettre les étiquettes.
Ce sont les niveaux. Ainsi, lorsqu'un graphique circulaire sera
créé avec ces données, ces données
seront étiquetées avec a, B, C, D. OK,
donc, dev.off
signifie que ce fichier
sera supprimé sur
le, sur le système. D'accord ? Alors laissez-moi exécuter ce code ici. Alors laisse-moi courir. D'accord. Donc, PDG, nous l'avons maintenant, mais nous
ne voyons pas ce graphique ici. Je ne sais pas pourquoi.
Permettez-moi donc de répéter cette partie. Voir ici. Nous avons maintenant un diagramme circulaire
avec les étiquettes a, B, C, D. Donc E est en retard. V est le 78 qui ressemble le plus. C'est vrai, la
zone la plus grande pour b, puis d et C. De
cette façon, avec ces données simples, nous avons créé cette représentation
graphique. Et permettez-moi de m'adresser au titulaire d'une subvention
artistique et au PDG Il doit y avoir un seul fichier créé. Voir ici le diagramme circulaire. Ce fichier PNG a été créé avec cette
représentation graphique. Alors regardez ici, ce fichier
image
a également été créé et voyez
ici les valeurs a, B, C, D.
Ce sont les étiquettes et la valeur des données est 78, c'est quelque chose que nous avons donné. Une valeur est 30, et C10 est 23, 29 comme ça. Bon, vous voyez, nous
pensons avoir créé une représentation graphique de nos données et nous pouvons les présenter
comme ceci. OK, alors laissez-moi
revenir à l'essentiel. Voici donc la commande,
voici la fonction
PNG pour créer un fichier PNG à partir de notre graphe. D'accord, voici
notre graphique et
voici notre fichier PNG pour ce graphique. D'accord ? Donc, si vous souhaitez
envoyer le graphique, vous pouvez créer un fichier PNG
et l'envoyer par e-mail. D'accord ? De cette façon, nous pouvons
créer un graphique circulaire. OK, la prochaine chose est que je veux
maintenant créer
un autre diagramme circulaire. Et pour cela, je crée comme des
impayés et leur salaire. Je crée donc un vecteur
salarial auquel je donne ces salaires de
manière impulsive. Il soutient
que notre salaire et les noms des employés, tous les malades, sauf un rendez-vous et
toutes ces choses. D'accord ? Ce sont donc les deux vecteurs que je crée : le
salaire et les noms. Il est donc évident que
cette élite va s'émerveiller,
mais il y en a eu 800 comme ça. D'accord ? Et il en va de même pour
B et D. J' essaie de créer un fichier PNG, point de
salaire PNG pour le graphique
qui sera dessiné, ainsi que le salaire et les noms que je transmets
et le salaire sous forme de données et de noms
tels que des étiquettes. Donc, le prochain diagramme circulaire que
nous allons créer sera créé
en fonction du salaire et les noms
seront des étiquettes, comme ici, ABCD l'a fait à ces niveaux, y
figureront et seront enregistrés. Mais BUN et tout ça. OK, alors laissez-moi créer
cette offre ici. Laisse-moi exécuter ça. D'accord ? Encore une fois. Voir ici. Nous avons maintenant un diagramme circulaire avec des noms comme évidemment
le park j tan. Et à quoi servent les données
graphiques ? Parce qu'avec cela, nous
pouvons voir que, d'accord, Titin, c'est Aaron, moins
de salaire dans la musique, c'est avoir moins de salaire, mais un N Far Oak a un assez bon salaire. L'argent et Ellen, c'est
Erin, chaque salaire. Avec ces graphiques, nous pouvons facilement analyser
les données sans les
examiner de plus près, nous
pouvons les voir et en venir à la conclusion que musique est la
moins rémunérée. Ensuite, Satan n'en a guère
plus que tous les malades. Et puis l'argent et Ellen, puis les bobines, le tissu et le
tissu,
ce sont les éléments cellulaires de notre Lucas qui fait des photocopies et qui obtiennent le
salaire le plus élevé, 1 000 roupies de succession. Nous pouvons donc faire cette analyse en regardant le
diagramme circulaire et voir ici, il doit y avoir un fichier de salaire qui a été créé ici, voir ici. Vous pouvez donc envoyer ceci par e-mail et vous
pouvez
le mettre comme ça. D'accord. Voici donc l'énorme diagramme circulaire. Et avec cette simple fonction de
tube, nous pouvons créer un
diagramme circulaire en écrivant les données et en fournissant les étiquettes. Ce nom est une
bonne étiquette. D'accord. Nous verrons le reste des choses, comme
la façon dont nous pouvons analyser les détails du fichier CSV,
dans la prochaine conférence. Je vous verrai donc
dans la prochaine.
24. Analyser les données des employés: Bonjour et bon retour. Dans cette conférence,
nous allons donc analyser
le fichier
CSV à points contenant les détails des employés que nous avons vu
dans les conférences précédentes. Et nous allons obtenir les
données à partir de ce fichier CSV. Lisez les données du fichier CSV et nous allons
créer un graphique circulaire. Et nous verrons ce
que nous pouvons faire
avec le diagramme circulaire. Quels sont les éléments graphiques que nous pouvons analyser à
l'aide du diagramme circulaire ? Comment pouvons-nous clarifier les informations
sur les employés. À partir du diagramme circulaire. Pour lire un fichier CSV, nous utilisons le fichier read.csv et nous
transmettons le fichier CSV ici. Et je vais stocker cela
dans les données EMP Dot. C'est ce que nous avons déjà vu. Je l'exécute donc et nous obtenons les données dans l'objet de données
EMP point. Maintenant, il s'agira d'un
débit DataFrame. Tu te souviens, non ? Donc, si j'imprime ces données d'
employés, des données
EMP point, elles
obtiendront également une trame de données. Ils aimeront
la structure ici même. Nous obtenons ces données
à partir de ce fichier CSV. Maintenant, je veux dessiner, je veux obtenir un diagramme circulaire comme celui-ci, car cela
implique, d'accord ? Pour ce faire, je peux utiliser la fonction pipe
et créer un graphique circulaire. Je souhaite donc créer un
graphique circulaire basé sur le salaire. Donc, ce que je vais faire, utiliser les données EMP, salade de
dollars, tous
ces éléments. Obtenez la colonne des salaires
en haut de ce DataFrame. Et cela créera un diagramme circulaire
et étiquetera ce que je vais donner, je donnerai l'étiquette
comme nom d'employé. Donc, les données EMP, le
dollar, le nom du trait de soulignement E&P, le
nom de l'employé. Il créera donc un
diagramme circulaire comme celui-ci, indiquera le salaire de l'employé et les niveaux
impliqueront son nom. Permettez-moi donc de lancer ceci
et de voir que nous obtenons un diagramme circulaire où ces blocs représenteront le salaire et les
niveaux du thème implicite. Donc, avec ce diagramme circulaire, nous pouvons clairement
le voir. Regarde ça. D est donc en train de réduire son salaire de ce
mois-ci. Randolph touchait
ce salaire incontournable, non ? Des salaires donc élevés, taux maximum. Et nous voyons ici des salaires
si élevés, au maximum 95 200 dollars. Et mes cheveux sèchent
au fur et à mesure que mon salaire diminue, non ? Donc, si nous voyons le
salaire, 7 800, d'accord. Ainsi, nous pouvons obtenir un diagramme circulaire basé sur le salaire, le
nom de l'employé et les étiquettes. OK, ensuite, je
veux tracer le graphique, le titre et la palette de couleurs arc-en-ciel, donc je veux le
rendre plus coloré. Alors voici ce que je vais faire, je vais utiliser la fonction pipe. Transmettez le salaire,
puis indiquez le nom. Voici donc les données, puis l'étiquette et la moyenne, une
moyenne égale au salaire de l'employé. Ce sera le
titre de ce graphique. D'accord ? Ce sera donc le
titre de ce graphique. Et puis ce que je vais utiliser, j'utiliserai un appel égal à la
couleur arc-en-ciel, s'appelle arc-en-ciel. Et pour cela, je vais donner la longueur des données par points aux employés, d'accord ? Appuyez ensuite sur les données de l'employé. OK, alors laisse-moi m'occuper de ça. Maintenant. Nous obtenons un graphique très coloré
ou un diagramme circulaire dont le titre est le salaire de l'
employé et les noms sont les
étiquettes et le salaire. Ces blocs
représentent le. Implique un salaire. D'accord ? Ainsi, nous pouvons créer
un diagramme circulaire coloré, qui est bien
plus beau que le précédent, afin que vous puissiez également l'utiliser. Ensuite, je veux
créer les étiquettes. Donc, ce que je vais faire, c'est voir, oui, nous donnons les niveaux
en les utilisant, qui existent déjà dans ce
DataFrame, n'est-ce pas ? Maintenant, je veux créer
mes propres niveaux. Donc, ce que je vais faire ici, créer un pourcentage du salaire,
d'autres étiquettes, d'accord ? Donc, ce que je fais ici, créer un
objet à 5 %, et j'utilise la fonction
ronde. Et ce que je fais ici, cent fois le salaire des employés divisé par une partie du
salaire de tous les employés. D'accord. Donc, en gros,
je trouve le pourcentage
de naissances et de décès salaire de chaque employé sur la
base du salaire total. Le salaire total sera la somme de
tous les salaires. Ensuite, nous
essaierons de savoir combien gagne Susanna. Quel est le pourcentage du
salaire de Susanna ? Le salaire total. D'accord. Nous obtenons donc cette valeur en pourcentage du
tuyau. Ensuite, ce que je vais faire, tracer le salaire du
dentiste sous forme de diagramme circulaire. Donc, pour cela, je vais utiliser
la fonction pipe. Et ici, les données seront le
même salaire que les employés, cette colonne, la colonne des salaires. Ensuite, les étiquettes
représenteront le pourcentage du tube. Donc, l'étiquette au lieu du nom, maintenant je donne cinq
pour cent, d'accord ? Ce sera donc 1 %, 2 % comme ça. D'accord ? Et puis le titre principal, je donne, en analysant ce
salaire par chat, d'accord ? Et puis la Collette, je garde le même
schéma, arc-en-ciel. Et ici, je donne
les objectifs et les données, les données sur les
employés, le salaire, le salaire
et je fournis sous forme de longueur. D'accord. Alors laissez-moi, et puis une autre
chose que je donne, je donne les ligands, ligands ou quelque chose qui
sera imprimé ici pour spécifier
ce que cela signifie, R, quelle couleur sera
OXO, ce qui implique. Il sera donc affiché
dans le coin supérieur droit. Et puis ici, je
donne les données des employés. Dollar, le nom de l'employé
signifie le nom de l'employé. Et puis je donne au cex le moyen que ce sera la valeur de la longueur ou de
la largeur de cette chose. Une fois que je l'aurai
dessiné, vous serez compris. Alors, laissez-moi comprendre qu' un graphe d'étoiles vient en C ici. D'accord ? Alors laisse-moi exécuter ça aussi. Et maintenant, laisse-moi voir. Oui, maintenant nous avons défendu le nom. Nous obtenons des
pourcentages tels que la somme des
salaires totaux de tous les employés. Cette personne, la
personne verte si riche, qui touche 22,1 %
du salaire total. Et puis regardez nos yeux
en pointant 19 points. Donc, cette légion, ça s'appelle des lésions. Ça, c'est l'allégeance. Et si l'on se
fie aux blocs de couleur verte, c'est que le pain
appartient au prion. Avec ce graphique, vous pouvez comprendre
que les salaires de Priyanka représentaient 0,6 %
du salaire total, n'est-ce pas ? De la même manière,
la cellule de Michael
appartient à 25,6. Et le salaire le plus bas
de cette personne qu'est Riba que vous voyez est
inférieur, 0,2 %. Ainsi, nous pouvons créer nos propres étiquettes et mettre
les légendes pour chaque niveau. Et cela est plus précis, comme montant que 1 % reçoit en
pourcentage, en pourcentage de salaire. Ensuite, nous pouvons
dessiner le diagramme circulaire en 3D. Et pour cela, nous devons
télécharger cette matrice de diagrammes de
bibliothèque. D'accord ? Donc, si ce n'est pas le
cas, si ce n'est pas le cas
pour votre RStudio, vous pouvez accéder au fichier. Vous pouvez accéder aux packages et cliquer sur les packages
d'installation. Ici, vous pouvez donner votre nom, nom de la bibliothèque
démarrée, que vous souhaitez télécharger et cliquer
sur l'installation. Il n'y a pas de fête. Vous pouvez cliquer sur Installer
et cette bibliothèque
sera installée sur votre machine, RStudio dans Data Studio
et vous pourrez l'utiliser. Nous avons donc besoin de cette bibliothèque, astuces pour
créer un diagramme circulaire en 3D. Et dans cette bibliothèque, nous
avons la fonction Pie 3D. Et avec cela, nous
pouvons transmettre les données, c'
est-à-dire le salaire de l'employé. Les étiquettes indiqueront
le nom de l'employé. Et puis exploré le point et le principal sont le
salaire des placentas en 3D. OK, laissez-moi exécuter ceci pour voir, et maintenant nous
obtenons un graphique à secteurs en 3D. Juste ici. Nous obtenons un diagramme circulaire en 3D comme celui-ci est le
résumé du Soudan. C'est certainement l'
anticorps Michael qui traverse C, très moins de salaire pour moins de
choses ou une masse comme ça. Il s'agit donc de la représentation 3D des salaires des employés. Nous pouvons donc le voir ici, et cela sera bien
meilleur que le graphique circulaire 2D. Ainsi, nous pouvons
créer un diagramme circulaire et analyser les données dans l'art. D'accord ? Vous pouvez donc également essayer
avec vos propres données. Vous essayez de créer vos propres vecteurs, puis vous
essayez de dessiner le graphique circulaire. Vous pouvez analyser les
données d'un fichier CSV, créer votre propre fichier CSV et effectuer toutes ces opérations. Je veux donc que vous créiez
votre propre projet comme celui-ci, et que vous ajoutiez ces graphiques et ces diagrammes à secteurs dans la section
projet de ce cours. Et nous verrons si nous pouvons fournir nos commentaires et tout le reste. Il sera donc partagé entre nous, tous les étudiants
et avec moi également. Vous essayez donc de créer ou de créer
vos propres données de cette manière, et essayer de visualiser votre
base de données en créant un graphique circulaire ou un graphique
circulaire en 3D , c'est comme
trouver la moyenne , le
salaire moyen, etc. D'accord. Donc, et très bien intégré
aux projets.
25. Lire un fichier Excel dans R: Bonjour et bon retour. Dans cette conférence, nous
allons donc apprendre
comment lire un
fichier Excel grâce à l'art. C'est assez simple et nous
devons installer un package, puis
charger ce package. Ensuite, nous devons lire
le fichier Excel à l'aide d'
un simple code d'une ligne, puis nous pouvons imprimer les données. Voyons donc comment nous pouvons le faire. Donc, ce que j'ai fait, j'ai créé les mêmes informations sur les
employés, un fichier
Excel, les mêmes
informations que j'ai conservées dans ce fichier Excel que celles que nous
avions dans notre fichier CSV. Ce sont donc les mêmes données, mais j'ai créé un
fichier Excel via ce fichier CSV. Et ce que j'ai fait pour cela,
c'est que les applications ouvrent simplement
ce fichier CSV. Ce que je vais faire, c'est que je n'ai pas
le Microsoft Excel ici. Donc, ce que je vais faire, je vais simplement accéder au fichier CSV
à points contenant
les détails des employés, n'est-ce pas ? Je vais juste l'ouvrir
ici dans Google Seat. Et nous verrons qu'il
sera créé en x. Et si je vois oui, nous
avons maintenant la plaque signalétique de la colonne, le numéro d'identification de l'
employé, le nom de l'employé, salaire, la date d'entrée
et le service, et tous les détails
au format Excel. Maintenant, ce que je vais faire,
c'est télécharger ce fichier au format
d'éthique Excel. Cliquez donc sur ce format Microsoft
Excel, téléchargez-le. Maintenant, il a été téléchargé
et je l'ai conservé. J'ai conservé ce fichier dans
notre répertoire de travail. La prochaine étape est que nous avons maintenant détails de
cet employé, point
Excel sous la forme x, y, rien. Cela signifie que ce fichier
Microsoft Excel ici dans notre répertoire de travail, c'est notre 2020. Donc, ce que je dois faire, c'est d'
abord
installer ce package. Et le nom du package est XLSX. Donc, pour installer un package dans R, nous pouvons utiliser cette syntaxe
install.packages, et nous pouvons fournir le nom du package que
nous voulons installer. Lorsque vous exécutez cette commande, elle installe le support éthique d'
Excel. Sinon, nous pouvons également
accéder à cet onglet de package ici. Et nous devons cliquer
sur Installer. Et ici, nous devons
fournir X en tant que X, d'accord ? Et vous pouvez cliquer ici Installer
et il sera installé. Nous pouvons donc faire les deux méthodes et les packers XLSX
seront installés. Ce package est requis
car nous devons
lire ce fichier Excel
par le biais de notre programmation. Et nous avons besoin des
bibliothèques intégrées au package Excel. Il suffit donc de cliquer sur Exécuter
et ce sera fait. OK. Donc, ce que je vais faire, c'est simplement l'
annuler car j'ai déjà installé ce package. Il vous suffit de cliquer dessus et
il sera installé, d'accord ? Et tu peux aller ici et
tu peux le faire aussi. Cela ne vous prendra qu'
une minute et ce package
sera installé. Ensuite,
nous devons déplacer un opéra car il ne figure
toujours pas dans notre fichier script. Après avoir installé la
bibliothèque ou le backend, vous devez supprimer cette ligne. Ça ne va toujours pas pour le combat d'
alcool Other Script. Ensuite, nous voulons
lire ou Excel des fichiers d'éthique. Et il y a une fonction
dans cette bibliothèque. Nous devons donc charger la bibliothèque, nous devons charger le package, nous allons
donc utiliser la bibliothèque, puis nous conserverons le nom de
bibliothèque XLSX. Et puis ce dont j'ai besoin, d'utiliser la
fonction v point XLSX. Cela signifie que nous voulons lire un fichier Excel, un fichier
Microsoft Excel. Et là, premier argument, nous devons donner de l'argent
pour donner le nom du fichier. Donc, l'image finale, les détails
des employés sont placés au point XLSX. D'accord ? Ensuite, nous devons
donner l'indice de siège, indice égal à un. D'accord ? Et ceci, quoi que nous lisions ici à travers
ce point rouge Excel, nous le stockons en vue ou dans un
objet à l'intérieur d'un objet. Données de soulignement des employés, données de soulignement
E&P. Il contiendra donc
toutes les données que nous sommes en train de lire à partir de
ce fichier Excel. Ensuite, nous allons
simplement l'imprimer. Laissez-moi donc exécuter ce fichier et voir si nous obtenons
le résultat, l'identifiant de l'
employé, le nom de l'employé, salaire, ils finissent par
rejoindre un département. Cette méthode est donc assez simple. Nous pouvons lire jusqu'à ce que les anciens
puissent y accéder, nous pouvons le lire, n'est-ce pas ? C'est tellement simple. Chargez la bibliothèque. Installez d'abord le package, puis chargez la bibliothèque. Ensuite, nous devons lire le fichier Excel en
fournissant simplement le nom du fichier Excel. Et nous devons stocker ces données
dans un objet. Ensuite, nous
imprimons simplement cet objet pour voir ce qu'
il stocke. Il s'agit essentiellement de stocker tous les détails de
la feuille Excel. OK, j'espère que vous savez comment on peut lire un fichier Excel. Nous pouvons donc lire un fichier
Excel en utilisant la fonction read point XLSX. Et nous devons fournir
le nom du fichier Excel. Ensuite, nous obtiendrons simplement toutes les données dans
le fichier Excel. Le package est donc XLSX
que nous devons installer. Et nous devons charger
la bibliothèque XLSX avant d'utiliser la fonction XLSX. C'est ainsi que nous
pouvons lire un fichier Excel, un fichier Microsoft Excel
grâce à notre programmation. Vous participez à la prochaine conférence.
26. Lire le fichier xml dans R: Bonjour et bon retour. Dans cette conférence, nous
allons donc apprendre
comment lire un fichier XML
grâce à notre programmation. Nous allons donc écrire un code à travers lequel nous
allons lire le fichier XML. Alors, tout d'abord, laissez-moi vous dire quelle pièce. Fichier XML. Un
fichier XML est donc un fichier XML. Xml signifie XML Extensible
Markup Language et insérant, nous l'appelons XML
Extensive Markup Language. Et cela
ressemble à la réécriture du HTML, langage de balisage
hypertexte, vous savez, pour écrire des pages Web
et, de la même manière, langage de balisage extensible
XML. C'est un fichier de données. Et dans ce fichier, nous conservons
les données comme une base de données, comme nous stockons également des données dans
la feuille Excel. Nous stockons également les données dans un fichier
texte,
et nous les avons également stockées dans
la base de données. De la même manière, nous
stockons les données dans des fichiers XML, c'
est-à-dire un langage de
balisage extensible. Il s'agit d'un document formaté comme
un document HTML, comme dans un document HTML, nous utilisons les balises et tout cela pour stocker le document
de la même manière. Xml également, nous utilisons le balisage pour conserver les données
dans le fichier. Mais ici, nous utilisons des balises personnalisées. En HTML, tout
est prédéfini. Mais en XML, nous pouvons créer
nos propres balises, comme le HTML. Nous devons utiliser l'ancienne taxe
linguistique prédéfinie qui est spécifique au HTML, mais en XML, nous pouvons écrire notre
propre taxe, comme nous le voulons. Nous pouvons créer un tag pour cela. C'est pourquoi vous sélectionnez langue
personnalisée basée sur des balises ou une extension de fichier
ce week-end. Je vais déposer un
langage de balisage que nous pouvons utiliser ici avec des balises personnalisées pour définir les objets et les
données qu'ils contiennent. Nous pouvons donc définir
l'objet personnalisé et placer les données en
fonction de cela,
quelles que soient les données que nous voulons
porter pour les balises, nous pouvons le faire. Les fichiers XML peuvent être considérés comme
une base de données textuelle comme MySQL. Nous utilisons les jeunes pour conserver les données sous forme de tableau et de format
brut et nous décidons du type de colonne
que nous
voulons insérer de la même manière.
Il s'agit d'une base de données textuelle. Maintenant, ce que je vais faire, je ne veux pas créer un fichier
XML à partir de zéro. Et je veux utiliser les
mêmes informations, les mêmes informations que celles que nous
avions dans notre fichier CSV, détails des
employés point CSV, puis nous avons un fichier Excel clair pour les détails
de l'employé. Je veux donc avoir le
même type de données, les mêmes données en XML agile. Pour cela, nous pouvons
créer manuellement un fichier XML. Sinon, nous pouvons également utiliser ce site Web d'outils de conversion
point IO, où nous pouvons simplement parcourir le fichier Excel et le
convertir en fichier XML. Alors laisse-moi te montrer. Ainsi, lorsque vous accédez à ce
site Web, les outils de conversion point edu slash convertissent la
barre oblique Excel en XML. Donc, cette phase, lorsque
vous venez ici et nous, lorsque vous naviguez et que vous
mettez simplement le fichier
Excel de vos employés ici. Maintenant, j'utilise ce
fichier XLSX contenant les détails de l'
employé pour créer un fichier XML
basé sur les données de ce fichier. Il vous suffit donc de
sélectionner le fichier. Ensuite, nous devons cliquer
sur Exécuter la convergence ce fichier Excel soit
converti en fichier XML. Et cela prendra quelques secondes et votre fichier XML sera
automatiquement prêt. Donc, ce que j'ai fait, j'ai déjà téléchargé
ce fichier XML ici, le fichier XML point sur les détails des
employés. Et nous allons essayer de
lire ce fichier XML. Il contient les mêmes informations
que les coordonnées des employés, n'est-ce pas ? Donc, d'accord, ce que j'ai fait, je l'ai modifié et je ne l'ai
conservé ici qu'à des fins de dossier. Et si vous voyez le fichier que je viens de créer dans les
téléchargements et ce fichier XML, vous verrez des données. Huit employés l'identifient.
Est-ce que ça va ? Donc, comme ça, on peut le faire. Permettez-moi donc de copier-coller
ces deux heures. Oui. OK. To Lake Rehab a donc installé le package XL XX
pour lire le fichier Excel. De la même manière, pour
lire le fichier XML, nous devons installer
le package XML. Et pour cela, nous devons utiliser install.packages et nous devons fournir le nom du package XML. Nous pouvons également accéder
au package d'installation, et ici nous pouvons fournir
le nom du package XML. Et nous devons cliquer sur Installer
et il sera installé. Je ne vais donc pas le
réinstaller
car je l'ai déjà
installé. Et si vous ne l'avez pas installé, vous pouvez simplement exécuter cette
ligne ou vous pouvez venir ici et fournir le XML ici, et vous pouvez cliquer sur Installer, et l'installation du package prendra quelques secondes,
ou
à peine une minute pour
installer le package. Une fois le package installé, nous devons supprimer cette ligne car le package est
déjà installé. Ensuite, nous devons charger
le package ou la bibliothèque XML. Nous devons donc utiliser la commande ou utiliser la bibliothèque de
scripts. Et nous devons fournir
le nom du package. Nous devons donc charger le
package, d'accord, donc la bibliothèque. Et nous devons fournir
le nom du package XML. Ainsi, toutes
les fonctions nécessaires à la lecture du fichier XML seront écrites
dans cette bibliothèque XML. Et que toutes les fonctions
intégrées seront notre niveau pour nous. Ensuite, nous devons également ajouter
les méthodes de la bibliothèque. Ceci est requis pour
ce package XML. OK, et ensuite,
ce que nous devons faire,
c' utiliser la
fonction XML parse. Les fichiers XML sont une fonction
requise pour lire et lire un fichier XML. Nous allons donc utiliser l'
analyse XML et nous
devons fournir le
nom du fichier XML. Donc, le fichier est égal au nom du fichier. Donc, notre image finale, les détails
des employés point xml. Et nous devons, tout ce qu'il va récupérer
à partir de ce fichier XML,
le stocker
dans cet objet contenant les
détails de l'employé. Parce que dans R, nous devons
stocker tout ce qui se trouve à l'intérieur d'un objet, comme
des variables, vous pouvez dire. Donc, les détails, la variable ou l'objet conserveront
ce que nous sommes. Nous obtenons à partir de ce fichier, fichier
XML via cette fonction d'analyse XML. Maintenant, tous les détails de ce fichier XML à
points de détails implicites seront stockés dans cet objet. Nous devons maintenant
imprimer cet objet. Alors laisse-moi courir jusqu'ici. OK, laisse-moi voir. Il imprime le
fichier XML comme un accordéon. Bly implique l'ID1 et la date de
salaire de Glassdoor pour
rejoindre le département. OK, voici donc balises définies par
l'utilisateur que nous avons créées
pour notre fichier XML. OK, à bientôt, tous
les détails que nous obtiendrons afin que nous puissions lire
le fichier XML comme ceci. Xml analyse la fonction pour lire le fichier XML en C. Ou nous pouvons utiliser la
fonction XML food node, le nœud racine du fichier XML. Nous insistons donc sur le nœud
racine et nous transmettons les coordonnées de l'
employé, E&P souligne les détails de
l'objet au nœud racine, puis nous
imprimerons ce nœud racine. Permettez-moi donc de lire ces deux lignes. Si je mets le nœud racine un, cela me donnera les
détails du premier nœud (le réseau implique ID1). Si je mets l'un des deux, cela me donnera le nom. La première ligne
vous permet d' utiliser le nom Priyanka
Rostow depuis le premier nœud. Si j'en mets deux
au maximum,
je vais obtenir le nom car le second implique
qu'il s'agit de
l' identifiant de l'employé. Le nom de l'employé est. Ainsi,
nous pouvons accéder à chaque nœud. Je peux en mettre trois d'un. Supposons que trois touchent le salaire du joueur
goudronné, n'est-ce pas ? De la même manière, nous pouvons
déterminer le nombre de nœuds, nombre de Norths présents
dans notre fichier XML pour cela, nous pouvons utiliser la taille XML
et fournir l'objet de nœud racine que
nous avons obtenu à partir de la racine XML. Donc, quand on l'exécutera, on aura terminé le numéro du nord. Alors laisse-moi imprimer ceci. Quatrièmement, parce que
ce fichier Excel je l'ai conservé uniquement
pour l'employeur, c'est le cas. Cela nous montre donc qu'il
y a quatre pays du Nord. Nous avons quatre nœuds lorsque cela est sous-entendu, un en clair pour lequel utiliser
D3 et un identifiant d'employé. Cela nous donne donc le contenu
du fichier XML au nord. Maintenant, l'essentiel est
qu'une fois
que nous avons obtenu ces données, des données
XML, nous pouvons les lire dans
R. Nous devons les convertir en DataFrame car il est très facile lire ou de manipuler des données ,
car il est très facile de
lire ou de manipuler des données
lorsqu'elles sont au format
DataFrame, n'est-ce pas ? Il existe donc dans Are une fonction
appelée XML to DataFrame. Cela signifie que tout ce que nous avons dans ce fichier
XML contenant les détails de l'employé peut être directement converti en
DataFrame fonctionnel
en utilisant la
fonction XML to DataFrame et tous les détails. Nous le stockerons dans le
DataFrame, souligné par les
employés , puis
nous pourrons l'imprimer et nous verrons à ce qu'il
apparaisse comme un DataFrame. Permettez-moi donc de l'exécuter et de voir
maintenant que tous les détails sont sous forme de tableau ou dans un format DataFrame, dans notre identifiant d'employé senior, le nom de l'
employé, les données salariales et
la planification et le service. Ainsi, avec cette
seule ligne de code, nous pouvons convertir un fichier XML DataFrame
dans la programmation R. Et c'est très
pratique lorsque nous effectuons nos analyses exploratoires de données apprentissage automatique
et notre science des données. Nous pouvons donc facilement convertir un fichier
XML en DataFrame,
puis poursuivre l'analyse des données ou
la manière dont nous voulons créer des graphiques
et tous les tracés et tout le reste. donc effectuer tous ces types d'analyses Nous pouvons donc effectuer tous ces types d'analyses sur ce DataFrame. Il est donc assez facile de faire toutes ces choses dans
notre programmation. J'espère que vous avez compris
comment lire un fichier XML. Comment savons-nous cela, comment combien de nœuds existe-t-il
avec cette taille XML ? Et puis comment pouvons-nous
convertir un fichier XML notre DataFrame dans R en utilisant
XML en DataFrame, n'est-ce pas ? Voilà pour cette conférence. Rendez-vous dans la prochaine.
27. Lire le fichier JSON dans R: Bonjour et bon retour. Dans cette conférence,
nous allons donc apprendre à
lire un fichier JSON dans
notre programmation. Donc, ce que nous allons faire, nous allons apprendre ce qu'est un fichier JSON, puis nous allons créer un fichier JSON. Enfin, nous essaierons de
lire ce fichier JSON
par le biais de notre programmation. Alors allons-y. Donc, la première chose à faire est de
savoir ce qu'est un sulfite. Jason est donc l'abréviation de
JavaScript Object Notation, et il s'agit d'un format de fichier
standard open source. Il s'agit donc d'un format de fichier
standard ouvert et d'un format d'échange de
données. Donc, en gros,
le format de fichier de Pâques et le
format d'échange de données également. Cela signifie que nous pouvons stocker les données et les utiliser pour
échanger des données. De plus, que vous n'avez qu'un texte
lisible par l'homme. Dans ce cas, nous écrivons du texte
lisible par l'homme pour stocker et
transmettre un objet de données composé de paires de valeurs d'
attributs. Cela signifie que ce sera comme si nous allions abord des paires clé-valeur,
toutes ces choses sur le site. Si vous connaissez la base de données MongoDB ou
toute autre base de données sans suite, vous devez savoir qu'il existe une base de données de documents dans
laquelle
nous stockons les données
sous forme de paires clé-valeur. Il y aura donc une clé, et pour cette clé, il y aura une valeur
correspondante la même manière, juste sur les paires de valeurs d'
attribut. Cela signifie qu'il y aura un
attribut et cet attribut, un attribut, paires de
valeurs et des types de données
ajoutés. En gros, toutes
les autres valeurs également, et en gros, j'ai édité ce type. Donc, j'espère que vous savez
ce qu'est Jason en théorie, dites-moi comment
créer un fichier JSON. Alors à bientôt. Le fichier est très simple. Nous devons mettre des données dans
ces accolades. Et à l'intérieur des accolades, ce que nous allons faire, c'est utiliser cette paire de
valeurs clés pour stocker des données. Alors imaginez ce que je vais faire, je ne stockerai que les mêmes données sur ces
employés. Nous avons vu comment nous stockons
cela dans un fichier CSV comme ici. Et puis nous avons vu
comment le
stocker dans un fichier Excel. Ensuite, nous avons vu comment
stocker cela dans un fichier XML. Nous allons maintenant voir
comment stocker mêmes informations
sur les employés
dans un fichier JSON. Donc, pour cela, comme je l'ai dit, vous avez trouvé la meilleure astuce en matière de format de
fichier. Voici le numéro d'identification de l'employé. Tous les identifiants des employés, je les rangerai dans un
tableau de un à huit. Donc, tous les
identifiants d'employés, d'un à un, comme si nous avions huit identifiants d'employés. C'est ce que nous avons fait, nous les avons tous
restaurés. Et nous avons donné au
nom de l'attribut l'identifiant de l'employé, et les valeurs sont comprises entre
un et huit, n'est-ce pas ? Et ce côlon est le côté
gauche du côlon. Ces colons séparant la clé et la valeur sont
l'attribut et la valeur. Ainsi, le côté gauche des colonies, l' identifiant de l'
employé et le
côté droit correspondent à la valeur correspondante. De la même manière que nous avons le nom de soulignement des
employés, c'
est-à-dire un attribut, et
les noms de tous les employés, cette Priyanka
correspondra à cela, impliquera n'importe qui ou pour s'asseoir aux deux
derniers que j'aime React Il y a encore des parties
une à quatre à ma hâte de voir ce que vous
voyez comme ça. OK, alors nous stockons
le tableau des salaires, puis nous y stockons
les données relatives
à la formation , puis au département. De cette façon, au sein du service, nous pouvons placer des données dans le fichier JSON et j'ai enregistré ce point de
détails sur les employés Azure au format JSON. Nous savons maintenant comment stocker les
données dans un fichier JSON. Ensuite, nous
allons essayer de lire ceci, d'accéder aux données des fichiers
grâce à notre programmation. Alors allons-y. Je vais donc ouvrir, j'ai
déjà écrit le code. Je vais donc ouvrir le
fichier JSON de lecture que j'ai écrit. Et pour cela, nous devons
installer le package. Nos invités à ce sujet, sur ce backend,
Minister a été installé. Vous pouvez également l'installer en
exécutant cette ligne de code. Et vous pouvez accéder
au package d'installation. Et tu peux le mettre
ici ou celui-ci. Et vous pouvez cliquer
sur Installer et il
sera installé. Vous pouvez donc également utiliser ce script de
commande. Ensuite, nous devons utiliser la
bibliothèque ou l'axone. Ensuite, nous devons fournir
le nom du fichier JSON. Et le nom du fichier JSON correspond aux
coordonnées de l'employé vers le Soleil. Et ici, nous allons utiliser une fonction de cette
bibliothèque : Jason, qui provient de Jason. Cela signifie que nous allons
lire les objets à partir de nos coordonnées, à partir des détails de l'employé
point js sur ce fichier JSON, fichier égal au
nom final que vous devez fournir. Et cette fonction à partir de JSON
lira les données de
ce fichier JSON et tout ce qu'il lit
réellement stocké dans cet objet E&P
soulignera les détails. Ensuite, nous allons simplement l'imprimer. Alors laissez-moi vous montrer ici. Permettez-moi de l'exécuter et de voir qu'il lit les
données telles que l'identifiant de l'employé, nom d'
un à huit employés. Il s'agit de l'employé
nommé puis du salaire, puis vient la date d'entrée, puis
les départements. Découvrez donc ici comment nous vivons avec une ligne de code à partir d'une
seule fonction simple. Et nous
fournissons simplement le nom du fichier et il lit toutes les données
du fichier JSON. La prochaine étape,
c'est ce week-end. Imprimez les données. Nous pouvons donc voir ici qu'il
imprime les données
du fichier JSON. Maintenant, comme nous le savons dans notre, c'est assez simple et il
est recommandé d'obtenir les données au
format DataFrame. Nous pouvons donc simplement maintenant les données du fichier JSON se trouvent dans cet objet dans les détails du trait de
soulignement E&P, nous pouvons les
convertir en DataFrame en
utilisant un cadre à points de données sombres agile. Ainsi, lorsque nous utilisons cette fonction as.data.frame et que nous
transmettons cet objet en obtenant
simplement d'anciens
documents de fichier ou des données. Cet objet obtient tous les détails de
ce fichier JSON. Et lorsque nous transmettons cet objet de vente au détail destiné
aux employés au fichier as.data.frame, il convertit ces données. Maintenant, le format est le suivant. Il prendra ces données
et les convertira en un DataFrame dans R. Et nous sommes en train de restaurer les
détails de notre DataFrame dans le cadre de soulignement des données
E&P. Et lorsque nous imprimerons,
les données seront obtenues au format DataFrame. Alors laisse-moi exécuter ça. Vous voyez maintenant que nous
obtenons des données dans notre format DataFrame
dans R. Il est donc assez simple de
pouvoir lire ce fichier
JSON avec la fonction
from JSON. Ensuite, nous
transmettons simplement cet objet, qui obtient tous
les détails provenant employés ou
du
soleil, et nous les convertissons dans le DataFrame en utilisant cette fonction simple
as.data.frame et en transmettant cet objet. Qu'est-ce que cet objet JSON, ou un objet Python qui transporte les données
du fichier JSON, un DataFrame en R. Et
nous pouvons simplement imprimer à cette main CEO, quel point elle est belle en train de se
transformer en DataFrame. Ainsi,
nous pouvons lire notre
fichier JSON et convertir données de
ce fichier JSON en un
DataFrame en programmation R. Et pour cela, nous pouvons
utiliser ce DataFrame pour analyser les données et
effectuer un traitement ultérieur, créer
des graphiques et
faire
tout ce que vous voulez avec
ce DataFrame. Voici donc comment nous pouvons lire le fichier JSON en utilisant
notre programmation. Rendez-vous lors de la prochaine conférence.
28. Créer un diagramme de barre: Bonjour et bon retour. Dans cette conférence, nous
allons donc découvrir un autre tableau ou
graphique de visualisation que nous pouvons
créer à l'aide de R. Il s'agit
d'un diagramme à barres
ou d'un graphique à barres, comme vous pouvez le voir, un graphique à barres. diagramme à barres, un graphique à barres ou un graphique à barres est
l'un des types de visualisation
graphique les plus courants que vous devez avoir vus dans votre bureau ou dans
vos projets et tout le reste. Chaque fois que nous essayons de
visualiser une prévision, nous utilisons un graphique à barres. Et lorsque vous voyez ce graphique, il s'agit d'un graphique à barres. Et vous vous rendrez compte
que vous avez dû utiliser de
nombreuses fois, n'est-ce pas ? Nous pourrions également obtenir le même type de graphique à
barres dans notre
Microsoft Excel. Et lorsque nous essayons de
visualiser quelque chose, même lorsque nous dessinons quelque chose
sur un stylo et du papier. Pour visualiser quelque chose, nous dessinons
très probablement un diagramme à barres. Le diagramme à barres est donc
l'un des types de visualisation
graphique les plus courants. Et cela concerne la
relation entre une variable numérique et une variable
catégorielle. Alors, qu'est-ce que cela signifie ? Cela signifie que le PDG, les axes a, B, C, D, cet axe X ressembleront à
quelque chose de
très catégorique. Maintenant, à quoi ressemblent les
semaines ou les jours d'une semaine ? Comme le dimanche, le lundi, le
mardi, nos mois de janvier ,
février, mars, avril,
mai, juin, comme ça. Et cet axe Y sera la représentation
numérique de ces mois, comme le chiffre d'affaires d'une organisation
ou le salaire des employés. Donc, sur cet axe X, ABC
seront les employés, et ce sera
leur salaire respectif. Donc, cet excédent lira la partie numérique
et ce sera la partie catégorique, n'est-ce pas ? Ainsi, chaque entité de la variable de catégorie est
représentée sous la forme d'une barre. Voici donc le bar. C'est pourquoi
on l'appelle graphique à barres, car la valeur numérique
est affichée sous forme de barre. C'est donc très bien. C'est ce que
l'on appelle le graphique à barres et la
taille de
la batterie indique la valeur numérique. Cette taille est donc représentée comme si c'était
quelque part autour du retournement. C'est environ 13, environ sept, et c'est quelque part seul, neuf, et c'est une décision. La valeur E est donc 15, la valeur
b est sept, la valeur
c est neuf, la valeur est huit. Et cette valeur e est 13. Donc comme ça. Cette taille corporelle représentera cette valeur
numérique. S'il s'agit d'ABC ou d'un employé, ce sont leurs
salaires respectifs, n'est-ce pas ? Ainsi, de cette façon, nous pouvons utiliser
le diagramme à barres et dans R, nous
pouvons dessiner un diagramme à barres en
utilisant simplement la fonction de diagramme à barres. Donc, fonction de diagramme à barres. Et dans la fonction,
nous n'en fournirons que quelques-unes, mais aussi des amateurs et nos données. Et il créera le diagramme à barres,
cette fonction de diagramme à barres permettant
de créer des graphiques à barres. Il peut s'agir de barres verticales
et horizontales. Et la syntaxe est barplot et elle
prendra l'argument th. Ces arêtes seront le
vecteur, le vecteur de données. Le vecteur qui
contiendra toutes les données. Et ce xlab est l'axe X, Y est l'axe y, comme celui-ci, a, a, a, B, C, D seront l'axe X, xlab et y seront l'
axe y, ce principal. Et puis le nom
Ox sera le, vous verrez ce que c'est ? C'est-à-dire que ce sera le
même nom que celui-ci. 123, du genre, laissez-moi vous dire ceci. Ce chiffre de zéro à 14, comme le
salaire de l'employé, sera utilisé comme données. Et ces noms qui le seront
seront le nom des sous-entendus. D'accord ? Donc, cette arête
et son nom font en sorte que les deux vecteurs
aient le même nombre
de données, n'est-ce pas ? Le même nombre d'opérateurs de numéros de données
serait identique dans l'arête nommée start. D'accord, d'accord. Nous verrons que HE, le vecteur ou la matrice contenant la valeur numérique
du graphique à barres. Comme je l'ai dit, xlab est
le niveau de l'axe X. Pourquoi l'amour est au niveau de l'axe Y ? Et surtout le titre du bus. Vous trouverez donc ici le
titre du graphique à barres, comme
le salaire de l'
employé. Et puis nommé start fait valoir un vecteur vers le haut des noms apparaissant
un autre à chaque partie, comme je l'ai dit, pour
cette barre, cette barre b comme ça. D'accord ? Et l'appel
est utilisé pour conserver les couleurs des barres comme ici, on nous donne
des couleurs différentes. Donc, si vous voulez créer
un graphique coloré, nous utilisons l'appel. Dispute, OK,
Henry, c'est fini. D'accord. Voici donc un exemple
simple. Ce que je fais
ici. Je suis en train de créer un nouveau vecteur
qui contiendra ces
nombreux nombres. D'accord ? Ce vecteur contiendra donc ces nombreux
nombres, d'accord ? Et je veux créer
un graphique pour cela. Donc, ce que je vais faire, est simplement
créer ce vecteur Q et transmettre cette fonction de diagramme à
deux barres du vecteur Q. Et cela créera
le graphique à barres pour nous. Et celui-ci, un
fichier PNG égal à un b, pas un PNG égal
au nom du fichier. Vous pouvez créer un fichier image
en haut du graphique ou du graphique à barres et l'
enregistrer sur votre système. Et pour cela, nous utilisons
la fonction PNG. Et à l'intérieur, nous
utiliserons le fichier Col2
et le nom du fichier vous souhaitez donner et que
vous pouvez donner ici. Ainsi, sur la base de ces données
, une charte sera créée et les données du graphique seront enregistrées dans
ce fichier image. Ensuite, nous utiliserons la fonction de diagramme à
barres pour dessiner le graphique à barres pour nous. Ensuite, dev.off
signifie que nous allons enregistrer le fichier et qu'il sera
écrit sur notre machine locale. Allons donc dans RStudio
et exécutons ce code. Je suis donc en train de créer un
vecteur pour la saisie de données. Ainsi, sur la base de ces données, le graphique à barres sera créé. Maintenant, je suis en train de créer un fichier pour
écrire le graphique à barres dessus. Je donne un fichier PNG égal à et ici vous
pouvez donner n'importe quel nom. Tu peux donner abc, abcd,
pas PNG, quel que soit le nom que
tu veux, tu peux, d'accord ? Je vais donc donner un graphique à barres a, b, c, d, d'accord ? Ensuite, nous utiliserons le
diagramme à barres pour créer un graphique à barres, puis nous l'enregistrerons, à droite, dev.off, enregistrez le fichier. Maintenant, je vais tout analyser et voir si, pour une raison étrange, le terrain n'
est pas vendu ici. Mais comme vous le voyez ici, maintenant, notre graphique à barres
a été créé. Le fichier a été créé ici. bientôt. Alors d'accord, 12345678 entrées, non ? Et nous avons ici 12345678. Le plus long est de
9 001,99 mille. Ainsi, nous pouvons
vous donner un graphique à deux barres. Il s'agit donc d'un simple graphique à
barres que nous avons créé à partir de
ces données, n'est-ce pas ? Ensuite, ce que nous pouvons faire,
c' aller un peu
plus loin et essayer de créer un peu
plus intéressant. Je vais avoir, donc,
ce que j'ai fait ici, j'ai créé une donnée comme B, un vecteur ou une donnée contenant
les bébés nés
chaque mois, comme
B contiendra le vecteur V
qui les bébés nés
chaque mois, comme contiendra les bébés nés au cours du mois, comme 5 600
janvier, février à mars, 7 800 bébés nés ainsi jusqu'à l'été. D'accord. Il s'agit donc des données sur 12 mois pour les bébés nés au cours
d'un mois donné. Et puis, voici
la valeur numérique. Et, ce que je fais, je crée un autre vecteur M, qui contiendra le nom du
mois, à droite,
pour chaque valeur, pour chaque valeur, le vecteur de nom de
mois correspondant que
je suis en train de créer, c'est-à-dire janvier, février, décembre,
il contiendra, accord, donc c'est clair. Je crée la
valeur numérique ici et le nom de chaque barre que je crée
ici pour la factorielle 600 de janvier, comme ça. D'accord ? Ensuite, je crée un fichier, Babies Born Dot PNG. Et je transmets cet
objectif final à la fonction PNG par points. OK, collecte du
diagramme, nom du fichier image. Et puis, ce que je fais, simplement tracer le
graphique à barres en fonction de ces données. D'accord ? Donc, ce que je fais, que je suis obligé d'utiliser la valeur V. Donc, je saisis les données en
me basant sur ces données, je veux créer un graphique à
barres, d'accord ? Et puis names.org signifie pour nommer chaque barre que je
passe ce vecteur m. Le vecteur M se diffuse en
janvier et février. L'axe X sera donc
janvier, février et l'axe y sera le nombre de bébés nés
au cours d'un mois donné. Alors xlab, je leur
donne un mois. Et dans mon laboratoire, je donnerai des bonbons à des
bébés ce mois-là. Ensuite, je donne de la couleur verte. Et principal signifie
atteindre le graphique. Je vais donner un tableau des liens aux bébés. Et puis pour chaque barre. Je donne une note faible, d'accord, puis je sauvegarde le fichier. Alors laisse-moi exécuter ça. OK, donc je l'ai
fait correctement. Voyons voir le senior, maintenant nous avons un autre dossier. Le bébé est né point PNG. Maintenant. Nous l'avons en janvier, février, mars, avril,
mai, juin, juillet. C'était comme ça. Et puis voici le lac de données de
Maybes Bond en janvier, environ 5 000
bébés nés en février quelque part pour diluer,
quelque chose comme ça. D'accord. Donc, la plupart des bébés sont nés
en novembre puis en juillet. C'est ainsi qu'en regardant
ce graphique à barres, nous pouvons connaître cette norme. Quel est le mois où plus grand nombre de bébés
naissent et les mois suivants ? juillet. Donc, juillet et numéro, le premier chiffre,
puis le second, c'est juillet. Voir ici pour le 7 304 juillet. Maintenant, mon pote 9 800. J'ai commencé le 9 juillet
et le numéro 9 800. De cette façon, nous pouvons m'
apporter le soutien nécessaire. Je veux changer
cette couleur en rouge. Et si je lance ceci, vois maintenant que notre graphique est
converti en lecture, n'est-ce pas ? Vous pouvez voir qu'il y a une petite
bordure de couleur jaune. Permettez-moi de le changer en
vert afin que nous puissions voir qu'
il peut être trop tôt ou le nettoyer et le faire fonctionner à nouveau. Ce fichier, tu vois, maintenant
il est en train d'être nettoyé. Le Barnard est vert. De cette façon, nous pouvons créer un diagramme à barres ou un
graphique à barres en utilisant impair. J'espère donc que c'est clair pour le chiffre et pour
le nom, name.org. Je passe ce vecteur m,
ce vecteur m et B et je donne un
autre vecteur d'entrée principal. Et puis xlab, un mois. Et pourquoi les bébés de laboratoire nés et de
couleur rouge peuvent ne pas être rechargés. On tape sur le thème de la naissance du bébé
et le biberon est vert. Ensuite, dev.off enregistrera le
fichier sur notre machine locale. J'espère donc qu'il est clair
comment créer un graphique à
barres simple et
comment créer ce
type de graphique à barres. Nous avons donc vu cela comme si
nous l'avions créé. Ensuite, nous avons
celui de James à lire, écrire, et nous avons également créé
ce graphique à barres simple. De cette façon, nous pouvons créer
un graphique à barres, n'est-ce pas ? Rendez-vous lors de la prochaine conférence.
29. Graphique à barres empilée en R: Bonjour et bon retour. Donc, dans cette conférence, nous
allons dessiner, visualiser
un diagramme à barres très intéressant qui nous donnera une
très bonne richesse réelle. Que se passe-t-il dans une
organisation comme une
trimestrielle facturée par région ? Comment pouvons-nous tracer à l'aide d'un diagramme à barres. C'est ce que nous allons voir. Donc, pour ce faire,
ce que j'ai fait, le
trimestriel, l'enfant, ce que chaque mois en fait, ce que j'ai fait, j'ai
créé une matrice, d'accord ? J'ai donc tous ces revenus que je n'ai pas conservés
dans la matrice. J'ai donc créé une matrice avec les recettes pour quatre mois. Premier trimestre, trimestre,
deuxième, troisième trimestre, quatrième trimestre, trimestre, deuxième, trimestre, troisième, quatrième trimestre. Donc, ces créneaux se situent tous les trimestres et les quatre
trimestres, n'est-ce pas ? Donc, pour chaque trimestre, ce sont les revenus. D'accord ? J'ai donc créé une matrice,
et ce que je vais faire, c'est transmettre cette matrice comme donnée d'
entrée à notre diagramme à barres. Je passe donc le M ici, puis le chiffre d'affaires total
principal. Et puis nommé début par
trimestre, je passe le quart. Trimestre. Le trimestre est un vecteur
contenant les valeurs Q1, Q2, Q3, Q4. D'accord ? Donc, ces barres L aussi, names.org, puis
xlab seront le quart, le nom et les jambes blanches. La faune sera la source de revenus. Puis coloré. Je vais réussir. Un autre vecteur. Les couleurs pour lesquelles je veux dessiner. Le fond
sera comme coloré. Une fois dessiné, je vais vous
expliquer quatre couleurs. J'ai créé un vecteur et
sa valeur est continue, bleu, rose, jaune et vert. Et puis le quart.
Et puis ce que j'ai fait, j'ai créé les régions, des
régions comme l'est, l'
ouest, le sud, le nord. D'accord ? Donc, j'ai aussi OK, et la matrice, quel type a créé quatre lignes
et quatre colonnes. Et j'arrange Developed by Rock et je découvre ce que
je vais faire pour Legion. J'ajoute
également la légende en haut à gauche. Et ce que je suis assez indulgent, je donne à leur région
des couleurs pleines de couleurs. région voit cette région au sud, l'est, à l'ouest, au sud et au nord. OK. Et je suis sensible
aux couleurs, à chaque
couleur également. Oui. OK. Alors laissez-moi d'abord exécuter ceci. Alors voyez ici, c'
est la matrice et voyez quel chiffre d'affaires trimestriel. donc ce type de graphique à barres ou de diagramme Nous avons donc ce type de
graphique à barres ou de diagramme à barres
pour le premier trimestre. C'est le quart TO, c'est le résultat ou le moteur du nouveau quadrat trois ici
et du quatrième quart, ce truc ici, ce
bleu, ce rose, ce jaune et ce vert pour ces couleurs, j'ai créé un
théorème de légende en disant que le bleu est pour la région sud, jaunâtre pour chaque région. Et le vert correspond à
la région ouest et non à la région rose. Et le sud est bleu, est-ce que ce jaune est comme ça ? D'accord, donc en regardant ce
graphique ou le diagramme à barres, nous pouvons facilement trouver
les résultats trimestriels numériques pour chaque région. Sud. Il s'agit du chiffre
d'affaires du premier trimestre car, de la même
manière, pour le Nord, il
s'agit du chiffre
d'affaires de l'est. Il s'agit du chiffre
d'affaires pour les
deuxième, troisième,
quatrième et quatrième trimestres comme ça. Il est donc assez facile de trouver
et de visualiser des choses à l'aide d'un diagramme à barres, n'est-ce pas ? Et comment nous avons d' abord créé
notre vecteur couleur,
puis notre vecteur quart,
puis les vecteurs de régions,
puis les réactifs que j'ai
utilisés dans la légende. Et les indicateurs ont été améliorés
quatre par quatre. OK. Et ici, je suis en train de créer un fichier PNG
trimestriel à points sur les revenus. Et là, je passe
le quart, ce trimestre en tant que
nom, puis en tant que nouveau, et je remplis les couleurs
en contournant le vecteur de couleurs. Ainsi, de cette façon, nous pouvons
l'obtenir sur la plaque quelles couches et en utilisant notre diagramme à barres. D'accord ? Vous pouvez donc également jouer
avec vos données et essayer de créer un graphique à barres magnifique,
beau et coloré. Stevens a cité la conférence suivante.
30. Boxplot en R: Bonjour et bon retour. Dans cette conférence,
nous allons donc en apprendre davantage
sur le box plot. Le diagramme à cases est une méthode qui permet de représenter
graphiquement des
groupes de données numériques
à travers leurs vignettes silencieuses. Je vais vous dire quels
sont ces quartiles ? Il s'agit donc essentiellement d'un
fils graphique de données numériques. Regroupez
les données numériques comme nous le faisons dans un diagramme à barres et
de la même manière. Boxplot est également présent. Mais ici, nous représentons
un groupe de données dans une boîte. Ce sera donc tropical, mais ce sera une boîte pendant que
vous aimez le graphique à barres. Nous avons des barres de
données et regroupons une version bêta. Ici. Nous aurons le laboratoire, la boîte contenant les
données de Grubhub et
les boxplots permettent de mesurer la
distribution des
données et de l'ensemble de données. Donc, ce sera
comme un quatre majeurs. La question de savoir comment les données
seront-elles distribuées dans cet
ensemble de données, n'est-ce pas ? Nous verrons donc quand nous
dessinerons le boxplot. Permettez-moi de vous dire encore une chose. boxplots mesurent la
distribution des données de l'ensemble de données Ils les divisent
en trois quartiles. Quels sont donc ces quartiles ? Comme vous pouvez le voir sur cette image, il y a trois quartiles. premier est le quartile un
et le quartile deux, et c'est le quartile trois. Et il s'agit de l'
intervalle interquartile. Ce graphique
représente le minimum, médiane
maximale, le premier
quartile et le troisième quartile. Donc, cette partie C, c'est la boîte de données SAP, d'accord ? Et ces vents sont des
valeurs aberrantes à ce stade, et à ce stade,
ils sont de classe, c'est la valeur minimale. Et c'est le maximum
d'éblouissement, non ? Et entre cette case et la ligne bleue,
voici la médiane. Il s'agit de la médiane de
l'ensemble de données. Il s'agit donc de la valeur
médiane de
l'ensemble de données. Et il s'agit de la valeur minimale
et de la valeur maximale de l'ancienne
classe . Et cette ligne bleue
est la médiane. Et il s'agit de la donnée
maximale proche de la médiane. Donc, voici d'autres données
utiles en fait. C'est donc un minimum,
c'est un maximum. Et voici cette
plage d'une année à l'autre, cette donnée interquartile, et
celle-ci est connue sous le nom de Q1. Quartile Q1, premier quartile, appelé troisième quartile. Le premier quartile,
le troisième quartile
et le premier quartile,
le bénéficiaire, le percentile et le troisième quartile,
ou 75e quartile. Et dans R, nous utilisons la fonction
boxplot pour dessiner ou pour dessiner notre box plot. Et de cette façon, fournissez des
augmentations similaires, comme des données X, non des noms et du Maine. Alors je vais vous dire ce que
sont ces choses ? X est donc un vecteur ou une formule. Donc, ici x est un
vecteur de formules. Nous allons donc voir que c'est
essentiellement nous conservons Bu, choses à publier qui
sont des formules relationnelles sur lesquelles le diagramme
va être dessiné. Ensuite, les données,
évidemment les données à partir desquelles nous allons tirer
cette relation, edX, écrivent la formule x. Voici
donc la formule ou relation sur
laquelle nous allons dessiner les données et
tracer le graphique. Et voici les données, données
réelles à partir desquelles nous obtiendrons cette
formule ou un vecteur. Et l'encoche est une valeur logique. Défini comme vrai pour ne rien dessiner,
vous verrez ce qui ne l'est pas dans un instant. Tout d'abord, laissez-moi vous
expliquer ce que cela signifie. Augmente. Qu'est-ce que c'est. Les valeurs logiques définissent S2 pour que la largeur de la boîte soit proportionnelle
à la taille de l'échantillon. Donc, si elle est définie
dans cette case, la taille de l'eau
sera proportionnelle à
l'ensemble de données, taille de l'ensemble de données, d'accord ? Donc, si ce n'est pas vrai, ce ne sera pas proportionnel
à l'ensemble de données. D'accord ? Vient ensuite le nom. Les noms sont le groupe d'étiquettes qui seront imprimées
sous chaque boxplot. Il s'agit donc d'un boxplot. Et pour cela, si vous
voulez donner un nom, vous pouvez le donner via
l'argument names. Et Maine
est évidemment le nom du Graph. D'accord,
nous pouvons donc donner le titre du graphique avec la moyenne. Maintenant vient ce qui ne l'est pas. Les encoches sur les côtés
du diagramme peuvent
être interprétées comme une entreprise puis un intervalle
autour de la valeur médiane. Et la hauteur de la médiane stupide des
nazis plus ou -1,7 en IQR divisée
par la racine carrée de n, où IQR est l'
intervalle interquartile. Nous avons vu ce qu'est
l'écart interquartile. Il s'agit donc de l'
écart interquartile entre le 25e et le 75e percentile. Il s'agit de l'
écart interquartile. Donc en gros, c'est la, c'est la valeur n, d'accord ? Où IQR est l'
intervalle interquartile défini par les 25e
et 75e percentiles. Et Yan est le nombre de points de
données dans l'ensemble de données. nombre total de
points de données dans l'ensemble de données est N. Et vous pouvez voir ici qu'il
s'agit du diagramme cases
et de la sortie
maximale des valeurs aberrantes. C'est la valeur minimale aberrante, et c'est la valeur
médiane, n'est-ce pas ? Et voici le 25e
percentile ou Q1, et voici le 75e
percentile, c'est-à-dire le Q3. Et cette valeur, cette chose, la neuvième et la non, c'est
ce que l' on appelle «
pas cette valeur » d' ici à ici, c'est ce qu'on appelle « encoche ». Notch est l'
intervalle de confiance de 795 de la médiane. D'accord ? Donc, à partir de
la médiane, il s'agit de la médiane
et de celle-ci, et cette valeur
sera appelée encoche. D'accord ? Donc, lorsque vous mettez
« pas égal à vrai », vous pouvez voir cette
courbe sur ce truc. Si vous mettez une encoche
non égale à deux, vous verrez une ligne
droite ici. Cela n'existera pas et n'existera pas. D'accord ? Donc, cette façon de voir ici
dans cette encoche est fausse. Vous verrez donc ce
boxplot, et si vous mettez une
valeur différente de true, vous obtiendrez cette encoche. Eh bien, cela signifie que la plupart
des données ici seront proches de la
médiane et que ce
sera un
intervalle très fiable entre les données, proches de la
médiane et que ce
sera comme la valeur
médiane est
ceci et ce plus et moins d'
entre elles sont moyennes, comme ici. Les
points de données concentrés seront proches de la médiane et
représenteront ces données réelles, n'est-ce pas ? Nous avons maintenant compréhension
de base
de ce qu'est un boxplot, ce qu'est un titre discret, de
ce que sont les valeurs aberrantes ? Et quel est le quartile minimum et qu'est-ce que le quartile maximum ? Qu'est-ce que l'intervalle interquartile ? Et qu'est-ce que Q1 ? 25e percentile, et Q3 est
le 75e quartile, d'accord ? Et c'est la valeur médiane. Nous verrons donc dans la prochaine
conférence comment dessiner un boxplot à partir données que nous avons
dans notre Estelle Blake.
Nous allons utiliser mt cars, Nous allons utiliser mt cars, qui est un véritable ensemble de données
disponible dans le package de la voiture ou ADA contenu dans la
boîte à outils pour se réinitialiser. Et nous utiliserons cet ensemble de données sur
les voitures vides pour dessiner le diagramme en boîte en fonction du MPT et du
nombre de cylindres. Je vous verrai donc lors de
la prochaine conférence.
31. Boxlot utilisant le jeu de données mtcars: Bonjour et bon retour. Dans
cette conférence, nous allons dessiner un diagramme, d'accord ? Et nous allons utiliser un données sur les voitures
vides qui est déjà disponible
dans notre distribution. Nous savons donc qu'il est nécessaire de
télécharger cet ensemble de données. Il est déjà intégré notre environnement
ou à notre distribution. Nous pouvons donc
l'utiliser directement et essayer de présenter les données relatives aux
voitures vides dans un boxplot. D'accord, voyons
comment nous pouvons le faire. Alors d'abord, laissez-moi vous montrer
ce qu'il y a dans cette boîte. C'est quoi ça dans les voitures vides ? Alors, d'abord, laissez-moi payer pour
accéder au Je vais créer une entrée de données et des voitures
vides qui sont déjà disponibles à
l'intérieur. Odd et un voulait dire. Et ce que je vais faire, c'est essayer de l'exécuter
et de voir ce qui s'y trouve. Laisse-moi l'imprimer. Ici. La voiture vide, notre ensemble de données et maladie ayant, comme
un ordinateur portable, protège Martha d'exporter le tableau de bord
1017 pour le Dr Riley et l'équipe de
recherche de bureau doivent être des villes et toutes ces cartes, détails sont là, comme des
kilomètres par gallon. Qu'est-ce que la myéline ? Chaque
voiture a des miles par gallon. Et puis le nombre
de cylindres, les moteurs du moteur auront
le nombre de cylindres, comme 2468, le nombre de
cylindres du moteur. Et puis le déplacement, HP. Quels sont le point névralgique et le poids de
traînée des voitures ? Tous ces paramètres
sont donnés ici dans ces données relatives aux voitures vides. Donc, ce que je vais utiliser, je ne vais pas utiliser
l'ensemble de données. Je vais utiliser C, D et E. Je peux obtenir un mile Lee par gallon
et le nombre de bouteilles. D'accord. Alors, pour cela, je vais faire ce que je vais faire. D'accord, utilisons donc ces 2 miles par gallon
en nombre de bouteilles. D'accord ? Et ce que je vais faire, je vais l'imprimer et ensuite
je ferai une énorme tête. Ensuite, je transmets ces entrées de
données afin que nous puissions voir ce qui arrive. Laisse-moi lire ces
deux lignes et voir. Maintenant, nous prenons en compte les
voitures et leur kilométrage, leurs
miles par gallon et leur nombre
de cylindres. Ils sont en prison. Donc, ces deux informations que je
reçois, d'accord, maintenant je vais
utiliser cette entrée de données, qui indiquera les miles par gallon et numérotera le cylindre. Et je vais essayer de
dessiner notre diagramme. OK, donc, la première
chose que je vais faire, créer un fichier PNG
pour stocker le graphique un fichier et avoir un fichier énorme
égal à Allen qui a
donné un nom, comme des voitures vides, box plot, un point PNG. D'accord. Je vais donc donner le nom du fichier sous forme cases vides, de parcelles, de points PNG. Et maintenant, ce que je vais faire, essayer de dessiner le boxplot et pour
Diet and Lose Boxplot. Et voici ce que je vais faire, je vais donner deux miles MPG par gallon avec le
nombre de bouteilles. D'accord. Donc, je vais
dessiner, je vais
créer un diagramme à cases entre ces mpg et le nombre
de cylindres. D'accord ? Et puis ce que je vais donner, je vais donner des données en fonction de cette entrée de données,
nos voitures vides. Je vais donc conserver des données
équivalentes à celles des voitures vides. Hein ? Alors. Ce que nous devons garder Ensuite, nous devons obtenir le xlab. Qu'est-ce que cela va être fait ?
Que voulons-nous écrire ? Inscrira le
nombre de cylindres X Lab. Et pourquoi le laboratoire sera blanc ? Le laboratoire sera à MPG
miles par gallon. D'accord. Ensuite,
ce que nous garderons,
nous garderons le principal égal
à mes petites données. Données. Harder donnera
des cartes myélinisées. D'accord. Ensuite, nous enregistrerons le fichier. OK, dev.off. D'accord. Donc, ce que nous
faisons ici,
nous créons un diagramme à cases, mpg et nombre
epsilon n pour la voiture, et nous utilisons l'ensemble de
données : les voitures vides et l'axe X seront numérotés cylindres et l'axe Y
sera en miles par gallon. Et le nom du graphique
sera voitures, données de kilométrage. D'accord ? Et laisse-moi m'occuper de ça. D'accord. D'accord. Voici donc notre graphique, le cadre que nous avons dessiné. Il va venir ici. Maintenant, le titre est le nom du graphique
contenant les données de kilométrage de la voiture. Et voici le nombre
de 468, soit
des miles par gallon. Et le diagramme en boîte de données. D'accord ? Donc, de cette façon, nous pouvons dessiner, nous pouvons créer des diagrammes en boîtes. Si tu veux comprendre
encore une fois, je te le dirai. Ce que nous avons fait est simple. Nous utilisons des données sur les voitures
vides,
qui sont déjà
disponibles dans
notre distribution. Nous n'avons donc pas
besoin de les créer
ou de les télécharger. Il est déjà
intégré à l'environnement. Nous l'utilisons donc,
ils prennent ou deux
voitures vides, ce qui signifie que nous allons utiliser cet ensemble de données sur les voitures
vides, qui contient toutes
ces informations sur les voitures, les différentes voitures. Et puis, ce que je fais, utiliser un boxplot et je
trace le diagramme entre ce nombre de cylindres et kilométrage par gallon
pour chaque voiture. D'accord ? Et j'utilise des données
et des pré-compositions. Et pour x, x c'est que j'utilise le numéro Epsilon et le MPG sur l'axe
Y, d'accord ? Ensuite, le nom
du graphique que je donne à mes données en temps réel,
puis j'écris ce fichier en raison de certaines
modifications à effectuer lors de mes audits. Je ne suis pas en mesure de voir
les parcelles ici. C'est pourquoi j'ai fait ce que j'ai fait. Je l'ai écrit dans le fichier
empty car, boxplot point PNG. Et nous pouvons voir le dossier ici. Voici donc le boxplot
et voici la médiane. C'est la médiane, non ? Et c'est le point de vente minimum. Et c'est le
maximum ou le minimum. Et c'est Adam. Aucune valeur médiane pour
le nombre de vendeurs. Donc moteur à quatre cylindres. Mes objectifs ici et le
kilométrage médian sont d'environ 26, 27 miles par gallon ou
six cylindres. Elle arrive à environ 20, 20 miles par gallon et le
nombre de cylindres, si c'est huit,
la myéline est d'environ 15 gallons par 15 miles
par gallon, n'est-ce pas ? De cette façon, nous pouvons dessiner un
boxplot à partir des voitures vides. Rendez-vous lors de la prochaine conférence.
32. Boxplot avec encoche: Bonjour et bon retour. Ainsi, dans la conférence précédente,
nous avons vu comment nous pouvons dessiner notre diagramme en utilisant un ensemble de données de voitures
vides. Et sur la base de ce
nombre, augmentez le cylindre et le kilométrage par gallon. Ainsi, sur la base de ces deux paramètres se trouvent les caractéristiques non paraboliques
de cet ensemble de données. Nous avons dessiné le boxplot et nous avons vu à quoi ressemble
le boxplot. Donc, voitures, données de kilométrage ici, mpg et cylindre numérique
46 8 miles par gallon. Oui, 15 2025. Et cette ligne noire est
la médiane de chaque groupe. D'accord ? Donc des voitures à quatre cylindres, voitures à
six cylindres
et des voitures à cylindres. Maintenant, nous pouvons en fait dessiner
le même diagramme à cases sans. Nous avons donc vu ce qui ne l'est pas. Maintenant. Nous verrons comment ne pas le faire. Si nous mettons un cran appelé
vrai, comment ce boxplot
changera et que le NADH sera utilisé pour dessiner, comme s'il vous indiquerait
comment la médiane de chaque groupe est liée l'une
à l'autre, n'est-ce pas ? Comment les médianes correspondent aux différents
groupes. OK, alors allons-y. Et nous verrons aussi, nous allons également essayer de
mettre des couleurs dans ce graphique pour qu'
il soit beau, d'accord ? Et nous allons également
essayer de nommer cet axe X. OK, alors allons-y. Donc, tout
d'abord, ce que je vais faire, c'est changer ce nom
en boxplot width. Non. OK. Et puis ce que je vais faire, je vais simplement dire « pas égal à », désolé, pas égal à vrai ». Et maintenant, laisse-moi m'occuper de ça. Maintenant, laisse-moi y aller. Vous voyez, nous l'avons fait, donc notre graphique était le suivant. Maintenant, lorsque je mets «
pas égal à vrai », notre graphique est passé à ceci. Et vous voyez, vous savez, c'est la médiane de
chacun des graphiques, n'est-ce pas ? Chacun des ensembles de données
sur chacun des groupes, comme quatre cylindres,
six cylindres. Et la façon dont ces médianes sont liées est différente l'une
de l'autre, façon dont elles correspondent les unes aux autres. Mais regardez la médiane. Comment ces
choses pourraient-elles se produire ? Les nazis viendraient pour
chacun de ces groupes ? Maintenant, permettez-moi de mettre un peu
de couleur dans les dettes. Donc, ce que je vais faire, je vais être énorme. Ensuite, je mets rector et j'
entends quel algorithme vous donnez. rouge, vert, jaune. Maintenant, je donne trois couleurs. Rouge, vert, jaune, jaune. Et laisse-moi m'occuper de ça. Permettez-moi de donner un nom au hockey de
Maria Callas. Il y aura donc des graphiques et des images
différents. Pouvons-nous maintenant avoir différentes couleurs pour
différents groupes ou boîtes. Et plus tôt, c'était comme ça, sans couleur et
sans couleurs de largeur d'encoche, encoche, de largeur d'encoche. OK. Maintenant, permettez-moi de donner
quelques noms ici. OK. Voici donc les kilomètres parcourus. Taux élevé pour les voitures à quatre
cylindres, kilométrage est élevé
pour les voitures à six cylindres, moyennes, et pour les voitures à cylindres, cette loi donnera les noms
haut, moyen et bas. Ainsi, lorsque nous verrons maintenant
Boxplot, nous comprendrons qu'il s'agit
d'une voiture moyenne élevée, comprendrons qu'il s'agit d'une voiture moyenne et d'une essence à faible kilométrage.
D'accord ? Alors c'est cool. Les noms que les hôtels donnent haut, moyen, bas. OK. Laisse-moi exécuter ça. bientôt et maintenant,
au lieu de 46,8, nous avons des valeurs élevées, moyennes et basses. Alors on peut le faire comme ça, non ? Et si vous
voulez être plus précis, vous pouvez mettre de la
porcelaine aussi haut, quelque chose comme ça pour que ce
soit plus clair. Excellent, moyen, faible, comme ça. OK. OK. Donc, de cette façon, vous pouvez
également le mettre. J'espère donc que vous avez compris
comment créer des boxplots. Vous pouvez donc également essayer de
vous voir lors de la prochaine conférence.
33. Histogramme et distribution d'histogramme: Bonjour et bon retour. Dans cette conférence, nous allons en
apprendre davantage sur les histogrammes. Nous allons donc voir quel
est notre histogramme. Nous verrons également les types d'histogrammes et comment nous pouvons
utiliser façon dont nous pouvons placer des histogrammes en fonction de nos
données lors de notre saison tactique. Bon, nous allons donc voir la partie théorique et nous allons
apprendre ce qu'est un histogramme. Alors laisse-moi te dire. Un histogramme n'est pas une présentation
appropriée de la distribution
des données numériques. Il s'agit donc essentiellement d'un graphique comme un graphique à barres ou un
graphique à barres que nous avons vu. Il semblait simplement qu'une sorte de distribution représentait cette distribution
de données numériques. Donc, en gros, si vous
avez des données numériques, vous pouvez dessiner un
graphique ou un Brad et un histogramme est une
représentation très appropriée de la distribution
des données numériques. Donc, en gros, il est utilisé à quoi ? Les données numériques, et le fait que les données
numériques devraient être de nature
continue la
plupart du temps, été introduites pour la première fois
par Karl Pearson. Karl Pearson a donc
introduit l'histogramme. Une autre façon de dire histogramme, comme une autre définition
de l'histogramme, consiste afficher graphiquement Brita en utilisant des parties de
différentes hauteurs. Dans un graphique à barres, nous avons vu le bus mourir de la même manière. L'histogramme est également un affichage
graphique des données utilisant des barres de
différentes hauteurs. Il est similaire à un graphique à barres ou histogramme qui regroupe les
nombres dans des plages. Donc, si vous voyez un graphique à barres, les données ne sont pas regroupées dans une fourchette allant de 10
à 2020 à 30. Cela ne va pas arranger. Il ne regroupera pas les données, mais dans l'histogramme, il regroupera les
données dans des plages. Ensuite, il
placera le graphique à barres, graphique à
barres avec des nombres
dans les plages. Le regroupement des nombres dans les plages
vous donnera un histogramme. J'espère donc que la situation
s'éclaircit. Nous verrons également les images. Nous allons voir la
représentation réelle de la différence entre le graphique
à barres et l'histogramme. Il est donc bon de
noter que ce graphique à barres est associé au regroupement de
données numériques en plages, comme si vous aviez des données de 10 à 100. Cela va donc créer les barres. cette manière, il
organisera également les données 10-2020 à
30 par groupes. Et cela créera des chemins. Ce sera donc un histogramme, la hauteur de chaque barre vendue, nombre de barres se situant dans cette fourchette. Donc, en gros, cela
vous donnera une idée de 10 à 20, combien y a-t-il de chiffres ? Combien de personnes soutiennent ? Si vous considérez le
salaire de la population. Donc, il vous dira
entre 10 et 20 personnes, combien de personnes y a-t-il ? Combien de personnes
y a-t-il comme ça ? D'accord. En créant un soleil historique, la création d'un histogramme fournit une représentation visuelle
de la distribution des données. L'histogramme peut afficher
une grande quantité de données et la fréquence
des valeurs des données. Donc, comme il le fait, il regroupera les
données dans des plages. Cela vous donnera donc une
fréquence de dix à 20. Combien ? Cela vous donnera donc également
la fréquence et prendra en charge une valeur de données particulière. Il vous indiquera combien de
fois cela se produit, la fréquence des
valeurs des données, la médiane et la
distribution des données peuvent être déterminées
par votre histogramme. Ainsi, la médiane et la
distribution des données peuvent également être
déterminées par histogramme. En outre, il peut résoudre
toutes les valeurs aberrantes ou les lacunes
dans les supports de données. Nous avons les données de 10 à 140 à 50. Nous n'avons aucune valeur. Donc, il
vous dira que 40 à 50, il ne vous montrera pas la barre. Donc, avec la
représentation graphique, vous pouvez le trouver, d'accord, 40 à 50, nous n'
avons aucun employé. Cela vous indiquera donc
les lacunes dans les données et
vous indiquera également les valeurs aberrantes. Supposons que vous ayez entre
10 et 100, puis que vous ayez une autre barre
provenant de 17180. Tous les
blocs de données auront donc tendance à atteindre 100 et un autre
graphique est loin. Il présente des plages de 171 à 81 à 7180 et une valeur aberrante que nous
pouvons facilement identifier en
regardant l'histogramme. Donc, l'histogramme, ou un excellent moyen de
résoudre ce problème, permet d'obtenir données
continues et continues dont
je vous ai parlé plus tôt, telles que la taille et le
poids, si vous le souhaitez. L'histogramme est donc le mieux
adapté à ce type de radar. Alors voilà. Je vais donc simplement vous montrer comment différencier le graphique à
barres et les histogrammes. Alors à bientôt dans l'
histogramme, il n'y a pas d'écart. C'est une fréquence très continue, comme 468 à 24. Le bar commence à entrer directement. Vous pouvez voir ici la différence entre les
histogrammes et les graphiques à barres. Vous pouvez donc
voir ici l'histogramme, il est très continu comme ça. Ignorez les espaces entre
les barres ici Le graphique à barres que vous pouvez voir vous montre les
différents points, comme janvier, février, mars, et il
y a un écart entre les barres. C'est donc la principale différence
par rapport à un histogramme. Les barres ne
comporteront aucun espace
entre les barres et le graphique à barres comportera
des espaces entre les barres. D'accord ? C'est donc une
différence picturale que vous pouvez trouver entre les
histogrammes et les graphiques à barres. Maintenant, voici l'histogramme de
distribution ou combien de types d'
histogrammes existe-t-il ? Distribution normale,
vous pouvez la voir comme ceci. Donc, dans une distribution normale, points d'un côté de la
moyenne sont susceptibles d'apparaître alors que de l'autre côté
des preuves,
vous pouvez voir que les données de ce côté, côté
gauche et du
côté droit sont presque égales, n'est-ce pas ? C'est donc la distribution
normale. Et si nous optons pour la distribution
bimodale, cela vous placera dans une distribution
bimodale. Il y a deux sommets, C-O, il y a un pic et il y a un autre pic. Les données présentent deux pics. Ce sera donc bimodal dans une distribution de données
bimodale. Nous avons donc séparé et analysé en tant que distribution
normale distincte. Il s'agit donc d'une distribution
normale et ce sera une autre distribution
normale. Et lorsque deux
distributions normales se rejoignent, cela crée une distribution
bimodale. Il s'agit de la
distribution normale et la distribution bimodale. Le troisième type de
distribution ou histogramme est une distribution
inclinée vers la droite. Ce qui est une
distribution ou un histogramme asymétrique vers la droite, ou une
distribution asymétrique vers la droite est également appelée distribution
asymétrique positive. Pourquoi est-ce que l'on appelle une distribution
asymétrique positive car vous voyez que les valeurs asymétriques viennent du côté droit, zéro à l'infini, n'est-ce pas ? Ce sont donc les valeurs
positives. Ainsi, lorsqu'elle est du côté droit, les deux valeurs de poussée sont biaisées. Ce sera ce que nous appelons une distribution
biaisée vers la droite. Dans une distribution asymétrique vers la droite, un grand nombre de valeurs de données
apparaissent sur le côté gauche, tandis qu'un plus petit nombre de valeurs de données apparaissent
sur le côté droit. Vous voyez ici, sur le côté gauche, il y a
plus de valeurs de données, et sur le côté droit, le nombre diminue, d'accord ? Bien, il s'agit d'une distribution
asymétrique uniforme lorsque les données ont une limite de plage sur le côté gauche de
l'histogramme, par exemple limite de G. Et la suivante est une distribution
asymétrique vers la gauche. Ici. La distribution asymétrique vers la gauche
est également appelée négativement. Pourquoi négativement ? Parce que du côté négatif, cela
devient biaisé. Dans une
distribution inclinée vers la gauche, ils sont grands. Le nombre de valeurs de
données apparaît sur le côté droit. Le nombre augmente donc
de gauche à droite. Donc, lorsque nous avançons à droite, le nombre augmente, n'est-ce pas ? Et un nombre inférieur de valeurs de
données sur le côté
gauche ou sur le côté gauche est
inférieur à la valeur sur le côté droit. Plus de valeurs correspond à une distribution
asymétrique vers la gauche. Et une
distribution asymétrique vers la droite
se produit généralement lorsque les données
ont une limite de plage. Sur le côté droit
de ce diagramme, par exemple limite, par exemple des
centaines. D'accord ? Voici donc les quatre
types d'histogrammes. La première est la distribution asymétrique vers la gauche, puis nous avons vu la distribution
asymétrique vers la droite, puis la distribution bimodale, et puis la première
est la distribution normale. Histogramme. Maintenant, êtes-vous juste une fonction hist
à la fonction JIST hist
pour créer un histogramme. Et il faudra
peu de paramètres ou d'
arguments pour dessiner un histogramme. OK, donc, qu'est-ce que X ? X est un vecteur de valeurs pour
lequel l'histogramme est un graphique. Ce x est donc un vecteur
pour lequel nous
voulons dessiner l'histogramme, le main, xlab et ylab. Principal. Principal. Main est le
titre de l'histogramme, et xlab correspond aux étiquettes des
axes, d'accord. Comme la fréquence ou
autre chose, si vous voulez faire du port. Et puis x, lima et wildly sont les plages de valeurs X et Y. D'accord ? Et puis casse
le vecteur ponctuel du Brexit donnant les points de rupture entre
les cellules de l'histogramme en fonction des points de rupture vectoriels
informatiques en un seul chiffre donnant
les ventes d'un histogramme. D'accord, nous allons voir en détail ce
qu'il détaille. Ensuite, il y a le charbon qui est coloré et puis il y a
la frontière, vous savez. Dans la prochaine conférence, nous verrons l'exemple de la façon dont nous pouvons utiliser la fonction hist pour
dessiner notre histogramme. Nous allons donc dessiner un histogramme en utilisant la fonction de hachage
dans la prochaine conférence.
34. Dessiner un histogramme en utilisant la fonction hist: Bonjour et bon retour. Dans cette conférence,
nous allons donc
écrire notre premier
programme d'histogramme. Donc, ce que nous allons faire, créer un vecteur
qui contiendra nos données. Ensuite, avec ce vecteur, nous allons
créer un histogramme. Nous allons tracer les
données sous la forme d'un histogramme. Commençons donc par cela. Donc, ce que j'ai fait, j'ai déjà créé un fichier point R qui est histogramme point R. Et j'
ai écrit le code. Je vais donc vous montrer
quel est le cours. J'ai donc déjà écrit le
code afin que nous
puissions gagner du temps à l'
écriture, d'accord, et ainsi de suite. Ce que je fais, c'est créer des données
vectorielles pour le graphique. Je suis donc en train de créer les données ici. Donc je crée, je crée un vecteur et j'assigne
ce vecteur à x.
Donc x est un vecteur n contenant des données, lac pour les impressions et 17 000, 3 006 plus un support externe. Les salaires peu nombreux impliquent que je les
stocke dans ce vecteur
x. Ce vecteur X représente donc nos données et
contient le support, le salaire des employés. D'accord ? C'est donc le salaire du propane implicite
Tao Qian, comme ça. OK, alors à certaines distances,
comme Preppy, 2050 à 60, 20 à 30, 40 P2P comme ça. Bon, maintenant, quelle est la prochaine étape, ce sera exemple
d'
histogramme très simple. Bon, maintenant nous avons les données. Je veux tracer un histogramme. Donc, ce que je vais faire, créer un fichier image d'
histogramme Foster. Je vais donc utiliser
la fonction PNG et nous allons donner un fichier égal au point d'
histogramme PNG. Ensuite, ce que je vais faire, utiliser la
fonction hist que je vous
ai expliquée lors de la conférence
précédente. Je suis donc en train de créer
l'histogramme, d'accord ? Je vais donc utiliser la fonction hist
et transmettre ce x. Qu'est-ce que x ? X est
la donnée pour laquelle nous allons
tracer l'histogramme. D'accord, ces valeurs
apparaîtront ici avec X. Donc X est un
vecteur de données, des données vectorielles. Ensuite, ce que je donne à xlab
est égal au salaire
, puis la couleur que je donne vert et la bordure
en jaune. Je ne donne donc pas encore
trop de paramètres. Je ne transmets pas
trop de paramètres. Oui. Seul xlab que
je donnerai le salaire, puis la couleur, je donnerai vert et la bordure,
je donnerai la Slovaquie. Ensuite, je vais enregistrer ce fichier d'image graphique notre système qui
est Depth Point Off. OK, donc avant de partir, laissez-moi définir notre répertoire
de travail. Donc, pour faire cela, ce que je vais faire, et pourtant ce que je vais
faire, je vais le garder. Accédez à ce répertoire. Et la prochaine chose que je
ferai, c'est d'en faire plus. Et pourtant, ce que je vais faire, définir le répertoire de travail. Bon, maintenant je vais
enregistrer ce fichier. J'espère donc que les étapes
sont assez simples. Je crée un vecteur
X avec les données. Ensuite, je vais utiliser la fonction
PNG pour créer un fichier image pour l'
ensemble de notre graphique afin que nous puissions voir et
utiliser. Et puis je l'enregistre dans notre dossier local par Deborah off. OK. Et j'utilise la
fonction hist pour réner histogramme avec les données et passant le vecteur X ici
, puis le laboratoire X, je donne le nom du
salaire et la couleur verte et le troqué
sera de couleur jaune. Alors maintenant j'ai enregistré, maintenant je fais ainsi tout ce fichier source. Cliquez sur Source,
et c'est fait. Ensuite, je dois
aller sur le lecteur D, accéder à notre 20 et voir ici notre pare-feu
avec l'histone. Permettez-moi de vérifier le nom du fichier. L'image finale, ce graphique
supérieur en PNG. Et s'il l'est aussi, je pense que c'est l'histogramme
du nom du fichier PNG. D'accord, c'est ainsi que je vais supprimer tous les autres
que j'ai créés plus tôt. Nous avons maintenant l'
histogramme de x. Et voici ce que nous sommes en train de créer, je donne le,
permettez-moi de supprimer ceci, de supprimer ceci. Laisse-moi relancer le programme. Permettez-moi de le changer en rouge. Et la bordure
sera le hockey jaune. Laisse-moi recommencer. Laissez-moi voir si
le fichier en général doit voir votre histogramme. Il s'agit du salaire et
ici de la fréquence. Et puis voici les
fourchettes, entre 10 et 2020 30 030 et 40 040, entre
2050 et 60 000. Vous pouvez maintenant voir à quel point
l'histogramme est sombre. Donc, dix à 20 000, combien de personnes sous-entendent
essayer de gagner un salaire de 10 à 2123. Vérifions-le avec les données. OK. Alors allons-y
, allons-y. 22 ont tendance à 23 ans en 2010, donc 10 en 2012. Et puis nous en avons un autre, vous avez une piste, deux. C'est White qui le fait. OK.
Et puis nous avons 20$ ou 2 000 017 000,15
000$. Ce sont donc les trois qui
impliquent un tirage malheureusement 10-20. Elle montre donc une tendance à
2 310 à 23 employés. Ainsi, nous diviserons
les données en fourchettes et en ferons nos groupes,
soit 10 à 23 employés, puis 20 à 32 impliqueront moins de
25 données également. 20 à 31. Ils ont commencé à en voir 20 à 30. Nous avons deux employés. OK. 25 020, 2000. Cela est également vrai. Totalement. Puis 30 à 42. Encore une fois, 30 à 42, 34, t1 et t2 un. D'accord. De
30 à 40, le suivant, c'est 40 à 50, y a
qu'un seul employé. Voyons donc pour T2, T4, T5. Et tu vois, c'est
plus que parfaitement normal. Donc, 40 à 50, une seule
implique que la suivante est la dernière, T2s t Nous avons quatre implications. Voyons cela plus que 5012, puis trois, puis quatre. Nous en avons donc quatre, non ? Tu vois, si tu dois faire confiance à la
ville, nous avons quatre suppositions. Ainsi, il regroupera les données et
indiquera la fréquence. Par exemple, si vous voyez cela, vous pouvez facilement constater que ce
cryptosystème a plus de 50 000 salaires pour des employés ou
attire de 10 à 23 employés, 20 à 32 implique et 40 à 50, un
seul en prix là-bas qui
reçoit un salaire pour le P2P. Ainsi, un histogramme sera dessiné et les
données seront regroupées en fonction de la fréquence. D'accord ? Il définira
une plage ou une valeur bêta, puis il
vous indiquera la fréquence d' occurrence des
données dans cette plage. Dix à 23 se produisent, 20 à 32 travailleurs, 30 à 42 travailleurs, 40 à 52 occurrences, puis placez la boîte de Pétri t comme agoniste. Il va donc, ce qu'il fera, regrouper les données en
quelques plages, puis il vous
indiquera l'occurrence
des données dans cette tendance. Donc dix à 20, il y a trois données, 310 à 20 et c'est
Jacqueline trois fois. D'accord ? Donc, de cette façon, nous
pouvons dire que trois employés
sont en train de sécher, malheureusement 10 à 20. C'est donc la
signification de Histogram. D'accord. Ensuite, c'est ce que j'ai fait. J'ai pris nos
différentes données ici. Je suis ce que j'utilise,
114-567-8910. OK. Donc, la même chose, je donne un graphique de programme
embelli à un fichier différent, un point PNG. Et voici ce que j'utilise, x sin x, je passe une année. Seuls les points de données
sont différents. Les valeurs des données sont différentes ici. OK. Et assez simple
plus tard, 114-567-8910. OK. Ensuite, je
l'enregistre dans OK. Laissons cela et voyons
ce que nous obtenons. Permettez-moi donc de trouver le premier
histogramme ici. Maintenant. Il définit les données. Je préfère zéro à deux. façon dont il définit
la plage est de zéro à
22 à 44 à 64 628,8 à dix. Alors g rho 22,
combien d'occurrences ? Deux occurrences qui font
que G passe de deux à 11, ces deux occurrences sont
inférieures à deux, n'est-ce pas ? Donc zéro à deux pour corriger. Ensuite, deux pour un. Donc deux à quatre. Il n'y en a que quatre. Puis quatre à six à quatre à 65,6 pour écrire à nouveau six à 8782, puis 9108 à dix à 9,10. Il divise donc
les données en deux plages, de
zéro à deux, ou de deux à
44 à 66 à 8,8 à dix. Ensuite, il nous donne
la fréquence d'occurrence
des données 0-22, deux fois deux à quatre, une fois quatre à six. Prix récurrent, d'accord ? À l'occurrence des
valeurs 4 à 6, n'est-ce pas ? Oui, 5.6. Donc, de cette façon également, vous pouvez changer la
couleur à partir d'ici. Tu peux le rendre noir. Et sachez que le graphique
sera en noir. De cette façon, nous pouvons modifier
la couleur de l'histogramme. Je te verrai lors
de la prochaine conférence. Nous allons voir d'autres
exemples d'histogramme.
35. Utiliser les pauses xlim dans l'histogramme: Bonjour et bon retour. Ainsi, dans la conférence précédente, nous avons vu comment
dessiner un histogramme. Nous avons vu deux exemples,
deux données différentes. Nous avons donc pris un vecteur. Et puis, dans le deuxième exemple, nous avons pris des données
très simples. Maintenant, nous allons
apprendre à utiliser break, à utiliser limit, y,
limit et break bonds, bonds, ces trois paramètres de la fonction hist
pour dessiner un histogramme
avec break et x limit. OK, j'ai donc
écrit le code. Donc, tout d'abord, je vais utiliser le même vecteur où
nous avons la subtilité
de vos stores lisant depuis l'origine
préimprimée jusqu'à 60 000. Je suis donc en train de créer un vecteur x comme
nous l'avons fait dans
la conférence précédente. Ensuite, je crée un fichier de destination dans lequel
je stocke cet histogramme. J'utilise les fonctions p et g
et je donne enfin Mises à Brex point PNG To
avec Brex point PNG. Ce sera le nom final
qui sera créé dans le nom du
fichier qui sera
créé sur lequel sera placé
notre diagramme,
notre histogramme
sera dessiné, d'accord,
et puis ici, avec
la fonction hist, je suis en train de créer l'histogramme. Je passe donc le
vecteur x ici au niveau des données. Et puis je donne le
nom à xlab pour ajouter du poids et de la couleur. Je donne du bleu,
passe la bordure. Je vais donner ce vert. Et puis je donne X limit. Ici, j'utilise un excellent
argument. Les limites X. Pour l'axe X, je donne
la limite de zéro à 40 000. Et voyez que nos données contiennent
des valeurs de
tolérance de 15 à 60. Les données vont au-delà pour t, mais je fais une boucle, limitant les
valeurs de l'axe X à zéro à 40 000. D'accord ? Et pourquoi le membre
est GTO à dix. OK, tant mieux, pourquoi l'axe Y sera la fréquence
d'occurrence des données, par exemple
de zéro à dix ou zéro à 20, peu importe ce que nous créons. Notre ouverture implique un salaire
nul de 0
à 2020 à 30 ou de 30 à 40 ans, comme ça. D'accord. Pour que je soulève un orteil. Donc, j'utilise
un autre paramètre ici, pauses égales à deux. Alors laissez-moi d'abord en faire un. D'accord ? Donc, ce que je fais, c'est
donner au Brexit l'équivalent d'un. Nous verrons quel impact
ce Brexit égal à un a
sur notre histogramme. Ensuite, je sauvegarde le fichier. L'histogramme qui sera
généré enregistrera dessus son orteil avec un fichier PNG Brex Dot
pour l'enregistrer sur notre local, en les
voyant utiliser db point off. Avec cela, il sera
enregistré sur notre machine. Voici donc le code, un
simple code d'une ligne auquel nous
transmettons certains paramètres à l'
aide de briques. Affaiblir. Xlim, xlim limite les valeurs de
données sur l'axe X, les limites
y pour l'
axe Y et break comprendront quand
j'exécuterai ce code. Vous
comprendrez donc mieux lorsque vous verrez le résultat. Et grâce à cette visualisation, nous comprendrons ce que fait réellement
le Brexit. D'accord ? Alors laissez-moi exécuter cette
source, maintenez Source, cliquez sur la source
et ce sera ainsi, laissez-moi ouvrir les fichiers de sortie. En voici donc deux avec le
dossier Brexit qui a été créé. Laisse-le s'ouvrir. Maintenant, le dossier, nos chiffres
historiques. Vous verrez donc ici, puisque j'ai
accordé des pauses égales à une, nous ne voyons qu'
une seule grande barre, n'est-ce pas ? De zéro à 40, et cela montre que 0,248 employeurs essaient de gagner un
salaire compris entre 40 et 40. Laisse-moi vérifier ça. Voyez ici, nous avons un total de 10,12 3456, 1234, 5670, 2408. Mais nous avons une liste, 702, 40, je suppose 123 456,7. Tous les autres ont plus de 40 ans, non ? 1234. Bon, maintenant nous pouvons
voir ce graphique. Permettez-moi de remplacer les briques par deux. Alors maintenant, vous verrez qu'il y
aura deux partitions. D'accord ? Alors laissez-moi, fois le fichier à nouveau, voir que nous avons maintenant de zéro à 40. Le salaire de 40 a été
divisé en deux parties, zéro à 20,22, 40, puis 42 statuts
affichés séparément, n'est-ce pas ? L'ensemble de données a donc
été divisé en trois, mais de zéro à 40 depuis lors. Depuis, nous avons
commencé de zéro à 40. Ainsi, zéro à 40 données, zéro à 40 données ont été
divisées en deux parties. Cheeto à 20,0 à 60, c, zéro à 20,0 à 22 400,
220,02, 400 223,22, 44
données et 40 à 65. D'accord. Alors laissez-moi
vous montrer la différence. Si je mets t à zéro
ici, que se passera-t-il ? Les données de zéro à 60 seront
divisées en deux parties. Permettez-moi donc d'ouvrir à nouveau
le fichier. Maintenant, la valeur G allant de 0 à 60 a
été divisée en trois parties parce que nous ne
disposons pas de données autres que celles relatives à la sécurité. Il ne montre pas l'autre, mais
une dette Web de zéro à 60 %. Nous avons des données. Les données de toxicité de Quito ont donc
été divisées en trois parties. Donc, à cette étape, ce qui se brise
fait donc x lim zéro à 60. Si j'atteins 50 ans,
que se passera-t-il ? Les données de zéro à 50 seront
divisées en deux parties. OK, laisse-moi m'occuper de ça. Vous avez donc vu que c'était possible, laissez-moi cliquer sur Source et
laissez-moi accéder au fichier
et l'ouvrir à nouveau. Maintenant, les quelques données préliminaires de J22 ont été
divisées en trois parties. D'accord. J'ai compris. De zéro à 2020 à 40, puis de 40 à 60 ans
, n'est-ce pas ? Il s'affiche donc jusqu'à 50. D'accord. Si j'arrive à trois,
que se passera-t-il ? Voyons voir. Laisse-moi l'ouvrir à nouveau. Nous vous attendons à
2020 entre 40,40 et 60 ans. Laissez-moi.
Continuons à expérimenter. Si j'en fais quatre,
que se passera-t-il ? Vous voyez, maintenant, cela montre
10 à 2020 à
30, 30 à 40, 40 à 50, puis 50 à 60
seront séparés. Les données 12340250 ont donc été
divisées en quatre, n'est-ce pas ? C'est ce que nous avons
demandé pour la R2P, nous la divisons
donc en quatre. Si je réduis à zéro la supposition 32, 30 000 données seront
divisées en quatre parties. Permettez-moi donc d'ouvrir à nouveau le fichier. 10 h 20 à 30 h 30, parce que nous n'avons
pas beaucoup de données, n'est-ce pas ? Ainsi, 10
à 30 ans, puis 30 ans et
au-delà, ont été divisés. Parce que si je
le fais aussi, voyons voir. 30 données ont été
divisées en deux parties. Le premier est 2020, puis
20 à 40 et au-delà, n'est-ce pas ? Alors laisse-moi faire mon portrait
comme G, rien à T et laisse-moi le faire et le voir. La sortie. La sécurité de la porte A2 a été
divisée en 1234 parties. Permettez-moi d'ouvrir à nouveau le
fichier pour voir les fichiers objets C et G, zéro à 6110 à 2020 à 30, 30 à 40, de 40 à 50 à 60. OK, donc voici ce que
nous faisons avec les pauses. D'accord ? C'est donc ce que x Lim
et foldly taupes. Vous pouvez donc Notre PDG, tandis que l'image le fait, c' est restreindre la
fréquence de l'axe Y à zéro à dix. Supposons donc que si je change cela, si je le modifie pour ne soutenir
que vos six seuls membres, que se passera-t-il ? Permettez-moi de lancer ceci et d'
ouvrir le fichier actuel. Vous voyez maintenant que nous voyons une
fréquence de zéro à six. D'accord ? De cette façon, nous pouvons
restreindre l'axe X et l' axe Y où le xylème
est largement supporté. Si j'y arrive, pour
ce qui va se passer. Il est bon d'expérimenter avec
le code pour voir le résultat. Et lorsque vous verrez la sortie, vous saurez quelle est l'utilisation réelle du paramètre C.
Vous obtenez deux pour, un petit car c'est bon. Si je crée des supports, je le ferai de zéro à
deux. Que va-t-il se passer ? Maintenant, je change l'
axe Y, la fréquence. Je vais voir, tu sais, ça se
passe comme celui-ci. La fréquence allélique, l'occurrence totale, va bien. De cette façon, nous pouvons
jouer avec le code dans n'importe quel langage de
programmation, bit R ou Python ou quoi que ce soit d'autre. Si vous voulez apprendre, vous devez commencer à jouer avec le code et commencer à jouer
avec les paramètres. Et si vous modifiez le paramètre, vous verrez l'
impact exact de ce paramètre. Dans ce sens, vous apprendrez mieux et
vous aurez les implications, l' impact
exact de cet argument
particulier, paramètre
particulier dans
une fonction particulière. Comme dans sa fonction, nous savons ce qu'est x, qu'est-ce que x lab, qu'est-ce que la couleur, qu'est-ce que la bordure ? Qu'est-ce que x Lim. Nous avons vu l'
impact de We xlim sur l'histogramme, l'
impact du paramètre Wild Limb sur l'histogramme et l'impact des briques
sur l'histogramme. Ainsi, lorsque vous expérimentez, lorsque vous jouez avec
le code et ses données, vous obtenez de meilleures informations et une meilleure compréhension
du code. J'espère donc que vous avez
compris ce qui est lié à l'X, à l'Y et aux ruptures et
leur impact sur notre histogramme. Alors, à bientôt lors de
la prochaine conférence.
36. Tableau des lignes de base pour les séries chronologiques avec ggplot2: Bonjour et bon retour. Dans la
conférence précédente, nous avons donc vu comment dessiner un histogramme. Nous passons maintenant à un graphique
très intéressant. Vous pouvez consulter notre graphique linéaire de
base. Et c'est très important car cela le sera
lorsque vous
en apprendrez davantage
sur les séries chronologiques ou problèmes liés à votre parcours dans le domaine de
la science des données. Et voici, dans cette conférence,
nous allons voir comment
nous pouvons dessiner un graphique linéaire simple
pour nos séries chronologiques
en utilisant le diagramme GG,
qui est un package en R.
Alors, que nous pouvons dessiner un graphique linéaire simple
pour nos séries chronologiques
en utilisant le diagramme GG, s'est-il passé depuis ? Tout d'abord, nous devons
comprendre cela. Permettez-moi donc de vous présenter les définitions de base
très basiques de
Wikipédia sur les séries chronologiques. Une série chronologique est une
série de points de données. Ainsi, en gros, les points de
données indexés de vos tâches sur CD sont listés ou saisis. Il peut donc s'agir d'une indexation de
la série de points de données, ou il peut s'agir d'une
série de points de données remontant, ou il peut s'agir d'une série
de
représentations graphiques de points de données dans l'ordre temporel. Cela peut donc être tout
sauf notre ordre du temps. Il s'agit donc d'une série de points de données
indexés par ordre chronologique. Cela signifie que les points de données
sont basés sur le temps doivent
donc être
construits dans le temps. Ainsi, lorsque nous avons des données
basées sur, qui sont basées sur l'heure d'une période ou d'une période
donnée dans Teach, sur
la base du temps, cette
série est une Brita. Lorsque nous traçons,
nous pouvons obtenir un diagramme de série chronologique. agit donc du Lee le plus courant, ou des séries chronologiques et des séquences
prises à un moment successif et régulièrement espacé. Qu'est-ce que cela signifie ? Cela signifie que les séries
chronologiques sont une séquence
que nous avons verrouillée, n'est-ce pas ? Séries chronologiques ou séquences de
points de données indexées par ordre chronologique. Et le plus souvent
, les séries chronologiques sont séquences prises lors de
rendez-vous successifs et régulièrement espacés. Supposons que sur notre chronologie, nous prenions des points successifs et régulièrement espacés entre 2 h 20 et 4 h, puis nous prendrons zéro à
3 h, puis trois à 6 h 32, 9 h 9 à 12. Succès précoce, deux points également
espacés, comme trois, intervalle de
3 h, nous prenons. Ce sera donc une donnée de 0,326, 6299 à 12, comme ça. OK. Je donne donc un exemple. Ce n'est pas exactement ce qu'il faut. Mais vous pouvez comprendre
quelle chronologie, zéro à 24 heures et peu de
choses se passent à chaque seconde, à
chaque minute, n'est-ce pas ? Ainsi, lorsque nous documentons
ces points de données, comme sur un objet quatre étoiles, il s'
agit des données de
la deuxième heure. Voici les données sur le
tada. Ce sont les données. Ainsi, lorsque nous définissons ces données successivement
à égale distance dans le temps, cela vous donnera
la série chronologique, séquence de séries chronologiques. Il s'agit donc d'une séquence
de données temporelles discrètes. Ce n'est pas continu, c'est
de nature discrète,
car nous
prenons des points
temporels également espacés à partir de ces données. Nous faisons donc une distinction. Voilà donc la définition. Maintenant, ce que nous allons faire, c'est essayer de comprendre
cela en le traçant. Lorsque nous tracerons, nous en
saurons plus à ce sujet. OK, donc avant de tracer, nous avons demandé d'installer la
bibliothèque GG plot two, afin que vous puissiez accéder au package et installer ce GG plot two. D'accord ? Donc, pour cela, nous avons besoin Library GG Plot 2
et du joueur, d'accord ? Ces deux bibliothèques
sont donc nécessaires. Ensuite, ce que nous ferons, nous créerons des données factices. Donc, ce que je vais faire, créer un DataFrame
qui contiendra le jour. Ils seront agités comme des points. Cela signifie qu'il faudra des données dans ce format, comme un total de 15 pour la
première génération. Et ensuite, ce que je vais faire, est aussi passer d'ici à zéro. Effectuez des recherches jusqu'à 4 minutes, 365 jours. Donc, d'ici à 365 jours, chaque
jour comme première génération, puis le 31
décembre 2014 comme ça, je vais prendre de trois à cinq jours. Et pour une date
précise à laquelle je prends la valeur, j'utilise la fonction runif. Vous savez, qu'est-ce que c'est exécuter une fonction
exécutant Fox et elle
créera ce qu'elle va faire. Cela créera une séquence
de nombres droits, 4365. Cela va donc créer une
séquence de chiffres. Alors, à quoi vont servir les
fonctions en cours d'exécution ? Il génère les écarts
aléatoires d' une distribution uniforme et
s'écrit sous la forme runif. Donc, ce qu'il fera, c'est qu'il générera facilement le nombre n de
nombres aléatoires qu'il affichera. Donc, ce que nous faisons
ici pour créer de la valeur, c'est générer des recherches sur des
initiatives visant à effacer des chiffres aléatoires
pour chaque jour. Nous allons donc attribuer le premier numéro de générateur
aléatoire à ce jour, un, comme celui-ci. Et puis le deuxième numéro généré
aléatoirement sera attribué à la deuxième date. D'accord ? Nous ne sommes donc pas simplement, nous utilisons uniquement les nombres générés
aléatoirement à partir de cette fonction standard. D'accord ? Mais nous
ajoutons également à cela que nous sommes également une séquence génétique
comprise entre moins 142 et 40. Et cette séquence, nous
sommes ce que nous faisons. Nous prenons la racine
carrée de cela ,
puis nous divisons
par ces 10 000. D'accord ? Donc, en gros, nous voulons
le résultat. Nous ajouterons à ce que nous obtenons
de cette fonction runif. D'accord ? Runif donnera donc les écarts aléatoires et
une distribution uniforme. D'accord ? Donc, ce que nous en
retirons jusqu'à ce jour, le jour et la valeur que nous allons
stocker dans ce
DataFrame, nous créons un DataFrame
qui contiendra deux valeurs, t et une valeur particulière provenant de ces deux fonctions
que nous obtiendrons, nous verrons comment nous en sommes, quelles sont les valeurs que
nous obtenons, d'accord ? Ensuite, ce que nous ferons, c'est simplement imprimer les données pour vous
montrer quelles données
nous obtenons. Ensuite, avec ces données
DataFrame, ce que je vais faire, c'est utiliser le diagramme
GG pour tracer ces données. Je vais donc transmettre cette trame de données. Et puis ce que cela fera, je vais fournir l'axe x comme
valeur et l'axe y comme valeur. Plus. Je vais utiliser la ligne de géométrie, la fonction 2, puis les valeurs
xlab, d'accord ? Ensuite, j'imprimerai l'impression, j'imprimerai le produit. OK. Ensuite, ce que je vais faire, ce que cette
fonction de ligne géométrique va faire ici. Vous pouvez voir ce que feront vos
polices Zoom Nine. Il reliera les points dans l'ordre de la variable sur l'axe X et G. Et en fait,
il créera de la poussière,
comme un diagramme de marche d'escalier. Ok, donc en gros,
ce qu'
il va faire, c'
est joindre les points et créer le graphique. D'accord ? Nous allons donc utiliser ici quelques
symboles tels que le pourcentage, d est d comme un nombre compris entre zéro et 31. Le pourcentage sera créé
sous la forme d'un pourcentage de jour de semaine en majuscule, comme un
jour de semaine abrégé, comme le lundi. Et ce seront des bouleversements
et des pourcentages de malheurs. mois de zéro à 12 et présentés
par b et B majuscule seront abrégés et un
mois abrégé comme janvier
sera abrégé et le mois de janvier complet ne
sera pas aggravé. Ensuite, le pourcentage Y et pourcentage de capital
Y seront des outils, pourcentage de vitamines à
deux chiffres encore, et les pourcentages en majuscule Y
seront encore à quatre chiffres. D'accord ? C'est donc l'abréviation de base
que nous allons utiliser. Allons donc dans RStudio
et essayons d'exécuter ce code. Nous utilisons donc GG Plot et
la bibliothèque de joueurs ici. Et puis, ce que je fais
ici, c'est utiliser des données. Je suis en train de créer un DataFrame ici, des données
factices avec un acétate similaire. Ensuite, nous créons une valeur
aléatoire en utilisant ce
runif et cette séquence. Ensuite, j'imprime tout ce que nous obtenons de la fonction runif pour vous
montrer ce que nous obtenons de la fonction runif
et ce que nous obtenons sous forme de données. D'accord ? Alors laissez-moi exécuter ce code ici. D'accord ? Alors laisse-moi courir cette queue ici. Alors maintenant, je vais vous montrer
ce que nous obtenons. D'accord ? Donc, voyez ici, pour
la fonction runif, nous obtenons cette
valeur, d'accord, 0,3, 44,4. Comme ça, il va générer 365. Vents. OK, et puis pour
les données que nous obtenons, d, comme le 1er janvier, John, total et intermédiaire,
nous obtenons cette valeur. OK. Et puis, pour les protéines du
31, du 3
et du 4 décembre, nous obtenons ces données
et cette valeur dans notre base de données. Maintenant, ce que je vais faire, transmettre la trame de données
au graphique GG
, puis quitter l'appel aujourd'hui
Y égal à la valeur. Et je vais utiliser la
ligne de géométrie pour tracer les données
, puis ce qui s'y trouvera
ou ce que j'utilise ici. J'utilise l'échelle d'
écart moyen, soulignement, la date de soulignement. Et ici, je donne les niveaux d'
endettement x contre, d' accord ? Alors laissez-moi exécuter l'ensemble du code. Cliquez sur la source
et regardez le graphique ici. Alors laisse-moi imprimer le sol. Voir ici. Nous obtenons maintenant des données
chronologiques pour janvier 2014, 2014, juillet 2014, octobre
2014 et janvier 2015. OK. Et si je le lance, nous arriverons à
abréger janvier et
juillet en n. Ensuite, ça se passera comme ça. Si j'utilise un Y, un
b, un petit b et un d majuscules , ce que
nous obtenons, nous aurons l'
année complète, comme 2014, puis Jan One fait une tournée avec 14
vêtements, un comme celui-ci. OK. Et c'est
la semaine, non ? Il vous indiquera donc
les semaines, les dernières semaines. 13e, semaine, 26e,
semaine 3093, et ainsi de suite. OK. S' il s'agit d'une immense montagne,
pourquoi nous donnera-t-elle un mois, pourquoi ? Month et YC. janvier si lamentable 14 approbations pour une telle
protéine tunnel. C'est donc ici que nous
voyons le mois sur l'axe des abscisses. Ici, nous voyons la
montagne ensemble. Nous en percevons
la valeur particulière à ce moment-là. D'accord ? C'est ainsi que nous pouvons dessiner une série chronologique simple. Ici. Nous pouvons légèrement modifier
cela. Et ici, j'utilise SLB, notre bibliothèque d'équipes dans laquelle
vous pouvez, si vous n'en avez pas, accéder aux packages,
cliquer sur Package, cliquer sur Installer et
vous pouvez l'installer, puis vous pouvez l'utiliser. J'utilise donc les mêmes données que celles que nous avons créées
précédemment. Tout à l'heure. Et voici
ce que je fais, tout, j'utilise le
thème dans la lignée des géométries. Je fournis la
couleur en vert. Hésiode est la ligne noire. Pour l'instant, je
le change en vert. Donc, voici la ligne géométrique, je vais fournir de
la couleur, la couleur verte. Ce graphique
sera donc de couleur verte. Et puis Theme Underscore Ipsum, j'utilise Blast pour l'équipe. Ce que l'on me donne x dx t point x élément point TXT,
soulignement t Angle réel. J'en donne 45 et je
n'en donne qu'un. Donc, ce que fera cet angle 45, c'est qu'il fera pivoter ce
graphique à 45 degrés. Alors laissez-moi exécuter tout ce code. Voir ici. Maintenant, le graphique
se présente comme suit. Et les 45 degrés, donc il est converti à 45 degrés. Donc, de cette façon, nous pouvons utiliser cet
angle égal à 45 avant supposer t. Voyons quelle
différence nous obtenons. Un artiste qui change légèrement. Permettez-moi de le modifier pour qu'il supporte 160. Tu vois une
différence si je mets 45 ? Et maintenant je vais le changer. Décès 145. Voyons si nous
faisons une différence. Maintenant, ça arrive janvier 2020, octobre 2019. Comme ça. Le graphique
change de taux. Si je le fais 45. Ça arrive comme ça. Et quand je le fais
, supposons à
90 degrés, cela arrivera différemment. Ça l'est. Cette représentation
est en train de changer, n'est-ce pas ? janvier. Ça, ce truc
est en train de changer, non ? Si j'arrive à dix degrés. Et si je trace
et que je vois comment peu importe
ce que nous
écrivons ici, janvier 2019, cet angle
est en train de changer, n'est-ce pas ? Si j'y arrive, supposons
qu'il voie du TDD, voyons comment cette sexospécificité
ne changera pas. Permettez-moi d'en faire une entité. Lorsque vous jouez avec
les données, continuez. Pouvez-vous nous aider à comprendre
ce qui est réellement différent ? Tu fais les choses
correctement. L'oreille. C'est comme à
la mi-janvier 2019. Elle s'affiche maintenant sous la forme d'une
image miroir de janvier 2019. Voilà donc la différence. OK. Donc, de cette façon, nous pouvons
atteindre ce niveau, d'accord ? Donc, orientation par niveau sur l'axe X, chaînes de
week-end comme celle-ci, d'accord ? Si vous mettez 90 degrés
, vous obtiendrez un degré informatique. J'espère donc que vous comprenez maintenant à
quel point cet
angle est différent, n'est-ce pas ? Il est maintenant à 90 degrés. Ainsi, nous pouvons
utiliser les textes des éléments et modifier
l'orientation des textes, comme en
janvier, comme celui-ci. D'accord ? Donc, de cette façon,
nous pouvons le faire.
37. matrices de tracé et de tracé dans R: Bonjour et bon retour. Dans cette conférence, nous allons en
apprendre davantage sur le nuage de points. Alors, qu'est-ce qu'un scatterplot ? Un nuage de points est un type de diagramme. Notre diagramme mathématique
utilisant des coordonnées cartésiennes pour afficher des valeurs, qu'est-ce qui correspond le mieux à deux variables ? Cela signifie donc que c'est simple. Si vous prenez notre plan x, y, nous devons placer des points
sur le plan, x et y,
x, virgule et y, point y, nous devons tracer
pour ne pas tracer de lignes, soit
sûr ou quoi que ce soit d'autre, mais seuls les points sur lesquels
nous allons porter soutiennent le Majlis et le nombre
de cylindres, etc. Cylindre. Le nombre epsilon sur l'axe des abscisses et ma légende sur l'axe des Y. Ce sera donc comme quatre virgules. Le nombre de
cylindres est de quatre et la myéline
triple encore de quatre. Inscrivez votre empreinte d'un point sur le plan cartésien que nous allons placer. C'est donc une question assez simple. Si les points sont codés, l'un d'entre eux, toujours valable,
peut être affiché. OK, donc, ce que je vais faire ici, c'est dessiner un
ensemble de données composé de voitures vides, savoir
les données d'entrée. Set. Nous
avons déjà utilisé notre niveau dans
nos exemples précédents. Je vais donc utiliser un ensemble de données sur les voitures
vides qui est facilement disponible dans notre environnement. Alors quelles voitures vides, il y aura le laboratoire de l'
OMS. Il contiendra des données concernant les voitures,
comme le numéro epsilon, myéline
noire, le poids de
la voiture et d'autres choses. OK, donc à partir de cet
ensemble de données, ce que
je vais faire, je vais choisir le nombre
de cylindres et la myéline, c'est-à-dire le nombre
de cylindres et le Majlis du coût particulier que je vais récupérer à
partir de cet ensemble de données. J'utilise donc recta. Voir myéline cylindrique. Myéline, ça veut dire myéline
cylindrique. Et je le range
dans cet objet. D'accord ? Donc, si je lance ces deux-là, qu'est-ce que je vais obtenir ici ? Je reçois donc des informations sur
diverses voitures comme Mazda, Datsun, et je reçois le
numéro epsilon,
soit six, pour l'exportation de
formaldéhyde. Et le kilométrage est égal à un. De la même manière, Lotus
Europa, numéro epsilon, c'
est-à-dire nourriture et myéline,
est 34 pour Bandera. C'est un cylindre, et la
myéline est à localiser, tandis que le nombre de cylindres
de Woof 142 est de quatre
et la myéline est de 21. De cette façon, nous obtenons
les histoires de nombreuses voitures, différentes voitures et de leur kilométrage. D'accord. Maintenant, ce que je vais faire, créer un nuage montrant les dieux,
puis ma liste. Donc, pour cela, ce que j'utilise, une
fonction PNG et je donne le nom du fichier scatterplot
sous forme de point de liste PNG. Ensuite, j'utilise
la fonction de tracé. fonction de tracé simple
sera utilisée pour dessiner
ce nuage de points. Et pourtant, je fournis
ce x égal à l'entrée. Donc x est essentiellement
le vecteur d'entrée. Vous obtenez donc x égal à
ce que je fournis. Je fournis l'entrée sous forme
de nombre de cylindres. Les axes X, x seront les cylindres
d'entrée. Cela signifie que je reçois le
nombre de cylindres, d'accord ? Et l'axe Y sera important. entrée Mpg dollar mpg signifie que je reçois ces données MPG, mpg. Voici donc ma liste L'axe X sera le
nombre de cylindres et l'axe Y sera le
kilométrage, miles par gallon. D'accord. Et xlab, je donne le niveau de
l'axe X à l'axe X. On me donne le numéro du
cylindre parce que j'y mets le nombre
de cylindres. Et pour l'axe Y, je donne le
nom de myéline et la limite x, je donne quatre à huit parce que le
nombre de cylindres se lit entre 4 et 8 ou dix. D'accord ? Je donne donc quatre à
huit pour la limite de l'axe X. Et la limite sur l'axe Y, je donne 10 à 35. D'accord ? Et pour le nom du graphe
ou du nuage de points, je donne le numéro,
cylindre, ou inconscient. Mon laser a coûté, d'accord. Et puis j'utilise Keep Dark
or Off pour sauver le combat. C'est donc assez clair ici. Maintenant, enregistrons ce fichier et utilisons ce nom comme voitures vides. Ca va faire du cylindre moins, d'accord. Et puis enregistrez-le. OK, maintenant allons-y. Exécutons donc ce fichier source. Maintenant, il est
couronné de succès plus tard. Maintenant, voyez que le fichier
de sortie doit être dispersé, tracez ma liste de produits. Alors voyez quel nom nous avons donné. On nous donne le point de
kilométrage au format PNG. Voici donc l'intrigue. D'accord ? Donc, vous voyez, le nom de l'équipe de nuages de points est le nombre de cylindres pour
cette myéline et cet axe x, je suis en train de coudre un
cylindre dont chacun 45678 et l'axe Y sont de la myéline,
10, 152-025-3035. D'accord ? Et ici, pour chaque point, supposons que c'est le point. Ce point concerne le nombre
epsilon, c'est-à-dire quatre, car la valeur de l'axe x est quatre et valeur de l'axe
y se situe
autour de 21 ou 22. Donc quatre cylindres et un cylindre myélogène Frontier 14
, un autre point, 4,23 ou 2023, puis 2044, virgule 24, puis
quatre virgules 26, 27, comme ça pour environ
30143034 virgule quatre. Donc, le nombre de cylindres pour, et voici les kilomètres parcourus
pour les voitures à quatre cylindres. Et à bientôt sous la forme d'un point, x virgule y point sur ce plan cartésien dans le plan
bidimensionnel x-y. Et nous ajoutons les points,
comme le numéro
quatre du cylindre et mon 21
points religieux, quelque chose comme ça, d'accord ? De la même manière, l'axe X six
signifie le nombre de cylindres, six pointant ce chiffre six. Les voitures qui
n'ont pas de cylindres en
ont six étaient équipées d'une
telle gaine de myéline. Cette myéline ressemble à une empreinte, 16171516 à 2021. Nous pouvons donc savoir que les pare-cylindres à six
cylindres commencent à
réduire le kilométrage par rapport
aux voitures à quatre cylindres et
sont utilisés par les voitures à vérins à air. Ce sont mes lentilles
pour cette boucle. Les
voitures à huit cylindres produisent donc
le plus faible taux de myéline. La meilleure myéline est donc donner à Garza le
nombre de cylindres, quatre puis six greens. Avec ce diagramme de dispersion, nous pouvons en
venir à la conclusion que le nombre de cylindres détermine le
kilométrage de la voiture, moins
le nombre de
cylindres dans la voiture sera élevé, plus la myéline sera importante. Cela signifie que si le nombre
de cylindres augmente, le kilométrage diminue. La saisie pour le kilométrage est
plus de six myélines, ce qui réduit. Le nombre de cylindres
s'élève à huit. La quantité de myéline diminue
encore et est plus faible parmi les voitures à
46,8 cylindres. Donc numéro a, la gaine de myéline. Inversement proportionnel
au nombre de cylindres, le nombre de cylindres
dans le moteur de la voiture est inférieur, kilométrage sera plus et le nombre de cylindres
de la voiture sera plus élevé, kilométrage sera moindre. D'accord ? Donc, avec ce type
de nuage de points, nous pouvons facilement arriver
à la conclusion en regardant simplement
le graphique, d'accord ? Et c'est l'un des graphiques les
plus simples que vous puissiez voir et il est assez facile à analyser et à obtenir les détails
à partir du graphique lui-même. Ensuite,
je vais simplement donner
le nom du fichier sous forme voitures
vides et parler de dispersion
, de crépuscule ou de matelas. Donc, ce que je vais faire ici, utiliser
la fonction paire
dans R. Et avec
cette fonction paire nous pouvons placer des
matelas comme des matelas en haut du classement. Et comment pouvons-nous y parvenir ? Nous pouvons prendre les points de données
de l'ensemble de données sur les voitures vides. Et quel que soit le taux. Kilométrage par cylindre de
cylindrée de gallon. À partir de cet ensemble de données, les données sur les voitures
vides, j'obtiens des données égales
à m préfabriquées, cela signifie que nous utilisons cet ensemble de données sur les voitures
vides. À partir de là, nous utilisons ces quatre variables
réparties en quatre colonnes, comme Wait, MPG,
miles par gallon, cylindrée et
nombre de cylindres. Et colonne F4. Ces quatre paramètres
seront utilisés pour créer des graphiques, comme le poids
sera pris et le diagramme de dispersion sera
dessiné en fonction du poids. Et ma liste, poids
et déplacement, poids et nombre
epsilon. De la même manière, myéline sera prise et puis les graphiques ne seront pas comme
Mileage Plus poids moins, plus cylindrée, puis cylindre
Mileage Plus. Donc, le kilométrage par rapport au cylindre, le kilométrage par rapport à la cylindrée, le
kilométrage par rapport au poids. Ainsi, une
variable sera prise et le graphique sera dessiné par rapport
aux trois variables. Ici, je donne le nom de matrice de
nuage de points aux voitures vides . Permettez-moi donc d'abord de
recommander le principal. Et d'abord, je vais utiliser, je vais commencer par le plus simple. Je vais juste essayer de dessiner le député. Ma liste était ce diagramme d'
Epsilon numérique que nous
avons dessiné ici sans paire. Donc, ce que
je vais faire, c'est essayer de dessiner une bière brune uniquement en utilisant du
MPG et un cylindre. Et voyons quelle
sera la sortie. D'accord ? Alors exécutons-le. Et le nom de fichier est
ce C ici. À bientôt. Donc, le même résultat. Mais voici ce que nous voyons, nous le voyons sous forme matricielle. Donc, le voici, il lance des miles MPG par gallon et le
numéro de nage epsilon doc. Vous pouvez donc voir ici MPG miles par gallon et
ici le nombre de bouteilles. Vous pouvez donc avoir 46,8 comme chiffre epsilon pour toutes les voitures à quatre
cylindres. Ils sont regroupés ici pour distances respectives ou soignent la myéline à quatre cylindres ici, puis la myélite à six cylindres, et maintenant c'est ma liste de cylindres. Donc, si vous combinez ces deux, vous
obtiendrez ce nuage de points. Si nous combinons ces deux, nous obtiendrons celui-ci. PDG, nous n'
arriverons pas plus tôt, nous ajouterons ce nombre
de cylindres à ma liste. Ce graphique que nous obtenons, je le mets en
haut de ma liste. Nous assistons maintenant à
l'aversion sur l'axe Y. Ce sera celui du kilométrage. D'accord. Et le nombre de cylindres étant Sonia
et la myéline, c'est Sonya séparément
sous forme matricielle, n'est-ce pas ? La même chose mais dans
des représentations différentes. D'accord. Passons maintenant au code et laissez-moi
commenter cette ligne ,
puis décommentez cette ligne. Maintenant, j'utilise DUF pour les variables. Et laisse-moi m'occuper de ça. Et maintenant, regardez le graphique pour
savoir comment cela se passe. Alors ouvre ça. Voyons maintenant les quatre variables, poids, MPG, cylindrée
et cylindre. Voici donc le poids, la cylindrée
du Majlis et le
cylindre qui aident Sonya. C'est bon. Donc, ce gaspillage est mince. 123 456-789-1011, 12,4 cystéine a été prélevée. OK, laisse-moi planifier en fait. Et avec ces quatre choses, donc un
mari matriciel quatre par quatre, non ? Ainsi, nous pouvons utiliser
ces bières pour créer la matrice graphique
pour cet ensemble de données. Cela créera donc la matrice de
nuage que nous pourrons utiliser pour
créer des matrices de blocs. D'accord. Rendez-vous lors de la prochaine conférence.
38. Trouver la moyenne en R: Bonjour et bon retour. Dans les prochaines conférences, nous allons en apprendre davantage sur statistiques dans R.
Nous verrons donc quelles sont
les fonctions intégrées à notre programmation
que nous pouvons utiliser pour des analyses statistiques dans R. Et qui seront très
utiles à notre corps. Cela sera très utile pour
l'apprentissage automatique, l'intelligence
artificielle, l'apprentissage
en
profondeur , etc. Les statistiques sont donc essentielles
si nous voulons obtenir des
informations à partir des données. Et l'analyse des articles
est fondamentale pour les
algorithmes d'apprentissage automatique. Nous devrions donc savoir quelles sont
les analyses statistiques et les dortoirs. Au cours des prochaines conférences,
nous allons donc en apprendre davantage
sur ces éléments, l'analyse
statistique
dans notre programmation. Alors allons-y. Il existe de nombreuses
fonctions intégrées grâce auxquelles nous
pouvons effectuer des analyses statistiques. Et ces fonctions sont des outils
très utiles Il suffit de les utiliser pour utiliser le nom de la
fonction. Vous
devez transmettre le vecteur
de données, le prendre avec quelques arguments, et votre travail sera terminé. Il est donc assez facile de faire toutes les analyses dans
notre programmation. Nous allons maintenant
voir ce qu'est moyenne et comment
calculer la moyenne. Ensuite, nous verrons également
ce qu'est la médiane. Ensuite, nous en verrons plus. Nous allons donc essentiellement
apprendre dans cette conférence, la
moyenne, la médiane et le mode. OK, alors allons-y. Alors, tout d'abord, qu'est-ce que cela signifie ? La moyenne est calculée en
prenant la somme de toutes les valeurs divisée
par le nombre de valeurs. C'est donc comme dans la moyenne. Vous savez donc comment
calculer la moyenne. Je suppose que vous avez des chiffres 12345 et que vous voulez en
obtenir la moyenne. Vous allez donc faire un plus deux
plus trois plus quatre plus cinq divisés par
le nombre de valeurs. Donc, nombre de flèches jaunes, 5/5, donc vous obtiendrez la moyenne. Donc, la moyenne est méchante. La moyenne est également
équivalente à la moyenne. La moyenne est donc la somme
des valeurs d'un vecteur, de nos données, certaines valeurs des données
divisée par le nombre de données. D'accord, alors laissez-moi vous montrer
comment nous pouvons le faire dans R. Et pour calculer la moyenne, il y a une fonction dans R
appelée fonction principale. D'accord ? Permettez-moi donc d'écrire un
programme pour cela. Tout d'abord, laissez-moi vous dire
ce que signifie la partie syntaxique, puis nous allons
écrire ceci. Pour moi Nous utilisons cette fonction pour dire et quelles sont les choses
que nous allons prendre, nous allons prendre x et ce
sera le vecteur de données. Et puis il faudra
un autre
argument égal à zéro. Et puis il fait noir. Donc, nous verrons ce que cela va faire
et quel est le stream quand
nous aurons
fait nos exercices pratiques. C'est donc juste et puis le
point RM est égal à faux. Et c'est tout. D'accord ? Il s'agit donc de la fonction
principale de base l'art où x est le découpage du
vecteur de données, puis un automatique. Alors, qu'est-ce que X ? X est le vecteur d'entrée. Permettez-moi donc de vous dire ici que x est le vecteur d'entrée, qui contiendra
les données de date. Et puis notre rêve, où
nous utilisons la garniture est utilisé pour supprimer certaines
valeurs des deux extrémités. Donc, si vous donnez un rêve
égal à zéro, il ne perdra aucune valeur. Mais si vous en donnez une, cela supprimera une
valeur de chaque côté. Il en va de même si vous souhaitez supprimer des valeurs des deux extrémités, des
deux extrémités de ce vecteur x. D'accord, nous verrons et
nous comprendrons mieux. Et Dark Adam fera
ce qu'il fera. Cela supprimera simplement
les valeurs manquantes. Il s'agit donc de supprimer
les valeurs manquantes. Donc x est le
vecteur d'entrée, le vecteur de données. Trim correspond aux valeurs de sécheresse provenant à la
fois des extrémités et des
armées de la NMDA. Et enlevez ça. Valeurs manquantes. Supposons que vous disposiez d'un jeu de données et que
des valeurs plus importantes sont manquantes. Donc, si vous souhaitez
supprimer ces valeurs, vous pouvez utiliser celles qui
ne sont pas égales à true. Donc, lorsque cette
image a fini par être qualifiée de fausse, cela signifie qu'elle ne supprimera pas les charges qui n'en ont
pas. Cela ne supprimera pas les index qui ne contiennent pas de valeurs. Lorsque vous l'utilisez comme
vrai, toutes les valeurs
manquantes seront supprimées. OK, j'ai compris. Vous pouvez le dire vrai ou faux
en fonction de vos besoins. Permettez-moi donc de faire un commentaire à ce sujet. Maintenant, ce que nous allons faire, créer un vecteur simple. Donc, ce que je fais ici, je vais créer un rectangle qui est un vecteur
d'entrée. D'accord ? Je vais donc créer
un vecteur d'entrée. Donc, ce que je vais faire, c'est
utiliser des données supposées. Supposons qu'il s'agisse d'un vecteur énorme
comme vecteur d'entrée, ou simplement d'un énorme. Et je vais, je vais, je vais donner
quelques valeurs aléatoires ici. D'accord ? Supposons que j'aie 789, 671-250-6304 à 405-80-9907, moins deux ,
-34, 32 -21,
tous ces habitants. Nous avons donc notre vecteur d'entrée qui contient les valeurs. D'accord ? Et maintenant, supposons que je
veuille trouver de la méchanceté. Donc, ce que je peux faire, je peux simplement utiliser le moyen de
supposer que je vais créer
une variable ici. veut dire souligner un,
ça veut dire dire dire un a. D'accord ? Et je vais simplement utiliser la fonction moyenne et
je vais transmettre celle-ci a, je vais transmettre l'EBITDA ici. Donc, ce que
fera cette fonction moyenne, elle prendra ceci, a fait ce vecteur comme
entrée et elle
calculera la moyenne de ces valeurs. Permettez-moi donc de souligner ce méchant. Cela nous donnera donc la
moyenne de ces valeurs. D'accord ? Laisse-moi exécuter ça. Ici. Nous obtenons
une valeur moyenne de 33,7 8571. C'est donc la moyenne de ces valeurs qui est
la moyenne de ces valeurs. D'accord ? C'est ainsi que nous pouvons les trouver. Moyenne du vecteur
d'entrée par rapport à la
moyenne des données d'entrée. La moyenne de
ces données est donc de 33,78. D'accord ? Ensuite, ce que
nous allons apprendre c'est comment appliquer
et déduire des atomes. Supposons donc que je crée
un autre vecteur ici. Permettez-moi de mettre ce terminal
ou cette console sur la gauche, ce sera EG. Je vais donc passer aux peintures et
je vais mettre ceci sur la droite pour que nous puissions le voir
ici. D'accord. Donc, le méchant est là, d'accord. Maintenant, ce que je vais faire, je le ferai, désolée. Nous allons supprimer
les valeurs manquantes. D'accord ? Supposons donc que j' aie le même vecteur avec des valeurs
manquantes, d'accord ? Il s'agit donc de la valeur manquante. Supposons qu'il y en ait un ici. D'accord ? Donc, pour ceux-ci, nous n'avons pas de
version bêta, donc NA n'est pas applicable. D'accord ? Alors, comment supprimer
ces valeurs manquantes ? Nous pouvons donc simplement, si j'utilise la
méchanceté, souligner un, désolé. Et je vais utiliser la moyenne ou la forme sous laquelle
nous obtenons le résultat. Voyons voir. Alors laisse-moi. voyez, nous ne voyons
aucun résultat car il contient les valeurs NA. D'accord ? Alors maintenant, si je mets la
moyenne d'une virgule et mets en
noir égal à
vrai, que se passera-t-il ? Cela nous le donnera, voyons voir. Désolé, je l'ai utilisé
et c'est faux. Alors laisse-moi recommencer. Vous voyez, nous en obtenons
la valeur maintenant. D'accord ? Si je supprime ceux qui ont
été modifiés à partir d'ici, et si je le réexécute,
que se passera-t-il ? À voir ? Tu vois, on n'en aura pas. D'accord ? Donc, si vous voulez obtenir la moyenne de ce vecteur
faisant chuter la valeur NA, vous
devez utiliser un vecteur indiquant
que l'automne est considéré comme vrai et cela vous donnera le feu vert. Donc, ensuite, ce que
je vais faire,
c' utiliser la fonction de découpage, donc en utilisant l'option Trim ici, d'accord ? Donc, ce que j'ai fait, j'ai créé un vecteur C, qui a ReLU, valeurs
simples, 1234567. D'accord ? Et si je l'exécute
et que je trouve la
moyenne obtiendrai une valeur moyenne. Ça fait quatre. D'accord ? Donc, et comment nous obtenons quatre, car un +2, 361-015-2120
8/7 est égal à quatre. Il s'agit de la
moyenne simple. D'accord ? Maintenant, ce que je vais faire, juste pour sept. Alors. Je vais en mettre un ici, quatre ici et trois ici. Donc, tout simplement, je
mets simplement les valeurs
à un endroit aléatoire. D'accord ? Ce n'est donc pas un tableau
trié, n'est-ce pas ? Donc, si je trouve le moyen, encore une fois, j'obtiendrai la photo. D'accord, nous avons la
même valeur, non ? Que se passera-t-il si je perds un trim égal à
zéro ? Voyons voir. Nous aurons les quatre, n'est-ce pas ? Maintenant, si j'utilise 0,13 égal à 0,1, ce que ça va faire, ça
va trier cette Addie. Il triera cela
par ordre croissant, puis il supprimera
celui où il y a une valeur
de chaque côté. Voyons donc ce que
nous voulons dire ici. Nous obtenons pour Y parce qu'il baissera de 1,7
et le reste de la valeur pour deux plus 244 plus
36 plus 399 plus 514, et puis plus 62020/5
est quatre, n'est-ce pas ? Si je rêve à
Coulter de ce qu'il
peut faire, les deux
Alice tomberont de ses côtés. Et encore une fois, nous obtenons. Permettez-moi donc de mettre l'
original, celui trié. Je vais donc simplement commenter ici
et je vais mettre 123 456,7. Donc, ce que cela fait de
zéro à 0,2 fera, cela supprimera 1,2 de ce
côté et 67 de ce côté. Alors, qu'est-ce qui va mener ? 345. Il va donc rechuter avec le C égal à trois virgule quatre virgule cinq. Donc sept plus trois plus 47 plus 51212 divisés
par les trois quarts. C'est donc là que nous
en avons à nouveau quatre. Que se passera-t-il si j'en mets dix ? Nous appelons 2.3 et exécutons ceci. Il triera et supprimera
trois valeurs de chaque côté. Et encore une fois, nous obtiendrons pour y, nous appellerons si nous retirons 123 de ce côté et
cinq sixièmes de n de ce côté, encore une fois, nous obtiendrons le 41 des
quatre qui seront à gauche, n'est-ce pas ? Il n'en restera que quatre et la
moyenne de quatre sera quatre. D'accord ? C'est ainsi que cela fonctionne. Laissez-moi, je vais mettre quelques
valeurs supplémentaires ici, 910910 ici. Et allons-y. voyez maintenant que nous obtenons
la moyenne sous la forme phi y, car cela
supprimera trois valeurs, 1 234,78, 7 910, de cette recherche. Donc, ce qu'il nous reste
, il nous reste 45,6. Alors 4561, quelle sera la moyenne ? Ça fera 15 ans, non ? Certains pendant 5 s par 15/3. Cela signifie le nombre de
valeurs trois maintenant, donc l'empreinte divisée par trois, nous obtenons, nous obtiendrons cinq. Voici donc comment nous pouvons
utiliser la fonction de découpage. Donc, d'abord, ce qu'il va faire, c'est trier cela dans un centre de villégiature, ce vecteur, et il le
rendra ainsi. Ensuite, cela supprimera trois
personnes que je perds
du côté est , du début à trois
et des trois dernières. Et le reste vous
donnera la moyenne. OK, c'est ainsi que fonctionne
ce rêve. D'accord ? Donc, si vous souhaitez supprimer
les valeurs du
début et de la fin, la
fois la fin et nous
voulons trouver la moyenne, ou vous pouvez utiliser le découpage et
la valeur uniquement Texas 0,1. Vous n'en voulez pas un, c'
est un sans fil de son côté. 0,2 signifie deux lettres venant de moi, disons 0,3 min, trois
valeurs de chaque côté. D'accord ? C'est donc ainsi que cela fonctionne. Et si vous souhaitez supprimer
les valeurs manquantes, vous pouvez utiliser n'importe quel point
arabe égal à vrai. Il supprimera ces
valeurs NA de l'ensemble de données et vous
donnera les valeurs restantes, et il trouvera la moyenne de ces valeurs
restantes. D'accord ? C'est ainsi que fonctionnent nn
dot Autumn and Trim. Rendez-vous dans la prochaine conférence où nous en apprendrons davantage sur la
médiane et comment
trouver la médiane dans l'art.
39. Trouver le médian et le mode en R: Bonjour et bon retour. Dans cette conférence, nous
allons voir comment calculer la médiane
des données, d'accord ? Alors, comment pouvons-nous trouver
la valeur médiane ? Donc, tout d'abord, nous allons savoir
quelle est la médiane. La médiane est donc la
valeur la plus intermédiaire d'une série de données. Supposons donc que nous ayons
cette série de données. Nous voulons donc trouver la
valeur moyenne de cette série de données. Alors allons-y. OK, donc médiane, la plus pertinente, la valeur qui
se trouve au milieu, ne me ressemble pas, qui est la
valeur moyenne de la série de données. Mais c'est la moyenne Si nous traçons ces
données sur des x, quelle valeur
se situera au milieu ? C'est-à-dire la valeur, nous allons
trouver, la médiane. La médiane est donc la
valeur la plus moyenne d'un ensemble de données, c'est correct. Et pour trouver la médiane, nous utilisons la fonction médiane dans r. Nous utiliserons donc
la fonction médiane dans l'art. Donc pas mon ADN, c'est médian. Nous allons donc utiliser cette
fonction, médiane, d'accord ? Utilisez la médiane DIN pour
trouver la médiane. Le jeu de données. Voici donc l'ensemble de données que j'ai créé et voici
la fonction médiane. Et quelles sont les
valeurs qu'il faudra prendre ? Il prendra le E
et le vecteur d'entrée. Et puis il faudra que n'importe quel appel sombre
de l'automne
soit faux ou vrai, vous pouvez donner ce que
vous voulez. D'accord ? Si nous voulons supprimer des valeurs, vous pouvez mettre un point Adam. Si vous souhaitez supprimer
les valeurs N A, vous pouvez les mettre à
Aram égal à false. Nous avons vu comment utiliser le NADH dans la
conférence précédente où nous avons discuté de la moyenne. Donc, à la même fonctionnalité
et à n'importe quel élément de données. Selon false,
cela ne
supprimera pas les valeurs manquantes. Et si n n'est pas égal à
vrai, les valeurs
manquantes seront supprimées. D'accord ? Donc maintenant, si je lance cette série,
ce que nous aimons , je vais obtenir la médiane de cette série. Je vais mettre votre médiane soulignée par un a et attribuer
cette médiane à ceci. Mais
bon sang, cette variable, l'âge médian de soulignement. Alors laisse-moi imprimer ceci. Donc, si nous l'
exécutons, nous obtenons la médiane comme une valeur
moyenne de ces données. La série Seizes en compte neuf, non ? Supposons que j'utilise, je
mettrai d'autres
valeurs aléatoires comme 6745, 2245, 4722, 9979. Et maintenant, si j'essaie de
trouver, on en aura 33. D'accord ? De même, il essaiera de trouver la valeur la
plus moyenne de l'ensemble de données. Je vais le faire gratuitement et
ça fera 44, d'accord ? Il essaiera donc de trouver la valeur la plus moyenne
de l'ensemble de données. C'est ainsi que nous trouvons la médiane d'une
série de données, notre ensemble de données. Maintenant, la prochaine chose est que nous allons apprendre que c'est le mode
recherche. D'accord ? Nous allons donc maintenant
essayer de trouver le mode. Ce que nous avons appris ici, que nous n'avons pas trouvé de médiane. Nous allons maintenant apprendre
comment en trouver plus. Alors, quel est le mode ? mode est la valeur qui contient le plus grand nombre d'
alcalis dans le centre-ville. Supposons que nous ayons ceci. Permettez-moi de copier ceci. Et laissez-moi créer l'ensemble de données pour ce problème de recherche
supplémentaire, d'accord ? Et voici notre ensemble de données où
nous avons le support que 45, 45 se produit plusieurs fois, donc 45 que le vôtre, je vais supprimer ce pseudo 45, puis je vais passer à Diverse. Donc t Here, 45 se répète
1234 fois, non ? Soutenir. Ce mode de recherche
signifie donc mod Easter. Nombre de recherches :
le nombre maximum d'occurrences ou
de valeurs, n'est-ce pas ? mode est donc la valeur qui contient plus grand nombre de
documents dans notre ensemble de données. Contrairement au mode moyen et médian,
il peut comporter à la fois des chiffres et des caractères. Nous allons donc d'abord voir comment
trouver le mode de cet ensemble de données
numériques. Ensuite, nous dirons « essayez de
rechercher également le jeu de
données de caractères ». Donc, si j'utilise un mod parce qu' il n'y a pas de
fonction intégrée pour en trouver plus dans R. D'accord ? Nous allons donc créer notre propre fonction
personnalisée pour déterminer Nous allons donc créer notre propre fonction
personnalisée pour nombre maximum d'
occurrences de
valeurs de données dans un ensemble de données. OK, donc pour cela, ce que je vais faire, c'est
créer une fonction. Donc ce que je peux ici, tu l'auras pour la somme, d'accord ? Je vais donc créer un mode de
fonction régional, d'accord ? Et ce que je vais faire, c'est donner ce nom
comme ils l'ont fait. Allons-y plus.
D'accord. Et pour cela, je vais utiliser la
fonction, puis transmettre cette information. D'accord, alors, quel est
l'ensemble de données ? D'accord ? Et en dessous, ce que je vais utiliser, trouver un âge de soulignement
unique et unique. C'est une valeur si unique que
ce que je veux trouver. Donc, pour cela, ce que je vais utiliser, je vais utiliser une
fonction unique qui appartient à l'art. Et ce que je vais faire, c'est
transmettre ça ici. Cette
fonction unique me donnera donc la valeur unique de
cet ensemble de données. D'accord ? Permettez-moi donc simplement apporter cela à l'école. Ils savent ce que je vais faire. Je vais simplement en utiliser
plus que ce que l'on appelle a. Et ce que je vais faire, je vais simplement appeler cette sélection du mode
Done false et OK, donc et je vais passer un liquide dessus. D'accord ? Permettez-moi donc de le recommander et je
dois le mettre en mode, mode, et cela s'appelle a. D'accord, alors laissez-moi le relancer. Alors voyez ici ce que
j'obtiens maintenant. Je reçois le même
ensemble de données, n'est-ce pas ? Maintenant. Ce que je dois faire, faire quelques
calculs ici. Je dois écrire un peu de
logique ici pour trouver le numéro de valeur unique d'
occurrence d'un particulier. Nous allons découvrir comme
ce numéro 45, le numéro le plus présent
dans cette série. D'accord ? Donc, pour ce que je vais faire, je vais utiliser un trait de soulignement unique a. Et ce que je vais appliquer ici, j'adore jouer à Rich, Dark Max. Et puis j'utiliserai
une tablette, une tablette, une tablette. Et puis je vais utiliser
la fonction match. Et ce que je vais faire,
c'est utiliser des pâtes,
un coma, un produit unique et qui
fait une bonne journée. D'accord. Et maintenant, si j'obtiens le retour, si je lance ce mode, j'
obtiendrai le mode, d'accord ? Oui, 45 ans, je suis
en train de numériser 45. C'est ainsi que nous pouvons le faire. Pour créer une
fonction définie par l'utilisateur pour le mode de recherche. Nous créons donc ici notre propre fonction,
return underscore more, qui prend ce vecteur comme vecteur d'entrée ou les données d'entrée nous donnons ici. Donc, ce jeu de données
sera intégré à cette fonction. Et voici ce que je suis en train de faire, je crée un autre trait de soulignement
unique
et précieux j. Et ici, j'utilise la fonction intégrée à R
qui est unique et unique. Cela donnera donc
une valeur unique. Et puis ce que j'utilise
pour cette découverte, ce trait de soulignement unique que vous n'avez pas attribué
au point max, qui est le, qui apparaît le plus
grand nombre de fois. Je fais donc correspondre ce e,
cet ensemble de données original à
cet ensemble de données unique et trouve quel chiffre se produit la plupart du temps
et j'obtiens le résultat. Je suis donc en train de créer
un autre mode de soulignement j, et j'appelle simplement cette
fonction et elle nous donnera le plus grand nombre d'occurrences, nombre le
plus fréquent de
cet ensemble de données. Ça fait 45. Je suppose un bon 76, la plupart du temps. Et si j'essayais de le lancer
, que se passerait-il ? Voyons voir. Maintenant, 76
est le chiffre le
plus difficile. Ainsi, de cette façon, nous pouvons annuler la même chose avec le texte que votre support MBA. Je souhaite créer un jeu de données avec des caractères
soulignés. Et voici ce que je vais faire, je vais mettre quelques valeurs de chaîne. Supposons que je mette le
nom du pays comme Inde, États-Unis, Afrique
du Sud,
Australie comme ceci. Et ce que je vais faire, c'est y apporter
mon soutien. Ils ont battu cette
Australie à quelques reprises. D'accord. Répétez cette opération en Australie deux fois, d'accord. Et répétez cette feinte deux fois. D'accord. Maintenant, voici le jeu de données dans lequel nous
avons écrit deux fois
et l'Australie deux fois. D'accord ? Et je veux désactiver le mode. C'est ce qu'on appelle un retard. Donc, ce que je peux faire, c'est simplement appeler ce mode de
retour de soulignement. Et je peux simplement transférer
cet ensemble de données ici à ce mode d'
écriture de fonctions, d'accord ? Et si je l'imprime, j'obtiendrai
l'Australie. Alors laisse-moi exécuter ça. OK, donc j'ai oublié de mettre C ici, erreur
stupide que j'ai commise. Alors laisse-moi le mettre ici. D'accord. Alors arrêtons
, c'est bon. Nous nous sommes donc améliorés
parce que nous n'avons pas mis C ici. C'est là que vous entrez dans
le vif du sujet. Et je l'ignorais tellement que je ne l'ai pas vu. D'accord. Je suis vraiment désolée pour ça. Laisse-moi
recommencer et à bientôt. Maintenant, l'
Australie passe au numérique, de
sorte que les hostilités sont signalées
deux fois et la Grande-Bretagne deux fois. Nous allons donc avoir l'Australie. Laisse-moi essayer quelque chose. Comme je l'ai dit, l'Australie
envoie probablement tout deux fois plus. Les deux choses étaient deux fois. Laisse-moi voir ce que nous obtenons. Nous avons la Grande-Bretagne. Donc, quand vous aurez d'abord obtenu les premières subventions d'
actions, accord, alors faites semblant d'
abord, puis l'Australie. Et supposons que
la production soit la production également en
Inde. Deux fois plus que nous voyons ce que nous obtenons. En C, nous avons
l'Inde, comment K. Et supposons une production,
faites semblant d'abord, Curtis. Et je l'ai mis ici. Et si je lance ça, voyons voir, nous aurons
la Grande-Bretagne. Quel sera donc le
premier document auquel on
accordera la
plus haute préférence Ainsi, même si Meridian, l'Inde et l'Australie
se produisent toutes deux fois, cela nous donne le résultat,
car la Grande-Bretagne, nous appelons,
fait semblant de jouer au hockey. Et si je mets l'Australie, permettez-moi de mettre à nouveau l'Australie. Et si je gère ça maintenant, nous arriverons en Australie et nous y attacherons d'
une manière ou d'une autre. Ainsi, nous pouvons mieux déterminer le mode de nos données à partir de nos données. La plus grande valeur marketing
de notre ensemble de données. Nous nous mangeons. Jeu de données de caractères ou jeu de données
numériques. D'accord, nous pouvons donc créer notre
propre fonction que je n'ai pas modalisée, où nous perdons une fonction
unique et nous ferons
ensuite allusion
au point maximum. Et nous allons enregistrer cela
, faire correspondre et trouver le nombre maximum d'occurrences
d'une valeur particulière. Ok, donc de cette façon,
nous pouvons en utiliser plus. Nous avons donc vu se rencontrer dans la conférence précédente et médiane
et mode dans cette conférence. Nous savons maintenant comment utiliser
les bases de ces éléments, à savoir la
moyenne, la médiane et le mode,
dans notre programmation, même si Morty n'
a pas de fonction intégrée. Pour en savoir plus, nous avons créé notre propre fonction utilisateur pour
trouver le mode d'un jeu de données. J'espère que tu dois
comprendre comment procéder. Rendez-vous lors de la prochaine conférence.
40. Qu'est-ce que la régression linéaire: Bonjour et bon retour. Ainsi, dans les conférences précédentes, nous avons vu comment effectuer des analyses statistiques dans R pour l'apprentissage automatique
ou la science des données. Ce sont donc des choses
très utiles et nous
devrions connaître
toutes ces très utiles et nous
devrions connaître statistiques pour aller plus loin dans le domaine de l'apprentissage automatique et de l'intelligence artificielle
ou de l'apprentissage en profondeur, peu importe ce que vous
souhaitez en savoir plus. Dans ce cours, nous
apprenons la science des données et l'apprentissage automatique
par le biais de notre programmation. Nous avons donc la moyenne, la
médiane et le mode de pelouse, où nous avons vu cette fonction inverse pour
trouver la moyenne et la médiane, alors qu'elle n'a pas de
fonction intégrée pour trouver le mode. Nous avons donc créé une fonction
définie par l'utilisateur qui nous a permis de créer des
polices personnalisées et, pour les trouver, de les calculer davantage. Ensuite, nous avons calculé le mode que nous avons utilisé lors
de la conférence précédente. Vous pouvez donc aller le voir
si vous ne l'avez pas vu. Alors quoi d'autre ? Nous allons maintenant apprendre un concept très important qui s'appelle la régression
linéaire. régression linéaire est très importante et elle est
largement utilisée dans l'apprentissage
automatique et l'intelligence
artificielle. Donc, si vous voulez
aller plus loin, vous devez savoir ce qu'est la régression
linéaire et comment vous pouvez l'utiliser pour prédire. La régression linéaire est donc un modèle
d'apprentissage automatique. Nous pouvons ainsi prédire
les valeurs en nous basant sur, supposons que nous ayons des données, supposons que nous ayons des données ici, taille et le poids, où nous avons le poids de la proportion. Et en fonction du
poids de la proportion, nous calculons la hauteur
ou la largeur et la hauteur. Nous voulons calculer le
poids de la proportion. Donc, tout ce que vous
voulez pour établir la relation entre
ces deux variables, taille et le poids. Nous pouvons le faire et prévoir, supposons qu'il s'agisse des
échantillons de données dont nous disposons, que nous avons collectés
dans le cadre de nos expériences. Nous avons donc maintenant les données sur la
taille et le poids. Et sur la base de ces données, nous supposons que nous avons ces divergences,
jusqu'à 19 ensembles de données ici. Et sur la base de cet ensemble de données, nous souhaitons entraîner notre modèle, un modèle d'apprentissage
automatique, sur un modèle de régression
linéaire. Et supposons que je veuille atteindre une
nouvelle taille pour une personne, je vais donner une nouvelle technologie de pointe qui n'est pas présente dans cette
chronique et je
veux prédire le
poids attendu de cette personne. Donc, ce que je fais, entraîner mon modèle à partir de ces données. Et chaque fois que je donne la nouvelle
taille d'une personne,
le système prédit
le poids de la personne, le poids attendu de la personne sur la base du
calcul et il fera l'affaire. Ainsi, nous pouvons prédire le poids d'une
personne en fonction de sa taille. Nous allons donc nous entraîner avec
ces données et toutes les données, toutes les nouvelles données que nous pouvons donner de la hauteur. Et il prédira le
poids attendu de cette personne. D'accord, c'est donc ce que nous allons faire par régression
linéaire. Qu'est-ce donc que la régression linéaire ? régression linéaire est méthode statistique
tactique utilisée en finance, investissement ou dans toute
autre discipline qui tente de déterminer la force et
le caractère de la relation entre
une variable dépendante, généralement désignée par Y, et une série d' autres variables appelées variables
indépendantes. Alors, qu'avez-vous compris en
quoi consiste ce modèle, s'il existe une méthode pour trouver la relation
entre deux variables, l'une est indépendante,
Hannah qui est dépendante. Alors, qu'est-ce qui dépend de
ce qui est indépendant ? Supposons que, sur la base de la taille, je veuille trouver
le poids de la portion ici,
la hauteur, dont nous donnons la valeur d'entrée, sera appelée variable
indépendante. Donc, ici, la taille sera une variable
indépendante
et le poids
sera la variable dépendante,
car en fonction de la taille, nous prédisons le poids. Donc, en fonction de
la hauteur, l'entrée
que nous
avons comme la hauteur, cela s'appuiera sur la valeur que nous
voulons prédire. En fonction de la hauteur que
nous voulons prévoir. taille sera la variable
indépendante et le poids sera
la variable dépendante. Parce qu'en fonction de la taille, nous prédisons, le poids taille seront des variables
indépendantes, et le poids sera la variable
dépendante. D'accord ? Vous devez donc savoir
ce qu'est une variable dépendante et indépendante, n'est-ce pas ? La variable dépendante est donc désignée par Y. Et les variables indépendantes sont la série d'autres variables. Il y aura donc une feuille. Supposons que vous ayez une
entreprise et que vous
souhaitiez prévoir ses revenus
. Le chiffre d'affaires de l'entreprise ne
peut donc être qu'une variable. Nous pouvons ainsi prévoir, en fonction de plusieurs autres facteurs,
tels que les performances de votre entreprise
, quelle est la solution appropriée,
quelle est la perte ? Hey, combien de clients tu as eu, combien de clients tu as perdus, et comment tu donnes le
Salish à nos sous-entendus. Donc, toutes ces composantes salariales , les
profits, les pertes,
les conditions du marché , sont toutes des variables
indépendantes qui
définiront vos revenus. Les revenus sont donc ici une variable
dépendante et tous les autres éléments
qui vont
affecter vos revenus sont appelés variables dépendantes. peut donc y avoir de nombreuses variables
dépendantes et il n'y aura qu'une seule variable
indépendante que nous allons prédire. D'accord ? L'analyse de régression est donc un processus statistique prédéfini permet d'estimer la
relation entre une variable dépendante,
souvent appelée « résultats ». Donc, le résultat que nous allons
obtenir est appelé variable
dépendante. Et une ou plusieurs variables
indépendantes. Ainsi, une ou plusieurs variables
indépendantes impliquent le salaire, les profits, les pertes , la situation
du marché, toutes
ces choses souvent appelées prédicteurs,
covariables ou caractéristiques. Elles sont donc également
appelées fonctionnalités en fonction des fonctionnalités dont nous
allons prédire la valeur. Je vais publier un truc en particulier, d'accord ? Et ils sont également appelés prédicteurs, car
ils vont nous
aider en termes de revenus ou
de poids d'une personne. forme la plus courante d'analyse de
régression, l'analyse est la régression linéaire. D'accord ? Voici donc une analyse de
régression
multiple, comme une analyse multiple, ou
allaient-ils envoyer une analyse de régression
linéaire simple, de régression linéaire,
etc. D'accord ? Ainsi, dans la
régression linéaire que nous faisons, nous constatons que le chercheur
trouve que la droite une combinaison linéaire
plus complexe qui
correspond le mieux aux données en fonction du critère
mathématique spécifique. OK, alors qu'est-ce que ça signifie mer ? Il s'agit des données du
poids de Nick sur l'axe des
abscisses et de la hauteur sur l'axe des y. D'accord ? Donc, en fonction de la taille, nous allons prédire
le poids de la proportion. Alors voici, si vous voyez,
voici les points. Ces points correspondent à 64, 64, R1, 77 kg, 177, taille. Le poids est
quelque chose de 64 points, non ? Donc, ce point, ce sont les points de
données dont nous disposons. Donc, ce que nous faisons avec la régression
linéaire, nous essayons de trouver une droite ici. Essayez de trouver ici une ligne qui
représentera les données, qui les prépareront. Les données sur les résultats, comme le soutien, vous trouvez ici n'importe quel point, comme 65. Et lorsque vous tracez une ligne ici, elle se croise là, vous obtenez un point et vous vous
basez sur ce poids. Vous obtiendrez que la
hauteur est meilleure que cette valeur de hauteur y, vous obtiendrez la valeur X, n'est-ce pas ? Ce point vous donnera donc
la combinaison x et y, ou des données de hauteur et de largeur, n'est-ce pas ? Donc, lorsque vous tracez une ligne ici, vous aurez la bonne. Supposons que l'on nous donne 65,8 ou que nous donnions
162 la valeur la plus élevée. Donc, quand nous viendrons ici, nous obtiendrons la valeur x ici. C'est-à-dire que ce sera le
poids de la personne. Nous allons donc essayer de trouver
une ligne qui représentera correctement la ligne, d'accord ? Et des données, non ? Données selon des critères
mathématiques spécifiques. D'accord ? Donc régression linéaire, ces deux variables ou
par le biais d'une équation. Dans la régression linéaire,
ces deux variables, dépendantes et
indépendantes, porteront une puissance d'exposant si
les deux niveaux numériques sont un. Parce que nous allons utiliser ces équations linéaires simples écrivez y est égal à m x plus
c. Y est égal à m x plus c, où m est la pente et la valeur
constante, d'accord ? Il en va de même pour une constante, non ? Donc, ici m x m est la pente. Donc, sur cette base, nous pouvons
tracer n'importe quelle ligne, n'est-ce pas ? C'est donc une simple équation
linéaire, n'est-ce pas ? L'équation droite y
est égale à mx plus c. Donc, sur la base de ces X et Y, nous essayons de trouver cette droite qui
représentera véritablement ces données, ces données taille et de poids. Et comme on les appelle,
leur puissance est un, y au carré de m x plus c. La
puissance de x et y est égale à un. C'est ce qu'on appelle une équation
linéaire simple. Et si leur puissance n'
est pas égale à un, cela formera une voiture. Ce ne sera pas une ligne droite. Ce sera une ligne courbe, comme la fonction
sigmoïde ou
quelque chose comme ça, non ? Donc, sur la base de cette équation, j'
essaierai de trouver, d'accord, donc y est la variable de
réponse, n'est-ce pas ? En raison de la valeur y, nous allons prédire en fonction de la valeur x. Et x est la valeur du prédicteur, la valeur ou la variable indépendante. A et b sont appelés coefficients. Ainsi, lorsque nous effectuerons une régression
linéaire, nous essaierons de le trouver. valeurs A et b, Les valeurs A et b,
appelées coefficients, sont des coefficients de régression. Et à partir de ces deux valeurs, a et b, nous trouvons
la valeur y, d'accord ? Et avec cela, nous
obtiendrons ces points, ces points sur la ligne. Et lorsque nous traçons une ligne, jonction de ces points donne une ligne droite ou
une diminution en ligne. Et cette ligne
vous donnera la véritable prédiction
des données. D'accord ? Où est-il utilisé ? Eh bien, nous utilisons la régression
linéaire. L'analyse de régression est donc
principalement utilisée pour deux forces d'
objectif conceptuelles distinctes. L'analyse est largement utilisée à des fins de
prédiction ou de prévision. Supposons que nous ayons des données sur
la taille et le poids. Nous voulons miser sur la hauteur. Nous voulons prédire la
taille d'une personne qui s'y trouve. Nous pouvons utiliser nos prévisions. Supposons que
demain il pleuve ou non, vrais ou faux. D'accord ? Nous pouvons donc faire ce genre de
prévisions, exemple sur la météo,
comme lors d'une journée ensoleillée. Je sortirai par une
journée ensoleillée. Il ne pleuvra pas. prévision, nous pouvons le faire dans la situation de prévision et de
prédiction, nous utilisons la régression linéaire
dans l'apprentissage automatique. Ensuite, une analyse rigoureuse de
la situation peut être utilisée pour établir une relation
fortuite entre les variables indépendantes et
dépendantes Lorsque
vous avez deux variables et dépendantes et indépendantes, vous voulez découvrir comment
elles sont liées. C'est le cas. Nous pouvons utiliser cette régression
linéaire pour trouver la relation entre la variable dépendante et la variable
indépendante. Alors maintenant, comment établir la
régression linéaire ou la régression. Exemple simple que nous
allons prendre à la main, au soleil, qui
consiste à prédire le poids d'une personne en
fonction de sa taille. Donc, si nous connaissons la
taille d'une personne, nous pouvons prédire le poids grâce à cette analyse de régression linéaire. Pour ce faire, nous
devons établir une relation entre la taille et le poids d'une personne
et la manière dont nous procédons, car nous avons ici les données de
hauteur et de largeur que nous allons utiliser
dans notre exemple. Donc, ce que je fais d'abord, nous devons collecter
les données pour lesquelles nous voulons établir
cette relation. Nous aurons donc ces
données, puis nous ferons ce que nous ferons une fois que
nous les aurons. fait, une fois que nous aurons les
données, nous
effectuerons analyse exploratoire des données pour nettoyer les données, s'il y a des valeurs
manquantes, comment nous pouvons les supprimer, quoi comment pouvons-nous ressentir ces données. Donc, ce genre de choses
que nous faisons dans la vraie vie. Mais ici, ce que nous allons faire, que nous aurons trié les données
d'un seul personnage ici. Nous savons donc qu'il
ne faut pas faire toutes les choses que nous verrons dans la dernière partie du cours. Mais pour l'instant, nous avons ici
des données très claires. Donc, ce que nous allons faire, c'est le faire. Nous utiliserons la fonction lm
et nous essaierons d'
établir la relation
entre la taille et le poids. Hauteur et largeur,
y et x, non ? La taille et le poids
essaieront de fonctionner. Le bailleur essaiera de créer un modèle de régression linéaire à
l'aide de la fonction lm. La fonction Lm est la
fonction inverse de R qui
effectuera tous les
calculs mathématiques en arrière-plan. Et cela nous donnera la
relation entre x et y. Écris y et x sont
accentués à l'état humide. Cela créera la véritable fonction
IF Essence. Et quand nous obtenons, lorsque nous utilisons le résumé
de cette essence réelle, si nous pouvons trouver les coefficients a et b et comment
ils sont liés. Sur cette base, nous pouvons tracer
la ligne d'insuline normale. Et nous pouvons également prédire
le poids d'une personne. Tu n'as pas prédit le fonctionnement. Il existe une autre
fonction appelée predict, que nous utiliserons avec
cette relation, à savoir la fonction lm. D'accord, il utilisera donc
la régression linéaire, notre relation que nous avons
établie à cette étape. Et il utilisera ces valeurs
x et y et cette relation et essaiera de tracer la droite de régression pour nous. Nous allons tracer la droite de
régression ici, mais ici avec la fonction de
prédiction. Et la fonction de prédiction
utilisera en interne cette fonction ou relation que nous obtenons grâce à un modèle de régression
linéaire. Et il utilisera ce
modèle pour prédire la taille en fonction du poids. Nous verrons donc comment nous pouvons
procéder lors de la prochaine conférence. J'espère donc que vous avez compris ce qu'est la régression
linéaire. La régression linéaire est
quelque chose comme « support you ». Nous avons les points
et nous voulons faire des prévisions
sur la base des nouvelles données. Nous voulons prédire qu'en
fonction de la taille, je veux,
supposons, sur la base de la taille 230, quel sera le
poids que je veux trouver ? Donc, ici, si nous n'avons que les
points de données, nous ne pouvons pas le faire. Alors, quel
modèle de régression linéaire fera l'affaire ? Cela créera une ligne
droite qui représentera véritablement
ces points de données. Cela sera donc fait à 30 si vous tracez une ligne
ici et ici, le point d'intersection ici, cela vous donnera quelque chose comme
la taille de cette personne. Cela vous donnera donc
une droite de régression. Sur cette base, vous pouvez prédire
la valeur prédictive de R, prédire le poids d'une
personne en fonction de sa taille. D'accord ? Rendez-vous donc lors de
la prochaine conférence.
41. Prévision utilisant un modèle de régression linéaire: Bonjour et bon retour. Ainsi, dans la conférence précédente, nous avons appris ce qu'est régression et ce que
nous avons appris, ce qu'est la régression
linéaire comment nous pouvons l'utiliser
et où elle se trouve. Tu as raison. Voici donc
le système pratique. Et ici, nous allons essayer d'écrire notre code pour implémenter une régression linéaire
simple, laquelle nous utiliserons l'
un des deux vecteurs, x et y, où x contient le poids
des portions. X contenant chacun la taille
du patient ou la taille partielle
de
quelques personnes, d'accord ? Et puis y
contiendra le poids. Donc x est la taille et y contient le poids
correspondant à ce x. D'accord ? Donc, sur la base de l'absence de hauteur
construite sur le x, nous voulons trouver le y, n'est-ce pas ? C'est donc notre ensemble de données, n'est-ce pas ? Donc, en nous basant
sur X, sur la taille d'une personne, nous voulons prédire la taille d' un Saoudien partiel
en fonction de sa taille. Nous voulons prédire le poids
de la personne, n'est-ce pas ? Donc, sur la base de x, nous
voulons prédire le y
, et c'est ici que nous
examinons pourquoi un autre poids. Donc x est la taille et le poids. Et il est assez simple
d'établir la relation entre x et y dans R. Et comme R
a une fonction oh,
lm, la fonction lm
est une fonction de régression
linéaire ou un modèle linéaire. La fonction Lm créera cette relation
entre x et y. Voici
donc la première variable, les premières données
vectorielles de données que nous allons définir ici, à savoir les variables
dépendantes. C'est pourquoi nous voulons
prédire en fonction du x. Ainsi, lorsque nous écrivons ainsi,
cela signifie que sur la base du x, nous allons prédire y. Donc y n'est pas une valeur de prédiction, et x est le prédicteur. X est la
variable indépendante et y est la variable dépendante.
Y. Y dépend parce que la valeur
y dépend
du X fourni, n'est-ce pas ? Donc, quelle que soit la valeur x
fournie sur cette base, notre modèle prédira la valeur y, c'
est-à-dire le poids, n'est-ce pas ? Nous allons donc fournir X qui
est la hauteur de la proportion. Et sur cette base, il
prédira la
variable dépendante Y, qui est le poids et la taille. Nous allons prédire le
poids de la proportion. Donc, cette fonction lm est simple, nous n'allons pas faire le calcul de base car fonction
lm l'
implémentera, trouvera le
coefficient et tout ce qui
permettra d'établir cette relation. Mais dans R, puisque
nous utilisons in vitro dans
des bibliothèques intégrées de fonctions lm, cela créera automatiquement la relation
entre x et y. Et sur cette base,
nous pouvons prédire. Donc, la première étape
consiste à essayer d'établir la relation linéaire
entre x et y, d'accord ? Le prédicteur sera donc ici ou la variable dépendante
sera ici. Et c'est la variable
indépendante. Donc, en fonction de la hauteur, on
prédira x. C'est pourquoi, attendez
la portion. Donc, ici, je
donne simplement un nom de fichier, W, hauteur, poids, un
point PNG, n'importe quel fichier. Laissez-moi, vous pouvez leur montrer
ici ce que je suis en train de faire. Je suis juste en train de tracer les valeurs y, x, y, les valeurs x
sur le plan x y. Et je lui donne une couleur bleue. Tu peux lui donner du vert. Et on peut écrire ici la
taille, le poids, les leçons. Si vous pouvez imprimer les leçons, la régression,
tout ce que vous voulez, vous pouvez le mettre ici, d'accord, puis j'utiliserai la ligne AB. Chaque ligne créera
la droite de régression, et pourtant je fournis le LM. D'accord ? Ensuite, nous verrons comment
nous pouvons
changer et qu'est-ce que c'est ? C'est comme haha, comment vous voulez placer les points de
données sur le graphique. Et puis sur l'axe X, attente de Cagey et sur l'axe Y, la
hauteur en centimètres. D'accord ? Voici donc comment
nous allons le tracer. Et puis ce que je suis en train de faire ici. Je vais fournir le
High-Touch de 170 centimètres. Donc, ici, je fournis X
égal à 170 centimètres. Et sur la base de cette valeur x, je veux prédire le
poids prévu de la personne Y. Donc, je fournis X ici. Je crée donc un DataFrame et je trace x égal à 170. Ce sera le cas, je donne à
cette variable le nom d'une nouvelle arête, d'une nouvelle hauteur. D'accord ? Et puis ce que je fais, je prédis simplement un
musée, la fonction de
prédiction, je prédis et j'utilise cette relation que
nous avons établie. Et je pourvois. La
variable indépendante qui est x. Cette valeur x
se trouve
donc ici. Nouveau mouillé. Je fournis un nouveau,
mais c'est un 70, un qui fournit ce que je trace x ici et je
veux prédire le Y. Donc, quand nous l'exécuterons, nous obtiendrons la valeur y. Donc, pour une hauteur de 170 centimètres, quel sera le poids
de la personne qui prédira en
fonction de la relation que nous avons établie dans le modèle linéaire, le modèle de
régression linéaire. Alors laissez-moi exécuter ceci
et voir la sortie z. sortie que nous obtenons est 67.33. Donc, pour 170 centimètres,
la taille d'une personne correspond à une hauteur
de 70 centimètres. Notre système prévoit
qu'il devrait
atteindre le sommet de 67,33. PDG. Si vous en voyez 170, ce sera à peu près cela. OK, je vois 167. Ça l'est. Notre système
prédit pour 1, 70, 67. D'accord ? Il effectuera donc le
calcul mathématique dans cadre de la leçon précédente et nous en aurons fini d'écouter, sur la
base de ce modèle, modèle de régression linéaire
que nous avons créé, il prédira le poids de la personne qui
arrive à environ 67,33. Je vais vous montrer le graphique. Eh bien, voici le graphique
que nous avons imprimé ici. Assurez-vous de voir
ici ces points, les points de données apparaissent en
vert parce que nous les avons
indiqués ici en vert. Si je le fais lire, les points de données seront
convertis en points droits, droits. OK, alors laisse-moi ouvrir
le fichier à nouveau. Les points de données sont en rouge. Et encore une chose que je
voulais vous dire, vous voyez, cette valeur CX
définira si je la
fais supporter la version 2.5 et si je l'exécute, les points de données seront plus grands. D'accord ? Alors à
bientôt, les points de données apparaissent sous une forme plus grande. D'accord ? Ainsi, cette valeur x
permet d'augmenter ou
de diminuer
les côtés des points de données. D'accord ? Et cet article ici, cystéine. Permettez-moi de le remplacer 26 et de voir quel
impact cela a sur le vote. Maintenant, ça arrive comme ça. C'est donc essentiellement ainsi que
vous souhaitez placer vos données. Alors maintenant, ça arrive maintenant. De manière rectangulaire, droite. Si je le mets dans le projet, il arrivera dans un diamant pareil. Donc, en gros, c'est ainsi
que vous voulez placer votre aiguille, comment vous voulez lui
donner une couleur unie. Donc, en gros, la valeur du PC modifiera la forme des
points de données, n'est-ce pas ? Portrait de cystéine, elle se
présentera en cercles plus ou moins circulaires. D'accord ? Maintenant, xlab est ce que nous avons mis sur l'axe X et le nom sur l'axe X
, puis la hauteur sur l'axe Y. Il s'agit donc de la hauteur et de
ce poids de bord. Et c'est le principal
qui, si nous l'avons utilisé, gère la
taille, le poids et la fermeture éclair. Cela va donc venir
ici et voir, oui,
c' est la droite
de régression tracée par notre modèle. Donc, cela vous les donnera. Si vous voulez prédire une valeur, vous pouvez simplement mettre ici 67 et cela vous donnera ce système de
valeurs qui prédira. Alors regardez votre processus T7, la hauteur est, laissez-moi entrer un
peu plus profondément dans les détails. Donc, si vous recherchez 67, la hauteur est de un. Un tel T7. Je ne
voulais pas le préparer. Et voyons ce que notre système prévoit
pour 150, d'accord ? C'est mon port 165. Vous pouvez donc voir
que pour un tel T7, celui-ci aussi. Mais notre système
en prédit cinq. C'est donc similaire à
67.25, 1321 à T7. Et notre système en prédit un qui placera
le point de contrôle et C. Donc, c'est comme
jouer avec le code. Si je verse ça, voyons ce que nous obtenons. C, nous obtenons 65,44. Dans notre jeu de données, qu'est-ce que c'est ? Ça arrive vers 67 ans. C'est ainsi que notre système prévoit. C'est tout à fait exact, d'accord ? Et cela indique la
ligne de régression qu'il a tracée. Nous sommes donc en train de prédire, d'accord ? La prochaine chose que nous pouvons faire,
c'est ressembler à mon état idéal. D'accord ? Ce que je voulais vous dire de plus, que nous pouvons contacter quelqu'un hors cours et nous verrons ce que
cela nous donnera. Donc, si j'accorde du poids
à cela uniquement, PDG, nous devrions obtenir
tous les résidus tels que le minimum, la médiane d'un
quartile, valeurs
maximales du
troisième quartile , puis les
coefficients de copie m et c m et c
m x plus les valeurs c m et c apparaissent comme une interception ici. Et cela vient de cette valeur t et la valeur P vient comme ça. Ce sont donc les choses, la
coopération qui est calculée par la fonction lm. Et sur cette base, il prédit la météo. Et sur cette base, il essaie la lignée
cellulaire en question. Et les multiples
valeurs R au carré du PDG se présentent comme suit. Le R au carré ajusté
se présente comme suit. Et des statistiques F
à venir. D'accord ? Et les valeurs de p ici, nous le verrons par la
suite, dépassent le
cadre de ce cours. Lorsque nous apprendrons, lorsque vous apprendrez en profondeur les
algorithmes d'apprentissage
automatique, vous saurez
ce que sont ces copies
et à quoi elles servent. Cela dépasse le cadre
de ce cours car nous apprenons simplement notre partie programmation pour l'apprentissage
automatique. Vous devez savoir
que la fonction
lm utilisera désormais en interne les
coefficients de coût de
ces mondes 3D et l'erreur
standard qui découlera, car aucun modèle ne
prédira le bouton Connect, donc il y aura une erreur. L'
erreur type résiduelle se situe donc autour cette valeur R au carré de 17 degrés de
liberté. Donc, ce que je veux sont les valeurs prédites
et
la valeur attendue, les valeurs prédites et
tout ce que ce serait. Ce sera donc l'erreur. Tout ce que nous recherchons et quel système donne, il
y aura une modification. Et si c'est une mauvaise journée, nous les ferons
décrire ainsi. D'accord ? Ce sont donc les
valeurs qui seront utilisées par le modèle de
régression linéaire d'apprentissage automatique en interne et pour prédire la variable
dépendante. OK, j'espère que vous
avez compris un
peu ce qu'est un modèle de
régression linéaire et comment utiliser la fonction lm pour
prédire et
comment tracer cette droite de
régression linéaire. OK, donc site Stephen,
prochaine conférence.
42. Lire CSV créant un modèle LR et prédictions: Salut les gars, bon retour. Ainsi, dans la conférence précédente,
nous avons vu comment utiliser modèle de régression
linéaire
et comment créer la relation entre la variable dépendante
et la variable indépendante, et comment nous pouvons prédire, et comment nous pouvons même tracer
la droite de régression linéaire. Je voulais dire une ligne de régression. D'accord, nous avons vu quels sont
les coefficients lorsque nous utilisons le résumé et comment fonctionne le modèle
linéaire pour les pixels, et nous avons vu comment nous
pouvons prédire les données. Mais dans l'
exemple précédent, ce que nous avons fait, nous avons pris le vecteur r, nous avons pris ce vecteur de données pour la taille et leur poids. Ensuite, nous avons créé le
modèle de régression linéaire pour x et y. Et puis nous avons prédit que, dans le monde réel, nous n'
aurons pas les
données dans ce format, dans le format vectoriel. Au lieu de cela, la plupart du
temps, les données nos bases de données se trouvent dans
des fichiers Excel ou CSV. Dans la plupart des cas, il s'
agira d'
un fichier CSV à points, de fichiers séparés par des virgules,
n'est-ce pas ? Tu sais. Donc, dans cet exemple, ce que je vais
faire, je vais vous le dire, comme nous avons déjà
vu comment lire le fichier CSV dans les conférences
précédentes. Et cela, ces connaissances que
nous allons utiliser dans cette conférence pour
créer un modèle linéaire. Et nous allons lire les données
du fichier CSV. Donc, pour cela, j'ai créé avec les mêmes données de taille
et de poids que celles que nous avons utilisées dans la conférence
précédente, j'ai créé un fichier CSV
avec le poids et la taille. Cette colonne est donc le poids
et cette colonne est la hauteur. D'accord ? Il s'agit donc du fichier CSV, hauteur, largeur, point. Et ce que je vais faire, la première étape est de lire
les données du fichier CSV, traiter le fichier CSV. Donc, pour cela, j'
utilise une métadonnée et j'utilise la
fonction read.csv pour lire le fichier CSV. Donc, avec ce fichier read.csv, il va lire le fichier CSV et récupérer les
données dans ce vecteur, cet objet, cet objet de données. Nous pouvons donc voir avec notre fichier read.csv qu'il lit correctement ou non
les données. Donc, pour cela, nous pouvons utiliser la fonction d'affichage et fournir
l'objet à l'intérieur de celle-ci. Ainsi, lorsque cette vue sera ouverte et que
nous aurons cet objet de données, il sera placé ici et il
lira le fichier CSV. Ensuite, avec BYU, nous pouvons
avoir une vue d'ensemble des données. Alors laissez-moi vous
lire ces deux lignes. Regardez ici, nous
obtenons la vue
des données TO sur notre
poids et notre taille. Pareil, désolée. voir les mêmes données que celles que nous pouvons voir dans RStudio avec
la fonction d'affichage Wavefunction verra
les données de cette manière. Nous savons maintenant
que notre fichier de données, données que nous avons lues
à partir du fichier CSV. La prochaine étape consiste à créer le
modèle de régression linéaire à des fins de prédiction. Nous voulons donc prévoir le
poids et la taille. Nous voulons prédire le
poids de la personne. Pour cela, nous allons créer
le modèle de régression linéaire. Nous utiliserons donc
la fonction lm et w ici, le
poids sera la
variable dépendante et la taille sera la variable
indépendante. Donc, en fonction de la taille, nous voulons prédire le poids. Ici, les données sont appelées données. Les données signifient que nous
utilisons ces données. Tu peux lui donner n'importe quel
nom. Tu peux Maintenant, nous pouvons modifier cela avec,
désolé, des données de taille et de poids, désolé, en fait des données W, des données de
taille et de poids. Nous sommes donc en train de manger
leur fichier CSP. Nous allons le mettre ici. Et puis les données indiquent que le CO2
mettra de la hauteur alors que les données, d'accord ? Ainsi, la source de données
est constituée des données de taille et de poids que nous avons obtenues
à partir du fichier CSV. Nous créons ici le modèle de régression linéaire à
l'aide de la fonction LM. Et nous donnons la
variable dépendante ou indépendante ici, attendez, et la variable indépendante
est la hauteur et les données égales à notre source de données
seront ces DEUX données. Permettez-moi simplement faire un commentaire afin que cela
ne nous dérange pas. Et maintenant, nous avons, maintenant, ce modèle. J'ai donné un nom et un modèle. Et nous utiliserons le résumé de notre
modèle pour obtenir les détails. Alors laissez-moi exécuter ces
deux lignes, laissez-moi courir jusqu'ici
parce que nous avons modifié. Alors laisse-moi exécuter ça. Donc, voyez ici,
nous obtenons maintenant le résumé de notre modèle linéaire, un modèle régression
linéaire
tel que le taux de cholestérol ou celui-ci, la médiane quartile. Coefficient maximum du troisième quartile, intersection
étroite, toutes ces
valeurs que nous obtenons ici. Et puis nous obtenons
l'erreur standard. Erreur type égale à 1,21, 0,789, 17 degrés de liberté valeur R au carré
multiple ,
valeur R au carré
ajustée, valeur p. Et nous abordons également
les statistiques, d'accord ? Maintenant, notre modèle, cela signifie
qu'un modèle de
régression linéaire est prêt. Nous sommes maintenant prêts à faire des prévisions sur la
base des nouvelles données. Donc, ce que je fais ici, c'est une nouvelle
hauteur de 152,21. OK, permettez-moi de
le modifier en 16485. D'accord ? Et pour cette taille, je veux prédire le poids, quelle est cette taille de 165,85
centimètres, je veux prédire le
poids de la personne. Donc, ce DataFrame amusant, car quoi que nous
lisions dans le fichier CSV, il s'agira d'un DataFrame. Je suis donc en train de créer un DataFrame ici et d'une hauteur égale à 174,85 et je lui donne un nom sachant que nouvel objet d'
hier
contiendra le site azure 164,85. Maintenant, les derniers jours sont consacrés la
prédiction du poids
à l'aide d'un modèle. Et pour cela, nous
utilisons la fonction de prédiction. Et dans la fonction de prédiction, nous fournissons deux arguments. L'un est notre modèle, modèle que nous
avons créé ici. Donc, ce modèle LM que
je propose ici, sorte que, sur la base cette relation, il
prédira et ce qui prédit. Et nous fournissons les
données relatives à la hauteur. Nous fournissons donc une
hauteur de 164,85 ans. Nous fournissons donc
ici
l'objet de données qui constitue le nouvel avantage. Il prendra donc
cela comme entrée. Il ira à ce modèle. Et sur la base de cette véritable
essence de la hauteur et de la largeur, il évaluera 174,85 et il
prédira le nouveau poids, poids de cette personne. OK, donc maintenant, cela
prédit une certaine valeur. Je le maintiens dans le poids prévu parce que
nous sommes les poids. J'ai donc donné wet predicted
comme nom d'objet. Maintenant, la chose suivante est que nous avons le nouveau poids dans ce
poids répété dans cet objet. Nous devons l'imprimer. Vous pouvez donc utiliser l'impression ici. Mais comme je voulais
imprimer plusieurs lignes, j'utilise la fonction cat. D'accord ? Donc, comme la fonction
printf n'imprime que 11
lignes à la fois, je voulais concaténer
deux phrases. Pour la hauteur. Ce poids prévu est le suivant. D'accord ? Cela n'est donc possible
qu'avec la fonction chat. Nous ne pouvons pas le faire avec la fonction d'impression
car la fonction
d'impression limite à n'
imprimer que les objets, les valeurs des
objets. Elle est la seule à pouvoir imprimer, elle
ne peut pas imprimer la déclaration. Donc, pour cela, j'utilise Cat. Si vous souhaitez imprimer
quelque chose comme ça, vous pouvez utiliser la fonction chat. Maintenant, j'utilise un chat et
j'utilise une hauteur
égale pour modifier
celui-ci en fonction du vent. Le poids prévu correspond à cinq Je suis en train d'imprimer là où
il a été prédit ici. Permettez-moi donc d'exécuter le code
complet ici, donc je vais cliquer sur Source
et le PDG pour la taille 164,85, le
poids prévu est de 661794. Maintenant, avec cela, nous pouvons prédire, donc maintenant notre modèle, ce modèle de régression linéaire prédit un poids de 66,79. Permettez-moi de vous montrer ce modèle et le modèle précédent
donne le même résultat ou non. Donc, ce que je vais faire, au lieu d' un PIP2 dans l'exemple
précédent, je vais mettre 164,85 et je vais essayer de courir
cette dernière année également, nous obtenons le même
résultat, 66,7, 9465. Donc, dans les deux cas, comme
les données sont les mêmes ici, nous les avons conservées sous la forme vectorielle Here et nous les
lisons ici à partir du
fichier CSV, mais les données sont les mêmes. C'est pourquoi nous obtenons
les mêmes résultats les deux modèles. Ainsi, vous pouvez lire le fichier CSV et créer un modèle de régression
linéaire. Ensuite, sur cette base, vous pouvez prédire la valeur, comme vous le souhaitez.
Tu peux le faire. Vous pouvez essayer ce problème avec tous les autres points de données
que vous pouvez avoir. exemple, en fonction de l'âge, vous pouvez détecter le
poids ou en vous basant sur des données
catégorielles, vous pouvez prendre
vos données
et les mettre dans le fichier CSV et vous
pouvez prédire une valeur mais l'autre en créant
le modèle de régression linéaire. J'espère donc qu'avec cet exemple, nous sommes assez confiants
quant à la régression linéaire manière dont nous pouvons créer un modèle de régression
linéaire
pour prédire les valeurs. Et j'espère que vous vous
entraînerez davantage avec cela. Et tu peux faire bien
mieux que ça, non ? Ainsi, lorsque vous vous
entraînez, vous vous améliorerez notre programmation et dans le
domaine de l'apprentissage automatique. J'espère que vous avez compris le modèle de régression
linéaire. Et c'est tout pour cette conférence. Voyons donc ce que nous
pouvons en apprendre davantage.
43. Régression multiple: Dans la conférence précédente, nous avons vu comment
utiliser la régression linéaire. Ce que nous avons vu comme une régression
linéaire utilisant deux vecteurs concerne deux
objets de données tels que le poids et la taille. Et nous avons créé cette
marque licenciée, puis nous avons le hockey. Ensuite, nous avons créé ce fichier
CSV ou
créé notre modèle LM, la relation linéaire entre le poids et la taille
, puis la hauteur et la hauteur. Nous avons prédit la
baisse correspondante de la productivité. Super pour le partiel. D'accord ? Maintenant, c'était la collision linéaire
ou la collision, n'est-ce pas ? Maintenant, avec notre régression
linéaire simple, nous avons
maintenant un autre
problème : nous
sommes la variable
de réponse de notre variable dépendante, ou la valeur que
nous allons prédire lui est attribuée. Elle peut, comme dans la
régression linéaire que nous avons vue, la variable dépendante et les variables
indépendantes. Variable dépendante,
dépendant d'une seule variable, d'un taux variable indépendant. Mais dans des situations réelles, plupart du temps, c'est le résultat ou la valeur que nous
allons prédire. Cela ne
dépendra pas nécessairement d' une seule variable
dépendante. Mais il peut y avoir de très nombreuses
variables indépendantes qui vont définir et affecter
la variable indépendante. Ce n'est donc pas comme dans la situation nous aurons
toujours , car nous aurons
toujours une régression
linéaire simple. Nous pouvons avoir plusieurs variables
indépendantes qui vont
affecter la sortie. Comme en cas de support,
comme cette prévision, la météo. Les prévisions peuvent dépendre de nombreuses situations, par exemple
s'il pleut, de quelle région il s'agit, quel type de nuages s'agit-il ? Et bien d'autres choses encore, non ? Supposons que vous avez une
entreprise et que vous
allez prévoir vos revenus
en fonction de quelques facteurs. Il doit donc y avoir de nombreux facteurs, comme je l'ai dit plus tôt,
comme le
nombre d'employés, la
façon dont nous allons
féliciter vos employés,
qui auront façon dont nous allons
féliciter vos employés, également une
incidence sur vos revenus. Quels sont vos profits et vos pertes ? Si vous réalisez des bénéfices, vos revenus augmenteront. Si vous êtes perdu, vos revenus diminueront. Et si vous n'allez pas le faire, supposons que vous ayez une partie de nos impôts, plus d'impôts, alors vous
allez avoir des recettes
qui influeront sur la situation. De nombreux
facteurs vont donc décider ou définir
vos revenus. Donc, ici, ce problème ne peut pas être traité avec
la régression linéaire. Nous devons utiliser une régression
linéaire multiple car la valeur de
la production ou les recettes
dépendent de nombreux facteurs. Donc, ici, les facteurs sont les
caractéristiques qui seront indépendantes. Les caractéristiques sont les facteurs
qui vont générer des revenus. Donc, dans ce cas, nous aurons comme a, B X1, X2 plus ainsi de suite
et ainsi de suite, bn XN. Cela signifie que b1,
b2, bn et E, tous les coefficients que nous avons vus
plus tard en us, y est égal à mx plus c ici, un
seul axe là. Mais dans la régression multiple,
il y aura b1, b2, b3 devant nous jusqu'à Vn, n'est-ce pas ? Qu'il ne peut y avoir aucun
certain nombre de facteurs qui vont influencer cela d'accord ? Il s'agit donc d'
une régression linéaire simple. Et cette équation concerne la régression linéaire
multiple,
car vous êtes B1, B2. Il peut y avoir un certain nombre de facteurs qui
vont affecter le résultat. régression linéaire multiple,
également connue simplement sous le nom de régression
multiple,
est donc également connue simplement sous le nom de régression
multiple, une technique statistique
qui consiste à utiliser plusieurs variables
explicatives pour prédire le résultat de notre variable de
réponse. OK, alors, ce que je vais faire, c'est vous montrer un ensemble de données. Donc, ce que
je vais utiliser, je vais utiliser des données
réelles
disponibles avec le R, c'
est-à-dire des voitures vides. Donc, données empiriques, cet ensemble de données est disponible
avec le package R lui-même. Ainsi, lorsque vous téléchargerez R, il sera
intégré au package R. D'accord ? Donc des voitures vides, pour que
tu puisses utiliser la vue. Afficher. Les déclencheurs I'm
vous donneront une vue de l'ensemble de données. Alors voyez, c'est l'ensemble de données de divers dieux comme
Martha Jackson, Hornet. C'est inégalé, c'est bon. Il y a donc de nombreuses voitures et
cela représente le nombre de kilomètres par gallon, cylindrée, la
puissance, le poids. D'accord. Il y a donc, il y a de nombreuses années
clés de voiture. D'accord. Donc, tous ces facteurs
vont définir les miles par gallon ou quelques facteurs peuvent ne pas
avoir beaucoup d'impact. Et les vecteurs de terrain
vont avoir un impact plus important. exemple, si vous considérez miles par gallon comme le
rendement que vous souhaitez atteindre, vous devez prévoir
les miles par gallon en fonction de
la cylindrée, puissance et du poids de la voiture. Ensuite, peut-être que le nombre
de bouteilles n'
affectera pas une grande partie
du match, aura beaucoup d'effet sur les miles par
gallon ou, dans certains cas, cela peut avoir beaucoup Lexi ouais, quatre cylindres ont
un -33, 30, 26 de plus. Et si vous constatez
que huit cylindres en ont moins moins deux, ce nombre de cylindres dans le moteur affectera la myéline. Il s'agit donc d'un facteur. Alors. cylindrée peut également avoir un effet sur
le kilométrage moyen de la voiture. Et puis lisez bien, la voiture
va également avoir une incidence. Voyez ici qu'il
existe différentes caractéristiques, notamment les variables indépendantes, le nombre de
cylindrées, poids et le nombre de vitesses. Ce sont donc les
choses qui
vont affecter la myéline. Nous devons donc utiliser une régression
multiple si
vous souhaitez prédire le kilométrage ou par voiture en fonction du nombre de
cylindres, du poids. Si
vous voulez prendre en compte tous ces facteurs, nous devons utiliser cette régression
multiple. Et
si vous voyez cette équation
de régression multiple,
voici b0, b1, b2, x2 et x1. Ce X one peut donc être
le poids de la voiture, plus peut être la
cylindrée de la voiture. Et le X3 pourrait être
l'autre facteur, comme le nombre de
cylindres de la voiture. Donc, ce b1, b2, b3 be, pour tous
ces coefficients, décideront en
fonction de la manière dont X1 ou le poids de
la voiture affectent le Majlis global ou la
moyenne de la voiture. Donc, sur la base de ces valeurs, décidera si c'est a, b1 est supérieur à
ce que ce poids du
X1 sera plus juste ? De cette façon, nous pouvons utiliser
la régression multiple. Donc, ce que je vais faire lors de
la prochaine conférence, c'est faire des exercices pratiques sur cet
ensemble de données sur les voitures vides. Et nous essaierons d'utiliser régression linéaire
multiple
ou une régression multiple pour prévoir les miles par gallon ou faire la moyenne
d'une voiture en fonction des caractéristiques qui dépendent de cela, donc ici, la cylindrée, poids de la voiture. Toutes ces variables seront dépendantes
ou indépendantes. Et les miles par gallon
seront les variables dépendantes. Cela signifie que ces valeurs seront poids du
cylindre de
la voiture, le nombre de cylindres, le poids de la voiture, cylindrée de la voiture, le
nombre d'années passées dans la voiture. Ce seront les prédicteurs et les miles par gallon
seront la valeur prédite. Ou bien il s'agira des caractéristiques ou des caractéristiques indépendantes, des variables
indépendantes. Et il s'agira de la variable de
réponse, ou de la variable de sortie, ou de la valeur de prévision. C'est ce que nous allons faire dans le cadre d'une leçon pratique
lors de la prochaine conférence. Rendez-vous lors de la prochaine conférence.
44. Prévoir le kilométrage des voitures en utilisant une régression multiple dans R: Bonjour et bon retour. Nous allons donc maintenant faire quelque chose
avec la régression multiple. Il s'agit donc d'un système pratique
soumis à une régression multiple. Nous allons donc utiliser un ensemble de données sur les voitures
vides. Et pour cela, nous
n'allons pas utiliser toutes les colonnes, mais
tout ce qui existe. Mais nous allons utiliser le MPG, cylindrée, le SP,
et attendre Dieu, accord, la puissance et le
poids de la voiture. D'accord. Donc, sur la base de ces trois points, nous allons prévoir kilométrage de la voiture ou
la moyenne de la voiture, miles par gallon en haut de la voiture. D'accord, nous allons donc
utiliser ces trois fonctionnalités, ces quatre fonctionnalités
dans notre ensemble de données. Et trois seront les, ces trois seront les variables
indépendantes, et ce NDP sera la variable dépendante
ou la valeur prédite. Et ces trois éléments constitueront le prédicteur
prédit. D'accord ? La première chose à faire est donc de créer le modèle de relation, le modèle de régression linéaire,
notre modèle de régression multiple. Pareil, nous allons
utiliser la fonction lm
que nous avons ici deux pour une régression
linéaire simple. Nous allons utiliser la fonction theme lm, mais avec une formule légèrement
différente. Donc, quoi que nous donnions, écoutez cette soi-disant formule. Et la deuxième entrée est, deuxième argument est les données. D'accord ? Alors ici, permettez-moi de
mettre ces données sur les coûts. Cela a un coût. D'accord ? Alors maintenant, voici les, voici nos données. Cela contiendra ces
quatre fonctionnalités, d'accord ? Et leurs valeurs correspondantes. D'accord ? Donc, les données, nous utilisons les données sur les
coûts que nous
obtenons des voitures vides. D'accord ? Nous allons
créer le modèle. D'accord ? Permettez-moi d'en faire un modèle de
régression linéaire, un modèle de régression
linéaire
multiple, un modèle MLR. Je lui donne le nom. Alors laisse-moi, d'accord. Alors maintenant, notre
couche, que faisons-nous ? Nous n'avions qu'une seule valeur prédite
et un seul prédicteur, n'est-ce pas ? Nous avions donc l'habitude de donner comme ça, d'accord, mariés ou
déplacés, de trouver le Majlis. Mais maintenant, nous avons trois
variables indépendantes qui
vont affecter la
myéline dans la voiture. Nous devons donc donner, ce sera la valeur prédite ou la variable dépendante. Et voici ces trois, nous pouvons donner le déplacement
plus ce p plus le poids. Ces trois variables indépendantes
vont affecter la myéline. Ainsi, nous pouvons utiliser
la fonction lm pour régression
multiple et la régression car nous utilisons plusieurs caractéristiques pour
prédire une valeur. Une valeur prédite
sera fournie en fonction de plusieurs
variables indépendantes, d'accord ? Et des données égales à cos thêta. Alors laisse-moi courir jusqu'ici. Nous allons imprimer le modèle. D'accord, voyons quels sont
les coefficients et tout que nous obtenons en sodium. Donc, voyons maintenant que notre
modèle donne l'interception à 37 et déplacement au vent urogénital 97 au coefficient b
se produit comme suit. Et notre coefficient
est à venir. Voici donc l'interception. Cette valeur d'interception est 37. sera, c'est-à-dire a. Si vous regardez cette formule, y est égal à a plus b1 x1 plus x2 plus bêta trois x trois. D'accord ? Nous en avons donc trois, donc nous en viendrons à trois. X d. En voici 37. Cette valeur d'interception
sera le a, puis B1 sera
le déplacement. B2 sera le HP, le coefficient
HP, et B3 sera le
poids des copies, soit -3,8. D'accord ? Nous avons donc maintenant les valeurs des
coefficients ici. Nous pouvons simplement imprimer
la valeur du coefficient. Si je mets x. Ceci, j'obtiendrai le
coefficient de déplacement. C'est la même valeur que celle que j'
obtiens ici, non ? Donc, ce que je peux faire maintenant, c'est mettre ces
valeurs de coefficient dans cette équation pour obtenir notre valeur prédite
y. Y sera le MPG. Dans ce cas, nos
pilotes, en l'occurrence, nous avons cette interception et
nous avons le B1 comme celui-ci, le B2. Nous l'avons et
ce sera le V3. Maintenant, si nous avons une voiture d'une
cylindrée 324 et d'une puissance de 110
et d'un poids de 2,5. Nous pouvons prédire la
moyenne en ajoutant ces valeurs
au coefficient et les choses
séparent cette formule. Donc, ce que je vais faire, y est égal à un plus, donc a sera cette
valeur 37, d'accord ? Et x sera l'interception
du déplacement, celui-ci. Ensuite, je multiplierai cela par la valeur de déplacement 324. Alors x est p sera le
coefficient de HP, celui-ci. Et je vais
le multiplier par 110. Ce sera la
partie la plus chaude de la voiture. Et puis x t sera le coefficient de poids que
nous obtenons ici, -3,8. Et je vais multiplier cela par
le poids de la voiture. Alors à plus tard,
en mettant simplement dans cette équation, ces valeurs, nous pouvons prédire la production, quelle que soit cette
équation, la production cadeau, ce sera le
kilométrage prévu de la voiture. Alors laisse-moi juste exécuter ceci,
laisse-moi exécuter ces deux lignes. Désormais, le nombre
de miles prévus sur la carte est de 23,87. Donc, sur la base de la question ici, sur la
base de cette équation, car ici, la valeur E
sera de 37 à 0,00, 0937. Et toutes ces valeurs. Et si nous ajoutons ceci, nous obtiendrons la valeur Y. Y est le mpg de miles au-dessus de la voiture. Donc, pour une voiture de
324 cylindrées et 100
CV 10,2, 0,5, notre système prédit que
la myéline est de 23,8 7247. 23,8 sera donc la
moyenne de cette voiture. De même, vous pouvez donner une autre valeur pour
la cylindrée en B et le poids de la voiture. Donc, sur la base de ces trois variables
indépendantes, nous
prédisons une variable dépendante qui est y. Voici
donc
les coefficients et les intersection dans cette équation pour
obtenir le kilométrage de la voiture. C'est assez simple
et assez réel, non ? Nous obtenons le résultat réel, nous obtenons le résultat. Et c'est-à-dire grâce à un
modèle de régression multiple que nous avons créé à travers cette relation,
à travers cette formule. Ici, la formule est que vous ne
modifiez que toutes les autres choses sont assez similaires à
la régression linéaire. Mais ici, si nous voulons encore
ajouter plus de fonctionnalités, vous pouvez placer cette variable plus
indépendante ici. Et il y aura une variable dépendante
ou la variable de sortie. D'accord ? Donc, sur cette base, nous obtenons la
sortie de 23,87. Ainsi, nous pouvons utiliser la régression linéaire multiple et la régression multiple
pour prédire la valeur. Prédisez donc une valeur en fonction des nombreuses caractéristiques et de nombreuses variables
indépendantes. Nous devons utiliser une régression
linéaire multiple.
45. Régression logistique: Bonjour et bon retour. Dans cette conférence,
nous allons apprendre régression
logistique
et voir un exemple simple de régression
logistique et
comment l'utiliser. Bien, tout d'abord, voyons ce qu'
est la régression logistique. Modèle de régression logistique. Le modèle logistique, également
appelé modèle logique, est utilisé pour modéliser la
probabilité d'une certaine classe. Supposons que si vous le souhaitez, vous, si vous avez des données de Watson
où je suis du genre à étiqueter le diabète, étiquetez toutes ces choses. Et sur cette base, vous
voulez prédire si soleil est
en forme ou non, n'est-ce pas ? Donc, ici, la personne
est en forme ou pas en forme. Donc oui, les données sont la sortie dont nous voulons prédire qu'elle est
de nature un peu binaire,
juste là. Il y a deux choses qui conviennent, qui ne conviennent
pas, qui conviennent à une personne ou qui ne conviennent
pas à une personne, n'est-ce pas ? Le modèle logistique est donc utilisé
pour modéliser la probabilité qu' une certaine classe ou que l'
événement existe. Par exemple, si vous écrivez quelque chose de faux,
vous aurez soit un taux de
réussite, soit un taux d'échec. Si vous participez
à des accompagnements vous allez gagner ou perdre. Il y a donc une
sortie binaire droite, passée pâle, gagnant-perdant, vivante, morte,
saine ou malade. Cela peut être étendu pour modéliser plusieurs classes d'événements,
par exemple pour déterminer si une image contient
un chat ou un chien, un lion, n'est-ce pas ? Vous pouvez donc mettre nos e-mails et créer un système
qui les trouvera, qu'il
s'agisse d'images de chats, de chiens
ou de lignes, n'est-ce pas ? Donc, un truc avec un chat,
un chien , un lion, non ? Chaque objet détecté dans
l'image se verrait attribuer une probabilité de 0-1, n'est-ce pas ? Ça peut donc être un chat
ou un chien, non ? Donc, être un chat, l'autre être un chien. Et si vous présentez
n'importe quelle image, elle attribuera soit
la valeur zéro ou un, une probabilité
comprise entre zéro et un. Ça pourrait être 0,5 ou
1,65, comme ça, non ? La probabilité sera donc de
0-1 et toute la somme de toutes les probabilités
sera égale à un car la survenance d'événements, probabilité d'occurrence
d'événements
seraient toujours de un, n'est-ce pas ? Nous utilisons donc notre régression logistique et notre régression
logistique, n'est-ce pas ? L'équation de
régression logistique est la suivante : y est égal à 1/1 plus e puissance a plus b 1X1 plus b2 x2
plus B3 X3, et ainsi de suite. Il s'agit donc
de l'équation
mathématique de la régression logistique. En Python, nous utilisons une fonction GLM vers une fonction GLM pour la régression
logistique. La fonction GLM correspondante est
donc également connue sous le nom de modèle
logistique généralisé, n'est-ce pas ? Glm. Et il contiendra la formule comme nous l'avons fait pour la régression
linéaire. Nous allons donc écrire la formule When avec la variable dépendante et la variable
indépendante, n'est-ce pas ? Ensuite, nous devons
fournir les données sur lesquelles nous voulons exécuter
la fonction GLM. Ensuite, nous devons donner la famille de
polices. Comme une famille. Ici, nous allons utiliser le
binôme dans nos exemples. Donc, ce que je vais faire, utiliser les données sur les voitures
thématiques, les données les voitures
vides que nous
avons utilisées précédemment, n'est-ce pas ? agit donc des données de coût que nous avons également utilisées dans l'exemple
précédent. Et je vais utiliser AIM. L'objectif est comme un système de transmission automatique ou
manuel. Donc, la puissance, le poids et le nombre de cylindres
du moteur, n'est-ce pas ? Et cet EM est
automatique ou manuel. Donc,
les données sur les voitures vides contiennent zéro ou un. Permettez-moi donc de vous montrer, parcourir ces deux
lignes et de visualiser les données. Voir ici, pour toutes les voitures, HP, poids et cylindre, m
est égal à zéro ou à un. C'est une
valeur binaire, zéro ou un. C'est soit automatique,
soit manuel, non ? D'accord. Pour toutes les voitures,
nous avons des données pour m, soit zéro ou un, puis un ou zéro pour toute la combinaison de puissance et de
cylindres. Donc, ce que je vais faire ici dans ce problème, dans cette conférence, ce que nous allons faire avec la fonction GLM ou la fonction de
régression logistique. Sur la base de ce que nous allons faire, il y a quatre choses. Quatre colonnes : am, HP,
poids et cylindre. Nous allons donc essayer de trouver cela. Nous allons faire de ces HP, de ce poids et de ce cylindre des variables
indépendantes. Et m sera la variable
dépendante. Moyens. Nous allons faire des prévisions. Non, je vais bien, donc ce que nous allons faire, vous aider à créer un seul modèle. Nous devrions savoir quels
sont les facteurs ou
les caractéristiques qui auront un
impact sur les valeurs prédites. Plus de soutien. Si nous créons un modèle de
régression logistique avec ces trois variables de
réponse ou des variables indépendantes, il se peut que le
modèle ne soit pas correct car avec ces trois
CV de poids et de cylindres, les trois n'auront pas le
même impact sur le fait que les voitures soient manuelles le fait que les voitures soient manuelles
ou automatiques, n'est-ce pas ? Peut-être que le nombre de
cylindres du cylindre endocast
décidera d'avoir plus d'impact sur la sculpture
considérée comme une servante, comme une boîte automatique ou manuelle ou poids, la voiture a
plus de poids ou de HP. La puissance détermine
le facteur selon lequel les coûts seraient
automatiques ou manuels. Donc, ce que nous allons faire avec la
simple fonction GLM va essayer trouver laquelle de ces trois variables
dépendantes.
Désolé, nous arrivons à ces trois variables
indépendantes ont un impact sur EM. Donc, ce que cela va faire, cela nous aidera à
analyser cela,
quelles sont les caractéristiques que nous devrions prendre en compte pour une analyse plus approfondie. Et laissez l'autre support IP. Nous apprenons que le
poids a
moins d' impact sur Am
que les deux autres. Nous pouvons laisser de côté le poids pour analyse plus approfondie et opter pour le HB
et le cylindre, n'est-ce pas ? Si le cylindre n'a
pas d'impact, pas d'impact, nous pouvons opter pour le SPN Cette analyse nous
aidera donc à trouver la caractéristique non pertinente, la colonne
non pertinente pour décider de l'EM. D'accord, c'est donc ce que nous
allons faire dans cette conférence. D'accord ? Alors, comment allons-nous procéder ? Nous utiliserons la fonction GLM et réécrirons la
formule comme si nous
faisions du m une valeur prédite ou une variable dépendante. Et ces trois variables
indépendantes que nous allons essayer de créer, essaieront de générer
la fonction GLM. Ensuite, avec le
résumé de GLM, j' essaierai de voir quels sont le coefficient et la
valeur p que nous obtenons. La valeur de p décidera l'impact
que notre variable a ou non une valeur
prédite. Valeur P. La valeur P
signifie la probabilité d'apparition de cette chose, accord, la probabilité d'apparition d'un poids sur ce
poids et ce cylindre HP. Donc, si la valeur de p est
supérieure à 0,5, cela signifie que si elle est prise en compte dans le
cadre de la prise
en charge , la valeur de p des HP est supérieure à 0,5 ,
cela signifie que P n'a
aucun
impact, aucun
impact significatif sur l'objectif. Et nous pouvons laisser le HP et
continuer avec la valeur de p. Allez-y avec les variables
indépendantes dont la
valeur de p est inférieure à 0,05. Alors laissez-moi, nous en
avons fini avec cela. Alors laissez-moi, la prochaine étape, prochaine étape est de
procéder à une régression logistique. Donc, ici, je donne le nom d'une
variable aux données de la voiture. D'accord ? Notre ensemble de données est donc cos Theta. Et ici, je suis en train de créer un modèle de régression
logistique. Je vous donne le nom des coûts
que je suis et j'utilise fonction
GLM ici dans la
formule. Ce que l'on me donne, on me le donne en tant que variable indépendante et
dépendante, e
omega, automatique ou manuelle. C'est avoir un
truc binaire, non ? Zéro ou un. Et suis-je en train de donner comme variable
dépendante
la valeur que nous allons
prédire sur la base de
ces trois cylindres, SP et du radar, des variables
indépendantes ou des
caractéristiques qui décideront que je vais
avoir raison. Et les données que j'utilise sur les voitures, données que nous obtenons
du binôme voitures vides et
familles. OK, maintenant, laissez-moi exécuter ceci et imprimer le
résumé des données, le modèle de
régression logistique des données d'
une voiture. Nous avons maintenant utilisé
la fonction GLM et nous en avons imprimé
le résumé. Vous pouvez laisser cette copie imprimée et vous pouvez simplement
exécuter le résumé. Cela vous donnera également
la même chose, d'accord ? Alors voyez, cela
nous donne tout
ce dont nous avons assez. Même la
régression linéaire concerne également le coefficient
et, dans ce cas également, nous appelons la fonction GLM
avec la formule suivante. D'accord ? Et nous utilisons l'ensemble de données, les données de classe et le binôme
familial pour voir votre dividende. Moyenne, médiane du premier quartile, troisième quartile maximum, toutes
ces valeurs que nous obtenons. Ensuite, nous obtenons
les coefficients pour chaque variable indépendante. Donc ici, voyez ici
intercept, nous obtenons cette valeur et
voici la valeur PR, c'est la valeur p dont
je parlais. Si la valeur de p est
supérieure à 050,05, cette variable de précieuse, nous pouvons omettre
cette variable de réponse, n'est-ce pas ? Cela n'a pas beaucoup d'
impact sur l'objectif. Pour cylindre. voit ? La valeur de p est de 0,6 491. C'est bien trop élevé
par rapport à 0,05, non ? Donc cylindre, cela
signifie que la valeur p du cylindre est
supérieure à 0,05. Cela signifie que ce
nombre de cylindres n'a pas d'impact significatif
sur la décision de décider si les coûts seraient
automatiques ou manuels, n'est-ce pas ? Nous pouvons donc laisser le
cylindre suivant, HP, HP, la valeur de p est un schéma de valeurs de probabilité
de 0,084, qui est encore une fois
supérieur à 0,05, n'est-ce pas ? Nous pouvons également laisser le HP car
il a également une valeur de p
supérieure à 0,05. Ensuite, lisez la troisième variable de
réponse. Et sa
valeur de p est de 0,0 276, soit moins de 0,05. Cela signifie que le poids a
un impact sur le poids de la voiture et décidera si
les voitures seront automatiques
ou manuelles, n'est-ce pas ? poids de la carte a donc
un effet significatif sur la valeur m, car
sa valeur de probabilité est de 2,0, 276, n'est-ce pas ? Correct. Alors, à quelles conclusions pouvons-nous en tirer ? Nous pouvons en venir à la
conclusion qu' analyse plus approfondie
nous permettra d'aller plus loin. Si vous souhaitez approfondir notre modèle de régression
logistique, nous pouvons laisser le cylindre et les
HP et nous pouvons la variable
de réponse du poids , car cela n' uniquement
la variable
de réponse du poids, car cela n'a
qu'un impact
significatif sur
la valeur m par rapport au cylindre et à
la puissance. Eh bien, d'accord, nous avons appris qu'à
cause de cette valeur de p, la valeur de p supérieure à 0,05 décidera que la
variable de réponse a un impact significatif sur la variable
dépendante ou non. D'accord, c'est donc
l'utilisation simple de la fonction
GLM que
nous avons apprise. Maintenant. Vous pouvez donc vous entraîner avec cela et prendre
n'importe quel ensemble de données pour
découvrir lequel des réponses les plus efficaces a un impact
sur les valeurs prédites. Et vous pouvez omettre celles qui
n'ont pas beaucoup d'impact sur la
base de la valeur p.
46. Distribution normale: Bonjour et bon retour. Dans cette conférence, nous allons en
apprendre davantage sur la distribution normale. Quelle est donc la distribution normale. Donc, avant de comprendre ce qu'est une distribution normale,
laissez-moi vous dire. Dans la réalité, la plupart des données, la
plupart des données, sont normalement distribuées. Et pourquoi je dis ça ? Parce que si vous examinez les
données relatives à la taille en pieds, supposons
que vous disposiez de données, données sur la taille et le poids, ainsi que de données sur la taille et le poids, serons-nous distribués de manière très, très
normale ? Pourquoi je dis très
normalement distribué ? Parce qu'il est très rare d' avoir une personne qui a très peu de taille. De plus, il est très rare que
la personne se retrouve avec un colis de moins de 3 pieds au ralenti et très haut, comme un colis de
moins de 3 pieds, avec une très faible
probabilité de se produire. Une personne de la taille de
Clifford est très rare, non ? De même, Boston
avec une hauteur de 6,5 pieds libres à 7 pieds.
Pourquoi triade, non ? Dans ce sens, la plupart des données sont
normalement distribuées entre 4,5 et 6 pieds, n'est-ce pas ? Alors pourquoi ce type de distribution de données est connu sous le nom de distribution
normale, d'accord ? Ce type de
distribution bêta est donc connu sous le nom de distribution normale où la plupart des données sont distribuées pour observer
la moyenne des données. Supposons donc que nous
considérions ce graphique, ce graphique comme la
distribution taille-poids de Parsons, alors vous pouvez voir qu'il
représentera ces données. Ceci, ceci, cette fête. Je vais représenter la
hauteur de la selle, le goût du sel de la Thaïlande. C'est le
type C le plus long ou le Parsons avec la plus
grande hauteur de tri. Il est très rare de réussir. Donc, la personne qui nous accompagne trie une taille inférieure à trois
bits a tout à fait raison. Laisse-moi en faire moins de trois. Moins de trois.
De même, largeur Parson, très grande hauteur, non ? Sa taille. C'est également très rare, non ? Supérieur à 6,5, n'est-ce pas ? Ces deux données trient donc moins de 3 pieds et à une hauteur de
6 pieds sont très rares. C'est pourquoi vous
pouvez voir qu'il est très bas dans la courbe normalement
distribuée. Une distribution normale
de la courbe se produit car lorsque nous distribuons, lorsque nous traçons les données normalement
distribuées, elles se présentent sous la forme d'une courbe en cloche. Pourquoi cela se présentera
sous la forme d'une courbe en cloche ? Parce que voyez ici, c'est cas très rare. Il est distribué vers ici et se trouve ici à une très grande
hauteur, 6,5 pieds. Ces deux sont donc
représentés ici. Et la plupart des données, lorsque vous vous dirigez vers ici, sont distribuées. La plupart des données sont
distribuées ici, n'est-ce pas ? Sur cette partie. Correct. C'est donc la moyenne
des données, n'est-ce pas ? C'est donc le moyen. Il s'agit de la
hauteur moyenne des colis. Donc, si vous voyez bien, la
plupart des données sont distribuées de part et
d'autre de la moyenne, n'est-ce pas ? Si vous divisez les données de moitié, vous obtiendrez la moyenne et la
plupart des retraités divisés en fonction de la moyenne. La taille du pasteur
augmente donc et nous
allons suivre la moyenne. Et puis, après la valeur
moyenne, elle augmente et atteint une hauteur très
élevée de 6,5. La plupart des données sont donc normalement distribuées
dans cette région. Et cette région est
la région, n'est-ce pas ? Donc,
la plupart des gens peuvent facilement dire qu'
ils mesurent moins
de 526,5 pieds. après cela, ce
sera la découverte d' une personne d'une
taille de 6,57, c'est très, ils ont demandé que cela
arrive comme ça. Donc, de cette façon, nous obtenons une courbe en cloche, une distribution normale, les courbes sont toujours BellKor et
voici la moyenne. Et c'est ce qu'on appelle l'
écart type. Donc,
écart type par rapport à la valeur moyenne. Donc, plus vous vous
écartez de la valeur moyenne, vous allez de
ce côté ou de ce côté. C'est ce qu'on appelle une distribution
normale. La courbe de distribution normale peut être très riche en glucides comme celle-ci, ou elle peut être comme
celle-ci violette, ou elle peut être comme celle-ci. Cela dépend également de leurs données, mais ce sera la
moyenne des données. D'accord ? Ce sera la moyenne de ces données et ce sera
la moyenne de ces données, n'est-ce pas ? C'est ce qu'on appelle la distribution
normale. La plupart des choses notre vie sont normalement
distribuées, n'est-ce pas ? Ainsi, dans la prochaine conférence, nous verrons quelle
est la propriété de distribution
normale et
comment tracer des données normalement
distribuées.
47. Distribution normale: Bonjour et bon retour. Dans la conférence précédente,
nous avons donc compris ce qu' est la distribution normale
et comment elle fonctionne. Dans cette conférence, nous allons
nous familiariser avec la distribution
normale et nous verrons quelles sont les fonctions
intégrées que nous
avons dans notre programmation
pour la distribution normale. Il existe donc essentiellement quatre types de
distributions normales. Les fonctions sont de niveau dans notre programmation et
elles sont nominales. Cette fonction d norm, qui prend trois arguments
ou trois valeurs en entrée, savoir x mean et sd, est un écart type. Alors, qu'est-ce que X ici ? X est le nombre vectoriel. Comme quoi ?
Vecteur de nombres. Supposons donc que vous ayez un ensemble de données, nous ayons un certain nombre de
preuves indiquant que vous
souhaitez obtenir la probabilité et tout. Donc, pour cela, le vecteur
numérique de sortie fonctionne vecteur numérique des nombres et la
moyenne est la moyenne
que vous voulez, vous devez décider
quelle épingle sur quelle moyenne. Vous souhaitez tracer la distribution
normale. Et puis c'est la moyenne
de l'ensemble de données, d'accord ? Et puis l'écart type, vous devrez donner
l'écart type. La valeur maximale par défaut est un pour l'
écart type. Et nous pouvons donner n'importe quelle
valeur à ce que représente le graphique, mais la valeur par défaut est une. Si vous ne donnez pas de
couleur à quelque chose, par défaut, l'écart type sera
considéré comme un écart type. La norme D est donc une fonction. Et puis nous avons la
norme P qui doit être énorme. Envoie également les premiers chiffres, puis la moyenne et l'
écart type. Ensuite, nous avons la norme Q, qui prend p. P est un
vecteur de probabilités. Ici, X est un vecteur de nombres. Dans la norme qnorm, l'entrée p est
un vecteur de probabilités, puis la moyenne et l'
écart type tels quels, puis nous avons une autre
fonction appelée are non-bank et une fonction
inconnue
prendra comme entrée la
moyenne et l'
écart type également. OK, alors qu'est-ce qu'il y a ici ? N est le nombre d'observations. Cela signifie que la taille de l'échantillon
augmente le nombre total d' échantillons dans lesquels nous allons entrer
et les prélever, d'accord ? Et la moyenne est la
valeur moyenne des données de l'échantillon. Sa valeur par défaut est zéro. D'accord ? Voici ce que nous allons faire et nous donnons l'écart type, la
valeur standard par défaut est un. D'accord ? Commençons donc par une distribution sacrément
normale. Donc, ce que je vais faire d'abord, c'est voir quelle est
la distribution normale pour X et d. Maintenant, quelle est la fonction norme ? Donc, le cadeau nul, la hauteur de la distribution de
probabilité à chaque point pour une moyenne
et un écart type donnés. Cela
vous donnera donc la hauteur de la distribution de probabilité à chaque point du jeu de données. Et pour la moyenne donnée, car la moyenne est l'entrée que nous donnons avec
l'écart type et le vecteur des nombres. D'accord ? Supposons donc que nous
comprenions quel est l'exemple, nous prenons un x comme un nombre d'acteurs
qui sont des nombres corrompus. D'accord ? Quoi que nous fassions ici, nous générons
une séquence de nombres allant de moins cinq à 20. Ensuite, ce qui nous est donné, l'
écart type car nous augmentons moins cinq à 20 en
incrémentant 0,15. D'accord ? Donc, comme -0,15, -5,15,
-5,3, comme ça. D'accord. Il sera donc incrémenté. Le
nombre généré aura été augmenté de 0,5 en blanc, d'accord ? X
dispose donc d'une voie à péage gratuite. Tu vois, c'est ainsi que les chiffres seront générés. D'accord ? Et puis, ce que
nous faisons ici, nous prenons notre vecteur y et fonction normale de la
région D
et nous tracons x comme étant aussi important que X obtenu à partir de cette fonction de
séquence. Cela signifie que je donne 7,5 supposons et l'
écart type que je donne un point. Ensuite, je trace le
graphique avec les x et y. Donc x sera cette valeur et y proviendra de cette fonction
dnorm. D'accord ? Permettez-moi donc de commenter ce x et d'exécuter ce
morceau de code. Alors cliquez ici, c ici. Nous obtenons maintenant ce diagramme de distribution
normal. Donc, ici, la moyenne est de 7,5. Et les données 7,5 sont normalement distribuées avec un
écart type de 0,1. Écart type du point. Donc, si je donne 0,5 de likes, vous voyez, nos données arriveront
comme
ça, elles arriveront comme ça. Si j'en donne un, qui est l'
écart type par défaut, notre graphique
ressemblera à ceci. Si je donnais 1,5, notre graphique se présentera comme suit. Si je le donnais comme outil, notre intrigue se présentera comme suit. OK, vous pouvez donc donner l'
écart type comme pour l'autre quadrant
et tracer x et y, nous allons le faire, nous
traçons les valeurs x et y. D'accord ? Il s'agit donc de 13 toxines totales, ce qui donne la hauteur de la
distribution de probabilité à chaque point. La suivante est donc la norme p nautée p. Qu'est-ce que cela donne à
la probabilité nombre aléatoire
normalement distribué soit inférieur à la valeur d'un nombre
donné, d'accord ? Et elle est également appelée fonction
de distribution cumulative. Nous prenons donc ici le même exemple et
nous incrémentons de 0,4. Ensuite, nous générons
y en utilisant la norme p x. Nous transmettons x ici
dans la fonction p-norm. Et puis je donne à
nouveau à
quelqu'un un par cinq et l'
écart-type. Ensuite, je trace x et y.
Et lorsque nous traçons , nous
obtenons ce type de données. Si je mets un écart type de
support , vous
voyez, nous avons comme ça, d'accord, si je l'augmente par le
vent, Support 0,5.
D'accord ? Ainsi, nous pouvons obtenir la fonction p-norm que nous pouvons utiliser et obtenir
ce type de graphique. Donc, ce que cela lui
donnera, c'est la probabilité nombre
aléatoire
normalement distribué soit inférieur
au nombre donné. D'accord ? Et nous verrons le reste des
deux normes et notre chiffre dans la prochaine conférence.
48. Distribution normale: Dans la conférence précédente,
nous avons vu comment implémenter la fonction dnorm
pour une distribution normale. Et nous avons également vu p Now
pour une distribution normale. Dans cette conférence,
nous allons maintenant voir le sens de qnorm et de Don Funk
pour la distribution normale. Alors, qu'est-ce que la fonction qnorm ? Cette fonction prend la valeur de
probabilité et conserve le nombre dont la valeur
cumulée correspond à
la valeur de probabilité. C'est assez simple
ici, nous allons utiliser l'autre élément important ici. Ce que nous allons faire, c'est utiliser
0,1 et générer la séquence de nombres 0-1 et trois nombres
seront incrémentés de 0,03. Nous allons donc générer une
séquence de nombres de 0 à 1, et chaque nombre sera
incrémenté d'OpenGL ou de trois. Ensuite, nous utiliserons la fonction qnorm tout en fournissant cette entrée
exogène. Et ce que je donne, moyenne S2 et l'
écart type égaux à deux. Vous pouvez donner tout ce que
vous pouvez si vous le souhaitez, donner une
moyenne égale à 1,5, vous pouvez donner
un écart type, vous pouvez donner un ou 1,5 et
voir comment se présente votre graphique pour deux, une
moyenne standard S2 et un
écart-type deux, nous obtenons ce graphique. Et si je l'exécute pour la version 1.5, nous obtenons
quelque chose comme ça. D'accord ? C'est ainsi que nous utilisons la fonction qnorm pour une
distribution normale des données. D'accord ? Maintenant, la prochaine chose est que ne
sont pas anonymes,
utilisés pour générer
des nombres aléatoires pour la
distribution, c'est normal. Alors, quel est notre chiffre et, comme je l'ai dit
dans la conférence précédente, Dexter n comme entrée, n
étant le nombre d'
observations ou de sites d'
échantillonnage, n'est-ce pas ? Donc, quel que soit l'autre
nombre dont nous disposons, la taille de l'échantillon le donnera
comme entrée à la fonction. Donc, ce que cela va faire, c'est prendre la
taille de l'échantillon comme entrée, comme ici, je donne du cartilage
et cela générera des nombres générés
aléatoirement
pour la taille de l'échantillon. Supposons que l'on nous donne
30 ici, taille de l'échantillon. Il va donc générer les numéros du générateur
aléatoire. Ensuite, nous utiliserons
l'histogramme pour dessiner cette distribution normale
en utilisant une console inconnue. Ce vecteur y affichera donc nombres générés aléatoirement à partir de cette taille d'échantillon 30.
D'accord ? Donc, une fois que nous l'
avons exécuté, nous obtenons cet histogramme pour
les nombres
générés de manière aléatoire. D'accord, voici comment nous utilisons la fonction inconnue pour
une distribution normale. Permettez-moi donc d'imprimer y pour que nous
puissions voir quels chiffres nous
obtenons ici, c ici. Donc, si vous cliquez sur Console, voici les chiffres
générés à l'aide du by 30. Il va donc générer des nombres
aléatoires comme celui-ci. Et l'histogramme que nous allons tracer sont des
nombres générés aléatoirement dans un histogramme. Donc c'est le, c'est le y entre moins un et trois,
il est vendu. Et puis sur le support, c'est l'axe X, c'est l'axe Y, c'
est la fréquence. Donc g rho deux, comme des nombres de
moins un à qui apparaissent quatre
fois moins un à zéro. Il s'agit de la fréquence
des nombres et de zéro à 1,122, comme ceci. D'accord ? Permettez-moi donc de modifier les données pour obtenir un support qui le portera à 100. Et si je lance ceci, voyez, nous obtenons
cet histogramme. Et si vous voyez la console, vous verrez que c'est ainsi que nous
utilisons la fonction pnorm pour dessiner le diagramme en utilisant notre fonction inconnue
pour une distribution normale. D'accord ? C'est ainsi que nous utilisons
la distribution normale. Et nous avons vu la norme Qnorm
du Nord-Vietnam et des fonctions
inconnues, la
distribution normale des données. Combien de temps
49. Récursion en R: Bonjour et bon retour. Dans cette conférence, nous allons en
apprendre davantage sur la récursivité
dans notre programme. Alors, qu'est-ce que Dickerson ou qu'
est-ce qu'une fonction récursive ? fonction récursive
est donc une fonction qui s'
appelle elle-même plusieurs
fois, n'est-ce pas ? Alors soutenez-vous si
vous souhaitez effectuer la même opération
encore et encore. Nous pouvons utiliser le
Dickerson pour ne pas agir comme si vous deviez avoir appris comme un chiffre quelque
peu anormal. Certains d'entre vous ont
numéroté toutes ces choses comme ces problèmes, comme trouver des nombres naturels où n peut varier de un à
n'importe quel nombre, n'est-ce pas ? Jusqu'à un pour 100 000,
quelque chose comme ça. Donc, pour résoudre ce
genre de problème, nous devons utiliser le Dickerson
et votre curseur est très important lorsque nous
programmons, n'est-ce pas ? Ainsi, dans notre Also, nous pouvons utiliser
la fonction Dickerson. La fonction récursive
peut s'appeler elle-même encore et encore
pour effectuer les opérations. Et enfin, cela nous
donnera le résultat. Donc, pour comprendre comment fonctionne
la récursivité dans notre
programmation,
nous allons créer un programme simple
pour trouver la somme des nombres
naturels jusqu'à
n en utilisant la récursivité. D'accord ? Nous allons donc essayer de trouver, allons donner un chiffre, n'importe quel nombre. Et nous allons essayer de
trouver la somme des nombres
naturels de
un à ce nombre. Supposons que
je donne 85. Donc, ici, je veux
trouver la somme des nombres
naturels jusqu'à 85 min, un plus deux plus trois plus cinq plus six plus
sept plus huit, jusqu'à plus 85, n'est-ce pas ? Pour résoudre ce
genre de problème, nous devons donc utiliser la récursivité. Donc, ce que je fais ici, simplement écrire
une fonction
simple c'est simplement écrire
une fonction
simple et je lui donne un nom de soulignement n. Cela signifie certains des
nombres naturels, n'est-ce pas ? Quelques soulignements sur n. Et à l'intérieur,
je prends l'entrée comme argument, car n u n sera le nombre de
nombres naturels, n'est-ce pas ? Nombre naturel à partir duquel nous voulons calculer
la somme. Hein ? Ici. Je fais la simple vérification. Ce que je suis en train de faire ici. Je vérifie simplement si n est
inférieur ou égal à un, je le renvoie simplement. Alors pourquoi je vérifie
cette condition ici ? Parce que si n vaut un, nous devons en renvoyer un
car un correspond à un mois. Les nombres naturels
commencent par un. Et parfois, certaines personnes
considèrent les nombres naturels
avec zéro de toutes sortes. Dans le cas de 0,1, nous devons renvoyer ce nombre
lui-même car vous produisez zéro, nous devons renvoyer zéro
et s'il s'agit d'un, nous devons en déterminer
un seul, n'est-ce pas ? Il n'est pas nécessaire d'appeler la fonction
récursive. D'accord ? C'est donc le cas
pour prendre en compte le 0,1 si vous
considérez les nombres naturels,
y compris zéro, et s'il part de un, si vous considérez alors un, d'accord ? Donc, en gros,
les nombres naturels commencent par un, mais parfois les gens considèrent qu'Agile commence à
zéro également.
D'accord ? Et puis je l'utilise, je donne une condition if
, puis j'utilise une
autre condition. Sinon, ce que je fais,
c'est simplement renvoyer Gan et un
peu de Yan plus , c'est-à-dire
supposons qu'un chiffre soit deux, supposons que je vous en donne deux. Supposons donc que ce
nombre soit deux à deux plus la somme égale à moins
un, la somme de un. Donc, ce qu'il fera, c'est environ deux plus
la somme de deux en été pour moins
un. Nous allons en faire la somme d'un. Il arrivera ici et
la somme de un en retournera un. Cette fonction
renverra deux plus un à plus un sera trois. Donc, si nous exécutons cette fonction, nous obtiendrons la sortie
sous la forme trois ici. Parce que certains nombres
naturels allant jusqu'à deux sont trois, non ? Supposons que j'en donne trois
ici. Que va-t-il se passer ? Cela prendra, cela
entrera dans la partie parce que trois ne satisfont pas à
cette condition, n'est-ce pas ? Plus d'un, non ? Il entrera donc dans la partie différente et il ne
renverra que n plus trois
inculpations et plus. Et puis il
les appellera à nouveau lui-même. La fonction s'
appellera elle-même la fonction sum n dans Excel. Et cela fera en sorte que certains
de N trois moins deux, autres en auront deux, d'autres en auront
deux. Alors n est égal à deux,
il viendra ici. Alors, ce que ça va faire, deux plus trois plus deux plus la somme de deux
moins un, la somme d'un. Il va entrer ici et
il en retournera un. Donc trois plus deux plus un. Combien ? Six. Donc ce sexe écrit. Voyez ici que la production
est de six ans. Nous avons donc compris comment cela se passerait. Laisse-moi juste mettre
le temps de commande. C'est la première
fois que cela arrivera ? Ce sera comme bonjour, c'est fait. Trois plus trois plus la
somme du trait de soulignement N. Trois moins 13 moins
un signifie deux. Donc, ça va en provoquer jusqu'à, d' accord, puis ça s'appellera tout seul. C'est ce que l'on appelle la récursion. Encore une fois, à l'étape suivante, ce sera le cas, la prochaine étape
sera écrite en trois, résumant comment cela se produira. Il viendra ici pour fonctionner, prendra l'entrée S2, puis il viendra dans
l'autre partie, mais en plus. Donc, ça va
arriver comme si trois plus deux moins 12, moins 12 moins un, c'est la
somme de un, n'est-ce pas ? La prochaine étape est donc trois
plus deux plus
la somme d'une
eau de plaisir estivale, elle ira, elle appellera
la fonction elle-même. Et cela équivaudra à
la somme d'un. La somme de un renverra
n, c'est-à-dire un. Cela
nous donnera donc le premier résultat. Il y aura donc trois
plus deux plus un. C'est ce qu'on appelle
la ticarcilline, le résultat final que nous
obtenons n'étant que de six. Et voici aussi trois
plus 25 plus 16. Donc ça s'appelle
Records Sun, n'est-ce pas ? Soutenir. Je vais vous donner
un gros chiffre, 785. Il entrera donc dans cette fonction et
appellera 75 moins un, puis 782-52-7875 moins 1784. Ensuite, il arrivera
ici, 74 moins 17823. Il continuera donc à appeler. C'est ce que l'on appelle la récursion. Donc, si nous exécutons ceci, nous obtiendrons le résultat comme ceci. Ok, détends quelque chose, d'accord ? De cette façon, nous pouvons
utiliser la récursivité dans notre programmation pour trouver
la somme des nombres naturels.
50. Trouver un facteur d'un nombre utilisant la récursion dans R: Dans cette conférence, nous allons donc
faire un autre Hansen. Et dans cette conférence,
nous allons essayer de
trouver la factorielle
en utilisant la récursivité. Alors, savez-vous ce qu'est la
factorielle d'un nombre ? Tu dois être sympa, non ? Vous devez avoir étudié cela
dans vos cours de mathématiques. Donc, en mathématiques au lycée, tu dois savoir
ce qui est factoriel. Laissez-moi vous dire
ce qui est factoriel. Factoriel, notre
numéro de téléphone est le produit de tous les entiers compris entre un
et ce nombre supporté Si je dis factoriel de deux, facteur deux sera le
produit de un à deux. Produit des chiffres 1 et 2. Donc, le produit de la factorielle de deux sera un sur deux, non ? Si je dis que la factorielle de trois
est un sur deux sur trois. De même, si je dis factoriel de sept et que nous désignons
le facteur comme ceci. factorielle à sept sera donc une à partir du produit des nombres de 1 à 7. Ce sera donc un sur deux
sur trois en 45 et 6,7
, soit environ 5 040
en produit du nombre. Donc, factoriel pour un nombre
commence à partir de un jusqu'à ce
que ce nombre multiplie chaque nombre et obtienne le produit de
tous les nombres. D'accord ? Donc 1287, si je mets
mon huit factoriel ici, ce sera le produit
des nombres de 1 à 8. Et ce sera autre
chose, non ? Trouvons donc quel en est
le factoriel. Alors laissez-moi exécuter ce programme
et le mettre en ligne. Laisse-moi exécuter ça. factorielle C de huit est 43 20, donc la
factorielle de 8 sera 43 20. C'est ainsi que nous
pouvons trouver la factorielle d'un
nombre en utilisant la récursivité. Permettez-moi donc d'expliquer cette fonction, que nous avons écrite pour trouver
la factorielle d'un nombre. Je suis donc en train d'écrire une
fonction factorielle récursive. Et cela prendra le
numéro comme entrée. Et là, je vérifie si n est
inférieur ou égal à un, je vais simplement
renvoyer le chiffre un, d'accord ? Alors le facteur zéro
est aussi un, d'accord ? Donc, si c'est un ou zéro, la sortie sera
renvoyée comme un. Et si le nombre est
supérieur à un, il ira
dans l'autre partie. Et ici, ce que je
fais, je l'utilise, j'utilise N dans, N dans, puis j'appelle nouveau
la fonction de
la même fonction. C'est ce que l'on appelle le
concentré à être. La fonction
s'appellera elle-même à l'intérieur de la fonction. La fonction
s'appellera elle-même à l'intérieur de la fonction, et c'est ce qu'on appelle la récursivité. Donc, dans cette fonction
factorielle record, nous l'appellerons fonction
factorielle. Et il
vous en faudra n moins un. Cela signifie pour le support
factoriel de celui-ci. Allons-y, puis il ira aux polices
et récapitulera la factorielle. Et l'
entrée sera égale à huit moins 17. L'
entrée sera donc égale à sept, et nous appellerons cet
enregistrement factoriel. Encore une fois, la fonction
viendra ici. Encore une fois, il
arrivera ici et ce
sera huit sur sept, une factorielle record de six. Et comme ça, ce
sera récurrent, non ? C'est ce que l'on appelle la
récursion, elle continuera à s'appeler elle-même
à l'intérieur de la pilule fonctionnelle. Le nombre devient zéro. Ça va ? Ça va donc
commencer de 8 h à 6 h. Et puis
ce sera comme s'il en résulterait un moins 10. Et puis factoriel
de n moins un. factorielle de zéro
deviendra donc un et nous obtiendrons le produit de huit en sept
en six en cinq en quatre en
trois en un. Et c'est ainsi que fonctionne la
factorielle. Permettez-moi de changer ce chiffre à cinq
et cela fera environ 120. Tu vois, la factorielle de
cinq est 120, d'accord ? Voici donc comment la
fonction factorielle intervient dans notre programmation en
utilisant la récursivité. La constante est donc prise en charge et j'écris cette
fonction par rapport à la factorielle. Et dans cette fonction elle-même, j'appelle
la fonction elle-même. Donc, dans la fonction
factorielle récursive, j'appelle cet
enregistrement factoriel. Et c'est ce que l'on appelle la récursivité
lorsque la fonction qui
s'appelle elle-même à l'intérieur
s'appelle le Carson. Lorsque la fonction s'appelle elle-même, elle appelle la voiture son. D'accord ? C'est ainsi que
fonctionne la récursivité dans notre programmation. Nous en avons vu deux exemples. L'une consiste à trouver la factorielle d' une fonction en utilisant la récursivité. Et dans l'exemple précédent, nous avons vu comment trouver
la somme des
nombres naturels à l'aide de la récursivité, où nous construisons cet écosystème pour trouver la somme des nombres
naturels. Et ici, nous avons trouvé la factorielle d'un
nombre en utilisant la récursivité.
51. Échantillonner des données d'une population: Bonjour et bon retour. Dans cette conférence, nous allons
découvrir l'échantillonnage d'
une population à partir d' un
ensemble de données en programmation R. C'est donc très important,
car lorsque nous sommes confrontés à
un problème d'apprentissage automatique, de science
des données ou d'inondation, nous disposons d'un énorme ensemble
de données, n'est-ce pas ? Et nous voulons obtenir des
informations à partir des données, ou nous voulons un échantillon de données. Supposons que nous ayons une
population principalement urbaine et que nous voulions analyser le nombre de Parsons
atteints de diabète. Nous devons donc obtenir
un échantillon de données, les analyser et, sur cette base, nous pouvons créer un modèle
et ensuite appliquer ce modèle à une population
plus large, n'est-ce pas ? Ainsi, le fait de prélever une petite population ou un échantillon de population à partir d'un vaste ensemble de données s'appelle l'
échantillonnage d'une population. En général, échantillonnage d'une version bêta est
très important. Et pour le savoir, nous devons savoir ce que c'est, nos fonctions sont simples, comment créer des vecteurs. Nous savons donc toutes ces choses. Donc, ce que nous faisons, nous verrons un exemple simple de la
façon dont nous pouvons procéder à l'échantillonnage. D'accord ? Il permet donc de gérer l'
échantillonnage et de fournir un
support d'échantillonnage à l'échantillonnage, ou possède une
fonction intégrée appelée échantillon. Donc, notre fonction d'échantillon, cet échantillon SAM PLE simple, cette fonction d'échantillon,
ce qu'elle va faire, elle échantillonnera simplement
la population si nous donnons un échantillon et que nous donnons n'importe quel nombre
entier en entrée. Donc, ce qu'il va faire, c'est échantillonner un
à 20 numéros, signifie qu'il créera
une population, population d'un à 20. Donc, si je lance ceci, voyez ici, laissez-moi l'effacer afin que nous puissions voir correctement la
sortie. Donc, si je lance cet exemple 20, vois ce qu'il va faire. Cela créera des nombres de 1
à 20 dans notre population. Et ce n'est pas contre, ça n'a pas gagné un
certain hasard, d'accord ? Il n'est donc tout simplement pas organisé par ordre croissant
ou décroissant. Juste les chiffres de 1 à 20,
ça va générer. Donc 123, tous les chiffres de 1 à 20. D'accord ? C'est ainsi que nous pouvons créer un échantillon de nombres de 1
à 20. C'est un exemple simple. La prochaine chose est ce que
je vais faire. Je vais créer un vecteur de
1 à 15 nombres. Supposons que c'est le, c'est notre ensemble de données qui
contient les nombres 1 à 21 à 15 ici, je
suis par exemple de un à 20, c'est notre vecteur x où nous conservons
les nombres de 1 à 20. Voici donc la population. Ce x sera connu sous le nom de population car il s'
agit de l'ensemble de données complet
dont nous disposons. Donc X est la population. Et à partir de cette population de x, je veux échantillonner extérieurement
cinq éléments, ou cinq. Je veux un exemple de fichier. Je veux les cinq. Ce sont les marques. Est-ce là, voici le
nombre de personnes préimprimées. Je veux le nombre
de cinq personnes seulement. Je veux donner un échantillon de cinq éléments. Comment pouvons-nous le faire ? Nous pouvons utiliser la fonction d'échantillonnage. Nous pouvons indiquer la
population ici,
x, puis la virgule cinq, le
nombre d' éléments
que vous souhaitez échantillonner à partir de l'ensemble de données sur les lots à partir de X. Ainsi, l'échantillon x virgule cinq
nous donnera les cinq nombres aléatoires de ces grandes données démographiques et créera
un échantillon pour nous. Alors laissez-moi exécuter cela rapidement,
puis échantillonnez l'exon 5. Voir ici. Nous obtenons maintenant 481 410,12 à partir de l'ensemble de données
démographiques, n'est-ce pas ? L'ensemble de données sur le populisme
est celui-ci, d'accord ? De un à 15. Donc, à partir de là, nous obtenons le résultat
aléatoire pour 81 410,12. Il s'agit de notre exemple de jeu de données. Si je le lance à nouveau, il nous donnera cinq chiffres
différents. Vous voyez, maintenant l'échantillon
est modifié et il faut donc choisir
au hasard cinq nombres parmi ce vecteur x ou cette population x, et cela créera
un échantillon de données. Voici donc comment fonctionne notre
exemple de fonction. Ensuite, nous pouvons donner à
replace égal à vrai. Donc, pour celui-ci, remplacez par deux. Cela générera
les mêmes chiffres. Si je le lance à nouveau, il nous donnera les cinq chiffres
différents ici remplacés, ce n'est pas nous donner
la guerre comme elle le fait. si nous utilisons notre échantillon et que nous fournissons des
actes en tant que population, nous utiliserons simplement
remplacer égal à vrai. Que va-t-il se passer ? Voyons voir. Il remplacera l'élément c. Maintenant 51302, 74, 414-151-2312. Tu vois, tous les chiffres
ne sont pas bons, un à 15. Certains nombres ont été
remplacés 131 fois, mais cinq correspondent à une fois, 14 se répètent trois fois, 12 deux fois. Salut, voilà. De la même manière, certains chiffres
seront
remplacés par d'autres chiffres,
comme certains qui soutiennent
un numéro, le support. n'y a personne là-dedans, mais notre ensemble de données
d'origine en comptait un à 15. Mais ici, pas tous les chiffres, de
1 à 15 ici, non ? La plupart des numéros
sont remplacés. Donc, ce qui est
remplacé par la valeur vrai fera l'
affaire, il continuera à remplacer les
nombres de l'ensemble de données. Donc, à partir des
un, deux ou trois pour cent ,
il faudra prendre certaines données, répéter et remplacer
certains chiffres. Certains nombres ont donc
été remplacés par la somme des autres nombres, comme un seul. Supposons que l'un soit répété, l'un ait été remplacé
par quatre, n'est-ce pas ? De la même manière,
14 a remplacé
un autre nombre, comme
six ou quelque chose comme ça. Parce que le sexe manque ici. Il manque ici. Donc,
les 6,8 qui manquaient ont été remplacés par les autres chiffres de l'ensemble de données
sur la population. C'est 14412, non ? Cela permettra donc remplacer le chiffre
en interne et d'
intégrer le sexe à notre échantillon de
population pour nous. Il continuera donc simplement à
remplacer les données les unes
par les autres. D'accord ? Supposons alors que nous ayons un événement où la tête et
la queue lancent une pièce. Nous avons donc deux événements, n'est-ce pas ? Soit on prend la tête, est-ce qu'on va bien ? Supposons que nous ayons
cet exemple d'ensemble de données et un événement réciproque de la tête et de la queue de
H et T. Et nous voulons qu'il soit échantillonné. Cela donnera la
taille de l'échantillon à imprimer et à remplacer
égale à deux. Ce qu'il va faire, il
va simplement l'exécuter, voir ce qu'il va faire. Il créera simplement un échantillon avec un T et un
bord, une tête et une queue. Et il va répéter la tête
et le dire plusieurs fois. Parce que nous avons donné
la taille des échantillons en violet. Cela créera ainsi l'
Edge DHHS, une entité. C'est tout à fait aléatoire. Il s'agit d'un séquençage selon lequel,
si
vous le réexécutez, vous pouvez obtenir une autre
séquence de H et de T, et ce sera un script à la hausse. De cette façon, nous pouvons
créer un échantillon d'événements de tête et de queue. Et nous pouvons donner
les chiffres ici. Si j'en donne cinq, ce sera fait. Cela nous donnera le TTT. Voyez ici les tendances
temporelles auxquelles nous avons donné que cinq queues. queues, des queues arrivent.
Non, il n'y a pas de tête. Si j'y arrive, supposons six. Nous allons maintenant passer à la tête, la queue, à la queue et à la tête. C'est donc assez aléatoire. Ainsi, nous pouvons utiliser
la fonction d'échantillonnage dans la programmation R pour obtenir l'échantillon d'une
grande population, comme nous l'avons fait ici. Nous avons pris cette population x, qui contient les
nombres de un à neuf, et nous n'avons prélevé que
cinq éléments de cet ensemble de données. Et nous avons créé notre
échantillon de cinq éléments. Voici donc comment nous pouvons
utiliser la fonction d'échantillonnage pour obtenir l'échantillon à partir d'un ensemble de données
démographiques, d'accord ?
52. Programme pour vérifier les numéros Prime: Bonjour et bon retour. Dans cette conférence, nous
allons donc apprendre comment vérifier si un
nombre est premier ou non. Tels sont donc les problèmes
auxquels nous pouvons être confrontés lors de nos entretiens de
codage compétitifs, où l'intervieweur peut vous
demander d'écrire un programme pour trouver la somme de n nombres ou s'il faut prendre
un nombre premier
ou non, des nombres pairs
ou des nombres pairs. Comment vérifier un nombre pair, comment prendre un nombre premier. Voilà donc les problèmes, se posent
assez souvent aux examens de synthèse et en
viennent aux tests de programmation. Il est donc préférable de savoir également comment implémenter cela dans notre
programmation. Si vous êtes un scientifique
des données en herbe et un ingénieur en apprentissage automatique
et en IA. Il est donc bon de connaître
les bases, non ? Ainsi, dans la série de conférences, nous
exploitons ces éléments,
comment écrire un programme
dans notre programmation pour trouver un nombre premier, en
particulier dans cette conférence. D'accord ? Ce programme doit donc vérifier si le nombre
est premier ou non. Et le numéro que nous allons
prendre comme entrée jack. Nous demanderons donc
à l'utilisateur de saisir l'entrée, et une fois que l'utilisateur aura saisi
le numéro saisi, nous prendrons ce
numéro d'entrée et nous
vérifierons si ce
nombre est premier ou non. Et pour cela, nous allons
utiliser la boucle for. Donc, si vous savez comment
utiliser if et else, et for loop, vous serez
plutôt doué pour faire ce programme. D'accord ? Et laissez-moi vous dire
ce qu'est un nombre premier ? nombre premier est donc un
entier positif supérieur à un, qui n'a pas d'autres
facteurs que un et le
nombre lui-même. Alors, qu'est-ce que cela signifie ? Supposons que nous ayons un
nombre pour le numéro quatre, nous pouvons écrire sous la
forme de deux en deux. Il y a donc deux facteurs. Deux en deux, deux en
deux, c'est quatre, non ? Il ne s'agit donc pas d'un nombre premier. Supposons que nous ayons un numéro. Supposons que nous ayons le numéro six. Numéro six, nous pouvons écrire
sous la forme deux dans T3. Il y a donc deux facteurs, 2,3. De même, nous avons un numéro. Supposons que nous ayons le numéro cinq. Cinquièmement, on ne peut pas
écrire un facteur, n'est-ce pas ? Nous ne pouvons pas
transformer le chiffre deux en quelque chose comme deux
, nous sommes impatients. Nous pouvons en faire deux en 2,5, mais ce n'est pas correct. Nous devrions avoir les facteurs
entiers au clair. De cette façon, ce n'est pas
possible, non ? Donc, des nombres comme cinq, qui ont un, un facteur,
un et lui-même. Nous pouvons donc écrire cinq sous
la forme de un sur cinq. De même, comme si nous 77, nous pouvons également écrire sous la forme de vouloir sept Wanli. Nous pouvons l'écrire
quelque peu à l'aide d'autres nombres, comme nous
avons écrit six à trois, nous ne pouvons pas, nous ne pouvons pas trouver
un nombre qui puisse diviser. 77 peut être divisé par
un, seul 1,7. C'est pourquoi les
nombres premiers sont des nombres, nombres entiers
positifs
supérieurs à un, qui peuvent être divisés par un. Le nombre lui-même, qui
n'a pas d'autres facteurs que
l'un et le nombre lui-même. Donc les nombres premiers ou deux, puis trois, puis cinq, puis sept, puis LeBron, puis 13, puis 17, et ainsi de suite. Ce sont donc les
nombres premiers, C7. Nous ne pouvons le diviser par aucun autre nombre
sauf un et lui-même, 13 également, 11 également. Il s'agit donc du nombre premier. Nous savons maintenant quels
sont les nombres premiers. Passons à la
résolution de ce problème. Donc, tout d'abord, comment prendre les
entrées de l'utilisateur dans R. Nous pouvons donc utiliser la fonction de ligne de lecture pour
obtenir les entrées de l'utilisateur. Vous devriez donc
connaître la fonction readline, qui comporte un argument
Azure rapide. La fonction readline
sera donc rapide, elle invitera
donc l'utilisateur à le faire. Et quoi que vous écriviez ici, cela s'affichera
sur la console. Et il vous demandera de faire
tout ce que vous écrivez ici supposons que nous saisissons
ici, nous écrivons, veuillez
entrer un chiffre. L'invite prendra donc
le numéro saisi par l'utilisateur et nous le transmettrons
à la fonction de lecture de ligne. Et ici, nous pouvons convertir cette entrée
utilisateur en deux nombres entiers. Donc, ce que nous sommes, c'est que
nous stockons le numéro
saisi par l'utilisateur. 0 et n variables. Ainsi, en tant qu'entier à points, il sera converti en
entier à partir de tout ce que nous obtenons de cette
fonction arborescente via cette invite. D'accord ? Donc, si je lance ceci ici, si je l'exécute, il
nous demandera de saisir un chiffre. D'accord ? Alors laisse-moi éclaircir ça. D'accord ? Ensuite, nous
installons un drapeau. Il est appelé à zéro. Dans un premier temps. Nous allons, nous verrons
pourquoi nous utilisons cet indicateur égal à zéro, et nous verrons également
pourquoi il arrive. C'est une somme, car nous
avons saisi les chiffres. Il nous montre
le même numéro. C'est la somme, ah, modification que nous allons voir. OK, donc nous mettons
le drapeau à zéro. Et puis nous ajoutons le don. Comme je l'ai dit, les nombres premiers sont toujours
supérieurs à un, n'est-ce pas ? Commencez par deux au
357-11-1317 comme ça. Il est donc toujours
supérieur à un. Donc, tout d'abord, nous allons vérifier si le nombre
est supérieur à un. Ensuite, nous entrerons dans la boucle. Et si le nombre n'est pas
supérieur à un, alors ce n'est certainement pas
un nombre premier, n'est-ce pas ? Donc, pour ce drapeau, ce sera zéro. Et pour le drapeau zéro,
ce que nous donnons, pour le drapeau zéro, on ne nous
donne pas un nombre premier. Donc, si vous entrez un nombre en
moins, moins deux,
moins trois , moins cinq
, ils apparaîtront ici. Pulse et ça va donner, ça va. Donc le message indiquant que vous avez saisi un numéro
n'est pas un nombre premier, d'accord ? Et si le nombre
est supérieur à un ? Soutenez 235678,
tous ces numéros. Donc, ce que nous allons faire, c'est
vérifier les facteurs. Et avant de vérifier
les facteurs, ce que nous allons faire, nous allons
régler le drapeau sur un. D'accord ? Un signifie qu'un nombre est
premier, d'accord ? Nous l'avons donc initialement
mis à zéro. Maintenant, pour ce qui est du nudge, nous allons
entrer dans cette boucle
if, if function, if statement, ce que nous ferons si le nombre
est supérieur à un, définira l'indicateur égal
à un au départ. Et puis quel bleu, nous allons créer une boucle en forme de « for ». Et quelle sera la boucle à suivre ? Car la boucle est pour I en deux, car les nombres premiers
commencent par 22 et se terminent par n moins un. Et moins un signifie que
nous saisissons cinq, donc deux à quatre. Donc, en deux à 4 minutes, il faudra quatre à T
pour ces trois chiffres. Et ce qu'il
faudra pour le facteur, que le nombre
soit un nombre divisé par
deux, trois ou quatre, il peut être divisé
par 23,4 ou non. Et puis, si aucune personne, cette personne l'a fait, je ne sais pas, elle vérifiera le facteur si le nombre saisi
est divisé par, supposons que nous saisissons cinq. Il vérifiera donc si le segment
est divisé par deux ou non. Et puis il vérifiera
divisé par trois ou non. Ensuite, il faudra
soit quatre, soit être différent de, égal à zéro. Ensuite, nous mettrons le
drapeau à zéro. Et s'il est divisé par 234, le drapeau sera
égal à zéro et il
sortira de l'instruction for. Cela rompra la boucle du for
et en sortira. Et d'accord, et si n est
égal à, égal à deux,
le drapeau sera égal à un. Donc, ce qu'il va faire ici, c'est vérifier
si le nombre est, supposons que nous saisissions six. Donc six est divisé par deux, non ? Il sera donc égal
à zéro. Il mettra donc le drapeau à zéro et il
sortira de la boucle. Et il signalera. drapeau zéro apparaîtra
dans l'autre partie, et il le fera, donc ce
n'est pas un nombre premier. Supposons que nous en arrivions à cinq. Donc, cinq est divisé par deux. Non, il sortira et le
drapeau aura un an. Donc, le drapeau un signifie que cinq est
un nombre premier, non ? De la même manière,
nous entrons dans huit, donc huit est divisé par, il faudra deux à sept
pour d'abord diviser par deux. Diviser jusqu'à ce
que le drapeau soit égal à zéro. Il sortira de
la boucle et indiquera zéro car ce n'est pas un
nombre premier comme ça. Il vérifiera et nous
donnera le résultat. Soutenez-nous, nous entrons dans 11, il faudra
donc N
divisé par 211/2. Non, il sortira
de la boucle pris en charge. Nous entrons dans la cystéine. Cystéine divisée par 2/2. Oui, zéro drapeau 016
divisé par ça. D'accord ? Il
sortira donc de la boucle en enregistrant, mettant l'indicateur à zéro. Et tous les nombres
ne seront pas des nombres premiers. Et supposons que nous
entrions en 1717/2. Non. Donc, deux se produiront,
cela sortira de la
boucle et le
drapeau sera égal à un. Un drapeau égal à un signifie que
c'est un nombre premier. Et si c'est le nombre que vous avez
saisi, alors directement des
nombres premiers, n'est-ce pas ? Et d'une part, nous
arrivons dans l'autre partie, plus qu'un, nous
arrivons dans l'autre partie. D'accord ? Alors laisse-moi consulter toute cette source. Quel est le problème ici ? OK, laisse-moi le réexécuter. Maintenant, la console
nous demande de saisir un numéro. Supposons que je saisisse un numéro un. Je suis désolée. Supposons que je saisisse un numéro un ici et que j'appuie sur Entrée, que se
passera-t-il ? Un n'est pas un nombre premier. Pourquoi un n'est pas un nombre premier ? Il viendra ici et
vérifiera si n est
supérieur à 100 ou plus. Yan est supérieur à un ou pas. Donc ce n'est vraiment pas le cas, il n'entrera pas dans cette boucle et le drapeau
sera nul pour celle-ci parce qu'il n'entre pas
dans cette boucle if parce que F est un et il viendra
ici, drapeau égal à zéro. Alors maintenant, il va arriver ici. Et il vérifiera que le drapeau est
égal à un nœud. Il viendra donc dans la deuxième
partie et étudiera l'Arabie saoudite. Cela entrera dans
cette autre partie. Et un n'est pas non plus un
nombre premier comme celui-ci. D'accord ? Laisse-moi recommencer. Et si j'en saisis deux, désolé, si j'en saisis deux
ici, que se passera-t-il ? Dans c2, c'est un nombre premier. Pourquoi deux est un nombre premier ? Il va venir ici et c'est
plus qu'un, n'est-ce pas ? Deux est supérieur à un. Ensuite, le drapeau, il en placera un, puis il viendra
ici pour le diviser par, pour le diviser par deux contre
un, n'est-ce pas ? 2/2. Donc C est 2/2 si vous célébrez. Donc ça va sortir
de cette boucle, non ? Et le drapeau en sera un. Deux est donc un nombre premier. Si j'en mets trois, désolée. Si je le répète
et que je mets le chiffre trois, alors il reçoit trois,
c'est un nombre premier. Pourquoi ? Parce qu'il figurera
dans cet indicateur de déclaration if. Cela placera le drapeau à 1,4. Signalez un, ce sera nombre premier, puis il
entrera dans ce I
à quatre boucles en 222, n'est-ce pas ? Donc 3/2, non. Cela va donc briser cette déclaration et le drapeau n'en fera qu'un, n'est-ce pas ? Donc, et ce sera le nombre premier. Ainsi, si vous entrez
soutien sur la longueur ou 17, cellule de soutien
saoudienne
saisit 17 ici. 17 est un nombre premier, pourquoi ? Il va arriver ici et
17, c'est mieux qu'un. Il viendra ici,
placera le drapeau sur un, puis il entrera dedans
pour faire une boucle pour i en 21617/2. Oui 17 n'est pas dévié par deux, il sortira
donc de cette boucle et le drapeau
restera 1.4. Signal 1, le nombre
est un nombre premier et c'est pourquoi ces
17 sont un nombre premier. C'est ainsi que nous pouvons écrire un programme simple pour trouver des nombres premiers
dans notre programmation.
53. Programme pour vérifier EVEN ou ODD: Dans cette conférence, nous
allons écrire un programme dans notre programmation pour
déterminer si le
nombre saisi est pair ou impair. Nous allons donc prendre la
saisie de l'utilisateur et lui demander de
saisir un numéro. Et en fonction de la saisie de l'utilisateur, vous verrez que le numéro saisi par l'utilisateur est un nombre impair
ou un nombre pair. Hein ? Alors, qu'est-ce qu'un
nombre pair ou impair ? Donc des nombres qui sont divisés
par 0/0 sans le reste. C'est ce qu'on appelle le nombre pair. Supposons que nous ayons un nombre
x et que si nous divisons le nombre par deux et que nous
obtenons zéro pour rappel, alors c'est un nombre pair. Et si le nombre est
divisé par deux et qu'
il nous donne du reste,
alors un nombre pair. Donc, tout simplement, si un
nombre est divisé par deux et que le reste est égal à zéro, alors
divisez-le par deux. Et c'est donner une certaine demande, c'est un nombre impair, non ? Passons donc au programme. J'ai donc écrit ici un programme dans lequel je prends l'
entrée sous forme d'entier. Je prends donc l'entrée de
l'identifiant utilisateur sous forme d'entier, et je demande
à l'utilisateur de saisir le numéro, veuillez entrer un nombre. La fonction readline
sera donc utilisée pour prendre en compte l'entrée et l'
invite de l'utilisateur que nous donnons. Veuillez saisir un chiffre. Ensuite, nous convertissons en
un entier yeoja, Ads point. D'accord ? Donc peu importe ce que c'est, un nombre entier, non ? Ensuite, nous
vérifions simplement si ce nombre n est divisé par deux. Et si le reste est nul, alors n est divisé par deux. Si Amanda est égale à zéro, nous dirons que n est un nombre pair. Et si nous obtenons un reste
autre que zéro ou un nombre, n'est-ce pas ? C'est un chiffre impair. C'est si simple. Si n est divisé par deux et que le
reste est égal à zéro, alors s'il s'agit d'un nombre pair, et si le
reste est différent de zéro, c'est un nombre impair, n'est-ce pas ? Alors j'espère que tu as eu l'idée. Alors laissez-moi vous dire quels sont les nombres pairs
et impairs. Donc 24681012. Tous ces nombres
sont des nombres pairs. Et nos chiffres
sont comme 35791113. Tous ces chiffres. Donc, non seulement cela, ça continuera jusqu'à ce que OK. Donc, le numéro que F lady a attendu longtemps avec
Gino exigeait. Demandé est appelé nombre pair. Un nombre impair s'il
indique une valeur
inférieure à zéro. Exécutons donc ce programme
et voyons le résultat. Permettez-moi donc de clarifier cela d'abord. Entrez un numéro. Supposons que je saisisse le numéro 45. Donc, la tension de sortie
qui arrive à 45 avec eux, ou un nombre par 45, est un nombre impair
car si nous divisons 45, nous obtiendrons un, soit une demande, soit deux en 20 à 44,1, nous recevons pour rappel, donc le rappel est différent de zéro. Cela va donc entrer dans
cette autre partie. Et c'était vraiment la méthode selon
laquelle 45 est un nombre impair. Et supposons que je le lance à nouveau, et que si je saisis un chiffre 12, désolé, je vais saisir le chiffre 12, alors 12 est un nombre pair. Supposons que je le lance à nouveau. Et si je saisis un chiffre, ici, doit nous donner un
chiffre pair en ligne droite. Et si je le lance à nouveau, et si j'obtiens cinq, et que j'obtiens cinq, c'est un nombre impair. De cette façon, nous pouvons déterminer
si un nombre est impair ou même une simple
logique et si divisé par deux est égal à zéro. Si ça part de zéro. Pour rappel, nous
disons quel numéro, sinon ce sont des numéros de tri. J'espère donc que ces programmes
simples vous
aideront à comprendre le
fonctionnement de la programmation et votre logique. Et ce sont également des questions très
populaires dans les interviews, en particulier pour un congélateur. Et si nous avions un nouveau diplômé
et que nous recherchions un emploi, ces questions
sont assez courantes stages universitaires, d'accord.
54. Programme pour vérifier Positive Negative ou ZERO: Dans cette conférence, nous allons
écrire un programme dans lequel nous allons vérifier si un nombre est négatif, positif ou nul. Il s'agira donc d'un test
simple où nous
verrons si un nombre est
négatif, positif ou nul. Donc, pour cela, nous ferons la même
chose que nous avons fait dans la conférence
précédente de Linda, mais légèrement différemment ici. Le numéro peut être
attribué à un double lombaire. OK, prenez donc la
saisie comme double et nous utiliserons la
fonction de ligne de lecture et la même invite, veuillez saisir un chiffre. Ensuite, nous vérifierons si le nombre saisi est
supérieur à zéro. S'il est supérieur à zéro, donnera le message. N est un nombre positif. Et s'il est égal à zéro, nous donnerons comme si c'était un zéro. Et dans ce cas uniquement s'il
est différent de zéro. Ensuite, il va d'abord vérifier cela. Si n est supérieur à zéro,
alors postrénal, d'accord ? Ensuite, il
entrera dans la partie else L3 en utilisant un if-else imbriqué. Si le nombre n'est pas
supérieur à zéro, on passera à cette autre partie. Et puis dans cette autre partie, nous vérifions si le nombre est égal à zéro
donnera le nombre égal à zéro. Sinon, si le nombre n'est pas nul
et supérieur à zéro, inférieur à zéro,
alors ce que
nous allons faire, c'est taper cette autre partie. Cela signifie que ce sera un nombre
négatif, n'est-ce pas ? Si le nombre est inférieur à zéro. Si le nombre n'est pas
supérieur à zéro, si le nombre n'est pas
supérieur à zéro, n'est-ce pas ? Mantissa, ça peut être zéro
ou inférieur à zéro, non ? Donc, si c'est zéro,
nous aurons zéro. S'il est inférieur à zéro, nous passerons à l'
autre partie et mettrons le message comme si le nombre nombre
négatif, il suffit de vérifier. Laissons ça.
Laisse-moi éclaircir ça. D'accord ? OK, ici. OK, alors allons-y. Permettez-moi donc de saisir un chiffre
pour soutenir l'Atlanta. Oh, moins cinq. Moins cinq, c'est un chiffre. Je suppose que je vais le
relancer et saisir 45. Désolée. Je vais entrer dans 45 ans. Quatre à cinq, c'est une portion ou
supposons que je recommence, pratique, je vais mettre zéro. J, le
numéro Saudi Tito est zéro. D'accord ? Et puis supposons que je le lance à nouveau et que je donne
un nombre double comme -78.5. Donc -7 578,5 est un nombre
négatif, n'est-ce pas ? De la même manière, si je mets moins huit
, cela donne un négatif. Il s'agit donc d'un
programme simple pour trouver où le nombre est positif,
négatif ou nul.
55. Programme pour vérifier l'année bissextile ou NON: Bonjour et bon retour. Dans cette conférence, nous
allons écrire un programme pour trouver où se trouve cette oreille
, en Bolivie ou non. Alors, qu'est-ce qu'une feuille ici ? Partez d'ici. Vous
aurez droit à un jour supplémentaire , par exemple trois à six
jours par an. 376 jours ici
sont soudainement apparus, non ? Alors, comment déciderons-nous si le chantier ne
sera pas une année bissextile ou non. Il existe donc une formule simple. Si l'oreille est divisée par quatre
et que le reste est égal à zéro, cela pourrait être une Libye, mais ce n'est pas une caisse d'
un litre, n'est-ce pas ? Si l'oreille est divisée par quatre, il s'agit de la fonction du module. Si vous le divisez par quatre et que vous
donnez zéro à n'importe quel fournisseur, cela pourrait être la Libye. Mais nous devons vérifier
une autre condition, savoir si le nombre est
également divisé par cent. De plus, si vous divisez le rapport d'étude de Centraide
et que vous le donnez à zéro, il pourrait s'agir d'une année bissextile, mais nous devons vérifier
si cela est divisé par cent et vous donner
un rappel de 0/100. Le
reste est également égal à zéro. Encore une fois, cela pourrait être un
live ici, mais encore une fois, nous devons vérifier une condition laquelle les données sont encore divisées par 400 et en donnant un
rappel égal à zéro Si cette année est également
divisée par 400, alors ce sera donc
votre année bissextile. Et si ce n'est pas le cas, ce ne sera pas comme en Libye. La première condition que
nous devons vérifier
est donc de savoir si les modifications sont
divisées par quatre, puis nous devons vérifier
si elles sont divisées directement et le reste est égal à zéro complètement divisé, droite, pour votre modèle, cela signifie un module 40. Ensuite, nous avons un projet
encore plus ou moins 100, c'est environ, alors venez zéro
et l'année, le module 400. Ils sont donc également nuls. Si c'est le cas, il a sa, euh, Livia. Livia. OK. Et si, et ici aussi, ce n'est pas un divisé par 100, alors ce n'est pas encore en ligne. sortant également
de ce panneau, passez à l'autre partie. Et si elle n'est pas
divisée par quatre, n'
est certainement pas une année bissextile. D'accord ? Donc là aussi, si l'année n'est pas bien
orientée pour
cela, ce n'est pas une Olympiade. D'accord ? Alors lançons ce programme, soutenons
et entrons en 2020. 2020 est la solution préférée
car elle est divisée par quatre. Il est également divisé par cent. Et il sera divisé, non ? 400 aussi, non ? Eh bien, c'était vraiment juste
vers 400 années 2020. Je savais que j'écrivais pour le oui. Et s'il n'est pas divisé par y, s'il est divisé par cent et que
vous ne vous souvenez que de zéro, alors nous avons le projet 400. Mais voilà, ça nous
donne
quelque chose aux demandeurs, n'est-ce pas ? C'est pourquoi le reste n'
est pas nul ici. On va donc passer à l'
autre partie et ça vous
placera à 20 h 20, c'est la Libye. Donc, si c'est plus
ou moins égal à zéro,
alors nous devons vérifier si c' est
divisé par 400 ou non. Si le module n'est pas égal à zéro, alors on en arrivera
à cette étape et cela nous
permettra de voir que la
Libye des années 2020 soutient à nouveau un cadre
autour de ce module. Et si je donnais 1520-500, oui, assez soudainement,
pour encore ou pas. Donc C et 2051, c'est divisé par quatre. Il va donc venir ici. Il le prendra et le
divisera par 100 ou non. Il est donc entièrement divisé par 100. Ensuite, il va diviser cette boucle et vérifier si elle
est divisée par 400 ou non. Voyez donc 2500/400, ce que cela nous
donnera pour le reste. Il n'est
pas nécessaire que quelqu'un le rende à zéro Il arrivera
donc ici et il
arrivera à l'autre partie, car le reste
n'est pas égal à zéro. Et cette pièce, elle en
imprimera 2 500, n'est pas une Libye. Entrons donc et
voyons le résultat. C, 2 500, ce n'est pas une
feuille ici, non ? De même, si je mets 19 1 900, non seulement la peur, 2 300 2300, je ne pas encore en vie, n'est-ce pas ? Attendez, j'ai
encore besoin de Tao Qian. 12. Si tout à coup, nous comprenons
pourquoi il est en direct ici, parce qu'il est divisé par quatre, alors nous en viendrons
à cela et verrons
si le taux
annuel total de cette année est divisé par 100, ce qui nous donne
un reste de zéro. Non, cela ne
nous donne pas le zéro restant. Nous devons donc vérifier à nouveau. Et cela passera clairement à la partie santé et
cela imprimera Libyan. OK. Ainsi, nous pouvons
écrire un programme pour déterminer si une
divinité particulière dort encore ou non.
56. Programme de table de multiplication: Bonjour et bon retour. Donc, dans cette conférence, nous allons
écrire un programme simple pour imprimer une
table de multiplication, n'est-ce pas ? Aimer une
table de multiplication est une table pour aimer. Supposons que la
table de multiplication soit égale à deux, puis deux à 24, puis à 2,236, soit 2482 dans un tube comme ça. D'accord ? C'est une table de
multiplication si simple que
nous allons imprimer. Et pour cela, nous allons
écrire un programme. J'ai donc déjà écrit le
programme pour gagner du temps. Eh bien, nous allons d'abord prendre
l'entrée de l'utilisateur sous forme d'entier, et nous vous
demanderons de saisir un nombre. Dès que vous aurez
saisi un numéro. Nous allons prendre ce numéro. Et ce que nous allons faire, est faire une boucle. Ce qu'il y a entre un et dix, à cause de la
table de multiplication, nous voulons y mettre fin. 14, jusqu'à dix chiffres
Valley, non ? Alors, ensuite, nous allons
imprimer la multiplication
, calculer le nombre
n. Et ce que nous allons faire, nous allons simplement multiplier N par i. Nous allons
donc d'abord les prendre, ou quelqu'un prendra les chiffres de
trois à trois pour un. La prochaine fois que le tableau
arrivera, j'en serai un. Donc 3,22 et 3,23 jusqu'à dix. Comme ça. Il imprimera la
table de multiplication et, simplement, c'est pour la sortie. Ce sera donc trois en
un égal à 33 en deux. Du sexe comme ça. OK, alors lançons ceci et supposons que j'en
saisisse trois ici. Alors, quel sera le
résultat pour voir trois sur
13 et moi dans un an, accord, donc trois en un égal à 33 en un égal à trois, puis trois sur 26 jusqu'à dix. Donc, si vous souhaitez
augmenter ce nombre, vous pouvez placer un coude de soutien ici. Et si je le publie à nouveau, et si je parie sur trois ans, alors regardez ici, ce sera
en pré-impression. Ainsi, vous pouvez générer la table de multiplication
ou pour n'importe quel nombre n, pour n'importe quel nombre de nombres premiers
jusqu'à obtenir la douleur appropriée, un proton ou ce que vous voulez. Supposons donc que je le lance à nouveau et que je garde le numéro 20, étudiez. Numéro, 25 ans, Atlanta 25. Laisse-moi clarifier les choses. Je vais saisir un chiffre de 25 ans. Je veux générer la table de
multiplication pour 25. 25 en tête-à-tête. Si je voulais choisir t, 25 contre trois équivaut à
75,25 sur dix, s'il vous plaît. Ainsi, nous pouvons générer la
table de multiplication dans notre programme.
57. Quelles sont les valeurs manquantes et les types de valeurs manquantes: Bonjour et bon retour. Dans cette conférence, nous
allons apprendre concept
très important appelé imputation de données manquantes dans. Ainsi, chaque fois que nous réalisons un projet
d'analyse de données, projet d'apprentissage
automatique
ou même un projet de science des données, d'intelligence
artificielle
ou d'apprentissage en profondeur. Quel que soit le projet
que vous menez en lien avec les données, nous devons travailler sur les données. Et l'un des problèmes les plus
difficiles, ou le plus important, est désormais l'
absence de valeurs dans les données. Alors, qu'est-ce que je veux dire par
valeurs manquantes ou données manquantes ? Ainsi, lorsque cela nous aidera
à collecter des données, nous collectons des données à l'aide de sondages ou nous demandons aux gens de
remplir des formulaires. Et pendant que les gens naviguent
sur Internet, nous collectons des données, pendant que les gens naviguent, nous collectons des données, ils vont faire des achats. Nous collectons des données par le biais de poèmes en demandant des commentaires,
toutes ces choses. Il existe donc différentes manières
de collecter des données, n'est-ce pas ? Et dans ces différentes
méthodes de collecte de données, la personne qui
nous fournit des données ou qui nous
fournit des données
hésite
parfois des données ou qui nous
fournit des données à
fournir toutes les données que nous demandons à Bob, n'est-ce pas ? Et s'il hésite
et que Gibbs a
des données incorrectes ou qu'il ne
conserve pas de données pour certaines valeurs
du formulaire, alors les données
seront manquantes, n'est-ce pas ? Et cela va de pair, sans compléter les données. Et lorsque nous essayons d'
analyser ces données, nous pouvons rencontrer des problèmes car de
nombreuses colonnes
ou lignes de données seront manquantes. Supposons que l'
exemple le plus simple soit que vous vous rendiez dans un
centre commercial et personnes vous
demandent de remplir un formulaire de commentaires dans lequel elles vous demanderont des informations telles que
vos coordonnées familiales, votre numéro de téléphone portable,
votre adresse e-mail nom de
votre mère
, le nom de votre rue,
où partez-vous ? Quelles sont tes préférences ? Combien résolvez-vous ? Dans un mois ? Vous êtes comme les
détails de votre salaire, toutes ces données. La plupart d'entre nous
ne seront donc pas prêts à donner toutes ces données,
comme nos données
salariales notre adresse personnelle
ou notre numéro de téléphone portable. Nous avons donc tendance à cacher et à
ne pas fournir ces données sensibles ou les détails de
notre famille, par exemple si nous sommes mariés ou non, si nous
avons une cage ou non. Nous ne fournissons pas ces données. Ainsi, lorsque l'entreprise collecte données auprès
de milliers de personnes dans le centre commercial, en les
interrogeant,
elle les analyse au moment où elle collecte les données, lorsqu'elles
entrent. Ils constateront que la
plupart des gens n'
ont pas répondu à la question de savoir combien ils possèdent et quel est
leur état matrimonial, combien d'enfants ils ont s' ils ne proposent pas ce
genre de rupture, ils ne seront pas en
mesure de les classer. Eh bien, comme s'ils pouvaient
aider certaines personnes. Ils se sont mariés et
n'ont pas rempli la colonne,
mariés ou célibataires. Ils seront donc soit
mal
catégorisés , soit ils ne seront pas
en mesure de les catégoriser. Et c'est là le gros
problème des projets d'analyse de données et d'apprentissage automatique ou de science des
données. Pour résoudre ce problème, il existe des moyens de combler
les valeurs manquantes. Alors soutenez-vous. Si vous avez des
données numériques, à l'appui, vous avez les
données sur l'âge et le poids que vous avez collectées
auprès de milliers de personnes et certaines personnes pour lesquelles elles sont
manquantes ou âgées. Donc, ce que nous pouvons faire dans le
cas de données numériques, nous pouvons simplement utiliser l'ensemble
de données disponibles. Et nous pouvons remplir
la valeur moyenne ou la valeur
moyenne dans
les valeurs manquantes. Toutes les valeurs
manquantes seront remplies par la
valeur moyenne ou la valeur moyenne. Cela complétera
les données et nous
pourrons obtenir une bonne analyse à ce sujet. C'est donc un
moyen simple d'imputer les données
manquantes dans R ou dans n'importe quel projet de science
des données. OK, donc dans le
cas de valeurs manquantes, numériques, et si les
valeurs manquantes ne sont pas numériques ? Ce que nous allons faire Maintenant que nous avons compris, nous avons compris quelles sont
les valeurs manquantes et quelles sont les
autres régions pour elles. Comparons donc les types de valeurs
manquantes aux
types de valeurs manquantes. Nous les avons
classés en trois catégories. L'un est M, CAR, puis MAR, ou le
dernier est un MAR. Alors, qu'est-ce que ce MC, ARM, cat. Donc MCAR, Stanford disparue
complètement au hasard, C4
manquante, A4
complètement aléatoire, disparue
complètement au hasard. Et c'est le type rougeâtre de valeurs
manquantes lorsque l'absence
n'a aucun coût. En d'autres termes,
les valeurs manquantes ne
sont liées à aucune fonctionnalité comme leur nom l'
indique. Ce lac. Il s'agit d'un cas très
rare où, par exemple lorsque vous avez saisi les données dans
la base de données Excel CDART, vous avez oublié les données. Ou lorsque nous
échantillonnons des données ou que nous
interrogeons certaines personnes, certaines personnes, de manière aléatoire,
vous manquez certaines données. C'est donc un
cas assez rare où nous obtenons le MCAR. Ensuite, la colonne suivante,
les données MAR, MAR signifie manquante au hasard. C'est assez courant et cela
implique que les valeurs
manquantes peuvent être complètement
expliquées par les données dont manquantes peuvent être complètement nous disposons déjà. Par exemple, il se peut
que les hommes soient susceptibles penser qu'une enquête est liée
à la dépression quel que soit leur degré de
dépression. Comme. Supposons que certaines personnes soient déprimées et que
nous les servions. Donc, la plupart des gens cachent
leur état
mental, n'est-ce pas ? Ils sont très réticents à partager leur santé
mentale, n'est-ce pas ? Ils cacheront donc qu'ils
ont des problèmes mentaux. Et cela aura tendance à obtenir
des
informations erronées de la part des gens. Donc, ces valeurs manquantes ou MAR
, c'est-à-dire manquantes au hasard, proviennent
en
fait d'une hypothèse
sur les données. Et il n'y a aucun moyen
de prouver si les données
manquantes donnent une valeur MAR supérieure. Chaque fois que les valeurs manquantes
sont classées dans la catégorie MAR ou MCA ou deux valeurs supérieures, elles peuvent être ignorées en toute sécurité. Donc, MCAR, MAR, comme s'
ils avaient disparu au hasard, nous pouvons les ignorer. Nous pouvons, si vous avez des données
contenant
ce type de valeurs manquantes, vous pouvez simplement
ignorer ces valeurs et vous pouvez
continuer complètement sans remplir
ces valeurs manquantes et
les supprimer de l'ensemble de données. Et c'est tout à fait normal. Vous n'en manquerez pas
beaucoup car tous les numéros sont
absents au hasard. Cela ne le lie
à aucune fonctionnalité ou à
aucune variable susceptible
d'affecter de le résultat global de vos
données. D'accord ? Le dernier est un AR, et M signifie « ne pas
manquer au hasard ». Et c'est important. Pourquoi ? Et CMR. Et lorsque les données ne sont pas MCAR, MAR, elles seront classées comme non
manquantes au hasard. Et ce qui n'est pas oublié hasard signifie que,
comme je l'ai dit plus tôt, lorsque nous interrogeons des
personnes dans un centre commercial, elles peuvent cacher le
nom de leur conjoint, le nom de leurs enfants, leurs coordonnées, les détails de
leur carte de crédit ou leurs informations salariales. Ce n'est donc pas un hasard, non ? Les gens cachent volontiers
des données qu'ils ne fournissent pas. Et lorsque vous
analyserez les données, vous constaterez que les personnes n'
ont pas indiqué état
civil, le nom de leur conjoint, ni le nombre d'enfants qu'elles ont
et combien ils ne le sont pas. Ces données ne
manquent donc pas au hasard. C'est donc important. Et ce n'est pas un
hasard et il se peut que nous
ne sachions pas quel cas se trouve le colis. Par exemple, si une personne
n'avait rien dit au
sujet de son état matrimonial, qu'
elle soit mariée ou non, nous ne serons pas en mesure
de la classer comme un homme marié
ou un homme célibataire. Et cela posera
le problème que nous
ne serons pas en mesure de classer cette personne dans une catégorie
particulière
et que nous ne serons donc pas en mesure d'
analyser correctement nos données. Et si nous
ignorons que NM AR ne répond pas à des données
manquantes au hasard, alors supposons que les analystes ou
les data scientists
ignorent ces données ne manquent pas au hasard. Il se peut qu'il fasse de
mauvais calculs, fasse de mauvaises prévisions, ce qui se traduira par d'énormes pertes
pour l'entreprise. Si vous êtes
là pour vous soutenir, si vous prédisez le chiffre d'affaires de votre
organisation et si vous ignorez de ne pas manquer de données
aléatoires dans votre jeu de données, si vous prédisez
le chiffre d'affaires de votre
organisation et si
vous ignorez de ne pas manquer de données
aléatoires dans votre jeu de données, vous risquez de vous retrouver avec prévisions
erronées et de ne pas cibler correctement vos
clients, ce qui peut entraîner d'énormes pertes . Et cela vous posera de
nombreux problèmes. Vous devez donc prendre soin de ces trois types
de valeurs manquantes. Et vous, lors de l'agrandissement, vous devez savoir quels sont les types de valeurs
manquantes dans votre jeu de données. Et s'il ne manque pas dans un ensemble
de données aléatoire. Et comment, comment savez-vous que les données manquantes
ne manquent pas au hasard, les valeurs
manquantes ne manquent pas au hasard. Et que vous pouvez décider
en fonction de l'
impact de cette
valeur manquante. D'accord. Donc, que la personne soit
mariée ou non, cela affecte parce que
vous n'êtes pas en mesure de catégoriser correctement la personne. Ainsi, vous pouvez identifier
les implications et impact
que cette valeur
manquante aura sur
l'ensemble des données et résultats que vous allez obtenir de l'
analyse des données. Ainsi, à part la moyenne, si nous n'avons pas de données numériques, vous pouvez ajouter d'autres
valeurs manquantes en utilisant la
moyenne de l'ensemble de données. Donc, à part cela, nous avons des packages R que nous pouvons utiliser pour imputer
les valeurs manquantes. Et il s'agit de la fibre issue des packages R populaires pour l'
imputation des valeurs manquantes. Et la première et très
populaire est cette souris MIC. Il s'agit du package qui peut être utilisé pour imputer les valeurs
manquantes. Alors Emilia est un autre package, forêt
manquée en est un autre et manquez un autre. Un MI est le cinquième. Voici donc les cinq packages
Popplet R
pour les valeurs manquantes. Ou à l'aide
de ces packages, nous pouvons très bien calculer, imputer les valeurs manquantes
dans notre ensemble de données et nous obtiendrons une excellente
analyse de nos données. J'espère donc que vous avez
compris ce
que signifie l'imputation de données manquantes dans R. Quelles sont les valeurs manquantes, les
types de
valeurs manquantes et
comment identifier le type correct de valeurs
manquantes et
comment traiter les valeurs
manquantes. D'accord, alors à
la prochaine conférence.
58. Importer des valeurs manquantes dans un ensemble de données: Bon retour. Ainsi, dans la conférence
précédente, nous avons expliqué quelles sont les
valeurs manquantes et quels sont les types de valeurs
manquantes Nous avons découvert que MCAR, MAR et MAR ne
manquaient pas au hasard. Nous avons donc découvert quelles sont les valeurs
manquantes et
quels autres types de valeurs
manquantes nous pouvons observer dans la vie réelle lorsque
nous utilisons nos compétences, nos projets de science des données. Et nous avons également vu quels sont les packages disponibles
dans notre programmation nous pouvons utiliser pour
imputer les valeurs manquantes. Nous en avons donc cinq, un package R populaire, des souris, Aemilia, Ms. Water,
Act, j'ai raté un IRM. D'accord. Ce sont donc les
points que nous avons abordés dans la dernière conférence. Maintenant, nous allons faire notre travail
pratique et notre projet dans le cadre
duquel nous utiliserons l'
ensemble de données intégré disponible
avec notre package, le jeu de données iris. Et dans cet
ensemble de données Iris,
nous inclurons certaines valeurs
manquantes. Nous avons donc intentionnellement mis des valeurs manquantes
dans l'ensemble de données Iris. Ensuite, nous essaierons d'imputer les valeurs
manquantes à l'aide de certaines données. Nous allons donc utiliser le
colis Mme Perished et les souris utiliseront les souris et Mme Perez pour le faire, d'accord ? Imputez donc les
valeurs manquantes dans l'ensemble de données. D'accord ? Pour cela, nous allons
utiliser le milieu de la forêt et nous allons utiliser
le jeu de données Iris qui se
trouve dans la zone de soudage. La première étape consiste donc
à charger les données. Donc, pour charger l'ensemble de données intégré qui est facilement disponible dans R, nous devons simplement
appeler ces données. Les données sont donc égales à celles-ci. Et lorsque nous ajoutons des données à
quelqu'un, et que nous les
exécutons, nous obtenons quelqu'un
dans l'ensemble de données sur l'iris. Donc, voyez ici, ce
sont les données que nous obtenons à partir du résumé
de ces données irlandaises. Il existe donc de nombreuses autres données, mais il ne s'agit que d'un
simple résumé des données irlandaises. La prochaine chose à faire est de
savoir ce que nous devons faire. Nous le ferons, puisque nous utilisons
le package de souris ici. Donc, les expressions idiomatiques des souris manquent
à des valeurs aléatoires, non ? Voyons donc les
valeurs manquantes dans notre ensemble de données car cet ensemble de données Iris
ne contiendra aucune valeur manquante. Donc, ce que nous allons faire, c'est
mettre les valeurs manquantes, voir les valeurs manquantes
dans notre ensemble de données en utilisant fonction NA
large et cette fonction d'élargissement que nous pouvons obtenir à partir de la fonction Miss
Forester. D'accord, donc avec cela, nous pouvons utiliser Iris point,
omettre les valeurs manquantes, et nous pouvons utiliser la fonction
broad n. Et nous utilisons l'ensemble de données
pour donner le nom du jeu de données ici, iris et non 0,01. D'accord ? Et lorsque nous le ferons, il verra, quoi qu'il en
soit, les
valeurs manquantes dans notre ensemble de données. Ainsi, lorsque nous essaierons d'
exécuter ce morceau, nous verrons pourquoi
nous obtenons cette erreur,
car cette fonction d'
élargissement
n'est pas disponible parce qu'elle appartient au luxe que le
package manque de finition. Donc, ce que nous allons faire, essayer d'installer
le MS Perished et les souris. Alors laissez-moi d'abord, puisque notre notification
arrive ici comme un package de
souris à installer. Il suffit donc de cliquer sur Installer et
sur les données manquantes principales dans RMD, les souris du package
seront installées. Il va donc commencer à s'installer. Vous pouvez maintenant voir le processus
d'installation qui a été lancé pour
installer des souris. Il va donc le télécharger, cela prendra
quelques secondes. D'accord ? Les paquets
ont donc été installés avec succès. OK, la prochaine étape est d'
installer un autre package
appelé Miss Forester. Nous allons donc simplement taper si vous le manquez. D'accord ? Il suffit donc de cliquer sur Installer et le
package Hmisc sera installé. Installez ce package. Vous pouvez également utiliser la
commande installed packages et vous pouvez leur donner ce nom de forêt et
elle sera installée. D'accord, maintenant,
le système de stockage d'eau manquante a également
été installé avec succès. Essayons de lancer celui-ci. Un morceau ci-dessus. J'ai juste enseigné le mythe et la religion, j'ai créé une fonction
et un taux annuel de 0,01. OK, alors allons-y. Je ne sais pas pourquoi nous
recommençons. Alors maintenant, ces packages mal pliés ont
été correctement installés. Maintenant, nous pouvons simplement et ensuite je vais m'occuper de ce que je pensais que
Miss avait apporté. Ensuite, je vais publier le
résumé de Irish Dartmouth. Et nous allons voir ici. Ainsi, lorsque vous verrez ce
résumé des données irlandaises, vous ne verrez
aucune valeur. Vous verrez qu'il n'
y a aucune valeur. Mais lorsque nous utilisons cette large NA et impure certaines
valeurs manquantes dans les données sur l'iris. Et nous allons créer un nouvel
art, des valeurs manquantes. Nadar de IDs. Les enfants m'ont appris. Tu vois, oui, ça, ce qu'il fait, il ajoute
de la longueur des sépales,
de la longueur et de la largeur des sépales, longueur des
pétales et de la largeur des
pétales et c'est 19 et les protéines de l'ARN setosa. Nous avons donc introduit
ces nombreux 1 819,14. Toutes les valeurs utilisant cela ont été introduites dans une fonction
du package Hmisc. Ensuite, nous devons
supprimer les
variables catégorielles. D'accord ? Alors exécutons-le et voyons ici. D'accord, nous avons donc
supprimé cette espèce. Des espèces comme
la couleur virginica. Nous avons supprimé toutes ces choses, les données catégorielles en
ont été supprimées. Et ensuite, nous allons procéder à la mise
en œuvre souris, ce que nous ferons
lors de la prochaine conférence.
59. Importer des valeurs manquantes à l'aide de la méthode PMM: Donc, lors de
la conférence précédente, nous avons utilisé n'importe quelle fonction du
package Myths Forest pour introduire 10 %,
10 % valeurs manquantes
dans notre ensemble de données. Ainsi, un nouvel ensemble de données est
soit un échec de départ, soit un échec, et lorsque nous exécuterons ces 10 % de valeurs manquantes, elles
seront introduites dans nos données. Et pour vérifier cela, nous allons exécuter ceci et nous
obtiendrons le résumé ici. Et ici, vous pouvez voir que des valeurs NA ont été
introduites dans nos données. D'accord ? Ensuite, je supprime les variables
catégorielles afin que nous puissions nous concentrer sur
les valeurs continues. D'accord ? À quoi ressemblent les puits
continus ? voyez, si vous voyez ici, sont la valeur
continue du fil et les espèces, comme les colonies, de
quelle couleur est la Virginie ? Il ne s'agit pas de
données catégorielles, nous allons donc les supprimer. Donc, ce que nous avons supprimé, nous avons supprimé Select, nous avons utilisé l'irlandais appris à manquer, l'ensemble de données et ce que
nous connectons, nous créons le sous-ensemble
et nous entrons dans l'œil, ils commencent à manquer un ensemble de données, cet ensemble de données avec des valeurs manquantes et nous cherchons sélectionnés, vous appelez deux espèces moins c. Cela signifie qu'il
supprimera l'espèce, qui est une
donnée catégorique de notre ensemble de données. Ensuite, nous aurons le résumé. Ainsi, lorsque nous l'
exécutons, nous obtenons cet ensemble de données
dans lequel les espèces seront supprimées
de notre ensemble de données afin que nous
puissions nous concentrer et nous concentrer
sur les valeurs continues. OK, ensuite,
ce que nous allons faire,
c' ce que nous allons faire, installer
les supports pour souris. Et pourquoi nous avons besoin de
ce package de souris, parce que ce
package de souris a une fonction appelée motif de points
Md. Donc,
la fonction Md point Pattern renvoie une
forme tabulaire de valeur manquante présentant chaque
variable d'un ensemble de données. OK, donc pour cela, ce que
nous ferons, c'est installer le fichier install.packages que nous utiliserons
pour installer le package. Ensuite, nous utiliserons les souris
de la bibliothèque. Ensuite, nous utilisons
le modèle de points Md pour les valeurs manquantes
présentes dans chaque partie, chaque variable verra quelles sont les
valeurs manquantes présentes. Alors d'abord, nous allons installer ou
nous l'avons déjà installé. Ensuite, si vous le souhaitez, vous pouvez l'exécuter à nouveau. Si nous ne l'avons pas installé. Ensuite,
une fois que le package
n'est pas installé, vous pouvez accéder à ce morceau
de code, exécuter ce modèle de points Md et
placer votre ensemble de données. Il s'agit donc de l'ensemble de
données Iris qui contient les valeurs
manquantes. OK, alors allons-y. Et quand on l'exécute, voit ce que l'on obtient. Nous obtenons ici les valeurs
manquantes. Chacun ici, mais
comme la largeur des sépales, longueur des points du
sépale, la
longueur des pétales et la largeur des pétales. Essayons donc de comprendre ce tableau. C'est ce que nous obtenons dans ce tableau.
Essayons de comprendre. Il y a donc 98 ou 96 objets et voici 96
observations, qui ne contiennent aucune
valeur manquante dans les valeurs manquantes. Et puis, d'accord, donc ces six. 96. Celui-ci signifie qu' il n'y a aucune valeur manquante et
zéro signifie qu'il n'y en a pas. Eh bien, donc 96 variables qui n'ont aucune
valeur manquante et aucune largeur de point sépale. Et voilà, vous procédez. Six exécutables ont une valeur manquante alors qu'une variable a également un RelU manquant. Ainsi, nous pouvons comprendre le
nombre de valeurs manquantes. Zéro signifie que ces variables ont des valeurs manquantes, d'accord ? Et ça a l'air plutôt mauvais. Et si tu veux, tu peux aussi le voir. Ils se chevauchent assez. Alors voyez ici. Bien, la prochaine chose que
nous allons faire, c'est faire la file d'attente, créer la représentation
visuelle de ce que nous voyons
sous forme de tableau. Donc, pour cela, ce que nous allons faire, installer le package. D'accord ? Ensuite, nous
utiliserons la bibliothèque BIM. Et ce que nous allons faire,
nous l'utiliserons. Nous allons tracer tout ce que nous
obtenons dans le
paquet de souris, avec un motif de points vides. Nous allons essayer de le tracer. Nous allons donc utiliser cette fonction
et la fonction EDR, et nous utiliserons cet
ensemble de données, iris Dartmouth. Ensuite, nous utiliserons la couleur, le bleu
marine, le jaune,
ce que vous voulez. Vous pouvez mettre, supposons que je mette rouge et du jaune et des chiffres pour trier la valeur
, puis le nom de l'étiquette. Je donnerai tous les noms qui s'y trouvent pour chaque
départ manqué. Et pourquoi le laboratoire
manque vraiment de données. OK, alors exécutons-le et voyons ce que nous
obtenons en visualisant. Maintenant, nous obtenons
cette visualisation. Donc, avec
ces visualisations, nous comprenons
que
67 % des valeurs, 67 % des valeurs du
désert ne contiennent aucune valeur manquante, 67 % des données ne contiennent
aucune valeur manquante. Dix pour cent des
13 % présentent des valeurs manquantes en ce qui concerne la longueur, la largeur et la largeur des
pétales. D'accord ? Et nous pouvons également voir cet
histogramme. Histogramme. OK, laissez-moi juste voir un histogramme, données
manquantes et Leah,
les variables pétale, largeur des
pétales, largeur des
pétales environ le
pourcentage de données manquantes avant l'impression, où la longueur
est de dix pour cent, la longueur sépales est d'
environ 9 % ou quelque chose comme ça. La largeur des sépales contient 8 % ou
quelque chose de données manquantes. Et là aussi, tu peux
comprendre, d'accord ? Donc, de cette façon, nous pouvons voir la représentation graphique
des valeurs manquantes. Maintenant, la prochaine étape est
l'arrêt critique. Ce que nous faisons ici. Nous y sommes, nous
allons imputer des valeurs aux valeurs
manquantes. Pour cela, nous utiliserons la fonction
souris et nous
utiliserons l'
ensemble de données ID start missing avec des valeurs manquantes. Et m phi m est égal à cinq. Ce qu'il fera,
il reportera à
l'image égale à cinq si vous l'avez donné, il créera le jeu de
données du type de fichier avec des valeurs manquantes. Il créera donc cinq ensembles de données imputés et
une adresse maximale, qui sera de 50. Et méthode que nous
allons utiliser PMM. Qu'est-ce que ce PMF ? Pmm est une
correspondance moyenne prédictive pour les valeurs numériques. Nous allons utiliser
la méthode PMM, qui est l'appariement prédictif des
moyennes, d'accord ? Ensuite, nous le verrons pour 500. Ensuite, nous verrons le
résumé des données saisies. Alors exécutons ce morceau
de code indésirable. Et nous voici en
train de faire quelques modifications. D'accord ? Il ne trouve pas
la fonction souris, pourquoi ? Nous devons alors y gagner. OK, alors voyez maintenant, nous sommes en train de saisir les données avec. Valeurs manquantes. Les valeurs
manquantes seront donc imputées à certaines données et
aux processus en cours. Vous pouvez le voir ici. Donc, comme il fait 50 ans, je m'habille sur du sable, nous en vendons pour 500. Cela peut donc prendre un certain temps. Maintenant. C'est fait. Hein ? Il s'agit donc du nombre d'
imputation multiple de cinq. méthode d'imputation est PMM que nous avons utilisé,
prédit et matriciel. Vous pouvez voir la
longueur des sépales, la largeur des sépales 11. C'est la
matrice de confusion, d'accord ? Et quelle est la largeur des pétales ? Voici donc la
matrice de confusion que nous obtenons. Maintenant, ce que nous faisons, nous pouvons vérifier les valeurs imputées en
utilisant des données imputées, et nous pouvons utiliser la largeur des
sépales pour cela. Alors dupliquons cela. Les données importées sont-elles introuvables ? C'est pourquoi nous
en revenons là. OK, j'ai donc donné
le nom de la variable en tant que
nom de jeu de données en tant que
période. Et si je l'exécute, voyez ici, ce sont les valeurs que nous
avons imputées pour
la largeur des sépales. D'accord ? Donc, de la même manière, nous pouvons descendre ici
et Control Alt. Je peux vraiment ajouter du
terrain et ils feront l'affaire,
je vais mettre un peu de longueur. Et si je l'exécute, nous obtiendrons également les valeurs imputées pour la
longueur des points du sépale. Bien, nous pouvons maintenant voir quelles sont
les valeurs que nous avons
insérées dans notre ensemble de données, entrées dans notre ensemble de données. Nous pouvons maintenant obtenir les données imputées
complètes. Comme nous avons saisi les cinq données de
configuration, nous pouvons obtenir le deuxième objet
en utilisant la virgule deux imputée. Donc, cela nous donnera, d'accord, il avait en quelque sorte été souligné, imputé au hockey et dirigé ça. Ensuite, nous pouvons utiliser le résumé. Des données complètes. Dorsi. C'est la pétition complète pour le téléchargement
des données, accord, donc de cette façon, nous pouvons
imputer les valeurs manquantes. Supposons donc que vous ayez
besoin de crier World Project où certaines valeurs sont
manquantes. Vous pouvez donc utiliser ce programme
ou ce mécanisme pour
imputer les valeurs manquantes en utilisant,
comme ici, nous avons utilisé PMM. Vous pouvez également utiliser l'autre
méthode. Il existe également peu d'autres méthodes
que vous pouvez utiliser, comme nous avons utilisé l'appariement des
moyennes prédictives PMM pour les valeurs
numériques. Si vous avez
des variables binaires à deux niveaux, vous pouvez utiliser la régression
logistique. Et pour cela, la
fonction est log reg. Et si nous avons une régression bayésienne de
Bali Tom doit, vous pouvez utiliser une quatrième variable
factorielle comportant deux niveaux ou plus. Vous pouvez utiliser la méthode
polymère. Et si vous avez des
modèles assez étranges, vous pouvez utiliser les modèles 4D
proportionnels pour les commandes de niveau 2 ou plus. Voici donc les méthodes dr. Il s'agit de la méthode
et des packages que vous pouvez utiliser pour saisir les données. Tout tourne donc
autour de ce projet. Et dans le cadre de ce projet, nous avons
appris à imputer des données. De la même manière, nous pouvons également mettre en œuvre
votre propre projet. Et vous pouvez, vous pouvez utiliser cet ensemble de données ou n'importe quelle autre donnée. Disons essayer d'imputer les valeurs
manquantes et
essayer de placer les
valeurs manquantes dans les données. Tout d'abord, ce que nous avons fait ici, insérer certaines de nos données
avec des variables
sans valeur, n'est-ce pas ? Ensuite, ce que nous avons fait, nous avons utilisé le PMM pour imputer ces valeurs
avec certaines données, des données pertinentes afin d'obtenir la sortie correcte. J'espère donc que vous
apprendrez à imputer des données en programmation pour vos projets d'apprentissage automatique et de science
des données. J'espère donc que tu as appris quelque chose.
60. Analyser les ensembles de données en utilisant les fonctions R: Dans cette conférence, nous
allons analyser un ensemble de données. Donc, tout d'abord, si vous envisagez de travailler en
tant que data scientist ou ingénieur en
apprentissage automatique, ou même analyste de données en visualisation de
données. Il faut que tu n'en aies pas. Qu'est-ce que l'analyse des données et comment
pouvez-vous analyser les données ? partie la plus importante
de tout
projet de science des données est donc de tout
projet de science des données manière dont vous analysez les données. L'analyse des données est donc la partie la
plus importante de tout projet de science des données,
d'apprentissage automatique ou même d'analyse de données. Donc, ce que je vais faire, utiliser données
intégré qui
est facilement disponible avec le paquet ou le téléchargement. Il est livré avec
le package R, d'accord ? Vous n'avez donc pas besoin de
le télécharger séparément. Ça va venir
avec le cœur, d'accord ? Il s'agit donc d'un
ensemble de données intégré avec le r. Nous allons donc utiliser cette main. Je vais vous expliquer comment utiliser les fonctions intégrées
pour analyser les données, pour obtenir des informations
sur les données. D'accord ? Alors, qu'est-ce qu'un ensemble de données ? Un jeu de données est essentiellement une
collection de données. Et nous avons le plus souvent constaté que les
ensembles de données sont considérés comme payables. Nous utilisons dans nos bases de données. Des bases de données sur ce qu'ils ont donné. L'ensemble de données le plus courant
que nous ayons vu est le. Donc, dans nos bases de données,
comme ma suite, notre MongoDB ou n'importe quelle autre base de données, si vous voyez que ce sont essentiellement des données suffisantes pour Calyx, n'est-ce pas ? Si vous voyez, MongoDB est
une collection de données en termes de paire clé/valeur. Si vous voyez ma
base de données ultérieure ou mon SGBDR, système de
gestion de base de données
relationnelle, ils
conserveront les données sous forme
de lignes et de colonnes. Et les lignes et les colonnes
conserveront les données, n'est-ce pas ? Donc, la collecte
de données la plus courante est un tableau, d'accord ? Et nous conservons également les données au format
XML,
ainsi qu'au format JSON. Mais la
chose la plus courante est la table, d'accord ? Vous pouvez donc, tout ce que vous avez vu dans le tableau
Walmart, qui consiste essentiellement à conserver les
données, n'est-ce pas ? Nous allons donc
utiliser des voitures vides. Empty cars est un jeu de données intégré à R. Et nous allons analyser celui-ci. voitures vides sont donc l'ensemble de données Motor
Trend Cars intégré à R et
qui a été récupéré les années 1970 pour Motor
Trend US makin, d'accord ? Ces données sont donc extraites de cette Ford Motor
Trend américaine de 1970, d'accord ? Donc, la première chose à
faire est de supposer que nous avons cet ensemble de données intégré composé voitures
vides et que nous
voulions charger ces données. Donc, ce que nous pouvons faire, simplement écrire
le nom de l'ensemble de données. Et lorsque nous l'exécuterons, nous obtiendrons l'ensemble de données. Voici donc l'
ensemble de données dont nous disposons. D'accord ? Et quand on vous empêche d'entrer, il y a plus de colonnes, n'est-ce pas ? Voici donc les rangées. Et voici les
rangées qui sont différentes. Des noms divins, d'accord ? Et pour chaque carte, il existe
plusieurs variables, comme le MPG, cylindrée,
que nous attendons. D'accord ? Donc, toutes ces données que nous avons
avec la voiture vide, n'est-ce pas ? Il compte donc 11
colonnes et 32 routes. Cela signifie qu'il contient les détails des 32 voitures
avec 11 colonnes. 11 colonnes correspondent à 11
variables différentes pour chaque carte. D'accord ? Il suffit donc de
taper le nom de l'ensemble de données et vous obtiendrez les informations les
plus anciennes, bien que toutes les lignes
et colonnes du jeu de données soient définies. D'accord ? Ensuite, supposons que
nous l'ayons intégré. Nous voulons obtenir les informations, plus d'informations
sur l'ensemble de données. Alors, comment se présente cet ensemble de données sous un
angle par rapport à l'endroit où
nous obtenons cet ensemble de données. Nous pouvons donc simplement placer le point d'interrogation devant le nom
du jeu de données. Et lorsque nous l'exécutons, nous obtenons les informations
sur l'ensemble de données. Et les
informations de cet ensemble de données arrivent ici. Alors, quand nous aurons terminé. Celui-ci. interrogation, point d'
interrogation, voitures vides
obtiendront cette information, ensemble de données sur les voitures
vides. Et cela signifie qu'il s'agit d'un ensemble de données d'essais routiers de Motor
Trend Car. Et cela provient de
la documentation R. OK. Il
vous donne donc la description complète. Et Total utilise un Brita, façon dont ces données
ont été formatées. OK, il s'agit donc d'une
manifestation de
Motor Trend Cars et les données datent des années 1970
pour être utilisées par Motor Trend. Makin comprend, pour les
concepts de carburant et les antennes, les aspects de la conception et des
performances automobiles pour 32 automobiles, 32 voitures dans les modèles 1973-1974. OK. Et puis il donne le format comme mpg
signifie miles par gallon. Cylindre signifie le nombre de cylindres, la cylindrée, la puissance, le tirage, le rapport
axial, le poids supérieur à 141
par quatre miles à temps partiel. Réévaluez le moteur comme VSEPR en général, moteur
droit. Donc, comme avant, nous économisons et s'il a zéro,
il
est reçu et
un quart d'affilée, alors je passe à la transmission
automatique s'il s' d'un empereur automatique manuel
ou automatique et manuel. Et un bon nombre d' années et un nombre
incalculable de tests de Cadbury. OK, donc les autres informations
que nous obtenons pour cette source de données, d'accord. Revenons maintenant à
la partie analyse. Il vous suffit donc de placer un point d'interrogation
devant le nom de l'ensemble de données et vous obtiendrez toutes les informations
sur l'ensemble de données en entrée. Maintenant, nous voulons obtenir
les cellules diamantées et
le nom de la variable. Supposons que nous ayons les
losanges et le slake, les lignes et les colonnes, et
que ce soit le nom de la variable. Supposons donc comment je veux les noms
des variables à boucle unique. Alors, comment puis-je l'obtenir ? Vous pouvez donc utiliser. La première chose à
faire est donc d' attribuer cet ensemble de données
à une variable. Et pour cela,
je crée un ensemble de
données variables qui soulignent les voitures, et j'attribue des voitures vides. Ainsi, les voitures vides, les voitures du
jeu de données
représenteront les voitures vides. Ainsi, toutes les valeurs de nos voitures
vides figureront dans
l' ensemble de données sur les voitures et nous pourrons les utiliser ultérieurement dans notre programme. Donc, si j'utilise dim et que je
transmets la variable de l'ensemble de données, cet ensemble de données
souligne les voitures. Je vais obtenir le diamant pour
résumer l'ensemble de données. Donc, si j'utilise des noms et une partie
de l'ensemble de données, j'obtiens les noms des variables dans l'ensemble de données ou
je me laisse exécuter ce morceau. Voir ici. Maintenant, il donne les
losanges, 32 rôles et 11 colonnes que nous
pouvons vérifier à partir d'ici, comme 32 lignes et n colonnes. D'accord ? Voilà donc les diamants
et, en haut, l'ensemble de données. Ensuite, lorsque nous utilisons des noms, nous obtenons les noms des variables. Donc, vous voyez ici, nous obtenons les noms des
variables. Le cylindre Mpg est traîné SP
avec toutes ces choses. 32 x 11,
32 lignes et 11 colonnes sont donc 32 lignes et 11 colonnes sont les dimensions de l'ensemble de données et le nom de la
variable. Ensuite, je veux extraire le mauvais nom de
la première colonne. Je veux donc trouver les
noms des lignes des colonnes. Je peux utiliser des noms de lignes. Et je peux transmettre la variable de l'ensemble de
données. Donc, rho name et je vais transmettre cet
ensemble de données et ces cartes d'escorte. Cela me permettra d'obtenir
le nom de tous les gardes en premier, noms des
colonnes, disons C
ou D, ou Delta T. Combien ? Il s'agit des 32 variables
des ensembles de données. Désolé, ce sont les 32 ou
32 voitures qui ont été utilisées dans l'ensemble de données qui sont
disponibles dans cet ensemble de données. Alors la colonne encastrée, d'accord ? Et ensuite, si nous utilisons l'obscurité, si je veux obtenir la
seule information précieuse, comme si je voulais obtenir les miles
par gallon à partir de l'ensemble de données. Je peux utiliser le nom de cet ensemble de
données sur le signe du
dollar puis le signe du dollar MPG. Je vais obtenir les valeurs des
variables mpg. D'accord ? Ainsi, nous pouvons obtenir les valeurs d'une variable
particulière. Donc, au cas où, la
valeur de mpg, je peux J'obtiens les
valeurs de mpg si j' utilise EM ici et vous obtenez 0,1 parce que c'est
automatique et manuel. Alors voyons voir ici,
1000, comme ça. OK, donc zéro pour
automatique, un pour manuel. Donc, de cette façon, nous pouvons utiliser noms de
variables ici
si j'utilise MPG et
la prochaine chose à faire est que si
je veux trier ça,
ce MPG arrivera
comme ça, d'accord ? Si je veux
les trier dans l'ordre, je peux utiliser la
fonction de tri pour cela. Et je peux trier l'ensemble de données et
le tableau de bord dollar mpg. Et il triera les valeurs
de cette variable mpg c, un artiste arrive maintenant, sous forme
triée, en ordre croissant. D'accord ? Voici donc comment
nous pouvons les trier. Je perds un objet de valeur. Ensuite, je veux maintenant
analyser l'ensemble de données. Je peux donc utiliser quelqu'un
et donner le nom de la variable pour l'ensemble de données et j'obtiendrai
le résumé des données. Regardez ici ce magnifique
résumé des données
telles que les miles par gallon.
Quel est le moyen ? Quelles sont les valeurs du premier
quartile ? Qu'est-ce que la médiane ? Quel est le moyen ? Qu'
est-ce que le troisième quartile ? Quelle est la
valeur maximale pour chaque variable ? Nous obtenons ces
six valeurs, n'est-ce pas ? Médiane d'abord, comme les valeurs min ,
premier quartile, moyenne médiane ,
premier quartile, moyenne médiane,
puis moyenne minimale,
médiane et maximale. Et le premier quartile
et le troisième quartile pour chacune de ces variables, nous obtenons cette information. Cela vous donnera donc
ce résumé des données. Et ce sont les choses que nous
apprendrons lors des prochaines conférences. Comment obtenir la moyenne, qu'est-ce que la médiane, qu'est-ce que premier quartile et le
troisième quartile ? C'est ainsi que nous pouvons obtenir des
informations et analyser l'ensemble de données dans R. Nous
pouvons utiliser le nom de notre ensemble de données
pour obtenir l'ensemble de données. Nous pouvons utiliser le signe du dollar pour obtenir les informations sur l'
ensemble de données et nous allons le faire. Nous pouvons utiliser la fonction lm pour obtenir la dimension
du jeu de données. Nous pouvons utiliser des noms, des
fonctions pour obtenir le
nom des variables. Nous pouvons utiliser les noms des lignes
pour obtenir la suppression d'une ligne, la
première colonne, de chaque ligne de
la première colonne, d'accord ? Les valeurs de chaque ligne se
trouvent dans la première colonne Nous pouvons
ensuite utiliser ce signe
dollar
pour obtenir les valeurs des variables de l'ensemble de données. Ensuite, nous pouvons utiliser la fonction de tri pour trier
les valeurs des variables, puis nous pouvons utiliser le résumé pour obtenir le résumé des données. D'accord, voici comment nous pouvons
analyser cet ensemble de données dans R.
61. Manipulation de données à l'aide du package dplyr: Bonjour et bon retour. Dans cette conférence, nous
allons en apprendre davantage sur manipulation de
données dans R. Nous allons
donc en apprendre davantage
sur la manipulation de données. Et pour cela, nous allons
utiliser le package ggplot. Le paquet dupliqué est donc très important lorsque vous
souhaitez manipuler des données. Et j'utilise ce fichier RMD. J'ai déjà écrit
le code pour que nous
puissions simplement continuer en apprendre davantage sur les éléments
de base du joueur et manipuler les données. Tout d'abord, si vous
souhaitez utiliser le lecteur, vous devez installer
le package, n'est-ce pas ? Dans notre système, chaque fois que vous
souhaitez utiliser l'intégré, nous souhaitons utiliser certaines
fonctionnalités. Nous devons installer le
package sur notre R, puis nous
pouvons continuer. Si vous voulez travailler
avec le plan, vous
devez l'installer. Vous pouvez soit installer la couche profonde elle-même,
soit pour
le Tidyverse si vous souhaitez installer tout ce qui est fourni
avec le vers Tidy. Donc, si vous installez Tidy
Verse, par défaut, une couche
profonde
apparaîtra, indiquant que le plan se trouvera
à l'intérieur de ce tidyverse. Et si vous ne voulez pas tout installer
à l'intérieur de
ces Tidyverse, vous pouvez opter
pour le d plus. Vous pouvez donc exécuter ceci
ou cela. N'importe lequel d'entre eux. Tu peux courir. Donc tu peux t'en tenir à ça. Tu peux opter pour le couplet bien rangé ou tu peux opter pour
la couche profonde, d'accord ? Vous vous basez donc sur
vos besoins. Tu peux t'en tenir à ça. Je vous
suggère d'installer
le Tidyverse. J'ai donc installé
ces deux packages, donc je n'exécuterai pas
ce sous-morceau de code, ce morceau de code, je ne l'
exécuterai pas
car je les ai déjà
installés. Donc, ce que je vais faire, vous montrer la prochaine chose. OK, alors laisse-moi clarifier les choses. Donc, la première chose que nous pouvons faire avec la manipulation de
données dans
l'art, c'est que le joueur peut utiliser le filtre
que nous pouvons utiliser pour sélectionner. Nous pouvons utiliser le groupe en fonction de toutes
les choses que nous pouvons faire en utilisant le diagramme dans R. D'accord, donc ce que je vais faire,
je vais l'utiliser, je vais également vous montrer
comment utiliser le filtre dans R en utilisant les bibliothèques de flous. Donc, pour cela, ce que
je vais utiliser, je vais utiliser
le jeu de données intégré qui s'appelle Star Wars. Star Wars est un jeu de
données intégré disponible dans l'art. Donc, ce que je vais utiliser, Star Wars, puis
j'utiliserai cet opérateur de tuyauterie. Et ce que je vais faire, utiliser la
fonction de filtrage et donner aux espèces filtrantes ce qu'on
appelle deux triades. Donc, ce qu'il va
faire, c'est aller chercher toutes
les espèces égales pour le dessiner. Il ira donc dans le jeu de données
Star Wars. Il affrontera le jeu de données
Star Wars. Et à l'intérieur, il
appliquera le filtre et il échouera. Il filtrera l'ensemble de données
en fonction de cette espèce. D'accord ? C'est ainsi que cela va fonctionner. Alors les espèces glissent, le filtre
sera appliqué. Alors laissez-moi, je vais juste exécuter ce code. Il suffit donc de
cliquer ici et de voir. Nous sommes maintenant en train de nous recharger. D'accord. Alors voyez votre nom, accentué, la couleur de vos cheveux, la
couleur de votre peau, couleur de vos
yeux, corrigez toutes ces
choses que nous obtenons. D'accord. C'est donc ce que nous obtenons
pour l'espèce. Essayez-le. D'accord. Regardez ici, si vous voyez la colonne Espèces,
tout est sec. C'est juste, non ? Il affiche donc
les données uniquement pour les produits séchés car nous avons appliqué
le filtre séché ici. Il nous montrera donc des données troisièmes uniquement pour
les espèces. Ainsi, nous pouvons appliquer le filtre, utiliser le nom du jeu de
données Via,
puis l'opérateur de canal , puis la fonction de filtre
et ses espèces. Le nom de la colonne est
spécifique à l'espèce, ce qui revient à la dessiner. Il en sera ainsi, donc toutes les espèces, les données supprimées pour nous, d'accord. C'est ainsi que
fonctionne le filtre dans l'usine. OK, la prochaine chose est que nous
allons utiliser Select. Sélectionnez donc comment cela fonctionnera. Encore une fois, la même chose. Nous utiliserons. Cette étoile était un
jeu de données, puis un opérateur de canal, puis nous utiliserons
Select, select , puis nous devons conserver le nom se terminant par une couleur, afin qu'il puisse récupérer tous les
noms se terminant par une couleur. Alors laisse-moi exécuter ça. Voir ici. Maintenant, ce qu'il fait. Il récupère toutes les colonnes. Toutes les colonnes
se terminant par la couleur, couleur
des cheveux, la
couleur de la peau et la couleur des yeux. Il
ne montre donc que les colonnes qui se terminent par
une couleur, n'est-ce pas ? Donc, Star Wars sélectionne le
nom et se termine par la couleur. Il vous montrera donc les colonnes de Wanli George
qui se terminent par une couleur. Donc, soulignez, soulignez la classe. Il
ne montre donc que ces données. Si vous regardez ce qui s'est
passé plus tôt. Ici. Il existe de nombreuses colonnes
comme la hauteur, la masse. Et puis il y a les
urgences, le sexe, le genre. Mais il ne
nous montre pas toutes ces colonnes, mais uniquement
les colonnes qui se
terminent par Carlos, qui se terminent par une couleur. D'accord ? C'est donc la façon
d'utiliser la sélection. Dans. Ensuite, nous
allons en apprendre davantage sur muter. Alors, que va faire une mutation ? Cela créera. Si
vous souhaitez ajouter nouvelles variables ou
une nouvelle
valeur de variable dans l'ensemble de données, vous pouvez utiliser la
fonction de mutation, d'accord ? Alors mutez pour ajouter, pour ajouter quelque chose de nouveau, d'accord ? Ajoutez quelque chose de nouveau,
une nouvelle variable. Si vous souhaitez ajouter, vous pouvez utiliser la fonction use the mutate. Donc, pour y parvenir, nous pouvons simplement donner
à Star Wars, puis un opérateur de canal,
puis une fonction de mutation, puis nous devons donner un nom. Ensuite, vous pouvez définir ici la nouvelle variable ou la nouvelle valeur que
vous souhaitez fournir. Donc, ici, ce qu'on nous donne, on nous donne un nom et un nom. Ici, nous introduisons de
nouvelles variables IMC et v, nous leur expliquons comment l'
IMC doit être calculé. Donc, si vous ne voulez pas donner,
vous pouvez coder la valeur en dur. Mais ici,
nous utilisons la masse divisée
par la hauteur par 100 de puissance pour, d'accord ? C'est donc la formule
que nous utilisons pour calculer l'indice de masse
corporelle IMC, d'accord ? donc la taille et le poids Nous utilisons donc la taille et le poids pour
calculer l'IMC. Et puis nous transmettons cet
IMC pour sélectionner la fonction. Nous utilisons donc ici un
opérateur de tuyauterie deux fois. Donc, ce qu'il va faire, c'est qu'il calculera d'abord
cet IMC ici, puis cet IMC le sera, cet IMC sera transmis à cette
fonction de sélection ici même. Vérifiez que votre IMC vient de
là. Donc, peu importe ce qui
est collecté ici, on en arrivera là. Donc, cet IMC va
arriver ici, non ? C'est donc ce que font les opérateurs
et opérateurs de
tuyauterie , n'est-ce pas ? Elle transmettra le, transmettra la sortie à la fonction suivante,
sortie désactivée. Il ira à la sélection de la mutation. Mutez, nous allons muter, nous créerons l'IMC, créerons l'IMC, puis nous passerons à
la fonction de sélection. D'accord ? Alors, si je donnais une représentation
picturale, quoi, comment cela fonctionnera, support
informatique, nous utiliserons muate. La fonction de mutation
donnera une sortie. Et cette
sortie de la fonction de mutation ira au Select. D'accord ? Supposons donc que nous ayons ici la masse et la hauteur.
Masse et hauteur. masse et la hauteur
iront à la mutation, puis la sortie de mutation
ira au, passez au Select. C'est donc ainsi que fonctionne le
tuyauteur, n'est-ce pas ? Il en transmettra
le résultat à cette fonction. D'accord ? C'est ainsi que l'opérateur de
tuyauterie Rockstar. Ici, nous créons la fonction d'
obtention de la nouvelle variable IMC, la
nouvelle valeur de l'IMC, et
nous passons
à la fonction de sélection pour sélectionner la fonction que
nous appelons masse et IMC. Il sélectionnera donc le masque
et calculera l'IMC. Alors laissez-moi exécuter ce code. Cliquez donc ici et voyez ici le
nom, la taille et l'IMC. Ainsi, en fonction de la masse et de la taille, du poids et de la taille, il nous
indiquera bientôt l'IMC. Cette colonne IMC, IMC ne
figurait pas dans les données
précédentes, n'est-ce pas ? Laisse-moi te montrer. Ici. Nous n'avons pas l'IMC, rééducation de l'
IMC créée avec l'IMC que nous avons créé avec
cette fonction mutante, n'est-ce pas ? Donc, avec la mutation,
nous avons créé IMC et nous l'avons ajouté
à notre ensemble de données. OK, de cette façon, vous pouvez créer une nouvelle variable ou une nouvelle valeur et l'ajouter
à votre ensemble de données à l'
aide de la
fonction de mutation intégrée à la pièce. Ensuite, décrivez la source de masse. Nous sommes ce que nous pouvons faire. Nous pouvons organiser la messe. Alors, exécutons-le et voyons. Vous voyez, maintenant, nous
obtenons la taille, la masse et la couleur des cheveux, la couleur de la peau, la couleur des yeux, toutes les données, toutes les
colonnes que nous obtenons, n'est-ce pas ? Et cela donne la valeur de
masse, n'est-ce pas ? Ici. Ça l'est. C'est comme un ordre décroissant. Cela nous donne la masse, taille, la couleur des cheveux
et toutes ces choses. D'accord. Si vous
souhaitez le remplacer par, vous pouvez le remplacer par
autre chose et voir comment cela va se passer. Prochaine. La première est que nous pouvons également utiliser
le groupe ici. Alors, que fera l'affaire
group by, group BY ? Il sera regroupé par espèce. Donc, ce que nous faisons un ensemble de données Starbucks
très restreint
et voici l'opérateur du canal. Et puis groupez selon ce que le groupe par espèce
postule ce qu'il va faire. Il regroupera l'une ou l'autre
des espèces , puis il nous en
donnera la volonté. Donc, en tant que résumé dans un
seul jeu de données, d'accord ? Cela donnera ce que
la fonction de résumé fera. Il vous donnera le
résumé unique de l'ensemble de données. Nous utilisons donc ici
n égal à n, la masse égale à la
moyenne, la masse moyenne. Et un fichier na.rm signifie
que toute valeur non disponible
supprimera ce qui se termine
à notre ombilical. Voyez si vous regardez ici, certaines valeurs
ne sont pas disponibles, n'est-ce pas ? Cela supprimera donc les
valeurs qui ne sont pas de niveau. OK, donc j'ai fini par ne pas l'être. Ce que je vais faire. Cela supprimera les lignes de données qui ne contiennent
aucune valeur. D'accord ? Donc, ce qu'il va faire, c'est créer la moyenne
masquée de la masse. D'accord ? Il en sera ainsi, puisque nous les
regroupons par espèce. Donc, pour chaque SPC, il vous montrera la masse
moyenne, la masse moyenne. Et pour cela, nous utilisons
la fonction moyenne pour
obtenir la moyenne ou la moyenne de la masse totale d'une espèce
particulière. Et nous les regroupons
par espèce. D'accord ? Ensuite, ce que nous
faisons, c' est utiliser le filtre. Nous utilisons un filtre ici. Et si la masse est supérieure à un, supérieure à 50, nous
appliquons le filtre ici. Quel filtre ? Il doit donc
être supérieur à un et doit être supérieur à 50. C'est donc notre filtre, ce filtre que nous appliquons. D'accord ? Quelles sont donc
les autres mesures que nous prenons ? D'abord ? Nous les regroupons
par espèce, puis nous obtenons
le résumé unique. Et nous obtenons la moyenne de la masse pour cette espèce
en particulier. Ensuite, nous appliquons un filtre où n est
supérieur à un et la masse égale à. Exécutons donc ceci et voyons
quel résultat nous obtenons. Exécutons donc ceci et
voyons le résultat ici. Voir le résultat C. Maintenant,
nous n'obtenons pas le nom, nous obtenons l'espèce
parce que nous avons un groupe. Nous avons utilisé, nous avons utilisé
le groupe par espèce, nous avons utilisé le groupe par espèce. Et nous avons calculé la moyenne de la masse
de l'espèce. C'est pourquoi il
affiche le n. supérieur à un. Pour
personne, cela ne se voit pas, c'est de la couture et des valeurs
qui sont multiples. D'accord. Et les autres espèces, des gommes
sèches et mortes, des humains. Pouvez-vous posséder MATLAB,
Tweak, Rookie Jab Rack. Donc,
toutes les espèces sont oscillantes et elles
apparaissent pour les valeurs 1250,
parce que ce que nous avons donné,
ce que je vous ai donné, la
réponse est parce que ce que nous avons donné, supérieure à un. C'est pourquoi il nous montre les valeurs n
supérieures à 123630 octets. Maintenant, affiche les valeurs
inférieures à un, d'accord ? Et puis la masse, elle apparaît
plus que correctement. Donc, quel filtre nous avons appliqué un filtre que nous avons appliqué est une
masturbation supérieure à 50. Cela nous montre donc un
masque plus grand que la puberté. Ces masses signifient une augmentation de la masse
de ces espèces. Donc, il y a
peut-être beaucoup de choses à ajouter à notre exposition , n'est-ce pas ? Mais nous avons pris la
moyenne de toutes ces pièces
et nous avons donné la moyenne des pièces séchées. OK, alors laissez-moi
vous montrer l'ensemble de données. Regardez comme si toutes ces espèces appartenaient à la sécheresse et
qu'elles en avaient la masse, n'est-ce pas ? Ils savent faire les calculs, non ? Et ils nous ont permis
de réaliser ce que nous avons fait. Nous avons mis fin à cette
branche pendant des années pour éliminer ces querelles. Et car tous ces noms
appartiennent à l'espèce. Dessinez-le, dessinez-le, et ils auront de la masse. Donc, ce que nous avons fait, nous
avons pris toute la masse, la
somme divisée
par le nombre d'espèces, numéroté les noms au hasard. Cette précision, nous
avons calculé la moyenne en utilisant la fonction
moyenne ici. Permettez-moi de vous montrer
ici, d'accord, je veux dire, c'est pourquoi il en est
ainsi dans une étoile mosfet chaque groupe d'espèces. Donc, pour l'homme, le message principal est que
T2 pour séchoir signifie des masses. Ça, d'accord, donc de cette
façon, nous pouvons utiliser le diagramme pour manipuler les données. Alors, quelles sont les
choses que nous avons apprises ? Nous avons appris que nous devons
installer notre package Tidy Verse pour utiliser le doublon. Et nous avons utilisé comment filtrer et comment appliquer un
filtre à notre ensemble de données. Et comment utiliser
select dans notre jeu de données. Et ensuite comment nous pouvons
muter et ajouter, muter ou ajouter une nouvelle
variable dans notre ensemble de données. Ensuite, nous avons vu comment
organiser notre ensemble de données. Enfin, nous
avons vu GroupBy et le
résumé avec le
filtre dans notre dernier exemple. J'espère donc que vous savez ce que nous pouvons faire
avec
la couche profonde et comment nous
manipulons les données dans le domaine de l'art.
62. Introduction aux tableaux de bord interactive brillants en R: Bonjour et bon retour. Dans cette conférence,
nous allons en apprendre davantage sur la signature depuis RStudio. Alors, quel est ce signe ? De notre total ? Ce minuscule est donc un moyen de
communiquer avec les données. Il s'agit essentiellement d'une solution de
tableau de bord ou d'un outil de
visualisation pour notre, d'accord. Donc, si vous souhaitez
visualiser des données dans R, vous pouvez utiliser ce petit RStudio. Il s'agit d'interagir, d'analyser et de communiquer
avec la connexion. Nous pouvons créer des
tableaux de bord interactifs dans
lesquels non seulement les données
seront affichées sous forme graphique
ou dans un tableau de bord, mais nous pouvons également interagir avec les données fines qui
se trouvent sur le tableau de bord. C'est donc la beauté
de la connexion depuis RStudio, qui permet non seulement créer un tableau de bord
basé sur les ensembles de données, mais également d'interagir sur
le tableau de bord lui-même. Il est donc conseillé d'adopter une approche interactive pour raconter histoire de
vos données en signant, permettre aux utilisateurs d'interagir
avec vos données et vos analyses et de tout
faire avec les nôtres. Ainsi, non seulement ils
pourront voir les données sous forme graphique, dans
les graphiques et le tableau de bord, mais ils peuvent également interagir
avec les données et voir
réellement l'impact de notre
analyse sur les données. Permettez-moi donc faire défiler la page vers le bas pour voir ce que disent
les autres options. So are in arsine est un package R qui
permet de
créer facilement des
applications Web interactives directement à partir de notre. Nous n'allons donc pas
utiliser autre chose, mais nous utiliserons la
programmation R elle-même. Et nous pouvons créer des tableaux de bord interactifs basés sur des applications
Web. Vous pouvez héberger des
applications autonomes sur le Web ou les
intégrer dans R Markdown. Les
documents sont conçus comme des sports. Vous voyez, cela doit être flexible. Étant donné que nous le pouvons, nous pouvons non seulement créer des pages Web et des applications
autonomes, mais également
les intégrer dans
le fichier RMarkdown. Les documents se trouvent dans un tableau de bord, ce qui fait toute la beauté
de la signature R. Vous pouvez également étendre vos applications de
signature avec des équipes CSS, HTML, des widgets et du
JavaScript, le PDG d'Exxon. C'est donc la
beauté que vous pouvez utiliser. Du CSS, des équipes, du HTML, des widgets et de l'excellence, pour que ce
soit plus interactif. Ainsi, une fois créé, nous pouvons travailler de différentes manières avec le tableau de bord
créé avec signature. Alors, qu'est-ce que
la signature peut faire d'autre ? Assignee combine la puissance de
calcul de R avec l'interactivité
de la vague moderne. Nous savons donc tous que R possède des packages que nous pouvons
aimer travailler sur les données. Nous pouvons obtenir des informations. Nous pouvons obtenir des informations à partir des données directement via nos
packages et ajouter de la programmation. Et pas seulement ces informations, mais aussi tout ce que nous obtenons. Calculez à partir des données. Nous pouvons les intégrer à
la vague moderne et interagir avec
les tableaux de bord, les
données ou les graphiques. Cela nous donnera donc plus d'
informations à partir des données, n'est-ce pas ? Voici donc un
exemple simple d'attribution d'une application. Tu peux te voir. OK, alors laisse-moi voir
l'index Google, l'indice des tendances. Il s'agit d'une application simple et brillante qu'ils ont créée. Et ici, vous pouvez voir un très beau graphique est
celui que nous pouvons voir. Maintenant, avec le cessionnaire, nous pouvons entendre que vous pouvez sélectionner l'indice, la
tendance, le voyage de l'indice. Ou si vous souhaitez changer, vous pouvez le remplacer par la publicité, le marketing
et le référencement. Le graphique est en train de changer. Je peux sélectionner
quelque chose ici. Et ce graphique,
nous allons simplement nous appuyer sur l'indice de tendance du chômage. Je veux voir, See. Cela montre maintenant la tendance
du chômage. Je peux sélectionner les petites
entreprises et cela
résoudra la
tendance des petites entreprises en ce qui concerne ces données, loyer, cette nouvelle tendance. OK, donc voici comment
nous pouvons ajouter un sélecteur. Nous pouvons créer un tableau de
bord interactif à l'aide de la signature. D'accord ? Et vous voyez, oui, c'est créé uniquement
avec nos
programmes, notre code. Maintenant, nous allons également créer une telle application Shiny
lors de la prochaine conférence. Et voyez ici, ce sont
les données de l'application, c'
est-à-dire le programme écrit en R4, ce genre de de bord
interactif désespéré. Ils utilisent donc ici un package de
signalisation, lecteur de couche
profonde, des
équipes si110 et une couche profonde. Et voici la description. Si tu veux, tu
peux le suivre. Ceci est le site officiel
de signing.rstudio.com. Si vous souhaitez en savoir
plus sur le panneau, vous pouvez consulter la
galerie et vous obtiendrez plus d'informations
sur le panneau. OK, Arsine, tu peux aller voir la régression linéaire
du processus de modélisation des détectives. Et puis notre petit package pour
apprendre à modéliser la réponse immunitaire. Il existe différents
projets que
vous pouvez lire vous-même. Je vais apposer une étiquette sur la
signalisation du site Web. D'accord. Ainsi, lors de la prochaine conférence, nous créerons également
une application Shiny. Et nous verrons comment
interagir avec le tableau de bord, d'accord.
63. Créer un tableau de bord interactif avec brillant: Bonjour et bon retour. Donc, dans cette conférence,
nous allons
créer notre propre application Shiny, dans laquelle nous allons
créer une application Shiny. Et donc ce que nous
allons créer, puis nous verrons
comment créer. D'accord ? Voici
donc notre application Shiny. Et ici, nous allons le faire. Nous allons créer
une diaspora basée sur le jeu
vidéo Mario Kart Eight et sur les personnages du
jeu vidéo que nous allons analyser. Nous allons devenir designer. Nous allons
créer un tableau de bord dans lequel vous pourrez interagir
avec le tableau de bord. Cliquez sur la visualisation
et voyez ici, par défaut, la division sera là. Et ici, les autres
variables seront là, d'accord ? L'axe Y et l'axe X, d'accord ? Vous obtenez donc que l'axe X
sera la variable y, voici la vitesse,
et ici, sur l'axe Y, vous
couserez le caractère. Nous avons donc les personnages, les personnages et les noms des personnages
sont là, d'accord ? Et nous allons
analyser leur vitesse et d'autres
variables comme la vitesse dans l'eau. Et nous pouvons également sélectionner
l'accélération et vous pouvez voir quelle accélération
bêta. Alors voyez ici, c'est le
tableau de bord où
nous pouvons interagir
avec le tableau de bord. Nous pouvons sélectionner la
variable ici, manipulation. Et c'est ce que
nous allons résoudre
pour la manipulation et dire : « Oui, je vais mettre la manipulation dans l'eau
et ça va générer. De cette façon, nous pouvons créer
plus, ce qui sera interactif. Et vous pouvez sélectionner la
variable ici et voir l'effet sur le
tableau de bord, d'accord ? Graphique. Et voyez ici que les différentes couleurs
sont le verre à lancer, lourd, léger et moyen. OK, voici comment nous pouvons
utiliser l'application de signature,
le tableau de bord interactif, nous avons terminé le jeu
Mario Kart Eight. Bon, maintenant nous avons
vu ce que c'est ? Voici donc les classes, les différentes couleurs indiquent la classe lourde, la classe
légère et le radium. Et ici, nous pouvons sélectionner la vitesse et cela changera la gestion des
variables, puis le graphique changera. OK, donc c'est l'application, signez l'application que nous
allons créer, d'accord ? Et cela, nous pouvons l'ouvrir dans
le navigateur que c' est
également parce qu'il s'ouvre
sur notre hébergeur local. D'accord, nous pouvons donc également l'ouvrir dans le navigateur en cliquant
sur Ouvrir dans le navigateur, et il s'ouvrira dans votre
projet par défaut de la même manière. OK, donc, si nous fonctionnons aujourd'hui
dans le hockey sur navigateur, et nous perdons le niveau de la
source de données sur le site Web de Kaggle. Vous pouvez donc vous rendre sur le site Web de
Kaggle et consulter les données et
votre visualisation. Tu peux sélectionner Modifier, d'accord ? Donc, en fonction de ce que
vous sélectionnez, tout ira bien.
Donc,
c' est interactif, c'est
ce que nous allons créer. Permettez-moi donc de vous présenter rapidement
le code. C'est un code assez simple. Donc, ce que nous devons
faire ici, en gros, cette application de signature
comportera trois composants. Trois composants x
vraiment trois composants, ou trois pages Web, trois pages dont nous avons besoin
pour que vous puissiez obtenir le
premier sera le point de l'application, puis le second
sera le serveur. Et la troisième
sera la partie interface utilisateur. D'accord ? Donc ensemble de mots, puis UA. Donc app.all server et UI.R. Voici donc les trois fichiers que
nous allons écrire, d'accord ? Et en dehors de cela, nous avons créé un dossier. Vous devrez en créer
un pour l'application leucine,
quel que soit le nom que vous
voulez donner, vous pouvez le donner. Ensuite, une application de
dossiers de données mise à niveau a conservé le fichier CSV, qui contenait chacun
l'ensemble de données. OK. Alors laisse-moi ouvrir et souiller. Il s'agit de
l'ensemble de données qui contient tous les caractères,
la perle de verre , les autres détails, et voici les noms, la
vitesse et toutes ces choses. D'accord ? Voici donc l'
ensemble de données que j'ai conservé. Apportez-nous le fichier CSV Character Dot, téléchargez-le depuis le Kaggle. OK. Ensuite, voici l'image que nous
voyons sur la face avant. Ces images sont là. Dossier W, W, W. Et ce sont de toute façon les trois fichiers de données de
l'application Guitar Solo, des données que j'ai créées. OK, alors laissez-moi passer au code. La première chose est app.all. Ce dont nous avons besoin. Nous avons besoin de
la bibliothèque assignée, d'
accord, vous devez donc
télécharger le téléchargement et
installer la bibliothèque Shiny. Vous pouvez trouver ici les
packages installés par sexe et par année. Et vous devez
cliquer, cliquez simplement sur Installer et donc sur un
petit nom, et ce sera fait. Alors laisse-moi te montrer, il suffit de cliquer ici. Et ici, vous devez
mettre la signature S, I, N, Y, signe. Ensuite, nous devons
cliquer sur Installer. Et le package Sami
sera installé. Je l'ai donc déjà installé, donc je ne vais pas le refaire. Vous devez donc mettre le brillant puis cliquer sur Installer et
il sera installé. En dehors de cela, vous pouvez
également utiliser install.packages. Tu peux utiliser un problème
avec le stylo, d'accord ? Et vous pouvez installer
le signe nominatif ici. C'est littéralement fait, d'accord ? Vous pouvez donc utiliser install.packages et mettre le nom
du package et m'attribuer. Et ici, nous donnons cette option à ces
sources qui ajoutent des sources UI.r, à
UI.r et à d'autres
serveurs de sources. Ce sont donc les deux éléments que
nous allons utiliser dans l'application. Dot point, point, point est notre fichier principal dans lequel nous appelons
UI.r et données cellulaires. Ensuite, nous créons l'application Shiny en la
nommant Shiny app. Et ici, euh, égal à UA
et sérologique au serveur. D'accord, donc quel que soit le
nom que vous donnez, le nom de fichier que vous
pouvez donner ici, d'accord. Il s'agit donc d'un simple point d'application notre fichier où nous ne faisons que
charger la bibliothèque, en donnant à la source comme si
nous allions utiliser E-Y-E point r et le serveur qui se
trouvent à l'intérieur après coup. OK, puis nous créons une application d'
attribution dans laquelle nous
spécifions le nom de
fichier UID et la limite de sulfure. OK. C'est donc l'application qui sort. Ensuite, le mot suivant est le
troisième mot « point are ». C'est tellement triste. Je vais passer aux données cellulaires. Et ici, vous pouvez voir que nous avons chargé le tracé
GG dans la bibliothèque. Parce que nous allons le faire, nous créons un tableau de bord ou nous créons un
graphique pour le graphique. Nous voyons que
nous créons à l'
aide de GG Plot Two. Et puis nous avons ici une
spécification de cet ensemble de données. Donc, à partir de là, nous allons
obtenir l'ensemble de données. Les données contiennent moins de caractères,
pas une application de fichier CSV. Donc, vous et nous utilisons read point csv total,
ce fichier CSV. Et comment lire
le fichier CSV que nous avons déjà vu dans les conférences
précédentes. OK, alors nous
créons le serveur ici. Pour créer un serveur,
nous exécutons un serveur où, étant donné la valeur de mes
variables, les noms sont corrects, puis nous perdons la fonction, l'
entrée, la sortie et la sortie. Nous sommes en train de lire sur l'intrigue. Et nous utilisons la fonction
RenderPlot pour effectuer le rendu du tracé. Et nous utilisons le
caractère, le caractère, puis nous utilisons des facteurs pour créer des données, des
étiquettes et un ordre. Nous utilisons la classe
dollar des personnages, d'accord ? Ensuite, nous utilisons le
diagramme GG pour dessiner ce graphique. Et ici, les données que nous
lisons sont des caractères (point CSV) et l'axe X, la valeur
X, le caractère WM, l'identité des
statistiques. Et l'entrée y. La valeur y en
dollars désigne l'entrée que nous
sélectionnerons pour le y qui
sera sélectionné. Que c'est la
partie où se trouve l'interaction ou la liste déroulante
que nous sélectionnons, elle s'affichera, d'accord ? Et puis nous
lisons des cartes retournées. Les coordonnées seront donc inversées. D'accord ? La prochaine étape est UI.R. Donc, si vous voyez pourquoi c'est étrange, c'est aussi assez simplifié. Nous utilisons le
point
caractéristique CSV et nous répétons
le fichier csv à points de caractère. Ensuite, nous utilisons la première
page d'introduction, puisque nous avons deux pages
et deux produits et n, les visualisations et la phase de
production se trouvent dans panneau à onglets
Draw pour créer
le panneau d'introduction. Et nous utilisons le
titre Titre de l'introduction pour la finale. Ensuite, nous utilisons
la source de l'image. Et nous donnons une
pause ici. Et voici l'écriture
du paragraphe. Et puis nous
donnons ici le lien, le lien Kaggle
que nous avons vu, indiquant que nous avons une protéine
qui, page après page, est simple. L'interaction et le panneau, nous créons le meilleur
outil pour la visualisation. Ce que nous faisons, nous utilisons des valeurs
sélectionnées, le nom de la colonne. Le nom de colonne des caractères
sera celui des valeurs. Et puis qu'est-ce que nous utilisons ? Sélectionnez des valeurs, sélectionnez où
perdre des caractères. D'accord ? Nous faisons donc partie de
la classe, d'accord ? Ici, nous utilisons la requête de
sélection, tant mieux. Pas dans la tâche Select Value. Contrairement à ce qui se passe essentiellement, nous supprimons les
colonnes indésirables ici. Et nous allons choisir le
personnage de cette classe. Ici, nous obtenons la barre latérale
en utilisant le panneau de barre latérale. Et ici, nous sélectionnons
l'entrée pour y, où y souligne où et le niveau seront
la variable y. Vous pouvez, si vous le souhaitez,
le remplacer n'importe
quoi, des choix, des valeurs
sélectionnées. Et déjà la valeur
chargée
sera celle de la vitesse
sélectionnée égale à la vitesse. La vitesse sera donc sélectionnée par défaut
pour nos désespérés. OK. Ensuite, le contenu principal. Nous utilisons le panneau principal et le
graphique de sortie du graphique, d'accord ? Et cela viendra
du Southern Blot. Et le deuxième panel, le panneau d'onglets où nous
sommes tellement individualisés, le panneau de
titre, titre
que nous donnons, paragraphe
que
nous sommes en train d'écrire. Et puis la disposition de la barre latérale, qui
souligne le contenu, le contenu principal apparaîtra ici. D'accord ? C'est ainsi que nous avons créé
ces trois fichiers. Et ces deux points, serveur et l'utilisateur,
appellent Juif dans les données de
l'application. Bien, nous
allons maintenant lancer l'application. Cliquez donc sur Exécuter l'application, elle s'exécutera et
ouvrira la fenêtre RStudio. Maintenant que nous voyons la page, notre main ici, vous pouvez voir la page d'introduction,
visualiser et coller deux pages. Et l'introduction paie. Rien ne vient juste de se diriger. Et l'image que
nous avons incluse, et voici le paragraphe
et voici le lien que nous vous avons donné là où
nous l'avons spécifié. Si vous venez ici à UI.R,
regardez ici le titre que
nous avons donné, et puis l'image que nous avons,
encore meilleure, de la Calabre, nous gagnons. Et pourtant, même si nous avons
donné le lien Kaggle, d'accord, c'est ce que
nous voyons dans le panneau d'introduction
et dans le second panneau, lorsque vous ouvrez la visualisation. Ici, vous pouvez voir pourquoi vous
activez la vitesse par défaut, car ici, nous avons sélectionné la vitesse
et le niveau est la
raison pour laquelle
vous pouvez le faire, d'accord ? Et nous lui donnons l'intrigue
en sortie et voyons le titre. Et c'est un paragraphe
que nous donnons. OK. Laissez-moi donc vous
montrer comment cela évolue en
fonction de la sélection. Si je sélectionne Speed ground, le graphique obtiendra une chaîne. Si je sélectionne la manipulation, le graphique changera si je sélectionne des pistes sur
le graphique associé. Voici donc le tableau de
bord interactif que nous avons créé à l'aide de l'application Shiny. D'accord ? Regardez ici les différentes couleurs
représentant le verre lourd, léger et moyen. Et ici, vous pouvez sélectionner et vous pouvez voir la différence
entre ces éléments. OK, voici comment fonctionne le
panneau, l'application.
64. Quelques exemples d'applications brillantes dans R: Dans cette conférence, nous
allons examiner certains des
exemples déjà écrits d' applications de signature qui se trouvent déjà
sur le site Web de signature. Voici donc l'
exemple de l'
application Shiny que vous pouvez examiner en main. Vous pouvez les voir et modifier le code. Et vous pouvez créer votre propre application Shiny en
vous connectant à Esports. Alors laissez-moi vous dire comment
vous pouvez également exécuter cela. Il suffit d'appeler
la bibliothèque Shiny. Nous devons donc écrire une
bibliothèque, puis signer, et nous devons exécuter ceci. Une fois cela fait, vous pouvez commencer à utiliser les exemples comme si le premier était
quoi, un histogramme. Un exemple est donc la fonction
que vous pouvez utiliser pour appeler cette application de signature de
programmes déjà écrits. OK, donc 01 soulignement
Bonjour, c'est celui-ci. Et allons-y et
voyons ce que nous obtenons. Ainsi, lorsque vous l'exécutez, vous ouvrez l'application assignée. Et voyez ici, c'est
dire bonjour en signe de signature. Et ici, vous pouvez voir le nombre
de poubelles qui arrivent et voici un histogramme des temps
d'attente, d'accord ? Donc, ici, à mesure que vous augmentez
le nombre de bacs, voyez ici, le nombre de bacs
augmente. Et maintenant, il existe des moyens peptidiques. Si vous en faites un, il n'
y a qu'un seul gagnant, n'est-ce pas ? Si vous en mettez six, il y a 6,12 3456 bacs. Si vous le voyez ici, il est interactif et vous pouvez donc augmenter ou diminuer
le nombre de broches dans ce tableau des tâches. C'est donc la spécialité
de l'application Shiny que nous
pouvons jouer avec le tableau de bord
que nous avons créé, tableaux de bord
interactifs
que Shiny App Create. Alors maintenant, vous pouvez voir, si vous venez ici, cela vous donnera
la description. Il s'agit d'une petite
application minuscule pour démontrer, signez ces mises à jour automatiques de l'interface utilisateur. D'accord ? Voici donc la région
RenderPlot et les bacs de saisie. Et regardez ici abduct, notre dossier est déjà donné ici. Vous pouvez donc simplement copier
le code à partir d'ici. Et vous pouvez exécuter, utiliser ce code, apple.tar. Visualisez votre laboratoire à l'aide de la
bibliothèque shiny et uy, puis du titre, puis de la disposition de la
barre latérale. Et ici, l'identifiant d'entrée dans la barre latérale
que nous donnons aux beans, le
nombre de bacs et le
minimum sont un, maximum est la propriété et
la valeur démarrée, donc par défaut, elle sera sélectionnée. Et puis ici, le panneau principal trace la sortie que nous obtenons, la sortie ou le panneau principal. Voici donc l'
idée de sortie de l'intrigue. Donc, si vous accédez au serveur, vous pouvez voir les entrées des fonctions
du serveur ou nous allons prendre la fonction. fonction F
prendra l'
entrée comme entrée et
donnera la sortie. D'accord ? Et voici ce graphique. Et puis nous appelons
le RenderPlot. Et ici, nous
donnons la valeur x. Et la valeur x correspond à une attente fidèle. Et Vinci est là, vous pouvez organiser
des débats dans une séquence allant du minimum au maximum, puis
pointiller les broches d'entrée plus une. Bon, nous sommes en train de
dessiner l'histogramme. Nous essayons donc d'utiliser l'histogramme avec la valeur x et nous donnons au Brexit la même valeur que
la peinture et la couleur. Vous pouvez donner ce que vous voulez à la main, au xlab et au titre principal, vous pouvez donner ce qu'ils veulent. Ensuite, nous créerons
l'application en utilisant application
Shiny, puis UY égal à interface utilisateur et au serveur, chaque
appel au serveur. Donc, quelqu'un est
décédé du serveur. Et oui, c'est ce que nous définissons ici. Donc, si vous le souhaitez, vous pouvez le mettre dans
l'UI.R jusqu'ici. Vous pouvez insérer l'UI.R
et la partie serveur. Vous pouvez placer dans le
serveur ce r, et ce seront les données de votre application et nous appellerons
l'interface utilisateur et le serveur. Ainsi, vous pouvez
prendre cette application point r, qui est un seul fichier, et les
convertir en trois
fichiers si vous le souhaitez, et si vous voulez
ajouter d'autres éléments, si vous voulez ajouter, si nous voulons télécharger un autre graphe ici, Giardia,
vous pouvez le faire. Vous pouvez donc le modifier car le code
est déjà fourni avec Duck Sign sur le
site Web de l'application à partir de là. Il s'agit donc de créer le package
de connexion, n'est-ce pas ? Alors laisse-moi fermer ça. Voyons le deuxième exemple. Le deuxième exemple consiste à exécuter exemple zéro pour
souligner des textes. Voyons ce qu'il y a là. Il s'agit de Table send DataFrame. Alors lançons cette application
Shiny et à bientôt. Lorsque vous cliquez
dessus, les textes d'inscription
s'ouvriront. Il voit ici. Ici, nous pouvons
sélectionner le jeu de données Rock, Fraser et Car Support. Je sélectionne une carte. Il nous indique donc la vitesse et cela tend à indiquer la
vitesse et la distance. Et ici, vous pouvez définir
le nombre de lignes, le nombre d'observations à afficher. Il est donc maintenant 1012. Alors voyez ici aujourd'hui. Donc dans du gravier. Et si je réduis cela
à une hypothèse, cela n'en montre qu'une, je peux augmenter,
continuer à augmenter. 123. Vous voyez ici, vous interagissez avec cela et ici
je peux sélectionner la pression, afin qu'elle vous indique la
température et la pression. Et ici, nous pouvons simplement augmenter la
température et la pression, ainsi que
cette table. Ainsi, nous pouvons jouer
et en tirer des leçons, et ce code est également là, app.all que vous
pouvez prendre et que vous pouvez modifier selon
vos besoins. Passons donc
au troisième exemple. Il s'agit de l'application
d'expression réactive. 03 souligne donc la réactivité. Et allons-y et voyons quoi notre application si110 est
prête à être mise en place. Découvrez donc ici les lacunes et les besoins en matière d'
assemblage de données. L'assemblage des données et l'ensemble de données sont préservés
et les voitures sont à nouveau préservées. Nous pouvons donc sélectionner
des accolades et ici, la même chose que des
lignes et des colonnes. Vous pouvez également sélectionner n pour cela. Le fichier sortant est donné, le destinataire, notre
fichier est donné ici. Vous pouvez le prendre pour l'examiner et vous pouvez apprendre que
si nous voulons le modifier, vous pouvez le modifier. C'est open source,
vous pouvez donc le prendre modifier
et l'utiliser vous-même. Et ensuite, voyons des
étrangers du judo appelés MPG. Et cliquez sur Exécuter. ouverture de l'apogée a donc remarqué une oscillation
du nombre de cylindres, la transmission et des engrenages. Il indique donc les
miles par gallon. La relation entre
le MPT et l'équipement. Et si vous choisissez une
transmission égale à Toyoda, des leçons entre
la voiture automatique et
manuelle avec
le Majlis, d'accord ? Et si vous sélectionnez
les engrenages avec le
cylindre, et pour celui-ci, vous pouvez obtenir le fichier tar et
modifier vous-même une niche. Ensuite, ce sont les barres coulissantes. Alors, exécutons-le et voyons quoi. Voici donc un très
bon exemple pour en savoir plus
sur le package de signalisation et sur la possibilité de le
modifier et de le
gazonner. Voir ici. Voici les sliders. Il y a donc tellement de
sliders sur ce sport. Et pour ce trimestre,
c'est déjà fait. Vous pouvez voir ici que je
peux utiliser une valeur entière. Je peux faire 1 000 ou 172 décimales, 0,8 ou une décimale comme ça. Et puis la gamme, je peux la modifier à partir d'ici. Et dès que vous le
modifiez ici vous pouvez voir les modifications là-bas. Formateur personnalisé, nous pouvons
définir une animation en boucle, nous pouvons le définir ici. De cette façon, nous pouvons
ajouter anti-A ici. C'est la possibilité de jouer
sur ces formats personnalisés. Vous pouvez cliquer ici et Syria 0-500500 change automatiquement
. Ça fonctionne bien, alors regardez ici, maintenant ça change
lentement ici. Et voyez que cette animation
numérique, c'est aussi une tendance. Donc, au fur et à mesure que cela change, le
curseur change. Cela est également en train d'être
modifié et ajouté. Les autres chiffres seront
également modifiés. Voici donc le package
Magic of si110
dans R qui vous permet créer ces tableaux de bord
interactifs. Vous voyez, cela est en train de changer et cela change également. Bien, passons à l' exemple suivant
qui concerne
les cellules de type. Il suffit donc de cliquer sur Exécuter
et de voir ce que nous obtenons dans la profondeur. C'est normalement uniforme, long, normal et exponentiel. Nous pouvons donc simplement cliquer ici
et voir le résumé, le tableau, voir comment cela évolue. En un clic, vous
pouvez voir la normale. Si nous voulons voir l'uniforme, vous pouvez le voir. Et si nous voulons
voir la forme longue, vous pouvez voir le long poème. Vous pouvez consulter l'ancien traitement, résumé du
diagramme et les tableaux. Et les trois
évoluent ensemble. Cliquez sur toutes les données ici, vous pouvez augmenter le
nombre d'observations. Et instantanément, vous pouvez voir qu'il
s'agit d'un très bon outil pour
analyser les données et
les analystes de données ou les data scientists. Ou si vous souhaitez
agrandir vos données, vous pouvez utiliser l'arsine
et ce type de tableau de bord
interactif que vous pouvez créer et expliquer à votre
équipe ou à votre responsable, que
vous êtes en contact avec votre
client et qu' peut obtenir instantanément
un aperçu des données. Donc, de la même manière, vous
pouvez voir l'autre chose. Voici un exemple, téléchargement d'
arginine, qui nous
donnera les hésitations nécessaires pour
télécharger les fichiers et tout le reste. Voyons voir. Vous pouvez cliquer ici et
vous pouvez simplement sélectionner n'importe quel fichier et vous pouvez le télécharger. Supposons que je veuille télécharger, maintenant il est chargé et comme
il ne s'agit pas de notre fichier CSV, nous allons
donc entrer dans le vif du sujet. Si vous souhaitez
télécharger un fichier CSV, vous pouvez continuer et vous
pouvez télécharger un fichier CSV. Laissez-moi donc me rendre
au tribunal de première instance jusqu'en 2020, et j'essaierai d'ouvrir un fichier CSV. Permettez-moi d'ouvrir les données CSV Nato Dot que
nous avons corrigées dans l'un de nos
exemples, ouvrons-les. Téléchargeons les données ici. Maintenant, nous pouvons voir que le fichier CSV Data
point a été téléchargé et nous pouvons voir les
données à l'intérieur du fichier CSV Data Point. Nous pouvons retirer le document. Vous pouvez mettre l'
en-tête comme ça. Nous pouvons tout faire. Nous pouvons mettre un point-virgule. Nous pouvons utiliser un séparateur,
une virgule, un point-virgule, ou même du ruban adhésif
et des guillemets sans guillemets doubles. Toutes ces choses
que tu peux faire ici. J'affiche déjà
toutes les données qui s'y trouvent dans le fichier CSV Data
point, n'est-ce pas ? Donc, votre karma et
voyez si je mets de la tête, cela montrera que vous n'avez fait que du
carburant, le chien, c'est comme quelqu'un et qu'il
fait le plein de vente au détail. Remarquez le lancement de données. C'est donc une chose très
importante. Et ici, vous pouvez le créer. Cela se produit dans notre si110 et vous pouvez partager avec
votre client l'endroit où
il peut télécharger le fichier
CSV et voir le fichier CSV sans
avoir à utiliser XL T-TIP. Ils n'ont pas le
droit d'être alliés. Ils peuvent simplement
sélectionner le pylône CSV. Je vais regarder
le CSP vendredi, d'accord ? Et pour cela, le code
est déjà donné ici. C'est donc une
bonne chose, un légume, les choses que vous pouvez analyser
dans le cadre d'une mission et que vous pouvez en tirer des leçons que vous
pouvez modifier et utiliser vous-même. Voir le chronomètre. Vous pouvez
cliquer ici et le chronomètre indiquera l'
heure actuelle. De cette façon, nous pouvons utiliser la signature.
65. 2 applications brillantes dans RStudio: Bonjour et bon retour. Dans cette conférence, nous allons
créer une application de signature de deux pages. Donc, deux fichiers s'enregistrant, nous allons créer. Nous avons donc vu comment
nous pouvons créer trois pages, comme nous l'avons fait pour apple.tar,
UI.r et Teradata. Un autre exemple. Ici. Ce que nous allons
faire, c' créer un dossier, deux dossiers. L'un est UI.r, et le
second sera constitué de données de serveur. Donc, tout d'abord,
ce que
nous devons faire, nous devons
accéder à notre répertoire de travail et créer un
dossier avec l'acronyme. Donc, ici, je donne le nom de l'application comme vrai lors de la signature de l'application. D'accord ? À l'intérieur de celui-ci, je vais
créer deux fichiers, UI.R et Solver point Art, sorte que j'ai
déjà créé et écrit le
code correspondant à la manière dont il se trouve dans le
dossier de l'application de signature de fichiers. D'accord. Le nom de l'application
sera donc le nom du dossier. Et à l'intérieur du dossier nous enregistrerons cet UI.r
et le point r du serveur. Ainsi, ce point
aura la même interface utilisateur égale à une
mise en page fluide de la page et de la barre latérale et à la saisie du volet latéral, du panneau et de la barre latérale. Nous donnons donc ici l'OBS
et le nombre d'observations, d'observations et de
visiteurs. Le minimum est de dix, maximum est de 500 et la valeur
sera de cent. D'accord ? Ensuite, nous appelons le
panneau principal et la sortie du graphique. Ce diagramme et ce
diagramme
proviendront du serveur dont
nos sources sont
ce que nous appelons la fonction entrée et sortie et la sortie
seront le diagramme parabolique. Et ce diagramme sera
intégré à l'histogramme, où les données
seront entrées OBS
pour nos normes et la couleur que je vais
nous donner est
le rouge et le vert. D'accord, seuls ces deux
fichiers, pas besoin d'écrire l'application, le sont et
comment exécuter ce fichier. Nous pouvons simplement accéder
à la console ici. Alors laisse-moi effacer la console. Et ici, il vous suffit d'
écrire une application d'exécution. Exécutez ça. Nous devons maintenant appeler run app
et, dans l'unité RunApp,
fournir le
nom du dossier ou le nom de l'application pour signer l'application
que nous avons créée. Donc, ces quatre que nous avons
créés pour signer l'application. Nous allons donc lui donner un nom
ici et nous devons l'exécuter. Appuyez donc sur Entrée et votre application Simon trouvera le numéro d'observation du
PDG. Et voici un histogramme. J'ai donc donné du vert, rouge et la bordure
sera verte. Et si je change ce
nombre de générations, il continuera de changer. Donc, de cette façon, nous pouvons créer ou enregistrer une application de signature dans laquelle
UI.R répondra à ces données, allons-nous la tuer ? Si vous voulez changer la couleur, vous pouvez mettre le
jaune et le vert. Et ici, nous devons simplement le fermer et le réexécuter. J'ai lancé l'application pour classer n'importe quelle
application et j'ai appuyé sur Entrée. Voyons maintenant qu'il sera
propre et jaune. Ceo, le jaune et
la bordure sont verts. Vous pouvez donc faire comme ça. Et vous pouvez constater un certain nombre d' apoptose
variées et anormales et vous pouvez voir que l'histogramme
change. D'accord ? Ainsi, nous pouvons
créer deux fichiers. Inscrivez-moi.
66. Générer des rapports téléchargeables dans brillant: Dans cette conférence, nous
allons découvrir comment générer des rapports
téléchargeables. Comment générer
les rapports sur lesquels nous pouvons télécharger notre divorce
téléchargeable. D'accord. Ainsi, lorsque vous visitez le site
assignee.rstudio.com, vous pouvez constater qu'il existe déjà une substance
et des informations
que vous pouvez apprendre sur la
signature depuis notre studio. Donc, créer le
tableau de bord interactif ici est opsin. Vous pouvez le voir générer des rapports
téléchargeables. Vous pouvez donc voir ici l'exemple comme app.all et qu'
ils ont donné. Et ici, vous pouvez l'
essayer et signaler le point RMD. Et il a cru que
ce rapport était vide et qu'il
créerait un complot. Et le
rapport que vous pouvez télécharger. Et il existe un autre
exemple de sommet que je vais vous montrer, lequel nous pouvons télécharger le rapport sous forme de PDF
ou de HTML et de barres. Donc, voici le premier jeu de données sur les voitures vides qui est facilement
accessible avec le R. Ici, vous pouvez voir en fonction
du nombre de cylindres, nous pouvons voir le modèle de régression. Il s'agit du modèle de régression. Cylindre et nombre
de cylindres, MPG, comment le nombre de cylindres affecte le
kilométrage, miles par gallon, comment le point chaud
affecte le MPG, comment le poids de la voiture affecte les
miles par gallon, preuves ou kilométrage de
la voiture, ou rayon, la façon dont ces facteurs affectent le nombre de vitesses
affecte la myéline qu'il s'agit ce que
nous avons fait pour analyser votre dette nous l'avons fait dans le cadre de
nos programmes. Et ce sont les éléments que nous
pouvons apprécier car ils ont été
générés
en interne lors du développement
d'un modèle de régression cadre
duquel ils essaient de
trouver la meilleure ligne d'ajustement. Et pour cela, maintenant, voici le rapport et le
soutien à votre déplacement. peux le mettre comme ça et il
existe une option au format de document, PDF ou HTML, ou travailler pour
les soutenir en cliquant sur PDF et
je clique sur Télécharger. Ce rapport complet sera téléchargé au
format PDF si je l'ouvre. Et donc, vous voyez ici, cela montre que
cela a fonctionné comme ça. Voici le modèle de régression. Et d'où nous
obtenons ces informations, proviennent du
fichier Report Dot RMD. Nous sommes là pour créer le modèle de régression linéaire basé sur les
sources de données, les voitures vides. Ensuite, ils utilisent
le coefficient correspondant. Ensuite, ils insèrent cela dans le diagramme pour
trouver la meilleure droite d'ajustement, puis ils obtiennent la droite la mieux ajustée,
notre droite de régression. Ce rapport est donc
publié comme suit. Lorsque vous le voyez ici, il nous
montre les points de données, mais lorsque vous le téléchargez, nous obtenons le rapport
complet. Et voici l'ensemble
de fichiers composé de r point r et c ici. La moyenne de la formule, l'astuce et de l'entrée MPG,
puis de la sortie, désendettement d'un autre graphique,
puis le téléchargement du rapport
ici, partie puissante, le format du nom de fichier sera
le PDF puis le contenu, ils obtiennent la normalisation. Mais importons ceux qui sont vides. C'est important car tous les calculs et tout ce
que nous avons vu dans ce rapport proviennent des fichiers d'assemblage. OK, donc c'est
très important. Et puis les voici, il suffit de définir le répertoire de
travail
comme répertoire temporaire
afin qu'il
ne demande pas l'accès administrateur. Et je vais m'en occuper.
Ils l'utilisent pour ensuite trouver une copie du lot et le
signaler chez MD, n'est-ce pas ? Ensuite, bibliothéquez le
Markdown d'origine et cela permettra de les convertir en
fichier RMD dans le PDF. D'accord ? Alors, découvrez
renommer le fichier de sortie. D'accord. Donc, ces choses,
permettez-moi également de vous montrer le fichier RMD qui a
été utilisé en interne. Vous pouvez donc cliquer sur Obtenir le
code et cela vous redirigera vers référentiel
GitHub où vous signez. Vous pouvez voir ici un rapport indiquant que nos employés sont des
mots qui, de toute façon, sont points et des points dans tous les fichiers. Ainsi, lorsque vous cliquez sur
le point RMD du rapport, vous pouvez voir ici la moyenne du modèle de régression et voici le code.
Voici mon modèle de régression. Et puis en utilisant notre
modèle, l'effondrement est vrai. Et il avait des opsines. Ces autres choses,
nous les voyons bien. Et puis le MPG
original qui fructifie et tout ça. OK, ils créent donc un
nuage de points, puis trouvent la
ligne la mieux ajustée à l'aide de la ligne abline. Et ils mettent
la bonne couleur ? C'est ainsi que nous
obtenons ce rapport lisant ce fichier d'
assemblage et en
préparant les rapports. Ainsi, vous pouvez obtenir un rapport téléchargeable. Si vous souhaitez télécharger ce
rapport au format Word, vous pouvez cliquer dessus et il sera téléchargé
dans un document X4, n'est-ce pas ? D'accord. Et si vous souhaitez le
télécharger au format HTML, vous pouvez cliquer sur HTML et télécharger. Et il sera téléchargé
dans le fichier HTML suivant. Ouvrons ceci et les données CSIA, mon fichier HTML à points de rapport. Ainsi, si
vous souhaitez créer un rapport ou un tableau de bord
téléchargeable, vous pouvez utiliser le Discord et
écrire le vôtre. Signez l'application.
67. Analyse de la covariance: Bonjour et bon retour. Dans cette conférence,
nous allons donc en
apprendre davantage sur l'analyse
de la covariance. Et on l'appelle aussi cola. Donc ENCO Reais. Cela signifie l'analyse de la covariance et du secret
et du tri, c'est ce que nous appelons. Qu'est-ce donc que cette
analyse de covariance ? Vous savez donc ce que nous faisons dans les
algorithmes d'apprentissage automatique ou dans un modèle de régression linéaire. Ce que nous faisons en régression, essayer de trouver une valeur réelle, une valeur continue, n'est-ce pas ? Contrairement aux données catégorielles, nous essayons toujours de trouver la longueur de l'
arc oui ou non, vrai ou faux, zéro ou
un comme ça, n'est-ce pas ? En régression, nous avons donc
essayé de trouver une valeur continue. Nous créons donc une
analyse de régression vers Lake. Nous utilisons des modèles de régression. Analyse de régression pour
créer des modèles décrivant l'effet de la variance sur une variable
prédictive, n'est-ce pas ? Sur les variables de réponse. Quel est donc l'effet de la variance des
variables de prévision sur le modèle de réponse ? Quel effet les variables
prédictives vont avoir sur
la variable de réponse. C'est ce que nous essayons de faire avec l'analyse de régression. Et quels que soient les modèles
que nous allons créer , nous allons
le faire d'une seule façon. Mais que se passe-t-il parfois ? Nous disposons d'un ensemble de données catégorielles. Donc, si vous voyez ensemble de données sur
les voitures vides intégré
au R et que nous allons
utiliser si nous exécutons ce
morceau de code, vous verrez que nous
avons une colonne E m. Qu'est-ce que ce m. M est automatique ou manuel. Regardez sa valeur, sa
valeur est zéro ou 10 signifie automatique
et signifie manuel, donc quelque chose comme ça. D'accord ? Donc D représente l'
automatique et le manuel, d'accord ? Il s'agit donc d'une donnée catégorique, nulle ou égale à un. Il ne s'agit pas d'une valeur
continue comme les miles par gallon, 2 122,8, 21,14, 0,7, n'est-ce pas ? Il est donc difficile de
trouver l'effet de cette
variable catégorielle sur ce mpg. Voyez ici la puissance, les
HP y sont également, mais c'est une
valeur continue qui n'est pas catégorique. Bonjour. Alors, que se passe-t-il ? faut, nous avons une variable catégorielle
dont les valeurs sont non, zéro ou un,
masculin ou féminin. Dans certains cas. N'importe quoi,
cela peut être une perte de profits, peu importe, donc quelles que soient les valeurs
catégorielles que nous pouvons avoir. Ainsi, l'
analyse de régression simple donne plusieurs résultats pour chaque valeur de la variable catégorielle. Donc, pour cette ligne G
et un pour zéro, nous obtiendrons 21 points
pour ce 018,7. Nous obtenons donc une valeur
différente pour MPG, pour le même zéro, n'est-ce pas ? Zéro représente le Hornet
et celui-ci représente le sport des Hornets, n'est-ce pas ? Ces valeurs sont donc différentes. Alors, comment allons-nous déterminer l'effet
que cela a
sur le nombre de miles par gallon ? C'est donc ce qui entre en ligne de
compte, l'analyse de la variance. Permettez-moi donc de vous donner une
petite explication. L'analyse de covariance
est utilisée pour tester l'effet principal et l'effet
d'interaction d'une variable catégorielle. Cela signifie qu'il s'agit de viser une variable dépendante
continue, savoir le mpg, en contrôlant l'effet de la sélection
d'autres variables continues. Donc, si nous savons quel effet
cela a sur cela, nous pouvons même avoir décidé quels
HP ont un effet sur le MPG ou quel effet
ce m a sur le HP ou le MPG, qui varient en fonction de
la personne à charge. Les variables de contrôle
sont appelées covariables. Les variables encore contrôlées sont appelées covariables. Parfois, si nous avons une variable catégorique avec des valeurs telles que oui
ou non, homme ou femme, profit ou perte. régressions simples et les lances donnent plusieurs résultats pour chaque valeur de la variable catégorielle
dont j'ai parlé ici. Pour zéro, il existe de nombreuses valeurs mais MPG et pour un,
il existe également de nombreuses valeurs. L'analyse de régression simple
donne plusieurs résultats pour chaque valeur de la variable
catégorielle. Dans un tel scénario, nous pouvons étudier l'effet d'une variable
catégorielle
en l'utilisant avec une variable
prédictive sombre et en comparant les droites de
régression pour chaque niveau d'une variable
catégorielle. Donc, ce qu'il dit, c'est que
dans un tel scénario, nous pouvons étudier l'effet
d'
une variable catégorielle en l'utilisant
avec le prédicteur. Donc, avec un
prédicteur comme HP. Nous allons donc utiliser un m avec
le HP pour prédire le MPG. Et nous allons trouver la droite de
régression pour chaque niveau de la
variable catégorielle pour 0,41, pour chacun, mais chaque niveau
trouvera la variable
catégorielle. D'accord ? Et c'est ce qu'on appelle l'
analyse de covariance. Considérons donc
cet ensemble de
données sur les voitures vides où m représente
la transmission automatique manuelle. Il s'agit d'une
variable catégorique avec des valeurs de 0,1 Comme je l'ai dit plus tôt, miles par gallon ou le
MPG d'une voiture
peuvent en dépendre. En outre, la valeur
de la puissance, mpg, peut
dépendre du fait que la voiture soit
automatique ou manuelle, et elle peut également dépendre de
la puissance. Nous avons donc étudié l'effet
de l'EM sur la régression entre MPG et HP. Et cela se fait en
utilisant la fonction a ou V. La fonction Aov est une analyse de la fonction de variance
suivie de la fonction NOR. Nous allons donc utiliser les fonctions du bot. Nous allons d'abord utiliser la fonction AOV
pour trouver la régression. En utilisant ces deux variables autres HP
sont prévisibles
et visent à trouver le MPG. Ensuite, nous utiliserons
le Nahuatl et déciderons quel modèle nous
donne quoi et comment cette variable catégorielle ou une variable prédictive
catégorielle affecte la variable
dépendante MPG. Donc, ce que nous faisons d'abord, nous obtenons les données d'entrée
qui sont des voitures vides. Nous les stockons donc
dans les données des voitures vides. Ensuite, nous créons un modèle de régression
et un modèle d'inversion. Pour le modèle de régression,
nous utilisons une fonction AOV ou fonction d'analyse de
variance, fonction
AOV que nous utilisons
et nous créons un modèle de régression entre
MPG et HP avec am. Et nous tirons parti des
sources de données,
des voitures vides, des données que nous obtenons
des voitures vides. Ensuite, nous en
imprimerons deux. Nous obtiendrons le résumé
du modèle 1. Alors laissez-moi exécuter ceci et
laissez-moi exécuter le modèle. Nous sommes donc en train de créer un modèle de
régression ici. Quels
sont donc les enseignements que nous donne
ce modèle de régression, cette source originale
selon laquelle la puissance et le type de
transmission que HP et M ont un effet significatif sur les miles par gallon en
tant que valeur p ou les deux ? La valeur P dans les deux cas
est inférieure à 0,5, n'est-ce pas ? Il s'agit donc d'avoir les deux valeurs de p
inférieures à 0,5. Mais lorsque nous prenons ces
HP et m ensemble,
la valeur p est supérieure à
0,5, ce qui signifie que la combinaison du SPN am n'aura aucun
effet significatif sur le MPG. L'interaction entre le,
cet AM et SB
n'est donc pas significative car elle n'aura aucun
effet sur le, sur le MPG. Ce modèle nous
donne donc l'idée que HP et moi, si vous les prenez seuls, ils auront
un effet sur le MPG. Mais lorsque nous les prenons ensemble, ils n'auront
aucun effet significatif sur le MPG car la valeur de p
est supérieure à 0,5. La prochaine chose que je vais faire, créer
un autre modèle de régression. Où vas-tu, que ferons-nous ? Nous n'inclurons pas
la valeur catégorielle. Valeur, d'accord ? Nous modélisons sans la valeur
catégorique, c'est-à-dire am. Je veux donc dire que sans l'interaction
entre le HP et m, nous allons créer un autre
modèle de régression, la fonction AOV. Et nous verrons quel effet
ils ont sur le MPG. Alors laisse-moi exécuter ça. Pourtant, j'utilise un chariot vide aussi précieux et il contiendra
les mêmes données que les voitures vides. Alors voyez ici. Maintenant, dans notre modèle, il n'y a aucune interaction
entre HP et m. Ensuite, quelles informations
nous obtenons. C'est votre âme qui à
la fois, la puissance et ont un effet significatif sur
les miles par gallon, car la
valeur p est inférieure à 0,5. Bon, maintenant,
je vais comparer ces deux modèles, modèle 11 avec la valeur
catégorique. Interaction entre le HP
et le m. Et un autre modèle n'a pas d'interaction
entre le PNM. D'accord ? Permettez-moi maintenant de comparer
ces deux modèles, le modèle deux et le modèle un. Donc, ce que je suis,
j'utilise la fonction NOR pour comparer ces
deux modèles de régression. Alors laisse-moi exécuter ça. Découvrez maintenant les informations que nous
recevons de cette région. Nous obtenons que la
valeur de p est supérieure à 0,5. Nous pouvons donc conclure
que l'interaction
entre la puissance et type de
transmission n'
est pas significative. Les miles par
gallon
dépendront donc de la même
manière que HP et AM. D'accord ? Donc, le HP et le m
vont tous deux avoir un effet, les deux auront suffisamment d'
effet sur ce MPG. De la même manière. Ce n'est pas comme si les deux
allaient affecter différemment. Les deux vont
affecter de la même manière. Le MPG dépendra donc de la même
manière la puissance de la voiture
en mode automatique et manuel. Donc, si la puissance
soutient la puissance d'une voiture, qui est automatique, et
il donne plus de kilomètres. Et si nous ne le faisions pas manuellement
avec le même point d'accès, cela produira moins de myéline. Ce n'est pas le
cas du kilométrage de la voiture, que ce soit avec le même
soutien, la moitié. Maintenant, supposons 1 CV, une voiture est là
et elle est manuelle. Et une autre carte est la même, 1 ch et elle est automatique. Les deux donneront le même mpg. La moyenne ne
changera pas , que la voiture
soit automatique ou manuelle. D'accord. Cela dépend donc de
la puissance et mode manuel ou automatique n'
affectera pas beaucoup le kilométrage de la
voiture. C'est ainsi que nous pouvons effectuer
l'analyse de la covariance. La covariance signifie
que les
autres variables prédictives vont disparaître Eddie, je vais avoir un effet sur
la variable dépendante. Dans ce cas, b
et m sont la covariante et mpg est la variable
dépendante. Nous avons donc découvert que
le fait que la voiture soit automatique ou manuelle avec la même
balle suscitera la même insouciance.
68. Handson avec la bibliothèque dplyr: Bonjour et bon retour. Dans cette conférence, nous allons
revenir sur la manipulation des données. Et les
activités de manipulation de données se feront uniquement avec le package de couche profonde qui est relativement
au même niveau que les impairs. Le lecteur est donc un
package qui fournit à
l'Égypte des outils pour les tâches de manipulation de
données les plus courantes. Nous allons donc tout apprendre
sur le plan aujourd'hui et voir quelles sont les
tâches de manipulation que nous pouvons effectuer. Et nous allons faire ce long
dossier que j'ai écrit. Nous ferons tout ce qui est en notre pouvoir
et nous verrons ce que nous pouvons faire et comment
nous pouvons jouer avec les données, comment nous pouvons manipuler les tâches de manipulation
des données. Comment utiliser la tâche de
manipulation de données à l'aide du plan. Alors allons-y. La couche profonde fournit la
grammaire de la manipulation des données, fournissant un ensemble cohérent
de distorsions qui vous ont aidé à résoudre les problèmes de
manipulation de données les plus courants. La toute première fonction
dont nous parlerons est donc la fonction de mutation. Et ce qu'il fait, c'est qu'il ajoute nouvelles variables qui sont
des cellules de variables existantes. Donc, ce qu'il va faire, c'est ajouter nouvelles variables qui sont des
fonctions d'une variable existante, saurons ce que
cela signifie lorsque nous ferons la pratique. OK, donc le suivant est sélectionner, sélectionner, il crache une cellule.
Qu'est-ce que Select ? La sélection des variables en
fonction de leur nom est-elle identique une requête de sélection en SQL ?
Si vous connaissez SQL, MySQL ou
toute autre base de données relationnelle, nous utilisons le select pour
sélectionner la valeur qui
sélectionnera quelque chose parmi les données de la table
en utilisant le nom de la colonne. OK, c'est donc ce que
select fait également ici, fixe ou variable
en fonction de leurs noms. Ensuite, nous avons le filtre, un filtre
plus étroit. Il sélectionne les
cas en fonction de leurs valeurs. Donc, si vous voulez filtrer vos données en
fonction de certaines valeurs,
comme celles relatives à l'oreille ou
à quoi que ce soit d'autre, n'importe quelle robe et que vous
pouvez regarder, d'accord ? Résumez,
la fonction
réduit les valeurs multiples à un seul résumé. Donc, ce que fera le résumé, c'est de réduire les valeurs
multiples à un seul résumé. Nous verrons également que nous
avons alors la fonction orange. Ce que je n'ai pas fait, c'est que cela modifie l'
ordre des règles, sorte que les
données sont simplement organisées dans un ordre différent. L'ordre de Rose,
Twilight, tout va bien. En outre, il
soutient également l'opérateur de tuyauterie. Il s'agit donc du pourcentage de tests effectués par
l'opérateur de tuyauterie ,
puis supérieur au
signe, puis présenté, c'est
ce qu'on appelle l'opérateur de tuyauterie. OK. Alors maintenant, laissez-moi vous expliquer
comment installer le package dans vos artistes
à faire ou même dans des œuvres d'art. Vous pouvez donc simplement accéder
aux packages ici
et cliquer sur Installer et vous
pouvez mettre
la demande ici. OK. En dehors de cela, vous pouvez également utiliser
le package Tidy Verse Le moyen le plus simple d'installer le plot est d'installer
l'ensemble de Tidyverse. Donc, si vous avez installé
le package tidyverse, il inclura le plan D. Et si vous ne souhaitez pas
installer ce tidyverse car il
contiendra de nombreux packages. D'accord ? Donc, si vous
voulez, ou ne voulez pas, les packages que
vous n'utilisez pas, vous pouvez opter pour le plan
install.packages D, d'accord ? Il installera donc un paquet
principal dupliqué. En dehors de cela, vous
pouvez également suivre cette voie. Maintenant. Vous pouvez accéder au
package d'installation et vous pouvez saisir le nom de
ce package et
vous pouvez l'installer. Et pour appeler la bibliothèque, nous devons commencer par utiliser la bibliothèque, puis le nom
du package que nous donnons. Donc,
vous savez déjà les autres choses, mais juste pour diviser les
choses que je vous dis. La prochaine étape est moins explorée. Les femmes manipulatrices de base
du joueur utiliseront
le jeu de données Star Wars. Nous allons donc utiliser le jeu de données Star Wars disponible avec l'arc, qui est préchargé dans R. D'accord ? Donc, si on met tête, tête, Star Wars,
ce qu'il va donner, il donnera les cinq premiers. premier type fait apparaître l'ensemble de données que nous connaissons
déjà et que nous avons
utilisé plusieurs fois, n'est-ce pas ? Mais ce
package de couche profonde vous donnera une autre fonction appelée aperçu que je
n'ai pas utilisée jusqu'à présent. Je l'utilise pour la première fois. Donc, si vous utilisez un
aperçu de Star Wars, il vous donnera toutes les informations sur
les règles. Et comme ceci, voyez ici
qu'il est écrit que c'est une ligne, 87 lignes et 14 colonnes. Et c'est donner, nous
donner le nom
de la colonne, nom, la hauteur, la masse, la couleur, et quelles en sont les
valeurs ? OK. Les trois premiers pour l'effondrement. Cela nous donne un aperçu des punks et cela vous donnera juste
un aperçu des données. Donc, si vous souhaitez avoir un aperçu
rapide des données, vous pouvez utiliser la fonction de nettoyage. Sinon, vous pouvez également
utiliser la tête. OK. Donc, si vous commentez Glimpse
et si vous avez lancé
head unit, head vous donnera
un résultat comme celui-ci. Et un aperçu vous donnera
ce résultat. D'accord ? Voici donc la tête
et voici les membres. D'accord ? Nous allons maintenant passer
à cet opérateur de tuyauterie. Laisse-moi fermer ça. De même, nous avons
également vu la vue. Vous pouvez donc vous offrir
un Star Wars et cela vous donnera une
vue sur le lac de données. Cela vous donnera une vue
complète de l'ensemble de données comme si vous voyiez une personne normale. Cela vous donnera l'
ensemble de données complet, d'accord ? Maintenant, l'opérateur de canal, toutes les fonctions de couche profonde prennent DataFrame comme premier argument. dataframe sera
le premier argument
pour expliquer tout ce que la plateforme contient,
plutôt que d'obliger l'utilisateur à
enregistrer des plutôt que d'obliger l'utilisateur à fonctions d'
objet intermédiaire ou d'imbriquer des fonctions Le plaid fournit à l'opérateur de
tuyaux les lignes de filtre avec la fonction de filtre. filtre vous permet donc de sélectionner le sous-ensemble de
routes dans un DataFrame. Le premier argument
est le DataFrame. Le second
document et les suivants font état de la valeur
contenue dans la trame de données, en sélectionnant les lignes où
l'expression est vraie. Alors voyez ici pour
sélectionner le personnage à la peau claire
et aux yeux bruns. Donc, ce que nous pouvons faire, nous pouvons l'utiliser, c'est le
nom du jeu de données Star Wars. Ensuite, nous pouvons utiliser l'opérateur
de tuyauterie. Ensuite, nous pouvons utiliser le filtre, et nous pouvons vous donner le
paramètre de filtrage. La couleur de la peau
serait claire et la couleur
des yeux. Alors sois brun. D'accord ? Et vous pouvez également le faire
d'une autre manière, comme Star Wars. Ensuite, vous pouvez utiliser le Star
Wars, puis le support,
Star Wars, le support, les dollars Star
Wars peuvent être coloriés. Cela signifie que nous
allons affecter
la base de données sur la couleur
de peau à partir du jeu de données Star Wars. Et elle est écaillée, la
couleur de la peau sera claire, puis l'étoile sera plus grande. La couleur des yeux signifie que nous
allons faire face à la base de données sur la couleur des yeux et la couleur des yeux doit être brune. Vous pouvez utiliser l'
opérateur de tuyauterie comme ceci. Ou bien, vous pouvez utiliser
le dollar. Et Star Wars. Cela signifie que la couleur de peau
en dollars de Star Wars signifie que nous allons ajuster l'ensemble de données en fonction la couleur de
leur peau à partir de
cet ensemble de données Star Wars. Cela signifie que la couleur de peau est une colonne dans le jeu de données
Star Wars. D'accord ? Ensuite, nous pouvons l'utiliser
simplement ou vous pouvez utiliser l'opérateur du tuyau et utiliser lit filtrant sous
la
couleur de la peau et la couleur des yeux. Les deux vous donneront
le même résultat. Voir ici. Les deux vous donnent
le même résultat. Il n'y a aucune différence. Vous pouvez donc l'utiliser soit avec l'opérateur de tuyauterie,
soit avec son argent. D'accord ? Voici donc les deux manières de
filtrer les données. Lignes arrangées avec fonction
orange. Notre fils en bas âge fonctionne donc de la
même manière que le
filtre, sauf qu' au lieu de filtrer ou de
sélectionner des lignes, il les réorganise. Qu'est-ce que ça a fait ? Il réorganise l'ensemble de données. Il faut le DataFrame
et une configuration. Les
noms de colonnes sont des
expressions plus compliquées à trier PAR, utilisez cette expression
correcte et décroissante. Donc, si vous utilisez cette fonction
DESC, elle ordonnera la colonne
dans l'ordre décroissant. Si nous utilisons l'EEOC, il
enverra. OK, donc ici, nous ajoutons des éléments dans l'
ordre décroissant de hauteur. Pour y parvenir,
nous pouvons donc utiliser Star Wars, nous pouvons donc utiliser Star Wars, puis un opérateur de tuyauterie, puis la
fonction et la hauteur du DESC. Il vous suffit de
le fournir et
les données seront classées
par ordre décroissant. Regardez ici, maintenant les données
proviennent du plus haut niveau et
elles sont en baisse. Il s'agit de l'ordre décroissant. Ainsi, nous pouvons
ajouter les données ou filtrer les données en fonction de la
hauteur par ordre décroissant. OK, la prochaine étape est Slice. La fonction de barre oblique de deux
diapositives vous permet indexer les diapositives en fonction de leur emplacement
entier. Il vous permet de sélectionner, supprimer et de dupliquer des lignes. Donc, légèrement en désaccord, découpez
les données de notre ensemble de données. Tranchez la tête de soulignement et faites-la
glisser sur ce que l'on appelle la queue. Sélectionnez la première et
la dernière ligne des données. Tranchez l'échantillon de soulignement, sélectionnez ces lignes
au hasard. Ainsi, les diapositives situées sous
un échantillon de soulignement vous donneront le Raj sélectionné au hasard
dans l'ensemble de données si vous
souhaitez que votre police le fasse. Donc, si vous n'obtenez pas d'échantillon à partir de l'
ensemble de données, un ensemble de données volumineux, vous pouvez utiliser des diapositives sur
cet exemple de code, puis sélectionner
au hasard des routes
et vous les vendre, souvent
utilisées comme accessoires,
pour en choisir certaines. Proportion des cas. moyenne du trait de soulignement de la tranche
et la valeur maximale du trait de soulignement la tranche
sélectionnez les lignes dont la valeur est la
plus élevée ou la plus faible de notre variable. Cela vous donnera donc simplement,
si vous fournissez la
moyenne du trait de soulignement de la tranche et ici, vous
indiquerez la hauteur. Il vous donnera le minimum de hauteur et
les diapositives
souligneront les mathématiques, maximum, la hauteur, il vous donnera
le maximum de la hauteur. Passons donc à la pratique. Donc, pour obtenir le personnage 5 à 10, nous pouvons utiliser Star Wars Pipe
Operator Slice Five, Colon Dix. Alors laissez-moi simplement exécuter ceci. D'accord ? Nous vous en donnerons
cinq à dix, d'accord ? Si nous utilisons n égal à trois, cela ne nous donnera, voyez, que trois lignes, d'accord ? Et si nous utilisons n égal à 512345 lignes, si vous voyez la différence
ici, cinq à dix, cela vous donnera
56789106 états de ligne, dont cinq n ici, n égal à 5 min seulement 512345. D'accord ? Maintenant, pour échantillonner
dix pour cent des lignes, nous pouvons l'utiliser. Nous pouvons utiliser les opérateurs Star Wars
Five, les
diapositives, les soulignements,
un exemple. Accessoire 0,1 %. 0,1 signifie dix pour cent. Et cela vous donnera les dix pour cent
des données. D'accord ? Cela permettra de découper
les 10 % des données. Utilisez maintenant les diapositives pour obtenir la valeur la
plus faible ou la plus élevée. Nous pouvons donc utiliser filtre
Star Wars pour
ne pas nous cacher. Ensuite, nous pouvons utiliser Slice. Nous passons donc à sélectionner des colonnes avec la sélection
désactivée lorsque vous travaillez avec un ensemble de
données volumineux contenant de nombreuses colonnes,
mais seules quelques-unes présentent
réellement un intérêt,
tandis que peu de colonnes
vous permettent de
zoomer rapidement sur un sous-ensemble utile à
l'aide d'évaluations qui, généralement,
One Leave fonctionnent sur la position des
variables numériques. sélectionner des colonnes avec désactivée lorsque vous travaillez avec un ensemble de
données volumineux contenant de nombreuses colonnes, mais seules quelques-unes présentent
réellement un intérêt,
tandis que peu de colonnes
vous permettent de
zoomer rapidement sur un sous-ensemble utile à zoomer rapidement sur un sous-ensemble utile l'aide d'évaluations qui, généralement One Leave fonctionnent sur la position des
variables numériques. Sélectionnez donc les colonnes par nom. Vous pouvez donc utiliser les pipes Star
Wars pour
sélectionner la couleur des cheveux et la couleur des yeux. Cela vous donnera donc la couleur
des cheveux et des yeux. La reine et seulement cette phrase. Et si vous sélectionnez les
colonnes en les tranchant, nous pouvons utiliser la couleur des cheveux
et la couleur des yeux,
les deux ne sont pas identiques. Ensuite, nous voulons sélectionner cela. Ce résultat, vous pouvez voir la couleur des cheveux et des yeux
n'est pas là. Toutes les autres colonnes sont présentes, mais la couleur des cheveux et la couleur des yeux sont verrouillées et ne sont pas incluses. La sélection de colonnes avec
les critères spécifiques se termine par la couleur. Nous voulons donc sélectionner les données les unes pour les autres, toutes
celles qui ont cette couleur. Alors laisse-moi analyser la couleur des cheveux, la couleur de la peau et la couleur des yeux. Trois colonnes se
terminant par la couleur. Maintenant muter, muter à partir de
Sun vous permet de le faire, permet
de créer de nouvelles variables. Ceci est extrêmement utile
pour l'analyse statistique. Voici donc l'opérateur de tuyaux Star
Wars qui fait muter la hauteur en hauteur de 100. Alors, qu'est-ce qu'on ajoute ? Ici ? Nous obtenons
la hauteur à partir de Star Wars, nous
la divisons par 100 et créons un nouveau trait de soulignement de
la hauteur des colonnes. Ensuite, sélectionnez la hauteur, hauteur et tout le reste. Alors laissez-moi lancer ceci et voir
ce que nous obtenons C ici Nous obtenons la hauteur de
soulignement m nouvelle colonne ici, et cela fait 172
divisé par cent, donc 1,72 et puis toutes les autres colonnes de
Star Wars, c'est inclus. De cette façon, nous pouvons muter en fonction du
nouveau trait de soulignement
m de la hauteur de colonne dans l'ensemble de données. Et nous pouvons modifier la
nouvelle colonne et obtenir la nouvelle valeur
de cette colonne en utilisant la fonction de mutation. D'accord ? Désormais, un modèle de régression ajusté
utilisant la taille comme examen, l'
examen trois comme valeur et Mars, ou l'autre variable de réponse,
y compris la valeur aberrante, affiche les statistiques
récapitulatives la coopération existante. Nous utilisons donc ici un modèle de
régression. Nous utiliserons la fonction lm, la
hauteur et la masse, puis les valeurs des données, Star Wars et le résumé. Je vais m'en servir. Alors laisse-moi exécuter ça. Regardez ici, voici le
résumé que nous obtenons. Nous pouvons également tracer ce modèle de
régression. Voyons voir ici, nous allons obtenir
ce résidu comme effet de levier. D'accord ? Donc, si vous voulez
entrer dans les détails, vous pouvez voir l'eau,
le coefficient que nous
obtenons, la valeur p de ReLU, toutes ces choses que vous pouvez voir
quelle est la médiane minimale. Premier quartile, troisième
quartile, valeur maximale. Toutes ces choses
que vous pouvez analyser, vous pouvez voir ici des Q-Q normaux
et des valeurs résiduelles standard, ainsi emplacement
théorique des
carreaux du quadrant. Toutes ces choses. Vous
pouvez analyser votre agenda, trouver quelqu'un et
tracer le modèle de régression en fonction
de la hauteur et de
la masse. À partir des données, on m'a dit que c'est rapide d'utilisation de
la fonction de tracé, une méthode
rapide d'utilisation de
la fonction de tracé, une bibliothèque en D plat dans le R. J'espère que vous avez appris
ce qu'est le D plat et comment nous pouvons
utiliser
les différentes
fonctions telles que mutex,
sélectionner, filtrer,
résumer,
etc. ce qu'est le D plat et comment nous pouvons utiliser
les différentes
fonctions telles que mutex, sélectionner, filtrer,
résumer, des choses.
La prochaine conférence.
69. Régression linéaire simple utilisant un jeu de données de qualité aérienne: Bonjour et bon retour. Dans cette conférence,
nous allons en fait faire un autre projet simple dans lequel nous allons utiliser la régression
linéaire. Et ce que nous allons faire avec
la régression linéaire pour essayer de trouver la
droite la mieux adaptée à notre ensemble de données. C'est-à-dire un ensemble de
données sur la qualité de l'air facilement accessible
avec le R. Donc, cet ensemble de données sur la qualité de
l'air est
disponible avec le r.
Et voici l'ensemble de données
sur la mesure de la
qualité de l'air à Newark. D'accord ? Voyons donc en quoi consistent ces données,
puis ce que nous
allons faire avec
cet ensemble de données
et ce que nous allons
réaliser avec la régression
linéaire. Donc des
mesures quotidiennes de la qualité de l'air en Irak de mai à septembre 1973. Il s'agit donc de l'
ensemble de données. Il mesure la
qualité de l'air à New York entre mai 1973 et
le 19 septembre 1973. L'ensemble de données est la qualité de l'air. Et je vais formater le format des données avec les 153 observations
sur six variables. Et quelles sont ces variables ? Couche d'ozone, quelle est la
quantité de niveaux ordinaux ? Donc r point r sera nombre
numérique et il
sera dans les poumons. Et ce sera le PPB. vitesse du vent sera le MPH, puis la température
sera en degrés Fahrenheit et du 1 au 12,
de janvier à décembre. D'accord. L'ozone signifie donc des lectures quotidiennes des valeurs de qualité de
l'air suivantes. Le 1er au 30 septembre 1973 a été retiré et
répertorié dans l'ensemble de données. Ne voulez pas dire ou ne pas dire
en parties par milliard. 1300-1500 h à Roosevelt Island. D'accord. Si fort
que cela représente, la
perturbation du rayonnement
solaire dans le bail foncier dans la bande de
fréquences 4000-7700, Armstrong angstrom, de 8 h du matin
à 1 200 h à Central Park. Vent. Il s'agit de la moyenne lorsque la
vitesse en miles par heure, 7 à 10 h à l'aéroport de Land Gorilla signifie qu'il s'agit de la température
quotidienne maximale en degrés Fahrenheit
à cet aéroport. OK, donc tout tourne
autour de l'ensemble de données. Passons au code. J'ai donc déjà
écrit le code. Je vais vous expliquer ce que
nous allons faire. Tout
d'abord, nous devons utiliser l'ensemble de données
disponible avec l'art,
à savoir la qualité de l'air. Nous pouvons donc utiliser les données et
nous pouvons utiliser les inégalités. D'accord ? Et ici, nous pouvons visualiser
les données avec la vue, fonction, la vue,
puis la quantité. Et nous verrons les données. Voici donc l'ensemble de données. Nous avons les six colonnes
de données solaires de John. Il s'agit du rayonnement solaire, de la vitesse
du vent, de la température, température la
plus élevée de la journée, puis du mois, quel
mois ? Et c'est le moment. Ils ont donc la température du mois où il a séparé le rayonnement solaire, le rayonnement
solaire et l'origine. D'accord ? Tout tourne donc autour de l'ensemble de données et il contient
une donnée sur trois, accord, une violette, trois
lignes dans cet ensemble de données. Maintenant, ce que je veux faire, simplement tracer ceci ou Joan et le rayonnement
solaire un graphique et voir
ce que nous obtenons. Permettez-moi donc de tracer ces données. L'axe X concerne rayonnement
solaire et la couche d'ozone sera représentée
sur l'axe Y. Donc, un jour donné, le rayonnement solaire
sera celui-ci et l'origine, la
quantité, sera la suivante. Voici donc le graphique que
nous obtenons. Maintenant, ce que je veux faire avec
la régression linéaire, trouver la droite la
mieux ajustée qui représentera correctement cet
ensemble de données. Alors, quelle sera cette
gamme la mieux adaptée ? Quelque chose comme ça. Quelque chose qui divisera
les données de manière presque égale. Et avec cela, nous pouvons deviner quel sera le
rayonnement solaire un jour donné. Donc, si vous suivez cette droite, comme y est égal à mx plus c, ce sera l'équation
en ligne droite. Donc, si nous traçons cette limite un
jour donné, nous pouvons le deviner. OK, donc ce que je vais faire, découvrir
quelle est la moyenne de la quantité d'ozone, de la couche d'ozone. Quelle est la moyenne
de ce que je perds, je perds à cause
de cette qualité de l'air. Air Quality Dollar ou John nous
indiqueront l'origine, la valeur à la hausse ou à
la baisse à partir de
l'ensemble de données sur la qualité de l'air. Et voici ce que je suis en train de
faire, toutes les données de chaque trimestre sont vraies, cela signifie que si
les valeurs ne sont pas disponibles, nous venons de les voir, et non de les prendre en compte. D'accord ? Donc, avec cela, nous
trouverons la moyenne de l'origine. La valeur moyenne de
l'origine est donc 42. Ce sera donc
quelque chose comme ici. Ce que je vais faire, c'est tracer une ligne droite qui
représentera la
valeur moyenne de l'origine. Alors laisse-moi gérer ce truc ici. Cette droite
représente la moyenne de l'origine. D'accord ? Maintenant, je vais utiliser la régression linéaire pour
ajuster la meilleure droite possible. OK, donc, pour y parvenir, nous pouvons utiliser la fonction lm, la fonction modèle
linéaire,
et nous pouvons utiliser l'origine et la
sensibilité solaire ici. Ensuite, j'utiliserai les données sur la qualité de
l'air. D'accord, donc à partir des données sur la qualité de l'
air, utilisez ces deux
paramètres ou ne
répondez pas à beaucoup de questions concernant le rayonnement
solaire. Et je vais essayer de créer notre modèle de régression
linéaire. J'ai donc créé, maintenant je vais voir
ce que donne notre modèle. Alors laisse-moi juste le mettre
sur le bon côté. Donc, regardez ici, nous
obtenons ces coefficients. La valeur d'interception Y est la suivante et elle est si forte pour
les artistes, d'accord ? Maintenant, ce que
je vais faire, c'est essayer, avec ce modèle, trouver la ligne la mieux ajustée qui
représente correctement nos données. Donc, ce que je perds, c'est la ligne AB, et je vais transmettre ce modèle
que nous avons créé avec la fonction lm et
notre jeu collatéral. Je veux donner la
couleur différente à la gamme la mieux adaptée. J'utilise donc le
code couleur ici, orange. Alors laisse-moi exécuter ça. PDG. Maintenant, cette ligne orange est la ligne qui convient le mieux à ce produit. Cela représentera donc
la valeur de la valeur régularisée de la couche d'ozone enfouie sous
le rayonnement solaire. agit de la meilleure droite d'
ajustement que nous obtenons à partir de la régression
linéaire. Donc, sur la base de ce support, d'un
PIP3 jours de données dont
nous disposons, nous voulons le prévoir. Nous pouvons donc voir quel est le soutien que je
veux prévoir ici ? Donc, ce rayonnement solaire,
supposons ici, et cela nous donnera la valeur un mètre delta qui
se situera autour de 60 ou 75. D'accord ? Ainsi, nous pouvons
trouver la meilleure droite d'ajustement à l'aide de la fonction lm
ou d'une régression linéaire. D'accord ? C'est ainsi que nous pouvons utiliser la régression linéaire pour
trouver la meilleure droite d'ajustement.
70. Traiter les valeurs manquantes: Bonjour et bon retour. Dans cette conférence et dans les
prochaines, nous allons traiter
des valeurs manquantes dans R.
Nous allons donc voir comment nous pouvons gérer les valeurs manquantes
dans notre programmation. Parce que chaque fois que vous démarrez un projet de science des données ou un projet
d'apprentissage
automatique , vous commencez à
travailler sur les données. La toute première étape consiste
à explorer les données. Vous devez lire les données et les
comprendre. Quelles sont les valeurs qui s'y trouvent ? En quoi
consistent toutes ces données que vous
devez vraiment comprendre ? À moins que vous ne
compreniez les données, vous ne serez pas en mesure de créer quoi que ce soit ou d'en tirer
un quelconque aperçu. Il s'agit donc de la toute première étape
pour comprendre les données. Et une fois que vous avez
compris les données, quelles
sont les colonnes qu'elles contiennent ? Quelles sont les valeurs qui s'y trouvent ? Et de
quoi parlent ces données, quoi servent-elles ? Donc, une fois que vous aurez compris
ce qu'est la
version bêta, de quoi parlent les données, quoi elles servent. Vous pouvez interpréter ces données
et, une fois que vous les avez comprises, vous pouvez marcher sur ces données. Donc, tout d'abord,
vous devez garder à l'esprit que vous devez
comprendre les données. Vous devez comprendre
quelles sont les colonnes et à quoi servent
ces colonnes ? Quel type de données
est stocké à
ce sujet dans ces colonnes. Une fois que nous aurons compris cela, vous pourrez commencer à
travailler sur les données. Vous pouvez commencer à travailler sur votre cycle de vie en matière d'apprentissage automatique ou de science
des données. Et c'est la seule
étape très importante pour travailler sur les données et créer machine learning ou de l'intelligence
artificielle. modèles de science
des données permettent de traiter
les valeurs manquantes. Chaque fois que vous voyez des ensembles de données, vous pouvez constater qu'il
existe de nombreuses colonnes, de nombreuses lignes où les données ne
seront pas disponibles. Et ce que cela signifie. Cela signifie que chaque fois que
nous collectons les
données par le biais de formulaires, enquêtes et collectant les informations des utilisateurs. Ainsi, chaque fois que nous collectons
des données auprès des utilisateurs , vous n'êtes qu'un grand
groupe d'utilisateurs. Parfois, ils détestent partager
leurs données ou parfois ils n'ont pas une sorte
de niveau prototype avec eux. Ils ignorent donc ces points d'entrée du
Dojo. Et lorsque nous collectons ces
données et créons notre ensemble de données, nous pouvons constater qu'
il y a très
nombreuses colonnes, de très nombreuses valeurs
manquantes. Et pour que notre ensemble de données fonctionne correctement pour notre modèle d'apprentissage
automatique
ou d' intelligence artificielle, vous devez vous adapter pour gérer
les valeurs manquantes. C'est donc une tâche très courante dans l' analyse
des données de
traiter les valeurs manquantes. Dans notre programmation. Les valeurs manquantes sont
représentées par un a et cela signifie qu'elles ne s'
appliquent pas ou quoi que ce soit d'autre. Vous pouvez comprendre comment les valeurs
manquantes sont représentées par un a et, d'une autre
manière, elles sont également représentées par 99. D'accord ? L'étape très, très
importante consiste donc à
traiter les valeurs manquantes. Ainsi, tout en traitant
les valeurs manquantes, nous devons suivre
les trois étapes. La première consiste à déguster
les valeurs manquantes.
Qu'est-ce que cela signifie ? Cela signifie que nous devons
examiner l'ensemble de données et tester
la valeur manquante. Nous devons voir combien de valeurs sont
manquantes. Où se trouvent les valeurs manquantes ? Nous devons donc trouver
les valeurs manquantes. Ensuite, une fois que vous avez testé les
valeurs manquantes dans l'ensemble de données, nous devons enregistrer
la valeur manquante. La deuxième étape consiste
à décoder les valeurs manquantes. Ce qui revient
à décoder les valeurs manquantes,
c'est à dire que
nous devons en mettre d'autres en
place. Supposons que nous ayons nos données sur l'âge où certains d'entre vous
n'ont tout simplement pas donné de détails sur leur âge. Donc, ce que nous pouvons y remplir, nous pouvons le prendre comme moyen. Vous venez de manger toute
la moyenne ou la moyenne de la justice pour mineurs si nous
pouvons attribuer la valeur manquante. Ainsi, quelle que soit la police que vous
utilisez, quelle que soit la police qui ne correspond pas à l'âge, nous pouvons y inscrire la
valeur d'âge moyenne du groupe. De cette façon, nous pouvons enregistrer
les valeurs manquantes. Nous devons donc enregistrer les valeurs
manquantes en nous basant sur un algorithme comme la
moyenne, toutes ces choses. D'accord ? Ensuite, la troisième étape
est que nous pouvons, ou que nous pensions, ou l'inverse serait d'
exclure la valeur manquante. Donc, au
lieu d'enregistrer, nous
pouvons exclure les lignes de valeurs
manquantes. Nous pouvons donc simplement supprimer
les entrées qui
ne bénéficient pas du support nécessaire, pour vous
aider. Nous avons le nom, vous n'avez que la ville, l'âge et les détails de
l'emploi. Et si un utilisateur
n'est pas indiqué à son âge, nous pouvons simplement le supprimer
de
l' ensemble de données afin
d'exclure les valeurs manquantes. Voici donc les trois étapes
à suivre pour traiter les valeurs
manquantes. Et dans l'exercice suivant,
dans la prochaine conférence, nous ferons une activité
pratique simple laquelle nous verrons comment
identifier les valeurs manquantes, comment enregistrer
la valeur manquante et comment exclure
les valeurs manquantes. La prochaine conférence sera donc
entièrement pratique sur la gestion des valeurs manquantes. Rendez-vous donc lors de
la prochaine conférence.
71. Tester les valeurs manquantes: Bonjour et bon retour. Ainsi, dans la conférence précédente, nous avons vu comment travailler
avec des valeurs manquantes dans R, ou comment gérer les valeurs
manquantes dans R. Nous avons vu les étapes
à suivre. Nous devons suivre
ces trois étapes. Ou vous pouvez dire deux étapes. Vous pouvez soit enregistrer les valeurs manquantes, soit
exclure la valeur manquante. La toute première étape est donc de
goûter aux valeurs manquantes. Nous devons tester et trouver les
valeurs manquantes dans l'ensemble de données. Ensuite, la deuxième
étape est requise les valeurs manquantes ou l'
exclusion des
valeurs manquantes dans l'ensemble de données. Commençons donc par la
toute première étape qui consiste tester les valeurs manquantes. Alors, comment pouvons-nous tester
les valeurs manquantes. J'ai donc écrit ce code et nous allons nous occuper de la partie pratique. Alors laissez-moi vous dire
ce que je fais ici. Je suis en train de créer un vecteur
avec des valeurs manquantes. Je crée donc un vecteur de 1 à 6, puis j'inclus une valeur NA
manquante , puis huit à
dix, puis manquante. Eh bien, lorsque nous exécutons ce
vecteur, voyons ce que nous obtenons. La sortie est 123456,
car un à six. Et puis quand n'importe quelle valeur, alors 89108 à dix, puis n'importe quelle valeur. Nous avons donc deux valeurs
manquantes ici. Cet ensemble de données que nous
créons nous-mêmes. D'accord, donc pour vous dire
quelle est la valeur manquante, j'inclus simplement la valeur
manquante dans le vecteur. D'accord ? Supposons maintenant que nous ayons ce vecteur
x, qui a deux valeurs
manquantes. Et nous ne savons pas
ici où nous pouvons voir, nous savons
donc qu'il
y a deux valeurs manquantes. Mais supposons que nous ne le sachions pas, que nous ne soyons pas conscients, que nous ne le soyons pas, que
nous ne voyions pas comment nous le pouvons. Il s'agit d'un vaste ensemble de données
qui ne se compose pas d'une seule ligne. Il peut y avoir un jeu de données qui
comportera plusieurs lignes, des milliers de lignes, et comment nous allons y
trouver les valeurs manquantes. Nous pouvons donc simplement
exécuter un test pour savoir si Annie
existe, si Annie
existe, puis nous devons
transmettre le nom de l'ensemble de données. OK, nous allons donc dire que
l'extracteur est activé, trouver la valeur manquante. Il indiquera que s'il manque des valeurs,
il indiquera « vrai ». D'accord ? Donc, pour chaque valeur NA et manquante, il passera par ce vecteur,
le vecteur
x, et
trouvera la valeur manquante. Et une valeur manquante est là, elle retournera vraie. Alors laisse-moi exécuter ça. Ici. Nous devenons faux, faux, faux,
faux et vrais. C'est donc pour 1234566. Faux signifie qu'il n'y a aucune valeur
manquante avant six. Alors, pour la septième
place, il y en a une, et cela
nous rend la vérité. Puis 8910, faux, faux. Et jusqu'à dix, il y en a, donc cela
devient vrai. Il vous renverra donc la
valeur vraie pour les valeurs manquantes. Ainsi, nous pouvons savoir
qu'il manque une valeur pour
ces deux valeurs. D'accord ? Créons maintenant un DataFrame
avec les données manquantes. Je suis donc en train de créer un DataFrame. Df data.frame est le moyen
de créer un DataFrame. Et ici, je crée
quatre colonnes, colonne une, colonne deux,
colonne trois, colonne quatre. Et dans la première colonne, je donne 123 et une
colonne à ce NA est, donc c'est la valeur que je
mets dans le DataFrame. D'accord ? Alors laissez-moi exécuter ce DataFrame
et je vous ai vu la sortie. Alors regardez ici, le
DataFrame est comme ça. La colonne 1, la colonne 2, la colonne 3 de
la colonne 1 contiendra 123.1 et la colonne 2
indiquera ceci est un texte. Troisième colonne, vrai,
faux, vrai, vrai. D'accord. Ainsi, la quatrième colonne
sera 3,55, 0,26, 0,2. Voici donc le DataFrame
que j'ai créé. Maintenant, je veux identifier
n est dans un DataFrame complet. Dans ce dataframe, je
veux en trouver. Je peux donc simplement exécuter le test en a et je peux d'
abord exécuter le DataFrame V0. Ainsi, chaque trame de données d'entrée
renverra vrai ou faux. Donc, cette NA, c'est juste ici, dans la première colonne, la quatrième ligne, nous sommes en train de terminer,
puis une autre entrée ici. Nous allons donc y arriver. Et ça en fait un
et deux autres ici. Ça veut dire que dans celui-ci, d'accord ? Donc, de cette façon, nous pouvons exécuter
notre test par n'importe quel moyen. Supposons que vous souhaitiez
identifier une colonne DataFrame spécifique. Je veux donc vérifier si
ce DataFrame a
des valeurs dans la deuxième colonne afin
de pouvoir exécuter le test. Et puis le
nom du DataFrame df dollar column two. Donc, ce qu'il va renvoyer, il renverra le vrai
et le faux pour la colonne. Alors exécutons ceci
et voyons votre faux, vrai, faux, faux.
Pourquoi c'est faux ? Parce que dans la deuxième colonne, la valeur est présente, elle
renvoie donc faux. Car N8 est vrai pour is et texte c'est
Dunning, faux, faux. Cela signifie qu'il
manque une valeur dans la deuxième colonne. Ainsi, nous pouvons
trouver que les valeurs NA
sont des valeurs manquantes dans
une colonne particulière. Nous pouvons maintenant exécuter la fonction de somme et identifier le nombre
de NINR DataFrame. Nous pouvons donc utiliser un certain
off si un df est N A, et nous devons transmettre
le nom de l'ensemble de données. Alors, exécutons-le et voyons
maintenant que nous en avons trois. Il y en a donc trois. N se trouve dans la trame de données. Maintenant, la somme des colonnes est df, cela vous donnera la somme des valeurs
manquantes dans les colonnes. D'accord ? Exécutons donc ceci et
voyons que cela se fait dans la colonne 1, ligne, 1, colonne
21, colonne 3. Aucune donnée n'est manquante. Et une colonne pour une personne. Donc C, colonne trois, tout y est vrai,
faux, vrai, faux, et il
n'y a aucune valeur manquante
dans la troisième colonne. La troisième colonne soutient que
si je mets quelque chose, d'autres valeurs,
au lieu de vrai-faux, je mettrai du marron. Certaines valeurs doivent être mises
à 20, d'accord ? Et maintenant, lancez le DF. D'accord ? Maintenant, lancez ceci. La troisième colonne ne contient aucune valeur manquante
parce qu'elle contient toutes les
données disponibles
arrondies à 905123, n'est-ce pas ? C'est pourquoi cela se fait en
général pour la colonne trois, somme des nombres, le nombre
total de valeurs manquantes
dans la troisième colonne est zéro. Dans la première colonne, il
manque une valeur, c'est celle-ci. Dans la quatrième colonne, il y a une
raison, eh bien, c'est celle-ci. Et dans la deuxième colonne, il y en a un. Ainsi, de cette façon, nous pouvons tester les valeurs manquantes
dans R en utilisant is any, if any, renverra
true s'il y a une valeur manquante
dans le DataFrame. C'est ainsi que nous pouvons
réaliser cette première étape. Dans la prochaine conférence,
nous verrons comment enregistrer les valeurs
manquantes. Rendez-vous lors de la prochaine conférence.
72. Recoder les valeurs manquantes: Bonjour et bon retour. Ainsi, dans la conférence précédente, nous avons vu comment nous pouvons
travailler avec les données manquantes. Et nous avons vu
comment identifier
les valeurs manquantes dans un
jeu de données en utilisant is dot, n'est-ce pas ? Donc, chaque point
vous donnera les valeurs manquantes. Et maintenant, une fois que vous savez que les valeurs manquantes se
trouvent dans l'ensemble de données, ce que nous
pouvons faire, c'est soit
les enregistrer avec une certaine valeur,
soit les supprimer. Voyons donc comment enregistrer la
valeur manquante dans un ensemble de données. La première chose à faire est donc d'
enregistrer la valeur manquante. S'il s'agit d'une donnée numérique, nous pouvons enregistrer avec la
moyenne de l'ensemble de données, la
moyenne des valeurs, accord, la moyenne de la valeur. On peut en porter deux, on peut le dire. Donc, ici, je crée
un vecteur x, d'accord ? Et voyons ce qu'il
y a dans le vecteur S. C'est 123456, puis un, puis
8910, puis n'importe lequel. OK, voici donc
tout ce qui concerne les données numériques. Donc, ce que nous pouvons faire, est trouver la
moyenne des données existantes, ajuster nos
nombres numériques, les nombres et remplir la moyenne à la place des valeurs qui
ne sont pas des valeurs manquantes. Donc, ce que nous pouvons faire, nous pouvons utiliser le x, c'
est-à-dire l'ensemble de données ou le vecteur et nous pouvons trouver un a de x. Nous pouvons trouver toutes les valeurs NA. Et ici, nous pouvons mettre
la valeur moyenne de x. Nous pouvons
donc trouver la
moyenne de x en utilisant la fonction moyenne et où,
partout où toutes les valeurs
ne sont pas égales à vrai. Nous pouvons donc remplacer
la valeur moyenne. Nous supprimerons les valeurs et nous mettrons la valeur moyenne
à la place de l'enveloppe. Alors laisse-moi exécuter ça. Et maintenant, très bien, donc le Z ici, maintenant nous avons le 123456
et à la place de tout, nous avons 5,33 puis 8910. Et à la place de cela et
tout le monde a ce 5.3. Alors laisse-moi recommencer. Donc ici, au lieu
d'un a, nous avons 5,33. Alors, comment obtenons-nous cette version 5.33 ? Nous obtenons la moyenne de 1234561 plus deux plus
trois plus cinq plus six, plus huit
plus neuf plus dix, et nous la divisons par le nombre de
valeurs lorsque vous obtenez le 5,3. Donc, à la place des anticorps, nous mettons le 5.33. C'est donc la seule façon de traiter les valeurs
manquantes, d'enregistrer la valeur
manquante avec cette valeur moyenne,
soit 5,33. Ensuite, DataFrame recouvre la
valeur manquante sous forme d'azote Dans certains jeux de données, le 99 représentera
la valeur manquante. Supposons donc qu'il s'agisse du
DataFrame que je suis en train de créer, qui comporte deux colonnes. Et exécutons-le et
laisse-moi te montrer le DataFrame. La première colonne
du DataFrame, colonne 2123. Et ici, au lieu de cinq, il en a 99. Et la deuxième colonne
contient tous les puits. Ce 99 n'est donc pas à sa place. C'est comme une valeur manquante. Elle est donc traitée comme
la valeur manquante. Maintenant, ce que nous pouvons
faire,
c'est remplacer ce 99
par un a pour qu' il soit en place. Donc, si nous voulons remplacer ce
d F égal à 99 dans a, nous pouvons utiliser DFT et entre
parenthèses df égal, égal à, égal à 99. Et si c'est 99, nous devons le remplacer par de l'ADN. Alors laisse-moi exécuter ça. À bientôt en 99,
ces 299, nous avons les valeurs
N A, n'est-ce pas ? Vous pouvez donc le
remplacer par l'inévitable. Si vous ne souhaitez
remplacer par aucune valeur, vous pouvez simplement
me laisser vous montrer à
nouveau le DataFrame avec le 99. Maintenant, nous pouvons mettre n'importe quelle valeur ici. Si vous voulez mettre cinq, vous savez qu'il
devrait y en avoir cinq et vous pouvez simplement mettre cinq et C. Maintenant, les valeurs
ont remplacé les deux chiffres par cinq. Ainsi, vous pouvez gérer
les valeurs manquantes. Nous pouvons simplement mettre de l'ADN, d'accord, de cette
façon, nous pouvons enregistrer
les valeurs manquantes en nous.
73. Arbre de décision: Bonjour et bon retour. Dans cette conférence,
nous allons donc en
apprendre davantage sur l'arbre de décision, qui est très important
dans l'apprentissage automatique. Nous allons donc tout apprendre
sur l'arbre de décision et recommencer
à zéro. Qu'est-ce qu'un arbre de décision ? Alors d'abord, laissez-moi vous dire quelle est notre décision. Une décision est quelque chose
que nous prenons tous les jours. Supposons que nous voulions aller quelque part et que je veuille assister
à un événement. Et c'est moi qui suis là pour le soutenir. Et j'en ai besoin, j'en ai besoin pour
aller à l'eau, pour un événement. Donc, ce que je vais dire, qu'
il fasse beau ou non, et en fonction de la météo
, je vais monter. S'il ne fait pas
beau, je n'irai pas. Cela dépend donc
des conditions météorologiques. Je vais donc
les distinguer tels qu'ils sont. C'est donc une sorte d'
arbre de décision que je suis en train de prendre. Je prends, je
prends des décisions en
fonction de la météo et du soutien. Je peux ajouter une dernière
chose si c'est une bonne chose. Et encore une fois, je voudrais
ajouter quelque chose comme si je vais bien ou
pas bien, n'est-ce pas ? Donc, si je vais bien, j'irai, ce sera oui. Et ce ne sera pas le cas. L'ensemble deviendra donc un grand arbre de décision où, tout d'
abord, il fait
beau, j'y vais, il ne fait pas
beau,
je n'y vais pas. Et si c'est bon, utilisez également l'application pour voir si
je vais bien ou pas. Et puis, mieux que
mon état de santé, je dirais oui ou non. C'est donc un grand arbre de
décision, d'accord ? Maintenant, c'est ainsi que nous
prenons la décision, n'est-ce pas ? Lorsque nous conduisons une voiture, nous l'examinons,
nous examinons l' état de la
circulation, puis nous agissons
, n'est-ce pas ? S'il est piégé, si le feu de circulation
est vert, il se déplacera. S'il est jaune, nous attendrons. Et si c'est rouge, on arrêtera, non ? Ce sera donc également un type de décision que nous allons prendre. Alors, qu'est-ce qu'un arbre de décision ? Si vous voulez comprendre, nous devons prendre un exemple. Supposons que je l'aie fait, supposons que
c'est moi, que c'est moi. Et je veux me rendre dans un
endroit où acheter des fruits. Et je ne reconnais pas les fruits. D'accord. Un membre de ma
famille, quelqu'un, m'a
dit que la pomme, pomme, la pomme avaient
deux caractéristiques. Il est de couleur rouge et
arrondi, non ? Et puis il a dit que la banane, la banane est de couleur jaune
et ce n'est pas faux, non ? Pas rond. C'est long en fait. D'accord. Puis il a dit
que nous l'avions. J'ai compris qu'il est de couleur orange. Et ce n'est pas faux. D'accord. C'est pas faux. Maintenant, je vais au marché aux
canards. Et là, j'ai vu un clavier souple. J'ai vu un commerçant qui
vendait des fruits. Et il a autant de fruits qu'
il en a un tas, désolée. Il a renforcé son soutien à
la banane. C'est la banane. Il a donc beaucoup de bananes qui, je ne sais pas, sont des bananes. OK, donc quelque chose
dans Banana Safe, je prévois de faire, désolée pour mon mauvais dessin. Et il a des fruits. Une batterie prouve qu'il l'a fait. Et puis il a eu un truc de couleur
orange. J'ai compris. D'accord. Un soutien que
peu de gens y ont recueilli. Maintenant, je vais m'
arrêter et je me demande
comment forcer la perte d'eau, en me basant sur description
que j'
ai reçue d'un membre de ma famille, je vais demander la touche programmable correspondant
à la question que je vais poser. Je vais demander quelle
est la couleur, n'est-ce pas ? Donc, la première chose que je vais demander, comme l'Égypte ou le rouge
ou l'orange, non ? Je t'ai perdue, Gita. Couleur orange. Donc, la
protéase de couleur orange. Et si c'est le cas, je vais pouvoir répondre directement en disant que ce
sera oui ou ce sera le cas. Très bien. Donc, si c'est le cas. J'ai compris, ce sera classé ici. Le S, les carottes
vont venir ici, non ? Tous les candidats vont donc
venir ici à cause de cette couleur
orange et
toutes les bananes, parce qu'elles
ne sont pas de couleur orange. Donc toutes les bananes
seront des bananes, elles arriveront ici. Et plus vieux. Il y a aussi des pommes de ce côté, non ? Parce qu'ils ne sont pas
non plus de couleur orange. Maintenant, j'ai pris une décision. Les fruits, j'ai classé les fruits en deux
catégories, oranges ou non. Donc orange, j'ai toutes les carottes et pas l'orange. J'ai la
banane jaune et les pommes rouges. Maintenant, la prochaine chose que je vais
demander ou pas ? Ronde. Donc j'obtiens oui
et je recevrai non. Hein ? Jusqu'à présent toutes les pommes
arriveront ici, n'est-ce pas ? Toutes les pommes seront
correctement classées, non ? Et pour le moment, pour savoir
ce qui va se passer. Toutes les bananes
vont arriver ici, non ? Parce que les bananes ne sont pas rondes. Je vais donc chercher toutes
les bananes ici. Alors maintenant, voyez, si vous
regardez cette chose, nous pouvons voir que c'
est tout cela. Tout cela est un arbre de décision parce qu'il
ressemble à un arbre, n'est-ce pas ? L'arbre a des branches
et des feuilles, non ? Donc celui-ci, le nœud principal, s'appelle un nœud racine. Le nœud racine et les nœuds
enfants que nous avons
et les lèvres numériques, n'est-ce pas ? D'accord. Voici donc un
arbre de décision dans lequel je suis le premier Je vois tous les fruits et je décide s'
ils sont oranges ou non, puis je classe les données qui sont
classées correctement. Ensuite, les bananes
unipolaires leur appartiennent, puis les pommes et les bananes
sont correctement classées. Classifiez les fruits en
fonction de leur couleur et conservez-les. Donc, fondamentalement, les arbres de décision sont utilisés pour les problèmes de
classification. Les siècles sont donc utilisés dans les
problèmes de classification, n'est-ce pas ? Et la moyenne de ce nœud, ce nœud, de ce nœud, du nœud racine ici. C'est ce qu'on appelle l'entropie. Donc, ce que signifie notre entropie, plus
le
nombre d'éléments
dans ce nœud racine sera élevé, plus votre arbre de
décision sera dense. D'accord ? Donc, ce que je dois faire, est prendre chaque décision
avec chaque nœud. J'ai besoin de chaque nœud pour
réduire l'entropie. Donc, ici, l'entropie est là, alors le trapèze
sera le plus élevé. Ensuite, à chaque
décision, je dois réduire la valeur d'entropie afin que nous
puissions classer ces éléments. D'accord ? C'est ce qu'on appelle l'entropie. Donc, chaque trace oculaire
et nous le serons, nous réduirons
l'entropie, n'est-ce pas ? Nous verrons dans la
prochaine conférence comment nous allons réduire l'entropie. Nous allons donc voir comment l'
utiliser et le supprimer également lors du titrage
et atteindre le nœud enfant, comment réduire l'entropie
lors de la prochaine conférence. Mais à l'intérieur, c'est l'
arbre de décision et c'est ainsi que nous
classons les choses dans
l'apprentissage
automatique à l'aide de l'arbre de décision. Et c'est ainsi que nous établissons
l'arbre de décision, ferons également notre travail pratique
lors des prochaines conférences. Nous allons d'abord passer en revue
toute la partie théorique, puis nous passerons à la partie pratique où
il s'agira de classer votre problème d'apprentissage automatique à l'aide d'un arbre de décision
dans notre programmation. Rendez-vous lors de la prochaine conférence.
74. Entropie Et Gain D'informations: Dans cette conférence,
nous allons donc voir
comment fonctionne un arbre de décision, comment fonctionne un arbre de décision ? D'accord ? Moins de trois. Travail. OK. Donc, pour cela, laissez-moi vous expliquer quelques
notions de base avant de passer à autre chose. Donc, tout d'abord, cette
décision, cet arbre de décision, nous
prenons différentes décisions. Donc
celui-ci est connu
sous le nom de nœud racine, ou celui-ci est connu sous
le nom de nœud racine, n'est-ce pas ? Il s'agit donc d'un nœud racine. Et puis ceux-ci sont
appelés nœuds foliaires. C'est donc un nœud foliaire. Il s'agit d'un autre nœud foliaire. On les appelle nœuds foliaires, d'accord ? Nœud racine et nœud foliaire. D'accord ? Nous savons maintenant ce qu'est un nœud
foliaire et un nœud racine. Permettez-moi de vous présenter un autre concept appelé entropie et j'ai compris qu'il est
très, très important. Alors laissez-moi vous dire
ce que je veux dire. Je parle d'entropie. Alors, qu'est-ce que l'entropie ? L'entropie est une chose très importante. Parce que vous voyez ici, maintenant
celui-ci, il y a
plus d'objets, non ? C'est donc une baisse du
haut de gamme. Désolée. C'est avoir une entropie élevée. Entropie élevée, d'accord ? Et celui-ci a
une faible entropie. C'est une sorte de population. Ainsi, lorsque vous avez
plus d'éléments dans un nœud, entropie est élevée. Et lorsqu'il a un
faible nombre d'éléments, on parle de faible entropie. D'accord ? L'entropie est donc une mesure de l'absence de
votre collecte de données. Comme plus d'
articles, comme ici. Sur le nœud racine, vous
avez les éléments
avec, en trois couleurs, orange, jaune et rouge, et vous pouvez les enregistrer. C'est donc avoir
plus de désordre et de raison. C'est donc avoir une entropie élevée. Et par rapport
à celui de ce nœud racine il a une faible entropie et celui-ci a une
très faible entropie. D'accord ? Permettez-moi donc de vous présenter un autre concept
qui s'appelle « gain d'informations ». Qu'est-ce que c'est ? Cela s'appelle, cela s'appelle le gain d'informations. Qu'est-ce donc que le gain d'informations ? Au fur et à
mesure que nous passons de l'arbre de décision du nœud
racine au nœud feuille, nous obtenons des informations. Et avec l'acquisition
d'informations, ce qu'elles réduisent, l'entropie s'accélère. Supposons ces entropies,
car cette entropie est E2, pour ces entropies, E3. Et pour cela, les entropies
supportent les entropies E3. Donc, pour chaque trace
, on peut dire que E2 sera
inférieur à un, n'est-ce pas ? La valeur y1 est donc E1, E1 est supérieure et E2 diminue. E2 est inférieur à Y1. Et de même ici, e3
sera inférieur à E2. D'accord ? Qu'est-ce donc que le gain d'informations ? Le gain
d'information est un gain d'information, si nous voulons calculer, ce sera le gain d'information
qui sera égal à y1 moins y2. Y1 moins y2 vous donnera
le gain d'informations. gain d'informations est la
diminution de l'entropie résultant de la
division de l'ensemble de données en
fonction de certaines conditions. Alors voyez ici. Nous avons maintenant des données 1234567 ici. Et nous mettons
une condition, Agent, les protistes soient
orange. Et sur la base de cette
condition, nous réduisons le nombre de
jeux de données ici, deux et ici 345. Nous divisons donc l'ensemble de données. Donc, ici, l'entropie diminue. gain d'informations
est la diminution entropie résultant de la division de l'ensemble de données
en fonction de certaines conditions. Nous allons voir comment
calculer l'entropie. C'est une autre
chose mathématique que je vous fais savoir. Mais pour l'instant, supposons que lorsque
nous descendons dans l'arbre de décision, l'entropie diminue. Auparavant, c'était e one, maintenant c'est E2, et plus bas, ça
descend à e trois. Et e un est supérieur à E2
et E2 est supérieur à E3. gain d'informations pour cela, de ce nœud à ce nœud, arrive à y1 moins y2. D'accord, c'est donc ce que
l'information gagne. Quel est donc l'objectif de
l'arbre de décision ? Lorsque nous divisons l'ensemble de données en
fonction de certaines conditions, nous visons à
diminuer l'entropie, diminuer l'entropie pour obtenir
des informations, n'est-ce pas ? Le téléphone principal meurt donc pour
obtenir plus d'informations. D'accord, donc dans la prochaine conférence, nous verrons comment calculer le gain d'informations et comment
utiliser l'ensemble de données, comment diviser
les données et
comment calculer le gain
d'informations. Et nous verrons quelle est l'équation mathématique
du gain d'informations, d' accord, alors rendez-vous dans
la prochaine conférence.
75. Calcul de Entropy dans l'arbre de décision: Bonjour et bon retour. Dans cette conférence, nous
allons donc en apprendre davantage sur l'entropie et sur la façon dont
nous la calculons. Ainsi, dans la conférence précédente, nous avons vu comment se déroulent
nos promenades distinctes. Et pourtant, je tiens à apporter des précisions. Le nœud de feuille sera, ce sera le nœud d'une feuille. Ce sera un nœud de
feuille, n'est-ce pas ? Et ce sera un autre nœud foliaire
différent, d'accord ? Le ganglion lymphatique, le nœud terminal. OK, ça va faire parler. Et nous avons vu où nous en sommes lorsque nous descendons profondément dans
l'arbre de décision, l'entropie
diminuera. L'objectif principal de la zone est d'atteindre le nœud de données, le nœud feuille, où l'entropie sera inférieure à
l'entropie du nœud précédent. Et de l'entropie et du gain
d'informations. Nous avons appris que y1 moins y2 sera le gain
d'informations. Nous allons maintenant voir ce qu'est l'entropie et comment la
calculer. Le sujet de cette
conférence est donc l'entropie. D'accord ? Nous allons donc
discuter en détail de ce qu' est l'entropie et de la façon dont nous pouvons la
calculer. Entropie. En fait, supposons que
c'est le support, c'est notre seul arbre de décision. Supposons que c'est la nôtre, cette entité où l'on
dit F1, F2, F3, d'accord ? Et puis, d'accord, c'est notre
feuille vers le nord, n'est-ce pas ? Ce sont nos ganglions lymphatiques. Et ce sera le nœud de la feuille. Peut le sport ou le ganglion lymphatique. Et c'est le nœud
racine, n'est-ce pas ? Alors, comment calculons-nous l'entropie ? Supposons encore une chose. Juste pour me souvenir. Cet arbre de décision. Les arbres de décision sont utilisés pour les
problèmes de classification, n'est-ce pas ? Des problèmes de classification, non ? Donc, en gros, ce sera la
classification croisée binaire, oui ou non. D'accord ? Supposons donc que lorsque nous ajoutons
à partir du nœud racine ici, nous arrivions à ce F2. Supposons que nous ayons
trois ans et que nous ayons deux
nœuds, d'accord ? Et nous avons ici
quatre ans et trois nœuds. Et puis nous
voici arrivés à cinq ans. Nous avons deux ans, et ici nous
avons trois nœuds. Nous supposons simplement
ces valeurs, d'accord, et ici, pour le nœud et le support, nous en avons trois. Oui, et il aimait beaucoup les nœuds et a soutenu
celui-ci,
c' est d'avoir le chemin de fer pendant dix ans,
sept nœuds. D'accord ? Maintenant, comment nous
calculons l'entropie, entropie est la
parité de la division. C'est donc notre ensemble de données et nous sommes
divisés en deux nœuds, n'est-ce pas ? F2 et F3. Alors, dans quelle mesure cette scission est-elle pure et
bonne ? C'est ce que nous allons
décider en fonction de l'entropie. Donc, entropie. L'entropie, c'est essentiellement qualité de la division, la qualité de votre division ? C'est ce que l'entropie
va nous dire et comment calculer l'entropie. Qu'il existe une formule
simple qui
soutient que nous voulons calculer l'
entropie de S suppose
que ce soit une
probabilité négative de oui. Et puis enregistrez le message
selon la probabilité de oui. Vous pouvez
également dire
probabilité positive , plus Alpha moins. Probabilité de ne pas avoir de
base logarithmique 2, probabilité de Non, laissez-moi l'écrire
correctement. C'est en train de baisser. Supposons que
l'entropie soit supportée par E. La formule d'entropie
est très simple. Diminution de la probabilité du oui dans la base logarithmique 2 de la
probabilité du oui. Moins. Vous pouvez faire plus, moins la probabilité du nord, dans log du journal du pachto, la
probabilité du nœud. Voici donc la formule de
calcul de l'entropie. Supposons donc que nous voulions calculer
l'entropie de ce nœud. Alors, comment pouvons-nous y parvenir ? Donc, ici, le E sera la
probabilité de oui, oui sera de trois. Donc trois au compteur,
plus trois à trouver. Donc, probabilité de « oui » de
trois sur cinq ans. Ensuite, nous ferons la base
de données 23 par 5. Et le signe moins moins la probabilité d'un résultat négatif
sera de deux sur cinq. À cinq heures. Probabilité négative sur une base logarithmique de deux sur cinq. Ce sera donc l'entropie de, ce sera l'entropie
de la note F deux. Voici donc la formule. Vous obtiendrez une certaine valeur ici. Lorsque vous calculez, vous
obtiendrez la valeur. Il fera donc nuit et vous
déposerez de ce F2. Notez l'entropie de F2,
vous pouvez, non ? D'accord ? Donc, l'entropie de F2 nulle sera la suivante
moins trois sur cinq. La pauvreté apparaît
moins la probabilité d' négative et il faudra utiliser
la base logarithmique deux de ces valeurs, probabilité
positive et probabilité
négative. Donc, oui, vous pouvez
dire probabilité de positivité, probabilité
de positivité. Et ce sera la probabilité de valeurs négatives et négatives. D'accord ? Ainsi, nous pouvons
calculer la valeur d'entropie. Nous pouvons donc calculer la valeur d'
entropie pour cela aussi, pour cela, également ici, si vous calculez la valeur de
probabilité,
qui est la seule, il n'y a pas de négatif, n'
est-ce pas ? Parce que c'est le
N Naughty, non ? Supposons donc que nous fassions la division et que nous
obtenions, supposons que nous y
soyons, au lieu de 4,3 nœuds, nous obtenions trois
ans et trois nœuds. Donc c'est très, ce n'est pas utile, c'est,
ce n'est pas une
chose utile, n'est-ce pas ? Parce que nous aurons
les deux, trois ans et trois nœuds. Cela ne va donc pas
donner un aperçu, n'est-ce pas ? C'est donc très négatif. C'est une très, très mauvaise
sorte de séparation, d'accord ? Vos données ne seront donc pas réparties de cette manière
dans un arbre de décision. Il s'agit donc de discontinuité
ou de hockey, car lorsque vous
calculez
celui-ci, ce sera trois par six
moins trois par six. En gros, la probabilité
négative et la probabilité
partielle du bateau sont
les mêmes, d'accord ? Nous devons donc le
diviser de telle sorte que nous ne devrions pas
obtenir ce produit. D'accord ? C'est ainsi que nous calculons l'entropie avec cette formule. D'accord ? Et nous devons le faire, et le
gain d'informations, tel que discuté, sera le suivant, supposons que
celui-ci soit E One ou E F1. Et voici EF2. Les informations glanées de F1
à F2 seront E F1 moins F2. Ce seront donc les
informations obtenues
d' un nœud à ce nœud. D'accord ? C'est ainsi que nous calculons l'entropie
et le gain d'informations. Gain d'informations.
76. Calcul du gain d'information pour l'arbre de décision: Bonjour et bon retour. Dans la dernière conférence, nous
avons donc découvert l'entropie. Et le talon se trouve dans cet arbre de
décision que j'ai dessiné. Abdullah, c'est
une petite erreur, comme Yolanda. Au total, les villes tirent 17, 17 objets puis S.
Et il n'y en a pas. Donc, lorsque vous divisez
ces deux nœuds, trois ans pour le savoir. Et pour oui et
trois nœuds, non ? Quatre plus 37,5, 12 seulement, donc cinq ne sont pas inclus. Vous pouvez donc
vous en occuper. J'aime bien que par erreur, on ne
m'ait pas donné les
bons chiffres ici, mais cela n'affectera
rien de ce que j'ai enseigné
dans la conférence précédente. Ainsi, seuls les nombres font un total de 17 lorsque vous divisez. D'accord ? Donc, à part cela, tout est
correct et la façon dont nous calculons l'entropie, cette formule est correcte, tout le reste est correct. Et c'est ce que je voulais clarifier
pour que cela se produise. D'autres chiffres. OK. Trois
ou huit ans , puis d'accord. Ce serait une erreur de ma part. J'ai écrit 38 oui. Pour connaître 10.7, 17. OK. Et puis il y aura un soutien de huit ans. Et oui. Ou McDonald's ici, alors ce sera le bon. OK. OK. Passons maintenant au concept
suivant appelé gain d'informations. Donc, dans la conférence précédente,
ce que je vous ai dit,
je vous l'ai dit chez les agriculteurs
et le gain, c'est comme ça en entropie
moins cette entropie. Donc, vous allez accéder à ce
jeu d'information, de cette fonctionnalité F1 à F2. Mais ce n'est pas le gain d'informations
total. Ainsi, lorsque notre
arbre de décision est complètement formé, nous devons déterminer le gain d'informations de
l'arbre de décision total. Quel jeu d'information ? Encore une fois, nous
arrivons à la totalité. Laisse-moi donc lancer comme
Dawn et ce que je vais faire, créer un arbre de décision. Supposons que nous ayons
cet arbre de décision. J'ai donc soutenu cette
étape, F1, F2, F3. D'accord ? Donc je suppose que
celui-ci a n, oui et sept. D'accord ? Et quand on se séparera ici, on supposera ETS, nez. Et nous voilà en train de couper. Que ce soient ces trois nœuds. Donc, niveau et voilà, j'ai
trois ans et trois ans. Nan. OK, donc en voici un, notre arbre de décision soutient
un exemple d'arbre de décision
que nous sommes en train de créer ici. Maintenant, pour ce nœud, entropie suppose que
E F1 vous soutienne. Nous calculons donc l'
entropie pour cela. Oui, non, sept nœuds, nous obtenons E F1. Pour cela, nous obtenons
une propriété sous le nom de E F2. Et pour cela, nous
obtenons un E F 30. D'accord ? Maintenant, cela se base
sur ce gain d'informations. Et l'entropie fera l'affaire. L'entropie vous le dira simplement
en fonction de la valeur d'entropie, nous pouvons savoir
quelle est notre division, n'est-ce pas ? Je ne saurai
pas si
tous les obèses opteront pour
celui-ci ou celui-ci, n'est-ce pas ? Cette scission, ou
cette scission, non ? Supposons donc que nous puissions
faire une autre division, exemple en commençant
par F2, puis
en passant par F1 et F3. Cela pourrait donc être une autre scission. Nous ne savons donc pas laquelle
est correcte, n'est-ce pas ? Alors, comment le savons-nous ? Quelle stratégie ou quelle division nous devrions adopter
serait la même que F1, F2, F3,
et commencer par
F2, F1, F3, n'est-ce pas ? Alors, comment pouvons-nous en décider ? Nous pouvons en décider en fonction du
terme qui m'a apporté un certain bénéfice. Nous pouvons donc décider en fonction du
gain d'informations. Quelle voie devons-nous suivre, quelque sorte telle ou telle voie. D'accord ? Cela sera donc décidé par le gain progressif dans
l'arbre de décision total. Alors, comment calculons-nous le gain d'informations
total, gain d'informations
total, et c'est ce que je
vais vous dire. Le gain d'informations est la
quantité d'informations que
nous obtenons pour
l'ensemble de cet arbre de décision. Donc, pour cette première chose, ce que nous devons obtenir, nous devons trouver l'entropie
pour chacun des nœuds,
chacune des fonctionnalités, d'
accord, prise en charge jusqu'à présent, avons calculée sur
la base de la formule expliquée dans
la conférence précédente. Nous avons calculé et
obtenu ces valeurs, E d'un an, PUI de trois. D'accord ? Alors, quel gain d'informations ? Gain d'informations. Quels seront les avantages
de cet arbre de décision ? C'est comme si l'information
gagnait le nœud racine, c'
est-à-dire E, f, f1, f1 moins la somme de
toutes ces divisions. Résumez toutes ces
divisions comme celle-ci. Et celui-ci, l'information vous permet
de gagner et de vous en débarrasser. D'accord ? Donc, ce sera ce sous-ensemble
de toutes les sous-divisions,
comme celle-ci en une
division et celle-ci en
une division du
même nœud, n' est-ce pas ? Donc, une partie de ce sous-ensemble, le poids total pondéré, d'accord ? Et puis support E, F. Cela passe de z égal
à un à n support. Nous allons passer d'un nombre
de split à un fan de F1, d'accord ? Donc, support E F1, nous avons calculé E, F un. Alors, quel sera le
nombre de sous-ensembles que nous aurons ici ? Nous obtenons deux sous-ensembles. L'un est ceci et l'autre
est ceci, non ? Quel sera donc le sous-ensemble de ces huit plus 31 111
et le total est de 17, 11 sur 17 dans E de f, deux. Et puis plus trois
plus 36 sur 17. Au total. Le compte est de 17 contre E F trois. D'accord ? Cela arrivera donc à
l'E F1 -11 d'ici 17, E F2 moins six d'ici 73. D'accord ? Donc, cette formule, cette expression nous donnera, cette expression nous
donnera une certaine valeur. Supposons que je ne calcule pas la valeur
réelle, vous pouvez calculer. Supposons donc que cette valeur
nous donne 0,53. Et de la même manière, supposons que nous ayons également calculé pour cet arbre de décision. D'accord ? Que signifie cette entrée ? Et ici, nous obtenons
le gain d'informations comme du vent pour un. Alors maintenant,
supposons que ce soit à nouveau
une question et que ce soit à nouveau pour voir comment notre algorithme
d'apprentissage automatique, ou comment,
décidera de la voie à suivre. Nous devrions opter pour cette scission. Cette répartition est basée sur
le gain d'informations. Nous obtenons donc, encore une fois, je soutiens 5.53 et
nous obtenons ici un gain de 0,41, gain
d'informations un est
supérieur à l'information
obtenue, deux. Nous opterions donc pour
la valeur la plus élevée. Plus le gain d'informations est élevé, plus
l'arbre de décision
sera précis. Nous allons donc opter pour cela, suivre
cet arbre de décision. Nous allons donc opter pour la F1, la F2 et la F3. Le gain d'informations
décidera quel
arbre de décision ou quelle approche nous
devons adopter pour créer
cet arbre de décision. Et nous ne le ferons pas manuellement ni par des
algorithmes d'apprentissage automatique. Ou la bibliothèque va
le faire automatiquement
pour nous,
mais nous devrions savoir
comment cela fonctionne en interne. Et chaque fois que
vous essayez de créer un arbre de décision pour un
problème ou un apprentissage
automatique, les algorithmes d'apprentissage automatique créent ces sous-ensembles,
ces plaques. Et ils calculeront le, qui calculera
le gain d'informations. Et quel que soit le
gain d'informations le plus
important, il ira de pair avec cette stratégie. Ainsi, le gain
d'informations est utile pour décider quelle division ou
quel arbre de décision, avec
un suivi fonction de la caractéristique
à diviser en premier. La fonctionnalité 1 est également basée
sur la fonctionnalité. Ce sera donc la raison pour laquelle l'acquisition d'informations est l'une des
choses les plus importantes. Nous devrions connaître les calculs qui sous-tendent le gain d'informations. Supportez ces trois, oui
et trois nœuds ici, la valeur d'entropie de
trois sera de un. Pourquoi ? Parce que c'est un sous-ensemble totalement
impur, non ? Parce que ce n'est pas le cas,
ce n'est pas bon. Parce que trois S et trois indiquent que les deux sont les mêmes
nombres, non ? C'est donc une division impure et pour cette entropie, il y aura 11
choses que j'ai oublié de vous dire. La valeur d'entropie
sera toujours comprise entre zéro et un. La valeur d'entropie
sera toujours comprise entre 0 et 1. Si vous obtenez 10, votre répartition est bonne. Et nous devons mettre fin à
cette scission. D'accord ? Et si split est égal à 1, votre valeur
d'entropie devient 1, cela signifie
qu'il s'agit d'une division pure
ou impure. D'accord ? Donc, pour zéro, nous allons nous arrêter et un, ce sera une division impure. D'accord ? Donc, cette chose que
tu gardes à l'esprit.
77. Mains sur l'arbre de décision en R: Bonjour et bon retour. Ainsi, dans les conférences précédentes, nous avons
découvert l'arbre de décision. Nous avons également vu comment
créer un arbre de décision. Et nous avons vu l'entropie. Qu'est-ce que l'entropie ? Comment calculons-nous l'entropie, et quelle sera
la valeur d'entropie. Ensuite, nous avons vu comment nous
calculons le
gain d'informations et comment gain d'
informations de l'arbre de
décision
décidera de l'approche
à suivre approche à adopter. Book Creator, le meilleur arbre de décision pour notre énoncé de problème. Et nous savons également que
cette entrée est utilisée pour les arbres pour des problèmes de
classification. D'accord ? Il s'agit donc essentiellement d'un problème de
classification binaire que nous traitons de l'arbre de décision. Donc, dans cette conférence, nous allons apprendre comment
nous allons procéder.
En gros, nous allons
écrire notre code pour créer un
arbre de décision pour notre ensemble de données. Nous allons donc
utiliser ici un ensemble
de données intégré fourni avec R, à savoir les compétences en lecture. Alors, que contient cet
ensemble de données sur les compétences en lecture et quoi, comment créons-nous notre arbre de
décision à cet effet ? C'est ce que nous verrons dans cette conférence. Nous écrirons le
code avant cela. Permettez-moi de vous présenter quelques
applications de l'arbre de décision. Donc, un arbre de décision, si vous
voulez voir dans la vraie vie, vous, des arbres de
décision sont
utilisés lorsque nous essayons trouver quel e-mail est un spam, un e-mail, quel
e-mail n'est pas un spam. Donc, nous sommes en train de prendre
Disjoint, n'est-ce pas ? Donc, dans le cadre de ce type de projets
d'apprentissage automatique, où nous en sommes, nous
devons déterminer s'
il s'agit d'un e-mail ,
s'il provient d'une source, s'il s'agit d'un spam ou non, nous
créons essentiellement un arbre de décision. Nous faisons ce
voyage, spam ou pas. Ce type de problème de
classification binaire
est un spam ou non un spam. Ensuite, dans le
service de santé ou le secteur de la santé, si vous voyez ou détectez
un cancer dans une application, qu'il
s'agisse d'une tumeur, soit, euh, cancéreux ou non, qu'il soit, euh, cancéreux ou non, nous pouvons décider à
l'aide de l'apprentissage automatique
et de l'arbre de décision. Et dans le
secteur financier en Europe, vous pouvez le constater, nous pouvons, comme dans les domaines du
financement bancaire de la BFSI, utiliser pour décider s'
ils accordent un prêt ou non. Et ils peuvent également
décider s'il est bon ou est bon notre emprunteur doué en matière d'eau en
fonction de leur cote de solvabilité. Comme pour l'analyse du risque de crédit, vous pouvez utiliser
l'arbre de décision. Voici donc les
applications réelles de notre arbre de
décision et de notre problème d'apprentissage
automatique que vous pouvez envisager de résoudre à l'
aide de l'arbre de décision. Alors, comment pourrions-nous résoudre ce problème ? En gros, nous créons un modèle
, puis nous essaierons
de l'entraîner. Ensuite, sur la base du modèle
expérimenté, nous avons essayé fournir des données de test et d'essayer de prendre
toutes ces décisions. Alors maintenant, venons-en à ce
problème, à cette conférence. Pour en revenir à cette conférence, nous allons utiliser l'ensemble de données sur
les compétences en
lecture fourni avec
R, le package R. Donc,
vous dites qu'un ensemble de données et cet ensemble de données décrivent en fait
le score d'
une personne, ses compétences en lecture,
ses compétences en lecture. Si nous connaissons
des variables telles que l'âge, le score de
suicide et
le fait que la personne soit de langue
maternelle ou non. Donc, si nous avons cette information, source I
est nulle et le locuteur
natif est nul, nous pouvons décider. Nous pouvons trouver un score de capacité de
lecture ou de personne noire. Nous allons donc créer
un arbre de décision à cet effet. D'accord ? Donc, dans notre programmation, nous avons la fonction S3. Fonction S3 que nous utilisons pour
créer un arbre de décision. Et cela nécessite deux entrées. L'une est une formule et d'autres l'ont fait. Donc. C3 prend deux formules
en entrée et nos données. Nous verrons dans le code. OK, donc la prochaine chose faire est d'
écrire le code. La première chose à faire est donc de
créer un arbre de décision. Nous avons besoin d'un package
appelé party. Nous devons installer ce package. Donc, si vous n'avez pas
installé ce package, vous devez écrire
la commande install point packages, packages
installés. Et vous devez fournir
le nom du package. Ensuite, vous
devez exécuter le code. Et cela installera ce package de
fête pour notre usage. J'ai donc commenté cela. Si vous ne l'avez pas installé, il
vous suffit de le décommenter et de l'exécuter. Le package party
sera installé. Une fois qu'elle est installée, il vous
suffit de la commenter pour que cette commande ne s'exécute
pas à chaque fois. D'accord ? Ainsi, une fois le package
party installé, ce n'est pas nécessairement pour
créer un arbre de décision car cette fonction S3
est fournie avec ce package. Nous devons utiliser ce package. Pour utiliser un package dans R, nous devons utiliser la bibliothèque puis nous devons
fournir le nom du package. Donc, emballer mes fêtes, et c'est pourquoi nous
écrivons Library Party. Maintenant, cette fête de la bibliothèque va mettre en
culture cet ensemble de données sur les compétences en
lecture afin que nous
puissions voir ce que ces ensembles de données contiennent. Nous pouvons donc simplement exécuter cette tête. La capacité à lire la tête
donnera les premiers. Les premières sont des données provenant de
cet ensemble de données sur les compétences en lecture. Alors exécutons-le et voyons ici. Nous obtenons maintenant les
six premières lignes de l'ensemble de données. Il s'agit de dire l'âge du locuteur natif , les
suicides, puis le score. Il s'agit essentiellement
du score de lecture. Nous avons donc maintenant un
aperçu de ces données. Nous pouvons aller plus loin et créer un arbre de décision. Nous allons donc utiliser ici le point
d'entrée pour prendre l'entrée. Nous pouvons simplement, si vous ne
voulez pas mettre ce nom, vous pouvez simplement utiliser la saisie. Donc, ici, j'utilise les données par points
d'entrée, et je prends les données
de cette échelle d'évaluation. Ensuite, nous irons plus loin. Et ici, j'utilise simplement
un arbre de décision à points PNG. Et ce sera
le fichier image sur lequel sera imprimé notre
arbre de décision. Ensuite, nous créons l'
arbre ici, l'arbre à points de sortie. Et nous perdons la
fonction S3 ici et là, nous fournissons la formule « locuteur natif »
formalisé. Et c'est la, c'est la, c'est
la variable dépendante. Et en fonction de l'âge, des suicides et de leurs causes fondamentales, nous déciderons s'il s'agit du locuteur
natif ou non, d'accord ? Et les données sont égales
aux données ponctuelles d'entrée. Et puis nous traçons le, traçons le répertoire de sortie. Je vais donc mettre l'arbre que nous
obtenons grâce à cette fonction. Et voici la formule, le score
natif H plus plus plus plus basé sur ces trois variables prédictives, nous allons obtenir la valeur du locuteur
natif, d'accord ? Ensuite, le thêta est égal
aux données de points d'entrée. Et nous sommes en
train de tracer cela, ou la productivité ou
quoi que ou la productivité ou
quoi que ce soit d'autre qui découle de cette préoccupation,
nous le traçons. Alors, analysons ceci et voyons comment nous obtenons
cet arbre de décision. Alors voyez maintenant que notre fichier d'arbre de
décision est créé. Vous voyez ici, c'est l'
arbre de décision que nous obtenons. D'accord ? Nous n'avons donc pas encore décidé comment,
oh, vraiment, ce nœud
foliaire, n'est-ce pas ? Le système a pris une décision
automatique. Et T sont inférieurs ou égaux à 3813 zéros
x il arrive ici,
30, moins de 38,306
tensions venant ici. Et puis c'est égal à R7. Ce sont moins de six personnes qui
arrivent ici, soit plus que c en
raison de l'année à venir. Cela
est donc imprimé à
distance, créé
avec la fonction S3. Et voici les informations à
nouveau et tout se
fera par un système sec, d'accord ? Nous n'avons donc pas besoin de le faire, nous devons simplement utiliser la fonction S3 et probablement
la formule et les données, et cela créera l'arbre de
décision pour nous. D'accord ? C'est aussi simple que cela. Mais pourquoi nous avons discuté la théorie dans la conférence
précédente, c'est parce que nous devrions savoir coulisses ce
qui se passe avec cette fonction S3. Et nous devrions être
conscients, d'accord ? Alors vous seul pouvez réussir dans le domaine de l'apprentissage automatique
et de la science des données. Vous devez connaître les intuitions
mathématiques qui sous-tendent l'arbre de décision ou tout algorithme
que vous apprenez. D'accord ? N'importe qui peut venir ici utiliser cette fonction S3
et créer un arbre de décision. Mais il se peut qu'ils ne soient pas conscients de la
manière dont l'arbre de décision
est construit. Qu'est-ce que l'entropie, qu'
est-ce que le gain d'informations ? Et très bien, c'est
pourquoi vous devriez connaître les véritables intuitions sous-tendent l'
algorithme d'apprentissage automatique. D'accord ? Alors, avec cet arbre de décision, quelle conclusion aboutissons-nous ? Nous en arrivons à la conclusion que, comme toute personne dont l'échelle de
lecture est de 38,3, inférieure à 38,3 et
âgée de plus de six ans, n'
est pas un locuteur natif, n'est-ce pas ? Donc, avec ça, on a
un lac. Si l'âge est inférieur à, score de
lecture est inférieur à
38,3 et l'âge est supérieur à six ans, alors la personne
n'est pas un locuteur natif. C'est ainsi que nous pouvons créer
l'arbre de décision dans R.
78. Avantages et inconvénients de l'arbre de décision: Dans cette conférence, nous
allons découvrir les avantages et les inconvénients
de l'arbre de décision. Nous allons donc d'abord voir les avantages, puis les
avantages des arbres de décision. D'accord ? Donc la moitié de l'arbre de
décision des estimations, d'accord ? il ne
s'agit donc pas vraiment Comme nous l'avons appris, d'un algorithme
d'apprentissage automatique très populaire. Et résolvez
de manière distincte les problèmes liés à l'apprentissage automatique en transformant les données en
une présentation géniale comme celle-ci. D'accord ? Traitez une
présentation comme celle-ci. Et chaque nœud interne
de l'arbre comme ça. Et ils présentent nos
notes un attribut et chaque nœud de feuille indique
le niveau de classe. Et l'algorithme de l'arbre de décision
peut également être utilisé pour résoudre des problèmes de
classification et des problèmes de
régression. Ce n'est donc pas comme lorsqu'un
problème de classification divulgué peut être résolu avec l'arbre de décision. Mais nous pouvons également résoudre les problèmes de
réglementation. D'accord ? Donc ça a
été fait, d'accord ? Cette entrée peut donc
être utilisée à la fois pour les problèmes de
dégradation et de
classification. Permettez-moi donc de vous dire quels sont les quelques avantages de
l'arbre de décision. Le premier avantage de l'arbre de
décision est donc qu'il nécessite moins d'argent nécessite un opérateur de
prétraitement moins important. Passons au prétraitement
des données, d'accord ? Ainsi, pour l'arbre de décision ou par rapport à d'autres
algorithmes d'apprentissage automatique, vous devez travailler un peu moins sur le prétraitement des
données ou la préparation des données. Vous pouvez dire « j'aimerais
une préparation préalable », ou vous pouvez également mettre ici une
forme de préparation des données. Vous devez donc consacrer
moins d'efforts à la préparation et au
prétraitement des données, d'accord ? C'est donc l'un des grands avantages
de l'apprentissage automatique. Notre produit. Le deuxième avantage serait qu' un
arbre de décision ne nécessite
pas de mise à l'échelle. Il n'est pas nécessaire d'augmenter la taille des données. La mise à l'échelle des données
n'est pas vraiment requise. D'accord ? Ce n'est donc pas non plus obligatoire et c'est un gros
avantage, d'accord ? Et puis le troisième avantage, on peut dire que
cela ne nécessite généralement pas de
normalisation de la bêta. Ainsi, même si vous n'avez pas
normalisé les données, vous pouvez utiliser
l'arbre de décision. Normalisation de Greta. C'est en place, ce n'est pas obligatoire. D'accord ? C'est donc également
une bonne chose en matière d'apprentissage
automatique et nous
verrons cet arbre de décision. Ainsi, dans le domaine de
l'apprentissage automatique, les siècles et l'algorithme dans
lesquels le système adjacent normal et Gil relient les données ne
sont pas vraiment nécessaires. Si vous le souhaitez, vous pouvez le faire, mais ce n'est pas vraiment obligatoire. Cela n'aura pas d' impact
important, que les
données soient normalisées ou non. Si nous travaillons
avec un arbre de décision. L'avantage suivant est que les valeurs
manquantes dans les données
n'ont pas non plus d'impact important
sur l'arbre de décision. D'accord ? Par exemple, si vous utilisez d'autres
algorithmes d'apprentissage automatique, vous devez travailler manière approfondie pour
traiter la valeur manquante. Mais dans l'arbre de décision, cela n'aura pas de
valeur manquante, cela n'
aura aucun impact sur l'arbre de décision. Pas d'impact, d'accord, donc ça n'
aura pas beaucoup d'impact. Ainsi, même si
des données sont manquantes, vous pouvez créer un arbre de décision
qui ne fonctionnera pas, vous ne manquerez
rien qui affecter votre décision ou
vos prévisions. D'accord ? Le modèle d'arbre de
décision relatif aux avantages suivants est très intuitif et facile
à expliquer aux équipes techniques
agiles. Ainsi, lorsque vous voyez
l'arbre de décision, il est très facile de
vous aider à le comprendre. Il est très facile
à comprendre et toute partie non technique ou
technique peut facilement être comprise. C'est donc le gros avantage
d'un arbre de décision. Donc, même si vous voulez présenter
votre arbre de décision à un responsable, vous pouvez facilement lui faire comprendre
l'arbre de décision. C'est donc l'un
des avantages d'un arbre de décision. En dehors de cet arbre de décision. Ou comme les intuitions
très humaines que vous obtenez avec l'arbre de décision Get
with the Decision. C'est donc très, très similaire
au comportement humain. Dans notre vie quotidienne,
nous prenons également des décisions
disjointes par oui ou par non, en
fonction de certaines caractéristiques ou
conditions. C'est donc très humain. Je serais content d'avoir un algorithme
semblable à un humain. D'accord, voici donc les
quelques avantages sur lesquels nous pouvons compter en matière d'apprentissage
automatique. Examinons maintenant les inconvénients
de l'arbre de décision. Le tout premier inconvénient de
l'arbre de décision que nous
pouvons constater est donc qu'il
n'est pas très fiable
si vos données changent. D'accord ? Donc, ce que l'on peut dire, c'est
comme si c'était instable,
comme si c'était stable. Et si les données changent, si les données changent. Alors, soutenez-vous, vous avez établi un arbre de décision et il
y a un petit changement dans les données. Une petite modification des données
peut avoir un impact important, un impact important sur l'arbre de décision. C'est donc un gros inconvénient
de l'arbre de décision. Même les petites
données d'entraînement peuvent entraîner de
grands changements
dans leur structure. L'arbre de
décision soutient cette décision ressemble à ceci. Si vous modifiez légèrement les
données, il se peut que la structure de
l'arbre de décision
ait été complètement différente et
cela aura un impact important, n'est-ce pas ? Le deuxième inconvénient
est que l'arbre de décision est
parfois plus complexe que
l'autre algorithme. Ainsi, pour
les données les plus simples,
votre arbre de décision
sera parfois complexe. Nous avons donc parfois un arbre de décision très
complexe. Et si vous utilisez un
autre algorithme, vous pouvez obtenir la solution la
plus simple. Vous devez donc voir si, pour l'énoncé de notre
problème particulier, vous avez vraiment besoin d'un arbre de
décision ou non. Et si vous utilisez un arbre de
décision, il est plus simple que l'
autre algorithme ou non. S'il n'est pas plus simple que l'autre algorithme
d'apprentissage automatique, vous devriez utiliser l'autre
algorithme d'apprentissage automatique et vous ne devez pas utiliser
l'arbre de décision. Donc, parfois, ça
devient vraiment complexe. Neck Thing, c'est comme si
l'entraînement d'un modèle d'apprentissage automatique avec un arbre de décision
était énorme, n'est-ce pas ? Il faut donc du temps pour entraîner
notre modèle d' apprentissage automatique à l'
aide d'arbres de décision. Cela prend donc du temps. Le processus prend énormément de temps
pour former un arbre de décision. Le temps passé à
distance est plus long. C'est donc cher en termes de temps, non ? Cela prendra plus de temps
par rapport aux autres algorithmes. Et c'est aussi
comme si la complexité augmentait également
dans l'arbre de décision. Autre chose que nous pouvons tirer cette leçon ou ne pas avoir
vraiment d'impact. Il en est ainsi, si vous utilisez un arbre de décision pour un problème de
classification, un
problème de classification, c'est bien. Mais pour les arbres de régression, cela n'a pas beaucoup d'impact, n'est-ce pas ? D'après ce que j'ai compris, mais cela
peut être fait pour les deux. Mais les arbres de régression
n'ont pas cet impact. Ce sont donc les quelques
inconvénients
des arbres de décision sur
lesquels nous pouvons compter. C'est donc tout pour cette conférence. Tels sont les avantages et les inconvénients
des arbres de décision.
79. Introduction du projet: Bonjour et bienvenue. Dans cette conférence,
nous allons donc en apprendre davantage sur le projet dans lequel nous
allons, à partir duquel nous allons. Nous allons donc faire quelque chose
de très important. Il s'agit d'un
projet d'apprentissage automatique simple qui vous donnera une idée de ce qu'un algorithme
simple d'apprentissage automatique peut faire. En quelques lignes. Nous allons utiliser
notre programmation et nous allons
utiliser notre ensemble de données, qui contiendra les
données précédentes de l'organisation. Et sur la base des données, nous allons prédire
les cours futurs des actions. Oui, tu l'as bien deviné ? Nous allons réaliser
un projet dans le cadre duquel ils ont utilisé les données précédentes, les données StockData
précédentes ou les données historiques
des cours des actions. Nous allons deviner les cours futurs
des actions comme à partir de maintenant. Quel sera le cours de l'
action dans 100 ou 500 jours, ou après un an ou deux
ans, après 30 jours, après 40 jours, quel
sera le cours de l'action ? Ce sera donc la prévision
boursière. Project, lui qui fait de
l'apprentissage automatique, d'accord ? Et nous allons utiliser
notre programmation pour cela. Un simple fichier XML
contiendra donc le cours de l'action. Et pour cela, nous allons utiliser
les données du cours des actions de Google pour Google. Et nous allons diviser les
prix de Google sur 400 ou 100 jours, les jours sont des jours, d'accord ? Donc, le cours de l'action X et le
projet que nous allons réaliser. Et pour cela, nous avons cet ensemble de
données au format Excel, qui contient
les données historiques des cours
des actions Google 2019-2020. D'accord. Et voyez quelles
sont les colonnes ici ? La première colonne est la date, puis commence le
26 septembre 19. Et nous avons des données jusqu'au
25 septembre 2020, presque un an de
données, d'accord, et puis la deuxième colonne est D, puis la troisième
colonne est ouverte. Cela signifie le prix d'ouverture. À l'ouverture de la bourse
le matin , quel était le cours ? Il s'agit donc du
cours d'ouverture du sixième jour, Septum Auto Toggle 19
, soit le premier jour. Qu'est-ce que c'est et puis ce
jour-là, il est passé à 1 245
, soit le plus haut niveau en une journée. Et Low aurait souhaité qu'il passe à 1 232. Donc, en un jour, je
suis parti de 1 241,95. Il a été soumis à la loi de
1 232, il est passé à 1 245 et il a
clôturé à 1 241. Ces quatre montrent donc à
quel point il est très important et ajusté de près
est presque la même chose. Et puis le volume,
15 lakh ou
30 000 volumes, était là. Ainsi, nous avons toutes
les données pour 365 jours. Sur la base de ces données,
nous allons donc prédire les cours futurs
des actions à la hausse sur Google. Si vous tracez ces
données sur un graphique, nous pouvons voir comment les prix
évoluent à la hausse et à la baisse. Vous pouvez donc le voir ici. Nous allons donc également tracer
ce type de graphique et voir comment les prix
augmentent et diminuent. Dys, d'accord ? C'est donc le
projet que nous allons réaliser. Voyons voir. Dans la
prochaine conférence, nous commencerons à importer ce
fichier Excel dans notre studio
d'art puis nous écrirons un
code simple et nous essaierons de prédire
le cours futur de l'action en hausse par rapport
aux le cours futur de l'action en hausse par rapport actions de Google lors de
la prochaine conférence.
80. Projet - Prédire les prix des actions: Bonjour et bon retour. Dans cette conférence, nous allons
commencer par notre projet qui consiste à commencer par notre projet qui consiste prédire la
valeur du cours de l'action Google un jour donné sur
la base des données historiques
dont nous disposons. Nous avons donc cette feuille Excel, qui contient des données de
l'année dernière, comme 26, numéro 20192, jusqu'à septembre 2020, je crois. Oui. Donc, jusqu'au 25
septembre, 20 pays. Nous avons donc près d'
un an de données sur le cours de l' action
Google,
tous les 365 jours de cours ouvert. Quelle était la valeur élevée de l'
action un jour donné ? Valeur la plus faible. Quelle était la valeur de clôture et quel était le volume ? Donc, toutes ces données dont nous disposons, sur la
base de ces données, nous allons essayer de créer un
modèle dans lequel nous pouvons prédire la valeur de l'action à une date
donnée, d'accord ? Supposons que dans trois jours, ou dans 500 ou 500 jours, quelle sera la phrase courante ? Je dirais 100 jours. Quelle sera la phase de l'AVC ? Donc comme ça. OK, commençons donc le code. La toute première chose à faire
est de savoir ce que nous pouvons faire. Nous pouvons importer le point XLS du cours de l'
action Google, le fichier Excel, dans notre studio. Et pour y parvenir, nous pouvons consulter le dossier. Et ici, nous devons accéder
au jeu de données d'importation. Nous devons donc accéder à
l'ensemble de données d'importation. Et ici, vous pouvez voir à partir des impôts, à partir des trois NADH
d'Excel, diverses sources
de données ont
été répertoriées ici. Donc, ce que nous devons sélectionner ici, nous devons sélectionner
cet Excel ici. Depuis Excel, il
suffit de cliquer. Ensuite, nous devons
parcourir le fichier dans lequel nous
avons conservé nos données. Nous avons donc ce fichier Excel. Je vais donc simplement l'ouvrir et découper les données
numériquement. Et une fois que c'est fait, cela nous donnera
l'option d'importation. C'est donc une façon
d'importer le fichier de données
dans le studio le plus difficile. C'est une autre solution. Et cela permettra également voir et de voir ici , nous pouvons maintenant voir l'
aperçu du code de cette importation. Cela arrive comme une bibliothèque. Je n'ai pas besoin d'Excel et cours de l'action
Google
sera l'objet. Et ici, nous utiliserons la fonction Lire Excel et fournirons au bot le
fichier Excel avec le nom de fichier. Ensuite, nous pouvons utiliser
la vue, cet objet. D'accord ? Et ce sera pour que nous
puissions simplement copier ce code. Et je ne sais pas pourquoi cela
prend autant de temps. Il y a peut-être une IRM, alors laissez-moi annuler cela et importer. Voir. Les données ont maintenant été
importées dans notre studio. Oui, nous pouvons voir les mêmes données que celles que nous
voyons dans ce fichier Excel. Maintenant, nous pouvons voir l'intérieur de
ce studio d'art. Bon, maintenant, nous avons...
maintenant, si nous voulons voir
ces données ici, voyons qu'il n'y a pas encore de Claudia. Mais puisque nous avons importé, nous pouvons utiliser la vue réelle. Et ici, nous pouvons utiliser le nom
d'objet solide : votre main. Nous pouvons courir ici et voir
la même chose se produire. Même si vous souhaitez utiliser le
résumé des données. Quelqu'un peut exécuter
ceci et nous enverrons
à quelqu'un cet ensemble de données ici. peut exécuter ceci et nous enverrons
à quelqu'un cet ensemble de données ici. Moyenne, premier quartile, moyenne
médiane, valeur maximale du
troisième quartile sur la quantité de septembre 2020 Et c'était
1 710, le maximum est de 1 733. Ce sera le plus élevé. Et c'est le maximum
d'ouverture. Et il s'agit du
maximum le plus élevé, ni du maximum local et du maximum de clôture. D'accord ? Ainsi, nous pouvons
voir le résumé des données, d'accord ? Maintenant, au lieu de l'utiliser
, nous
pouvons également nous utiliser la bibliothèque. Nous pouvons utiliser la bibliothèque de code. Je ne sais pas pourquoi ça arrive. Si vous ne connaissez pas le code, vous pouvez simplement accéder
au jeu de données d'importation de fichiers
et depuis Excel. Et ici, vous pouvez
voir le code ici. Copiez simplement ceci et nous n'
avons qu'à le coller ici. Et pourtant, vous devez
mettre le Read Excel, et pourtant nous devons
mettre le nom du bot. D'accord, quelle sera la partie que nous allons mettre
ici ? Je peux juste mettre ça. Nous réorganisons donc la
bibliothèque Read Excel, puis nous utilisons le
nom de l'objet plutôt que d'utiliser la fonction Excel et de
fournir la partie incorrecte du fichier XL. Ensuite, nous pouvons utiliser le cours réel de l'action Morgan et cela nous donnera
le même résultat. Ça et tu vois, oui, on
a la même chose. D'accord ? Donc, de cette façon, nous
avons lu et visualisé
les données. Ensuite, nous devons comprendre la
structure des données. Donc, si vous souhaitez comprendre
la structure des données, vous pouvez utiliser la fonction de
résumé, résumé de ce cours de l'action
Google. Et vous obtiendrez le résumé des données comme nous
l'
avons déjà vu. Par ici. La prochaine chose
est ce que nous devons faire. Nous devons visualiser les données. La prochaine étape est donc de
savoir ce que nous devons faire. Nous devons visualiser les
données, visualiser les données. Donc, pour cela, ce que
je vais utiliser, je vais beaucoup les utiliser. Donc, ce que je vais faire, je ne sais pas pourquoi c'
est un énorme complot. Et je vais utiliser cette
colonne ouverte et utiliser d, puis
les données seront correctes. Et puis lancez ceci. Le four, on le fait fonctionner, on va voir les données. Dans ta leçon. Nous allons voir l'intrigue ici. Voici donc le prix
d'ouverture et c' est les jours 1 et 2, violet. Nous pouvons ainsi voir les données, la façon dont leurs cours boursiers
évoluent le week-end. Vous visualisez ici. Ainsi, nous pourrons y accéder plus tard, plus tard. La prochaine chose est ce que
nous devons faire. Nous devons utiliser la
régression linéaire pour prédire la fonction. Alors, qu'est-ce que je vais utiliser ? Je vais utiliser le prix prévu. Et pour le prix prévu, ce que j'utiliserai une cellule hilum Fung et cette fonction lm, je l'utiliserai sur la même
entrée que celle que je donnerai lors d'une journée portes ouvertes. Et cela a été fait dans cet ensemble de données, d'accord, fichier Excel, données
ALU, ensemble de données. Ensuite, je vais juste m'en
tenir au prix prévu. Je vais donc simplement parler
du prix plus élevé. Alors laisse-moi exécuter ça. Vous voyez, ici, c'est dire le cœur du
présent et cela. Bon, maintenant, ce que je vais faire, utiliser la fonction de résumé pour voir ce que nous obtenons
pour ce prix prévu. Jusqu'à présent, ce
prix prédictif, ce prix minimum, premier quartile, la médiane, le
troisième quartile, toutes ces choses que nous avons obtenues. Maintenant, ce que je vais faire, prédire la porte. Valeur prévisionnelle de l'action à un jour donné. D'accord ? Nous pouvons donc le faire. Je peux utiliser la fonction de prédiction. Et je peux utiliser le prix. Oui. Et puis ce que je peux utiliser, je peux utiliser un cadre de données à points. Ici. Je peux fournir que d
est égal à 350, d'accord ? Et cela nous donnera,
cela nous donnera le cours de l'
action prévu pour le troisième jour. Alors laissez-moi exécuter ceci, voyez ici. En ce qui concerne le taux de mortalité par
période, ce sera
le cas, le cours de l'action
sera de 1 620 points. Si je peux, ça pour 50. Ainsi, le cours de l'action se séparera. Le cours de l'action sera de 1 700. Bénéficiaire, si je mets 150, ce sera 1 400. Si j'en mets un, cela indiquera 12, 30 000. Vous voyez, le cours de l'action Google
sera presque doublé
dès le premier jour. Ainsi, nous pouvons placer la valeur
d ici et prédire quel sera le cours de l'action
ce jour-là. C'est donc un projet assez simple
que vous pouvez également essayer. Vous pouvez prévoir le soutien. Je voudrais prédire la valeur
de l'un d'entre eux, s'il vous plaît. Deuxième jour. Un objectif, deuxièmement, de
cette façon, d'accord.
Ainsi, vous pouvez également
essayer votre propre ensemble de données ou utiliser le même
ensemble de données que je peux fournir. Vous pouvez télécharger l'
ensemble de données
et essayer de prédire
le cours de l'action. Vous pouvez également
créer
votre propre feuille Excel et y mettre
des valeurs aléatoires. Et vous pouvez saisir vos propres valeurs
ici et vous pouvez les prédire, vous pouvez prendre n'importe quel autre
ensemble de données valeurs ou d'autres valeurs
que
vous pouvez également essayer et saisir dans le
même code et essayer de prédire la valeur. D'accord ? Il s'agit donc
d'un projet simple utilisant la fonction lm pour prédire
le cours de l'action Google. J'espère que vous avez compris comment nous
utilisons l'apprentissage automatique et toutes ces fonctions simples de R pour prédire les
cours des actions. Merci.
81. Analyse de données Uber du projet 2 en utilisant R: Bonjour et bienvenue. Dans cette conférence,
nous allons donc en apprendre davantage
sur l'analyse des données biais de visualisations
dans R. Et pour cela, nous allons réaliser
un projet dans lequel nous allons utiliser les données, ce qu'est l'agrégateur d'écarts, le fournisseur de
services pour obtenir
les bonnes informations sur une application Cab
X Evoking. Tu peux le voir. Vous êtes
donc le numéro un des fournisseurs de
services de taxi. Nous allons donc
utiliser les données UPA
pour analyser les données de ce produit. La motivation
de ce projet est donc procéder
à la visualisation des
données, à la narration et à la manière dont nous pouvons utiliser les données pour les analyser et en tirer des informations
utiles. Il s'agit d'un élément important de
l'apprentissage automatique grâce auquel les entreprises sont en mesure comprendre le contexte
de diverses opérations. Qu'est-ce que cela signifie ? Cela signifie
que supposons que ce qui se fait dans le service d'agrégation Gap
et que les conducteurs de mini-taxi associent à leur application Gap
deux applications Over distinctes. Ensuite, je diffuse et je participe à la fourniture du droit
au client. C'est tellement énorme qu'il
s'inscrit à l'application et qu'
il essaie de combler un écart important
en fonction de leur localisation. Alors, que faites-vous dès
que vous vous connectez et que vous sélectionnez votre position et votre destination
où vous souhaitez vous rendre En fonction de votre localité. Il listera toutes les casquettes
à proximité qui vous permettront de
les atteindre le plus rapidement possible. Ce sera le cas. Ce sera le cas. Ce sera le cas. Il enregistrera toutes
les lacunes à proximité de vous puis indiquera la localisation par sexe
et vos besoins, il vous conviendra le mieux, ce qui peut vous amener
à destination le plus rapidement possible. Alors, comment s'y prend-il ? Vous avez juste besoin de nombreux concepts d'IA, d'apprentissage
automatique et
de science des données
pour analyser les données et
provoquer une récession. Dans ce projet, nous
allons donc utiliser les données. Et nous allons
analyser par exemple combien de se produisent en une journée ou combien de taux mensuels
se produisent en une journée. Combien de vos LEA
que je commence à avoir une vie
mensuelle et un jour, c'est à quelle
heure de la journée, le VGS, ce type d'analyse
que nous
allons faire dans le cadre de ce projet. Nous
pouvons donc effectuer tous ces types
d'opérations avec ce foutu papa à l'aide de l'apprentissage
automatique. À l'aide de la visualisation, les entreprises peuvent tirer parti de la
compréhension des données
complexes et obtenir des informations qui
les aideront à les recadrer. La partie visualisation est donc très importante, car avec de
la vigilance, nous pouvons analyser
rapidement les données et obtenir informations
vraiment utiles, comme quelle heure de la journée se situe le BGN ? Quelles sont les localités les
moins exigeantes en matière de cabine où les utilisateurs ne passent pas temps en
cabine en cas de retard. Toutes ces analyses peuvent être
effectuées avec la visualisation. Il s'agit plutôt de données visualisées dans le cadre d'un projet
qui vous guideront vers l'utilisation de la bibliothèque
ggplot2 pour comprendre les données et développer
une intuition permettant de comprendre quels
clients figurent dans les clips sur quelle application. OK, donc c'est, c'est
ce que
nous allons faire. L'objectif de ce
projet est d'apprendre les visualisations dans R
et d'analyser les données. Alors allons-y. Donc, avant de poursuivre, nous avons les données
ou les fichiers UVA avec nous. Et
voici les données
d' un mois fébrile. Et cela comporte quatre colonnes :
date, heure, latitude,
longitude et base. Ce sont donc les informations
que vos amis capturent. OK, donc date et heure, longitude, latitude
et longitude. Et la latitude
indiquera l'emplacement de l'écart et l'heure ou l' heure de la
réservation, ainsi
que la base à partir de laquelle le meilleur
endroit pour cela. D'accord ? Voici donc les données dont nous disposons. Et c'est pareil. Nous avons les données mensuelles dont nous disposons pour mai, juin ,
juillet, août et septembre . Et nous allons analyser
cela sur la base de ces données. Ces données sont assez simples. Date et heure,
latitude, longitude Et passons au fichier. Pourtant, j'utilise R pour
analyser cela. Donc, avant de continuer, nous allons
importer une bibliothèque de fruits, c'
est-à-dire GG Plot Two. OK, alors lubrifiez
et mettez de l'ordre dans les compétences DT. Alors, qu'est-ce que GG plot
to GG Plot Twist. La bibliothèque de
visualisation de données la plus populaire la plus utilisée pour créer des
diagrammes de régulation esthétique. GG Plot est donc très populaire dans notre programmation
pour créer des gants et des tracés très
esthétiques visualisations,
des gants et des tracés très
esthétiques, très
rebutants et très
attrayants . Nous allons donc
utiliser le diagramme 2 de GG. Ensuite, nous utiliserons Lubridate. C'est cet effet
de levier sur le calendrier. En utilisant les délais de
l'ensemble de données. Ensuite, nous avons la couche profonde qui est la bibliothèque de manipulation de données
que nous allons utiliser. Bibliothèque élégante et importante, elle rendra vos
données très bien rangées. Nos données ordonnées signifient-elles minuscules, déterminent-elles les données avec lesquelles il est
facile de travailler ? Les données. Si c'est facile à utiliser, nous pouvons l'utiliser aussi facilement dans l'autre
bibliothèque. Nous allons donc utiliser la
bibliothèque R Tidy pour organiser nos données. Ensuite, nous utiliserons le nitty, les tables de données de la
bibliothèque JavaScript que nous utiliserons. Ensuite, atteindre réellement
des compétences, des compétences. Ces bibliothèques
nous permettaient, à l'
aide du graphique, à l'
aide de l'échelle
graphique, l'
aide du graphique, à l'
aide de l'échelle
graphique, de
mapper automatiquement les données aux bonnes compétences
à l'aide du ****, avec un x bien placé lui-même. Cela nous aidera donc à cartographier
automatiquement les données
à la bonne échelle. Pour cela, nous devons
utiliser cette bibliothèque. Avant cela, si vous
n'avez pas installé ces bibliothèques, vous pouvez accéder aux Outils ici, puis cliquer sur
les packages d'installation. Et ici, vous pouvez simplement
utiliser des packages populaires nommés yuk, comme vous pouvez mettre GG plot two. Et puis, si vous le
souhaitez,
vous pouvez mettre des thèmes GG
et vous pouvez mettre une
virgule et écrire tous les
noms, les dates principales. D'accord ? Donc, comme ça, vous pouvez le faire, et vous pouvez cliquer sur Installer cette bibliothèque, ceci pour vous. Ainsi, vous pouvez
installer les packages. Je vais donc le répéter encore une fois. Vous devez vous rendre dans RStudio
pour accéder au menu supérieur. Vous trouverez ici les outils. Cliquez sur les outils et vous verrez
les différentes options. Dans Rhodopsine. Vous devez sélectionner
le premier, installer les packages,
puis donner le nom du package GG plot two. Et si nous voulons installer
plusieurs packages à la fois, vous pouvez
mettre une virgule et donner le nom des packages
en mettant une virgule entre eux,
puis en cliquant sur le stock. J'ai déjà
installé ce package , je vais donc le laisser s'agiter. Et si vous ne l'avez pas installé, vous suffit de cliquer sur Installer et il sera installé
dans les zones rurales de l'Australie. Allons donc plus loin. Donc, une fois notre laboratoire à
les utiliser et à les utiliser, il ne
nous reste plus qu'à dire
aux plus difficiles de le faire. Nous allons utiliser
ces bibliothèques GG Plot Rho, G Times Lubridate, Tidy, Tidy Verse, DT et balances. Pour cela, nous devons
importer la bibliothèque. Et puis entre crochets, nous devons mettre le nom de la
bibliothèque GG plot two. Et toutes les bibliothèques
que nous sommes immenses ont besoin d'écrire de cette manière. OK, donc une fois que vous
avez écrit ceci, sélectionnez toutes ces bibliothèques
et cliquez sur Exécuter. Et il sera prêt à accueillir
les Juifs sur les terrains d'Europe. Maintenant,
ce que nous allons faire,
c'est créer les vecteurs de couleurs, des vecteurs de couleurs pour les tracés. Dans nos tracés, nous utiliserons les couleurs multiples
pour les tracés. Dans nos parcelles, nous utiliserons les
multiples couleurs pour les rendre plus attrayantes et plus
esthétiques. Et pour cela, nous allons créer
le vecteur de couleurs. Donc, ici, je crée une
couleur vectorielle et je donne C, puis je donne
le nom de la couleur, le type égal ACCC 10166. Donc, tous ces gris , ces
verts, ces jaunes, ces bleus, ces roses, tous les savants que nous
allons utiliser. Ces vecteurs vont donc
créer et exécuter ceci. D'accord ? Ensuite, ce que nous allons faire, c'est
lire les données de chaque période et
manger. Ce que nous allons faire. Nous avons le fichier de données pour chaque
mois, comme les estimations de mai, juin, juillet et août. Nous allons donc le faire
en utilisant un fichier csv à points de lecture. Vous savez que pour
lire un fichier CSV en R, nous lisons la fonction de méthode point csv, donc le point CSV. Ensuite, nous allons donner
le chemin de notre fichier de données. Nous avons donc stocké
le fichier de données dans cette partie, nous allons
donc le donner et le nom du
fichier sera à la fin. Bien, nous allons maintenant traiter toutes
ces données mensuelles. OK. Il suffit de cliquer dessus et de voir. Il est en train d'être
lu avec succès pour les mois d'août et de
septembre, et nous vous attendons à courir. C'est donc chose faite. Et la prochaine chose est ce que nous allons faire. Nous allons combiner les données. Nous avons maintenant lu les données et les avons stockées
dans ces variables. Moyens : juin, juillet,
août, septembre. Maintenant, nous allons utiliser la méthode OnBind pour
lier les données entre elles. Alors maintenant, tous ces six
mois à sortir ensemble. OK, nous allons donc utiliser
les données ici. Méthode Odd Bind, et nous
transmettrons simplement ces objets en mai, juin ,
juillet, et ils seront
concaténés ensemble. OK, alors allons-y. Nous avons donc maintenant le sens
diamanté
du lac de données en ce qui concerne les colonnes
et les nombreux rôles. Bien, nous voulons maintenant
voir à quoi ressemblent les
données combinées. Nous allons donc utiliser la tête et fournir les données de l'
objet ici. Il imprimera donc les
cinq premières colonnes des données. OK, mon aîné, maintenant, nous avons ces données pour l'
heure, la latitude, la longitude. Ensuite,
nous utiliserons ces données qui
contiennent des colonnes (
date et nous utiliserons ces données qui
contiennent des colonnes heure). Ces
données contiennent des colonnes, date et l'heure, qui est un facteur, et la longitude, la
latitude, qui sont doubles, et essentiellement des facteurs. Nous allons donc formater la
date et l'heure dans un format
lisible en utilisant la date, la
convergence et les fonctions. Nous voici donc dans la fonction
de fixation convergente
datetime pour convertir cette date/heure
en une fonction plus lisible. Pour cela, nous utiliserons les
données et la date, la date, l'heure, puis les rechargerons sous forme de CD noir, format de l'
heure, l'année, la date du mois, l'année et les heures, les
minutes et les secondes. OK. Et puis, quand
vous lisez ce format trouvez celui-ci et Reform
Act in the Hospitalist. Excellent. D'accord, et ensuite
nous combinerons cela. OK, allons-y. Ceci. Le script est toujours en cours d'exécution. Lorsque cela disparaît, vous
pouvez passer au suivant. Il suffit de lancer ceci. Il fonctionne donc. Ensuite,
nous allons créer des colonnes individuelles
par mois, par jour et par année. Et pour cela, nous obtiendrons des données par jour, mois, année et demie. Et nous allons utiliser le
facteur ici de manière vectorielle. Et pourtant, prenez vraiment le temps. En fait, notre
délai mensuel s'échelonne
et tient compte du
temps de la semaine dans les données. OK. OK. Et nous allons également l'
exécuter. Alors maintenant, il fonctionne. Oui. Donc, ce que nous allons faire, créer les
colonnes neutres dans un mois. La prochaine chose, ce que nous allons faire, aussi ajouter des variables temporelles. Ainsi, à temps partiel,
vous pouvez faire l'INR à la deuxième minute. Et ici, le facteur est
supérieur à Aspen une seconde et demandez-leur
le deuxième vecteur de bruit. Le second vecteur mina peut
prendre la fenêtre RN. Cela l'exécutera également. Il fonctionne donc. La prochaine fois que ce sera fait, nous examinerons les données. Données. Nous utiliserons cette méthode pour examiner les données telles
qu'elles se présentent. Laissons donc cela et voyons maintenant que nous avons la terre, la
latitude et la longitude diurnes. Voici les quatre colonnes qui s'y trouvent
déjà. Est-ce que c'est le cas. Nous avons maintenant créé de
nouvelles colonnes telles que l'heure, jour, le mois, l'année, le jour de
la semaine, la deuxième minute. Voici donc les
colonnes 123-45-6788, nouvelles colonnes que nous avons créées. Et ces colonnes donneront
plus d'informations à l'auditeur. Je pense que ce sera le cas, cela
dira comme Dieu, seulement, que maintenant nous savons quel jour
du mois, quel mois, et quel
jour de la semaine il avait
un Richie Rich de, nous
connaîtrons également. Et puis créé en second lieu. Maintenant. Nous en avons maintenant terminé avec Nita parcourir les données
et de créer des fonctionnalités, nouvelles fonctionnalités, de nouvelles colonnes. Ensuite,
nous allons passer visualiseur de données
et
créer en partie de manière aléatoire les tracés et les graphiques, et nous essaierons d'
en utiliser davantage. Ici. Ce que nous allons faire, la
première chose à faire, c'est de tracer
les gouttes par RT et RD. Pour cela,
nous allons utiliser des traits de soulignement, les
données sont précieuses et ce que nous allons faire, les
données regroupées par R et utiliser la
couche profonde pour les résumer. Et quand nous exécuterons ceci, maintenant, regardez-le. Maintenant regarde ça. Maintenant, nous obtenons ces données :
zéro, une, deux ou trois heures. Nous avons un tableau de données que nous
avons mangé. Pouvez-vous sélectionner nombre d'arbres
que vous souhaitez voir à la fois. OK. Ensuite, les données sources figurant dans
le tableau d'hier. Mais maintenant, ce que nous allons faire, tracer les données à l'aide de notre diagramme
GG et de notre diagramme GD ici. Les seules données que nous
avons créées ici. Et comme ton mensonge. Ensuite, nous utiliserons des identités à barres
géométriques. Quand même, avec ce bleu sarcelle, la
couleur se répandra. Ensuite, les avis sont titrés par
r et les sous-titres sont agrégés. Et la légende ne positionne aucun tracé, titre du texte et comment 4,5 et 0,5 et une
compétence comme la continuité. Bon, maintenant, nous allons tracer les
données en fonction de notre soleil, ce C, et maintenant nous allons obtenir
le graphique en fonction de nos voyages. Tous les sous-titres de RM here sont aujourd'hui des produits
agrégés. Vous pouvez donc voir les trois ou 24 heures
que nous recevons à chaque audit,
ce jouet que j'ai commencé, c'était ces nombreuses cassettes. Le deuxième tiers, sombre
ou sombre comme celui-ci. Ils font du club de natation pendant 24 h
et pour en avoir fini avec ça, on peut voir que les 17 sont on peut voir que les 17 sont
dedans ou qu'ils ont
plus de voyages. Donc, le bec est chargé s'
ils veulent appliquer le milieu applications provenant
des Philippines forment notre produit. Minuit la seconde
ou par litre. Donc, ces choses,
ces choses, ces heures, ce
sont des magnétoscopes et ici, quand vous verrez
The Office et se termine
le soir, ils demanderont
qu'ils s'
appliqueront, ils factureront frais
les plus élevés et ils
agrandiront la cabine. C'est ainsi qu'ils procèdent. Ainsi, nous trouverons,
contacterons les R sont prêts,
VD et sur cette base, nous passerons au riz. C'est ainsi qu'Uber procède. Maintenant, suivez les
conseils de traçage par r et par mois agrégez nos données et utilisez vraiment le
groupe par fonction. Ici, les
mois sont déclarés
pour les résumer. Alors essayez ceci Ensuite, nous ferons le graphique
GG pour le tracer. Donc C et maintenant, nous
avons l'intrigue, qui est déprimée de n mois. Alors regardez ici,
celle-ci, cette couleur, c'est vrai, c'est pour moi. Il s'agit du module en juillet,
août et septembre. Mais
ils ont détruit tous les mois. Ainsi, quel mois
a plus ou moins de pKa
est similaire pour tous les mois. Plus ou moins, pas exactement, mais
vous pouvez plus ou moins analyser. Apparemment, septembre aussi, un
musulman est là, du savon de
Castille et de
l'eau chaque mois. Le bécher est en
cours de synthèse. choses se passent plus ou moins
de la même manière chaque mois. Donc, en résumant certains gars
en groupe par mois, vous pouvez
annuler cette faillite. Maintenant, pour ce qui est du traçage,
je vais tracer les données par
voyages, chaque jour du mois. Ainsi, pour le régime alimentaire,
les données seront utilisées de manière précieuse
et groupées par jour. Et nous utilisons le Deepak
pour résumer les startups. Exécutez ceci, puis ce diagramme
facile pour le tracer. Ce sera donc le meilleur pour les sodas et les
chips. Alors maintenant, quand vous regardez cela, cela vous donnera un
nombre suffisant de voyages par jour. Il existe de nombreux types de
deuxième jour comme celui-ci, donc les décès par jour du mois. On peut faire comme ça. Ensuite,
nous allons collecter des données par jour de la
semaine et par mois. Nous allons donc utiliser le groupe
par jour de la semaine et par mois. Et vraiment la couche profonde pour les
résumer, le sujet du sang. Exécutez donc souvent ça. Et après ça. Le graphique DD a pris beaucoup de
profondeur par jour et par mois. Ainsi, lorsque nous ferons cela, nous recevrons des cadeaux
par jour et par mois. Et il devait se contenter palette
de couleurs que nous
avons dedans et, au
début, d'accord. Maintenant, avec cela, ce que nous pouvons obtenir, nous pouvons l'obtenir pendant des jours de la semaine comme ça.
Pendant les jours de la semaine. Dimanche, lundi. Pour chaque mois. Combien de vies
y a-t-il dimanche ? Combien de jours
y a-t-il ? Lundi ? Combien de jours reste-t-il avant la fin de
la journée ? Combien de jours ? mercredi, le jeudi, le
vendredi et chaque jour de la semaine vous indiqueront le nombre de droits,
mais tous les mois. Ainsi, nous pouvons rapidement l'
analyser pour dimanche. Apple a enregistré le plus faible
nombre de combats et ce mois-ci, quel
est le plus grand nombre
de courses le dimanche ? Mardi, septembre,
plus de plaisir, plus de droites. Ainsi, nous pouvons trouver rapidement
le jour le plus populaire
du mois. Nous allons maintenant faire un certain nombre de
voyages par mois, par mois, oreille interne. Pour cela, nous
utiliserons le groupe par mois. Nous n'avons pas passé un
mois en un an. Pour cela, nous
utiliserons le groupe par mois. Ensuite, nous allons tracer
en utilisant le diagramme GG. Exécutez ceci et voyez que vous êtes maintenant mesure de faire ces
voyages dans un mois. Il en a été de même pour de nombreux voyages, mais
qu'ils puissent se produire en juin, juillet, août. C'est donc un tube ET. En regardant le graphique, vous pouvez dire qu'en septembre, le nombre de
voyages
augmente , expurgé en août
et juillet, et qu'en mai
et juin, les types de voyages ne sont pas presque similaires, presque. Même si Joni est
légèrement meilleure que moi, et apparemment elle
joue des mois par an. Par ici. Maintenant, ce que nous allons faire, créer une
carte thermique, un DR et un mois. Il existe donc de nombreuses excursions pour le pont et les groupes
par jour. Excellent comme celui-ci. Nous allons maintenant tracer la carte thermique à l'aide
de la R&D et du dessin GG renouvelé. Je vais utiliser cette
batterie mais tu peux en prendre une bouchée ? Et pourtant, lorsqu'ils sont remplis de protons un
jour donné, classe
donnée, combien
au total, cumulés restent blancs. Laissons ça ici. Maintenant, nous recevons cette carte thermique Notre carte par jour et donc notre journée. Et pour cet art
du huitième jour, cela fait 11 fois 11 aujourd'hui. Et pour cela, nous
pouvons analyser davantage. Maintenant, lorsque la carte thermique
trace D et le mois. Et puis ça, et puis
nous allons le lot de GG Plot. Maintenant, nous allons en quelque sorte
garder mon mois de divertissement. Ensuite nous allons tracer la carte thermique
T de la semaine et du mois. Voici donc la carte thermique
pour le mois et le jour
et le mois, le mois. Et j'aurai accès à
du citron plus tard dans la journée. Cela nous
permet également de
créer une relation de mutilation
pour les prix en Europe. Donc, une probabilité minimale,
maximale et maximale atteindra New York. Et voici ce que nous allons faire, nous allons essayer de tracer
ces deux objectifs. Gg, complot GG. Voici donc le diagramme GG, notre connaissance de l'éclairage
spectaculaire, la valeur
totale entre une
couleur et la peau, longueur minimale maximale et de la
probabilité minimale maximale que nous fournissons. Et puis nous sommes de retour et
nous utilisons le diagramme GG pour tracer cette
carte des valeurs propres et de la lysine en fonction des dimanches. Cela prend du temps. Il fonctionne toujours.
Attendons qu'il sorte ici. Cela prend juste beaucoup de temps. Permettez-moi donc de vous montrer la carte, cette carte père NYC à taper, mais en septembre pratique. Cela prend donc
un certain temps Nous
avons utilisé toutes mes données antérieures à
septembre 2014 pour les analyser
et déterminer celles qu'Uber utilisera ultérieurement
en fonction du temps. Sur cette base, nous
déterminerons quel mois est le meilleur. Nous pouvons donc utiliser toutes ces visualisations en utilisant les données. J'espère donc que ce
projet vous aidera
à comprendre la visualisation
et l'analyse des données
82. Segmentation client du projet 3 en utilisant R: Bonjour et bon retour. Dans cette conférence, nous
allons parler d' un autre projet qui est projet numéro trois
de cette classe. Et c'est un projet de segmentation de la
clientèle
utilisant notre programmation. Dans ce projet,
nous allons donc apprendre comment segmenter les
clients à
l'aide de notre programmation réalisée sur un ensemble de données. Ainsi, quelles que soient les données dont nous disposons, l'ensemble de données clients, il s'agit d'une énorme segmentation des produits et des
clients. Nous allons donc essayer de
trouver le segment de clients qui
sera utile pour le moment. Les entreprises qui trouveront
leurs meilleurs clients et les plus performants nos meilleurs clients
pour leur activité. Qu'est-ce donc que la
segmentation de la clientèle ? La segmentation de la clientèle est
l'une des applications les plus importantes
de l'apprentissage non supervisé. Donc, comme vous le savez, il y a deux, vous savez, deux types d'apprentissage. L'un est l'apprentissage supervisé et l'
autre l'apprentissage
non supervisé. L'apprentissage supervisé est un type d'apprentissage fondé sur le libre arbitre Je suppose que c'est un enfant
et que nous voulons qu'il apprenne. Il existe deux manières de lui indiquer où nous superviserons
son apprentissage. Dites-lui ce qu'il doit faire, comment faire,
et il nous donnera des
instructions de configuration pour qu'il apprenne. Et il y a un
apprentissage non supervisé où nous ne superviserons pas d'équipe. Ce sera sans supervision
et il apprendra par sa propre expérience. Il existe donc deux types d'activités
supervisées et non supervisées. Et la segmentation de la clientèle est une sorte d'apprentissage non supervisé. Tu n'as pas coûté cher,
mon Dieu, le clustering. À l'aide de
techniques de clustering, les entreprises peuvent identifier les différents segments de clients ou réduire
le nombre d'utilisateurs potentiels
dans le cadre de ce projet
d'apprentissage automatique. Dans ce projet de
segmentation de la clientèle, nous utiliserons le clustering
k-means. J'apprendrai ce qu'est le clustering
k-mean. Et nous allons utiliser
cette
technologie de clustering k-mean pour ce projet, qui est essentiellement
un algorithme
permettant de regrouper des ensembles de données
non étiquetés. Nous allons donc utiliser ici
l'ensemble de données non étiqueté
chaque fois que vous aurez besoin de
trouver vos
meilleurs clients clients ,
quelle que soit la méthodologie
idéale. Parce qu'avec cela, vous trouverez facilement ce
segment de clients. Et tout en examinant le
segment de clientèle, vous pouvez trouver votre
meilleure clientèle. Et vous pouvez avoir Ladder Target, qui vendra vos
produits ou services. Nous réaliserons l'une des applications les
plus essentielles de l'apprentissage automatique, à savoir la segmentation de la
clientèle. Dans ce projet,
nous allons implémenter segmentation de la
clientèle
dans notre programmation. Nous avons donc maintenant la technologie de segmentation des
clients
et de clustering des remboursements que
nous allons utiliser. Voyons donc
en détail ce qu' est la segmentation de la clientèle de manière
un peu plus différente, peu plus détaillée. La segmentation de
la clientèle est donc le processus ou la
région qui divise la clientèle en plusieurs groupes de en plusieurs groupes de
personnes présentant
des similitudes différentes manières
pertinentes pour le marketing, exemple le sexe, l'intérêt et diverses habitudes de
dépenses. Les entreprises qui déploient des segmentations de
clientèle se situent dans le nord du pays chaque client a des exigences
différentes et a besoin d'un marketing
spécifique, se permet d'
y répondre de manière appropriée. Les entreprises souhaitent acquérir une approche plus approfondie
des clients qu'elles ciblent. Par conséquent, elles doivent être spécifiques et adaptées pour répondre aux exigences de chaque individu
et aux exigences de chaque client à leur égard. Grâce aux données collectées, les entreprises peuvent mieux
comprendre les préférences des
clients, ainsi que la nécessité découvrir des segments à
valeur ajoutée, ce qui constituerait
un profit maximal. De cette façon, ils peuvent élaborer des stratégies de
marketing plus efficaces et minimiser les
risques liés à leur investissement. La technique de
segmentation de la clientèle dépend plusieurs facteurs de différenciation clés
qui divisent les clients en groupes
à cibler. Les données relatives à la démographie, géographie, à la
situation économique, ainsi qu'à la
réadaptation, jouent un
rôle crucial dans
la détermination de l'orientation de l'
entreprise vers les
différents segments variables. Nous avons donc compris que la segmentation de la
clientèle augmentait en
ajoutant la clientèle plusieurs groupes de
personnes en
fonction de la similitude en
ajoutant la clientèle à
plusieurs groupes de
personnes en
fonction de la similitude de
différentes manières
pertinentes pour le marketing. Par exemple, nous pouvons diviser la clientèle en fonction
du sexe, par exemple du sexe, hommes, des femmes, etc. en fonction de groupes d'
âge tels que
les adolescents et les personnes âgées types de groupes que nous pouvons créer, en fonction de ces paramètres en
fonction de l'intérêt. Supposons que nous ayons le client, une large base de clients où nous pouvons segmenter la clientèle
en fonction de leurs intérêts. Comme si quelqu'un s'
intéressait à la musique et
à la danse, aux arts et aux titres de théâtre. Nous pouvons ainsi segmenter les clients et ensuite,
en fonction de leurs intérêts, recommander
des produits et des services. Si quelqu'un est intéressé par. Supposons que, dans le sport,
nous puissions leur montrer les
publicités, leur vendre des produits ou des services liés à ce sport
en particulier. Ce sont donc des éléments
très
importants identifier les meilleurs
clients à cibler. Grâce à cette segmentation,
les entreprises pourront mieux comprendre
leur clientèle. Et sur la base de la compréhension
et de la segmentation, ils peuvent cibler les clients de
manière plus spécifique. Et cela augmentera
leur rentabilité. Parce que si vous n'êtes qu'un expéditeur, vous
envoyez des informations au client que vous vendez
vos produits et services destinés à soutenir les personnes âgées et
que vous envoyez vos e-mails à tout le monde, alors pour les adolescents, ce n'est pas pertinent, n'est-ce pas ? Quel adulte ? Il peut être pertinent, d'une certaine manière qu'ils aient les
aînés à la maison. Mais c'est plutôt similaire, mais il est plus susceptible d'être pertinent
pour les personnes de plus de 60 ans
ou les personnes âgées. Il est donc préférable de cibler
uniquement les personnes âgées de 60 ans et cela vous
rapportera le plus de bénéfices. C'est donc ce que signifie la segmentation de la
clientèle ? Donc, avant
de passer à notre projet, comprenons ce qu'
est l'algorithme k-means. Lors de l'utilisation de l'algorithme de
clustering K-means, la première étape consiste à indiquer le nombre de clusters que nous souhaitons produire dans
la sortie finale. D'accord, donc tout d'abord, nous devons
décider du nombre de clusters que nous voulons
produire dans la sortie finale.
L' algorithme
commence par sélectionner k objets dans des
ensembles de données au hasard. Il sélectionnera donc d'abord le nombre k
d'objets de l'ensemble de données de manière aléatoire qui
serviront de
centres initiaux pour nos clusters. Les amas d'étoiles sélectionnés
signifient également de nombreux centres. Donc, comme je l'ai dit, il y a k objets
que nous avons sélectionnés. Ces objets
ou clusters sélectionnés signifient donc, et ils sont également
appelés centroïdes. Ensuite, le centroïde le
plus proche est attribué aux objets restants . Le centroïde, le centroïde est défini par la distance
euclidienne. Collez la distance euclidienne présente entre l'objet
et le cluster. Nous faisons référence à cette bande d'attribution de cluster
Azure. Lorsque l'affectation
doit être terminée l'algorithme
calcule nouvelle valeur moyenne de
chaque réactif de cluster dans données après
le
recalcul du cluster,
des observations ou vérifie
s'ils se rapprochent d'
un cluster différent à l'aide de l'attribution de cluster
mise à jour. Cela se répète à plusieurs reprises au cours plusieurs itérations jusqu'à ce que les attributions de
clusters s'arrêtent. Altérant. Les clusters présents dans les titrages actuels sont ceux de
l'hydratation précédente. Résumer le clustering
k signifie. C'est donc ce que signifie le
clustering k-means. Nous précisons le nombre de
clusters que nous devons créer. Ensuite, l'algorithme
sélectionne vos objets au hasard dans notre ensemble de données. Cet objet est un cluster
initial ou signifie les risques et essayez-le. Notre objet clé ou épingle l'attribution d'
une nouvelle observation. Cette assignation est basée sur la distance euclidienne entre l'objet et ne lit pas
les k clusters des données. Une fois que notre centre de données a
calculé les nouvelles
valeurs moyennes présentes dans le, présentes dans tous les points de données, ce point de données, ce point de données des clusters, le centroïde du kème cluster a
une longueur de P qui contient la moyenne de toutes les variables pour les observations dans
le kème cluster. Nous indiquons le nombre de
variables. J' essaie de minimiser Jason jusqu' au total dans
la
somme des carrés,
puis, grâce à l'hydrate, minimisation de la somme totale de l'affectation au carré
a cessé de vaciller. Quand et quand il a atteint
le maximum d'arbitrage. La valeur par défaut est dix, que le logiciel artistique utilise pour le maximum d'opérations,
donc pour une adresse maximale. Au lieu de cela, nous calculons
l'algorithme de clustering pour plusieurs valeurs
de k. Cela peut être fait en créant des variations
au sein de k, de 1 à 10 clusters. Nous pouvons ensuite calculer la somme des
carrés intra-cluster appelée SS. Ensuite, nous avons attendu ce
nombre, k clusters. Ce graphique indique. Ensuite, nous obtiendrions les k clusters. Et sur cette base, nous verrons, c'est
donc la
partie théorique de ce projet. Dans ce projet,
lors de la prochaine conférence, nous commencerons à travailler sur le
projet lorsque nous commencerons à discuter du code
de ce projet et nous aborderons le projet
lui-même. Segmentation de la clientèle. Rendez-vous lors de la prochaine conférence.
83. Projet 3 Partie 2 Segmentation client à l'aide de R: Commençons donc par le projet. La toute première chose à faire
est donc que nous avons besoin d'un fichier de données contenant toutes les informations sur le
client. Nous utilisons donc ici le
modèle, le soulignement du modèle. Les clients commencent par créer un fichier CSV
et ce fichier CSV se trouve ici. Et si je l'ouvre ici, vous pouvez voir le numéro de client, le
sexe, l'âge, le
revenu, le score de dépenses. Toutes ces informations
ont été données. Nous avons les cinq colonnes numérotées par
client
et chaque score annuel de recettes, de
dépenses et de dépenses. Ce sont donc les seules
informations dont nous disposons. Et sur cette base, nous allons savoir que la segmentation de la
clientèle utilise. Alors commençons. Donc, tout d'abord, nous devons lire ce fichier. J'utilise donc les données de l'application qui sont précieuses ou les
données de soulignement du client et je vais utiliser la fonction, lire le point CSV et Mazda
part, part the fight let
CSV et il lira le maintenant
à partir de ce fichier CSV Vous pouvez donc voir l'identifiant personnalisé,
le
sexe, l'âge, le revenu annuel et les dépenses de ce cours. Vous pouvez donc voir ici leur propre type de données,
char, colonnes D'accord ? La prochaine étape est ce que nous faisons. Nous avons nommé
les données clients, puis nous
avons vraiment essayé d'imprimer les cinq
premières colonnes. Vous avez écrasé votre favori ou
étudiez l'identifiant du client, sexe, son âge et les informations volontaires de
Commodus. OK, vous pouvez voir. La
prochaine étape est de vraiment résumer cela avec
le client, alors allons-y et voyons. Pourtant, lorsque nous utilisons le résumé
Wong Sun Belt on the edge, cela nous indiquera l'âge minimum Premier trimestre moi,
premier quartile,
médiane, troisième
quartile moyen Donc c'est pour les données d'âge ce
sujet et pour faire des
statistiques, d'accord ? Ensuite, l'âge du client, le revenu
annuel et le score de dépenses pour tous ces éléments
fonctionneront de la même manière. Nous obtenons donc ces informations, écart type, l'estimation, la visualisation par
sexe. Ici,
nous allons créer
une
base de données clients sous forme de tableau à l'ordre du jour. Ensuite, nous essaierons
de tracer un diagramme à barres. Et cela aura l'
axe X et le sexe et l'axe Y comme capacité de comptage et de
couleurs Et allons-y. Et vous verrez un graphique à barres, où nous avons vu le sexe
féminin et masculin ici. Si nous en faisons plus. Donc, utilisez un diagramme à barres pour afficher
la comparaison entre les sexes. D'accord ? Ensuite, cette formule est divisée
par la somme de a sur 200 livres, homme, femme et homme, femme. Et cela vous donnera la description que vous
avez de l'homme et de la femme Donc C et maintenant l'objectif X
pour cent et pour les hommes est de 44 %. Alors maintenant, nous ne voulons pas
que cela figure dans notre ensemble de données. 56 % chez les femmes, 44 % chez les hommes. Maintenant que nous voulons le faire, nous allons essayer de visualiser la distribution par
âge. Essayez donc de dessiner un histogramme sur le
verre et la fréquence Alors voyez ici, maintenant, cet histogramme
vous montrera le contact de chaque classe Vous pouvez donc voir ici fréquence de
zéro à 20
commençant par 20 à 30. Toutes ces choses que tu peux voir, c'est l'histogramme Il s'agit de la classe d'âge 2030, 30 à 40 ans, 40 à 70 ans. Toutes ces choses, nous
pouvons les visualiser et les voir sous forme de graphique à barres en fonction de l'âge. Et cela nous donnera analyse descriptive sous
la forme d'un diagramme Vous pouvez donc voir ici que
cela se situe principalement entre l'objectif et ensuite
un revenu C inférieur à N1. Donc, ici, pour l'entreprise qui inscrit, essayez de tracer un histogramme
ou le revenu annuel et la fréquence que nous allons
placer sur l' Alors à bientôt pour le
revenu annuel et la fréquence, vous pourrez regarder votre hockey. Ensuite, nous mettrons le
graphique de nos clients , un autre graphique ici, graphique de
densité pour le revenu annuel. Vous pouvez donc analyser toutes ces choses, puis nous allons dessiner un diagramme à cases
pour le score des dépenses. Voyez ici, c'est la fin, voici le diagramme à cases pour
ce score de dépenses. Encore une fois, notre histogramme
pour le score des dépenses. Ensuite, nous allons démarrer notre barre de bibliothèque d'algorithmes
K-mean, et nous allons commencer à démarrer. Ensuite, nous utiliserons une fonction pour calculer la somme totale
intracluster du carré ISS et la mettrons de un
à dix D'accord ? La prochaine étape est d'évaluer la valeur, de
rapporter, de cartographier l'AV souligné Ensuite, nous allons
tracer le nombre de clusters sur l'axe X et l'axe Y, somme
totale des
carrés au sein du cluster plus le
nombre de carrés au sein du cluster plus le Vous en verrez un à dix. Et ici, vous pouvez voir
l'axe Y total. Clusters, somme
du cluster total, somme des carrés, d'accord ? Numéro de cluster
pour ceux-ci, 4464814. D'accord ? Preuve, sélectionnez
ma troisième bibliothèque. Vous allez utiliser Cluster Extra. Vous
utiliserez ces trois bibliothèques. Donc, s'il n'est pas installé, vous pouvez aller ici, outils, packages
installés, et donner le nom du package,
mais ce n'est pas possible. Commençons. Maintenant. Ce que je vais faire, nous allons le faire, nous allons créer les clusters k2. Et k2 utilisera les clusters
K-means. Et puis nous allons donner que je m'
habille et que l'actrice maximale est 100
et que nous allons commencer et repartir
à partir d'un algorithme D comme. Ensuite, nous traiterons les valeurs de
ce cluster et des données
clients. Et l'Euclidien voulait dire que, d'accord, comme ça,
nous allons mettre le k3 C'est encore plus loin,
c'est pour l'A2. Maintenant, nous allons le faire
pour k3, k4, k5 Et on se voit dans
l'intrigue en train de tricoter. Nous allons maintenant utiliser le
cluster Envy et rien de plus. Et nous ferons de la célébrité et vous le verrez de un à cinq
et des données clients, vous le verrez de un à cinq
et des données clients,
k-means. Et puis K6. Sachez que nous avons ce nombre optimal de clusters et ce
nombre de clusters. Cluster One a déjà lutté
avec ça pour 3,4 647. Ensuite, nous avons le nombre
optimal de clusters. Ensuite, ce que nous allons faire, essayer de visualiser les
principaux composants. Le PCC s'est doté d'une fonction
PR pour cela. Et allons-y. Ici. Vous pouvez voir le score annuel
des recettes et des dépenses. Ensuite, nous utilisons le diagramme
GG pour tracer cela. Vous pouvez maintenant voir les clients du
modèle segmenter à l'aide des données de clustering
k-mean, les clients du C'est un cluster, c'est un autre cluster. C'est un avantage,
c'est un cluster. Donc, les clusters doux que le client se base
sur son comportement. Maintenant. Maintenant, essayez de placer le cluster 1, le
cluster 2, le cluster
3, que l'hydrogène m'a donné. Vous pouvez donc maintenant voir six clusters. Cluster 1, cluster 2, cluster 3
pour le cluster 5. Voici donc les points, les clusters. Nous pouvons voir les données. Maintenant, nous le mettons et nous allons
essayer de l'exécuter à nouveau. Et maintenant c'est assez clair. Nous avons maintenant le
clustering k-means ici. Vous pouvez donc voir ici que le
rouge est le groupe un, jaune, un, le groupe deux, groupe trois, le vert. Ce cluster, le cluster
5, est bleu. Et c'est un cluster pour. Maintenant, ce que vous pouvez voir, ce sont les autres clusters de
clients que nous avons créés
sur la base du clustering k-mean cluster 4 et le cluster 1 à cluster regroupent les meilleurs clients, les meilleurs clients, moyens et les PC les mieux notés. Et le groupe 6. Discussion classique J'imprime
le cluster avec du PCA, PCO2
élevé et un PC faible Premièrement, groupe 5 Dans ce groupe se trouvent des
clients présentant un PCO2
moyen et faible Voici donc le lit sur les
valeurs PCA One et PC2 que nous avons Nous pouvons appliquer cette glabelle clusters et aux comportements Nous pouvons cibler les clients
à l'aide du clustering. Nous pouvons comprendre les
variables de manière beaucoup plus précise ce qui nous incite à
prendre des décisions prudentes Grâce à
l'identification des questions, les entreprises peuvent lancer des produits et services
destinés aux clients. n'est pas ce que nous disons, mais j'
aimerais simplement prendre en compte les revenus, l'âge, les habitudes de dépenses, etc. De plus,
des modèles plus complexes, tels que les lancements de produits, pris en compte
pour une meilleure segmentation Voilà donc l'explication la plus
simple. Vous pouvez aller en détail et en
apprendre davantage sur ces choses. De plus, j'espère que ce
projet
vous aidera à comprendre comment nous
procédons pour le clustering des jeux
84. Projet 4 - Introduction - Recommandation de films: Bonjour et bon retour. Nous allons donc nous occuper du projet numéro quatre, de
la recommandation de
films, de la
connexion au système et de l'apprentissage automatique. Nous avons donc maintenant les connaissances
de base de la programmation et nous
avons également réalisé quelques projets dans ce cours. Ce projet vous permettra donc
d'acquérir une très vaste expérience travail sur des algorithmes
d'apprentissage automatique en
juger par notre programmation, nous utiliserons
le très populaire système de
recommandation de films. Vous n'avez pas ajouté d'algorithme de programmation et d'apprentissage automatique. Alors, en quoi consiste ce
projet ? Ce projet s'est concentré sur le développement d'un outil de recommandation de
films. J'utilise R et des techniques
d'apprentissage automatique et des techniques d'apprentissage automatique. L'objectif de ce projet est de
mettre au point un système de recommandation. moteur de recommandation qui suggère des films aux utilisateurs en
fonction de leurs préférences. Alors, que se passe-t-il réellement sur toutes les plateformes OTP
comme Netflix,
Hot Star, T5, Amazon
Prime Chaque fois que vous regardez
des films ou
que vous mettez le vôtre, vous avez regardé
une comédie. Vous avez Mazda était un
film romantique d'actes et de films. Ainsi, en fonction de vos préférences, ce que vous avez
regardé dans le passé, toutes vos préférences
seront enregistrées. Et en fonction de votre comportement
antérieur, comme si vous regardiez
une comédie, généralement de genre ou d'
actes et de genre. Nous vous
recommanderons le prochain film. Ils fléchissent donc tous et
perdent tous la même métallurgie. Pour te suggérer
le prochain film. Soutien. Vous avez regardé
le comité et le film X-Men ces dernières semaines. Ensuite, ce qu'ils
veulent, ils peuvent le faire. Ils peuvent
vous suggérer un film à la
fois
comique et excellent. Ils peuvent donc
vous suggérer X et un film avec les éléments de bande dessinée qu'il contient. Sont-ils ? Ils suggéreront
certainement à Duck la bande dessinée et le
film en plus, ils peuvent vous suggérer les films qui
contiennent à
la fois de la comédie
et de l'exon. Nous faisons donc toutes ces choses l'aide d'algorithmes d'apprentissage automatique C'est donc très
populaire de nos jours. Ainsi, en mettant en
œuvre la collaboration basée sur pour filtrer ce que nous ferons à nouveau, nous acquerrons une expérience
pratique en appliquant nos compétences en matière de science des données, de science des données
et d'apprentissage automatique à des projets réels tels que le système de recommandation de
films Ce que nous utilisons ici, est-ce que c'est le jeu de données MovieLens, qui comprend un lakh, 5 039 évaluations dans Et il contient également 10 329 films dans le fichier CSV
movies point Donc, ces deux fichiers CSV, des fichiers de données que nous
allons utiliser, l'un d'eux contiendra le
film commandé, plus de 10 000 films. part cela,
je pense que CSP se taillera place pour
certains films publiés par les différents
critiques et audits Nous avons donc maintenant les connaissances de base sur
ce que nous allons faire. La prochaine étape est de savoir quelles
sont les bibliothèques ? De quelles bibliothèques
aurons-nous besoin pour cela ? Nous aurons donc besoin du tracé GG pour les données de laboratoire, la table et le récepteur, les autres bibliothèques de base dont
nous avons besoin pour ce projet GG les trace donc pour la partie
digestion data.table. Quelle table et vues latérales du
commandant. Recommandez une leçon. Quelles sont donc les étapes que nous
allons suivre dans le cadre de ce projet ? La première étape sera le prétraitement
des données. Ensuite, nous passerons
à l'étape suivante Élaborer le filtrage consiste à
explorer des données similaires. Ensuite, il y aura une base de données. Ensuite, nous passerons à
la préparation des données. Et la préparation des données
implique quelques étapes pour enfin appliquer
la norme une par une. Quelles sont les mesures que
nous allons
prendre en matière de prétraitement des données Le prétraitement des données
est ce qui a été pris en charge. Nous recevons un fichier CSV contenant des données
brutes dans
un film ou nous
lisons des médicaments, oui. Nous devons prétraiter ces données. Ainsi, une fois que nous avons extrait les
données du fichier CSV Movies Dot et des évaluations
ou des ensembles de données CSV. Ce que j'observe, ce que
nous allons observer,
c'est que les colonnes de l'identifiant utilisateur et de l'
identifiant du film sont des nombres entiers Ce sont donc les
choses que nous verrons également lorsque nous examinerons le code. Mais pour l'instant, je vais
juste te le faire savoir. Dans ce dossier, nous allons voir ce que
nous pouvons faire. Allons tirer la chasse d'eau. donc Voyons donc d'abord ce que nous allons perdre. Donc l'identifiant et l'identifiant utilisateur de ce film. Il était composé de nombres entiers. De plus, nous devons transformer le genre cinématographique
en données de soulignement des films et en cadres de
données plus
conviviaux**** Films ou pas, nous devons passer
à un
format plus convivial que vous. Pour y parvenir, j'ai créé une métrique d'encodage à
chaud qui représente le genre
associé à chaque champ. Donc, pour obtenir ce bloc de données
convivial, genre de
film, ce que j'ai fait, j'ai créé une matrice d'encodage instantanée
qui répertorie les genres. Chaque film, par la suite, de
tels modèles ont été générés pour faciliter chaque recherche sur la
base des journaux John. Comme les films
ont souvent plusieurs genres, nous savons tous qu'
un seul film peut en avoir, nous les avons classés en
plusieurs genres. Un film peut avoir x et il peut
aussi avoir du drame. Il peut donc aussi y avoir la comédie. Un film peut également avoir
plusieurs genres. Donc, ce que nous allons faire, c'est utiliser cette classe métrique. Et pour ce qui est de nos données, nous allons, ce que
nous allons faire, convertir la matrice, la matrice des genres, en
cette matrice éparse afin qu'elle soit suffisamment stable pour le système de recommandation de
films Et pour cela, nous impliquerons la vraie classe Mad at the Yellow
Rating Matrix. La prochaine étape sera donc le filtrage collaboratif ou l'
exploration de données similaires. Le filtrage collaboratif
implique donc de vous recommander des films uniquement en fonction des préférences des autres utilisateurs Alors, qu'est-ce que cela signifie ? Le filtrage collaboratif consiste supposer que vous
regardiez un film, qui est une comédie. Et vous n'avez pas regardé beaucoup de films sur
un support de plateforme. Vous regardez Netflix et vous venez de commencer à
utiliser votre cou. Et vous n'avez regardé
qu'un seul film, qui appartient au genre Comédie. Maintenant, comment Netflix vous
recommandera des films, étant donné que Netflix ne fournit aucune donnée, vous reconnaissez avoir
regardé une comédie. Donc, soit il peut continuer, vous recommander de nouveaux films, soit
vous recommander le tarif des comédies Et ce sera une chose très
étrange parce qu' une personne ne dépendra pas. Nous ne regarderons qu'un seul film de
genre seul il peut être
intéressé par le X et aussi par le drame. Du suspense, du thriller
aussi, non ? Pour ce faire, cette fonction
de division utilisera filtrage
collaboratif,
qui consiste à
recommander des films aux utilisateurs fonction
des préférences des autres utilisateurs Il y a donc
des millions d'utilisateurs
qui utilisent la plateforme et ils
regardent le comité
aussi x et aussi. Donc, en fonction de nos utilisateurs
qui ont regardé le même film et de ce
qu'ils ont regardé ensuite. Sur la base de leurs données. Netflix prédira que vous aimerez peut-être aussi un film
en particulier selon
l'ordre dans lequel vous venez de le
regarder. Netflix peut vous recommander le film X parce que vous l'avez
regardé. D'accord ? Donc, si vous sautez dans X
et que l'utilisateur B fait de même, alors les films sont regardés énormément
par semaine. Et nous avons
recommandé une vaste gamme. C'est la même chose que je vous ai
expliquée et vice versa. Par conséquent, la recommandation, recommandation de films repose sur l'établissement de notre
relation de similitude entre eux. Vous verrez ce que nous
faisons réellement ici, nous établissons,
nous établissons une
relation entre la similitude des rendements en fonction la similitude de leur
accent ou de leur intérêt. Utilisation de la bibliothèque de
laboratoire recommandée. Ce que j'ai fait, j'ai
calculé la similitude à l'aide divers opérateurs tels que le
cosinus, Pearson Ensuite, élaborez une leçon
de visualisation de données. Nous verrons également la
similitude des données. Voici donc ce que j'ai fait j'ai visualisé les
similitudes entre les utilisateurs et également exploré les similitudes entre les films précédents Pour obtenir. Les bases de données sont le plus grand nombre de vues que les films verront par rapport à ce que j'ai fait. J'ai étudié
davantage dans l'ensemble de données. Avant cette analyse, j'ai calculé le nombre de énormes pour chaque champ et les ai classés
par ordre décroissant Le nombre total de
visionnages des films du Golfe sera
visualisé à l'aide du barplot
et auprès des justiciers Et il a été écrit que Fixin était le film le
plus regardé Voici donc les données que vous
visualisez et tout ira bien. Et après ça. Ensuite, suivi d'un fourrage
pour chaque leçon, d'une carte thermique de la datation des films pour avoir un aperçu
des évaluations des films, j'ai créé une carte thermique qui
affiche les évaluations des 25 premières lignes et des cinq premières
colonnes de l'ensemble de données. Ensuite, sélectionnez la sélection. Donc ce que j'ai fait, je l'ai fait, j'
aime vraiment le golf. Il vous suffit d'envoyer des films
via une carte thermique d'examiner la distribution des notes
moyennes pour l'avenir. La prochaine étape est
la normalisation des données. Nous dissimulons les
biais potentiels causés par les utilisateurs qui attribuent régulièrement des notes
élevées ou faibles à tous les films qu'ils regardent. Je normalise les données. Normalement, la
procédure consiste à normaliser soudainement valeurs
numériques d'une
colonne selon une échelle commune, en
veillant à ce qu'il n'y ait pas de
distorsion de la valeur Ensuite, dans ce cas, normalisation transforme
la note moyenne, où je tape ma
voix et je la trace Nous verrons que lorsque nous ferons le binaire pratique
à la dernière étape, les données ont été bannies, n'est-ce pas ? Attribution de valeurs discrètes 1,0. Cette étape permet d'améliorer l'efficacité
des recommandations. Ce que j'ai fait, c'
est définir la matrice avec une note de trois
qui correspond à un. Et sinon, cela revient simplement dire que si le
classement du film est d'environ trois, cela correspondra à un. Sinon, s'
il est inférieur à trois, la valeur zéro lui sera attribuée
. Système de filtrage collaboratif. Dans ce cadre, j'ai
développé un système de filtrage
collaboratif basé sur les éléments qui détermine la similitude des
articles en fonction des notes élevées L'algorithme affichera notre tableau des articles
similaires achetés
par les clients et selon
une recommandation, les étapes nécessaires pour déterminer la similitude entre
les articles sont les suivantes. Pour chaque point de l'ordre du jour, point ID1 présent dans le catalogue des
produits achetés par les clients, voir pour les articles
I à j par les clients, voir coupable de ce que j'ai fait Je crée Jade par client, se sent coupable de ce que j'
ai fait. J'ai créé un enregistrement indiquant que
les clients voient les articles I,
i1 et i2 achetés , puis calculent la similitude entre
les articles I1 et I2 D'accord ? Étant donné que le client a
acheté I1 et I2, il se peut qu'il soit
répondu que les articles i1 et i2 sont similaires Nous allons donc calculer cette similitude. Ensuite, nous diviserons
l'ensemble de données en 80 % pour l'ensemble de données d'entraînement et 20 % pour les tests supplémentaires pour
un système de recommandation. La règle des 80, 20 est toujours applicable dans les algorithmes
d'apprentissage automatique. La prochaine et dernière étape
dirigera le système modèle. Pour cela, exportez les différents paramètres du filtre
collaboratif basé sur des éléments La valeur par défaut
du paramètre k, qui indique le nombre d'
éléments, est utilisée pour le calcul 30. L'algorithme identifie les k éléments
les plus similaires et mémorise leurs numéros
correspondants. modèle de recommandation du recommandateur a été extrait à l'aide de la fonction get model
et de la matrice de
sens de similitude en verre ou en diamant que nous avions analysée, ou d'une carte thermique ou générée pour visualiser
les éléments les plus croustillants d'un même éclairage La prochaine étape consiste à exploiter ce modèle de
système de distanciation humaine En additionnant les lignes et les colonnes
de similarité supérieures à zéro, j'obtiens la distribution
de certaines colonnes Cette distribution a été visualisée
pour obtenir de plus amples informations. Pour créer le système de
recommandation. Dans cette diapositive, la valeur supérieure
recommandée par la
dizaine verticale indique le nombre de films recommandés
par chaque utilisateur. Et la
fonction de prédiction a ensuite été utilisée pour identifier un
élément similaire en conséquence. Chaque note a été
traitée comme un poids, qui a été multiplié par les goûts similaires
associés. Enfin, tous les poids ajoutés pour générer
les recommandations. Voici donc ce
que nous allons
faire pour le système de
recommandation de films utilisant R et l'apprentissage automatique. Notre objectif est de
recommander des films
aux utilisateurs en fonction de
leurs goûts et aversions et
de ce qu'ils regardent Un bal de fin d'année sous-estimé
à cause de la similitude. D'accord ? Et pour la bibliothèque GG plot TO data.table reçu
par le laboratoire recommandé Nous procédons à des étapes
qui concernent vraiment le prétraitement des données
et le traitement des données suffira , puis nous procéderons au filtrage
collaboratif, en explorant les données similaires dont nous avons déjà parlé La leçon d'AWT. Nous verrons ensuite comment nous
pouvons réviser les données. Pour la préparation des données, il existe trois
étapes pour sélectionner
les données la normalisation
des données et Nous allons voir la normalisation
des données et la binarisation Et le
système de filtrage collaboratif que nous avons
déjà compris par cet exemple et dont j'ai
déjà parlé dans un premier temps. J'espère donc que
j'ai expliqué le projet. Eh bien, lors de la prochaine conférence, nous réaliserons le projet
en écrivant le script. Alors à bientôt dans le cadre du projet
85. Projet 4 - Partie 1 - Système de recommandation de film utilisant R: Bonjour et bon retour. Dans cette conférence, nous
allons réaliser le
projet de lire un moteur de recommandation selon un moteur de recommandation selon lequel les films
technologiques vous conviennent le mieux. Ils l'ont regardé plus tôt. Et aussi du poids sur les autres utilisateurs de la
plateforme ou qui regardent des films. Ou ils proposent des types
de films similaires, à vous de juger. Cette énorme dette
nous regarde de près. Si vous le faites si vous utilisez la première fois les plateformes de streaming ou le
TPU pour l'automne, ils seront toujours en mesure de vous
recommander plus de risques Parce qu'ils ont
la base de données habituelle, qui contient des millions de personnes qui regardent le
même type d'obéissance que vous, en fonction leurs intérêts et de votre
intérêt pour un film. C'est la similitude
entre vous et les autres, par
exemple, il suffit de réfléchir à
la plateforme pour que leurs préférences correspondent à
celles qu'ils y ont travaillées. Le plus lourd. Ça l'est. Je vous recommande les films. Voici donc ce que nous
allons faire, nous allons en arriver à un système de
recommandation de filtrage
collaboratif basé sur système de
recommandation de filtrage
collaboratif D'accord ? Donc, quel est l'article en gros, je peux me joindre en
fonction d'articles particuliers. Nous allons envisager Dark Collaborate pour afficher
notre similitude. Jusqu'à présent, dans cette région de réalité, nous allons utiliser la bibliothèque de laboratoire
recommandée, GG plot pour la visualisation des
données. Table, quelles tables et récepteur Donc, ces quatre bibliothèques. OK, la prochaine étape est de récupérer et
d'afficher les données. Les films et les données sur les films. Lire la suite point csv. Vendredi, nous verrons la source d'
androgènes au format CSV. Alors laissez-moi vous montrer
le cours de l'action. Il s'agit donc plutôt de Vidar CSV, qui contient
l'identifiant du film, qui est de 1 à
10 000. Plus de 10 000
risques supplémentaires ont donc été ajoutés ici
dans cet ensemble de données. Et ensuite, allez adorer le film, titre du
film,
le genre du film, quels journaux vous avez
effacés pour moi. Il y a donc plus de 10 000
films dans cet ensemble de données, leur titre et leur genre. Vous pouvez donc voir ici un
genre de film, le genre aventure. Avant ce genre d'animation
Edward Jeff, les enfants étaient déjà entre parenthèses Nous en avons fini avec trois nuits
de comédie et de théâtre. C'est-à-dire que j'
aime vraiment de temps en temps les
enfants et le théâtre. Drame, fantaisie,
mystère, moyen sûr. Ainsi, un film peut appartenir à plusieurs
genres de films. Et puis nous avons la
structure Yes, CSP, qui contiendra l'identifiant de l'utilisateur, l'identifiant du film, pour quel film, auquel cette note est attribuée Quelle note alors ? Les gars, même au film où
c'est pour un ou un pour cinq. Et entre un fort
rejet, j'ai dépeint le film. Et puis nous avons
les différents types. Allons donc à l'essentiel. Il a donc identifié qu'il ira
au chemin du fichier. Nous allons ensuite créer une
variable de données de soulignement des
films , puis
restaurer les données Donc, la fonction de lecture du fichier CSV
utilisera un point de film stupide CSV qui est stocké dans
cette thiamine, soyez rigide, nous et chaîne sous forme de
fructose, faux Et les données de soulignement dendritiques, le CSV à
points et tout commence Ensuite, nous verrons que les données
sont sombres CSP, moins que cela. Voir ici. Maintenant, nous avons l'identifiant du film
sur lequel le professeur peut sauter, non ? Scott fait le lien entre le
travail et l'écriture. Eux, toujours. Consultez naturellement le résumé des données en utilisant
la fonction de
résumé. Le résumé des données
que vous pouvez voir, oui, film, premier trimestre,
deuxième trimestre, troisième trimestre, je veux dire genre. Donc, ici, ils peuvent voir ceux
du film que j'ai vu,
la tête haute, ouvrir les entités de données de partition qui arrivent 123456. OK. Maintenant, nous pouvons voir le résumé des données, puis
voir réellement le rein qui sort d'un cœur. Et coder pour créer
la matrice qui comprend les coûts pour la
nouvelle Kendra Roth, chacun par liberté Cela répondra donc du traitement des
données. Nous avons créé. Le film à encodage unique
souligne Gin Chandra et le film
Data as.data.frame
souligne les données et Data as.data.frame
souligne les données la rivalité jordanienne. chaîne en tant que structures, les chaînes en tant que facteurs
est égale à false. Ensuite, passez en revue la
table des données de la bibliothèque et oui, création de films
souligne Et ici, nous allons ajouter
dark data.frame. Et il avait DST, le STR, divisé les genres de films
et tapé de vraies
chaînes de caractères en carton à points comme fichiers de facteurs. Ensuite, nous
lui donnerons le nom de genre cinématographique. Et nous allons utiliser C, un pour savoir. Et ils arrêtent le genre à certaines de ces choses qui se rapportent
à votre genou gauche. Bonjour, je suis d'ici à ici. Pas de nom de colonne ni
de détails sur la laisse. John, John Drop et
Fighted Index One Tool. Et j'ai fait de la randonnée, écrit à la main. Je n'exécute pas ce code. Et pour avoir appelé. Et toi, John, mes deux cadettes, j'aime bien les appeler
et y ajouter l'Argentine. Chandra, brisée. Je veux que Dakota fasse à une corde. Cliquez ensuite dessus avec le bouton droit de la souris. Et puis pouvez-vous entendre mes astuces
pour une telle base pour nourrissons, un
plan Chandra et
ces cinq astuces Au cours de ce trimestre, nous
utiliserons mes astuces d'édition et mon point de vue sur ces vues. Un
paramètre important pour
faciliter la tâche au sein de
ce système par mole lorsque vous le faites. Bien que comme un registre de stations
et un type de données
d'entrée pour la matrice
L, une matrice. Et il vous a inscrit. J'ai reçu mes tics et ma
recommandation Mark Moore, j'ai souligné la
matrice de notation et notre confiance Cnidaires. Vous
pouvez simplement voir la similitude en utilisant ce graphique et en nous dépeignant légèrement
entre les champs D'accord, c'est tout
pour cette conférence, nous continuerons lors de
la prochaine conférence.
86. Projet 4 - Partie 2 - Système de recommandation de film: Dans la conférence précédente, nous avons commencé par le
système de recommandation de films utilisé dans le cadre de ce projet. Permettez-moi donc de vous donner un
bref résumé de ce que nous
avons fait lors de la conférence
précédente, première partie de ce projet Nous en avons donc besoin pour les
bibliothèques, Recommender Lab. Vous tracez deux data.table. Nous nous contentons donc de gérer ces bibliothèques,
puis nous devons récupérer les données là où
vous les avez conservées. Nous stockerons ensuite le fichier CSV à
l'aide de la fonction
read.csv et restaurerons fichier CSV à
l'aide de la fonction
read.csv et restaurerons données de soulignement
dans les films De même, nous allons
stocker les données d'évaluation dans le score de soulignement eta de la même manière
entre le CSV foncé Et nous passerons les derniers départs
de numération CSV, puis STR, poumons Et nous allons transmettre les données de soulignement de ce
mouvement. Ensuite, nous verrons
le résumé des données
de soulignement du film Et cela vous donnera l'identifiant du
film, le titre, le genre. Et ici, vous pouvez voir les détails
statistiques ici. minimale, du premier quartile, de la médiane, moyenne, du troisième quartile et
maximales pour ces données Ensuite, nous verrons le réalisateur
du film souligner les données. Il vous donnera les
cinq premières lignes des données. Vous pouvez donc voir ici l'identifiant et le titre du
film au clair, puis le genre du film. Ensuite, nous verrons en
tête du classement. Mais vous pouvez également voir le premier quartile
minimum, médiane ou toutes les colonnes, d'accord ? Ensuite, nous verrons la tête
des données de notation. Pourtant, l'identifiant de l'utilisateur, l'
identifiant du film, une évaluation et un horodatage sont indiqués Maintenant, nous avons
une idée de ce qu'il y a dans le fichier CSV ou dans le fichier de
données que nous
avons et qui contiennent ces
données que nous allons parcourir. La prochaine chose à faire
est donc de savoir ce que nous allons faire. Nous allons créer un encodage unique, créant une matrice qui comprend le
général correspondant à chaque preuve. Donc, pour l'encodage de notre alimentation, nous devons créer une matrice. Nous allons donc créer
une variable ici
plus que souligner le genre
et ici , sous la forme .data.frame, réutiliser Ensuite, nous utiliserons
cette colonne de genre. Donc, si vous regardez ici cette colonne de genre dans les données des films, les films ou le fichier de données. Nous allons donc utiliser cela,
puis les chaînes comme facteurs faux, puis la
bibliothèque qu'ils utiliseront plus tard. Nous créons donc ici une matrice, une matrice de genre de
film, puis nous utilisons simplement le
data.frame et le genre de film Ensuite, nous allons terminer la
matrice ici, puis celle-ci, puis le nom de la colonne. Et puis ils arrêtent le genre. Genre. Quelle est la liste des genres, c'est votre
x et votre aventure. Toutes ces choses
feront l'objet d'une liste ici. Et puis nous voyons le genre, Mach One et les noms des colonnes Et pour un index en un. Et Rho Movie Genre
to Four lira la chronique et pour chaque genre on
obtiendra le nom du film Et tout. Alors passons à autre
chose, genre mat 2. Et puis pareil ici. Ensuite, nous le transmettons à STR ici. Ensuite, nous le transmettons à STR. Et maintenant, ce que nous allons faire, créer une recherche chez Patrick. Donc je pense en
précisant le genre. Alors John, non ? Exécutons donc cela
en utilisant yes, C bind. D'accord ? Ensuite, nous allons de l'avant et voyons maintenant que nous nous
retrouvons dans cette affaire. Donc le titre du film CN, une excellente animation d'aventure,
des enfants, tous les genres Comme une colonne dans
cette matrice, d'accord ? Ensuite, il s'agit d'une matrice. La suivante est la matrice de notation. Et maintenant, ce que nous allons faire, c'est convertir cette matrice d'
évaluation en une creuse recommandée pour le laboratoire, cette matrice et la matrice d'
évaluation jaune, d'accord ? Ensuite, la matrice d'évaluation C est 668, soit dix fois la
quantité, cinq ou n colonnes. La matrice de notation de plus un est
décalée de 5 003, 13 et notes. D'accord ? Ensuite, nous utiliserons les noms ,
le recommandateur et le modèle de
recommandation Ensuite, nous utiliserons le mode Recommandation du
jeu. Et ici, nous allons utiliser
la description. mettant en œuvre un modèle unique dans notre
filtrage collaboratif basé sur des éléments, nous en avons 12 Et ici, nous
utilisons AI VCF, d'accord ? Désormais, le
filtrage collaboratif impliquait suggérer des films
à l'attaquant en fonction des
préférences collectives de nombreux autres utilisateurs. Vous êtes juste, avec l'
aide du laboratoire de recommandations. Nous pouvons calculer la similitude
entre l'Eucharistie. Nous allons maintenant
créer une
métrique de similarité et une méthode que
nous utilisons ARCore shine Et plus loin, tu vas bien. Maintenant, nous allons voir que
votre simple similitude va faire échouer tout cela. Encore une fois. Il n'y avait pas assez d'espace C. Maintenant, vous
ne voyez que des similitudes, vous ne pouvez voir que votre matrice de
similitude. De même, nous allons faire, il semblerait qu'il y en ait au moins plusieurs entre les
films que nous utilisons. Et nous allons exécuter ceci
, puis imprimer cette image. Maintenant, vous pouvez voir que c'est
la similitude du film. Maintenant, évaluez les valeurs sous forme données matricielles de notation des directeurs, nous allons voir. Ensuite, des évaluations uniques extrayant
les évaluations uniques. Vous utilisez une valeur unique, puis vous avez besoin des valeurs d'évaluation. Tableau des évaluations. Création d'un classement de films. Ensuite, nous verrons le tableau d'évaluation et d'évaluation des
valeurs. Maintenant, ce que nous allons faire. Nous allons créer la visualisation la plus
regardée. Et pour cela, nous allons tracer deux films, souligner le nombre de vues et matrice de classement de
Qualcomm,
appelée count, utilisera puis TableViews, un film
data.frame Nous allons prendre les noms des spectateurs
des films,
puis les noms des films visionnés et les transmettre aux spectateurs. Voici les dataframes du futur à
travers ce tableau visualisé. De même, l'index TableViews
effectuera une itération sur l'ensemble
des 325 films Et nous le ferons. Ensuite, nous verrons
que les vues du tableau vues s'exécutent. Attendez qu'il soit terminé. Alors voyez ici maintenant, complétez fc ici,
vous pouvez voir les critiques et le titre du
film. Ensuite, nous allons nous rendre compte que vous
utilisez le diagramme à barres ou le nombre total de
vues de la première page. Jusqu'à présent, nous utiliserons
le graphe GG, TableViews Nous utiliserons le titre, les
vues, la barre de géométrage, les textes
géographiques, l'équipe et Je vais vous en donner le titre ici. J'espère donc que tu sais
toutes ces choses. Je ne vais pas entrer dans les détails. Maintenant, vous pouvez voir que la
forêt s'élève à 331. Votre classique de retour à
94, vues et volume. OK. Ainsi, nous pouvons attirer des
spectateurs aguerris sur les terrains en gazon. Total soutient les plus grandes entreprises. Maintenant. Des entreprises. OK, nous allons maintenant créer une
carte thermique pour les films. Vous pouvez donc voir ici la carte thermique
des premières colonnes à 25,25$. OK, c'est la prochaine étape que nous allons faire. Nous allons passer à la préparation
des données. Ainsi,
les évaluations des films sont supérieures à 50 et le
contrat actuel est amélioré. Alors. Consultez le
classement du film pour 22, pour 1 400 en classe D'accord ? Ils sont donc là
pour plus de trois, d'accord ? Maintenant, en déterminant des indicateurs
pertinents, vous venez de donner la note de 0,9. Donc, un minimum de films et un minimum que
vous verrez, nous
utiliserons le contenu pour cela. Ensuite, nous allons créer un EMS, voir une carte thermique de la partie supérieure, il
vous suffira d'ajouter les vidéos. La prochaine étape consiste à visualiser
que la distribution des notes
moyennes est énorme Pour cela, nous utiliserons la note de soulignement
moyenne. Et la forme signifie que nous n'avions pas note
du film
et que nous n'avions pas été tracés Maintenant, vous tracez C et nous obtenons la distribution
de la note moyenne, mais tout va bien.
Donc, voici la distribution
de la note moyenne, mais vous êtes juste à ce moment-là, nous allons l'utiliser pour cette normalisation
des données. Pour cela, nous utiliserons des évaluations
non normalisées, fonctions
normalisées
et des évaluations d'autres films Ensuite, une partie de la ligne indique valeurs
normalisées
supérieures à 0,001 Et puis regardez cette
évaluation normalisée, les meilleurs utilisateurs. Vous pouvez donc voir ici que vous
obtiendrez une colonne d'éléments. D'accord, ensuite, la binarisation des données dont nous avons
déjà parlé dans l'entérotoxine Nous utilisons donc ici des
quantiles et le nombre de lignes, le classement
des films, puis davantage de lavage de base Et puis des films classés, des films
binaires, plus encore, une note
minimale de trois. Donc note minimale a3. Tous ces films vont l'emporter. Alors allons-y. Tu vois, ce sont les films qui ont une
note minimale de trois. Nous allons maintenant passer au filtrage
collaboratif consiste à diviser
l'ensemble de données en un ensemble d'apprentissage et
20 % de l'ensemble de tests Donc, des exemples de données, nous avons
votre exemple de méthode ici. Et voici ce que nous avons fait, nous en avons même affecté 80 % à
l'entraînement et aux tests. Divisez les données. Nous allons maintenant voir ces données d'entraînement et
ces données de test. Ensuite, nous allons créer une recommandation à l'aide d'un registre
enregistré de recommandations Et ici, nous allons, ce que nous allons faire, nous allons obtenir les entrées, le type de données, matrice de notation
réelle
que nous avons créée Ensuite, nous utiliserons l'œil vcf, soulignerons la matrice
et les paramètres réels, puis le recommandeur
utilisera les Et ici, nous allons passer la méthode des données d'
entraînement. Nous allons utiliser la mucoviscidose intraveineuse, et nous allons commencer. OK, alors gérons
toutes ces choses. Nous avons maintenant le modèle de
recommandation du recommandateur. Déjà. Exécutez cette classe
de modèle de recommandation. Vous pouvez voir le laboratoire de recommandation et explorer maintenant
la science des données, les modèles de coordination Passons donc à ce modèle de
classe, oublions modèle et modèle. Et pour C, D, D, C s'est réuni par la
suite, puis entre crochets et le suivant pour
Patrick a disparu. Ce sont les meilleurs articles. Ce sont les meilleurs articles. Ensuite, nous verrons la carte
thermique de la première
ligne et des premières colonnes du. Ensuite, lorsque vous exécutez cette somme de tirages et que vous dressez
certains de ces 30,47, puis que vous tracez GG, nous verrons qu'
il s'agit du qplot et du graphique à barres Vous pouvez voir la répartition du nombre d'
articles à recommander dans la
colonne. Vous venez d'en mettre moins de dix et prédit que vous
recommanderiez un jour. Quelques recommandations pour le premier film urogénital :
un film d'une barre, un film sur dix Et puis une matrice de recommandations, une matrice avec les
recommandations pour le vol
easyJet, des articles de gentillesse Et nous valorisons les noms
des colonnes
des films que nous lisons Je vais acheter des objets,
puis Dark Title, distribution du nombre d'IVC en hausse et le nombre
d'objets depuis t, la
distribution des
numéros de l'article, le
nombre d' objets en hausse
par BCF et Léonard de Vinci,
les films les mieux recommandés . la
distribution du nombre d'IVC en hausse
et le nombre
d'objets depuis t, la
distribution des
numéros de l'article, le
nombre d'objets en hausse
par BCF et Léonard de Vinci,
les films les mieux recommandés
. Wallace et Gromit, Dieu Père,
fils sont morts, tout comme les YuJa Ainsi, nous pouvons obtenir le
film recommandé pour YuJa. J'espère donc que vous avez compris
ce projet. Si vous avez des doutes, vous pouvez le faire en commentant, en posant la question en classe Merci
87. Introduction du projet 5 Détection de la fraude par carte de crédit: Bonjour et bon retour. Je vous souhaite donc la bienvenue dans un autre projet le
projet numéro cinq
pour cette classe. Et c'est la détection des fraudes
par carte de crédit, en juger par notre programmation. Et ici, nous allons également
utiliser un
algorithme d'apprentissage automatique. Quel est donc l'objectif
de ce projet ? Vous êtes peut-être au courant de fraudes
en ligne et de données qui se produisent ces derniers temps, comme
si la
carte de notes d'une personne était utilisée. leur insu, les réseaux sociaux de
quelqu'un ont été piratés Ce type de fraude se fait
donc en ligne. Les
informations bancaires de quelqu'un sont volées. compte bancaire d'une personne a été volé et l'argent a été
retiré de son compte. En Inde, il y a peu d'
incidents au cours desquels des personnes sans savoir qu'elles ont partagé l'autorisation de
leur tuteur ou un appel téléphonique
sans savoir qu'elles ont partagé l'autorisation de
leur tuteur ou leur OTP Ah, l'imposteur dit
qu'il appelle depuis la banque et qu'il demande le numéro
de la carte de débit Ensuite, ils
demandent le numéro du CBP. Et les gens disent sans le savoir, en envoyant tous les détails, pensent que la
personne qui appelle
vient de la banque concernée. Et ils ne font
que régler nos coordonnées. Et une fois cet OTP obtenu, tout leur argent de leur compte bancaire
a été retiré. Ce type de fraude se
poursuit donc et nous devons être
très, très prudents L'une de ces fraudes en ligne
est la fraude par carte de crédit. Eh bien, les gens utilisent la probation de leur dessin animé pour
enfants ou pour acheter quelque chose, ou ils stockent les informations de leur
carte de crédit, ou ils il
y a des numéros de carte Kate et autres numéros à leur insu et
les gens
les utilisent à leur insu Et il y a plusieurs incidents où la carte Kate est utilisée sans même que la carte
Kate soit physiquement présente sur
l'empâtement. Ceci pour la détection des
fraudes par carte de crédit. Nous devons donc faire le tri. Chaque fois qu'une personne utilise une carte
de crédit, l'entreprise sait qu'il
s'agit peut-être d'une transaction frauduleuse
et peut immédiatement informer le client
titulaire de la carte que vous effectuez
ce type de transaction. Et à l'heure actuelle, le client ou le titulaire
de la carte de crédit répond : «
Non, non, ce n'est pas moi ». Quelqu'un d'autre effectue
cette transaction, puis il
refusera immédiatement cette transaction. De cette façon, nous n'utiliserons plus
cette carte
de notes et nous n'économiserons pas
beaucoup d'argent. L'objectif de ce projet
est donc de développer notre classificateur capable d'identifier les transactions
frauduleuses par
carte de crédit Pour ce faire, ce que j'ai fait, vous l'avez fait, j'utiliserai plusieurs algorithmes
d'apprentissage automatique, tels qu'un arbre de décision, une régression
logistique, des réseaux de neurones
artificiels et, finalement, un classificateur à
amplification de gradient Nous allons donc voir quels sont les
algorithmes que nous pouvons utiliser. nous permet de classer ce frauduleux et
ce qui n'est pas un
produit ou celui de Jackson Pour cela, nous utiliserons un ensemble de données qui contiendra des informations sur
la carte à gâteau et le type de transactions
par carte de crédit que
vous
rencontrez la carte à gâteau et le type de transactions
par carte de crédit ou
non pour l'entraînement et les hommes de niveau
modéré Ensuite, nous verrons l'exploration des données, la manipulation, la modélisation des données, l'
ajustement du
modèle de régression logistique, l'arbre décisionnel, les réseaux de neurones
artificiels,
tout cela suffira Mais avant cela, nous devons
comprendre en détail
la fraude et son type. Donc, si vous n'êtes pas au courant
du DOM ou du
problème que vous avez en main, vous ne serez pas en mesure de
donner la bonne solution. Donc, avant de
nous
lancer dans le projet, nous devons savoir quel problème nous
allons montrer. Pour cela, nous devons avoir une compréhension très claire de
la nature
de chaque fraude et du
type de fraude qui
se produisent de nos jours à l'
ère du numérique. OK, donc tout d'abord, quand Internet n'existait pas,
la plupart de nos
transactions numériques n'y existaient pas. Ensuite, les gens se rendaient à la
banque et prenaient l'argent en remplissant un formulaire,
puis en utilisant le système de carte de guichet automatique. Ensuite, les gens ont commencé à utiliser les
guichets automatiques pour retirer de l'argent. Et puis les gens ont commencé
à frauder les guichets automatiques en manipulant simplement le titulaire de la
carte bancaire marqué découvrant simplement le mot
de passe de quelqu'un, en
volant la carte et
en utilisant la carte chez
IPM en utilisant ce mot de passe en particulier Donc ce genre de
pull frauduleux est arrivé plus tôt. Et avec l'essor
du Davison et des services bancaires numériques les
fraudes en ligne se produisent
aujourd'hui Très rarement en lot. Qu'est-ce donc que la fraude ? La fraude est définie comme
tout acte intentionnel de tromperie à des fins personnelles
et financières La fraude est définie comme l'acte intentionnel de préceptes dans un but personnel
et financier Donc, si vous faites quelque chose, si vous faites
cet epsilon avec quelqu'un pour votre
gain personnel ou financier, cela sera
considéré comme Cela implique d'avoir oublié
de présenter, dissimuler ou de manipuler
de la graisse pour tromper les autres Et quels types de
fraudeurs par cartes de surclassement se produisent ces derniers temps. agit donc de types de fraude par carte de crédit, d'identité, de compte, de carte de
prise de contrôle, de carte d'absence, de fraude et de
contrefaçon. Et puis vient l'écrémage. Nous allons donc comprendre un par un. Quels sont ces types
de fraude par carte ? La toute première chose
est donc le vol d'identité. Alors, qu'est-ce que le vol d'identité ? La fraude consiste simplement à voler
pour le compte des fraudeurs, voler des informations personnelles
telles que des numéros de sécurité sociale
ou des identifiants de connexion pour se faire
passer pour la victime. Donc, dans cette situation, ce tilde, outre des
informations telles que la source, certains numéros de sécurité
ou autres, notre numéro de carte ou numéro de carte
interdite ou les identifiants
de connexion de votre banque Et les Kcat Dunbar,
dans certains cas, font
semblant d'être les vrais clients Ensuite, ils se connecteront avec
les détails et
utiliseront vos informations bancaires
pour effectuer les transactions. Ils utilisent les
informations volées pour ouvrir un compte
frauduleux afin d'établir une trajectoire
non autorisée. Avec des cartes comme votre
autre carte cardio ou PAN, ils peuvent ouvrir un compte bancaire votre
nom,
puis commencer à se faire passer pour vous-même et effectuer
les transactions,
qui se feront à votre nom, mais vous n'êtes C'est ce qu'on appelle le vol
d'identité. Puis vient la prise de contrôle du compte. Le piratage de compte
est un autre type de fraude dans le cadre duquel des criminels obtiennent un accès
non autorisé à un compte Meet légitime en
volant des informations de compte
telles que des mots de passe ou un
numéro d'identification personnel Donc, dans ce cas, ils vont
simplement pirater votre compte, voler votre mot de passe, votre nom d'utilisateur , votre mot de
passe,
et votre compte sera piraté. Ensuite, ils
feront ce qu'ils veulent
avec votre compte. Ils prennent le contrôle de votre
compte et l'utilisent pour activités
frauduleuses
telles que des
achats , des œuvres d'art,
le transfert de polices. Ainsi, une fois qu'ils ont le
contrôle de votre compte, ils peuvent tout faire. Ils peuvent transférer l'argent de votre compte vers
n'importe quel autre compte, ou ils peuvent effectuer des achats
en ligne et hors ligne. Et vous n'aurez
aucun accès à votre compte car votre
compte a été piraté, ils peuvent également changer votre mot de passe
pour que
vous ne puissiez pas vous-même vous connecter
à votre compte. Le troisième type de fraude est fraude par absence de
carte, qui se produit lorsque
des transactions frauduleuses sont effectuées sans la
présence physique de la carte de crédit. Et les transactions les plus courantes
sont les transactions en ligne ou par téléphone
où
les informations de carte sont saisies manuellement par des fraudeurs
ou vol d'
énormes informations de
carte de crédit pour effectuer des achats non autorisés Donc, dans ce cas, la carte de note ne
sera pas présente physiquement, mais ce qu'ils feront, qu'ils vous appelleront et
ils vous demanderont de faire un Jackson en particulier
et ils vous
demanderont les informations de la carte enfant Au cours de l'appel,
ils vous demanderont l'OTP Et dès que vous aurez donné
l'OTP ou les tangentes et tout sera terminé, vous n'aurez plus d'
argent, ou ils achèteront quelque chose en votre nom et
votre carte de crédit
sera débitée L'étape suivante, les cartes
contrefaites, la
fraude, car il suffit de créer des cartes de qualité
contrefaites qui ne se rencontrent qu'une seule fois. Donc, dans ce type de fraude, ce que fera le fraudeur,
il créera un jeûne,
il obtiendra des informations sur les numéros de votre carte-cage Toutes ces choses seront numérotées. Et ils créeront une carte d'apparence
similaire avec un numéro de carte-cage similaire
et le numéro CBP,
que nous considérerons comme très légitime par rapport à la carte d'origine Ils peuvent ensuite encoder informations
de la
carte de crédit volée sur la fausse carte Ensuite, des cartes contrefaites sont ensuite utilisées pour effectuer des achats. Souvent, à l'insu du
titulaire de la carte Carter, il se peut que
vous ne
sachiez pas que votre carte Grade a été
contrefaite et que
quelqu' un d'autre possède une
double carte de crédit votre carte Grade a été
contrefaite et que
quelqu'un d'autre possède une
double carte de crédit portant le même numéro que celui
qui vous a été attribué et qui
l'utilisera pour des transactions
frauduleuses Il s'agit donc d'un autre type de fraude par carte de crédit
qui se produit de nos jours. Le suivant est un complot,
c'est-à-dire que l'écrémage implique,
légalement, désolé, écrémage implique de saisir
illégalement informations de carte de
crédit insu des détenteurs de cartes de crédit,
supposons que vous
facturez votre panier au magasin
et que vous ne sachiez
ce qu'il fait, il note simplement vos
numéros de
carte supposons que vous facturez votre panier au magasin et que vous ne sachiez
ce qu'il fait, il note simplement vos numéros Si nous numérotons toutes les
bonnes informations, la date
d'expiration et tout ce genre d' informations,
le magasin peut faire des transactions frauduleuses. Ainsi, chaque fois que
vous mettez votre voiture en vente
au comptoir pour le
jour ouvrable suivant, vous vous
assurez que personne ne prend aucune information de votre
carte KD à votre insu Et puis les manifestants,
ce que nous allons faire, c'est que cette vignette a installé des dispositifs
frauduleux, des terminaux de
paiement ou des guichets automatiques pour capturer les données des cartes de crédit Récemment, en Inde, un type
de fraude a été découvert mois
dernier : ils
utilisaient le charbon préféré
dans les distributeurs automatiques de billets. Et avec cela, ils
utilisaient certaines techniques selon
lesquelles, lorsque vous
insérez la carte-cage ou
votre carte de crédit, les informations
sont capturées d'une manière ou d'une autre. Et plus tard, lorsque vous quitterez
les guichets automatiques, ils bloqueront les cellules tragiques de votre APM Et vous ne saviez peut-être pas
que c'était un complot pour servir ce
qui se passe aujourd'hui Ils utilisent ensuite les
informations capturées pour
créer de fausses cartes et déterminer
la probabilité de tour. Il s'agit donc du type d'usurpation d'identité, de carte d'usurpation de compte
qui n'est pas présente cartes
contrefaites
et des activités
frauduleuses ou d'écrémage se
font en ligne Il existe également d'autres types de fraudes,
comme par téléphone, ils se font passer pour
un employé de banque et ils vous
demanderont le montant,
heureusement, des informations, les informations de votre carte de crédit, vos numéros de sécurité
sociale, les numéros de
carte bancaire sont plus sombres. Ensuite, ils feront semblant de
vous donner un prix ou quelque chose comme ça. Ils transfèrent de
l'argent pour créer votre compte, mais en fait, ils vous
demanderont de l'argent et
vous
enverront un lien. Et on vous a demandé
de cliquer sur le lien. Lorsque vous cliquez sur
le lien, plus fort, vous ne remarquerez pas que vous êtes en train de
transférer l'argent. Ils déduisent l'argent
de votre compte et vous n'aurez qu'à saisir
l'OTP et l'argent
de votre compte
ira sur le compte courant Ce type de
fraude se produit donc et nous
devons savoir comment y mettre fin. Et c'est ce que nous allons
faire dans ce projet en examinant le
gardien Jackson. ainsi que nous développerons
un modèle qui détectera le type de transactions et mettra fin aux activités
frauduleuses
88. Importance de la détection de la fraude en ligne: Nous avons maintenant une brève
idée de ce qu'est fraude et du type de
fraude qui se produit de nos jours Maintenant, nous devons également comprendre pourquoi le plot détecte
et c'est important. La détection des fraudes est donc importante, c'
est-à-dire qu'elle
vise évidemment à prévenir les pertes
financières. Mais il y a aussi une autre
région, il y a peu d'autres raisons pour
lesquelles
elles sont éliminées et c'est ce que nous
allons comprendre. L'importance de la détection des
fraudes. Il existe trois principaux moyens de détection des
fraudes
qui indiquent qu'ils sont là. Et le premier est la prévention des
pertes financières. Le second concerne les
produits et les clients. Et troisièmement, il
faut maintenir la confiance. Et ces trois
paramètres sont très, très importants pour toute institution bancaire
ou financière. Parce que si vous ne
remboursez pas la
perte financière par impôt, les clients de
vos clients
ne resteront pas chez vous Si vous ne protégez pas
les intérêts du client, il est probable que vous ne serez pas avec
vous pendant plus longtemps. Et si vous ne le faites pas,
préparez-vous, prévenez les pertes financières
et mettez fin aux produits. Et notre question
portait sur l'information, alors vous perdrez évidemment
la confiance du client. Il
est donc également important de maintenir la confiance. Ces trois éléments
sont donc très importants. Donc, tout d'abord, nous comprenons, nous allons comprendre cette prévention
des pertes financières. La fraude peut entraîner des pertes financières
importantes pour les particuliers, les entreprises et les institutions
financières. La détection des fraudes permet
d'identifier et de prévenir les activités
frauduleuses en minimisant
ces pertes de grossesse. Le tout premier objectif
du produit axon
est donc de le prévenir, de prévenir les pertes financières, les pertes financières de la part
de l'individu Des gens comme vous et moi,
pour les entreprises, les personnes qui
font des affaires et les
institutions financières elles-mêmes. Comme si quelqu'un
venait et qu'il avait la banque, le compte bancaire lui-même. Et puis lui, l'agent de police,
peut faire n'importe quelle transaction sur importe quel
client de la banque, non Donc, pour protéger également leur
compte, c'est important, d'accord ? La prévention sophistiquée des pertes est donc
l'une des choses les plus importantes. La seconde est de protéger, de
protéger suffisamment de clients. La fraude peut entraîner vol
d'identité, des transactions
non autorisées et d'autres formes de préjudice
financier pour les clients détecter et de prévenir la fraude
et de sceller la protection des actifs financiers
et des autorisations personnelles des clients. Donc protège et un point d'
interrogation ici. Cela signifie que nous avons besoin de l'un
ou l'autre institut bancaire S'il y a une banque, d'autres
institutions financières sont présentes. Leur principale
responsabilité est de préserver la
sécurité et la confidentialité des informations des clients. Pour s'assurer qu'ils
doivent mettre en œuvre majeures de détection des
fraudes
afin que les clients, actifs
financiers et les informations
personnelles soient en c, c'est-à-dire en sécurité Le troisième est de maintenir la confiance. La confiance est également très
importante si votre banque, votre établissement bancaire et des activités
frauduleuses
sont
constamment menées au hasard. Les clients
perdront alors confiance en vous et se tourneront alors
vers une autre banque. fraude mine la confiance dans le
système financier par l'
activité, la détection des activités
et la lutte contre la fraude Les institutions financières
et Venus peuvent maintenir la confiance de leurs clients et du soutien de leurs
parties prenantes. Unique. Supposons que vous
soyez une banque, X, Y ,
j et que vous soyez titulaire d'une
carte de crédit, client reçoit une
notification lorsque quelqu'un essaie de faire ce qui n'est pas
autorisé à utiliser Exelon, sa carte de crédit. Et avant de confirmer
cette transaction, il
vous suffit d'appeler le client
et de lui dire : « Oui, il y a un arc tangent et 99$ sont versés
sur votre carte KD » L'Égypte que vous consultez sur
ce site Web en particulier. Et si le client répond
immédiatement « Non, non, non, je ne fais pas
ça », veuillez arrêter. Et vous avez bloqué
cette transaction, vous la refusez. De cette façon, vous avez
économisé 99$ pour votre client. Et cela augmentera sûrement la confiance que cette personne a
en vous, dans votre institution et il recommandera sûrement
votre outil pédagogique D'autres aussi, car
il sait que vous venez d'économiser 99$. De cette façon, en
affectant les salaires de détection des fraudes aux institutions financières
par l'intermédiaire des entreprises. Cela améliorera
également ce crash pour vos clients. Voyons maintenant quel type de
données statistiques sur la fraude, quel type de fraude se produit
et combien la fraude coûte aux entreprises
et aux clients. Ainsi, selon un rapport de
l'Association des examinateurs
certifiés en matière de fraude,
ECF free, il s'agit d'une organisation
mondiale Les entreprises internationales
perdent environ 5 % de
leurs revenus annuels à cause de la fraude. Vous voyez, les organisations internationales
et les grandes multinationales perdent 5 % de
leur chiffre d'affaires annuel, ce qui pourrait représenter un montant très, très important pour
l'ensemble des activités Et cela se traduit par des milliards de dollars
perdus chaque année Ainsi, si vous mettez en œuvre les principaux outils de détection des fraudes à l'aide de l'intelligence artificielle
et de l'apprentissage automatique, vous pouvez faire économiser ces milliards de dollars
à Le second est la fraude aux cartes
Arcade. Ce rapport de Nielsen indique que les pertes
mondiales dues à la fraude par
carte de crédit ont dépassé 27 000 000 000 de dollars en
2020, ce qui représente un montant
énorme, et cela ne
vaut rien que
de classer la fraude par carte de crédit, l'
un des types de fraude les Compte tenu de l'
énorme carte de mise à niveau généralisée. C'est un fusible. Les ports pour cartes de visite sont
très ajustés. Et vous pouvez voir la statistique C0, 27 milliards de dollars en 2020
et maintenant nous sommes en 2023 Il aurait donc pu être
doublé avec l'augmentation de
la numérisation, comme en
Inde ces 34 dernières années, tout est passé au numérique et où les
gaz sont très peu consommés Dans ce cas, elle aurait pu augmenter sa présence
ou même atteindre un milliard de dollars La détection des cartes de crédit est donc très, très importante à mettre en œuvre. Le prochain est le vol d'identité. Rien qu'aux États-Unis, la
Federal Trade Commission FTC ont reçu plus de 1,4 million de signalements concernant le type d'
identité en 2020. Cela met en évidence
la prévalence de l'impact du vol d'identité, qui conduit souvent
à des fraudes financières. Ensuite, la fraude en ligne,
avec l' adoption
croissante du
commerce électronique et des transactions
en ligne, fraude
en ligne est devenue
une préoccupation majeure. Le
rapport LexisNexis, cette
solution, contient
20 % du coût réel du produit et révèle que chaque dollar de
transactions frauduleuses coûte
3,36 dollars aux témoins en raison de la
rétrofacturation et de la perte de Mark et
de dés Voilà donc l'impact. Les entreprises perdent 1 dollar. Ce n'est pas qu'ils
perdent 1 dollar, mais indirectement, cela leur
coûtera 3,3 6 dollars selon ce rapport Et ils ont indiqué qu'en raison
des rétrofacturations, frais et de la perte de marchandises, ces statistiques
soulignent l'urgence
et l' importance de mettre en œuvre des mesures de détection des fraudes
efficaces afin d'atténuer les finances et les
risques éventuels associés à
la Cela permet de connaître la fraude en
fonction des types et des étoiles, son impact de
son impact sur les institutions
financières, sur les clients, les clients
individuels et les institutions
financières, ainsi que
sur clients
individuels et les faiblesses. Nous sommes maintenant prêts à
poursuivre nos projets. Ainsi, lors de la prochaine conférence, nous commencerons site
du projet
Excel sur les produits pour cartes de date. La prochaine conférence
89. Gérer un ensemble de données déséquilibré: Donc, avant de passer à
l'écriture du code du projet, comprenons encore quelques choses sur la détection des fraudes. Et c'est important de faire le projet au fur et à mesure avant
de démarrer le projet. Y compris la partie théorique qui est très importante pour
améliorer votre apprentissage. Dans cette conférence,
nous allons donc comprendre quels
sont les défis associés aux modèles de
détection des fraudes que nous pouvons créer et
comment les surmonter. Alors commençons. Les défis associés
aux modèles de détection des fraudes. Il y a donc quelques défis à relever lorsqu'il s'agit de notre tableau ou de nos modèles de détection des fraudes. Et l'une des
plus importantes est très, cela se produit très fréquemment. C'est-à-dire des ensembles de données déséquilibrés. Un ensemble de données
ou des ensembles de données donc déséquilibré. Supposons que vous alliez détecter les fraudes pour la carte
Kd et que vous sachiez que activités de fraude liées aux cartes
Arcade sont très inférieures à
0,1 % ou 0,001 Il y a de fortes chances qu' une activité
ou une transaction par carte de crédit soit frauduleuse. Donc, lorsque nous avons l'ensemble de données, qui contient la plupart
des transactions pour nos quatre voitures
dans le monde. Allons-nous le laisser coéquipier, laisser
quelques lacs en un lakh, 1 million de cartouches
x et il y aura quelques centaines de transactions
qui seront frauduleuses Ainsi, lorsque nous collecterons l'ensemble de données
, la plupart des 99 % de
l'ensemble de données contiendra les cellules des transactions
légitimes, seules quelques-unes d'entre elles
porteront sur la fraude Ainsi, lorsque nous créons un modèle, les modèles seront toujours
favorisés par la majorité. Donc, dans ce cas, ce sera, toujours, quelle que soit la
transaction qui se produira,
cela déclenchera qu'en
tant que transaction légitime car les
transactions frauduleuses sont très peu nombreuses, nos modèles n'en apprendront pas
grand-chose sur le produit. Jackson et parce que 99 % de l'
ensemble de données contient les transactions
légitimes, il privilégiera toujours la transaction
légitime. Cela ne le déclenchera
donc pas très rarement, il
déclenchera une activité frauduleuse. données déséquilibré est donc l'
un des défis associés à notre modèle de détection des
fraudes Les transactions frauduleuses sont relativement rares par rapport aux
transactions légitimes. Ainsi, l'ensemble de données bouleversant
et déséquilibré, Jackson
prétend avoir atteint
la majorité, alors que seule une petite partie des transactions sont Ce déséquilibre de classe
fait des camarades transaction frauduleuse et
légitime. Ce déséquilibre entre les classes
pose donc des problèmes aux modèles de
formation, car ils peuvent être biaisés en faveur de
la classe majoritaire, ce qui se traduit par une mauvaise détection des instances de produits
configurées. Nous avons donc compris
ce qu'est ce E, donc celui-ci est lié à la majorité de l'ensemble de
données qui contiendra les transactions légitimes car
les transactions frauduleuses le
sont très peu nombreuses. Donc. Cela nous fera croire
qu'il faut suffisamment d'
instances frauduleuses selon notre modèle. Une autre concerne les techniques de
fraude adaptatives qui nous permettent de faire évoluer
constamment
leurs techniques afin de bisphosphater les systèmes
de détection Quel que soit le système de détection, la
manière dont nous développons
les fraudeurs a une longueur d'avance. Ils
développeront et feront évoluer leurs techniques pour contourner
ce système de détection Ils adoptent leurs méthodes, ce qui les rend plus difficiles à identifier. Utilisation de règles traditionnelles. Nos approches basées sur des modèles. Comme indiqué, les
modèles de détection des fraudes doivent être
régulièrement utilisés pour suivre
le
rythme des nouveaux modèles de fraude. Vous avez Deb Love sur une approche
basée sur des règles
ou une approche basée sur des modèles Et nous en avons développé un
pour le système de détection. Et vous ne le mettez pas à jour. Mais au fil du temps, les manifestants étudieront, développeront des
techniques et se
contenteront de mettre en place de faux
systèmes de détection et ils
commenceront à se livrer à des activités
frauduleuses. Il est donc très important d'adopter les techniques et d'améliorer vos modèles tous les deux
ou trois mois afin que vous soyez, je suis en tête des manifestants. Le problème suivant est l'
évolution des modèles de fraude. Les modèles de fraude ne sont donc pas limités. Soutien. Vous disposez
d'un ensemble de données dans lequel vous
développez un modèle et il existe peu de modèles que
vous avez reconnu Le modèle a développé un mécanisme permettant d'identifier et
de déclencher une matraque frauduleuse pendant que
Nixon poursuit ses activités Mais
que se passera-t-il si les fraudeurs vont réinventer ou continuer inventer de nouveaux modèles qui pas dans l'ensemble de données Et à cause de cela, nos modèles ne sont pas
formés à ce sujet. Donc, si notre modèle n'est pas activé, il ne
reconnaîtra pas ce modèle et cela
déclenchera que activités légitimes
et frauduleuses d'
Azure ne soient pas détectées Un schéma tendu si évolutif. Un autre défi
en matière de détection des fraudes. Les modèles de fraude évoluent au fil du temps, ce
qui complique de
fraude nouvelles et émergentes par les modèles de détection prise en compte des techniques de
fraude nouvelles et émergentes par les modèles de détection des
fraudes. Les modèles doivent être capables de détecter modèles de fraude
inconnus ou
inédits sans s'appuyer uniquement
sur des données historiques Nous devons donc concevoir notre modèle telle sorte qu'il puisse détecter
une transaction frauduleuse, même si elle ne s'est
pas produite à
ce niveau et ne s'est
pas produite auparavant,
ou s' il ne s'agit pas de données historiques Il doit donc également reconnaître
le nouveau modèle. Il s'agit donc d'un autre
problème qui est alimenté par les systèmes de détection des
fraudes. évolutivité et le traitement
en temps réel constituent un autre défi majeur
en matière de détection des fraudes Le système financier à grande échelle traite en temps réel tout le montant des
transactions. Les modèles de détection des fraudes doivent traiter efficacement de gros
volumes de données et fournir une analyse
en temps réel pour identifier les activités
frauduleuses
très rapidement. Cela nécessite une
infrastructure robuste et des
algorithmes optimisés pour garantir l' évolutivité et le traitement
en temps réel Il s'agit donc d'un autre défi très important
et très important évolutivité et le traitement
en temps réel Les données sont demandées. Si nous voulons détecter une transaction frauduleuse
et que vous souhaitez la
déclencher en quelques secondes
seulement, six à huit secondes sont
nécessaires pour détecter, déclencher et identifier la transaction
frauduleuse. Si vous manquez ce laps de temps, de
six à huit secondes, il
passera. Il est donc chronométré,
le traitement en temps réel est
très, très important et cela devrait
être très rapide C'est donc autre chose. Ensuite, l'ingénierie des fonctionnalités,
qui permet de développer modèle de système
efficace et
de détection des fraudes nécessite des compétences et une ingénierie des
fonctionnalités Identifier les fonctionnalités pertinentes qui permettent de détecter les fraudes. La fraude ou les modèles électriques sont essentiels pour une détection précise. Toutefois, la sélection du bon
ensemble de fonctionnalités et la création de représentations
pertinentes des données peuvent s'avérer difficiles et nécessitent des connaissances du domaine
et une réelle activité. J'ai essayé d'expérimenter
la confidentialité, la fraude constante, la détection, le traitement de données
sensibles sur les clients, la lecture de problèmes de confidentialité. Il est essentiel de
garantir le
respect des réglementations
et de maintenir la sécurité
des données tout au long du processus
de détection des fraudes. La cellule suivante de ces faux positifs
et faux négatifs permet de
trouver le juste équilibre entre la réduction des faux positifs, l' indicateur de transaction
légitime,
les transactions frauduleuses
et les transactions frauduleuses faussement Et le déclenchement en
tant que transaction légitime
représente un défi. Un taux de faux positifs élevé
peut gêner le client, tandis qu'un taux de faux négatifs élevé peut entraîner des pertes financières. Ajustement des paramètres du
modèle. Et il est toujours nécessaire d'
optimiser les performances. Qu'est-ce qu'un faux positif ? faux positif signifie que les transactions
légitimes Un faux positif signifie que les transactions
légitimes
sont signalées comme frauduleuses Que va-t-il donc se passer
dans ce cas ? Assistance à l'utilisateur qui utilisait sa propre carte de crédit
et effectuait une transaction Votre modèle
déclenchera une fraude sur Azure. Et vous appelez immédiatement
ce client pour lui dire que vous réalisez avec
votre carte de crédit certains projets nationaux
et que c'est en cours de réalisation. Que se passera-t-il donc si ce client le fait
lui-même, fait transactions et qu'il s'
énerve parce qu'il est
tangent et qu'on l'a arrêté ? Dans ce cas, faux positifs créeront beaucoup de désagréments
pour le client. Et si cela se reproduit
encore et encore, cela va beaucoup
irriter le client De même, les défauts positifs faux négatifs peuvent également
mener au financement Si une
transaction frauduleuse est oubliée et qu'elle
passe par le système, Gordon entraînera
des pertes financières. Au conseil d'administration, nous
devons trouver un équilibre entre le faux négatif et le faux positif de
telle sorte que
ces deux cas se
produisent très peu. Capacité et
explicabilité interminables. techniques modernes d'apprentissage automatique telles que le deep learning peuvent fournir des modèles de
détection des fraudes
très précis. Cependant, ils
manquent souvent d'interprétabilité, ce qui rend difficile
l'explication des raisons qui sous-tendent les décisions du
modèle La capacité d'interpréter
et d'expliquer les résultats du modèle est essentielle pour gagner confiance et l'acceptation
des parties prenantes. Et pour relever ces
défis, il faut combiner des techniques de
modélisation avancées,
une surveillance
continue des expertises du
domaine, une
collaboration entre les data scientists, Unleashed et les
experts
du domaine afin de créer
un système robuste et adaptatif de
détection des fraudes dans les décharges de crapets. D'accord, maintenant, nous allons discuter certaines techniques avec lesquelles nous traitons l'ensemble de données
déséquilibré Parce que dans notre projet,
nous allons
utiliser un ensemble de données ou des transactions par carte de
crédit qui sont de nature déséquilibrée
, car la
plupart des transactions se
situent autour de 98,
99 %, Tange Excellence est plupart des transactions se
situent autour de 98,
99 %, Tange Excellence aussi légitime et une feuille de
1 % et les exons sont présents,
ce qui déclenchera le traitement frauduleux d'un ensemble de frauduleux gestion d'un ensemble de
données déséquilibré est une étape cruciale dans le développement de modèles efficaces de détection des
fraudes Voici plusieurs techniques
couramment utilisées pour relever les défis posés
par un ensemble de données déséquilibré La première technique est la technique d'
échantillonnage consistant à
rééchantillonner avec de l'eau. Nous allons échantillonner les données, nous en
avons, nous en avons deux. Nous devons le rééchantillonner afin de pouvoir gérer
le déséquilibre de l'
ensemble de données Et il existe également
quelques techniques de rééchantillonnage
que nous pouvons appliquer Le premier est le sous-échantillonnage. Les techniques de sous-échantillonnage
impliquent de jouer au hasard en supprimant des instances
de la classe majoritaire afin d'équilibrer l'ensemble de données Cela réduit la prédominance
de la classe majoritaire, mais peut entraîner
la perte d'informations précieuses. Donc, si nous continuons à supprimer
au hasard la classe majoritaire, cela peut également entraîner la perte d'informations
précieuses, mais c'est également
le cas. D'accord ? Ensuite, le suréchantillonnage de
ces listes de contrôle consiste créer des instances synthétiques de ces classes minoritaires afin
d'équilibrer l' de Dans ce cas,
nous remplissons l'ensemble de données avec
la classe minoritaire. Cela peut être réalisé
grâce à des techniques telles que suréchantillonnage
aléatoire ou la technique de suréchantillonnage minoritaire
d'un modèle synthétique
intelligent suréchantillonnage intelligent accroît
la représentation
de la classe minoritaire, mais peut conduire Cela a donc conduit au
problème du surajustement. Modèle hybride. Ces modèles combinaient
des techniques de suréchantillonnage et de sous-échantillonnage pour
équilibrer efficacement l'ensemble de données équilibrer La prochaine concerne les
techniques algorithmiques. La première est un apprentissage
sensible aux coûts plutôt que n. Ensuite, les deux méthodes, détection des
anomalies est
une autre technique, métriques
d'évaluation et la prise en compte
dans chacune d'entre elles sont donc
les techniques que nous utiliserons pour traiter l'
ensemble de données déséquilibré Dans notre projet,
nous allons donc traiter cet ensemble de données
déséquilibré
par suréchantillonnage, dans le cadre duquel nous suréchantillonnerons notre ensemble de données avec un cloud
dopaminergique cet ensemble de données
déséquilibré
par suréchantillonnage,
dans le cadre duquel nous suréchantillonnerons
notre ensemble de données avec un cloud
dopaminergique constitué d'activités frauduleuses. Alors rendez-vous lors de
la prochaine conférence.
90. Détection de fraude sans modèle: Bonjour et bon retour. Commençons donc
le projet. J'utilise donc ici un fichier CSV à points
de carte de crédit, qui contient les détails des transactions par
carte de crédit. D'accord, donc nous, la première étape
consiste à lire ce fichier CSV. Donc, pour ce faire, ce que je perds, c' je perds la fonction
CSV et passe le chemin du
fichier CSV et du nom du fichier TSV Donc, le plus sale,
nous allons le faire pivoter et ensuite je le rangerai
dedans Fiche de note variable. tellement important qu'
il en soit ainsi, car le
savez-vous ? Très bien. Jusqu'à présent,
l'étape consiste à exécuter ceci. Maintenant, nous avons les
détails de la fiche de note dans cette fiche de note, d'accord, dans cette variable. Donc, lorsque vous cliquez dessus, vous pouvez
maintenant voir ici quelques colonnes
multipliées par V1, V2, V3 Et cette V1, V2, V3 va se lire 20e Et puis la colonne est la quantité, puis une autre est le verre. Vous voulez donc être 28
, puis horodatage, puis colonne de montant et
colonne de classe Alors, quelles sont ces colonnes ? , horodatage et cette V1,
V2 à V 28, V2 à V 28, transactions des utilisateurs par carte
Arthur Jackson Et pourquoi il en est ainsi, parce que ce ne sont pas les véritables transactions
pour la région de la laïcité Et pour protéger les informations de l'énorme carte
Arcade. En utilisant le PCM. Nous l'avons fait. Ces colonnes sont la version réduite des données réelles afin de conserver le secteur des informations sur les
utilisateurs. Et pour cela, nous
utilisons le BCM et nous utilisons modalité
diamant pour le
réduire à cette forme afin que les
informations du juge rejettent votre montant et puis
il y a une classe. Les classes sont pour euro, les transactions du
grand livre du présentateur et l'
une représente des transactions frauduleuses une représente des transactions frauduleuses Il s'agit donc de la réhabilitation de l'ensemble de données, et nous allons
parcourir cet ensemble de données La prochaine étape est de voir la structure
de l'ensemble de données. Et pour cela, nous utilisons la fonction STR et
transmettons cette variable de carte. Et quand nous l'exécuterons, nous le ferons, nous leur donnerons, cela donnera le résultat. Je cours toujours. Commencez par étudier la
structure des données. D'accord ? La prochaine étape est la structure de l'horodatage
du jeu Vous pouvez donc voir ici que toutes
les colonnes sont numériques. Et parmi ces chiffres
et la vitre
qui se trouve ici, il y a le
numéro 1 de la GTO Mais en fait, ce
ne soit pas numérique, mais qu'il en soit ainsi, c'est une donnée
catégorique, Parce que c'est le cas, le facteur
déterminant pour l'euro est celui qui est
légitime et 1 pouce plus loin L'une concerne les
transactions frauduleuses , donc ce serait dans un format
catégorique Donc, ce que nous devons faire, c'est
en faire un facteur. Nous devons convertir cet
entier en facteur. Et pour cela, ce que je vais faire et utiliser le dollar des cartes de crédit, camarades de classe en
dollars, nous
allons utiliser ce cours D'accord ? Cette colonne. OK, vous pouvez donc lire que
Dollar Call Class nous
mènera à cette couleur. Ensuite, nous utiliserons
la fonction
factorielle pour la convertir en facteur. Et là encore, nous allons donner la classe en dollars des
cartes de crédit puis les niveaux de virgule Vous pouvez voir 01. Nous attribuons donc des facteurs G21. De ceci à cela. Donc, de cette façon,
il
sera converti en facteurs. Donc plus tôt c'était Integer. Maintenant, si nous voyons la
structure du jeu de données, si je l'exécute à nouveau, vous pouvez voir ici que toutes les
autres colonnes sont nomades et que le verre n'est pas divisé
en deux niveaux. 01. D'accord ? Nous avons donc
réussi à convertir la colonne de verre, deux
facteurs précieux. D'accord ? Encore une fois, nous allons
voir la structure de l'ensemble de données et
remarquer le facteur lunettes. La prochaine étape consiste
à vérifier cette valeur manquante. Ainsi, chaque fois que nous obtenons notre ensemble de données, la première chose que nous faisons est de
vérifier la présence de valeurs nulles. S'il n'y a pas de valeurs, nous devons nous y attaquer. Nous devons gérer les
valeurs nulles en mettant des perdants, supprimant les colonnes, les étages, qui contiennent un plus
grand nombre de valeurs nulles Il existe donc quelques techniques que nous suivons pour gérer
les valeurs manquantes. Et ici, pour vérifier les valeurs
manquantes, nous utilisons toutes les zones sombres et analysons à nouveau
le Et le pouce est
un a qui nous donnera le nombre total de
valeurs manquantes dans l'ensemble de données. Une partie est sombre,
puis la
variable de l'ensemble de données ici sera transmise. Alors laissez-moi m'occuper de ça. Maintenant, il arrive à zéro. Cela signifie que notre
ensemble de données
ne contient aucune valeur manquante, de sorte que nous
ignorons les valeurs manquantes. Nous n'avons donc pas à nous
inquiéter à ce sujet. Nous n'avons
rien à faire pour cela. La prochaine étape consiste à obtenir la répartition des fraudes et des transactions légitimes
dans l'ensemble de données Maintenant, pour cela, nous allons utiliser la
fonction table et nous allons passer la colonne de verre car la colonne classe est le facteur de
distribution qui permet déterminer laquelle est une frauduleuse et laquelle
est une transaction légitime Donc carte de crédit, dollar,
classe et tables. Cela nous donnera donc le nombre de transactions et le nombre
de transactions frauduleuses. Donc zéro est 28 004, soit
84 fois trois, nous obtenons transaction du grand livre un remontée 492 ou les transactions frauduleuses Donc, avec cette semaine, sachez qu'il
s'agit données déséquilibré,
car
la majeure partie de l'ensemble de données, chacune ayant ses tangentes et une transaction légitime
agile
et solitaire à deux pattes
34 300,492 comme une transaction
frauduleuse,
ce qui est bien moins que la transaction grand livre ce qui Il s'agit donc d'un type d'ensemble de données
déséquilibré. Nous allons maintenant voir quel
est le pourcentage de transactions légitimes et
frauduleuses
dans l'ensemble de données de Berlin transactions légitimes et
frauduleuses
dans l'ensemble de données de Pour ce faire, nous allons utiliser la fonction prop dot
table Et nous allons passer cette table, et nous allons passer
cette classe de colonnes. D'accord ? Alors laisse-moi voir. Vos 99,8 % sont frauduleux,
désolé, plus tard Angie, Excellent 0,017 % concernent les
transactions frauduleuses. La prochaine étape est donc,
laissez-moi le mettre
dans les diagrammes circulaires. Donc, pour créer un graphique circulaire, nous allons d'
abord créer une logique et produire
deux vecteurs ici. Ensuite, nous allons l'
attribuer à des niveaux, puis nous allons créer
un autre niveau. Et nous utiliserons la fonction de collage en
fonction de ces étiquettes. Nous allons donc prendre les niveaux, c'est légitime, puis nous
utiliserons le cent rond comme table
d'accessoires. Cela nous donnera
le pourcentage
du pourcentage des transactions légitimes
et frauduleuses Et voici la virgule deux et nous y sommes allés
parce que je veux qu'ici, il y ait plusieurs chiffres
après la virgule décimale Je veux le limiter
au chiffre,
puis aux niveaux, aux niveaux
et aux pourcentages. Ensuite, nous utiliserons la fonction
pipe. Ici. Ils transmettront la table K plus nom de la colonne sur laquelle je
veux tracer le tableau ICE,
puis ils étiquetteront cette table légitime et frauduleuse Et puis la colonne A s'effondre ou chaque couleur
a un Android vert. La partie verdâtre, les leptons sont
excellents pour lire la suite, frauduleux et se
débrouillent à égalité Ce sera le titre
de notre diagramme circulaire. Alors laisse-moi gérer tout ça ensemble. Et il s'était vraiment
fait par graphique ici, transaction
légitime en 99,83
et frauduleuse et vin 17 Répétons-le. Ici. Le diagramme circulaire représente votre registre des cliniques et ses
99,83, et ça fait trois,
tout passe au vert. Et le rouge est prêt pour
seulement 0,17 % de moins. Il s'agit donc d'un ensemble de données véritablement
déséquilibré. Maintenant, ce que je vais faire, je vais juste essayer de prédire
avec un modèle normal, la prédiction n'
utilisera aucun algorithme
d'apprentissage automatique et religieux essaieront de prédire
sans bouteille. Donc, pour cette étiquette x et y et pour une répétition
ou une fonction énorme, ils sont intégrés à GTO. Alors ce que je vais faire, c'est
payer par carte de crédit. Ainsi, dans notre ensemble de données pour toutes les lignes, le retour sur investissement
donnera un chiffre proche de
celui de l'ensemble de données Kate. Et pour tout, la fusée
va répéter zéro, elle va remplir des zéros Ainsi, tout le projet deviendra une
transaction comptable Ensuite, nous utiliserons le sens de la
prédiction du facteur et
les niveaux G, première ligne. Et ensuite laisse-moi m'occuper de ça. D'accord ? Et si je mets
Predict Sense, OK, et Predictions, OK, alors j'utiliserai la bibliothèque de
personnages ici. Parce que je vais utiliser
la matrice de confusion. La
matrice de confusion, et un boss, ces données, comme vous les
appelez une prédiction,
celle-ci fait référence à la
classe monétaire des cartes de notes. Et si j'utilise ces mesures de
confusion, assure qu'il s'agit d'
une prédiction chargée. Vous voyez que la précision de
ce modèle est de 99,83. Ainsi, toutes les transactions ont
été
correctement classées comme légitimes Toutes les transactions du grand livre sont correctement classées comme légitimes Et cette maladie, les additifs et tout
ça, c'est négatif. Il en va de même pour 92 transactions
frauduleuses qui ne sont pas considérées comme des transactions
frauduleuses. Toutes les transactions de l'ensemble de
données ont donc été classées
comme Leggett et exons, même celle-ci pour 92 tan x
et Notre modèle de prédiction n'
a pas été
considéré comme une transaction
frauduleuse inscrite dans le
grand livre Comme il s'agit d'un ensemble de données véritablement
déséquilibré, notre modèle de
prédiction prédit tout manière légitime, car il ne
s'entraîne pas sur
les données frauduleuses,
car elles sont très
inférieures et c'est pourquoi tout se répercute sur
le véritable taux Il s'agit donc de la prédiction basée sur la prédiction normale du modèle. Nous n'avons utilisé aucun modèle ni algorithme d'apprentissage
automatique. Dans le prochain cours,
nous utiliserons donc un algorithme d'
apprentissage automatique pour gérer cet ensemble de données
déséquilibré Et nous essaierons
de mieux prévoir. Rendez-vous lors de la prochaine conférence.
91. Créer un échantillonnage de jeux de données de formation et de test: Bonjour et bon retour. Dans cette conférence, nous
allons donc approfondir notre projet. Et ce que je vais faire ici, je vais m'en emparer. Ce que nous allons faire, c'est prendre les échantillons de données à partir des données de
courant de porte dont nous disposons. Nous allons donc prendre les dix pour
cent des données de l'ensemble
de
données existant au niveau de l'échantillon. Sur cette base, nous allons
essayer de créer un modèle. Ensuite, lorsqu'il donnera des prévisions
correctes, nous appliquerons ce
modèle à l'ensemble de données. Alors, pour
ce faire , que pouvons-nous faire ? Je vais utiliser
une bibliothèque en ré bémol. Il vous suffit donc de le télécharger. Si ce n'est pas le cas, téléchargez-le. Et puis vous avez créé la bibliothèque, nous allons utiliser
puis définir la valeur de départ. Premièrement, ce rapport, parce que lorsque je prends 10 % de cet ensemble de données
de cartes de crédit. Donc, si vous ne définissez
pas un pool de graines défini, ce qui se passera à chaque fois sera prélevé au hasard sur
les dix pour cent de l'ensemble de données et chaque fois, ce sera
différent, dix pour cent. C'est pourquoi nous
voulons la même configuration, 10 % à chaque fois que nous exécutons ce code. À tel point que j'en perds un. OK, alors allons-y. Et puis Cape Cod. OK, je l'ai rafraîchi. Laissez-moi donc essayer de réexécuter
tout le code. OK, alors voyez maintenant que nous avons retiré les dix pour cent de cette carte. Voici l'ensemble de
données à partir de là, je prélève un échantillon,
je souligne, cette fonction que j'utilise
et je donne 0,1,
0,1 min, 10 % de
l'ensemble de Je prends donc le flux
de 10 % entre les tranches de
l'ensemble de données et je l'attribue à
ce gardien de portail Précieux. D'accord ? Et puis quand je lance ça, vous pouvez voir que nous avons fait la même configuration,
les mêmes lignes et colonnes. D'accord ? Ensuite, j'utiliserai la table, et j'utiliserai cette classe. Alors laisse-moi m'occuper de ça. Maintenant. Nous avons le bénéficiaire ici bascule d'avant en
arrière ou quelque chose Donc 10 % de ça. OK, et ici, le chiffre légitime
est de 28 000, aucun
protestant et en vendre 44 D'accord, nous avons maintenant pris les dix pour cent de
l'ensemble de données. Quelles sont les choses ? Maintenant, je vais utiliser GG plot
pour simplement l'utiliser. Et s'il n'est pas téléchargé, vous le téléchargez, vous
l'installez, puis vous l'utilisez. D'accord ? Et voici ce que je vais faire, je vais essayer de créer un diagramme de dispersion Mais pour cette année, cette personne décédée que nous
venons de créer, anesthésie peut utiliser
les axes x et y. Nous faisons des colonnes et des
couleurs et encore une fois, les créons dans la classe zéro ou un de
dernière minute Un point légitime sur le devant,
d'accord ? Géomérez des points, non, ne
louez pas noir sur blanc. Créez votre graphique en équipe. Cela aura donc l'air
en noir et blanc. Et le manuel d'échelle des couleurs
ici en bleu et noir. Bleu et rouge, désolé, pas noir, bleu et rouge. Couleur bleutée. L'euro et la guerre pour
un
livre rouge et bleu pour les transactions et le rouge pour les transactions frauduleuses Alors laissez-moi exécuter cet outil D'accord, alors voyez ici, maintenant nous avons ce nuage La classe représentant
0,1 représente, mais elle est toujours déséquilibrée Il y a tellement de Jackson que peu d'entre eux sont
coupables de fraude. OK, maintenant nous avons les 10 % des données et nous les avons
tracées avec succès Ensuite, nous devons
créer l'ensemble de formations et de
tests pour la création du modèle
de détection des fraudes. D'accord, pour cela, je
vais voir des outils. Si vous ne l'avez pas encore installé, vous pouvez l'installer à
l'aide de install.packages. Et vous pouvez voir vers
le back-end que
vous souhaitez installer la bibliothèque Ils utilisent tous la bibliothèque. Et a achète ce nom, celui de Seattle. Et je l'ai fait, puis je vais m'en servir pour ensemencer 123. Ensuite, je vais prélever
l'échantillon de données. Et ce que je vais faire, c'est diviser cet échantillon de données
que nous avons prélevé à 10 %. Maintenant, cet ensemble de données
de 10 % est divisé en 80, 2080 pour l'entraînement
et Bronte pour le test Pourtant, je vais donner à l'
exemple un point, diviser la classe de carte de crédit sur cette
base, vous savez, et un point pour le classificateur,
puis vous faire une course divisée, je vais donner 80 %
pointu pour l'
entraînement et 20 % pour acheter le pointillé OK, et la prochaine étape
concerne les données entraînées. Et prenez le sous-ensemble de
cet échantillon de données et le sous-ensemble d'échantillons de
données, utilisation
fonctionnelle et la carte de notation Et si un échantillon est
appelé a tos 2 min. Laissez-moi d'abord vous expliquer pourquoi vous
n'avez pas compris le vrai et le faux. D'accord ? Ainsi, lorsque nous analysons cet échantillon de données, il ne détecte pas
le vrai, le faux, vrai, le vrai, le faux. La valeur True concerne les
transactions comptables et la False correspond à la fréquence des
transactions frauduleuses OK, maintenant nous avons
l'échantillon ici. Donc, ce que je vais faire, c'est
prendre les deux ALU et je vais obtenir les
fausses valeurs ici. Laissez-moi donc analyser ces données de tendance et ce
seront les données de test. Donc, ensemble de données d'entraînement
et cet ensemble de données. Maintenant, si nous voulons connaître le sens en losange
de ce train et de ce jeu de données d'
entraînement et
du jeu de données, vous pouvez utiliser un nom de fonction sombre,
train underscore data 22 007, 85 lignes et 31 colonnes. Et pour theta 5 696,31 colonnes, les lignes et les colonnes Ainsi, nous pouvons obtenir le
train et le jeu de données de test. Lors de la prochaine conférence, nous
aborderons plus en détail la création du modèle
prédictif
92. Méthodes d'échantillonnage aléatoire sur et sous échantillonnage: Nous avons donc maintenant les données de test et les
données d'entraînement. Traitons l'ensemble de données
déséquilibré. Il y a donc deux, trois approches
que nous allons
voir dans ce projet. Le premier est le
suréchantillonnage aléatoire. Ensuite, nous verrons le sous-échantillonnage
aléatoire, puis nous verrons les
deux ensemble. D'accord ? Commençons donc par
le suréchantillonnage aléatoire Qu'est-ce que le suréchantillonnage aléatoire ? Le suréchantillonnage aléatoire signifie que
nous devons évaluer 50 à
50 % des cas légitimes et de fraude
. D'accord. Donc pour cela, ce que je vais faire, je vais utiliser les données du train
et au-dessus de cette table en verre. Et laisse-moi m'occuper de ça. Alors voyez maintenant que nous
avons la rose légitime,
22 007, 50 et pour notre fuite
historique de 35 ans OK, c'est donc déséquilibré, nous devons
donc
suréchantillonner aléatoirement cet ensemble Le suréchantillonnage aléatoire
signifie que nous devons
placer les deux
conformément aux accords des élèves Nous devons les mettre
tous les deux sur un pied d'égalité. Donc, pour cette analyse, le nombre de transactions est appelé
collagène, Ashley 22 007, 50 Et ce que je veux faire de la
nouvelle fracturation et c'est souvent légitime,
eh bien, c' est comment, ce que je veux 50 % OK, je vais maintenant collecter
le nombre nouveau et total de lignes
requises dans notre
nouvel ensemble de données par
rapport à un échantillon de données. Donc voici ce que je vais faire, je vais être vraiment allergique à celui-ci divisé
par la fraction de portes
logiques comme nous le
voulons pour que nous le
fassions et nous obtenions un nouveau chiffre OK, alors laisse-moi m'occuper de ça. Cela fait donc 45 500 lignes. Nous en avons besoin comme bus, d'accord ? Alors maintenant, je vais
utiliser le package Roche ici. Donc, si vous ne l'avez pas installé, vous suffit de l'installer.
Dans le cas contraire. C'est tout simplement énorme. Il est assez solide lorsqu'il est
installé ici et crée un suréchantillonnage
précieux, ce que l'on appelle Et il avait une énorme méthode d'échantillonnage par
points. Et ici je vais donner la classe en
tant que variable, variable
indépendante. Et ce point
indiquera toutes les autres variables
disponibles dans les ensembles de données. Et puis la virgule,
puis les données sont égales à :
nous utilisons ces données de
train, nous entraînons les données de soulignement
que nous avons créées Ensuite, la méthode est le suréchantillonnage. Et en nombre de roses,
nouvelles, le total
s'élève à 45 500 Et les graines que j'utilise ici, pour obtenir le
même résultat à chaque fois. Alors laisse-moi m'occuper de ça. Alors maintenant, il est lancé. Maintenant, si nous regardons cela ou si nous regardons le suréchantillonnage
aléatoire,
ils facturent, vous pouvez
voir ici Cliquez ici et vous pouvez voir que
la prochaine étape est si vous voulez voir les données,
nous devons utiliser le suréchantillonnage, ce que l'on appelle les données du signe du dollar Cela nous donnera donc l'ensemble de données. D'accord ? Maintenant, si nous examinons ce
tableau d'ensemble de données, le suréchantillonnage, crédit y verra 45 500 lignes et les cas allégés à 22 017,
50 et les
cas frauduleux sont également imprimés dans un didacticiel 50 Hein ? Maintenant, ce que je vais faire, est simplement tracer cela à
l'aide de GG plot. Donc ici, thêta est égal à, je vais prendre ce suréchantillonnage d'
excellentes données Pourquoi ? Nous utilisons Class Color, Class, Class, Geom Point
et Thin Blue, comme
nous
l'avons fait précédemment Permettez-moi donc de tracer cela et de voir à
quoi ressemblent nos données. Maintenant, j'ai un suréchantillonnage. OK, parce que je clique sur le prix. Regardez ici maintenant notre nouveau jeu de données
ou notre exemple de jeu de données
Word ressemble à ceci. Il s'agit du diagramme de dispersion et
c'est pourquoi nous constatons toujours que le nombre de cas relatifs aux terres agricoles est très inférieur au
nombre La plupart d'entre eux regardent le
bleu uniquement parce que pour chaque cas de
fraude.
Nous avons créé
des entrées dupliquées
lors du suréchantillonnage Et c'est pourquoi chacune d'
elles contiendra un plus
grand nombre de valeurs dupliquées. C'est pourquoi, derrière tout cela,
il y a plus de points. D'accord ? Donc, pour l'examiner, pour mieux le tracer, nous
pouvons utiliser le t-test Le test t vous donnera
plus de visibilité à ce sujet. Alors laissez-moi vous le dire ici. point géométrique de Giussani
est la position du quadrupède, Le point géométrique de Giussani
est la position du quadrupède,
le détail du trait de soulignement et la largeur. On peut mettre 0,2 ou je
peux même mettre 0,5. Et laisse-moi m'occuper de ça. Ces points seront maintenant
un peu plus détaillés. Cela permettra donc de savoir
qu'il y a plus de points. Et pas seulement sur ce point,
car le suréchantillonnage, et non la duplication,
créera une duplication
des données existantes Je pourrais le voir ici.
Maintenant, vous pouvez voir qu'il y a plus de points, des points plus importants. Donc, c'est à cause
des doublons. D'accord ? Nous avons donc maintenant compris ce qu' est le suréchantillonnage et
comment y parvenir OK, le suréchantillonnage est
qu'il y a un problème avec quelque chose qui peut
créer des points dupliqués Nous allons maintenant voir le sous-échantillonnage
aléatoire. Pour le sous-échantillonnage, utilisez-le
également. Soulignez ensuite les données. Et puis ici, il
y a un certain nombre de lignes frauduleuses dedans. Commencez simplement si j'écris N, la fraude sera de 35. Je savais ce que je voulais. Je veux 50 % de
l'ensemble de données. Et le total des nouveaux cas de fraude sera
divisé par 0,5. Cela nous donnera donc le
nombre total de routes requises pour le sous-échantillonnage aléatoire.
Nous en sommes maintenant à ce sujet. aura 70 nouveaux rôles au total Il n'y aura
donc qu'une seule
liste, 70 rôles requis. Si nous procédons à un
sous-échantillonnage, c'est assez faible et cela
entraînera la perte de bêta. OK, encore une fois, pour
les autres candidats, je vais
donc utiliser le package. Ici, je vais créer un
sous-échantillonnage, un sous-échantillon, un pour adultes et mon propre échantillon.
La même chose que j'utiliserai. Tout sera
pareil sauf que cette méthode
métallurgique
sera sous-échantillonnée Et c'est ici que nous allons passer au
nouveau total et à la nouvelle place. Et laisse-moi m'occuper de ça. Nous l'avons maintenant fait avec
des échantillons de données. Maintenant, vous voulez voir
l'ensemble de données, l'USDA, sous-échantillonner les données et sous-échantillonner un grand
écrivain alkylera nous qui gérons ça. Nous avons maintenant
ce sous-échantillonnage Ce que Lisa
Monday y dévoile. Et la moitié d'entre eux
sont légitimes et
l'autre moitié sont frauduleux. Mais cela nous mènera à la
perte de données si vous
tracez la même chose. Voyons voir. Ici. Les affaires Legged et les
affaires frauduleuses sont presque les mêmes Mais ici, nous avons perdu
près de 22 700 lignes. Cela n'est bon pour aucune
analyse ni pour aucune donnée de prévision. Ainsi, lors de la prochaine conférence, nous combinerons
ces deux facteurs : le sous-échantillonnage et le
suréchantillonnage, et
nous essaierons
93. Utiliser ensemble ROS et RUS pour équilibrer les données: Bonjour et bon retour. Nous avons maintenant vu comment nous
pouvons travailler avec le ROS de
suréchantillonnage aléatoire Ensuite, nous avons vu comment nous
pouvions travailler avec le sous-échantillonnage, le
suréchantillonnage et
le sous-échantillonnage
aléatoires que suréchantillonnage et Ces deux méthodes présentent toutefois certains inconvénients, car le
suréchantillonnage
peut également provoquer des lésions et le
sous-échantillonnage entraînera la suave ou la suppression de la plupart
des lignes,
ce qui peut avoir un impact sur la
prise de décision concernant
la prédiction et nos D'accord ? Ainsi, les approches utilisant
les deux ensemble signifient
que le
suréchantillonnage et le sous-échantillonnage aléatoires
fonctionneront ensemble Cette méthode s'appelle donc board. Tout sera donc pareil ici. Ce que nous allons faire, je vais utiliser
et new et Andrew, le nombre de lignes du jeu de
données d'entraînement. Ce sera donc 12 000 étudiants
bénéficiaires du tutoriel 785 D'accord. Nous pouvons donc mettre en place le commandement et de nouveaux renseignements 785 Maintenant, fracturation et fraude, c'est nouveau, ce que nous voulons faire,
c'est trouver 5 %, 0,5 La moitié de ces transactions seraient des transactions frauduleuses et
l'autre moitié des transactions liées au
registre des sources de données Maintenant, nous allons procéder à l'échantillonnage Je vais
donc utiliser l'échantillon de points et la même chose que nous
avons utilisée pour le paramètre underclass Et puis tous les autres trouveront
ce point, résoudront les autres colonnes, arriveront vraiment , puis le train de données
soulignera la méthode de données Ici. Auparavant, nous avons utilisé
cette méthode à maintes reprises. Nous allons maintenant utiliser les deux. Cela permettra donc à la fois de
sous-échantillonner et de suréchantillonner. Et vous pouvez faire un trait de soulignement
nouveau et être égal à flexibilité et souligner la fraude ou l'inconduite qui connaissait
le cadre. Alors nous sommes toujours des graines. Cela va donc obtenir
le même retarget. Ensuite, lançons ça. Et si vous voulez voir
l'échantillon de l'ensemble
de données sur les enfants où ils vont
alkyler et prélever des échantillons, échantillonnage met en évidence les données en dollars. Cela vous donnera votre
échantillon parce qu'ils ont sauté. Voici donc les données. D'accord ? Nous allons maintenant créer notre table. Alors à bientôt. 11 004, 31 est
inférieur ou égal à cinq. Donc, presque le même nombre de cas
légitimes et frauduleux. Il s'agit donc d'
un peu d'équilibre. Hein ? Nous allons maintenant créer la table d'accessoires. Et ici, vous pouvez voir
le pourcentage de personnes
si légitimes, si tragiques qu'elles ne sont presque pas des personnes
appropriées Et 49 % concernent les transactions avec la
patrie. Maintenant, si nous traçons
cette distribution, nous utiliserons la même partie de l'examen, celle-ci ou cet ensemble de données. Et nous voulons refaire x et y. Et des couleurs froides sont
créées sur le verre et les
points de géométrage G et 0,3 OK, allons-y. Donc C mais c'est
le nuage de points. Et vous voyez que les points
bleus sont immobiles, vous pouvez voir que cela
provient davantage,
mais en fait, ce n'est pas de cela
parce que nous avons un échantillon robuste et un autre échantillon ou un échantillon. Ainsi, les cases à jambes en contiennent
moins dans l'ensemble de données, ce qui
fait double emploi avec celles créées par l' administrateur et c'est
là que cela se Le rouge et le bleu sont donc presque identiques, mais les taux se chevauchent Celui de droite
ressemble à moins d'un, mais vous pouvez le voir. J'ai utilisé les détails ici. Ce trait de caractère est
donc un peu nerveux. D'accord ? Nous avons donc maintenant vu comment nous
pouvons effectuer le suréchantillonnage, le sous-échantillonnage et également utiliser Ensuite, nous utiliserons la technique de
suréchantillonnage synthétique des minorités pour équilibrer les données C'est ce qu'on appelle une technique
intelligente. Et pour cela, nous utiliserons également la bibliothèque familiale
Smart. Lors de la prochaine conférence, nous en
apprendrons davantage sur
le sport, puis nous
écrirons le code de la technique intelligente de
suréchantillonnage synthétique des minorités OK, alors rendez-vous lors de
la prochaine conférence.
94. Avantages et désavantages du SMOTE: Dans cette conférence, nous
allons découvrir suréchantillonnage des
petites minorités synthétiques,
qui est une technique de
suréchantillonnage très populaire, utilisée pour résoudre le problème du déséquilibre des
classes dans
l' déséquilibre des
classes dans Il fonctionne en créant des échantillons
synthétiques de
classes minoritaires similaires aux échantillons de classes
minoritaires existants. Cela permet d'équilibrer la distribution des
classes et d'améliorer les performances des modèles d' apprentissage
automatique
sur un ensemble de données déséquilibré Cela
résoudra donc réellement le problème auquel nous avons été confrontés avec les méthodes de suréchantillonnage et
de sous-échantillonnage C'est pourquoi on parle suréchantillonnage
synthétique des minorités Ainsi, cette transaction
minoritaire
suréchantillonnera cette classe minoritaire, mais au cours d'une semaine très synthétique Il s'agit donc également d'une technique de
suréchantillonnage uniquement, mais Nous allons donc voir comment cela se fait. Voici quelques-uns des avantages
d'une technique intelligente et intelligente. C'est une technique vraiment simple et facile
à mettre en œuvre. Il peut être utilisé dans divers algorithmes d'apprentissage
automatique. Il peut être efficace pour
améliorer les performances des modèles d' apprentissage
automatique
sur des ensembles de données déséquilibrés La première chose est donc que c'est très simple et
facile à mettre en œuvre. Et il peut également être utilisé avec divers
algorithmes d'apprentissage automatique Et cela améliorera les performances des modèles d'apprentissage
automatique. Sur un ensemble de données déséquilibré. Le smart présente également certains inconvénients
. Il peut créer des échantillons
synthétiques trop similaires aux échantillons
de
classe magnétique existants, ce qui peut entraîner un surajustement Cela peut donc entraîner un
surajustement car cela
suréchantillonnera la base de données
sur les échantillons de classes
obligatoires existants Cela peut donc conduire à l'ensemble de données de telle
sorte qu'il le dévore, qu'il puisse surajuster le modèle
et que notre modèle
ne prédira pas le résultat correct Cela peut augmenter le
bruit dans l'ensemble de données, ce qui peut également
entraîner un surajustement Cela peut être
coûteux en termes de calcul, en particulier pour les grands ensembles de données,
car nous suréchantillonnons Et si le jeu de données
est déjà volumineux, c'est le cas, il sera plus volumineux et nécessitera plus de temps de
calcul Et les dépenses seront très élevées car il
faudra plus de temps pour faire des calculs et
appliquer n'importe quelle méthode à ce sujet Dans l'ensemble, une technique de
suréchantillonnage
plus synthétique des minorités est donc une technique puissante qui peut
être efficace pour améliorer performances des modèles d'apprentissage
automatique
sur des ensembles de données déséquilibrés sur Cependant, il est important de
connaître ses limites et de l'
utiliser avec prudence. Nous allons maintenant voir quels sont les inconvénients et
les avantages abord, une technique intelligente. Encore une fois, les avantages de l' EEG et de sa simplicité de mise en œuvre et inconvénients qu'il peut créer ou il peut entraîner peuvent être utilisés sur une variété d'algorithmes d'
apprentissage automatique peuvent être supérieurs à ceux du riz Ils ont dit un test. Et
pouvons-nous prendre en compte l'amélioration des des modèles de
performance des pompes à apprentissage automatique Cela
coûtera cher en termes de calcul Nous avons donc maintenant une
compréhension de base du concept intelligent et nous savons comment et quels en sont les avantages et les
inconvénients. Dans le prochain cours,
nous allons implémenter la technique intelligente
dans notre projet
95. Appliquer la technique SMOTE sur l'ensemble de données de formation: Bonjour et bon retour. Dans cette conférence, nous allons
continuer à écrire notre code. Technique intelligente, technique suréchantillonnage
synthétique des minorités pour équilibrer
l'ensemble de données ou
technique utilisée
dans l'ensemble de données
GitHub Nous devons donc installer ici le backend
install.packages Je vais donc utiliser la famille
Smart ici. Donc, s'il n'est pas installé, il
vous suffit de l'installer en exécutant cette commande, puis d'utiliser
les bibliothèques Spot Family. D'accord. Donc, la première chose à
faire est de l'exécuter. OK, la prochaine étape est d'utiliser les données du
train sur la vitre. Alors voyez ici maintenant, ce sont nos données orientales,
nos données d'entraînement. Ainsi, 22 007, soit 50, c'est le
nombre de cas,
35, les affaires foncières générales Maintenant, nous allons fixer le nombre de fraudes et le laisser deviner La personne recherchée a
discipliné les gaz médicinaux. D'accord. Il y a donc autant de suppositions
dans l'art, les données d'entraînement
originales et
les cas prévalents à 35 ans Et ce que nous voulons pour notre
gyroscope, je lui ai donné 0,6. Qu'est-ce que cela signifie ?
Cela signifie que je veux notre nouvel ensemble de données. Après cette technique intelligente. Je veux que ce soit environ 60 %
des suppositions légitimes et 40 % des
cas frauduleux, d'accord, donc 60,
40 cette année, je veux faire des cendres, je donne mais Arg2
est égal à 0,6 min,
60 % des cas, et 40 % des suppositions de première ligne seront celles Alors, comment calculer les meilleurs sites ? Donc,
si vous regardez cette
fonction de mode de manière synthétique, vous pouvez mettre F1 et vous pouvez voir cette technique de
suréchantillonnage des minorités synthétiques C'est donc par le biais de la dendrite, pinceau
synthétique pour accéder à des instances, instances utilisant un algorithme intelligent Et quels sont les paramètres ? Tx, dx, dx, c'est notre jeu de données. cible, c'est que la colonne
sur laquelle nous voulons cibler, comme dans notre cas, est le verre. Et puis k. Et puis nous avons
les tailles dub, dub, dub. Nombre de fois que c de x est le DataFrame du jeu de données attribué
numériquement. Target est un vecteur de la classe cible correspondant
à ce qu'elle fait si dx k, le nombre de voisins les plus proches pendant le processus d'échantillonnage,
puis la taille du double trait de soulignement est le nombre
ou le vecteur représentant le chiffre multiplié par
le instances minoritaires
synthétiques par rapport
au nombre initial d'instances
majoritaires D'accord ? Combien de fois voulez-vous que cette technique intelligente pour
que nous décidions
et comment nous pouvons prendre cette décision ? Nous pouvons décider en
utilisant cette formule. Ici, j'utilise la formule 1
-0/0 en n divisé par n, n1, et cela donnera moins un D'accord ? Voici donc la formule. Cette formule donnera
le nombre n fois le nombre décharges égal
à l'étape de doublage. Nous allons donc calculer cela. Laissons ça et
laisse-moi voir combien. 422 fois il doit fonctionner. OK, 432 ouvert, 334433. OK, maintenant nous avons aussi
la phase de doublage. Nous allons maintenant utiliser la
variable de sortie
Smart Underscore pour stocker les
données que nous obtiendrons à partir d'ici fonction si fluide
que nous utiliserons, puis x, x sera notre train de
données d'entraînement et
donc notre coordinateur. Et puis ici j'
utilise une virgule vide ,
puis je vais faire
moins c une virgule un Pourquoi est-ce que je fais ça ?
Parce que dans notre ensemble de données, dans notre jeu de données d'entraînement, dans notre ensemble de données d'entraînement. Si tu regardes ici. Donc, v1 à la première colonne de chaque
horodatage dont nous n'avons pas besoin. C'est pourquoi je déplace
cette première colonne,
horodatage, puis nous en aurons
une autre. La classe. Alors classe aussi, je
supprime Chrome. Oui, donc c'est vrai, 1,31 première et la dernière colonne, je suis de niveau Nous ciblons ensuite les données
de soulignement du train La colonne
cible est une
classe appelée classe J'en donne cinq et le surdimensionné
est égal à n fois. Alors laisse-moi m'occuper de ça. OK, maintenant, si nous l'exécutons et si vous
voulez voir les données,
ce sera sur les données qu'
ils souhaitent ou sur des données en dollars. Et nous allons l'exécuter pour
examiner les données, que vous pouvez voir ici. Maintenant, le nouvel ensemble de données
intelligent contient V1, V2, V3, jusqu'à lire 28, puis le
montant, puis la classe, accord. Maintenant, la classe ici est minuscule c. Plus tôt, nous l'avons
utilisée dans la capitale. Pour éviter toute confusion, nous allons simplement le remplacer par des
majuscules C. Pour ce faire, nous devons utiliser la fonction de
longueur, qui prendra le
nom de l'ensemble de données , puis le numéro de colonne Ensuite, vous pouvez donner le nom
que vous voulez à cette colonne que
je donne à votre classe. Et quand je l'exécuterai,
il sera modifié. Et si je clique à nouveau sur, la classe est maintenant
en majuscules, d'accord ? Maintenant, si vous voulez
voir le pourcentage indiquant s'il a
été perturbé, le suréchantillonnage ou l'échantillonnage a été effectué par
S2 pendant Tu ne l'es pas. Nous allons donc utiliser la table d'accessoires que
nous avons utilisée précédemment Et ici, nous allons transmettre le
score de crédit, les petits ensembles de données, la colonne de classe,
et nous allons l'exécuter Vous voyez, maintenant d rho est de 60 %
et 1 est de presque 40 %. À présent, notre ensemble de données
est distribué comme 60 % des cas
et le pourcentage recherché concerne
les cas frauduleux. Nous allons maintenant comparer avec
le nuage de points d'origine. Il s'agit du nuage de points d'origine que
nous avons créé sur le jeu de données
d'entraînement Alors laisse-moi te montrer à
quoi ça ressemblait. Voyez-le comme ça. Je ne connaissais pas la
distribution des données. Les cas de fraude
étaient très peu nombreux. Et maintenant je vais tracer le
nouveau plan, c'est exact. Et c'est grâce à une technique intelligente et
intelligente que nous avons appliquée. Vous pouvez maintenant voir que notre ensemble de
données est plus équilibré. Et ce
champ gazier plus technique, bien qu'il le fasse avec le plus grand nombre de suppositions
frauduleuses ici Et il ne s'agit pas de valeurs
qui se chevauchent ou se dupliquent. Ce sont les
points synthétiques qui
ont été remplis grâce à la technique
intelligente. Nous avons donc maintenant le jeu de données, le jeu de données sur le
déséquilibre. La prochaine étape que nous devons faire créer
un arbre décisionnel et de prévoir
les cas de fraude que
nous traiterons lors de la prochaine conférence.
96. Prédire les cas de transactions par carte de crédit avec le modèle: Bonjour et bon retour. Nous sommes donc maintenant en mesure de
prévoir les cas de fraude sur
la base de l'ensemble de données que nous
avons créé dans ce mode. Prédisons donc la
valeur en nous basant sur notre modèle. Pour cela, nous allons utiliser
les packages rpart et rpart
plot vous ne l'avez pas installé, Si vous ne l'avez pas installé, vous ne l'avez donc pas installé en exécutant
ces deux commandes. Et puis la bibliothèque rpart
et la bibliothèque notre dotplot. D'accord ? Et puis ici, je suis généralement un
modèle de garde en tant que variable. Et voici ce que je vais faire, je vais utiliser la fonction rpart Si nous voulons savoir ce qu'
est la fonction rpart, vous pouvez mettre rpart F1 et cela vous
donnera la récursive, le
partitionnement récursif et l'arbre de régression de
nos partenaires Donc, si nous voulons en savoir
plus à ce sujet, vous pouvez lire la documentation et savoir ce
qu'il faut pour cela, prendre la formule présentée
avec l'indice x les défauts
de
nos pièces et de nos modèles, etc. D'accord ? Si vous
voulez lire en détail, vous pouvez aller le lire. D'accord ? La prochaine étape est d'aboyer, puis nous leur donnons
les colonnes ou la variable
dépendante. Donc, dans notre cas, chaque classe
, puis sign puis point signifient toutes les variables
indépendantes. point va donc prendre
toutes les autres variables indépendantes. Ensuite, nous allons
utiliser l'ensemble de données. Grand cours spécialisé. Plus de données. Nous l'avons fait, nous avons fait en appliquant
le marché de manière intelligente. Alors allons-y. Vous pouvez donc maintenant voir que le modèle
GARCH est ici. Et d'accord, ensuite, nous devons utiliser le R. Maintenant, je vais créer l'
arbre de décision pour cela. Voyons donc comment
notre modèle prévoit et
classe les choses en fonction de celles-ci. Des cas légitimes et
le problème le dit, il faut
donc la lésion. Donc, notre diagramme, notre part de diagramme à points
et ensuite nous allons le transmettre. Et puis extra est égal à l' intégrale de type
zéro de la
fibre. Et Quick 1.2. OK, alors allons-y et voyons, oui, c'est l'arbre de décision. Ce 1,1, ce 0,2, ça
va faire bouillir ce truc. D'accord ? Voici donc l'arbre de décision, et c'est ainsi que notre modèle
déterminera lequel est. Supposons donc que c'est avant. Si la valeur est
supérieure ou égale à -2,5, elle sera considérée
comme un cas légitime, et si elle produit
moins de 0,5 à 2,5, il s'agira d'un invité
frauduleux Voici donc l'
arbre de décision qu'il suivra, d'accord ? Ensuite, si vous voulez
voir les valeurs prédites, nous pouvons utiliser la prévision puis nous passerons
au modèle GARCH Ensuite, des données de Daesh sur des données qui permettront de prédire votre classe type Il classera zéro ou un. Nous allons donc exécuter ce modèle sur nos données de test
et voir comment il permet de prédire. Alors allons-y. D'accord ? Donc maintenant, si nous regardons, pouvons voir ici, maintenant, pour un jeu, il a prédit pour la quatrième ligne, comme ça, 0,1, il
a été classé. Alors maintenant, si nous voulons voir quel est le
niveau de précision jusqu'à présent, nous
pouvons créer une matrice de confusion
en utilisant la bibliothèque Keras C'était une énorme carotte et puis il connaissait les métriques
convergentes Et je vais transmettre cette
valeur prédite ici et ici. Données relatives à la variable
dépendante du verre. D'accord ? Exécutons donc ceci et voyons ici la matrice de
confusion. Ainsi, sur un total de
neuf cas frauduleux où
97 cas ont été retenus , sept
cas prévalents ont été classés
correctement et le port n'a pas été correctement
classé. De même, pour les cas figurant dans la
légende rouge, presque tous les cas ont
été classés correctement. La précision de ce
modèle est donc de 98, soit près de 99%. C'est ainsi que nous avons implémenté le modèle de
détection des fraudes par cartes de notes à l'aide de notre programmation. Et nous avons appris tellement de
choses, comme comment gérer les données déséquilibrées et quels sont les algorithmes que nous pouvons appliquer ? Quelles sont les techniques utilisées pour équilibrer l'ensemble de données
par
pastèque ? J'espère donc que vous avez compris
si nous avons le moindre doute, vous pouvez le demander en
classe en commentant ou en posant
une question.
97. Introduction à ggplot2: Bonjour et bon retour. Dans cette série de conférences. Dans les prochaines conférences, nous
allons en apprendre davantage sur le complot GG. Nous avons utilisé le diagramme GG
trop souvent dans nos cours. Mais ce que j'opte,
c'est que beaucoup d'entre nous réutilisent des graphiques tels que des
graphiques à barres, des diagrammes à secteurs. Et il y a de nombreux pots ou les
bibliothèques pour hommes de droite soient immenses Comme GG Plot Tours, GG Plot. Mais nous avons oublié de connaître
les bases de tout cela. Et nous devrions le savoir. En gardant cela à l'esprit. Je suis en train de créer quelques conférences
sur les bases de la deuxième intrigue de GG. De même, je vais créer d'
autres conférences couvrant également
tous les autres sujets, les bases de toutes ces
choses afin que
nous puissions bien
comprendre les choses. DJ ggplot2 est donc un package R pour créer des visualisations de
données Il a été développé
par Hadley Wickham et
intègre une implémentation
de la grammaire graphique Nous verrons ce qu'est
la grammaire des graphiques, qui fournit une approche
structurée pour créer et
personnaliser des tracés Le package repose sur le principe de
laisser place à l'esthétique mappages et de permettre aux
utilisateurs de créer des graphiques hautement personnalisables et de
qualité de publication Donc GG plot to Deb adorait créer des
clés publiques et des graphismes en 3D. Avant cela, nous avions l'habitude
de créer des graphiques, mais nous ne sommes pas prêts à les
publier. Donc, si vous voulez créer un
public, vous n'avez pas besoin d'une unité graphique 3D pour utiliser des outils
tels que Power BI ou Tableau, un autre outil graphique. Mais GG plot two a la capacité de créer des graphiques de qualité pour la
publication. Et il est très personnalisable. Ainsi, quelles que soient les couches que
vous souhaitez ajouter les utilisateurs peuvent les ajouter en
fonction de leurs besoins. Il suit l'approche grammaticale du
graphisme qui est
très, très importante.
C'est pourquoi il possède de nombreuses fonctionnalités pour créer des graphismes et des graphiques époustouflants. Bien,
comprenons donc que certaines
des fonctionnalités et
caractéristiques de GG plot
to plot two suivent la grammaire
des graphiques GG plot two. Comme je l'ai dit plus tôt, cela
pose problème à
la grammaire du cadre graphique, ce qui signifie que
les tracés sont construits en combinant différents composants de
couches tels que les données, l'esthétique, les objets géométriques et les transformations statistiques. Ainsi, non seulement il
trace les données, mais il prend également en charge
les données, l'esthétique, les objets
géométriques et
les transformations statistiques. Statistiques, esthétique
et mappages. Diagramme Gg pour vous permettre de
mapper les variables de vos données
selon différentes esthétiques, attributs tels que les coordonnées x
et y , la
couleur, la forme, la taille,
etc. Les mappages ont-ils défini la manière dont les données seront
présentées visuellement dans le graphique ? La fonctionnalité suivante est la superposition. Le premier concerne
la grammaire des graphiques, puis l'
esthétique et la cartographie. Et puis nous avons la troisième clé, les fonctionnalités et les caractéristiques.
C'est la superposition. Dans le graphique GG 2, les lots sont créés
en ajoutant des couches d'éléments
graphiques chaque couche représentant un composant différent des
fluides, tel que des points, lignes, des barres ou du texte. Il est donc construit en ajoutant des couches les unes sur les autres. Et les couches ont des
composants différents tels que le tracé, des
composants des
tracés tels que des points, comme le point géographique à utiliser, n'est-ce pas ? Réutilisation de la gamme Geom. Ensuite, les barres que nous utilisons dans notre
couche de texte seront également présentes. Les couches peuvent être ajoutées et
personnalisées indépendamment, ce qui permet une visualisation complexe et
en couches. Les transformateurs statistiques
et le diagramme
GG fournissent un large éventail de transformations
statistiques
pouvant être appliquées aux données
avant de les visualiser Ces transformations
incluent l'agrégation des données, calcul d'un résumé des
statistiques, le lissage des données. Le minimal
et hautement personnalisable graphique
GG minimal
et hautement personnalisable offre un haut niveau d'options
de personnalisation, vous
permettant de modifier presque
tous les aspects du graphique,
y compris l'accès, les
étiquettes, les titres, les
légions, les couleurs Ainsi, non seulement il
vous permet d'aimer Teams, mais il peut également vous
permettre de personnaliser des éléments tels que les axes, les
étiquettes, les titres, les légendes, les couleurs, et il propose de nombreux thèmes
que vous pouvez appliquer Cette flexibilité vous permet de créer des tracés qui répondent
à des exigences spécifiques et correspondent votre style visuel préféré. Support pour le facettage, GG
Plot 2 prend en charge le facettage, ce qui vous permet de créer
plusieurs diagrammes ou panneaux, d'
enchérir sur une ou plusieurs
variables de vos données Cela est utile pour
explorer et comparer différents sous-ensembles ou catégories
au sein de votre jeu de données Intégration à notre diagramme
GG pour une intégration parfaite
à nos packages
et à nos outils de manipulation de données. Vous pouvez facilement combiner le graphique GG 2 avec des bibliothèques de
manipulation de données, telles que playa et tidy R pour prétraiter et transformer vos données avant ensemble, le diagramme GG fournit un cadre puissant et
intuitif
permettant de créer une grande variété
de diagrammes de dispersion médullaires de Jason, allant de simples diagrammes de
dispersion à plusieurs panneaux à facettes
complexes Il est devenu l'un des packages de les plus populaires et visualisation de données les plus populaires et les plus
utilisés dans R en raison de sa flexibilité, esthétique et de l'accent mis
sur de bons principes de conception. Maintenant, nous avons également les
connaissances de base du diagramme GG. Examinons cet
enregistrement et
créons quelques tracés de base à
l'aide de GG plot two. J'ai donc créé un fichier de script R à
deux points GG plot. Et ici, nous allons essayer d'utiliser le diagramme GG pour créer un graphique et un tracé de
base, et nous essaierons de comprendre les différentes
couches qui y sont ajoutées. La première chose
à faire est
d'installer le package
ggplot2 Donc, s'il n'est pas installé
dans votre RStudio, vous pouvez le faire en exécutant
le script install.packages, et vous pouvez donner le nom du
package GG Une fois les packages installés,
vous pouvez les utiliser en écrivant une bibliothèque, puis en
indiquant le nom du package ici. Cela vous permettra donc d'
utiliser le package GG plot. La première étape consiste donc à
charger le package, installer et à charger les packages. La deuxième étape consiste à créer
un nuage de points de base. Donc pour cela, ce que je vais faire, je vais d'abord créer un DataFrame Donc, pour créer un DataFrame, je vais créer une
variable ici Ensuite, j'utiliserai data.frame
pour créer un DataFrame. Et ici, je vais fournir les points
x, le vecteur x, le vecteur c12, 345 et y et l'axe y pour
l'axe y et les
cadeaux, voir 246810 Donc 12 243 648,5 dix seront
les coordonnées de notre. Ainsi, je vais
créer un DataFrame. Maintenant. Je vais créer un nuage en utilisant GG. Le graphique 2
est assez simple Nous allons utiliser la
fonction GG plot ici, GG plot. Ensuite, nous fournirons les données, ce DataFrame que
nous avons créé Les données à partir desquelles vous
souhaitez créer le diagramme. Les données vous le donneront, puis la prochaine étape
est l'esthétique. L'esthétique donnera les axes x et y sur lesquels vous
souhaitez tracer les points. Donc x est égal à x
et y est égal à y. partir de là, il faudra, puis nous donnerons le tracé,
désolé, plus le point de géométrage Donc, geom point, nous allons
tracer les points. Il prendra les points
du diagramme d'urine. Alors laisse-moi m'occuper de ça. Alors voyez ici maintenant que notre
nuage de points est prêt. Vous voyez, le premier point est un deux, l'axe X et l'axe Y Ensuite, 242,4 à 4
sont tracés ici,
puis 36, puis 4,5 Ces points
ont donc été tracés correctement à l'aide du graphique GG 2 Alors laissez-moi vous expliquer un peu
plus à ce sujet. Nous créons donc un DataFrame
appelé data avec deux colonnes, x et y. La
fonction Gg plot initialise un objet de tracé GG qui texte le DataFrame Et puis la fonction esthétique que nous avons utilisée
ici pour prendre la fonction spécifie l'esthétique faisant correspondre l'axe
X à l'axe X et l'axe Y à l'axe Y. Nous mappons donc ici l'
axe X sur les axes x et y. Pourquoi ? Ensuite, les polices
geom point et ajoute les points au tracé Donc, la fonction du point de géolocalisation,
ce
qu'elle va faire, elle en prendra les points
et tracera les
points sur le tracé Maintenant, nous allons
essayer de personnaliser l'intrigue. Donc, ce que nous allons faire, essayer de personnaliser
l'intrigue en fonction de son apparence. Personnalisez donc l'apparence de l'
intrigue. Nous allons donc utiliser ici la fonction de tracé GG.
L'esthétique des données sera la même. Et puis plus Geom Point. Ensuite, après le point de
géométrage, nous allons
donner un suintement égal à 21 La couleur de remplissage sera bleue
et la couleur noire Et des sites, je vous en donne trois. Ensuite, nous utiliserons la
fonction Labs pour créer un titre. Le titre du diagramme
sera donc le nuage de points. Et puis quel axe x, nous lui donnerons le nom axe x et axe y leur donnera
axe y. Encore une fois plus. Ensuite, nous utiliserons, nous utiliserons le thème ici et nous utiliserons le trait de soulignement du
thème, ce que
nous allons utiliser au minimum, oui Permettez-moi donc d'abord de l'
exécuter, puis vous
expliquer les
différents points à l'utilisateur. Notre nuage de points
est maintenant prêt et vous pouvez voir Une fois que j'ai été tracé ici, mais
comme nous l'avons ici en bleu,
les points sont remplis de bleu et
la partie
extérieure est comme nous l'avons ici en bleu, les points sont remplis bleu et
la partie
extérieure Nous avons donc ici donné du noir. Si je le mets en orange,
et si je le lance. Maintenant, alternez les parties en orange. Alors permettez-moi d'augmenter
légèrement jusqu'à neuf. L'adresse IP et la taille du bénéficiaire
et du port sont 31, désolé. Vous pouvez donc voir ici que la
taille a été augmentée. OK. C'est donc le pantalon YuJa
see qui, selon moi, est bleu si tu le mets en jaune Cela deviendra donc jaune. D'accord ? Ainsi, nous pouvons personnaliser et vous
pouvez le faire fonctionner. Et voyez, voici le
nuage de points qui se dirige vers le bas, et les axes X et Y
vont arriver l' Et l'équipe que nous utilisons est minimale. Alors laisse-moi recommencer. La taille sera donc correcte. Ensuite, il y a la police Geom Point, certains textes qui ne sont pas
des arguments pour personnaliser l'
apparence des points Ici, nous disons que le bénéficiaire est un cercle
complet et une couleur de
remplissage allant du bleu, contour de la couleur au
noir et une taille trois C'était donc le plus tôt.
Nous avons maintenant changé niveau des
deux côtés appelé la couleur
extérieure est orange, couleur de
remplissage est jaune. OK. Vous pouvez mettre F1 en sélectionnant point de
géométrage et cela vous donnera la description du point de géométrage,
l' Algoma et
la cartographie D'accord ? Si vous souhaitez en savoir plus, vous pouvez aller en savoir plus
sur le point de géométrage auprès de vous Enregistrer. Vous pouvez le voir ici si vous voulez en savoir plus
sur le CEP, vous pouvez venir ici et vous
pouvez en savoir plus sur les produits sûrs L'esthétique sûre
peut être spécifiée à l'aide d'un entier (0,225) ou d'un caractère
unique, qui utilise les caractères
du symbole de traçage pour sécher plus petit rectangle
visible d'environ un pixel Et cela ne dessinera rien
correspondant à une variable discrète. Donc, si nous en mettons 25 ici, voyons ce qui
est tracé ici L'autre triangle a été
tracé si on en met deux. Donc, comme vous le voyez, le triangle sans remplissage, accord, alors l'un d'entre eux
sera le rectangle. Le premier est le cercle cinq. Si vous en mettez cinq différents, répétez ce rectangle. Alors, pour huit, voyons
ce qui est tracé ici. OK, lignes 11. Vous pouvez
donc voir, explorer et utiliser
d'autres choses, d'accord ? Ensuite, nous avons les laboratoires qui ajouteront le titre
à l'axe X, axe Y et au Alors Tim minimal est la
fonction qui s'applique
au thème minimaliste de l'intrigue Nous pouvons utiliser un autre thème
qui est le noir et blanc. Ensuite,
nous allons apprendre à ajouter plusieurs couches et des
annotations à notre graphique Donc ici, tout
sera au même point de géométrage. Sur ces objets,
il y aura la même ligne géométrique. Nous allons ajouter une ligne géométrique
afin qu'une ligne soit dessinée, puis nous allons
écrire du texte ici Ainsi, les decks eNodeB x sont égaux
à trois, y est égal à zéro, et les laboratoires de niveau 999 titrés donneront la même valeur et l'
équipe les utilisera Alors allons-y. Alors voyez ici maintenant, une ligne génomique a été
tracée en joignant les points. Et voyez ici pour 3,6,
3,6 points. Nous avons
écrit des textes, donc l'alignement du texte est écrit
ici, ligne étiquetée. Vous pouvez le remplacer par n'importe quoi. Supposons, supposons que vous
vouliez écrire quelque chose ici
et que vous l'exécutiez simplement. Maintenant, tout est écrit. Vous pouvez donc tout mettre ici. Donc ligne. Nous allons donc recommencer. Quoi que tu écrives, ça
arrivera ici. Donc, ici, par 3,6, l'axe X est trois
et les vagues sont six Nous l'avons annoté
sans texte, et nous avons donné les textes
et le nom du niveau sous forme de ligne OK, et l'équipe que
nous utilisons est minimale. OK, la prochaine étape est de
géométrer la ligne de Sonata jusqu'aux intrigues,
annotez une fois et
réutilisez-la pour ajouter une notation Ici, le
texte spécifié à afficher ainsi que les coordonnées x et y. Et vous pouvez modifier les niveaux
x et y augmentés
par la fonction d'annotation. OK, passez ensuite au
réglage rapide et aux thèmes. Nous pouvons donc utiliser des facettes pour ajouter
plusieurs tracés à un lot. Pour cela, nous
utiliserons le data.frame créer une facette de soulignement de
données variables, un
data.frame et data.frame Les points X et y seront
donnés puis regroupés. Ici, je crée un groupe chaque point soit
rattaché à un groupe E, a, B et C.
Nous avons donc maintenant des groupes ici. Maintenant, exécutons ça. Et puis créez maintenant notre nuage de points
à facettes. Permettez-moi donc d'abord de créer
les nuages de points. Nous avons maintenant les points. Et puis d'autres catégories
ou groupes ABC sont là. Donc Geom Point, tout
sauf le rap. Et ici, nous allons fournir
le groupe, d'accord, ce panneau et le groupe reprendront le groupe à partir d'ici
et il fera des facettes Maintenant, nous avons des groupes ABC et tout le reste
est pareil. Nous utilisons une fonction minimale. Encore une fois, fonction d'encapsulation des traits de soulignement à
facettes est utilisée pour créer un graphique à facettes basé
sur la colonne des groupes,
chaque groupe étant Harris
sur panel hockey Nous allons maintenant changer le
thème en noir et blanc. Le thème souligne
v, w. Nous allons l'utiliser, et nous verrons ce qu'il
va voir ici Maintenant, le thème a été changé et maintenant il est
clair, oups, ABC Il doit y avoir un point B pour que le
point C ait un point. OK. La chanson
punk à thème So be change l'intrigue,
lui en noir et blanc. Et cette intrigue GG 2 comporte divers thèmes intégrés
tels que le soulignement minimal, soulignement classique
et le
thème de soulignement gris Permettez-moi donc de copier ceci et d'essayer d'
utiliser le trait de soulignement gris T. Maintenant, il est en gris. Et puis l'équipe
a souligné le classique. Le classique, c'est comme deux groupes
ici et puis des points. OK, alors
faisons-le faisons-le aujourd'hui. D'accord ? C'est donc la base du diagramme
GG pour I. Je suppose que vous apprenez et je vous
encourage à vous entraîner
davantage en créant des points et en traçant
divers tracés Et en jouant avec
les points de géométrage, en ajoutant les labos, je pense que c' la même chose de jouer avec
les mêmes segments de jambes Je me demandais 25. Vous pouvez donc mettre différentes formes et essayer de déterminer
ce que les nombres signifient
pour la même chose, d'accord ? Voici donc les
choses que vous pouvez faire
98. Tracé de schéma et tracé jitté: Bonjour et bon retour. Dans cette conférence, nous
allons découvrir
un autre élément important du traçage, à savoir un autre élément important du traçage nuage de points
et le diagramme Alors laissez-moi vous dire que nous
allons voir un exemple. Et pour cela, je vais
utiliser le jeu de données intégré, c'
est-à-dire le jeu de données Iris, qui est disponible avec R. D'accord ? Permettez-moi donc de vous expliquer brièvement ce que
doit être un nuage de points si vous savez ce qu'est
un nuage Mais pour vous rafraîchir la mémoire, je vous dis que les nuages de points
sont similaires aux graphiques linéaires, qui sont généralement
utilisés pour le traçage Le nuage de points enregistre dans
quelle mesure une variable est liée à La relation
entre les variables est appelée corrélation, qui est généralement utilisée
dans les méthodes statistiques. D'accord ? Voici donc la définition du nuage
de points. Et pour ce pari,
pour cette conférence, je suis
un accord écrit à la main Et ici, j'utilise
le jeu de données sur l'iris, données très connu
qui contient des mesures
de votre empreinte, des fleurs d'
iris, fleurs d'
iris sépales et de la longueur des pétales
et de tout son contenu Pour cela, nous avons besoin du jeu de données
iris intégré aux données de notre package, puis nous avons besoin tracé
GG à partir de ce que nous avons
déjà téléchargé Et s'il n'est pas téléchargé, vous pouvez utiliser install.packages et le
nom du package GG plot two Et il réinstallera le
fichier téléchargé et installé sur votre RStudio Ensuite, pour utiliser le graphique GG 2, nous devons utiliser la bibliothèque puis nous devons
transmettre le nom du backend Donc, bibliothèque GG plot
pour vraiment nous
permettre d'utiliser les fonctions de tracé GG. Ensuite, pour charger
le jeu de données iris, il suffit d'
écrire des données. Ensuite, nous devons transmettre
le nom de l'ensemble de données. Le type de données
est l'iris de données Cela chargera l'ensemble de données d'iris. Et lorsque vous cliquez sur
ce jeu de données sur l'iris, vous pouvez voir ici qu'il
contient l'œil, cette queue de Floride, c'
est-à-dire la longueur des sépales, largeur des
sépales, la longueur des pétales, largeur des
pétales Il y a donc des espèces. D'accord ? Donc, dans ce jeu de données,
les objets à
propriété unique sont présents et des étiquettes privées, une par ligne p et cinq colonnes, se trouvent
dans ce jeu de données. OK, alors laissez-moi
revenir au code. Maintenant, ce que nous allons faire, nous allons le faire, nous allons
créer un nuage Pour créer un nuage de points, nous allons utiliser la fonction de diagramme GG et nous allons utiliser le nom du
jeu de données ici C'est un jeu de données pour le jeu de données Iris. Ensuite, pour des raisons esthétiques, pour l'axe X, nous allons tracer la
longueur des sépales et l'axe y. Nous allons tracer la largeur des sépales. Ensuite, nous utilisons la fonction des points de
soulignement du génome pour tracer ces points C'est assez simple. Gg trace la fonction puis le
nom du jeu de données plutôt que l'esthétique. Nous devons transmettre les coordonnées
x et y. Ainsi, la barre x et la coordonnée X
utiliseront la longueur des sépales. Et pour la coordonnée y, j'utiliserai la fonction de largeur des sépales et de point
de géométrage pour tracer ces points, des points
géométriques Ainsi, lorsque nous l'
exécutons, nous obtenons ce nuage de points ici Maintenant, tous les points
sur la longueur et la largeur des sépales ont
été tracés Nous utilisons maintenant la fonction de tracé GG pour n'importe quel objet de tracé GG à curseur
et nous spécifions l'ensemble de données C'est ce que nous faisons ici. Ensuite, la
fonction esthétique, ici, nous sommes en train de perdre la fonction
esthétique. À l'intérieur du diagramme GG, définissez les mappages esthétiques en fonction de la
longueur des sépales. Ce que nous faisons
ici, c'est cartographier la longueur et la largeur des sépales. La longueur des sépales est
mappée sur l'axe X
et la largeur des sépales est
mappée Et la fonction geom point
ajoute des points au tracé. Nous obtenons ainsi le
nuage de points, donc vous le déformez. Nous utilisons donc la fonction de tracé GG à l'intérieur de laquelle nous
transmettons le nom du jeu de données. Ensuite, nous allergisons la fonction
esthétique pour attribuer les coordonnées Mappez cependant, avec
le nom de la colonne ou avec les x. Ainsi, x est égal à
ce que l'on appelle les sorties et à la largeur des points de sépales sur
l'axe Y. Ensuite, nous utilisons la fonction de point géométrique
Jin pour tracer les points
sur le nuage de Nous obtenons donc ce complot. La prochaine étape est de
personnaliser le nuage de points. Donc, la personnalisation passera à nouveau. Nous allons utiliser le diagramme GG. Nous dessinons d'abord l'intrigue. Donc, pour ce diagramme GG, ensemble de données nommez
cette esthétique. Ici, esthétique,
c'est la même chose que nous lisons. Et ce que nous personnalisons. Nous personnalisons en
y ajoutant une couleur. La couleur est donc égale à l'espèce. Ainsi toutes les espèces
seront des espèces
spécifiques, la longueur et largeur des
sépales spécifiques seront colorées Ainsi, pour chaque espèce
, une couleur sera attribuée. La couleur est donc appelée espèce. Ensuite, nous utilisons Geom Point. Et ici, et ici, nous
venons de tracer les polices Geom Point. J'utilise ici la
fonction geom point que nous allons personnaliser en y ajoutant des
arguments, comme psi est égal à trois
et alpha est égal à 0,7 Ensuite, avec
la fonction labs, nous attribuons le titre,
donc le titre du nuage de points, nous allons donner un nuage de points
pour largeur des sépales pour l'axe X
donnera le nom longueur des sépales, et l'axe Y
donnera Et puis le thème ici,
nous utiliserons le thème t match,
un thème minimal, et c'est ce qu'
on appelle fonction minimale. Nous avons pu utiliser le thème minimal
et minimaliste. Alors traçons cela et nous en
discuterons plus en détail. Vous pouvez donc maintenant le voir ici, puisque nous avons donné les espèces
écologiques. Donc toutes ces espèces, il y en a trois et trois couleurs ont été attribuées. Donc en regardant cela, on peut dire que le
vert est pour le versicolor, car le rose est
pour la setosa Virginica est bleu foncé. Bon, maintenant comprenons un
peu plus. Nous ajoutons donc des couleurs que vous appelez argument à
deux espaces fonction
esthétique pour colorer les points en fonction de cette
précision de l'œil. Ces diagrammes dont nous
avons déjà parlé, l'argument des côtés dans le point de soulignement géom
définit la taille du point Maintenant, il y en a trois. Si je fais en sorte que cela soutienne nos 15 ans, se passera-t-il ? Ainsi, les points
seront des informations plus importantes. Si vous voulez voir, voyez ici maintenant la
partie dorsale plus grande. Donc, selon les exigences, vous pouvez, si vous en mettez un ou cinq, sera comme ça, d'accord ? Maintenant, il y a autre chose, alpha égal à 0,7. Alors, quel est cet argument
alpha ? L'argument alpha contrôle
cette transparence. Donc, si je le mets, si je l'augmente à
un, que se passera-t-il ? Voyons voir. Tu vois qu'il fait plus sombre, non ? Si je mets du vent, un, je vois qu'il ne fait pas si sombre. Et si je mets 0,8,
il fera plus sombre. Martin, plus foncé. D'accord ? Je vais donc activer cet ampèremètre qui contrôlera la
transparence des points OK. La fonction Next Thing is
left est utilisée pour définir le titre du
titre et les étiquettes des axes. Ainsi, pour les niveaux d'accès, sur l'axe X, nous avons la longueur des sépales, sur
l'axe Y, nous avons
donné Et le titre
du nuage de points,
nous avons un diagramme de
dispersion donné de l'échantillon en
fonction de la longueur des sépales en fonction de la largeur des sépales
. Et le thème met l'accent sur le minimum de points et le
minimalisme. Mais l'intrigue. Si nous pouvons le mettre ici, si je le répète et si j' utilise le thème souligné par VW en
noir et blanc une fois
, que se passera-t-il ? Voyons voir. Rien n'a
beaucoup changé. Nous allons maintenant
entrer dans le jitter plot. Alors, quel complot agité ? Les diagrammes de données incluent des effets
spéciaux grâce
aux nuages de points
qui peuvent être représentés Un effet spécial
permettant de représenter des nuages de
points. Cela ajoutera donc l'
effet spécial au nuage de points. Le détail n'est rien
d'autre qu'
une valeur aléatoire attribuée aux
points pour les séparer. D'accord ? Vous pouvez ainsi voir si
votre jeu contient des valeurs dupliquées et, lorsque vous tracez
le nuage de points, les points se chevauchent Ainsi, dans ces cas, si vous voulez savoir quels sont
les points qui sont des doublons, vous pouvez utiliser cette fonction d'instabilité pour mettre en évidence les points qui contiennent des
doublons D'accord ? Jitter n'est rien
d'autre qu'une valeur aléatoire que nous avons attribuée aux points
pour les séparer. D'accord ? Maintenant, la fonction de tracé GG, l'esthétique du nom du
jeu de données,
puis le trait de soulignement géométrique gigue et la largeur donneront 0,2, hauteur donnera zéro alpha 0,7, et toutes les autres choses sont presque mêmes et votre équipe
utilisera le noir D'accord ? Alors allons-y. Voir ici. Maintenant, les points
sont séparés. D'accord ? Voici donc le troisième complot. Nous modifions donc l'axe X, une espèce et l'
accès à
l'écriture pour cartographier la longueur des pétales et le retour du génome d'un point
agité sur le tracé L'argument de largeur. Contrôlez la largeur des arguments
gigue et hauteur ainsi que la hauteur de la
hauteur définie sur zéro Ce truc régional, l'instabilité
verticale de l'argent. Et je vais contrôler
la transparence par le Parlement, comme c'est le cas cette secte et pour toutes les autres sectes dont
nous avons déjà parlé. D'accord ? Voici comment nous pouvons
créer un nuage de points normal
et nous pouvons utiliser un diagramme de gigue
pour créer un diagramme de
99. Tracé de bars et hostogram: Bonjour et bon retour. Dans cette conférence, nous
allons donc
découvrir deux autres tracés
importants. Les choses ressemblent à un diagramme à
barres, puis nous verrons l'histogramme Il s'agit donc de deux
techniques de routage
importantes , du type de tracés. Alors laissez-moi d'abord
vous dire ce qu'est le barplot. Le diagramme à barres est également
connu sous le nom de graphique à barres et il est également connu sous le nom graphique à
colonnes car
il n'est donc ni colonne ni colonne D'accord ? Et il s'agit d'un type de visualisation qui
représente des données catégorielles Vous faites des barres rectangulaires. Chaque barre correspond
à une catégorie spécifique. Et la hauteur ou la longueur de la barre représente
la fréquence, nombre ou
la proportion de cette catégorie. Les diagrammes à barres sont couramment
utilisés pour comparer différentes catégories ou pour montrer manière
concrète comment l'Arabie saoudite a
affiché les données de ce groupe. Un graphique à barres est donc essentiellement utilisé pour les données catégorielles OK, alors laissez-moi vous
dire comment nous pouvons créer le package de
graphes GD que nous allons utiliser Nous l'avons déjà installé. Si vous ne l'avez pas encore installé, installez-le à l'aide de
install.packages. Et puis il ne l'a pas fait. Et puis il y a eu une énorme bibliothèque
informatique, ggplot2. Et nous allons simplement l'exécuter. Désolée. OK, alors, pour cet exercice, nous allons utiliser le jeu
de données Diamonds. D'accord ? Il s'agit donc d'un ensemble de données intégré
dans GG plot pour charger des données. Pour charger ces données
dans cet ensemble de données, nous devons utiliser les données, puis le nom du jeu de données, à savoir losanges. Ainsi, lorsque vous cliquez sur
cet ensemble de données sur les diamants, vous pouvez voir la carotte
du diamant, puis la taille, couleur, la clarté, la profondeur, prix du
tableau, x, y, z. Ce sont les colonnes
du jeu de données. Il y a 53 009, 40 entrées dans cet ensemble de données et
dix colonnes au total s'y trouvent C'est donc un grand
Dieu, il le fait. Et maintenant, la deuxième étape consiste à
créer un graphique à barres, à dessiner. Donc, pour créer un graphique à barres, nous allons simplement utiliser la fonction de tracé GG
et ici nous allons leur donner, comment donner à diamond
le nom du jeu de données alors aesthetic x est égal à la colonne cut will. Vous pouvez voir ici que la colonne
est la colonne sur l'axe X. Ensuite, le génome et la fonction
Escobar seront utilisés pour créer un graphique à barres. Exécutons donc ceci
et voyons le résultat. Maintenant, vous pouvez voir ici, sur
l'axe X, le ruban qui se trouve là-haut, et sur l'axe Y, le nombre de numéros
pour cette découpe apparaîtra
automatiquement pour cette découpe apparaîtra Tellement juste, bien, très bien. Type de produit haut de gamme et idéal
disponible dans notre ensemble de données. Vous pouvez voir ici dans l'ensemble données : prime idéale, bonne prime, très exposition universelle, très bonne. Prime idéale. Je
n'ai pas aimé ça. Bon, maintenant nous pouvons voir que
notre graphique à barres est prêt. Donc, pour créer un graphique à barres, nous allons traiter de cette
fonction Genome Atlas Group, à
barres dans le diagramme GG et à l'esthétique, religion x étant égal à cut, elle utilisera
donc le graphique à
colonnes ou à barres. Nous utilisons le diagramme GG provenant de
l'objet de tracé
GG du curseur d'image central et nous
spécifions le jeu de données Il n'a pas ces diamants. Et fonction esthétique. Inside GG plot a défini le mappage esthétique
avec une carte intestinale l'axe X et des fonctions de
barre de soulignement geom faisant office de
barres du tracé,
créant ainsi le diagramme à barres créant ainsi le OK, ensuite,
nous pouvons personnaliser ce graphique à barres ou ce graphique à
barres en utilisant la fonction geom bar à l'intérieur laquelle nous pouvons faire passer les quatre moteurs diesel égaux au remplissage,
afin qu'il se recharge Et ici x est égal à couper et le remplissage se remplira
avec la clarté. Nous allons donc utiliser l'axe X pour
tracer le type de découpe de Dieu, et nous allons remplir la
bouteille avec cette clarté. Donc, plus cette clarté sera grande, elle supprimera les amis
avec eux ou avec la couleur. D'accord ? Et puis, geom souligne la barre en cas de dissidence
. Et puis des laboratoires. Cela donnera le
titre de l'ensemble du graphique à barres, le diagramme barres indiquant la
fréquence de coupe en losange et l'axe X, nous donnerons le nom de la coupe et, pour l'axe Y, la proportion Et puis en équipe, tu perds très peu. OK, alors allons-y. Vous pouvez maintenant voir qu'il est
rempli d'une clarté de canard. La clarté, c'est comme ça. La clarté a été
donnée avec des couleurs foncées, jaune, le vert, le
vert clair, le bleu, le bleu. OK. Ainsi, nous ajoutons un
argument de clarté
du champ dans la fonction esthétique pour remplir les barres relatives à la
clarté du diamant. Le mauvais, décent et
prolongé est entré dans la barre de géom, pointe vers le bas, ce qui permet de
comparer plus facilement les proportions C'est donc celui qui se trouve au-dessus, c'est le plus gros en dehors du terrain. OK. Vous envoyez des personnes pour les
remplacer. Et puis les laboratoires fonctionnent. Nous allons ajouter le titre
du graphique à barres et les
niveaux d'accès. Tim Minimal,
créera une
équipe sombre et minimaliste pour l'intrigue Voici maintenant l'histogramme. L'histogramme est donc une représentation
graphique de la distribution de données numériques
continues Maintenant, nous
avons vu le graphique à barres avec chacune des données
catégorielles Et l'histogramme concerne les données
continues ou numériques. Il se compose de barres Topsy Regia, où chaque barre représente une plage ou
un ensemble de valeurs spécifique Et la hauteur de
la barre indique fréquence ou
le décompte des points
de données Pauling se
situant dans cette plage L'histogramme donne un aperçu la tendance centrale
et répartit les données, alignant ainsi l'analyse visuelle
de la distribution Tout est donc une question d'histogramme. Créons-en un. Pour créer un histogramme, nous utiliserons le diagramme GG à partir du
sin et des losanges du jeu Aesthetic x est égal au prix. Donc, sur l'axe X, nous allons
tracer le prix
, puis nous allons tracer la fonction d'
histogramme Geom Underscore À l'intérieur du terrain GG. L'histogramme. L'histogramme correspondant à la
largeur de votre bac donnera 500, puis les laboratoires pour donner les
étiquettes et la barre de titre,
la barre, notre titre plus loin,
mais malheureusement un histogramme Ensuite, l'équipe
utilisera le noir et blanc. OK, alors allons-y. Voici l'histogramme. Vous pouvez voir le prix sur l'
axe X et la fréquence ici, les prix des diamants bruts
supplémentaires. Nous modifions donc ici
l'axe X pour ce prix. Et Yom souligne la fonction d'
histogramme, ajoutez le lot au sang en créant
l' histogramme sans contrôler la largeur des bacs de
données du Donc, si nous mettons cela comme 100, voyons les changements. La largeur se réduit. Si je crée un Tao Qian, le rouge augmentera Ainsi, 400 ont été signalés. OK. C'est ainsi que nous
créons un graphique à barres et élévateurs d'
histogrammes pour en savoir un peu plus sur les
diagrammes à barres et Instagram Les principales différences
entre les diagrammes à barres et histogrammes seront comprises en termes de sang que j'ai acheté, de
placement, de modèle, de
présentation et de cas d'utilisation Ainsi, en termes de type de données, les diagrammes à
barres
conviennent aux données catégorielles, où chaque barre représente
la catégorie ou le groupe, tandis que les histogrammes sont approuvés pour les données numériques continues C'est donc déjà une
différence essentielle car
le type de données, les diagrammes à barres des types de données pour les données
catégorielles et pour les données numériques ou les données
continues, nous pouvons Les barres d'histogramme représentent ces plages ou cet intervalle de valeurs Alors que dans la barre, le graphique, barre représente la
catégorie ou le groupe. En termes de
placement des barres dans le diagramme à barres, les barres sont généralement réparties de manière
uniforme le long l'axe
X, avec un espace entre chaque barre pour représenter
différentes catégories Dans l'histogramme, les barres
qui sont distinctes adolescent et qui se touchent autre car elles représentent des plages
continues ou des
intervalles de valeurs bêta
le long de l'axe x. Il s'agit donc d'une autre différence
très nette. Si vous pouvez voir la barre, les graphiques, les barres situées le long de l'axe X et
il y a un espace entre chaque barre et qui représentent
différentes catégories OK, et il gérait des programmes, des indices tracés sur
des données continues, des données numériques y aura aucun espace entre
les barres et elles
seront adjacentes les unes aux autres. Parce que l'autre point brillant que plages
continues dans les dumps de représentation des données
dans un graphique à barres, la hauteur ou la longueur
de chaque barre représente catégorie
spécifique proportionnelle au compteur de
fréquence Dans l'histogramme, la
hauteur de chaque barre indique que la fréquence ou le décompte des points de données compris dans
la plage spécifique sont verts Donc, on parle
d'histogramme, parle du nombre de dénombrements qui se situent
dans une fourchette particulière Alors que le barplot indique le nombre de comptes dans
une catégorie spécifique. Et l'énorme supposition,
qui est très claire maintenant que les diagrammes à barres sont couramment utilisés pour comparer
différentes catégories, afficher des
données concrètes,
discrètes, désolées, discrètes, ou illustrer la relation entre variables
catégorielles, des variables Alors que les histogrammes sont
fréquemment utilisés pour visualiser la distribution
ou identifier des modèles, tendance
centrale et
la diffusion de données numériques continues Voici donc les principales différences entre le diagramme à barres
et un histogramme J'espère que cela
vous aidera à comprendre et que vous saurez
que nous devons
utiliser le diagramme à barres et où
utiliser l'histogramme
100. Diagramme en secteurs avec ggplot2: Bonjour et bienvenue. Dans cette conférence, nous allons donc
faire quelque chose d'inhabituel, ce que nous ne faisons pas. Gg intrigue trop, ce serait très
intéressant à faire. Donc, ce que je vais faire ici, je vais créer un graphique circulaire à l'aide du
diagramme GG. Et avant cela,
laissez-moi vous dire. Gg Plot 2 est
principalement conçu pour
créer des graphiques en couches et en grammaire des graphiques. Les tracés basés sur les bits ne possèdent pas de
géom intégré pour les graphiques à secteurs Le graphique GG ne supporte donc pas
le bicarbe. Cependant, nous pouvons toujours
créer un graphique circulaire à l'aide de g,
g et tracer le graphique 2 en manipulant les données et en utilisant
d'autres géoms Voyons donc l'exemple. Alors, première étape, chargez les packages
et créez un exemple de données. Nous allons donc utiliser ici le téléchargement
bloqué que nous n'avons pas fait. Ensuite, nous utilisons la bibliothèque. Tu en as dessiné deux ? Ensuite,
nous créons un échantillon de données. Pour cela, nous utiliserons la catégorie
data.frame et les catégories ReLu ABCD
et la valeur est ce vecteur C,
13e, 20e, 20, soit 35 OK, alors calculons les données
de l'échantillon. Ce sont des
données catégorielles, d'accord ? Maintenant, Step Toys et
manipulez les données pour créer un graphique circulaire. Alors voici ce que nous allons
faire, nous allons calculer la proportion pour
chaque catégorie. Donc, les données, lorsque vous créez
une variable, cette boîte de dialogue en jaune, puis que vous
transformez les données. Et les données seront à nouveau transmises à
la transformation, nous allons calculer
la proportion ok, valeur divisée par somme. Eh bien, d'accord, alors allons-y. Et maintenant, vous pouvez voir ici
que les données sont les suivantes. Maintenant, proposition de valeur de la catégorie, nous avons créé une proportion, nous avons créé
une proportion appropriée. Nous avons créé, d'accord ? Maintenant, triez les données par ordre
décroissant de proportion de celles-ci Pour cela, nous allons
utiliser l'ordre des données, les données. Le profit en dollars le fera. Nous voulons trier en fonction de l'
accessoire YouTube car il s'agit des
seules données numériques Donc, à cette fin, en
décroissant vrai. D'accord ? Ce sera dans l'
ordre décroissant. Alors faisons-le. Maintenant, si nous regardons les données, d'accord, c'est un nouvel ordre. Maintenant, la troisième étape consiste à créer le graphique à secteurs, le graphique à barres
empilées. D'accord ? Donc GG trace deux, puis nous transmettrons les données. Ensuite, l'esthétique, nous
utiliserons x, ne servira à rien. Pourquoi ? Nous allons utiliser des accessoires
et remplir la catégorie, accord ? Par catégorie. Et puis la barre géométrique, fonction
humaine Escobar
donnera une statistique égale à l'identité et la
largeur en donnera Alors quelle polaire
donnera Y à partir de zéro. Et puis tu dois
vraiment garder ce titre. Mon tableau et remplissez-le
avec la catégorie. L'équipe utilisera le
soulignement du thème à grande échelle. Alors voyons voir. Vous savez, nous avons un graphique à barres montrant la catégorie et
voici les pistes. Ce diagramme circulaire, c'est le gâteau. Ils sont dessinés à l'aide de la proportion que
nous avons créée. D'accord ? Alors laissez-moi vous
expliquer un peu
plus pour que ce soit le cas, je vais vous apporter plus de clarté. Donc, dans cette approche, une semaine et transformez le graphique circulaire
en un graphique à barres empilées. En manipulant les données, nous calculons la
proportion en divisant chaque valeur par la somme de toutes les valeurs La fonction de la barre de soulignement geom associée aux statistiques
équivaut à Créez les
barres empilées avec le, avec la proportion de
produit correspondante la plus élevée. D'accord ? Ensuite, Quad a souligné la fonction
polaire. fonction What it will do
convertit le graphique à barres en une forme circulaire pour
imiter un graphique à secteurs OK, puis les laboratoires
donneront le titre, la légende
et le thème, souligneront polices
Word, supprimeront l'arrière-plan inutile et l'humain donnera une apparence
nette Voici comment nous créons un graphique
circulaire à l'aide de ces deux éléments. Et je vais vous donner
une clause de non-responsabilité ici. Comme je l'ai dit plus tôt, le graphique GG n'
est pas pris en charge par un graphique circulaire car il est créé moi-même
sur le terrain. Vous devez donc noter que les graphiques à secteurs ne sont généralement
pas recommandés pour les données. Nous en avons appris certaines en
raison de la difficulté percevoir avec précision les différences d'angle entre
les zones des tranches Ou que les types de graphiques tels graphiques à
barres ou les graphiques à barres empilées sont souvent plus efficaces pour représenter
les données verticales. Ainsi, chaque fois que
des données catégorielles sont disponibles, nous ne pouvons pas les utiliser, bien que nous
n'ayons pas utilisé le graphique circulaire en bus Nous pouvons plutôt utiliser les bogues
ou les graphiques à barres empilées. D'accord ? J'espère donc que cela ajoutera de
la valeur à leur apprentissage.
101. Tracés en lignes avec ggplot2: Bonjour et bon retour. Dans cette conférence, nous allons découvrir comment créer
des tracés de
lignes à l'aide du graphe GG
dans notre programmation. Les diagrammes linéaires sont donc utiles pour visualiser les tendances et
modéliser des données continues, ainsi que des données séries
chronologiques à attacher
en continu Nous allons également apprendre à
créer des tracés linéaires de base, tracer plusieurs lignes
sur le même tracé et à personnaliser l'
apparence des lignes. Donc, ce que nous
allons essentiellement
apprendre, c'est découvrir la ligne Plots. Les diagrammes linéaires, pourquoi nous les utilisons pour visualiser les tendances et les
modèles dans des données continues. Diagrammes linéaires, nous ne pouvons même pas nous
permettre les données catégorielles. Nous pouvons l'utiliser davantage. données continues, des données numériques, ou quelle plage continue. La portée doit
également être continue. Et le meilleur exemple
est celui des séries chronologiques. Nous allons également apprendre
à créer des tracés linéaires de base. Et nous verrons aussi, nous
verrons également créer un graphique linéaire de base. Comment tracer plusieurs
lignes sur le même tracé. Et comment pouvons-nous personnaliser l'apparence des voyants. Il y a trois lignes
sur la même intrigue, comment pouvons-nous aller droit vers
le
haut tout en abordant certaines lignes, comme les couleurs
ou le genre maintenant, d'accord, alors commençons. La première chose à faire est donc
de créer un graphique linéaire de base. Donc, pour créer des tracés linéaires de base, nous avons un ensemble de données avec
deux variables continues. Ils présentent généralement des sorties. Ce seront la
variable indépendante et l'axe Y, ce seront les variables
dépendantes D'accord ? Quelles sont donc les deux
choses dont nous avons besoin ? Nous avons besoin de cet ensemble de données. Nous avons évidemment besoin d'un ensemble de données. Et les ensembles de données devraient comporter au moins deux variables
continues Et généralement, l'
axe X sera la variable indépendante et axe
Y représentera
les variables dépendantes D'accord ? Notre ensemble de données contenant deux variables
continues,
l'une pour le sexe, les données
indépendantes,
précieuses et l'autre,
sera donc l'une pour le sexe, les données
indépendantes, dépendant. Si indépendant,
brillant sur l'axe Y. Donc, pour cela, ce que
je vais utiliser, je vais créer un simple tracé d' une droite qui
représentera la courbe sinusoïdale. OK, jusqu'à présent, prenons
un exemple de leader pour ce que je suis créer et qui
dépend de l'axe X, certainement de la variable
indépendante Alors voici ce que je vais
faire, je vais l'expliquer. Eh bien, je vais créer avec
notre séquence Fontan. Et il avait une séquence, je vais mettre zéro virgule deux dans pi
et à gauche ou fille, je vais donner cent hockey Cela créera donc la variable aléatoire de
poussière X, qui fera apparaître la séquence, puis Y, qui est la variable dépendante, qui dépendra de l'axe X. Et comme vous ne
voulez pas aller au Canada, même courbe, le sinus vous et la variable
X ici. Donc pour chaque expiration, pour chaque Excel, on attribuera
une courbe, cette algèbre et
l'axe Y, d' Donc X, j'utilise la fonction de
séquence, et ici je passe
la virgule zéro 2,2 pi et je l'allonge ou je doute
que je donne cent et cette valeur X lorsque je
passe deux fonctions sinusoïdales Cela a donc conduit au péché, mon Dieu. Et cette fois, peu importe, elle sera basée sur le X. Donc X est la variable indépendante et les variables dépendantes parce que, pourquoi la valeur ajoutée dépend-elle du X que nous transmettons
à la fonction sinus Alors pourquoi la variable dépendante et X la variable indépendante ? Donc, de cette façon, nous allons obtenir les X et Y. Maintenant, la bibliothèque de base
Plots ggplot2, nous l'avons déjà installée Alors laissez-moi d'abord
vous donner, exécutez cette ligne, deux lignes pour que OK. OK. Donc, voyez yell si nous essayons
d'imprimer les valeurs X, donc voyez la valeur X des données que nous avons une tentative rénale à
l'aide de la fonction de
séquence Et si j'imprime Y, ce sera
donc la valeur Y
en fonction de la valeur X. Ainsi, à l'aide de ce sinus
de X, vous obtiendrez la valeur y, qui sera celle de vendredi prochain Eh bien, maintenant nous avons le Et nous avons les points de cheminement OK, nous allons maintenant utiliser
la bibliothèque GG plot two. Et puis ce que je vais faire, essayer de configurer des tracés
de ligne. Peut tracer l'une ou l'autre ligne, sans parler de la fonction de tracé GG. Les deux données. Vous allez sur data.frame. Et il avait transmis les
coordonnées X et Y qui sont des valeurs X et Y. Les annuli sont la fonction
esthétique. Et exit est égal à X
et Y est égal à Y. Et en plus, ici, je vais utiliser l'
allyle essayé pour tracer une ligne, donc je vais utiliser la ligne de soulignement geom Laisse-moi envoyer ça à
C.C. , et maintenant on m'
assigne le golf. Donc, sur l'axe X
, la fusion des centaines, maintenant, en traçant les
exploits et Y et Y. Ainsi, nous remontons Ainsi, nous remontons la
même courbe tracée sur les X et Y.
Donc X est l'indépendant
crédible et Y le dépendant Pour chaque X, il y a une valeur y. C'est donc la même
courbe que nous obtenons. La façon dont nous pouvons simplement tracer
des tracés linéaires. Des tracés linéaires simples et basiques à
mettre en cosinus, comme ça. Donc. Si vous le souhaitez, vous pouvez revenir à
l'explication. Ainsi, data.frame X virgule
Y créera un DataFrame
avec Donc les variables X et Y que nous
avons créées ici en utilisant la séquence poumons
et la réouverture, les valeurs
X et mon passager en
plus de la fonction sinus. Nous avons les valeurs Y, X
et Y. Nous m'avons vu ajouter de l'eau. Ensuite, nous avons utilisé
la bibliothèque de parties DD et vous n'avez pas obtenu Plot and Data is
equal to data
frame X virgule Y.
Cela créera un DataFrame
avec des variables X Et puis
fonction esthétique, X est égal à XY. Il suffit de suivre
ce que cela va faire, cette véritable cartographie esthétique. Ainsi, X va faire une macro sur le X
et Y va mapper l'axe Y. Ensuite, passez en revue la fonction de ligne de
soulignement geom pour ajouter la ligne aux tracés D'accord ? Cela va donc se faire en ligne. D'accord, voici donc l'explication création
de cette ligne
simple Tracés UG, X et Y, cet exemple que nous avons créé
plus tard Nous allons maintenant voir comment
tracer plusieurs lignes
sur le même bloc. D'accord ? Alors pour cette conférence, d'accord. D'accord, nous pouvons maintenant ajouter
plusieurs lignes au graphique
en indiquant que différents
ensembles de données
regroupent les données à l'aide d'une variable de
regroupement À présent, traçons à la
fois la
courbe du sinus et celle du cosinus sur le même graphique Je vais donc
tracer la
courbe du sinus et du cosinus sur le même graphique X sera donc la même fonction de
séquence,
doodle, je ne vais pas acheter un
terrain dont la panne s'appelle 100 La valeur X
sera donc la même ici. Pourquoi le sinus et le blanc crochètent
ces deux variables, alkyde ici et là, je vais passer le signe de l'
extrudeuse Je vais obtenir le signe de
soulignement Y Valeurs. Et le
coût du trait de soulignement Y sera transmis à la fonction
de coût. Le coût de X
nous indiquera comment souligner les valeurs de
coût. D'accord ? Donc, de cette façon, je vais pouvoir faire
des boucles pour chaque X. Donc, chaque point X aura sinus de X et une valeur de manioc
X, n'est-ce pas Sudbury pour X, nous avons deux scores de
Y, un sinus et un cosinus. Et ces deux points, je vais les tracer
sur le même plan. Ainsi, pour créer le graphique linéaire avec plusieurs lignes, vous
utiliserez la fonction de tracé GG. Et ici vous pouvez voir
ici le plan de réhabilitation GG. Et nous avons selon les données, data.frame X virgule
Y parce qu'il en avait,
pourquoi il n'en avait qu'une pourquoi il Nous avons donc cartographié que VX est
égal à X et Y au carré Y.
Ici, lorsque vous utilisez la fonction de tracé GG. Ici, lorsque vous Et nous allons utiliser l'opérateur
plus ici. Ensuite, nous utiliserons la fonction de ligne de
soulignement geom. Et dans la fonction de ligne,
nous allons transmettre les données. Cadre. Les données sont égales à
data.frame X virgule Y. Ici, Y sera le signe de
soulignement Y, non ? Nous avons donc ici même
X, virgule Y, simplement parce qu'il n'y
a qu'un seul moyen Pourquoi y était-il ? Puisqu'il existe deux valeurs y. Donc ici je vais me donner X virgule Y, X sera le même Donc gamma, pourquoi chaque quart, pourquoi souligner le signe et ensuite la
fonction esthétique passeront X est égal à X et
Y est égal à Y. Et cadeaux
latéraux, signez Et ensuite, nous ferons la
même chose avec la question du pourquoi. Les données sont donc égales à data.frame X sera le lecteur X et Y. Pourquoi coûte un endoscope ? Et l'esthétique X s'appelle
Reacts OH, ou pourquoi. Et la couleur C'est ce qu'on appelle la récursivité. Voici le titre Courbes sinusoïdale et cosinusoïdale d'
Azure. Et X est égal au
X majuscule et Y est égal à la fonction de couleur Y majuscule et
Tim sera le minimum. Alors laisse-moi recommencer
et voir ce qui se passe. Vous voyez maintenant que nous avons la courbe des
sinus et des cosinus. C'est le temp1 ici. Et puis nous avons les lignes sinus et cosinus sur le diagramme thématique Au revoir, il y a
deux intrigues maintenant. Deux lignes. L'un représente notre honte et l'autre est brillant
dans la même chose. Ainsi, nous pouvons tracer plusieurs lignes sur
le même bloc. Je vais donc le répéter encore une fois. Voici ce que nous avons fait, nous avons créé un X en utilisant une séquence que
nous avons déjà utilisée. En créant le diagramme linéaire de base. Séquence et zéro
virgule deux dans pi, puis
point, point cent Et ici, pourquoi le souligner ? Parce que nous allons
tracer les lignes sinus et cosinus sur le même tracé J'ai donc besoin de deux points, Y points pour expliquer pourquoi soulignement sera le
sinus de X et le trait de soulignement Y. cosinus sera le coût du trait de
soulignement Y sera le
coût du cosinus ZR de X. Donc, ceux-ci, ceux-ci peuvent
tenir compte de ces trois X virgule Y signée et
X virgule Y égale. Et maintenant je dois
tracer ces points. Donc, pour la valeur des données, la fonction de tracé GG. Et là, vous avez placé la trame de données sous la direction de la fonction de tracé
GG,
l' opérateur plus pour
transmettre tout ce que vous voulez Et je vais utiliser la fonction de ligne de
soulignement geom. Et pourtant, les données des conseillers sont
égales à data.frame X virgule Y est égal au
signe de réveil et aux La cire est égale à X, Y est égale au blanc et colorée. Pourtant, la couleur allergique est la
même, d'accord ? Et la couleur est égale ou brillante. Et ici, c'est pareil. Seul YOLO va affaiblir Nicée. Et puis le titre donnera aux laboratoires
la fonction de donner l'heure. Et X est égal à X
et Y est égal pour
pondérer une
fonction de vue latérale et minimale. Et quand on court, on obtient cette connexion ou on a honte de
partir quand c'est le même complot J'ai donc déjà expliqué nous créons deux ensembles de
données distincts pour la courbe du sinus et du cosinus en utilisant
data.frame X virgule Y, X virgule Hawaï, signe hawaïen et
X virgule Y.
Y est égal à X virgule Y. Vous pouvez savoir pourquoi cela coûte, d'accord ? que
nous créons deux ensembles de
données distincts pour la courbe du sinus
et du cosinus en utilisant
data.frame X virgule Y, X virgule Hawaï,
signe hawaïen et
X virgule Y.
Y est égal à X virgule Y. Vous pouvez savoir pourquoi cela coûte, d'accord ? Et puis chacune est une couche de la ligne Yom. Ici, nous
créons essentiellement deux couches de couches de lignes distinctes. D'accord ? Ainsi, chaque ligne géométrique, chaque fonction de ligne de soulignement créera une couche
correspondant à une ligne séparée,
OK, un signe de parc
et une Nous utilisons l'esthétique des couleurs
pour les distinguer. Ensuite, la fonction de laboratoire que
nous utiliserons nous
servira à définir le titre et l'
axe des niveaux excédentaires, d'accord ? Et l'équipe souligne l'apparence générale minimale et
tendance de
l'intrigue à la minimalité Ensuite,
nous allons essayer de personnaliser les propriétés de
la ligne. Nous pouvons maintenant personnaliser les différentes propriétés des
lignes telles que la couleur, la ligne, le type et la taille. Ici, les données d'exemple suivront la même séquence que celle de San Values et
recréeront la boucle X where. Ensuite, nous expliquerons
pourquoi le
signe de soulignement et le trait de soulignement Y coûtent en utilisant les fonctions sinus et
cosinus
ici et en transmettant la sortie illusoire
supplémentaire à l'indépendante où
ils le feront de toute façon,
le signe de
soulignement et la sortie indépendante où
ils le feront de toute façon,
le signe de
soulignement et la soulignement crochet sera la variable
dépendante car ces valeurs
dépendent du X. Et ici, nous allons créer un
graphique linéaire avec Vous ajoutez Plot plus
geom line ici,
DataFrames, la même chose que nous avons utilisée
précédemment Et ici, nous allons utiliser des couleurs. Il va signer qu'un type de
ligne est appelé un solide et que la taille
ici donne 1,5. Donc, tapez une ligne pleine et
dites-le, mais j'utilise la taille pour déterminer l'
épaisseur de la ligne. D'accord ? Je laisse donc la version 1.5 ici. Et même chose
avec un badigeon. Et puis tout le
reste sera pareil. Titre du laboratoire. X est égal à XY est
égal à la couleur I. Alors nous allons vous donner
ceci, exécutons-le, et maintenant nous les avons. C'est en pointillé et
c'est cette épaisseur. OK. Ensemble, nous avons terminé votre saisie de
ligne sous forme de tableau de bord, elle apparaît sous forme de ligne pointillée Et nous avons ici votre solide, donc il nous vient comme
un solide support. Ils vont porter le score à 111,5. Et si je recommence. Voyons donc ce que vous voyez ici. Maintenant. La ligne pointillée arrive. De cette façon. Nous pouvons augmenter ou diminuer
l'épaisseur de la ligne. OK, donc je l'espère J'espère que cette partie explique clairement
comment créer une ligne. Tracez
dans un graphique GG jusqu'à
la prochaine conférence.
102. Visualisation de données avec ggplot2: Bonjour et bon retour. Dans la leçon précédente, nous avons vu comment
créer des tracés linéaires. Nous avons également
vu comment tracer plusieurs tracés linéaires et comment personnaliser les tracés linéaires. Dans cette conférence, nous
allons utiliser d'autres données, diagramme
GG pour ajouter de la programmation. Alors, je vais chauffer notre ensemble
de données, qui contiendra le nom, quelques noms et le sexe, homme, femme, puis leur
âge et le résultat du test. Le score sera répété
100 et bien sûr, d'accord Sur cette base, nous essayons de visualiser ces données,
qui contiennent le nom, l'âge, le sexe et le score du test. Nous essaierons de visualiser
cet ensemble de données à l'aide de tracés de rayons ou de tracés en
direct dans GG,
et nous essaierons d'apporter des personnalisations à ce sujet, comme de véritables diagrammes à facettes Et nous allons essayer d'utiliser plusieurs éléments sur
ces ensembles de données simples J'utilise donc le jeu de données
simple que
chacun puisse le comprendre. Avant cela, permettez-moi de clarifier les choses. Commençons donc la
visualisation des données avec ggplot2. Et à l'aide de ce jeu de données simple, nous allons essayer de mieux
comprendre ce que nous avons appris jusqu'à présent
en matière de monopolisation de ggplot2 en Guinée Cela
chargera donc évidemment les bibliothèques nécessaires, c'
est-à-dire GG plot 2. Donc library et nous allons transmettre la
bibliothèque de noms de bucket nommée GG plot. Ensuite, nous allons dendriter
l'échantillon de jeu de données
que nous utilisons habituellement pour
cet exercice OK, donc ici je vais utiliser la graine
set one-two-three. Et c'est pour la
reproductibilité. Reproductibilité des semences.
Parce que vous voyez, nous allons utiliser sample en
utilisant la fonction sample. Et il aura entre 18
et 25 ans. Il se déplacera de 18 à 25. Ce sera donc le générateur
aléatoire. Donc, ce que je veux faire chaque fois que je veux utiliser cet exemple de données, si j'utilise set.seed, ce sera le cas, les données ne
seront pas régénérées Une fois qu'il sera
généré pour cet exercice, il aura vraiment la même signification. Il reproduira donc les mêmes
valeurs aléatoires de configuration. OK, pour l'instant. Donc set.seed reproduira les mêmes valeurs
même si nous atteignons la
fonction sample, Sinon, si vous n'
utilisez pas set.seed à chaque fois, cela créera de nouvelles valeurs aléatoires, de
nouvelles valeurs D'accord ? Alors maintenant, nous allons d'abord utiliser set.seed, puis nous allons créer
nos variables étudiants Et ici, vous utilisez data.frame. Et ici, le cadre créera la variable de nom
et stockera ce vecteur qui
contiendra les noms Alice, Bob, Charlie, David, Eva, rank, Frank, Grace, Hannah,
Yan et Jack. OK. Ensuite, nous allons créer un autre facteur qui
stockera le genre et le genre utilisera le
vecteur oui, masculin et féminin. D'accord, et dix par dix, d'accord ? Dix à dix et remplacez vrai. Ensuite, pour Angel, utilisez
les échantillons 18 à 25. Et combien je veux,
je veux des valeurs finales que j'ai
fini par lire pour quantifier et tester le score jusqu'à 210 Discord, je veux les générer en
utilisant la fonction d'échantillonnage Nous allons ainsi obtenir les ensembles de
données d'échantillons de données. Alors laisse-moi m'occuper de ça. Nous avons maintenant créé l'
exemple de jeu de données. D'accord ? Alors voyez maintenant, si nous imprimons l'étudiant, nous pouvons voir votre nom, sexe et Tesco Il avait donc le nom, nous avons donné des noms. Et le sexe a
été généré aléatoirement à l'aide
de la fonction d'échantillonnage. D'accord ? Les
paiements pour hommes, femmes et hommes se font sur place, d'accord ? Homme, femme, homme, femme. Donc, générateur de litres aléatoires, les maris âgés de 18 à 25
ans
assignés aléatoirement à ces noms et les résultats des
tests ont également été générés nommément De cette façon, nous pouvons créer un exemple de jeu de données. Ensuite,
ce que je veux faire,
c' ce que je veux faire, créer un nuage entre cet âge et Tesco Je veux voir comment évolue le résultat
du test fonction de ce que je veux tracer ou disperser pour obtenir
le score pour l'âge
correspondant Donc, pour cela, je suis
confus : nuage de points, âge par rapport au résultat du test Donc, pour cette allusion, je vais
créer un nuage de points variable. Et ici, je vais utiliser
la fonction et transmettre l'ensemble de données des étudiants
ici. OK, étudiants. Ensuite, je vais esthétiser l' énorme axe X et X est
égal aux axes H et Y. Score. Et le point en néodyme, je vais utiliser la fonction de
point de géométrage pour tracer les points sur les axes X Et dans votre laboratoire, X est égal à
is et c'est pourquoi on l'appelle r2. Score. Et le titre de l'intrigue sera le nuage
de points, Age versus Discord Ensuite, j'imprimerai
ce nuage en utilisant la fonction rand
pour l'afficher ici. Alors laisse-moi juste le garder ici. Et d'accord. Alors regardez ici, nous avons maintenant
un nuage de points ici, qui se trouve aux pages 18 à 25, et l'axe Y et la destruction du score,
le score du test Donc, pour 18 ans, c'
est autour de 85. Donc pour 18 ans, si tu as
l'air bien ici. Quelle identité à quatre ans ? Alors voyez ici la thymidine ou à
400 et tracez le graphique. De cette façon. Nous pouvons créer un nuage de points
en utilisant le ggplot2. Donc ici, sur la couche esthétique, nous avons donné les axes X et Y, nous avons réussi le score du test. Et nous utilisons la fonction de
point géographique pour tracer ces points sur le graphique et votre fonction de laboratoire, nous avons X égal à H. Et pourquoi on l'
appelle score de test Et plus précis, le nuage de points
par rapport au nuage de points, âge par rapport au foulard De cette façon, nous pouvons l'obtenir
en diagramme de dispersion ou en nuage de points. OK, la prochaine chose à faire est
ce que je veux faire. Je veux la même explication que j'ai écrite ici et laisser le fichier de
données, vous pouvez le
parcourir. Et si tu veux,
je t'expliquerai à nouveau. Nous allons donc commencer par charger
la bibliothèque GG plot pull. Ensuite, nous allons créer l'
exemple de jeu de données en utilisant data.frame que nous
avons créé ici,
data.frame et le nom, l'âge, le
sexe et les résultats des tests Ensuite, nous utiliserons la fonction de tracé
GG pour lancer le lot et
fournir les données. Les étudiants et l'esthétique. La fonction esthétique X est égale
à celle de Tesco, qui mappe la variable
sur l'axe X. Ainsi, l'axe X sera
mappé sur l'axe X
et la variable de score
sera mappée La fonction geom point est utilisée pour ajouter des points au tracé Ces points seront
ajoutés au graphique
en utilisant la fonction Geom Point,
Geom Underscore
Point pour
chaque point de données afin de
créer un nuage Enfin, nous
personnalisons les étiquettes et le titre du tracé à l'
aide de la fonction labs. Ici, la fonction Lab
sera utilisée pour personnaliser les étiquettes et
le titre du Plot. Ensuite, nous utiliserons
la fonction d'impression. Henry, mets en pause le nuage de points, le nom que nous avons
attribué à ce diagramme, et nous le transmettrons
à l'impression et le nuage de points sera
imprimé sur notre De cette façon, nous pouvons créer chaque données
par rapport à l'échantillon de score
que nous avons généré. Ensuite, je veux y ajouter le facettage facetté Le Scatterplot indique le score
du test pour chaque sexe séparément OK, ce
sera donc le premier bloc. Pour cela, je vais créer
un descripteur de tracé
variable à la première étape, vous ajoutez Plot. Et il avait un utilisateur.
Même DataFrame Ensemble de données sur les étudiants. Esthétiquement, X est égal
à X et Y à Tesco. Et il le fera, puisque je veux beaucoup le
faire en me basant sur le score du test Each Versa basé sur le pour chaque sexe séparément. Alors ici, la couleur est énorme. La couleur va au sexe, sorte que le sexe sera
spécifié par la couleur. Et puis Geom Point. J'avais l'habitude de tracer les points et fonction de
laboratoire que nous avions l'habitude de donner. Viennent ensuite le résultat du test et le
titre du Seigneur. Et ici, et utilisez la fonction Facet
Underscore Wrap. Et voilà, je vais emballer celui-ci. X1 de Mao figurait dans l'appel d'offres. Vous utilisez toujours le genre
quatre si je soustrais, OK, alors laissez-moi lancer ça
et voir le résultat D'accord ? Maintenant, je peins la
peinture et vois que nous avons maintenant l'intrigue à facettes,
l' âge par rapport aux résultats des tests par sexe. Donc l'axe X est, encore une fois,
et l' axe Y est le code des décès Mais ici, le plan de dispersion de notre Seigneur a été divisé en deux parties, féminine et masculine.
Femme ou femme. Le sexe féminin a
été tracé ici. Et pour le sexe masculin
, cela a été tracé ici. C'est donc une solution claire. Nous pouvons voir ce bureau
numérique de quelques minutes ou un bureau
féminin appelé
Values et sur moi. OK. C'est ainsi que nous pouvons
utiliser le diagramme de Fester pour utiliser les données
classifiées par sexe D'accord ? Et nous voulons savoir
ce qu'il en est de l'explication ? Je vais le répéter encore une fois. Permettez-moi donc décrire ici. Ce que nous avons fait, comme
nous l'avons fait auparavant. Nous avons utilisé la fonction de tracé
GG pour enregistrer le graphique et
fournir les données, les données des étudiants que nous
avons créées à l'aide de
la fonction d'échantillonnage. Et puis l'esthétique. L'esthétique des polices et
X est égal à SY au carré appelé score et Nous avons votre agenda pour cartographier
la variable d'âge, appelé agenda pour mapper la
variable d'âge sur l'axe X. Tesco est précieux sur l'axe Y, et enregistrez cette couleur pour augmenter
la vitesse du vent selon La couleur des points
sera donc basée sur l'ordre du jour. Et il y a deux sexes. Naturellement, le
mari bicolore utilise le rouge et le bleu. D'accord ? résultera donc en résultera donc
des couleurs différentes pour les étudiants masculins et féminins. donc utilisé du Cl pour les hommes et On a donc utilisé du Cl pour les hommes et les
femmes de différentes
couleurs. Et c'est parce que nous
avons une couleur énorme, c'est ce que l'
on appelle le genre, d'accord ? Le point de géométrage des années
Sandy permet de créer le point de dispersion pour chaque point de données que
nous avons déjà vu Et nous personnalisons les niveaux, le titre
et l'intrigue. Vous n'avez pas eu la dernière fonction
que nous connaissions déjà. Ensuite, le laboratoire Facet Underscore. Et ici, nous allons passer que la dysfonction sexuelle
créera des panneaux séparés, des facettes sur ces deux
panneaux, masculin et féminin Vous pouvez voir ici que c'est ce
que l'on appelle des visites. emballage à facettes et soulignés créera deux panneaux distincts qui seront d'
abord définis pour Nous avons donc dépassé le sexe. Ainsi, en fonction du sexe,
il y a eu deux facettes deux panneaux
représentant les points D'accord ? Cela signifie que cette parcelle sera
divisée en deux sous-parcelles D'accord ? S'il y a trois
genres, comme masculin, féminin et neutre, alors
il sera
divisé en trois parties, d'accord Intrigues secondaires. Une entreprise a parcouru le
kilomètre jusqu'à l'heure d'exécution, une autre étudiante Et la fonction d'impression sera utilisée pour afficher le
nuage de points à l'écran OK, voici donc l'explication pour créer un nuage de points
et faciliter le blocage Ensuite,
nous allons créer un diagramme à barres. Et ici, nous allons utiliser le genre. Ce que nous voulons tracer, nous voulons tracer le sexe par rapport au code de
test en utilisant la
valeur moyenne du résumé. Nous allons donc ici
créer un diagramme à barres. Et un graphique à barres sera
créé sur la base de ces deux variables, le sexe
par rapport à Tesco Nous allons comploter. Et ce que nous allons utiliser ici, vous allez utiliser la
valeur moyenne, le résumé. Voyons donc ici alkylé partout où il est bar
et est appelé plot Et j'utiliserai la
fonction de tracé GG en tant qu'ensembles de données. esthétique X des étudiants est égale au score du test de la racine
carrée selon le sexe. Et je vais utiliser l'opérateur plus. Et ici, je vais utiliser la barre de
soulignement géométrique pour créer
le graphique à barres ou le graphique à barres. Et ici, je vais vous dire que
statique est égal à résumé. Et la fonction
sera la fonction principale ici et remplira chacune d'
elles comme stable. Il sera donc reconstruit
avec le bleu en acier. Et la fonction
sera créée sur le MDA, sur la valeur moyenne ou
moyenne de Somebody et stack
sera le résumé Donc résumé, je vais résumer par les
valeurs moyennes et rire fonctionnel,
énorme, écologique, sur l'
axe X, le genre et Y,
X, X est vraiment avec un score de test moyen sur un score de test
moyen Et le titre sera
accompagné d'un diagramme à barres, sexe était le
résultat moyen du test et le graphique à barres d'impression. Alors laissez-moi lancer ceci et
voir le résultat que vous voyez. Et maintenant, nous avons le bar Plot
pour hommes et femmes. Et ici, sur l'axe Y nous montrons le score
moyen du test, un homme et une femme Jusqu'à présent, le
score moyen des femmes aux tests est le suivant. Pour moi ? Je suis juste le résultat d'un test. De cette façon, nous pouvons
créer le diagramme à barres. Alors voilà, si vous voyez l'
explication chaque semaine, nous vous le dirons. Nous allons donc utiliser la
fonction de tracé GG pour lancer le tracé. Esthétique. X est
égal au sexe ou score de test
au carré Y fait correspondre
la variable genre
à l'axe X et la variable de score
au test à l'axe Et la fonction Escobar consiste à
créer un graphique à barres. Et nous nous asseyons. Stat est appelé
résumé des deux et phon est égal à ce que deux fonctions principales
seront calculées et affichées. Le score pour chaque dôme. La moyenne de leur score
sera affichée et le champ
qui limitera la quantité de colle sera la couleur de la fourrure
au Barstow Le bleu, la couleur des barres. Et nous avons personnalisé
les niveaux en utilisant la dernière fonction
que nous connaissons déjà. Ensuite, nous allons utiliser la fonction
d'impression pour imprimer le tracé à l'écran. La prochaine étape est de
créer un boxplot. Genre ou
discours, pareil. Donc, ici, le diagramme GG,
la fonction, l'actif échoué, esthétique X est égal
au sexe loin du score du test sur l'axe Y et à
remplir librement par Et nous utiliserons la fonction
geom underscore boxplot pour créer
le boxplot et la fonction latch sera utilisée pour donner le
titre de la barre
et le nom des axes X et Y et l'imprimera simplement boxplot pour créer
le boxplot et la fonction
latch sera
utilisée pour donner le
titre de la barre
et le nom des axes X et Y et l'imprimera simplement. Alors allons-y. Nous avons maintenant un schéma, le sexe par rapport au résultat du test L'axe X représente le sexe
et le résultat du test sur l'axe Y. Et voici le box plot
pour les hommes et les femmes. Donc tu peux voir, d'accord. Donc, sur cette base, vous pouvez faire
une analyse plus approfondie, d'accord ? Quoi que vous
en fassiez, boxplot, premier quartile et toutes ces
choses, vous pouvez vous détendre La même explication que Gorgias,
DG, a tracé pour initier
l'esthétique de l'intrigue pour cartographier les vents et fonction
Young boxplot utilisée
pour créer Et nous personnalisons en utilisant
la dernière fonction print. D'accord ? Et ici, vous pouvez
voir les deux cases, une pour chaque sexe,
masculin et féminin. Les cases Entropie dans l'
intervalle interquartile que je vous ai déjà indiqué La ligne à l'intérieur de la case
représentant la moyenne, valeur
médiane et les points
extérieurs aux valeurs minimale et
maximale au sein d'un quartile de l'exercice fiscal 2015, d'
un intervalle
interquartile interquartile Et les points forts sont que les
moustaches sont considérées comme le
dernier point en dehors de ce risque ,
car lorsque nous en appelons moins donc l'
analyse que vous pouvez effectuer pour trouver des valeurs aberrantes
et si c'est le cas,
cet ensemble de données
ne me suffit pas Là-bas. Cet ensemble de données n'est pas suffisant pour analyser la classe de
chiens. Et tout. Il s'agit de l'exemple de jeu de données
que nous avons créé en créant simplement les différents tracés. OK, alors la prochaine chose que nous allons faire, créer un histogramme Et ici, nous utiliserons la
répartition par âge des étudiants. Ici. Je vais utiliser l'histogramme Je vais créer un histogramme où ils vont tracer la fonction Year
GG J'utiliserai le même jeu de données tout en
conservant une sortie esthétique
égale à H et j'
utiliserai la fonction geom histogram
geom
underscore Hostogram geom
underscore Et ici, binwidth,
je vais en donner un. Je vais remplir ce tableau, la couleur au blanc, et je vais utiliser la fonction gauche
pour donner le nom du
tracé et les axes X et Y, puis j'
imprimerai simplement l' Voici l'histogramme. Nous les avons créés
en disant « OK » Voici
donc l'histogramme de la répartition par âge
des étudiants OK. Je vais rapidement reprendre
l'explication. Encore une fois, nous avons ici la fonction de tracé GG
pour enregistrer le tracé ,
puis le tableau de bord et les données de
déformation vers le tracé GG. Et nous utiliserons la
fonction esthétique et l'âge
parce que nous allons annuler la distribution par âge
des étudiants
à l'aide d'un histogramme X est donc égal à H et
mappez l'historique avec la
valeur de l'axe X. Geom souligne les valeurs de
la fonction d'histogramme pour créer l'histogramme lorsque chaque barre
représente la fréquence,
comptez le groupe d'âge spécifique des élèves Donc, ce que j'essaie de dire, c' est que chaque barre représente la fréquence de
location de poissons dans une barre d'âge spécifique. D'accord ? Donc, à cette fréquence
de la souche pour 20 est-ce que la
fréquence va louer combien de brins
y a-t-il que vous pouvez voir ? Vous voyez ici des problèmes liés
à l'âge. À 24 ans, il n'y a pas d'étudiants, il n'y
a
donc aucun obstacle. Et le blanc avec un
argument en couleur, une barre blanche,
l'écart entre ces deux blancs, de
sorte que l'écart entre ces deux cette
pondération collatérale ne peut pas être soulignée, ne figurera pas Personnalisez ensuite à l'aide
de la fonction de gauche. Et l'imprimante utilisant la fonction
d'impression est un axe X. Et le président,
les différents
groupes d'âge et, par hasard, les marques qui ne le font pas, mais je
pêchais le loyer dans chaque groupe Donc, ce que 181 c'est pour courir pour
20, il y a des étudiants, donc je critique ou pour
le Dataset CF1 18, un
seul en fait 20 Et pour 2 012,3
fils, c'est très bien. Si vous regardez ici, pour 23 étudiants, combien de 25 ? C'est Nostradamus. Donc, quand nous, vous examinez les données, la partie D leur convient parfaitement
après 24 ans, puis Nostradamus D'accord ? Ainsi, nous pouvons créer différentes licences
moyennes nettes en utilisant GG plot
103. Ajouter une esthétique des couleurs aux intrigues: Bonjour et bon retour. Dans la conférence précédente, nous avons vu comment obtenir différents tracés à l'aide de ggplot2 dans
notre rééducation manuelle en créant ce jeu de données simple
contenant le nom, le
sexe Et grâce à cela, nous
avons vu
comment tracer un nuage de points, qui représentera
chaque mot, explique Tesco Ensuite, nous avons vu comment
utiliser les polices Geom Point et comment nous pouvons utiliser
la fonction Labs Et nous avons vu toutes
les explications. Nous avons vu comment créer
une intrigue à facettes qui le fera. Les connexions se composent donc de deux parties,
comme l'âge et le résultat du test. Basé sur le sexe. Il fera le tri par sexe. Il le sera également dans les deux
parties, masculine et féminine. D'accord ? Donc, toutes ces choses que nous
avons vues de cette ne seraient
pas liées à la rapidité avec laquelle
les hommes et les femmes se séparent. donc
vu comment nous pouvons y parvenir avec ce lot de parcelles
fascinant , qui plus est un
nuage Ensuite, nous avons vu comment
mettre en place la barre Plot. Et entre l'âge, le
sexe et la discorde. Discord que nous avons également vu. Ensuite, nous avons
vu comment placer
son patron, sa mosquée, son lot, son
box plot et entre le genre et le code de test
et comment nous le pouvons son patron, sa mosquée, son lot, box plot et entre le genre et le code de test
et comment nous Nous avons également vu
l'explication de la façon dont nous pouvons analyser les valeurs aberrantes, mais cela sur l'intervalle interquartile
et Donc pas tous distincts alors nous
avons vu l'histogramme. Vous pouvez faire bien d'autres choses
en fonction de vos besoins. Ensuite, je
vais vous
dire comment ajouter de l'esthétique
aux intrigues. Supposons donc que vous ayez regardé Nous avons créé ce
graphique, un nuage de points ici Ainsi, lorsque nous voyons le nuage de points, il s'agit du
nuage de points comme celui-ci D'accord ? Maintenant, ce que je veux faire, ajouter de la couleur plus tard à
l'ordre du jour de cette intrigue. Il en sera donc de même pour la
bibliothèque U-Dub et l'ajout de ggplot2. Et voici pourquoi j'ai
voulu modifier cette
esthétique de cette intrigue. Parce qu'en les regardant, je ne sais pas quel
point est masculin ou féminin. Fabriqué dessus. Nous l'avons fait sur le bureau de chaque agent, aurions-nous
pu tracer un plan, mais
nous ne savons pas, c'est moi Ce score est masculin
ou féminin. OK. Je veux mettre les points dans une couleur pour que nous puissions
regarder l'intrigue. Je peux savoir que, d'accord, cet être appartient à une femme
et que le bleu est pour moi. Nous pouvons donc faire ce
genre de choses avec le changement esthétique
en ajoutant de la couleur. Nous allons donc ajouter une esthétique
chromatique aux intrigues afin de
différencier les étudiants des deux
sexes. OK, donc voici le même
exemple de configuration que Data va créer. Nous devons donc d'abord
exécuter la bibliothèque
, puis il m'a fallu accéder à cet ensemble de données que nous
avons déjà créé. Ensuite, nous allons créer ici
un vecteur qui
contiendra le mâle, attribuerons une couleur bleue car la mémoire attribuera
la couleur rose. Et ce recteur va attribuer
à la variable de couleur. OK, donc la même semaine, ce que nous avons créé ici, nuage de points, sera sombre de la même
manière Ici, le nuage de points donnera une variable nommée nuage pour vous donner la fonction de diagramme
GG Nous transmettrons l'ensemble de données
en tant qu'étudiants. Nous l'avons créé, puis nous utiliserons la fonction
esthétique. Pourtant, X est égal à H et Y est égal au
score du test qui sera le même. La seule chose à faire est que nous allons attribuer
un autre paramètre ici, colorier chaque appel en fonction du sexe. Nous allons donc attribuer la
couleur en fonction de l'agenda. Et cette couleur
proviendra vecteur de couleur que nous avons créé
ici. Ensuite, nous utiliserons le point de
soulignement géométrique pour tracer le point sur le tracé Ensuite, nous utiliserons la
couleur de soulignement de l' échelle dans la seconde Cette fonction sera donc utilisée pour colorer les points
soulevés sur l'ordre du jour. La couleur va
donc porter sur le genre. Et nous voilà en train de passer, ces polices et
cette échelle de couleurs soulignement manuel des couleurs Les valeurs sont égales à Cette valeur
proviendra donc de ce vecteur. Masculin et féminin. Le mâle sera bleu et
vert. Quand on fait une boucle À partir de là, il
choisira la couleur elle sera tracée
et fonctionnera en laboratoire Maintenant, nous le savons déjà. Alors laisse-moi juste faire ce
truc et voir ici. Nous avons maintenant le
nuage de points que nous avons créé. Maintenant, imprimons simplement sur
le nuage de points ici. Maintenant, le nuage de points
est rose et bleu. Les points qui étaient
auparavant d'un Leap Black. Il est représenté
en bleu et en rose. Les vents roses appartenaient à la femelle et les vents
bleus aux mâles. Ainsi, nous pouvons personnaliser le nuage de points en
ajoutant une esthétique des couleurs Laissez-moi donc vous expliquer cela à nouveau. Nous avons créé cet
exemple de jeu de données. Les personnes disposant de ce tableau de données de
réduction sont le nom, le
sexe, l'âge et le score du test d'Eric . Et ici, nous voulons ajouter
une esthétique chromatique. Nous avons donc créé
notre couleur, nous la vectorions, où nous avons attribué un bleu à la couleur masculine et à la couleur féminine. De cette couleur, nous appuyons sur
les barres pour souligner l'échelle,
souligner, fonction manuelle Cette fonction va donner des valeurs
à partir de ce vecteur de couleur. Et en fait, il attribuera en
fonction de l'agenda s'il va attribuer couleur
bleue et s'il s'agit de milliéquivalents
libres NDA,
je pense, d'accord, alors nous avons
tracé Nous pouvons faire la même chose avec le diagramme à barres, le diagramme à
cases et l'histogramme Alors faisons-le aussi. Donc, ici, je crée un bouton à barre précieux, qui
fait un nuage de points, fonction de diagramme
GG, j'utilise l' esthétique
X des étudiants de
Dataset qui est égal au sexe Pourquoi ça s'appelle score. Et je vais remplir avec le genre. Ensuite, j'utiliserai la barre de soulignement
geom, sur
Tracer le résumé des statistiques et je tracerai avec le résumé
avec la valeur moyenne Ensuite, j'utiliserai la balance, le trait de soulignement de
l'échelle, le manuel du trait de
soulignement Nous avons donc ici la couleur de
soulignement de l'échelle, et c'est ce que l'on appelle manuel
pour la barre Plot Compétence, soulignement, manuel de
soulignement. Et nous allons passer à la couleur à
valeur ajoutée. Et puis le labo Swanson
sera utilisé par Hedges. Alors laisse-moi m'occuper de ça. Et maintenant je vais imprimer la barre Plot. Tu vois, maintenant, la
femelle est tracée. Boxplot, PMM in boxes
bring et boîtes aux lettres. Mail bleu. De cette façon, nous pouvons
colorer l'esthétique. Bach, Bach bar, complot, désolé. Puis boxplot. J'utiliserai le même
ensemble de données . L'esthétique X est
égal au sexe, c'est
pourquoi on l'appelle bureau
ou sexe féminin. Et puis la barre de géométrage, boxplot pour tracer les points, puis
le soulignement à l'
échelle,
le soulignement manuel et
vos valeurs lorsque nous
colorons et à gauche, le sexe X. Pourquoi Dieu aime le graphique est un boxplot pour les résultats des tests de
résistance au genre Et allons-y. Et puis un
boxplot aléatoire. Le boxplot Le box plot
comporte également des couleurs rose ou féminine et bleu pour le repas OK. Ensuite, nous allons nous
occuper de l'histogramme. Ainsi, même
fonction de tracé GG pour étudiants esthétique de l'
ensemble de données X
est égale au champ H. Cela s'appelle l'agenda
, puis Geom Underscore Et il voulait
donner la bande passante un homme
à chaque appel et colorier
chaque couleur en blanc. Et puis redimensionnez. Échelle le champ de soulignement
et sa commande. Nous transmettrons les valeurs
sous forme de couleurs. Ce blanc sera donc la couleur de la bordure, et
ce sera fait. Couleurs de l'histogramme
en fonction du sexe. D'accord ? Et puis la dernière fonction est l' histogramme
d'Israël et
la répartition des étudiants Ceci, puis imprimez
l'histogramme. L'histogramme indique que je ne l'ai pas fait. La couleur rose et bleue et la couleur de la bordure
foncée sont le blanc. Les lignes adjacentes sont blanches. Si tu veux
le rendre vert. Exécutons ce programme. Le Nauta, plus
ou moins. D'accord ? Donc, cette couleur est pour la limite et cette valeur pour les couleurs que nous
choisissons
à partir de ce
vecteur de colonne que nous avons créé étant une femme
et cultivant du formyl, vous pouvez donner la
couleur que vous voulez pour donner libre cours à votre D'accord ? Ainsi, nous pouvons
ajouter de l'esthétique aux tracés dans ggplot2 J'espère donc avoir
expliqué clairement. Et tu peux marcher dessus. Vous pouvez commencer à jouer avec
les données de la fonction radius. Vous pouvez creuser un autre
ensemble de données et commencer à exploiter les éléments
, à les développer, les faire
exploser et à
commencer à expérimenter des choses La couleur différente, l'esthétique
différente. OK, alors rendez-vous lors de
la prochaine conférence.
104. Esthétique de l'intrigue de réglage fin: Bonjour et bon retour. Ainsi, dans la conférence précédente, nous avons vu comment
ajouter une esthétique chromatique. Nous avons vu comment
ajouter des couleurs aux diagrammes, au
nuage de points, à barres, au tracé, au diagramme boîtes et à leur stockage Maintenant, j'essaie d'
affiner les tracés à l'aide de fonctions
de mise à l'échelle. Donc, il faut aussi peaufiner
ce qui va bien. Les résultats essaient vraiment de le
rendre un peu plus attrayant, tout va bien.
Pour affiner l'intrigue,
l'esthétique et ggplot2, nous
pouvons utiliser la fonction esthétique, la fonction
aes pour mapper les l'esthétique et ggplot2, nous
pouvons utiliser la fonction esthétique, la fonction variables en fonction de l'esthétique
et la fonction d'échelle soulignement de l'échelle a commencé par, il comporte plusieurs
fonctions en dessous Nous pouvons donc utiliser les
fonctions de compétence pour personnaliser l'apparence des éléments du tracé du
rayon. Simplicité, ils
peuvent améliorer l'esthétique, adapter les fonctions pour
affiner l'esthétique de l'intrigue. Donc, dernière chose à faire, nous allons
charger la bibliothèque. Nous allons ensuite créer le
même exemple de jeu de données que celui que nous avons créé dans
les cours précédents. Ensuite, nous allons
peaufiner un nuage de points. Donc, nous ferons la même chose, âge par rapport au résultat du test. C'est la même chose. Ici. Nous allons peaufiner le tout en utilisant fonctions
esthétiques et techniques. Le précieux nuage de points que
la fonction de diagramme utilisera
transmettra le jeu de données Ensuite, la fonction esthétique lorsque
X est égal à H de Y est égale au score du test et à la couleur
obtenus sur le sexe du gel. Et ici, nous allons utiliser un autre
paramètre appelé Save. Et faites des économies. Le type de sauvegarde que nous pouvons associer
décidera en fonction du sexe. Et ici, nous allons utiliser fonction
geom point
pour tracer les points Mais ici, les
parties le précisent vraiment. Donc, plus tôt, nous n'avons
pas spécifié de taille en points,
nous allons en spécifier trois. Donc, les côtés du point de géolocalisation sont
égaux à trois. Ce paramètre sera transmis. Ensuite, nous utiliserons
le trait de soulignement de l'échelle, soulignement Et il avait des valeurs pour
la couleur qui donnera à C. Rector ici le bleu et le rose Et puis pour le CEP,
nous utiliserons également des traits de soulignement. Le manuel souligné ici
donnera les valeurs. Il en a 16, 17. Cela créera donc
divers conseils sûrs que nous pourrons créer, puis nous utiliserons
la fonction de laboratoire. Et laissez-moi vous expliquer cela simplement. Lorsque je l'exécuterai, le
nuage de points sera créé. Apportons le nuage de points. Alors maintenant vous pouvez le voir ici, maintenant le nuage de points
va le créer,
mais voyez que le thème des points pour
les hommes et
les femmes est indifférent voyez que les points sont un
peu plus grands car nous n'avons pas spécifié la
taille égale à trois. Si je le fais en tartan,
que se passera-t-il ? Voyons voir. La taille augmentera et
elle bougera, imprimez-la à nouveau. Maintenant, la taille des
points est plus grande car nous avons une
taille spécifiée égale à 13. Et la couleur que nous avons
donnée ici, le bleu et le rose. Donc des couleurs bleues et roses, partie
bleutée, une femme et un homme Nous avons donné du rose. Alors le voici. Appoggiature Nous pouvons maintenant corriger simplement. D'accord. Ce n'est donc pas exact et cela
ne vous
permet pas de calculer la lettre C. Maintenant, les points sont plus grands. Donc, sur la base de ce côté, cela vaut 30 et la couleur
vient d'ici et voyez si elle
provient de ce tas Quelles que soient les valeurs que
nous transmettons ici. Si j'en fais 117, voyons voir. Vous pouvez simplement jouer avec
les chiffres et voir
maintenant celui-ci s'il y en a un. Ce n'est donc qu'un cercle. Et si je mets un texte représentant le soutien de l'équipe du processus de recuit, je mettrais 88 Et voyons de quel
secret il s'agit maintenant. Remarquez que vous arrivez comme ça. Donc, sur la base de ces éléments, vous pouvez voir, si je mets 18, quelles seraient
également les mêmes données, vous pouvez voir que vous me
laissez les copier. Divisé. Veuillez le voir, et maintenant cela entre dans
ce ruban laminé
et c'est un triangle. Si j'y arrive. en va de même pour ce qui se produira, disons, si je fais 28,
28 n' a rien à voir avec ça. Nous pouvons y remédier. D'accord. Donc, en fonction des chiffres sur le
coffre, cela changera. C'est ainsi que nous
pouvons peaufiner les intrigues. Ensuite, nous allons
peaufiner la barre Plot. Et pourtant, le score du test sur le sexe et l'
inverse signifiaient généralement la valeur
du résumé. Nous allons tracer ce que nous avons
déjà tracé ici. Le même jeu de données. Esthétique des étudiants, sexe, pourquoi les résultats du test et
remplissage par sexe. Et puis la fonction Geom Underscore
Bar. fonction Geom Underscore
Bar permet résumé et de
téléphoner si
le trait de soulignement est sensible à la moyenne
et à l'échelle Le manuel de soulignement apparaîtra
en bleu et en rose. Et c'est une chose simple, il suffit
de la coller ici. De même, nous pouvons faire la
même chose avec le boxplot. Ceci pour Boxplot. D'accord ? Donc, PDG, maintenant, un point apparaît ici, de
sorte que nous avons un
bigender fluide non binaire entre les sexes Et ici. De même, nous pouvons
faire cet histogramme. C'est ainsi que nous pouvons
affiner les intrigues à l' aide de fonctions esthétiques et d'
échelle. Les étudiants apprécient le prochain cours
105. Modifier des thèmes, des étiquettes, des titres et des axes à l'aide de la fonction de thème: Bonjour et bon retour. Dans cette conférence, nous allons
modifier les thèmes, les
étiquettes, les titres et les axes à l'aide de
la fonction thème pour modifier les thèmes, les étiquettes, les titres et les axes. Dans GG plot 2, nous pouvons utiliser la
fonction du thème ainsi que divers éléments du thème pour personnaliser l'apparence
de nos tracés. Commençons donc par
un exemple et voyons comment nous pouvons utiliser la
fonction du thème pour modifier les thèmes, les étiquettes, les titres et les axes. Donc, très rapidement
, nous allons
charger la bibliothèque comme cela est
relativement indiqué. La prochaine étape est
de créer
cet exemple de jeu de données que
nous avons déjà créé. Alors laisse-moi m'occuper de ça pour l'instant. Maintenant, la prochaine étape est de
modifier les thèmes, les étiquettes, les titres, en
gros, Banza Donc, à nous de recréer
le barplot. Nous allons donc d'abord créer le nuage de points entre l'âge et le code supplémentaire que
nous avons déjà créé. Mais ici, nous allons essayer de modifier les niveaux,
les
titres et les axes du thème à l'aide de la fonction
du thème. Le jeûne est donc une bonne chose si les variables se dispersent
comme d'habitude, nous utiliserons la fonction de diagramme
GG Nous allons transmettre l'ensemble de données, puis nous utiliserons la fonction
esthétique. Et ici, X égal à H, Y sera le score du test Color mentionné sur l'agenda et
disons « construire sur l'agenda ». Nous l'avons donc déjà fait. Ensuite, les fonctions de point de
soulignement geom Sij sont égales à trois Cela tracera les
points sur le lot. La taille sera ajustée, les côtés du point seront de trois. Ensuite, nous utiliserons ici les fonctions (scaled underscore
color) et DashCon Et ici, nous donnerons les valeurs couleurs bleu et rose et sans danger pour l'exemple,
nous donne ces vecteurs 16, 17, nous avons déjà vu
dans la diapositive
précédente, la conférence précédente
comment
les formes des points ou des points
changeront en fonction des
valeurs que nous transmettons ici. D'accord ? Ensuite, le
laboratoire que Swanson utilisera
pour donner le titre du tracé et le nom
des axes X et Y. Ensuite, nous utilisons la fonction minimale de
soulignement du thème. Et puis c'est la principale chose que nous allons
apprendre dans cette conférence. C'est le thème Function. Donc à l'intérieur du thème Function, ce que nous allons perdre beaucoup, titre à
points, nous le donnerons. Et ici l'élément souligné X, ce sera, cette
fonction sera utilisée pour donner les côtés du titre D'accord ? Prenez parti pour le titre. Comme un nuage de points
avec l'âge, c'était un Tesco. Ce titre
proviendra des diagrammes indiquant la taille du
texte à partir d'ici
à l'aide du paramètre de soulignement, de taxe et de taille
que nous allons utiliser ici Ensuite, nous allons indiquer que
le visage est égal au gras. Ici, nous pouvons changer
le style de la police. Le style de police que nous pouvons changer
si vous ne l'avez pas
fait face . Si vous avez appelé deux volts en
italique comme vous le
souhaitez et que vous agissez simplement donner 0,5 et existe un titre de
point pour l'axe X
et le titre de l'axe Y, nous utiliserons Les côtés du texte soulignés donneront tout ce que vous
voulez entendre. Je donne 12 Et puis face bowl. Et puis pour accéder,
les textes
vous donneront l'élément souligné fonction
sexuelle et
la taille en donnera dix Et puis le
titre du point de la légende, nous utiliserons l'élément. Et c'est ce qu'on appelle
une fonction vide. Et des textes de LoginData. Nous utiliserons l'élément sous
certains textes. Les côtés indiqueront dix et la position de la
légende indiquera en bas. Nous allons donc vous donner le détail ici. Exécutons donc ce nuage de points. Avant cela, permettez-moi de copier ce nuage de points à imprimer, ce
nuage Et je vais le dire, il suffit de nous voir sur ce terrain de dispersion planté et en même temps. Alors laisse-moi m'occuper de ça. À bientôt, nous obtenons
le nuage de points ici. Et vous voyez, c'est titre de
notre intrigue technique que nous
avons donné dans un bol ici. si je change
cela en 14 à 24, ce sera le cas, plus les textes seront gros, plus
la taille des textes sera grande. Alors laisse-moi m'occuper de ça. Maintenant c'est de l'oméga, non ? Il en va de même pour le
titre de l'axe si je l'ai donné à 22. Si je lance ça. Voir maintenant le
score du test NA ou plus grand. D'accord ? Donc, la façon dont nous pouvons modifier les titres, les niveaux et les axes. OK, alors laisse-moi m'en occuper
et 14, en regardant, c' est un nuage de points pour chaque cours OK, ensuite nous ferons la même chose pour le bar Plot. Donc, pour la barre, Plot
utilisera également le même ensemble de données. Et nous allons créer une
variable de tracé à barres ici, puis un ensemble de données de la fonction de
tracé DD. X est égal au sexe. Pourquoi ça s'appelle bureau ou genre. La même chose que nous avons
faite plus tôt lors du levage est que nous allons utiliser ce thème Function extra year
plot dot title. La même chose que nous utilisons également
pour le bar Plot. Je ne vais donc pas
prendre le temps d'expliquer la même chose encore et encore. Je vais juste le copier. Et je ferais mieux de faire
courir ça à un adulte. D'accord ? D'accord. Alors voyez ici que c'
est le mauvais complot. De même, nous allons également faire
le boxplot. Voilà donc ce que
nous avons déjà fait. La seule chose supplémentaire que nous
faisons ici est le thème. la même chose, Elements and
Discourse. C'est la même chose. Nous préparons également d'autres
boxplot. Et je vais juste y aller
et le coller ici. Et lancez ceci pour boxplot. Pour voir le boxplot. Le boxplot, tout a
été modifié en conséquence. OK, la prochaine étape est
vraiment de faire quoi ? L'histogramme est, les
obstacles à la distribution ici aussi, nous avions ce thème Modification de la taille du deck par rapport à
la taille de la prise Plot. Alors laisse-moi m'occuper de ça. C'est ainsi que nous pouvons
modifier ces thèmes, étiquettes, ces titres et ces axes. Lot utilisé dans ggplot2. Dans chaque thème de tracé, la
fonction est utilisée pour modifier les différents éléments du thème
tels que le titre du point du tracé, les
axes, le titre du point existant ou texte, la légende du point, le titre du point, le texte du point de
légende et la position du point du ligand La fonction de texte de
soulignement du thème ou de l'élément est utilisée pour définir le site, police et la justification
jusqu'à l' Nous utilisons une fonction de
soulignement minimale du thème pour commencer par le thème
minimaliste, où se trouvent toutes les intrigues, puis personnalisons
davantage l'apparence
avec le thème Ces exemples montrent
comment modifier des thèmes, des
étiquettes, des titres et des axes à
l'aide de la fonction thème dans ggplot2 Vous pouvez désormais explorer des éléments thématiques supplémentaires et personnaliser
davantage
l'apparence de vos tracés en fonction de votre
visualisation et de vos besoins
spécifiques Chaque projet aura sa propre visualisation. Vous
devez effectuer
cette visualisation ; vous pouvez utiliser ces fonctions et vous
pouvez explorer davantage
106. Projet 6: Bonjour et bon retour. Pour cela, nous allons
réaliser un projet simple. Vous pourrez ainsi utiliser
un ensemble de données du monde réel pour créer une
régionalisation des informations Nous travaillons donc avec
des ensembles de données réels pour créer licences
pertinentes et aspects
importants de l'analyse des données,
de la science des
données et de la narration Passons en revue
un exemple utilisant un données
réelles pour créer des visualisations
pertinentes à visualisations
pertinentes Dans cet exemple, nous utiliserons
le célèbre jeu de données Iris, qui est facilement
disponible par défaut avec le package R L'IDT contient-il les informations sur les
différentes espèces de fleurs
d'iris,
y compris
la longueur des sépales, la largeur des sépales, la longueur et la largeur des
pétales, ainsi la OK, donc c'est un
projet simple qui relu et essaie créer des visualisations,
des visualisations Donc, tout d'abord, nous perdons
cette bibliothèque, ggplot2. Ensuite, nous allons charger l'ensemble de données iris en écrivant la fonction de données, la fonction données transmettant
le nom de l'ensemble de données. Ces deux étapes constituent donc l'étape essentielle pour charger
la bibliothèque
de besoins charger l'ensemble de données irlandais et explorer la structure
du jeu de données. Nous allons utiliser la fonction STR
et transmettre le nom du jeu de données. Voyons donc la
structure du jeu de données. Vous pouvez donc voir ici
qu'il y a un
objet par employé ou cinq variables. Cinq variables sont la longueur des sépales, la largeur des
sépales, la longueur des pétales, la largeur des
pétales et D'accord ? Et puis les valeurs sont données ici. OK, la prochaine étape est de voir le résumé du jeu de données, qui nous donnera
les statistiques. Les cinq colonnes, la longueur des
sépales, la largeur des sépales, la longueur des
pétales et une espèce Et leurs valeurs minimales, quartile
écrasé,
médianes, valeurs moyennes Troisièmement, les valeurs du quartile et des valeurs maximales
pour chacune des variables. D'accord ? Donc, de cette façon,
nous pouvons voir l'analyse, d'accord, la prochaine étape est de recharger C'est l'information statistique
que nous obtenons en obtenant le résumé
de l'ensemble de données. Maintenant, ce que je veux faire, créer un
nuage de points pour ce Donc, pour cela, ce que je vais faire, je vais créer une variable de diagramme de dispersion
soulignée ici Et je vais utiliser la
fonction de tracé GG pour créer le tracé, et je vais l'attribuer à cette
variable, puis l'imprimer. Donc, fonction de tracé GG, je vais transmettre l'ensemble de données, le jeu de données
Iris. De même, comme dans
les conférences précédentes, nous avons utilisé la
fonction esthétique ici laisse également la fonction esthétique ici quitte
également la fonction
esthétique. Et il avait XXS pour la
longueur des sépales et la sortie sur l'axe Y. Largeur de point et couleur simples. Construite sur la
fonction de point de
soulignement des espèces et des géométries que je vais utiliser pour tracer les points sur le tracé
et large fonctionnelle, énorme pour conserver le
titre de l'axe X, de l'axe Y et le
titre du Et puis ici, je vais utiliser la fonction
minimale soulignée par l'équipe Ensuite, j'imprimerai
ces diagrammes de dispersion. Alors allons-y et voyons comment le sang
s'écoule sur le diagramme de dispersion Alors agrandissons-le. Il s'agit du nuage de points que nous obtenons
après l'avoir exécuté Alors voyez ici la
longueur des sépales sur l'axe X, largeur
simple sur l'axe Y
et la couleur en fonction Il existe donc deux dosa,
versicolor et virginica. Vous voyez, toutes les espèces sont tracées ici en fonction de la longueur et de la
largeur des sépales Il s'agit donc du même nuage de points
passé que nous avons créé Ensuite le jeu de données Iris contient pour variables numériques, la longueur des
sépales, la largeur des sépales, la longueur des pétales, la
largeur pétales et une variable catégorielle qui est l'espèce Cette espèce est donc la variable
catégorielle. Créons maintenant une visualisation
perspicace que vous avez
soudainement bloquée. Le premier
est donc le nuage de points, nos données que nous avons
déjà créées Alors laisse-moi
recommencer. Tu obtiens la même chose. Nous allons maintenant créer un boxplot. Donc boxplot, pareil, boxplot GG plot pour vous le faire, puis fonction
esthétique Et voici X, X c'est, je vais mettre ces pièces
et sur l'axe Y je vais mettre l'hôtel, je vais mettre
la longueur des pétales Donc les espèces et la longueur de
leurs pétales et nous allons les remplir
avec des espèces sombres Et puis Geom
Underscore Boxplot. Je vais l'utiliser pour dessiner le boxplot, puis la
fonction Laugh appelée title and all Ensuite, j'imprimerai.
Alors laisse-moi m'occuper de ça. Voici le diagramme, longueur des
pétales par espèce Donc, chacun pour setosa, c'est pour
ce boxplot,
c'est pour versicolor, c'est pour regarder De même, je veux
créer un Et un histogramme que je
créerai en fonction distribution
de la largeur des pétales
entre Donc, pour cet
histogramme, la variable DG du
tracé du trait de soulignement du gramme, la fonction
ggplot2
le fait, elle laissera passer iris que nous utilisons une largeur de pétale X
esthétique Et je vais remplir
cet article avec leurs espèces,
puis l'histogramme, utilisation fonctionnelle de
l'histogramme et la largeur de bande, je vais donner 0,1 couleur, je vais donner Il s'agit de la
couleur de suppression entre les compartiments. Et je vais donner à 0.7 et Labs une utilisation fonctionnelle pour
donner les titres et tout le reste. Et puis le thème minimal
que j'utilise ici. Alors allons-y et voyons, oui,
c' est la largeur des pétales entre
les axes X et Nous avons la fréquence. Et voici la première
série de pièces de taille. Verdâtre pour le
versicolor et la virginica. Virginica. Du bleu
pour la virginica D'accord. Ainsi, nous pouvons
créer cet histogramme La prochaine étape consiste à créer
un nuage de points à facettes. Et là, je veux montrer
la longueur des pétales par rapport à la
largeur des pétales pour chaque espèce Pour cela, j'
utilise l'axe X, la longueur des pétales, l'axe Y,
j'utilise la largeur des pétales et la
couleur que
je donne, mieux
que la vitesse de l'espèce et la taille du point de
géométrage la taille du point de
géométrage On m'offre trois choses et toutes les
autres choses la même année : de
l'amitié pour souligner la fonction d'
emballage, l'amitié pour souligner la fonction d'
emballage je vais m'appuyer sur cette espèce OK, donc cette fonction d'enveloppe de
soulignement prédéfinie vous
donnera le diagramme de dispersion du
professeur Exécutons ceci et
voyons le résultat. Nous voyons maintenant le diagramme de dispersion
des facettes. Voici l'ensemble des tailles. Il est peut-être préférable d'obtenir un terrain sur l'axe X et la
largeur des pétales sur l' C'est pour la setosa, ce vert pour le versicolor et le bleu pour la Voici donc le nuage de points
à facettes. Et ici aussi, vous pouvez
voir le blocage de la setosa, du versicolor Il s'agit d'une
catégorisation claire. D'accord ? Ensuite, ce que nous projetons Under c'est qu'en utilisant ces ensembles de données
du monde réel
tels que le jeu de données Iris, nous pouvons mieux comprendre les relations et la
distribution des variables, identifier les modèles et faire des interprétations pertinentes Bien, vous êtes maintenant libre
d'explorer davantage d'intrigues, de taper et de personnaliser l'esthétique
que nous avons fait précédemment. Par exemple, vous pouvez modifier les étiquettes des
thèmes,
les titres, tout ce que nous avons appris dans la conférence
précédente et que vous pouvez appliquer à ce sujet et
créer votre propre projet. Ensuite, testez
les différents ensembles de données. En outre, pour
pratiquer et développer vos propres compétences en matière de cours de DWT Il s'agit donc d'un projet
simple basé sur le jeu de données Iris pour créer un nuage de points, un
histogramme, un nuage de points, un diagramme en
cases, cases J'espère que vous avez une idée
de la façon dont vous pouvez marcher sur un jeu
de données du monde réel. Vous pouvez parcourir l'ensemble de données du monde
réel. Merci
107. Gérer les données de date et d'heure dans ggplot2: Bonjour et bon retour. Dans cette conférence, nous allons découvrir comment
gérer les données de
date et d'heure dans ggplot2 Ainsi, la gestion de la date et de l'heure
auxquelles le graphique T2 doit être invoqué, l'
insertion de ces données étant correctement reconnues comme la date
et l'heure graphique GG peut formater correctement les étiquettes des axes et créer des compétences
appropriées Qu'est-ce que cela signifie ? Cela signifie que si vous transmettez les données, données de
date et d'heure
dans un format correct, vous en
tracez deux, occuperez des légumes, objets en traçant et
ils n'ont pas collecté d'impôts April enseigne donc objets de
date et d'heure
cliniquement reconnus Gg plot peut formater correctement les étiquettes des axes et créer des compétences
appropriées. Dans notre système, la date et l'heure peuvent être représentées à l'aide de
différentes classes,
telles que la logique de la ville et les
audits, ainsi que les fonctions LD D'accord, nous verrons le projet
City et les projets LTE plus tard. Pour l'instant, il suffit de
savoir que les données peuvent être
représentées à l'aide de
différentes classes
telles que Logic City et
Projects Passons
donc à un
exemple simple utilisant un ensemble de données contenant des données date et
d'heure
pour montrer comment gérer la date
et l'heure dans ggplot2 Donc, la première chose dont nous avons besoin bibliothèque
ggplot2 et de la bibliothèque, quelle mesure ces exemples
chargeront ces deux Ensuite, ce que je veux faire, créer un exemple d'
ensemble de données et une valeur temporelle. Donc, ici, cela va créer un
ensemble de données qui aura la date et les valeurs
correspondant à chaque jour. Donc, pour cela, utilisez set.seed 123, afin que j'obtienne les mêmes exemples de données de
configuration à chaque fois Quand je lance le programme. Ensuite, pour Data,
je vais créer des dates précieuses
et je vais, dans quatre jours,
je vais perdre une fonction de séquence qui me permet de
créer les decks pour moi Ainsi, les
fonctionnalités
de séquençage Insights vont de l'ajout de Dark pour six villes ajout de Dark Four DX DT Et ici, je vais donner
la date de 23 générations,
première génération , premier janvier 2023. C'est donc l'
origine de la date. Donc, à partir de cette diminution
, nous allons commencer, d'
accord, ici, je
consomme d'un jour. Donc, un jour
fera la différence entre chaque date et
Lynda Dot Dot sera de 30 30. Je voulais créer 30 jours. Pendant ces 34 ou 30 jours, je
veux créer, d'accord ? J'utilise la séquence Ronson et pour les valeurs en utilisant une fonction pnorm impaire,
une fonction pnorm Je vais laisser ici le nombre
de valeurs que je souhaite créer. Je veux donc obtenir 30 valeurs. Quels sont ces 30 jours ? Ensuite, je veux utiliser
la moyenne égale à 50 et écart type
soit dix, d'accord ? Et quatre jours, j'ai une fonction de séquence d'
union et la fonction de séquence
interne que j' utilise est égale
à Ag point Cp. Je donne la date de début. Et un par un, pour chaque
jour que je vis. Les titres seront
créés à partir de 30 jours, seront créés à partir de la première génération,
seront imprimés trois Ensuite, je crée un
DataFrame, data.frame. Chaque appel à une date ou à une date. J'utilise ces
valeurs de test et pour les valeurs, j'utilise cette valeur. D'accord ? Alors allons-y et
voyons ce qui se passe. Maintenant, lancez, amenons à la base de données df8, Alors voyez ici. Maintenant, je suis composé de deux
colonnes, date et valeurs. Les données commencent à partir de la
première génération en 2023 et vont de la première génération à une heure par jour, trois
fois par jour Et pour chaque jour,
nous avons des valeurs
très différentes qui
y sont associées. Nous avons donc maintenant des données simples, un exemple de jeu de données, la date
et les données correspondantes. Quelle en était la valeur ? Cela peut être n'importe quoi
comme
le coût d'un article en particulier ou quelque chose comme ça. Nous avons donc une colonne de date
et de révision. Nous pouvons maintenant essayer de
les tracer à l'aide de ggplot2. Dans cet exemple, nous avons créé un ensemble de données
avec deux colonnes, les données
le représentant sous forme de données
temporelles et la valeur représentant
certaines valeurs numériques. OK, alors tout d'abord, que dois-je faire pour créer un graphique linéaire
simple avec la date sur l'
axe X pour ces tracés de soulignement de
lignes précieuses
alkylées et auxquels ils font allusion au tracé GG,
pour pour Donc ggplot2 et dataset, je vais transmettre le dF que
nous avons créé Sachez juste que l'anesthésique X existe. Je voulais mettre la date et l'
axe Y Je veux mettre des valeurs, donc X est égal à la date
et pourquoi utiliser une valeur Ensuite, j'utiliserai la ligne
de soulignement géométrique Human, appelée fonction
linéaire pour tracer ces points sur le Et puis ma dernière fonction consiste à donner noms, comme pour
l' état de l'axe
X, la valeur de l'axe Y
et le laboratoire de données, cependant, le
tracé est une ligne, la valeur du tracé au fil
du temps et le thème, minimal Donc T moins quatre millimoles, puis j'imprimerai
le graphique Exécutons donc ceci et voyons quelle
est la sortie qui arrive ici. Il s'agit de la commande line plot. La ligne représente la valeur au fil du temps. Donc, pour le 1er janvier, jour et les valeurs Comme
nous l'avons tracé ici, par
exemple, il y a neuf
densités comme celle-ci, d'accord ? Donc, la valeur au fil du temps avec cela, vous pouvez simplement visualiser qu'il produit
la deuxième partie du graphique, cette heure de données. Ggplot2 est le plus simple. Sur l'axe X, vous trouverez les données l'axe Y, les valeurs et
le reste lorsque nous prenons
getaway ggplot2 dans
ce vaste diagramme GG pour reconnaître que le contenu de la colonne de
date, les données date/heure
et les
agriculteurs accèdent automatiquement agriculteurs accèdent D'accord. Donc des étiquettes ici.
Eh bien, en le créant, nous n'en avons pas donné, comme le format
est 01012323 ici, on ne nous le donne pas comme ça, mais GG plot l'a reconnu
comme une date, une heure, et a automatiquement
attribué les étiquettes Jan à Gemini dans l'équipe
Genesis comme ça OK, donc cela a été
fait automatiquement,
par diagramme DG. Pour savoir ce que nous allons faire
ensuite, nous allons essayer de tracer le diagramme des aires
avec la date et l'heure sur l'axe X. Donc, un diagramme de surface, un diagramme GG, l'axe X, la date d'Alport l'axe Y au-dessus de l'ALU et
rempli avec la fonction de
zone de soulignement geom, je vais utiliser
pour créer un
graphique des aires et les laboratoires quitteront, sortiront, état de
sortie, valeur de l'axe Y et zone de
titre, tracez la valeur du tracé
au fil du temps, thème minimal,
et imprimez, imprimez les tracés pour créer un
graphique des aires et les laboratoires quitteront, sortiront, état de
sortie, valeur de l'axe Y et zone de
titre, tracez la valeur du tracé
au fil du temps, thème minimal,
et imprimez, imprimez les Alors allons-y et voyons. Vous pouvez maintenant voir ici la valeur d'
Arial Black au fil
du temps et ici aussi stupide et ici aussi les choses qui
avaient été prises en charge Et voici la zone Plot
créée par did you ggplot2. Sur l'axe X, il y a juste les dates de janvier
au 9 janvier, les hommes de
nécessité qui sont
bénéficiaires, puis 30 Et pour chaque date et valeurs au fil du temps avec Desperate et
ainsi de suite selon la zone couverte. Dans ce diagramme, nous avons votre zone soulignée
pour créer un diagramme des aires Et GG trace automatiquement niveaux de l'axe X des
polymères avec les informations de date. Vous pouvez donc le voir ici.
La prochaine étape est de créer un diagramme à barres, avec la date sur l'axe X. Donc, agrégez les données par jour, créez un diagramme à barres. Alors voici ce que je veux faire, je veux lire un
diagramme à barres avec le swing, les données pour chaque jour. Pour ductile do LLC, créez un DataFrame et
soulignez quotidiennement DF et il a LDF, un DataFrame et
soulignez quotidiennement DF et il a LDF,
l'opérateur de tuyaux ici. Et j'ai regroupé par date, ajouté une date à points, et ils passeront la date et résumeront
par valeur moyenne. Ce sera la
moyenne de la valeur. Donc, de cette façon, nous obtiendrons le soulignement
quotidien DF, d'accord ? Donc, si je
vois bien , c'est le quotidien DF. Date et valeur moyenne. Décrivez-les comme ça, d'accord ? Ce drone a encore deux rangées. D'accord ? Alors maintenant, je vais le mettre dans la barre Plot. Donc barre Plot, barre anti-D ggplot2. Cette fois, j'adore contourner le DF et le transmettre la base de données SQL que nous
venons de créer. Et pour une passe
fonctionnelle esthétique, X est égal à la date et Y
est égal à la valeur moyenne. date proviendra donc de cette date et la valeur moyenne qui
découlera de la peur. Et voyez votre rendez-vous. Le type est
la date et la valeur moyenne W. D'accord ? Ensuite, j'utiliserai la
fonction de colonne de soulignement geom pour créer un diagramme à barres. Et sur la fonction de verrouillage,
je vais donner que X est égal à la date, Y est égal à la valeur moyenne et à barre la
plus serrée Tracez la valeur
moyenne des parties D et T Le kilométrage est minimal et le thème existe point X point X élément souligne l'angle fiscal
45 Faites pivoter l'accès à ses niveaux
pour une meilleure visibilité. D'accord. Je fais donc pivoter les niveaux d'excès de 45 degrés pour une
meilleure visibilité sur D. OK, puis j'
imprime la barre Alors laisse-moi m'occuper de ça. Alors voyez ici, c'est
ainsi que nous avons incliné. Sees Ajahn to Jenae a
été incliné de 45 degrés. Nous n'y sommes donc pas parvenus en utilisant la fonction
fiscale de soulignement des éléments et en passant l'angle
est égal à 45 Si je mets l'angle de chaque
appel vers notre 75. Et si j'essaie de l'exécuter,
ce sera régulièrement sur
la 75. Si je soutiens Albert, à 90 ou 30 degrés, il sera
incliné de 30 degrés C.
Et de 45 degrés. Et de 45 Ça a l'air mieux. D'accord ? Nous avons maintenant la valeur
moyenne par jour. Ainsi, même s'il
ne s'agit que d'un graphique du 1er janvier, sexe m'a donné trois
et quatre comme ça pendant 30 jours, valeur
moyenne, partie D, nous pouvons voir ce que nous avons
fait dans ce graphique à barres Nous avons agrégé les données jour par jour et utilisé la colonne Geom Underscore
pour créer un graphique à barres. Nous avons également fait pivoter l'axe X de 4 pour une meilleure visibilité, comme nous l'
avons fait ici avec l'
angle à 45 chiffres brouillés Démontrez comment
gérer les données date-heure dans ggplot2 en insérant
le diagramme GG
au format approprié
pour gérer
automatiquement le nivellement et la mise à l'échelle
excessifs,
ce qui facilite la
création de réglementations pertinentes et pratiquement égales au fil du temps diagramme GG
au format approprié
pour gérer
automatiquement le nivellement et la mise à l'échelle
excessifs,
ce qui facilite la
création de réglementations pertinentes et pratiquement égales au fil ggplot2 en insérant
le diagramme GG
au format approprié
pour gérer
automatiquement le nivellement et la mise à l'échelle
excessifs,
ce qui facilite la
création de réglementations pertinentes et pratiquement égales au fil du temps. La seule chose à faire
est donc de transmettre
la valeur DateTime correcte
à ggplot2 sous stop the thing GG plot pour
comprendre comment gérer la date et
108. Fonctions POSIXct et POSIXlt avec exemple: Bonjour et bon retour. Dans cette conférence, nous
allons découvrir à la
fois les fonctions
LT de la ville et celles des projets, qui sont très courantes aujourd'hui, à savoir programmation pour gérer
les données de date et d'heure. Vous ne voyez donc pas les classes
LTE terminales juives
à l'heure actuelle, données de
date et d'heure. Les deux cours font
partie de notre forfait. Vous souhaitez gérer les valeurs
de date et d'heure. Mais ils ont des différences dans leur
représentation interne et leur comportement. Évidemment, s'il existe
deux classes d'objets, il doit y avoir
des différences dans leur comportement. Et ainsi de suite. Voyons comment fonctionne le LTE pour la
ville et les projets. Nous allons donc d'abord
comprendre en quoi Poor City Walks Project City signifie
criminalistique, heure calendaire Ainsi, l'heure calendaire CT, calendrier
C4 T pour les projets
temporels est de 4,6, 0,6 et représente la date et l'heure sous forme de nombre de secondes depuis le début de l'unique C'est le 1er janvier 1970. Donc, l'heure du calendrier du projet débutera du 9 janvier
et sous souveraineté Mais tu ne connais pas le système Unix. D'accord ? Ainsi, à partir de ce moment, il comptera le
nombre de secondes écoulées depuis écoulées depuis le début du
chronomètre pour
le projet City's 1971. OK, donc c'est
comme ça que ça fonctionne. Et ce sont les
classes les plus courantes pour gérer les données de
date et d'heure dans notre simplicité
et notre efficacité neutralisées Les précédents ont commencé à parler Il est donc vraiment efficace
tout en étant solide qu'il est temps Rita et Israeli Simple
comprennent également des projets
avec n'importe quelle Jump Box. Supposons donc que je
veuille créer un objet urbain. Donc, pour cela, je vais donner un nom, la date et l'
heure à traverser villes et vous ajouterez un
point au projet City. Et il avait de la datation à l'alcène. Et il
éclairera le Grundy 3722 foncé. Ça veut dire 20 secondes
pour mentir à trois. Et voilà, Algol, pas
vraiment un bar de 30 min, 45 s. Et voici la date et l'heure Lui et moi vous donnerons le
temps, John. Et je peux donner tout ce
que je veux. D'accord. Je le fais donc de manière moins précise, UPC, puis je vais
essayer de faire des prévisions OK, voyons
maintenant que c'est le 22
juillet 2023, Dynavox fait mal quand me demande l'heure UTC à
45 secondes D'accord. Maintenant, nous avons le
type qui est dessiné dans le temps. Maintenant, je veux accéder
au fonctionnement et à l'heure individuels des composants c'
est-à-dire année, mois, jour. Notre aiguille des minutes, de seconde main
que nous pouvons faire très facilement. Si je le veux. L'
oreille sonde la date, je peux utiliser le format et
ensuite je vais passer la date. Le temps met l'accent sur la ville, qui
est l'objet du jour. Ensuite, je vais donner le pourcentage, ce
qui me donnera un an. Il s'adaptera ici
à partir de cet objet. Alors à bientôt, artiste. D'accord. Il avait affronté des mois similaires. Vous pouvez utiliser la date et l'heure,
souligner la ville, les
présenter ce qu'ils ont fait, heure ZT et vous pouvez atteindre d'une
personne D ou impair N'était-ce pas le cas ? M pendant une
minute et S4 secondes M et S, les minutes impaires et deuxième fils constituaient également
la participation au capital. OK, alors laissez-moi lancer
ceci et passons maintenant
à tous ces composants. Donc je vais faire une énorme base. Oui Lui et moi soulignons le CPD par mois, par
mois et la capacité de perte
pour une date et une pénurie Et si
quelqu'un sort une seconde, je vais utiliser la même chose, d'accord ? Ensuite, j'essaierai de l'imprimer. Ainsi, lorsque j'imprime un an, ce produit à vendre 23
mois correspond à sept carrés La deuxième, c'est 20 artistes qui n'ont pas fait de minutes et 45
secondes de projets City object. La suivante concerne LT
Toxin ou LD Stanford pour six heures locales et représente les données de
date et d'heure et ajoute
une liste de composants voilà donc en train
de caler , quelques
secondes à peine Et ici, il le
stockera sous forme de liste. D'accord ? Ainsi, les projets LT seront à Stanford ou heure
locale et
représenteront les
données de date et d'heure sous forme de niche. Les principaux composants, l'année, le mois, le jour, les minutes impaires et les secondes seront stockés sous forme liste dans le fuseau horaire local Donc, par défaut, il
ira au type local. Il est plus flexible que
Project City car il permet accès
direct à de nouvelles composantes
de force d'
élasticité que je suis John qui gère. Bon, alors voici un
exemple de politique. Lt. Je vais créer un objet
date-heure,
pia, ajouter des projets à points,
LTE, MLK, Martin,
20 secondes, juillet Les rappels sont différents, 45 secondes, et je vais essayer de l'imprimer Donc, vous savez, ici, nous n'
avons pas spécifié le Tango. Et quand j'imprime, j'ai
des collisions de 20 secondes, de l'ozone, du
Grundy trois, enfin 30 mi 45 s avec l'heure normale de l'
Inde L'heure John, mon danger local, c'est l'heure normale de l'Inde. Il vient d'être lavé ou fixé
à cet objet toxique. Maintenant, c'est courant
avec la fenêtre
chronométrée locale ou
Lias dans Project City, nous avons spécifié la chronologie,
Martin projects LT. Il n'est pas nécessaire de
préciser le temps écoulé ici. Cela prendra automatiquement
l'heure locale,
John, car c'est l'heure locale des
projets. D'accord. Et si nous voulons accéder aux minutes et aux secondes
mensuelles, nous pouvons simplement utiliser Eugene
date, heure soulignée LT, objet
que nous
avons créé pour ce dollar, plus 1 900 Alors, ce qu'il fera lorsque vous mettez en LTE stocké comme année depuis 1 904 mois, date/heure soulignez le dollar LT M1
mois plus un projet LT, commencez le mois So Data plus 1€ pour le mois de
janvier à 11h47. De même, par défaut, ils
utiliseront le mois et le jour de MD. Et pour les valeurs
impaires, il s'agit d'une
minute, de la moyenne des minutes et de 4 s. Donc, exécutons ceci
et accédons des éléments
réels, puis
je l'imprimerai. vient ici au total et
Randy, trois mois, sept jours, 20 secondes environ. La même chose que nous recevons et projette un vrai LTL d'un litre La présentation fait la différence mais projette l'heure locale et stocké, le composant
a été déclenché là où Project City il est destiné L'heure calendaire représente
la date et l'heure, tandis que le nombre de secondes
écoulées depuis
le début d' Unix correspond au temps
à partir de janvier 1997 OK, donc ce sont des choses
que nous pouvons gérer, qu'elles soient date et d'heure ou étranges. Et il y a deux méthodes Project City et Projects empty. Et nous les avons
tous deux compris
109. Transformation et synthèse de données du projet 7: Bonjour et bon retour. Nous allons donc réaliser un autre projet simple
dans lequel nous allons
appliquer des techniques
de transformation et de
synthèse des données à appliquer des techniques
de transformation et de
synthèse des données des données du monde réel Ainsi, pour appliquer la technique de
transformation et
de synthèse des données à des données réelles, nous utiliserons le jeu de données MPG, qui est également disponible
dans notre Cet ensemble de données MPG est donc facilement
disponible dans notre package. Nous n'avons donc pas besoin de télécharger
le jeu de données séparément. Il est déjà disponible
dans le package R. Le jeu de données MPG
contient des informations sur différents modèles de voitures
et leur efficacité énergétique Utilisons donc le diagramme GG lorsque nous
appliquons la transformation des données et résumons certaines
techniques pour obtenir des informations à partir du jeu de données MPG, c'est-à-dire l'ensemble de données sur
les différents modèles de cartes
qui se
sentent efficaces Donc, la première chose à faire est de
charger la bibliothèque ggplot2. Seigneur, l'ensemble de données
qui est l'ensemble de données MPG. Nous allons donc quitter la fonction de données et transmettre le nom de l'ensemble de données qui est déjà disponible
dans le package R. Donc, donnez et transmettez
le nom du jeu de données. OK, donc cet ensemble de données
va être chargé. Ensuite, pour explorer la
structure de l'ensemble de données, nous utilisons la fonction appelée
fonction STR et nous transmettons
le nom de l'ensemble de données. Ainsi, lorsque nous l'exécutons, nous obtenons la structure de
Dataset, cet ensemble de données MPG Vous pouvez donc voir ici modèles
du fabricant, la
cylindrée, les années, le numéro de transmission Epsilon Dot, Dr. City, l'autoroute et les classes Toutes ces
variables sont donc présentes. D'accord ? Ensuite, vous verrez
le résumé de l'ensemble de données. Exécutons donc le résumé
, puis passons le nom du jeu de données. Oui, donc cela vous
permettra de mieux comprendre
comment, quel âge il y a,
quel type de lecture, c'est-à-dire fabricant, modèle,
cylindrée, année, transmission à
cylindres et autoroute de la ville, et le remplissage puis la classe. Pour tout, on
lui donne la valeur minimale. Premier quartile, médian,
troisième quartile maximum, toutes ces
valeurs statistiques issues de cet D'accord ? Donc, si
l'on considère la prochaine étape le jeu de données MPG contient plusieurs variables,
notamment le fabricant, déplacement du
modèle et le
déplacement en litres. Et puis le nombre de cylindres, puis
les transitions pour un certain type. Dre est Dr. Type et BYU city
MPG et WY est MPG autoroutier. Il s'agit donc du kilométrage
moyen de la ville, et c'est un IMC élevé, moins celui
d'une voiture en particulier Appliquons maintenant ces techniques de transformation et de
synthèse des
données à
l'aide du diagramme GG Donc, la première chose que nous ferons
sera d'utiliser la barre de groupe Plot. Et ce faisant, nous allons procéder la compression
de chaque ville. Cylindre en fonction du
nombre de miles parcourus par Mpg. Nous allons donc utiliser le jeu de données MPG
et utiliser l'opérateur de canal. Et ici, groupez par cylindre. Et puis ce
regroupement par cylindre. Ensuite, nous le passons à la fonction de
synthèse. Ainsi, chaque ville
soulignée par la moyenne urbaine est appelée moyenne de la moyenne
de la ville Ensuite, nous passerons cela à la fonction de tracé GG, à la fonction
esthétique. Nous allons utiliser ce que représente x
comme facteur et nous allons cylindre de rejet
et pourquoi choisir la même recette et nous le remplirons avec
le nombre de cylindres, le cylindre
IJ Factors, cylindre
IJ Factors Et puis le jamboard utilisera pour passer l'
égal de départ à l'identité Ensuite, il fait le test du nombre de
cylindres sur l'axe X. L'axe X donnera le numéro Epsilon, l'axe Y pour chaque ville,
mile, BD et see titres vous donneront chaque ville et VD par Et l'équipe utilisera le minimum. Ensuite, nous allons imprimer
le graphique de la barre de groupe. Alors allons-y et voyons, permettez-moi de maximiser
l'espace pour que
nous puissions voir le graphique. D'accord ? Oui, en
acheter, tu vois fumer. Mali's, d'
accord, c' est
parce que nous
avons une bibliothèque Nocturia DPLYR Alors faites-moi savoir que les tracés OK, si nous les exécutons maintenant, verrons que vous arriverez correctement, soit
parce que, en ce qui concerne la fonction by, provient
du package dplyr que
vous n'avez pas chargé Alors naturellement, ce sont les
lancers qui sont si maintenant vous pouvez voir des preuves du DMB
D par le nombre de cylindres Donc, nombre de cylindres
sur l'axe X. Et pour chaque ville, le kilométrage
est sur l'axe Y, donc le numéro du cylindre, la date et la myéline Mais en fait, entrez quatre et
diversifiez les éléments
de kilométrage ici pour en fait les éléments de
kilométrage Ainsi, nous pouvons analyser
l'impact
du nombre de cylindres d'
un modèle de voiture sur le kilométrage parcouru en ville Ensuite, nous allons dessiner le boxplot et Color Box Director sont
vraiment la même
chose et beauté, esthétique, sortie, sec, autoroute, MPG par type, type, type et axe Y, nous allons nous
comporter
et privilégier
le type de type et comment
ces choses que nous savons déjà fait ce boxplot
highway MPG Nous y arrivons donc. Le suivant est trois. Nous allons créer un nuage qui indiquera
le MPG de la ville par rapport à la cylindrée du
moteur par
type de
transmission type Ainsi, la fonction du tracé
GG, l'esthétique du jeu de données MPG, le déplacement
X, l'axe Y seront Ensuite, la couleur est
la transmission et le point de
géométrage pour tracer les points Et puis l'axe X, l'axe Y, l'axe
X, puis l'axe Y du
déplacement,
un amortisseur que vous un amortisseur Et exécutons ceci
et voyons le résultat. Diagramme de dispersion par
ville (MPG) par rapport à la cylindrée
du moteur par camarades de classe et par type C'est pour automatique,
automatique et manuel. Toutes ces choses que nous pouvons voir. Ensuite, je vais même mettre la distribution MPG de l'histogramme à facettes de
la ville pour chaque type de type Donc ici, même chose, XXS city et le type
dérivé et la géom soulignent l'histogramme dans lequel le titre sera blanc, la couleur des
yeux blancs et le thème
minimal et envenimé Et ici, indique le type de type, puis nous exécuterons et
imprimerons le I'm time. Ça va se passer comme ça. C'est donc un histogramme festif, la distribution de MPG dans la ville, non ? Tuyau sec. Il s'agit du kilométrage de la ville et
de la fréquence Et c'est pourquoi le
tuyau sec, c'est ça ? OK. Donc, ce qui nous reste dans ce petit projet,
dans ces exemples, nous appliquons la formation des
pierres de données et résumons certaines techniques, telles que le calcul du MPG de la ville de
preuves par le nombre de
cylindres et l'utilisation de groupements pour créer une réalisation perspicace Et nous avons également appliqué
pour résumer et
en utilisant boxplot et medulla,
la distribution
Absolutely MPG pour chaque type de pilote s' En appliquant qu'
il ne se forme pas. Techniquement, il
n'est pas possible d'en vouloir à quelqu'un. Techniquement, vous pouvez découvrir des modèles, des tendances et des adolescents grâce aux
données, ce qui permet de
tirer plus facilement des informations significatives à partir d'un ensemble de données du monde réel À partir d'un ensemble de données du monde réel. N'oubliez pas que ggplot2 offre
diverses fonctions et la
flexibilité nécessaires pour effectuer des plus précises à chaque
leçon Vous êtes donc libre d'explorer et de personnaliser le plasmide
selon vos besoins d'analyse Il s'agit donc d'un simple projet
de plombiers, puis de quelqu'un quelques techniques sur des
données du monde réel qu'il s'agit d'un ensemble de données MPG Pour que nous ayons vu
110. Projet 7, partie 2 : Filtrage de données et échelles de couleurs: Bonjour et bon retour. Dans cette conférence,
nous allons utiliser des instructions
conditionnelles et le filtrage
des données dans le diagramme GD OK, donc ggplot2, nous pouvons utiliser des instructions
conditionnelles et notre premier lien vers les données pour
personnaliser nos graphiques fonction de cette
condition spécifique ou de sous-ensembles Quelle que soit l'exigence qui sera basée sur cela, vous pouvez le faire. Cela vous permet de créer des visualisations plus dynamiques et plus
pertinentes Dans cette conférence,
nous allons donc également continuer
avec le jeu de données MPG,
qui est le jeu de données contenant des cartes, modèles et leur kilométrage
et différentes autres choses OK, donc je prêche que ce
n'est pas pour montrer
comment utiliser instructions
conditionnelles et le filtrage des
données ggplot2 Donc, tout d'abord, nous avons
écrit le ggplot2. D'accord ? Ensuite, nous
chargeons cet ensemble de données, c'
est-à-dire l'ensemble de données MPG A fait un jeu de données MPG. Ensuite, nous allons créer
notre nuage de points, ville par rapport au MPG sur l'autoroute utilisant la couleur créée en
fonction du Alors oui, cela va
créer notre variable. C'est un diagramme de soulignement par dispersion. Et ici je vais utiliser
le chiffre ggplot2. Et ici, l'ensemble de données est MPD, est-ce que c'est l'esthétique, les polices, et je vais passer le CD et
pourquoi Highway et Color
ont été créés sous la direction du Dr Greg. OK. Ensuite, géomérez
le point de manière fonctionnelle ou pour dessiner le point sur le tracé Ensuite, les laboratoires fonctionnent pour donner les noms
des projets existants, MPD, axe Y, autoroute, MPG, titre
NBA du nuage de points Nous allons utiliser des
diagrammes de dispersion entre le TMP MPG
autoroutier avec la couleur
rouge sur le type de drapé Ensuite, nous
utiliserons le thème minimal, et nous imprimerons
le nuage Alors laisse-moi m'en occuper. Nous obtenons maintenant un
diagramme de dispersion qui nous montre le CT par rapport
au MPG sur autoroute
en fonction du type sec. Voici donc l'
axe X réel avec le MPG de la ville, l'axe
Y est le MPG de l' Et les kilomètres parcourus sur la
base du tuyau sec. Donc cette couleur, les couleurs font
osciller le tuyau sec. OK, voici donc le
nuage de points que nous avons dessiné. Passons maintenant à
ce nuage de points de base tous les points de données ou voyons quelqu'un avec des
couleurs différentes mais sous du papier sec. Maintenant, ajoutons une instruction
conditionnelle et filtrage
des données pour personnaliser davantage
le graphique. Maintenant, ce graphique est constitué points de
données dont les différentes couleurs sont enfouies sous le temps de conduite. Nous allons maintenant utiliser nos instructions
conditionnelles et le filtrage des données pour
personnaliser le graphique. Pour commencer,
nous allons créer
un nuage de points avec des
points colorés de
manière conditionnelle à l'intérieur du seuil MPG de la ville Nous allons donc définir ici le
seuil de vélocité et de kilométrage. C'est-à-dire que la ville souligne l'
embryogenèse appelée seuil. C'est le lemme ou n'importe quel
lemme ANA qui teste toutes les valeurs que je nous donne 20 Maintenant, le nuage de points avec un
point coloré de manière conditionnelle. Lorsque notre ville MPG touche tout ce que nous
définissons ici comme 20 Donc GG plot, la fonction esthétique de l'
ensemble de données. C'est la même chose. Accéder au DIY c'est Salut Rick
et Color voici le CD. Et le fait de donner
le test ou moins, plus que le bénéficiaire ne voulait que point D plus de
densité et de densité Et cela va permettre de prédire
que tout ce qui se trouve actuellement dans le district
source est
supérieur à la quantité. D'accord ? Et puis la fonction du
point de géométrage, puis nous lisons la fonction manuelle de
soulignement de l'échelle , des deux-points, des points de soulignement Nous donnons ici les valeurs
des couleurs
rouge et bleu et les étiquettes qui nous sont
attribuées en dessous du seuil
et au-dessus du seuil. Ainsi, si elle est
supérieure à, par rapport à, elle sera supérieure au seuil
et inférieure à 20, elle sera inférieure au seuil. Et puis
la fonction Laugh que nous utilisons pour donner un nom à Done
pour le Plot et tout. OK, alors laisse-moi m'occuper de ça. OK, nous recevons
des lettres. Ici. Nous recevons un message d'erreur. Problème d'esthétique
informatique. Ajoutez une première couche de jardin appelée YLL objects
city et sold ne veux pas d'août, désolé, je n'ai pas exécuté cette variable. Alors maintenant nous l'avons fait. Alors laisse-moi encore une fois. Vous voyez maintenant que nous obtenons ce nuage de points avec vent coloré de
manière conditionnelle basé sur le City Ces points bleus
sont donc au-dessus du seuil,
c'est-à-dire actuellement. Et les points rouges
sont inférieurs au test sur cette ville
MPG, moins de 20 Génial. Alors maintenant, l'axe X de la ville MPG, l'
axe Y est plus énergétique. Les points bleus représentent la
valeur seuil ci-dessus qui correspond
actuellement aux bénéficiaires du MPG de la ville Donc, au-dessus de la valeur seuil, essuyez en
boucle et milo
notre swing comme un, d' accord, donc c'est une
condition que nous avons appliquée Ensuite, ce que nous allons faire ce ligament que j'ai
expliqué un peu plus loin Dans ce graphique, nous utilisons
la fonction esthétique pour cartographier la vitesse
esthétique des couleurs supérieure à la valeur seuil du
MPG de la ville supérieure à
celle de Bronte, condition logique
rigide selon
laquelle l'évolution est vraie ou fausse selon que vraie ou fausse selon MPG de
la ville est supérieur ou inférieur ce seuil La couleur, l'échelle, le
bureau ou la coloscopie ne
fonctionnent pas ici pour appliquer
les couleurs personnalisées aux points situés
au-dessus et en dessous du ptérosaure,
ainsi qu' Ensuite,
nous allons utiliser le filtrage des
données pour créer
un nuage de points, le filtrage des données respectant la durée de
vie Les données du filtre pour un type de Dr. Fred
spécifique. Par exemple, F4,
traction avant. OK, donc ici j'ai besoin d'une
variable et je l'assigne comme F, ce sera le cas avec une
traction avant éloignée Pour que je joue à la
traction avant et à Dieu librement, parsemé de parcelles sur ce
précieux alkylat Et je vais utiliser la fonction de tracé
GG et les données d'un conseiller, MPG Et ici, je vais définir le MPG et le
dipôle-dipôle
comme un tuyau
sec à traction avant. Ici, nous allons transmettre l'ensemble de données
à la fonction de tracé GG. Je le précise à partir de
cet ensemble de données qui
est intégré, comme
si je voulais prendre un dipôle-dipôle Ils le font pour les données
qui le tuyau sec comme
traction avant vers MPG Dollar DRE est égal
au type de propulsion, qui sera la
traction avant Et alors
la fonction esthétique
passera X est égal à CT. Et pourquoi est-ce que j'ai utilisé la couleur en me basant sur le temps de conduite et
sur d'autres facteurs Geom souligne le point
d'un endroit vague vers Plot et lot et les laboratoires fonctionnent Ensuite, nous essaierons de l'
exécuter et de voir comment les tracés peuvent voir soit un nuage de points,
soit MPG de
la ville était cette autoroute, MPG pour Voici donc le
nuage de points du CD. Et j'ai déposé ma petite voiture qui est équipée de la
traction avant. Bon, maintenant tu
peux comparer, d'accord. Donc, dans ce graphique, pour
utiliser le fichier de données dans nuage de points
Procreate uniquement pour un type spécifique traction avant, en
substituant le jeu de données MPG, où nous avons effectué la
substitution ici, les
données sont égales à MPG, MPG le
nuage de points
Procreate uniquement pour
un type spécifique, à savoir la
traction avant, en
substituant le jeu de données MPG,
où nous avons effectué la
substitution ici, les
données sont égales à MPG, MPG dollar, dr.
V est
égal à la préparation à sec. Nous avons donc
pris ici le sous-ensemble de l'ensemble de données
du jeu de
données MPG Et il s'agit d'une
subvention de projet basée sur le type sec, à savoir la
traction avant Nous avons donc pris les données, une pour les véhicules
endommagés par des véhicules Dodge, qui sont à
traction avant, puis pour les modèles de voitures
à
traction avant stupide,
nous avons comparé le
kilométrage hybride
City My Ligand en utilisant la
condition MPG dollar nous avons comparé le
kilométrage hybride
City My Ligand en utilisant la
condition pour les véhicules
endommagés par des véhicules Dodge,
qui sont à
traction avant, puis pour les modèles de voitures
à
traction avant stupide,
nous avons comparé le
kilométrage hybride
City My Ligand en utilisant la
condition MPG dollar, dr.
V est égal au type de sauteur de
plongée Démontrez comment utiliser les instructions conditionnelles
et le filtrage des données dans ggplot2 pour créer des visualisations plus personnalisées et plus
pertinentes La prochaine chose que nous ferons
sera d'utiliser la couleur, personnaliser les
échelles de couleurs et les légendes La personnalisation des échelles de couleurs et légendes dans ggplot2 vous
permet d'améliorer les représentations visuelles
des données et de rendre votre graphique plus informatif
et Vous pouvez personnaliser
les couleurs, les étiquettes, les sauts et d'autres aspects de la couleur, échelle et de la légende en fonction de votre
visualisation et de votre liste spécifiques. Continuons à utiliser le graphe GG. Comment personnaliser les échelles de couleurs les légendes et l'intrigue mouvementée Nous allons donc utiliser la bibliothèque de
graphes GG ici. Alors allons-y. Nous utiliserons les données, les ensembles de données MPG pour charger l'ensemble de données qui est l'
ensemble de données MPG Ensuite, nous allons créer un
nuage de points (ville, MPG, autoroute). Mpg. Mpg signifie MPG. OK. J'espère que vous le savez, je l'ai
expliqué plus tôt également avec la couleur
basée sur le type, le type. OK. Donc, votre intrigue GG pour MPG
est que cela n'excuse pas esthétique de la part de quelqu'un qui
projette tout de suite sur l'autoroute et Color and Drive Et la même chose que nous
avons faite plus tôt. Alors allons-y. C'est le
nuage de points que nous obtenons . Donc, l'ami à quatre roues motrices de Driven Real Drapé pour
quatre roues motrices est le rouge, bleu est à traction arrière
et le vert à la traction et le vert OK. Désormais, dans ce nuage de points de base, tous les points de données sont
associés à des couleurs différentes en fonction du type sec. Dans GG, tracez pour
attribuer automatiquement des couleurs et
créer une légende Maintenant, la couleur
et les légendes personnalisées
essaieront de donner des couleurs
personnalisées afin de créer une variable. Le client souligne les couleurs
et crée un vecteur. Ici. Créera un vecteur
et le jaune
donnera ce que F donnera. bleu, pour nous, nous attribuerons la lecture et pour quatre, ce
sera le faire. Le
front de mer du Queens roulera, il sera bleu, roues motrices arrière, il sera rouge et les pauvres se détourneront,
seront verts Ensuite, nous créerons le plan de
dispersion avec Dieu. Prenons la légende de Galien, appelée ici trait de soulignement
personnalisé, traits de soulignement colorés dispersés, et c'est ce que Ce nuage de points, nous
allons créer un diagramme GG, votre jeu de données identique,
et quitter l'autoroute Et voici la couleur
en fonction du lecteur. Et puis la fonction du point de
géométrage sera énorme pour tracer les points Ensuite, nous utiliserons la couleur de
soulignement Gayle et nous allons attribuer manuellement la couleur
que nous avons créée Et nous donnerons à Valeurs
égales aux couleurs personnalisées cette valeur. Ensuite, nous allons créer
le nuage de points. Alors allons-y. Maintenant. Notre nuage de points avec les couleurs personnalisées que nous
avons définies sera bientôt disponible. vert correspond donc aux
quatre roues motrices, bleuâtre à la traction avant et le radius à la conduite
réelle La prochaine chose à faire est de résumer ce que nous avons
fait à ce sujet. Dans ce graphique, nous utilisons l'échelle de couleurs, le trait de
soulignement, les deux points comme fonction de commande pour définir la couleur personnalisée
pour chaque type de type de type Nous définissons des couleurs de
soulignement personnalisées sous la forme d'un vecteur nommé où les noms qui représentent
les types d'entraînement qui s'y trouvent, front va conduire le
RPA à maturité dans le monde réel
et 444 roues et 444 Et les valeurs représentent
les couleurs correspondantes. L'échelle et l'échelle. La couleur de soulignement apparaît. La fonction manuelle nous permet de mapper les couleurs personnalisées en fonction de l'esthétique des
couleurs du tracé. Ensuite, nous
essaierons d'ajouter une
légende et des étiquettes personnalisées. Niveaux de légende
personnalisés pouvant être interdits. Donc, un nuage de points avec la légende et le niveau personnalisés
que nous allons créer Voici donc la fonction de tracé GG, MPD, sortie esthétique TY, CD Pourquoi autoroutier et préciser
le type, le type, géométrique pour tracer
le point, l'échelle, la couleur de
soulignement, le manuel de
soulignement pour donner les Les allergologues appellent donc pour voir. Maintenant que nous l'avons déjà fait. Ensuite, nous ajouterons
des étiquettes et il ou C créera une traction avant, une traction coudes et un
prix abordable et mûr Nous voici donc donnés. F sera remplacée
par la roue avant, elle sera réelle et la
quatrième sera à 4 voies Ensuite, nous donnerons le type de Dr. Et puis la fonction
Laugh sera
utilisée pour conserver les noms. OK, alors laisse-moi m'occuper de ça. Rendez-vous aujourd'hui, le swing
s'est ensuivi pour le F,
Odd et 40, nous détruisant ainsi la main d'œuvre directe
car la roue avant s'
arrêtera pour De cette façon, nous pouvons personnaliser
les légendes, d'accord ? Dans ce graphique, nous utilisons donc l'argument
des niveaux appris. Une partition est une échelle, un trait de soulignement couleur et une fonction de points par
minute , une
couleur et une fonction de points par
minute
pour enregistrer les niveaux de costume . Car le Landry utilise également
l'argument name pour fournir le
titre personnalisé de la légende Il s'agit donc de l'argument de nom que
nous avons utilisé pour donner le nom personnalisé à la légende. Alors ça
arrive, bon type. OK. J'espère donc que vous avez
compris comment nous pouvons utiliser la
déclaration conditionnelle et filtrage
des données, et comment nous
pouvons personnaliser les
compétences colorimétriques et les légendes
111. Créer des intrigues interactives avec intrigue et ggplotly: Bonjour et bon retour. Dans cette conférence, nous
allons créer diagrammes
interactifs avec
plotly et ggplotly Nous
utiliserons donc les
bibliothèques plotly et ggplotly pour créer des tracés interactifs OK, alors qu'est-ce que GGPLOGTLY ? Ggplotly va nous permettre de une fonction
qui nous permettra convertir en deux le lot que nous avons
créé. Nous avons nommé méthode
interactive. Ainsi, tout tracé créé
avec ggplot2 peut être converti en tracés interactifs en utilisant plotly et ggplotly. Gplotly. D'accord ? Ainsi, la création tracés
interactifs avec
plotly et ggplotly dans notre vous
permet d'améliorer
vos visualisations grâce à vos visualisations Et bien d'autres fonctionnalités. Plotly est un package R
qui convertit ggplotly en
graphiques en visualisations Web interactives D'accord ? Plotly est donc un autre package
que nous vous proposons. Vous pouvez donc installer le tracé. D'accord, donc pour installer,
vous pouvez accéder
aux outils et cliquer
sur Installer les packages. Et puis ici, il vous suffit
de rechercher Plotly, cliquer, de le sélectionner,
puis de cliquer sur Installer, et il sera installé Je l'ai déjà installé, donc je ne vais pas le refaire. Et pour vérifier cela, installez
différentes densités. D'accord ? Je l'annule donc. Vous pouvez cliquer sur Installer s'
il n'est pas déjà installé. D'accord. Nous allons donc utiliser UGG ggplot2 et la bibliothèque Plotly dans ce, d'
accord, accord, Alors ce que je vais faire,
ce que je vais faire. Je vais
vous expliquer étape par étape comment créer
des tracés
interactifs
avec plotly et ggplotly OK, donc dès la toute première version
modérée, installez et chargez les bibliothèques
nécessaires. Comme nous le savons déjà, nous avons vu comment nous pouvons installer. Alors laissez-moi d'abord les charger pour en
tirer parti. Donc, une fois ces deux
bibliothèques chargées, étape
suivante est un bon
tracé GG des données, votre tracé ggplot2 OK, commençons donc par créer un graphique GG de base à tracer à l'aide MPG et de l'ensemble de
données mtcars que nous
avons déjà vu OK, chargez donc le jeu de données MPG, mais vous n'avez pas obtenu
de fonction. Charge. Ensuite, nous allons créer
un nuage de points, un nuage simple pour créer
un nuage de points de soulignement variable en GG Et je vais utiliser le ggplotly. Wong Sun a utilisé
le jeu de données MPG. Ensuite, nous utiliserons la fonction
esthétique, l'axe X, l'axe
sprint et l'axe Y, pour tracer
le kilométrage sur l'autoroute,
puis colorier en rouge la classe de la fonction de point
géologique Reagan que nous utiliserons pour tracer les points et les étangs de
laboratoire et nous utiliserons
pour donner le nom de l'axe X dans lesquels le déboursement L et Y existe
le MPG
autoroutier et le titre du nuage de points sera un nuage de le Et puis le thème, nous
utiliserons le thème minimal. Ensuite, nous allons imprimer
le nuage de points. Imprimons donc ce diagramme de dispersion
simple que vous n'avez pas fait sur ggplot2 Alors vous voyez, vous voyez ici qu'
il s'agit d'un simple diagramme vertigineux, ces diagrammes de dispersion tracés entre la
cylindrée d'un moteur et le MPG sur autoroute. Pourquoi choisir une catégorie de véhicule ? Des catégories tellement radicales ici, des
biplaces compactes, des véhicules
intermédiaires, moi, des mini-fourgonnettes, des pick-up, des sous-compacts,
un VUS Voici donc les
différentes couleurs pour chaque classe. Et ici, sur l'axe X, nous
lançons le déplacement, d'accord ? Et puis sur l'axe Y, nous
voyons l'autoroute MPG. Voici donc le nuage de points
simple. Ce n'est pas interactif, n'est-ce pas ? Maintenant. Je veux créer ce graphique, rendre ce nuage de points interactif
lorsque je le survole. Alors quelque chose, d'accord.
Ainsi, les valeurs, chaque point et toutes les
choses sur lesquelles je peux cliquer en juin, je peux gérer tous
les éléments que je souhaite ajouter
à notre dispersion, plus
interactifs afin que nous puissions interagir avec le nuage Pour ce faire, nous allons utiliser, nous allons convertir
ce diagramme GG tracés interactifs Plotly Et pour ce faire, nous allons rendre le ggplotly interactif à l'
aide de la fonction ggplotly.
Cette fonction est très importante
pour convertir n'importe quel diagramme GG, diagramme DG en fonction, désolé, tracé en tracés Vous allez donc utiliser ggplotly
à partir du package Plotly, d'
accord, puis convertir le tracé
numérique en tracé interactif
Plotly Ce que je vais faire, c'est
créer une variable ici, interagissant
simplement pour
souligner le graphique N'importe quel nom que vous pouvez donner ici, puis déchargez la fonction
ggplotly Nous avons ici le tracé UGG. Maintenant, tu vas faire des bêtises. Et je vais juste dépasser
le nuage de points, données
que nous avons créées à
l'aide du diagramme GG Donc, à moins d'être passif
par rapport à la fonction ggplotly. Ensuite, je vais simplement imprimer
ces graphiques interactifs. Donc, en passant simplement
à ce ggplotly, ce simple
nuage de points sera converti Cela fonctionne, converti en
une intrigue interactive. Voyons donc si cela
se produit ou non. Vous pouvez maintenant voir ici ce diagramme de dispersion du déplacement de la
tanière par rapport au MPG
sur autoroute par vagal Le graphique est thématique, mais chaque fois que je
passe la souris sur un point, il affiche les valeurs
correspondant à ce point Comme pour ce point, déplacement est de 1,8 sur l'autoroute, MPG est de 36 Et classe de la
liste sous-compacte. Si je viens ici, cylindrée
1.837, classe compacte. Et si j'en viens au rose, ces SUV hybrides de 2,5
cylindrées 27 et de classes pour cela. OK, alors voyez,
c' est plutôt cool que maintenant,
le simple nuage de points, en contournant
simplement ce diagramme contournant
simplement ce diagramme pour les fonds
et la retraite de ggplotly, convertisse en de magnifiques diagrammes interactifs.
Ici. Ici, nous pouvons choisir le
C. Quand je clique sur C, ne sert à rien d'être
sonya Parce que j'
ai cela
ne sert à rien d'être
sonya Parce que j'
ai tout sélectionné, tout
désélectionné Je vais donc sélectionner un biplace. Alors qu'il s'agit de chemins de fer biplaces ce sera Sonia si je veux aussi
ajouter Je vais donc revenir, cliquer sur compact et compact. Les points supprimés
seront accessibles. Maintenant, si je clique sur taille moyenne et que je suis un minivan Missing
Card Scheme, nous savions que j'ai couru peut devenir ce que
vous voulez analyser, vous pouvez ajouter, si vous
voulez supprimer cela, même simplement désélectionner
et ce sera fait C'est donc l'interface interactive
qui a été ajoutée en passant simplement le
nuage de points au ggplotly Et c'est assez
simple et assez froid ici, vous pouvez voir
le tracé que vous avez téléchargé au format PNG. Cette option est également disponible ici. Ensuite, nous avons la Douma. Souvent, nous pouvons cliquer
et nous pouvons le faire. Vous voyez ici que ces différentes
options se présentent pour interdire, interdire, interdire comme ça. Et vous pouvez analyser qu'
il s'agit du groupe Punctum. Ensuite, nous avons la case à sélectionner. Nous pouvons sélectionner un
vent particulier ici et vous pouvez analyser les points
collectés qui seront mis en évidence. Ensuite, nous
pouvons Lasso Select Vous pouvez le sélectionner comme vous le
souhaitez et sélectionner
si vous souhaitez sélectionner uniquement une chose en particulier vous pouvez sélectionner ici. Ces
éléments interactifs ont donc été ajoutés, pensent avoir été ajoutés
simplement en transmettant la fonction
Plotly de la couleur du nuage Nous pouvons l'éteindre. Et on peut y mettre Jermaine. Et puis ils ont dit Texas. Et puis il y a
l'intrigue secondaire. D'accord ? Donc, de cette façon, d'accord, maintenant nous sommes anestrus, mais simplement en passant le nuage de points à la fonction
ggplotly, cela Le diagramme GG en
nuage de points a maintenant été converti en
diagrammes interactifs avec diagramme Et vous pouvez interagir avec elle à l'aide de votre souris et de Dutch Bet. Vous pouvez survoler le point de
données que nous avons déjà vu et voir ce qui
est vu, humeur ou ton Tips et Jermaine and your mouth band Plot et bien d'autres choses
que nous avons déjà faites Maintenant, nous allons ajouter de la myosine
en cache à ce graphique. Encore une fois, d'accord Voici donc l'intrigue, intrigue
interactive
que nous avons créée. Nous allons maintenant procéder à la personnalisation
supplémentaire. Nous pouvons maintenant personnaliser davantage tracés
interactifs à
l'aide de la fonction Plotly. Par exemple, nous pouvons
modifier la taxe de Harvard
uniquement en fonction de la couleur et y ajouter d'autres annotations.
Alors faisons-le. Donc, ce que nous allons faire, c'est personnaliser
l'intrigue interactive. Jusqu'à présent, cela créera un graphique de
soulignement interactif variable, soulignement personnalisé Il s'agit du nom que vous pouvez donner aux
diagrammes interactifs pour les clients. Et ici, je vais utiliser l' Interactif pour tracer
ce que nous avons ici. Et nous utilisons le soleil de mise en page. Et à l'intérieur de la mise en page, ce que
nous pouvons donner, nous pouvons personnaliser le titre. graphique interactif
sera le titre, le titre l'axe X indiquera cylindrée
du moteur entre
parenthèses. Désolée. Et l'axe Y affichera la liste de sortie de la légende
MPG autoroutière Et ce sera la classe
du véhicule le couloir et le
mode seront les meilleurs. Alors laissez-moi exécuter ceci
et cela créera l'intrigue interactive de la fin, et nous allons l'imprimer Maintenant que vous pouvez voir ici l'axe X, il peut prédire le
crash de mon graphique interactif Et ici, vous pouvez voir que
les points sont des chansons. On peut s'entendre comme ça. Vous pouvez sélectionner Box Select. Tu veux dire ta bouche. Toutes ces choses que nous pouvons faire. Dans cet exemple, nous avons
divisé les axes et les
niveaux du titre et le titre de la légende. D'accord ? Ainsi, en utilisant Plotly et
ggplotly Function, package
Plotly et les
fonds ggplotly, vous
pouvez facilement créer et supprimer
une couverture qui se trouve pouvez facilement créer et supprimer Gg Tracez vers Tracés, afin de
faciliter l'exploration
et la compréhension de vos données. J'espère donc que vous aurez compris
les étudiants lors du prochain cours.
112. Introduction à la manière et aux caractéristiques clés: Bonjour et bon retour. Dans cette conférence,
nous allons
découvrir Plotly, et c'est gratuit Juste. Plotly est donc une bibliothèque
open source qui permet aux utilisateurs de créer des langages de programmation
pratiques
interactifs, de haute qualité ,
chargés et ritualisés Non seulement dans mon Plotly est disponible en Python,
R Donc Python et dites-nous Control
pour que vous puissiez utiliser plotly. Et ici. De plus, nous allons en
savoir plus sur Plotly. Plotly propose un large éventail de types de
graphiques, allant du nuage de points de
base aux essences 3D complexes. Découvrez comment nous pouvons désormais
régionaliser et 3D Anna, comment Examinons donc les interruptions, le graphique et
les fonctionnalités clés La première chose à faire est la visualisation
interactive du tracteur. Plotly
nous permet donc de continuer. Leçon interactive, capacités
interactives non ferreuses. Il permet aux utilisateurs d'interagir. Tracons et deuxièmement,
entrons et sortons du hall des ventilateurs
ou des points
de données pour voir les détails et activer et désactiver
les séries de données. Ce sont donc les principales fonctionnalités qui vous donnent un pointeur d' interactivité avec les
tracés, etc. Interaction avec les graphiques. Montre-moi ta bouche. Bannissement chargé, passez la souris sur le point de données pour voir
les détails du problème, le CDJ de données activé et désactivé Ces interactions
facilitent l'exploration et l'analyse des données de manière
intuitive. C'est donc la meilleure
chose à propos de l'intrigue,
elle permet de mettre le graphique
sur la bonne voie Donc, et la prochaine étape
est facile à utiliser. Apa ou CLI fournit un APA simple à utiliser pour
créer votre licence Avec quelques lignes de code. Vous pouvez générer un Josh complexe
et interactif, ce qui en fait le favori
des data scientists et des analystes. Donc, comme il est assez simple
à utiliser, c'est aussi populaire parmi les tactiques de
cours de science des données. Donc, comme le tracé du niveau laser dans
notre télescope et par Thomas, langage de programmation
très populaire, c'est une autre
caractéristique clé du tracé. Plotly prend en charge plusieurs langages de
programmation, dont Python et JavaScript Cela leur permet de travailler avec langue de
leur rapport et de passer
facilement de l'une à l'autre. Pour différentes tâches. Chart Plotly prend en charge
un large éventail de types de graphiques tels que les graphiques linéaires, les nuages de points, les
diagrammes à barres, les
histogrammes de Josh, probablement des graphiques 3D, des
choroplèthes, des cartes et bien d'autres. Il offre flexibilité et polyvalence en matière de ritualisation des
types de radon Ensuite, Plotly fournit également une visualisation
sur le Web. Plotly, basé sur le Web, ce qui signifie que vous pouvez facilement interagir avec
des graphiques et un tableau de bord en ligne et
les intégrer dans des applications Web Des pores pratiques. Plotly vous
donne donc la possibilité intégrer vos
graphiques et tableaux de bord Plotly Maintenant, nous l'intégrons
dans les rapports. C'est bien plus qu'
une application Web avec Plotly Dash, vous pouvez simplement créer des applications Web
interactives
et c'est pour Data Cliquez sur Visualisation des données. Ce qui en fait un outil puissant pour créer des applications individuelles basées sur
les Il existe peu de
substances en termes de coûts. En fait, en partie,
en partie, elles offrent un large
éventail d'options
aux clients pour adapter l'apparence de charge en fonction d'une exigence
spécifique Vous pourrez simplement
personnaliser les couleurs, les étiquettes, la police, les styles, la
régression, et bien plus encore. Animation et ggplotly prennent en charge les animations et les transitions
fluides. Wechat est très utile pour
visualiser des données teintées
au fil du En explorant les différents états
d'une grande exportation, Farmer ggplotly se rend compte qu'il
peut être exporté vers différents formats tels que PNG,
JPEG, SVG, PDF dessus,
et même des GIF animés, et même des GIF animés Vous ne pouviez pas créer de
présentations et de documents de qualité. L'intégration à d'autres
bibliothèques, même partiellement
possible dans Plotly, peut être facilement intégrée d'autres bibliothèques de cours d'analyse de données et de
théorie telles que Pandas in my Tongue, RTT ggplot2 in R. Cela permet, vous avez juste besoin de combiner la
puissance de Telles sont donc les principales caractéristiques de Plotly, NADPH
religieux interactif, APA Plusieurs
langages de programmation prennent en charge chaque type de données et prennent
en charge les applications Web. Soutenez-la de la meilleure façon possible. Ce sport et les applications
Web. Mes animations et transitions. Plotly est largement utilisé
dans la science des données, la veille
économique, les ressources scientifiques
et divers autres domaines Trochléaire, intuitivement
attrayant et interagissant pour OK, donc lors de la prochaine conférence, nous allons commencer à faire
des exercices pratiques avec le blocage. La prochaine conférence.
113. Travailler avec Plotly: Bonjour et bon retour. Donc, dans cette conférence, nous
allons parler de Plotly, nous
allons créer des tracés à l'aide de Plotly Dans la
conférence précédente, nous avons vu l'introduction à Plotly vu quelles sont les fonctionnalités, quels sont les tracés que nous
pouvons créer avec Plotly ? Dans cette conférence,
nous allons donc faire des exercices pratiques. J'ai donc écrit du code pour vous, je vais vous expliquer
et je vais exécuter le code
, puis nous verrons ce que nous
pouvons faire avec le Plotly Certaines choses, par exemple,
créeront ces tracés 3D à l'aide de Plotly. C'est donc très
intéressant et je vous explique comment nous
pouvons tracer ces trois diagrammes de dispersion
en 3D D'accord, voici donc les quelques choses que nous allons
faire dans cette conférence. OK,
commençons donc cette conférence. Et les informations sont tirées du site Web
rpubs.com de RStudio
et de références Alors commençons. Plotly est un excellent
outil pour
créer de magnifiques tracés
interactifs Cela peut être tracé à l'aide du package
Plotly
ainsi qu'à l'aide de TD Nous pouvons donc faire des choses que nous ne
pouvons tracer qu'avec le tracé, ou nous pouvons également utiliser le
graphique GG en plus du tracé Pour cela, nous avons besoin des librairies
Plotly et DD ggplot2. Je l'ai donc déjà installé, vous suffit
donc de l'exécuter. Ensuite, j'utiliserai ici l'ensemble de données Midwest qui
est facilement disponible avec le package RStudio are Alors laissez-moi vous montrer à
quoi cela ressemble. Alors
laissez-moi mettre Control Enter. Tu vois, oui, c'est
l'ensemble de données que nous allons envoyer dans l'
immense Midwest, OK. Il y a donc un PID
puis le pays, l'État, zone, la population, la population
totale, la densité de population, la
population globale, le noir, méridien
pop, le pop,
l'ancien, autre Mais pourquoi le noir ? Ainsi, bien que chaque colonne
soit présente avec D, chaque colonne ajoute ensuite d'autres variables et elles sont
toutes en anglais. Nous allons être
les complots, d'accord ? Voici donc l'ensemble de données. Donc, comme le pays, la superficie d'un État, la population totale, toutes ces
variables, est-ce que c'est correct ? ce que disent les gens. OK. Nous réutilisons maintenant
ces données pour tracer. Donc, tout d'abord,
je vais utiliser la
fonction Plotly, tracer le trait de soulignement Et pourquoi Plotly fonctionne pour créer un tracé pour ce LPA,
transmettre ce Dataset
Midwest et l'axe X,
je vais faire une grande partie de la classe, mais la classe est un ensemble de données, une colonne de
données ici, colonne de
données Mais Clark College, d'accord ? Et coloriez et utilisez la zone État
masqué et Types. Je vais créer un boxplot ici. Pourcentage d'étudiants
ayant fait des études universitaires, mais précipité, pourcentage ayant
fait des
études universitaires par l'État Pour planifier cela. Donc voyez ici qu'il s'agit du boxplot car le type que nous avons
donné ici sous forme de boîte ici Lorsque vous cliquez ici, vous pouvez voir le premier quartile
minimum, la
médiane, le troisième
quartile et la clôture supérieure Et vous pouvez voir la
valeur maximale, ces choses-là. Ainsi, nous pouvons
rapidement créer Boxplot, 4 % ayant fait des études universitaires par étape Combien de personnes sont
scolarisées ? Université ? Dis que c'est
le boxplot, d'accord ? Nous allons maintenant essayer de créer des tracés
de base à l'aide de Plotly. Pour cela. Ce que je veux faire, ce que je
veux, créer un tracé de base
directement à l'aide de plotly ou nous
pouvons également en tracer deux en UGG Alors ici aussi, UGG ggplot2. Je vais donc utiliser ici l'ensemble de données irlandais que
nous avons déjà vu. Donc, si vous voulez voir
comment cela se passe dans cet ensemble de données vous pouvez mettre l'iris de la tête. Alors laissez-moi d'abord charger ceci. C'est donc que j'ai juste ensemble de données où vous pouvez
voir la longueur des sépales, largeur des
sépales, la longueur des pétales, la largeur des
pétales et Ce sont les colonnes ou les variables qui ont un niveau
dans cet ensemble de données irlandais. D'accord ? Donc si tu veux exécuter ça, tu peux voir, oui, d'accord. Ensuite, j'utiliserai nouveau
la fonction
LY de soulignement du tracé, et l'ensemble de données sera le même. Les données sont donc égales à Iris, Xe, à
l'axe X, à la longueur des sépales et à la longueur
des pétales de l'axe Y. D'accord ? Dessinons donc ce meilleur schéma qu'il se présente comme suit. D'accord ? Donc, sur l'axe X, la longueur simple des points, et sur l'axe Y, la longueur des pétales, la longueur sépales et la longueur des pétales Et ces points
ont été établis. Donc, pour cette longueur de sépale
et de pétale, le
mari a tracé ici Désormais, avec ggplot2,
le même tracé peut également être créé dans ggplot2
et servir Ensuite, le tracé peut créer, peut être rendu interactif en version ggplotly, fonction Plotly Notez que toutes
les fonctionnalités ne
fonctionneront pas avec ggplotly Il faut donc parfois faire
des essais et des erreurs. D'accord ? Donc, ici, le même
nuage de points que je vais essayer de tracer à
l'aide du diagramme GG et de
tracer un graphique où je vais créer une figure jusqu'à l'endroit où le magasin se trouve
dans la figure à l'autre, pour le stocker dans la figure 2 Alors allons-y maintenant. Et j'ai fait allusion à un complot dégueulasse pour comploter ça.
Figure 2. OK, alors laisse-moi m'occuper de ça. Alors regarde ici, maintenant, comme ça, d'accord ? La même chose avec l'
aide de et ggplotly. Nous avons tracé. En étant capable de tracer
votre ggplot vers. Vous pouvez personnaliser le
tracé de la même manière qu'avec ggplotly Examinez les noms de colonnes courants. Donc, si vous souhaitez promouvoir le nom de colonne pour
le jeu de données Iris, vous pouvez simplement exécuter cette commande. Voyez les noms des colonnes que nous
avons déjà vus, n'est-ce pas ? Il y a cinq
points de colonne par espèce. Voici donc ggplotly, les
données, l'iris, l'esthétique, les polices,
et nous utiliserons X, la longueur des
sépales, la longueur des pétales
et la couleur est Nous allons donc colorier les
points par espèce. Ensuite, j'utiliserai
la fonction de
point de soulignement geom pour
tracer ces Et puis ce chiffre que
nous obtenons du TG Plot, je vais essayer de le tracer
avec le ggplotly OK, il suffit d'imprimer
ceci et de voir ici, maintenant nous avons le
nuage de points coloré et où se trouve ce rose qui est verdâtre pour le
versicolor De cette façon, nous pouvons le faire pour la couleur. À présent, vous pouvez également voir que les espèces apparaissent dans la zone de texte lorsque vous les
survolez Maintenant, il montre
que vous les survolez. Elle coud maintenant la longueur des sépales, la longueur pétales et est
précédée par Tout comme dans ggplotly, vous pouvez personnaliser
l'axe, le titre et la couleur, un secteur ici Il a donc un complot GG. Tout ce que nous pouvons faire dans GG
, c'est ce que nous faisons ici. Ensuite, nous transmettrons
ce chiffre de la valeur de la
variable plot au ggplotly Cet objet figure deux sur le ggplotly et il va tracer, d'accord, donc voici l'axe X du journal,
puis les points de géométrage Dans la fonction de
point de soulignement du geom, l'esthétique et la
couleur
réelles de chaque trimestre se trouvent les prix et enregistrez également un rapport
basé sur OK. Ensuite, la longueur
des sépales, la longueur pétales et le titre GG
seront la longueur des sépales, la longueur des pétales.
D'accord ? Alors allons-y. Maintenant. Vous pouvez le voir ici. Maintenant, les points sont également perdus. Et pour ce type, la versicolor
se présente sous forme de triangle, et pour lui, les
points apparaissent au carré de la C'est donc parce que nous avons utilisé des espèces
distinctes sein de la fonction des points
Netskope humains De cette façon, nous pouvons également
personnaliser l'axe, le titre et la couleur. Nous allons maintenant créer un graphique à barres
de base. Donc, pour créer un graphique à barres de base, nous allons utiliser le data.frame. Et ici, je vais créer un
exemple de jeu de données ici. Pour cet ensemble de données, il y
aura trois colonnes la prochaine fois
et une facture totale. Donc, le sexe de
ce vecteur du facteur Alcatel sera masculin
et
féminin, puis ce sera
le déjeuner, le dîner Aucun pour ne pas aller bien. Les niveaux seront le déjeuner et le dîner, et au total, vous garderez
quelques factures aléatoires pour ici. Permettez-moi donc de créer ces données, activer d'abord ce DataFrame Je vais maintenant créer un graphique à barres. Temps sur l'axe X Color Fill, groupe par sexe et énorme production d'une fonction d'
esquive des traits de soulignement Donc, GG trace un énorme volume de
données lorsque vous accédez à celui-ci,
à cet objet que nous avons, certaines données d'entraînement
que nous avons créées. Ensuite, l'axe X de
la fonction esthétique, nous mettrons l'axe Y du temps, je mettrai Crotonville, et je
remplirai avec la barre de soulignement du sexe et du
geom Je vais utiliser l'
identité et le maintien de l'ordre, la police et souligner la fonction
néerlandaise Ensuite, je vais créer
un autre objet, figure 4, et je vais faire
apparaître le graphique à barres de Boston G, ggplotly, ggplotly a, B, puis j'imprimerai la figure pour C. la
figure 4, et je vais faire
apparaître le graphique à barres de Boston G,
ggplotly, ggplotly a, B,
puis j'imprimerai la figure pour C.
Vous voyez ici. Maintenant, voici le graphique à barres
simple. OK, il a donc
déjeuné et dîné. Il y a deux choses à voir avec
ce système pour les
femmes : il s'agit facture totale par repas
pour les hommes ou les femmes pour le déjeuner. Et c'est
pareil pour le dîner. Donc si vous voulez analyser
comme au déjeuner d'une femme, interface sera
totalement abstraite. Au total. Nous adorons
les roupies soutenues et pour le dîner, femmes qui adorent la cystéine
et MATLAB Nous pouvons donc
analyser qu'au déjeuner, hommes et femmes, les dépenses
au déjeuner sont très différentes Homme, dépensez davantage pour le
déjeuner pour le dîner. Même des hommes et des femmes. Nous pouvons donc en conclure que
pour le dîner, ils ont acheté les dépenses sont presque les mêmes. Journée masculine et féminine. Nous avons dépensé la même somme
pour le dîner. Mais lorsqu'elles viennent déjeuner, les femmes dépensent
moins pour le déjeuner. Et dépenseront-ils
davantage pour le déjeuner ? C'est ce que nous pouvons conclure sur
la base de ce graphique à barres. Ensuite, nous
utiliserons la SF de base. Pour cela, nous allons utiliser
la bibliothèque elle-même. Et pour cela, nous utiliserons l'objet
NCD, SF, deux-points, deux points,
soulignement, la
fonction de fichier System point sera la vôtre
tout en passant en revue la barre oblique SIP
NC point SHP et le paquet sera SF et SHP et le paquet sera SF et tout à fait égal à vrai Ensuite, nous allons créer
un objet (figure 3). Et ggplotly, vraiment
énorme et ggplotly. Et nous allons dépasser ce sous-officier. Objet à souligner par ggplotly et
geom en toute sécurité. Soulignez-vous les
polices SF et les révisez-vous ? Et il avait des formes esthétiques
et des religions comme celles-ci. Et nous allons le remplir par zone. Tracons donc ce diagramme de
surface simple ici. Nous obtenons donc maintenant
cette surface. Vous pouvez le voir ici sur l'
axe X et l'axe Y. Donc, au degré. Et vous pouvez voir l'étiquette
au repos de différentes manières. De cette façon, nous pouvons
tirer parti du complot. La prochaine étape est que nous pouvons également
mettre les cartes pour cela. Je suis ta Zynga. C'est tout pour le
mois de février, pour nous et pour le trafic. OK. Ainsi, ces données extraites de ce site Web sont directement réadaptées à ce que nous créons
à partir de ce site Web Et ces données
font partie du fichier CSV du 21 février du trafic aérien
américain. Nous allons donc le stocker
dans ce DataFrame. Ensuite, nous allons essayer de
télécharger ce
trafic aérien sur la carte. Jusqu'à présent, cette valeur
que tu coiffes. Je vais donc créer un objet
G. G et la portée sont les États-Unis.
La portée de cette carte
correspond à des projets américains et ces listes sont des types de projets
et sont de type liste. Albert's USA. La terre après la terre
sera notre fils. La couleur du terrain sera en RGB
et nous utiliserons le gris 95. Et la couleur de la sous-unité
sera
très bonne à cinq pays avec 0,5 et la
sous-unité avec du bleu à 0,5. Donc, de cette façon, nous pouvons l'utiliser. D'accord ? Ensuite, nous utiliserons
la fonction plot underscore GO pour tracer
cela sur la carte Jusqu'à présent, ils ont dépassé le
jeu de données sous forme de dF, celui-ci, le jeu de données
CSV Airport Traffic Notch que nous allons mettre ici. Ensuite, la
latitude indiquera la latitude et la longitude
rangera le tout, sont les deux choses qui proviendront de
ce jeu de données complet. Est-ce que c'est vraiment épais ? Ajoutez des marqueurs et
des textes qui indiqueront l' aéroport, la ville, l'état et l'arrivée. Et puis une couleur très riche,
un symbole, une taille carrée. Je passe la souris pour voir les textos. OK, alors laisse-moi exécuter cet outil et oublier la valeur des couleurs dans les
gros vols entrants. Et pour la mise en page,
utilisez le titre, la fonction de mise en page
pour la mettre en page. Et puis essayez de bloquer le
plus de trafic aux États-Unis. Et puis lisez ce sujet ensemble. Alors essaie vraiment
de mettre quelque chose. Alors maintenant, cela arrive car la plupart du trafic nous ajoute
Port Hauer pour l'aéroport Donc ici, quand on voit
que les arrivées
internationales de Glass et Buck sont de 90, alors vous obtenez des arrivées ou 100 pour ce groupe d'amis
que je vais faire, 379. Vous pouvez donc survoler
la carte et vous pouvez trouver l'Australie centrale Remington compte la 26e arrivée de ce pays
des aigles régionaux 292648 en 1998 à destination de l'aéroport international de Salt Lake
City Ainsi, vous pouvez trouver
l'aéroport le plus fréquenté. Flux nous. Ensuite, nous pouvons tracer
les plans créés par l'acteur rationnel. Ensuite, nous
pouvons tracer le raster
trash talk qui crée la carte thermique colorée avec deux variables agissant comme
les coordonnées X et Y. Et une troisième
variable correspondant à la couleur. Pour cela, nous allons utiliser la deuxième
étape et Plotly. Pour cela, nous allons utiliser la fonction magique et nous les
utiliserons tant que nous ne le pouvons pas. OK, maintenant GG trace sur ce jeu
de données et valeur1,
valeur2, et geom Rushton, remplissage
esthétique que les valeurs ce jeu
de données et valeur1,
valeur2, et geom Rushton, remplissage
esthétique que les valeurs peuvent remplir. Le distillateur utilisera cette
échelle fonctionnelle et cette sensation d'Oscar. La pastille sera dans la
direction spectrale 1. Et cette fonction de décalage
donnera l'axe X d'ouest en est
et l' axe Y du nord au
sud, le titre et les sables Ensuite, nous essaierons de tracer le plan. Alors allons-y et voyons
qu'après avoir été fille, une
carte de l'élévation de la maladie pour Mongo pendant un certain temps Et cela est créé sur cette
base. OK. Maintenant, nous allons essayer
d'établir un diagramme de dispersion 3D
des canaux rénaux Donc un nuage de points en 3D pour ça, je vais faire les voitures vides D'accord ? Donc des voitures vides, une voiture vide, M égal à zéro et
M égal à un. C'est ce qu'on appelle automatique. Manuel. Et puis voici les voitures vides, facteur de
bord, les cartes vides am, puis essayez de tracer
en utilisant le tracé, le soulignement données sur les voitures vides
uniquement qui
est intégré à la zone Utilisez vraiment X bar, WT, Wi-Fi Hotspot Edge
Project pour vous projet de point d'accès
Wi-Fi
malade pour vous, couleur
malade basée sur
l'AM et la Nous allons également définir ici. C'est pour la couleur et les couleurs donneront
cette couleur de conversation. Ensuite, pour la mise en page, vous
utiliserez la sortie, la
cravate, l'attente et
la puissance croisée sur l'axe Y et axes de sortie seront de 141
par six milles Dessinons donc ce tracé en 3D. Je peux donc savoir qu'il s'agit du diagramme 3D, du nuage de points
que nous avons créé. Donc, pour cela, vous pouvez voir
notre axe X, notre axe Y. L'axe Y correspond à la puissance brute. Et le troisième exon, mon époque. Ainsi, lorsque vous passez le pointeur
de la souris sur le point, vous pouvez voir que 3,78 Y
est un et un jedi De cette façon, nous pouvons tracer les tracés 3D
et ainsi de suite. Il s'agit donc de l'axe X, de l'axe Y, et cette carte dépasse ces
axes. Plotly intègre donc d'
autres tracés
interactifs hautement personnalisables, des
cartes, car il est déjà prêt à s'intégrer à GG Plot, la possibilité et moins D'accord, vous pouvez donc faire plus d'
exercices à ce sujet, vous
entraîner et créer des tracés
3D, des cartes et tout le reste
beaucoup plus interactifs. Des tracés en 3D, des cartes et tout, d'accord. Donc c'est sur un bateau, Plotly
114. Créer des tracés 3D dans R: Bonjour et bon retour. Dans cette conférence, nous allons
créer des tracés 3D dans l'art. Je vais donc vous donner à tous
quelques exemples
différents dans lesquels
nous pouvons créer des tracés 3D. OK, donc d'abord, je vais utiliser correctement
le Plotly et pour cette bibliothèque
utilisateur Vous ne l'avez donc pas installé,
vous pouvez l'installer. Donc, tout d'abord, j'ai adoré la bibliothèque Plotly
, puis je vais créer un exemple de
données en utilisant une non-fonction Donc x, y, z, vous savez, 100,
100 et le projet existe et
utilisez le carré plus y au carré. OK ? Donc, mais ça permettra d'
obtenir ces trois. Le fera-t-il plus tard ? Maintenant, je veux tracer
ces trois points à l'aide
d'un diagramme de dispersion 3D En utilisant Plotly. Pour cela, j'utiliserai
une fonction d'onde largement non réclamée pour souligner le
tracé fonction appelée x,
je reçois x au carré, les axes y x et
y, puis x type sera le mode 3D
dispersé, ce seront les marqueurs, les harmonicas
et une énorme taille de liste, je donnerai trois couleurs, je serai payé sur l'axe Y et l' échelle de couleurs
et tu en as
fini avec ça Ensuite, mise en page, j'utiliserai la
scène et pour la liste, je fournirai une liste contenant l'axe X, l'axe et
l'axe du jet Et pour cela, je vais donner
le titre X, Y terminé. Si vous le souhaitez, vous pouvez indiquer l'
existence de l'axe X, l'axe Y, et ce x est correct Donc, je vais donner ces trois titres et je vais essayer de les faire,
laissez-moi m'occuper de ça. Donc, voyez ici, c'est
le tracé 3D verrouillé. Nous avons un diagramme de dispersion 3D, nous avons un diagramme de dispersion 3D Nous arrivons ici, d'accord ? Vous pouvez maintenant voir
votre axe X, votre axe Y, et voici l'axe du jet, comme vous
le Donc, C et maintenant l'axe X, l'axe Y et le X étant Ce sont les points que
nous avons créés en utilisant notre nombre qui ont été tracés
dans un diagramme de dispersion 3D Donc axe X, axe Y et cet axe. Ainsi, peu importe ce que nous voulons analyser, nous pouvons ainsi créer un diagramme de
dispersion 3D à l'aide de Plotly Permettez-moi donc de réviser à nouveau. J'ai créé un
exemple de données en utilisant notre fonction normale, le point de l'axe
X. J'ai créé notre norme de 100. L'axe Y n'est plus égal à 400 et les x
morts correspondent aux valeurs x et y. Et cette formule pour
obtenir les points pour le diagramme de dispersion
3D, j'ai utilisé Plotly et la fonction d'onde
carrée
pour l'indexation du produit de l'axe X, du
point X, de l'axe Y, du produit Et puis nous avons ces
éléments, la mise en page et les marqueurs. Et puis, lorsque nous l'
exécutons, nous obtenons ce diagramme de dispersion en 3D Ensuite, il n'y a que
SP, fonction SP et liaisons B. Et vous pouvez voir dans
notre programmation, donc les syntaxes BER SP, c'est un
nom de fonction et que nous devons écrire que 3.4 axe X,
axe Y, et mort à ce stade, nous devons écrire en
tant que paramètre important de
cette fonction sous forme de paramètres
différents séparés, x,
y et z avec x et y sont des vecteurs définissant l'emplacement le
long des axes x Et l'axe mort sera la
hauteur de la surface dans la surface du jet matriciel. Donc, cette hauteur sera encore
la matrice, d'accord ? valeur de retour de cette fonction
SP sera donc la transformation ailée des
métriques du projet
en coordonnées 3D x, y dans le plan en utilisant des coordonnées
homogènes, qui seront x, y, z et t. Voyons
donc l'
exemple d'utilisation de cette fonction
mais de la perspective de la fonction SP Vous pouvez dire sponsor. Donc, peu importe ce que
tu veux, tu peux appeler, je
l'appelle SP, être sponsor. OK, je veux donc
dessiner ici notre simple cône circulaire
droit. Donc, pour illustrer un simple cône circulaire
droit, je crée un objet
appelé ici et pour cette fonction. Et puis passez la fonction, fonction à Boston pour laquelle j'utiliserai cette fonction
racine carrée, x au carré plus y au carré. OK ? C'est donc la fonction pour les valeurs
x, x et y sont des séquences
vagues de moins un
pour un, pour un retard mental. Et le jet sera le x, le y et le froid
extérieurs. Ce sera donc l'axe du réseau ,
puis la surface 3D sera amenée J'utiliserai la fonction d'analyse x,
y, et ces trois points,
je les transmettrai à celui-ci OK, alors allons-y Comment ça se passe ? On se voit ? Maintenant, il s'agit du cône circulaire
droit 3D que nous pouvons créer à l'aide de celui-ci. Ici, la séquence des
fonctions du code Endeavor consiste à pré-générer le vecteur de nombres
équidistants et la fonction extérieure pour appliquer la fonction corn à
chaque combinaison de x et de y. C'est
donc le bon
cône circulaire que nous avons créé Maintenant. Maintenant, voyez un autre exemple ici. Ce que je veux faire, ajouter les
titres et niveler accès à l'intrigue jusqu'à ce
que le thème
de la conférence soit le même Maintenant, je trace la surface 3D
et maintenant nous allons jouer tracer la surface 3D en utilisant la fonction
et en passant le point x, y, z ici Ensuite, j'
utiliserai le CTO géré, le tracé en
perspective d'un cône OK ? OK, donc
diagramme en perspective d'un cône. Et puis git lab, je donnerai la hauteur pour l'axe du jet, je donnerai un nom
comme hauteur et Theta party ALX1, qu'est-ce que thêta Et puis phi est le propylène et la couleur est l'orange.
Et voyez quel 0,4. OK, alors
exécutons-le et voyons quel
résultat nous obtenons. Nous obtenons ce diagramme en
perspective
du tracé actif d'un cône. Ici, le soulevé de terre X Lab 11
peut être utilisé jusqu'au niveau, le niveau pour niveler
les trois axes. Et thêta et phi sont
la direction d'observation. Theta et phi sont d'autres Windex
et ceux que nous voyons. Nous vous attendons donc jeudi
et vendredi 1245,15. Voyons ce qui va
changer. À voir aujourd'hui. L'angle de victoire a
été changé, n'est-ce pas ? Tu peux le faire. Voyons quelle est l'évolution de la situation. L'angle de vue
change, d'accord ? Donc, quel que soit l'angle que
vous
voulez voir et que vous pouvez donner en thêta et en phi, si je fais 4 560,45, voyons comment cela
se passe et voyons ça comme ça,
d'accord ? C'est T. Alors ça va se passer
comme ça. OK ? Prends une décision. OK. Maintenant, je vais les utiliser,
disons pour visualiser le simple modèle numérique d'
élévation. OK, jusqu'à présent, ce sera un volcan à
deux et un authentique avec dix dans une colonne et rangée de 10 m orientée du sud au nord. Et pourquoi vous serez alors plongés dans l'alcool et le froid. Et il faudra le jet pour que Danton se
disperse d'est en ouest OK ? Maintenant, une grande
partie sera consacrée au diplôme et à la fonction de perspective. Je vais utiliser X, Y, w1, 35 et combattre tous
ces autres angles Couleur marron, la peau tombe, Thêta un moins un C'est pour le réglage et
la bordure, puis c'est faux. Voyons donc comment cela va se passer. Alors voyez ici qu'il
ne s'agit que d'un modèle
altimétrique numérique Alpha. OK ? C'est ainsi que
nous pouvons créer des tracés 3D dans R. Nous avons donc vu comment nous pouvons faire avec
le tracé Plotly une fonction d'onde non décrite Ensuite, nous avons vu
comment nous pouvons utiliser pour fonctionner plus une fonction de
perspective fonctionnelle, vous
voulez,
vous pouvez l'appeler. Voici comment nous pouvons créer la télévision
115. Créer des intrigues interactives avec des graphiques: Bonjour et bon retour. Dans cette conférence,
nous allons créer des diagrammes
interactifs
avec Highcharts Nous avons donc vu comment nous pouvons le
faire avec les autres bibliothèques. Et maintenant, nous allons faire les
Highcharts. Le retour est là. Et pour cela, nous avons
téléchargé les Highcharts. vous suffit donc de parcourir les packages installés
et ce qu'il avait pour High Chart fait comment le faire
dans la poussière et le télécharger. D'accord. La bibliothèque Highcharts en
sera donc à l'origine D'accord, notre langage
de programmation
est donc largement utilisé pour les statistiques, visualisation de
données et l'analyse de données que nous connaissons déjà. Utilisation de la bibliothèque Highcharts. données de la bibliothèque Highcharts sont représentées
graphiquement
dans le logiciel Non seulement des graphiques de signification, mais des graphiques
interactifs
sont également préparés. Bon, voyons donc quel type
de graphiques nous pouvons préparer. Des graphiques interactifs que nous pouvons
préparer à l'aide de Highcharts, graphique à
colonnes, d'un graphique à barres, graphique à secteurs et d'un
nuage Voici les quatre types de graphiques que vous pouvez créer
avec les Highcharts Donc Highcharts au
Texas, c'est assez simple. Nous allons utiliser X Chart
, puis nous allons transmettre l'objet de
données, puis taper, puis à Cases, les points
X et Y, puis la couleur. Ainsi, l'objet représentant le type d'objet de données est le
type de graphique que vous souhaitez créer. Il se compose X et Y qui précèdent les X
pour représenter les Ce qui est important et Color représentent ce
tracé des couleurs,
mais vous ne le faites pas, quelle que soit
la valeur que vous fournissez Donc, le graphique va créer le graphique
interactif, d'accord ? Et ces graphiques à quatre
colonnes à barres, barres, à secteurs et nuages de points que nous allons
obtenir ne l'ont pas fait Il s'agit d'une
syntaxe assez simple de high chart. Dans un graphique, son graphique
est la fonction. Et nous transmettrons le
type d'objet de données que la charte
souhaite créer et les cas, ce seront les axes X et
Y et la couleur, mais peu importe la couleur que vous
voulez donner. D'accord, nous allons donc d'abord créer
avec le histogramme du document, ou le histogramme affiche des données avec des catégories représentées
par un rectangle, parfois appelé graphique à
barres verticales. Et les catégories sont
généralement organisées le long de l'axe horizontal et les valeurs le long de
l'axe vertical que nous connaissons. Donc, la première chose à faire est d'importer la bibliothèque que j'
affrète, So Lamport Ensuite, voici ce que je vais faire, je vais créer
une donnée simple, un exemple de données pour notre exercice. Je vais donc créer ici
un vecteur qui contiendra le nom du pays, l'
Amérique, l'Inde, l'
Indonésie, le Japon, Canada, la Chine et le Brésil. Et leur PIB. Ainsi, le vecteur
du PIB créera et donnera le PIB
correspondant au pays. Ensuite, nous vous
donnerons les données, le
cadre de données, le
pays et Ce sera donc le DataFrame. D'accord ? La prochaine étape consiste à tracer le graphique à barres à colonnes ou le graphique à
colonnes. Pour cela. Stockez-le dans
l'objet P1 et Edge Chart Functional
utilise un objet, accord, des données à points, qui contiendront
le pays et le PIB Et puis tapez, je
veux créer un histogramme. Je vais donc donner une chronique ici. Dans Cases, je vais donner X. X signifie que je vais choisir le pays et l'axe Y est appelé
PIB et couleur Je voudrais vous imposer un taux d'imposition. Si vous voulez en faire
autre chose , vous pouvez également donner du vert. OK, alors laisse-moi regarder
ça et regarder ici. Découvrez à quel point
ce histogramme est un bonjour interactif . Permettez-moi donc de
les supprimer et encore une fois, lorsque je clique, de voir comment cela apparaît et disparaît de
manière très interactive. Voici donc comment nous pouvons créer un
graphique à barres, désolé, un histogramme. À l'aide d'un
histogramme interactif, vous pouvez pirater. Ensuite, nous allons créer un
graphique à barres ou à colonnes, afficher des données avec des catégories représentées par le rectangle, parfois appelé graphique à barres
horizontales. D'accord ? OK,
créons donc un graphique à barres ici. Donc, le même ensemble de données
que je vais avoir avec vous. Consultez ensuite les données d'affichage. Si vous voulez voir vos données, vous pouvez voir le pays et le PIB. D'accord ? La prochaine étape est que je
veux tracer un graphique à barres ici. Je vais donc utiliser l'
objet du graphique S, le type de données Bar, les cas
marginaux, le pays, l'axe X, pays et le PIB sur l'axe Y. Et je n'avais pas lu. OK, alors allons-y. Maintenant. Il s'agit du graphique à barres
que nous sommes en train de créer. Il s'agit donc d'un
graphique à barres interactif utilisant Highcharts, d'accord, alors regardez comment
il apparaît, d'accord ? Et quand vous verrez comment cela se passe, vous verrez le
pays et le PIB correspondants, d'accord ? Ensuite, chaque graphique circulaire, graphique circulaire ou type de graphique dans lequel le cercle est
divisé en groupes représentant la proportion
des valeurs des catégories sont répartis entre les différentes
conférences du cercle. Vous segmentez les marques de
cette catégorie. Je vais donc utiliser le
même jeu de données, d'accord ? Et je vais essayer de
créer un diagramme circulaire. Donc, ici, je vais donner une
page Web égale à pi. Tout le reste est même type que nous
sommes en train de changer ici. Et la couleur, si vous voulez donner une autre
, je vous donnerai le diagramme circulaire. Découvrez donc comment le
graphique circulaire interactif est apparu ici. Je vais donc y revenir, voir comment cela se présente. Et pour chaque pays, lorsque vous passez la souris dessus, il
sera surligné Chine, Japon,
Indonésie, Amérique. Comme ça Oui. C'est
ainsi que nous pouvons créer par Chart. Ensuite, j'ai voulu
entrer dans le nuage de points. Nuage de points, également
connu sous le nom de nuage de points. Vous venez d'arriver aux valeurs
actuelles. Qu'est-ce que les diagrammes de dispersion des variables
médicales sont utilisés pour voir ou écouter entre
les variables, comment une variable est affectée
par une autre Pouvons-nous visualiser facilement ? Je vais donc utiliser la
même méthode, et ce pays
et ce PIB vraiment opiniâtres Et il avait utilisé la carte
S et la couche, je vais vous en parler.
C'est ça D'accord. Carla, supposons que je veuille nous
donner du jaune. OK, alors voyons comment c'est dans le graphique
à nuages Tu vois les points. Alors permettez-moi de le répéter, CIA Boxer arrive ici. Laissez-moi donc passer
à une autre couleur. Fais-le rose. Rose. Le rose n'est pas non plus
faisable à ce point et le
rend pas visible. D'accord ? Alors tu vois, tu sais, c'est la
racine carrée d'un bloc, d'accord ? Ainsi, nous pouvons
utiliser la haute charte, la bibliothèque
High Highcharts et nous pouvons vous fournir les graphiques
interactifs
116. Projet 8 Visualiser des données Airbnb à New York: Bonjour et bon retour. Dans cette conférence,
nous allons donc
faire un autre petit,
très petit projet. Dans cette étude, nous allons réaliser une étude de cas
sur la visualisation des données
Airbnb pour New
York à l'aide du diagramme GG Donc Airbnb, héberge des
personnes chez vous. Nous verrons donc comment les gens
nichent et quel en est le coût ou quelles sont les tendances du quartier
. Donc, en gros, nous allons nous en tenir
aux données de la ville de New York. Les données seront donc fournies ici. Donc une annonce ou un CSP que j'ai
téléchargé depuis Airbnb. Il contiendra donc
les données de la ville de New York, données d'
Airbnb pour la ville de New York. L'objectif de
ce petit projet
est donc d'étudier le jeu, de
visualiser et d'obtenir des informations à partir des informations provenant des données
Airbnb a et B à New York. Une énorme entité utilisera le diagramme
GG pour essayer de les visualiser, d'
obtenir des informations
à partir des données
réelles d'Airbnb. D'accord, nous allons explorer
différents aspects des données, tels que la distribution
antérieure. Ils étaient sectoriels, d'accord ? Donc, ensemble de données pour cette étude
ou pour ce projet, nous utilisons le fichier
CSV à points listés à partir d'ici lorsque nous avons fait un site pour
la ville de New York. L'ensemble de données contient des
informations sur diverses annonces, notamment le prix, la disponibilité des
quartiers
et d'autres détails pertinents. La première étape est donc la préparation
des données. Pour cela, la bibliothèque
nécessaire sera chargée. Je vais donc utiliser
la couche profonde. Si vous n'avez pas
lancé le plan, vous pouvez accéder aux packages d'
installation des outils, où je place les pinces
et cliquez sur Installer, il sera installé et
vous pourrez alors utiliser la responsabilité OK ? Donc, GG trace le graphique
et l'applique à notre bibliothèque que nous allons noter
pour ce projet. Et nous verrons la
structure de l'ensemble de données. Et nous allons prendre les valeurs manquantes d'un
terme et convertir le
DateTime si nécessaire. OK, alors faites-moi savoir les bibliothèques nécessaires
en direct. Et la prochaine chose est de répertorier gros fichier CSV que nous
avons sur ma machine locale.
C'est ce que j'ai écrit. Je vais donc utiliser cette fonction
csv à chaque point et transmettre le chemin du
fichier CSV avec le nom du fichier. Et je vais stocker ces données dans les variables de soulignement
a, B
et B. Alors, gérons ça. OK, donc ces données
contiennent 48 008,
95, 95 objets
et 16 variables OK ? Permettez-moi donc d'explorer la
structure de l'ensemble de données. J'utilise la fonction STR et nous transmettons ces données AirBnB
et Discord Laissez-nous faire. Je vais donc vous montrer la
structure pour cela. Voyons voir. Donc 48 008 95 objets
et dit deux variables. Fait cela avec mon
nom et mon identifiant. Religion pour la gestion des coûts : numéro d'identification, nom d'
hôte, quartier,
groupe, quartier. Laisse-le parler à haute voix. Le prix
à court terme Le minimum est maintenant le
nombre d'avis. Plus grand, riche en leucine, qui a obtenu listes d'hôtes calculées
par mois, le
nombre, la disponibilité,
la recherche T5 Toutes ces variables
sont donc là et leur type de
données l'est également Nous allons donc maintenant prendre toutes
les valeurs manquantes. Nous pouvons donc vérifier les valeurs
manquantes en utilisant Ce n'est pas une fonction f ». Et nous transmettons cet
ensemble de données, le nombre de valeurs manquantes et quelques moines et pour obtenir la somme
des valeurs manquantes, d'
accord, le nombre
de protons des valeurs manquantes. Nous imprimons donc le nombre de valeurs et d'ensembles de
données manquants en imprimant cette valeur
simple. OK ? Il y a donc dix valeurs
préparatoires pentatoniques manquantes sur 48, 95 OK ? Ensuite, si le fil passe mal, si votre jeu de données ne passe
pas le bon moment, vous pouvez les convertir. Hé, les données Airbnb, le
dernier avis,
la date, la date que vous n'avez pas
rajoutée. Je vais voir que votre contenu
n'y figure pas. OK ? Ensuite, nous voulons
visualiser les données ou les licences. Pour ce faire, nous utilisons le
diagramme GG pour créer une
visualisation perspicace intégrée à l'extraterrestre Donc, tout d'abord, nous
verrons une distribution irréfléchie. Jusqu'ici. Je vais créer un histogramme
pour que les rédacteurs puissent identifier personnellement le bloc
D et les pâtes Il avait une donnée de soulignement B&B, c'
est-à-dire l'ensemble de données que nous
avons stocké en accédant au fichier
CSV. fichier
CSV OK, alors pour la
fonction esthétique de l'axe X, notre axe X, nous utiliserons le prix Ensuite, nous utiliserons l'histogramme de soulignement
Geom
pour tracer l'histogramme . La largeur du
bac donnera 50 Et Phil aura l'impression qu'avec la boucle et la bordure Skype, la
couleur sera blanche. Et labos, l'axe X sera la tarification, la
tarification, la diversité, et la fréquence
et le titre de l'axe Y
seront la
distribution des prix d'Airbnb L'inscription et l'équipe
utiliseront un minimum. Ensuite, nous imprimerons le programme de soulignement des
prix que nous sommes en train de créer
ici. Laisse-moi m'occuper de ça. Voir ici. Il s'agit d'un graphique. Sur l'axe X, le prix en dollars américains et sur l'axe Y, la fréquence À l'écoute. OK ? Il s'agit donc d'une nouvelle vision
proposant des annonces Airbnb. OK. Ensuite, nous verrons le quartier. Pour cela, nous allons
créer un diagramme à barres indiquant le nombre d'annonces dans
chaque quartier. Pour cela, nous allons
créer une variable appelée
soulignement de voisinage. Tracé de soulignement Les mêmes données. Soulignez les données. Nous utiliserons l'
opérateur de canal pour suivre le groupe par groupe de soulignement Il s'agit de la seule variable de
l'ensemble de données. Ensuite, le résumé par
nombre est égal à n. Ensuite, nous quittons le diagramme GG et l'axe X ordonnera
le groupe de voisins, et nous utiliserons la colonne
nombre moins De cette façon, votre accès
sera appelé et nous le remplirons barre
de géom provenant de l'intérieur
qui transmettra l'identité Et les derniers punks et le voisinage sur
l'axe X, l'axe Y, le nombre de teintes de chair,
le titre, le numéro ci-dessus ne sont
pas réalistes Dernière année,
minimum et équipe. Elément de texte à points X. Vous pouvez faire un élément
sous l'angle de protection 45. Ce sera donc le
nom sur l'axe X. Je veux le propulser avant 45 ans. Ensuite, nous allons mettre le
diagramme à barres là-dessus. Là-dessus. C'est ainsi que Manhattan
et Brooklyn, dans le Queens, le quartier du delta
s'inclinent de 45 degrés Voici le
quartier et le nombre de tests
pour chaque quartier. New York, tu détruis
le nombre d'annonces. Voisin du groupe, Bronx,
Brooklyn, Manhattan,
Queens, Staten Island. OK. Voici donc comment nous
pouvons utiliser un diagramme à barres. Pourquoi, en nombre,
soulever des poids ? Et puis, ce que nous avons
compris en faisant cela, nous pouvons obtenir l'IR suivant, la réponse la plus modérée ou
la plus cotée en dessous notre dollar cible et avec
une ancienne classe pour ce prix Donc, cette chose que nous pouvons voir
sur cet histogramme, voir la plupart des 10 000 et
certaines valeurs
augmentent leur production, que nous pouvons considérer soit comme Eau Claire Donc, la plupart d'entre eux uniquement. Ensuite, tracez à barres le nombre d'
annonces dans chaque groupe. La distribution que j'ajoute entre
le parent et que j'ai empruntée
, donne un aperçu des zones d'hébergement les plus populaires. Donc, de cette façon, nous pouvons
le voir si vous le souhaitez. Vous pouvez obtenir une
licence plus régulière et vous pouvez simplement analyser les données et créer un modèle d'
instance plus vigilant, un bien spécifique différent Merci.
117. Analyse et visualisation de données COVID 19: Bonjour et bon retour. Dans ce projet,
nous allons donc analyser les données relatives à
la COVID-19. Ainsi, la COVID-19,
l'une des pires choses qui soient
arrivées à
l'humanité, ou le
virus mortel qui a causé la mort
de nombreux vétérinaires et personnes dans le monde entier. Nous allons donc aujourd'hui analyser
les données sur la COVID-19 et essayer de faire l'analyse exploratoire des données sur la COVID-19 que nous pouvons
fournir Lorsque nous utilisons l'ADA, nous obtenons des informations précieuses. Commençons donc par charger les données, puis procédons
à l'analyse pour trouver les
dix principaux pays enregistrant le plus grand nombre
de cas de COVID-19. Nous allons également faire d'autres choses, mais
commençons par le minimum. J'ai donc téléchargé
l'ensemble de données, l'ensemble de données, le jeu de données en réseau par
pays, le jeu de données en réseau par
pays ce fichier CSV
que
je vais vous fournir Donc, si vous voulez
aller aux toilettes cette application sur le site Web
de l'OMS. Pour cela, nous avons besoin de la bibliothèque. Donc, si nous prenons « non installé », vous pouvez accéder aux outils et packages
installés et
vous pouvez y mettre le plan. D'accord. Ensuite, vous pouvez
le télécharger et l'installer. Il n'a pas pu être téléchargé
et installé sur votre hot. OK, alors la prochaine chose à faire
est ce que je veux faire. Donc cette pièce, vous allez devoir la remplacer quel que soit votre objet. Je déclare que vous
avez le chemin de votre
répertoire local. D'accord ? Alors laisse-moi tranquille. Maintenant, ce fichier CSV va-t-il enregistrer les dernières
données par pays et les stocker
dans des données de soulignement COVID D'accord ? Je vais donc utiliser le
CSV à points pour lire ce fichier CSV. Voyons ensuite le résumé
de ce code, n'est-ce pas ? J'ai donc mis le résumé. Vous pouvez le voir ici. Nous avons maintenant un pays-région,
rapidement, ce record. Est-ce que vous embrassez de nouvelles données, nouvelles pour couvrir des dettes, centaines de suppositions,
puis des cas récupérés ou non dirigés qu' ils ont colorés et
confirmés Combien de cas le schéma posologique et la rétention
d'exons ont-ils
augmenté la région de l'OMS ? D'accord. Donc, comme ça, il y a ces colonnes dedans. Il gère
ces colonnes de
cet ensemble de données avec ou sans valeurs
médianes
minimales du premier quartile La prochaine chose à faire est maintenant je veux savoir si tu veux, tu peux
faire encore une chose. Vous pouvez vérifier la structure
de l' ensemble de données à l'
aide de la fonction STR. Et maintenant, nous avons ces
nombreuses colonnes, 197 objets et variables. Donc, des pays et des
régions variables le confirment. C'est donc le genre de Vous pouvez voir les colonnes et le type de
données le fait également ici. Laissez-moi donc trouver que le plan
supérieur contient le nombre maximum de cas
de COVID Cela créera un trait de soulignement
supérieur variable , qui soulignera
les Et ils utiliseront le
fichier CSV de l'ensemble de données et stockeront toutes ces données de soulignement
COVID Je vais donc utiliser les données de soulignement et
utiliser l'opérateur de canal Et j'ajouterai par ordre décroissant
par cas confirmés, cas
confirmés et par tête Je veux voir le top 10. Je vais donc mettre de l'heptane. Il va donc trouver les dix
premiers inégaux aléatoires. Nous sommes alors de là,
ils m'en ont envoyé un autre. Ce sont donc les pays avec le plus
grand nombre de cas de COVID Qui est donc la région de ces
pays en fait ? Donc, l'Amérique. Et c'est notre travail Dans le dossier, nous chargeons d'abord la bibliothèque requise
, puis nous lisons le COVID-19. Est-ce que ça va en coordonnées
carrées, Theta. Ensuite, DataFrame, nous affichons le résumé de base de l'
ensemble de données pour obtenir un
aperçu des Enfin, nous constatons que l'épingle supérieure contient le nombre maximum de cas de COVID-19 et que bon sang pompe, considéré comme un échec, contiendra les
dix pays ayant enregistré
le plus grand nombre
de cas confirmés de COVID Et chaque objectif représentera
le pays et chaque colonne contiendra les données relatives
au virus pour chaque pays. Je veux maintenant faire une
visualisation des données à ce sujet. Donc, pour visualiser les dix
premiers pays en termes d'indices de carbone, vous utilisez le graphique circulaire, et nous utiliserons le
package ggplot2 pour cela Donc, le diagramme circulaire et
le diagramme GG pour vous, les dix premiers pays que nous avons obtenus de vous à partir de
là. D'accord ? Ensuite, la fonction
esthétique ( axe x, y) se contractera et pompe se remplira de
la région du pays. barre Geom, la
fonction Yeoman Escobar sera utilisée et le statut égal
à l'identité
fournira un art polaire cool Nous allons commencer par Jira Labs. Je vais donner la tête du titre
et les pays, x-naught,
y-naught et le contraire
et l'équipe sera
branchée pour créer un diagramme circulaire pour cela Alors voyez ici. Nous
avons maintenant le diagramme circulaire qui montre les
dix principaux pays dotés système de cosinus
maximal de
la COVID-19 pour la COVID-19 Vous pouvez voir le plus grand nombre de cas de COVID et le plus
grand nombre de cas de COVID Puis le Royaume-Uni. Puis, petit à petit, c'est le premier
royaume, puis le Brésil. Et puis nous avons un
moyen qui est l'Inde. Puis celui-ci, puis ce
bleu, c'est le CR. Cela nous permet
donc de savoir que les États-Unis, le
Brésil, l'Inde et la Russie,
où se situent les quatre premiers pays, à savoir les
États-Unis, le Brésil pour ce qui est de l'endoste, les pays les plus pauvres,
enregistrent le plus grand nombre de cas de
COVID-19 et
nous sommes en tête le plus grand nombre de cas de COVID-19 et
nous sommes en OK, donc ce code va
créer la charge en octets. Donc en proportion
des cas confirmés de COVID-19 pour chaque pays. Nous pouvons désormais ajouter des textes plus
denses et personnaliser les couleurs du graphique circulaire
pour le rendre plus interactif, informatif et
visuellement attrayant. OK, donc ce code va
créer le graphique circulaire. Maintenant, nous voulons ajouter d'autres choses. Je vais donc créer un graphique circulaire
avec les niveaux de personnalisation des couleurs. Alors, s'il vous plaît, faites de même. Voici les polaires et ceux
que nous avons déjà utilisés. Et des années plus tard, cette fonction
à l'échelle de l'équipe remplira à nouveau la même fonction. Et il n'avait pas mis le
point Legend Point Partisan en
bas, mais du noir en bas. Et le titre du lot donnera
des côtés, mais nous le donnerons. Justice. Pipe Frank, taille 16, et la France mettra les textes en gras. La fonction et la
taille
du texte soulignés de l'élément seront légendées. La taille du texte sera de 12. Et pour ce titre, ce
seront des sites pour le titre ou 14. Et s'agirait-il de la force ponctuelle de la planche
et de la boîte ? OK, alors et ensuite nous
utiliserons le diagramme circulaire. Et pour cela, je vais utiliser l'échelle, champ de
soulignement
et le faire manuellement Et ici, les valeurs
seront obtenues manuellement. Les nombreuses couleurs sont-elles un jeu, d'
accord, donc quel que soit le code couleur que vous voulez donner, vous pouvez l'obtenir. Ensuite, nous allons créer
un graphique circulaire avec des niveaux. Je vais donc prendre ce
diagramme circulaire, puis j'
appellerai X et
fonctionnalité esthétique, ce qui me ramènera à
une région country
et d' où vient le punk, n'est-ce pas ? Quand est-ce que tu es fils ? Empiler. Ensuite, je m'occuperai de
tout ça ensemble. Et C, et maintenant nous obtenons meilleur diagramme circulaire avec des ligands
et des couleurs différentes D'accord ? Maintenant, ce sont les légendes qui sont racontées. Vous avez dit qu'il y en avait eu
parce que son royaume s'est progressivement développé. Et ici aussi, vous
pouvez voir ce tableau, d' accord. Ainsi, nous pouvons créer un vélo personnalisé et un texte de légende. Maintenant, je veux trouver les dix principaux pays
supprimés et le pays qui a enregistré
un nombre maximum qui trouve les
dix premiers pays qui
ont enregistré le plus grand nombre cas
ajoutés à partir de la partie de
cet ensemble de données sur la COVID-19 Nous pouvons utiliser une
approche similaire à celle utilisée auparavant Nous allons trier l'
ensemble de données en fonction de la colonne du deck, puis
sélectionner les dix premiers pays. OK, jusqu'à présent, cette valeur. Ensuite, nous utiliserons le COVID. Je vais lire cet ensemble de données et les dix
principaux pays l'utiliseront,
organisé en utilisant cette colonne. Ensuite, nous prendrons le top dix D'accord, celui-ci nous l'a déjà fait. Donc CFTC, les dix premiers pays en termes de
nombre maximum de bits. D'accord ? Ensuite, je veux créer un graphique
à barres, mais le nombre
maximum de décès dans les dix premiers pays parce que vous êtes le
graphique à barres et la barre géométrique, les choses ont leur cinq angles, un
tiret juste dessus Nous avons maintenant le graphique
à barres et les pays qui obtiennent le
maximum du jour au lendemain et toutes
ces choses sont à venir. Voici le diagramme circulaire. C'est Sunda. Nous aboions. D'accord. Il s'agit donc d'un graphique à barres et d'un graphique circulaire. Eh bien, pareil. D'accord ? Je veux maintenant calculer le pourcentage de recouvrement
pour chaque pays. fait donc partie de cette reprise
liée à la COVID-19, si vous avez couvert le département 200 des
études supérieures. Et je sais que nous sommes en train de nous rétablir et que nous
passons à la phase de guérison. D'accord. Données par pays. Voici donc comment un pays a couvert le
pourcentage de reprise. Donc, ces villosités, nous avons
calculé la dernière, d'accord ? Calculez maintenant les
percentiles que vous pouvez obtenir pour chaque pays dans partie
supérieure qui vous indiquent les pays
initiaux
, puis créez un Voici le graphique de biais, le pourcentage de reprise
et les pays adoptés. D'accord ? Donc, la reprise aux États-Unis,
Ivana est au maximum. Mexique. L'Inde connaît également un peu de
comédie, puis le Mexique. Ensuite, je veux que les dix
principaux pays soient couverts la craie. C'est la personne qui va contrer les personnages de la
doctrine dans
la première phrase. Par Chuck. cas les plus actifs
provenant du pays où nous
trouverons est le pays qui compte le plus
grand nombre de cas actifs. Les dix pays avec
les cas les plus actifs, si graves qu'il en mourra. Dossiers actifs : la dette
mineure confirmée moins les cas actifs provient de
moins qui, moins les cas recouvrés, nous
donnera le plus grand nombre de cas actifs, puis nous
ajouterons ces deux avantages. D'accord ? Vous pouvez donc voir les États-Unis, Brésil et l'Inde sur le vecteur
numérique fictif. Il s'agit du pourcentage de pays appliquant
la doctrine des cours actifs et créez un diagramme circulaire. Cela nous montrera le plus
grand nombre de cas actifs. Le pourcentage des pays utilisant la
doctrine du cosinus vectoriel ici
utiliseront 7,73 % de cette Ce qui réduit la
fréquence maximale des suppositions. Les suppositions utiliseront la fréquence car
c'est ce qui
va se résumer. Ensuite, pour ce qui est de nous voir comme
la fréquence de cela, quel pays connaît la fréquence maximale
de la carie parce que ce produit
l'a partiellement récupérée. est
donc au Brésil que les affaires judiciaires sont les plus fréquentes
. D'accord ? Ainsi, si nous voulons analyser davantage,
vous pouvez analyser votre combinaison de conditions, votre façon de penser et
vous pouvez éclairer les données D'accord. Tout tourne donc autour de l'analyse des données sur
la COVID-19
118. Projet 10 dessiner des fleurs en utilisant les mathématiques en R: Bonjour et bon retour. Dans cette conférence, nous allons donc
parler du projet. Et dans ce projet,
nous allons faire d' énormes programmes mathématiques
et artistiques pour dessiner des fleurs. Nous faisons donc sécher les fleurs en utilisant les
mathématiques dans notre programmation. C'est l'
objectif de l'un ou l'autre de ce projet. Nous savons tous que
lorsque vous regardez la nature dans tout ce
qu'elle crée, vous pouvez y trouver une matraque, même si vous voyez un papillon
qui s'est enfermé, revient sur Dawn, notre ficelle
et qui semble faux La nature a donc beaucoup de créativité. Et les créateurs peuvent avoir beaucoup de bâton sur les fleurs,
sur les arbres, même chez les humains Nous sommes donc, nous sommes
tous des humains et nous avons les mêmes
caractéristiques comme les yeux, le nez, la bouche, les mains, les jambes. Mais chaque personne
a une apparence différente. Hein ? À part les jumeaux. Même les Queen's
ont un CSS différent. Et c'est le pouvoir de la nature. Donc, ce que nous allons faire
dans cette conférence, dans ce projet, nous allons essayer tirer des leçons, ce
qui nous permettra d'aller plus loin Nous allons donc essayer de dessiner
un motif floral. Vous faites des mathématiques
en utilisant notre programmation. Commençons donc. Donc, le rechargement pour voir ici, le mandat essaiera de comprendre toutes
ces choses, d'accord ? Le problème, c'est
que les modèles naturels sont trop nombreux, ce sont trop
d'exemples de faits naturels et matraques qui peuvent être décrits
en termes mathématiques De bons exemples,
disons les flocons de neige de Bob, la géométrie fractale de l'école, brocoli ou les règles d'
auto-similarité Dans la croissance des parcelles. Odd est un outil d'analyse
sérieuse, mais tout ne l'est pas dans
la vie. Comme nous le savons. La vie est aussi amusante et l'art peut être utilisé pour s'amuser et
faire de belles choses. Nous pouvons également faire beaucoup de
choses créatives, Eugene C'est le but
de ce projet. Troy, nous réalisons ce projet, cette activité, Newton, l'art
et les mathématiques dans ce cours. Sa puissance graphique peut donc être utilisée pour fournir des images
artistiques. exemple, nous verrons comment dessiner toutes ces illustrations
que nous verrons lorsque nous dessinerons,
lorsque nous exécuterons le code, qui s'inspire de la façon dont
les plantes sont des feuilles mortes. Ce fait est appelé
phylotoxique et nous allons
le résoudre comme base de ce projet OK ? Nous allons donc utiliser le diagramme
GG pour deux paquets. Comme d'habitude pour toute forme de
veillée artistique, nous utilisons principalement GG
plot pour emballer Donc, ici aussi, nous utilisons
GG plot pour empaqueter. Et en plus de nous amuser, nous en apprendrons de nombreuses fonctionnalités
importantes. Et cela sera utile
non seulement pour faire de l'art, mais aussi pour répondre aux données actuelles
et aux problèmes de la vie réelle. Ne retardons donc
plus les problèmes. Ne tardons plus. Commençons par
charger la bibliothèque. Donc, pour ce qui est du premier code, j'utilise le bloc-notes AAD L'avantage de l'utilisation de
notre bloc-notes réside donc dans les données. Nous pouvons écrire un morceau de code en appuyant simplement sur la touche Alt Control. Control, Alt, Control Alt I. Lorsque vous l'avez mis, vous pouvez écrire du code dans cette section, d'accord Vous pouvez
donc écrire les
explications et ensuite écrire votre code
comme nous le faisons actuellement. Google Colab. Donc, ce que nous pouvons
faire chez les adultes, vous devez aller au
File, au New et au dîner. Nous étions en train de créer notre script , puis vous
pourrez commencer le suivi. Je vous encourage donc
à écrire le code
vous-même en suivant
la conférence, car cela vous
donnera une expérience pratique. Si vous téléchargez simplement le
fichier et que vous l'exécutez, vous ne tirerez pas beaucoup
d'avantages de la conférence. OK ? Je suggère donc de
commencer à écrire, d'accord ? Je n'écris pas ici. Je l'ai déjà écrit. Parce que si je commence à taper
toutes ces syntaxes, cela prendra beaucoup de temps. Et cela ne sera pas bénéfique car cela
prendra des heures. Si je commence à taper et à
expliquer des choses. Pour gagner du temps à
des fins d'apprentissage, je veux le faire
et je vais vous expliquer. OK ? Donc, tout d'abord, nous allons
décharger la bibliothèque de diagrammes GG Et ici, nous allons dire que
les images du tracé sont de bon goût pour que je puisse fonctionner
et pour
un diagramme à points brillant, point, la largeur et la hauteur
seront quatre. OK ? Puis rechargez.
Alors, gérons ça. Vous pouvez donc voir ici les
deux options, les trois options. L'un est le chunk opsin modifié, le suivant est exécuté avec
tous les fragments ci-dessus Au-dessus, tous les
termes seront R1, R2. Vous pouvez voir cette option ici qui est un segment courant aléatoire. Nous allons donc utiliser ce
run junk pour le moment. OK, alors allons-y. Maintenant c'est fait, la
bibliothèque de diagrammes GG a été chargée. Ensuite, la deuxième
étape de ce projet consiste à arroser et à sécher les
points d'un cercle. Dans cette activité,
nous allons donc ,
nous allons essayer de dessiner les points
du cercle. Dessine les points autour
du cercle, d'accord ? Donc, mythiquement, j'essaierai de dessiner un cercle ici à
l'aide de points Il existe donc de nombreuses manières de
représenter les données dans diagramme
GG 2 pour les diagrammes de dispersion
simples ou les diagrammes plus complexes, tels que les diagrammes pour violon Les fonctions qui
commencent par Geom Underscore définissent en quoi
le tracé est Donc, le soulignement géographique est défini, nous allons bientôt montrer à quoi
ressemblera le tracé Dans ce bloc-notes, nous voulons
travailler uniquement avec le point de
soulignement de la géométrie, qui déforme les points
du tracé en deux dimensions Nous avons juste besoin d'un ensemble de données
contenant deux variables. Appelons-les x et y. Nous avons
donc besoin de deux variables, x et y pour l'axe x et l'axe y. Maintenant, je veux dessiner deux
points sur un cercle de rayon, un à chaque point x et y. À chaque point x et y. B dans le cercle unitaire, il s'ensuit que x au carré plus
y au carré est égal à un Nous pouvons l'obtenir en utilisant la célèbre identité
trigonométrique pythagoricienne, selon
laquelle le sinus carré
Theta plus cos carré
Theta est Theta est Ce sont donc les
mathématiques de base que nous connaissons déjà. Très bien, alors laissez-moi
ouvrir ce code. Donc, voici ce que je fais, je crée une
séquence de nombres. Séquence de chiffres.
Donc pour cela, je vais utiliser t comme variable
pour stocker ces points. Et je vais dire, utiliser la
fonction de séquence pour générer. Et je vais commencer avec une
longueur de 0,2, ce sera 52. Le total des points sera généré. Ici. X pour le point x correspond au point
de l'axe x. Je vais utiliser le sinus et le sinus de t. En fait, ce
seront les angles, d'accord ? D est donc l'angle que cette
séquence régénère cependant. Les angles que nous utilisons pour trouver nos x et y x sont
sinus Theta et cos Theta Donc, ici, depuis t et puis y ou y, nous utiliserons le coût, d'accord ? Ensuite, pour un DataFrame, data.frame B sera
l'angle, puis x,
y x, virgule, y, x sera le sinus de t et y
sera le sinus de t, le sinus de t cos up Ensuite, avec ces deux points, j' essaierai de créer un diagramme de dispersion
en utilisant le diagramme GG pour le diagramme GG deux C'est celui-ci, ce DataFrame, le DataFrame que nous venons Ensuite, j'utiliserai la fonction
esthétique pour l'esthétique de l'intrigue. Les points x virgule y. Ensuite, j'utiliserai le point
p plus geom Cela les bloquera donc. OK, alors allons-y et voyons, voyons, et maintenant nous sommes
tracés sur un cercle, d'
accord, des points tracés
sur un La prochaine chose est de le rendre harmonieux. OK, révélons le code. Rendez-le harmonieux
avec Colin Angle. Donc des blondes ajoutent les
feuilles dans cette spirale. Si vous regardez
toutes les feuilles de la plante,
cela suffira. Forme finale, j'ai essayé
la moelle épinière, qui part de l'origine et s'éloigne de sa pointe. Ainsi, lorsque vous regardez une spirale, elle commence par
un point particulier et se déroule comme suit. OK ? Ce sera donc
comme ça pour commencer à formuler le point, puis
ça se passera comme ça OK ? Nous allons nous
revigorer, d'accord ? Il part donc de l'origine, s'
éloigne de ce point, auxiliaire tourne autour Dans l'intrigue. Ci-dessus, tous
nos points sont les mêmes. Distance par rapport à l'origine. Ou un moyen simple de les disposer
en spirale est de multiplier x et y par un facteur dont la routine
atteint chaque point. Nous pourrions utiliser le facteur Azure
AD qui le prend en compte, pourrions utiliser Azure car ce vecteur
répond à cette condition. Mais nous allons faire quelque
chose de plus harmonieux, utiliser l'angle d'or. Golden, quelle est la
formule de l'angle doré ? Il est égal à phi sous trois
moins la racine cinq. Et ce chiffre est
inspiré du nombre d'or. L'un des chiffres les plus connus de l'histoire des mathématiques. Le nombre d'or et l'angle de
Gordon sont apparus dans des endroits inattendus de la nature, à
part les fleurs, les pétales et les feuilles des plantes, vous les
trouverez. Semez des têtes, de l'or liant, des graines
de tournesol, des ventes, des galaxies
spirales, des
ouragans, etc. OK, il est donc temps de
le finaliser. OK, alors regardons le code. Ici. Nous définirons le
nombre de points que vous associez. Nous allons le définir comme un gâteau de trois moins la racine carrée de cinq. Ensuite, nous serons ceux qui,
sur le vent et sur le vent colère, multiplieront
l'angle par
0,500 points, puis l' 0,500 points, puis exposant sera le sinus
de t et y sera le coût de T. Ensuite,
nous utiliserons
le DataFrame
pour créer un DataFrame Ensuite, nous allons créer le diagramme de
dispersion en utilisant le diagramme GG. Et nous allons ajouter le point géographique. OK, exécutons
ceci, la sortie. Vous pouvez maintenant voir comment nous avons créé une spirale
en utilisant chaque point. Ensuite, nous allons supprimer
tout ce qui est inutile. Outre les données, applaud inclut de nombreux autres
composants qui le font Ce graphique contient un ami
en arrière-plan avec une grille de couleur grise
composée de lignes horizontales et verticales en arrière-plan. Des astuces le long de l'axe, titre sur l'axe X, le extra le long de l'
axe et des niveaux Donc, toutes ces choses
que nous allons faire en exécutant ce code
définiront le DataFrame Je contourne ce côté,
le x et le y, pour accéder à la fonction
DataFrame et points
du diagramme de dispersion dans Donc, le complot RDD. Et nous l'appellerons 100 A-frame. Et puis les valeurs esthétiques, x dans boo, désolé, x dans d, y dans d. D'accord ? Ensuite, nous allons
attribuer ce point. Ensuite, nous utiliserons les polices d'
équipe ici et à l'intérieur du panneau de groupes
fonctionnels du thème, des polices d'éléments en
grille de points . Et ici et à l'intérieur de la console, éléments de la grille à points du
panneau
soulignent le blanc, xis txt
souligne le blanc
et l'élément de titre le En fait, ils ne peuvent pas préparer le terrain de jeu à Grand
Cow. Le panneau
sera un fond uni. Cet élément d'arrière-plan et ce soulignement sont abîmés et
semblent vraiment énormes, blancs Alors tournons-nous et
voyons le résultat. C'est ce que nous obtenons. Si nous le pouvons aussi, ce blanc. Voyons ce qui se passe. OK ? Maintenant, le
fond est en rouge. Ainsi, avec cela, nous pouvons
créer un arrière-plan. Et si je le lance, l'arrière-plan
sera le public. OK ? Il a donc eu du clean. Voyez maintenant comment cette spirale pointe et comment elle
ressemble à un motif. OK ? Prochaine étape, le maquillage. Le maquillage va essayer de le décorer. Si la couleur et la transparence
sèchent , cela commence à
ressembler à une plante, mais nous ne pouvons pas faire beaucoup mieux en modifiant la transparence des
couleurs, également appelée transparence alpha, taille alpha
plus foncée de l'image deviendra
plus attrayante Regardons donc le code. Ici. Un nouveau diagramme GG, Wong Sun, et les données permettent d'obtenir une enthalpie et une entropie
x. Et puis Dionne pointe
depuis le centre des États-Unis et sa taille donneront une couleur donnée, le vert
foncé, le thème
et le thème, ce que nous avons dans le bloc
précédent. Alors lançons ceci et
voyons la colonne de ce jour, si je fais en sorte qu'elle supporte le gris. Et voyez comment les arrière-plans et les vents marins deviennent soudainement verts mais le fond
devient gris. Ensuite, il s'agit de jouer
avec l'esthétique. Que Dalian jusqu'à présent, tous les points du thème de vos idées,
de la
couleur, de la forme et de l'alpha Parfois, vous souhaitez que le point central soit
une variable dépendante de votre jeu de données. Nous allons maintenant rendre la taille variable. Nous changerons également
le thème des points, même si nous ne serons pas
en mesure de parler là-dessus, ils ne pensent pas qu'un investisseur vous
rappelle
ce que Dan Dalian Permettez-moi donc de vous montrer que le noyau jusqu'au point géom
du bloc d dans temps avec des
fonctions esthétiques, les côtés sont égaux à, sera le t alpha 0,5, disons pour moi pour huit
et une colonne, je vous
donne un fond noir
où je donne du blanc Exécutons ça. Maintenant. Ça arrive comme ça. OK ? Donc, si je change le
CFE ou que je soutiens la mer, mais au point où ça ne
peut plus être comme ça, d'accord ? Donc, quoi que tu
veuilles, tu peux mettre le coffre ici et il sera créé
sur cette cassette, d'accord ? Dans cette cassette, d'accord. Nous allons maintenant rassembler tout
ce que nous avons fait jusqu'à présent et essayer de créer cette intrigue. Donc, la première ligne est la même. Puis enroulez ici,
la taille esthétique est égale à 4,5. Et sirotez la région de réalité 17 et le document de chemise de nuit en vert ou bleu OK, voyons voir. Déployez le code. Propre. Et tu vois, ça
a l'air bien. Ce manomètre noir,
fond magenta. Prochaine chose. Et si on modifiait l'angle ? Voyons donc si nous modifions
l'angle, que se passera-t-il ? Les schémas de drainage occupent une place centrale dans l'angle entre
les points situés sur la colonne vertébrale. De petits changements dans l'angle que cela
peut générer sont très difficiles pour la religion, disons 1 704,5 et l'angle nous
donne deux points,
nous passons à des périodes Voyons maintenant à quel point c'est
beau. C'est à partir de là que nous en sommes arrivés
à cette prise de conscience. La prochaine étape, c'est tout. Maintenant. Nous allons maintenant créer les techniques florales imaginaires que vous avez vues. Le jeton vous permet créer un nombre fini de motifs inspirés de la nature
. La seule limite est votre motif
inspiré de la nature la seule limite
est votre imagination Mais faire de l'art a aussi été une excuse amusante pour apprendre
à faire de l'intrigue sur GG, n'est-ce pas ? Nous avons appris tellement de choses. Et c'est très intéressant. J'espère que ce
projet vous plaira à tous. Et cette conférence. Tous les textes que nous avons
vus au cours d'une longue année pour tracer les données réelles également Trouvons donc cette
image sur la gauche. Un peu de rouge, c'
est illisible par rapport à
la fleur précédente, on voit quelque chose de très similaire
aux deux premières qui, tournons les choses, voyons quel point ce
motif est beau À partir de là, pour arriver à l'ouest, nous avons commencé par
le vent circulaire, puis nous l'avons réduit en
utilisant l'angle doré. Ensuite, on nous a donné
la couleur de fond, puis nous avons acheté
récemment la couleur, la taille et la transparence,
puis le SIP. Et puis ceci, et
puis nous en sommes enfin
arrivés à ceci et à ce magnifique motif
floral que
nous avons dessiné ici. Si je change
d'état pour le faire, pour voir ce qui va se passer. Tu vois, c'est une base triangulaire. Enseignez une colonne. Cela prédit que D viendra
comme un autre modèle. À la fin de l'été, la salle de bain. OK. J'ai mis un 17. Ça arrive comme ça. OK. Donc je vais le faire aussi. Alors. C'est le plus beau
fait-maison que nous ayons créé. Ainsi, vous pouvez également jouer
avec différents angles Alpha,
différentes tailles, différentes
combinaisons de couleurs et essayer créer votre propre motif
floral. Fleur utilisant
les mathématiques et chaud. J'espère que
ce projet amusant vous plaira. Et vous êtes également en train de
réaliser le projet et de télécharger votre Florida dans
le juge de Floride, dans la section projet
de ce cours. Et nous pouvons tous voir
119. Analyser et visualiser les lauréats du prix Nobel à l'aide de R: Bonjour et bon retour. Dans cette conférence, nous
allons aborder d'
autres aspects essentiels de l'analyse et de
la visualisation. Et c'est aussi
une sorte de projet. Et pour ce faire,
je vais analyser les données des
lauréats du prix Nobel. Ainsi, nos
lauréats du prix Nobel chaque année. Quelqu'un obtiendra le prix Nobel
dans une catégorie particulière. Quelle catégorie est
liée à l'art, aux sciences, travail
social sur ces
sujets, n'est-ce pas ? Nous allons donc essayer d'analyser sur un autre bitter
et nous allons le résoudre Nous allons également visualiser les données. Alors j'ai fait analyser quelques points par
Nika et je vais
vous montrer comment vous pouvez le faire Donc la plupart des prix Nobel, puis nous nous concentrerons sur
le prix Nobel. Ce sont les critères
que nous allons aborder. Alors. Nous allons maintenant voir comment il se comporte et
comment ou combien de prix Nobel ont remporté l'USS I dominent le scénario du prix
Nobel. Ensuite, nous visualiserons
la domination des États-Unis. Ensuite, nous verrons le mal et les femmes et les hommes
recevront le prix Nobel. Ensuite, nous verrons qui est la première femme à
remporter le prix Nobel. Toutes ces choses et
bien d'autres sont donc réunies nous allons essayer de le faire. Pauvre, on continue. Laissez-moi vous expliquer l'
ensemble de données. Nous utilisons donc ce fichier CSV à points
Nobel, qui contient l'oreille dans laquelle le
prix Nobel a été décerné. Les catégories, les
différentes catégories dans lesquelles le prix Nobel
a reçu le nom du prix, le prix Nobel lui-même. Vendredi, ce sera le prix
Nobel de chimie, le prix
Nobel de littérature
en physiologie. Toutes ces choses. OK, c'est donc le nom. La catégorie sera la chimie. La police de Rachel Madison
prédit toutes ces choses. D'accord, il y a donc différentes
catégories prix
Nobel, d'accord ? Et puis la motivation, quelle est la motivation qui se cache derrière ? Si vous attribuez le prix Nobel à cette
portion en particulier et au prix cette
portion en particulier et au prix
qu'elle coûte une par une
ou deux, il y a plus d'
une personne qui reçoit le
prix Nobel de la Gashes se trouve quelque part un par deux. Ils seront deux personnes. Là-bas. Il s'agissait de deux personnes appartenant
à la même catégorie chacune Le prix Nobel
sera donc divisé en deux. D'accord ? C'est donc le plateau un par deux. Ensuite, vous
pouvez voir quelque part un par quatre. OK, donc c'est
le prix. Combien de personnes se retrouvent donc dans la même catégorie, au
même prix ? Ensuite, Laura Tidy,
tous ceux qui ont reçu le prix Nobel se
verront attribuer
une grande partie du Et puis le type de loterie, ce sera individuel
ou organisationnel. Si c'est
l'organisation qui obtient tout le gâteau, ce sera de l'organisation. Et s'il s'agit d'une portion individuelle, ce sera individuel. Donc, fondamentalement, il existe
deux types de personnes qui font la distinction entre un individu
et une organisation. Puis nom complet de la
partie de l'organisation, alors qu'obtenir le
prix Nobel plutôt que le barreau aujourd'hui vaut plus que le barreau à ce jour. Ensuite, la ville de cette partie
particulière, le pays de naissance,
puis le sexe, masculin, féminin ou autre. Puis le nom de l'organisation. Ça, faire laver Parson ou vendre est le nom de l'organisation plutôt qu'
il ne l'est. Tu l'as éteint. Madison excelle, bien
faite, nomme et organise
et est la ville
d'un pays majestueux. date à laquelle cette personne a expiré, ainsi que cette
ville et ce pays. Toutes ces colonnes se trouvent donc dans ce nouveau fichier CSV à points. Nous allons analyser. OK, alors commençons. Alors laissez-moi vous parler des fruits à
propos du prix Nobel. Il en va de même pour les prix Nobel, mais c'est la récompense scientifique la plus
connue au monde, l'
exception de l'honneur, du
prestige et
des prix substantiels. Le destinataire de moins de 33 à 896 ans qui a établi le cours de l'
action. Chaque année. Il est décerné aux
scientifiques et universitaires dans les
catégories chimie, littérature, physique,
physiologie ou médecine, économie et paix. Il s'agit de la catégorie
dans laquelle le prix Nobel
sera décerné et qui a
été décerné au cours des dernières décennies. Le poste Le prix Nobel a été
décerné en 1901. Le prix Nobel a donc été
créé en 1901. À cette époque, le prix était vraiment eurocentrique
et centré sur les hommes, mais aujourd'hui, il n'est aucunement biaisé Voici donc l'histoire
du prix Nobel. Nous allons maintenant découvrir Fondation
du prix Nobel dispose d'un ensemble de données
pour tous les lauréats. Il s'agit donc de l'ensemble de données Nobel disponible pour tous les lauréats du prix Nobel. C'est donc le CSP de
premier ordre, 1901-2016. Donc, tout d'abord, nous devons
charger le jeu de données. Le nom du jeu de données est donc novel ou CSP. Nous allons donc utiliser read
underscore CSP et nous allons lire ceci, puis nous
arriverons à la tête qui passera Il s'agit d'un ensemble de données pour la
nouvelle fonction de tête de police. Et nous verrons combien, quoi ressemblent ces données. Pour cela, nous allons consulter
la bibliothèque de vers bien rangée, nous allons
donc également noter cette bibliothèque Lorsque nous l'exécutons, nous pouvons
récupérer le jeu de données Clips Up. Alors à bientôt. Nous avons déjà vu dans
le fichier CSV ici, prix de
la catégorie,
puis la colonne de motivation. Alors le prix ici, Laura Tidy Laura type, FullName, droit d'aînesse, mais date, mais
ville, quels pays ? Organisation sexuelle. Toutes ces informations s'
y trouvent donc. Ainsi, après le chargement, nous pouvons également accéder à
ces informations
via notre. Ensuite, nous
trouverons qui a fini de prier. considère les deux
premiers lauréats
du prix Nobel,
comme
on les appelait également, comme
on les appelait également, nous voyons déjà qu'une
célébrité sera
Conrad Rontgen, qui a découvert Et en fait, nous
voyons qu'ils sont tous morts. Tous les gagnants
de In
Nitrogen étaient des gars qui
venaient d'Europe, depuis ses débuts en Europe. Donc toute la sueur aminée, qui venait des États-Unis, mais c'était en 1 901 Si l'on considère tous les gagnants, l'ensemble de données allant de 1 901 à 1966 et les pays riches les
plus souvent représentés C'est ce à quoi nous
allons mettre fin. Le pays du gagnant,
en tant que petit pays ne
s'applique pas à tous les prix
fixés pour nous. D'accord ? donc assez facile de compter le nombre de prix
Nobel décernés sera donc assez facile de compter le nombre de prix
Nobel décernés
entre 1901 et 2016 Nous allons utiliser l'
ensemble de données Nobel, utiliser l'opérateur de tuyauterie et nous allons compter en utilisant
la fonction de comptage. D'accord ? Et puis en comptant
le nombre de prix, un par bénéficiaire masculin et un par bénéficiaire
féminin. Nous allons donc utiliser un roman, puis compter sur la base de ces
six, nous donnera le nombre de sexes pour les hommes et les femmes séparément
, puis le
comptage
du nombre de prix détenus par différentes
nationalités qui sont ici tiendra compte du pays acheté
par l'assistant Ensuite, nous ajouterons les blessés
par ordre décroissant. Et nous allons voir le
premier terme T. Très bien, alors allons-y. Découvrez le pays. États-Unis sur 9 personnes, le
Royaume-Uni, 85, la France, l'
Allemagne, tel T1, la France
pour le P13, que 29 Et ce pays
n'a pas 26 ans, Japan Grundy pour le Canada à, dans l'objectif il est habituellement 17 Et puis nous pouvons voir le ratio
hommes/femmes ici. Donc, une personne a soulevé 49 femmes
jusqu'à présent, jusqu'à 2 016,8. 39 ont peut-être remporté le prix Nobel et
26 ans, le sexe est inconnu. D'accord ? Ensuite, vous pouvez voir qu'un total de 911 personnes ont reçu le prix Nobel. Dans ce cas, il s'agit de 36, l'homme et 49 ou la femme, et 2067 ou ont révélé leur sexe OK. Nous au prix, peut-être l'alerte la plus
courante actuellement. Vous faites 1 901 à deux fois 15 était un homme né aux
États-Unis d'Amérique Mais dans l'ensemble, c'
est en riant là où le
pain européen a fait le tour des États-Unis. Donc, avant la création
du prix Nobel, tous les gagnants
venaient d'Europe,
mais lentement, vous dites que l'
Amérique a pris le dessus. Ils ont dominé le palmarès des prix
Nobel. Alors voyons voir. Nous allons donc calculer ici
la proportion de gagnants américains du One par décennie. Jusqu'à présent, cela créera cet accessoire, soulignez,
soulignez avec nous. Et nous utiliserons le jeu de données Nobel, même l'opérateur de tuyauterie
et nous ferons muter le gagnant né
aux États-Unis est
égal au pays de naissance Et ici, nous allons être fiers
du contrôle des naissances en tant que
États-Unis d'Amérique. Et ils l'utiliseront divisée
par dix en cent. Et nous utiliserons la cellule rétrécie
au sol. Donc, assister à 200 et nous utiliserons le groupe fonctionnel de plancher par décennie utilisera pour obtenir
le, puis résumer. Une proportion égale à la
moyenne des obligations américaines ne le sera pas. Et une donnée qui est égale à vraie. Alors allons-y. Voyez votre en 19091900, proportion d'entre nous disent que gagner est 0,07 sur 19, puis elle
a 1920, 0,70, 741 932,25 % de
données et 40,32, 92,299, 290,14 plus dentistes. Et au total devant
4321 EGN, vous enseignez 1030. Maintenant. Ensuite, nous
utiliserons le diagramme GG pour tracer la proportion de
ceux qui nous ont épargnés. Pour cela, nous allons utiliser le diaphragme et le transmettre au DD Plot.
Pour une révision esthétique, l' axe X ne mourra pas de dix ans et l'axe Y indiquera la
proportion entre les femmes Et nous perdons la fonction geom underscore à
neuf lignes
pour dessiner les Les humains pouvaient pointer du
doigt pour dessiner les points. soulignement de l'échelle via des niveaux
continus est égal à Echelles Colonne, limite de
pourcentage de colonne
X1, X1 zéro, inférieure à cette valeur. Et regardez ici, vous
pouvez maintenant voir une particule. Comment ça se passe. Ensuite, quel est le sexe
d'un prix Nobel typique ? Ensuite, quel est le sexe
type d'un lauréat du prix Nobel ? Pour cela,
nous allons calculer
la proportion de femmes lauréates
par décennie Nous utilisons un accessoire pour le descopage
et soulignons le gagnant à
partir de la variable ici
et partir de la variable ici
et Et nous allons utiliser la fonction
de mutation. Gagnante du underscore féminin. Tu dis que deux sexes sont
égaux à la femme. Et prenez-le, le plancher sera
divisé par dix en dix. Et nous fermerons l'
opérateur de canalisations, puis nous augmenterons par décennie, par catégorie
et en résumant. En passant, la
proportion est égale au premier gagnant moyen
et aux données provenant de deux. Ensuite, nous allons tracer
cette proportion Freeman Lauric a prédite
pour que cela passe D, D, supprimez le trait de soulignement. soulignement
ne suffira pas. Certaines esthétiques utiliseront X,
X au carré Y. X est quatre. Le nombre de gagnants et couleur seront les catégories
en fonction de la catégorie. Alors allons-y et voyons. Vous pouvez maintenant voir
ici, sur l'axe des x, les chats ont été tracés
et sur l'axe des y, la
chimie, l'économie ou la
catégorie ont été secouées Et maintenant, nous allons voir
combien d'autres repreneurs ou gagnants à ce jour,
laissez-moi vous le montrer. Ici, nous allons utiliser le
roman sur Data Frame. Et il le fait et
nous utiliserons le nombre égal au nom complet et au filtre Si N est supérieur à un, nombre
pair d'occurrences est
supérieur à un, alors nous compterons, compterons. Comprenez bien cela. Au moins
six personnes ont reçu le prix Nobel
plus de deux, deux, deux
ou plus de deux fois. Alors d'accord. C'est l'heure de demander à Maddie et Lena a
perdu du pollen deux fois. Comité du droit
international, communauté internationale de la
Croix-Rouge, ou trois fois. Maintenant, quel âge avez-vous lorsque vous recevez le prix Nobel et que vous
reprenez le contenu des gagnants
dans certaines illustrations,
nom, nous rencontrons à nouveau Marty Query Madame Curie, qui a obtenu le prix Nobel de
physique pour avoir découvert rayonnement et la chimie pour isoler le milieu et John a mis deux fois au frigo
des transistors d'exportation et de la supraconductivité.
Frédéric Sanger Sanger l'a obtenu deux fois
en chimie. Linus Pauling a obtenu première place en chimie et lettrage pour chaque œuvre visant
à promouvoir ce vêtement, cet homme et
ce
moment actuel Et nous apprenons aussi que cette
organisation dont
les prix sont également subordonnés et vous n'avez toujours pas
obtenu son prix Alors laisse-moi te montrer. Utilisez le lubrifiant. Lubrifier. Désolé, il ne faut pas lubrifier le paquet Lubrifiez ici Et ici, nous calculons le E qu'avaient les lauréats du
prix Nobel. Donc, innover puis muter
est égal à moins l'ère. Mais ensuite, nous traiterons l'
analyse de ce DataFrame et l'esthétique utilisera Export As
et Wife pendant Et avec le point de
géométrage à main levée et les géomètres, Small trace même
cette leçon que nous recevons que nous Ensuite, il y a la différence
entre les catégories de prix. Donc, Plot a souvent vu ça. Nous voyons des personnes
qui passaient
quatre à cinq jours
à rester assises debout. De nos jours, la moyenne
est clairement de 65 ans, mais il y a un large écart
dans les salles de cinéma entre les personnes les
plus appropriées et les personnes très jeunes. Et vous voyez aussi qu'à l'
époque, le nombre de nominations par la Ville est beaucoup plus élevé aujourd'hui qu'
au début des années 90 aujourd'hui, beaucoup plus élevé aujourd'hui qu'
au début des années 90 Beaucoup plus de prix sont fixés, donc il y a beaucoup plus de gagnants Nous constatons également la rupture de nos
prix à la suite du deuxième lavage, pendant la Seconde Guerre mondiale, de 1939 à 1943. Le roman Nobel met l'accent sur
l'âge et l'esthétique X, Y. Et passons Découvrez à quel point les catégories et les âges influent sur la
chimie, l'économie et le droit. Ils essaient que l'enfant peut
recevoir des fonds, des frais et des prévisions, des médicaments, la paix et des prédictions ou moins
que le plus jeune gagnant Nous essayons donc de trouver que
le trou était le plus ancien et le
plus jeune. Supposons donc que nous ayons utilisé le bureau en
tant que prix
abdominal catégorie par catégorie. Vous pouvez donc le voir pour la chimie et cela
pour l'économie, la littérature, la
médecine et la physique. Alors sont inférieurs à ceux d'Angular pour l' un ou l'autre des tracés avec beaucoup de
cyclins en cours Nous constatons que les
soins infirmiers, la chimie
et la médecine de Boltzmann ont
vieilli au fil du temps La tendance est la plus forte et prédit
que vous serez
diabétique à 50 ans Et maintenant, la littérature et
l'économie ou plus encore Tableau. Et nous constatons également que
l'économie entre dans une catégorie plus récente, mais selon un projet dix infirmières chevronnées
rajeunissent. La catégorie obèse, nous aussi cette catégorie nous n'
étions pas non plus vers 2010, qui semblait exercer
son activité presque jeune Cela soulève la question
vers deux heures,
puis la même chose,
sauf que l'odeur d'un jeune homme sent mauvais, cela soulève la question suivante :
qui sont les personnes les plus jeunes ou moins
que les plus jeunes de tous les temps Pour cela, nous allons utiliser la nouvelle variable d'
âge du trait de soulignement, mais sur le trait soulignement
supérieur, N en donnera
un, puis le fera Et puis pour le trait de soulignement supérieur
N1, en ordre décroissant. OK, alors allons-y. bientôt. Dans la catégorie des
pièces 2014. Le prix Nobel a été donné au prix
Nobel vous a été donné. Alors Malala. Malala a deux ans J et C n'avaient que
17 ans lorsqu'on lui a dit qu'il n'
avait que sept ans. Suppression des enfants
et des jeunes pour le droit de tous les
enfants à l'éducation. Et la CSIA, le prix
avec eux, un. Découvrez comment les données ont été partitionnées
en juillet 1997 et l'âge était de 17 ans. C est donc le plus jeune, et voici notre liste1 au
total et sept sciences économiques La caisse d'épargne Prize in Economics signe un total de sept pour avoir jeté les bases
d'un mécanisme, ce qui, en théorie, et il a dit les trois autres groupes
à d'autres personnes. s'appelait Leonardo
Harvest et il était le seul prix Nobel pour l'instant. Et à 90 ans, il a reçu le prix Nobel
Dahmer et
il venait d'Amérique Et Malala Yousafzai
était originaire du Pakistan. De cette façon, nous n'avons pas aimé
ou moins qu'au Pakistan. De cette façon, nous
n'avons ni aimé ni moins que le plus jeune lauréat
du prix Nobel. Vous pouvez offrir le lauréat
du prix Nobel. Vous pouvez trouver d'autres points
et les analyser. J'espère que vous avez compris comment nous pouvons visualiser et plus tard. Plus tard.
120. Projet 12 Trouver la force de mots-clés en utilisant R: Bonjour et bon retour. Dans cette conférence,
nous allons réaliser un autre projet dans lequel nous allons déterminer la force du
mot de passe en utilisant odd. Donc, comme nous le savons, c'est un
projet
de langage de programmation très populaire et c'est étrange. Parfois, nous devons également prendre en compte
la force du mot de passe. Dans ce cas, vous pouvez
utiliser cet exercice. Alors voyons voir. Dans ce projet,
nous allons donc passer en revue les rôles de publication spéciale
863 du
NIST à Qu'est-ce qui donne un coup de pied à la partie
secondaire du vérificateur qui est
chargée de stocker et de bien
boire le mot de passe,
connu sous le nom de graisse corporelle ici Il fonctionne pour s'assurer que vous ne choisissez pas
un mauvais mot de passe. Nous allons passer en revue les
mots de passe des utilisateurs. Ce qui est réparé une
petite entreprise et utilisez notre pour vous signaler que vous avez
juste un mauvais mot de passe. Mais le fait d'être en mesure de le
faire signifie déjà que l'entreprise de signalisation fixe
en propose 800. Je suis toujours. Mais si j'ajoute le
stockage cellulaire mémorisé, sacré dans sa forme, cela fait
dix attaques hors ligne Mémorisez la Christelle
à démarrer et à utiliser la
fonction de dérivation des
touches unidirectionnelles Table Cela ne consiste jamais à enregistrer simplement votre
mot de passe en texte brut, toujours crypter les mots de passe En gardant cela à l'esprit
pour la prochaine fois
que nous proposerons un système de
gestion des mots de passe. Chargons ces données. La liste des mots de passe et la base de données
fixe ou limitée. Les deux contenus, un vrai
lien de mot de passe provenant d'un vrai site Web. Ce mot de passe n'a été
filtré d'aucune façon et ne figure pas dans les données d'
exfiltration de données de CloudWatch Et c'est donc juste pour le vouloir. OK, chargeons donc
le fichier CSV ici. Nous allons utiliser la bibliothèque de vers
bien rangée ici. Alors laisse-moi juste, d'accord. Nous allons donc d'abord charger
la bibliothèque, la bibliothèque, puis nous devons lire le fichier CSV dans lequel toutes vos données
Just ont été stockées. Nous vous utilisons pour
démarrer le fichier CSV. Oui. Et nous ne vous conservons
que des objets de valeur. En comptant le nombre de personnes que vous
venez de recevoir en cure de désintox à partir de maintenant nous utiliserons la fonction Endrew
et vous la transmettrons Ensuite, nous imprimerons
la première pré-impression. Voyons les données. Il s'agit donc de l'identifiant, du nom d'
utilisateur et du mot de passe de l'année. Il s'agit donc de la base de données du fichier
objet qui contient l'
ID utilisateur, le nom d'utilisateur et le mot de passe. D'accord ? Il y a donc 982 Raj, d' accord, deux
rangées inédites ou le Alors maintenant, nous allons vérifier que le
mot de passe ne doit pas l'être. À résoudre. C'est une règle. Donc, si nous jetons un coup d'œil aux premiers utilisateurs de
la préimpression, nous voyons déjà régulièrement
des mots de passe erronés Ce mot de passe est mauvais, ce mot de passe est mauvais. Ce mot de passe est également de retour. Presque tous les mots de passe associés à
ces rôles sont incorrects, n'est-ce pas ? Mais ne prenons pas de l'
avance. Peut commencer à signaler le
mot de passe manuellement. Quelle est la première chose que nous
trions selon la publication spéciale du NIST, 800 C3b, lorsque vos premières requêtes
cellulaires crient Suzanne, mémorise le secret d' au moins huit
caractères D'accord, donc le mot de passe des
utilisateurs ne devrait pas être à trier. Commençons donc par vérifier cela. Donc, ce que nous allons faire, vérifier la longueur
du mot de passe. Tout d'abord. Donc, pour cela, ce que je vais faire, je vais créer une longueur énorme,
une variable, et ici j'
utiliserai la longueur du trait de soulignement STR Vérifiez la longueur du mot de passe ici. Je vais vérifier la
longueur de la partie qui vous permet accéder à l'utérus, à l'
ensemble de données et au mot de passe, et vérifier la
longueur du mot de passe. OK. OK. Donc, comme
Alice l'a dit dans le, il
suffit de prêter et
ensuite je créerai une autre variable à trier, à trier. Il a fait le tri quand
il faut commencer quand
vous venez de faire cette longueur. La longueur que nous avons calculée
à partir du champ Mot de passe. Si c'est moins de huit,
nous indiquerons qu'il s'agit d'un tri, d'accord ? Ensuite, nous imprimerons
le résumé jusqu'à la source. Combien y en a-t-il ? Je vais le résumer et l'imprimer. OK, alors allons-y. Alors, rendez-vous, il y a 376 mots de passe dans cette
base de données, cet ensemble de données, qui doivent trier moins de huit caractères
et vous verrez que vous triez faux. Cela fait plus de huit
caractères, 3368. C'est également vrai. Il s'agit donc de sept
caractères, six caractères. Ainsi, ces mots de passe WeChat de
moins de huit caractères sont considérés comme
un outil de tri pour la L2 OK, maintenant nous avons un moyen
plus rapide de signaler
le mot de passe que nous pouvons contenir
moins de huit caractères La vérification suivante concerne les mots de passe courants. Les gens y sont très favorables. Nous allons utiliser la liste des
10 millions de mots de passe OK, nous allons donc vérifier avec cette liste si le mot de passe
provient de cette liste ou non. OK. Donc déjà,
cet exemple de règle,
quelques contrevenants parmi
les 12 premières publications
spéciales du lendemain, c'est un SSD à trois V, le rôle
qui, lorsque vous licenciez, vendez, comparez les
secrets potentiels à la liste que le contenu de Values est connu
pour être un mot de
passe couramment utilisé, attendu ou compromis à
l'avance à partir des corpus de violations précédentes OK. Voici donc
la partie deja, passe courant
que les
gens utilisent, le divulgué Donc des mots du dictionnaire
répétés en quelques secondes. Nous allons permettre aux personnages
d'accéder à des mots spécifiques, tels que le nom du service, le nom
d'utilisateur, le dérivé. OK, tout ça, pensez-y. Pour un mot de passe commun. Nous allons lire les
lignes de ce fichier,
qui est un fichier TXT de 10 millions de points de
liste de mots de passe. Ensuite, nous verrons la liste des mots de passe
courants. OK, donc juste dans cette liste. Voici donc le mot de
passe courant, comme 123456 ou quelqu'un pourrait le faire. Le mot de passe est
égal au mot de passe I 1234530 OK, donc tous ces Superman, Jada et Jennifer, le robot
Jolly Ce sont donc les mots de passe courants que les gens utilisent. Nous en
avons donc vendu beaucoup. Ils stockent les mots de passe
ne doivent pas être les mots de passe courants. Comment vérifions-nous cela ? Nous devons donc signaler tous les
mots de passe de notre base de données utilisateurs qui figurent parmi les
meilleurs, les plus intelligents. Vous avez déjà utilisé Le mot de passe
est le mot de passe commun, d'accord ? Pour cela, je vais utiliser, je vais créer une variable appelée mots de passe communs
en dollars. Je vais donc créer un champ appelé mot de passe commun
dans la base de données de l'utilisateur. Et ce sera
le cas si le mot de passe contenu dans
ce mot de passe commun, mot de passe se trouve dans
ce mot de passe commun. D'accord ? Si votre mot de passe jet se
trouve dans le mot de passe commun, il le signalera comme étant
un mot de passe commun ,
puis nous verrons
combien de mots de passe courants se trouvent. Alors voyons voir. Consultez donc vos 129 mots de passe dans notre base de données ou les mots de passe courants
que les gens ont utilisés. Voir ici. Ce sont les mots de
passe courants de March Tom Murphy. D'accord, nous avons maintenant
trouvé un mot de passe commun. Ensuite, nous verrons comment nous
pouvons le prendre pour
un mot de passe ou non, car les mots de passe ne sont pas des mots de passe
très courants, n'est-ce pas ? Jusqu'à présent, nous allons
créer une variable pire et lire des lignes à partir des 10 000 textes en anglais de
Google. Cela vaut donc corpus de vodka
Google Premium
que Google nous a fourni , d'
accord, ce fichier, puis nous verrons si les utilisateurs
utilisent des mots courants
dans leur mot de passe. D'accord ? Nous allons donc utiliser le trait de soulignement STR pour abaisser
la fonction, pour la réduire Ensuite, nous vérifierons à l'
intérieur s' il
est là ou non. Ensuite, nous allons consulter l'onglet Récapitulatif et découvrir combien de personnes
utilisent des mots courants. Mot de passe. Les mots de passe CR1 37 contiennent donc des
mots communs. OK. Ensuite, le mot de passe ne
sera pas répété à Predicting. Alors, comment vérifier cela ? Alors d'abord, nous allons partager le pire. Nous allons utiliser le trait de
soulignement STR et nous allons diviser le
mot de passe, d'accord, puis sélectionner le maximum de
caractères répétés opérationnels pour tracer chaque mot de passe Je vais donc créer un maximum de répétitions de traits de
soulignement. Et je vais utiliser la fonction Appliquer ici et je vais transmettre cette
liste Mot de passe ici. Et puis fonctionnez, vous diviseriez passe de
soulignement
et max est égal à RLE, le mot de passe divisé Ensuite, nous trouverons la longueur. Et s'il y a trop de répétitions, oups, je vais stocker là-dedans
trop de répétitions S'il est supérieur à, pour, supérieur ou égal à quatre, égal à Plus,
Plus que ou égal à quatre. OK, alors
branchons-le. Alors voyez ici. Répétition maximale jusqu'au maximum, répétez-en une, degré maximum 31. Bon, maintenant ce que nous allons faire, que je vais tout mettre en place. Et nous avons utilisé tous les
goûts de base pour chaque mauvais mot de passe. Maintenant, nous avons un mauvais mot de passe. Maintenant, nous allons voir, nous allons
tout mettre en place. Je vais créer un mauvais
mot de passe précieux et je vais vérifier s'il s'agit de trier notre mot de
passe courant ou notre mot courant, ou si trop de répétitions
sont trop de répétitions De nombreuses reprises que j'ai
ajoutées deux fois. D'accord ? Et si l'une de ces conditions est vraie,
signalez que
ce mot de passe
contient un mauvais mot de passe et nous verrons combien de
mauvais mots de passe nous obtenons. Alors voyons voir, vous voyez, maintenant nous voyons ce
mauvais mot de passe et ici, quelques mots de passe
ont été signalés comme vrais Mauvais mot de passe, c'est vrai. Donc ce co, c'est le mot normal, c'est le
mot courant, Commonwealth. Ils sont donc signalés comme un
indicateur Data mauvais mot de passe. De cette façon, nous pouvons écrire un code pour trouver le mauvais mot de passe ou la force du
mot de passe en utilisant odd
121. Introduction à l'apprentissage automatique: Bonjour et bon retour. Dans cette conférence, nous
allons en apprendre davantage sur l'apprentissage
automatique. Nous avons maintenant vu comment utiliser notre programmation pour la
visualisation et l'analyse des données. À partir de maintenant, nous allons en apprendre davantage sur l'apprentissage
automatique. Nous allons commencer par les bases
de l'apprentissage automatique. Nous verrons comment fonctionne le machine
learning. Quels sont les types
de machine learning, quelles sont les applications
de l'apprentissage automatique ? Bien, nous verrons ensuite quels sont
les processus d'apprentissage
automatique, comment nous appliquons les algorithmes, comment nous créons, modélisons,
comment nous évaluons. Bien, commençons
par une introduction
à l'apprentissage automatique, tirer le meilleur parti des données Commençons par la définition de
l'apprentissage automatique. Dans un monde piloté par les données, les
machines jouent un rôle de
plus en important dans la compréhension de la grande quantité d'informations à notre disposition. Comme vous le savez, en
cette ère numérique, nous recevons des données, nous les
transformons chaque seconde, ce
soit dans le secteur de l'aviation, ce
soit sur
les réseaux sociaux ,
dans les entreprises, dans le commerce électronique, dans l'apprentissage, en pharmacie, dans le
domaine médical, partout. À chaque seconde, nous
recevons une grande quantité de données. Ces données ne sont pas les données
normales que vous aviez l'habitude de stocker dans les tables Adim, mais ce sont des mégadonnées Ils ne sont pas dans un format
très statique. Ils sont dans un format très
dynamique. Ce seront des images, ce
seront des images. Toutes ces choses, ces données de données
dynamiques sont très difficiles
de manière traditionnelle. L'apprentissage automatique est un sous-ensemble de l' intelligence
artificielle qui est
devenu une force transitive, permettant aux ordinateurs d'
apprendre et de s'adapter à partir des données, afin d'effectuer des tâches sans programmation
explicite Maintenant, étant donné que nous diffusons beaucoup
de données, si nous ne sommes pas en mesure d'obtenir des
informations à partir de ces données, cela ne sert à rien si vous
recevez des milliers de commentaires du client, du consommateur
ou de notre utilisateur final Et si vous ne
travaillez pas là-dessus, si vous ne savez pas
comment travailler là-dessus,
cela ne sert à rien, n'est-ce pas ? Nous n'améliorerons pas nos
processus, nos produits et
nos services avec l'émergence
de la science des
données intelligente artificielle, apprentissage
automatique et de l'analyse des données. Ce que nous pouvons faire, c'est tirer des
leçons des données, explorer les données et obtenir des informations
relativement bonnes à partir des données. Et nous pouvons nous adapter
en fonction des données. Nous pouvons analyser, nous pouvons
prendre des décisions à partir des données. Dans ce cas, auparavant, nous
le faisions nous-mêmes, mais grâce à l'apprentissage automatique
et à l'intelligence artificielle, nous pouvons
désormais permettre aux
ordinateurs d'apprendre à partir des données et de les adopter pour effectuer des tâches sans
programmation accélérée Nous n'avons même pas besoin d'
écrire le programme. Il fait de la pré-vente au détail et
nous pouvons entraîner les modèles. Et cela nous permettra de commencer à
travailler pour nous de moins moins comprendre l'apprentissage
automatique de manière un
peu plus détaillée. À la base, l'apprentissage automatique consiste créer un
algorithme qui permet aux
ordinateurs d' apprendre à
partir de données et de prendre des
décisions ou de faire des prédictions sur la
base de connaissances techniques. Contrairement à
la programmation traditionnelle, où l'homme donne des instructions explicites aux
ordinateurs sur ce qu'ils doivent faire, l'apprentissage
automatique permet aux
systèmes d'améliorer leurs performances de
manière autonome grâce Ceci est réalisé grâce aux éléments clés
suivants. Les algorithmes de données,
la formation,
l'évaluation et les tests des modèles ,
puis le déploiement. C'est ce que nous
faisons dans le domaine de l'apprentissage automatique. Nous obtenons d'abord les données, puis nous
appliquons des algorithmes à ces données, puis nous nous entraînons, puis nous
évaluons et testons le modèle. Ensuite, si le modèle reçoit
les résultats requis, nous déployons en
bonne et due forme une
production sur ce que sont les données. Les données sont la pierre angulaire
de l'apprentissage automatique. S'il n'y a pas de données, il
n'y a pas d'apprentissage automatique,
il n'y a pas d'IA. Parce que l'apprentissage automatique, la science des données par l'
IA, tout
dépend des données. Beaucoup de données. Les données qui s'y trouvent
seront d'autant plus bénéfiques qu'elles seront efficaces en matière d'apprentissage
automatique, d' intelligence
artificielle, d'apprentissage
profond. Tout cela
dépend des données. Les données sont au cœur de l'apprentissage
automatique. Si ce n'est pas le cas,
l'apprentissage automatique ne marchera pas, l'algorithme ne marchera pas. Les algorithmes apprennent des modèles et des relations à partir de données historiques
ou en temps réel, qui servent de
terrain d'entraînement à ces systèmes, algorithmes que nous
apprenons et appliquons. Ils tirent des leçons du modèle d'
algorithme et de
la relation à partir des données que nous utilisons pour entraîner des modèles d'apprentissage
automatique. Ainsi, lorsque les nouvelles données arriveront, ils feront des prévisions sur
la base des données historiques sur
lesquelles nous avons entraîné le système. La qualité et la
quantité des données sont des facteurs
essentiels au succès du modèle d'apprentissage automatique. Les données que nous recevons
doivent être significatives. Si les données ne sont pas significatives, elles ne sont pas améliorées, données sont très claires, modèles d'apprentissage automatique ne
seront pas très vagues. Nous devons d'abord
travailler sur les données. Les données doivent être très propres et précises pour que les
modèles d'apprentissage automatique fonctionnent efficacement. Algorithme, les algorithmes d'apprentissage
automatique sont des moteurs
mathématiques
qui traitent des données. Les algorithmes sont en fait
une question de mathématiques. Ils travaillent sur les données
et les traitent, identifient les modèles
dans les données,
puis, sur la base de ces modèles ils font des prédictions
ou prennent des décisions. Ces algorithmes
peuvent être classés en différents types,
notamment l'apprentissage supervisé, l'apprentissage
non supervisé, l'apprentissage par
renforcement, chacun adapté à différentes tâches Les algorithmes, comme la façon dont
ils apprennent à partir des données, la
façon dont ils apprennent à partir des données, ils lisent les données, sont des types
différents que nous
apprendrons tout en observant les différents
types d'apprentissage. OK. Qu'est-ce que le modèle d'
entraînement Au cours de la formation, modèle d'apprentissage
automatique est exposé à des données et apprend à
reconnaître des modèles. Chaque donnée
aura un schéma. Si vous regardez les sites Web
d'apprentissage, s'ils collectent des données, ils apprendront que l'utilisateur vient sur le site Web. Ils cliquent ensuite sur
quelque chose en se basant sur le qu'
ils achètent le
pain qu'ils achètent, mais qu'ils achètent du sucre, ils achètent le E, les
algorithmes ou le modèle d'apprentissage automatique. Lorsqu'il a atteint les données, il a atteint les données, il
observera ce schéma. Si une personne achète du pain, elle
achète également du beurre. Quand il achète le
pain et le beurre, c'est aussi quand il achète le thé, achète
également le sucre du lait. Il s'agit du modèle
reconnu par le modèle. Ensuite, le modèle ajuste
ses paramètres pour minimiser l'erreur ou écart par rapport au résultat
attendu. Évaluation et tests. Évaluation et tests.
Après l'entraînement, le modèle est évalué. Lorsque le modèle est entraîné, il évalué à
l'aide d'un ensemble de données distinct. Supposons que nous ayons un ensemble de données, nous allons entraîner notre modèle sur
cet ensemble de données en particulier. Et nous dirons qu'il
faut reconnaître le schéma, comme Brad, quand quelqu'
un achète Brad, il achète le. Mais nous devons prévoir
ce que l'utilisateur pourra acheter ensuite. Quel sera son comportement, quel produit pourrons-nous lui coudre. Nous nous entraînons sur un ensemble de données
, puis nous goûtons et
évaluons le modèle sur un autre
ensemble de données afin le modèle sur un autre
ensemble de données afin de connaître ses performances et sa capacité de
généralisation Un réglage précis et une optimisation sont souvent nécessaires pour
améliorer la précision. Ensuite, nous affinons
le modèle et optimisons le modèle
et les algorithmes afin d' améliorer la précision du déploiement
du
modèle d'apprentissage automatique. Une fois que le modèle est fiable, il peut être déployé dans applications du monde
réel
pour établir des prévisions, automatiser les décisions et
fournir des recommandations. Vous auriez rencontré toutes ces choses, comme sur
Amazon Flip Card. Lorsque vous voyez quand
vous achetez un produit, le système commence
automatiquement à vous
recommander de
nouveaux produits en
fonction de votre comportement
antérieur ou du produit que
vous avez acheté Il vous en recommandera de nouvelles
lorsque vous regarderez Netflix. Si vous regardez une comédie, prochaine fois que vous
irez sur Netflix. Commencez à vous recommander les
nouvelles comédies, non ? Il a reconnu que vous
aviez l'habitude de le regarder sur
des modèles d'apprentissage automatique, derrière Netflix ,
Amazon, etc., ils commencent à
vous recommander de nouveaux produits,
des films, toutes ces choses, d'accord ? Quelles sont les applications
de l'apprentissage automatique ? L'apprentissage automatique a
trouvé des applications dans un large éventail d'
industries et de domaines, révolutionnant la façon dont nous
abordons diverses tâches Voici quelques sauts remarquables. Nous utilisons l'apprentissage automatique
dans le secteur de la santé. Aides à l'apprentissage automatique, planification du
diagnostic, découverte de
médicaments et médecine personnalisée
en analysant des données médicales, des images et des séquences génomiques Dans le domaine de la finance, il alimente algorithme du système de détection des
fraudes, le trading algorithmique, notation de
crédit, l'évaluation des risques et aide
les institutions financières à décisions fondées sur les
données
dans le commerce électronique Les systèmes de recommandation
dont j'ai déjà parlé utilisent l'
apprentissage automatique pour suggérer des produits, expérience d'achat
personnalisée et optimiser la stratégie de prix Véhicules autonomes, l'apprentissage
automatique fait partie intégrante des voitures
autonomes. leur permettant de percevoir
leur information, leur moment, des décisions et de naviguer en toute sécurité grâce à un exemple. traitement du
langage naturel, de
PNL et de LP automobiles applications de traitement du
langage naturel, de
PNL et de LP automobiles incluent traduction
linguistique, l'analyse des
sentiments, les forums de
discussion et les relations vocales, ce qui rend l'interaction
homme-machine plus fluide et L de
création utilisée de nos jours La fabrication, la
maintenance prédictive et le contrôle
qualité sont améliorés
grâce à l'apprentissage automatique. Réduction des temps d'arrêt et des défauts
dans les processus de production. Science environnementale, l'apprentissage
automatique est utilisé pour la modélisation du climat, prévision des tendances environnementales et l'analyse des données écologiques L'importance de
l'apprentissage automatique va
au-delà de ses explications. Il a le potentiel d'accélérer la prise de décision, d'
améliorer l'efficacité, découvrir des informations, personnaliser votre
expérience et d'innover. apprentissage automatique
favorise l'innovation ouvrant de nouvelles possibilités dans des domaines tels que la robotique, la réalité
virtuelle et la réalité
augmentée Nous pouvons découvrir de nouvelles informations
à partir des données grâce
à l'apprentissage automatique. Nous en concluons
que l'apprentissage automatique représente une avancée
technologique majeure, c'
est-à-dire qu'il remodèle les industries, favorise l'innovation et améliore les processus
de prise de décision
en données continue de croître
en volume et en complexité L'apprentissage automatique jouera
un rôle de plus en plus central dans l'extraction de valeur et d'
intelligence dans
ce monde riche en données Au fur et à mesure que nous
approfondirons ce domaine, nous explorerons plus
en détail ses
différentes techniques, algorithmes et applications, afin libérer tout le potentiel
de l'apprentissage automatique À la fin de cette conférence, nous aborderons plus en détail l'apprentissage
automatique dans les
prochaines conférences.
122. Le rôle de l'apprentissage automatique: Bonjour et bon retour. Dans cette conférence, nous allons
découvrir le rôle de l' apprentissage
automatique dans la science des données et l'intelligence artificielle, en
transformant les données en informations. Nous avons déjà
appris les bases de la science des données et de l'apprentissage
automatique, mais nous ne
comprenons pas encore comment nous
pouvons visualiser les données à l' aide de l'apprentissage automatique et de l'intelligence
artificielle. Et quelle est l'importance
des données dans ces domaines ? La science des données et l'intelligence
artificielle, deux des domaines les plus
transformateurs du
paysage technologique moderne Dans ces domaines, l'apprentissage
automatique joue un rôle
fatal dans l'extraction d'informations
accessibles, automatisation des processus et la mise en place de données pour la prise de
décision Dans cette conférence, nous
explorerons la relation
complexe
entre l'
apprentissage automatique, relation
complexe la science des données
et l'IA, ainsi que la manière dont
ils
contribuent collectivement à
l'évolution de la technologie La science des données est un domaine
interdisciplinaire qui combine diverses
techniques et processus pour extraire des sites
de
connaissances à partir de données structurées et
non structurées Permettez-moi de vous donner quelques précisions
sur les données structurées et
non structurées Les données structurées sont
des données très structurées de telle sorte que nous disposons éléments prédéfinis
pour stocker
les données,
comme nous le faisons dans la base de données Icicle
ou dans la base de données relationnelle traditionnelle Des choses pour lesquelles nous avons défini des choses comme
il y aura un nom, il y
aura une adresse. Il y aura le
produit qu'il a acheté. La date, elle sera définie
et sous forme de tableau. OK ? Et ce sera une
donnée qui sera définie. Ce sera un texte ou une image
ou quoi que ce soit d'autre, non ? Mais quand on regarde
ça, ce sont des données non structurées. Les données non structurées sont
très courantes de nos jours raison de l'émergence
des réseaux sociaux, d'Internet, du commerce électronique et de
l'industrie aéronautique Partout, nous recevons
de nombreuses données non structurées. Les
données non structurées ne sont pas définies. Les données arrivent
de différentes manières. Comme ça, parfois, cela
se présente sous forme de chat. Dans le chat, nous
partageons le texte, nous partageons les images, nous partageons les images. Nous vendons les fichiers, nous partageons les vidéos, nous partageons les animations.
Cela peut être n'importe quoi. Les données ne sont pas définies. Les données sont structurées et
non structurées par nature. Avec les méthodes traditionnelles, il est très difficile de recueillir des
informations à partir des données, les
stocker ou d'
obtenir des informations pertinentes
à partir de la partie des données. Grâce aux mégadonnées la science des données et à l'apprentissage automatique par l'
IA, il est très facile d'analyser, stocker et d'obtenir des informations à partir des données non structurées que nous obtenons des réseaux sociaux, du commerce électronique, des sites Web ou
de notre entreprise De nos jours, il est assez facile d'extraire des connaissances
et des informations à partir des données non structurées que
nous utilisons avec la science des données Cela englobe un large
éventail d'activités, notamment la collecte de données, la
manière dont nous collectons les
données, le prétraitement des données, le
prétraitement des données
avant de travailler dessus, puis la manière dont nous effectuons l'
analyse des données C'est la
partie analyse des données que nous
verrons et la visualisation des données
permet de visualiser les données. L'objectif principal de la
science des données est de transformer les données brutes en informations accessibles et éclairer les décisions
commerciales stratégiques. Toute entreprise qui
possède de nombreuses données historiques si elle ne
tire pas les leçons des données historiques, exemple si nous
gérons
une entreprise de vêtements ou un site Web de commerce électronique sur lequel nous vendons sait pas ce que nous avons
si elle ne
tire pas les leçons des données historiques, par
exemple si nous
gérons
une entreprise de vêtements ou un site Web de commerce électronique sur lequel nous vendons des vêtements. Les données selon lesquelles certains produits
du conseil d'administration ne se vendent pas, certains produits
sont les plus vendus. Si nous n'obtenons pas
ces informations à partir des données précédentes, nous ne serons pas en mesure de
recommander le nouveau produit, nouveaux designs, aux clients. À l'aide de données
historiques, nous prenons les décisions
et nous pouvons rendre nos stratégies stratégiques à la fois
robustes et plus accessibles D'accord, le rôle crucial de l'apprentissage automatique
dans la science des données. apprentissage automatique
est le sous-ensemble de IA qui se concentre sur le
développement d'algorithmes et modèles permettant aux ordinateurs
d'apprendre et de faire prédictions ou de prendre des décisions sans être
explicitement programmés Voici comment l'apprentissage automatique
améliore la science des données, l'analyse
des données et les prévisions. Les algorithmes d'apprentissage automatique
peuvent analyser de grands ensembles de données afin de découvrir des modèles, des tendances cachées et des relations fondamentales
entre les données Cette capacité est essentielle
pour établir des prévisions,
qu'il s'agisse de prévoir les ventes, de prévoir le taux de désabonnement des
clients ou même de diagnostiquer les chiffres.
Dans le domaine médical, apprentissage automatique
par prétraitement
automatique des données peut
automatiser les tâches de prétraitement des données
telles que les valeurs manquantes, l'
imputation, la
détection des valeurs aberrantes, la mise à l'échelle des fonctionnalités, ce qui permet aux data scientists de gagner du temps, de
gagner du temps et des
efforts L'ingénierie des fonctionnalités
peut aider à sélection des
fonctionnalités et à l'
ingénierie identifiant les variables les plus
pertinentes pour une modélisation, une
classification et un clustering productifs Les modèles d'apprentissage automatique tels que machines
vectorielles de soutien aux
dissidents les algorithmes de
clustering sont
largement utilisés en
science des données pour des tâches telles que segmentation des
clients et recommandation de classification d'
images.
Nous avons déjà parlé du système Nous avons déjà parlé recommandation de
films,
du système de recommandation de produits Ces systèmes de recommandation peuvent être très facilement améliorés
grâce au machine learning. collaboratifs de filtrage et systèmes collaboratifs de filtrage et de
recommandation basés sur le
contenu Les systèmes collaboratifs de filtrage et de
recommandation basés sur le
contenu sont basés sur l'apprentissage automatique, fournissant des
recommandations de personnages dans commerce
électronique et les
plateformes de contenu telles que Netflix, le langage
naturel, le langage
naturel, le traitement du langage naturel et les techniques de
traitement automatique du langage naturel Un sous-ensemble de l'apprentissage automatique
permet l'analyse des sentiments, classification
du texte et le développement de forums de
discussion Améliorer les données en générant des informations à partir de données textuelles et de visualisation
des données L'apprentissage automatique peut
aider à générer visualisation
des données
interactive et informative, rendant ainsi les informations complexes
plus accessibles. La synergie de l'IA et de l'apprentissage
automatique. Alors que la science des données
se concentre principalement sur l'extraction d'
informations à partir de données, l'
IA étend les capacités de l'apprentissage
automatique pour effectuer des tâches et nécessite généralement
l'intelligence humaine L'apprentissage automatique est le
moteur de nombreuses applications d'
IA, permettant à l'apprentissage automatique d' imiter les fonctions cognitives humaines Voici comment l'apprentissage automatique
comble le fossé entre science
des données et l'automatisation
basée sur l'IA. Les algorithmes d'apprentissage automatique
automatisent diverses statistiques et tâches allant de la reconnaissance
d'images dans les véhicules
autonomes à la traduction
linguistique
dans les forums de discussion. rendre les applications
d'IA plus efficaces et accessibles à l'aide de l'apprentissage
automatique,
comme dans le cas
des véhicules supposés
autonomes, lorsque nous pouvons entraîner le modèle, le cas
des véhicules supposés
autonomes,
lorsque nous pouvons entraîner le modèle, par exemple lorsqu'il voit le signal, nous pouvons alimenter l'image du signal, qu'il
soit rouge,
vert ou jaune. Sur la base du signe du signal, la voiture automatisée peut s'arrêter
lorsqu'elle voit le signal rouge. Il peut se déplacer lorsqu'il
voit le signal vert. Toutes ces choses que
nous pouvons entraîner à
l'aide de la personnalisation de l'IA L'apprentissage automatique permet aux systèmes d'
intelligence artificielle de fournir une expérience
personnalisée,
telle que du contenu personnalisé, des recommandations , des
campagnes marketing
personnalisées et même des plans de
traitement de santé. Analyse prédictive, j'ai piloté une analyse
productive basée
sur l'apprentissage automatique. organisations de santé anticipent le comportement des clients dans les
trains, pannes d'
équipement, ce qui permet une prise de
décision proactive. Nous pouvons effectuer une
analyse prédictive et deviner comment
circulent nos trains, quel est le
comportement des clients
et comment les clients
apprécieront le nouveau produit. décision améliorée, algorithmes d'apprentissage
automatique
aident le système d'IA à prendre des
décisions
éclairées en analysant vastes ensembles de données en temps réel, réduisant les erreurs humaines, traitant et en
comprenant le langage
naturel et en utilisant des modèles LP Un sous-ensemble de l'apprentissage automatique permet aux systèmes d'intelligence artificielle de
comprendre et de répondre à des applications utilisant le langage humain
,
telles que des pots à chat virtuels En conclusion, nous pouvons dire
que l'apprentissage automatique est
la clé de voûte qui
relie les ensembles de données et moi-même, transformant les données brutes
en informations exploitables Et permettre à un système d'
intelligence artificielle d'effectuer des tâches considérées auparavant comme rêve de l'intelligence humaine. Cela signifie que l'apprentissage
automatique jouera un rôle
crucial pour
intégrer
l'intelligence humaine aux machines plus tôt, des choses qui étaient
réservées aux seuls humains. Maintenant, c'est possible grâce à
l'apprentissage automatique, à la science
des données et à moi-même, nos machines peuvent faire le travail que
les humains peuvent faire avec une précision très précise. À mesure que la technologie
continue de progresser, la relation symbiotique
entre la science des données, l'apprentissage
automatique et l'IA
continuera de sauver notre paysage numérique et de stimuler l'innovation dans
divers secteurs Le rôle
de l'apprentissage automatique est essentiel pour
quiconque s'intéresse au monde dynamique et en constante
évolution des données et de
l'intelligence artificielle. C'est pourquoi la relation entre la
science des données, l'apprentissage automatique et l'IA doit être comprise pour acquérir des connaissances dans ce domaine. J'espère que vous avez compris quelle est la synergie entre l'IA et l'apprentissage, quel est le rôle de l'
apprentissage automatique et de la science des données. Nous nous retrouverons lors de la prochaine conférence, et nous discuterons d'
autres sujets concernant
l'apprentissage automatique. Merci.
123. Types d'apprentissage automatique: Bonjour et bon retour. Dans cette conférence, nous allons
apprendre les types d'apprentissage automatique, types d'apprentissage automatique. Nous allons le considérer comme un aperçu très
complet. Commençons dès maintenant. Nous avons les connaissances
de base de ce qu'est l'apprentissage
automatique, de son lien avec l'intelligence artificielle et la science
des données, en
général. Bien, révisons un
peu plus une fois de plus. L'apprentissage automatique, un sous-ensemble de l' intelligence
artificielle,
a transformé la façon dont les ordinateurs peuvent traiter informations et prendre des décisions Ce que nous avons compris, non ? Cela fait partie de l'intelligence
artificielle. Si vous regardez la situation dans
son ensemble, la science
des données est la solution globale. Sous cela vient l'intelligence
artificielle et en dessous vient
l'apprentissage automatique. Le deep learning, toutes ces choses. D'accord, l'apprentissage des scènes est un sous-ensemble de l'
intelligence artificielle Cela a transformé la capacité
des ordinateurs à faire fonctionner un être humain capable prédire les résultats comme un
humain et plus rapidement qu'un humain. C'est la transformation que l'apprentissage
automatique a apportée. Il est très facile de prendre
des décisions pour les entreprises en
traitant leurs données. Euh, algorithme d'apprentissage automatique créant des modèles puis
évaluant le modèle. Ensuite, ils prédisent, et
parfois ils prédisent 100 % d'une information correcte D'accord, les
algorithmes d'apprentissage automatique permettent au
système d'apprendre à partir des
données. Les données sont essentielles. Au cours des dernières conférences, nous avons compris en quoi les données sont la pierre angulaire de l'apprentissage
automatique, intelligence
artificielle et de l'écosystème global
de la science des données Tout dépend des données. Tout commence par
l'algorithme des données. Les algorithmes d'apprentissage automatique permettent aux systèmes, ordinateurs
ou aux
machines d'apprendre à partir des données et d'améliorer leurs
performances au fil du temps. Sans programmation explicite, vous devez programmer à chaque fois. Il vous suffit d'
entraîner le modèle. Et il commencera à tirer
des leçons des données et s'
améliorera en fonction du processus d'apprentissage
qu'il aura suivi. Il existe plusieurs types
d'apprentissage automatique, chacun adapté à des
tâches et à des applications spécifiques. Dans cette conférence, nous
explorerons les principales catégories de l'apprentissage automatique et
ses caractéristiques. OK, commençons. Il existe essentiellement sept
types d'apprentissage automatique. Le premier est l'apprentissage
supervisé, puis l'apprentissage non supervisé, puis l'apprentissage
semi-supervisé, puis l'apprentissage
approfondi par renforcement, puis l'apprentissage
autosupervisé et enfin l'apprentissage par
transfert Voici donc les sept types d' apprentissage
automatique que
nous allons apprendre. Tout d'abord, nous allons commencer par
l'apprentissage supervisé. L'apprentissage supervisé est un
apprentissage que nous pouvons associer à l'apprentissage en salle bleue en classe où un enseignant
supervisait notre apprentissage. Et il nous enseigne
avec les images, la vidéo, l'audio, les divers outils
pédagogiques qui enseignent l'apprentissage supervisé. L'apprentissage supervisé est
l'un des types
d'apprentissage automatique les plus courants. Cela implique un modèle d'entraînement sur un ensemble de données étiqueté où chaque point de données est associé à
la bonne cible de sortie. Le modèle apprend
à mapper les données d'entrée à la sortie correcte en
trouvant des modèles et des relations. Les principales caractéristiques de l'apprentissage
supervisé incluent. Avant de voir les
principales caractéristiques, laissez-moi vous dire
ce que cela signifie. L'apprentissage supervisé est le type
d'apprentissage automatique le plus courant. Dans ce que nous faisons, supposons que nous voulions entraîner notre système à reconnaître
les visages humains. Dans ce cas,
nous ferons bien données à l'
algorithme d'
apprentissage automatique ou au modèle avec des images, comme celles d'un humain. S'il s'agit d'une phase humaine, nous dirons que c'est une phase humaine. Si c'est autre chose,
nous dirons qu'il s'agit d'une phase animale, c'est une phase de dessin animé, d'accord ? Nous allons alimenter autant d'images et chaque image
sera étiquetée avec un nom. Il sera étiqueté, d'accord, s'il s'agit d'un visage humain, tous les visages humains
seront étiquetés, étiquetés avec un humain. Tous les chats, chiens, animaux et visages
d'éléphants seront étiquetés conformément à
leurs spécifications. OK, maintenant, lorsque nous
introduisons les données par le biais du modèle d'apprentissage
automatique, il verra, d'accord, c'est un visage humain, c'est visage
humain, c'est un rythme humain. Il reconnaîtra le
motif des visages humains et, en se basant sur les motifs qu'il voit sur les visages humains, il apprendra que
si ce visage apparaît, c'est un visage humain. Il voit également le motif d' autres images qui n'ont pas
de motif similaire
à celui des visages humains, il reconnaîtra, d'accord, ce motif appartient à un chat. Ce motif appartient
à l'éléphant. Ce motif appartient
aux singes. Ainsi, il commencera à
apprendre après la formation, lorsque nous alimenterons une nouvelle
image qui ne fait pas partie de cet ensemble de données
sans étiquette. Il exécutera les modèles et il correspondra au
modèle qu'il a appris. Quel que soit le schéma correspondant,
il indiquera que, d'accord, c'est le visage humain. Ou s'il s'agit d'un chat, il
dira que c'est un visage de chat. Sur la base des données d'
entraînement précédentes, reconnaissez le motif
d'une nouvelle image et vous obtiendrez le résultat, qu'il
s'agisse d'un visage
humain ou non. C'est ainsi que fonctionne l'
apprentissage supervisé. Il possède des caractéristiques clés, à savoir la classification
et la régression. Ce sont les deux termes très
importants dont nous
devons nous souvenir et dont nous
devons être conscients. Le premier est le classement. Classification dans une tâche de
classification, le modèle prédit une
étiquette ou des catégories discrètes Par exemple, classer les
e-mails comme du spam ou non du spam. Lorsque vous regardez le,
vous pouvez voir le courrier. Chaque fois qu'un e-mail arrive, automatiquement
classé comme spam. Il le mettra dans le dossier de
spam. Comment fonctionne-t-il ? Il dispose de certains
modèles d'
intelligence artificielle ou d'apprentissage
automatique
entraînés par le fil intelligence artificielle ou d'apprentissage
automatique
entraînés pour le courrier. Si l'e-mail provient de
ces domaines de mots clés, il sera classé comme spam. S'il ne figure pas dans la
liste de contacts du destinataire, il sera marqué comme spam. De nombreux e-mails
ont été envoyés en masse à partir de cet identifiant
de messagerie particulier cet identifiant
de messagerie particulier à des inconnus. Il sera alors
classé comme spam. C'est ainsi que fonctionne la tâche de
classification. D'accord, il y aura des catégories spécifiques
étiquetées spam,
spam North ou spam North. Alors que la région, les autres caractéristiques,
région par région, tâche. Le modèle prédit des valeurs
continues. Par exemple, prévoir le prix de l'
immobilier en fonction caractéristiques telles que
le
pied carré et l'emplacement En fonction du
pied carré et de l'emplacement, il prédira le prix de la maison. Lorsque nous alimentons les données, que nous nous entraînons, les données seront alimentées pour
ce domaine particulier. C'est sur cette base que le tarif de
localisation premium sera élevé. Chaque fois que vous installez un
nouvel emplacement avec les nouvelles dimensions de la maison en pieds carrés, vous pouvez prédire que, accord, cette maison devrait
avoir ce prix. Il s'agit de la région où proviennent
les données
numériques continues, où nous utilisons la régression, où les
données de classification proviennent des catégories, puis nous utilisons la classification. Ce sont les deux.
Tenez compte. Le prochain type d'apprentissage automatique est l'apprentissage
non supervisé Dans le cadre de l'apprentissage non supervisé, il traitera
les données non étiquetées L'apprentissage non supervisé
traite de données non étiquetées, où les algorithmes visent à
trouver des structures de modèles, des
groupements, au sein Il est utilisé pour des tâches telles que le clustering et la réduction de
dimensionnalité. Chacune des caractéristiques de l' apprentissage
non supervisé
inclut le
clustering, l'algorithme de clustering,
ce qu'il fait, il
regroupe les points de données similaires en fonction Par exemple, pour regrouper des clients ayant un
comportement d'achat similaire dans le cadre d' clustering marketing
ciblé supposons que vous disposiez
d'un site Web d'apprentissage Supposons que vous ayez un site Web
d'apprentissage en ligne où
la plupart des clients achètent
les cours et le marketing, tandis que peu de clients
achètent des cours
dans le domaine de la technologie. Ensuite,
le clustering permettra regrouper tous les
clients qui ont acheté les cours liés
au marketing auprès
d'un groupe en particulier Cela
les regroupera et la technologie permettra de
créer un autre cluster, nous aurons deux
groupes de clients. L'un s'intéresse aux cours
de marketing et un autre aux cours
de technologie intéressants. C'est ainsi, sur cette base, que lorsque le nouveau
client adopte un comportement, il le classe, il le regroupe dans un groupe
particulier. Vient ensuite la réduction de
dimensionnalité. Ces algorithmes réduisent
le nombre de caractéristiques
des données tout en préservant les informations
essentielles. Analyse des composants principaux. Le Pca est une technique courante de réduction de
dimensionnalité. Supposons que
notre ensemble de données comporte
autant de fonctionnalités et que cela devienne un point de données
inutile. Cela réduira le nombre de fonctionnalités disponibles dans
le jeu de données,
se concentrera sur les principaux mots clés et fonctionnalités et permettra
d'apprendre, d'accord ? C'est ce que l'on appelle l'analyse en
composantes principales, qui est la principale
caractéristique de votre ensemble de données. Quelle est la principale caractéristique
qui affecte la cible, affectant le
résultat que nous
trouverons dans l'analyse en
composantes principales, PCA Le suivant est l'apprentissage
semi-supervisé. L'apprentissage semi-supervisé combine des éléments d'apprentissage supervisé
et non supervisé Il exploite l'ensemble de données
avec une petite quantité d'ensemble de données
étiquetées et une grande
quantité de données non étiquetées Cette approche est souvent
utilisée lorsque l'obtention données
étiquetées est coûteuse
et prend du temps. D'accord, puis vient l'apprentissage
par renforcement. L'apprentissage par renforcement
consiste à former les agents à prendre des séquences de décisions
dans un environnement. Maximiser, dans un environnement, maximiser une récompense cumulée. Il est couramment utilisé dans
des applications telles que les jeux vidéo, la robotique et les systèmes
autonomes. Les principales caractéristiques
des renforts apprentissage
par renforcement incluent l'
agent et l'environnement L'agent interagit avec un environnement et
apprend en recevant des commentaires sous forme de
récompenses ou de politiques de punition Cette politique est la
stratégie ou l'ensemble de règles que l'agent suit
pour prendre des décisions. L'objectif est d'apprendre une politique
optionnelle qui maximise les
récompenses à long terme. Apprentissage profond. L'apprentissage profond est un sous-ensemble de l'apprentissage de base qui se concentre sur réseaux
neuronaux comportant de nombreuses
couches de réseaux neuronaux profonds Il a gagné en
attention et en popularité
ces dernières années en raison ses
performances exceptionnelles dans des tâches telles que la reconnaissance d'images et de reconnaissance
vocale. Les principales caractéristiques de l'
apprentissage profond incluent les réseaux neuronaux, les réseaux
neuronaux
artificiels composés de plusieurs couches de
nœuds ou de neurones interconnectés. Réseau
neuronal à convolution profonde CNN. Ce sont les RNN des réseaux
neuronaux récurrents des tâches de
reconnaissance d'images RNN des réseaux
neuronaux récurrents des tâches de
reconnaissance Ils sont utilisés pour des tâches de
données séquentielles
telles que le traitement du langage naturel
et l'analyse temporelle Sage Nous verrons en détail lorsque nous verrons deep learning, de l'apprentissage
autosupervisé. L'apprentissage autosupervisé est
une technique dans laquelle un modèle apprend à partir de données sans étiquettes fournies par
l'homme. Au lieu de cela, il génère des étiquettes
à partir des données elles-mêmes. Apprentissage supervisé, il
reconnaîtra un schéma. Les données seront étiquetées
comme phase humaine ou Caha. Il
étiquettera toutes ces choses par lui-même, souvent en créant une tâche de
substitution. Il s'est révélé prometteur dans divers domaines du traitement du
langage naturel, du traitement
informatique et des tâches informatiques. Vient ensuite l'apprentissage par
transfert. L'apprentissage
par transfert consiste à entraîner un modèle sur une tâche, puis à utiliser les connaissances acquises pour améliorer les performances d'une tâche connexe. C'est une approche pratique lorsque vous disposez de données limitées
pour une tâche spécifique. Aujourd'hui,
l'apprentissage automatique englobe un large éventail de
types et de techniques, chacun ayant sa force
et ses applications. Comprendre les types
de données est essentiel pour choisir la bonne approche face à divers problèmes du monde
réel. Alors que l'apprentissage automatique
continue son impact sur des secteurs
tels que la santé, la
finance, les systèmes
autonomes devraient augmenter, ce qui en fait un domaine fascinant
et dynamique à explorer et à maîtriser. Il existe de nombreuses
opportunités sur
le marché pour l'apprentissage automatique, les
ingénieurs, les data scientists, les ingénieurs en
IA et les analystes de données. Toutes ces choses se rapportent à ces choses et nous
pouvons apprendre beaucoup plus rapidement. Vous avez parlé de la prochaine
conférence.
124. Flux de travail d'apprentissage automatique: Et bon retour.
Dans cette conférence, nous allons découvrir le flux de travail d'apprentissage
automatique, la
façon dont nous traitons les données, comment nous partons des données et comment nous passons à
l'analyse des données. Commençons. Le flux de travail
d'apprentissage automatique est un outil puissant pour
visualiser les données. En fait, bonjour
et bon retour. Dans cette conférence, nous
allons découvrir le flux
de travail d'apprentissage automatique. flux de travail d'apprentissage automatique consiste à obtenir
les données, les
traiter, à appliquer les modèles d'apprentissage automatique et à tirer les
enseignements des données. C'est ce que signifie un
flux de travail d'apprentissage automatique lorsqu'il est recherché. Dans cette conférence, nous allons découvrir en détail le flux de travail de l'apprentissage
automatique. Commençons par le machine
learning, un outil puissant. L'apprentissage automatique est
un outil puissant qui a révolutionné notre façon de traiter données, de faire des prédictions
et de prendre des décisions. C'est
ce que nous avons appris lors des quelques conférences
précédentes Cependant, l'exploitation de
son potentiel nécessite une approche structurée connue
sous le nom de flux de travail d'apprentissage automatique Dans cet article ou
dans cette conférence, nous explorerons les
étapes clés de ce flux de travail, en soulignant les
étapes essentielles la transformation des données brutes en informations précieuses et
variables. La première étape est la collecte de
données. collecte de données
est à la base de l'apprentissage automatique ou de
la science des données , car tout
dépend du parcours des données. Commence par la collecte de données. L'étape consiste à recueillir
les données pertinentes à partir de diverses sources telles que des
bases de données, des API ou des capteurs. Il s'agit des points de données
où nous collectons les données. Une donnée a un impact significatif sur le succès de votre projet d'apprentissage
automatique. Faire de la collecte de données une tâche critique et souvent
chronophage. Comme vous le savez,
la plupart des data scientists
et analystes de données, ingénieurs en
machine learning,
travaillent la
plupart du temps environ 60 % du temps sur les données, 40 % du temps sur le code et créent des modèles, appliquent des algorithmes, évaluent le modèle,
etc., d'accord ? Mais 60 % d'une tâche consiste à travailler sur les données
et à les rendre exploitables Vient ensuite la collecte
des données. L'étape suivante est le prétraitement
des données. prétraitement des données
consiste à affiner les données brutes et à les
rendre exploitables Les données brutes sont rarement prêtes pour le
chargement automatique, car si vous avez collecté les
données à partir des sources, peuvent présenter de nombreux
problèmes Il y aura un
problème dans les données, il y aura des valeurs manquantes, valeurs dupliquées, des valeurs erronées, valeurs manquantes. Il y
aura tellement d'impuretés dans les données brutes. Il ne sera jamais prêt. Si vous travaillez sur ces données, vous n'obtiendrez pas le résultat
requis en
raison d'informations
manquantes et de données
mal renseignées Le traitement des données implique
le nettoyage, la transformation et la structuration des données afin de les rendre
adaptées à l'analyse principales tâches de cette phase incluent la
gestion des valeurs manquantes, suppression des valeurs aberrantes et
le codage des variables catégorielles L'étape suivante est l'analyse
exploratoire des données. En quelque sorte, nous l'appelons EDA. Il s'agit d'une étape très critique car à l'EDA, nous
comprenons les données. Avant de vous lancer dans la modélisation, il est essentiel de
comprendre vos données, bien les
comprendre. La compréhension des
données est très importante. Da implique la visualisation des données, calcul de
statistiques descriptives identification de modèles
et de corrélations Cette étape fournit des informations qui guident la sélection des fonctionnalités
et la création de modèles. L'étape suivante arrive, et elle s'appelle l'ingénierie des
fonctionnalités. Cela signifie que l'élaboration des fonctionnalités
informatives signifie si certaines informations
sont présentes et que vous pouvez vous baser sur
ces informations, vous pouvez créer une nouvelle fonctionnalité ingénierie des caractéristiques est
le est
le processus de
sélection, de création
et de transformation des
fonctionnalités, c'est-à-dire variables
d'entrée que le modèle d'apprentissage
automatique utilisera pour les prédictions. Il fonctionne essentiellement
sur les données d'entrée. Une ingénierie spécialisée des fonctionnalités
peut améliorer considérablement les performances du
modèle au fur mesure que vous
obtiendrez un modèle
amélioré. Le type suivant est la sélection
du modèle. Choisir le bon algorithme. La sélection de l'algorithme d'apprentissage
automatique approprié dépend du type de problème. Il s'agit d'une classification
ou d'une régression. Tout d'abord, vous devez décider quel type de problème
vous avez entre les mains. Ensuite, vous pouvez
choisir l'algorithme. Vous devez d'abord
déterminer s'il s'agit d'un problème de réplication classique ou d'un problème de régression en fonction de
vos données et de
leurs caractéristiques. Les algorithmes courants incluent les vectorielles de soutien aux arbres de
décision machines vectorielles de soutien aux arbres de
décision et les réseaux neuronaux. Vous
pouvez décider d'utiliser tous ces algorithmes en
fonction de vos données et votre classification
du problème. D'accord, le suivant vient après
la sélection du modèle. La prochaine étape est la formation des modèles. Tirer des leçons
des données de cet espace. Le modèle sélectionné est entraîné à l'aide de la
partie des données. Supposons que vous disposiez
des milliers de lignes de données. Que faites-vous des données, que prenez-vous ? 60 ou 40 % des données pour l'entraînement et les 60 % restants, vous les
conserverez pour les tests, la partie des
données que nous prélevons et nous
entraînerons notre modèle sur ces données. Ensuite, les
60 ou 40 % de données
restantes que nous avons conservées pour
les tests sur ces données, nous testerons le modèle. Le modèle apprend à reconnaître
les relations
et les amis présents dans l'ensemble de données d'entraînement. La formation consiste ensuite à ajuster
les paramètres du modèle
afin de minimiser les erreurs ou les
écarts par rapport aux résultats attendus. Sur la base de la formation que nous
donnons au modèle sélectionné, nous affinerons le paramètre
afin de minimiser les erreurs
ou les écarts par rapport au
résultat attendu , ce qui est très critique. Nous passons ensuite à l'évaluation du
modèle. Nous verrons quelle performance ou
quel résultat nous obtenons, ce que nous obtenons, puis
nous évaluerons notre modèle. Après l'entraînement, il est essentiel d' évaluer les
performances du modèle. Cela se fait à l'aide d'
un ensemble de données distinct, c'
est-à-dire le jeu de données de validation
ou le jeu de données de test, pour déterminer dans quelle mesure le modèle généralise les deux données invisibles Les indicateurs d'évaluation courants incluent la précision, raison, le rappel et le score F one. Il s'agit des mesures
d'évaluation, précision, du
rappel de précision et du score F. L'étape suivante est le réglage des
hyperparamètres, est-à-dire l'optimisation des paramètres du
modèle Les modèles d'apprentissage automatique
comportent souvent des hyperparamètres qui
ne sont pas appris pendant l'entraînement
, mais qui doivent être définis manuellement Le réglage des hyperparamètres
implique de rechercher la meilleure combinaison d' hyperparamètres pour optimiser
les performances du modèle Puis vient la dernière étape, à
savoir le déploiement du modèle en production, production ou dans le monde réel. Une fois que le modèle est jugé fiable et précis,
après avoir été testé, il peut être déployé dans un environnement
réel pour établir des prévisions ou
automatiser des décisions. Cette phase peut impliquer l'
intégration du modèle dans les systèmes
ou applications existants. Supposons par exemple que vous ayez mis en place un système
bancaire dans lequel vous décidiez quel candidat accorder le prêt et
lequel rejeter. Et vous avez développé un modèle d'apprentissage
automatique qui peut vous permettre de décider si vous êtes apte ou
non au prêt. Votre modèle donne jusqu'à 97, 98 ou 99 % de précision. Pendant les tests, vous
pouvez déployer dans l'environnement de production et y intégrer
les données utilisateur. Et sur la base de l'analyse
des données utilisateur issue de la
formation qu' il a suivie
pendant la formation du modèle, il peut analyser les données, les critères
financiers, etc. Et il peut décider si
nous pouvons accorder un prêt ou non. Ce sont les
choses que nous pouvons faire dans le cadre du déploiement du modèle. Ensuite, après le
déploiement du modèle, le travail n'est pas nul, nous devons surveiller et
maintenir le modèle. La maintenance est également
très importante pour succès à
long terme, car elle
peut donner un faux
négatif ou un faux positif. Nous devons surveiller de près toutes ces choses
pour nous assurer que notre modèle de système est nos algorithmes fonctionnent correctement et donnent des résultats
précis. Les modèles d'apprentissage automatique nécessitent une surveillance
et une maintenance
continues, distribution des
données évolue au fil du
temps Parce que
parfois, lorsque nous avons travaillé sur le modèle, nous avons
créé le modèle, l'ensemble de données ou les critères de support dans le secteur
bancaire. De temps en temps, vous recevez les
directives du gouvernement. Sur la base de ces directives, les critères peuvent changer. Nous devons donc continuer à
surveiller, euh, et nous devons continuer
à examiner les données et les résultats. La distribution des données
change au fil du temps. Les performances du modèle peuvent se dégrader car les critères
ont été modifiés Il peut donner de mauvaises sorties, nous devons
donc le surveiller. Mises à jour et reformations régulières. Lorsque quelque chose
change, nous devons
réentraîner le modèle en fonction
des nouvelles données afin qu' il puisse fonctionner sur les nouveaux critères
modifiés Des mises à jour régulières et une formation continue
peuvent être nécessaires pour garantir l'
exactitude continue du modèle Nous avons donc maintenant compris le
fonctionnement du flux de travail. Le flux de travail d'apprentissage automatique est une approche systématique visant à résoudre des problèmes du monde réel en tirant parti de la puissance des données. Il transforme les données brutes en informations
exploitables et systèmes
intelligents capables de
faire des prédictions
et de prendre des décisions Comprendre et
maîtriser ce flux de travail est essentiel pour les
scientifiques des données, les analystes ingénieurs qui souhaitent exploiter tout
le potentiel du Maine afin d'exploiter
tout le potentiel de apprentissage
automatique dans le monde
actuel axé sur les données À mesure que la technologie
continue de progresser, le
flux de travail d'apprentissage automatique jouera un rôle de plus en plus central dans divers secteurs,
stimulant l'innovation et la prise de décisions éclairées. J'espère que nous avons compris
le fonctionnement du
flux
de travail d'apprentissage automatique , de la collecte de données
au traitement des données,
en passant par l'analyse exploratoire , l'ingénierie des fonctionnalités ,
la sélection des modèles,
la formation modèles, l'évaluation des modèles, le réglage des
hyperparamètres, déploiement des modèles, la
surveillance et la maintenance Toutes ces étapes sont
cruciales pour la mise en œuvre réussie d' un modèle d'apprentissage automatique. J'espère que vous avez compris, nous nous retrouverons lors de la prochaine
conférence. Merci.
125. Principe GIGO: Bon retour. Au cours de cette
conférence, nous allons comprendre le concept
et le principe très importants qui sont largement applicables à
l'apprentissage automatique très vieux concept selon lequel les déchets
entrent dans le travail est un principe
utilisé dans l'industrie
du QI et des
logiciels depuis de nombreuses années Il est également applicable
dans le domaine de l'apprentissage automatique. Cela garantira que
la qualité des données est bonne et cela deviendra
le pouvoir de la qualité des données. Commençons. Les déchets entrent, sortent, partent Dans le
domaine de l'apprentissage automatique, un
principe fondamental est vrai, car nous savons tous que les déchets, déchets sortis sont un concept très
fondamental. C'est-à-dire, pendant de nombreuses
années, être à la poubelle, à l'extérieur. Cette phrase concise résume
un concept profond. La qualité des entrées
influence profondément la qualité des sorties produites par les modèles d'apprentissage
automatique.
Qu'est-ce que cela signifie ? Cela signifie que les données, les données que vous insérez dans les
modèles d'apprentissage automatique qui en résultent, si vous saisissez la qualité
de données précises et nettoyées, vous obtiendrez un résultat précis. Si vous insérez les données contenant des
déchets, des valeurs manquantes, des informations
erronées, d'autres choses, mauvaises valeurs manquantes, vous n'obtiendrez pas le bon résultat
requis. Les résultats que vous obtiendrez, les pauses que vous obtiendrez
seront très, très mauvais. Parce que tout
dépend des données que vous insérez dans le système et
qui en résultent. Vous allez entrer dans une ère
où les données règnent. Comprendre et
apprécier le principe suprême de Gig est une essence essentielle de Une
idée simple et profonde à la base. Le principe Gig nous rappelle que, quels que
soient le degré de sophistication
des algorithmes, la puissance de l'infrastructure
informatique ou les compétences
des data scientists, la valeur des résultats de
l'apprentissage automatique est liée à la qualité des
données introduites dans le système Qu'est-ce que cela signifie ? Cela signifie
que quel que soit l'algorithme, quel que soit l'algorithme
puissant, la quantité que vous
codez, la manière dont vous le rendez sophistiqué, l'
infrastructure informatique actuelle est puissante et le niveau de qualification
des data scientists, apprentissage
automatique, des ingénieurs en IA. Si les données ne sont pas bonnes, elles sont
toutes utilisées, car
si elles ne sont pas bonnes, votre data scientist qualifié, votre infrastructure et vos algorithmes ne fonctionneront pas correctement. Parce que tout
dépend des données. La base doit être solide, base doit être très bonne, alors vous pouvez faire pousser u. Si les graines ne sont pas
bonnes, de bonne qualité. Une plante ne peut pas pousser
de la même façon. Les données sont à la base de toutes les activités d'apprentissage
automatique. Avec de bonnes données, vous
obtiendrez un bon résultat. Vous en tirerez
une bonne idée. Vous obtiendrez de bons résultats. Vous en tirerez des
prédictions. Les données doivent être bonnes, puis l'algorithme
fonctionnera correctement, l'infrastructure de confort le
soutiendra, et le data scientist
sera en mesure de vous obtenir les meilleurs résultats
et les prévisions sur la
base desquelles vous pourrez prendre de
bonnes décisions commerciales. La qualité des données est
très importante. Sens de la clé. Imaginez
une voiture autonome naviguant dans la rue La ville à bord du véhicule s'appuie sur des capteurs et des
caméras pour la percevoir. Comme nous le
savons tous, les conducteurs autonomes voitures sans chauffeur fonctionnent
essentiellement sur les choses. Comment est-ce que je travaille ? Je ne travaille que sur l'appareil
photo, l'appareil photo, les yeux de l'humain pour la voiture
autonome. Et les capteurs sont
les organes sensoriels des voitures autonomes. Les capteurs, ce qu'il a reçu, les signaux et la caméra, ce qu'il voit, ce qu'il traduit et combinés ensemble. Et cela créera un environnement
permettant à la
carte de conduite cellulaire d'aller de l'avant. S'il voit un
signal rouge, il doit s'arrêter. S'il voit des obstacles à
l'avant, il doit s'arrêter. Hein ? C'est ce que font le signal, les capteurs
et les
caméras, non ? Si le A est défectueux. Supposons que
vous installiez les capteurs défectueux, que l'
appareil photo soit sale
ou que la
qualité de l'appareil photo ne soit pas S'il y a un signal rouge
et que la qualité de la caméra est de bonne qualité ou que l'appareil sale et qu'il n'
est pas visible correctement, il ne s'arrêtera pas, il
percutera le signal et cela peut provoquer un accident
mortel, Ainsi, les capteurs défectueux et l'appareil photo seront,
s'ils sont sales, données qu'elle collectera par
le
biais des capteurs
et de l'appareil photo seront inexactes
ou incomplètes,
incohérentes, et
elle prendra de mauvaises décisions à ce sujet Par conséquent, le processus
décisionnel de la voiture, tel que la détection des piétons la
reconnaissance des panneaux de
signalisation, est compromis. Dans ce scénario, même les algorithmes les
plus avancés ne peuvent pas résoudre le problème. C'est un exemple classique d'élimination
des déchets dans les poubelles. Si vous mettez des déchets,
vous les récupérerez. Si vous mettez en place les bons
capteurs, vous n'installerez pas
les bons appareils photo. Si le système ne reçoit pas bonnes informations via la
caméra et les capteurs,
les algorithmes et les
modèles d'apprentissage
automatique ne seront pas en mesure de
prédire quoi que ce soit de bon. Et cela provoquera une voiture
autonome
, un accident. Les bonnes industries. Voyons maintenant quel impact cela aura sur
les secteurs
dans lesquels les applications d'intelligence artificielle et d'
apprentissage automatique
seront utilisées dans
le domaine des soins de santé ou
du diagnostic médical. La précision et l'intégrité des données des patients sont primordiales si les données des
patients sont cruciales si elles sont rejetées
dans
le système impact cela aura sur
les secteurs
dans lesquels les applications d'intelligence artificielle et d'
apprentissage automatique
seront utilisées dans
le domaine des soins de santé ou du diagnostic médical. La précision et l' les données des
patients sont cruciales si elles sont rejetées
dans . Le plus important, antécédents
médicaux
mal étiquetés ou incomplets, peut
entraîner un diagnostic et une recommandation de
traitement incorrects Dans le cas de la finance,
les institutions financières s'appuient sur des données pour des décisions d'investissement
et ****** prennent des risques La mauvaise qualité des données peut entraîner des pertes
financières et des stratégies
mal informées Dans le cas du marketing, les campagnes
marketing reposent
sur des informations
basées sur les données destinées au public
cible. effet, des profils
clients inexacts
ou des informations périmées peuvent se traduire par des campagnes
inefficaces
et des ressources investies. Vous devez intégrer
les bons profils clients et les données dans le profil
client. Les
données du profil client doivent être très, très récentes
afin de pouvoir être facilement ciblées si une personne
souhaite
acheter une télévision et que cet intérêt
a été capturé il y a six mois. Et si vous appelez
ce client, d'accord, vous voulez acheter, acheter un téléviseur. Il pourrait alors dire que je cherchais un
téléviseur il y a six mois, mais maintenant j'en ai déjà acheté un. Votre
campagne marketing va entrer, vous devez appeler, le
client va entrer. Et si vous ciblez un client qui vient de commencer à
chercher le téléviseur et que vous avez obtenu les
données très récemment en 23 jours, il est peut-être toujours à la
recherche du bon téléviseur. Et lorsque vous appelez
ce client et que vous l'
aidez
à décider d'acheter un nouveau téléviseur, il se peut qu'il
finisse par vous acheter un téléviseur. C'est ainsi que se produit l'impact des déchets jetés
dans les poubelles. Les données doivent être récentes,
elles ne doivent pas être périmées, et elles doivent être exactes en termes de
recommandations commerciales en matière de commerce électronique. plateformes basées sur le comportement
des utilisateurs qualité des plateformes basées sur le comportement
des utilisateurs dépend des
données qui leur correspondent. données de faible qualité peuvent entraîner de mauvaises
recommandations de produits et une perte de cellules. Dans le cas du traitement du
langage naturel, des applications de
PNL telles que les
forums de discussion ou l'analyse des sentiments, la qualité des
données de formation a un
impact significatif sur la capacité des modèles à comprendre le langage humain et
à y répondre atténuant le
rôle de la qualité des données pour atténuer l'effet
de Gig et garantir l'intégrité des résultats de l'
apprentissage automatique, l'organisation doit donner
la priorité à la qualité
des données
et à
la manière dont elle peut établir des priorités en suivant des
étapes telles que la collecte des données, un
processus de collecte de données
rigoureux doit être mis en place, y compris des procédures de validation
et de nettoyage des données Lorsque vous collectez les données, vous ne devez pas
les collecter comme ça. Il devrait y avoir un processus
de collecte des données. Après la collecte
des données, il convient de les
valider et suivre les
procédures de nettoyage. Prétraitement des données Les données de
collecte de données doivent être traitées à l'aide de
diverses techniques telles que le traitement des valeurs manquantes
et la recherche des valeurs aberrantes Très critique dans le traitement
de nos données. Ensuite, la gouvernance des données, établissant le cadre de
gouvernance des données pour maintenir la qualité des données tout au long leur cycle de vie, est
très importante. La validation des données est une autre étape
très importante pour atténuer les difficultés liées
à la
validation et à la vérification régulières de l'
exactitude des données et de leur
cohérence, car
c'est très important Comme nous en avons discuté au
sujet de la perte de vente de téléviseurs, ces données n'ont pas été vérifiées, cela fait 67 mois que le client
a manifesté son intérêt. Cela devrait être très important. Nous devons valider vos données
, vérifier si elles sont récentes, si elles sont périmées, elles sont périmées, si
elles sont
cohérentes. Ensuite, les
boucles de feedback mettent en œuvre un mécanisme permettant de surveiller
et d'améliorer en permanence la qualité des données, la pertinence
continue des ainsi que la pertinence
continue des tâches à mesure que nous progressons dans le domaine des mégadonnées
et de l'apprentissage automatique exemple, nous sommes déjà allés
beaucoup plus loin et nous devons
maintenant mettre
l'accent sur le principe du Go. Le principe Gig
reste tout
aussi pertinent , car la qualité des données
restera la clé du succès et de
la
fiabilité des systèmes informatiques dans un monde où les
données sont abondantes, mais pas Adopter le
principe Guigo est essentiel pour exploiter tout le
potentiel de l' apprentissage
automatique tout en évitant les coûteuses et occupant du concert, vous devez être très prudent Et si vous vous occupez du travail, vous éviterez des erreurs coûteuses
et conséquentes En conclusion, le principe
de
Guigo rappelle la relation
symbiotique
entre la qualité des données et l'efficacité des systèmes d'apprentissage automatique En donnant la priorité à la
qualité des données, les entreprises peuvent tirer parti de la valeur de leurs
investissements dans l'apprentissage automatique, prendre des décisions
éclairées et garder longueur d'avance dans le domaine des données et du paysage Dans le monde de l'apprentissage
automatique, les données
de qualité
ne sont pas seulement un atout. C'est la base sur laquelle systèmes de
renseignement sont construits. C'est une
chose très importante à comprendre. Les données de qualité
ne sont pas seulement un atout. Des données de qualité sont nécessaires. Les données de qualité ne sont pas simplement
un ensemble ou une autre exigence. C'est
sur
cette base que nous créons tous ces systèmes d'IA, modèles d'apprentissage
automatique, modèles d'apprentissage
profond
, systèmes de recommandation, tous ces systèmes d'IA, modèles d'apprentissage
automatique, modèles d'apprentissage
profond
, systèmes de recommandation,
tous ces éléments sur lesquels nous allons
travailler et que nous allons utiliser Tout
dépend de la qualité des données. Les données sont le fondement et l'élément essentiel de l'écosystème de
la science des données. J'espère que vous savez comment
nous pouvons atténuer les difficultés et comment nous pouvons obtenir des données sur la qualité
des données pour nos modèles d'apprentissage automatique,
des données pour nos modèles d'apprentissage automatique Merci lors de
la prochaine conférence.
126. Algorithmes d'apprentissage supervisé: Bonjour et bon retour. Dans cette conférence, nous
allons en apprendre davantage sur l'algorithme
d'apprentissage supervisé. Ce sera la voie vers
des prédictions intelligentes
grâce à l'apprentissage automatique. Nous faisons des
prédictions intelligentes, non ? Commençons. Nous avons les connaissances de base
de l'apprentissage supervisé. Mais avant
de passer aux algorithmes, voyons quel est le concept fondamental
de l'apprentissage supervisé. L'apprentissage supervisé est
un concept fondamental dans le monde de l'apprentissage
automatique. C'est le rem, où les ordinateurs apprennent à partir de données étiquetées
pour faire des prédictions. Ou c'est le point
de départ des prédictions, non ? L'apprentissage
supervisé est une chose très fondamentale. C'est-à-dire que nous fournirons aux modèles d'apprentissage automatique
les données étiquetées et ces
algorithmes d'apprentissage
automatique par
le biais d'algorithmes d'apprentissage automatique le
type d'
étiquette des données. Sur cette base, lorsque
les nouvelles données seront disponibles, il analysera le
modèle appris
pendant l'entraînement, puis il
prendra la décision. OK ? Et elle sous-tend de nombreuses applications
dans notre vie quotidienne. Dans cette conférence, nous examinerons de plus près les algorithmes
d'apprentissage supervisé. Exploration de ce qu'ils
sont et de leur fonctionnement, ainsi que de quelques exemples courants
d'apprentissage supervisé. Qu'est-ce que l'apprentissage supervisé ? L'apprentissage supervisé
est le type d' apprentissage
automatique que nous avons déjà abordé dans
le cours précédent. Où l'algorithme est entraîné
sur notre ensemble de données étiqueté. En d'autres termes, les
données d'entrée sont associées à la bonne sortie ou à la bonne
cible, l'algorgate L'algorithme apprend à
associer les données d'entrée à
la sortie correcte, appuyant
efficacement sur les exemples. Ce processus d'apprentissage permet à
l'algorithme de faire des prédictions ou de prendre des décisions lorsqu'on présente de
nouvelles données invisibles Les mécanismes de l'apprentissage
supervisé. L'apprentissage supervisé
peut être
décomposé en quelques éléments clés. Le premier est celui des données, car
elles sont à la base
de toutes ces données issues de l'
écosystème de science des données , d'
IA et d'apprentissage automatique. L'ensemble de données d'étiquette sert de
terrain d'entraînement aux algorithmes. Il inclut à la fois des fonctionnalités d'entrée, par
exemple,
des variables d'attributs, toutes ces choses. Et les valeurs cibles correspondantes, par
exemple les étiquettes
et les catégories. OK, les données sont le point
de départ. Vient ensuite la sélection du modèle, un algorithme
d'apprentissage supervisé spécifique basé sur la nature
de votre problème. Les algorithmes courants incluent
la troisième décision, la région linéaire, la régression
logistique, machines à vecteurs de
support
et les réseaux neuronaux Ce sont tous des
algorithmes d'apprentissage
automatique que nous
appliquons à un modèle. Nous sélectionnerons en fonction de
la nature du problème
que nous allons résoudre. Entraînement. Pendant
la phase d'apprentissage, l'algorithme analyse
les données d'entrée, apprend à reconnaître le modèle disponible dans les
données, la relation. En outre, il analysera
ou décidera des limites. Et quelles sont les limites
définies pour la
prise de décision qui aboutira
au bon résultat. Il ajuste de manière itérative
ses paramètres internes minimiser les erreurs de prédiction Viennent ensuite les tests
et les évaluations. Après l'entraînement, le modèle est évalué sur un ensemble de données distinct qui n'est pas utilisé
pendant l'entraînement. C'est pourquoi nous divisons l'ensemble de données en
deux parties. Avant de passer à l'entraînement, c'est-à-dire entraînement et ensemble de données de test sur
ensemble de données d'entraînement, nous testons le modèle sur
l'ensemble de données de test. Nous le testons pour déterminer
sa capacité à se généraliser
à de nouvelles données invisibles Diverses mesures de performance
telles que la précision, la précision et le rappel sont utilisées pour le modèle
d'évaluation après l'entraînement Les tests et évaluations
constituent l'une des étapes les plus,
très importantes de l'apprentissage
supervisé. Maintenant, quels sont les types
courants d'
algorithmes d' apprentissage
supervisé que nous utilisons pendant l'apprentissage
supervisé ? Lorsque nous sélectionnons l'apprentissage, lorsque nous sélectionnons les données, nous sélectionnons le modèle, nous
sélectionnons l'algorithme. Quels sont les
algorithmes que nous utilisons ? Il existe un large éventail d'algorithmes d'apprentissage
supervisé, chacun adapté à différents
types de problèmes. Chaque algorithme travaillera sur chaque
problème, chaque problème. Nous aurons besoin d'une approche spécifique pour résoudre un problème
de la vie quotidienne. De plus, vous ne pouvez pas résoudre tous les problèmes
de la même manière. De même, dans
l'apprentissage automatique,
tout en utilisant l'apprentissage supervisé, nous ne pouvons pas résoudre tous les problèmes
par le biais d'un seul algorithme. chaque
problème spécifique, nous aurons besoin d' une méthode spécifique pour le
résoudre, n'est-ce pas ? D'ailleurs, il existe de nombreux algorithmes et en
fonction de nos besoins, nous pouvons choisir le mieux
adapté à notre problème. Et parfois, nous ne savons pas quel
algorithme fonctionnera. Dans ces cas, les data scientists appliqueraient trois algorithmes. Et ils analyseront le
résultat et les prévisions. Et la méthode la
plus courante pour déterminer le type d'
algorithme à utiliser dans notre modèle est celle qui donne les prédictions
les plus correctes . C'est la méthode la plus courante pour type d'algorithme
à utiliser dans notre modèle Voici quelques exemples notables,
comme la régression linéaire, l'un des algorithmes d'apprentissage
supervisé les plus populaires. Ensuite, la régression logistique, l' arbre de
décision est très important VM à vecteurs de soutien aux forêts aléatoires Les VM à vecteurs de soutien aux forêts aléatoires sont des réseaux
neuronaux très importants Et les K voisins les plus proches. Il s'agit de l'algorithme d'
apprentissage automatique
supervisé très
populaire algorithme d'
apprentissage automatique
supervisé que nous utilisons pour résoudre des problèmes. À l'aide de
l'apprentissage supervisé, quelle est régulation utilisée pour prédire les valeurs
continues dont nous avons également
parlé précédemment ? Hein ? Il existe deux
types de valeurs. Les valeurs continues, c'est-à-dire les valeurs numériques et
les valeurs catégorielles, où nous avons clairement défini les catégories
de données La régulation linéaire est utilisée pour prévoir des valeurs
continues Ici. Nous savons maintenant très clairement que chaque fois que nous avons des valeurs
continues, nous devons prévoir le
cours d'une action, prix d'un ensemble de choses où les
chiffres sont impliqués. Nous pouvons utiliser la régulation
linéaire. Nous pouvons considérer la
régulation linéaire comme l'un des algorithmes de
résolution de problèmes pour l' apprentissage
automatique utilisant l'apprentissage
supervisé. Régulation linéaire
utilisée pour prédire des valeurs
continues
telles que les prix de l'immobilier, fonction de caractéristiques telles que l'emplacement en pieds
carrés Il suppose une relation linéaire entre l'entité en entrée
et l'entité cible. Dans le cas de la prévision du
prix de l'immobilier, il s'agit d'une relation assez linéaire. Chaque fois que vous vous
rendez dans un endroit haut de gamme, vos prix seront élevés. Lorsque nous nous rendons dans les endroits les moins
économiques, le taux sera élevé. Si vous optez
pour un pied carré de surface de construction,
le prix de votre maison augmentera d' pied carré, moins le prix. Il s'agit d'une relation linéaire entre l'entité en entrée et
l'entité en entrée cible. Dans ce cas, selon une prédiction
interne c'est un pied carré de l'
emplacement de la maison, n'est-ce pas ? Qu'il s'agisse d'un pneu,
d'une ville à l'autre. Toutes ces fonctions sont la
fonction d'entrée et la fonction d'entrée. Nos prix augmenteront et baisseront. C'est une approche
que nous pouvons utiliser, la régulation linéaire
pour les valeurs continues. La logistique,
regationrimarilyedinaryssifbre, problèmes où nous avons une spécification très claire selon
laquelle il existe une situation par oui ou par non dans laquelle vous pouvez
dire oui ou
non ou vous pouvez classer en termes de spam par e-mail ou non problèmes où nous avons
une spécification très claire selon
laquelle il existe une situation par oui ou par non dans laquelle vous pouvez
dire oui ou
non ou vous pouvez classer en termes de spam par e-mail ou non de spam. Il y a des
classifications très spécifiques que
nous voulons faire. Soit nous voulons classer cet e-mail provenant d'une personne inconnue comme
spam ou non comme spam C'est ce qu'on appelle
la
classification binaire, les deux types de
classification que nous utilisons, spam ou non spam. Le binaire est très
clair et nous devons le
mettre dans l'une des
catégories, d'accord ? Dans ce cas, c'est un
spam ou non, d'accord ? En cas d'approbation du
prêt, prêt approuvé ou non,
approuvé ou rejeté. Dans le problème de demande de prêt, classification
est binaire : le prêt
sera approuvé, prêt rejeté,
approuvé et rejeté. Ce sera la classification
binaire. régulation logistique
modélise
la probabilité qu' une entrée appartienne
à une classe spécifique Le cours est un spam. Spam, OK,
Decision. La décision. L'algorithme polyvalent. Ils sont très
polyvalents et sont utilisés à la
fois pour la classification
et le regrationasketil Nous sommes une région linéaire et
une région logistique. Ainsi, cette région linéaire, région
linéaire que nous pouvons utiliser pour la régression
logistique des valeurs continues, nous pouvons l'utiliser pour
les problèmes de catégorie ou de
classification Mais parfois, les approches régionales
et logistiques linéaires
ne sont pas suffisamment
adaptées au problème Nous avons besoin d'une meilleure approche. Dans ce cas, la décision Rich
entre en jeu. Il s'agit d'un
algorithme très polyvalent et décent qui peut être utilisé à la fois pour les tâches de classification
et de région. Décision Créez une structure
arborescente pour les décisions et les résultats
en fonction de la fonction d'entrée. En fonction de la fonctionnalité d'entrée, vous obtiendrez une structure
arborescente. Sur cette base, vous pouvez
prévoir le résultat. Forêt aléatoire, forêt aléatoire Méthode d'exécution
Gimble qui combine plusieurs
arbres de décision pour améliorer précision et réduire les machines
vectorielles,
prend en charge les machines vectorielles Les SVM sont très efficaces
pour les tâches de classification. Sbm trouve l'
hypervoie optimale qui sépare le
mieux les points de données appartenant à différentes classes Dans ce cas, nous
allons classer l' ensemble
de données complet
en différentes classes Et SBM trouvera ligne
optimale de l'hyperplan qui
séparera les points de données appartenant à différentes classes
différentes Les réseaux neuronaux, l'apprentissage profond, les réseaux de
neurones alimentent
en particulier les réseaux de neurones et les réseaux de neurones
conventionnels. Les CNN sont des outils puissants pour
des tâches telles que la
reconnaissance d'images et de voix qui vont résoudre
un problème de reconnaissance d'images et de Nous devons traiter ces réseaux neuronaux dans un réseau neuronal profond. Nous avons également les deux approches. Deux approches font avancer le réseau
neuronal et le réseau
neuronal convolutif C'est N. Puis viennent les K voisins les
plus proches utilisés pour la classification
et la régression. Les deux problèmes peuvent être résolus en
n'effectuant pas de prédictions basées sur la classe majoritaire ou la valeur moyenne point
de données K le plus proche dans l'ensemble d'entraînement Il prédit les valeurs en
fonction de la classe majoritaire ou de la valeur moyenne du point de données K
le plus proche
dans l'ensemble d'apprentissage Certains exemples concrets, tels que les applications de l'apprentissage
supervisé en cas de diagnostic médical, la
prédiction du résultat G sur la base de données sur les
patients, comme le
dépistage du cancer, sont l'un des exemples de diagnostic
médical
que nous utilisons à l'aide de l'apprentissage
supervisé Sur la base des données des patients, nous prévoyons que, qu'
il s'agisse d'un cancer ou non, traitement du langage
naturel ou la PNL sont utilisés pour le traitement du langage naturel Nous utilisons l'analyse des sentiments, classification des
textes et
la traduction automatique. C'est également un exemple
d'apprentissage supervisé. Reconnaissance d'images,
identification des objets, des visages et des anomalies dans les
images et les vidéos, c'
est-à-dire reconnaissance d'images. Autre exemple d'
apprentissage supervisé, la notation de crédit, l'
évaluation de la
solvabilité des individus sur la base des données
financières et personnelles C'est également un exemple d' apprentissage supervisé qui est beaucoup
utilisé dans le secteur
financier accédant aux données
financières personnelles et
aux données personnelles pour définir sa solvabilité en
fonction de la cote de solvabilité Ils décident si la personne
est éligible à un prêt immobilier, prêt
personnel ou à un prêt
commercial ou non. Ensuite,
les systèmes de recommandation recommandant des films sur les
produits sont contenus en fonction des préférences de l'utilisateur C'est l'apprentissage
supervisé le plus utilisé de nos jours. Partout, nous voyons le système de recommandation,
que ce soit sur les sites de commerce électronique, Amazon, eBay, etc. Ils recommandent des produits basés sur le système recommandé et utilisent
en interne l'apprentissage
supervisé. Ensuite, les films,
Netflix, Hot Star, tout ce qu'ils
utilisent des systèmes de recommandation. Ensuite, le contenu basé sur la
clôture, comme les publicités Facebook, Youtube, les vidéos Youtube
basées sur vos références. Ce sont là les applications
réelles de l'apprentissage supervisé. Ce que nous pouvons maintenant citer
de cette conférence, c'est que algorithmes d'apprentissage
supervisé sont des heures de
travail consacrées à l'apprentissage automatique, permettant l'apprentissage informatique, permettant aux ordinateurs d'apprendre à partir de données
étiquetées et de faire prédictions avec
une précision remarquable. Les applications couvrent les secteurs, industries et les domaines, ce qui en fait un outil essentiel
pour extraire des informations, automatiser des tâches décisions basées sur les données
dans notre monde riche en données Alors que l'apprentissage automatique
continue de progresser, algorithmes d'apprentissage
supervisé
resteront la pierre angulaire de l'innovation et de la résolution de
problèmes dans les domaines de l'
intelligence artificielle et de la science des données. J'espère que vous avez découvert
les
algorithmes
d'apprentissage automatique à très grande échelle que nous utilisons. Et nous verrons dans la prochaine
conférence, dans la prochaine.
127. Régression linéaire: Bonjour et bon retour. Dans cette conférence, nous allons
découvrir la régression linéaire, qui est la base
de la modélisation prédictive. Commençons. Qu'
est-ce que la régression linéaire ? Avant cela, nous allons simplement
comprendre que la régression linéaire est la pierre angulaire de l'analyse
statistique
et de la modélisation prédictive, jouant un
rôle essentiel dans la compréhension relation entre les
variables et dans l'établissement de prévisions. Dans cette conférence, nous
aborderons le monde de la régression
linéaire. Exploration de ses principales
applications et de la manière dont il permet aux
data scientists de tirer
des informations précieuses des données région linéaire est très importante pour le data scientist ou même pour les ingénieurs en
apprentissage automatique, car avec la région
linéaire que
nous pouvons comprendre et prévoir, nous pouvons signer un modèle plus
productif. Bien, recommençons à
comprendre la région linéaire. Comme il est dit, la région linéaire est méthode
statique utilisée pour modéliser la relation entre une variable
dépendante appelée x, la variable dépendante souvent désignée par y, et une autre
variable indépendante, généralement désignée
x. Y sera la variable dépendante et
x sera la variable x sera OK, l'arion linéaire est
la méthode statistique pour définir la
relation entre la variable dépendante x
et la variable indépendante Y. Qu'est-ce que cela signifie
lorsque nous changeons le Comment le Y modifie-t-il
cette relation ? Nous essayons de trouver cette technique de
modélisation qui vise à trouver la régulation
linéaire la mieux adaptée qui décrit les
variables associées. Avec la régulation linéaire, nous essayons de trouver l'équation linéaire la mieux
adaptée qui peut définir
la relation entre x et y
lorsque x change façon dont Y modifie
cette relation. Vous essayez de définir par cette équation :
équation linéaire L'équation de régulation est désignée par
y. Nous voulons déterminer le y, son évolution en
fonction du x.
L' équation de régulation linéaire est bêta 0 plus bêta sur e
en x plus erreur OK, nous allons voir
quelles sont les versions bêta 0 et bêta et
quels sont les epsilon, il
s'agit en fait d'une s'agit en fait Maintenant, cette équation nous donnera la valeur y lorsque nous mettrons X bêta zéro et bêta
un plus erreur. OK ? Voici l'indépendant, Y est le dépendant, indépendant Y est la variable
dépendante ou la variable cible, d'accord ? La valeur que nous voulons
prédire en fonction du X, d'
accord, est la variable dépendante
ou la variable cible que
nous l'appelons, n'est-ce pas ? Ensuite, bêta zéro
est l'intersection représentant la valeur
de Y lorsque X est nul. Dans la prochaine leçon, dans la diapositive suivante, bêta un
est la pente indiquant
dans quelle mesure y change
pour un changement d'unité de x et epsilon
représente le Il s'agit du terme d'erreur expliquant
la variabilité y qui n'est pas expliquée par la régulation
linéaire avec x. Vous
voyez ici, c'est
la région linéaire, c'est la ligne de régression C'est le X qui est la variable
indépendante sur le X, X, c'est sur le y. X
change la façon dont Y change. C'est ce que nous
voulons prévoir ici, c'est ce que nous
voulons définir ici. Il s'agit d'une variable dépendante, c'est une
variable indépendante de X sur cette équation, bêta zéro plus bêta un dans x. Vous
voyez ici, le bêta zéro est
l'intersection indépendante Il s'agit de l'intersection où
il intercepte les yX. C'est ce qu'est la bêta zéro. Si vous considérez ce point ici, ce sera le bêta zéro, ce sera le bêta zéro. Et la bêta 1 sera la pente. Quelle est la pente ?
Pour l'axe X ? OK ? Dans quelle mesure x, y change
lorsque x1x change. Lorsque x change, quelle mesure Y change ?
C'est quoi ? Bêta 1. OK ? Ici, c' est le point réel et c'
est la ligne de dégradation ici Notre prédiction est celle-ci. Puisque x est appelé à un, nous obtenons y ici. Mais au point réel de notre
ensemble de données qui se trouve ici, cette distance entre
cette valeur prédite et la valeur réelle est appelée terme
d'erreur ou erreur, et désignée par cet
epsilon lorsque nous ajoutons bêta
zéro plus bêta un dans Un terme, on, on obtient
le point de réintégration, accord ? Tu as bien compris. C'est la ligne de réintégration et cette distance d'écran
s'appelle epsilon Et les points de taux sont les points de
données que nous avons, ces points de données, nous essayons de
trouver la meilleure ligne d'ajustement, c'
est-à-dire la
ligne de réintégration pour définir les relations entre
le x et
le y, d'accord ? Applications de la région linéaire. La régression linéaire
a de nombreuses applications dans
différents domaines. Comme en économie, les économistes
utilisent la régression linéaire pour analyser l'impact de variables
telles que les taux d'inflation, les taux
d'intérêt et les dépenses de
consommation sur indicateurs
économiques
tels que le financement du PIB. En finance, la régression linéaire permet de
modéliser les cours des actions, prévoir le rendement des actifs et facteurs de risque liés aux
actifs
influant sur l'investissement. Les portefeuilles d'investissement
dans le secteur
médical et les ressources médicales utilisent
une régression linéaire pour prédire les résultats du patient en fonction de facteurs tels que l'âge, la génétique et
le protocole de traitement. En marketing, les spécialistes du marketing
utilisent la régression linéaire pour évaluer l'efficacité
des campagnes publicitaires, analyser le comportement des clients, les
ventes, les sciences sociales Les spécialistes des sciences sociales appliquent une régulation
linéaire pour étudier des phénomènes
tels que les taux de criminalité, les résultats
scolaires
et les tendances protiques En ingénierie, les ingénieurs utilisent la régulation
linéaire pour modéliser propriétés
physiques
telles que la relation entre la température
et la résistance du matériau. Création et évaluation d'un modèle de régulation
linéaire. création d'un modèle de
régulation linéaire implique les étapes suivantes. Collecte de données,
la première chose est collecte de
données a rassemblé
l'ensemble de données qui comprend variable
indépendante y et une autre variable
indépendante X, les variables indépendantes X et y, nous avons besoin de cette collecte de
données. Ensuite, l'exploration des données, l'
exploration des données, l'utilisation de statistiques descriptives et visualisations pour mieux
comprendre la relation
entre les variables Puis vient le cintrage du modèle. Utilisez un logiciel de statistiques. Utilisez un logiciel statistique
ou un langage de programmation tel que Python ou R pour créer un logiciel de régénération
linéaire, estimer la valeur
de bêta zéro et de
bêta un qui correspond le mieux aux L'évaluation du modèle
est l'étape suivante permet d'accéder aux
performances du modèle à l'aide de matrices. Des métriques telles que le coefficient
de détermination, quadratique moyenne
R au carré
ou l'erreur quadratique moyenne des racines, RMSC Ces mesures quantifient dans
quelle mesure le modèle s'adapte aux données. Interprétation, interprétez
les coefficients bêta zéro et bêta un Pour comprendre la force et l'orientation de la relation entre
les variables de prédiction, utilisez le modèle de tendance pour faire prédictions pour les
nouveaux points de données. Quels sont les défis
de cette région linéaire ? Bien que la région linéaire soit un
outil polyvalent et puissant, elle présente des limites. Cela suppose qu'un temps linéaire n'est pas toujours vrai
dans les scénarios du monde réel. De plus, il se peut qu'il ne capture pas relations
complexes ou non. En conclusion, la régulation
linéaire est une
technique fondamentale dans le monde
de la statique et de la modélisation
prédictive Sa simplicité, son interprétabilité
et son large éventail d' applications en
font un
outil essentiel pour extraire
des informations précieuses des données Et
prendre des décisions éclairées dans divers
domaines et industries. Bien que cela serve de tremplin pour aller de l'avant, passez aux techniques de
modélisation avancées. La maîtrise de la régulation linéaire est une compétence fondamentale pour tout
data scientist ou analyste Nous avons compris les principes de base de régression
linéaire et nous avons compris quelles la régression
linéaire et nous avons compris quelles
sont les applications
pour la région linéaire, comment nous construisons un modèle de
régression linéaire et quels en sont les défis. Lors de la prochaine conférence, nous essaierons de faire la région en utilisant
notre programmation, voir dans la prochaine conférence.
128. Régression linéaire dans R: Bonjour et bon retour. Dans la conférence précédente, nous avons découvert en détail
la régénération linéaire Nous avons compris le
concept en théorie. Nous allons maintenant donner un exemple simple de régression
linéaire et
voir comment implémenter la région linéaire à l'
aide de la programmation R. R propose une large
gamme de packages et de fonctions pour l'analyse de
régénération linéaire Ici, je vous donne un
guide pour effectuer une région linéaire étape par étape à
l'aide de la programmation R. La toute première étape devrait
être la préparation des données. Car les données sont à la base de
tous les signes de données, de l'apprentissage
automatique, des visualisations de données, l'apprentissage
profond, de tout ce qui
touche à la science des données La première étape est la préparation
des données. Les données sont très importantes. Pour cela, nous allons utiliser fichier
CSV qui contiendra
un ensemble de données très simple. OK ? La première étape consiste à
préparer votre bande, préparer vos données, charger vos données dans R. Ensuite, elle doit être
très formatée, elle doit contenir
des variables dépendantes et
indépendantes D'accord, nous utilisons ici des données, CSP que j'ai chargé En utilisant le fichier re
dans R, nous chargeons tous. C'est une fonction qui nous
permet de lire les données, accord. À partir d'un fichier CSV, je
crée une variable ici, les données. Et j'utilise le fichier CSV pour lire les données de ce fichier, et je stocke le
résultat dans les données. OK, allons-y. OK ? Je vais vous fournir le fichier
CSV de données. Vous pouvez le télécharger depuis le cours et vous
pouvez l'utiliser, d'accord ? Vous devez placer le CSP de données dans le
répertoire de votre projet afin qu'il lise correctement et donne le chemin complet vers ce répertoire Et ça va se lire, d'accord. Sinon, cela
donnera le mauvais chemin. Cela vous enverra le message d'erreur. OK, un fichier, pas un, juste toutes ces
erreurs que vous allez avoir. Ensuite, nous verrons
ce qu'il y a dans ces données. Nous utiliserons la
tête fonctionnelle de tête et nous transmettrons les données de cet objet. Et puis, lorsque nous l'
exécutons, nous pouvons voir que notre ensemble de données un ensemble de données assez simple
contenant x et y. X est la
variable indépendante et Y est la variable dépendante basée
sur x. Y change ici. OK, pour chaque x, nous allons tracer y et essayer
de trouver une région linéaire. La ligne de régression indiquera laquelle représentera cette
relation entre x et y. Elle conviendra le mieux à tous
ces points, points, Sur cette base, si vous donnez une autre valeur x qui n'
est pas présente dans le, elle prédira
la valeur y, d'accord ? Ensuite, il y a le modélisme. Pour cela, nous allons
utiliser la fonction LM. Fonction L pour le modèle
linéaire. OK ? Lm signifie modèle linéaire. Il s'agit de la fonction Lm
que nous allons utiliser pour la régression linéaire ou pour
créer le modèle linéaire. OK ? Elle est écrite sous fonction
L M LM que nous avons utilisée pour construire un modèle de
régression linéaire. Dans cet exemple, nous allons prédire la
variable dépendante y en fonction la variable indépendante x. Bien, pour créer un modèle de
régression linéaire, nous allons créer un objet de
modèle ici. Ensuite, nous utiliserons la
fonction L M et nous dirons que X, Y dépend de x données que les
données fourniront sous forme de données, objet de
données que nous
avons créé ici. OK ? Les données sont égales
aux données et Y dépend de x.
Maintenant, exécutons-le. Cela créera notre modèle. Je veux maintenant voir le
résumé de notre modèle. OK ? Pour cela, nous pouvons utiliser la fonction de résumé et transmettre cet objet modèle
ici. Exécutons ça. Voici le résumé
de notre modèle. Vous pouvez voir ici
la moyenne résiduelle, médiane et le premier quartile Troisième quartile et valeurs
maximales, d'accord ? La valeur maximale est 24,469 OK. Ensuite, nous pouvons voir le coefficient erreur type
estimée et la valeur R. D'accord ? Toutes les interceptions, tout ce que vous pouvez voir,
voilà ce qu'il faut. Nous verrons comment il suffit de
regarder les choses et nous
verrons comment nous pouvons les déterminer en
fonction de cette lettre correspondant au
premier quartile, au
troisième quartile et aux valeurs
maximales atteints troisième quartile et aux valeurs
maximales OK, la prochaine étape est l'évaluation
du modèle. Vous pouvez maintenant évaluer les
performances du modèle en examinant
les statistiques récapitulatives, y compris les valeurs du
coefficient
R au carré. La prochaine étape est celle des prédictions. Nous allons utiliser la fonction de prédiction
pour faire des prédictions. Avec votre modèle, vous pouvez spécifier une
nouvelle valeur x qui n'est pas présente dans le jeu
de données que nous voulons. Prédisez la valeur y ici. Nous allons créer un
nouvel objet ici, nouvelles données de soulignement ici Je vais utiliser le bloc de données ici, x. Je vais nous fournir des valeurs de
102030 x. Je donne ici trois valeurs. Je donne 1 020,30 Pour
ces trois valeurs, je veux prédire pour
dix, quel sera le y ? Pour 20, qu'est-ce qui le fera, et pour 30. Ensuite, j'utiliserai les prédictions. OK, je vais utiliser la prédiction. Je vais enregistrer les nouvelles valeurs
dans les prédictions. Et j'utiliserai la fonction de prédiction 2 du
modèle de prédiction, les valeurs y basées
sur la valeur x. Pour cela, je vais utiliser notre modèle
que nous avons créé ici. OK, dans la fonction alun,
nous avons créé ce modèle. Je vais utiliser ce modèle pour
prédire les valeurs. Je vais passer le modèle
pour prédire la fonction. Et les nouvelles données sont équivalentes
aux nouvelles données de soulignement. Les nouvelles données de soulignement que
nous transmettons sont vectorielles X. OK ? Ce vecteur
transmettra ces nouvelles données. Cela nous donnera maintenant les
nouvelles valeurs prédites. Bon, maintenant nous avons
les prédictions. Imprimons les prédictions
ici. Faisons-le. Voyons que nous pouvons voir maintenant
que nous pouvons voir la valeur de
prédiction 22,8 pour 102 035,5 et 48,5 30 Permettez-moi d'en
tenir compte pour
que nous puissions voir le
résultat ici même Voyez ici. Nous obtenons maintenant
les trois valeurs de y x. Lorsque x vaut dix,
nous obtenons la valeur y, nous obtenons la valeur y, 22,78. Lorsque vous
regardez les données ici, il n'
y en a pas dix, n'est-ce pas Non 2030. Mais tu vois un 38. Pour 38, c'est 56. 30 c'est correct, non ? Pour 20, nous obtenons 35,65
Pour dix, nous en avons 22. Nous allons maintenant le visualiser
en le traçant. Nous utiliserons la fonction plot, les x
et les y, et nous
donnerons le
titre sous forme de région linéaire Xlab
et Ylab Alta Essayez de tracer la ligne de région
linéaire l'aide
de la fonction Able. Pour que la fonction Able trace
la ligne de régression Alec,
nous utilisons le modèle que nous avons
créé et nous spécifierons la couleur comme
regrlineilllottdlt'seeeow'etlegrelinere nous utilisons le modèle que nous avons
créé et nous spécifierons la couleur comme
regrlineilllottdlt'seeeow'etlegrelinere , nos modèles de régression linéaire. Maintenant, lorsque vous pouvez prédire
n'importe quelle valeur de x ici pour 30, ce sera la
valeur de y pour 35. Ce sera l'interception. Lorsque vous placez une ligne d'ici à ici et là où elle se croise, ce sera la valeur
prévue, 50 pour toutes ces choses. Certaines valeurs sont
éloignées d'ici,
de cette ligne rouge
à la distance qui sera parcourue par ce point. C'est ce qu'on appelle une erreur, non ? Epsilon que nous avons vu
dans notre partie théorique, non ? La distance entre le point
et la droite de régression, epsilon ou erreur, d' C'est ainsi que nous pouvons utiliser la région linéaire
pour prédire la valeur. Maintenant, si vous prenez des
valeurs x et que vous passez par ici, vous trouverez la valeur y sur cette régression, les valeurs
prédites OK, la région linéaire est désormais un outil puissant
pour l'analyse
et la prévision des données , ainsi que pour la modélisation
prédictive Avec R, vous pouvez facilement
effectuer des opérations linéaires, évaluer la relation entre
les variables et faire des
prédictions en fonction de votre modèle. Nous y avons vu l'
introduction aux informations de base sur la région linéaire, mais il reste encore beaucoup à
explorer, notamment la gestion des diagnostics du
modèle de colinéarité de
Monte et les techniques de régression avancées La régression linéaire n'est qu'une facette du riche paysage de l' analyse
statistique
et de l'apprentissage automatique lequel nous pouvons faire bien
plus encore Nous verrons
également quelques autres exemples de régression linéaire. J'espère que vous avez appris
comment créer le modèle de région linéaire et comment nous pouvons prédire les valeurs. Comment pouvons-nous tracer une
droite de régression ici pour prédire les valeurs voir dans la prochaine leçon
129. Prédire la taille d'une personne à l'aide de la régression linéaire: Bonjour et bon retour. Dans la conférence précédente, nous avons vu comment
créer un modèle de fouille linéaire, accord, pour prédire
les valeurs Y en fonction du X. OK, ici X était la variable indépendante et Y était la variable dépendante. Nous allons maintenant faire un pas de plus, un petit pas vers le fils. Dans cet exercice,
nous allons essayer de prédire la taille
d'une personne en utilisant le degré linéaire. En utilisant notre programmation, bien sûr. OK, tout d'abord,
lorsque vous travaillez sur un projet, vous obtenez le véritable jeu de données. Ici. Ce que je fais, je n'
utilise pas les données du monde réel. Au lieu de cela, je génère
un ensemble de données synthétique. La plupart du temps, nous obtenons
les données en temps réel. Mais pour la pratique et pour
tout le monde,
nous ne pouvons pas à chaque fois travailler sur un très
grand ensemble de données, n'est-ce pas ? Dans ce cas,
nous créons notre propre jeu de données, d'
accord, avec les valeurs aléatoires, et nous essayons de créer des
modèles et de travailler dessus. D'accord, plus tard, nous
implémenterons la même chose en utilisant
les données du monde réel. Pour cet exemple,
je vais utiliser ensemble de données
synthétiques avec des valeurs d'
âge allant 18 à 65 ans. Nous aurons
les valeurs d'âge pour les personnes de 18
à 65 ans OK ? Ensuite, nous allons créer les valeurs de
hauteur correspondantes en utilisant une relation linéaire. OK, nous allons d'abord
créer une valeur d'âge, 18-65 ans. Pour chaque valeur nous essaierons de créer un
support de taille correspondant à 18 ans, personne aura la taille, 19 ans, un site comme ça OK. Nous allons créer une taille
correspondante aléatoire pour la personne d' un âge donné en utilisant une relation
linéaire. Ensuite, nous ajoutons du bruit aléatoire. Toutes les données ne
seront jamais parfaites, est-ce pas, il y a du bruit dans les données. Il y aura des
irrégularités dans les données. Nous allons ajouter du bruit aléatoire pour
simuler avec l'ensemble de données du monde
réel. Parce que dans le jeu de données
du monde réel, nous n'aurons jamais
les bonnes valeurs, bruit se répercutera
sur l'ensemble de données. Il faut qu'il y ait de l'
ambiguïté dans notre ensemble de données. OK, nous allons créer
cette ambiguïté en utilisant le bruit aléatoire pour simuler les données
du monde réel Nous créons une trame de données appelée data à partir des variables H et
height Ensuite, nous allons effectuer un
grationUsingLMFunction linéaire, où nous prédisons la hauteur
H Nous résumons le
modèle régional à l'aide d'un modèle de synthèse. Nous avons fait tout cela
dans l'exercice précédent comme nous le ferons ici, mais dans une
perspective différente, n'est-ce pas ? Le résumé, nous allons utiliser le résumé pour résumer
notre modèle de réintégration Et nous allons passer
ce modèle que nous avons créé lors la fonction Lm et nous
verrons les flics et les statistiques Nous prédisons
la hauteur pour une nouvelle valeur H. Une fois
que nous aurons créé un modèle, nous ferons
passer une nouvelle valeur d'âge, supposée 30
ou 35 ans, et nous essaierons de prédire
la taille en fonction de l'âge. Pour cela, nous allons utiliser
la fonction de prédiction. Enfin, nous allons
imprimer et visualiser la régression linéaire, d'accord ? Prédisez la hauteur et visualisez également
cette droite de régression. Bien, commençons
par la première chose que
nous allons faire générer un jeu de données synthétique. Pour cela, j'utilise le set 123. Ce qu'il fera, il définira les paramètres de
reproductibilité, À chaque fois, il produira
les mêmes données de configuration. OK ? Ici, on prendra
de 18 à 65 ans. Ici, il sera âgé de 18 à 65 ans. Ensuite, pour la hauteur, je ferai 15150 une ligne
de base minimale Les gens en auront 150, d'accord. Hauteur, 150 centimètres. Nous aurons alors le
plus 0,5 dans H ici. Nous allons utiliser la
fonction de norme ici. Nous donnerons la longueur de H, puis nous utiliserons la moyenne zéro
et l'écart type cinq. Cela générera la
taille synthétique pour chaque âge. OK, on y est, on
passe le H ici. OK, allons-y. Nous avons maintenant créé
le jeu de données synthétique. Maintenant, ce que je vais faire, c'est
créer un dataframe. Je vais stocker dans le bloc de
données une valeur égale à h et une hauteur égale à une hauteur. Cette hauteur, d'accord, est égale
à h est égale à ceci. OK, exécutons-le également. Nous allons maintenant voir le jeu de données, ce que nous avons créé. Exécutez ceci, voyez ici maintenant pour 18. La hauteur aléatoire. Nous le
générons depuis 1920 ans. Ça, d'accord. Nous avons maintenant
le jeu de données entre nos mains. Ensuite,
nous allons créer un
modèle d'agrégation linéaire pour cela. J'utiliserai un modèle variable
ici et j'utiliserai la fonction LM pour créer
notre modèle d'action linéaire. Ici, je vais donner la hauteur, la
hauteur en tant que valeur que
vous voulez prédire que variable dépendante et
en tant que variable indépendante. Et les données sont égales aux données. Créons ce modèle en
exécutant ce morceau de code. Maintenant que c'est créé,
laissez-moi le supprimer. OK. C'est ce que j'ai fait plus tôt. OK, maintenant notre modèle est prêt. Notre modèle est maintenant prêt. Voyons maintenant le
résumé de notre modèle. Ici, vous pouvez voir toutes
ces valeurs, ces coefficients et la valeur de la valeur de l'ère standard,
toutes ces choses, d'accord ? Nos valeurs au carré. OK, ce que je vais faire maintenant, est
que le modèle est
prêt. Je veux prédire l'âge
d'une personne de 30 ans. Pour cela, je vais créer
une nouvelle ère variable. Et je vais utiliser la fonction
dataframe du bloc de données ici. Je vais passer le cap des 30
, puis je prédis la hauteur. Je veux prédire la taille
de cette personne de 30 ans. Je vais utiliser la fonction de prédiction. Sur quelle base je vais le prévoir. Je vais utiliser le modèle pour
prévoir la hauteur. Je vais transmettre ce
modèle que nous avons créé ici en utilisant la fonction LM. OK ? Et les nouvelles données sont
synonymes de nouvelle ère ici. Je passerai le nouvel âge à 30 ans. Je passe cette variable
qui contient la valeur. OK, allons-y. Maintenant, ce que je vais faire, essayer d'imprimer la hauteur
prévue. Nous avons obtenu la hauteur prévue. Si vous voyez ici, la hauteur
prévue est correcte. Laisse-moi courir. Cette taille prévue pour une personne de 30 ans est 165,29 De cette façon, nous
avons prédit la taille de la personne de 30
ans Si vous avez les données en temps réel, vous pouvez les utiliser ici. OK ? C'est vrai. Ensuite, vous pouvez le prévoir.
Maintenant, permettez-moi de mettre une autre
valeur, comme je veux utiliser données d'une personne âgée de 49 ans. Il y en a maintenant 165. Voyons quelle
sera la valeur pour 49, pour une personne de 49 ans, la taille sera de
174,84 8 174,47 C'est donc la hauteur prévue. De cette façon, nous pouvons
prévoir la hauteur. Tracons maintenant la ligne de
régulation ici. J'ai écrit un bout de code dans lequel si vous n'avez pas
installé le GG plot 2, vous pouvez écrire ce code. Qu'est-ce que cela fera si c'
est GG plot qui est requis, il installera le package
et utilisera la bibliothèque, d'accord ? Et s'il est déjà là, alors c'est bon, il l'
utilisera. OK. Ensuite, nous utiliserons ici la fonction de tracé G GG.
Je vais transmettre les données. X sera le H et le y, x sera la hauteur
et le point de départ, méthode
gomo LM, couleur bleue pour la ligne de régression et tous ces en-têtes,
vous savez, non ? Le minimum que nous avons
vu dans la section du diagramme GG. Le nouveau bloc de données est égal à 30 et à la hauteur prévue.
Je vais utiliser le modèle. OK, alors on l'imprime. OK, allons-y. Voyons voir ici. Ici
aussi, nous obtenons la taille d'une personne de
30 ou 30 ans. Et vous voyez ici que nous obtenons
la droite de régression. Ici aussi, la régression
permet de prédire la taille en fonction de l'âge. Il s'agit de l'âge de l'axe X
et de la taille Pour chaque âge, vous obtiendrez un
point sur la droite de régression. Ce sera le montant prévu pour
le soutien pendant 52 ans. Il viendra ici, ce
sera la taille, 52 ans, la personne 62 ans. Il viendra ici
comme ça, d'accord ? Je vais venir ici comme ça, d'accord ? De cette façon, nous pouvons prévoir
ici si vous le souhaitez, vous pouvez donner n'importe quoi et
cela prédira. J'espère que vous avez compris la régression linéaire et que vous vous
retrouvez dans la prochaine étape.
130. Régression logistique: Bonjour et bon retour. Dans cette conférence, nous allons en apprendre davantage sur la région logistique. Nous allons comprendre quelles sont
les mathématiques qui sous-tendent
cette méthode mathématique qui sous-tend la classification
en utilisant la région logistique. OK, alors commençons. La régulation logistique est une méthode statistique
puissante utilisée pour les
tâches de classification binaire telles que la détection de spam Comme nous pouvons le voir, le courrier électronique utilise cette
classification du courrier électronique, par exemple, lorsque vous recevez le courrier électronique, il le classe
comme authentique ou comme spam. Donc, tous les
e-mails de spam iront dans
les dossiers de spam, non ? C'est donc un exemple de régulation
logistique ou de classification
binaire Diagnostic médical,
qu'il s'agisse d'un ou de plusieurs chiffres spécifiques ou de
ce type de classification. Nous pouvons également le faire.
La classification de la bande passante est également l'évaluation des risques lors de l'
octroi du prêt ou de la carte de crédit. Les banques et les
institutions financières évaluent le risque de crédit en fonction de l'adéquation, approbation
ou du
rejet, d'accord, pour déterminer si le prêteur sera en mesure de rembourser
l'argent ou non Malgré son nom, il ne s'agit pas d'une régression au sens traditionnel
du terme, mais d'un algorithme de classification. Bien que le nom soit
régression logistique,
il ne s'agit pas en fait d'une régression
au sens traditionnel du terme, mais d'un
algorithme de classification Dans cette conférence, nous
explorerons les principes fondamentaux de régression
logistique, les
mathématiques, les fondements et les applications du monde réel où nous pouvons tous utiliser la régression
logistique pour
comprendre la classification binaire comprendre En
classification binaire, nous traitons des
problèmes où l'objectif est d'attribuer des observations à une ou deux classes
ou catégories. Par exemple, il s'agit de classer les e-mails comme du spam ou non, prédire si un
client abandonnera ou restera, c'est entreprise de télécommunications qui détermine
si
le résultat d'un test médical
est positif régions logistiques nous aident à
résoudre ces problèmes en
modélisant la probabilité
qu'une observation appartienne à une classe particulière. Des choses comme
le spam ou non. Test médical, test sanguin une maladie particulière
est positive ou non, comme dans le cas du covid, il était positif
ou négatif au covid. classification binaire
et cette régression logistique
nous aident à résoudre de
tels problèmes en modélisant la probabilité
qu'une observation appartienne à une classe particulière fonction de région logistique est au cœur de la région
logistique. Et la clé de régression
logistique réside
dans la fonction logistique,
également connue sous le nom de fonction sigmoïde Cette fonction sigmoïde est très importante dans une région logistique, qui fait correspondre n'importe quelle entrée
à une valeur 0-1
0,1 dans 0-1 qu'elle cartographiera 0,1 dans 0-1 qu'elle La
fonction de région logistique est définie comme p de y égal à un égal à un par un plus e à la puissance moins le bêta
zéro plus le bêta un dans x. Vous vous souvenez de ce bêta
zéro plus le bêta un dans x. Nous l'utilisons dans l'équation
linéaire, mais ici, la formule
a changé Il est égal à un, y plus e à la puissance moins bêta zéro
plus bêta un dans x p de y. égale à un est la probabilité à laquelle l'
observation appartient plus un Ici, cela signifie que
cela donnera la probabilité que l'
observation appartienne à une classe sur e.
Cette formule donnera la probabilité que bêta zéro soit interceptée, comme nous l'avons déjà vue
dans la régression linéaire Bêta un en x représente la combinaison linéaire
des entités en entrée. courbe de sept de la fonction logistique commence près de zéro, augmente
progressivement et se rapproche de
manière symptomatique Cela ressemblera à cette courbe
sinusoïdale, n'est-ce pas ? Entraînez ensuite un modèle de
régression logistique. Pour entraîner un modèle de
loisirs logistiques, nous utilisons un ensemble de données avec des exemples
étiquetés Pour chaque exemple, nous
calculons la probité d'appartenance à la classe 1 à l'
aide d'une fonction logistique. Ensuite, nous avons défini une fonction de perte, c'est-à-dire une perte d'entropie croisée Pour mesurer les performances du
modèle, l'objectif est de trouver
la valeur de bêta zéro et de bêta un qui
minimise la fonction de perte Cette optimisation est
généralement réalisée à l'aide méthodes
numériques ou d'algorithmes d'optimisation
tels que la descente en gradient. Il s'agit d'un autre terme très
important. Nous verrons des applications
de la région logistique. La régression logistique est largement utilisée dans divers domaines, comme nous l'
avons déjà indiqué dans le
diagnostic médical qui permet de prédire évolution
d'une maladie, par
exemple Sur la base des données des patients, telles que résultats des
tests ou les antécédents médicaux, nous les alimentons
et
elles nous indiqueront s'il s'agit d'un
diabète perméable, diabétique ou non L'analyse du marketing et de la clientèle permet d'identifier les charnes
potentiels ciblant publicité et la segmentation de la
clientèle Toutes ces choses, nous pouvons utiliser la
régulation logistique dans le domaine de la finance Nous avons déjà discuté de
l'évaluation du risque de crédit, la détection des fraudes
et des défauts de paiement, traitement du langage
naturel, du
NLP, de la classification de textes Par exemple, une
analyse des sentiments La détection du spam est une application courante du NLP utilisant l'analyse d'images des
régions logistiques
dans un traitement d'image dans régulation logistique peut être utilisée pour la
classification binaire des tâches Si vous fournissez à l'appui
des images d'humains et d'animaux
basées sur un certain
Ca, cela définira si cette image appartient à la catégorie humaine
ou à la catégorie animale. Comme ça. L'interprétation des cofficiens
logistiques, l'interprétation des coefficients de
loisirs logistiques, bêta zéro
efficace
et le bêta un dans les relations
logistiques ont une logistiques Par exemple, dans un modèle d'évaluation du
risque de crédit, version bêta 1 peut
représenter l'impact du revenu sur la
probabilité de défaut de paiement. Un bêta positif indique
qu'un revenu plus élevé réduit
le risque de défaut de paiement. Quelle en est la conclusion ? Le cation logistique est outil
volatil et interprétable
pour les problèmes de
classification binaire Nous devons toujours nous
rappeler que c'est pour le problème de
classification binaire. Il s'agit d'une base mathématique capable
d'estimer les
probabilités, fait un
élément essentiel de la modélisation
prédictive en
science des données et en apprentissage automatique Bien qu'il s'
agisse d'un algorithme fondamental, ses applications
ont une grande portée contribuent à une meilleure prise de
décision dans tous
les secteurs et domaines. Alors que nous continuons d'échapper à
nos solutions basées sur les données. La régression logistique
demeure un atout précieux pour relever les défis du monde réel en matière de
classification Tout cela est une question de théorie, qui fait partie d'une relation logistique Dans la prochaine conférence, nous allons utiliser
R de manière pratique et nous essaierons d'implémenter
une régression logistique Voit la prochaine conférence.
131. Prédiction de churn client à l'aide de la régression logistique: Bonjour et bienvenue. Dans cette conférence, nous
allons écrire notre programme de régression logistique Et nous essaierons de prédire si un client
se désabonnera ou non Voyons voir, c'est notre période pendant que le projet
prédit la perte de clients. Bien, voici ce que nous faisons, nous créons un exemple de jeu de données avec deux variables et
sur lequel John est un résultat
binaire égal à zéro ou un indiquant si un
client a quitté le site ou non OK, c'est donc ce que
nous essayons de faire. D'accord ? Nous utilisons GLM, GL, GL est un modèle de ration général D'accord ? Nous utilisons ici le GLM, fonction
GLM pour adapter un modèle de ration
logistique, dans
lequel le modèle est basé sur une
fonction de l'âge,
l' argument familial
est défini Pour spécifier une régression logistique. L'argument défini sur logic indique la fonction du lien
logistique OK, nous affichons un résumé du modèle de régression
logistique à l'aide d' fonction de
synthèse et nous transmettrons le modèle logistique à
cette fonction de synthèse pour voir les valeurs des coefficients
et d'autres statistiques Nous faisons des prédictions
pour les nouvelles données. Et nous allons utiliser les données 38,62 et voir si les
deux sont un client avec 38,62 quelle est la probabilité
en utilisant la fonction de prédiction avec le type d'argument comme réponse OK, cela renvoie une probabilité
prédite de John pour ces deux clients. Ensuite, nous imprimons, d'accord, voyons voir ici. Je crée également un exemple de données pour la classification des couleurs des
bandes
ici. Nous utilisons le set seed
123 et les données et j' utilise un cadre de données.
Je crée ces deux vecteurs et le churn ici En âge, je donne le H ici, je donne la valeur John
01 pour les groupes d'âge. D'accord ? Le churn est un résultat binaire,
comme nous en avons déjà discuté Et ensuite, exécutons-le. D'accord ? Nous avons maintenant créé un
exemple de jeu de données. D'accord ? Lex est en train de créer
un modèle logistique pour cela Nous utiliserons la fonction GLM
et dans la fonction GLM, sur quelle base créera-t-on cette création logistique
basée sur le H Ici, les données seront les
données et la famille sera le lien binomial
égal Cela signifie que nous allons passer
à la régression logistique. OK, exécutons-le maintenant. Notre
modèle de régression logistique est prêt. Maintenant, nous allons
passer ce modèle logistique à une fonction de
synthèse pour voir le résumé de ce modèle de
régression Vous pouvez voir ici
les valeurs Copic, les erreurs d'
interception,
la valeur jet et les valeurs R. OK, vous pouvez voir ici ce paramètre de
personne pour le bannissement, considéré comme une déviance
interne et des valeurs de déviance résiduelle C. Toutes ces choses,
des choses que tu peux voir. Ensuite, je veux savoir que notre modèle
logistique est prêt. Je veux prédire si le client va se
désister ou non Je vais passer les deux H 38,62 et je vais voir la
probabilité des données Je vais créer de nouvelles données. Je vais passer les deux
vecteurs à H pour les stocker dans les nouvelles données. Je transmettrai ensuite ces nouvelles données
à la fonction de prédiction. Je vais transmettre les deux éléments, modèle
logistique que nous avons créé et les nouvelles
données qui se trouvent ici, la transmission et le type de
réponse. Ensuite, nous exécutons ça. Nous avons maintenant les valeurs
prédites dans ces accessoires
prédits et nous allons essayer de les
imprimer. Faisons fonctionner ça. Voyez la probabilité de
produire le client H 38 à 0,077 par temps,
alors que pour le client de 60 à 22
ans, elle est d'environ 97 %.
Ici, elle est d'environ 97 % nous pouvons facilement dire que
le client avec un H 62 va sortir :
100 % 97 %, soit près de
98 % 97,75 % ici, la probabilité de renvoyer
le client avec 62 est de
près de 98 %. Le client avec 38 est près de 98 % OK. Nous constatons ici
qu'avec les deux données, la probabilité est très inférieure à 38. Si je passe à 18 et
que je suppose que je passe à 52. Maintenant, je vais l'exécuter à nouveau et nous
verrons maintenant que la probabilité
de 18 est même réduite. Pour les 0,004 % ici, c' est 76 %. Nous en
concluons que plus
la probabilité de perte de
clients
sera élevée pour 28,72 % ici plus
la probabilité de perte de clients
sera élevée pour 28,72 Même à 72 ans, nous avons presque
99 % de chances qu'un client de 72 ans en fasse 28 C'est presque zéro
pour obtenir la probabilité, plus de probabilité pour les clients
moins âgés. Plus l'âge sera élevé, plus il y
aura de probité en matière de
fidélisation des clients. C'est ainsi que nous pouvons utiliser la région
logistique pour prédire si un client
va se retirer ou J'espère que vous avez compris
comment utiliser la fonction GLM pour
Los pour les régions logistiques (voir
dans la prochaine
132. Algorithme KNN: Bonjour et bon retour. Dans cette conférence, nous
allons en apprendre davantage sur k voisins les plus proches. Nous l'appelons l' algorithme
simple et efficace pour classification et la
régulation à la fois. OK, To nous avons vu
la région, puis nous avons vu l'
étiquette de réglementation logistique pour la classification Nous allons maintenant voir le non
qui peut être utilisé à la
fois pour la classification et pour
la région, deux problèmes. OK, commençons. Voisin le plus proche ou algorithme
efficace simple pour les problèmes de classification
et de région. Dans le monde de l'
apprentissage automatique et de la science des données, les navas ou
les algorithmes les plus proches constituent
l'une des
techniques les plus simples et
remarquablement puissantes pour résoudre les problèmes de
classification et de
régression Lorsque vous rencontrez
des problèmes de classification
et de régression, nous
pouvons utiliser
les deux.
Il s'agit d'un algorithme
non paramétrique basé sur des instances qui repose sur la proximité
pour faire des prédictions Tout est une question de proximité. Nous verrons comment cela fonctionne. Dans cette conférence, nous explorerons les principes fondamentaux de
Canon, son fonctionnement, ses variantes et ses applications
réelles. Comme son nom l'indique, il y a à la base un algorithme
simple. Il fait des prédictions basées sur la classe majoritaire
pour la classification. Et la moyenne de régression tient
essentiellement compte de deux choses. Pour les problèmes de classification, les
prédictions sont basées sur la classe majoritaire pour
les problèmes de régression, c'est-à-dire comme base, accord, des k
points de données les plus proches d'une requête donnée. Le k dans le k NN représente le nombre de voisins les
plus proches pris en
compte lors des prédictions. Dans ce voisin
le plus proche, k représente le nombre de voisins les
plus proches pris en compte lors des prédictions
pour la classification, voici les étapes que nous suivons. Le premier est la représentation
des données. Commencez par un ensemble de données étiqueté
où chaque point de données possède une étiquette de classe, puis une métrique de
distance. Choisissez une
métrique de distance, par exemple, incluant la distance ou la distance du modèle
humain pour mesurer la
similitude entre les points de
données de la prédiction. La prochaine est la prédiction. Pour classer un nouveau point de données, calculez la distance entre le point de données et tous les autres
points du jeu de données. Sélectionnez les K
voisins les plus proches en fonction du vote
majoritaire à la plus petite distance. Déterminez la classe
d'un nouveau point de données en votant majoritairement
parmi les classes, ses plus proches voisins K Pour la représentation
des données de régression. Encore une fois, commencez par
le jeu de données d'étiquettes, mais cette fois,
les étiquettes sont des valeurs continues, c'
est-à-dire numériques, d'accord ? Les métriques de distance utilisent les mêmes
métriques de distance en symétrique, comme nous l'avons vu dans
la classification Il s'agit de la distance Ec
ou de la distance de Manhattan, pour mesurer la similitude
entre les points de données. OK, puis vient la prédiction. Pour prévoir une nouvelle valeur
de point de données. Calculez la distance
entre ce point et tous les autres points du jeu de données. Sélectionnez les K voisins les plus proches fonction de la plus petite distance, puis
la valeur moyenne pour compléter la moyenne des étiquettes des K voisins les
plus proches. Ainsi, tous les voisins les plus proches
seront pris,
puis cela signifiera qu'ils seront calculés. Cela signifie alors que
cette valeur moyenne, quelle que soit la
valeur moyenne obtenue, devient la prédiction
pour le nouveau point de données. OK ? Variantes de, Il
existe trois variantes de non. Le premier est un Canon pondéré, second est un indicateur de distance et le troisième est Fit
Scaling. Dans le Canon pondéré attribuez des poids différents
au voisin en
fonction de la distance. Les
voisins de distance et de fermeture peuvent avoir une plus grande
influence sur la prévision. Ensuite, le second
est celui des mesures de distance. Testez les différentes mesures de
distance pour adapter l'algorithme
afin de spécifier les types de données, les types de données ou les domaines. La mise à l'échelle des entités normalise
ou normalise les entités pour garantir qu'aucune entité domine le calcul de
distance applications réelles basées sur
des objets non trouvés, des applications dans un
large éventail de domaines, comme des systèmes de recommandation tels que Netflix ou Facebook, ou même les cartes Amazon
et Flip. Tous ces sites Web de commerce électronique, les plateformes Ott dans le système de
recommandation, produits
recommandés, les
films sont contenus fonction du comportement
ou des préférences habituels Là aussi, nous pouvons utiliser l'
image et la reconnaissance vocale. Ensuite, le diagnostic médical. anomalies,
détection des anomalies dans le trafic
du
réseau de transactions financières ou dans les processus industriels Les problèmes de traitement du langage naturel (
NLP) peuvent également être résolus Ce canon classifie les documents
texte, l' analyse des
sentiments et la traduction
linguistique Un autre exemple concret est celui de la surveillance
environnementale, de prévision de la qualité de l'air,
des prévisions météorologiques et de
la surveillance de la pollution Tous ces problèmes, on
peut utiliser le canon. OK, les défis. Bien que Canon soit un algorithme de
style, il présente certaines limites. Cela peut être
coûteux en termes de calcul, en particulier avec un
grand ensemble de données, car cela nécessite de calculer distance de tous les points de
données, Ce sera assez coûteux
à calculer, n'est-ce pas ? Parce que pour chaque
point de données, nous devons calculer le cours de la dimensionnalité. Comme l'encourage la
fonction du nombre de dimensions, l'efficacité de la fonction « non »
peut diminuer en raison du cours
de dimensionnalité. Le choix de k, la sélection de la valeur
appropriée pour K sont cruciaux et peuvent avoir un impact sur
les performances du modèle. D'accord, la gestion de
données déséquilibrées sur un ensemble de données déséquilibré peut être difficile avec données déséquilibré
où une classe est nettement plus nombreuse que
l'autre. OK ? Tous ces
défis, car Canon ne constitue un ajout précieux à la boîte à outils d'apprentissage
automatique en raison de sa simplicité
et de sa polyvalence. Mais il comporte certaines limites que nous avons déjà comprises. Il est particulièrement
utile lorsqu'il s'agit d'un ensemble de données de petite à
moyenne taille. données de petite et moyenne taille peut être très Si vous avez un ensemble de données
petit modérément moyen
ou pas très grand,
cela ne peut pas être vraiment utile pour les tâches de loisirs
et de classification. En comprenant le
principe qui sous-tend on et ses diverses données, les scientifiques et les praticiens de
l'apprentissage automatique peuvent tirer parti de sa puissance pour établir des prédictions précises
et classer les données manière efficace dans
diverses applications. Tout cela n'est pas une question de théorie. Nous essaierons également de faire des exercices pratiques en
utilisant notre programmation. Voir l'intérieur de la prochaine conférence.
133. Implémenter kNN: Et bon retour. Dans
la conférence précédente, nous avons parlé de l'algorithme. Dans cette conférence, nous allons
implémenter la non-utilisation notre algorithme de programmation K le plus proche
voisin pour la classification. OK ? Les étapes, je vais vous dire quelles sont les étapes que vous allez suivre dans cet exemple. Tout d'abord, nous chargeons le package de
classe qui fournit la fonction in pour la
classification. Nous utilisons le célèbre ensemble de
données irlandais que nous avons déjà utilisé dans le cadre de nos
conférences de ce cours. Au début, vous devez connaître l'ensemble de données
Iris qui est disponible en R et
contient les mesures des fleurs d' iris ainsi que les étiquettes de
leurs espèces. Nous avons divisé l'ensemble de données en ensembles d'
entraînement et de test, 70 % des données étant utilisées
pour l'entraînement de l'ensemble de données. Nous nous répartirons en ensembles de
formation et de test, lesquels 70 % des données seront
utilisées pour la formation et 30 % des données seront utilisées à
des fins de test. Habituellement, dans le monde réel, nous prenons 80 % des données pour la
formation et 20 % pour les tests, mais 70 à 30, c'est également acceptable. En fonction des exigences de votre projet ou de vos données, vous pouvez décider si vous
souhaitez suivre 60 % pour la formation, 70 % pour la formation,
pour 80 % de la formation. Afin que vous puissiez décider en fonction vos besoins et des besoins
de l'entreprise. Nous définissons ici le nombre
de voisins, c'est-à-dire k, qui détermine le nombre
de voisins les plus proches à prendre en compte lors
des prédictions. déterminer le nombre de
voisins Uber Il est très
important de déterminer le nombre de
voisins Uber, tandis que le nonce détermine le
nombre de voisins les plus proches à prendre en compte, car cela aura un
impact sur les prévisions Hein ? Ensuite, nous effectuons
la classification neuf à
l'aide de la fonction neuf dans laquelle nous spécifions les
données d'entraînement
, les tests , les données, les niveaux de classe et la
valeur de K. Pour cet exemple, nous allons prendre k cinq, le voisin le plus proche considéré étant
le cinq. Ensuite, nous évaluons la précision du
modèle en comparant les espèces prédites aux espèces
réelles
du kit de test. Nous créons ensuite une métrique de
confusion pour mieux
évaluer les
performances du modèle. OK. Lorsque vous exécutez ce code, vous obtiendrez la précision du classificateur canin
et de la matrice de confusion qui montrent dans quelle mesure
le modèle a bien classé les différentes espèces de fleurs d'
iris dans le kit de test Commençons maintenant ici. La première chose à faire est que si la
classe n'est pas installée, elle s'installera,
puis elle le sera. OK ? Exécutons ceci
et récupérons le chargement des données. La fonction data data
utilisera des données et nous transmettrons le
nom du jeu de données, c'est-à-dire iris. Exécutons ça aussi. Ensuite, nous allons diviser l'ensemble de données en ensembles d'
entraînement et de test La première chose que nous
devons faire est de définir le set 123. D'accord, c'est une étape assez
essentielle. Ensuite, nous créons une variable
ou un objet, un échantillon d'indices de
soulignement Ici, nous allons prendre
l'échantillon pour inscrire Iris. Et la taille sera de
0,7. Cela signifie que 70 % de l'ensemble de données Iris pour les données des trains d'
entraînement sera
constitué par l'iris des indices d'échantillonnage. Ces indices seront
placés dans l'iris et 70 % des données deviendront
les données entraînement. Les données
seront l'iris de moins
les indices de l'échantillon. OK ? C'est pourquoi nous
utilisons ici le signe moins. OK ? Il restera 30 %. Disons cela comme
le nombre de voisins, c'
est-à-dire k, ici, je
définis comme égal à cinq. OK, exécutons-le également. Nous allons maintenant effectuer le classement par
neuf. Ici, je vais créer une espèce de soulignement
prédite par une
variable ou un objet espèce de soulignement
prédite Ici, je vais utiliser la fonction
neuf ici. Entraîner consiste à entraîner les
données de soulignement de un à quatre. Test pour tester les données de soulignement, une à quatre classes seront espèces de
données
de soulignement du train, d'accord ? Sur la base des espèces que nous
allons classer. OK ? Alors égal à deux k, cela deviendra cinq OK ? Maintenant, exécutons-le. Nous allons maintenant
évaluer la précision du modèle en
utilisant une fonction. Les espèces prédites sont égales au dollar des espèces des données de
test
divisé par les données de test N up. D'accord, voyons voir, puis nous l'
imprimerons avec précision en 200. OK, vous voyez maintenant que la précision
de
ce modèle est de 97,78.
C'est plutôt bien Nous allons maintenant imprimer la matrice de
confusion en
utilisant une
fonction de table réellement égale aux données de test des espèces P. Bien, créons la
matrice de confusion ici, voir ici. Maintenant, la
matrice de confusion que vous pouvez voir ici pour Setosa 14
a presque été classée
correctement. Un seul a été mal classé. Dans le cas contraire, tout est
classé correctement. C'est ainsi que nous pouvons
implémenter le non.
134. Arbre de décision et forêts aléatoires: Bonjour et bon retour. Dans cette conférence, nous
allons
découvrir les arbres de décision
et les forêts aléatoires. Ces deux-là sont les meilleurs amis, ils travaillent ensemble et ils sont tout simplement géniaux pour l'apprentissage
automatique. Leurs applications sont
utilisées et elles sont très utiles et pratiques si vous
travaillez sur un apprentissage automatique, en
particulier dans le cadre de l'apprentissage
supervisé. D'accord, commençons à en apprendre davantage sur ces deux puissants
outils d'apprentissage automatique. Nous allons d'abord comprendre ce que sont dysenterie et la forêt aléatoire dans le cycle de l'apprentissage automatique La dysenterie et la forêt aléatoire
sont deux outils formidables qui ont révolutionné la prise de décision en matière de
données Ces algorithmes sont largement utilisés pour la classification
et la régression. Tâche nous avons compris
qu'est-ce qu'une tâche, n'est-ce pas ? La classification signifie
que nous devons
classer en deux
ou plusieurs segments, tels que la vraie ou la fausse réputation, la
candidature, l'acceptation
ou le rejet C'est une menace, du spam,
non ? Tâche de régression. Nous le faisons pour le continu, pour les choses numériques, non ? Ces algorithmes
sont largement utilisés pour les tâches de
classification et de
régression, ce qui les rend inutiles
pour diverses applications Dans cet article, nous
allons, dans cette conférence, explorer les principes de
fonctionnement et les applications
réelles
de la forêt dissidente. Nous explorerons
le concept qui sous-tend les
degrés et la forêt aléatoire. Quels sont les
principes de travail qui sous-tendent les
arbres de décision et les forêts aléatoires ? Et quelles sont les applications
réelles arbres
de décision
et des forêts aléatoires ? Commençons donc par
les arbres de décision. L'arbre de décision est une
structure semblable à un arbre comme vous
pouvez le voir ici, d'accord ? Le nœud parent,
puis le nœud enfant, puis le nœud enfant, d'accord ? Il va grandir comme ça, non ? Un arbre décisionnel est une
structure semblable à un arbre qui est utilisée
pour l'aide à la décision. OK. Voici un exemple simple. Si vous voulez
acheter quelque chose, que vous
ayez une confusion, vous voulez acheter, acheter, acheter. Maintenant, la décision se prend
en deux choses : par e-mail ou non, spam, spam comme ça, d'accord ? Il décompose un processus de prise
de décision
complexe en
une séquence de simulations. Chaque nœud de l'arbre représente une décision ou un avant-goût
d'un attribut, chaque branche représente
un résultat, chaque branche est
un résultat. OK ? Voici les
résultats, non ? Le test de décision sur l'attribut, chaque branche représente
un résultat et chaque nœud feuille représente un niveau de classe ou
une décision, d'accord ? Ce sont les nœuds. Ce
sont les feuilles, d'accord ? Comment Desiree
construit les bâtiments et les arbres en utilisant une approche
récursive descendante appelée partitionnement
récursif, comme vous pouvez le voir ici, est une approche de type
haut en bas C'est une récursive qui continuerait
à se répéter, non ? Les arbres de décision sont construits, sont construits selon une approche récursive
descendante
appelée partitionnement récursif. Nous partitionnons de manière récursive
chaque nœud pour les nœuds. bon algorithme sélectionne
le meilleur attribut à chaque étape pour diviser
les données en sous-ensembles À chaque étape, l'algorithme de décision 3 sélectionnera le meilleur attribut à chaque étape. Pour diviser les données, il divisera les données en
fonction de l'attribut en données aussi homogènes que possible par rapport
à la variable cible. En gardant la
variable cible à l'esprit, il divisera les
données en un sous-ensemble Cela garantira également que le sous-ensemble est homogène, d'accord. Cela aidera à atteindre
la variable cible. Sélection d'attributs. Divers critères
tels que le gini, l'impureté, entropie et le gain d'informations sont utilisés pour déterminer le
meilleur attribut pour le fractionnement L'objectif est de minimiser les impuretés ou de maximiser le gain
d'informations Le troisième est l'élagage. L'arbre de décision peut devenir trop complexe et
entraîner un surajustement L'élagage consiste à supprimer
les branches qui ne
contribuent pas de manière significative
à améliorer la précision, ce qui permet d'obtenir une branche plus simple ou
plus généralisable L'élagage est une chose simple : si vous
continuez à faire pousser un arbre, il peut pousser dans n'importe quelle direction Mais si vous voulez garder un
arbre dans un très bon coffre-fort, nous devons couper les branches supplémentaires de
la
même manière que dans les arbres de décision. De plus, si nous maintenons sa croissance, elle deviendra trop complexe
et sujette à un ajustement excessif Ensuite, c'est là que
vient l'élagage. L'élagage consiste à
enlever les branches qui ne contribuent pas de
manière significative Certaines branches peuvent ne pas être utiles. Plus tard, nous élaguerons
ces branches, ce qui permettra de créer des
applications
modèles plus simples et plus généralisables du dissident dysenteur Dans de nombreux domaines, vous pouvez
trouver les applications de différents scientifiques dans de nombreux
domaines tels que la médecine, le
diagnostic de la maladie en
fonction des symptômes
et des antécédents médicaux du patient dans
la section financière, la notation des cartes de
crédit, la détection des
fraudes, l'
investissement, un
exemple de dissident le
diagnostic de la maladie en
fonction des symptômes
et des antécédents médicaux du patient dans
la section financière, la notation des cartes de
crédit, la détection des
fraudes, l'
investissement, un
exemple de Dans tous ces domaines, nous pouvons
utiliser le marketing sur la dysenterie, la segmentation de la
clientèle, le
ciblage et la
prédiction du taux de désabonnement peuvent être
effectués fabrication, le contrôle
qualité et l'optimisation des processus de
production peuvent être effectués par le biais de séries, panneaux
environnementaux, de classification des
espèces et de surveillance de l'environnement à l'aide de la dysenterie Voici les applications de
Decision Tree qui couvre désormais
la forêt aléatoire. Random Forest est comme Gimble. Bien que
les arbres de décision soient puissants, ils peuvent être sensibles aux modifications
mineures des données. La forêt aléatoire répond à cette
limite en combinant plusieurs arbres de décision pour créer un modèle d'
ensemble robuste et précis. Vous voyez ici, il s'agit
d'un arbre de décision, mais
d'une combinaison forestière aléatoire de plusieurs arbres de décision. Hein ? Ce qu'il fait, l'arbre de décision, c'
est quelque chose de très petit. Cela
changera radicalement ses résultats, traitera les nœuds, etc. Tout va
changer. Si vous apportez des modifications à l'ensemble de données,
tout changera. Pour surmonter cette limite, Random Forest répond à cette
limitation en combinant plusieurs
arbres de décision afin de créer un modèle de
fouillis robuste et précis Cela créera des arbres de
décision similaires et constituera une forêt
aléatoire robuste. Il y aura de nombreux arbres, et c'est pourquoi on l'
appelle forêt aléatoire car de nombreux groupes d'arbres en
feront une forêt, n'est-ce pas Comment fonctionne une forêt aléatoire ? Échantillonnage Bootstrap. Random Forest commence par créer plusieurs échantillons de
bootstrap, des échantillons
aléatoires
à remplacer à partir des données d'entraînement Il commencera à créer les échantillons de bootstrap à partir de
l'ensemble de données d'entraînement Sélection aléatoire de caractéristiques
pour chaque arbre de la forêt. Un sous-ensemble aléatoire de
caractéristiques est pris en compte à chaque nœud pour choisir
le meilleur arbre création de plusieurs arbres de
décision est construite indépendamment avec son
propre échantillon bootstrap et une sélection aléatoire de fonctionnalités Ensuite, le vote et la moyenne. Pour les tâches de classification, les forêts
aléatoires utilisent le vote
majoritaire parmi les arbres pour
la regrationaskyuseveragingeere Il utilise le vote pour la moyenne
de régénération pour faire des Quels sont les avantages
de la forêt aléatoire ? Cela réduira le suréquipement, c'est la limite
de la sentinelle La forêt aléatoire
est moins sujette au surajustement que
les espèces isolées Généralisations améliorées
et robustesse par rapport
à l'importance des données Les forêts aléatoires fournissent des informations sur l'importance des fonctionnalités
, ce qui facilite leur sélection Applications de la forêt aléatoire. Les forêts aléatoires sont
largement utilisées dans de nombreux domaines tels que
l'analyse d'images, la
finance, l'écologie, le
marketing et les soins de santé. En matière d'analyse, la reconnaissance d'objets, la classification
d'images et l'extraction de fonctionnalités
peuvent être effectuées dans le secteur de la finance. Encore une fois, il est possible de prévoir
les cours des actions et détecter les fraudes au risque de
crédit. L'écologie, nous aimons la modélisation de la
distribution des espèces et les évaluations de
la biodiversité peuvent être effectuées dans le cadre du marketing, du système de prévision et de
recommandation des clients dans soins de
santé, en prédisant les résultats pour les
patients et en établissant un diagnostic G. OK, quelle est la conclusion ? Ces deux sentinelles dynamiques et la forêt aléatoire sont dynamiques dans le monde
de l'apprentissage automatique Alors que Gentry fournit une interabilité aléatoire, une précision
et une robustesse
améliorées, algorithme de
compréhension des arbres et
leur application fournissent aux scientifiques des
données et aux praticiens de l'apprentissage
automatique de puissants outils
pour résoudre des
problèmes pour résoudre Alors que la prise de décision basée sur les données continue d'économiser de l'énergie dans
le monde, la polyvalence et l'efficacité
des arbres de décision et forêts
aléatoires garantissent
leur pertinence durable dans le domaine de l'apprentissage
automatique. Ces deux sont des algorithmes d'apprentissage
automatique
décents et des forêts aléatoires
très, très importants algorithmes d'apprentissage
automatique
décents et des forêts aléatoires J'espère que nous avons couvert la base
de ces deux (voir conférence).
135. Algorithme de machines vectorielles de soutien: Bonjour et bon retour. Dans cette conférence, nous
allons
découvrir la machine à vecteurs de support. OK, laissez-moi bien,
ignorez celui-ci. D'accord ? Nous allons en apprendre davantage sur l'algorithme de la
machine à vecteurs de support. Supporte la machine vectorielle, ou SPM. C'
est, nous l'appelons, l'un des
algorithmes d'apprentissage
supervisé les plus populaires ,
utilisé pour les problèmes de
classification et de régression. Cependant,
il est principalement utilisé pour les problèmes de
classification
dans l'apprentissage automatique, il peut être utilisé à la fois pour la
régression et la classification, mais nous l'utilisons principalement pour la
classification uniquement, d'accord ? Ainsi, la plupart du temps que vous
utiliserez pour des
problèmes de classification, SPM peut être utilisé pour la
classification La plupart du temps, 99 %
du temps, vous en utiliserez un ou 2 % sur 5 %. Il y
aura des cas où vous
pourrez l'utiliser davantage, où vous
pourrez l'utiliser davantage. Des problèmes de régression aussi, mais c'est très rare
dans le monde réel, d'accord ? L'objectif de l'
algorithme SBM est de créer la meilleure
limite de décision linéaire capable de séparer l'espace
dimensionnel en
classes afin que nous puissions facilement placer le nouveau point de données dans la bonne catégorie
à l' Cette limite de meilleure décision
est appelée hyper lane. C'est comme créer un
hyperlien, créer une ligne. Supposons que vous tracez
les points de données sur l'espace x et y u et que vous dessinez, nous l'avons vu dans la régression
linéaire, n'est-ce pas ? Nous dessinions une ligne qui
divisait les points
de données de la même manière que SBM En outre, il essaiera de
trouver une ligne qui peut diviser le jeu de données, c'est bien. C'est l'objectif du SPM. La limite de diction est
appelée hyper ligne. Spm choisit les points de données
extrêmes ou le vecteur qui aident à
créer l'hyperligne. Les cas extrêmes sont
appelés vecteurs de support. SBM. L'algorithme de la
machine Support Vector choisit les points de données extrêmes ou le vecteur qui aident
à créer l'hypo Ces cas extrêmes sont
appelés vecteurs de support. Il va d'abord trouver
les points extrêmes ou les vecteurs et ces vecteurs
sont appelés vecteurs de support. Pour créer l'algorithme
d'
hyperligne terme « machine à vecteurs de support » OK, trouver les vecteurs de
support, c'est pourquoi cet algorithme est connu sous le nom de machine à
vecteurs de support. Considérez le
diagramme ci-dessous dans lequel deux
catégories différentes
sont classées en fonction de la
limite de descente ou du battage médiatique. Voir ici Nous avons maintenant le X un et X deux. Et ici, vous pouvez voir qu'il s'agit de la ligne de marge maximale. Cette ligne est la ligne de
marge maximale et il s'agit du lien hypertexte
positif à marge maximale Ce sont les vecteurs de soutien. Ce sont les vecteurs de soutien. Ces points que
nous avons trouvés. Ce sont les vecteurs de soutien. D'accord ? De ce côté,
c'est négatif. Hypolositiveypolineximumrgin
sera l'hypervoie, la marge maximale, l'hyperlinéaire , voir ici. Maintenant, cette hypervoie divise
ces deux points de réglage, n' est-ce pas ? Précis. Ces points sont
appelés vecteurs de support. D'accord, nous trouvons d'abord
le vecteur de support et avec les vecteurs de support, nous allons
essayer de trouver le lien hypertexte Bm peut être compris
avec l'exemple que nous avons utilisé dans le classificateur
canin Supposons que nous voyions un chat étrange qui possède également certaines
caractéristiques d'un chien. Supposons que nous ayons une photo d' un chat qui présente certaines
caractéristiques kystiques du chien De plus, si nous
voulons un modèle
capable d'identifier avec précision
s'il s'agit d'un chien chat, un
tel modèle peut être créé à l'aide
d'un algorithme. Nous allons d'abord entraîner notre modèle avec
de nombreuses images de chats et chiens afin qu'il puisse en apprendre davantage sur différentes caractéristiques
des chats et des chiens. Ensuite, nous le testons avec
cette étrange créature, qui ressemble à la
fois au chat et au chien, mais c'est en fait un chat. Comme le vecteur de soutien crée une frontière distincte
entre ces deux données, chat et le chien choisissent les
cas extrêmes, les vecteurs de soutien. Il étudiera le cas extrême du chat et du chien sur la base
de vecteurs de soutien. Il le classera comme un chat. Examinez le schéma ci-dessous. Consultez ces anciennes données d'étiquette. Ce sont des données rapides comme ceci est un chien
et ceci est un chat. Ici, nous créons un modèle
et lui apprenons
que cette créature est un chien
et que cette créature est un chat. Il lit toutes
les caractéristiques de ces deux images et notre modèle
suit actuellement une formation. Notre
modèle de prédiction prédira qu'il s'agit d'un chat. Comment ça va se passer. Supposons que nous donnions
une image
très similaire à celle du
chat et du chien. Il possède certaines caractéristiques du chien. De plus, ce qu'il fera, c'est de voir les
traits extrêmes d'un chat. Il classera les
caractéristiques d'un chat. Il le classera, il trouvera l'hyper voie fonction des caractéristiques, des caractéristiques
extrêmes C'est lui qui décidera s'
il s'agit d'un chat ou d'un chien. À l'extrême, cela
correspondra au chat. Il classera cela comme s'
il ne correspondait pas aux caractéristiques extrêmes du
chat Ensuite, il le
classera comme un chien avec le PM, même avec cet étrange chat, qui ressemble beaucoup
au chien B.
À l' aide des vecteurs de
soutien et de l' hypertexte précis indiquant que
c'est un chat et non un Par exemple, les machines à vecteurs de
support, comme les applications de machine à vecteurs de
support, SBM peuvent être utilisées pour la classification
d'images Comme nous venons de le voir, SBM ont été utilisés pour la classification des
images Des tâches telles que la
reconnaissance de l'écriture manuscrite et la détection
d'objets, telles que l'analyse des sentiments, détection
du spam et la catégorisation des
documents bio, la poétique et les PM sont utilisées pour la reconnaissance des
plis protéiques, la classification des
gènes
et le diagnostic G. Dans le secteur financier, les PM sont
utilisés pour le codage du crédit, prévisions
boursières et pour détection dans le segment des
soins de santé Ils ont été utilisés dans le diagnostic et le pronostic de la DG sur la
base des données médicales, le traitement du langage
naturel
et le LP SPM jouent un rôle dans reconnaissance des entités
nommées
et la catégorisation des textes Voyons quels
sont les types de SPM. Le Spm peut être de deux types. La première est la régression
linéaire. Le SPM non linéaire peut être
classé en deux types, le SPM
linéaire, j'ai dit régression,
c'est le SBM, le SPM linéaire et le SPM non linéaire. Le SBM linéaire est utilisé pour les données séparables
linéairement. qui signifie que si un ensemble de données peut être classé en deux classes utilisant une seule ligne droite, alors une telle donnée est un
terme classificateur de données séparable linéairement classificateur de
données utilisé
ici est appelé classificateur ici est appelé Si les données concernent un combat de classe
linéaire, nous sommes en mesure de
les classer selon une hypervoie séparable
linéairement,
une ligne droite, puis on parle de données hypervoie séparable
linéairement,
une ligne droite, séparables de manière linéaire. Et le classificateur utilisé
ici sera appelé linéaire SBM SVM linéaire non linéaire est utilisée pour les données
séparées de manière non linéaire, ce qui signifie que si le
jeu de données ne peut pas être classé à l'aide
d'une ligne
droite, ces données sont
qualifiées de données non Le classificateur utilisé dans ce cas
est connu sous le nom de SPM non linéaire. Nous verrons en quoi les deux diffèrent. OK, Hyper Lane et vecteurs de
support. Dans l'algorithme SPM,
nous savons ce qu'est hyperligne que nous
dessinons en
hyper Il peut y avoir plusieurs lignes
ou limites de décision pour séparer les classes dans un espace à
n dimensions, mais nous devons trouver la
meilleure limite de décision qui aide à classer le point de données Cette meilleure limite est connue
sous le nom d'hypervoie du SPM. Les dimensions de l'hyperplan dépendent des entités
présentes dans le jeu de données Ce qui signifie que s'il y a deux entités comme
indiqué sur l'image,
l' hyperligne
sera une ligne droite S'il existe trois entités, l'hyperligne sera le plan
bidimensionnel D'accord ? Nous créons toujours une
hyperligne avec une marge maximale, c'
est-à-dire une distance
maximale entre les points de données D'accord ? D'accord. Vecteur de support. Les points de données sont des données vectorielles, les plus proches de l'hyperligne, qui affectent la position
de l'hyperligne, qui sont très
proches de l'hyperligne, affecteront très efficacement la position
hyaline de l' Ces points de données
sont des vecteurs appelés vecteurs de support, car ces vecteurs supportent
le vecteur hyperleuport OK, comment fonctionne SPM ? Nous allons d'abord voir le SVM linéaire. Le fonctionnement de l'algorithme SPM peut être compris à
l'aide d'un exemple Supposons que nous ayons un
ensemble de données comportant deux points, le vert et le bleu Ici, nous avons pris ces deux couleurs marron
et brun plus clair. D'accord ? L'ensemble de données
comporte deux caractéristiques, X un et t. Vous voulez
classer la paire x le maïs
en vert ou en bleu ? Supposons que ce soit vert
et bleu, d'accord ? Les couleurs, j'ai écrit
un peu mal ici, gris et gris plus clair, d'accord ? OK, supposons que c'est
bleu et vert, d'accord ? Maintenant, dans un espace à deux D, en utilisant
simplement une ligne droite, nous pouvons facilement séparer
ces deux classes, n'est-ce pas ? Nous pouvons tracer une ligne ici. Nous pouvons tracer une ligne comme celle-ci. Et ce deux vert et
bleu, on peut les séparer, mais il peut y avoir plusieurs lignes qui peuvent séparer chaque
classe. Pense à eux. On peut dessiner cette image, rouge, c'est aussi les deux. Je peux tracer une ligne comme celle-ci. Je peux également tracer une autre ligne ici qui
peut classer cela. Je peux également tracer une autre ligne
ici qui classe, il peut y avoir plusieurs lignes qui peuvent séparer ces classes. Par conséquent, l'algorithme
Pm aide à trouver la meilleure ligne, ou est-ce que cette meilleure limite
est appelée hyperligne ici Maintenant, nous pouvons avoir plusieurs lignes, comme si le
but était de trouver la
meilleure ligne à créer. D'accord ? Cette région est appelée vecteurs de support
hyperled Ce sont les points bleus
et verts qui sont les vecteurs de support. D'accord ? La distance entre les vecteurs et la marge
hyperlinéaire, voir ici le support, cette distance est appelée D'accord ? C'est ce que l'on appelle la
distance entre le vecteur de support et l'
hypo lane, c'est ce qu'on appelle la marge Pour maximiser cette marge, hypolimrginlledptimhyplaneeowf,
essayez de mettre une ligne ici, hypolimrginlledptimhyplaneeowf,
essayez de mettre une ligne ici, la marge sera moindre. Si vous mettez une ligne ici, la marge sera moindre ici. Si nous considérons cette ligne, la marge d'
ici et d'ici, elle sera maximale. À chaque point,
la marge entre les vecteurs de support et le
plan sera maximale. Il s'agit de la méthode optimale pour trouver l'
hyperligne, à droite, la distance
entre ces points entre les vecteurs et la marge
de l'hyperligne Et l'objectif de SPM est
de maximiser cette marge. L'hyperligne avec marge
maximale est appelée hyperligne
optimale C'est l'
hypolène optimal que nous trouvons. Maintenant, vient le SPM non linéaire. Si les données sont organisées de manière
linéaire, nous pouvons les séparer
en utilisant une ligne droite Pour les données non linéaires, nous ne pouvons pas tracer une
seule ligne droite. Considérez la même chose, les points
bleus sont également là. Ici aussi,
et plus écologique ici. Maintenant, nous ne pouvons pas tracer une ligne
droite qui classe les points
bleus et verts dans
une région distincte, n'est-ce pas ? Certains points seront attribués à
chacune des régions. La classification en ligne droite n'
est pas possible ici, n'est-ce pas ? Dans ce cas, pour séparer
ces points de données, nous devons ajouter une dimension
supplémentaire. Pour les données linéaires, nous avons utilisé
deux dimensions, x et y. Pour les données non linéaires, nous ajouterons une troisième dimension, calculée
en utilisant cette formule, égale à x au carré plus q. Nous ajouterons une autre
dimension ici, car dans les deux dimensions, n'est pas possible de
classer, de séparer, tracer une ligne avec des points
verts et bleus séparés, nous allons ajoutez une autre dimension qui sera la dimension du jet. Et ces points de jet seront
pris en compte par cette formule. Jet call vers x carré
plus y carré. D'accord ? Ainsi, pour chaque x et y, il y aura un point de jet, qui sera calculé
par x au carré plus y au carré. D'accord ? En ajoutant la
troisième dimension, l'espace d'échantillonnage
ressemblera à cette image ici. Maintenant, x y et le bleu de jais
ici et le vert sont maintenant. Nous pouvons voir ici, nous pouvons voir qu'il y a
deux régions en ce moment. Sbm divisera l'ensemble de
données en classes. Dans le set
in classes de la manière suivante. Ce sera la meilleure
hypervoie que nous puissions tracer, et elle séparera
les points de données, bip lane de ce côté
de l'hyper lane, puisque nous sommes dans l'espace, cela ressemble
donc à
un plan parallèle à
l'axe X, n' un plan parallèle à
l'axe X Si nous le convertissons en
espace avec Gal égal à un, alors cela deviendra comme ça. D'accord ? Si nous considérons que
celui-ci est dans l'espace, si nous l'appelons, alors il deviendra
comme ça, d'accord ? Ainsi, nous obtenons une
circonférence de rayon un. Dans le cas de données non linéaires, nous pouvons
ainsi trouver la meilleure hypervoie dans un objet
circulaire, n'est-ce pas ? Circonférence d'une
circonférence de rayon un. Voyez à l'intérieur du cercle vert et à l'extérieur du
circuit en bleu de cette façon, cette hyperligne circulaire
que nous pouvons obtenir pour ces données OK, j'espère que nous avons
compris comment fonctionne SPM. Découvrez l'intérieur de la prochaine conférence.
136. Comprendre l'analyse de régression: Bonjour, et bon retour. Je suis donc Son, et je suis de retour avec la nouvelle
mise à jour de ce cours. Dans cette série de conférences que je
vais mettre en ligne maintenant,
nous aborderons l'
analyse de régression en détail. Donc, tout d'abord, nous allons
commencer par les bases Ces séries de conférences
seront publiées dans les semaines à venir, et vous verrez peut-être mises à jour très régulièrement dans
ce cours sur le partage des compétences. Commençons donc. La première chose à faire est donc un
aperçu de l'analyse de régression. Alors, qu'est-ce que l'analyse de régression ? L'analyse de régression est
une technique statique utilisée pour comprendre
la relation entre une variable dépendante et une ou plusieurs variables
indépendantes Il s'agit donc simplement d'une analyse
de la relation entre la variable dépendante et une ou plusieurs variables
indépendantes. Vous pouvez donc comprendre
que le fait d' avoir une crise
cardiaque chez un patient
dépend de plusieurs
variables. Ici, crise
cardiaque est une variable
dépendante. Cela dépend une ou
de plusieurs
variables indépendantes telles que votre âge,
votre style de vie,
vos habitudes alimentaires
et tout autre facteur, comme le fait que
vous êtes diabétique ou que vous avez des
problèmes génétiques,
des antécédents de crise cardiaque
dans votre famille. Il existe plusieurs variables
indépendantes qui
vont affecter les risques de
crise cardiaque chez un patient. Ici, la crise cardiaque ou le
fait d'
avoir une crise cardiaque sont des variables dépendantes et tous les autres symptômes de santé votre mode de vie ou
les maladies existantes
sont des variables indépendantes L'analyse de régression est donc une technique
statistique utilisée pour comprendre la
relation entre ces variables, dépendantes
et indépendantes. J'espère avoir été très clair. Maintenant, vous savez
comment nous procédons. Il est donc largement utilisé dans divers domaines
tels que l'économie, la
finance, les sciences sociales
et les soins de santé. Donc, les soins de santé, par exemple,
je vous les ai déjà, euh, donnés. En économie, comme
en finance,
vous pouvez également voir si vous investissez
dans certaines actions et dans toutes les autres. Vos profits et pertes
seront
donc les variables
dépendantes, Vos profits et pertes
seront
donc les variables
dépendantes les sentiments du marché
et tout le reste, quoi les actualités et tout ce qui affecte
les cours des actions
seront une ou plusieurs variables
indépendantes. Soins de santé pour modéliser et prévoir les résultats en
fonction de la variable d'entrée. Nous y
aborderons les bases de l'analyse de régression ainsi que les types, les
sauts et les applications Nous allons maintenant comprendre
d'une manière mathématique. Qu'est-ce que l'analyse de régression ? Ainsi, l' analyse de
régression vise essentiellement à estimer la relation
entre les variables dépendantes, souvent désignées y, et une ou
plusieurs variables indépendantes, notées x un, x deux, etc. OK. La relation est généralement représentée par
une équation de la forme. Il s'agit d'une équation linéaire, où y est égal à Bêta
zéro plus Bêta un dans x un plus Bêta deux dans x t
plus Bêta trois, et ainsi de suite jusqu'à Bêta n
dans x plus epsilon OK. Bêta zéro est un intercepteur, où x un, x et y vont
intercepter et Bêta un, Bêta deux et B sont les coefficients
représentant les efforts des variables indépendantes, comment
les variables indépendantes vont affecter Il s'agit d'un terme d'erreur qui représente la
différence entre l'objet et les valeurs prédites. Donc, ce que nous observons
et ce que nous prédisons. Quelle est la valeur prévue
et quelle est la valeur de l'objet ? La différence sera
que nous appelons le terme d'erreur. Le terme d'erreur est ce que nous avons prédit et le résultat
exact obtenu. Supposons donc que nous
prédisions un bénéfice de six à 50, mais que nous observions que nous avons
obtenu un bénéfice de Donc six 50 -501 50
sera le terme d'erreur, en termes simples si je l'explique D'accord ? Donc, type d'analyse de
régression, régression linéaire
simple
dont nous savons tous qu'
elle implique une seule
variable indépendante et une relation linéaire avec
la variable dépendante. Donc, si vous regardez, ce
sera très simple, tracez graphique x, y, et il y aura une ligne
qui le traversera, n'est-ce pas ? Puis vient la régression
linéaire multiple qui traite plusieurs
variables indépendantes et d'une relation linéaire avec
la variable dépendante. Ensuite, la
régression polynomiale ajuste une courbe aux données en introduisant
les termes
polynomiaux de la variable indépendante Enfin,
la régression logistique est très utilisée pour les problèmes de classification
binaire où la variable dépendante
est catégorique Nous verrons comment nous pouvons réaliser tout cela, comment nous pouvons
comprendre et comment nous
pouvons utiliser pour décoder
tous les
multiples nominaux logistiques et les régressions simples Maintenant, admets l'analyse de régression. Pour que l'analyse de régression
fournisse un résultat précis, certains sauts doivent être effectués Le premier est la linéarité. Linéarité. La relation
simple entre les variables dépendantes et indépendantes
doit être linéaire. La première exception est donc que
la relation entre les
variables dépendantes et indépendantes doit être linéaire. Ensuite, le second A
est l'indépendance. Les observations doivent être
indépendantes les unes des autres. La suivante est l'homo sdsticité, la variance du
terme d'erreur doit être constante tous les
niveaux des
variables indépendantes Puis vient la normalité. Le terme d'erreur doit suivre
une distribution normale. Le terme d'erreur
que nous avons vu
ici E doit donc suivre la distribution
normale. Puis vient la multicolinéarité. Les
variables indépendantes ne doivent pas être fortement
corrélées entre elles Donc, lors de
la prochaine conférence, je vais expliquer brièvement ce que sont la normalité
, la multicolinéarité et l' homocd afin que vous
puissiez mieux Pour l'instant, il ne vous reste plus qu'
à suivre le cours. absence de colinéarité multiple signifie donc les
variables indépendantes ne
seraient pas étroitement liées les unes aux autres. Applications de l'analyse de
régression. Donc, comme je l'ai dit, l'économie pour calculer les coûts de la demande et analyser l'élasticité des
prix.
Ensuite, dans le domaine de la finance,
nous pouvons l'utiliser pour prévoir les cours des actions et évaluer les facteurs de risque En sciences sociales,
nous pouvons l'utiliser pour étudier l'impact
des interventions, analyser les données de l'enquête. Les données d'enquête sur la protection
sociale, le gouvernement gère
tout
ce que nous pouvons faire avec l'analyse de
régression Ensuite, dans le domaine des soins de santé, nous pouvons prédire les résultats pour les
patients en
évaluant le facteur de risque une dG en particulier, comme nous en avons
parlé pour le cœur. Les fouilles, quelles que soient les recherches que vous pouvez
prévoir en fonction des données. Voici donc la conclusion
de cette conférence analyse de
régression est une technique statistique
puissante pour modéliser
les relations entre les variables et
faire des prédictions. En comprenant
ses principes fondamentaux, sauts et ses types, les analystes tels que les
analystes commerciaux et les scientifiques des données, ainsi que les ressources, peuvent
utiliser efficacement l'
analyse de régression pour obtenir des informations à partir des données et prendre des décisions
éclairées ,
dans divers domaines Ainsi, une fois que vous avez compris le concept d'analyse de
régression, vous pouvez l'utiliser dans n'importe quel domaine afin d'obtenir des informations à partir des données et de prendre des décisions
éclairées. C'est donc un outil très puissant
que nous allons apprendre. de la prochaine conférence, nous en apprendrons davantage
sur l'analyse de régression. Donc S lors de la prochaine conférence.
137. Comprendre le modèle de régression linéaire: Bonjour, et bon retour. Dans cette conférence,
nous allons donc en
apprendre davantage sur le modèle de
régression linéaire. La régression linéaire est donc l'une
des techniques fondamentales utilisées dans les statistiques
et l'apprentissage automatique. Ceci est utilisé pour modéliser
la relation entre la variable dépendante et une ou plusieurs variables
indépendantes. Nous l'avons appris dans
le cours précédent en comprenant l'analyse de
régression. La régression linéaire est donc l'un des modèles d'
analyse de régression. Dans ce document, nous allons approfondir les mécanismes de la régression
linéaire Il s'agit de l'exemption, de la
manière d'interpréter les paramètres du modèle et
des considérations pratiques. Commençons. Comprendre
la régression linéaire. La régression linéaire vise à
ajuster une relation linéaire entre la variable indépendante
x et la variable dépendante y. La relation est généralement représentée par l'équation, y est égal à bêta zéro
plus un dans x plus e, où y est une variable dépendante, x une variable indépendante Bêta zéro est l'intervalle, c'est la valeur de
y lorsque x est Et la bêta 1 est le coefficient de
pente, où la variation de y
pour une unité change de x, est
alors l'eratom
que nous connaissons déjà représente l'
écart entre la valeur
objective et les valeurs prédites
. Maintenant c'est clair. Si je peux dessiner, OK. Il n'y a aucun outil de dessin ici. Laissez-moi vérifier si je peux dessiner ici. OK. Laisse-moi ouvrir une épingle ici. Donc, si je peux vous dire, c'est l'axe X, et ce sera l'axe Y. C'est-à-dire qu'il s'agit de y, et la régression linéaire consiste trouver une droite
de régression comme celle-ci, où x est égal
à y égal à. Cette ligne sera
y égale à « Let me ». Nous allons le mettre B zéro plus B un, x plus. Vous pouvez donc comprendre comme ceci, y est égal à Beta
zéro plus p1x plus Ici, là où nous allons
comprendre ici, Bêta zéro est le terme d'
interception où y, la valeur de y lorsque
x est égal à zéro Donc, lorsque vous allez ici, x vaut zéro, et lorsque vous interceptez
depuis ici comme ça Ici x est zéro et y,
d'ici à ici, le site B zéro ou B t
zéro. Tout ce que tu peux. Ce sera le b zéro, et le bêta sera le changement de y pour une unité
de variation de la pente x. Donc, si vous voyez ici, fur
et à mesure que vous vous déplacez d'ici à ici, puis à partir d'ici, la pente sera la pente B. Est-ce que l'erreur est tom,
sera le terme d'erreur. Supposons par exemple que nous prédisions
une certaine valeur ici, et que nous nous opposions à quelque chose ici, donc la différence
sera la valeur. Il s'agit de la droite de régression. Alors laissez-moi
vous dire que cette droite est la
droite de régression. Cette ligne est la ligne de régression. OK. C'est l'équation
en ligne droite, y est égal à x plus c, vous pouvez également le comprendre. J'espère que c'est clair. Pour obtenir un tal fiable,
plusieurs aumpton régression de
Redia doivent
être maintenus pour
la plusieurs aumpton Le premier est la linéarité, l'
indépendance, le
sadisme, la normalité, le non parfait, mais la colinéarité. Linéarité, nous avons
déjà compris où entre x et y doit
être linéaire comme ça Car lorsque nous traçons x et y, nous devrions obtenir une ligne droite. C'est donc de la linéarité. Indépendance, les observations
doivent être indépendantes les
unes des autres et l'homo sadicité est la variance du terme d'
erreur qui doit être constante à tous les
niveaux de normalité x. Les termes d'erreur doivent suivre
une distribution normale, et en l'absence de multilinéarité parfaite, les
variables indépendantes ne doivent pas être parfaitement
corrélées entre elles, d'
accord. Ensuite, interprétez les paramètres
du modèle Ici,
l'interception bêta zéro, bêta zéro, représente y
lorsque x est égal à zéro, sens que s' il se situe dans la
plage des données pente bêta un, la pente
que nous avons observée ici, bêta un, indique le changement de y pour une unité de variation de x. Donc,
si nous pouvons voir ce x, alors ce sera le. Laisse-moi changer de couleur. Pour ce x, pour ce
x, ce sera le y. est ce
que cela signifie,
ou changement de y, ou changement de y, pour un changement d'unité de x, une pente positive suggère que
la pente négative positive indique le relanceefficient négatif de la détermination r au carré
mesuré pour la proportion d'
une variance de la variable
dépendante qui est
prévisible à partir de la variable indépendante . valeur R au carré plus élevée indique un meilleur
ajustement pour le modèle Considérations pratiques L'évaluation du
modèle permet d'accéder à la qualité et
à la qualité de l'ajustement à l'aide de matrices
telles que la moyenne quadratique MSC, moyenne quadratique RMS
et la valeur carrée R. Les valeurs aberrantes et influentes
indiquent, identifient et traitent les valeurs aberrantes susceptibles influencer
de
manière disproportionnée Vérifiez la colinarité entre plusieurs variables
indépendantes
et
envisagez de déterminer variables
indépendantes
et si c'est Pregent. Validation croisée : validez
les performances du modèle à l'aide techniques telles que
la validation croisée en K pour garantir une lisibilité
générale OK. En conclusion, le modèle de régression linéaire fournit un cadre simple et
puissant pour comprendre et modéliser
la relation entre
les variables en respectant
ses hypothèses, en interprétant efficacement les
paramètres du modèle et en tenant compte de considérations
pratiques Les analystes et les ressources peuvent tirer parti de la
régression linéaire pour obtenir
des informations à partir des données et des décisions éclairées
dans divers domaines. Voici donc ce que nous devons
savoir à propos de la régression linéaire. Nous nous occuperons également de
l'aspect pratique avec le cœur de notre programmation, mais ce serait la dernière option. Pour l'instant, nous allons
comprendre les bases de divers modèles d'
analyse régression
tels que la régression linéaire, puis nous verrons également la
régression multiple. Voir à l'intérieur de la prochaine conférence.
138. Comprendre la cédasticité: Bonjour, et bon retour. Dans cette conférence,
nous allons donc en apprendre davantage
sur mo Cdesticdy Ainsi, l'homo statistique, également connue sous le nom d'homo génité
de la variance, est un saut de
régression linéaire qui fait référence à la condition dans
laquelle la variance de l'erreur ou des résidus est
constante connue sous le nom d'homo génité
de la variance, est
un saut de
régression linéaire qui fait référence
à la condition dans
laquelle la variance de l'erreur ou des
résidus est
constante à tous les niveaux des variables indépendantes. En termes plus simples, cela signifie
que la répartition des valeurs résiduelles doit rester la même quelle que soit la valeur des variables indépendantes Alors, qu'est-ce que l'homosticie ?
C'est l'homogénéité
de la variance, et c'est un Ajmson que nous
prenons en régression linéaire, fait référence à la
condition selon laquelle les erreurs, les valeurs résiduelles
que nous déterminons
resteront constantes
à tous les niveaux resteront constantes ?
C'est l'homogénéité
de la variance,
et c'est un Ajmson que nous
prenons en régression linéaire,
qui fait référence à la
condition selon laquelle les erreurs, les valeurs résiduelles
que nous déterminons
resteront constantes
à tous les niveaux des variables indépendantes. Ainsi, quelle que soit la valeur que vous choisissez pour
les variables
indépendantes, la variance des erreurs ou des valeurs résiduelles
sera constante J'espère que tu l'
as appris, non ? Quelle est donc l'importance
de l'homodatité ? L'homosadicité est un saut important
dans la régression linéaire, car le non-respect de
cet argument peut
entraîner une estimation biaisée des paramètres est un saut important
dans la régression linéaire,
car le non-respect de
cet argument peut
entraîner une estimation biaisée des paramètres. Donc, si nous ignorons simplement cet
homocdat, que se passera-t-il ? Nous obtiendrons l'estimation, mais ce sera le
biais des sous-paramètres, et cela vous mènera au erreurs types incorrectes test des erreurs types incorrectes
et des hypothèses trompeuses.
Lorsque Hétérode, le projet de
l'homo sadicity, est présent, le modèle peut accorder trop d'importance à
certaines observations avec des résidus
importants mais ce sera le
biais des sous-paramètres,
et cela vous mènera au
test des erreurs types incorrectes
et des hypothèses trompeuses.
Lorsque Hétérode, le projet de
l'homo sadicity, est présent,
le modèle peut accorder
trop d'importance à
certaines observations
avec des résidus
importants et entraîner une insuffisance et
estimations peu fiables Alors, si nous ignorons cette homodatité, nous évoluerons
vers l'hétérodativité,
qui s'oppose
à l'homodatie que cette hérosétie présentera dans notre modèle ,
qu'en aurons-nous ? cette homodatité, nous évoluerons
vers l'hétérodativité,
qui s'oppose
à l'homodatie que cette hérosétie présentera dans notre modèle,
qu'en aurons-nous ? Ce que nous allons faire, c'est mettre davantage l'accent sur l'observation des valeurs résiduelles importantes, ce qui aura pour effet de rendre les estimations
efficaces peu fiables Des estimations, ce qui
rendra notre modèle très incohérent et
peu utile. Donc, pour identifier l'homo sédaticité,
il y a deux choses premier est un complot résiduel et le second est un
test païen Nous allons donc comprendre
ce qu'est un diagramme résiduel. Une méthode courante pour diagnostiquer l'
homosadsticité consiste à
tracer les valeurs résiduelles par rapport à la valeur prédite Ainsi, quelle que soit
la valeur prédite que
nous obtiendrons , nous traçons les valeurs résiduelles par
rapport aux valeurs prédites ou aux variables indépendantes
dans un diagramme des valeurs résiduelles Si l'écart des valeurs résiduelles
semble grossièrement restreint
sur toute la plage, les valeurs prédites ou les variables
indépendantes, l'homocdstcity aux variables indépendantes
dans un diagramme des valeurs résiduelles.
Si l'écart des valeurs résiduelles
semble grossièrement restreint
sur toute la plage, les valeurs prédites ou les variables
indépendantes,
l'homocdstcity est probablement prégnante. Toutefois, si la dispersion des résiduelles s'élargit ou se
rétrécit sous forme de valeurs prédites,
le changement d' le changement d' La deuxième technique
consiste à renforcer le goût païen. Il s'agit du
goût statistique utilisé pour définir formellement le goût pour l'homosexualité dans les analyses de
régression L'hypothèse nulle
du test païen de Brace est que variance des
valeurs résiduelles Alors que l'
hypothèse alternative est que la variance des valeurs résiduelles n'
est pas une hétérodensité constante Un résultat significatif indique une
preuve d'hérosédité. OK. Que va-t-il se passer ? Quelles seront les conséquences
de la violation de l'homosexualité ? Il y aura une estimation
biaisée. Les estimations des coefficients peuvent
être biaisées si
l'écart des valeurs résiduelles varie
systématiquement avec les valeurs des variables
indépendantes Erreurs types incorrectes : il
se peut que les
erreurs types soient
sous-estimées ou surestimées
, ce qui entraîne intervalle
de confiance et un test d'hypothèse incorrects. Dans le cas d'estimations efficaces,
l'efficacité des estimations des paramètres
peut être compromise réduit la capacité de l'analyse de
régression à détecter une véritable relation
entre les variables. Pour remédier à l'homo sadasticité, si l'homo sdstcity
est violée, si l'homo sdstcity
est violée,
plusieurs approches peuvent être envisagées. La transformation des
variables,
la transformation des variables dépendantes ou
indépendantes peuvent aider à stabiliser la variance des valeurs résiduelles,
pondérées
au carré de liste Utilisation d'une régression pondérée au
carré de litch où les observations sont pondérées en fonction de
leur variance et peuvent tenir compte de la sédativité des héros erreurs types robustes et techniques d'erreurs
standard
peuvent être utilisées pour
ajuster les erreurs types pour les
sédatifs héroïques sans
en présumer le détail. Forme de la structure de variance. L'homosadicité est donc exemption
cruciale dans la régression
linéaire qui garantit la validité et la fiabilité du
modèle d'estimation La détection et le traitement
des violations de l'homosexualité sont essentiels pour produire des résultats de régression précis et fiables Voilà donc ce qu'est l'homodacité et l'importance de
comprendre comment l'identifier,
il y a deux manières, puis nous avons vu les conséquences de la
violation de l'homo Ensuite, nous avons vu comment aborder l'homo sadasticité Il existe trois méthodes de
transformation des variables carrés de hangar
pondérés et des erreurs types
robustes. D'accord ? Dans la prochaine conférence, nous verrons ce qu'est la normalité. Elle participe donc à
la prochaine conférence.
139. Comprendre la normalité: Bonjour, et bon retour. Dans cette conférence,
nous allons donc
comprendre ce qu'est la normalité. normalité est un effet
de la régression linéaire
qui fait référence à la condition dans laquelle les
valeurs résiduelles ou les erreurs du modèle de régression sont distribuées Ainsi, lorsque les erreurs ou les valeurs résiduelles sont distribuées
normalement, on parle En d'autres termes, cela implique que la distribution
des résidus suit une courbe en cloche
ou une courbe en forme de cloche centrée autour La plupart des valeurs résiduelles étant
regroupées près de la moyenne et moins de
valeurs résiduelles Qu'est-ce que cela signifie réellement ? Cela signifie que lorsque les
erreurs de notre modèle ou les valeurs résiduelles de notre modèle de
régression
sont distribuées normalement.
Qu'est-ce que cela signifie ? Normalement distribué
signifie que la distribution des résidus suit la courbe en cloche où
le It est centré Il est centré. Toutes les
flèches sont centrées autour du zéro, la
plupart des valeurs résiduelles étant
regroupées près de la Donc, dans la plupart des cas, si vous regardez la
cloche, à quoi ressemble-t-elle ? Cela ressemble à ça, non ? OK. Laisse-moi utiliser un stylo. Si vous regardez une cloche, ce sera comme ça, non ? Il sera donc centré
autour de ce zéro, supposons. Et la plupart des valeurs
se rapprochent de cette
valeur moyenne, de cette valeur moyenne. OK, donc c'est ce que cela signifie. Cela devrait être comme des cloches où se trouvent la
plupart des valeurs. À travers la moyenne des valeurs. courbe bien formée était centrée sur le bras zéro, la plupart
des végétaux étant regroupés près de la moyenne et moins de
résidus Maintenant, l'importance de la normalité. normalité est une régression par
sauts importante, car nombreuses méthodes statistiques de goût
et d'estimation utilisées dans les analyses de régression reposent sur l'saut de normalité. Lorsque les valeurs résiduelles sont distribuées
normalement, cela indique que les erreurs sont
aléatoires et indépendantes
et que le centre de régression est estimé efficacement cela indique que les erreurs sont
aléatoires et indépendantes
et que le centre de régression est estimé efficacement
. Comment identifier la normalité à
l'aide du diagramme des valeurs résiduelles ? L'une des méthodes courantes pour évaluer
l'exemption de normalité consiste examiner un histogramme
ou un graphique Q Q, un diagramme quantile quantile Dans un diagramme Q Q, si les points se situent approximativement
le long de la diagonale, cela suggère que les valeurs résiduelles
sont distribuées normalement Sinon, un
histogramme du résidu ressemblerait à une carte b
step comme celle-ci OK. La méthode suivante
est le goût sapiro k. Il s'agit du goût
statistique utilisé pour tester formellement la
normalité des valeurs résiduelles L'hypothèse nulle du goût
du lait sapiro est le test
selon lequel les résidus sont Un résultat significatif indique preuves contre la
normalité. OK. Les conséquences d'une
violation de la normalité lors de l'analyse de
régression sont les mêmes que celles que nous avons
observées en termes d'homogénéité, estimation
biaisée Qu'est-ce que l'estimation biaisée ? estimations de Copicient peuvent être biaisées si les valeurs résiduelles ne sont inférence incorrecte signifie que l'intervalle de
confiance et le test d'hypothèse basés sur les distributions t
peuvent être invalides si les valeurs résiduelles ne sont pas
distribuées normalement prévisions inexactes se
produiront si nous violons la normalité, intervalles de
prévision peuvent ne
pas être fiables si l'exemption
de normalité Alors, comment aborder la normalité
si la normalité est violée, plusieurs approches peuvent être
envisagées pour y remédier Le premier est la transformation
des données qui transforme les données. La transformation des variables dépendantes et indépendantes peut contribuer à une distribution plus
normale des valeurs résiduelles Les transformations
courantes incluent la racine
logarithmique ou carrée ou la transformation contribuer à une distribution plus
normale des valeurs résiduelles. Les transformations
courantes incluent la racine
logarithmique ou carrée ou la transformation de boxcox. Une régression
robuste, des techniques de régression robustes
telles que les erreurs types robustes ou l'estimation peuvent être utilisées
pour estimer le
coefficient de régression dans les prégènes
des erreurs non normales Et puis le troisième
est le boostraping. Boost Strapping est une technique de
rééchantillonnage qui peut fournir inférence
robuste dans analyse de
régression sans porter atteinte à la normalité
. Nous pouvons donc conclure que
la normalité est une exemption de régression linéaire qui
garantit que la validité, l'efficacité et la fiabilité
du modèle de régression sont estimées correctement sans inférence Bien que les violations
de la normalité
ne soient pas toujours à l'origine de problèmes
importants, il est essentiel évaluer et de
corriger les écarts par rapport la normalité afin
de produire
un résultat de
régression précis et fiable OK. J'espère donc que vous avez également appris
ce qu'est la normalité. Dans la prochaine conférence,
nous comprendrons qu'il
n'existe pas de multicolinéarité parfaite Restez donc à l'affût de la prochaine conférence.
140. Comprendre l'absence de multicollinéarité parfaite: R et bon retour.
Dans cette conférence, nous allons découvrir ce qu'il n'y a pas de multicolinéarité
parfaite Aucune multicolinéarité parfaite n'
est donc une exemption que nous adoptons dans régression
linéaire qui
indique qu'il
ne doit y avoir aucune relation linéaire exacte entre les OK.
Les variables indépendantes sont les variables appelées également prédicteurs. Les variables indépendantes sont les prédicteurs et les valeurs que nous prédisons sont
appelées variables dépendantes En d'autres termes, cela implique que la
variable indépendante ne doit pas être une combinaison linéaire
parfaite des autres. Une
variable indépendante ne doit donc pas être une
combinaison linéaire parfaite des autres. Il ne devrait donc pas y avoir de
combinaison de linéarité. Importance de l'absence de
multicolinéarité parfaite Oui, multicolinarité se produit lorsque deux ou plusieurs
variables indépendantes d'
un modèle de régression sont fortement corrélées un modèle de régression la
multicolinarité se produit lorsque
deux ou plusieurs
variables indépendantes d'
un modèle de régression sont fortement corrélées entre elles. Ainsi, deux ou plusieurs variables
indépendantes ne
doivent pas être corrélées, fortement
corrélées entre elles Alors que la multicolinéarité elle-même
n'est pas multicolinéarité parfaite
peut entraîner problèmes
d'estimation du coefficient de régression
et compromettre l'interprétation du Identifier une matrice de
corrélation multiple parfaite. Une méthode courante pour
détecter la multicolinéarité consiste examiner la matrice
de
corrélation de variables indépendantes à examiner la matrice
de
corrélation de variables indépendantes. coefficient de corrélation
proche de plus un ou de moins un indique une forte relation
entre deux variables La deuxième méthode est le facteur d'
inflation de la variance VF, VF étant une mesure de la mesure dans
laquelle la variance du coefficient de
régression estimé augmente en raison de la multicolinéarité Un F F élevé signifie un facteur d'
inflation de la variance, une
valeur généralement
obtenue indique un niveau problématique
de multicolinéarité Que se passe-t-il si nous violons la colinéarité multicolaire parfaite
? Cela conduira à des estimations peu fiables et
fiables. Lorsque la
colinéarité multicoli parfaite existe, le modèle de régression
ne peut pas estimer un coefficient
unique pour chaque variable indépendante Par conséquent, les estimations des
coefficients deviennent instables et peu fiables Des solutions infinies. Avec une
multicolinéarité parfaite, il existe une
infinité de combinaisons d'estimations de coefficients qui Par conséquent, le
modèle de régression ne peut pas
déterminer de manière unique les problèmes
d'interprétation des coefficients. La colinarité multiple parfaite complique l'interprétation
des
estimations des coefficients individuels, car il devient
impossible d'isoler l'effet des
variables indépendantes des autres Comment effectuer une sélection parfaite de variables à
colinéarité multiple, supprimer une ou plusieurs variables
fortement corrélées du modèle,
hiérarchiser
les variables les plus fortement corrélées du modèle,
hiérarchiser
les variables les pertinentes sur le
plan théorique ou
celles qui sont plus étroitement associées à la variable dépendante . La transformation des données transforme
une ou plusieurs variables afin de réduire la colinarité multiple. Par exemple, la création de termes
d'interaction
ou de termes polynomiaux
peut aider à saisir relations
complexes
sans introduire de colinarité parfaite.
Régression des crêtes. La régression de crête est une
technique de régularisation qui permet de gérer colinarité multiple en ajoutant un terme de pénalité à la Ce terme de pénalité aide à stabiliser les estimations des
coefficients
et à atténuer l'effet de la multicolinéarité Ce sont les trois techniques très
efficaces que nous
pouvons utiliser pour atteindre la multicolinéarité
parfaite. La première est
la sélection variable Nous pouvons supprimer ou en ajouter supprimer une ou plusieurs
variables fortement corrélées du modèle Ensuite, la transformation des données, nous pouvons transformer une ou
plusieurs variables pour réduire la coolité multiple et la régression des
crêtes est une technique de régulation permettant de
gérer la multicolité en
ajoutant OK. Il est donc essentiel de garantir l'
absence de refroidissement multiple parfaite pour produire des résultats fiables et
interprétables dans le cadre d'une analyse de régression linéaire détection et
le traitement de la collarité multiple dès le début du processus de modélisation
peuvent contribuer à améliorer la précision et la stabilité
des estimations de régression Nous avons donc maintenant compris
l'homo sadisticité, la normalité et Maintenant, avec cette compréhension, nous allons
poursuivre notre
analyse de régression, notre compréhension. OK, alors regardez l'intérieur
de la prochaine conférence.
141. Notions de régression linéaire simples et formulation: Et bon retour.
Dans cette conférence, nous allons comprendre la régression linéaire
simple,
les concepts et la formulation. Ainsi,
comme nous l'avons vu
précédemment, la régression linéaire simple est également une
technique statistique de base utilisée pour modéliser la relation
entre deux variables, une variable dépendante, et une
variable dépendante est également connue sous variable de
réponse et
une variable
indépendante appelée variable
prédictive variable prédite
prédira donc une variable
dépendante Ici, nous
approfondirons le concept de
formulation de la régression
linéaire simple, explorant les
principes fondamentaux et les applications
pratiques de la régression linéaire
simple Le concept de
régression linéaire simple ,
nous le comprenons d'abord. Dans son code, la
régression linéaire simple vise à capturer la relation linéaire entre une seule variable indépendante x et une variable dépendante y. La relation repose sur
une équation linéaire y égale à x plus
c plus B t zéro. B zéro est zéro, nous l'avons déjà vu dans
la leçon précédente, est le point d'
interception ou l'intersection x et y est
la variable indépendante, y est la variable dépendante, et B un, Beta un est
un coefficient Nous en avons déjà
discuté ici. C'est Bêta zéro,
c'est B un, ceci, et voici x.
D'accord. Maintenant, le terme d'interception représente
la valeur de y lorsque x est nul, comme nous l'avons déjà vu et le coefficient de pente eta un indique la variation
de y
associée à la variation d'une unité de x. Donc, lorsque vous regardez ici, cette valeur eta va changer Maintenant, formulation d'une régression linéaire
simple. Estimation : estimation de la
pente correspondant à la zone bêta. Le coefficient de pente Bêta un est estimé à l'aide de la méthode des
moindres carrés, qui minimise la somme de différence
quadratique
entre les valeurs objectives et prédites de y. La formule pour estimer
Bêta un est égale à Sigma de x
i moins x à y moins y.
C'est la valeur prédite moins l'
objet moins la prévision,
divisée par Sigma off, divisée par Sigma off estimé à l'aide de la méthode des
moindres carrés,
qui minimise la somme de la différence
quadratique
entre les valeurs objectives
et prédites de y.
La formule pour estimer
Bêta un est égale
à Sigma de x
i moins x à y moins y.
C'est la valeur prédite moins l'
objet moins la prévision,
divisée par Sigma off, et voilà
variant d'égal à un, deux et xi moins
x. Carré entier. Où est le nombre
d'observations, x et y sont les
valeurs individuelles de x et y et x et y, s'agit de la moyenne de
l'échantillon de la moyenne x et la moyenne y la moyenne des x et y.
Estimation du bêta zéro. Une fois que le coefficient de pente
bêta un est estimé, le terme d'interception
bêta zéro peut être calculé à l'aide de la
formule bêta zéro, bar égal à y bar
moins bêta 1 bar, où x bar x barre bêta un est le coefficient de pente et x bar y bar sont les moyennes d'
échantillon de x et y. Voici
donc la formule
de formulation de la de formulation de la Application de la régression
linéaire simple, nous connaissons déjà en économie pour modéliser la
relation entre les revenus et
les
dépenses en finance, prévoir les cours des actions
sur la base de
données historiques, dans le domaine des soins de santé
et Ling la relation
entre l'âge du patient et les dépenses
médicales
et dans le domaine de l'éducation, et Ling la relation
entre l'âge du patient et les dépenses
médicales
et dans le domaine de l'éducation comme prédire
les performances des étudiants
en fonction des performances nous connaissons déjà en économie pour
modéliser la
relation entre les revenus et
les
dépenses en finance,
prévoir les cours des actions
sur la base de
données historiques, dans le domaine des soins de santé
et Ling la relation
entre l'âge du patient et les dépenses
médicales
et dans le domaine de l'éducation, comme prédire
les performances des étudiants
en fonction des performances
sur l'étude s. La régression linéaire
simple est donc un puissant outil
statistique pour modéliser et comprendre
les relations entre
les deux variables en stimulant la pente et le coefficient d'
interception. Les analystes peuvent quantifier
la force et orientation de la relation et faire des prédictions
sur la base des données observées Comprendre le concept
et la formulation de la régression linéaire
simple
est essentiel pour effectuer une analyse précise et
significative. Dans différents domaines. donc une longueur d'avance, nous y sommes allés et nous
avons compris comment se produit
la
formulation de régression linéaire simple. Et nous avons également compris
le concept. Nous en verrons donc plus sur cette régression linéaire simple
dans la prochaine conférence.
142. Expliquer la théorie de la méthode des moindres carrés: Et bon retour.
Dans cette conférence, nous allons donc comprendre ce qu'est
la méthode des moindres carrés. La méthode des moindres carrés est donc une approche couramment utilisée
dans la régression linéaire. Pour estimer le coefficient
de l'équation de régénération. Il vise à trouver la ligne qui correspond le mieux aux
données de l'objet en minimisant la somme des
différences carrées entre l'objet et les
valeurs prédites de la variable
dépendante Voici comment fonctionne la méthode des
carrés de liste. La première chose à faire est de définir
l'équation de régression. L'équation de régression pour un modèle de régression linéaire simple est généralement représentée par y égal à Bêta zéro plus Bêta un et deux x
plus ou epsilon, où y est une variable dépendante Nous l'appelons également
variable de réponse, x est variable indépendante, nous l'appelons variable prédictive Bêta zéro est le terme d'interception, Bêta un est slofficient
et Epsilon est le terme d'erreur, représenté par une variation Bêta un est slofficient
et Epsilon est le terme d'erreur, représenté par une variation inexpliquée. La deuxième étape consiste à calculer la valeur prédite à l'aide de l'équation de régression
donnée, calculer la valeur prédite, c'
est-à-dire pour chaque observation
de l'ensemble de données. Ensuite, la valeur prédite y
pour l'observation est donnée y y bar plus Bêta zéro plus Bêta un
dans xi où Bêta zéro et Bêta un sont des
coefficients estimés selon la méthode des moindres carrés. Maintenant, la troisième étape
sera de calculer le résidu. Le résidu de pour
chaque observation est la différence entre
la valeur
de l'objet de y et la valeur prédite, y hat colon i est
égal à deux, yi hat. Pour minimiser la somme
des valeurs résiduelles au carré. L'objectif de la méthode list squa est de minimiser la somme des valeurs
résiduelles quadratiques Mathématiquement, cela peut être
exprimé sous la forme de cette équation. Sigma deux n, Sigma F est égal à un à
n i au carré est égal à Sigma F y moins yi hat carré où je vais varier de un à
n. En minimisant cette somme,
nous obtenons la droite la mieux
ajustée qui
passe par nous obtenons la droite la mieux
ajustée qui les points de
données car elle
réduit l' écart global
entre les valeurs observées et
prévues de y.
Estimez le coefficient,
page de la cinquième étape. Estimez le coefficient,
page de la cinquième étape Pour trouver la valeur de bêta
zéro et de bêta un qui minimise la somme du calcul
résiduel au carré, des
dérivées partielles spéciales sont utilisées Les formules d'estimation du coefficient sont données telles quelles, où x bar où x bar
et ar échantillonnent les moyennes des x et y respectivement. Après avoir trouvé la
valeur à partir d'ici, étape
suivante consiste à interpréter
le coefficient Une fois que la barre
bêta zéro et la barre bêta 1 efficaces sont estimées, elles peuvent être
interprétées comme suit barre bêta zéro est un terme d'interception représentant le y
représentant la valeur de y où x est zéro et la barre
bêta 1 est le
coefficient de pente indiquant
la variation de y associée à une modification
unitaire de x. En appliquant cette méthode du carré de
liste, nous obtenons des estimations du coefficient qui
définissent
la meilleure
ligne d'ajustement pour les données données, ce qui nous permet de
quantifier relation entre les variables indépendantes et
dépendantes dans un modèle de
régression linéaire simple. C'est ainsi que fonctionne la méthode des
carrés de hangar, et c'est la théorie
qui sous-tend la méthode des carrés de liste.
143. Exemple de méthode des moindres carrés dans la régression linéaire: Bonjour et bon retour.
Dans la conférence précédente, nous avons vu la théorie qui sous-tend
la méthode des listes carrées. Dans cette conférence, nous allons exécuter ce
programme simple que j'ai écrit pour expliquer la méthode des listes quadratiques en régression
linéaire Ici, ce que je fais, je
génère des données synthétiques. Pour cela, j'utilise
set dot set 123. Cela définira l'ensemble
pour la reproductibilité. Ici, je prends X
comme une valeur de 1 à 200. Il s'agit d'une variable indépendante, donc x est une variable indépendante. variable dépendante
sera le y, et nous savons que la
recréation, désolé, la
formule linéaire simple est que y est égal à x plus c. Voici donc les deux de x que je
prends deux et deux x,
deux x plus un bruit aléatoire que je
prends ici en
utilisant la formule, utilisant la fonction norm, 100 et cela signifie que je prends zéro et la
divation standard je prends dix Cela nous donnera donc la variable dépendante
avec un certain bruit aléatoire. Maintenant, ce que je vais faire, ajuster le modèle de
régression linéaire en utilisant la liste carré par tiers. Ici, je vais créer le modèle de régression
linéaire en
utilisant les fonctions LM,
je vais créer le modèle et j'utiliserai la
fonction m, et ici, y sera la variable
dépendante, et x sera la variable
indépendante. Je crée le modèle de
régression linéaire ici. Je vais maintenant imprimer le modèle de régression
linéaire. Laissez-moi courir jusqu'ici. Voyez ici maintenant nous pouvons voir ici. Minimum de résidus. médiane du premier quartile est-elle le troisième quartile et le
maximum et le coefficient
que nous pouvons voir ici Norme résiduelle 9,1 sur
90 degrés de liberté, multiple R au carré 0,0 978 R carré
ajusté 0,0 Maintenant, je vais tracer les données,
ajuster et trouver la ligne ajustée. Pour tracer, j'utiliserai la fonction x et je garderai le titre
du graphique régression linéaire par les
moindres carrés
et x x, je dirais x et y, x p y, avec la droite ab, je vais essayer de trouver la droite de régression
ajustée. Je vais utiliser le modèle ici. Ce modèle de régression linéaire, que je vais utiliser pour la droite, j'utiliserai la couleur rouge. Maintenant, laisse-moi m'occuper de ça. Voyez maintenant ici, laissez-moi le faire. Voyez maintenant ici, pour chaque x, nous obtenons y et C, j'
obtiens une régression linéaire. Voici la droite de régression, la ligne rouge, j'arrive ici. Il s'agit de la
droite de régression linéaire
utilisant la méthode des moindres carrés Nous obtenons ainsi
cette droite de régression. Ici, nous avons utilisé la méthode des moindres carrés pour
trouver la droite de régression. Découvrez l'intérieur de la prochaine conférence.
144. Conclusion et travail de projet: Salut les gars, nous avons donc appris
la programmation artistique et nous sommes prêts à utiliser nos connaissances en programmation. Et nous pouvons désormais mettre en œuvre ces connaissances de programmation artistique dans les domaines de la science des données et de l'apprentissage
automatique. D'accord, à partir de maintenant, vous êtes prêt à implémenter des algorithmes de science des données
et d'apprentissage automatique à
l'aide de notre programmation. Notre programmation est donc claire. Vous avez maintenant chargé. La prochaine étape
consiste maintenant à implémenter algorithmes de science
des données et
d'apprentissage automatique dans notre programmation
et à essayer de les explorer. C'est donc la prochaine étape. Vous pouvez maintenant aller plus loin et commencer à analyser les données à l'aide R et implémenter des
algorithmes de machine learning
tels que la régression linéaire
à l'aide de la programmation R. Ce sont donc les
choses que vous pourrez
approfondir après avoir
terminé ce cours. Ensuite,
quel est votre projet
pour ce cours ? Vous pouvez donc maintenant créer
vos propres données, comme j'ai créé des données sur les
employés dans un fichier CSV. Vous pouvez également créer
vos propres données dans un fichier CSV pour ce
cours, ce travail de projet. Et essayez de lire ce fichier
CSV par le biais de l'art. Essayez ensuite d'effectuer une analyse de
données sur ces données, sur les données de ce fichier CSV en utilisant l' art, comme nous l'avons
fait dans notre classe. Et essayez de créer des
tableaux et des graphiques basés sur des données, comme les données
de réadaptation de nos employés. De même, vous pouvez
penser à un problème, une donnée, et vous effectuez
toutes ces tâches. Et une fois que vous aurez terminé, disons, votre rapport
d'analyse final. Par exemple, quelles sont les choses que vous aurez découvertes
à partir des données ? Et essayez de créer un rapport et essayez de créer des graphiques et des tableaux. Et essayez de mettre cela dans
la section projet de ce cours afin que nous puissions
tous le parcourir. leçons de votre expérience, apprenez de votre projet
et n'échangez pas de
commentaires constructifs les uns avec les autres. Ainsi, lorsque vous enregistrez votre
projet, tous les autres étudiants. Et même moi, je peux passer par là
et même dire
que les commentaires et les autres l'examinent et se font part
de leurs commentaires. Et grâce à cela, nous
pouvons apprendre et grandir. Commencez donc à définir et à
publier votre projet. C'est tout pour ce cours. J'espère que vous avez apprécié
ce cours et que vous avez appris notre programmation pour vos
futurs projets de science des données et d'apprentissage automatique. Au revoir, au revoir, prends soin de toi.