Bootcamp de programmation R pour la science des données et l'apprentissage automatique

Sunil Kumar Gupta

Bénéficiez d'un accès illimité à tous les cours

Suivez des cours enseignés par des leaders de l'industrie et des professionnels

Explorez divers sujets comme l'illustration, le graphisme, la photographie et bien d'autres

Bénéficiez d'un accès illimité à tous les cours

Suivez des cours enseignés par des leaders de l'industrie et des professionnels

Explorez divers sujets comme l'illustration, le graphisme, la photographie et bien d'autres

Leçons de ce cours

- 1.
  
  Introduction
  
  1:15
- 2.
  
  Installation R
  
  7:15
- 3.
  
  Installer et explorer RStudio
  
  11:34
- 4.
  
  Pourquoi apprendre R
  
  5:15
- 5.
  
  Premier programme R et opérateurs dans R
  
  11:06
- 6.
  
  Types de données dans R
  
  8:33
- 7.
  
  Créer des vecteurs dans R
  
  5:49
- 8.
  
  Séquence dans R
  
  14:59
- 9.
  
  Fonction de répliquer
  
  5:09
- 10.
  
  Accéder aux éléments vectoriels
  
  8:04
- 11.
  
  Manipulation de vecteurs dans R
  
  5:39
- 12.
  
  Recyclage d'éléments vectoriels
  
  5:22
- 13.
  
  Trier les éléments vectoriels
  
  5:35
- 14.
  
  Prise de décision dans R
  
  9:55
- 15.
  
  Commande de boucle à l'aide de la boucle repeat et while
  
  6:18
- 16.
  
  Pour la boucle et la prochaine déclaration
  
  5:10
- 17.
  
  Fonctions dans R
  
  13:01
- 18.
  
  Matrices dans R
  
  13:04
- 19.
  
  Facteurs dans R
  
  7:53
- 20.
  
  Cadres de données dans R
  
  16:14
- 21.
  
  Combiner des cadres de données
  
  9:03
- 22.
  
  Analyser les données dans R à partir d'un dossier CSV
  
  18:44
- 23.
  
  Créer un graphique à secteurs dans R
  
  8:30
- 24.
  
  Analyser les données des employés
  
  13:30
- 25.
  
  Lire le dossier excel dans R
  
  7:05
- 26.
  
  Lire un dossier xml dans R
  
  13:45
- 27.
  
  Lire le dossier JSON dans R
  
  9:30
- 28.
  
  Créer un terrain de bar
  
  14:06
- 29.
  
  Graphique à barres empilées dans R
  
  5:33
- 30.
  
  Boxplot dans R
  
  9:04
- 31.
  
  Boxlot à l'aide de jeux de données mtcars
  
  10:37
- 32.
  
  Terrain de boîte avec encoche
  
  7:04
- 33.
  
  Histogramme et distribution d'Histogramme
  
  11:12
- 34.
  
  Dessiner un histogramme à l'aide de la fonction hist
  
  12:53
- 35.
  
  Utiliser les pauses xlim ylim dans l'histogramme
  
  14:19
- 36.
  
  Tableau en lignes de base pour les séries chronologiques avec ggplot2
  
  19:56
- 37.
  
  Tracer et matrices d'intrigue dans R
  
  16:24
- 38.
  
  Trouver la moyenne dans R
  
  19:00
- 39.
  
  Trouver la médiane et le mode dans R
  
  18:33
- 40.
  
  Qu'est-ce que la régression linéaire
  
  16:51
- 41.
  
  Prédiction à l'aide d'un modèle de régression linéaire
  
  15:11
- 42.
  
  Lire le CSV, créer un modèle de LR et prédire
  
  11:11
- 43.
  
  Régression multiple
  
  10:18
- 44.
  
  Prédire le kilométrage de voiture à l'aide de la régression multiple dans R
  
  9:36
- 45.
  
  Régression logistique
  
  14:18
- 46.
  
  Distribution normale
  
  5:58
- 47.
  
  Distribution normale à l'aide des fonctions dnorm et pnorm
  
  8:08
- 48.
  
  Distribution normale à l'aide de qnorm et de rnorm
  
  4:54
- 49.
  
  Récursion dans R
  
  7:24
- 50.
  
  Trouver la factorielle d'un nombre à l'aide de la récursion dans R
  
  5:42
- 51.
  
  Échantillonner de données d'une population
  
  9:41
- 52.
  
  Programme pour vérifier les nombres premiers
  
  14:52
- 53.
  
  Programme pour vérifier EVEN ou ODD
  
  5:09
- 54.
  
  Programme pour vérifier les positifs négatifs ou ZÉRO
  
  3:32
- 55.
  
  Programme pour vérifier l'année bissextile ou NON
  
  6:20
- 56.
  
  Programme pour la table de multiplication
  
  3:07
- 57.
  
  Quelles sont les valeurs manquantes et les types de valeurs manquantes
  
  12:40
- 58.
  
  Imposer des NAs de valeurs manquantes dans un jeu de données
  
  7:18
- 59.
  
  Imposer des valeurs manquantes à l'aide de la méthode PMM
  
  16:40
- 60.
  
  Analyser les ensembles de données à l'aide des fonctions R
  
  13:25
- 61.
  
  Manipulation de données à l'aide du paquet dplyr
  
  18:43
- 62.
  
  Introduction aux tableaux de bord interactifs brillants dans R
  
  7:01
- 63.
  
  ShinyApp créer un tableau de bord interactif avec Shiny
  
  15:02
- 64.
  
  Quelques exemples d'applications brillantes dans R
  
  15:08
- 65.
  
  2 File Shiny App dans RStudio
  
  4:16
- 66.
  
  Générer des rapports téléchargeables dans Shiny
  
  6:54
- 67.
  
  Analyse de la covariance
  
  13:31
- 68.
  
  Handson avec la bibliothèque dplyr
  
  17:46
- 69.
  
  Régression linéaire simple à l'aide d'un ensemble de données sur la qualité de l'air
  
  7:59
- 70.
  
  Faire face aux valeurs manquantes
  
  5:44
- 71.
  
  Tester les valeurs manquantes
  
  7:50
- 72.
  
  Recoder les valeurs manquantes
  
  4:39
- 73.
  
  Arbre de décision
  
  10:13
- 74.
  
  Entropie et gain d'informations
  
  6:29
- 75.
  
  Consulter l'entropie dans l'arbre de décision
  
  9:36
- 76.
  
  Consulter un gain d'informations pour l'arbre de décision
  
  12:18
- 77.
  
  Arbre de décision dans R
  
  11:57
- 78.
  
  Avantages et désavantages de l'arbre de décision
  
  10:01
- 79.
  
  Introduction du projet 1
  
  4:14
- 80.
  
  Projet 1 - Prédire les prix des actions
  
  13:52
- 81.
  
  Analyse de données Uber du projet 2 à l'aide de R
  
  30:04
- 82.
  
  Segmentation des clients du projet 3 à l'aide de R
  
  11:35
- 83.
  
  Segmentation de clients à l'aide de R
  
  12:02
- 84.
  
  Projet 4 - Introduction - Recommandation de films
  
  20:02
- 85.
  
  Projet 4 - Partie 1- Système de recommandation de films à l'aide de R
  
  12:53
- 86.
  
  Projet 4- Partie 2- Système de recommandation de films
  
  19:11
- 87.
  
  Détection de la fraude par carte de crédit
  
  16:20
- 88.
  
  Importance de la détection de la fraude en ligne
  
  10:12
- 89.
  
  Gérer un ensemble de données déséquilibré
  
  16:22
- 90.
  
  Détection de la fraude sans modèle
  
  15:25
- 91.
  
  Créer des ensembles de données de formation et de test
  
  9:01
- 92.
  
  Méthodes d'échantillonnage aléatoire sur et sous l'échantillonnage
  
  9:33
- 93.
  
  Utiliser ROS et RUS ensemble pour l'équilibrage de données
  
  6:26
- 94.
  
  Avantages et désavantages de SMOTE
  
  4:13
- 95.
  
  Appliquer la technique SMOTE sur le jeu de données de formation
  
  9:00
- 96.
  
  Prédire les cas de transactions par carte de crédit avec le modèle
  
  6:22
- 97.
  
  Introduction à ggplot2
  
  22:24
- 98.
  
  Scatter et l'intrigue nerveuse
  
  11:41
- 99.
  
  Terrain de bar et Hostogram
  
  11:39
- 100.
  
  Tableau à secteurs avec ggplot2
  
  5:56
- 101.
  
  Traces de lignes à l'aide de ggplot2
  
  17:21
- 102.
  
  Visualisation de données avec ggplot2
  
  24:21
- 103.
  
  Ajouter l'esthétique des couleurs aux parcelles
  
  11:44
- 104.
  
  Astuce pour l'esthétique de l'intrigue
  
  8:10
- 105.
  
  Modifier des thèmes, des étiquettes, des thèmes et des axes à l'aide de la fonction de thème
  
  8:17
- 106.
  
  Projet 6
  
  9:01
- 107.
  
  Gérer les données de date et d'heure dans ggplot2
  
  13:21
- 108.
  
  Fonctions POSIXct et POSIXlt avec exemple
  
  9:00
- 109.
  
  Projet 7 Transformation des données et récapitulation
  
  9:22
- 110.
  
  Filtrage de données et échelles de couleur du projet 7 partie 2
  
  15:00
- 111.
  
  Créer des parcelles interactives avec de manière complexe et ggplotly
  
  13:56
- 112.
  
  Introduction à Plotly et aux fonctionnalités clés
  
  6:52
- 113.
  
  Travailler avec Plotly
  
  23:04
- 114.
  
  Créer des tracés 3D dans R
  
  10:09
- 115.
  
  Créer des terrains interactifs avec Highcharts
  
  8:25
- 116.
  
  Projet 8 Visualiser les données d'Airbnb à New York
  
  9:35
- 117.
  
  Projet 9 COVID 19 Analyse et visualisation de données
  
  16:40
- 118.
  
  Projet 10 Dessiner des fleurs à l'aide des mathématiques dans R
  
  24:06
- 119.
  
  Projet 11 Analyser et visualiser les lauréats du prix Nobel à l'aide de R
  
  22:22
- 120.
  
  Projet 12 Trouver la force des mots-clés à l'aide de R
  
  11:17
- 121.
  
  Introduction à l'apprentissage automatique
  
  14:27
- 122.
  
  Le rôle de l'apprentissage automatique
  
  11:33
- 123.
  
  Types d'apprentissage automatique
  
  14:37
- 124.
  
  Flux de travail d'apprentissage automatique
  
  11:54
- 125.
  
  Principe de GIGO
  
  14:08
- 126.
  
  Algorithmes d'apprentissage supervisés
  
  16:53
- 127.
  
  Régression linéaire
  
  10:15
- 128.
  
  Effectuer une régression linéaire dans R
  
  11:03
- 129.
  
  Prédire la taille d'une personne à l'aide de la régression linéaire
  
  10:34
- 130.
  
  Régression logistique
  
  8:30
- 131.
  
  Prédiction de churn des clients à l'aide de la régression logistique
  
  7:11
- 132.
  
  Algorithme KNN
  
  7:51
- 133.
  
  Implémenter kNN
  
  5:52
- 134.
  
  Arbre de décision et forêts aléatoires
  
  11:56
- 135.
  
  Algorithme de machines vectorielles de soutien
  
  17:21
- 136.
  
  Comprendre l'analyse de régression
  
  10:06
- 137.
  
  Comprendre le modèle de régression linéaire
  
  9:48
- 138.
  
  Comprendre la cédasticité
  
  7:40
- 139.
  
  Comprendre la normalité
  
  6:11
- 140.
  
  Comprendre l'absence de multicollinéarité parfaite
  
  6:12
- 141.
  
  Notions de régression linéaire simples et formulation
  
  4:59
- 142.
  
  Expliquer la théorie de la méthode des moindres carrés
  
  4:19
- 143.
  
  Exemple de méthode des moindres carrés dans la régression linéaire
  
  3:42
- 144.
  
  Terminer et travailler sur le projet
  
  2:54

Niveau débutant

Niveau intermédiaire

Niveau avancé

Tous niveaux

279

apprenants

projets

À propos de ce cours

Le cours intensif "R Programming Bootcamp for Data Science and Machine Learning" est un cours intensif destiné à équiper les étudiants avec le savoir et les compétences essentielles nécessaires pour analyser les données et créer des modèles d'apprentissage automatique à l'aide du langage de programmation R.

Au cours du cours, les étudiants apprendront à utiliser R pour la manipulation de données, la visualisation et l'analyse statistique. Ils apprendront également à appliquer divers algorithmes d'apprentissage automatique tels que la régression linéaire et les arbres de décision pour résoudre des problèmes du monde réel.

Le cours couvrira les sujets suivants :

Introduction au langage de programmation R
Manipulation de données avec R
Visualisation de données avec R
Analyse statistique avec R
Régression linéaire
Arbres de décision
Créer et évaluer des modèles d'apprentissage automatique avec R
Applications de R dans la science des données et l'apprentissage automatique
Projet - Prédire les prix des actions à l'aide de R

Les étudiants auront l'occasion de travailler sur des exercices et des projets pratiques pour appliquer leur savoir dans des scénarios du monde réel. À la fin du cours, ils auront une base solide dans les techniques de programmation R et d'apprentissage automatique, ce qui leur permettra de créer des modèles prédictifs et d'extraire des insights à partir de données.

Rencontrez votre enseignant·e

Sunil Kumar Gupta

Enseignant·e

I have 12+ years of experience working in IT industry working for companies like HCL and Infosys.

He has done his Machine Learning and Artificial Intelligence course from IIM- Kozhikode.

He has done B.Tech(CSE) from SRM University, Chennai.

I have worked and trained students on various technologies including Data Science, AI, ML, Python, Java, Software Development etc.

Voir le profil complet

Compétences associées

Développement Plus en développement Science des données

Level: Beginner

Projet de cours pratique

Le projet "Predicting Stock Price using R" vise à créer un modèle d'apprentissage automatique capable de prédire les cours des actions futurs d'une entreprise sur la base de données historiques sur les cours des actions.

Après avoir terminé le cours, les étudiants doivent suivre les étapes indiquées dans la leçon sur le projet et terminer le projet discuté dans la leçon. Les étudiants peuvent télécharger et utiliser le dossier de données « googlestockprice.xlsx » ci-joint et utiliser le même script R pour exécuter le projet.

Après avoir terminé le projet, les étudiants doivent télécharger la capture d'écran de la sortie finale en créant un projet dans la section projet de ce cours pour obtenir des retours et des révisions.

Notes attribuées au cours

Pourquoi s'inscrire à Skillshare ?

Suivez des cours Skillshare Original primés

Chaque cours comprend de courtes leçons et des travaux pratiques

Votre abonnement soutient les enseignants Skillshare

Apprenez, où que vous soyez

Suivez des cours où que vous soyez avec l'application Skillshare. Suivez-les en streaming ou téléchargez-les pour les regarder dans l'avion, dans le métro ou tout autre endroit où vous aimez apprendre.

Transcription

1. Introduction: Bonjour et bienvenue au camp d'entraînement de programmation de classe R pour la science des données et l'apprentissage automatique. Dans ce cours, je vais vous apprendre à ajouter de la programmation, qui est le deuxième langage de programmation le plus populaire utilisé dans les domaines de l'apprentissage automatique et de la science des données. Le premier casier, Python. Donc, si vous souhaitez apprendre la programmation R et exceller dans votre carrière en science des données et en apprentissage automatique, ce cours est fait pour vous. Je suis Sunil, votre professeur pour ce cours. J'ai travaillé pendant des années dans des sociétés de développement de logiciels et des analystes technologiques au cours des 12 dernières années et j'ai enseigné des sujets liés à la science des données et à l'apprentissage automatique au cours des six dernières années . Je vais donc vous apprendre la programmation , des bases aux sujets les plus avancés. Et nous verrons comment utiliser notre programmation sans loi pour analyser les données, pour visualiser les données et comment nous pouvons utiliser la programmation R pour créer nos modèles de science des données et d'apprentissage automatique à utiliser dans les domaines de l'apprentissage automatique et de la science des données. Donc, si vous êtes intéressé par l'apprentissage et programmation pour la science des données et l'apprentissage automatique, ce cours est fait pour vous. Donc, si vous êtes intéressé, inscrivez-vous à ce cours, je vous verrai lors de la prochaine conférence. Merci. 2. Installation R: Bonjour et bienvenue. Donc, dans cette conférence, nous allons voir le processus d'installation artistique. Et à la fin de cette conférence, nous pourrons exécuter nos programmes dans notre console. Commençons donc à installer R sur notre machine. Nous devons aller sur le site Web. Les canaux de la glande granifère sont un projet de trait d'union. Observation dans le noir. Cnn Dot are Hyphen Project ou Towards you, qui est le site officiel de notre programmation. Et vous pouvez consulter une archive R complète. Lorsque vous venez ici, vous constaterez peut-être un rythme différent si nous arrivons à un moment différent au bout de quelques mois. Mais plus ou moins, vous verrez le Comprehensive R Archive Network ici. Et puis ici, vous verrez télécharger et installer R. Et ici, vous verrez les différentes options du système d'exploitation que vous pouvez télécharger R4. Nous voici donc sur la machine Windows. Je vais donc opter pour ce téléchargement R pour Windows. Si vous utilisez Linux ou macOS, vous pouvez accéder aux systèmes d'exploitation correspondants. Nous devons donc cliquer sur le téléchargement R pour le système d'exploitation correspondant à mes enfants. Je clique sur les fenêtres. Ici. Vous pouvez sélectionner installer R pour la première fois. D'accord ? Et voici le téléchargement de R pour point ou point pour Windows. Cliquez dessus ou non. Ou un trait d'union, quatre points, 0, n2, un trait d'union, un point vert, le fichier EXE commencera à se télécharger. Il s'agit du fichier de 83,6 Mo. Et mon Internet est un peu lent aujourd'hui, depuis le matin. Cela prend donc du temps. Si vous êtes sur Internet haut débit, cela peut prendre quelques minutes et le fichier dot EXE sera téléchargé. Il suffit d'attendre qu'il soit téléchargé. Et une fois que ce sera fait , nous commencerons le style et le processus. Le fichier Dot EXE a maintenant été téléchargé. Nous devons double-cliquer dessus. Et vous serez invité à installer l'œuvre d'art. Il suffit de cliquer sur Oui pour autoriser l'administrateur à accéder au processus d'installation. Et une fois que vous aurez fait cela, l'invite d'écoute des histones se présentera comme suit. Et ici, nous devons sélectionner la langue pour que vous puissiez sélectionner la vôtre et cliquer sur. D'accord. Nous devons maintenant connaître les conditions de Thompson, comme contrat de licence publique générale GNU. Vous devez donc le lire , puis nous devons cliquer sur Suivant. Vous pouvez maintenant sélectionner le répertoire. Je le garde dans le répertoire par défaut du fichier C. Et nous devons cliquer sur Suivant. La chose existe déjà parce qu'elle était déjà là. Il me suffit donc de cliquer pour installer de quelque manière que ce soit. Cliquez dessus et vous pouvez le laisser tel quel et cliquer sur Suivant. Cliquez sur Suivant. Ici, vous pouvez, si vous le souhaitez, sélectionner pour ne pas créer le dossier du menu Démarrer, d'accord ? Si tu veux, je veux être créé. Je vais donc cliquer sur Suivant. Et ici, vous devez sélectionner, il vous suffit de sélectionner les données. Les gouttes suivantes sont des raccourcis qui vous permettent lancer facilement l'illustration. Chaque fois que vous voulez écrire un programme, vous pouvez simplement cliquer sur cet intestin de tracé supplémentaire et le programme peut commencer. Cliquez sur Suivant. Et maintenant, l' étrange est en train de s'installer sur notre système. Cela peut prendre quelques minutes. À peine. Cela prendra deux à 3 minutes tout au plus. C ici. Maintenant, la partie rpart, nous sommes à l'intérieur, point ou point à point, rigide. Et il dit que c'est fini. Il suffit donc de cliquer sur la finition et R est installé sur votre machine. Pour vérifier si cet objet est installé ou non, vous devez cliquer sur le menu Démarrer de Windows et il vous suffit faire défiler l'écran vers le bas pour vérifier si des artistes ne le sont pas. Voir ici. Voici le dossier artistique. Et lorsque vous cliquez dessus, cliquez sur le dossier artistique, vous verrez que les deux options sont I1, I3, un T6, et ajoutez un tel T4. Donc, si vous utilisez un système d'exploitation Windows 7 ou Windows 10 ou supérieur, vous pouvez opter pour la version quatre bits. Sinon, vous pouvez opter pour le 386. OK, donc je suis sur des machines à moins de 64 bits, donc je vais cliquer dessus et r sera perdu. Voici donc le R Do Re, et voici la console R. Et ici, nous pouvons commencer à écrire le programme cardiaque. Supposons que j'aime quatre plus cinq et que ça me donne neuf. Si vous écrivez le simple programme Hello World pour l'art. Nous devons donc écrire. Et puis, entre guillemets, Hello world, et Hello world s'affichera. Alors à tout de suite. Il s'agit du simple programme Hello World en R. Voici donc comment nos programmes peuvent s'exécuter dans la console. Mais pour ce cours, nous n'allons pas utiliser l'interface graphique de notre console. Au lieu de cela, nous allons utiliser RStudio, qui est un IDE pour R. Et c'est option la plus préférable et pour poursuivre la programmation R. Dans la prochaine conférence, nous allons donc commencer à télécharger et à installer RStudio. Vous me verrez lors de la prochaine conférence. 3. Installer et explorer RStudio: Dans la conférence précédente, nous avons téléchargé et installé sur notre machine. Et nous avons vu comment travailler avec la console d'art, n'est-ce pas ? Oui. Mais nous n' allons pas poursuivre. Nous allons donc télécharger RStudio pour ce cours. Et tout au long de ce cours, nous utiliserons RStudio. Rstudio est un environnement de développement intégré (IDE ) pour la programmation R. Et avec cela, nous pouvons faire les choses facilement et gérer les choses de manière organisée. AD aide beaucoup à la programmation. Nous pouvons donc enduire facilement et voir les résultats. La semaine prochaine, nous opterons donc pour le RStudio. Donc, tout d'abord, nous devons télécharger RStudio. Donc, pour télécharger RStudio, nous devons nous rendre sur le site art studio.com. Ceci est le site officiel de RStudio. Et lorsque nous atteindrons le site Web de RStudio, vous verrez les différentes options telles que les produits, solutions, les clients, les ressources et bien d'autres choses. Et en haut, vous pouvez voir que le téléchargement ne cliquera pas dessus. Avant cela, nous allons juste voir quels sont les produits de level chez RStudio. Il y a donc notre studio, le premier IDE pour R. Ensuite serveur RStudio, c'est leur signe, est déjà là. Et les packages RStudio sont également présents. Nous allons donc utiliser RStudio, l'ID, puis nous utiliserons des packages R pour diverses utilisations lorsque nous exporterons cet apprentissage automatique de la science des données . Toutes ces choses utiliseront ensuite des packages R. OK, donc les packages RStudio et R que nous allons utiliser. Cliquez donc sur RStudio. RStudio est donc un environnement de développement intégré pour l'art. Il inclut un éditeur de mise en évidence de la syntaxe de la console qui prend en charge l'exécution directe du code, ainsi que des outils de traçage, historique, de débogage et de gestion du contenu. OK, donc toutes ces choses que nous pouvons faire avec RStudio, nous allons utiliser la dernière version RStudio un point trois. Et il existe deux versions de RStudio niveau supérieur, à savoir RStudio Desktop et RStudio Server. Nous n'allons donc pas utiliser le serveur RStudio. Nous allons utiliser RStudio sur nos deck-stops, donc nous allons cliquer dessus. Et quand vous verrez un autre espace de stockage supplémentaire, encore une fois, vous verrez les deux options : open source, qui est essentiellement gratuite, et RStudio Desktop Pro, qui est destiné à un usage commercial et pour que cet artiste puisse lire Extra Pro, nous devons payer 995 dollars. Nous n'allons pas utiliser celui-ci à des fins commerciales. Pour ce cours, nous allons utiliser la version open source gratuite de RStudio, c' est-à-dire une troisième version GPL, sous licence gratuite. Je vais donc cliquer dessus. Téléchargement, RStudio extra. Cliquez dessus. Et lorsque vous cliquez dessus, vous entrez dans la phase de téléchargement difficile. Et ici, nous pouvons choisir cette version gratuite et cliquer sur Télécharger. Et lorsque vous cliquez sur Télécharger, vous accédez à votre système d'exploitation respectif. Nous avons terminé. Je vais donc télécharger RStudio pour Windows. Si vous utilisez un autre système d'exploitation, vous pouvez cliquer dessus. Comme Coben, macOS, Fedora, BBN, quel que soit votre système d'exploitation, il vous suffit de sélectionner ce fichier et de cliquer sur Télécharger. Je vais donc télécharger RStudio pour Windows et cliquer dessus. Et le fichier EXE Artists, Artist Studio Dot sera téléchargé. Le téléchargement commencera ici. Je vais donc attendre ça. Ce fichier EXE RStudio point a donc été téléchargé, me suffit donc de double-cliquer dessus. L' assistant de configuration So Artists Reduce a démarré. Alors pourquoi simplement cliquer sur Next Next ? vous suffira de cliquer sur Next Next et ce sera fait. Pas besoin de faire quoi que ce soit de plus. Cliquez donc sur Next, Next, Next. Et ce sera fait en quelques minutes. La configuration du studio d'artiste est donc terminée. Vous cliquez simplement sur Terminer et RStudio est complètement bloqué sur vos machines ou maintenant, l'application de tâches en panne est là, cliquez simplement sur Conduite. Un studio d'artiste sera lancé. Les zones Cell sont donc chargées. Rstudio, Eh bien, il semblerait que cette année, vous aurez la possibilité d'écrire votre script. Et voici la console où nous pouvons voir les résultats de ces scripts. Et puis, dans ce coin supérieur droit vous pouvez voir l' environnement, l'histoire. Quelle que soit la commande et suppression, nous utilisons Dorsal Stream. Vous pouvez alors voir cette connexion, puis le tutoriel. Donc, si vous voulez en savoir plus sur un package en particulier ou quelque chose comme ça, vous pouvez vous rendre ici et en savoir plus à ce sujet. Et puis ici, vous pouvez voir les fichiers du répertoire de travail. Les fichiers seront affichés ici. Ensuite, les tracés, lorsque nous utilisons des tracés et tous les graphes, et si nous utilisons un paysage pour tracer quelque chose sous forme graphique, tous ces tracés et tout le reste seront bientôt disponibles. Les packages que nous utilisons dans notre script. Ces packages seront de notre niveau ici. Donc, tous les packages qui sont installés ici. Et vous pouvez simplement sélectionner, et si vous souhaitez supprimer ce package, vous pouvez le supprimer à partir d'ici. Si vous souhaitez en savoir plus sur le package, vous pouvez cliquer sur ce lien en savoir plus sur le package. Vous pouvez donc voir ici le nom du package , puis la description du package et le libellé du package, puis explorer puis supprimer le mob. L'option package existe. Si vous souhaitez installer un nouveau package, vous suffit de cliquer sur Installer et nouveau nom du package pour spécifier le nouveau nom du package pour le télécharger. OK, et puis voici une opération d'aide et vous voulez en savoir plus sur R et RStudio, ou voulez-vous consulter les manuels sont volumineux, vous pouvez y les manuels sont volumineux, aller et obtenir de l' aide sur n'importe quel sujet, d'accord, alors nous avons vu connexins et des didacticiels et tout sera là. Et à partir de là, les trois points. Vous pouvez voir que lorsque vous cliquez dessus, vous pouvez sélectionner le répertoire de travail que vous souhaitez définir pour votre RStudio. Supposons donc que vous sélectionniez notre 2020 comme répertoire de travail. Je vais donc simplement sélectionner cela. Ensuite, nous devons cliquer sur cette option supplémentaire et l' option Définir comme répertoire de travail est qu'il vous suffit de cliquer dessus. Donc, senior set, WD a dit que WE est la commande permettant de définir notre répertoire de travail. Donc, bénéficiaire de la subvention imprimée à deux points en C ou D. Cette arborescence a été définie sur le répertoire de travail. Donc, si vous ne voulez pas le faire à partir d'ici, vous pouvez utiliser cette commande pour définir le répertoire de travail, d'accord ? Et puis ici, vous pouvez créer un nouveau dossier, vous pouvez le supprimer, vous pouvez renommer toutes ces options à notre niveau ici et ici, nous pouvons simplement écrire notre script par plus de cinq. Et cette exécution, vous pouvez sélectionner cette ligne et cliquer sur Exécuter. Ce script ou cette instruction s' exécutera et vous verrez le résultat ici, phi plus pipe, alors vous pouvez simplement. Si vous voulez imprimer quelque chose, bonjour, RStudio et que vous voulez cliquer sur Exécuter, vous verrez qu'il y a LTL hello, RStudio. D'accord ? Et dans l'historique, vous verrez toutes les commandes en cours de calcul. D'accord ? Voici donc les éléments et ce fichier que vous pouvez enregistrer. Si vous souhaitez enregistrer ce fichier, vous pouvez cliquer sur Enregistrer, et il sera enregistré dans votre répertoire de travail actuel. Vous pouvez donc donner n'importe quel nom en rouge. Il sera enregistré dans notre fichier. D'accord, de même, si nous voulons créer un nouveau fichier, vous suffit de cliquer ici et vous verrez le groupe de l'artiste. Vous allez créer notre fichier de script, notre bloc-notes ou notre fichier R Markdown. Nous verrons ce qu'est le fichier R Markdown. Nous allons en apprendre davantage sur cette méthode agile. D'accord ? Ensuite, si vous cliquez, vous pouvez créer un nouveau projet ou un nouveau répertoire, ou vous pouvez accéder au répertoire existant. Et ici, vous pouvez voir le contrôle de version. D'accord ? Voici donc les différentes options de niveau. Si vous cliquez à nouveau sur le fichier, vous verrez le nouveau script File R. McDonald's, ces choses que vous pouvez voir ici. Et des parcelles aurifères que nous avons vues ici. Même chose. Les outils de création et de débogage ne le sont pas. Nous allons donc explorer toutes les options pour savoir quand et où cela est nécessaire. Et nous allons explorer toutes ces choses pour le moment. C'est la partie de l'écriture du script, et ici nous verrons qu'il s'agit d'un juge, et ici nous pouvons voir répertoire de travail actuel et les intrigues sombres et tout le reste. Si nous l'utilisons, vous pouvez voir que vos packages peuvent être installés et qu' ils sont volumineux à partir d'ici. Et ici, vous pouvez voir l'histoire et tout. OK, donc tout tourne autour de RStudio. Et maintenant, nous sommes prêts à commencer la programmation R avec ce RStudio Ib. Donc, à partir de la prochaine conférence, nous allons apprendre notre programmation. Steven tape donc la conférence suivante. 4. Pourquoi apprendre R: Bonjour et bienvenue. Dans cette conférence, nous allons apprendre pourquoi et pourquoi devrions-nous apprendre le langage de programmation R ? Pour répondre à cette question, nous devons donc passer en revue deux choses. Tout d'abord, qu' est-ce que r et pourquoi devrions-nous savoir si vos régions sont traîne dans l'apprentissage de notre programmation ? Commençons donc par ce qu'est r ? R est donc le langage le plus populaire dans le monde de la science des données. L'analyse des données est statique. Il est donc largement utilisé pour analyser des données à la fois structurées et non structurées. De nos jours, nous recevons d'énormes quantités de données appelées mégadonnées, qui sont pour la plupart non structurées. Et si vous souhaitez analyser ces mégadonnées, vous pouvez facilement utiliser la programmation R ou impair. Étrange. Étrange. Odd est un langage de programmation et un logiciel de réchauffement destinés à l'analyse statistique et aux graphiques. La présentation et le compte rendu de ce qui a été créé par Eros Yamaka et Robert Jackson Man et l'université d' Auckland, en Nouvelle-Zélande. Et c'est actuellement qu'ils sont bloqués par notre équipe de développement principale. R est donc inventé par Yamaka et Robert Gentleman. C'est pourquoi son nom est étrange car en hiver, le nom commence par Roth et Robert et ils l'ont nommé d'après leur nom. Et cela s'appelle notre programmation à partir d'eux. Régions pour apprendre R. R est un logiciel open source disponible gratuitement , que vous pouvez brancher et utiliser. Et si nous voulons contribuer à l'art, vous pouvez également le faire. Et c'est la licence publique générale GNU. Vous n'avez donc pas besoin de payer quoi que ce soit librement. Et c'est la meilleure raison d'utiliser notre programmation. Compatible avec plusieurs plateformes. Donc, peu importe que vous exécutiez notre programme sous Windows, Linux ou macOS. Il fonctionnera parfaitement et vous donnera le même résultat sur n'importe laquelle de ces plateformes. Ces artistes très flexibles et évolutifs de nature flexible ? Et elle évolue beaucoup. Et c'est actuellement plus de 2 millions bien plus que 2 millions d'utilisateurs, qui utilisent nos industries et domaines de programmation. Notre programmation a été largement utilisée. Comme vous nommez le secteur vous découvrirez l'utilisation de notre programmation dans le domaine financier qu' ils utilisent pour détecter les transactions frauduleuses dans le domaine des télécommunications. Ils sont utilisés pour la programmation artistique. Trop. Très loin, le profilage des abonnés. Dans le domaine de la biologie, vous trouverez l'outil de biologie computationnelle pour effectuer l'analyse du génome. De très nombreux domaines. Ils utilisent R. Et c'est une immense communauté, comme je vous l'ai dit, 2 millions utilisateurs et une communauté de développeurs. Et Odd en a plus de 10 000. Les derniers packages et l'absence de fonctions intégrées répondent à divers besoins. Donc, que vous souhaitiez effectuer une simple opération de somme ou que vous souhaitiez trouver la moyenne de certaines fonctions, vous devez utiliser des nombres. Ou vous souhaitez utiliser d'autres représentations graphiques de vos données. Vous pouvez le faire facilement avec les packages d'audit et les fonctions intégrées. Et nos packages sont parfaits pour la manipulation de données, la visualisation de données, l'apprentissage automatique, la science des données et la modélisation statistique, l' imputation et de nombreux autres packages conçus pour être utilisés de manière ludique. R est idéal pour la visualisation. Et les packages R tels que GG plot to Gibbs vous permettent de créer des visualisations afin que vous puissiez facilement visualiser les données grâce à notre programmation. Et de nombreuses grandes entreprises, comme Facebook et Google, utilisent l'art pour répondre à leurs différents besoins. Odd est égal au langage. Cela tient en partie au fait que l'analyse statistique et la science des données à od sont largement utilisées dans la science des données, l'apprentissage automatique, l'analyse données, l'exploration de données, etc. Dieu est donc le langage de prédilection pour toutes ces choses. Et si nous voulons apprendre, si vous voulez vous lancer dans la science des données et l'apprentissage automatique, je pense que vous devez commencer par la programmation. Parce que si vous connaissez les bases de la programmation, vous pouvez facilement apprendre les concepts de science des données et d'apprentissage automatique et vous pouvez facilement implémenter ces concepts, ces algorithmes avec une programmation étrange. 5. Premier programme et opérateurs de R: Bonjour et bon retour. Dans cette conférence, nous allons donc écrire notre premier fichier de script R, ou d'abord notre programme, et nous allons voir la syntaxe de notre programmation. OK, donc tout d'abord, nous devons créer notre fichier. J'ai donc créé dans la conférence précédente les premières données, je vais juste les fermer. Et il suffit de cliquer ici. Et nous allons sélectionner notre script. Vous pouvez également utiliser Control Shift et créer notre fichier de script. Et voilà, ce que je vais faire, je vais essayer de l'enregistrer en cliquant ici. Vous pouvez placer des contrôleurs et donner ce nom en premier. En panne. D'accord. Point. Point, point, c'est pourquoi les élections et quels programmes. OK, ajoutez un script. Je vais donc simplement cliquer sur Enregistrer. Notre premier fichier de script de programmes artistiques est maintenant terminé. Maintenant, ce que je vais faire, c'est commencer par quelques variables. Supposons X, X, 0 et une oreille précieuse. Et je veux attribuer la valeur sept ou huit. Nous pouvons donc attribuer une valeur en utilisant un trait d'union inférieur à un signe, c'est-à-dire x. Et lorsque nous utilisons moins de huit, cela signifie que cet objet x dans notre programmation est un objet. Nous pouvons donc appeler x en tant que variable n, ou nous pouvons l'appeler en tant qu'objet. En tant qu'objet ou variable. Donc x est un objet, et nous lui attribuons la valeur huit. Comment pouvons-nous vérifier cela ? Il n'a plus de valeur huit maintenant ? Ainsi, lorsque vous cliquez sur Exécuter ici, vous pouvez voir et voir ici dans l'onglet Environnement global, vous pouvez voir x valeurs x. Donc, l'objet x reçoit une boucle complète. C'est. Nous pouvons simplement utiliser la commande d'impression. Et on peut y mettre X. Ensuite, lorsque nous exécuterons cela, nous obtiendrons la valeur huit. OK, on y arrive. Maintenant, ce que je vais faire, simplement écrire un programme pour ajouter deux nombres. Je vais donc utiliser x égal à huit et j'attribuerai y égal à neuf. Et puis, voyez ici ce que j'ai fait. J'ai assigné à x, à y, puis j'ai encore utilisé une autre variable ou un autre objet. Et j'ai assigné x plus y égal à jet. Et ce que j'ai fait, j'ai imprimé les détails pour que le X et Y soient morts. Nous transporterons donc X plus Y, X plus Y plus 917. Nous obtenons donc la valeur I, juste 17. De même, ce que je vais faire, que nous pouvons également utiliser une chaîne. Sous le porche, je perds mon ressort. Et je vais lui attribuer une valeur de chaîne. Supposons que je quitte mon domicile. Rien, d'accord ? C'est la chaîne que j'attribue à ma valeur de chaîne. Alors maintenant, l' objet MyString obtiendra ce que je trouve chez moi, n'est-ce pas ? Donc, ce que je vais faire, c'est juste essayer d'imprimer la valeur de ma chaîne, et je vais essayer de l'exécuter. Pourquoi deviennent-ils plus nombreux ? Parce que je n'ai pas exécuté cette ligne et que nous exécutons pas cette instruction d'impression. Nous devons donc exécuter ligne par ligne, d'accord ? Et si nous voulons exécuter immédiatement, il suffit de cliquer sur la source. Cliquez donc sur la source et tout sera égal à 17 pour cette impression, puis sur ma page d'accueil pour cette valeur de chaîne. D'accord ? C'est donc comme ça que tu veux. Encore une fois. Supposons que j'utilise x. égal à 910. Imprimez x ici. Et si je lance ça, j'en aurai huit. Donc, à cause de cette déclaration que j' ai et que vous avez créée plus tôt, je reçois X4 8. La nouvelle valeur, x égal à neuf, x égal à dix, n'est pas exécutée. Donc, pour exécuter cela, je dois faire ce que je dois faire, et il exécutera cette ligne. Et si je lance cette instruction, encore une fois, j'obtiendrai la valeur n, n'est-ce pas ? Si je lance toute cette source, ce que j'obtiendrai en premier, j'obtiendrai x plus y 17 parce qu'ici, jusqu'ici, la valeur x est huit. Mais lorsque nous avançons dans le programme, valeur X est réaffectée à dix. Et c'est pourquoi nous obtenons ici la valeur X égale à dix. D'accord ? La valeur MyString est donc une variable de chaîne, U et X, Y, j, les autres nombres, d'accord ? Et supposons quelque chose, si vous voulez le soutenir, je ne veux pas utiliser x égal à dix. Je peux le commenter en utilisant Hess. D'accord, maintenant cette instruction ne sera pas exécutée. Donc maintenant, si je lance tout ce programme, tout ce script, ce que je vais obtenir, je vais obtenir x égal à huit. D'accord ? Je n'ai pas le soleil, le PDG. Maintenant, j'obtiens la valeur x est la valeur x à 818910. Si je supprime ce commentaire, encore une fois, j'en aurai dix. La valeur C x est en baisse. Donc, si vous voulez ajouter quelque chose, vous pouvez utiliser Hess, cette déclaration sera commentée. De même, nous pouvons exécuter tous les opérateurs mathématiques sur les variables. Supposons donc que je veuille utiliser quatre sur cinq. J'en aurai 25, 20. Si je veux, utilisez 25/5 et nous en aurons cinq. Donc, toutes ces choses que nous pouvons faire, nous pouvons exécuter tous les opérateurs mathématiques ici. Supposons que je veuille utiliser 25/2, j'obtiendrai 12,5. Donc, toutes ces choses que nous pouvons faire ici, nous pouvons également utiliser nos activités exponentielles. Supposons que je veuille utiliser trois exponentiels à la règle de l' exposant. Nous en aurons neuf, non ? Alors lancez ceci et voyez, vous en aurez neuf. De même, si j'utilise 25 exponentiel 25, combien obtiendrons-nous ? Voyons voir. OK. C'est donc la grande valeur. Je n'aurais pas dû en utiliser. 25 exponentiels, deux donneront 625, je suppose. Oui, c'est x 25. Nous pouvons donc utiliser ici tous ces opérateurs mathématiques. Si vous voulez utiliser six exponentiels, vous en aurez toujours six, n'est-ce pas ? Si on en fait deux, on en aura 36. Donc, tous ces opérateurs et calculs mathématiques que nous pouvons utiliser dans R comme d'habitude, d'accord ? De même, nous pouvons également effectuer des soustractions. 78 moins trois plus six obtiendront 22. Nous avons donc vu, comme Edison, une multiplication exponentielle, et nous avons un opérateur spécial qui est le module. Également. Supposons que j'utilise 45 et le modèle, utilisons-en deux fois. Donc 45 modélistes. Supposons que j'en utilise cinq. Donc 45 modulus phi donnera zéro, non ? Oui. Et si j'utilisais 45 module quatre, j'en obtiendrais un, z. Donc, si j'utilise 25, trois sans bordure, j'obtiendrai 41. D'accord ? Le module conservera donc le reste. Donc 3/20, 5/3 nous donneront 13 sur 824, puis nous recevrons celui en guise de rappel. D'accord, donc lorsque nous effectuerons la division, le reste sera donné sous forme de module. Ce sont donc les opérateurs que nous avons vus dans le sens de la multiplication exponentielle de Jackson, puis du module. 6. Types de données en R: Bonjour et bon retour. Dans cette conférence, nous allons en apprendre davantage sur les types de données dans la programmation R. Donc, contrairement à d'autres langages de programmation comme Java ou C, ou C plus plus, où nous déclarons une variable, nous déclarons la variable sans type de données, n'est-ce pas ? Supposons que si nous voulons utiliser une variable de type entier, déclarons cette variable int x. N' est-ce pas ? Maintenant, pourquoi notre personnage est le X, n'est-ce pas ? Ficelle. Pourquoi enchaîner un, l'enchaîner comme ça, non ? Mais dans notre programmation, nous ne déclarons pas de variables avec un type de données, n'est-ce pas ? Supposons que j'aie effacé mon probablement, comme ici, j'ai attribué x ou dix, n'est-ce pas ? J'ai attribué dix au x. Donc, on attribue à cet objet une valeur obtenue. Le type de données de cet objet deviendra donc un type de données, type de données portant ce numéro dix, n'est-ce pas ? Donc, cette variable ou ceci, supposons que c'est dix sous la forme d'un nombre entier. Ce type de données d'objet deviendra donc un numéro. Si j'assigne x égal à une chaîne, cela deviendra la variable de chaîne de caractères. Nous ne décidons donc pas à l'avance ce que nous avons attribué à la variable ou à l'objet, cet objet deviendra un type d'objet. C'est donc quatre ou moins comme luminosité de notre miroir dynamique. Nous n'indiquons donc pas le type de données à l'avance. Il sera décidé du type de valeur attribué à cet objet. Et cet objet deviendra ce type d'objet de valeur, n'est-ce pas ? Permettez-moi donc de créer un autre fichier dans lequel nous verrons les types de données apparaître. Alors laisse-moi effacer cette limite. Eh bien, il existe donc essentiellement six types d'objets. Et ils disent : « Oh, rectus, inférieurs ». Rectus. Puis des listes. Et puis il y a Alice. Et puis nous avons des matrices. Et puis il y a des facteurs. Facteurs, puis étude. D'accord ? Et puis nous avons les dataframes. D'accord ? Voici donc les six autres types d'objets que nous avons dans notre programmation. Alors laissez-moi vous expliquer cela. Les types de données un par un ou les types d' objets un par un. D'accord ? Donc, tout d'abord, nous allons voir le vecteur, donc l'objet vectoriel avec l'objet le plus simple de notre programmation. Et la mort, je suppose, comporte six types de données. Nous allons donc voir, supposons que j' utilise x égal à vrai. Et si j' imprime x, ce que nous aimons, je pourrai l'écrire et le soutenir. Si je veux savoir quel type de données correspond ce x, ce que je peux faire, je peux utiliser l'impression, puis utiliser verre dans la classe d'âge d'impression X. D'accord ? Et si je l'exécute, j'obtiens que la classe x est logique, donc c'est le type de données logique de sortie. D'accord ? De même, nous avons un support numérique. Si j'assigne x égal à 90, et que je le copie en y. Et je mettrai plus de y ici. Et si je gère toute la source, la classe Why Swing Nomadic, non ? Maintenant, nous n' attribuons pas d'otorrhée, ne déclarons pas le type de données y. Quelle que soit la valeur que nous attribuons en fonction de cela. Les variables sont, le type de données est en cours de décision. D'accord ? Il a donc dû se désintoxiquer, compte tenu de la logique. C'est donc logique. Et ici, nous avons donné nomade, donc c'est noétique. La prochaine étape est l'Inde, n'est-ce pas ? Supposons que 90,9. Alors, quel sera le C ? Ce n'est pas un tarif nomade. Maintenant, la prochaine chose est un entier très fin. Supposons donc D, et je vais attribuer quelques valeurs, bien sûr 34. D'accord ? Ensuite, j'utiliserai le brillant à imprimer Plaza de. Quand j'utilise Print Class , jusqu'à vous, quel hayon ? Tu vois, je suis en train de devenir nomade. Désolée, je vais rentrer. Non, classez cet entier d est type de données entier supérieur, n'est-ce pas ? De même, nous avons un nombre complexe supposé et déclaré un nombre complexe, supérieur de trois à plus cinq. Hein ? Et quand je place le groupe V, ce que nous aimons, c' est que la classe de I est complexe, donc ce V, chaque complexe numéro deux plus phi. De même, supposons que sine C soit un programme ReLU. Si je soulève le verre, vois ce que ce serait un personnage, n'est-ce pas ? Laisse-moi lire la source complète C. Maintenant, je trouve le personnage de Glass Up Sis. Ensuite, quelle que soit la compatibilité, je vais utiliser le bleu et lui attribuer un nouveau caractère à dessiner et utiliser Java. Et si j'imprime la classe du problème B, ce serait le cas, voyons voir. C'est le cru. D'accord ? Ensuite, les objets étranges sont appelés vecteurs, d'accord ? Ce sont donc des types de vecteurs comme le verre et w est un bâtonnet rapproché. C est la classe de caractères où v est un nombre complexe plus ou p est un entier, la classe de y est numérique et x en gros plan est logique. Ce sont donc les types de données ou les types d'objets, vous pouvez le dire dans notre programmation. Permettez-moi donc également de sauvegarder ce fichier. Types de données. Dans la prochaine conférence, nous verrons comment créer notre vecteur, d'accord ? 7. Créer des vecteurs en R: Bonjour et bon retour. Ainsi, dans la conférence précédente, nous avons vu les différents types de données dans la programmation R. Dans cette conférence, nous allons en apprendre davantage sur les vecteurs. Comment créer un vecteur avec l'élément le plus grand nombre de personnes, plusieurs éléments ou Control N. Je vais créer un nouveau fichier de script R. Et dans ce document, nous allons écrire les étapes à suivre pour créer un vecteur à plusieurs éléments, plus d'un élément. D'accord ? Donc, ce que je vais faire, essayer de créer et de transformer le hockey. Alors soutenez. Je veux créer un vecteur appelé g. Et je veux l'attribuer à plusieurs valeurs. Donc, dans notre programmation, lorsque nous voulons créer un vecteur avec plusieurs éléments, nous devons utiliser une fonction appelée fonction C, n'est-ce pas ? Cette fonction C nous permettra donc de créer et de rectifier avec plusieurs éléments. D'accord ? Ainsi, lorsque vous voyez et fermez le crochet, puis à l'intérieur, nous pouvons écrire le support de nos éléments. Je souhaite créer le nom d'un pays. Supposons Alport, Australie, Grande-Bretagne. D'accord. Afrique du Sud. Supporte les éléments numériques. Je crée à l'intérieur de ce vecteur. D'accord, nous pouvons donc utiliser la fonction pour créer un vecteur avec plusieurs éléments. Hein ? Maintenant, j'utilise simplement print et je mets Ci. Cela imprimera donc les valeurs dans le directeur. Alors laisse-moi exécuter ça. Permettez-moi de sauvegarder ce fichier. Et je vais enregistrer ce fichier en tant que Rector Dot. D'accord ? Et tous ces fichiers seront à notre niveau dans ce répertoire de travail actuel que nous avons zippé. Et je vais attester ces fichiers. Vous pouvez donc déjà télécharger et vous pouvez marcher dessus. OK, alors laissez-moi exécuter ce fichier source. Maintenant que c'est fait, laissez-moi effacer cette console et la lancer et l'exécuter à nouveau. Donc, maintenant, nous obtenons la valeur du vecteur t en Australie, en Grande-Bretagne, en Amérique du Sud et en Russie, n'est-ce pas ? Donc, cela dit, et un vecteur contenant plusieurs éléments. Nous le pouvons, nous avons vu comment trier. Nous avons vu comment créer notre vecteur avec un seul élément, comme l'Inde. Et cela nous donnera de la valeur pour le cerveau. Cela nous sera utile lors de l'audit. Ainsi, de cette façon, nous pouvons créer un vecteur et un objet avec un seul élément et utiliser la fonction c pour créer un vecteur avec plusieurs éléments. Et supposons que si vous souhaitez imprimer un verre de G, quel en sera le résultat ? Peux-tu deviner ? Voyons voir. Caractère C, les caractères nuls. Cela nous donne donc le caractère S du vecteur cluster T. Supposons que si je change cela à 0, désolé, laissez-moi d'abord imprimer cette classe de t. Donc, le cluster doit être marqué ici. Maintenant, ce que je vais faire, c'est juste le modifier à 200, une valeur numérique, d'accord ? Et je vais essayer de courir, ai essayé de lancer ça. Ensuite, je vais essayer de faire cette dernière déclaration C. Et maintenant, nous levons le verre. B a un nomade. De même, si je change ici 120367900. Et si je lance ce fichier source, ce que nous obtenons, nous obtiendrons le 12367900. Et la classe de G est maintenant passée à numérique. Donc, quelles que soient les données que vous allez utiliser en fonction de ce type de vecteur, elles ne seront pas décidées à l' avance, comme c'est le cas pour la programmation en C ou Java, d'accord ? C'est donc la différence entre C et Java n, n'est-ce pas ? Donc, quoi que vous utilisiez en fonction de cela, ce sera décidé. 8. Séquence en R: Dans cette conférence, nous allons en apprendre davantage sur la séquence. Nous allons en apprendre davantage sur la fonction de séquence dans r. Alors, que faisons-nous de la fonction de séquence que nous allons voir ? Mais avant cela, permettez-moi de vous dire une autre chose importante que j'ai oublié d'inclure dans la conférence précédente, le soutien. Je crée un vecteur et j'utilise la fonction C. Et si comme ici, j'ai créé une fonction utilisant uniquement des valeurs numériques. La classe de ce paramètre sera donc numérique car tous les éléments sont numériques. Et si je donnais un caractère, puis je donnais un chiffre, puis je suivais une logique et je donnais un entier. Et si je lance ceci, et si je me laisse d'abord apporter cette recta, voyez, vous savez, bonjour, 67 à travers tout, jusqu' à une citation. Pourquoi ? Parce que si nous créons une fonction vectorielle z et que l'un des éléments est un caractère, tous les autres éléments ayant un entier numérique ou logique seront convertis en chaîne. Donc, si je me permets de copier ceci, et si je mets un verre de liquide, il entrera dans le caractère. Tous les autres éléments seront donc convertis en personnage. Si un élément est un caractère, tous les autres éléments numériques, divins, logiques ou entiers, tous les autres éléments seront convertis en caractère et la classe de ce vecteur sera un caractère. N'oubliez donc pas que si tout est numérique, ce sera numérique. Si toutes les classes d'entiers doivent être des entiers, mais si elles sont mélangées à des nombres entiers et à des caractères, l'entier sera converti en caractère. Si quelqu'un ou un élément est un personnage, tout sera converti en personnage. OK, c'est pour clarifier. Ensuite, je vais créer un nouveau fichier script. Je ne sais pas pourquoi cela n'augmente pas. OK. C'est une sorte d'erreur. Je ne sais pas pourquoi. Nous allons donc maintenant en apprendre davantage sur la séquence. Donc, dans R, nous pouvons créer une séquence de nombres comme supposons que je veuille créer un à dix. Je veux imprimer les chiffres de un à dix. Je peux le faire en deux étapes. De deux manières. Je peux le faire en deux étapes, mais je peux le faire de deux manières. Je peux utiliser un opérateur deux-points ou utiliser la fonction de séquence. Donc, tout d'abord, je vais essayer de créer une séquence de nombres. Je vais lui attribuer une certaine valeur. Supposons que je veuille obtenir la séquence. Supposons que je dise, vous voyez, que je suis en train de créer un produit prêt à l'emploi, que nous verrons que nous aurons de la valeur. Je veux lui attribuer une valeur un à sept ou un à obtenir, ou une à cent. Alors, comment puis-je faire ça ? Un colon, 100. Si je fais une couleur à 100 et que, si je la lance, ce qu'elle fera, elle créera une séquence de 1 à 100. Laisse-moi voir. Voir ici. 1200 numéros ont été générés, donc cela créera une séquence de nombres, de 1 à 100. Laissez-moi donc placer la console sur la droite. Maintenant, il sera facile de comprendre et d'écrire le code ici et la sortie sera là. Et laisse-moi, d'accord. Maintenant, ce que nous devons faire pour créer n'importe quelle séquence, nous devons donner le premier numéro à partir duquel nous voulons commencer. Ensuite, nous devons donner le numéro final. Supposons que si j'en obtiens dix et que cela échoue sur cet outil, cela créera une séquence 1 à 10. Donc, si nous voulons créer une séquence, vous pouvez utiliser cet opérateur deux-points et créer une séquence de nombres. Supposons que je veuille créer des nombres de 1 à 20, ou que je veuille créer de deux à 20. Comment pouvons-nous le faire ? Si je le lance, ce que nous verrons, nous obtiendrons de 2468 à 20. Donc, chaque élément. Une séquence de nombres comme un sera multipliée par 22 sera multipliée par deux. Comme ça. Nous y arriverons, d'accord. De même, je peux créer la séquence des points. Je voulais créer une séquence de 2,5 à quatre. Je peux le faire. Si j'imprime f c Ici, j'obtiens 2,53, 0,5 parce que le prochain sera pour Valley. Il imprimera donc la séquence à partir de la version 2.52. Et si j'utilise ici 40, cela lui donnera un ecto de 0,53, 0,5 à 39 points , n'est-ce pas ? De la même manière, supposons que je veuille créer une séquence à partir de deux points, 20 moins un. Et si j'imprime D, pouvez-vous deviner quelle sera la réponse ? Voyons voir. Maintenant, on passe de 1 à 19. Pourquoi il passe de 1 à 19, car personne ne sera moins que ce 1,20. Il générera donc en fait le nombre De un à 19, à moins 11 et moins 119. Les planches nous donneront donc le même résultat ici. D'accord ? Ensuite, nous pouvons également le faire d'une manière différente. Je peux utiliser, désolée. Je peux utiliser une variable a, je peux attribuer une valeur huit. Et puis ce que je peux faire, je peux, je veux générer des nombres de 1 à 8. Donc, si je lance cet outil, je vais obtenir une séquence de chiffres de 1 à 8, n'est-ce pas ? Donc, de cette façon, nous pouvons également attribuer une valeur à la variable ou à l'objet e, puis nous pouvons lui attribuer une valeur au lieu de la poinçonner, nous pouvons mettre une valeur est à a. Et cela nous donnera également le même chiffre. Un à huit numéros m'ont été générés. Je peux également mettre un moins a et voir quel sera le résultat de zéro à sept, car ce sera le cas, une séquence moins 172027 sera générée. Si je mets un moins un entre crochets. Et si j'essaie de l'exécuter, maintenant j'obtiens un à sept parce que ce sera exécuté en premier, d'accord ? Ce sera donc 7.1, ce sera un parce que nous ne soustrayons pas celui-ci d'ici. Parce que s'il est entre crochets, le support recevra les pré-impressions les plus élevées. Cela s'exécutera donc en premier. Un vaut sept, ça veut dire. Cela générera des nombres de 1 à 7. En dehors de cela, nous pouvons utiliser séquence pour créer une séquence de nombres à l'appui qui vous donnera SEQ finie et je vais donner une virgule, une virgule cinq. Quel résultat vais-je obtenir ? Je vais obtenir la séquence de chiffres de 1 à 5, non ? De même, si je donne une séquence de neuf, et quelle séquence cible numérique de chiffres de 1 à 9. Ici, je donne un à cinq, cela signifie 1 à 5. Et si je ne donne pas le quatrième chiffre, ce qu'il faudra, cela générera 1 à 9 par défaut, d'accord ? C'est la nature par défaut de la séquence. D'accord ? Ensuite, nous pouvons également utiliser cette fonction d'une manière différente. Je peux utiliser de l'aqueux pour supposer 8,2 à 32. Et si je le lance, ce qu'il fera, il générera des nombres à partir de 32, 32, d'accord ? De même, nous pouvons également utiliser la séquence car je peux conserver le premier numéro. Alors je peux donner les deux chiffres, supposons huit. Ensuite, je pourrai donner à quoi ces deux-là iront. Ce sera le cas. C'est ce que l'on appelle l'étape. Alors laissez-moi l'écrire ici. Séquence allouer au coma, appuyer la virgule graveleuse, passer à. Cet argument est une étape. Alors laissez-moi d'abord exécuter ceci, puis je vais expliquer. Voyez ici ce que nous obtenons. Nous obtenons. 24681012. Ce qu'il fait, au lieu de créer une séquence de 234 à 12, ce qu' il fait, il crée, cela nous donne deux à quatre. Il y a un écart vers la droite, car nous avons donné la valeur de l'étape à deux. Donc deux plus 244 plus 266 plus 28, alors nous ferons la différence entre ces deux séquences. C'est donc l'argument de l' utilisateur, c'est l'étape de sortie alors que c'est l'argument de l'étape, n'est-ce pas ? Nous pouvons également voir un autre exemple. Supposons que je veuille créer une séquence de dix, 10-25. Et je veux augmenter la séquence en ajoutant du vin, sept flammes. Alors laisse-moi exécuter ça. Saudi Cl, ce que nous obtenons, la séquence de chiffres commence à partir de dix parce que vous avez donné dix et ça va jusqu'à 25. Et ce qu'il fait, c'est ajouter 0,75 à chaque valeur ou dix, il va démarrer, puis il ajoutera 0,75, puis 10,75. Ce qu'il fera, il ajoutera encore 0,75, 0,5, 12,25. Donc, cet octet, sept ou cinq minutes, augmentera la valeur de 0,75. Supposons que si je le fais par trois, ce que cela fera, cela ajoutera 101-316-1920, 2,25. Si j'augmente cette valeur à cinq, ce que cela fera, ce sera 1015 en 2025 comme ça. D'accord ? Ainsi, nous pouvons générer la séquence. Il y a une autre chose qui s'appelle la longueur. Supposons donc que je veuille créer des nombres de 25 à 50 et que je veuille garder une longueur égale à six. Ce qu'il va faire ici, c'est nous le donner à partir de 25, puis de 630, puis de 35,40, 45, puis de 50. Il va donc générer une séquence de six nombres compris entre 25. Et si je le fais, je suppose, alors ce que cela produira, est qu'il générera les nombres 25, 27. Donc, ce que ça va faire, 25-50, ça va générer dix nombres égaux, comme 205-20-7303 points, quelque chose comme ça. D'accord ? Si je lui donnais 100, il générera des centaines de séquences, non ? Si je le donnais à quelqu'un, ce qu'il fera, il ne générera qu'un seul chiffre 25-50. Si je donne deux, cela générera deux nombres. 25,50. Si j' en garde trois, ce sera divisé par trois, soit 2 537,5 et 50, d'accord ? Comme ça. Il va donc essayer de générer trois séquences, 25-50. 9. Répliquer la fonction: Dans cette conférence, nous allons en apprendre davantage sur la fonction de réplication. Alors, quelle fonction de réplication fera l'affaire. Nous utiliserons donc ce terme de représentation de l'application répliquer et quand nous voulons répliquer quelque chose. Alors, laissez-moi vous montrer un exemple. Supposons donc que je veuille créer une séquence dans laquelle je souhaite répéter 58 fois. Je vais utiliser cette fonction et j'en donnerai cinq que je souhaite répéter. Et ici, je vais donner trois fois 28. Donc, ce que fera cette fonction de réplication, elle se répétera cinq fois. Donc, ce que vous voyez ici, 5558 fois. D'accord ? Cette fonction de réplication répliquera donc le même numéro. Répliquer signifie répéter, cela se répétera huit fois. De même, nous pouvons également utiliser des personnages. Un soutien que cela nous apportera. Ensuite, je vais spécifier des temps égaux à trois ou deux. Il imprimera trois ds, ds, ds. Il créera une séquence de SDS BSD à trois reprises. D'accord ? Alors souvenez-vous de ceci, quoi que nous donnions ici, il sera épuisé plusieurs fois, d'accord ? De la même manière que nous pouvons utiliser even, nous pouvons transmettre l'objet à l' autre fonction de l'application. Supposons que je le veuille, j'ai créé pour soutenir la fonction de réplication artistique. Je veux créer une variable R. Eh bien, je veux générer la séquence 3-6. Alors, qu'est-ce que ces trois, trois ou six, nous allons faire bizarre. Si je l'imprime, le support 34568 sera créé. J'utilise la fonction de réplication ici. Et ce que je ferai, je transmettrai que cet art pourrait être reproduit. Et ici, vous obtenez deux fois plus de temps. Ce qu'il va faire, c'est répéter cette séquence, 3 à 6 fois. D'accord ? Donc, si nous l'exécutons, ce que cela donnera, il obtiendra 3456 et encore 32562 fois. Si j'en fais trois, cette séquence sera répétée trois fois. Donc 3456, encore 3456, et encore 3456. Donc, nombre de fois, cela sera répété, toute la séquence sera répétée autant de fois, n'est-ce pas ? De la même manière, désolée, nous avons un autre argument. Dans cette fonction d'application. C'est-à-dire, supposons que j' utilise notre même zone d'objets et que je veuille y appliquer chacun d'eux. Si je postule chaque année, j'ai postulé trois fois . Maintenant, j'applique chacun égal à deux. Alors à quoi ça va servir, voyons voir. Supposons que je lance ça. Ce qu'il fait. C'est le cas, chaque élément 3-6 sera répété deux fois, puis il passera au nombre de mois suivant, soit trois, deux fois 33, puis 44, puis 55, puis 663-344-5566. Ainsi, chaque élément sera répété , puis on passera à l'élément suivant. Et plus tôt dans le temps, chaque élément sera répété. Ici ? Chaque élément sera répété, puis on passera à l'élément suivant. Et ici, toute la séquence a été répétée. 3456, puis à nouveau 3456. Et pourtant, 3344 ont soutenu notre portrait. Troisièmement, ce qu'il va faire, il le fera, chaque élément sera le protecteur, heure 333444, puis 555666. Il s'agit donc de la différence entre les temps et chacun dans la fonction de réplication. Dans la fonction de réplication, il y a deux fois des arguments, puis chaque fois, la séquence entière sera répétée autant de fois. Et chaque testament, chaque élément sera répété de nombreuses fois. Ensuite, la séquence sera créée comme 333444, comme ceci. 10. Accéder aux éléments de vecteur: Bonjour et bon retour. Dans cette conférence, nous allons en apprendre davantage sur l'accès aux éléments vectoriels. Nous avons vu comment créer un vecteur dans R. Maintenant, ce que je vais faire, créer et vectoriser Henry pour essayer d'accéder à l' élément des vecteurs. Nous allons voir comment accéder aux éléments vectoriels dans R. Donc, pour cela, je dois créer un fichier et lui donner un nom. Ric point R. D'accord ? Maintenant, ce que je vais faire, créer un rectangle avec un nom, un mois. Et pour le vecteur du mois, quelle Alice est grande et petite. Mois. Janvier, février, mars, avril comme ça. D'accord ? La fonction c, et je vais essayer de stocker les valeurs. Ce que je fais ici, créer un vecteur, et j'installe ce vecteur dans le mois de l'objet, d'accord ? Et puis combien stockent les valeurs ? Janvier, février, jusqu'en décembre. D'accord. Nous avons maintenant créé et rectifié la manière dont nous allons accéder aux éléments du vecteur. Donc, pour cela, ce que je vais faire, c'est effacer la console ici afin que nous puissions voir le résultat ici. Donc, si je cours ce mois, janvier à décembre, d'accord ? Et maintenant, et si je veux accéder à l'application Play ? Août ou septembre comme ça, accord, pour cela, ce que nous devons faire, je peux le créer, je peux créer un autre outil du mois de support vectoriel. Et pour ça, ce que je vais faire, c'est un mois énorme. Et c'était la tranche des majuscules et vous ne voyez que la fonction. Et dans la fonction C, je conserverai l'index du support le 1er janvier 2344. Virgule sept. Virgule neuf. D'accord. Donc, euh, je veux accéder à The Month for 7.9 et un outil Fray Print Month. Donc, si je calcule ces deux indices, ce que nous obtenons maintenant, c'est avril, juillet et septembre, parce que l'indice est de quatre, puis 567 pour juillet et de neuf pour septembre. Ainsi, nous pouvons appeler notre accès les éléments d'une fonction vectorielle. Un vecteur. Nous pouvons donc accéder à un objet vectoriel comme le serait le X si vous souhaitez accéder à un élément particulier. Tu peux le faire. Si je le change en trois, superposez un et deux fois. Et si je fais ces deux déclarations, ce que nous pouvons voir, oui, nous aurons le mois de mars, puis normalement et les inverserons, c'est le lundi mai. Ainsi, nous pouvons accéder aux éléments vectoriels. Nous pouvons également x être les éléments vectoriels en utilisant logique en utilisant l'indexation logique. Comment s'y prendre ? Supposons donc que je crée un autre objet, le troisième mois, et que je précise le mois auquel je souhaite accéder chaque mois. Et le crochet majuscule et à l'intérieur de la fonction C, ce que je vais faire, c'est d'abord donner vrai, puis faux. Et puis je deviendrai faux. Alors je deviendrai vrai. Supposons donc que je transmette ces quatre valeurs, vrai, faux, vrai. Et si j' imprime le troisième mois, que se passera-t-il ? Laisse-moi exécuter ceci et voir le résultat. Ce que nous recevons, nous obtenons janvier. Le premier mois, c'est Jan Dish True. Il est donc imprimé ici. Puis le prochain Faux, Faux. Donc, février et mars seront faux, signifie que ce ne sera pas le cas, nous n'accèderons pas aux mois de février et mars, n'est-ce pas ? Ces deux valeurs ne seront donc pas présentes non plus. Nous sommes en février, mars n' est pas imprimé ici. Ensuite, pour le quatrième , c'est vrai. Nous en arrivons donc à quatre. Et puis le reste de l' élément que nous n'avons pas donné. Il arrive donc en mai, août et septembre. Cela se répète. Alors imaginez ce qu'il est en train de faire. Il mène à nouveau le même combat à ce sujet. Janet Britain est maire en septembre et décembre. Cela revient donc à répéter la chose. D'accord. La prochaine chose est de savoir ce que nous pouvons faire. Nous pouvons utiliser une indexation négative. Supposons donc que je crée un autre objet, mois pour et ce que je vais faire, nous attribuions le mois au mois de l'alcool, et que nous voyions au moins la fonction. Et voici un projectile avec moins deux virgules moins cinq. Alors, à quoi cela sera-t-il utile et soutiendra le quatrième mois d'impression. Et si je lance ces deux appareils, que se passera-t-il ? Je reçois janvier-mars et peut-être pas Il y a février et mai qui ne sont pas imprimés parce que moins deux signifient la deuxième indexation moins deux à laquelle chaque mois de février, février, nous ne voulons pas accéder à moins deux et -5 minutes le deuxième mois et le mois auquel nous ne voulons pas accéder, sauf que tout le reste sera imprimé. D'accord. Les mois de février et mai ne seront donc pas imprimés. Voir ici, février et ne pas l'imprimer. Acceptez que tous les autres soient imprimés. Si je mets -12, décembre ne sera pas imprimé également. Alors maintenant, la norme est que quelqu'un n'est pas là. Donc, si vous souhaitez accéder à des éléments et si nous voulons en laisser certains, vous pouvez utiliser de la dopamine pour cet indice et il ne sera pas imprimé. 11. Manipulation de vecteur en R: Bonjour et bon retour. Dans cette conférence, nous allons donc en apprendre davantage sur la manipulation vectorielle. Nous allons donc voir comment former une lésion au sein des éléments vectoriels. Comment ajouter deux vecteurs, comment soustraire deux vecteurs, comment effectuer une division au sein de deux acteurs. Et nous verrons comment multiplier les vecteurs. Alors allons-y. Je vais donc créer un fichier de script R et lui donner un nom. Beaucoup de manipulations stupides. OK. Permettez-moi donc d'effacer la console ici afin que nous puissions voir correctement. OK, donc tout d' abord, ce que je vais faire, je vais l'exécuter automatiquement, ce n'est souvent pas à moins de deux avec deux vecteurs. Donc, tout d' abord, ce que nous allons faire, créer deux vecteurs, créer et soutenir notre vecteur F1. Et je vais créer un vecteur, le vecteur F1. Et ce que je vais faire, attribuer des valeurs. Supposons qu'ils ne le soient pas encore, quelque chose comme 95. OK, je vais donc créer un vecteur, F1 et le copier-coller. Et je vais créer un autre vecteur, F2. Et nous en trouverons quelque part des types D et 20. D'accord ? Ça va donner, d'accord. Nous avons donc maintenant deux vecteurs, F1 et F2. Je souhaite effectuer une addition. D'accord ? Ce que je vais faire, c'est créer un autre vecteur, un autre objet a. Et ce que je vais faire, attribuer F1, F1 plus F2. Donc, ce que je fais ici, ajouter ces deux vecteurs, c'est ajouter ces deux vecteurs, F1 et F2, et je les assigne à l' objet a. Maintenant, ce que je vais faire, c'est imprimer a. Alors laissez-moi exécuter ce n. Vous avez terminé numériquement. Tu vois, tu sais ce que je vais obtenir ? J'obtiens le résultat 24, 24, y plus 212. Le premier élément de ces deux vecteurs sera ajouté, 12 plus 214. Alors 78 plus huit font 690 plus 31, 25 plus 25, 30. De cette façon, nous pouvons effectuer une région. Supposons que je veuille interpréter certains morceaux et que je vais simplement les copier. J'ai vraiment donné aux locataires ce jour-là. Oui. Et je vais apporter des larmes et ce que je vais faire, faire de la F1 moins de la F2. Donc F1 moins F2. Si je fais quel hayon ? Tu vois, j'obtiens 107060 et -20 y encore, 12 moins 21078 -70, 90 -30, 65 -25, 20. Ainsi, nous pouvons effectuer la soustraction de la même manière. Si vous multipliez par la vôtre, je créerai au-dessus de moi et quel faible F1 et F2. Et je vais imprimer, si je lance ceci, ce que nous obtiendrons 12 quand deux contre 24, 78 dans 862490 dans 3027005205125. De même, nous pouvons effectuer une division. Supposons donc que je crée un vecteur d et que je fasse F1 divisé par deux. Et je vais imprimer l'offre. Et si je lance ça, je te rendrai malade de deux à 678/9, 0,759, 0,7, 5,90, 233 5/25, soit 0,2. D'accord ? Ainsi, nous pouvons effectuer une soustraction, une multiplication et une division décentes . Alors laissez-moi écrire ici, il s'agit d'une application multiple. Et puis voici la région. Ainsi, nous pouvons effectuer des additions, soustractions, des multiplications et des divisions sur le rectus. C'est ce qu'on appelle la manipulation vectorielle. 12. Recyclage d'éléments vectoriels: Bonjour et bon retour. Donc, dans cette conférence, je vais vous dire quelque chose que je n'ai pas totalement compris, vous ne vous avez pas enseigné lors de la conférence précédente. Et c'est une question tout à fait unique que vous vous êtes peut-être posée s'il s'agit d'un cours physique ou hors ligne. Et vous avez dû vous poser cette question, elle aussi, vous est peut-être venue à l'esprit. Supposons donc que j'aie deux vecteurs, F1 et F2. Et F1 a quatre éléments, et F2 n'en a que deux. Et si j'ajoutais ces deux vecteurs ? Supposons que j'exécute les conditions initiales sur F1 plus F2. Voici donc quatre éléments et voici deux éléments, une liste. Alors, comment ça va se passer. Donc, dans R, si nous essayons d' exécuter F1 plus F2, si nous essayons d'ajouter deux vecteurs inégaux, alors le second vecteur, qui est de plus courte longueur, cela signifie que le vecteur de tri le sera, éléments seront recyclés pour faire de la longueur sombre du premier vecteur. Alors, dans ce cas, que va-t-il se passer ? Vector va devenir comme ça. En interne. Quoi ? F2 sera comme deux virgules huit. Virgule deux, virgule huit. D'accord ? Donc, si deux deviennent quelque chose comme ça, d'accord ? Vous aussi, cela sera répété jusqu'à ce que le nombre d'éléments de la F1 soit atteint. Il y a donc quatre éléments, donc cela va lui être répété. Cela va donc devenir quelque chose comme ça. Et puis il effectuera l'opération automatique. Laisse-moi analyser ce que j'ai traité pour t'en faire une meilleure idée. Laissez-moi clarifier cela et exécuter ceci. Voir ici. Le résultat est maintenant de 14, 86, 90 à 13. Comment faire plus quatre, désolé, deux plus deux. Désolé, 12 plus 214. Et puis 78 plus 886, puis 90 plus deux. Parce que les deux, ça va se répéter. Donc 90 plus 292,5 plus 813. Donc ça va devenir comme ça. Si j'ajoute un élément supplémentaire ici, supposons 80. Et si je lance ça, que se passera-t-il ? Voyons voir. Regardez ici, nous avons une erreur ici. longueur d'objet plus longue n'est pas un multiple de la longueur de l'objet de départ. Cela signifie qu'il ne faut pas encore le voir. Cet élément est un quatrième à deux éléments. Deux éléments. Et F1 s' amuse à avoir des variables phi, non ? Nous nous endettons. Le second, le premier élément est d'avoir deux éléments, et celui-ci, d'en avoir cinq. Donc cinq n'est pas un multiple de deux, non ? C'est pourquoi nous en sommes là, car deux, si vous divisez cinq par deux, vous obtiendrez le reste. Dans ce cas, cette réputation ne fonctionnera pas. Mais si j'ajoute un élément supplémentaire, supposons sept. Et si j'ai essayé de l'exécuter, cela fonctionnera cette fois. Nous obtenons maintenant le graphique car le nombre d'éléments est maintenant de six. Et le second est 22268/2, non ? Six est multiple jusqu' au premier L. Les éléments plus longs et les vecteurs plus longs porteront la marque. Autant de chiffres. Le nombre d'éléments serait multiple. Certains éléments aiment-ils six, n' est-ce pas ? Six est donc la multipolaire de cette fonction, de cette multiplication, de cette division ou de cette addition que vous pouvez effectuer. Mais si c'est cinq, alors deux ne seront pas le phi ne sera pas le multiple de deux, et cela générera une erreur comme celle-ci. D'accord ? Alors j'espère que tu l'as. De même, si vous souhaitez effectuer une multiplication, vous pouvez également le faire. Ici, nous obtenons la division de multiplication, tout sera fait. Le recyclage des éléments ne se produira donc que si plus les éléments du vecteur le plus long sont souples , plus le multiple des éléments du vecteur trié est faible. Donc, des vecteurs plus longs, le nombre d'éléments serait le multiple de ces éléments, d'accord ? Numérotez les éléments de tri. OK. J'espère que c' est clair pour toi. 13. Trier des éléments de vecteur: Bonjour et bon retour. Dans cette conférence, nous allons donc découvrir qui trie des vecteurs. Voyons donc comment trier les vecteurs. D'accord ? Donc, ce que nous allons apprendre, c'est faire du tri recta. D'accord ? Nous avons donc pour cela une fonction appelée sort. Nous allons donc utiliser la fonction de tri. Donc, tout d'abord, laissez-moi créer et vectoriser une épave 0. Et pour cela, je vais donner un nombre aléatoire, 349-082-7543, des nombres aléatoires. D'accord ? Et supposons que je veuille trier ces éléments vectoriels. Donc, ce que je peux faire, je peux simplement créer un autre objet comme une épave. Et ce que je vais faire, appeler les barres de fonction de tri c'est appeler les barres de fonction de tri comme le vecteur nul de la fonction de tri. Et à quoi servira cette fonction de tri. Cela va démarrer ce vecteur. Et ensuite, ce que je vais faire, c'est simplement imprimer et démarrer. Je suis donc en train d'imprimer le vecteur trié et voici le recto supplémentaire. Et je passe ce vecteur à la fonction de tri, puis j'imprime la valeur vectorielle triée. Exécutons ceci et voyons que ce terminal est définitivement clair et réexécutons-le. Vous voyez, vous savez, nous obtenons un vecteur trié. Donc 349, 273-043-6408. Il est donc trié par ordre croissant. Donc, par défaut, il sera trié par ordre croissant. Ainsi, les éléments les plus bas se déplaceront en premier, puis ils continueront à augmenter. D'accord ? De cette façon, nous pouvons trier et vectoriser dans R. Et si je voulais trier cet aboiement ? Je veux par ordre décroissant. Donc, pour cela, ce que je peux faire, je peux utiliser la même fonction de tri. Et voici ce que je vais faire, je vais simplement continuer à diminuer, à diminuer. C'est logique. Et oui, je vais te dire la vérité. Donc en diminuant, je vais garder l'inconvénient car par défaut c'est faux. Et c'est ce qu'il fera. Ordre croissant, non ? Ordre croissant. Par défaut, il sera trié par ordre croissant. Donc, ce que je vais faire, c'est créer de véritables moyens culturels trier le vecteur par ordre décroissant. Exécutons donc ceci et voyons maintenant ce tri dans le nettoyage ou un 98 d'abord, puis 463-06-3420, 79.4. Ainsi, nous pouvons trier par ordre décroissant. Ensuite, nous allons voir le tri caractère, caractère, caractère droit. Donc, nous pouvons également supposer que j'ai un rectangle, un rectangle, qui a des valeurs comme pour certaines choses aléatoires. Et le pays rouge et bleu. N'importe quoi sous la forme d'un personnage. OK, voici le vecteur de caractères. C'est avoir des valeurs dans son caractère. Et supposons que je veuille trier cela et stocker la valeur vectorielle triée dans le vétérinaire pour fonctionner. Je vais appeler la fonction de tri et transmettre cette recta à la fonction de tri. Et si je lance ces deux lignes, quel algorithme ? Qu' est-ce que tu aimes ? Passons à cet outil d'impression. Donc, si je lis cette ligne, comme nous l'aimons, et tu deviens bleu, puis country plutôt que quatre, puis noie, dendrite. Pourquoi c'est ainsi parce que B, puis C, puis F, puis r. D'accord, ce sera donc par ordre alphabétique. Et si je veux faire le tri ? Mais il a été plus dur. Je peux vous appeler de façon décroissante pour dessiner et maintenant voir que c'est mérité. Quand nous avons commencé, il y a f, puis C, puis B. Donc D doit résoudre le problème de la pauvreté, du coton Ce sera ainsi que nous pourrons trier les vecteurs, à la fois les caractères et les chiffres, d'accord ? 14. Prise de décision en R: Bonjour et bon retour. Dans cette conférence, nous allons donc en apprendre davantage sur la prise dans nos autres langages de programmation. Nous avons l'instruction if, nous avons l'instruction if else et nous avons l'instruction switch. Cela nous permet de prendre des décisions. Si une instruction signifie que quelque chose est vrai, alors l' instruction suivante sera exécutée. Et cela signifie que si quelque chose est vrai et que vous donnez une condition mais que cette condition n' est pas remplie, alors l'instruction else sera exécutée. Switch verra comment l'égalité de la variable sera testée. Voici la liste des valeurs, nous verrons si c'est le cas. Ensuite, nous verrons le commutateur. Permettez-moi donc de créer notre fichier de script ici. Et je vais lui donner un nom. Prise de décision, art noir. Algues marines. Permettez-moi de nettoyer la console pour que nous puissions voir le gel. Donc, d'abord, ce que nous allons voir, nous verrons si je suis désolée, je dois d'abord taper ici. Nous verrons s'il s'agit d'une déclaration. D'accord. Donc, d'abord, la réalité, c'est la déclaration. Et si c'est le cas, s' il s' agit d'eaux pluviales, c'est constant, constant. Maintenant, expression booléenne et déclaration suivante. Donc, si l' expression booléenne est vraie, l' instruction suivante sera exécutée. Soutenez ce que je vais faire ici. Je vais créer un objet a et lui attribuer une valeur 67. Tu peux écrire n'importe quoi, d'accord ? Et ce que je vais faire, écrire si la déclaration est inférieure à 70, alors ce que je vais faire, je vais essayer d'imprimer, est inférieure à 17. D'accord ? Supposons que c'est ce que je veux faire. Donc, si je lance ça, qu'est-ce que j'obtiendrai ? Tu vois, le résultat que j' obtiens est inférieur à 70. Supposons que je change cette valeur à 75, 75. Et si j'essayais de le lancer , que se passerait-il ? Je n'obtiendrai aucune sortie car E est 75. Et si j'entre dans cette déclaration, serait coudre qu'un chiffre inférieur à 70 est supérieur à 70. Il n'entrera donc pas dans cette déclaration. Il ne répondra pas à l'état du chien et cette déclaration ne sera pas imprimée, n'est-ce pas ? Cela s'appelle donc une déclaration IF, n'est-ce pas ? De même, je peux écrire comme un entier à points. Donc, l'autre partie est un entier, puis je passe à E. Et une lumière, c'est. Permettez-moi donc de lancer ceci parce que c'est un chiffre ici. Et ce que je suis en train de tester, c'est que s'il s'agit d'un entier, alors je dois imprimer un entier, n'est-ce pas ? Si je mets, fais en sorte que ce soit un entier, tendant à être égal à 75 L. Et si je lance ceci, tu vois, maintenant a est un entier. Ce sera de la peinture. De cette façon. Si cette condition est remplie, il imprimera cette déclaration suivante. D'accord ? De même, nous pouvons ajouter une autre déclaration ici. S'il s'agit de chaque entier, il l'imprimera. Je peux imprimer autre chose. Le lac est nomade. OK, donc si je cours, c'est un entier. Si je le change en numérique, et si je le réexécute, ce que nous obtiendrons, nous obtiendrons du numérique. Laisse-moi essayer. Si j'ai déjà touché, c'est numérique. Et si je lance ça, que s'est-il passé ? OK, il faut que je mette ça. Et si je lance ceci, chaîne est un entier. Je dois modifier l'instruction ici, New Relic et ici entier, n'est-ce pas ? Maintenant. Parce que a est nomade, cette condition se réalise. C'est donc l'impression nomade, le taux est numérique, c'est nomade. Et cette déclaration ne l'est pas, elle ne va pas à l'autre partie. Donc, de cette façon, nous pouvons mettre une instruction switch pour l'instant. La déclaration Switch. Donc, l'instruction switch supposera que j'ai un vecteur D et que j'utiliserai switch. Et puis un aperçu de ce que je vais faire. Je vais appuyer quatre virgules une. Et je vais donner 2345. Ensuite, je vais fermer l'interrupteur. Alors si je mets en d, quelle valeur nous obtiendrons. Voyons voir. Quand tu en auras quatre, parce que je passe pour ce que l'instruction Switch suffira. Il passera à la quatrième valeur et affichera cette valeur. Donc, un an pour 1234, il en imprimera quatre. Supposons que j' écrive autre chose ici. Bonjour. Ce bonjour sera donc imprimé. D'accord ? Permettez-moi de vous montrer cette impression, bonjour. Et supposons que si j'en fais un ou deux, cela sera imprimé vers, il ira vers le correspondant, s'il vous plaît. D'accord. Pour l'instant, deux, ce sera le 12. Il les imprimera. Pour trois, ça ira au bonjour pour quatre, ça ira au bonjour. Cinq, il en imprimera 55. Donc, ce qu'elle fera, une instruction switch permet de tester l'égalité d'une valeur par rapport à la liste de valeurs. Voici donc la liste des valeurs. Et pour eux, l'indexation est de 1 234,5. Quel que soit l'indice que vous allez vous donner, cette valeur d'indice sera imprimée. Supposons que j'en ai donné trois. La valeur d'indice trois sera donc imprimée. 3 minutes, 123. Allez-vous acheter un cadeau pour ? Ensuite, bonjour sera imprimé. C. De cette façon, nous pouvons utiliser Switch Statement dans Heart. 15. Contrôle de la boucle en utilisant la répétition et en boucle: Bonjour et bon retour. Dans cette conférence, nous allons donc en apprendre davantage sur l' instruction en boucle dans notre article, qu'est-ce qu'une boucle ? Une boucle est une fonction. Tu peux dire une boucle. Avec une boucle, nous pouvons exécuter une instruction ou groupe d'instructions plusieurs fois. Donc, lorsque nous mettons une boucle, lorsque nous mettons une instruction à l'intérieur de la boucle, elle sera exécutée plusieurs fois jusqu'à ce que la condition soit satisfaite, n'est-ce pas ? Jusqu'à ce que la condition ne soit pas satisfaite , la même déclaration continuera à tourner en boucle encore et encore. Ainsi, une instruction en boucle nous permet d'exécuter une instruction ou groupe d'instructions plusieurs fois. Et il en existe trois types. Il existe trois types d'instructions de boucle dans R. La première est une instruction réputée, la seconde est une boucle entière. Et puis il y a la très populaire boucle à boucle unique. Donc, ce que je vais faire, commencer par une boucle de répétition. Voyons donc ce qu'est une boucle de répétition en R. Supposons que nous ayons un recto selon lequel les chemins de fer soutiennent l'Inde, Burton, d'accord ? Comme ça. Je le dirai donc un peu plus tard. Nous avons donc n vecteur dont les valeurs sont l'Inde, les États-Unis et la Grande-Bretagne. Et supposons que je prenne un autre itinéraire, supposons que je lui ai donné un nombre de noms. Et je donne à Kant un soutien égal à quatre. Et puis, ce que je vais faire, c'était la fonction « pieds sales » ici. Et je veux imprimer le vecteur d'un certain nombre de temps. D'accord ? Donc, ce que je vais faire, c'est imprimer le rapport que j'ai donné. Si vous comptez ici, si le nombre est inférieur à dix, alors ce que je veux faire, imprimer la notice. D'accord ? Alors ils diront Quelle lettre. Donc, si je lance ça, que se passera-t-il ? Voyons voir. On se voit. Il continuera à imprimer ceci parce que le compte est dû et à la condition que j'ai donnée. On me dit que si le compte est inférieur à dix, cette Ford sera toujours inférieure à dix, n'est-ce pas ? Donc, ce que je vais faire, c'est compter, compter plus un. Donc, chaque robe et moi augmenterons la valeur du compte à une. Maintenant, laisse-moi arrêter ça. Et laissez-moi réexécuter ce code. Maintenant, voyez ce qui se passe. Il l'imprime 123456 fois, y est l'extrême. C'est la première fois que ça arrivera. Le compte est égal à quatre. Il s'imprimera donc à chaque fois que vous y retournerez. Le compte deviendra donc cinq. Ensuite, il en imprimera quatre. Puis 54678 jusqu'à neuf. Ensuite, extranet, le décompte passera à dix. Il n'imprimera pas, il en imprimera 45. Elle imprimera 445 678,9. Pour que le courant net devienne dix, il sortira de cette boucle. C'est donc la boucle habituelle. D'accord ? Donc de cette façon, nous pouvons utiliser la boucle de répétition, d'accord ? De la même manière, nous allons essayer d'utiliser la boucle while. Donc, ce que je vais faire, c'est devenir fou. Et encore une fois, le décompte de Waterloo est inférieur à ce que l'on suppose. Bien que le compte soit inférieur à huit, ce que je vais faire, imprimer les comtés les plus âgés pour et ce que je vous donne un décompte inférieur à huit, puis il imprimera le réveil et augmentera le nombre tout en bouclant bien d'un point. Donc, si on lance ça, on obtient l'Inde et les États-Unis. quatre fois, non ? Parce qu'il imprimera 44, imprimera le profil. Il en imprimera pour six, il en imprimera 47. Et bientôt, le compte deviendra huit. Il en sortira en boucle. D'accord ? De cette façon, nous pouvons utiliser la boucle while. 16. Pour la boucle et la prochaine déclaration: Dans cette conférence, nous allons en apprendre davantage sur la boucle for dans R. Supposons que je crée un vecteur d par voie rectale, qui contiendra quelque chose comme deux à 20, d'accord ? Des planches, si je les apporte me donneront les chiffres de 2 à 20. D'accord ? Maintenant, ce que je vais faire, je vais l'écrire ici, je vais le faire. Je vais utiliser une variable i dans D. Donc, pour chaque valeur de I dans le, pour chaque valeur de ce vecteur d, ce que je veux faire, je veux l'imprimer, n'est-ce pas ? Et puis je veux faire I plus un. Je suis égal à I plus un. Laisse-moi, d'accord. Je vais le dire par lettre. Alors laissez-moi analyser ceci et voir ce que nous obtenons. Ce que j'obtiens, c'est 234 à 20. Donc, ce qu'il fait, c'est vérifier si ce I, dans le, pour moi, ce sera 11 n'est pas là, puis il l'augmentera d'un. Il va donc venir et vérifier ici aussi, c'est qu'en D deux, puis à nouveau, je suis égal à trois, puis il en imprimera trois. Comme ça. Il en imprimera 20 , puis il sortira de la boucle. Donc, de cette façon, nous pouvons utiliser la boucle for, non ? De la même manière que je peux faire. Si je mets ici une chose simple. Je vais le supprimer. Et oui, que faire d'autre ? Je peux mettre l'intérieur en bon état. Si j'appelle aussi Support 15, alors je ferai ce que je vais faire, j' imprimerai, j'écrirai. Si je suis égal à 15, j'imprimerai. J'ai changé ici, je vais mettre le suivant. Ensuite, je vais imprimer. Imprimer, c'est vrai. Alors à bientôt, que va-t-il se passer ? Laisse-moi expliquer pourquoi nous en arrivons là. expliquer pourquoi nous en arrivons là. Nous l'avons encore fait. Quoi, que se passe-t-il ici ? Je veux chaque valeur et moi, il l'imprime, mais il vérifie la valeur. Si j'appelle deux avions, ce sera le cas. Que faire ensuite ? Donc, ici, vous voyez 2345678 jusqu'à 13, 14, il s'imprime correctement et puis il faut penser, accord, je suis égal à 15. Ensuite, Next signifie qu'il ignorera ce titrage. 15 ne seront donc pas imprimés ici car le mois prochain, ce traceur sera oublié. J'ai donc dit qu'une préimpression signifie cette adresse et nous serons évadés et aucune empreinte ne sera imprimée. Ensuite, il passera à la cystéine , puis 161-718-1920, réimprimé. Alors le mois prochain, je ne m'habillerai pas. Donc, si j'utilise ici, supposons 17, alors les 17e titrages seront ignorés. impressions 16, 17 ne seront pas imprimées, et 18, d'accord. Donc, si vous voulez omettre un azote, vous pouvez utiliser le suivant. J'espère que vous avez compris comment l'utiliser ensuite. Rendez-vous lors de la prochaine conférence. 17. Fonctions en R: Bonjour et bon retour. Dans cette conférence, nous allons apprendre les fonctions en R. Dans R, il existe deux types de fonctions. L'une concerne les fonctions intégrées, les fonctions intégrées, et l'autre les fonctions définies par l'utilisateur. Défini. D'accord ? Il existe donc deux types de fonctions, les fonctions intégrées et les fonctions définies par l'utilisateur. Alors d'abord, laissez-moi vous expliquer ce qu'est une fonction. La fonction est en fait comme si nous voulions exécuter un groupe d' instructions et effectuer des calculs, nous voulions faire quelque chose. Donc, en gros, c'est comme si une fonction était un mot clé. Et dans le V fonctionnel, c'est essentiellement pour un groupe de déclarations amusantes, d'accord ? Notre groupe de fonctions de regroupement de calculs. Nous allons effectuer un calcul ou nous ferons quelque chose qui est une fonction. D'accord ? Permettez-moi donc vous expliquer la structure de base d'une fonction. Supposons donc que notre fonction prenne, supposons que ce soit un mot-clé de fonction dans R. Et ce qu'il faut, c'est qu'elle prenne des arguments, n'est-ce pas ? Il prend donc des arguments, donc il peut prendre n'importe quel nombre d' augmentations augmentées, un, une virgule deux. Ce sera donc une fonction, d'accord ? Et dans cette fonction, nous pouvons tout faire avec ces arguments, n'est-ce pas ? Supposons que ces arguments puissent avoir certaines valeurs, afin que je puisse les supporter, que je puisse utiliser certaines d'entre elles pour augmenter, afin de pouvoir effectuer une augmentation plus deux. Et je pourrais imprimer une partie de ces 12 mois trois. C'est donc une fonction dans laquelle ce que je fais, j'exécute certaines d'entre elles pour augmenter , augmenter et augmenter, et je trouve certaines d'entre elles pour augmenter l'outil One Plus Segment. Il s'agit donc d'une fonction et je peux appeler cette fonction en passant l'argument. Supposons donc que je donne un nom à cette fonction, une fonction, et que je lui attribue cette fonction entière. Et je vais lui donner un nom, une fonction. D'accord ? Maintenant, que puis-je faire ? Je peux appeler cette fonction, n'est-ce pas ? Je donne la parole aux deux arguments, argument un, argument deux. Pour que je puisse m'amuser. Et ici, je peux exécuter trois virgules six. Je peux réussir. Si je lance ça, laisse-moi lancer le premier sous une forme amusante. Et puis je lance ça, vois, OK, oui, Hawks One, ça l'est. Alors laisse-moi le réexécuter. Et si j'appelle la fonction en passant, accord, c'est également une erreur saoudienne pour cette erreur. Et si j'appelle cette fonction en passant ces deux arguments, 3.6, j'obtiendrai le résultat neuf, car trois plus six font neuf. Il s'agit donc d'une fonction définie par l'utilisateur, à droite, nous avons déjà vu une fonction intégrée. Alors, quelles sont les fonctions intégrées que nous avons vues, nous avons vu des séquences comme la séquence une virgule huit. Et cela nous donnera la séquence des nombres de 1 à 8. Cette fonction de séquence est donc une fonction intégrée que nous avons dans notre, donc c'est une fonction intégrée qui l'exécute. Nous n'avons pas besoin d'écrire un programme pour imprimer les chiffres de 1 à 8. Cela se fera automatiquement car dans cette séquence, la fonction a été écrite en arrière, comme dans la coda, elle a été définie que lorsque nous utilisons une séquence, nous fournirons deux arguments. La première est d'aider, elle générera les chiffres de 1 à 8. Cela a donc déjà été défini et c'est pourquoi on les appelle « fonctions intégrées énormes, désolées », n'est-ce pas ? Il s'agit donc de fonctions intégrées comme nous l' avons vu un été. L'un a 28 ans. Et cela nous donnera la somme des nombres de 1 à 1. Il nous fournira les statistiques des résultats de la même manière. Nous avons la fonction principale. Donc je suis en train de taper, oui, je veux dire, supposons que j'arrive au numéro 23, virgule 90, 87. Et si je ne m'ai pas vue et que nous lisons 23 peut aussi signifier deux virgules neuf. Et les soins dentaires gratuits, j'en aurai 5,5. Nous pouvons donc utiliser doc pour séquencer toutes ces fonctions intégrées. Nous avons donc vu que ces publicités sont des fonctions définies par l'utilisateur, définies par l'utilisateur. Et cette séquence et un peu d'eau. Fonctions intégrées D'accord ? Maintenant, ce que je vais faire, voir comment on peut appeler cette fonction de somme. D'accord ? Permettez-moi donc de copier cette somme. Nous pouvons donc appeler cette fonction en fournissant les arguments ici. Et nous pouvons aussi appeler cela x, une à quatre virgules de deux à neuf. Maintenant, j'obtiens également 13 de cette façon, nous pouvons, c'est ma position et c'est faire varier l'argument, nom, l'argument, l' argument un égal à. Pour un argument égal à neuf, comme celui-ci, nous pouvons fournir. C'est donc une autre façon d' appeler la fonction, d'accord ? Maintenant, ce que je vais faire, écrire notre fonction pour découvrir les villes carrées n'ont personne de séries de nombres. Donc, ce que je vais faire ici, te tuer. Fonction silencieuse. Et ce que je vais transmettre à cela et passer un chiffre par main. Ce que je vais faire, c'est créer une séquence de nombres, donc je vais utiliser la boucle for ici. Et ce que je vais faire pour moi dans un à dix, accord, donc quel que soit le nombre, ce sera de ce chiffre à dix. Je souhaite créer une séquence de nombres. Ensuite, ce que je veux faire, je veux l'attribuer, je démissionne. Je veux mettre la valeur I au carré et l'attribuer à b. Et ensuite je veux la ramener à la valeur b, d'accord ? C'est donc la fonction fonction racine carrée que je définis ici. Maintenant, ce que je vais faire, c'est appeler cette fonction carrée en transmettant un support numérique pour ce qu'elle va faire. Il créera d'abord des numéros de 4 à 10, puis il en faudra 45678 à dix, et il imprimera les numéros. OK, alors laisse-moi m'occuper de ça. Regarde, on a de la cystéine. Le premier numéro sera 44 carré 16, puis la cystéine sera imprimée. Ensuite, le chiffre suivant sera cinq. Il imprimera 2055 au carré 25, puis 630-67-4097 au carré. 409849 correspond, au sens quadratique, à 1,10 cent carré. De cette façon, nous pouvons créer une fonction simple qui trouvera cette série de nombres silencieuse. Le chiffre de Syriza est donc de quatre à dix et nous arrivons ici à quatre à dix carrés. Chaque chiffre sera mis au carré et nous passerons la prochaine chose que je vais faire. Je vais trouver la somme des nombres pairs. Je vais donc écrire un programme pour trouver des nombres pairs entre deux nombres. D'accord ? Donc, ce que je vais faire, supposons un à dix. Je veux d'abord trouver un à un nombre pair, 1 à 10, une somme de nombres pairs, d'accord ? Il ne s'agit pas d'une somme au carré des nombres pairs. D'accord ? Donc, ce que je vais faire, est écrire une somme de fonctions paires. Et ce que je vais faire, je vais l'écrire ici, d'abord, je vais générer le nombre pair. Et comment générer un nombre pair. Et vous voyez de l'alginate un à dix nombres pairs. Donc, ce que je vais faire, multiplier le nombre par deux. Il s'agira donc de résumer les nombres de 1 à 10. Ensuite, ce que je vais faire, imprimer et imprimer ce que je fais la somme de ces nombres pairs, donc et favoriser le nombre pair, cette séquence de nombres pour la somme, la fonction de somme, puis ça se tord. Alors, avant cela, permettez-moi d'en venir au nombre indiqué. D'accord ? Ensuite, je sortirai et j'appellerai la fonction pair. D'accord ? Alors laisse-moi exécuter ça. OK, c'est le C. minuscule. Vous obtenez pour la première fois 246810, somme de nombres pairs de 1 à 10. Donc, ce sont souvent des numéros pairs de 1 à 20, d'accord ? Parce que je multiplie par deux. Si j'en fais cinq, ce sera le plus tôt ce que nous avons écrit. Ce ne serait pas ça, d'accord. 246810. D'accord. Ainsi, nous pouvons envoyer la somme des nombres pairs, la somme des nombres. Et puis, lorsque vous aurez terminé avec cette fonction, certains nombres pairs. Il résumera donc tout et nous donnera le résultat. D'accord ? Ainsi, lorsque vous additionnez ces nombres, vous obtiendrez 110. Donc, de cette façon, nous obtenons des nombres pairs de 2 à 2001 à 20. D'accord ? Donc, de cette façon, nous pouvons le faire. La prochaine chose est que je vais faire une fonction d'appel sans document. C'est très simple, appeler une fonction sans arguments. Donc, ce que je vais faire ici, je vais simplement créer un mot-clé function, hello, h function. Et dans le mot clé function, ce que je vois même ici, nous avons également appelé certaines fonctions paires, certaines fonctions paires sans passer aucun argument. D'accord ? La même chose que nous allons faire ici également. Ce que je vais faire ici, c'est simplement utiliser une impression et je vais dire bonjour. Comment allez-vous ? Alors ? Oh, location. Dis bonjour. C'est juste que je l'appelle. D'accord. Donc, avant cela, je dois l'exécuter. Alors laissez-moi lancer ceci et voir, oui, nous allons recevoir un bonjour et comment allez-vous cette façon, nous pouvons appeler une fonction sans augmentation. 18. Matrices en R: Bonjour et bon retour. Dans cette conférence, nous allons en apprendre davantage sur les métriques dans notre analyse matricielle, concept très important et nous devons le comprendre. Parce que lorsque nous allons au-delà de ce cours, lorsque vous essayez de mettre en œuvre le concept artistique permettant d'analyser les données, vous essayez d'utiliser la R4 pour la manipulation des données, la visualisation des données ou même l'exploration de données, l'analyse de données et des projets de science des données dans le cadre de l'apprentissage automatique. Les matrices seront donc très complètes et nous allons les utiliser à de nombreux endroits. Dans notre matrice. C'est un objet ou un objet. Dans l'art, tout est objet. Et de cette façon, les matrices sont aussi nos objets, n'est-ce pas ? Les matrices sont donc les objets d'art dans lesquels s'arrangent les éléments du même type atomique. Donc, dans matrice, matrice, nous allons ajouter au même type d'éléments, les mêmes types atomiques d'éléments dans une disposition rectangulaire bidimensionnelle. Il en sera de même pour les matrices rectangulaires en pierre diamantée. La matrice est une fonction. Alors, comment allons-nous créer la matrice ? Nous allons utiliser la fonction matricielle intégrée à R. Créez des métriques et des illustrations. La syntaxe serait matricielle. Ensuite, nous fournissons les données, déterminons les éléments de la matrice nous allons fournir ici. Ensuite, nous allons fournir le nombre de lignes et rho est le nombre de lignes dans la matrice, puis n colonnes, nombre de colonnes dans la matrice. Ensuite, nous allons dire par ligne, nous voulons ajouter les éléments par ligne, par colonne que nous allons définir par cet argument. Ensuite, nous allons donner aux diamants que les fils qui lui ont donné le nom de moyens. Nous allons conserver le nom des dimensions. D'accord ? Les données sont donc un vecteur d'entrée, qui devient les éléments de données de la matrice que vous pouvez dessiner. Il s'agit du nombre de lignes à créer et du nombre universitaire de colonnes à créer par rho est un indice logique. Si c'est vrai, éléments du vecteur d'entrée sont organisés par ligne. Donc, si vous voulez créer une matrice en assignant les éléments par ligne, nous devons donner par rho égal à vrai. Sinon, ce sera, par défaut , sous forme de colonne, d'accord ? Les valeurs en colonnes, par exemple, si l' on nous donne les éléments un à dix, seront 12 ou trois. termes de colonnes, ce sera le cas, si vous donnez vrai, alors ce sera Viral Hockey. Et le nom dim est le nom attribué aux lignes et aux colonnes. D'accord ? C'est donc ce que nous devons savoir de base. Et maintenant, ce que je vais faire, dévier de la matrice. D'accord ? Donc pour cela, j'ai déjà créé notre fichier dans lequel j'ai écrit quelques programmes, quelques fonctions permettant de créer des métriques afin ne pas perdre notre temps à écrire le code encore et encore. Et écrire prend beaucoup de temps. J'ai donc déjà créé ces deux matrices qui parsèment nos fichiers. Expliquez ce que je vais faire à chaque étape. D'accord ? Donc, tout d'abord, nous allons créer une matrice dans laquelle les éléments sont organisés séquentiellement par colonne, par défaut. D'accord ? Supposons donc que je crée une matrice et que je lui donne un nom M1. On sera donc un objet en NADH qui va contenir cette matrice. Je vais donc utiliser la fonction matricielle. Et voici ce que je transmets, ce sont les données que je transmets. 12 à 35 signifie qu'il créera les numéros 12-351213, 14 à 35. Ce seront donc des données , puis ce que je vais donner à la prochaine étape, Andrew, le nombre de lignes six. Je ne fais donc que transmettre les données et donner le nombre de lignes. Je veux créer une matrice ayant le nombre de Rogers six. C'est ça Je ne donne aucune valeur de colonne ou quoi que ce soit d'autre. Je passe juste le lecteur de données à 35 numéros et le numéro de Rogers à six. Je ne donne pas cet argument par ligne ou par colonne. Je ne vais pas passer par ici. Je suis donc en train de créer une matrice qui a, qui sera créée avec les six lignes et qui sera remplie avec les données jusqu'à 35. Alors laisse-moi le créer. Si je lance ça. bientôt, M1 est un pour six, donc un est pour 412 à 36, des données seront fournies. Et si j'imprime cette matrice M1 C ici, nous avons maintenant six lignes, 123456 lignes totalisant six routes. Et dans ces six lignes se trouvent les données 12, 13, 14. Voyez d'abord la première colonne qui remplira l' année (colonne 112, 131-415-1617). Ensuite, il ira dans la colonne 24 à 29, puis 30 à 35. De cette façon, les données sont remplies par colonne, n'est-ce pas ? Pour laver la colonne 1, la colonne 2, puis la colonne 3. D'accord ? Parce que je n'ai rien donné, oui, je n'ai pas spécifié par rho un équivalent à quelque chose ici. D'accord ? Ensuite, si j'utilise by rho égal à false, ce qu'il fera, il fera la même chose. Donc, si je l'exécute également, encore une fois, j'obtiendrai la même sortie, même matrice sera à nouveau imprimée. Mais si je fournis ici le même code par rho égal à true, maintenant la matrice sera créée en remplissant d'abord les lignes. Donc, rincez 12131415, la première ligne échouera. Puis 16, 17, 18, deuxième rangée, puis 2021, 22, 24e rangée, comme ça. OK, si vite, les règles seront redéfinies. Et puis la deuxième rangée, puis la troisième rangée comme ça. Et là, c'était la première ligne, puis la deuxième, la première colonne, la deuxième colonne, la troisième colonne, comme si c'était le cas ici. Première rangée, deuxième rangée, troisième rangée, colonne ou ligne. Donc, si vous voulez remplir les données par ligne, vous devez donner par rho égal à vrai. D'accord ? Compris. La prochaine étape consiste à donner les noms des colonnes et des lignes. Supposons que je veuille donner le nom de la colonne ici, et que je veuille également donner le nom de cette ligne. Comment est-ce que je peux faire ça ? Je peux utiliser la fonction C et je peux donner un nom aux lignes de colonnes. Supposons donc que je veuille alors six rangées. Je veux donner à chaque ligne le nom de la ligne 1, ligne deux, de la ligne 6. Je vais donc utiliser la fonction c et créer un objet contenant des noms de lignes, et je vais créer un autre objet contenant des noms de colonne plutôt que de conserver les colonnes une, deux, trois, quatre, quel que soit le nom que vous voulez donner, vous pouvez vous le donner. Ensuite, lors de la création la matrice, ce que je vais faire, je vais d'abord transmettre matrice de données à l'intérieur de la matrice forêt fonctionnelle, les données. Et puis je vais donner le nombre de lignes, six. Ensuite, je vais donner par ligne, tu peux donner le vrai ou le faux ce que tu veux, d'accord ? Et puis ici, le prochain argument sera considéré comme étant le nom des dimensions. Et voici ce que je vais faire, je vais créer une liste. Et dans la liste, ce que je vais faire, transmettre les noms des lignes et les colonnes de lignes sous forme d'arguments à deux. Cela créera donc les dimensions de la matrice. noms des lignes et des colonnes seront récupérés à partir d' ici et transmis à la liste. Et cela créera la ligne et la colonne nommées pour la matrice. Permettez-moi donc de lire ces deux lignes. OK, désolée, je dois tout gérer. Voir ici. Nous obtenons maintenant une matrice avec le nom de la colonne, colonne un, colonne deux, colonne trois, colonne quatre. Et les noms des lignes sont les suivants : ligne 1, ligne 2 , ligne trois, ligne quatre, ligne 5, lignes six. De cette façon, nous devons d'abord créer une liste de colonnes nom de la colonne, les noms des lignes de colonne et le nom des colonnes. Et nous devons fournir ces arguments à des noms obscurs, d'accord, par le biais de notre liste, d'accord ? Ensuite, une ligne sera créée et les noms de colonnes seront donnés dans cette matrice. La prochaine étape consiste à accéder aux éléments depuis la matrice. Supposons donc que je veuille accéder à l'élément depuis le M5, cette matrice, la première colonne et la troisième ligne. Alors, comment puis-je faire ça ? La troisième ligne, trois virgules une, m phi, puis le crochet et trois virgules une. Cela signifie que je veux récupérer la troisième colonne, troisième ligne et la première colonne. Le premier argument concerne la ligne et le second est quelle colonne ? Troisième ligne, le premier élément sera imprimé. La troisième ligne signifie celle-ci et la colonne un mois, c'est beaucoup. Donc, si je gère ça, je devrais avoir 20 ans, 32 ans. Je vais voir ici que nous en avons 20. Donc m5 est la matrice. Et je veux terminer la troisième colonne, troisième rangée, la première colonne, la troisième rangée, la première colonne. De même, je veux d' abord faire défiler la valeur de la cinquième ligne, puis la deuxième colonne. Il s'agit de la page précédente de la deuxième colonne, donc la 29e serait imprimée ici. Oui, on en aura 29. De même, supposons que je veuille passer à la sixième ligne. D'accord ? Je peux donc donner à m phi et rho six et la valeur de la colonne. Je vais le laisser. Donc, si tu donnes comme ça, qu'est-ce que tu obtiendras ? Vous obtiendrez la valeur c de la ligne six ici, 323-033-4305. Voici donc la sixième rangée. Tu vas l'obtenir. D'accord ? De même, si je veux accéder à la deuxième colonne, je peux donner, je peux quitter la ligne et je peux donner une valeur de colonne d'un litre. Et si je lis ceci, je vais ouvrir la chronique pour vous voir. 13, 17. Il s'agit des colonnes 213-17-2120, 5.20, 9.33, 29, 30. Ainsi, nous pouvons présenter la valeur de la colonne. Ensuite, il y a l' addition et la soustraction matricielles. Nous pouvons effectuer des multiplications, des additions, des soustractions et des divisions avec Duck Matrix. Supposons donc que j'aie une matrice M1, laissez-moi imprimer ceci. Vous voyez, c'est le M1 et j'ai une autre matrice qui est M2. Les deux sont donc la même matrice, mais quelles sont les différentes mesures différentes, mais les valeurs sont les mêmes. D'accord ? Donc support, je veux ajouter m1 et m2, donc je peux simplement faire m1 plus m2. Et je vais attribuer cette valeur à un objet. Donc, si je lance ceci, et si j'imprime la valeur totale c ici, j'obtiendrai la garantie pour 36, comme s'ils étaient stockés 2012 +12, 241-313-2614 plus 14, 20e comme ça. D'accord, de même, nous pouvons faire m1 moins m2 et nous obtiendrons 000 parce que les deux mesures sont identiques, n'est-ce pas ? M1 en m2. Nous pouvons faire des multiplications, désolée pour cela. 12 en 12, 24, 30 et amusez-vous une fois que c'est transformé comme ça. D'accord ? Et de la même manière , nous pouvons effectuer la multiplication matricielle où chaque élément sera divisé par chaque élément, d'accord ? Eh bien, en 121, comme ça. D'accord ? Donc, de cette façon, nous pouvons utiliser une matrice et nous pouvons effectuer, ce n'est pas une soustraction et nous pouvons accéder aux éléments de la matrice. 19. Facteurs en R: Bonjour et bienvenue. Dans cette conférence, nous allons en apprendre davantage sur Dustin R. Alors, qu' est-ce qui entre en ligne de compte ? Les facteurs sont des objets de données, comme nous l'avons appris jusqu'à présent que tout est un objet. Les facteurs sont donc également des objets de données dans R qui sont utilisés pour catégoriser les données. Donc, en gros, des facteurs sont utilisés pour classer les données, puis les stocker, classer les données en niveaux. Il va donc d'abord catégoriser les données, puis créer des données étiquetées Spot, esquiver, catégoriser. Ensuite, il stockera ces étiquettes, d'accord ? Il stockera ces données dans ces niveaux, n'est-ce pas ? Et des facteurs sont utilisés pour représenter les données catégorielles. Et ils peuvent stocker à la fois des chaînes et des nombres entiers. Et ils ont créé un vecteur entier ayant un niveau. Supposons qu'un vecteur entier ait un niveau, quelque chose comme ça. D'accord ? Donc, en gros, supposons que nous ayons des données, supposons un homme ou une femme. Nous pouvons donc le stocker. Il vaut mieux le stocker sous forme de 0.1, non ? Donc, ce que cela va faire, c'est en supposant que nous disposions données sur les hommes et les femmes, d' une population de données où nous avons nos données pour les hommes et les femmes, les deux. Quels facteurs agiront ? Cela créera une catégorie de données avec des hommes et des femmes, et il stockera ces données dans la catégorie des hommes et des femmes. Et puis vous pouvez facilement trouver combien d'hommes il y a et combien de femmes, quelque chose comme ça. D'accord. Permettez-moi d'ouvrir le fichier dans lequel j' ai créé quatre vecteurs. J'ai donc déjà créé un facteur de fichier dans R point R. Et ici, je vais également savoir comment créer un facteur dans R. La première étape pour créer un facteur dans R est de créer un vecteur. Donc, voici ce que je suis en train de faire, je crée un vecteur pour la profession du visage. Et ici, dans le vecteur de la profession, il y aura un Dr. ingénieur charpentier, un Dr. mécanicien, pilote, un Dr. charpentier au Kenya, comme ça. D'accord. Il y a donc quelques professions que j'ai créées ici. C'est donc le vecteur professeur où j'ai conservé le professeur des personnes. D'accord ? Donc, si je lance ces deux lignes, ce que cela va faire, cela créera un vecteur pour la France et c'est vrai. Et il y aura le Dr Ingénieur Carpenter, Dr. Voir l'adoptant se répète à droite. Dr. Il y a tellement de médecins, n'est-ce pas ? Supposons donc qu'il s'agisse d'un vecteur que j'ai créé. Si je veux vérifier si ce vecteur est notre facteur ou non, je peux utiliser une fonction appelée chaque facteur. Donc quoi qu'il en soit, si nous voulons vérifier s'il s'agit d'un facteur ou non, vous pouvez utiliser chaque fonction factorielle et transmettre ce vecteur ou cet objet à chaque fonction factorielle et cela vous indiquera qu'il s'agit d'un facteur ou non. OK, alors allons-y. Voyez ici, cela nous montre que c'est faux. Cela signifie que ce vecteur n' est pas un facteur. Il s'agit d'un vecteur et non d'un facteur. Alors, comment convertir ce professeur et ce vecteur en facteur ? C'est ce que nous allons faire. L'étape suivante. L'étape suivante consiste à appliquer la fonction factorielle. Alors soutenez. Maintenant, je veux convertir cette compétence avec un facteur. Je suis donc en train d'en créer un autre, de créer un autre objet dont le trait de soulignement est pris en compte. Professeur. Bon, maintenant je vais utiliser la fonction factorielle et transmettre ce vecteur de profession à la fonction factorielle afin que ce vecteur de profession soit converti en facteur. D'accord ? Maintenant, si je lance ceci, et si je l'exécute, quelle allocation, voyez ici. Dans cette étape, nous allons créer le facteur à partir de ce vecteur professeur. Alors maintenant, ce facteur, professeur, facteur nasal, pour que je puisse vérifier, est un facteur. Ici, il nous montre comment passer. Et lorsque j'imprime ce facteur de manière professionnelle, qui est un facteur, ce que j'obtiens, j'obtiens le même résultat. Dr. charpentier d'intérieur, dr. Comme ça, les mêmes données. Mais ici, j'obtiens une autre sortie qui est celle des étiquettes. Et les étiquettes, c'est un professeur de menuisier, Dr. Donc toutes ces choses ne seront pas des étiquettes, n'est-ce pas ? Les autres niveaux sont charpentier, docteur chauffeur en junior, mécanicien, pilote et professeur. Si j'utilise la fonction de tableau et que je transmets ce facteur, la fonction de tableau, ce qu'elle fera, elle nous donnera la même chose, des étiquettes, d'accord ? Et si j'utilise le résumé, ce que nous aimons. Si vous utilisez quelqu'un, vous obtiendrez combien de charpentiers y a-t-il dans ces données ? Donc, à un charpentier, à trois médecins, un chauffeur, à un ingénieur, à un mécanicien, à un pilote et à des professeurs. D'accord ? De cette façon, nous pouvons créer et vectoriser le facteur. Factor constatera qu'il a créé un facteur, Carpenter Dr., et cela nous donne les données selon lesquelles il y a deux médecins. Il y a deux charpentiers, trois médecins, un chauffeur comme ça. Il va donc catégoriser les données. Maintenant, le facteur, quel facteur s'est comporté ? Il a classé ces données, ces données dans la catégorie des professions telles que charpentier, Dr., et il nous donne des chiffres tels que ces nombreux charpentiers ou leurs principaux médecins lorsque des ingénieurs figurent dans nos données. Le facteur sera donc utile lors de l'analyse des données qui sont des données catégorielles, n'est-ce pas ? Nous allons donc voir comment nous pouvons faire analyse catégorique en utilisant des facteurs dans R. Donc, pour l'instant, il suffit de comprendre comment créer un facteur dans R à partir du vecteur, d'accord ? Nous pouvons donc appliquer une fonction factorielle au vecteur et ce vecteur sera converti en facteur. Et la condition est que ce professeur des vecteurs d'avoir des données catégorielles. D'accord ? Ensuite, nous pouvons vérifier chaque fonction factorielle. Avec la fonction de chaque facteur, nous pouvons vérifier si un vecteur est un facteur ou non, d'accord ? Et nous pouvons utiliser un tableau pour voir les niveaux du facteur et nous pouvons utiliser la fonction de résumé pour vérifier quels sont les chiffres, par exemple combien y a-t-il de Dr. Combien d' ingénieurs y a-t-il ? Donc, quelqu'un qui augmente le facteur sera vu en utilisant la fonction de résumé, d'accord ? 20. Trames de données en R: Bonjour et bon retour. Dans cette conférence, nous allons donc en apprendre davantage sur les DataFrames dans notre programmation et sur la façon dont nous pouvons utiliser les DataFrames. C'est le sujet de cette conférence. Alors laissez-moi d'abord vous expliquer ce qu'est DataFrame. trame de données est une table ou une structure de type tableau bidimensionnel dans laquelle chaque colonne contient les valeurs d'une variable et chaque ligne contient un ensemble de valeurs de chaque colonne. Tu as compris ce que j'ai dit. dataframe est une structure semblable à une table ou un tableau bidimensionnel, pourrait-on dire, dans lequel chaque colonne contient les valeurs d'une variable. Chaque colonne contiendra des valeurs provenant des valeurs d'une variable, et chaque ligne contiendra l'ensemble des valeurs de chaque colonne. D'accord ? Et il s'agit d'un cas particulier de liste dans lequel chaque élément de chaque composant aura la même longueur et chaque composant formera la colonne et le contenu des composants sur la route. Compris. Chaque composant forme la colonne. Chaque composant formera la colonne et le contenu du composant formera les routes. Vous comprendrez que lorsque nous ferons des exercices pratiques, vous le comprendrez mieux. Ainsi, un DataFrame dans R aura les fonctionnalités suivantes. La première chose est que les noms de ligne doivent être uniques. Le nom de ligne doit donc toujours être unique. Donc, les noms de lignes seraient uniques. Vous ne pouvez pas avoir les mêmes noms de ligne dans un DataFrame, d'accord ? Chaque nom de ligne doit donc être unique et nom de colonne ne doit pas être vide. Donc, le nom de la colonne ne doit pas être vide. Il ne doit pas être vide. Donc, tous les noms de colonnes auraient des entrées, d'accord ? Et les données stockées dans un DataFrame peuvent être hors facteur numérique ou type de caractère. Vous pouvez donc stocker n'importe lequel de ces types de données dans DataFrame, facteur numérique ou type de caractère. Et chaque colonne contient donc le même nombre d'éléments de données. Chaque colonne contient donc le même nombre d'éléments de données. Donc, DataFrame sous la forme d'une table ou d'une structure de type tableau bidimensionnel dans R, dans laquelle chaque colonne contient la valeur d'une variable et chaque ligne contient l'ensemble des valeurs de chaque colonne. D'accord ? Commençons donc par le pratique. OK, donc ce que j'ai fait, j'ai déjà écrit programme et le nom de fichier est DataFrame point r. Ce que je fais ici, je crée un DataFrame. Ainsi, le DataFrame peut être créé comme suit comment créer un DataFrame. Nous utilisons. Data.frame. La fonction Data.frame sera utilisée pour créer une trame de données. Et cet étudiant est un objet auquel je vais attribuer ce DataFrame. D'accord ? Donc data.frame. Et puis, ce que je fais ici, c'est tout d' abord créer un numéro de série. D'accord ? Donc numéro de série, je crée 1-5. Et puis huit, je donne, j'utilise la fonction C pour créer l'âge, d'accord ? Je crée un vecteur ici, voir 201-15-1030, 5.45. Les A auront donc ces entrées. Ensuite, je crée un nom. Le nom contiendra les nombreuses entrées. D'accord. Donc cinq entrées, Shaggy, Ronnie est John et Tom d'aujourd'hui, et puis je termine ça. D'accord ? Ainsi, nous pouvons créer un DataFrame. Alors laissez-moi d'abord exécuter cette ligne pour obtenir un DataFrame. Voir ici. Alors laisse-moi imprimer ceci. PDG étudiant. Maintenant, l'étudiant est un DataFrame, non ? Et ce qu'il contient, c'est une ligne ou une colonne contenant le numéro de série, l'âge et le nom, parce que nous avons donné le numéro de série, puis huit, puis le nom. Et chaque colonne. Le numéro de série et le nom contiendront les valeurs. Quel numéro de série contiendra la valeur de un à cinq, donc 12345 numéros de série, puis les âges 201-15-1030, 5,40. Et le nom aura ces valeurs, d'accord ? Ainsi, chaque colonne aura les valeurs du nom, du nom et de la variable. C'est ce que nous avons appris dans la partie théorique. De cette façon, nous pouvons créer notre étudiant DataFrame, dont le numéro de série de la colonne sera un nom et qui contiendra les valeurs des lignes. Du numéro de série 1 à 5, à 21 ans. Et ce cinq, c'est que nous avons donné un nom, nous en avons spécifié un dans la variable name. Ces valeurs de variables deviendront donc l' entrée de ce tableau, n'est-ce pas ? C'est donc une structure semblable à une table. D'accord ? C'est donc ce que l'on appelle DataFrame dans R. Et nous pouvons voir la structure notre DataFrame en utilisant la fonction STR. Nous pouvons utiliser STR puis transmettre le DataFrame. Cela nous donnera la structure du DataFrame. Le DataFrame avait une structure et nous dirons un dataframe. Et il a cinq rangées sur trois précieuses. Voir ici 12345. Donc cinq objets, soit cinq lignes et trois variables. Trois variables sont des séries, le numéro est un nom. Telles sont les trois variables. Les noms des colonnes sont appelés variables. Donc trois variables et cinq lignes, cinq objets de trois variables. Et ces variables sont le numéro de série, l'est et le nom. Ainsi, le numéro de série est un entier, un chiffre et des marines de caractères, de type et de sénior, chaque variable ou chaque colonne aura le même nombre d'éléments comme le numéro de série est de un à cinq. L'âge comporte également cinq entrées et nom en a également cinq, n'est-ce pas ? Donc, tous devraient avoir le même nombre d'entrées, non ? D'accord. Supposons que si je donne six ans, que se passera-t-il ? Permettez-moi de lancer cette édition de DataFrame. Parce que le numéro de série est compris entre 1 6.8, il ne comporte que cinq entrées, et le nom comporte également cinq entrées, n'est-ce pas ? Donc, ici, l'erreur que nous recevons est une erreur dans la trame de données et l'utilisation d' arguments implique un nombre différent de lignes six et 6,5. Ainsi, une variable comporte six lignes, six éléments et toutes les autres ont 51 feuilles. C'est pourquoi il nous montre l'erreur. Il devrait donc y en avoir 55 pour chacun. OK, donc ici, vous pouvez en mettre cinq et quand nous l'exécuterons, nous n'aurons aucune erreur. Et il fonctionnera avec succès. Avec le STR. Nous pouvons obtenir la structure du DataFrame. Ensuite, nous allons apprendre que composants de DataFrame sont accessibles sous la forme d'une liste ou d'une matrice. Nous allons donc d'abord voir comment accéder à la liste Leica. Nous pouvons donc utiliser, si vous souhaitez accéder à des listes similaires, nous pouvons utiliser l'une ou l'autre de ces trois. Nous pouvons utiliser notre opérateur en dollars ou nous pouvons utiliser le double crochet, ou nous pouvons utiliser le crochet simple, d'accord ? Pour accéder aux données depuis le DataFrame. OK, donc supposons que je veuille accéder au nom à partir du DataFrame is student, l'un des noms. Donc, si je peux le faire avec cet étudiant, puis à l'intérieur de la colonne, je peux transmettre le nom de la variable ou le nom de la colonne. D'accord ? Et si je l'exécute, j'obtiendrai tous les noms du DataFrame. De même, je peux faire la même chose avec ce symbole du dollar, n'est-ce pas ? Opérateurs dollar student, c' est-à-dire le nom DataFrame, puis dollar, puis le colonne ou le nom d'une variable. Donc, si je lance ceci, j'obtiendrai le même résultat que le nom d'un étudiant senior. Il vous donnera le nom de tous les étudiants. D'accord ? Et de même, nous pouvons aussi le faire , c'est louer. Et entre parenthèses. Encore une fois, entre parenthèses, nous pouvons transmettre le nom. Ces trois éléments vous donneront le même résultat. D'accord ? Maintenant, nous pouvons faire comme si nous avions donné un nom. Le nom est la troisième colonne située juste à l'intérieur de ce DataFrame. Nous pouvons donc également transmettre le numéro de colonne, étudiant trois, afin que vous obteniez la troisième colonne. Le nom. nom est la troisième et troisième colonne de ce DataFrame. Tu vois, si j' y arrive, ça nous donnera l'âge. Ca, ça nous donnera les Is. De cette façon, nous pouvons transmettre le numéro de colonne et récupérer les données du DataFrame. La prochaine étape consiste à modifier les éléments du DataFrame. Nous pouvons également modifier le DataFrame en C que vous allez donner à cet étudiant, c' est-à-dire un nom DataFrame. Et puis ici, nous allons garder le 11 signifie la première ligne, puis je vais donner H. Et je veux modifier la première ligne comme étant 291. D'accord ? Alors laissez-moi exécuter ceci et imprimez l'étudiant. Voir ici. Maintenant, la première ligne est, est modifiée en 91. Plus tôt, c'était 21, maintenant c'est 91. Donc, de cette façon, nous pouvons. Modifiez les éléments du cadre DataFrame. Nous pouvons ajouter des lignes au composant Roche au DataFrame. Supposons que je veuille ajouter une autre ligne. Supposons qu'il y ait cinq rangées, n'est-ce pas ? Je veux ajouter une ligne supplémentaire au DataFrame Halloween, je peux le faire, je peux utiliser la fonction rbind. Notre fonction est utilisée pour ajouter une ligne dans le DataFrame. Dans le rbind, je dois transmettre le nom du DataFrame , puis utiliser une liste. Et à l'intérieur de la liste, je dois indiquer le numéro de série six, puis l'âge de un à vingt ans, et puis les noms seraient variés, donc rien ne doit être vide. Tout ce que nous avons à donner, il y a trois colonnes, donc nous devons donner trois colonnes ici. Le numéro de série est n, nom. Et si je lance ceci, une ligne supplémentaire sera ajoutée. remède contre la crise six et vingt a été ajouté au DataFrame pour étudiants. De même, nous pouvons également ajouter un composant de colonne au composant de colonne du DataFrame. Et comment y parvenir, nous pouvons le faire avec le C1. C1 signifie que la columbine est une vitamine qui lie les lignes. OK, donc fonction cbind, nous avions l'habitude d'ajouter une colonne dans le DataFrame. Donc, dans la même chose, nous devons transmettre le nom DataFrame. Ensuite, nous devons supposer une colonne que je souhaite ajouter en tant que pays. Je dois donc donner le nom de la colonne country , puis utiliser la fonction c et transmettre le pays, le numéro de pays. Je dois donc passer par les six pays qui s'y trouvent, non ? 12345, d'accord ? Et si je lance ceci, parce que c'est la sixième valeur, nous ne nous sommes pas engagés. Ce n'est donc pas l'année à venir. Ou dans un DataFrame, il ne reste que cinq lignes, c'est ajouter la ligne Phi, d'accord ? Nous pouvons donc ajouter une autre colonne, contrairement à notre DataFrame. Ensuite, nous pouvons attribuer le pays de la même manière qu'une liste, comme des listes, comme un devoir, nous pouvons utiliser le pays en dollars étudiants. Cela signifie que dans le DataFrame, nous allons ajouter une autre colonne. C'est-à-dire que ce sera un nom de pays. Et nous allons ajouter les entrées comme ces pays, d'accord ? Six en Inde, neutre et aux États-Unis, au Japon et en Chine. D'accord ? Et si je fais ces deux déclarations, je verrai que le pays a été ajouté ici et que les noms des pays sont là. De cette façon, nous pouvons ajouter une colonne dans une liste, comme une assignation. D'accord ? Ensuite, nous pouvons supprimer un composant de DataFrame. Nous pouvons donc supprimer une colonne entière en utilisant cette chose. OK, étudiant, c' est le nom de DataFrame, le nom de la colonne dollar, nom, et je peux attribuer une valeur nulle. Donc, si j'attribue une valeur nulle, la colonne entière sera supprimée. Alors laisse-moi m'occuper de ça et à bientôt. Maintenant. numéro de série est et la colonne de nom des pays a été supprimée car nous avons défini la colonne des noms comme nulle. D'accord, de cette façon, nous pouvons supprimer toute la colonne. De la même manière, nous pouvons supprimer une ligne entière. Donc, pour supprimer la ligne entière, ce que nous pouvons faire, nous pouvons utiliser student et moins deux, puis nous pouvons supprimer la ligne entière. Alors laisse-moi exécuter ça. Ici. La ligne 2 a été supprimée. Deux correspond à une empreinte de deux en Nouvelle-Zélande qui a été supprimée. Donc, si vous souhaitez supprimer une ligne particulière, vous pouvez indiquer ici moins deux, que la deuxième ligne sera supprimée du DataFrame de l'étudiant. Ainsi, nous pouvons supprimer une ligne entière d'un DataFrame. Voici donc comment créer un DataFrame en utilisant data.frame. Et nous pouvons fournir le nombre de colonnes ou le nombre de variables. Ensuite, nous devons fournir le nombre de valeurs pour ces variables soient appelées nombre d' éléments, ici cinq. Donc, tous les A et les noms seraient 55, alors seulement cela créera un DataFrame. Ensuite, nous pouvons obtenir la structure d' un DataFrame en utilisant la fonction STR. Ensuite, nous pouvons mettre en phase la colonne en question en fournissant le nom de la colonne à l'aide de ce crochet ou du symbole dollar. Et nous pouvons acheter le numéro de colonne. Nous pouvons modifier DataFrame comme ceci, éléments de DataFrame comme celui-ci et toutes ces choses, cbind, Irvine, toutes ces choses que nous avons vues, n'est-ce pas ? J'espère donc que vous avez mieux compris les DataFrames dans R. Et j'espère vous avoir fait comprendre ce qu'est DataFrame et comment nous pouvons fonctionner avec les DataFrames. Rendez-vous lors de la prochaine conférence. 21. Combiner des trames de données: Bonjour et bon retour. Dans cette conférence, nous allons apprendre comment combiner des vecteurs dans des DataFrames. Cela signifie que nous supposons que nous avons trois ou quatre vecteurs. Et je veux créer un DataFrame à partir de ces vecteurs. Alors, comment pouvons-nous y parvenir ? Ensuite, ce que nous allons essayer de faire, de combiner également les DataFrames. OK, alors allons-y. Donc, tout d'abord, pour combiner les vecteurs, nous devons créer le vecteur. Donc, voici ce que je suis en train de faire, je crée pour les vecteurs, noms, la ville, le code postal et le salaire. Ces quatre vecteurs seront donc les quatre vecteurs que je suis en train de créer. Et ce que je vais faire, combiner ces quatre éléments pour créer un DataFrame. Ces quatre vecteurs créeront donc un DataFrame pour moi. OK, donc le premier recteur, ce sont les noms. Et dans le vecteur de noms, ce que je donne dans le vecteur de noms, ce que je donne, j'utilise la fonction C et je donne noms de la lactamase de Parsons, des Rockies, de Henry et du singe. Et puis le second vecteur est le vecteur de la ville. Et à l'intérieur, je donne à cela leurs villes respectives nommées Bangalore, Londres, New York et Mumbai. OK, et puis je donne le code cadeau pour ces villes dans le troisième vecteur. Et puis le quatrième vecteur est le salaire, dans lequel j'installe leur salaire respectif. Il y aura donc le salaire du derme, le salaire raquette et, récemment, la mantisse. Salaire de Mantissa. Nous pouvons ainsi créer ces quatre vecteurs que nous avons appris dans le chapitre sur les vecteurs de la conférence sur les vecteurs. Alors laisse-moi exécuter ça. Cela va donc créer ces quatre vecteurs, d'accord ? Maintenant, je veux combiner ces quatre vecteurs et créer un DataFrame. Je souhaite créer un DataFrame en utilisant ces quatre vecteurs. Je veux donc combiner ces quatre vecteurs et créer un DataFrame. Donc, pour cela, ce que je fais, je donne un nom de DataFrame ici pour impliquer des détails. Les détails des points EMP seront donc le nom du DataFrame. Ce que je vais faire, c'est utiliser la fonction cbind pour combiner ces vecteurs. D'accord ? Donc, comme ce sera le nom City Deep Code, ce sera l'équipe des colonnes. Donc, naturellement, j'utilise C bind ici pour combiner les noms des colonnes, la ville et le code postal. Et malheureusement, ce sont les quatre, ce seront les quatre colonnes du DataFrame. J'utilise donc c wine et je fournis le nom des colonnes, comme les noms, le vecteur, le vecteur de la ville , le code postal et le salaire. D'accord ? Alors laisse-moi exécuter ça. OK. Maintenant, laissez-moi imprimer les coordonnées de l' employé. OK. Laissez-moi donc voir les détails des employeurs. Voir ici. Désormais, les détails de l'employé sont DataFrame. Et nous pouvons voir le nom des colonnes, la ville, le code postal et le salaire. Et les entrées sont nulles, adresse bancaire, code postal et salaire, Rockies City, Londres, vous avez ça et le salaire. Puis Henry. Vous voyez ici qu'à partir de ces quatre vecteurs pour lesquels nous avons créé, commençant par ces quatre vecteurs, nous avons créé un DataFrames, n'est-ce pas ? Supposons que si je mets les noms et que je lance ce nom, j'obtiens un leader nommé de la même manière, ville et la ruelle des courants. J'ai donc combiné les vecteurs dans une trame de données. Nous avons donc maintenant une structure en forme de table qui est un DataFrame. Nous avons donc maintenant un DataFrame. De même, que vais-je faire ? Je vais lire, vous pouvez utiliser la fonction C-A-T cat pour imprimer quelque chose. OK, donc ici, j' imprime simplement le fichier DataFrame à partir de quatre vecteurs. Et ça, alors ça viendra comme ça. OK, donc le premier DataFrame à partir de quatre vecteurs contient des détails implicites, des détails de points EMP. D'accord ? Donc, si vous voulez imprimer un titre, vous pouvez utiliser la fonction de chat, d'accord ? Ensuite, imprimez les coordonnées de l' employé que j'ai déjà imprimées ici. Et vous pouvez également l'imprimer ici. Et puis ce que je suis en train de faire maintenant, tâche suivante est de combiner deux DataFrames en un seul. Nous avons donc un DataFrame impliquant des détails que nous avons créés à partir des quatre vecteurs. Maintenant, ce que je vais faire. Créez un autre vecteur, désolé, je vais créer un autre DataFrame, les détails des employés et les détails des points EMP, avec la fonction Hale-Bopp DataFrame. Et ici, manuellement. Dans le DataFrame, je vais donner le nom : vecteur c t, vecteur, code postal, salaire. D'accord ? Ainsi, nous pouvons également créer, dans un premier temps, ce que nous avons fait. Nous avons créé le nom de la ville, le code postal et le vecteur salarial séparément, puis nous l'avons suspendu à la fonction cbind pour créer un DataFrame. Et ce que nous faisons maintenant, est transmettre directement ces vecteurs. Nous créons les vecteurs dans la fonction DataFrame. Nous ne vieillissons pas en C Y, et nous utilisons ici data.frame, fonction DataFrame pour créer un DataFrame. Et dans la fonction DataFrame que nous transmettons, nous créons des noms. Vecteur, vecteur de densité, puis vecteur de code postal et entrées , nous ne donnons qu' ici, d'accord ? Le salaire et un facteur d' avantage sont faux. D'accord ? Et puis, si nous l' exécutons, nous créerons un DataFrame. Ce sont également les détails des employés. D'accord ? Et si je lance cet outil, nous obtiendrons le deuxième DataFrame utilisé. Il a tendance à nommer du code stratégique et possède 3,2 % de RAM en minuscules et du push pop. Et le code postal de leur ville et leurs salaires respectifs imprimés ici. Nous avons maintenant les deux DataFrames, les détails des employés et les détails implicites de ce que je voulais faire. Je souhaite combiner les lignes des deux DataFrames et créer un autre DataFrame qui contiendra tous les détails des employés, qui contiendra tous les détails implicites provenant implicitement un et utilisés dans DataFrame. Je suis donc en train de créer un autre objet, tous les détails des employés. D'accord, ce sera le DataFrame qui combinera les lignes du DataFrame et du DataFrame des employés et impliquera des détails dans DataFrame. Donc, pour cela, ce que je vais utiliser, je vais utiliser, c'est acheter hors bande parce que nous voulons combiner les routes ici, trois rangées et ici quatre rangées avec ces quatre rangées. Et ces trois lignes, je veux les combiner et créer un autre DataFrame. C'est pourquoi j'utilise le mode hors bande pour combiner les lignes. Ensuite, à l'intérieur de l'Audubon, je fournirai le premier DataFrame , puis le second DataFrame. Ensuite, nous pouvons utiliser la fonction de chat pour imprimer les titres qui, combinés, impliquent des détails. Ensuite, je peux imprimer. OK, alors laisse-moi m'occuper de ça. bientôt. Nous avons maintenant tous les détails implicites de DataFrame, qui contiendra les sept lignes, quatre du premier DataFrame et le dernier tiers provenant du second DataFrame. Ainsi, nous pouvons combiner deux DataFrames. D'accord ? Quelles sont donc les choses que nous avons apprises ? Tout d'abord, nous avons appris à créer un DataFrame à partir de vecteurs. Ensuite, nous avons vu comment combiner les deux DataFrames en une seule trame de données. D'accord, de cette façon, nous pouvons combiner les DataFrames et créer également un DataFrame à partir des vecteurs. Rendez-vous lors de la prochaine conférence. 22. Analyser les données en R à partir du fichier CSV: Bonjour et bon retour. Dans cette conférence, nous allons donc apprendre le concept très important, analyse de données en R. savoir l'analyse de données en R. Donc, dans cette conférence, nous allons abord essayer de lire un fichier CSV, des fichiers CSV séparés par des virgules. Et c'est comme un vrai siège auquel vous pouvez penser. Et il contiendra la somme des détails implicites. Ensuite, ce que nous allons faire, essayer de lire ce fichier CSV avec notre programmation. Ensuite, après avoir lu les données, nous essaierons d'analyser les données qui se trouvent dans le fichier CSV détaillé des employés. Et nous essaierons d'obtenir des informations à partir de ces données. D'accord, laissez-moi d'abord vous montrer le fichier CSV. Voici donc le fichier CSV que j'ai créé. Et nous verrons ici qu'il s' agit du fichier CSV à points des détails de l'employé et qu'il s'agit d'un fichier séparé par des virgules. Donc, le premier identifiant d'employé, nom de l'employé, le salaire, les données relatives à l'adhésion et au service. Ce sont les quatre colonnes. Il s'agira de la colonne du tableau ou du siège Excel, comme vous pouvez le voir. Et puis ce sera la première rangée. Les valeurs sont séparées par des virgules. L'un sera l'identifiant de l'employé, puis la liste sera le nom de cet employé. Le salaire sera de 3 000$. Ils ont cliqué sur Rejoindre ça. Ensuite, le département sera le CSE ou quelque chose comme ça. D'accord. Voici donc quelques données que j'ai conservées dans ce fichier CSV. Maintenant, je vais essayer de récupérer ces données, je vais essayer de récupérer ces données, ces colonnes et ces valeurs de lignes grâce à notre programmation. Ensuite, nous essaierons d'analyser les données. Donc, le premier type consiste à lire un fichier CSV via notre, d' accord, alors laissez-moi passer au code. La première chose à faire est de définir notre répertoire de travail. Donc, pour définir le répertoire de travail, vous devez accéder aux fichiers ici, dans cette section, et voir si vous cliquez sur ces trois points ici, vous devez accéder aux fichiers ici, dans cette section, et voir si vous cliquez sur ces trois points ici, vous pouvez parcourir les fichiers sur votre ordinateur. vous pouvez parcourir les fichiers sur votre ordinateur. Et voici ce que je vais faire, je vais me rendre à l'Art 2020 parce que c'est mon répertoire de travail et je veux définir cet endroit comme notre répertoire de travail. Je vais sélectionner cela. Et maintenant, nous sommes dans ce répertoire d'art 2020. Maintenant, je veux que ce taux d'imposition fasse l'objet d'un répertoire de travail, afin de pouvoir le faire. Je peux y aller plus souvent. Et année d'aptitudes, Définir comme répertoire de travail, donc je vais cliquer sur Définir comme répertoire de travail. D'accord, donc de cette façon, nous pouvons en faire notre répertoire 2020 en tant que répertoire de travail. Vous pouvez également simplement utiliser la commande set WD. Set WD est une fonction qui permet de définir le répertoire de travail. Wd signifie répertoire de travail et segments configurant le répertoire de travail. Donc, en définissant work set, WD est la fonction à l'intérieur de laquelle vous pouvez fournir le chemin de votre répertoire. Et ce chemin sera votre répertoire de travail lorsque vous l'exécuterez. D'accord ? Nous avons maintenant défini le répertoire de travail. Ce que j'ai fait, j'ai conservé le fichier CSV à points sur les employés ici afin que ceux qui le lisent puissent facilement le lire. Nous n'avons pas besoin de transmettre le chemin complet ici puisque nous l'avons à l'intérieur, nous sommes dans le répertoire de travail et fichier CSV tilde point de notre employé se trouve également dans le même répertoire, d'accord ? Et si ce n'est pas le cas, nous devons donner le chemin complet ici et une partie complète de ce fichier. D'accord ? La première étape consiste donc à lire le fichier CSV dans son intégralité. Donc, je vais d'abord créer une variable que vous pouvez exprimer ou objecter dans nos données d'emploi, des données EMP point. Il s'agit d'un invariable où je veux stocker tout ce que je vais lire à partir de ce fichier CSV. Pour lire un fichier CSV dont nous avons besoin, nous avons besoin d'une fonction appelée read.csv. read.csv sera donc utilisé pour lire le fichier CSV. Et dans cette fonction, read.csv, nous devons fournir le nom du fichier CSV point afin que notre nom de fichier soit le point CSV des détails de l'employé. C'est ça. Lorsque nous exécutons cette fonction, elle lira les données de ce point d'employé CSV et les stockera dans cet employé. Alors laissez-moi d'abord exécuter ceci. Voir ici. Maintenant, lorsque vous voyez ici, cela nous montre que nous montre données EMP point des employés, huit objets de cinq variables. Cela signifie qu'il y a huit lignes et cinq colonnes dans le fichier CSV. Identifiant de l'employé, un à huit implique un nom. Ce sont le nom implicite, taux de salaire en hausse de l'adhésion. Et c'est le cas, vous pouvez voir les détails ici. Nous avons maintenant lu le fichier CSV et nous avons stocké les données dans ces données EMP point. Je peux maintenant imprimer ces données EMP point et voir quels détails elles contiennent. Lancez-le et à bientôt. Laisse-moi recommencer. Maintenant, nous avons la structure de la table. J'aime bien la structure, n'est-ce pas ? Identifiant Emp, nom de l'employé, salaire, date d'embauche et département. Ce sont les noms des colonnes et les valeurs, n'est-ce pas ? Lignes. Pour les colonnes correspondantes, n'est-ce pas ? Il comporte huit lignes et cinq colonnes. Cinq variables correspondent à cinq colonnes. Pouvez-vous donc expliquer de quel type de données il s'agit dans l'art ? C'est ce que l'on appelle DataFrame. Le dataframe aura une structure semblable à une table, n'est-ce pas ? Donc, quoi que nous lisions dans le fichier CSV, il sera stocké sous forme de bloc de données dans R. Et nous pouvons vérifier s'il s'agit d'un DataFrame ou non en utilisant chaque donnée. Chaque fonction point data.frame, droite, est une fonction point data.frame. Et nous pouvons transmettre cet objet de données d' employé. Alors laisse-moi exécuter ça. Voyez ici que le résultat est vrai. Cela signifie que les données EMP point de ces employés sont notre DataFrame. Quoi que nous lisions, read.csv obtiendra une trame de données. Nous avons donc maintenant un DataFrame ici. La prochaine étape est que nous avons maintenant notre structure de type table DataFrame ici. Maintenant, je peux trouver le nombre de colonnes en utilisant une fonction appelée. Je peux donc utiliser un charbon et ensuite transmettre le nom DataFrame ici. Et cela nous donnera le nombre de colonnes dans le DataFrame. Ce fichier CSV comporte donc cinq colonnes. De même, nous pouvons utiliser et rho, et rho est le nombre de lignes. Lorsque nous exécutons cela, nous obtiendrons le nombre de lignes, soit huit lignes, dans ce DataFrame. Voyez ici avec quelle facilité nous avons lu le fichier CSV et créé une table ou un DataFrame dans R. Et maintenant, nous trouvons avec n deux-points et lignes le nombre de colonnes et le nombre de lignes dans ce DataFrame. Maintenant, nous allons obtenir des informations intéressantes avec R. Alors maintenant, je veux trouver le salaire maximum. Quel est le salaire maximum d'un employé ? Je peux donc utiliser la fonction max et transmettre les données des employés. Salaire en dollars. Cela signifie que je souhaite transmettre la colonne des salaires, cette colonne des salaires à la fonction maximale, la colonne des salaires, les données EMP point. Le salaire en dollars signifie que je suis en train de récupérer cette colonne et de la transmettre à la fonction maximale. Ainsi, cette fonction maximale fonctionnera en interne et trouvera le maximum de ces salaires. Cela nous donnera donc le résultat de 95 200. Permettez-moi d'imprimer ce salaire maximum. Voyez ici que le salaire maximum d' un employé est de 95 200$. D'accord ? Ainsi, nous pouvons trouver le salaire maximum. Nous pouvons également trouver le salaire moyen en utilisant la fonction moyenne. Donc, dans la fonction principale, nous allons fournir cette colonne salariale. Et cela nous donnera le salaire moyen des employés. Votre salaire moyen sur la place. Chaque salaire qu'il reçoit se chiffre à 53 009, soit 24. Et si nous utilisons somme du salaire de tous les employés et que nous la divisons par huit, parce qu'il y a huit employés obtiendrons le même taux que le PDG. Ainsi, nous pouvons trouver le salaire moyen des employés. De la même manière, nous pouvons trouver le maximum. Nous pouvons trouver les détails de l'employé ayant un salaire maximum, nous avons constaté que 95 200 est le salaire maximum. L'un implique d'obtenir. Nous pouvons maintenant trouver cet employé avec ce détail. Nous pouvons donc utiliser la fonction de sous-ensemble et transmettre cela implique des données. Et puis nous pouvons ajouter un autre argument : le salaire est égal au salaire maximum. Donc, ce que nous allons faire, c'est trouver l'employé qui touche le salaire maximum. Cela nous donnera donc des informations détaillées sur l' employé qui souhaite obtenir le salaire maximum. Laisse-moi exécuter ça. Voyez ici le nom profond de cet employé qui reçoit le salaire maximum et voici ses coordonnées. Ainsi, de cette façon, nous pouvons mettre le point qui peut être le salaire le plus ensoleillé, le détail de l'employé qui reçoit le salaire maximum. Ainsi, nous pouvons trouver l'employé qui reçoit le salaire maximum, le salaire le plus élevé. De la même manière. Nous pouvons également l'exécuter. Faites en sorte que tous les employés travaillent dans la finance, travaillent dans le département des finances et obtiennent un salaire supérieur à 85 000. Vous voyez, c'est le département, donc c'est le ministère des finances. Il y a deux employés et tous deux en vendent plus de 85 000. Alors, quelles conditions donnons-nous ? Nous donnons la fonction d'appel la fonction de sous-ensemble et fournissons les données des employés. Ensuite, nous donnons une condition un ministère égal aux finances et des salaires supérieurs à 85 000 dollars. Cela nous donnera donc tous les employés dont le département est chargé des finances et des salaires, soit plus de 85 000. Laisse-moi imprimer ça. Laisse-moi exécuter ça. Ici. Nous sommes de plus en plus implicites. Laisse-moi le réexécuter. Nous obtenons donc ici l'identifiant d'employé 3.8 signifie et exécutez. Ce sont les deux employés qui appartiennent au département des finances et leur salaire est supérieur à 85 000. Ces deux employés recrutent donc, le département des finances, le département des finances, et leurs salaires s'élèvent à plus de 85 000 dollars. Ensuite, je veux trouver les personnes impliquées qui nous ont rejoint en 2000 ou après. Nous avons donc une date d' adhésion ici aussi, non ? Je souhaite donc retrouver tous les employés qui ont rejoint l'entreprise après 2000. Honor, après 2000. Je peux donc fournir les données des employés et je peux donner la date d'Ashdod. Et à l'intérieur, je donnerai la date d'adhésion. Donc, les données se noient, je fournis à cette date une fonction. Et cela devrait être supérieur à la date d'ajout de la date de connexion. Premier janvier 2000. D'accord. Ainsi, tous les employés dont les données de Joanne sont supérieures à celles de ce tutoriel, First Gen à Tarjan obtiendront les détails de ces employés ici. Alors laisse-moi exécuter ça. Attends encore une fois, regarde ici. Maintenant, nous avons compris les implications de Priyanka Mahesh. Ils nous rencontrent donc lorsque ces cinq personnes impliquent qu'ils ont rejoint l'entreprise en 2000 et que, par la suite ou pas après 2000, ils ont rejoint l' entreprise et nous obtenons les coordonnées des employés. Les personnes qui ont rejoint, euh, ont souvent des années 2000. Ainsi, nous pouvons analyser le fichier CSV et les données que nous avons dans le fichier CSV dans Excel. C'est donc une analyse assez intéressante que nous pouvons effectuer avec des fonctions simples. Hein ? Maintenant, ce que je veux faire, que nous avons lu un fichier CSV, n'est-ce pas ? Nous avons lu le fichier CSV et nous avons effectué toutes ces analyses. Maintenant, ce que je veux faire, est écrire un fichier CSV. Je veux obtenir des données. Je souhaite générer des données, et je souhaite que ces données soient publiées dans un fichier CSV. Comment est-ce que je peux faire ça ? Je peux le faire avec ça. Write.csv. Read.csv est en train de lire le fichier CSV. Et write.csv signifie lire ou écrire un fichier CSV. Nous voulons écrire un fichier CSV. Quelles que soient les données, celles que j'ai trouvées indiquent qui a rejoint l'entreprise après 2000, n'est-ce pas ? Je veux donc écrire ce tableau ou ces données dans un fichier CSV. Je vais donc passer cet objet joint après 2000 à ce fichier write.csv. Et ici, je vais donner le nom du fichier CSV. On me donne donc le nom du fichier CSV sous forme point d' employé entrelacé après le point d'origine de la dent. Toutes ces données seront donc écrites dans ce fichier CSV. Un nouveau fichier CSP sera créé. OK, alors laissez-moi voir si ce fichier est déjà là, voyez ici, ce fichier est déjà là. Donc, ce que je vais faire, c'est supprimer ça. D'accord ? Ensuite, je vais y retourner et lancer ça. OK, alors laisse-moi m'occuper de ça. Et laissez-moi accéder au dossier qui se trouve ici. Vous voyez maintenant que nous avons créé un nouveau fichier. Laissez-moi vous montrer les données. Ici. Nous avons 12345 lignes. m'a dit que j'ai consulté Eddie que les données allant jusqu'à n sont : 2000, 2018, 2 914,2018. Toutes ces entreprises ont adhéré après 2000. Des données similaires se trouvent donc ici. Maintenant que les données ont été insérées dans ce nouveau fichier CSP, utilisées après coup et que nous avons vu à quel point il est facile d'obtenir le résultat ici et de l'écrire dans un fichier CSV que nous avons créé tout à l' heure, nous pouvons également écrire les résultats dans un fichier CSV. Et maintenant, je peux lire, utiliser le point de lecture csv pour relire ce fichier CSV et l'imprimer. Alors laisse-moi exécuter ça. Ici. Nous obtenons le même résultat ici également. Ainsi, nous pouvons nous écrire via fichier CSV et lire un fichier CSV. Et nous pouvons effectuer toutes ces analyses, comme trouver le salaire maximum, trouver l'employé qui a le salaire le plus élevé. Nous pouvons trouver les employés qui rejoignent le groupe après une date donnée. Nous pouvons trouver le salaire moyen des employés. Nous pouvons trouver la moyenne du salaire. Nous pouvons trouver bien d'autres choses, selon les besoins de votre entreprise. Si tu veux. Pour arriver à une conclusion particulière, en agrandissant les données , vous pouvez utiliser les fonctions étranges et analyser vos données. J'espère donc que vous avez découvert la force de notre programmation et comment mettre en valeur des données dans la programmation R lecture et l'écriture, lecture et l'écriture d'un fichier CSV. Rendez-vous lors de la prochaine conférence. 23. Créer un graphique à la tarte en R: Bonjour et bon retour. Dans cette conférence, nous allons donc en apprendre davantage sur le diagramme circulaire. Permettez-moi donc de faire une première année sur ces consoles et ces objets et de fermer ce fichier. Et j'ai créé un fichier qui s'appelle byte char Tatar. J'ai donc écrit le programme, j'ai écrit les fonctions pour créer un graphique circulaire à partir de données. Nous supposons donc que nous disposons de certaines données et que nous voulons les représenter sous forme de graphique circulaire. Et nous voulons analyser les données afin de pouvoir publier très facilement une annonce qui publier très facilement est également populaire pour cette fonctionnalité, car nous pouvons visualiser les données à l'aide de différents graphiques. L'une des guitares est donc le diagramme circulaire et c'est ce que nous allons apprendre dans cette conférence. Donc, tout d' abord, tout d'abord, nous devons créer les données pour le graphique. Je crée donc un vecteur n et je donne des valeurs comme 307-82-3309, quelque chose comme ça. Tu peux donner ce que tu veux. Ensuite, je crée les étiquettes a, B, C, D pour cette valeur. La valeur sera donc 30, 78, c, 23 et D 39, comme ça. D'accord ? Maintenant, je peux obtenir le nom du fichier de données pour le chat Quel que soit le graphique que je crée, je peux lui donner un nom comme abc point PNG ou un graphique circulaire point PNG. Supposons donc que je lui donne un nom par Jarred point PNG. Tout ce que tu peux donner. D'accord. Je vais donc lui donner un nom. Je peux utiliser la fonction PMT et je peux donner un fichier égal au nom du fichier. Je souhaite donc créer un fichier image PNG à points sous forme de diagramme circulaire. Tout ce qui sera créé sera stocké dans un format d'image PNG. OK, donc ça peut aussi être fait avec cette ligne. C'est donc optionnel, si vous voulez un fichier PNG sur un fichier image, vous pouvez le créer avec celui-ci. Sinon, vous pouvez venir directement ici et utiliser la fonction Pie et transmettre les données. Cela entrera donc dans les données et vous pourrez ensuite transmettre les étiquettes. Ce sont les niveaux. Ainsi, lorsqu'un graphique circulaire sera créé avec ces données, ces données seront étiquetées avec a, B, C, D. OK, donc, dev.off signifie que ce fichier sera supprimé sur le, sur le système. D'accord ? Alors laissez-moi exécuter ce code ici. Alors laisse-moi courir. D'accord. Donc, PDG, nous l'avons maintenant, mais nous ne voyons pas ce graphique ici. Je ne sais pas pourquoi. Permettez-moi donc de répéter cette partie. Voir ici. Nous avons maintenant un diagramme circulaire avec les étiquettes a, B, C, D. Donc E est en retard. V est le 78 qui ressemble le plus. C'est vrai, la zone la plus grande pour b, puis d et C. De cette façon, avec ces données simples, nous avons créé cette représentation graphique. Et permettez-moi de m'adresser au titulaire d'une subvention artistique et au PDG Il doit y avoir un seul fichier créé. Voir ici le diagramme circulaire. Ce fichier PNG a été créé avec cette représentation graphique. Alors regardez ici, ce fichier image a également été créé et voyez ici les valeurs a, B, C, D. Ce sont les étiquettes et la valeur des données est 78, c'est quelque chose que nous avons donné. Une valeur est 30, et C10 est 23, 29 comme ça. Bon, vous voyez, nous pensons avoir créé une représentation graphique de nos données et nous pouvons les présenter comme ceci. OK, alors laissez-moi revenir à l'essentiel. Voici donc la commande, voici la fonction PNG pour créer un fichier PNG à partir de notre graphe. D'accord, voici notre graphique et voici notre fichier PNG pour ce graphique. D'accord ? Donc, si vous souhaitez envoyer le graphique, vous pouvez créer un fichier PNG et l'envoyer par e-mail. D'accord ? De cette façon, nous pouvons créer un graphique circulaire. OK, la prochaine chose est que je veux maintenant créer un autre diagramme circulaire. Et pour cela, je crée comme des impayés et leur salaire. Je crée donc un vecteur salarial auquel je donne ces salaires de manière impulsive. Il soutient que notre salaire et les noms des employés, tous les malades, sauf un rendez-vous et toutes ces choses. D'accord ? Ce sont donc les deux vecteurs que je crée : le salaire et les noms. Il est donc évident que cette élite va s'émerveiller, mais il y en a eu 800 comme ça. D'accord ? Et il en va de même pour B et D. J' essaie de créer un fichier PNG, point de salaire PNG pour le graphique qui sera dessiné, ainsi que le salaire et les noms que je transmets et le salaire sous forme de données et de noms tels que des étiquettes. Donc, le prochain diagramme circulaire que nous allons créer sera créé en fonction du salaire et les noms seront des étiquettes, comme ici, ABCD l'a fait à ces niveaux, y figureront et seront enregistrés. Mais BUN et tout ça. OK, alors laissez-moi créer cette offre ici. Laisse-moi exécuter ça. D'accord ? Encore une fois. Voir ici. Nous avons maintenant un diagramme circulaire avec des noms comme évidemment le park j tan. Et à quoi servent les données graphiques ? Parce qu'avec cela, nous pouvons voir que, d'accord, Titin, c'est Aaron, moins de salaire dans la musique, c'est avoir moins de salaire, mais un N Far Oak a un assez bon salaire. L'argent et Ellen, c'est Erin, chaque salaire. Avec ces graphiques, nous pouvons facilement analyser les données sans les examiner de plus près, nous pouvons les voir et en venir à la conclusion que musique est la moins rémunérée. Ensuite, Satan n'en a guère plus que tous les malades. Et puis l'argent et Ellen, puis les bobines, le tissu et le tissu, ce sont les éléments cellulaires de notre Lucas qui fait des photocopies et qui obtiennent le salaire le plus élevé, 1 000 roupies de succession. Nous pouvons donc faire cette analyse en regardant le diagramme circulaire et voir ici, il doit y avoir un fichier de salaire qui a été créé ici, voir ici. Vous pouvez donc envoyer ceci par e-mail et vous pouvez le mettre comme ça. D'accord. Voici donc l'énorme diagramme circulaire. Et avec cette simple fonction de tube, nous pouvons créer un diagramme circulaire en écrivant les données et en fournissant les étiquettes. Ce nom est une bonne étiquette. D'accord. Nous verrons le reste des choses, comme la façon dont nous pouvons analyser les détails du fichier CSV, dans la prochaine conférence. Je vous verrai donc dans la prochaine. 24. Analyser les données des employés: Bonjour et bon retour. Dans cette conférence, nous allons donc analyser le fichier CSV à points contenant les détails des employés que nous avons vu dans les conférences précédentes. Et nous allons obtenir les données à partir de ce fichier CSV. Lisez les données du fichier CSV et nous allons créer un graphique circulaire. Et nous verrons ce que nous pouvons faire avec le diagramme circulaire. Quels sont les éléments graphiques que nous pouvons analyser à l'aide du diagramme circulaire ? Comment pouvons-nous clarifier les informations sur les employés. À partir du diagramme circulaire. Pour lire un fichier CSV, nous utilisons le fichier read.csv et nous transmettons le fichier CSV ici. Et je vais stocker cela dans les données EMP Dot. C'est ce que nous avons déjà vu. Je l'exécute donc et nous obtenons les données dans l'objet de données EMP point. Maintenant, il s'agira d'un débit DataFrame. Tu te souviens, non ? Donc, si j'imprime ces données d' employés, des données EMP point, elles obtiendront également une trame de données. Ils aimeront la structure ici même. Nous obtenons ces données à partir de ce fichier CSV. Maintenant, je veux dessiner, je veux obtenir un diagramme circulaire comme celui-ci, car cela implique, d'accord ? Pour ce faire, je peux utiliser la fonction pipe et créer un graphique circulaire. Je souhaite donc créer un graphique circulaire basé sur le salaire. Donc, ce que je vais faire, utiliser les données EMP, salade de dollars, tous ces éléments. Obtenez la colonne des salaires en haut de ce DataFrame. Et cela créera un diagramme circulaire et étiquetera ce que je vais donner, je donnerai l'étiquette comme nom d'employé. Donc, les données EMP, le dollar, le nom du trait de soulignement E&P, le nom de l'employé. Il créera donc un diagramme circulaire comme celui-ci, indiquera le salaire de l'employé et les niveaux impliqueront son nom. Permettez-moi donc de lancer ceci et de voir que nous obtenons un diagramme circulaire où ces blocs représenteront le salaire et les niveaux du thème implicite. Donc, avec ce diagramme circulaire, nous pouvons clairement le voir. Regarde ça. D est donc en train de réduire son salaire de ce mois-ci. Randolph touchait ce salaire incontournable, non ? Des salaires donc élevés, taux maximum. Et nous voyons ici des salaires si élevés, au maximum 95 200 dollars. Et mes cheveux sèchent au fur et à mesure que mon salaire diminue, non ? Donc, si nous voyons le salaire, 7 800, d'accord. Ainsi, nous pouvons obtenir un diagramme circulaire basé sur le salaire, le nom de l'employé et les étiquettes. OK, ensuite, je veux tracer le graphique, le titre et la palette de couleurs arc-en-ciel, donc je veux le rendre plus coloré. Alors voici ce que je vais faire, je vais utiliser la fonction pipe. Transmettez le salaire, puis indiquez le nom. Voici donc les données, puis l'étiquette et la moyenne, une moyenne égale au salaire de l'employé. Ce sera le titre de ce graphique. D'accord ? Ce sera donc le titre de ce graphique. Et puis ce que je vais utiliser, j'utiliserai un appel égal à la couleur arc-en-ciel, s'appelle arc-en-ciel. Et pour cela, je vais donner la longueur des données par points aux employés, d'accord ? Appuyez ensuite sur les données de l'employé. OK, alors laisse-moi m'occuper de ça. Maintenant. Nous obtenons un graphique très coloré ou un diagramme circulaire dont le titre est le salaire de l' employé et les noms sont les étiquettes et le salaire. Ces blocs représentent le. Implique un salaire. D'accord ? Ainsi, nous pouvons créer un diagramme circulaire coloré, qui est bien plus beau que le précédent, afin que vous puissiez également l'utiliser. Ensuite, je veux créer les étiquettes. Donc, ce que je vais faire, c'est voir, oui, nous donnons les niveaux en les utilisant, qui existent déjà dans ce DataFrame, n'est-ce pas ? Maintenant, je veux créer mes propres niveaux. Donc, ce que je vais faire ici, créer un pourcentage du salaire, d'autres étiquettes, d'accord ? Donc, ce que je fais ici, créer un objet à 5 %, et j'utilise la fonction ronde. Et ce que je fais ici, cent fois le salaire des employés divisé par une partie du salaire de tous les employés. D'accord. Donc, en gros, je trouve le pourcentage de naissances et de décès salaire de chaque employé sur la base du salaire total. Le salaire total sera la somme de tous les salaires. Ensuite, nous essaierons de savoir combien gagne Susanna. Quel est le pourcentage du salaire de Susanna ? Le salaire total. D'accord. Nous obtenons donc cette valeur en pourcentage du tuyau. Ensuite, ce que je vais faire, tracer le salaire du dentiste sous forme de diagramme circulaire. Donc, pour cela, je vais utiliser la fonction pipe. Et ici, les données seront le même salaire que les employés, cette colonne, la colonne des salaires. Ensuite, les étiquettes représenteront le pourcentage du tube. Donc, l'étiquette au lieu du nom, maintenant je donne cinq pour cent, d'accord ? Ce sera donc 1 %, 2 % comme ça. D'accord ? Et puis le titre principal, je donne, en analysant ce salaire par chat, d'accord ? Et puis la Collette, je garde le même schéma, arc-en-ciel. Et ici, je donne les objectifs et les données, les données sur les employés, le salaire, le salaire et je fournis sous forme de longueur. D'accord. Alors laissez-moi, et puis une autre chose que je donne, je donne les ligands, ligands ou quelque chose qui sera imprimé ici pour spécifier ce que cela signifie, R, quelle couleur sera OXO, ce qui implique. Il sera donc affiché dans le coin supérieur droit. Et puis ici, je donne les données des employés. Dollar, le nom de l'employé signifie le nom de l'employé. Et puis je donne au cex le moyen que ce sera la valeur de la longueur ou de la largeur de cette chose. Une fois que je l'aurai dessiné, vous serez compris. Alors, laissez-moi comprendre qu' un graphe d'étoiles vient en C ici. D'accord ? Alors laisse-moi exécuter ça aussi. Et maintenant, laisse-moi voir. Oui, maintenant nous avons défendu le nom. Nous obtenons des pourcentages tels que la somme des salaires totaux de tous les employés. Cette personne, la personne verte si riche, qui touche 22,1 % du salaire total. Et puis regardez nos yeux en pointant 19 points. Donc, cette légion, ça s'appelle des lésions. Ça, c'est l'allégeance. Et si l'on se fie aux blocs de couleur verte, c'est que le pain appartient au prion. Avec ce graphique, vous pouvez comprendre que les salaires de Priyanka représentaient 0,6 % du salaire total, n'est-ce pas ? De la même manière, la cellule de Michael appartient à 25,6. Et le salaire le plus bas de cette personne qu'est Riba que vous voyez est inférieur, 0,2 %. Ainsi, nous pouvons créer nos propres étiquettes et mettre les légendes pour chaque niveau. Et cela est plus précis, comme montant que 1 % reçoit en pourcentage, en pourcentage de salaire. Ensuite, nous pouvons dessiner le diagramme circulaire en 3D. Et pour cela, nous devons télécharger cette matrice de diagrammes de bibliothèque. D'accord ? Donc, si ce n'est pas le cas, si ce n'est pas le cas pour votre RStudio, vous pouvez accéder au fichier. Vous pouvez accéder aux packages et cliquer sur les packages d'installation. Ici, vous pouvez donner votre nom, nom de la bibliothèque démarrée, que vous souhaitez télécharger et cliquer sur l'installation. Il n'y a pas de fête. Vous pouvez cliquer sur Installer et cette bibliothèque sera installée sur votre machine, RStudio dans Data Studio et vous pourrez l'utiliser. Nous avons donc besoin de cette bibliothèque, astuces pour créer un diagramme circulaire en 3D. Et dans cette bibliothèque, nous avons la fonction Pie 3D. Et avec cela, nous pouvons transmettre les données, c' est-à-dire le salaire de l'employé. Les étiquettes indiqueront le nom de l'employé. Et puis exploré le point et le principal sont le salaire des placentas en 3D. OK, laissez-moi exécuter ceci pour voir, et maintenant nous obtenons un graphique à secteurs en 3D. Juste ici. Nous obtenons un diagramme circulaire en 3D comme celui-ci est le résumé du Soudan. C'est certainement l' anticorps Michael qui traverse C, très moins de salaire pour moins de choses ou une masse comme ça. Il s'agit donc de la représentation 3D des salaires des employés. Nous pouvons donc le voir ici, et cela sera bien meilleur que le graphique circulaire 2D. Ainsi, nous pouvons créer un diagramme circulaire et analyser les données dans l'art. D'accord ? Vous pouvez donc également essayer avec vos propres données. Vous essayez de créer vos propres vecteurs, puis vous essayez de dessiner le graphique circulaire. Vous pouvez analyser les données d'un fichier CSV, créer votre propre fichier CSV et effectuer toutes ces opérations. Je veux donc que vous créiez votre propre projet comme celui-ci, et que vous ajoutiez ces graphiques et ces diagrammes à secteurs dans la section projet de ce cours. Et nous verrons si nous pouvons fournir nos commentaires et tout le reste. Il sera donc partagé entre nous, tous les étudiants et avec moi également. Vous essayez donc de créer ou de créer vos propres données de cette manière, et essayer de visualiser votre base de données en créant un graphique circulaire ou un graphique circulaire en 3D , c'est comme trouver la moyenne , le salaire moyen, etc. D'accord. Donc, et très bien intégré aux projets. 25. Lire un fichier Excel dans R: Bonjour et bon retour. Dans cette conférence, nous allons donc apprendre comment lire un fichier Excel grâce à l'art. C'est assez simple et nous devons installer un package, puis charger ce package. Ensuite, nous devons lire le fichier Excel à l'aide d' un simple code d'une ligne, puis nous pouvons imprimer les données. Voyons donc comment nous pouvons le faire. Donc, ce que j'ai fait, j'ai créé les mêmes informations sur les employés, un fichier Excel, les mêmes informations que j'ai conservées dans ce fichier Excel que celles que nous avions dans notre fichier CSV. Ce sont donc les mêmes données, mais j'ai créé un fichier Excel via ce fichier CSV. Et ce que j'ai fait pour cela, c'est que les applications ouvrent simplement ce fichier CSV. Ce que je vais faire, c'est que je n'ai pas le Microsoft Excel ici. Donc, ce que je vais faire, je vais simplement accéder au fichier CSV à points contenant les détails des employés, n'est-ce pas ? Je vais juste l'ouvrir ici dans Google Seat. Et nous verrons qu'il sera créé en x. Et si je vois oui, nous avons maintenant la plaque signalétique de la colonne, le numéro d'identification de l' employé, le nom de l'employé, salaire, la date d'entrée et le service, et tous les détails au format Excel. Maintenant, ce que je vais faire, c'est télécharger ce fichier au format d'éthique Excel. Cliquez donc sur ce format Microsoft Excel, téléchargez-le. Maintenant, il a été téléchargé et je l'ai conservé. J'ai conservé ce fichier dans notre répertoire de travail. La prochaine étape est que nous avons maintenant détails de cet employé, point Excel sous la forme x, y, rien. Cela signifie que ce fichier Microsoft Excel ici dans notre répertoire de travail, c'est notre 2020. Donc, ce que je dois faire, c'est d' abord installer ce package. Et le nom du package est XLSX. Donc, pour installer un package dans R, nous pouvons utiliser cette syntaxe install.packages, et nous pouvons fournir le nom du package que nous voulons installer. Lorsque vous exécutez cette commande, elle installe le support éthique d' Excel. Sinon, nous pouvons également accéder à cet onglet de package ici. Et nous devons cliquer sur Installer. Et ici, nous devons fournir X en tant que X, d'accord ? Et vous pouvez cliquer ici Installer et il sera installé. Nous pouvons donc faire les deux méthodes et les packers XLSX seront installés. Ce package est requis car nous devons lire ce fichier Excel par le biais de notre programmation. Et nous avons besoin des bibliothèques intégrées au package Excel. Il suffit donc de cliquer sur Exécuter et ce sera fait. OK. Donc, ce que je vais faire, c'est simplement l' annuler car j'ai déjà installé ce package. Il vous suffit de cliquer dessus et il sera installé, d'accord ? Et tu peux aller ici et tu peux le faire aussi. Cela ne vous prendra qu' une minute et ce package sera installé. Ensuite, nous devons déplacer un opéra car il ne figure toujours pas dans notre fichier script. Après avoir installé la bibliothèque ou le backend, vous devez supprimer cette ligne. Ça ne va toujours pas pour le combat d' alcool Other Script. Ensuite, nous voulons lire ou Excel des fichiers d'éthique. Et il y a une fonction dans cette bibliothèque. Nous devons donc charger la bibliothèque, nous devons charger le package, nous allons donc utiliser la bibliothèque, puis nous conserverons le nom de bibliothèque XLSX. Et puis ce dont j'ai besoin, d'utiliser la fonction v point XLSX. Cela signifie que nous voulons lire un fichier Excel, un fichier Microsoft Excel. Et là, premier argument, nous devons donner de l'argent pour donner le nom du fichier. Donc, l'image finale, les détails des employés sont placés au point XLSX. D'accord ? Ensuite, nous devons donner l'indice de siège, indice égal à un. D'accord ? Et ceci, quoi que nous lisions ici à travers ce point rouge Excel, nous le stockons en vue ou dans un objet à l'intérieur d'un objet. Données de soulignement des employés, données de soulignement E&P. Il contiendra donc toutes les données que nous sommes en train de lire à partir de ce fichier Excel. Ensuite, nous allons simplement l'imprimer. Laissez-moi donc exécuter ce fichier et voir si nous obtenons le résultat, l'identifiant de l' employé, le nom de l'employé, salaire, ils finissent par rejoindre un département. Cette méthode est donc assez simple. Nous pouvons lire jusqu'à ce que les anciens puissent y accéder, nous pouvons le lire, n'est-ce pas ? C'est tellement simple. Chargez la bibliothèque. Installez d'abord le package, puis chargez la bibliothèque. Ensuite, nous devons lire le fichier Excel en fournissant simplement le nom du fichier Excel. Et nous devons stocker ces données dans un objet. Ensuite, nous imprimons simplement cet objet pour voir ce qu' il stocke. Il s'agit essentiellement de stocker tous les détails de la feuille Excel. OK, j'espère que vous savez comment on peut lire un fichier Excel. Nous pouvons donc lire un fichier Excel en utilisant la fonction read point XLSX. Et nous devons fournir le nom du fichier Excel. Ensuite, nous obtiendrons simplement toutes les données dans le fichier Excel. Le package est donc XLSX que nous devons installer. Et nous devons charger la bibliothèque XLSX avant d'utiliser la fonction XLSX. C'est ainsi que nous pouvons lire un fichier Excel, un fichier Microsoft Excel grâce à notre programmation. Vous participez à la prochaine conférence. 26. Lire le fichier xml dans R: Bonjour et bon retour. Dans cette conférence, nous allons donc apprendre comment lire un fichier XML grâce à notre programmation. Nous allons donc écrire un code à travers lequel nous allons lire le fichier XML. Alors, tout d'abord, laissez-moi vous dire quelle pièce. Fichier XML. Un fichier XML est donc un fichier XML. Xml signifie XML Extensible Markup Language et insérant, nous l'appelons XML Extensive Markup Language. Et cela ressemble à la réécriture du HTML, langage de balisage hypertexte, vous savez, pour écrire des pages Web et, de la même manière, langage de balisage extensible XML. C'est un fichier de données. Et dans ce fichier, nous conservons les données comme une base de données, comme nous stockons également des données dans la feuille Excel. Nous stockons également les données dans un fichier texte, et nous les avons également stockées dans la base de données. De la même manière, nous stockons les données dans des fichiers XML, c' est-à-dire un langage de balisage extensible. Il s'agit d'un document formaté comme un document HTML, comme dans un document HTML, nous utilisons les balises et tout cela pour stocker le document de la même manière. Xml également, nous utilisons le balisage pour conserver les données dans le fichier. Mais ici, nous utilisons des balises personnalisées. En HTML, tout est prédéfini. Mais en XML, nous pouvons créer nos propres balises, comme le HTML. Nous devons utiliser l'ancienne taxe linguistique prédéfinie qui est spécifique au HTML, mais en XML, nous pouvons écrire notre propre taxe, comme nous le voulons. Nous pouvons créer un tag pour cela. C'est pourquoi vous sélectionnez langue personnalisée basée sur des balises ou une extension de fichier ce week-end. Je vais déposer un langage de balisage que nous pouvons utiliser ici avec des balises personnalisées pour définir les objets et les données qu'ils contiennent. Nous pouvons donc définir l'objet personnalisé et placer les données en fonction de cela, quelles que soient les données que nous voulons porter pour les balises, nous pouvons le faire. Les fichiers XML peuvent être considérés comme une base de données textuelle comme MySQL. Nous utilisons les jeunes pour conserver les données sous forme de tableau et de format brut et nous décidons du type de colonne que nous voulons insérer de la même manière. Il s'agit d'une base de données textuelle. Maintenant, ce que je vais faire, je ne veux pas créer un fichier XML à partir de zéro. Et je veux utiliser les mêmes informations, les mêmes informations que celles que nous avions dans notre fichier CSV, détails des employés point CSV, puis nous avons un fichier Excel clair pour les détails de l'employé. Je veux donc avoir le même type de données, les mêmes données en XML agile. Pour cela, nous pouvons créer manuellement un fichier XML. Sinon, nous pouvons également utiliser ce site Web d'outils de conversion point IO, où nous pouvons simplement parcourir le fichier Excel et le convertir en fichier XML. Alors laisse-moi te montrer. Ainsi, lorsque vous accédez à ce site Web, les outils de conversion point edu slash convertissent la barre oblique Excel en XML. Donc, cette phase, lorsque vous venez ici et nous, lorsque vous naviguez et que vous mettez simplement le fichier Excel de vos employés ici. Maintenant, j'utilise ce fichier XLSX contenant les détails de l' employé pour créer un fichier XML basé sur les données de ce fichier. Il vous suffit donc de sélectionner le fichier. Ensuite, nous devons cliquer sur Exécuter la convergence ce fichier Excel soit converti en fichier XML. Et cela prendra quelques secondes et votre fichier XML sera automatiquement prêt. Donc, ce que j'ai fait, j'ai déjà téléchargé ce fichier XML ici, le fichier XML point sur les détails des employés. Et nous allons essayer de lire ce fichier XML. Il contient les mêmes informations que les coordonnées des employés, n'est-ce pas ? Donc, d'accord, ce que j'ai fait, je l'ai modifié et je ne l'ai conservé ici qu'à des fins de dossier. Et si vous voyez le fichier que je viens de créer dans les téléchargements et ce fichier XML, vous verrez des données. Huit employés l'identifient. Est-ce que ça va ? Donc, comme ça, on peut le faire. Permettez-moi donc de copier-coller ces deux heures. Oui. OK. To Lake Rehab a donc installé le package XL XX pour lire le fichier Excel. De la même manière, pour lire le fichier XML, nous devons installer le package XML. Et pour cela, nous devons utiliser install.packages et nous devons fournir le nom du package XML. Nous pouvons également accéder au package d'installation, et ici nous pouvons fournir le nom du package XML. Et nous devons cliquer sur Installer et il sera installé. Je ne vais donc pas le réinstaller car je l'ai déjà installé. Et si vous ne l'avez pas installé, vous pouvez simplement exécuter cette ligne ou vous pouvez venir ici et fournir le XML ici, et vous pouvez cliquer sur Installer, et l'installation du package prendra quelques secondes, ou à peine une minute pour installer le package. Une fois le package installé, nous devons supprimer cette ligne car le package est déjà installé. Ensuite, nous devons charger le package ou la bibliothèque XML. Nous devons donc utiliser la commande ou utiliser la bibliothèque de scripts. Et nous devons fournir le nom du package. Nous devons donc charger le package, d'accord, donc la bibliothèque. Et nous devons fournir le nom du package XML. Ainsi, toutes les fonctions nécessaires à la lecture du fichier XML seront écrites dans cette bibliothèque XML. Et que toutes les fonctions intégrées seront notre niveau pour nous. Ensuite, nous devons également ajouter les méthodes de la bibliothèque. Ceci est requis pour ce package XML. OK, et ensuite, ce que nous devons faire, c' utiliser la fonction XML parse. Les fichiers XML sont une fonction requise pour lire et lire un fichier XML. Nous allons donc utiliser l' analyse XML et nous devons fournir le nom du fichier XML. Donc, le fichier est égal au nom du fichier. Donc, notre image finale, les détails des employés point xml. Et nous devons, tout ce qu'il va récupérer à partir de ce fichier XML, le stocker dans cet objet contenant les détails de l'employé. Parce que dans R, nous devons stocker tout ce qui se trouve à l'intérieur d'un objet, comme des variables, vous pouvez dire. Donc, les détails, la variable ou l'objet conserveront ce que nous sommes. Nous obtenons à partir de ce fichier, fichier XML via cette fonction d'analyse XML. Maintenant, tous les détails de ce fichier XML à points de détails implicites seront stockés dans cet objet. Nous devons maintenant imprimer cet objet. Alors laisse-moi courir jusqu'ici. OK, laisse-moi voir. Il imprime le fichier XML comme un accordéon. Bly implique l'ID1 et la date de salaire de Glassdoor pour rejoindre le département. OK, voici donc balises définies par l'utilisateur que nous avons créées pour notre fichier XML. OK, à bientôt, tous les détails que nous obtiendrons afin que nous puissions lire le fichier XML comme ceci. Xml analyse la fonction pour lire le fichier XML en C. Ou nous pouvons utiliser la fonction XML food node, le nœud racine du fichier XML. Nous insistons donc sur le nœud racine et nous transmettons les coordonnées de l' employé, E&P souligne les détails de l'objet au nœud racine, puis nous imprimerons ce nœud racine. Permettez-moi donc de lire ces deux lignes. Si je mets le nœud racine un, cela me donnera les détails du premier nœud (le réseau implique ID1). Si je mets l'un des deux, cela me donnera le nom. La première ligne vous permet d' utiliser le nom Priyanka Rostow depuis le premier nœud. Si j'en mets deux au maximum, je vais obtenir le nom car le second implique qu'il s'agit de l' identifiant de l'employé. Le nom de l'employé est. Ainsi, nous pouvons accéder à chaque nœud. Je peux en mettre trois d'un. Supposons que trois touchent le salaire du joueur goudronné, n'est-ce pas ? De la même manière, nous pouvons déterminer le nombre de nœuds, nombre de Norths présents dans notre fichier XML pour cela, nous pouvons utiliser la taille XML et fournir l'objet de nœud racine que nous avons obtenu à partir de la racine XML. Donc, quand on l'exécutera, on aura terminé le numéro du nord. Alors laisse-moi imprimer ceci. Quatrièmement, parce que ce fichier Excel je l'ai conservé uniquement pour l'employeur, c'est le cas. Cela nous montre donc qu'il y a quatre pays du Nord. Nous avons quatre nœuds lorsque cela est sous-entendu, un en clair pour lequel utiliser D3 et un identifiant d'employé. Cela nous donne donc le contenu du fichier XML au nord. Maintenant, l'essentiel est qu'une fois que nous avons obtenu ces données, des données XML, nous pouvons les lire dans R. Nous devons les convertir en DataFrame car il est très facile lire ou de manipuler des données , car il est très facile de lire ou de manipuler des données lorsqu'elles sont au format DataFrame, n'est-ce pas ? Il existe donc dans Are une fonction appelée XML to DataFrame. Cela signifie que tout ce que nous avons dans ce fichier XML contenant les détails de l'employé peut être directement converti en DataFrame fonctionnel en utilisant la fonction XML to DataFrame et tous les détails. Nous le stockerons dans le DataFrame, souligné par les employés , puis nous pourrons l'imprimer et nous verrons à ce qu'il apparaisse comme un DataFrame. Permettez-moi donc de l'exécuter et de voir maintenant que tous les détails sont sous forme de tableau ou dans un format DataFrame, dans notre identifiant d'employé senior, le nom de l' employé, les données salariales et la planification et le service. Ainsi, avec cette seule ligne de code, nous pouvons convertir un fichier XML DataFrame dans la programmation R. Et c'est très pratique lorsque nous effectuons nos analyses exploratoires de données apprentissage automatique et notre science des données. Nous pouvons donc facilement convertir un fichier XML en DataFrame, puis poursuivre l'analyse des données ou la manière dont nous voulons créer des graphiques et tous les tracés et tout le reste. donc effectuer tous ces types d'analyses Nous pouvons donc effectuer tous ces types d'analyses sur ce DataFrame. Il est donc assez facile de faire toutes ces choses dans notre programmation. J'espère que vous avez compris comment lire un fichier XML. Comment savons-nous cela, comment combien de nœuds existe-t-il avec cette taille XML ? Et puis comment pouvons-nous convertir un fichier XML notre DataFrame dans R en utilisant XML en DataFrame, n'est-ce pas ? Voilà pour cette conférence. Rendez-vous dans la prochaine. 27. Lire le fichier JSON dans R: Bonjour et bon retour. Dans cette conférence, nous allons donc apprendre à lire un fichier JSON dans notre programmation. Donc, ce que nous allons faire, nous allons apprendre ce qu'est un fichier JSON, puis nous allons créer un fichier JSON. Enfin, nous essaierons de lire ce fichier JSON par le biais de notre programmation. Alors allons-y. Donc, la première chose à faire est de savoir ce qu'est un sulfite. Jason est donc l'abréviation de JavaScript Object Notation, et il s'agit d'un format de fichier standard open source. Il s'agit donc d'un format de fichier standard ouvert et d'un format d'échange de données. Donc, en gros, le format de fichier de Pâques et le format d'échange de données également. Cela signifie que nous pouvons stocker les données et les utiliser pour échanger des données. De plus, que vous n'avez qu'un texte lisible par l'homme. Dans ce cas, nous écrivons du texte lisible par l'homme pour stocker et transmettre un objet de données composé de paires de valeurs d' attributs. Cela signifie que ce sera comme si nous allions abord des paires clé-valeur, toutes ces choses sur le site. Si vous connaissez la base de données MongoDB ou toute autre base de données sans suite, vous devez savoir qu'il existe une base de données de documents dans laquelle nous stockons les données sous forme de paires clé-valeur. Il y aura donc une clé, et pour cette clé, il y aura une valeur correspondante la même manière, juste sur les paires de valeurs d' attribut. Cela signifie qu'il y aura un attribut et cet attribut, un attribut, paires de valeurs et des types de données ajoutés. En gros, toutes les autres valeurs également, et en gros, j'ai édité ce type. Donc, j'espère que vous savez ce qu'est Jason en théorie, dites-moi comment créer un fichier JSON. Alors à bientôt. Le fichier est très simple. Nous devons mettre des données dans ces accolades. Et à l'intérieur des accolades, ce que nous allons faire, c'est utiliser cette paire de valeurs clés pour stocker des données. Alors imaginez ce que je vais faire, je ne stockerai que les mêmes données sur ces employés. Nous avons vu comment nous stockons cela dans un fichier CSV comme ici. Et puis nous avons vu comment le stocker dans un fichier Excel. Ensuite, nous avons vu comment stocker cela dans un fichier XML. Nous allons maintenant voir comment stocker mêmes informations sur les employés dans un fichier JSON. Donc, pour cela, comme je l'ai dit, vous avez trouvé la meilleure astuce en matière de format de fichier. Voici le numéro d'identification de l'employé. Tous les identifiants des employés, je les rangerai dans un tableau de un à huit. Donc, tous les identifiants d'employés, d'un à un, comme si nous avions huit identifiants d'employés. C'est ce que nous avons fait, nous les avons tous restaurés. Et nous avons donné au nom de l'attribut l'identifiant de l'employé, et les valeurs sont comprises entre un et huit, n'est-ce pas ? Et ce côlon est le côté gauche du côlon. Ces colons séparant la clé et la valeur sont l'attribut et la valeur. Ainsi, le côté gauche des colonies, l' identifiant de l' employé et le côté droit correspondent à la valeur correspondante. De la même manière que nous avons le nom de soulignement des employés, c' est-à-dire un attribut, et les noms de tous les employés, cette Priyanka correspondra à cela, impliquera n'importe qui ou pour s'asseoir aux deux derniers que j'aime React Il y a encore des parties une à quatre à ma hâte de voir ce que vous voyez comme ça. OK, alors nous stockons le tableau des salaires, puis nous y stockons les données relatives à la formation , puis au département. De cette façon, au sein du service, nous pouvons placer des données dans le fichier JSON et j'ai enregistré ce point de détails sur les employés Azure au format JSON. Nous savons maintenant comment stocker les données dans un fichier JSON. Ensuite, nous allons essayer de lire ceci, d'accéder aux données des fichiers grâce à notre programmation. Alors allons-y. Je vais donc ouvrir, j'ai déjà écrit le code. Je vais donc ouvrir le fichier JSON de lecture que j'ai écrit. Et pour cela, nous devons installer le package. Nos invités à ce sujet, sur ce backend, Minister a été installé. Vous pouvez également l'installer en exécutant cette ligne de code. Et vous pouvez accéder au package d'installation. Et tu peux le mettre ici ou celui-ci. Et vous pouvez cliquer sur Installer et il sera installé. Vous pouvez donc également utiliser ce script de commande. Ensuite, nous devons utiliser la bibliothèque ou l'axone. Ensuite, nous devons fournir le nom du fichier JSON. Et le nom du fichier JSON correspond aux coordonnées de l'employé vers le Soleil. Et ici, nous allons utiliser une fonction de cette bibliothèque : Jason, qui provient de Jason. Cela signifie que nous allons lire les objets à partir de nos coordonnées, à partir des détails de l'employé point js sur ce fichier JSON, fichier égal au nom final que vous devez fournir. Et cette fonction à partir de JSON lira les données de ce fichier JSON et tout ce qu'il lit réellement stocké dans cet objet E&P soulignera les détails. Ensuite, nous allons simplement l'imprimer. Alors laissez-moi vous montrer ici. Permettez-moi de l'exécuter et de voir qu'il lit les données telles que l'identifiant de l'employé, nom d' un à huit employés. Il s'agit de l'employé nommé puis du salaire, puis vient la date d'entrée, puis les départements. Découvrez donc ici comment nous vivons avec une ligne de code à partir d'une seule fonction simple. Et nous fournissons simplement le nom du fichier et il lit toutes les données du fichier JSON. La prochaine étape, c'est ce week-end. Imprimez les données. Nous pouvons donc voir ici qu'il imprime les données du fichier JSON. Maintenant, comme nous le savons dans notre, c'est assez simple et il est recommandé d'obtenir les données au format DataFrame. Nous pouvons donc simplement maintenant les données du fichier JSON se trouvent dans cet objet dans les détails du trait de soulignement E&P, nous pouvons les convertir en DataFrame en utilisant un cadre à points de données sombres agile. Ainsi, lorsque nous utilisons cette fonction as.data.frame et que nous transmettons cet objet en obtenant simplement d'anciens documents de fichier ou des données. Cet objet obtient tous les détails de ce fichier JSON. Et lorsque nous transmettons cet objet de vente au détail destiné aux employés au fichier as.data.frame, il convertit ces données. Maintenant, le format est le suivant. Il prendra ces données et les convertira en un DataFrame dans R. Et nous sommes en train de restaurer les détails de notre DataFrame dans le cadre de soulignement des données E&P. Et lorsque nous imprimerons, les données seront obtenues au format DataFrame. Alors laisse-moi exécuter ça. Vous voyez maintenant que nous obtenons des données dans notre format DataFrame dans R. Il est donc assez simple de pouvoir lire ce fichier JSON avec la fonction from JSON. Ensuite, nous transmettons simplement cet objet, qui obtient tous les détails provenant employés ou du soleil, et nous les convertissons dans le DataFrame en utilisant cette fonction simple as.data.frame et en transmettant cet objet. Qu'est-ce que cet objet JSON, ou un objet Python qui transporte les données du fichier JSON, un DataFrame en R. Et nous pouvons simplement imprimer à cette main CEO, quel point elle est belle en train de se transformer en DataFrame. Ainsi, nous pouvons lire notre fichier JSON et convertir données de ce fichier JSON en un DataFrame en programmation R. Et pour cela, nous pouvons utiliser ce DataFrame pour analyser les données et effectuer un traitement ultérieur, créer des graphiques et faire tout ce que vous voulez avec ce DataFrame. Voici donc comment nous pouvons lire le fichier JSON en utilisant notre programmation. Rendez-vous lors de la prochaine conférence. 28. Créer un diagramme de barre: Bonjour et bon retour. Dans cette conférence, nous allons donc découvrir un autre tableau ou graphique de visualisation que nous pouvons créer à l'aide de R. Il s'agit d'un diagramme à barres ou d'un graphique à barres, comme vous pouvez le voir, un graphique à barres. diagramme à barres, un graphique à barres ou un graphique à barres est l'un des types de visualisation graphique les plus courants que vous devez avoir vus dans votre bureau ou dans vos projets et tout le reste. Chaque fois que nous essayons de visualiser une prévision, nous utilisons un graphique à barres. Et lorsque vous voyez ce graphique, il s'agit d'un graphique à barres. Et vous vous rendrez compte que vous avez dû utiliser de nombreuses fois, n'est-ce pas ? Nous pourrions également obtenir le même type de graphique à barres dans notre Microsoft Excel. Et lorsque nous essayons de visualiser quelque chose, même lorsque nous dessinons quelque chose sur un stylo et du papier. Pour visualiser quelque chose, nous dessinons très probablement un diagramme à barres. Le diagramme à barres est donc l'un des types de visualisation graphique les plus courants. Et cela concerne la relation entre une variable numérique et une variable catégorielle. Alors, qu'est-ce que cela signifie ? Cela signifie que le PDG, les axes a, B, C, D, cet axe X ressembleront à quelque chose de très catégorique. Maintenant, à quoi ressemblent les semaines ou les jours d'une semaine ? Comme le dimanche, le lundi, le mardi, nos mois de janvier , février, mars, avril, mai, juin, comme ça. Et cet axe Y sera la représentation numérique de ces mois, comme le chiffre d'affaires d'une organisation ou le salaire des employés. Donc, sur cet axe X, ABC seront les employés, et ce sera leur salaire respectif. Donc, cet excédent lira la partie numérique et ce sera la partie catégorique, n'est-ce pas ? Ainsi, chaque entité de la variable de catégorie est représentée sous la forme d'une barre. Voici donc le bar. C'est pourquoi on l'appelle graphique à barres, car la valeur numérique est affichée sous forme de barre. C'est donc très bien. C'est ce que l'on appelle le graphique à barres et la taille de la batterie indique la valeur numérique. Cette taille est donc représentée comme si c'était quelque part autour du retournement. C'est environ 13, environ sept, et c'est quelque part seul, neuf, et c'est une décision. La valeur E est donc 15, la valeur b est sept, la valeur c est neuf, la valeur est huit. Et cette valeur e est 13. Donc comme ça. Cette taille corporelle représentera cette valeur numérique. S'il s'agit d'ABC ou d'un employé, ce sont leurs salaires respectifs, n'est-ce pas ? Ainsi, de cette façon, nous pouvons utiliser le diagramme à barres et dans R, nous pouvons dessiner un diagramme à barres en utilisant simplement la fonction de diagramme à barres. Donc, fonction de diagramme à barres. Et dans la fonction, nous n'en fournirons que quelques-unes, mais aussi des amateurs et nos données. Et il créera le diagramme à barres, cette fonction de diagramme à barres permettant de créer des graphiques à barres. Il peut s'agir de barres verticales et horizontales. Et la syntaxe est barplot et elle prendra l'argument th. Ces arêtes seront le vecteur, le vecteur de données. Le vecteur qui contiendra toutes les données. Et ce xlab est l'axe X, Y est l'axe y, comme celui-ci, a, a, a, B, C, D seront l'axe X, xlab et y seront l' axe y, ce principal. Et puis le nom Ox sera le, vous verrez ce que c'est ? C'est-à-dire que ce sera le même nom que celui-ci. 123, du genre, laissez-moi vous dire ceci. Ce chiffre de zéro à 14, comme le salaire de l'employé, sera utilisé comme données. Et ces noms qui le seront seront le nom des sous-entendus. D'accord ? Donc, cette arête et son nom font en sorte que les deux vecteurs aient le même nombre de données, n'est-ce pas ? Le même nombre d'opérateurs de numéros de données serait identique dans l'arête nommée start. D'accord, d'accord. Nous verrons que HE, le vecteur ou la matrice contenant la valeur numérique du graphique à barres. Comme je l'ai dit, xlab est le niveau de l'axe X. Pourquoi l'amour est au niveau de l'axe Y ? Et surtout le titre du bus. Vous trouverez donc ici le titre du graphique à barres, comme le salaire de l' employé. Et puis nommé start fait valoir un vecteur vers le haut des noms apparaissant un autre à chaque partie, comme je l'ai dit, pour cette barre, cette barre b comme ça. D'accord ? Et l'appel est utilisé pour conserver les couleurs des barres comme ici, on nous donne des couleurs différentes. Donc, si vous voulez créer un graphique coloré, nous utilisons l'appel. Dispute, OK, Henry, c'est fini. D'accord. Voici donc un exemple simple. Ce que je fais ici. Je suis en train de créer un nouveau vecteur qui contiendra ces nombreux nombres. D'accord ? Ce vecteur contiendra donc ces nombreux nombres, d'accord ? Et je veux créer un graphique pour cela. Donc, ce que je vais faire, est simplement créer ce vecteur Q et transmettre cette fonction de diagramme à deux barres du vecteur Q. Et cela créera le graphique à barres pour nous. Et celui-ci, un fichier PNG égal à un b, pas un PNG égal au nom du fichier. Vous pouvez créer un fichier image en haut du graphique ou du graphique à barres et l' enregistrer sur votre système. Et pour cela, nous utilisons la fonction PNG. Et à l'intérieur, nous utiliserons le fichier Col2 et le nom du fichier vous souhaitez donner et que vous pouvez donner ici. Ainsi, sur la base de ces données , une charte sera créée et les données du graphique seront enregistrées dans ce fichier image. Ensuite, nous utiliserons la fonction de diagramme à barres pour dessiner le graphique à barres pour nous. Ensuite, dev.off signifie que nous allons enregistrer le fichier et qu'il sera écrit sur notre machine locale. Allons donc dans RStudio et exécutons ce code. Je suis donc en train de créer un vecteur pour la saisie de données. Ainsi, sur la base de ces données, le graphique à barres sera créé. Maintenant, je suis en train de créer un fichier pour écrire le graphique à barres dessus. Je donne un fichier PNG égal à et ici vous pouvez donner n'importe quel nom. Tu peux donner abc, abcd, pas PNG, quel que soit le nom que tu veux, tu peux, d'accord ? Je vais donc donner un graphique à barres a, b, c, d, d'accord ? Ensuite, nous utiliserons le diagramme à barres pour créer un graphique à barres, puis nous l'enregistrerons, à droite, dev.off, enregistrez le fichier. Maintenant, je vais tout analyser et voir si, pour une raison étrange, le terrain n' est pas vendu ici. Mais comme vous le voyez ici, maintenant, notre graphique à barres a été créé. Le fichier a été créé ici. bientôt. Alors d'accord, 12345678 entrées, non ? Et nous avons ici 12345678. Le plus long est de 9 001,99 mille. Ainsi, nous pouvons vous donner un graphique à deux barres. Il s'agit donc d'un simple graphique à barres que nous avons créé à partir de ces données, n'est-ce pas ? Ensuite, ce que nous pouvons faire, c' aller un peu plus loin et essayer de créer un peu plus intéressant. Je vais avoir, donc, ce que j'ai fait ici, j'ai créé une donnée comme B, un vecteur ou une donnée contenant les bébés nés chaque mois, comme B contiendra le vecteur V qui les bébés nés chaque mois, comme contiendra les bébés nés au cours du mois, comme 5 600 janvier, février à mars, 7 800 bébés nés ainsi jusqu'à l'été. D'accord. Il s'agit donc des données sur 12 mois pour les bébés nés au cours d'un mois donné. Et puis, voici la valeur numérique. Et, ce que je fais, je crée un autre vecteur M, qui contiendra le nom du mois, à droite, pour chaque valeur, pour chaque valeur, le vecteur de nom de mois correspondant que je suis en train de créer, c'est-à-dire janvier, février, décembre, il contiendra, accord, donc c'est clair. Je crée la valeur numérique ici et le nom de chaque barre que je crée ici pour la factorielle 600 de janvier, comme ça. D'accord ? Ensuite, je crée un fichier, Babies Born Dot PNG. Et je transmets cet objectif final à la fonction PNG par points. OK, collecte du diagramme, nom du fichier image. Et puis, ce que je fais, simplement tracer le graphique à barres en fonction de ces données. D'accord ? Donc, ce que je fais, que je suis obligé d'utiliser la valeur V. Donc, je saisis les données en me basant sur ces données, je veux créer un graphique à barres, d'accord ? Et puis names.org signifie pour nommer chaque barre que je passe ce vecteur m. Le vecteur M se diffuse en janvier et février. L'axe X sera donc janvier, février et l'axe y sera le nombre de bébés nés au cours d'un mois donné. Alors xlab, je leur donne un mois. Et dans mon laboratoire, je donnerai des bonbons à des bébés ce mois-là. Ensuite, je donne de la couleur verte. Et principal signifie atteindre le graphique. Je vais donner un tableau des liens aux bébés. Et puis pour chaque barre. Je donne une note faible, d'accord, puis je sauvegarde le fichier. Alors laisse-moi exécuter ça. OK, donc je l'ai fait correctement. Voyons voir le senior, maintenant nous avons un autre dossier. Le bébé est né point PNG. Maintenant. Nous l'avons en janvier, février, mars, avril, mai, juin, juillet. C'était comme ça. Et puis voici le lac de données de Maybes Bond en janvier, environ 5 000 bébés nés en février quelque part pour diluer, quelque chose comme ça. D'accord. Donc, la plupart des bébés sont nés en novembre puis en juillet. C'est ainsi qu'en regardant ce graphique à barres, nous pouvons connaître cette norme. Quel est le mois où plus grand nombre de bébés naissent et les mois suivants ? juillet. Donc, juillet et numéro, le premier chiffre, puis le second, c'est juillet. Voir ici pour le 7 304 juillet. Maintenant, mon pote 9 800. J'ai commencé le 9 juillet et le numéro 9 800. De cette façon, nous pouvons m' apporter le soutien nécessaire. Je veux changer cette couleur en rouge. Et si je lance ceci, vois maintenant que notre graphique est converti en lecture, n'est-ce pas ? Vous pouvez voir qu'il y a une petite bordure de couleur jaune. Permettez-moi de le changer en vert afin que nous puissions voir qu' il peut être trop tôt ou le nettoyer et le faire fonctionner à nouveau. Ce fichier, tu vois, maintenant il est en train d'être nettoyé. Le Barnard est vert. De cette façon, nous pouvons créer un diagramme à barres ou un graphique à barres en utilisant impair. J'espère donc que c'est clair pour le chiffre et pour le nom, name.org. Je passe ce vecteur m, ce vecteur m et B et je donne un autre vecteur d'entrée principal. Et puis xlab, un mois. Et pourquoi les bébés de laboratoire nés et de couleur rouge peuvent ne pas être rechargés. On tape sur le thème de la naissance du bébé et le biberon est vert. Ensuite, dev.off enregistrera le fichier sur notre machine locale. J'espère donc qu'il est clair comment créer un graphique à barres simple et comment créer ce type de graphique à barres. Nous avons donc vu cela comme si nous l'avions créé. Ensuite, nous avons celui de James à lire, écrire, et nous avons également créé ce graphique à barres simple. De cette façon, nous pouvons créer un graphique à barres, n'est-ce pas ? Rendez-vous lors de la prochaine conférence. 29. Graphique à barres empilée en R: Bonjour et bon retour. Donc, dans cette conférence, nous allons dessiner, visualiser un diagramme à barres très intéressant qui nous donnera une très bonne richesse réelle. Que se passe-t-il dans une organisation comme une trimestrielle facturée par région ? Comment pouvons-nous tracer à l'aide d'un diagramme à barres. C'est ce que nous allons voir. Donc, pour ce faire, ce que j'ai fait, le trimestriel, l'enfant, ce que chaque mois en fait, ce que j'ai fait, j'ai créé une matrice, d'accord ? J'ai donc tous ces revenus que je n'ai pas conservés dans la matrice. J'ai donc créé une matrice avec les recettes pour quatre mois. Premier trimestre, trimestre, deuxième, troisième trimestre, quatrième trimestre, trimestre, deuxième, trimestre, troisième, quatrième trimestre. Donc, ces créneaux se situent tous les trimestres et les quatre trimestres, n'est-ce pas ? Donc, pour chaque trimestre, ce sont les revenus. D'accord ? J'ai donc créé une matrice, et ce que je vais faire, c'est transmettre cette matrice comme donnée d' entrée à notre diagramme à barres. Je passe donc le M ici, puis le chiffre d'affaires total principal. Et puis nommé début par trimestre, je passe le quart. Trimestre. Le trimestre est un vecteur contenant les valeurs Q1, Q2, Q3, Q4. D'accord ? Donc, ces barres L aussi, names.org, puis xlab seront le quart, le nom et les jambes blanches. La faune sera la source de revenus. Puis coloré. Je vais réussir. Un autre vecteur. Les couleurs pour lesquelles je veux dessiner. Le fond sera comme coloré. Une fois dessiné, je vais vous expliquer quatre couleurs. J'ai créé un vecteur et sa valeur est continue, bleu, rose, jaune et vert. Et puis le quart. Et puis ce que j'ai fait, j'ai créé les régions, des régions comme l'est, l' ouest, le sud, le nord. D'accord ? Donc, j'ai aussi OK, et la matrice, quel type a créé quatre lignes et quatre colonnes. Et j'arrange Developed by Rock et je découvre ce que je vais faire pour Legion. J'ajoute également la légende en haut à gauche. Et ce que je suis assez indulgent, je donne à leur région des couleurs pleines de couleurs. région voit cette région au sud, l'est, à l'ouest, au sud et au nord. OK. Et je suis sensible aux couleurs, à chaque couleur également. Oui. OK. Alors laissez-moi d'abord exécuter ceci. Alors voyez ici, c' est la matrice et voyez quel chiffre d'affaires trimestriel. donc ce type de graphique à barres ou de diagramme Nous avons donc ce type de graphique à barres ou de diagramme à barres pour le premier trimestre. C'est le quart TO, c'est le résultat ou le moteur du nouveau quadrat trois ici et du quatrième quart, ce truc ici, ce bleu, ce rose, ce jaune et ce vert pour ces couleurs, j'ai créé un théorème de légende en disant que le bleu est pour la région sud, jaunâtre pour chaque région. Et le vert correspond à la région ouest et non à la région rose. Et le sud est bleu, est-ce que ce jaune est comme ça ? D'accord, donc en regardant ce graphique ou le diagramme à barres, nous pouvons facilement trouver les résultats trimestriels numériques pour chaque région. Sud. Il s'agit du chiffre d'affaires du premier trimestre car, de la même manière, pour le Nord, il s'agit du chiffre d'affaires de l'est. Il s'agit du chiffre d'affaires pour les deuxième, troisième, quatrième et quatrième trimestres comme ça. Il est donc assez facile de trouver et de visualiser des choses à l'aide d'un diagramme à barres, n'est-ce pas ? Et comment nous avons d' abord créé notre vecteur couleur, puis notre vecteur quart, puis les vecteurs de régions, puis les réactifs que j'ai utilisés dans la légende. Et les indicateurs ont été améliorés quatre par quatre. OK. Et ici, je suis en train de créer un fichier PNG trimestriel à points sur les revenus. Et là, je passe le quart, ce trimestre en tant que nom, puis en tant que nouveau, et je remplis les couleurs en contournant le vecteur de couleurs. Ainsi, de cette façon, nous pouvons l'obtenir sur la plaque quelles couches et en utilisant notre diagramme à barres. D'accord ? Vous pouvez donc également jouer avec vos données et essayer de créer un graphique à barres magnifique, beau et coloré. Stevens a cité la conférence suivante. 30. Boxplot en R: Bonjour et bon retour. Dans cette conférence, nous allons donc en apprendre davantage sur le box plot. Le diagramme à cases est une méthode qui permet de représenter graphiquement des groupes de données numériques à travers leurs vignettes silencieuses. Je vais vous dire quels sont ces quartiles ? Il s'agit donc essentiellement d'un fils graphique de données numériques. Regroupez les données numériques comme nous le faisons dans un diagramme à barres et de la même manière. Boxplot est également présent. Mais ici, nous représentons un groupe de données dans une boîte. Ce sera donc tropical, mais ce sera une boîte pendant que vous aimez le graphique à barres. Nous avons des barres de données et regroupons une version bêta. Ici. Nous aurons le laboratoire, la boîte contenant les données de Grubhub et les boxplots permettent de mesurer la distribution des données et de l'ensemble de données. Donc, ce sera comme un quatre majeurs. La question de savoir comment les données seront-elles distribuées dans cet ensemble de données, n'est-ce pas ? Nous verrons donc quand nous dessinerons le boxplot. Permettez-moi de vous dire encore une chose. boxplots mesurent la distribution des données de l'ensemble de données Ils les divisent en trois quartiles. Quels sont donc ces quartiles ? Comme vous pouvez le voir sur cette image, il y a trois quartiles. premier est le quartile un et le quartile deux, et c'est le quartile trois. Et il s'agit de l' intervalle interquartile. Ce graphique représente le minimum, médiane maximale, le premier quartile et le troisième quartile. Donc, cette partie C, c'est la boîte de données SAP, d'accord ? Et ces vents sont des valeurs aberrantes à ce stade, et à ce stade, ils sont de classe, c'est la valeur minimale. Et c'est le maximum d'éblouissement, non ? Et entre cette case et la ligne bleue, voici la médiane. Il s'agit de la médiane de l'ensemble de données. Il s'agit donc de la valeur médiane de l'ensemble de données. Et il s'agit de la valeur minimale et de la valeur maximale de l'ancienne classe . Et cette ligne bleue est la médiane. Et il s'agit de la donnée maximale proche de la médiane. Donc, voici d'autres données utiles en fait. C'est donc un minimum, c'est un maximum. Et voici cette plage d'une année à l'autre, cette donnée interquartile, et celle-ci est connue sous le nom de Q1. Quartile Q1, premier quartile, appelé troisième quartile. Le premier quartile, le troisième quartile et le premier quartile, le bénéficiaire, le percentile et le troisième quartile, ou 75e quartile. Et dans R, nous utilisons la fonction boxplot pour dessiner ou pour dessiner notre box plot. Et de cette façon, fournissez des augmentations similaires, comme des données X, non des noms et du Maine. Alors je vais vous dire ce que sont ces choses ? X est donc un vecteur ou une formule. Donc, ici x est un vecteur de formules. Nous allons donc voir que c'est essentiellement nous conservons Bu, choses à publier qui sont des formules relationnelles sur lesquelles le diagramme va être dessiné. Ensuite, les données, évidemment les données à partir desquelles nous allons tirer cette relation, edX, écrivent la formule x. Voici donc la formule ou relation sur laquelle nous allons dessiner les données et tracer le graphique. Et voici les données, données réelles à partir desquelles nous obtiendrons cette formule ou un vecteur. Et l'encoche est une valeur logique. Défini comme vrai pour ne rien dessiner, vous verrez ce qui ne l'est pas dans un instant. Tout d'abord, laissez-moi vous expliquer ce que cela signifie. Augmente. Qu'est-ce que c'est. Les valeurs logiques définissent S2 pour que la largeur de la boîte soit proportionnelle à la taille de l'échantillon. Donc, si elle est définie dans cette case, la taille de l'eau sera proportionnelle à l'ensemble de données, taille de l'ensemble de données, d'accord ? Donc, si ce n'est pas vrai, ce ne sera pas proportionnel à l'ensemble de données. D'accord ? Vient ensuite le nom. Les noms sont le groupe d'étiquettes qui seront imprimées sous chaque boxplot. Il s'agit donc d'un boxplot. Et pour cela, si vous voulez donner un nom, vous pouvez le donner via l'argument names. Et Maine est évidemment le nom du Graph. D'accord, nous pouvons donc donner le titre du graphique avec la moyenne. Maintenant vient ce qui ne l'est pas. Les encoches sur les côtés du diagramme peuvent être interprétées comme une entreprise puis un intervalle autour de la valeur médiane. Et la hauteur de la médiane stupide des nazis plus ou -1,7 en IQR divisée par la racine carrée de n, où IQR est l' intervalle interquartile. Nous avons vu ce qu'est l'écart interquartile. Il s'agit donc de l' écart interquartile entre le 25e et le 75e percentile. Il s'agit de l' écart interquartile. Donc en gros, c'est la, c'est la valeur n, d'accord ? Où IQR est l' intervalle interquartile défini par les 25e et 75e percentiles. Et Yan est le nombre de points de données dans l'ensemble de données. nombre total de points de données dans l'ensemble de données est N. Et vous pouvez voir ici qu'il s'agit du diagramme cases et de la sortie maximale des valeurs aberrantes. C'est la valeur minimale aberrante, et c'est la valeur médiane, n'est-ce pas ? Et voici le 25e percentile ou Q1, et voici le 75e percentile, c'est-à-dire le Q3. Et cette valeur, cette chose, la neuvième et la non, c'est ce que l' on appelle « pas cette valeur » d' ici à ici, c'est ce qu'on appelle « encoche ». Notch est l' intervalle de confiance de 795 de la médiane. D'accord ? Donc, à partir de la médiane, il s'agit de la médiane et de celle-ci, et cette valeur sera appelée encoche. D'accord ? Donc, lorsque vous mettez « pas égal à vrai », vous pouvez voir cette courbe sur ce truc. Si vous mettez une encoche non égale à deux, vous verrez une ligne droite ici. Cela n'existera pas et n'existera pas. D'accord ? Donc, cette façon de voir ici dans cette encoche est fausse. Vous verrez donc ce boxplot, et si vous mettez une valeur différente de true, vous obtiendrez cette encoche. Eh bien, cela signifie que la plupart des données ici seront proches de la médiane et que ce sera un intervalle très fiable entre les données, proches de la médiane et que ce sera comme la valeur médiane est ceci et ce plus et moins d' entre elles sont moyennes, comme ici. Les points de données concentrés seront proches de la médiane et représenteront ces données réelles, n'est-ce pas ? Nous avons maintenant compréhension de base de ce qu'est un boxplot, ce qu'est un titre discret, de ce que sont les valeurs aberrantes ? Et quel est le quartile minimum et qu'est-ce que le quartile maximum ? Qu'est-ce que l'intervalle interquartile ? Et qu'est-ce que Q1 ? 25e percentile, et Q3 est le 75e quartile, d'accord ? Et c'est la valeur médiane. Nous verrons donc dans la prochaine conférence comment dessiner un boxplot à partir données que nous avons dans notre Estelle Blake. Nous allons utiliser mt cars, Nous allons utiliser mt cars, qui est un véritable ensemble de données disponible dans le package de la voiture ou ADA contenu dans la boîte à outils pour se réinitialiser. Et nous utiliserons cet ensemble de données sur les voitures vides pour dessiner le diagramme en boîte en fonction du MPT et du nombre de cylindres. Je vous verrai donc lors de la prochaine conférence. 31. Boxlot utilisant le jeu de données mtcars: Bonjour et bon retour. Dans cette conférence, nous allons dessiner un diagramme, d'accord ? Et nous allons utiliser un données sur les voitures vides qui est déjà disponible dans notre distribution. Nous savons donc qu'il est nécessaire de télécharger cet ensemble de données. Il est déjà intégré notre environnement ou à notre distribution. Nous pouvons donc l'utiliser directement et essayer de présenter les données relatives aux voitures vides dans un boxplot. D'accord, voyons comment nous pouvons le faire. Alors d'abord, laissez-moi vous montrer ce qu'il y a dans cette boîte. C'est quoi ça dans les voitures vides ? Alors, d'abord, laissez-moi payer pour accéder au Je vais créer une entrée de données et des voitures vides qui sont déjà disponibles à l'intérieur. Odd et un voulait dire. Et ce que je vais faire, c'est essayer de l'exécuter et de voir ce qui s'y trouve. Laisse-moi l'imprimer. Ici. La voiture vide, notre ensemble de données et maladie ayant, comme un ordinateur portable, protège Martha d'exporter le tableau de bord 1017 pour le Dr Riley et l'équipe de recherche de bureau doivent être des villes et toutes ces cartes, détails sont là, comme des kilomètres par gallon. Qu'est-ce que la myéline ? Chaque voiture a des miles par gallon. Et puis le nombre de cylindres, les moteurs du moteur auront le nombre de cylindres, comme 2468, le nombre de cylindres du moteur. Et puis le déplacement, HP. Quels sont le point névralgique et le poids de traînée des voitures ? Tous ces paramètres sont donnés ici dans ces données relatives aux voitures vides. Donc, ce que je vais utiliser, je ne vais pas utiliser l'ensemble de données. Je vais utiliser C, D et E. Je peux obtenir un mile Lee par gallon et le nombre de bouteilles. D'accord. Alors, pour cela, je vais faire ce que je vais faire. D'accord, utilisons donc ces 2 miles par gallon en nombre de bouteilles. D'accord ? Et ce que je vais faire, je vais l'imprimer et ensuite je ferai une énorme tête. Ensuite, je transmets ces entrées de données afin que nous puissions voir ce qui arrive. Laisse-moi lire ces deux lignes et voir. Maintenant, nous prenons en compte les voitures et leur kilométrage, leurs miles par gallon et leur nombre de cylindres. Ils sont en prison. Donc, ces deux informations que je reçois, d'accord, maintenant je vais utiliser cette entrée de données, qui indiquera les miles par gallon et numérotera le cylindre. Et je vais essayer de dessiner notre diagramme. OK, donc, la première chose que je vais faire, créer un fichier PNG pour stocker le graphique un fichier et avoir un fichier énorme égal à Allen qui a donné un nom, comme des voitures vides, box plot, un point PNG. D'accord. Je vais donc donner le nom du fichier sous forme cases vides, de parcelles, de points PNG. Et maintenant, ce que je vais faire, essayer de dessiner le boxplot et pour Diet and Lose Boxplot. Et voici ce que je vais faire, je vais donner deux miles MPG par gallon avec le nombre de bouteilles. D'accord. Donc, je vais dessiner, je vais créer un diagramme à cases entre ces mpg et le nombre de cylindres. D'accord ? Et puis ce que je vais donner, je vais donner des données en fonction de cette entrée de données, nos voitures vides. Je vais donc conserver des données équivalentes à celles des voitures vides. Hein ? Alors. Ce que nous devons garder Ensuite, nous devons obtenir le xlab. Qu'est-ce que cela va être fait ? Que voulons-nous écrire ? Inscrira le nombre de cylindres X Lab. Et pourquoi le laboratoire sera blanc ? Le laboratoire sera à MPG miles par gallon. D'accord. Ensuite, ce que nous garderons, nous garderons le principal égal à mes petites données. Données. Harder donnera des cartes myélinisées. D'accord. Ensuite, nous enregistrerons le fichier. OK, dev.off. D'accord. Donc, ce que nous faisons ici, nous créons un diagramme à cases, mpg et nombre epsilon n pour la voiture, et nous utilisons l'ensemble de données : les voitures vides et l'axe X seront numérotés cylindres et l'axe Y sera en miles par gallon. Et le nom du graphique sera voitures, données de kilométrage. D'accord ? Et laisse-moi m'occuper de ça. D'accord. D'accord. Voici donc notre graphique, le cadre que nous avons dessiné. Il va venir ici. Maintenant, le titre est le nom du graphique contenant les données de kilométrage de la voiture. Et voici le nombre de 468, soit des miles par gallon. Et le diagramme en boîte de données. D'accord ? Donc, de cette façon, nous pouvons dessiner, nous pouvons créer des diagrammes en boîtes. Si tu veux comprendre encore une fois, je te le dirai. Ce que nous avons fait est simple. Nous utilisons des données sur les voitures vides, qui sont déjà disponibles dans notre distribution. Nous n'avons donc pas besoin de les créer ou de les télécharger. Il est déjà intégré à l'environnement. Nous l'utilisons donc, ils prennent ou deux voitures vides, ce qui signifie que nous allons utiliser cet ensemble de données sur les voitures vides, qui contient toutes ces informations sur les voitures, les différentes voitures. Et puis, ce que je fais, utiliser un boxplot et je trace le diagramme entre ce nombre de cylindres et kilométrage par gallon pour chaque voiture. D'accord ? Et j'utilise des données et des pré-compositions. Et pour x, x c'est que j'utilise le numéro Epsilon et le MPG sur l'axe Y, d'accord ? Ensuite, le nom du graphique que je donne à mes données en temps réel, puis j'écris ce fichier en raison de certaines modifications à effectuer lors de mes audits. Je ne suis pas en mesure de voir les parcelles ici. C'est pourquoi j'ai fait ce que j'ai fait. Je l'ai écrit dans le fichier empty car, boxplot point PNG. Et nous pouvons voir le dossier ici. Voici donc le boxplot et voici la médiane. C'est la médiane, non ? Et c'est le point de vente minimum. Et c'est le maximum ou le minimum. Et c'est Adam. Aucune valeur médiane pour le nombre de vendeurs. Donc moteur à quatre cylindres. Mes objectifs ici et le kilométrage médian sont d'environ 26, 27 miles par gallon ou six cylindres. Elle arrive à environ 20, 20 miles par gallon et le nombre de cylindres, si c'est huit, la myéline est d'environ 15 gallons par 15 miles par gallon, n'est-ce pas ? De cette façon, nous pouvons dessiner un boxplot à partir des voitures vides. Rendez-vous lors de la prochaine conférence. 32. Boxplot avec encoche: Bonjour et bon retour. Ainsi, dans la conférence précédente, nous avons vu comment nous pouvons dessiner notre diagramme en utilisant un ensemble de données de voitures vides. Et sur la base de ce nombre, augmentez le cylindre et le kilométrage par gallon. Ainsi, sur la base de ces deux paramètres se trouvent les caractéristiques non paraboliques de cet ensemble de données. Nous avons dessiné le boxplot et nous avons vu à quoi ressemble le boxplot. Donc, voitures, données de kilométrage ici, mpg et cylindre numérique 46 8 miles par gallon. Oui, 15 2025. Et cette ligne noire est la médiane de chaque groupe. D'accord ? Donc des voitures à quatre cylindres, voitures à six cylindres et des voitures à cylindres. Maintenant, nous pouvons en fait dessiner le même diagramme à cases sans. Nous avons donc vu ce qui ne l'est pas. Maintenant. Nous verrons comment ne pas le faire. Si nous mettons un cran appelé vrai, comment ce boxplot changera et que le NADH sera utilisé pour dessiner, comme s'il vous indiquerait comment la médiane de chaque groupe est liée l'une à l'autre, n'est-ce pas ? Comment les médianes correspondent aux différents groupes. OK, alors allons-y. Et nous verrons aussi, nous allons également essayer de mettre des couleurs dans ce graphique pour qu' il soit beau, d'accord ? Et nous allons également essayer de nommer cet axe X. OK, alors allons-y. Donc, tout d'abord, ce que je vais faire, c'est changer ce nom en boxplot width. Non. OK. Et puis ce que je vais faire, je vais simplement dire « pas égal à », désolé, pas égal à vrai ». Et maintenant, laisse-moi m'occuper de ça. Maintenant, laisse-moi y aller. Vous voyez, nous l'avons fait, donc notre graphique était le suivant. Maintenant, lorsque je mets « pas égal à vrai », notre graphique est passé à ceci. Et vous voyez, vous savez, c'est la médiane de chacun des graphiques, n'est-ce pas ? Chacun des ensembles de données sur chacun des groupes, comme quatre cylindres, six cylindres. Et la façon dont ces médianes sont liées est différente l'une de l'autre, façon dont elles correspondent les unes aux autres. Mais regardez la médiane. Comment ces choses pourraient-elles se produire ? Les nazis viendraient pour chacun de ces groupes ? Maintenant, permettez-moi de mettre un peu de couleur dans les dettes. Donc, ce que je vais faire, je vais être énorme. Ensuite, je mets rector et j' entends quel algorithme vous donnez. rouge, vert, jaune. Maintenant, je donne trois couleurs. Rouge, vert, jaune, jaune. Et laisse-moi m'occuper de ça. Permettez-moi de donner un nom au hockey de Maria Callas. Il y aura donc des graphiques et des images différents. Pouvons-nous maintenant avoir différentes couleurs pour différents groupes ou boîtes. Et plus tôt, c'était comme ça, sans couleur et sans couleurs de largeur d'encoche, encoche, de largeur d'encoche. OK. Maintenant, permettez-moi de donner quelques noms ici. OK. Voici donc les kilomètres parcourus. Taux élevé pour les voitures à quatre cylindres, kilométrage est élevé pour les voitures à six cylindres, moyennes, et pour les voitures à cylindres, cette loi donnera les noms haut, moyen et bas. Ainsi, lorsque nous verrons maintenant Boxplot, nous comprendrons qu'il s'agit d'une voiture moyenne élevée, comprendrons qu'il s'agit d'une voiture moyenne et d'une essence à faible kilométrage. D'accord ? Alors c'est cool. Les noms que les hôtels donnent haut, moyen, bas. OK. Laisse-moi exécuter ça. bientôt et maintenant, au lieu de 46,8, nous avons des valeurs élevées, moyennes et basses. Alors on peut le faire comme ça, non ? Et si vous voulez être plus précis, vous pouvez mettre de la porcelaine aussi haut, quelque chose comme ça pour que ce soit plus clair. Excellent, moyen, faible, comme ça. OK. OK. Donc, de cette façon, vous pouvez également le mettre. J'espère donc que vous avez compris comment créer des boxplots. Vous pouvez donc également essayer de vous voir lors de la prochaine conférence. 33. Histogramme et distribution d'histogramme: Bonjour et bon retour. Dans cette conférence, nous allons en apprendre davantage sur les histogrammes. Nous allons donc voir quel est notre histogramme. Nous verrons également les types d'histogrammes et comment nous pouvons utiliser façon dont nous pouvons placer des histogrammes en fonction de nos données lors de notre saison tactique. Bon, nous allons donc voir la partie théorique et nous allons apprendre ce qu'est un histogramme. Alors laisse-moi te dire. Un histogramme n'est pas une présentation appropriée de la distribution des données numériques. Il s'agit donc essentiellement d'un graphique comme un graphique à barres ou un graphique à barres que nous avons vu. Il semblait simplement qu'une sorte de distribution représentait cette distribution de données numériques. Donc, en gros, si vous avez des données numériques, vous pouvez dessiner un graphique ou un Brad et un histogramme est une représentation très appropriée de la distribution des données numériques. Donc, en gros, il est utilisé à quoi ? Les données numériques, et le fait que les données numériques devraient être de nature continue la plupart du temps, été introduites pour la première fois par Karl Pearson. Karl Pearson a donc introduit l'histogramme. Une autre façon de dire histogramme, comme une autre définition de l'histogramme, consiste afficher graphiquement Brita en utilisant des parties de différentes hauteurs. Dans un graphique à barres, nous avons vu le bus mourir de la même manière. L'histogramme est également un affichage graphique des données utilisant des barres de différentes hauteurs. Il est similaire à un graphique à barres ou histogramme qui regroupe les nombres dans des plages. Donc, si vous voyez un graphique à barres, les données ne sont pas regroupées dans une fourchette allant de 10 à 2020 à 30. Cela ne va pas arranger. Il ne regroupera pas les données, mais dans l'histogramme, il regroupera les données dans des plages. Ensuite, il placera le graphique à barres, graphique à barres avec des nombres dans les plages. Le regroupement des nombres dans les plages vous donnera un histogramme. J'espère donc que la situation s'éclaircit. Nous verrons également les images. Nous allons voir la représentation réelle de la différence entre le graphique à barres et l'histogramme. Il est donc bon de noter que ce graphique à barres est associé au regroupement de données numériques en plages, comme si vous aviez des données de 10 à 100. Cela va donc créer les barres. cette manière, il organisera également les données 10-2020 à 30 par groupes. Et cela créera des chemins. Ce sera donc un histogramme, la hauteur de chaque barre vendue, nombre de barres se situant dans cette fourchette. Donc, en gros, cela vous donnera une idée de 10 à 20, combien y a-t-il de chiffres ? Combien de personnes soutiennent ? Si vous considérez le salaire de la population. Donc, il vous dira entre 10 et 20 personnes, combien de personnes y a-t-il ? Combien de personnes y a-t-il comme ça ? D'accord. En créant un soleil historique, la création d'un histogramme fournit une représentation visuelle de la distribution des données. L'histogramme peut afficher une grande quantité de données et la fréquence des valeurs des données. Donc, comme il le fait, il regroupera les données dans des plages. Cela vous donnera donc une fréquence de dix à 20. Combien ? Cela vous donnera donc également la fréquence et prendra en charge une valeur de données particulière. Il vous indiquera combien de fois cela se produit, la fréquence des valeurs des données, la médiane et la distribution des données peuvent être déterminées par votre histogramme. Ainsi, la médiane et la distribution des données peuvent également être déterminées par histogramme. En outre, il peut résoudre toutes les valeurs aberrantes ou les lacunes dans les supports de données. Nous avons les données de 10 à 140 à 50. Nous n'avons aucune valeur. Donc, il vous dira que 40 à 50, il ne vous montrera pas la barre. Donc, avec la représentation graphique, vous pouvez le trouver, d'accord, 40 à 50, nous n' avons aucun employé. Cela vous indiquera donc les lacunes dans les données et vous indiquera également les valeurs aberrantes. Supposons que vous ayez entre 10 et 100, puis que vous ayez une autre barre provenant de 17180. Tous les blocs de données auront donc tendance à atteindre 100 et un autre graphique est loin. Il présente des plages de 171 à 81 à 7180 et une valeur aberrante que nous pouvons facilement identifier en regardant l'histogramme. Donc, l'histogramme, ou un excellent moyen de résoudre ce problème, permet d'obtenir données continues et continues dont je vous ai parlé plus tôt, telles que la taille et le poids, si vous le souhaitez. L'histogramme est donc le mieux adapté à ce type de radar. Alors voilà. Je vais donc simplement vous montrer comment différencier le graphique à barres et les histogrammes. Alors à bientôt dans l' histogramme, il n'y a pas d'écart. C'est une fréquence très continue, comme 468 à 24. Le bar commence à entrer directement. Vous pouvez voir ici la différence entre les histogrammes et les graphiques à barres. Vous pouvez donc voir ici l'histogramme, il est très continu comme ça. Ignorez les espaces entre les barres ici Le graphique à barres que vous pouvez voir vous montre les différents points, comme janvier, février, mars, et il y a un écart entre les barres. C'est donc la principale différence par rapport à un histogramme. Les barres ne comporteront aucun espace entre les barres et le graphique à barres comportera des espaces entre les barres. D'accord ? C'est donc une différence picturale que vous pouvez trouver entre les histogrammes et les graphiques à barres. Maintenant, voici l'histogramme de distribution ou combien de types d' histogrammes existe-t-il ? Distribution normale, vous pouvez la voir comme ceci. Donc, dans une distribution normale, points d'un côté de la moyenne sont susceptibles d'apparaître alors que de l'autre côté des preuves, vous pouvez voir que les données de ce côté, côté gauche et du côté droit sont presque égales, n'est-ce pas ? C'est donc la distribution normale. Et si nous optons pour la distribution bimodale, cela vous placera dans une distribution bimodale. Il y a deux sommets, C-O, il y a un pic et il y a un autre pic. Les données présentent deux pics. Ce sera donc bimodal dans une distribution de données bimodale. Nous avons donc séparé et analysé en tant que distribution normale distincte. Il s'agit donc d'une distribution normale et ce sera une autre distribution normale. Et lorsque deux distributions normales se rejoignent, cela crée une distribution bimodale. Il s'agit de la distribution normale et la distribution bimodale. Le troisième type de distribution ou histogramme est une distribution inclinée vers la droite. Ce qui est une distribution ou un histogramme asymétrique vers la droite, ou une distribution asymétrique vers la droite est également appelée distribution asymétrique positive. Pourquoi est-ce que l'on appelle une distribution asymétrique positive car vous voyez que les valeurs asymétriques viennent du côté droit, zéro à l'infini, n'est-ce pas ? Ce sont donc les valeurs positives. Ainsi, lorsqu'elle est du côté droit, les deux valeurs de poussée sont biaisées. Ce sera ce que nous appelons une distribution biaisée vers la droite. Dans une distribution asymétrique vers la droite, un grand nombre de valeurs de données apparaissent sur le côté gauche, tandis qu'un plus petit nombre de valeurs de données apparaissent sur le côté droit. Vous voyez ici, sur le côté gauche, il y a plus de valeurs de données, et sur le côté droit, le nombre diminue, d'accord ? Bien, il s'agit d'une distribution asymétrique uniforme lorsque les données ont une limite de plage sur le côté gauche de l'histogramme, par exemple limite de G. Et la suivante est une distribution asymétrique vers la gauche. Ici. La distribution asymétrique vers la gauche est également appelée négativement. Pourquoi négativement ? Parce que du côté négatif, cela devient biaisé. Dans une distribution inclinée vers la gauche, ils sont grands. Le nombre de valeurs de données apparaît sur le côté droit. Le nombre augmente donc de gauche à droite. Donc, lorsque nous avançons à droite, le nombre augmente, n'est-ce pas ? Et un nombre inférieur de valeurs de données sur le côté gauche ou sur le côté gauche est inférieur à la valeur sur le côté droit. Plus de valeurs correspond à une distribution asymétrique vers la gauche. Et une distribution asymétrique vers la droite se produit généralement lorsque les données ont une limite de plage. Sur le côté droit de ce diagramme, par exemple limite, par exemple des centaines. D'accord ? Voici donc les quatre types d'histogrammes. La première est la distribution asymétrique vers la gauche, puis nous avons vu la distribution asymétrique vers la droite, puis la distribution bimodale, et puis la première est la distribution normale. Histogramme. Maintenant, êtes-vous juste une fonction hist à la fonction JIST hist pour créer un histogramme. Et il faudra peu de paramètres ou d' arguments pour dessiner un histogramme. OK, donc, qu'est-ce que X ? X est un vecteur de valeurs pour lequel l'histogramme est un graphique. Ce x est donc un vecteur pour lequel nous voulons dessiner l'histogramme, le main, xlab et ylab. Principal. Principal. Main est le titre de l'histogramme, et xlab correspond aux étiquettes des axes, d'accord. Comme la fréquence ou autre chose, si vous voulez faire du port. Et puis x, lima et wildly sont les plages de valeurs X et Y. D'accord ? Et puis casse le vecteur ponctuel du Brexit donnant les points de rupture entre les cellules de l'histogramme en fonction des points de rupture vectoriels informatiques en un seul chiffre donnant les ventes d'un histogramme. D'accord, nous allons voir en détail ce qu'il détaille. Ensuite, il y a le charbon qui est coloré et puis il y a la frontière, vous savez. Dans la prochaine conférence, nous verrons l'exemple de la façon dont nous pouvons utiliser la fonction hist pour dessiner notre histogramme. Nous allons donc dessiner un histogramme en utilisant la fonction de hachage dans la prochaine conférence. 34. Dessiner un histogramme en utilisant la fonction hist: Bonjour et bon retour. Dans cette conférence, nous allons donc écrire notre premier programme d'histogramme. Donc, ce que nous allons faire, créer un vecteur qui contiendra nos données. Ensuite, avec ce vecteur, nous allons créer un histogramme. Nous allons tracer les données sous la forme d'un histogramme. Commençons donc par cela. Donc, ce que j'ai fait, j'ai déjà créé un fichier point R qui est histogramme point R. Et j' ai écrit le code. Je vais donc vous montrer quel est le cours. J'ai donc déjà écrit le code afin que nous puissions gagner du temps à l' écriture, d'accord, et ainsi de suite. Ce que je fais, c'est créer des données vectorielles pour le graphique. Je suis donc en train de créer les données ici. Donc je crée, je crée un vecteur et j'assigne ce vecteur à x. Donc x est un vecteur n contenant des données, lac pour les impressions et 17 000, 3 006 plus un support externe. Les salaires peu nombreux impliquent que je les stocke dans ce vecteur x. Ce vecteur X représente donc nos données et contient le support, le salaire des employés. D'accord ? C'est donc le salaire du propane implicite Tao Qian, comme ça. OK, alors à certaines distances, comme Preppy, 2050 à 60, 20 à 30, 40 P2P comme ça. Bon, maintenant, quelle est la prochaine étape, ce sera exemple d' histogramme très simple. Bon, maintenant nous avons les données. Je veux tracer un histogramme. Donc, ce que je vais faire, créer un fichier image d' histogramme Foster. Je vais donc utiliser la fonction PNG et nous allons donner un fichier égal au point d' histogramme PNG. Ensuite, ce que je vais faire, utiliser la fonction hist que je vous ai expliquée lors de la conférence précédente. Je suis donc en train de créer l'histogramme, d'accord ? Je vais donc utiliser la fonction hist et transmettre ce x. Qu'est-ce que x ? X est la donnée pour laquelle nous allons tracer l'histogramme. D'accord, ces valeurs apparaîtront ici avec X. Donc X est un vecteur de données, des données vectorielles. Ensuite, ce que je donne à xlab est égal au salaire , puis la couleur que je donne vert et la bordure en jaune. Je ne donne donc pas encore trop de paramètres. Je ne transmets pas trop de paramètres. Oui. Seul xlab que je donnerai le salaire, puis la couleur, je donnerai vert et la bordure, je donnerai la Slovaquie. Ensuite, je vais enregistrer ce fichier d'image graphique notre système qui est Depth Point Off. OK, donc avant de partir, laissez-moi définir notre répertoire de travail. Donc, pour faire cela, ce que je vais faire, et pourtant ce que je vais faire, je vais le garder. Accédez à ce répertoire. Et la prochaine chose que je ferai, c'est d'en faire plus. Et pourtant, ce que je vais faire, définir le répertoire de travail. Bon, maintenant je vais enregistrer ce fichier. J'espère donc que les étapes sont assez simples. Je crée un vecteur X avec les données. Ensuite, je vais utiliser la fonction PNG pour créer un fichier image pour l' ensemble de notre graphique afin que nous puissions voir et utiliser. Et puis je l'enregistre dans notre dossier local par Deborah off. OK. Et j'utilise la fonction hist pour réner histogramme avec les données et passant le vecteur X ici , puis le laboratoire X, je donne le nom du salaire et la couleur verte et le troqué sera de couleur jaune. Alors maintenant j'ai enregistré, maintenant je fais ainsi tout ce fichier source. Cliquez sur Source, et c'est fait. Ensuite, je dois aller sur le lecteur D, accéder à notre 20 et voir ici notre pare-feu avec l'histone. Permettez-moi de vérifier le nom du fichier. L'image finale, ce graphique supérieur en PNG. Et s'il l'est aussi, je pense que c'est l'histogramme du nom du fichier PNG. D'accord, c'est ainsi que je vais supprimer tous les autres que j'ai créés plus tôt. Nous avons maintenant l' histogramme de x. Et voici ce que nous sommes en train de créer, je donne le, permettez-moi de supprimer ceci, de supprimer ceci. Laisse-moi relancer le programme. Permettez-moi de le changer en rouge. Et la bordure sera le hockey jaune. Laisse-moi recommencer. Laissez-moi voir si le fichier en général doit voir votre histogramme. Il s'agit du salaire et ici de la fréquence. Et puis voici les fourchettes, entre 10 et 2020 30 030 et 40 040, entre 2050 et 60 000. Vous pouvez maintenant voir à quel point l'histogramme est sombre. Donc, dix à 20 000, combien de personnes sous-entendent essayer de gagner un salaire de 10 à 2123. Vérifions-le avec les données. OK. Alors allons-y , allons-y. 22 ont tendance à 23 ans en 2010, donc 10 en 2012. Et puis nous en avons un autre, vous avez une piste, deux. C'est White qui le fait. OK. Et puis nous avons 20$ ou 2 000 017 000,15 000$. Ce sont donc les trois qui impliquent un tirage malheureusement 10-20. Elle montre donc une tendance à 2 310 à 23 employés. Ainsi, nous diviserons les données en fourchettes et en ferons nos groupes, soit 10 à 23 employés, puis 20 à 32 impliqueront moins de 25 données également. 20 à 31. Ils ont commencé à en voir 20 à 30. Nous avons deux employés. OK. 25 020, 2000. Cela est également vrai. Totalement. Puis 30 à 42. Encore une fois, 30 à 42, 34, t1 et t2 un. D'accord. De 30 à 40, le suivant, c'est 40 à 50, y a qu'un seul employé. Voyons donc pour T2, T4, T5. Et tu vois, c'est plus que parfaitement normal. Donc, 40 à 50, une seule implique que la suivante est la dernière, T2s t Nous avons quatre implications. Voyons cela plus que 5012, puis trois, puis quatre. Nous en avons donc quatre, non ? Tu vois, si tu dois faire confiance à la ville, nous avons quatre suppositions. Ainsi, il regroupera les données et indiquera la fréquence. Par exemple, si vous voyez cela, vous pouvez facilement constater que ce cryptosystème a plus de 50 000 salaires pour des employés ou attire de 10 à 23 employés, 20 à 32 implique et 40 à 50, un seul en prix là-bas qui reçoit un salaire pour le P2P. Ainsi, un histogramme sera dessiné et les données seront regroupées en fonction de la fréquence. D'accord ? Il définira une plage ou une valeur bêta, puis il vous indiquera la fréquence d' occurrence des données dans cette plage. Dix à 23 se produisent, 20 à 32 travailleurs, 30 à 42 travailleurs, 40 à 52 occurrences, puis placez la boîte de Pétri t comme agoniste. Il va donc, ce qu'il fera, regrouper les données en quelques plages, puis il vous indiquera l'occurrence des données dans cette tendance. Donc dix à 20, il y a trois données, 310 à 20 et c'est Jacqueline trois fois. D'accord ? Donc, de cette façon, nous pouvons dire que trois employés sont en train de sécher, malheureusement 10 à 20. C'est donc la signification de Histogram. D'accord. Ensuite, c'est ce que j'ai fait. J'ai pris nos différentes données ici. Je suis ce que j'utilise, 114-567-8910. OK. Donc, la même chose, je donne un graphique de programme embelli à un fichier différent, un point PNG. Et voici ce que j'utilise, x sin x, je passe une année. Seuls les points de données sont différents. Les valeurs des données sont différentes ici. OK. Et assez simple plus tard, 114-567-8910. OK. Ensuite, je l'enregistre dans OK. Laissons cela et voyons ce que nous obtenons. Permettez-moi donc de trouver le premier histogramme ici. Maintenant. Il définit les données. Je préfère zéro à deux. façon dont il définit la plage est de zéro à 22 à 44 à 64 628,8 à dix. Alors g rho 22, combien d'occurrences ? Deux occurrences qui font que G passe de deux à 11, ces deux occurrences sont inférieures à deux, n'est-ce pas ? Donc zéro à deux pour corriger. Ensuite, deux pour un. Donc deux à quatre. Il n'y en a que quatre. Puis quatre à six à quatre à 65,6 pour écrire à nouveau six à 8782, puis 9108 à dix à 9,10. Il divise donc les données en deux plages, de zéro à deux, ou de deux à 44 à 66 à 8,8 à dix. Ensuite, il nous donne la fréquence d'occurrence des données 0-22, deux fois deux à quatre, une fois quatre à six. Prix récurrent, d'accord ? À l'occurrence des valeurs 4 à 6, n'est-ce pas ? Oui, 5.6. Donc, de cette façon également, vous pouvez changer la couleur à partir d'ici. Tu peux le rendre noir. Et sachez que le graphique sera en noir. De cette façon, nous pouvons modifier la couleur de l'histogramme. Je te verrai lors de la prochaine conférence. Nous allons voir d'autres exemples d'histogramme. 35. Utiliser les pauses xlim dans l'histogramme: Bonjour et bon retour. Ainsi, dans la conférence précédente, nous avons vu comment dessiner un histogramme. Nous avons vu deux exemples, deux données différentes. Nous avons donc pris un vecteur. Et puis, dans le deuxième exemple, nous avons pris des données très simples. Maintenant, nous allons apprendre à utiliser break, à utiliser limit, y, limit et break bonds, bonds, ces trois paramètres de la fonction hist pour dessiner un histogramme avec break et x limit. OK, j'ai donc écrit le code. Donc, tout d'abord, je vais utiliser le même vecteur où nous avons la subtilité de vos stores lisant depuis l'origine préimprimée jusqu'à 60 000. Je suis donc en train de créer un vecteur x comme nous l'avons fait dans la conférence précédente. Ensuite, je crée un fichier de destination dans lequel je stocke cet histogramme. J'utilise les fonctions p et g et je donne enfin Mises à Brex point PNG To avec Brex point PNG. Ce sera le nom final qui sera créé dans le nom du fichier qui sera créé sur lequel sera placé notre diagramme, notre histogramme sera dessiné, d'accord, et puis ici, avec la fonction hist, je suis en train de créer l'histogramme. Je passe donc le vecteur x ici au niveau des données. Et puis je donne le nom à xlab pour ajouter du poids et de la couleur. Je donne du bleu, passe la bordure. Je vais donner ce vert. Et puis je donne X limit. Ici, j'utilise un excellent argument. Les limites X. Pour l'axe X, je donne la limite de zéro à 40 000. Et voyez que nos données contiennent des valeurs de tolérance de 15 à 60. Les données vont au-delà pour t, mais je fais une boucle, limitant les valeurs de l'axe X à zéro à 40 000. D'accord ? Et pourquoi le membre est GTO à dix. OK, tant mieux, pourquoi l'axe Y sera la fréquence d'occurrence des données, par exemple de zéro à dix ou zéro à 20, peu importe ce que nous créons. Notre ouverture implique un salaire nul de 0 à 2020 à 30 ou de 30 à 40 ans, comme ça. D'accord. Pour que je soulève un orteil. Donc, j'utilise un autre paramètre ici, pauses égales à deux. Alors laissez-moi d'abord en faire un. D'accord ? Donc, ce que je fais, c'est donner au Brexit l'équivalent d'un. Nous verrons quel impact ce Brexit égal à un a sur notre histogramme. Ensuite, je sauvegarde le fichier. L'histogramme qui sera généré enregistrera dessus son orteil avec un fichier PNG Brex Dot pour l'enregistrer sur notre local, en les voyant utiliser db point off. Avec cela, il sera enregistré sur notre machine. Voici donc le code, un simple code d'une ligne auquel nous transmettons certains paramètres à l' aide de briques. Affaiblir. Xlim, xlim limite les valeurs de données sur l'axe X, les limites y pour l' axe Y et break comprendront quand j'exécuterai ce code. Vous comprendrez donc mieux lorsque vous verrez le résultat. Et grâce à cette visualisation, nous comprendrons ce que fait réellement le Brexit. D'accord ? Alors laissez-moi exécuter cette source, maintenez Source, cliquez sur la source et ce sera ainsi, laissez-moi ouvrir les fichiers de sortie. En voici donc deux avec le dossier Brexit qui a été créé. Laisse-le s'ouvrir. Maintenant, le dossier, nos chiffres historiques. Vous verrez donc ici, puisque j'ai accordé des pauses égales à une, nous ne voyons qu' une seule grande barre, n'est-ce pas ? De zéro à 40, et cela montre que 0,248 employeurs essaient de gagner un salaire compris entre 40 et 40. Laisse-moi vérifier ça. Voyez ici, nous avons un total de 10,12 3456, 1234, 5670, 2408. Mais nous avons une liste, 702, 40, je suppose 123 456,7. Tous les autres ont plus de 40 ans, non ? 1234. Bon, maintenant nous pouvons voir ce graphique. Permettez-moi de remplacer les briques par deux. Alors maintenant, vous verrez qu'il y aura deux partitions. D'accord ? Alors laissez-moi, fois le fichier à nouveau, voir que nous avons maintenant de zéro à 40. Le salaire de 40 a été divisé en deux parties, zéro à 20,22, 40, puis 42 statuts affichés séparément, n'est-ce pas ? L'ensemble de données a donc été divisé en trois, mais de zéro à 40 depuis lors. Depuis, nous avons commencé de zéro à 40. Ainsi, zéro à 40 données, zéro à 40 données ont été divisées en deux parties. Cheeto à 20,0 à 60, c, zéro à 20,0 à 22 400, 220,02, 400 223,22, 44 données et 40 à 65. D'accord. Alors laissez-moi vous montrer la différence. Si je mets t à zéro ici, que se passera-t-il ? Les données de zéro à 60 seront divisées en deux parties. Permettez-moi donc d'ouvrir à nouveau le fichier. Maintenant, la valeur G allant de 0 à 60 a été divisée en trois parties parce que nous ne disposons pas de données autres que celles relatives à la sécurité. Il ne montre pas l'autre, mais une dette Web de zéro à 60 %. Nous avons des données. Les données de toxicité de Quito ont donc été divisées en trois parties. Donc, à cette étape, ce qui se brise fait donc x lim zéro à 60. Si j'atteins 50 ans, que se passera-t-il ? Les données de zéro à 50 seront divisées en deux parties. OK, laisse-moi m'occuper de ça. Vous avez donc vu que c'était possible, laissez-moi cliquer sur Source et laissez-moi accéder au fichier et l'ouvrir à nouveau. Maintenant, les quelques données préliminaires de J22 ont été divisées en trois parties. D'accord. J'ai compris. De zéro à 2020 à 40, puis de 40 à 60 ans , n'est-ce pas ? Il s'affiche donc jusqu'à 50. D'accord. Si j'arrive à trois, que se passera-t-il ? Voyons voir. Laisse-moi l'ouvrir à nouveau. Nous vous attendons à 2020 entre 40,40 et 60 ans. Laissez-moi. Continuons à expérimenter. Si j'en fais quatre, que se passera-t-il ? Vous voyez, maintenant, cela montre 10 à 2020 à 30, 30 à 40, 40 à 50, puis 50 à 60 seront séparés. Les données 12340250 ont donc été divisées en quatre, n'est-ce pas ? C'est ce que nous avons demandé pour la R2P, nous la divisons donc en quatre. Si je réduis à zéro la supposition 32, 30 000 données seront divisées en quatre parties. Permettez-moi donc d'ouvrir à nouveau le fichier. 10 h 20 à 30 h 30, parce que nous n'avons pas beaucoup de données, n'est-ce pas ? Ainsi, 10 à 30 ans, puis 30 ans et au-delà, ont été divisés. Parce que si je le fais aussi, voyons voir. 30 données ont été divisées en deux parties. Le premier est 2020, puis 20 à 40 et au-delà, n'est-ce pas ? Alors laisse-moi faire mon portrait comme G, rien à T et laisse-moi le faire et le voir. La sortie. La sécurité de la porte A2 a été divisée en 1234 parties. Permettez-moi d'ouvrir à nouveau le fichier pour voir les fichiers objets C et G, zéro à 6110 à 2020 à 30, 30 à 40, de 40 à 50 à 60. OK, donc voici ce que nous faisons avec les pauses. D'accord ? C'est donc ce que x Lim et foldly taupes. Vous pouvez donc Notre PDG, tandis que l'image le fait, c' est restreindre la fréquence de l'axe Y à zéro à dix. Supposons donc que si je change cela, si je le modifie pour ne soutenir que vos six seuls membres, que se passera-t-il ? Permettez-moi de lancer ceci et d' ouvrir le fichier actuel. Vous voyez maintenant que nous voyons une fréquence de zéro à six. D'accord ? De cette façon, nous pouvons restreindre l'axe X et l' axe Y où le xylème est largement supporté. Si j'y arrive, pour ce qui va se passer. Il est bon d'expérimenter avec le code pour voir le résultat. Et lorsque vous verrez la sortie, vous saurez quelle est l'utilisation réelle du paramètre C. Vous obtenez deux pour, un petit car c'est bon. Si je crée des supports, je le ferai de zéro à deux. Que va-t-il se passer ? Maintenant, je change l' axe Y, la fréquence. Je vais voir, tu sais, ça se passe comme celui-ci. La fréquence allélique, l'occurrence totale, va bien. De cette façon, nous pouvons jouer avec le code dans n'importe quel langage de programmation, bit R ou Python ou quoi que ce soit d'autre. Si vous voulez apprendre, vous devez commencer à jouer avec le code et commencer à jouer avec les paramètres. Et si vous modifiez le paramètre, vous verrez l' impact exact de ce paramètre. Dans ce sens, vous apprendrez mieux et vous aurez les implications, l' impact exact de cet argument particulier, paramètre particulier dans une fonction particulière. Comme dans sa fonction, nous savons ce qu'est x, qu'est-ce que x lab, qu'est-ce que la couleur, qu'est-ce que la bordure ? Qu'est-ce que x Lim. Nous avons vu l' impact de We xlim sur l'histogramme, l' impact du paramètre Wild Limb sur l'histogramme et l'impact des briques sur l'histogramme. Ainsi, lorsque vous expérimentez, lorsque vous jouez avec le code et ses données, vous obtenez de meilleures informations et une meilleure compréhension du code. J'espère donc que vous avez compris ce qui est lié à l'X, à l'Y et aux ruptures et leur impact sur notre histogramme. Alors, à bientôt lors de la prochaine conférence. 36. Tableau des lignes de base pour les séries chronologiques avec ggplot2: Bonjour et bon retour. Dans la conférence précédente, nous avons donc vu comment dessiner un histogramme. Nous passons maintenant à un graphique très intéressant. Vous pouvez consulter notre graphique linéaire de base. Et c'est très important car cela le sera lorsque vous en apprendrez davantage sur les séries chronologiques ou problèmes liés à votre parcours dans le domaine de la science des données. Et voici, dans cette conférence, nous allons voir comment nous pouvons dessiner un graphique linéaire simple pour nos séries chronologiques en utilisant le diagramme GG, qui est un package en R. Alors, que nous pouvons dessiner un graphique linéaire simple pour nos séries chronologiques en utilisant le diagramme GG, s'est-il passé depuis ? Tout d'abord, nous devons comprendre cela. Permettez-moi donc de vous présenter les définitions de base très basiques de Wikipédia sur les séries chronologiques. Une série chronologique est une série de points de données. Ainsi, en gros, les points de données indexés de vos tâches sur CD sont listés ou saisis. Il peut donc s'agir d'une indexation de la série de points de données, ou il peut s'agir d'une série de points de données remontant, ou il peut s'agir d'une série de représentations graphiques de points de données dans l'ordre temporel. Cela peut donc être tout sauf notre ordre du temps. Il s'agit donc d'une série de points de données indexés par ordre chronologique. Cela signifie que les points de données sont basés sur le temps doivent donc être construits dans le temps. Ainsi, lorsque nous avons des données basées sur, qui sont basées sur l'heure d'une période ou d'une période donnée dans Teach, sur la base du temps, cette série est une Brita. Lorsque nous traçons, nous pouvons obtenir un diagramme de série chronologique. agit donc du Lee le plus courant, ou des séries chronologiques et des séquences prises à un moment successif et régulièrement espacé. Qu'est-ce que cela signifie ? Cela signifie que les séries chronologiques sont une séquence que nous avons verrouillée, n'est-ce pas ? Séries chronologiques ou séquences de points de données indexées par ordre chronologique. Et le plus souvent , les séries chronologiques sont séquences prises lors de rendez-vous successifs et régulièrement espacés. Supposons que sur notre chronologie, nous prenions des points successifs et régulièrement espacés entre 2 h 20 et 4 h, puis nous prendrons zéro à 3 h, puis trois à 6 h 32, 9 h 9 à 12. Succès précoce, deux points également espacés, comme trois, intervalle de 3 h, nous prenons. Ce sera donc une donnée de 0,326, 6299 à 12, comme ça. OK. Je donne donc un exemple. Ce n'est pas exactement ce qu'il faut. Mais vous pouvez comprendre quelle chronologie, zéro à 24 heures et peu de choses se passent à chaque seconde, à chaque minute, n'est-ce pas ? Ainsi, lorsque nous documentons ces points de données, comme sur un objet quatre étoiles, il s' agit des données de la deuxième heure. Voici les données sur le tada. Ce sont les données. Ainsi, lorsque nous définissons ces données successivement à égale distance dans le temps, cela vous donnera la série chronologique, séquence de séries chronologiques. Il s'agit donc d'une séquence de données temporelles discrètes. Ce n'est pas continu, c'est de nature discrète, car nous prenons des points temporels également espacés à partir de ces données. Nous faisons donc une distinction. Voilà donc la définition. Maintenant, ce que nous allons faire, c'est essayer de comprendre cela en le traçant. Lorsque nous tracerons, nous en saurons plus à ce sujet. OK, donc avant de tracer, nous avons demandé d'installer la bibliothèque GG plot two, afin que vous puissiez accéder au package et installer ce GG plot two. D'accord ? Donc, pour cela, nous avons besoin Library GG Plot 2 et du joueur, d'accord ? Ces deux bibliothèques sont donc nécessaires. Ensuite, ce que nous ferons, nous créerons des données factices. Donc, ce que je vais faire, créer un DataFrame qui contiendra le jour. Ils seront agités comme des points. Cela signifie qu'il faudra des données dans ce format, comme un total de 15 pour la première génération. Et ensuite, ce que je vais faire, est aussi passer d'ici à zéro. Effectuez des recherches jusqu'à 4 minutes, 365 jours. Donc, d'ici à 365 jours, chaque jour comme première génération, puis le 31 décembre 2014 comme ça, je vais prendre de trois à cinq jours. Et pour une date précise à laquelle je prends la valeur, j'utilise la fonction runif. Vous savez, qu'est-ce que c'est exécuter une fonction exécutant Fox et elle créera ce qu'elle va faire. Cela créera une séquence de nombres droits, 4365. Cela va donc créer une séquence de chiffres. Alors, à quoi vont servir les fonctions en cours d'exécution ? Il génère les écarts aléatoires d' une distribution uniforme et s'écrit sous la forme runif. Donc, ce qu'il fera, c'est qu'il générera facilement le nombre n de nombres aléatoires qu'il affichera. Donc, ce que nous faisons ici pour créer de la valeur, c'est générer des recherches sur des initiatives visant à effacer des chiffres aléatoires pour chaque jour. Nous allons donc attribuer le premier numéro de générateur aléatoire à ce jour, un, comme celui-ci. Et puis le deuxième numéro généré aléatoirement sera attribué à la deuxième date. D'accord ? Nous ne sommes donc pas simplement, nous utilisons uniquement les nombres générés aléatoirement à partir de cette fonction standard. D'accord ? Mais nous ajoutons également à cela que nous sommes également une séquence génétique comprise entre moins 142 et 40. Et cette séquence, nous sommes ce que nous faisons. Nous prenons la racine carrée de cela , puis nous divisons par ces 10 000. D'accord ? Donc, en gros, nous voulons le résultat. Nous ajouterons à ce que nous obtenons de cette fonction runif. D'accord ? Runif donnera donc les écarts aléatoires et une distribution uniforme. D'accord ? Donc, ce que nous en retirons jusqu'à ce jour, le jour et la valeur que nous allons stocker dans ce DataFrame, nous créons un DataFrame qui contiendra deux valeurs, t et une valeur particulière provenant de ces deux fonctions que nous obtiendrons, nous verrons comment nous en sommes, quelles sont les valeurs que nous obtenons, d'accord ? Ensuite, ce que nous ferons, c'est simplement imprimer les données pour vous montrer quelles données nous obtenons. Ensuite, avec ces données DataFrame, ce que je vais faire, c'est utiliser le diagramme GG pour tracer ces données. Je vais donc transmettre cette trame de données. Et puis ce que cela fera, je vais fournir l'axe x comme valeur et l'axe y comme valeur. Plus. Je vais utiliser la ligne de géométrie, la fonction 2, puis les valeurs xlab, d'accord ? Ensuite, j'imprimerai l'impression, j'imprimerai le produit. OK. Ensuite, ce que je vais faire, ce que cette fonction de ligne géométrique va faire ici. Vous pouvez voir ce que feront vos polices Zoom Nine. Il reliera les points dans l'ordre de la variable sur l'axe X et G. Et en fait, il créera de la poussière, comme un diagramme de marche d'escalier. Ok, donc en gros, ce qu' il va faire, c' est joindre les points et créer le graphique. D'accord ? Nous allons donc utiliser ici quelques symboles tels que le pourcentage, d est d comme un nombre compris entre zéro et 31. Le pourcentage sera créé sous la forme d'un pourcentage de jour de semaine en majuscule, comme un jour de semaine abrégé, comme le lundi. Et ce seront des bouleversements et des pourcentages de malheurs. mois de zéro à 12 et présentés par b et B majuscule seront abrégés et un mois abrégé comme janvier sera abrégé et le mois de janvier complet ne sera pas aggravé. Ensuite, le pourcentage Y et pourcentage de capital Y seront des outils, pourcentage de vitamines à deux chiffres encore, et les pourcentages en majuscule Y seront encore à quatre chiffres. D'accord ? C'est donc l'abréviation de base que nous allons utiliser. Allons donc dans RStudio et essayons d'exécuter ce code. Nous utilisons donc GG Plot et la bibliothèque de joueurs ici. Et puis, ce que je fais ici, c'est utiliser des données. Je suis en train de créer un DataFrame ici, des données factices avec un acétate similaire. Ensuite, nous créons une valeur aléatoire en utilisant ce runif et cette séquence. Ensuite, j'imprime tout ce que nous obtenons de la fonction runif pour vous montrer ce que nous obtenons de la fonction runif et ce que nous obtenons sous forme de données. D'accord ? Alors laissez-moi exécuter ce code ici. D'accord ? Alors laisse-moi courir cette queue ici. Alors maintenant, je vais vous montrer ce que nous obtenons. D'accord ? Donc, voyez ici, pour la fonction runif, nous obtenons cette valeur, d'accord, 0,3, 44,4. Comme ça, il va générer 365. Vents. OK, et puis pour les données que nous obtenons, d, comme le 1er janvier, John, total et intermédiaire, nous obtenons cette valeur. OK. Et puis, pour les protéines du 31, du 3 et du 4 décembre, nous obtenons ces données et cette valeur dans notre base de données. Maintenant, ce que je vais faire, transmettre la trame de données au graphique GG , puis quitter l'appel aujourd'hui Y égal à la valeur. Et je vais utiliser la ligne de géométrie pour tracer les données , puis ce qui s'y trouvera ou ce que j'utilise ici. J'utilise l'échelle d' écart moyen, soulignement, la date de soulignement. Et ici, je donne les niveaux d' endettement x contre, d' accord ? Alors laissez-moi exécuter l'ensemble du code. Cliquez sur la source et regardez le graphique ici. Alors laisse-moi imprimer le sol. Voir ici. Nous obtenons maintenant des données chronologiques pour janvier 2014, 2014, juillet 2014, octobre 2014 et janvier 2015. OK. Et si je le lance, nous arriverons à abréger janvier et juillet en n. Ensuite, ça se passera comme ça. Si j'utilise un Y, un b, un petit b et un d majuscules , ce que nous obtenons, nous aurons l' année complète, comme 2014, puis Jan One fait une tournée avec 14 vêtements, un comme celui-ci. OK. Et c'est la semaine, non ? Il vous indiquera donc les semaines, les dernières semaines. 13e, semaine, 26e, semaine 3093, et ainsi de suite. OK. S' il s'agit d'une immense montagne, pourquoi nous donnera-t-elle un mois, pourquoi ? Month et YC. janvier si lamentable 14 approbations pour une telle protéine tunnel. C'est donc ici que nous voyons le mois sur l'axe des abscisses. Ici, nous voyons la montagne ensemble. Nous en percevons la valeur particulière à ce moment-là. D'accord ? C'est ainsi que nous pouvons dessiner une série chronologique simple. Ici. Nous pouvons légèrement modifier cela. Et ici, j'utilise SLB, notre bibliothèque d'équipes dans laquelle vous pouvez, si vous n'en avez pas, accéder aux packages, cliquer sur Package, cliquer sur Installer et vous pouvez l'installer, puis vous pouvez l'utiliser. J'utilise donc les mêmes données que celles que nous avons créées précédemment. Tout à l'heure. Et voici ce que je fais, tout, j'utilise le thème dans la lignée des géométries. Je fournis la couleur en vert. Hésiode est la ligne noire. Pour l'instant, je le change en vert. Donc, voici la ligne géométrique, je vais fournir de la couleur, la couleur verte. Ce graphique sera donc de couleur verte. Et puis Theme Underscore Ipsum, j'utilise Blast pour l'équipe. Ce que l'on me donne x dx t point x élément point TXT, soulignement t Angle réel. J'en donne 45 et je n'en donne qu'un. Donc, ce que fera cet angle 45, c'est qu'il fera pivoter ce graphique à 45 degrés. Alors laissez-moi exécuter tout ce code. Voir ici. Maintenant, le graphique se présente comme suit. Et les 45 degrés, donc il est converti à 45 degrés. Donc, de cette façon, nous pouvons utiliser cet angle égal à 45 avant supposer t. Voyons quelle différence nous obtenons. Un artiste qui change légèrement. Permettez-moi de le modifier pour qu'il supporte 160. Tu vois une différence si je mets 45 ? Et maintenant je vais le changer. Décès 145. Voyons si nous faisons une différence. Maintenant, ça arrive janvier 2020, octobre 2019. Comme ça. Le graphique change de taux. Si je le fais 45. Ça arrive comme ça. Et quand je le fais , supposons à 90 degrés, cela arrivera différemment. Ça l'est. Cette représentation est en train de changer, n'est-ce pas ? janvier. Ça, ce truc est en train de changer, non ? Si j'arrive à dix degrés. Et si je trace et que je vois comment peu importe ce que nous écrivons ici, janvier 2019, cet angle est en train de changer, n'est-ce pas ? Si j'y arrive, supposons qu'il voie du TDD, voyons comment cette sexospécificité ne changera pas. Permettez-moi d'en faire une entité. Lorsque vous jouez avec les données, continuez. Pouvez-vous nous aider à comprendre ce qui est réellement différent ? Tu fais les choses correctement. L'oreille. C'est comme à la mi-janvier 2019. Elle s'affiche maintenant sous la forme d'une image miroir de janvier 2019. Voilà donc la différence. OK. Donc, de cette façon, nous pouvons atteindre ce niveau, d'accord ? Donc, orientation par niveau sur l'axe X, chaînes de week-end comme celle-ci, d'accord ? Si vous mettez 90 degrés , vous obtiendrez un degré informatique. J'espère donc que vous comprenez maintenant à quel point cet angle est différent, n'est-ce pas ? Il est maintenant à 90 degrés. Ainsi, nous pouvons utiliser les textes des éléments et modifier l'orientation des textes, comme en janvier, comme celui-ci. D'accord ? Donc, de cette façon, nous pouvons le faire. 37. matrices de tracé et de tracé dans R: Bonjour et bon retour. Dans cette conférence, nous allons en apprendre davantage sur le nuage de points. Alors, qu'est-ce qu'un scatterplot ? Un nuage de points est un type de diagramme. Notre diagramme mathématique utilisant des coordonnées cartésiennes pour afficher des valeurs, qu'est-ce qui correspond le mieux à deux variables ? Cela signifie donc que c'est simple. Si vous prenez notre plan x, y, nous devons placer des points sur le plan, x et y, x, virgule et y, point y, nous devons tracer pour ne pas tracer de lignes, soit sûr ou quoi que ce soit d'autre, mais seuls les points sur lesquels nous allons porter soutiennent le Majlis et le nombre de cylindres, etc. Cylindre. Le nombre epsilon sur l'axe des abscisses et ma légende sur l'axe des Y. Ce sera donc comme quatre virgules. Le nombre de cylindres est de quatre et la myéline triple encore de quatre. Inscrivez votre empreinte d'un point sur le plan cartésien que nous allons placer. C'est donc une question assez simple. Si les points sont codés, l'un d'entre eux, toujours valable, peut être affiché. OK, donc, ce que je vais faire ici, c'est dessiner un ensemble de données composé de voitures vides, savoir les données d'entrée. Set. Nous avons déjà utilisé notre niveau dans nos exemples précédents. Je vais donc utiliser un ensemble de données sur les voitures vides qui est facilement disponible dans notre environnement. Alors quelles voitures vides, il y aura le laboratoire de l' OMS. Il contiendra des données concernant les voitures, comme le numéro epsilon, myéline noire, le poids de la voiture et d'autres choses. OK, donc à partir de cet ensemble de données, ce que je vais faire, je vais choisir le nombre de cylindres et la myéline, c'est-à-dire le nombre de cylindres et le Majlis du coût particulier que je vais récupérer à partir de cet ensemble de données. J'utilise donc recta. Voir myéline cylindrique. Myéline, ça veut dire myéline cylindrique. Et je le range dans cet objet. D'accord ? Donc, si je lance ces deux-là, qu'est-ce que je vais obtenir ici ? Je reçois donc des informations sur diverses voitures comme Mazda, Datsun, et je reçois le numéro epsilon, soit six, pour l'exportation de formaldéhyde. Et le kilométrage est égal à un. De la même manière, Lotus Europa, numéro epsilon, c' est-à-dire nourriture et myéline, est 34 pour Bandera. C'est un cylindre, et la myéline est à localiser, tandis que le nombre de cylindres de Woof 142 est de quatre et la myéline est de 21. De cette façon, nous obtenons les histoires de nombreuses voitures, différentes voitures et de leur kilométrage. D'accord. Maintenant, ce que je vais faire, créer un nuage montrant les dieux, puis ma liste. Donc, pour cela, ce que j'utilise, une fonction PNG et je donne le nom du fichier scatterplot sous forme de point de liste PNG. Ensuite, j'utilise la fonction de tracé. fonction de tracé simple sera utilisée pour dessiner ce nuage de points. Et pourtant, je fournis ce x égal à l'entrée. Donc x est essentiellement le vecteur d'entrée. Vous obtenez donc x égal à ce que je fournis. Je fournis l'entrée sous forme de nombre de cylindres. Les axes X, x seront les cylindres d'entrée. Cela signifie que je reçois le nombre de cylindres, d'accord ? Et l'axe Y sera important. entrée Mpg dollar mpg signifie que je reçois ces données MPG, mpg. Voici donc ma liste L'axe X sera le nombre de cylindres et l'axe Y sera le kilométrage, miles par gallon. D'accord. Et xlab, je donne le niveau de l'axe X à l'axe X. On me donne le numéro du cylindre parce que j'y mets le nombre de cylindres. Et pour l'axe Y, je donne le nom de myéline et la limite x, je donne quatre à huit parce que le nombre de cylindres se lit entre 4 et 8 ou dix. D'accord ? Je donne donc quatre à huit pour la limite de l'axe X. Et la limite sur l'axe Y, je donne 10 à 35. D'accord ? Et pour le nom du graphe ou du nuage de points, je donne le numéro, cylindre, ou inconscient. Mon laser a coûté, d'accord. Et puis j'utilise Keep Dark or Off pour sauver le combat. C'est donc assez clair ici. Maintenant, enregistrons ce fichier et utilisons ce nom comme voitures vides. Ca va faire du cylindre moins, d'accord. Et puis enregistrez-le. OK, maintenant allons-y. Exécutons donc ce fichier source. Maintenant, il est couronné de succès plus tard. Maintenant, voyez que le fichier de sortie doit être dispersé, tracez ma liste de produits. Alors voyez quel nom nous avons donné. On nous donne le point de kilométrage au format PNG. Voici donc l'intrigue. D'accord ? Donc, vous voyez, le nom de l'équipe de nuages de points est le nombre de cylindres pour cette myéline et cet axe x, je suis en train de coudre un cylindre dont chacun 45678 et l'axe Y sont de la myéline, 10, 152-025-3035. D'accord ? Et ici, pour chaque point, supposons que c'est le point. Ce point concerne le nombre epsilon, c'est-à-dire quatre, car la valeur de l'axe x est quatre et valeur de l'axe y se situe autour de 21 ou 22. Donc quatre cylindres et un cylindre myélogène Frontier 14 , un autre point, 4,23 ou 2023, puis 2044, virgule 24, puis quatre virgules 26, 27, comme ça pour environ 30143034 virgule quatre. Donc, le nombre de cylindres pour, et voici les kilomètres parcourus pour les voitures à quatre cylindres. Et à bientôt sous la forme d'un point, x virgule y point sur ce plan cartésien dans le plan bidimensionnel x-y. Et nous ajoutons les points, comme le numéro quatre du cylindre et mon 21 points religieux, quelque chose comme ça, d'accord ? De la même manière, l'axe X six signifie le nombre de cylindres, six pointant ce chiffre six. Les voitures qui n'ont pas de cylindres en ont six étaient équipées d'une telle gaine de myéline. Cette myéline ressemble à une empreinte, 16171516 à 2021. Nous pouvons donc savoir que les pare-cylindres à six cylindres commencent à réduire le kilométrage par rapport aux voitures à quatre cylindres et sont utilisés par les voitures à vérins à air. Ce sont mes lentilles pour cette boucle. Les voitures à huit cylindres produisent donc le plus faible taux de myéline. La meilleure myéline est donc donner à Garza le nombre de cylindres, quatre puis six greens. Avec ce diagramme de dispersion, nous pouvons en venir à la conclusion que le nombre de cylindres détermine le kilométrage de la voiture, moins le nombre de cylindres dans la voiture sera élevé, plus la myéline sera importante. Cela signifie que si le nombre de cylindres augmente, le kilométrage diminue. La saisie pour le kilométrage est plus de six myélines, ce qui réduit. Le nombre de cylindres s'élève à huit. La quantité de myéline diminue encore et est plus faible parmi les voitures à 46,8 cylindres. Donc numéro a, la gaine de myéline. Inversement proportionnel au nombre de cylindres, le nombre de cylindres dans le moteur de la voiture est inférieur, kilométrage sera plus et le nombre de cylindres de la voiture sera plus élevé, kilométrage sera moindre. D'accord ? Donc, avec ce type de nuage de points, nous pouvons facilement arriver à la conclusion en regardant simplement le graphique, d'accord ? Et c'est l'un des graphiques les plus simples que vous puissiez voir et il est assez facile à analyser et à obtenir les détails à partir du graphique lui-même. Ensuite, je vais simplement donner le nom du fichier sous forme voitures vides et parler de dispersion , de crépuscule ou de matelas. Donc, ce que je vais faire ici, utiliser la fonction paire dans R. Et avec cette fonction paire nous pouvons placer des matelas comme des matelas en haut du classement. Et comment pouvons-nous y parvenir ? Nous pouvons prendre les points de données de l'ensemble de données sur les voitures vides. Et quel que soit le taux. Kilométrage par cylindre de cylindrée de gallon. À partir de cet ensemble de données, les données sur les voitures vides, j'obtiens des données égales à m préfabriquées, cela signifie que nous utilisons cet ensemble de données sur les voitures vides. À partir de là, nous utilisons ces quatre variables réparties en quatre colonnes, comme Wait, MPG, miles par gallon, cylindrée et nombre de cylindres. Et colonne F4. Ces quatre paramètres seront utilisés pour créer des graphiques, comme le poids sera pris et le diagramme de dispersion sera dessiné en fonction du poids. Et ma liste, poids et déplacement, poids et nombre epsilon. De la même manière, myéline sera prise et puis les graphiques ne seront pas comme Mileage Plus poids moins, plus cylindrée, puis cylindre Mileage Plus. Donc, le kilométrage par rapport au cylindre, le kilométrage par rapport à la cylindrée, le kilométrage par rapport au poids. Ainsi, une variable sera prise et le graphique sera dessiné par rapport aux trois variables. Ici, je donne le nom de matrice de nuage de points aux voitures vides . Permettez-moi donc d'abord de recommander le principal. Et d'abord, je vais utiliser, je vais commencer par le plus simple. Je vais juste essayer de dessiner le député. Ma liste était ce diagramme d' Epsilon numérique que nous avons dessiné ici sans paire. Donc, ce que je vais faire, c'est essayer de dessiner une bière brune uniquement en utilisant du MPG et un cylindre. Et voyons quelle sera la sortie. D'accord ? Alors exécutons-le. Et le nom de fichier est ce C ici. À bientôt. Donc, le même résultat. Mais voici ce que nous voyons, nous le voyons sous forme matricielle. Donc, le voici, il lance des miles MPG par gallon et le numéro de nage epsilon doc. Vous pouvez donc voir ici MPG miles par gallon et ici le nombre de bouteilles. Vous pouvez donc avoir 46,8 comme chiffre epsilon pour toutes les voitures à quatre cylindres. Ils sont regroupés ici pour distances respectives ou soignent la myéline à quatre cylindres ici, puis la myélite à six cylindres, et maintenant c'est ma liste de cylindres. Donc, si vous combinez ces deux, vous obtiendrez ce nuage de points. Si nous combinons ces deux, nous obtiendrons celui-ci. PDG, nous n' arriverons pas plus tôt, nous ajouterons ce nombre de cylindres à ma liste. Ce graphique que nous obtenons, je le mets en haut de ma liste. Nous assistons maintenant à l'aversion sur l'axe Y. Ce sera celui du kilométrage. D'accord. Et le nombre de cylindres étant Sonia et la myéline, c'est Sonya séparément sous forme matricielle, n'est-ce pas ? La même chose mais dans des représentations différentes. D'accord. Passons maintenant au code et laissez-moi commenter cette ligne , puis décommentez cette ligne. Maintenant, j'utilise DUF pour les variables. Et laisse-moi m'occuper de ça. Et maintenant, regardez le graphique pour savoir comment cela se passe. Alors ouvre ça. Voyons maintenant les quatre variables, poids, MPG, cylindrée et cylindre. Voici donc le poids, la cylindrée du Majlis et le cylindre qui aident Sonya. C'est bon. Donc, ce gaspillage est mince. 123 456-789-1011, 12,4 cystéine a été prélevée. OK, laisse-moi planifier en fait. Et avec ces quatre choses, donc un mari matriciel quatre par quatre, non ? Ainsi, nous pouvons utiliser ces bières pour créer la matrice graphique pour cet ensemble de données. Cela créera donc la matrice de nuage que nous pourrons utiliser pour créer des matrices de blocs. D'accord. Rendez-vous lors de la prochaine conférence. 38. Trouver la moyenne en R: Bonjour et bon retour. Dans les prochaines conférences, nous allons en apprendre davantage sur statistiques dans R. Nous verrons donc quelles sont les fonctions intégrées à notre programmation que nous pouvons utiliser pour des analyses statistiques dans R. Et qui seront très utiles à notre corps. Cela sera très utile pour l'apprentissage automatique, l'intelligence artificielle, l'apprentissage en profondeur , etc. Les statistiques sont donc essentielles si nous voulons obtenir des informations à partir des données. Et l'analyse des articles est fondamentale pour les algorithmes d'apprentissage automatique. Nous devrions donc savoir quelles sont les analyses statistiques et les dortoirs. Au cours des prochaines conférences, nous allons donc en apprendre davantage sur ces éléments, l'analyse statistique dans notre programmation. Alors allons-y. Il existe de nombreuses fonctions intégrées grâce auxquelles nous pouvons effectuer des analyses statistiques. Et ces fonctions sont des outils très utiles Il suffit de les utiliser pour utiliser le nom de la fonction. Vous devez transmettre le vecteur de données, le prendre avec quelques arguments, et votre travail sera terminé. Il est donc assez facile de faire toutes les analyses dans notre programmation. Nous allons maintenant voir ce qu'est moyenne et comment calculer la moyenne. Ensuite, nous verrons également ce qu'est la médiane. Ensuite, nous en verrons plus. Nous allons donc essentiellement apprendre dans cette conférence, la moyenne, la médiane et le mode. OK, alors allons-y. Alors, tout d'abord, qu'est-ce que cela signifie ? La moyenne est calculée en prenant la somme de toutes les valeurs divisée par le nombre de valeurs. C'est donc comme dans la moyenne. Vous savez donc comment calculer la moyenne. Je suppose que vous avez des chiffres 12345 et que vous voulez en obtenir la moyenne. Vous allez donc faire un plus deux plus trois plus quatre plus cinq divisés par le nombre de valeurs. Donc, nombre de flèches jaunes, 5/5, donc vous obtiendrez la moyenne. Donc, la moyenne est méchante. La moyenne est également équivalente à la moyenne. La moyenne est donc la somme des valeurs d'un vecteur, de nos données, certaines valeurs des données divisée par le nombre de données. D'accord, alors laissez-moi vous montrer comment nous pouvons le faire dans R. Et pour calculer la moyenne, il y a une fonction dans R appelée fonction principale. D'accord ? Permettez-moi donc d'écrire un programme pour cela. Tout d'abord, laissez-moi vous dire ce que signifie la partie syntaxique, puis nous allons écrire ceci. Pour moi Nous utilisons cette fonction pour dire et quelles sont les choses que nous allons prendre, nous allons prendre x et ce sera le vecteur de données. Et puis il faudra un autre argument égal à zéro. Et puis il fait noir. Donc, nous verrons ce que cela va faire et quel est le stream quand nous aurons fait nos exercices pratiques. C'est donc juste et puis le point RM est égal à faux. Et c'est tout. D'accord ? Il s'agit donc de la fonction principale de base l'art où x est le découpage du vecteur de données, puis un automatique. Alors, qu'est-ce que X ? X est le vecteur d'entrée. Permettez-moi donc de vous dire ici que x est le vecteur d'entrée, qui contiendra les données de date. Et puis notre rêve, où nous utilisons la garniture est utilisé pour supprimer certaines valeurs des deux extrémités. Donc, si vous donnez un rêve égal à zéro, il ne perdra aucune valeur. Mais si vous en donnez une, cela supprimera une valeur de chaque côté. Il en va de même si vous souhaitez supprimer des valeurs des deux extrémités, des deux extrémités de ce vecteur x. D'accord, nous verrons et nous comprendrons mieux. Et Dark Adam fera ce qu'il fera. Cela supprimera simplement les valeurs manquantes. Il s'agit donc de supprimer les valeurs manquantes. Donc x est le vecteur d'entrée, le vecteur de données. Trim correspond aux valeurs de sécheresse provenant à la fois des extrémités et des armées de la NMDA. Et enlevez ça. Valeurs manquantes. Supposons que vous disposiez d'un jeu de données et que des valeurs plus importantes sont manquantes. Donc, si vous souhaitez supprimer ces valeurs, vous pouvez utiliser celles qui ne sont pas égales à true. Donc, lorsque cette image a fini par être qualifiée de fausse, cela signifie qu'elle ne supprimera pas les charges qui n'en ont pas. Cela ne supprimera pas les index qui ne contiennent pas de valeurs. Lorsque vous l'utilisez comme vrai, toutes les valeurs manquantes seront supprimées. OK, j'ai compris. Vous pouvez le dire vrai ou faux en fonction de vos besoins. Permettez-moi donc de faire un commentaire à ce sujet. Maintenant, ce que nous allons faire, créer un vecteur simple. Donc, ce que je fais ici, je vais créer un rectangle qui est un vecteur d'entrée. D'accord ? Je vais donc créer un vecteur d'entrée. Donc, ce que je vais faire, c'est utiliser des données supposées. Supposons qu'il s'agisse d'un vecteur énorme comme vecteur d'entrée, ou simplement d'un énorme. Et je vais, je vais, je vais donner quelques valeurs aléatoires ici. D'accord ? Supposons que j'aie 789, 671-250-6304 à 405-80-9907, moins deux , -34, 32 -21, tous ces habitants. Nous avons donc notre vecteur d'entrée qui contient les valeurs. D'accord ? Et maintenant, supposons que je veuille trouver de la méchanceté. Donc, ce que je peux faire, je peux simplement utiliser le moyen de supposer que je vais créer une variable ici. veut dire souligner un, ça veut dire dire dire un a. D'accord ? Et je vais simplement utiliser la fonction moyenne et je vais transmettre celle-ci a, je vais transmettre l'EBITDA ici. Donc, ce que fera cette fonction moyenne, elle prendra ceci, a fait ce vecteur comme entrée et elle calculera la moyenne de ces valeurs. Permettez-moi donc de souligner ce méchant. Cela nous donnera donc la moyenne de ces valeurs. D'accord ? Laisse-moi exécuter ça. Ici. Nous obtenons une valeur moyenne de 33,7 8571. C'est donc la moyenne de ces valeurs qui est la moyenne de ces valeurs. D'accord ? C'est ainsi que nous pouvons les trouver. Moyenne du vecteur d'entrée par rapport à la moyenne des données d'entrée. La moyenne de ces données est donc de 33,78. D'accord ? Ensuite, ce que nous allons apprendre c'est comment appliquer et déduire des atomes. Supposons donc que je crée un autre vecteur ici. Permettez-moi de mettre ce terminal ou cette console sur la gauche, ce sera EG. Je vais donc passer aux peintures et je vais mettre ceci sur la droite pour que nous puissions le voir ici. D'accord. Donc, le méchant est là, d'accord. Maintenant, ce que je vais faire, je le ferai, désolée. Nous allons supprimer les valeurs manquantes. D'accord ? Supposons donc que j' aie le même vecteur avec des valeurs manquantes, d'accord ? Il s'agit donc de la valeur manquante. Supposons qu'il y en ait un ici. D'accord ? Donc, pour ceux-ci, nous n'avons pas de version bêta, donc NA n'est pas applicable. D'accord ? Alors, comment supprimer ces valeurs manquantes ? Nous pouvons donc simplement, si j'utilise la méchanceté, souligner un, désolé. Et je vais utiliser la moyenne ou la forme sous laquelle nous obtenons le résultat. Voyons voir. Alors laisse-moi. voyez, nous ne voyons aucun résultat car il contient les valeurs NA. D'accord ? Alors maintenant, si je mets la moyenne d'une virgule et mets en noir égal à vrai, que se passera-t-il ? Cela nous le donnera, voyons voir. Désolé, je l'ai utilisé et c'est faux. Alors laisse-moi recommencer. Vous voyez, nous en obtenons la valeur maintenant. D'accord ? Si je supprime ceux qui ont été modifiés à partir d'ici, et si je le réexécute, que se passera-t-il ? À voir ? Tu vois, on n'en aura pas. D'accord ? Donc, si vous voulez obtenir la moyenne de ce vecteur faisant chuter la valeur NA, vous devez utiliser un vecteur indiquant que l'automne est considéré comme vrai et cela vous donnera le feu vert. Donc, ensuite, ce que je vais faire, c' utiliser la fonction de découpage, donc en utilisant l'option Trim ici, d'accord ? Donc, ce que j'ai fait, j'ai créé un vecteur C, qui a ReLU, valeurs simples, 1234567. D'accord ? Et si je l'exécute et que je trouve la moyenne obtiendrai une valeur moyenne. Ça fait quatre. D'accord ? Donc, et comment nous obtenons quatre, car un +2, 361-015-2120 8/7 est égal à quatre. Il s'agit de la moyenne simple. D'accord ? Maintenant, ce que je vais faire, juste pour sept. Alors. Je vais en mettre un ici, quatre ici et trois ici. Donc, tout simplement, je mets simplement les valeurs à un endroit aléatoire. D'accord ? Ce n'est donc pas un tableau trié, n'est-ce pas ? Donc, si je trouve le moyen, encore une fois, j'obtiendrai la photo. D'accord, nous avons la même valeur, non ? Que se passera-t-il si je perds un trim égal à zéro ? Voyons voir. Nous aurons les quatre, n'est-ce pas ? Maintenant, si j'utilise 0,13 égal à 0,1, ce que ça va faire, ça va trier cette Addie. Il triera cela par ordre croissant, puis il supprimera celui où il y a une valeur de chaque côté. Voyons donc ce que nous voulons dire ici. Nous obtenons pour Y parce qu'il baissera de 1,7 et le reste de la valeur pour deux plus 244 plus 36 plus 399 plus 514, et puis plus 62020/5 est quatre, n'est-ce pas ? Si je rêve à Coulter de ce qu'il peut faire, les deux Alice tomberont de ses côtés. Et encore une fois, nous obtenons. Permettez-moi donc de mettre l' original, celui trié. Je vais donc simplement commenter ici et je vais mettre 123 456,7. Donc, ce que cela fait de zéro à 0,2 fera, cela supprimera 1,2 de ce côté et 67 de ce côté. Alors, qu'est-ce qui va mener ? 345. Il va donc rechuter avec le C égal à trois virgule quatre virgule cinq. Donc sept plus trois plus 47 plus 51212 divisés par les trois quarts. C'est donc là que nous en avons à nouveau quatre. Que se passera-t-il si j'en mets dix ? Nous appelons 2.3 et exécutons ceci. Il triera et supprimera trois valeurs de chaque côté. Et encore une fois, nous obtiendrons pour y, nous appellerons si nous retirons 123 de ce côté et cinq sixièmes de n de ce côté, encore une fois, nous obtiendrons le 41 des quatre qui seront à gauche, n'est-ce pas ? Il n'en restera que quatre et la moyenne de quatre sera quatre. D'accord ? C'est ainsi que cela fonctionne. Laissez-moi, je vais mettre quelques valeurs supplémentaires ici, 910910 ici. Et allons-y. voyez maintenant que nous obtenons la moyenne sous la forme phi y, car cela supprimera trois valeurs, 1 234,78, 7 910, de cette recherche. Donc, ce qu'il nous reste , il nous reste 45,6. Alors 4561, quelle sera la moyenne ? Ça fera 15 ans, non ? Certains pendant 5 s par 15/3. Cela signifie le nombre de valeurs trois maintenant, donc l'empreinte divisée par trois, nous obtenons, nous obtiendrons cinq. Voici donc comment nous pouvons utiliser la fonction de découpage. Donc, d'abord, ce qu'il va faire, c'est trier cela dans un centre de villégiature, ce vecteur, et il le rendra ainsi. Ensuite, cela supprimera trois personnes que je perds du côté est , du début à trois et des trois dernières. Et le reste vous donnera la moyenne. OK, c'est ainsi que fonctionne ce rêve. D'accord ? Donc, si vous souhaitez supprimer les valeurs du début et de la fin, la fois la fin et nous voulons trouver la moyenne, ou vous pouvez utiliser le découpage et la valeur uniquement Texas 0,1. Vous n'en voulez pas un, c' est un sans fil de son côté. 0,2 signifie deux lettres venant de moi, disons 0,3 min, trois valeurs de chaque côté. D'accord ? C'est donc ainsi que cela fonctionne. Et si vous souhaitez supprimer les valeurs manquantes, vous pouvez utiliser n'importe quel point arabe égal à vrai. Il supprimera ces valeurs NA de l'ensemble de données et vous donnera les valeurs restantes, et il trouvera la moyenne de ces valeurs restantes. D'accord ? C'est ainsi que fonctionnent nn dot Autumn and Trim. Rendez-vous dans la prochaine conférence où nous en apprendrons davantage sur la médiane et comment trouver la médiane dans l'art. 39. Trouver le médian et le mode en R: Bonjour et bon retour. Dans cette conférence, nous allons voir comment calculer la médiane des données, d'accord ? Alors, comment pouvons-nous trouver la valeur médiane ? Donc, tout d'abord, nous allons savoir quelle est la médiane. La médiane est donc la valeur la plus intermédiaire d'une série de données. Supposons donc que nous ayons cette série de données. Nous voulons donc trouver la valeur moyenne de cette série de données. Alors allons-y. OK, donc médiane, la plus pertinente, la valeur qui se trouve au milieu, ne me ressemble pas, qui est la valeur moyenne de la série de données. Mais c'est la moyenne Si nous traçons ces données sur des x, quelle valeur se situera au milieu ? C'est-à-dire la valeur, nous allons trouver, la médiane. La médiane est donc la valeur la plus moyenne d'un ensemble de données, c'est correct. Et pour trouver la médiane, nous utilisons la fonction médiane dans r. Nous utiliserons donc la fonction médiane dans l'art. Donc pas mon ADN, c'est médian. Nous allons donc utiliser cette fonction, médiane, d'accord ? Utilisez la médiane DIN pour trouver la médiane. Le jeu de données. Voici donc l'ensemble de données que j'ai créé et voici la fonction médiane. Et quelles sont les valeurs qu'il faudra prendre ? Il prendra le E et le vecteur d'entrée. Et puis il faudra que n'importe quel appel sombre de l'automne soit faux ou vrai, vous pouvez donner ce que vous voulez. D'accord ? Si nous voulons supprimer des valeurs, vous pouvez mettre un point Adam. Si vous souhaitez supprimer les valeurs N A, vous pouvez les mettre à Aram égal à false. Nous avons vu comment utiliser le NADH dans la conférence précédente où nous avons discuté de la moyenne. Donc, à la même fonctionnalité et à n'importe quel élément de données. Selon false, cela ne supprimera pas les valeurs manquantes. Et si n n'est pas égal à vrai, les valeurs manquantes seront supprimées. D'accord ? Donc maintenant, si je lance cette série, ce que nous aimons , je vais obtenir la médiane de cette série. Je vais mettre votre médiane soulignée par un a et attribuer cette médiane à ceci. Mais bon sang, cette variable, l'âge médian de soulignement. Alors laisse-moi imprimer ceci. Donc, si nous l' exécutons, nous obtenons la médiane comme une valeur moyenne de ces données. La série Seizes en compte neuf, non ? Supposons que j'utilise, je mettrai d'autres valeurs aléatoires comme 6745, 2245, 4722, 9979. Et maintenant, si j'essaie de trouver, on en aura 33. D'accord ? De même, il essaiera de trouver la valeur la plus moyenne de l'ensemble de données. Je vais le faire gratuitement et ça fera 44, d'accord ? Il essaiera donc de trouver la valeur la plus moyenne de l'ensemble de données. C'est ainsi que nous trouvons la médiane d'une série de données, notre ensemble de données. Maintenant, la prochaine chose est que nous allons apprendre que c'est le mode recherche. D'accord ? Nous allons donc maintenant essayer de trouver le mode. Ce que nous avons appris ici, que nous n'avons pas trouvé de médiane. Nous allons maintenant apprendre comment en trouver plus. Alors, quel est le mode ? mode est la valeur qui contient le plus grand nombre d' alcalis dans le centre-ville. Supposons que nous ayons ceci. Permettez-moi de copier ceci. Et laissez-moi créer l'ensemble de données pour ce problème de recherche supplémentaire, d'accord ? Et voici notre ensemble de données où nous avons le support que 45, 45 se produit plusieurs fois, donc 45 que le vôtre, je vais supprimer ce pseudo 45, puis je vais passer à Diverse. Donc t Here, 45 se répète 1234 fois, non ? Soutenir. Ce mode de recherche signifie donc mod Easter. Nombre de recherches : le nombre maximum d'occurrences ou de valeurs, n'est-ce pas ? mode est donc la valeur qui contient plus grand nombre de documents dans notre ensemble de données. Contrairement au mode moyen et médian, il peut comporter à la fois des chiffres et des caractères. Nous allons donc d'abord voir comment trouver le mode de cet ensemble de données numériques. Ensuite, nous dirons « essayez de rechercher également le jeu de données de caractères ». Donc, si j'utilise un mod parce qu' il n'y a pas de fonction intégrée pour en trouver plus dans R. D'accord ? Nous allons donc créer notre propre fonction personnalisée pour déterminer Nous allons donc créer notre propre fonction personnalisée pour nombre maximum d' occurrences de valeurs de données dans un ensemble de données. OK, donc pour cela, ce que je vais faire, c'est créer une fonction. Donc ce que je peux ici, tu l'auras pour la somme, d'accord ? Je vais donc créer un mode de fonction régional, d'accord ? Et ce que je vais faire, c'est donner ce nom comme ils l'ont fait. Allons-y plus. D'accord. Et pour cela, je vais utiliser la fonction, puis transmettre cette information. D'accord, alors, quel est l'ensemble de données ? D'accord ? Et en dessous, ce que je vais utiliser, trouver un âge de soulignement unique et unique. C'est une valeur si unique que ce que je veux trouver. Donc, pour cela, ce que je vais utiliser, je vais utiliser une fonction unique qui appartient à l'art. Et ce que je vais faire, c'est transmettre ça ici. Cette fonction unique me donnera donc la valeur unique de cet ensemble de données. D'accord ? Permettez-moi donc simplement apporter cela à l'école. Ils savent ce que je vais faire. Je vais simplement en utiliser plus que ce que l'on appelle a. Et ce que je vais faire, je vais simplement appeler cette sélection du mode Done false et OK, donc et je vais passer un liquide dessus. D'accord ? Permettez-moi donc de le recommander et je dois le mettre en mode, mode, et cela s'appelle a. D'accord, alors laissez-moi le relancer. Alors voyez ici ce que j'obtiens maintenant. Je reçois le même ensemble de données, n'est-ce pas ? Maintenant. Ce que je dois faire, faire quelques calculs ici. Je dois écrire un peu de logique ici pour trouver le numéro de valeur unique d' occurrence d'un particulier. Nous allons découvrir comme ce numéro 45, le numéro le plus présent dans cette série. D'accord ? Donc, pour ce que je vais faire, je vais utiliser un trait de soulignement unique a. Et ce que je vais appliquer ici, j'adore jouer à Rich, Dark Max. Et puis j'utiliserai une tablette, une tablette, une tablette. Et puis je vais utiliser la fonction match. Et ce que je vais faire, c'est utiliser des pâtes, un coma, un produit unique et qui fait une bonne journée. D'accord. Et maintenant, si j'obtiens le retour, si je lance ce mode, j' obtiendrai le mode, d'accord ? Oui, 45 ans, je suis en train de numériser 45. C'est ainsi que nous pouvons le faire. Pour créer une fonction définie par l'utilisateur pour le mode de recherche. Nous créons donc ici notre propre fonction, return underscore more, qui prend ce vecteur comme vecteur d'entrée ou les données d'entrée nous donnons ici. Donc, ce jeu de données sera intégré à cette fonction. Et voici ce que je suis en train de faire, je crée un autre trait de soulignement unique et précieux j. Et ici, j'utilise la fonction intégrée à R qui est unique et unique. Cela donnera donc une valeur unique. Et puis ce que j'utilise pour cette découverte, ce trait de soulignement unique que vous n'avez pas attribué au point max, qui est le, qui apparaît le plus grand nombre de fois. Je fais donc correspondre ce e, cet ensemble de données original à cet ensemble de données unique et trouve quel chiffre se produit la plupart du temps et j'obtiens le résultat. Je suis donc en train de créer un autre mode de soulignement j, et j'appelle simplement cette fonction et elle nous donnera le plus grand nombre d'occurrences, nombre le plus fréquent de cet ensemble de données. Ça fait 45. Je suppose un bon 76, la plupart du temps. Et si j'essayais de le lancer , que se passerait-il ? Voyons voir. Maintenant, 76 est le chiffre le plus difficile. Ainsi, de cette façon, nous pouvons annuler la même chose avec le texte que votre support MBA. Je souhaite créer un jeu de données avec des caractères soulignés. Et voici ce que je vais faire, je vais mettre quelques valeurs de chaîne. Supposons que je mette le nom du pays comme Inde, États-Unis, Afrique du Sud, Australie comme ceci. Et ce que je vais faire, c'est y apporter mon soutien. Ils ont battu cette Australie à quelques reprises. D'accord. Répétez cette opération en Australie deux fois, d'accord. Et répétez cette feinte deux fois. D'accord. Maintenant, voici le jeu de données dans lequel nous avons écrit deux fois et l'Australie deux fois. D'accord ? Et je veux désactiver le mode. C'est ce qu'on appelle un retard. Donc, ce que je peux faire, c'est simplement appeler ce mode de retour de soulignement. Et je peux simplement transférer cet ensemble de données ici à ce mode d' écriture de fonctions, d'accord ? Et si je l'imprime, j'obtiendrai l'Australie. Alors laisse-moi exécuter ça. OK, donc j'ai oublié de mettre C ici, erreur stupide que j'ai commise. Alors laisse-moi le mettre ici. D'accord. Alors arrêtons , c'est bon. Nous nous sommes donc améliorés parce que nous n'avons pas mis C ici. C'est là que vous entrez dans le vif du sujet. Et je l'ignorais tellement que je ne l'ai pas vu. D'accord. Je suis vraiment désolée pour ça. Laisse-moi recommencer et à bientôt. Maintenant, l' Australie passe au numérique, de sorte que les hostilités sont signalées deux fois et la Grande-Bretagne deux fois. Nous allons donc avoir l'Australie. Laisse-moi essayer quelque chose. Comme je l'ai dit, l'Australie envoie probablement tout deux fois plus. Les deux choses étaient deux fois. Laisse-moi voir ce que nous obtenons. Nous avons la Grande-Bretagne. Donc, quand vous aurez d'abord obtenu les premières subventions d' actions, accord, alors faites semblant d' abord, puis l'Australie. Et supposons que la production soit la production également en Inde. Deux fois plus que nous voyons ce que nous obtenons. En C, nous avons l'Inde, comment K. Et supposons une production, faites semblant d'abord, Curtis. Et je l'ai mis ici. Et si je lance ça, voyons voir, nous aurons la Grande-Bretagne. Quel sera donc le premier document auquel on accordera la plus haute préférence Ainsi, même si Meridian, l'Inde et l'Australie se produisent toutes deux fois, cela nous donne le résultat, car la Grande-Bretagne, nous appelons, fait semblant de jouer au hockey. Et si je mets l'Australie, permettez-moi de mettre à nouveau l'Australie. Et si je gère ça maintenant, nous arriverons en Australie et nous y attacherons d' une manière ou d'une autre. Ainsi, nous pouvons mieux déterminer le mode de nos données à partir de nos données. La plus grande valeur marketing de notre ensemble de données. Nous nous mangeons. Jeu de données de caractères ou jeu de données numériques. D'accord, nous pouvons donc créer notre propre fonction que je n'ai pas modalisée, où nous perdons une fonction unique et nous ferons ensuite allusion au point maximum. Et nous allons enregistrer cela , faire correspondre et trouver le nombre maximum d'occurrences d'une valeur particulière. Ok, donc de cette façon, nous pouvons en utiliser plus. Nous avons donc vu se rencontrer dans la conférence précédente et médiane et mode dans cette conférence. Nous savons maintenant comment utiliser les bases de ces éléments, à savoir la moyenne, la médiane et le mode, dans notre programmation, même si Morty n' a pas de fonction intégrée. Pour en savoir plus, nous avons créé notre propre fonction utilisateur pour trouver le mode d'un jeu de données. J'espère que tu dois comprendre comment procéder. Rendez-vous lors de la prochaine conférence. 40. Qu'est-ce que la régression linéaire: Bonjour et bon retour. Ainsi, dans les conférences précédentes, nous avons vu comment effectuer des analyses statistiques dans R pour l'apprentissage automatique ou la science des données. Ce sont donc des choses très utiles et nous devrions connaître toutes ces très utiles et nous devrions connaître statistiques pour aller plus loin dans le domaine de l'apprentissage automatique et de l'intelligence artificielle ou de l'apprentissage en profondeur, peu importe ce que vous souhaitez en savoir plus. Dans ce cours, nous apprenons la science des données et l'apprentissage automatique par le biais de notre programmation. Nous avons donc la moyenne, la médiane et le mode de pelouse, où nous avons vu cette fonction inverse pour trouver la moyenne et la médiane, alors qu'elle n'a pas de fonction intégrée pour trouver le mode. Nous avons donc créé une fonction définie par l'utilisateur qui nous a permis de créer des polices personnalisées et, pour les trouver, de les calculer davantage. Ensuite, nous avons calculé le mode que nous avons utilisé lors de la conférence précédente. Vous pouvez donc aller le voir si vous ne l'avez pas vu. Alors quoi d'autre ? Nous allons maintenant apprendre un concept très important qui s'appelle la régression linéaire. régression linéaire est très importante et elle est largement utilisée dans l'apprentissage automatique et l'intelligence artificielle. Donc, si vous voulez aller plus loin, vous devez savoir ce qu'est la régression linéaire et comment vous pouvez l'utiliser pour prédire. La régression linéaire est donc un modèle d'apprentissage automatique. Nous pouvons ainsi prédire les valeurs en nous basant sur, supposons que nous ayons des données, supposons que nous ayons des données ici, taille et le poids, où nous avons le poids de la proportion. Et en fonction du poids de la proportion, nous calculons la hauteur ou la largeur et la hauteur. Nous voulons calculer le poids de la proportion. Donc, tout ce que vous voulez pour établir la relation entre ces deux variables, taille et le poids. Nous pouvons le faire et prévoir, supposons qu'il s'agisse des échantillons de données dont nous disposons, que nous avons collectés dans le cadre de nos expériences. Nous avons donc maintenant les données sur la taille et le poids. Et sur la base de ces données, nous supposons que nous avons ces divergences, jusqu'à 19 ensembles de données ici. Et sur la base de cet ensemble de données, nous souhaitons entraîner notre modèle, un modèle d'apprentissage automatique, sur un modèle de régression linéaire. Et supposons que je veuille atteindre une nouvelle taille pour une personne, je vais donner une nouvelle technologie de pointe qui n'est pas présente dans cette chronique et je veux prédire le poids attendu de cette personne. Donc, ce que je fais, entraîner mon modèle à partir de ces données. Et chaque fois que je donne la nouvelle taille d'une personne, le système prédit le poids de la personne, le poids attendu de la personne sur la base du calcul et il fera l'affaire. Ainsi, nous pouvons prédire le poids d'une personne en fonction de sa taille. Nous allons donc nous entraîner avec ces données et toutes les données, toutes les nouvelles données que nous pouvons donner de la hauteur. Et il prédira le poids attendu de cette personne. D'accord, c'est donc ce que nous allons faire par régression linéaire. Qu'est-ce donc que la régression linéaire ? régression linéaire est méthode statistique tactique utilisée en finance, investissement ou dans toute autre discipline qui tente de déterminer la force et le caractère de la relation entre une variable dépendante, généralement désignée par Y, et une série d' autres variables appelées variables indépendantes. Alors, qu'avez-vous compris en quoi consiste ce modèle, s'il existe une méthode pour trouver la relation entre deux variables, l'une est indépendante, Hannah qui est dépendante. Alors, qu'est-ce qui dépend de ce qui est indépendant ? Supposons que, sur la base de la taille, je veuille trouver le poids de la portion ici, la hauteur, dont nous donnons la valeur d'entrée, sera appelée variable indépendante. Donc, ici, la taille sera une variable indépendante et le poids sera la variable dépendante, car en fonction de la taille, nous prédisons le poids. Donc, en fonction de la hauteur, l'entrée que nous avons comme la hauteur, cela s'appuiera sur la valeur que nous voulons prédire. En fonction de la hauteur que nous voulons prévoir. taille sera la variable indépendante et le poids sera la variable dépendante. Parce qu'en fonction de la taille, nous prédisons, le poids taille seront des variables indépendantes, et le poids sera la variable dépendante. D'accord ? Vous devez donc savoir ce qu'est une variable dépendante et indépendante, n'est-ce pas ? La variable dépendante est donc désignée par Y. Et les variables indépendantes sont la série d'autres variables. Il y aura donc une feuille. Supposons que vous ayez une entreprise et que vous souhaitiez prévoir ses revenus . Le chiffre d'affaires de l'entreprise ne peut donc être qu'une variable. Nous pouvons ainsi prévoir, en fonction de plusieurs autres facteurs, tels que les performances de votre entreprise , quelle est la solution appropriée, quelle est la perte ? Hey, combien de clients tu as eu, combien de clients tu as perdus, et comment tu donnes le Salish à nos sous-entendus. Donc, toutes ces composantes salariales , les profits, les pertes, les conditions du marché , sont toutes des variables indépendantes qui définiront vos revenus. Les revenus sont donc ici une variable dépendante et tous les autres éléments qui vont affecter vos revenus sont appelés variables dépendantes. peut donc y avoir de nombreuses variables dépendantes et il n'y aura qu'une seule variable indépendante que nous allons prédire. D'accord ? L'analyse de régression est donc un processus statistique prédéfini permet d'estimer la relation entre une variable dépendante, souvent appelée « résultats ». Donc, le résultat que nous allons obtenir est appelé variable dépendante. Et une ou plusieurs variables indépendantes. Ainsi, une ou plusieurs variables indépendantes impliquent le salaire, les profits, les pertes , la situation du marché, toutes ces choses souvent appelées prédicteurs, covariables ou caractéristiques. Elles sont donc également appelées fonctionnalités en fonction des fonctionnalités dont nous allons prédire la valeur. Je vais publier un truc en particulier, d'accord ? Et ils sont également appelés prédicteurs, car ils vont nous aider en termes de revenus ou de poids d'une personne. forme la plus courante d'analyse de régression, l'analyse est la régression linéaire. D'accord ? Voici donc une analyse de régression multiple, comme une analyse multiple, ou allaient-ils envoyer une analyse de régression linéaire simple, de régression linéaire, etc. D'accord ? Ainsi, dans la régression linéaire que nous faisons, nous constatons que le chercheur trouve que la droite une combinaison linéaire plus complexe qui correspond le mieux aux données en fonction du critère mathématique spécifique. OK, alors qu'est-ce que ça signifie mer ? Il s'agit des données du poids de Nick sur l'axe des abscisses et de la hauteur sur l'axe des y. D'accord ? Donc, en fonction de la taille, nous allons prédire le poids de la proportion. Alors voici, si vous voyez, voici les points. Ces points correspondent à 64, 64, R1, 77 kg, 177, taille. Le poids est quelque chose de 64 points, non ? Donc, ce point, ce sont les points de données dont nous disposons. Donc, ce que nous faisons avec la régression linéaire, nous essayons de trouver une droite ici. Essayez de trouver ici une ligne qui représentera les données, qui les prépareront. Les données sur les résultats, comme le soutien, vous trouvez ici n'importe quel point, comme 65. Et lorsque vous tracez une ligne ici, elle se croise là, vous obtenez un point et vous vous basez sur ce poids. Vous obtiendrez que la hauteur est meilleure que cette valeur de hauteur y, vous obtiendrez la valeur X, n'est-ce pas ? Ce point vous donnera donc la combinaison x et y, ou des données de hauteur et de largeur, n'est-ce pas ? Donc, lorsque vous tracez une ligne ici, vous aurez la bonne. Supposons que l'on nous donne 65,8 ou que nous donnions 162 la valeur la plus élevée. Donc, quand nous viendrons ici, nous obtiendrons la valeur x ici. C'est-à-dire que ce sera le poids de la personne. Nous allons donc essayer de trouver une ligne qui représentera correctement la ligne, d'accord ? Et des données, non ? Données selon des critères mathématiques spécifiques. D'accord ? Donc régression linéaire, ces deux variables ou par le biais d'une équation. Dans la régression linéaire, ces deux variables, dépendantes et indépendantes, porteront une puissance d'exposant si les deux niveaux numériques sont un. Parce que nous allons utiliser ces équations linéaires simples écrivez y est égal à m x plus c. Y est égal à m x plus c, où m est la pente et la valeur constante, d'accord ? Il en va de même pour une constante, non ? Donc, ici m x m est la pente. Donc, sur cette base, nous pouvons tracer n'importe quelle ligne, n'est-ce pas ? C'est donc une simple équation linéaire, n'est-ce pas ? L'équation droite y est égale à mx plus c. Donc, sur la base de ces X et Y, nous essayons de trouver cette droite qui représentera véritablement ces données, ces données taille et de poids. Et comme on les appelle, leur puissance est un, y au carré de m x plus c. La puissance de x et y est égale à un. C'est ce qu'on appelle une équation linéaire simple. Et si leur puissance n' est pas égale à un, cela formera une voiture. Ce ne sera pas une ligne droite. Ce sera une ligne courbe, comme la fonction sigmoïde ou quelque chose comme ça, non ? Donc, sur la base de cette équation, j' essaierai de trouver, d'accord, donc y est la variable de réponse, n'est-ce pas ? En raison de la valeur y, nous allons prédire en fonction de la valeur x. Et x est la valeur du prédicteur, la valeur ou la variable indépendante. A et b sont appelés coefficients. Ainsi, lorsque nous effectuerons une régression linéaire, nous essaierons de le trouver. valeurs A et b, Les valeurs A et b, appelées coefficients, sont des coefficients de régression. Et à partir de ces deux valeurs, a et b, nous trouvons la valeur y, d'accord ? Et avec cela, nous obtiendrons ces points, ces points sur la ligne. Et lorsque nous traçons une ligne, jonction de ces points donne une ligne droite ou une diminution en ligne. Et cette ligne vous donnera la véritable prédiction des données. D'accord ? Où est-il utilisé ? Eh bien, nous utilisons la régression linéaire. L'analyse de régression est donc principalement utilisée pour deux forces d' objectif conceptuelles distinctes. L'analyse est largement utilisée à des fins de prédiction ou de prévision. Supposons que nous ayons des données sur la taille et le poids. Nous voulons miser sur la hauteur. Nous voulons prédire la taille d'une personne qui s'y trouve. Nous pouvons utiliser nos prévisions. Supposons que demain il pleuve ou non, vrais ou faux. D'accord ? Nous pouvons donc faire ce genre de prévisions, exemple sur la météo, comme lors d'une journée ensoleillée. Je sortirai par une journée ensoleillée. Il ne pleuvra pas. prévision, nous pouvons le faire dans la situation de prévision et de prédiction, nous utilisons la régression linéaire dans l'apprentissage automatique. Ensuite, une analyse rigoureuse de la situation peut être utilisée pour établir une relation fortuite entre les variables indépendantes et dépendantes Lorsque vous avez deux variables et dépendantes et indépendantes, vous voulez découvrir comment elles sont liées. C'est le cas. Nous pouvons utiliser cette régression linéaire pour trouver la relation entre la variable dépendante et la variable indépendante. Alors maintenant, comment établir la régression linéaire ou la régression. Exemple simple que nous allons prendre à la main, au soleil, qui consiste à prédire le poids d'une personne en fonction de sa taille. Donc, si nous connaissons la taille d'une personne, nous pouvons prédire le poids grâce à cette analyse de régression linéaire. Pour ce faire, nous devons établir une relation entre la taille et le poids d'une personne et la manière dont nous procédons, car nous avons ici les données de hauteur et de largeur que nous allons utiliser dans notre exemple. Donc, ce que je fais d'abord, nous devons collecter les données pour lesquelles nous voulons établir cette relation. Nous aurons donc ces données, puis nous ferons ce que nous ferons une fois que nous les aurons. fait, une fois que nous aurons les données, nous effectuerons analyse exploratoire des données pour nettoyer les données, s'il y a des valeurs manquantes, comment nous pouvons les supprimer, quoi comment pouvons-nous ressentir ces données. Donc, ce genre de choses que nous faisons dans la vraie vie. Mais ici, ce que nous allons faire, que nous aurons trié les données d'un seul personnage ici. Nous savons donc qu'il ne faut pas faire toutes les choses que nous verrons dans la dernière partie du cours. Mais pour l'instant, nous avons ici des données très claires. Donc, ce que nous allons faire, c'est le faire. Nous utiliserons la fonction lm et nous essaierons d' établir la relation entre la taille et le poids. Hauteur et largeur, y et x, non ? La taille et le poids essaieront de fonctionner. Le bailleur essaiera de créer un modèle de régression linéaire à l'aide de la fonction lm. La fonction Lm est la fonction inverse de R qui effectuera tous les calculs mathématiques en arrière-plan. Et cela nous donnera la relation entre x et y. Écris y et x sont accentués à l'état humide. Cela créera la véritable fonction IF Essence. Et quand nous obtenons, lorsque nous utilisons le résumé de cette essence réelle, si nous pouvons trouver les coefficients a et b et comment ils sont liés. Sur cette base, nous pouvons tracer la ligne d'insuline normale. Et nous pouvons également prédire le poids d'une personne. Tu n'as pas prédit le fonctionnement. Il existe une autre fonction appelée predict, que nous utiliserons avec cette relation, à savoir la fonction lm. D'accord, il utilisera donc la régression linéaire, notre relation que nous avons établie à cette étape. Et il utilisera ces valeurs x et y et cette relation et essaiera de tracer la droite de régression pour nous. Nous allons tracer la droite de régression ici, mais ici avec la fonction de prédiction. Et la fonction de prédiction utilisera en interne cette fonction ou relation que nous obtenons grâce à un modèle de régression linéaire. Et il utilisera ce modèle pour prédire la taille en fonction du poids. Nous verrons donc comment nous pouvons procéder lors de la prochaine conférence. J'espère donc que vous avez compris ce qu'est la régression linéaire. La régression linéaire est quelque chose comme « support you ». Nous avons les points et nous voulons faire des prévisions sur la base des nouvelles données. Nous voulons prédire qu'en fonction de la taille, je veux, supposons, sur la base de la taille 230, quel sera le poids que je veux trouver ? Donc, ici, si nous n'avons que les points de données, nous ne pouvons pas le faire. Alors, quel modèle de régression linéaire fera l'affaire ? Cela créera une ligne droite qui représentera véritablement ces points de données. Cela sera donc fait à 30 si vous tracez une ligne ici et ici, le point d'intersection ici, cela vous donnera quelque chose comme la taille de cette personne. Cela vous donnera donc une droite de régression. Sur cette base, vous pouvez prédire la valeur prédictive de R, prédire le poids d'une personne en fonction de sa taille. D'accord ? Rendez-vous donc lors de la prochaine conférence. 41. Prévision utilisant un modèle de régression linéaire: Bonjour et bon retour. Ainsi, dans la conférence précédente, nous avons appris ce qu'est régression et ce que nous avons appris, ce qu'est la régression linéaire comment nous pouvons l'utiliser et où elle se trouve. Tu as raison. Voici donc le système pratique. Et ici, nous allons essayer d'écrire notre code pour implémenter une régression linéaire simple, laquelle nous utiliserons l' un des deux vecteurs, x et y, où x contient le poids des portions. X contenant chacun la taille du patient ou la taille partielle de quelques personnes, d'accord ? Et puis y contiendra le poids. Donc x est la taille et y contient le poids correspondant à ce x. D'accord ? Donc, sur la base de l'absence de hauteur construite sur le x, nous voulons trouver le y, n'est-ce pas ? C'est donc notre ensemble de données, n'est-ce pas ? Donc, en nous basant sur X, sur la taille d'une personne, nous voulons prédire la taille d' un Saoudien partiel en fonction de sa taille. Nous voulons prédire le poids de la personne, n'est-ce pas ? Donc, sur la base de x, nous voulons prédire le y , et c'est ici que nous examinons pourquoi un autre poids. Donc x est la taille et le poids. Et il est assez simple d'établir la relation entre x et y dans R. Et comme R a une fonction oh, lm, la fonction lm est une fonction de régression linéaire ou un modèle linéaire. La fonction Lm créera cette relation entre x et y. Voici donc la première variable, les premières données vectorielles de données que nous allons définir ici, à savoir les variables dépendantes. C'est pourquoi nous voulons prédire en fonction du x. Ainsi, lorsque nous écrivons ainsi, cela signifie que sur la base du x, nous allons prédire y. Donc y n'est pas une valeur de prédiction, et x est le prédicteur. X est la variable indépendante et y est la variable dépendante. Y. Y dépend parce que la valeur y dépend du X fourni, n'est-ce pas ? Donc, quelle que soit la valeur x fournie sur cette base, notre modèle prédira la valeur y, c' est-à-dire le poids, n'est-ce pas ? Nous allons donc fournir X qui est la hauteur de la proportion. Et sur cette base, il prédira la variable dépendante Y, qui est le poids et la taille. Nous allons prédire le poids de la proportion. Donc, cette fonction lm est simple, nous n'allons pas faire le calcul de base car fonction lm l' implémentera, trouvera le coefficient et tout ce qui permettra d'établir cette relation. Mais dans R, puisque nous utilisons in vitro dans des bibliothèques intégrées de fonctions lm, cela créera automatiquement la relation entre x et y. Et sur cette base, nous pouvons prédire. Donc, la première étape consiste à essayer d'établir la relation linéaire entre x et y, d'accord ? Le prédicteur sera donc ici ou la variable dépendante sera ici. Et c'est la variable indépendante. Donc, en fonction de la hauteur, on prédira x. C'est pourquoi, attendez la portion. Donc, ici, je donne simplement un nom de fichier, W, hauteur, poids, un point PNG, n'importe quel fichier. Laissez-moi, vous pouvez leur montrer ici ce que je suis en train de faire. Je suis juste en train de tracer les valeurs y, x, y, les valeurs x sur le plan x y. Et je lui donne une couleur bleue. Tu peux lui donner du vert. Et on peut écrire ici la taille, le poids, les leçons. Si vous pouvez imprimer les leçons, la régression, tout ce que vous voulez, vous pouvez le mettre ici, d'accord, puis j'utiliserai la ligne AB. Chaque ligne créera la droite de régression, et pourtant je fournis le LM. D'accord ? Ensuite, nous verrons comment nous pouvons changer et qu'est-ce que c'est ? C'est comme haha, comment vous voulez placer les points de données sur le graphique. Et puis sur l'axe X, attente de Cagey et sur l'axe Y, la hauteur en centimètres. D'accord ? Voici donc comment nous allons le tracer. Et puis ce que je suis en train de faire ici. Je vais fournir le High-Touch de 170 centimètres. Donc, ici, je fournis X égal à 170 centimètres. Et sur la base de cette valeur x, je veux prédire le poids prévu de la personne Y. Donc, je fournis X ici. Je crée donc un DataFrame et je trace x égal à 170. Ce sera le cas, je donne à cette variable le nom d'une nouvelle arête, d'une nouvelle hauteur. D'accord ? Et puis ce que je fais, je prédis simplement un musée, la fonction de prédiction, je prédis et j'utilise cette relation que nous avons établie. Et je pourvois. La variable indépendante qui est x. Cette valeur x se trouve donc ici. Nouveau mouillé. Je fournis un nouveau, mais c'est un 70, un qui fournit ce que je trace x ici et je veux prédire le Y. Donc, quand nous l'exécuterons, nous obtiendrons la valeur y. Donc, pour une hauteur de 170 centimètres, quel sera le poids de la personne qui prédira en fonction de la relation que nous avons établie dans le modèle linéaire, le modèle de régression linéaire. Alors laissez-moi exécuter ceci et voir la sortie z. sortie que nous obtenons est 67.33. Donc, pour 170 centimètres, la taille d'une personne correspond à une hauteur de 70 centimètres. Notre système prévoit qu'il devrait atteindre le sommet de 67,33. PDG. Si vous en voyez 170, ce sera à peu près cela. OK, je vois 167. Ça l'est. Notre système prédit pour 1, 70, 67. D'accord ? Il effectuera donc le calcul mathématique dans cadre de la leçon précédente et nous en aurons fini d'écouter, sur la base de ce modèle, modèle de régression linéaire que nous avons créé, il prédira le poids de la personne qui arrive à environ 67,33. Je vais vous montrer le graphique. Eh bien, voici le graphique que nous avons imprimé ici. Assurez-vous de voir ici ces points, les points de données apparaissent en vert parce que nous les avons indiqués ici en vert. Si je le fais lire, les points de données seront convertis en points droits, droits. OK, alors laisse-moi ouvrir le fichier à nouveau. Les points de données sont en rouge. Et encore une chose que je voulais vous dire, vous voyez, cette valeur CX définira si je la fais supporter la version 2.5 et si je l'exécute, les points de données seront plus grands. D'accord ? Alors à bientôt, les points de données apparaissent sous une forme plus grande. D'accord ? Ainsi, cette valeur x permet d'augmenter ou de diminuer les côtés des points de données. D'accord ? Et cet article ici, cystéine. Permettez-moi de le remplacer 26 et de voir quel impact cela a sur le vote. Maintenant, ça arrive comme ça. C'est donc essentiellement ainsi que vous souhaitez placer vos données. Alors maintenant, ça arrive maintenant. De manière rectangulaire, droite. Si je le mets dans le projet, il arrivera dans un diamant pareil. Donc, en gros, c'est ainsi que vous voulez placer votre aiguille, comment vous voulez lui donner une couleur unie. Donc, en gros, la valeur du PC modifiera la forme des points de données, n'est-ce pas ? Portrait de cystéine, elle se présentera en cercles plus ou moins circulaires. D'accord ? Maintenant, xlab est ce que nous avons mis sur l'axe X et le nom sur l'axe X , puis la hauteur sur l'axe Y. Il s'agit donc de la hauteur et de ce poids de bord. Et c'est le principal qui, si nous l'avons utilisé, gère la taille, le poids et la fermeture éclair. Cela va donc venir ici et voir, oui, c' est la droite de régression tracée par notre modèle. Donc, cela vous les donnera. Si vous voulez prédire une valeur, vous pouvez simplement mettre ici 67 et cela vous donnera ce système de valeurs qui prédira. Alors regardez votre processus T7, la hauteur est, laissez-moi entrer un peu plus profondément dans les détails. Donc, si vous recherchez 67, la hauteur est de un. Un tel T7. Je ne voulais pas le préparer. Et voyons ce que notre système prévoit pour 150, d'accord ? C'est mon port 165. Vous pouvez donc voir que pour un tel T7, celui-ci aussi. Mais notre système en prédit cinq. C'est donc similaire à 67.25, 1321 à T7. Et notre système en prédit un qui placera le point de contrôle et C. Donc, c'est comme jouer avec le code. Si je verse ça, voyons ce que nous obtenons. C, nous obtenons 65,44. Dans notre jeu de données, qu'est-ce que c'est ? Ça arrive vers 67 ans. C'est ainsi que notre système prévoit. C'est tout à fait exact, d'accord ? Et cela indique la ligne de régression qu'il a tracée. Nous sommes donc en train de prédire, d'accord ? La prochaine chose que nous pouvons faire, c'est ressembler à mon état idéal. D'accord ? Ce que je voulais vous dire de plus, que nous pouvons contacter quelqu'un hors cours et nous verrons ce que cela nous donnera. Donc, si j'accorde du poids à cela uniquement, PDG, nous devrions obtenir tous les résidus tels que le minimum, la médiane d'un quartile, valeurs maximales du troisième quartile , puis les coefficients de copie m et c m et c m x plus les valeurs c m et c apparaissent comme une interception ici. Et cela vient de cette valeur t et la valeur P vient comme ça. Ce sont donc les choses, la coopération qui est calculée par la fonction lm. Et sur cette base, il prédit la météo. Et sur cette base, il essaie la lignée cellulaire en question. Et les multiples valeurs R au carré du PDG se présentent comme suit. Le R au carré ajusté se présente comme suit. Et des statistiques F à venir. D'accord ? Et les valeurs de p ici, nous le verrons par la suite, dépassent le cadre de ce cours. Lorsque nous apprendrons, lorsque vous apprendrez en profondeur les algorithmes d'apprentissage automatique, vous saurez ce que sont ces copies et à quoi elles servent. Cela dépasse le cadre de ce cours car nous apprenons simplement notre partie programmation pour l'apprentissage automatique. Vous devez savoir que la fonction lm utilisera désormais en interne les coefficients de coût de ces mondes 3D et l'erreur standard qui découlera, car aucun modèle ne prédira le bouton Connect, donc il y aura une erreur. L' erreur type résiduelle se situe donc autour cette valeur R au carré de 17 degrés de liberté. Donc, ce que je veux sont les valeurs prédites et la valeur attendue, les valeurs prédites et tout ce que ce serait. Ce sera donc l'erreur. Tout ce que nous recherchons et quel système donne, il y aura une modification. Et si c'est une mauvaise journée, nous les ferons décrire ainsi. D'accord ? Ce sont donc les valeurs qui seront utilisées par le modèle de régression linéaire d'apprentissage automatique en interne et pour prédire la variable dépendante. OK, j'espère que vous avez compris un peu ce qu'est un modèle de régression linéaire et comment utiliser la fonction lm pour prédire et comment tracer cette droite de régression linéaire. OK, donc site Stephen, prochaine conférence. 42. Lire CSV créant un modèle LR et prédictions: Salut les gars, bon retour. Ainsi, dans la conférence précédente, nous avons vu comment utiliser modèle de régression linéaire et comment créer la relation entre la variable dépendante et la variable indépendante, et comment nous pouvons prédire, et comment nous pouvons même tracer la droite de régression linéaire. Je voulais dire une ligne de régression. D'accord, nous avons vu quels sont les coefficients lorsque nous utilisons le résumé et comment fonctionne le modèle linéaire pour les pixels, et nous avons vu comment nous pouvons prédire les données. Mais dans l' exemple précédent, ce que nous avons fait, nous avons pris le vecteur r, nous avons pris ce vecteur de données pour la taille et leur poids. Ensuite, nous avons créé le modèle de régression linéaire pour x et y. Et puis nous avons prédit que, dans le monde réel, nous n' aurons pas les données dans ce format, dans le format vectoriel. Au lieu de cela, la plupart du temps, les données nos bases de données se trouvent dans des fichiers Excel ou CSV. Dans la plupart des cas, il s' agira d' un fichier CSV à points, de fichiers séparés par des virgules, n'est-ce pas ? Tu sais. Donc, dans cet exemple, ce que je vais faire, je vais vous le dire, comme nous avons déjà vu comment lire le fichier CSV dans les conférences précédentes. Et cela, ces connaissances que nous allons utiliser dans cette conférence pour créer un modèle linéaire. Et nous allons lire les données du fichier CSV. Donc, pour cela, j'ai créé avec les mêmes données de taille et de poids que celles que nous avons utilisées dans la conférence précédente, j'ai créé un fichier CSV avec le poids et la taille. Cette colonne est donc le poids et cette colonne est la hauteur. D'accord ? Il s'agit donc du fichier CSV, hauteur, largeur, point. Et ce que je vais faire, la première étape est de lire les données du fichier CSV, traiter le fichier CSV. Donc, pour cela, j' utilise une métadonnée et j'utilise la fonction read.csv pour lire le fichier CSV. Donc, avec ce fichier read.csv, il va lire le fichier CSV et récupérer les données dans ce vecteur, cet objet, cet objet de données. Nous pouvons donc voir avec notre fichier read.csv qu'il lit correctement ou non les données. Donc, pour cela, nous pouvons utiliser la fonction d'affichage et fournir l'objet à l'intérieur de celle-ci. Ainsi, lorsque cette vue sera ouverte et que nous aurons cet objet de données, il sera placé ici et il lira le fichier CSV. Ensuite, avec BYU, nous pouvons avoir une vue d'ensemble des données. Alors laissez-moi vous lire ces deux lignes. Regardez ici, nous obtenons la vue des données TO sur notre poids et notre taille. Pareil, désolée. voir les mêmes données que celles que nous pouvons voir dans RStudio avec la fonction d'affichage Wavefunction verra les données de cette manière. Nous savons maintenant que notre fichier de données, données que nous avons lues à partir du fichier CSV. La prochaine étape consiste à créer le modèle de régression linéaire à des fins de prédiction. Nous voulons donc prévoir le poids et la taille. Nous voulons prédire le poids de la personne. Pour cela, nous allons créer le modèle de régression linéaire. Nous utiliserons donc la fonction lm et w ici, le poids sera la variable dépendante et la taille sera la variable indépendante. Donc, en fonction de la taille, nous voulons prédire le poids. Ici, les données sont appelées données. Les données signifient que nous utilisons ces données. Tu peux lui donner n'importe quel nom. Tu peux Maintenant, nous pouvons modifier cela avec, désolé, des données de taille et de poids, désolé, en fait des données W, des données de taille et de poids. Nous sommes donc en train de manger leur fichier CSP. Nous allons le mettre ici. Et puis les données indiquent que le CO2 mettra de la hauteur alors que les données, d'accord ? Ainsi, la source de données est constituée des données de taille et de poids que nous avons obtenues à partir du fichier CSV. Nous créons ici le modèle de régression linéaire à l'aide de la fonction LM. Et nous donnons la variable dépendante ou indépendante ici, attendez, et la variable indépendante est la hauteur et les données égales à notre source de données seront ces DEUX données. Permettez-moi simplement faire un commentaire afin que cela ne nous dérange pas. Et maintenant, nous avons, maintenant, ce modèle. J'ai donné un nom et un modèle. Et nous utiliserons le résumé de notre modèle pour obtenir les détails. Alors laissez-moi exécuter ces deux lignes, laissez-moi courir jusqu'ici parce que nous avons modifié. Alors laisse-moi exécuter ça. Donc, voyez ici, nous obtenons maintenant le résumé de notre modèle linéaire, un modèle régression linéaire tel que le taux de cholestérol ou celui-ci, la médiane quartile. Coefficient maximum du troisième quartile, intersection étroite, toutes ces valeurs que nous obtenons ici. Et puis nous obtenons l'erreur standard. Erreur type égale à 1,21, 0,789, 17 degrés de liberté valeur R au carré multiple , valeur R au carré ajustée, valeur p. Et nous abordons également les statistiques, d'accord ? Maintenant, notre modèle, cela signifie qu'un modèle de régression linéaire est prêt. Nous sommes maintenant prêts à faire des prévisions sur la base des nouvelles données. Donc, ce que je fais ici, c'est une nouvelle hauteur de 152,21. OK, permettez-moi de le modifier en 16485. D'accord ? Et pour cette taille, je veux prédire le poids, quelle est cette taille de 165,85 centimètres, je veux prédire le poids de la personne. Donc, ce DataFrame amusant, car quoi que nous lisions dans le fichier CSV, il s'agira d'un DataFrame. Je suis donc en train de créer un DataFrame ici et d'une hauteur égale à 174,85 et je lui donne un nom sachant que nouvel objet d' hier contiendra le site azure 164,85. Maintenant, les derniers jours sont consacrés la prédiction du poids à l'aide d'un modèle. Et pour cela, nous utilisons la fonction de prédiction. Et dans la fonction de prédiction, nous fournissons deux arguments. L'un est notre modèle, modèle que nous avons créé ici. Donc, ce modèle LM que je propose ici, sorte que, sur la base cette relation, il prédira et ce qui prédit. Et nous fournissons les données relatives à la hauteur. Nous fournissons donc une hauteur de 164,85 ans. Nous fournissons donc ici l'objet de données qui constitue le nouvel avantage. Il prendra donc cela comme entrée. Il ira à ce modèle. Et sur la base de cette véritable essence de la hauteur et de la largeur, il évaluera 174,85 et il prédira le nouveau poids, poids de cette personne. OK, donc maintenant, cela prédit une certaine valeur. Je le maintiens dans le poids prévu parce que nous sommes les poids. J'ai donc donné wet predicted comme nom d'objet. Maintenant, la chose suivante est que nous avons le nouveau poids dans ce poids répété dans cet objet. Nous devons l'imprimer. Vous pouvez donc utiliser l'impression ici. Mais comme je voulais imprimer plusieurs lignes, j'utilise la fonction cat. D'accord ? Donc, comme la fonction printf n'imprime que 11 lignes à la fois, je voulais concaténer deux phrases. Pour la hauteur. Ce poids prévu est le suivant. D'accord ? Cela n'est donc possible qu'avec la fonction chat. Nous ne pouvons pas le faire avec la fonction d'impression car la fonction d'impression limite à n' imprimer que les objets, les valeurs des objets. Elle est la seule à pouvoir imprimer, elle ne peut pas imprimer la déclaration. Donc, pour cela, j'utilise Cat. Si vous souhaitez imprimer quelque chose comme ça, vous pouvez utiliser la fonction chat. Maintenant, j'utilise un chat et j'utilise une hauteur égale pour modifier celui-ci en fonction du vent. Le poids prévu correspond à cinq Je suis en train d'imprimer là où il a été prédit ici. Permettez-moi donc d'exécuter le code complet ici, donc je vais cliquer sur Source et le PDG pour la taille 164,85, le poids prévu est de 661794. Maintenant, avec cela, nous pouvons prédire, donc maintenant notre modèle, ce modèle de régression linéaire prédit un poids de 66,79. Permettez-moi de vous montrer ce modèle et le modèle précédent donne le même résultat ou non. Donc, ce que je vais faire, au lieu d' un PIP2 dans l'exemple précédent, je vais mettre 164,85 et je vais essayer de courir cette dernière année également, nous obtenons le même résultat, 66,7, 9465. Donc, dans les deux cas, comme les données sont les mêmes ici, nous les avons conservées sous la forme vectorielle Here et nous les lisons ici à partir du fichier CSV, mais les données sont les mêmes. C'est pourquoi nous obtenons les mêmes résultats les deux modèles. Ainsi, vous pouvez lire le fichier CSV et créer un modèle de régression linéaire. Ensuite, sur cette base, vous pouvez prédire la valeur, comme vous le souhaitez. Tu peux le faire. Vous pouvez essayer ce problème avec tous les autres points de données que vous pouvez avoir. exemple, en fonction de l'âge, vous pouvez détecter le poids ou en vous basant sur des données catégorielles, vous pouvez prendre vos données et les mettre dans le fichier CSV et vous pouvez prédire une valeur mais l'autre en créant le modèle de régression linéaire. J'espère donc qu'avec cet exemple, nous sommes assez confiants quant à la régression linéaire manière dont nous pouvons créer un modèle de régression linéaire pour prédire les valeurs. Et j'espère que vous vous entraînerez davantage avec cela. Et tu peux faire bien mieux que ça, non ? Ainsi, lorsque vous vous entraînez, vous vous améliorerez notre programmation et dans le domaine de l'apprentissage automatique. J'espère que vous avez compris le modèle de régression linéaire. Et c'est tout pour cette conférence. Voyons donc ce que nous pouvons en apprendre davantage. 43. Régression multiple: Dans la conférence précédente, nous avons vu comment utiliser la régression linéaire. Ce que nous avons vu comme une régression linéaire utilisant deux vecteurs concerne deux objets de données tels que le poids et la taille. Et nous avons créé cette marque licenciée, puis nous avons le hockey. Ensuite, nous avons créé ce fichier CSV ou créé notre modèle LM, la relation linéaire entre le poids et la taille , puis la hauteur et la hauteur. Nous avons prédit la baisse correspondante de la productivité. Super pour le partiel. D'accord ? Maintenant, c'était la collision linéaire ou la collision, n'est-ce pas ? Maintenant, avec notre régression linéaire simple, nous avons maintenant un autre problème : nous sommes la variable de réponse de notre variable dépendante, ou la valeur que nous allons prédire lui est attribuée. Elle peut, comme dans la régression linéaire que nous avons vue, la variable dépendante et les variables indépendantes. Variable dépendante, dépendant d'une seule variable, d'un taux variable indépendant. Mais dans des situations réelles, plupart du temps, c'est le résultat ou la valeur que nous allons prédire. Cela ne dépendra pas nécessairement d' une seule variable dépendante. Mais il peut y avoir de très nombreuses variables indépendantes qui vont définir et affecter la variable indépendante. Ce n'est donc pas comme dans la situation nous aurons toujours , car nous aurons toujours une régression linéaire simple. Nous pouvons avoir plusieurs variables indépendantes qui vont affecter la sortie. Comme en cas de support, comme cette prévision, la météo. Les prévisions peuvent dépendre de nombreuses situations, par exemple s'il pleut, de quelle région il s'agit, quel type de nuages s'agit-il ? Et bien d'autres choses encore, non ? Supposons que vous avez une entreprise et que vous allez prévoir vos revenus en fonction de quelques facteurs. Il doit donc y avoir de nombreux facteurs, comme je l'ai dit plus tôt, comme le nombre d'employés, la façon dont nous allons féliciter vos employés, qui auront façon dont nous allons féliciter vos employés, également une incidence sur vos revenus. Quels sont vos profits et vos pertes ? Si vous réalisez des bénéfices, vos revenus augmenteront. Si vous êtes perdu, vos revenus diminueront. Et si vous n'allez pas le faire, supposons que vous ayez une partie de nos impôts, plus d'impôts, alors vous allez avoir des recettes qui influeront sur la situation. De nombreux facteurs vont donc décider ou définir vos revenus. Donc, ici, ce problème ne peut pas être traité avec la régression linéaire. Nous devons utiliser une régression linéaire multiple car la valeur de la production ou les recettes dépendent de nombreux facteurs. Donc, ici, les facteurs sont les caractéristiques qui seront indépendantes. Les caractéristiques sont les facteurs qui vont générer des revenus. Donc, dans ce cas, nous aurons comme a, B X1, X2 plus ainsi de suite et ainsi de suite, bn XN. Cela signifie que b1, b2, bn et E, tous les coefficients que nous avons vus plus tard en us, y est égal à mx plus c ici, un seul axe là. Mais dans la régression multiple, il y aura b1, b2, b3 devant nous jusqu'à Vn, n'est-ce pas ? Qu'il ne peut y avoir aucun certain nombre de facteurs qui vont influencer cela d'accord ? Il s'agit donc d' une régression linéaire simple. Et cette équation concerne la régression linéaire multiple, car vous êtes B1, B2. Il peut y avoir un certain nombre de facteurs qui vont affecter le résultat. régression linéaire multiple, également connue simplement sous le nom de régression multiple, est donc également connue simplement sous le nom de régression multiple, une technique statistique qui consiste à utiliser plusieurs variables explicatives pour prédire le résultat de notre variable de réponse. OK, alors, ce que je vais faire, c'est vous montrer un ensemble de données. Donc, ce que je vais utiliser, je vais utiliser des données réelles disponibles avec le R, c' est-à-dire des voitures vides. Donc, données empiriques, cet ensemble de données est disponible avec le package R lui-même. Ainsi, lorsque vous téléchargerez R, il sera intégré au package R. D'accord ? Donc des voitures vides, pour que tu puisses utiliser la vue. Afficher. Les déclencheurs I'm vous donneront une vue de l'ensemble de données. Alors voyez, c'est l'ensemble de données de divers dieux comme Martha Jackson, Hornet. C'est inégalé, c'est bon. Il y a donc de nombreuses voitures et cela représente le nombre de kilomètres par gallon, cylindrée, la puissance, le poids. D'accord. Il y a donc, il y a de nombreuses années clés de voiture. D'accord. Donc, tous ces facteurs vont définir les miles par gallon ou quelques facteurs peuvent ne pas avoir beaucoup d'impact. Et les vecteurs de terrain vont avoir un impact plus important. exemple, si vous considérez miles par gallon comme le rendement que vous souhaitez atteindre, vous devez prévoir les miles par gallon en fonction de la cylindrée, puissance et du poids de la voiture. Ensuite, peut-être que le nombre de bouteilles n' affectera pas une grande partie du match, aura beaucoup d'effet sur les miles par gallon ou, dans certains cas, cela peut avoir beaucoup Lexi ouais, quatre cylindres ont un -33, 30, 26 de plus. Et si vous constatez que huit cylindres en ont moins moins deux, ce nombre de cylindres dans le moteur affectera la myéline. Il s'agit donc d'un facteur. Alors. cylindrée peut également avoir un effet sur le kilométrage moyen de la voiture. Et puis lisez bien, la voiture va également avoir une incidence. Voyez ici qu'il existe différentes caractéristiques, notamment les variables indépendantes, le nombre de cylindrées, poids et le nombre de vitesses. Ce sont donc les choses qui vont affecter la myéline. Nous devons donc utiliser une régression multiple si vous souhaitez prédire le kilométrage ou par voiture en fonction du nombre de cylindres, du poids. Si vous voulez prendre en compte tous ces facteurs, nous devons utiliser cette régression multiple. Et si vous voyez cette équation de régression multiple, voici b0, b1, b2, x2 et x1. Ce X one peut donc être le poids de la voiture, plus peut être la cylindrée de la voiture. Et le X3 pourrait être l'autre facteur, comme le nombre de cylindres de la voiture. Donc, ce b1, b2, b3 be, pour tous ces coefficients, décideront en fonction de la manière dont X1 ou le poids de la voiture affectent le Majlis global ou la moyenne de la voiture. Donc, sur la base de ces valeurs, décidera si c'est a, b1 est supérieur à ce que ce poids du X1 sera plus juste ? De cette façon, nous pouvons utiliser la régression multiple. Donc, ce que je vais faire lors de la prochaine conférence, c'est faire des exercices pratiques sur cet ensemble de données sur les voitures vides. Et nous essaierons d'utiliser régression linéaire multiple ou une régression multiple pour prévoir les miles par gallon ou faire la moyenne d'une voiture en fonction des caractéristiques qui dépendent de cela, donc ici, la cylindrée, poids de la voiture. Toutes ces variables seront dépendantes ou indépendantes. Et les miles par gallon seront les variables dépendantes. Cela signifie que ces valeurs seront poids du cylindre de la voiture, le nombre de cylindres, le poids de la voiture, cylindrée de la voiture, le nombre d'années passées dans la voiture. Ce seront les prédicteurs et les miles par gallon seront la valeur prédite. Ou bien il s'agira des caractéristiques ou des caractéristiques indépendantes, des variables indépendantes. Et il s'agira de la variable de réponse, ou de la variable de sortie, ou de la valeur de prévision. C'est ce que nous allons faire dans le cadre d'une leçon pratique lors de la prochaine conférence. Rendez-vous lors de la prochaine conférence. 44. Prévoir le kilométrage des voitures en utilisant une régression multiple dans R: Bonjour et bon retour. Nous allons donc maintenant faire quelque chose avec la régression multiple. Il s'agit donc d'un système pratique soumis à une régression multiple. Nous allons donc utiliser un ensemble de données sur les voitures vides. Et pour cela, nous n'allons pas utiliser toutes les colonnes, mais tout ce qui existe. Mais nous allons utiliser le MPG, cylindrée, le SP, et attendre Dieu, accord, la puissance et le poids de la voiture. D'accord. Donc, sur la base de ces trois points, nous allons prévoir kilométrage de la voiture ou la moyenne de la voiture, miles par gallon en haut de la voiture. D'accord, nous allons donc utiliser ces trois fonctionnalités, ces quatre fonctionnalités dans notre ensemble de données. Et trois seront les, ces trois seront les variables indépendantes, et ce NDP sera la variable dépendante ou la valeur prédite. Et ces trois éléments constitueront le prédicteur prédit. D'accord ? La première chose à faire est donc de créer le modèle de relation, le modèle de régression linéaire, notre modèle de régression multiple. Pareil, nous allons utiliser la fonction lm que nous avons ici deux pour une régression linéaire simple. Nous allons utiliser la fonction theme lm, mais avec une formule légèrement différente. Donc, quoi que nous donnions, écoutez cette soi-disant formule. Et la deuxième entrée est, deuxième argument est les données. D'accord ? Alors ici, permettez-moi de mettre ces données sur les coûts. Cela a un coût. D'accord ? Alors maintenant, voici les, voici nos données. Cela contiendra ces quatre fonctionnalités, d'accord ? Et leurs valeurs correspondantes. D'accord ? Donc, les données, nous utilisons les données sur les coûts que nous obtenons des voitures vides. D'accord ? Nous allons créer le modèle. D'accord ? Permettez-moi d'en faire un modèle de régression linéaire, un modèle de régression linéaire multiple, un modèle MLR. Je lui donne le nom. Alors laisse-moi, d'accord. Alors maintenant, notre couche, que faisons-nous ? Nous n'avions qu'une seule valeur prédite et un seul prédicteur, n'est-ce pas ? Nous avions donc l'habitude de donner comme ça, d'accord, mariés ou déplacés, de trouver le Majlis. Mais maintenant, nous avons trois variables indépendantes qui vont affecter la myéline dans la voiture. Nous devons donc donner, ce sera la valeur prédite ou la variable dépendante. Et voici ces trois, nous pouvons donner le déplacement plus ce p plus le poids. Ces trois variables indépendantes vont affecter la myéline. Ainsi, nous pouvons utiliser la fonction lm pour régression multiple et la régression car nous utilisons plusieurs caractéristiques pour prédire une valeur. Une valeur prédite sera fournie en fonction de plusieurs variables indépendantes, d'accord ? Et des données égales à cos thêta. Alors laisse-moi courir jusqu'ici. Nous allons imprimer le modèle. D'accord, voyons quels sont les coefficients et tout que nous obtenons en sodium. Donc, voyons maintenant que notre modèle donne l'interception à 37 et déplacement au vent urogénital 97 au coefficient b se produit comme suit. Et notre coefficient est à venir. Voici donc l'interception. Cette valeur d'interception est 37. sera, c'est-à-dire a. Si vous regardez cette formule, y est égal à a plus b1 x1 plus x2 plus bêta trois x trois. D'accord ? Nous en avons donc trois, donc nous en viendrons à trois. X d. En voici 37. Cette valeur d'interception sera le a, puis B1 sera le déplacement. B2 sera le HP, le coefficient HP, et B3 sera le poids des copies, soit -3,8. D'accord ? Nous avons donc maintenant les valeurs des coefficients ici. Nous pouvons simplement imprimer la valeur du coefficient. Si je mets x. Ceci, j'obtiendrai le coefficient de déplacement. C'est la même valeur que celle que j' obtiens ici, non ? Donc, ce que je peux faire maintenant, c'est mettre ces valeurs de coefficient dans cette équation pour obtenir notre valeur prédite y. Y sera le MPG. Dans ce cas, nos pilotes, en l'occurrence, nous avons cette interception et nous avons le B1 comme celui-ci, le B2. Nous l'avons et ce sera le V3. Maintenant, si nous avons une voiture d'une cylindrée 324 et d'une puissance de 110 et d'un poids de 2,5. Nous pouvons prédire la moyenne en ajoutant ces valeurs au coefficient et les choses séparent cette formule. Donc, ce que je vais faire, y est égal à un plus, donc a sera cette valeur 37, d'accord ? Et x sera l'interception du déplacement, celui-ci. Ensuite, je multiplierai cela par la valeur de déplacement 324. Alors x est p sera le coefficient de HP, celui-ci. Et je vais le multiplier par 110. Ce sera la partie la plus chaude de la voiture. Et puis x t sera le coefficient de poids que nous obtenons ici, -3,8. Et je vais multiplier cela par le poids de la voiture. Alors à plus tard, en mettant simplement dans cette équation, ces valeurs, nous pouvons prédire la production, quelle que soit cette équation, la production cadeau, ce sera le kilométrage prévu de la voiture. Alors laisse-moi juste exécuter ceci, laisse-moi exécuter ces deux lignes. Désormais, le nombre de miles prévus sur la carte est de 23,87. Donc, sur la base de la question ici, sur la base de cette équation, car ici, la valeur E sera de 37 à 0,00, 0937. Et toutes ces valeurs. Et si nous ajoutons ceci, nous obtiendrons la valeur Y. Y est le mpg de miles au-dessus de la voiture. Donc, pour une voiture de 324 cylindrées et 100 CV 10,2, 0,5, notre système prédit que la myéline est de 23,8 7247. 23,8 sera donc la moyenne de cette voiture. De même, vous pouvez donner une autre valeur pour la cylindrée en B et le poids de la voiture. Donc, sur la base de ces trois variables indépendantes, nous prédisons une variable dépendante qui est y. Voici donc les coefficients et les intersection dans cette équation pour obtenir le kilométrage de la voiture. C'est assez simple et assez réel, non ? Nous obtenons le résultat réel, nous obtenons le résultat. Et c'est-à-dire grâce à un modèle de régression multiple que nous avons créé à travers cette relation, à travers cette formule. Ici, la formule est que vous ne modifiez que toutes les autres choses sont assez similaires à la régression linéaire. Mais ici, si nous voulons encore ajouter plus de fonctionnalités, vous pouvez placer cette variable plus indépendante ici. Et il y aura une variable dépendante ou la variable de sortie. D'accord ? Donc, sur cette base, nous obtenons la sortie de 23,87. Ainsi, nous pouvons utiliser la régression linéaire multiple et la régression multiple pour prédire la valeur. Prédisez donc une valeur en fonction des nombreuses caractéristiques et de nombreuses variables indépendantes. Nous devons utiliser une régression linéaire multiple. 45. Régression logistique: Bonjour et bon retour. Dans cette conférence, nous allons apprendre régression logistique et voir un exemple simple de régression logistique et comment l'utiliser. Bien, tout d'abord, voyons ce qu' est la régression logistique. Modèle de régression logistique. Le modèle logistique, également appelé modèle logique, est utilisé pour modéliser la probabilité d'une certaine classe. Supposons que si vous le souhaitez, vous, si vous avez des données de Watson où je suis du genre à étiqueter le diabète, étiquetez toutes ces choses. Et sur cette base, vous voulez prédire si soleil est en forme ou non, n'est-ce pas ? Donc, ici, la personne est en forme ou pas en forme. Donc oui, les données sont la sortie dont nous voulons prédire qu'elle est de nature un peu binaire, juste là. Il y a deux choses qui conviennent, qui ne conviennent pas, qui conviennent à une personne ou qui ne conviennent pas à une personne, n'est-ce pas ? Le modèle logistique est donc utilisé pour modéliser la probabilité qu' une certaine classe ou que l' événement existe. Par exemple, si vous écrivez quelque chose de faux, vous aurez soit un taux de réussite, soit un taux d'échec. Si vous participez à des accompagnements vous allez gagner ou perdre. Il y a donc une sortie binaire droite, passée pâle, gagnant-perdant, vivante, morte, saine ou malade. Cela peut être étendu pour modéliser plusieurs classes d'événements, par exemple pour déterminer si une image contient un chat ou un chien, un lion, n'est-ce pas ? Vous pouvez donc mettre nos e-mails et créer un système qui les trouvera, qu'il s'agisse d'images de chats, de chiens ou de lignes, n'est-ce pas ? Donc, un truc avec un chat, un chien , un lion, non ? Chaque objet détecté dans l'image se verrait attribuer une probabilité de 0-1, n'est-ce pas ? Ça peut donc être un chat ou un chien, non ? Donc, être un chat, l'autre être un chien. Et si vous présentez n'importe quelle image, elle attribuera soit la valeur zéro ou un, une probabilité comprise entre zéro et un. Ça pourrait être 0,5 ou 1,65, comme ça, non ? La probabilité sera donc de 0-1 et toute la somme de toutes les probabilités sera égale à un car la survenance d'événements, probabilité d'occurrence d'événements seraient toujours de un, n'est-ce pas ? Nous utilisons donc notre régression logistique et notre régression logistique, n'est-ce pas ? L'équation de régression logistique est la suivante : y est égal à 1/1 plus e puissance a plus b 1X1 plus b2 x2 plus B3 X3, et ainsi de suite. Il s'agit donc de l'équation mathématique de la régression logistique. En Python, nous utilisons une fonction GLM vers une fonction GLM pour la régression logistique. La fonction GLM correspondante est donc également connue sous le nom de modèle logistique généralisé, n'est-ce pas ? Glm. Et il contiendra la formule comme nous l'avons fait pour la régression linéaire. Nous allons donc écrire la formule When avec la variable dépendante et la variable indépendante, n'est-ce pas ? Ensuite, nous devons fournir les données sur lesquelles nous voulons exécuter la fonction GLM. Ensuite, nous devons donner la famille de polices. Comme une famille. Ici, nous allons utiliser le binôme dans nos exemples. Donc, ce que je vais faire, utiliser les données sur les voitures thématiques, les données les voitures vides que nous avons utilisées précédemment, n'est-ce pas ? agit donc des données de coût que nous avons également utilisées dans l'exemple précédent. Et je vais utiliser AIM. L'objectif est comme un système de transmission automatique ou manuel. Donc, la puissance, le poids et le nombre de cylindres du moteur, n'est-ce pas ? Et cet EM est automatique ou manuel. Donc, les données sur les voitures vides contiennent zéro ou un. Permettez-moi donc de vous montrer, parcourir ces deux lignes et de visualiser les données. Voir ici, pour toutes les voitures, HP, poids et cylindre, m est égal à zéro ou à un. C'est une valeur binaire, zéro ou un. C'est soit automatique, soit manuel, non ? D'accord. Pour toutes les voitures, nous avons des données pour m, soit zéro ou un, puis un ou zéro pour toute la combinaison de puissance et de cylindres. Donc, ce que je vais faire ici dans ce problème, dans cette conférence, ce que nous allons faire avec la fonction GLM ou la fonction de régression logistique. Sur la base de ce que nous allons faire, il y a quatre choses. Quatre colonnes : am, HP, poids et cylindre. Nous allons donc essayer de trouver cela. Nous allons faire de ces HP, de ce poids et de ce cylindre des variables indépendantes. Et m sera la variable dépendante. Moyens. Nous allons faire des prévisions. Non, je vais bien, donc ce que nous allons faire, vous aider à créer un seul modèle. Nous devrions savoir quels sont les facteurs ou les caractéristiques qui auront un impact sur les valeurs prédites. Plus de soutien. Si nous créons un modèle de régression logistique avec ces trois variables de réponse ou des variables indépendantes, il se peut que le modèle ne soit pas correct car avec ces trois CV de poids et de cylindres, les trois n'auront pas le même impact sur le fait que les voitures soient manuelles le fait que les voitures soient manuelles ou automatiques, n'est-ce pas ? Peut-être que le nombre de cylindres du cylindre endocast décidera d'avoir plus d'impact sur la sculpture considérée comme une servante, comme une boîte automatique ou manuelle ou poids, la voiture a plus de poids ou de HP. La puissance détermine le facteur selon lequel les coûts seraient automatiques ou manuels. Donc, ce que nous allons faire avec la simple fonction GLM va essayer trouver laquelle de ces trois variables dépendantes. Désolé, nous arrivons à ces trois variables indépendantes ont un impact sur EM. Donc, ce que cela va faire, cela nous aidera à analyser cela, quelles sont les caractéristiques que nous devrions prendre en compte pour une analyse plus approfondie. Et laissez l'autre support IP. Nous apprenons que le poids a moins d' impact sur Am que les deux autres. Nous pouvons laisser de côté le poids pour analyse plus approfondie et opter pour le HB et le cylindre, n'est-ce pas ? Si le cylindre n'a pas d'impact, pas d'impact, nous pouvons opter pour le SPN Cette analyse nous aidera donc à trouver la caractéristique non pertinente, la colonne non pertinente pour décider de l'EM. D'accord, c'est donc ce que nous allons faire dans cette conférence. D'accord ? Alors, comment allons-nous procéder ? Nous utiliserons la fonction GLM et réécrirons la formule comme si nous faisions du m une valeur prédite ou une variable dépendante. Et ces trois variables indépendantes que nous allons essayer de créer, essaieront de générer la fonction GLM. Ensuite, avec le résumé de GLM, j' essaierai de voir quels sont le coefficient et la valeur p que nous obtenons. La valeur de p décidera l'impact que notre variable a ou non une valeur prédite. Valeur P. La valeur P signifie la probabilité d'apparition de cette chose, accord, la probabilité d'apparition d'un poids sur ce poids et ce cylindre HP. Donc, si la valeur de p est supérieure à 0,5, cela signifie que si elle est prise en compte dans le cadre de la prise en charge , la valeur de p des HP est supérieure à 0,5 , cela signifie que P n'a aucun impact, aucun impact significatif sur l'objectif. Et nous pouvons laisser le HP et continuer avec la valeur de p. Allez-y avec les variables indépendantes dont la valeur de p est inférieure à 0,05. Alors laissez-moi, nous en avons fini avec cela. Alors laissez-moi, la prochaine étape, prochaine étape est de procéder à une régression logistique. Donc, ici, je donne le nom d'une variable aux données de la voiture. D'accord ? Notre ensemble de données est donc cos Theta. Et ici, je suis en train de créer un modèle de régression logistique. Je vous donne le nom des coûts que je suis et j'utilise fonction GLM ici dans la formule. Ce que l'on me donne, on me le donne en tant que variable indépendante et dépendante, e omega, automatique ou manuelle. C'est avoir un truc binaire, non ? Zéro ou un. Et suis-je en train de donner comme variable dépendante la valeur que nous allons prédire sur la base de ces trois cylindres, SP et du radar, des variables indépendantes ou des caractéristiques qui décideront que je vais avoir raison. Et les données que j'utilise sur les voitures, données que nous obtenons du binôme voitures vides et familles. OK, maintenant, laissez-moi exécuter ceci et imprimer le résumé des données, le modèle de régression logistique des données d' une voiture. Nous avons maintenant utilisé la fonction GLM et nous en avons imprimé le résumé. Vous pouvez laisser cette copie imprimée et vous pouvez simplement exécuter le résumé. Cela vous donnera également la même chose, d'accord ? Alors voyez, cela nous donne tout ce dont nous avons assez. Même la régression linéaire concerne également le coefficient et, dans ce cas également, nous appelons la fonction GLM avec la formule suivante. D'accord ? Et nous utilisons l'ensemble de données, les données de classe et le binôme familial pour voir votre dividende. Moyenne, médiane du premier quartile, troisième quartile maximum, toutes ces valeurs que nous obtenons. Ensuite, nous obtenons les coefficients pour chaque variable indépendante. Donc ici, voyez ici intercept, nous obtenons cette valeur et voici la valeur PR, c'est la valeur p dont je parlais. Si la valeur de p est supérieure à 050,05, cette variable de précieuse, nous pouvons omettre cette variable de réponse, n'est-ce pas ? Cela n'a pas beaucoup d' impact sur l'objectif. Pour cylindre. voit ? La valeur de p est de 0,6 491. C'est bien trop élevé par rapport à 0,05, non ? Donc cylindre, cela signifie que la valeur p du cylindre est supérieure à 0,05. Cela signifie que ce nombre de cylindres n'a pas d'impact significatif sur la décision de décider si les coûts seraient automatiques ou manuels, n'est-ce pas ? Nous pouvons donc laisser le cylindre suivant, HP, HP, la valeur de p est un schéma de valeurs de probabilité de 0,084, qui est encore une fois supérieur à 0,05, n'est-ce pas ? Nous pouvons également laisser le HP car il a également une valeur de p supérieure à 0,05. Ensuite, lisez la troisième variable de réponse. Et sa valeur de p est de 0,0 276, soit moins de 0,05. Cela signifie que le poids a un impact sur le poids de la voiture et décidera si les voitures seront automatiques ou manuelles, n'est-ce pas ? poids de la carte a donc un effet significatif sur la valeur m, car sa valeur de probabilité est de 2,0, 276, n'est-ce pas ? Correct. Alors, à quelles conclusions pouvons-nous en tirer ? Nous pouvons en venir à la conclusion qu' analyse plus approfondie nous permettra d'aller plus loin. Si vous souhaitez approfondir notre modèle de régression logistique, nous pouvons laisser le cylindre et les HP et nous pouvons la variable de réponse du poids , car cela n' uniquement la variable de réponse du poids, car cela n'a qu'un impact significatif sur la valeur m par rapport au cylindre et à la puissance. Eh bien, d'accord, nous avons appris qu'à cause de cette valeur de p, la valeur de p supérieure à 0,05 décidera que la variable de réponse a un impact significatif sur la variable dépendante ou non. D'accord, c'est donc l'utilisation simple de la fonction GLM que nous avons apprise. Maintenant. Vous pouvez donc vous entraîner avec cela et prendre n'importe quel ensemble de données pour découvrir lequel des réponses les plus efficaces a un impact sur les valeurs prédites. Et vous pouvez omettre celles qui n'ont pas beaucoup d'impact sur la base de la valeur p. 46. Distribution normale: Bonjour et bon retour. Dans cette conférence, nous allons en apprendre davantage sur la distribution normale. Quelle est donc la distribution normale. Donc, avant de comprendre ce qu'est une distribution normale, laissez-moi vous dire. Dans la réalité, la plupart des données, la plupart des données, sont normalement distribuées. Et pourquoi je dis ça ? Parce que si vous examinez les données relatives à la taille en pieds, supposons que vous disposiez de données, données sur la taille et le poids, ainsi que de données sur la taille et le poids, serons-nous distribués de manière très, très normale ? Pourquoi je dis très normalement distribué ? Parce qu'il est très rare d' avoir une personne qui a très peu de taille. De plus, il est très rare que la personne se retrouve avec un colis de moins de 3 pieds au ralenti et très haut, comme un colis de moins de 3 pieds, avec une très faible probabilité de se produire. Une personne de la taille de Clifford est très rare, non ? De même, Boston avec une hauteur de 6,5 pieds libres à 7 pieds. Pourquoi triade, non ? Dans ce sens, la plupart des données sont normalement distribuées entre 4,5 et 6 pieds, n'est-ce pas ? Alors pourquoi ce type de distribution de données est connu sous le nom de distribution normale, d'accord ? Ce type de distribution bêta est donc connu sous le nom de distribution normale où la plupart des données sont distribuées pour observer la moyenne des données. Supposons donc que nous considérions ce graphique, ce graphique comme la distribution taille-poids de Parsons, alors vous pouvez voir qu'il représentera ces données. Ceci, ceci, cette fête. Je vais représenter la hauteur de la selle, le goût du sel de la Thaïlande. C'est le type C le plus long ou le Parsons avec la plus grande hauteur de tri. Il est très rare de réussir. Donc, la personne qui nous accompagne trie une taille inférieure à trois bits a tout à fait raison. Laisse-moi en faire moins de trois. Moins de trois. De même, largeur Parson, très grande hauteur, non ? Sa taille. C'est également très rare, non ? Supérieur à 6,5, n'est-ce pas ? Ces deux données trient donc moins de 3 pieds et à une hauteur de 6 pieds sont très rares. C'est pourquoi vous pouvez voir qu'il est très bas dans la courbe normalement distribuée. Une distribution normale de la courbe se produit car lorsque nous distribuons, lorsque nous traçons les données normalement distribuées, elles se présentent sous la forme d'une courbe en cloche. Pourquoi cela se présentera sous la forme d'une courbe en cloche ? Parce que voyez ici, c'est cas très rare. Il est distribué vers ici et se trouve ici à une très grande hauteur, 6,5 pieds. Ces deux sont donc représentés ici. Et la plupart des données, lorsque vous vous dirigez vers ici, sont distribuées. La plupart des données sont distribuées ici, n'est-ce pas ? Sur cette partie. Correct. C'est donc la moyenne des données, n'est-ce pas ? C'est donc le moyen. Il s'agit de la hauteur moyenne des colis. Donc, si vous voyez bien, la plupart des données sont distribuées de part et d'autre de la moyenne, n'est-ce pas ? Si vous divisez les données de moitié, vous obtiendrez la moyenne et la plupart des retraités divisés en fonction de la moyenne. La taille du pasteur augmente donc et nous allons suivre la moyenne. Et puis, après la valeur moyenne, elle augmente et atteint une hauteur très élevée de 6,5. La plupart des données sont donc normalement distribuées dans cette région. Et cette région est la région, n'est-ce pas ? Donc, la plupart des gens peuvent facilement dire qu' ils mesurent moins de 526,5 pieds. après cela, ce sera la découverte d' une personne d'une taille de 6,57, c'est très, ils ont demandé que cela arrive comme ça. Donc, de cette façon, nous obtenons une courbe en cloche, une distribution normale, les courbes sont toujours BellKor et voici la moyenne. Et c'est ce qu'on appelle l' écart type. Donc, écart type par rapport à la valeur moyenne. Donc, plus vous vous écartez de la valeur moyenne, vous allez de ce côté ou de ce côté. C'est ce qu'on appelle une distribution normale. La courbe de distribution normale peut être très riche en glucides comme celle-ci, ou elle peut être comme celle-ci violette, ou elle peut être comme celle-ci. Cela dépend également de leurs données, mais ce sera la moyenne des données. D'accord ? Ce sera la moyenne de ces données et ce sera la moyenne de ces données, n'est-ce pas ? C'est ce qu'on appelle la distribution normale. La plupart des choses notre vie sont normalement distribuées, n'est-ce pas ? Ainsi, dans la prochaine conférence, nous verrons quelle est la propriété de distribution normale et comment tracer des données normalement distribuées. 47. Distribution normale: Bonjour et bon retour. Dans la conférence précédente, nous avons donc compris ce qu' est la distribution normale et comment elle fonctionne. Dans cette conférence, nous allons nous familiariser avec la distribution normale et nous verrons quelles sont les fonctions intégrées que nous avons dans notre programmation pour la distribution normale. Il existe donc essentiellement quatre types de distributions normales. Les fonctions sont de niveau dans notre programmation et elles sont nominales. Cette fonction d norm, qui prend trois arguments ou trois valeurs en entrée, savoir x mean et sd, est un écart type. Alors, qu'est-ce que X ici ? X est le nombre vectoriel. Comme quoi ? Vecteur de nombres. Supposons donc que vous ayez un ensemble de données, nous ayons un certain nombre de preuves indiquant que vous souhaitez obtenir la probabilité et tout. Donc, pour cela, le vecteur numérique de sortie fonctionne vecteur numérique des nombres et la moyenne est la moyenne que vous voulez, vous devez décider quelle épingle sur quelle moyenne. Vous souhaitez tracer la distribution normale. Et puis c'est la moyenne de l'ensemble de données, d'accord ? Et puis l'écart type, vous devrez donner l'écart type. La valeur maximale par défaut est un pour l' écart type. Et nous pouvons donner n'importe quelle valeur à ce que représente le graphique, mais la valeur par défaut est une. Si vous ne donnez pas de couleur à quelque chose, par défaut, l'écart type sera considéré comme un écart type. La norme D est donc une fonction. Et puis nous avons la norme P qui doit être énorme. Envoie également les premiers chiffres, puis la moyenne et l' écart type. Ensuite, nous avons la norme Q, qui prend p. P est un vecteur de probabilités. Ici, X est un vecteur de nombres. Dans la norme qnorm, l'entrée p est un vecteur de probabilités, puis la moyenne et l' écart type tels quels, puis nous avons une autre fonction appelée are non-bank et une fonction inconnue prendra comme entrée la moyenne et l' écart type également. OK, alors qu'est-ce qu'il y a ici ? N est le nombre d'observations. Cela signifie que la taille de l'échantillon augmente le nombre total d' échantillons dans lesquels nous allons entrer et les prélever, d'accord ? Et la moyenne est la valeur moyenne des données de l'échantillon. Sa valeur par défaut est zéro. D'accord ? Voici ce que nous allons faire et nous donnons l'écart type, la valeur standard par défaut est un. D'accord ? Commençons donc par une distribution sacrément normale. Donc, ce que je vais faire d'abord, c'est voir quelle est la distribution normale pour X et d. Maintenant, quelle est la fonction norme ? Donc, le cadeau nul, la hauteur de la distribution de probabilité à chaque point pour une moyenne et un écart type donnés. Cela vous donnera donc la hauteur de la distribution de probabilité à chaque point du jeu de données. Et pour la moyenne donnée, car la moyenne est l'entrée que nous donnons avec l'écart type et le vecteur des nombres. D'accord ? Supposons donc que nous comprenions quel est l'exemple, nous prenons un x comme un nombre d'acteurs qui sont des nombres corrompus. D'accord ? Quoi que nous fassions ici, nous générons une séquence de nombres allant de moins cinq à 20. Ensuite, ce qui nous est donné, l' écart type car nous augmentons moins cinq à 20 en incrémentant 0,15. D'accord ? Donc, comme -0,15, -5,15, -5,3, comme ça. D'accord. Il sera donc incrémenté. Le nombre généré aura été augmenté de 0,5 en blanc, d'accord ? X dispose donc d'une voie à péage gratuite. Tu vois, c'est ainsi que les chiffres seront générés. D'accord ? Et puis, ce que nous faisons ici, nous prenons notre vecteur y et fonction normale de la région D et nous tracons x comme étant aussi important que X obtenu à partir de cette fonction de séquence. Cela signifie que je donne 7,5 supposons et l' écart type que je donne un point. Ensuite, je trace le graphique avec les x et y. Donc x sera cette valeur et y proviendra de cette fonction dnorm. D'accord ? Permettez-moi donc de commenter ce x et d'exécuter ce morceau de code. Alors cliquez ici, c ici. Nous obtenons maintenant ce diagramme de distribution normal. Donc, ici, la moyenne est de 7,5. Et les données 7,5 sont normalement distribuées avec un écart type de 0,1. Écart type du point. Donc, si je donne 0,5 de likes, vous voyez, nos données arriveront comme ça, elles arriveront comme ça. Si j'en donne un, qui est l' écart type par défaut, notre graphique ressemblera à ceci. Si je donnais 1,5, notre graphique se présentera comme suit. Si je le donnais comme outil, notre intrigue se présentera comme suit. OK, vous pouvez donc donner l' écart type comme pour l'autre quadrant et tracer x et y, nous allons le faire, nous traçons les valeurs x et y. D'accord ? Il s'agit donc de 13 toxines totales, ce qui donne la hauteur de la distribution de probabilité à chaque point. La suivante est donc la norme p nautée p. Qu'est-ce que cela donne à la probabilité nombre aléatoire normalement distribué soit inférieur à la valeur d'un nombre donné, d'accord ? Et elle est également appelée fonction de distribution cumulative. Nous prenons donc ici le même exemple et nous incrémentons de 0,4. Ensuite, nous générons y en utilisant la norme p x. Nous transmettons x ici dans la fonction p-norm. Et puis je donne à nouveau à quelqu'un un par cinq et l' écart-type. Ensuite, je trace x et y. Et lorsque nous traçons , nous obtenons ce type de données. Si je mets un écart type de support , vous voyez, nous avons comme ça, d'accord, si je l'augmente par le vent, Support 0,5. D'accord ? Ainsi, nous pouvons obtenir la fonction p-norm que nous pouvons utiliser et obtenir ce type de graphique. Donc, ce que cela lui donnera, c'est la probabilité nombre aléatoire normalement distribué soit inférieur au nombre donné. D'accord ? Et nous verrons le reste des deux normes et notre chiffre dans la prochaine conférence. 48. Distribution normale: Dans la conférence précédente, nous avons vu comment implémenter la fonction dnorm pour une distribution normale. Et nous avons également vu p Now pour une distribution normale. Dans cette conférence, nous allons maintenant voir le sens de qnorm et de Don Funk pour la distribution normale. Alors, qu'est-ce que la fonction qnorm ? Cette fonction prend la valeur de probabilité et conserve le nombre dont la valeur cumulée correspond à la valeur de probabilité. C'est assez simple ici, nous allons utiliser l'autre élément important ici. Ce que nous allons faire, c'est utiliser 0,1 et générer la séquence de nombres 0-1 et trois nombres seront incrémentés de 0,03. Nous allons donc générer une séquence de nombres de 0 à 1, et chaque nombre sera incrémenté d'OpenGL ou de trois. Ensuite, nous utiliserons la fonction qnorm tout en fournissant cette entrée exogène. Et ce que je donne, moyenne S2 et l' écart type égaux à deux. Vous pouvez donner tout ce que vous pouvez si vous le souhaitez, donner une moyenne égale à 1,5, vous pouvez donner un écart type, vous pouvez donner un ou 1,5 et voir comment se présente votre graphique pour deux, une moyenne standard S2 et un écart-type deux, nous obtenons ce graphique. Et si je l'exécute pour la version 1.5, nous obtenons quelque chose comme ça. D'accord ? C'est ainsi que nous utilisons la fonction qnorm pour une distribution normale des données. D'accord ? Maintenant, la prochaine chose est que ne sont pas anonymes, utilisés pour générer des nombres aléatoires pour la distribution, c'est normal. Alors, quel est notre chiffre et, comme je l'ai dit dans la conférence précédente, Dexter n comme entrée, n étant le nombre d' observations ou de sites d' échantillonnage, n'est-ce pas ? Donc, quel que soit l'autre nombre dont nous disposons, la taille de l'échantillon le donnera comme entrée à la fonction. Donc, ce que cela va faire, c'est prendre la taille de l'échantillon comme entrée, comme ici, je donne du cartilage et cela générera des nombres générés aléatoirement pour la taille de l'échantillon. Supposons que l'on nous donne 30 ici, taille de l'échantillon. Il va donc générer les numéros du générateur aléatoire. Ensuite, nous utiliserons l'histogramme pour dessiner cette distribution normale en utilisant une console inconnue. Ce vecteur y affichera donc nombres générés aléatoirement à partir de cette taille d'échantillon 30. D'accord ? Donc, une fois que nous l' avons exécuté, nous obtenons cet histogramme pour les nombres générés de manière aléatoire. D'accord, voici comment nous utilisons la fonction inconnue pour une distribution normale. Permettez-moi donc d'imprimer y pour que nous puissions voir quels chiffres nous obtenons ici, c ici. Donc, si vous cliquez sur Console, voici les chiffres générés à l'aide du by 30. Il va donc générer des nombres aléatoires comme celui-ci. Et l'histogramme que nous allons tracer sont des nombres générés aléatoirement dans un histogramme. Donc c'est le, c'est le y entre moins un et trois, il est vendu. Et puis sur le support, c'est l'axe X, c'est l'axe Y, c' est la fréquence. Donc g rho deux, comme des nombres de moins un à qui apparaissent quatre fois moins un à zéro. Il s'agit de la fréquence des nombres et de zéro à 1,122, comme ceci. D'accord ? Permettez-moi donc de modifier les données pour obtenir un support qui le portera à 100. Et si je lance ceci, voyez, nous obtenons cet histogramme. Et si vous voyez la console, vous verrez que c'est ainsi que nous utilisons la fonction pnorm pour dessiner le diagramme en utilisant notre fonction inconnue pour une distribution normale. D'accord ? C'est ainsi que nous utilisons la distribution normale. Et nous avons vu la norme Qnorm du Nord-Vietnam et des fonctions inconnues, la distribution normale des données. Combien de temps 49. Récursion en R: Bonjour et bon retour. Dans cette conférence, nous allons en apprendre davantage sur la récursivité dans notre programme. Alors, qu'est-ce que Dickerson ou qu' est-ce qu'une fonction récursive ? fonction récursive est donc une fonction qui s' appelle elle-même plusieurs fois, n'est-ce pas ? Alors soutenez-vous si vous souhaitez effectuer la même opération encore et encore. Nous pouvons utiliser le Dickerson pour ne pas agir comme si vous deviez avoir appris comme un chiffre quelque peu anormal. Certains d'entre vous ont numéroté toutes ces choses comme ces problèmes, comme trouver des nombres naturels où n peut varier de un à n'importe quel nombre, n'est-ce pas ? Jusqu'à un pour 100 000, quelque chose comme ça. Donc, pour résoudre ce genre de problème, nous devons utiliser le Dickerson et votre curseur est très important lorsque nous programmons, n'est-ce pas ? Ainsi, dans notre Also, nous pouvons utiliser la fonction Dickerson. La fonction récursive peut s'appeler elle-même encore et encore pour effectuer les opérations. Et enfin, cela nous donnera le résultat. Donc, pour comprendre comment fonctionne la récursivité dans notre programmation, nous allons créer un programme simple pour trouver la somme des nombres naturels jusqu'à n en utilisant la récursivité. D'accord ? Nous allons donc essayer de trouver, allons donner un chiffre, n'importe quel nombre. Et nous allons essayer de trouver la somme des nombres naturels de un à ce nombre. Supposons que je donne 85. Donc, ici, je veux trouver la somme des nombres naturels jusqu'à 85 min, un plus deux plus trois plus cinq plus six plus sept plus huit, jusqu'à plus 85, n'est-ce pas ? Pour résoudre ce genre de problème, nous devons donc utiliser la récursivité. Donc, ce que je fais ici, simplement écrire une fonction simple c'est simplement écrire une fonction simple et je lui donne un nom de soulignement n. Cela signifie certains des nombres naturels, n'est-ce pas ? Quelques soulignements sur n. Et à l'intérieur, je prends l'entrée comme argument, car n u n sera le nombre de nombres naturels, n'est-ce pas ? Nombre naturel à partir duquel nous voulons calculer la somme. Hein ? Ici. Je fais la simple vérification. Ce que je suis en train de faire ici. Je vérifie simplement si n est inférieur ou égal à un, je le renvoie simplement. Alors pourquoi je vérifie cette condition ici ? Parce que si n vaut un, nous devons en renvoyer un car un correspond à un mois. Les nombres naturels commencent par un. Et parfois, certaines personnes considèrent les nombres naturels avec zéro de toutes sortes. Dans le cas de 0,1, nous devons renvoyer ce nombre lui-même car vous produisez zéro, nous devons renvoyer zéro et s'il s'agit d'un, nous devons en déterminer un seul, n'est-ce pas ? Il n'est pas nécessaire d'appeler la fonction récursive. D'accord ? C'est donc le cas pour prendre en compte le 0,1 si vous considérez les nombres naturels, y compris zéro, et s'il part de un, si vous considérez alors un, d'accord ? Donc, en gros, les nombres naturels commencent par un, mais parfois les gens considèrent qu'Agile commence à zéro également. D'accord ? Et puis je l'utilise, je donne une condition if , puis j'utilise une autre condition. Sinon, ce que je fais, c'est simplement renvoyer Gan et un peu de Yan plus , c'est-à-dire supposons qu'un chiffre soit deux, supposons que je vous en donne deux. Supposons donc que ce nombre soit deux à deux plus la somme égale à moins un, la somme de un. Donc, ce qu'il fera, c'est environ deux plus la somme de deux en été pour moins un. Nous allons en faire la somme d'un. Il arrivera ici et la somme de un en retournera un. Cette fonction renverra deux plus un à plus un sera trois. Donc, si nous exécutons cette fonction, nous obtiendrons la sortie sous la forme trois ici. Parce que certains nombres naturels allant jusqu'à deux sont trois, non ? Supposons que j'en donne trois ici. Que va-t-il se passer ? Cela prendra, cela entrera dans la partie parce que trois ne satisfont pas à cette condition, n'est-ce pas ? Plus d'un, non ? Il entrera donc dans la partie différente et il ne renverra que n plus trois inculpations et plus. Et puis il les appellera à nouveau lui-même. La fonction s' appellera elle-même la fonction sum n dans Excel. Et cela fera en sorte que certains de N trois moins deux, autres en auront deux, d'autres en auront deux. Alors n est égal à deux, il viendra ici. Alors, ce que ça va faire, deux plus trois plus deux plus la somme de deux moins un, la somme d'un. Il va entrer ici et il en retournera un. Donc trois plus deux plus un. Combien ? Six. Donc ce sexe écrit. Voyez ici que la production est de six ans. Nous avons donc compris comment cela se passerait. Laisse-moi juste mettre le temps de commande. C'est la première fois que cela arrivera ? Ce sera comme bonjour, c'est fait. Trois plus trois plus la somme du trait de soulignement N. Trois moins 13 moins un signifie deux. Donc, ça va en provoquer jusqu'à, d' accord, puis ça s'appellera tout seul. C'est ce que l'on appelle la récursion. Encore une fois, à l'étape suivante, ce sera le cas, la prochaine étape sera écrite en trois, résumant comment cela se produira. Il viendra ici pour fonctionner, prendra l'entrée S2, puis il viendra dans l'autre partie, mais en plus. Donc, ça va arriver comme si trois plus deux moins 12, moins 12 moins un, c'est la somme de un, n'est-ce pas ? La prochaine étape est donc trois plus deux plus la somme d'une eau de plaisir estivale, elle ira, elle appellera la fonction elle-même. Et cela équivaudra à la somme d'un. La somme de un renverra n, c'est-à-dire un. Cela nous donnera donc le premier résultat. Il y aura donc trois plus deux plus un. C'est ce qu'on appelle la ticarcilline, le résultat final que nous obtenons n'étant que de six. Et voici aussi trois plus 25 plus 16. Donc ça s'appelle Records Sun, n'est-ce pas ? Soutenir. Je vais vous donner un gros chiffre, 785. Il entrera donc dans cette fonction et appellera 75 moins un, puis 782-52-7875 moins 1784. Ensuite, il arrivera ici, 74 moins 17823. Il continuera donc à appeler. C'est ce que l'on appelle la récursion. Donc, si nous exécutons ceci, nous obtiendrons le résultat comme ceci. Ok, détends quelque chose, d'accord ? De cette façon, nous pouvons utiliser la récursivité dans notre programmation pour trouver la somme des nombres naturels. 50. Trouver un facteur d'un nombre utilisant la récursion dans R: Dans cette conférence, nous allons donc faire un autre Hansen. Et dans cette conférence, nous allons essayer de trouver la factorielle en utilisant la récursivité. Alors, savez-vous ce qu'est la factorielle d'un nombre ? Tu dois être sympa, non ? Vous devez avoir étudié cela dans vos cours de mathématiques. Donc, en mathématiques au lycée, tu dois savoir ce qui est factoriel. Laissez-moi vous dire ce qui est factoriel. Factoriel, notre numéro de téléphone est le produit de tous les entiers compris entre un et ce nombre supporté Si je dis factoriel de deux, facteur deux sera le produit de un à deux. Produit des chiffres 1 et 2. Donc, le produit de la factorielle de deux sera un sur deux, non ? Si je dis que la factorielle de trois est un sur deux sur trois. De même, si je dis factoriel de sept et que nous désignons le facteur comme ceci. factorielle à sept sera donc une à partir du produit des nombres de 1 à 7. Ce sera donc un sur deux sur trois en 45 et 6,7 , soit environ 5 040 en produit du nombre. Donc, factoriel pour un nombre commence à partir de un jusqu'à ce que ce nombre multiplie chaque nombre et obtienne le produit de tous les nombres. D'accord ? Donc 1287, si je mets mon huit factoriel ici, ce sera le produit des nombres de 1 à 8. Et ce sera autre chose, non ? Trouvons donc quel en est le factoriel. Alors laissez-moi exécuter ce programme et le mettre en ligne. Laisse-moi exécuter ça. factorielle C de huit est 43 20, donc la factorielle de 8 sera 43 20. C'est ainsi que nous pouvons trouver la factorielle d'un nombre en utilisant la récursivité. Permettez-moi donc d'expliquer cette fonction, que nous avons écrite pour trouver la factorielle d'un nombre. Je suis donc en train d'écrire une fonction factorielle récursive. Et cela prendra le numéro comme entrée. Et là, je vérifie si n est inférieur ou égal à un, je vais simplement renvoyer le chiffre un, d'accord ? Alors le facteur zéro est aussi un, d'accord ? Donc, si c'est un ou zéro, la sortie sera renvoyée comme un. Et si le nombre est supérieur à un, il ira dans l'autre partie. Et ici, ce que je fais, je l'utilise, j'utilise N dans, N dans, puis j'appelle nouveau la fonction de la même fonction. C'est ce que l'on appelle le concentré à être. La fonction s'appellera elle-même à l'intérieur de la fonction. La fonction s'appellera elle-même à l'intérieur de la fonction, et c'est ce qu'on appelle la récursivité. Donc, dans cette fonction factorielle record, nous l'appellerons fonction factorielle. Et il vous en faudra n moins un. Cela signifie pour le support factoriel de celui-ci. Allons-y, puis il ira aux polices et récapitulera la factorielle. Et l' entrée sera égale à huit moins 17. L' entrée sera donc égale à sept, et nous appellerons cet enregistrement factoriel. Encore une fois, la fonction viendra ici. Encore une fois, il arrivera ici et ce sera huit sur sept, une factorielle record de six. Et comme ça, ce sera récurrent, non ? C'est ce que l'on appelle la récursion, elle continuera à s'appeler elle-même à l'intérieur de la pilule fonctionnelle. Le nombre devient zéro. Ça va ? Ça va donc commencer de 8 h à 6 h. Et puis ce sera comme s'il en résulterait un moins 10. Et puis factoriel de n moins un. factorielle de zéro deviendra donc un et nous obtiendrons le produit de huit en sept en six en cinq en quatre en trois en un. Et c'est ainsi que fonctionne la factorielle. Permettez-moi de changer ce chiffre à cinq et cela fera environ 120. Tu vois, la factorielle de cinq est 120, d'accord ? Voici donc comment la fonction factorielle intervient dans notre programmation en utilisant la récursivité. La constante est donc prise en charge et j'écris cette fonction par rapport à la factorielle. Et dans cette fonction elle-même, j'appelle la fonction elle-même. Donc, dans la fonction factorielle récursive, j'appelle cet enregistrement factoriel. Et c'est ce que l'on appelle la récursivité lorsque la fonction qui s'appelle elle-même à l'intérieur s'appelle le Carson. Lorsque la fonction s'appelle elle-même, elle appelle la voiture son. D'accord ? C'est ainsi que fonctionne la récursivité dans notre programmation. Nous en avons vu deux exemples. L'une consiste à trouver la factorielle d' une fonction en utilisant la récursivité. Et dans l'exemple précédent, nous avons vu comment trouver la somme des nombres naturels à l'aide de la récursivité, où nous construisons cet écosystème pour trouver la somme des nombres naturels. Et ici, nous avons trouvé la factorielle d'un nombre en utilisant la récursivité. 51. Échantillonner des données d'une population: Bonjour et bon retour. Dans cette conférence, nous allons découvrir l'échantillonnage d' une population à partir d' un ensemble de données en programmation R. C'est donc très important, car lorsque nous sommes confrontés à un problème d'apprentissage automatique, de science des données ou d'inondation, nous disposons d'un énorme ensemble de données, n'est-ce pas ? Et nous voulons obtenir des informations à partir des données, ou nous voulons un échantillon de données. Supposons que nous ayons une population principalement urbaine et que nous voulions analyser le nombre de Parsons atteints de diabète. Nous devons donc obtenir un échantillon de données, les analyser et, sur cette base, nous pouvons créer un modèle et ensuite appliquer ce modèle à une population plus large, n'est-ce pas ? Ainsi, le fait de prélever une petite population ou un échantillon de population à partir d'un vaste ensemble de données s'appelle l' échantillonnage d'une population. En général, échantillonnage d'une version bêta est très important. Et pour le savoir, nous devons savoir ce que c'est, nos fonctions sont simples, comment créer des vecteurs. Nous savons donc toutes ces choses. Donc, ce que nous faisons, nous verrons un exemple simple de la façon dont nous pouvons procéder à l'échantillonnage. D'accord ? Il permet donc de gérer l' échantillonnage et de fournir un support d'échantillonnage à l'échantillonnage, ou possède une fonction intégrée appelée échantillon. Donc, notre fonction d'échantillon, cet échantillon SAM PLE simple, cette fonction d'échantillon, ce qu'elle va faire, elle échantillonnera simplement la population si nous donnons un échantillon et que nous donnons n'importe quel nombre entier en entrée. Donc, ce qu'il va faire, c'est échantillonner un à 20 numéros, signifie qu'il créera une population, population d'un à 20. Donc, si je lance ceci, voyez ici, laissez-moi l'effacer afin que nous puissions voir correctement la sortie. Donc, si je lance cet exemple 20, vois ce qu'il va faire. Cela créera des nombres de 1 à 20 dans notre population. Et ce n'est pas contre, ça n'a pas gagné un certain hasard, d'accord ? Il n'est donc tout simplement pas organisé par ordre croissant ou décroissant. Juste les chiffres de 1 à 20, ça va générer. Donc 123, tous les chiffres de 1 à 20. D'accord ? C'est ainsi que nous pouvons créer un échantillon de nombres de 1 à 20. C'est un exemple simple. La prochaine chose est ce que je vais faire. Je vais créer un vecteur de 1 à 15 nombres. Supposons que c'est le, c'est notre ensemble de données qui contient les nombres 1 à 21 à 15 ici, je suis par exemple de un à 20, c'est notre vecteur x où nous conservons les nombres de 1 à 20. Voici donc la population. Ce x sera connu sous le nom de population car il s' agit de l'ensemble de données complet dont nous disposons. Donc X est la population. Et à partir de cette population de x, je veux échantillonner extérieurement cinq éléments, ou cinq. Je veux un exemple de fichier. Je veux les cinq. Ce sont les marques. Est-ce là, voici le nombre de personnes préimprimées. Je veux le nombre de cinq personnes seulement. Je veux donner un échantillon de cinq éléments. Comment pouvons-nous le faire ? Nous pouvons utiliser la fonction d'échantillonnage. Nous pouvons indiquer la population ici, x, puis la virgule cinq, le nombre d' éléments que vous souhaitez échantillonner à partir de l'ensemble de données sur les lots à partir de X. Ainsi, l'échantillon x virgule cinq nous donnera les cinq nombres aléatoires de ces grandes données démographiques et créera un échantillon pour nous. Alors laissez-moi exécuter cela rapidement, puis échantillonnez l'exon 5. Voir ici. Nous obtenons maintenant 481 410,12 à partir de l'ensemble de données démographiques, n'est-ce pas ? L'ensemble de données sur le populisme est celui-ci, d'accord ? De un à 15. Donc, à partir de là, nous obtenons le résultat aléatoire pour 81 410,12. Il s'agit de notre exemple de jeu de données. Si je le lance à nouveau, il nous donnera cinq chiffres différents. Vous voyez, maintenant l'échantillon est modifié et il faut donc choisir au hasard cinq nombres parmi ce vecteur x ou cette population x, et cela créera un échantillon de données. Voici donc comment fonctionne notre exemple de fonction. Ensuite, nous pouvons donner à replace égal à vrai. Donc, pour celui-ci, remplacez par deux. Cela générera les mêmes chiffres. Si je le lance à nouveau, il nous donnera les cinq chiffres différents ici remplacés, ce n'est pas nous donner la guerre comme elle le fait. si nous utilisons notre échantillon et que nous fournissons des actes en tant que population, nous utiliserons simplement remplacer égal à vrai. Que va-t-il se passer ? Voyons voir. Il remplacera l'élément c. Maintenant 51302, 74, 414-151-2312. Tu vois, tous les chiffres ne sont pas bons, un à 15. Certains nombres ont été remplacés 131 fois, mais cinq correspondent à une fois, 14 se répètent trois fois, 12 deux fois. Salut, voilà. De la même manière, certains chiffres seront remplacés par d'autres chiffres, comme certains qui soutiennent un numéro, le support. n'y a personne là-dedans, mais notre ensemble de données d'origine en comptait un à 15. Mais ici, pas tous les chiffres, de 1 à 15 ici, non ? La plupart des numéros sont remplacés. Donc, ce qui est remplacé par la valeur vrai fera l' affaire, il continuera à remplacer les nombres de l'ensemble de données. Donc, à partir des un, deux ou trois pour cent , il faudra prendre certaines données, répéter et remplacer certains chiffres. Certains nombres ont donc été remplacés par la somme des autres nombres, comme un seul. Supposons que l'un soit répété, l'un ait été remplacé par quatre, n'est-ce pas ? De la même manière, 14 a remplacé un autre nombre, comme six ou quelque chose comme ça. Parce que le sexe manque ici. Il manque ici. Donc, les 6,8 qui manquaient ont été remplacés par les autres chiffres de l'ensemble de données sur la population. C'est 14412, non ? Cela permettra donc remplacer le chiffre en interne et d' intégrer le sexe à notre échantillon de population pour nous. Il continuera donc simplement à remplacer les données les unes par les autres. D'accord ? Supposons alors que nous ayons un événement où la tête et la queue lancent une pièce. Nous avons donc deux événements, n'est-ce pas ? Soit on prend la tête, est-ce qu'on va bien ? Supposons que nous ayons cet exemple d'ensemble de données et un événement réciproque de la tête et de la queue de H et T. Et nous voulons qu'il soit échantillonné. Cela donnera la taille de l'échantillon à imprimer et à remplacer égale à deux. Ce qu'il va faire, il va simplement l'exécuter, voir ce qu'il va faire. Il créera simplement un échantillon avec un T et un bord, une tête et une queue. Et il va répéter la tête et le dire plusieurs fois. Parce que nous avons donné la taille des échantillons en violet. Cela créera ainsi l' Edge DHHS, une entité. C'est tout à fait aléatoire. Il s'agit d'un séquençage selon lequel, si vous le réexécutez, vous pouvez obtenir une autre séquence de H et de T, et ce sera un script à la hausse. De cette façon, nous pouvons créer un échantillon d'événements de tête et de queue. Et nous pouvons donner les chiffres ici. Si j'en donne cinq, ce sera fait. Cela nous donnera le TTT. Voyez ici les tendances temporelles auxquelles nous avons donné que cinq queues. queues, des queues arrivent. Non, il n'y a pas de tête. Si j'y arrive, supposons six. Nous allons maintenant passer à la tête, la queue, à la queue et à la tête. C'est donc assez aléatoire. Ainsi, nous pouvons utiliser la fonction d'échantillonnage dans la programmation R pour obtenir l'échantillon d'une grande population, comme nous l'avons fait ici. Nous avons pris cette population x, qui contient les nombres de un à neuf, et nous n'avons prélevé que cinq éléments de cet ensemble de données. Et nous avons créé notre échantillon de cinq éléments. Voici donc comment nous pouvons utiliser la fonction d'échantillonnage pour obtenir l'échantillon à partir d'un ensemble de données démographiques, d'accord ? 52. Programme pour vérifier les numéros Prime: Bonjour et bon retour. Dans cette conférence, nous allons donc apprendre comment vérifier si un nombre est premier ou non. Tels sont donc les problèmes auxquels nous pouvons être confrontés lors de nos entretiens de codage compétitifs, où l'intervieweur peut vous demander d'écrire un programme pour trouver la somme de n nombres ou s'il faut prendre un nombre premier ou non, des nombres pairs ou des nombres pairs. Comment vérifier un nombre pair, comment prendre un nombre premier. Voilà donc les problèmes, se posent assez souvent aux examens de synthèse et en viennent aux tests de programmation. Il est donc préférable de savoir également comment implémenter cela dans notre programmation. Si vous êtes un scientifique des données en herbe et un ingénieur en apprentissage automatique et en IA. Il est donc bon de connaître les bases, non ? Ainsi, dans la série de conférences, nous exploitons ces éléments, comment écrire un programme dans notre programmation pour trouver un nombre premier, en particulier dans cette conférence. D'accord ? Ce programme doit donc vérifier si le nombre est premier ou non. Et le numéro que nous allons prendre comme entrée jack. Nous demanderons donc à l'utilisateur de saisir l'entrée, et une fois que l'utilisateur aura saisi le numéro saisi, nous prendrons ce numéro d'entrée et nous vérifierons si ce nombre est premier ou non. Et pour cela, nous allons utiliser la boucle for. Donc, si vous savez comment utiliser if et else, et for loop, vous serez plutôt doué pour faire ce programme. D'accord ? Et laissez-moi vous dire ce qu'est un nombre premier ? nombre premier est donc un entier positif supérieur à un, qui n'a pas d'autres facteurs que un et le nombre lui-même. Alors, qu'est-ce que cela signifie ? Supposons que nous ayons un nombre pour le numéro quatre, nous pouvons écrire sous la forme de deux en deux. Il y a donc deux facteurs. Deux en deux, deux en deux, c'est quatre, non ? Il ne s'agit donc pas d'un nombre premier. Supposons que nous ayons un numéro. Supposons que nous ayons le numéro six. Numéro six, nous pouvons écrire sous la forme deux dans T3. Il y a donc deux facteurs, 2,3. De même, nous avons un numéro. Supposons que nous ayons le numéro cinq. Cinquièmement, on ne peut pas écrire un facteur, n'est-ce pas ? Nous ne pouvons pas transformer le chiffre deux en quelque chose comme deux , nous sommes impatients. Nous pouvons en faire deux en 2,5, mais ce n'est pas correct. Nous devrions avoir les facteurs entiers au clair. De cette façon, ce n'est pas possible, non ? Donc, des nombres comme cinq, qui ont un, un facteur, un et lui-même. Nous pouvons donc écrire cinq sous la forme de un sur cinq. De même, comme si nous 77, nous pouvons également écrire sous la forme de vouloir sept Wanli. Nous pouvons l'écrire quelque peu à l'aide d'autres nombres, comme nous avons écrit six à trois, nous ne pouvons pas, nous ne pouvons pas trouver un nombre qui puisse diviser. 77 peut être divisé par un, seul 1,7. C'est pourquoi les nombres premiers sont des nombres, nombres entiers positifs supérieurs à un, qui peuvent être divisés par un. Le nombre lui-même, qui n'a pas d'autres facteurs que l'un et le nombre lui-même. Donc les nombres premiers ou deux, puis trois, puis cinq, puis sept, puis LeBron, puis 13, puis 17, et ainsi de suite. Ce sont donc les nombres premiers, C7. Nous ne pouvons le diviser par aucun autre nombre sauf un et lui-même, 13 également, 11 également. Il s'agit donc du nombre premier. Nous savons maintenant quels sont les nombres premiers. Passons à la résolution de ce problème. Donc, tout d'abord, comment prendre les entrées de l'utilisateur dans R. Nous pouvons donc utiliser la fonction de ligne de lecture pour obtenir les entrées de l'utilisateur. Vous devriez donc connaître la fonction readline, qui comporte un argument Azure rapide. La fonction readline sera donc rapide, elle invitera donc l'utilisateur à le faire. Et quoi que vous écriviez ici, cela s'affichera sur la console. Et il vous demandera de faire tout ce que vous écrivez ici supposons que nous saisissons ici, nous écrivons, veuillez entrer un chiffre. L'invite prendra donc le numéro saisi par l'utilisateur et nous le transmettrons à la fonction de lecture de ligne. Et ici, nous pouvons convertir cette entrée utilisateur en deux nombres entiers. Donc, ce que nous sommes, c'est que nous stockons le numéro saisi par l'utilisateur. 0 et n variables. Ainsi, en tant qu'entier à points, il sera converti en entier à partir de tout ce que nous obtenons de cette fonction arborescente via cette invite. D'accord ? Donc, si je lance ceci ici, si je l'exécute, il nous demandera de saisir un chiffre. D'accord ? Alors laisse-moi éclaircir ça. D'accord ? Ensuite, nous installons un drapeau. Il est appelé à zéro. Dans un premier temps. Nous allons, nous verrons pourquoi nous utilisons cet indicateur égal à zéro, et nous verrons également pourquoi il arrive. C'est une somme, car nous avons saisi les chiffres. Il nous montre le même numéro. C'est la somme, ah, modification que nous allons voir. OK, donc nous mettons le drapeau à zéro. Et puis nous ajoutons le don. Comme je l'ai dit, les nombres premiers sont toujours supérieurs à un, n'est-ce pas ? Commencez par deux au 357-11-1317 comme ça. Il est donc toujours supérieur à un. Donc, tout d'abord, nous allons vérifier si le nombre est supérieur à un. Ensuite, nous entrerons dans la boucle. Et si le nombre n'est pas supérieur à un, alors ce n'est certainement pas un nombre premier, n'est-ce pas ? Donc, pour ce drapeau, ce sera zéro. Et pour le drapeau zéro, ce que nous donnons, pour le drapeau zéro, on ne nous donne pas un nombre premier. Donc, si vous entrez un nombre en moins, moins deux, moins trois , moins cinq , ils apparaîtront ici. Pulse et ça va donner, ça va. Donc le message indiquant que vous avez saisi un numéro n'est pas un nombre premier, d'accord ? Et si le nombre est supérieur à un ? Soutenez 235678, tous ces numéros. Donc, ce que nous allons faire, c'est vérifier les facteurs. Et avant de vérifier les facteurs, ce que nous allons faire, nous allons régler le drapeau sur un. D'accord ? Un signifie qu'un nombre est premier, d'accord ? Nous l'avons donc initialement mis à zéro. Maintenant, pour ce qui est du nudge, nous allons entrer dans cette boucle if, if function, if statement, ce que nous ferons si le nombre est supérieur à un, définira l'indicateur égal à un au départ. Et puis quel bleu, nous allons créer une boucle en forme de « for ». Et quelle sera la boucle à suivre ? Car la boucle est pour I en deux, car les nombres premiers commencent par 22 et se terminent par n moins un. Et moins un signifie que nous saisissons cinq, donc deux à quatre. Donc, en deux à 4 minutes, il faudra quatre à T pour ces trois chiffres. Et ce qu'il faudra pour le facteur, que le nombre soit un nombre divisé par deux, trois ou quatre, il peut être divisé par 23,4 ou non. Et puis, si aucune personne, cette personne l'a fait, je ne sais pas, elle vérifiera le facteur si le nombre saisi est divisé par, supposons que nous saisissons cinq. Il vérifiera donc si le segment est divisé par deux ou non. Et puis il vérifiera divisé par trois ou non. Ensuite, il faudra soit quatre, soit être différent de, égal à zéro. Ensuite, nous mettrons le drapeau à zéro. Et s'il est divisé par 234, le drapeau sera égal à zéro et il sortira de l'instruction for. Cela rompra la boucle du for et en sortira. Et d'accord, et si n est égal à, égal à deux, le drapeau sera égal à un. Donc, ce qu'il va faire ici, c'est vérifier si le nombre est, supposons que nous saisissions six. Donc six est divisé par deux, non ? Il sera donc égal à zéro. Il mettra donc le drapeau à zéro et il sortira de la boucle. Et il signalera. drapeau zéro apparaîtra dans l'autre partie, et il le fera, donc ce n'est pas un nombre premier. Supposons que nous en arrivions à cinq. Donc, cinq est divisé par deux. Non, il sortira et le drapeau aura un an. Donc, le drapeau un signifie que cinq est un nombre premier, non ? De la même manière, nous entrons dans huit, donc huit est divisé par, il faudra deux à sept pour d'abord diviser par deux. Diviser jusqu'à ce que le drapeau soit égal à zéro. Il sortira de la boucle et indiquera zéro car ce n'est pas un nombre premier comme ça. Il vérifiera et nous donnera le résultat. Soutenez-nous, nous entrons dans 11, il faudra donc N divisé par 211/2. Non, il sortira de la boucle pris en charge. Nous entrons dans la cystéine. Cystéine divisée par 2/2. Oui, zéro drapeau 016 divisé par ça. D'accord ? Il sortira donc de la boucle en enregistrant, mettant l'indicateur à zéro. Et tous les nombres ne seront pas des nombres premiers. Et supposons que nous entrions en 1717/2. Non. Donc, deux se produiront, cela sortira de la boucle et le drapeau sera égal à un. Un drapeau égal à un signifie que c'est un nombre premier. Et si c'est le nombre que vous avez saisi, alors directement des nombres premiers, n'est-ce pas ? Et d'une part, nous arrivons dans l'autre partie, plus qu'un, nous arrivons dans l'autre partie. D'accord ? Alors laisse-moi consulter toute cette source. Quel est le problème ici ? OK, laisse-moi le réexécuter. Maintenant, la console nous demande de saisir un numéro. Supposons que je saisisse un numéro un. Je suis désolée. Supposons que je saisisse un numéro un ici et que j'appuie sur Entrée, que se passera-t-il ? Un n'est pas un nombre premier. Pourquoi un n'est pas un nombre premier ? Il viendra ici et vérifiera si n est supérieur à 100 ou plus. Yan est supérieur à un ou pas. Donc ce n'est vraiment pas le cas, il n'entrera pas dans cette boucle et le drapeau sera nul pour celle-ci parce qu'il n'entre pas dans cette boucle if parce que F est un et il viendra ici, drapeau égal à zéro. Alors maintenant, il va arriver ici. Et il vérifiera que le drapeau est égal à un nœud. Il viendra donc dans la deuxième partie et étudiera l'Arabie saoudite. Cela entrera dans cette autre partie. Et un n'est pas non plus un nombre premier comme celui-ci. D'accord ? Laisse-moi recommencer. Et si j'en saisis deux, désolé, si j'en saisis deux ici, que se passera-t-il ? Dans c2, c'est un nombre premier. Pourquoi deux est un nombre premier ? Il va venir ici et c'est plus qu'un, n'est-ce pas ? Deux est supérieur à un. Ensuite, le drapeau, il en placera un, puis il viendra ici pour le diviser par, pour le diviser par deux contre un, n'est-ce pas ? 2/2. Donc C est 2/2 si vous célébrez. Donc ça va sortir de cette boucle, non ? Et le drapeau en sera un. Deux est donc un nombre premier. Si j'en mets trois, désolée. Si je le répète et que je mets le chiffre trois, alors il reçoit trois, c'est un nombre premier. Pourquoi ? Parce qu'il figurera dans cet indicateur de déclaration if. Cela placera le drapeau à 1,4. Signalez un, ce sera nombre premier, puis il entrera dans ce I à quatre boucles en 222, n'est-ce pas ? Donc 3/2, non. Cela va donc briser cette déclaration et le drapeau n'en fera qu'un, n'est-ce pas ? Donc, et ce sera le nombre premier. Ainsi, si vous entrez soutien sur la longueur ou 17, cellule de soutien saoudienne saisit 17 ici. 17 est un nombre premier, pourquoi ? Il va arriver ici et 17, c'est mieux qu'un. Il viendra ici, placera le drapeau sur un, puis il entrera dedans pour faire une boucle pour i en 21617/2. Oui 17 n'est pas dévié par deux, il sortira donc de cette boucle et le drapeau restera 1.4. Signal 1, le nombre est un nombre premier et c'est pourquoi ces 17 sont un nombre premier. C'est ainsi que nous pouvons écrire un programme simple pour trouver des nombres premiers dans notre programmation. 53. Programme pour vérifier EVEN ou ODD: Dans cette conférence, nous allons écrire un programme dans notre programmation pour déterminer si le nombre saisi est pair ou impair. Nous allons donc prendre la saisie de l'utilisateur et lui demander de saisir un numéro. Et en fonction de la saisie de l'utilisateur, vous verrez que le numéro saisi par l'utilisateur est un nombre impair ou un nombre pair. Hein ? Alors, qu'est-ce qu'un nombre pair ou impair ? Donc des nombres qui sont divisés par 0/0 sans le reste. C'est ce qu'on appelle le nombre pair. Supposons que nous ayons un nombre x et que si nous divisons le nombre par deux et que nous obtenons zéro pour rappel, alors c'est un nombre pair. Et si le nombre est divisé par deux et qu' il nous donne du reste, alors un nombre pair. Donc, tout simplement, si un nombre est divisé par deux et que le reste est égal à zéro, alors divisez-le par deux. Et c'est donner une certaine demande, c'est un nombre impair, non ? Passons donc au programme. J'ai donc écrit ici un programme dans lequel je prends l' entrée sous forme d'entier. Je prends donc l'entrée de l'identifiant utilisateur sous forme d'entier, et je demande à l'utilisateur de saisir le numéro, veuillez entrer un nombre. La fonction readline sera donc utilisée pour prendre en compte l'entrée et l' invite de l'utilisateur que nous donnons. Veuillez saisir un chiffre. Ensuite, nous convertissons en un entier yeoja, Ads point. D'accord ? Donc peu importe ce que c'est, un nombre entier, non ? Ensuite, nous vérifions simplement si ce nombre n est divisé par deux. Et si le reste est nul, alors n est divisé par deux. Si Amanda est égale à zéro, nous dirons que n est un nombre pair. Et si nous obtenons un reste autre que zéro ou un nombre, n'est-ce pas ? C'est un chiffre impair. C'est si simple. Si n est divisé par deux et que le reste est égal à zéro, alors s'il s'agit d'un nombre pair, et si le reste est différent de zéro, c'est un nombre impair, n'est-ce pas ? Alors j'espère que tu as eu l'idée. Alors laissez-moi vous dire quels sont les nombres pairs et impairs. Donc 24681012. Tous ces nombres sont des nombres pairs. Et nos chiffres sont comme 35791113. Tous ces chiffres. Donc, non seulement cela, ça continuera jusqu'à ce que OK. Donc, le numéro que F lady a attendu longtemps avec Gino exigeait. Demandé est appelé nombre pair. Un nombre impair s'il indique une valeur inférieure à zéro. Exécutons donc ce programme et voyons le résultat. Permettez-moi donc de clarifier cela d'abord. Entrez un numéro. Supposons que je saisisse le numéro 45. Donc, la tension de sortie qui arrive à 45 avec eux, ou un nombre par 45, est un nombre impair car si nous divisons 45, nous obtiendrons un, soit une demande, soit deux en 20 à 44,1, nous recevons pour rappel, donc le rappel est différent de zéro. Cela va donc entrer dans cette autre partie. Et c'était vraiment la méthode selon laquelle 45 est un nombre impair. Et supposons que je le lance à nouveau, et que si je saisis un chiffre 12, désolé, je vais saisir le chiffre 12, alors 12 est un nombre pair. Supposons que je le lance à nouveau. Et si je saisis un chiffre, ici, doit nous donner un chiffre pair en ligne droite. Et si je le lance à nouveau, et si j'obtiens cinq, et que j'obtiens cinq, c'est un nombre impair. De cette façon, nous pouvons déterminer si un nombre est impair ou même une simple logique et si divisé par deux est égal à zéro. Si ça part de zéro. Pour rappel, nous disons quel numéro, sinon ce sont des numéros de tri. J'espère donc que ces programmes simples vous aideront à comprendre le fonctionnement de la programmation et votre logique. Et ce sont également des questions très populaires dans les interviews, en particulier pour un congélateur. Et si nous avions un nouveau diplômé et que nous recherchions un emploi, ces questions sont assez courantes stages universitaires, d'accord. 54. Programme pour vérifier Positive Negative ou ZERO: Dans cette conférence, nous allons écrire un programme dans lequel nous allons vérifier si un nombre est négatif, positif ou nul. Il s'agira donc d'un test simple où nous verrons si un nombre est négatif, positif ou nul. Donc, pour cela, nous ferons la même chose que nous avons fait dans la conférence précédente de Linda, mais légèrement différemment ici. Le numéro peut être attribué à un double lombaire. OK, prenez donc la saisie comme double et nous utiliserons la fonction de ligne de lecture et la même invite, veuillez saisir un chiffre. Ensuite, nous vérifierons si le nombre saisi est supérieur à zéro. S'il est supérieur à zéro, donnera le message. N est un nombre positif. Et s'il est égal à zéro, nous donnerons comme si c'était un zéro. Et dans ce cas uniquement s'il est différent de zéro. Ensuite, il va d'abord vérifier cela. Si n est supérieur à zéro, alors postrénal, d'accord ? Ensuite, il entrera dans la partie else L3 en utilisant un if-else imbriqué. Si le nombre n'est pas supérieur à zéro, on passera à cette autre partie. Et puis dans cette autre partie, nous vérifions si le nombre est égal à zéro donnera le nombre égal à zéro. Sinon, si le nombre n'est pas nul et supérieur à zéro, inférieur à zéro, alors ce que nous allons faire, c'est taper cette autre partie. Cela signifie que ce sera un nombre négatif, n'est-ce pas ? Si le nombre est inférieur à zéro. Si le nombre n'est pas supérieur à zéro, si le nombre n'est pas supérieur à zéro, n'est-ce pas ? Mantissa, ça peut être zéro ou inférieur à zéro, non ? Donc, si c'est zéro, nous aurons zéro. S'il est inférieur à zéro, nous passerons à l' autre partie et mettrons le message comme si le nombre nombre négatif, il suffit de vérifier. Laissons ça. Laisse-moi éclaircir ça. D'accord ? OK, ici. OK, alors allons-y. Permettez-moi donc de saisir un chiffre pour soutenir l'Atlanta. Oh, moins cinq. Moins cinq, c'est un chiffre. Je suppose que je vais le relancer et saisir 45. Désolée. Je vais entrer dans 45 ans. Quatre à cinq, c'est une portion ou supposons que je recommence, pratique, je vais mettre zéro. J, le numéro Saudi Tito est zéro. D'accord ? Et puis supposons que je le lance à nouveau et que je donne un nombre double comme -78.5. Donc -7 578,5 est un nombre négatif, n'est-ce pas ? De la même manière, si je mets moins huit , cela donne un négatif. Il s'agit donc d'un programme simple pour trouver où le nombre est positif, négatif ou nul. 55. Programme pour vérifier l'année bissextile ou NON: Bonjour et bon retour. Dans cette conférence, nous allons écrire un programme pour trouver où se trouve cette oreille , en Bolivie ou non. Alors, qu'est-ce qu'une feuille ici ? Partez d'ici. Vous aurez droit à un jour supplémentaire , par exemple trois à six jours par an. 376 jours ici sont soudainement apparus, non ? Alors, comment déciderons-nous si le chantier ne sera pas une année bissextile ou non. Il existe donc une formule simple. Si l'oreille est divisée par quatre et que le reste est égal à zéro, cela pourrait être une Libye, mais ce n'est pas une caisse d' un litre, n'est-ce pas ? Si l'oreille est divisée par quatre, il s'agit de la fonction du module. Si vous le divisez par quatre et que vous donnez zéro à n'importe quel fournisseur, cela pourrait être la Libye. Mais nous devons vérifier une autre condition, savoir si le nombre est également divisé par cent. De plus, si vous divisez le rapport d'étude de Centraide et que vous le donnez à zéro, il pourrait s'agir d'une année bissextile, mais nous devons vérifier si cela est divisé par cent et vous donner un rappel de 0/100. Le reste est également égal à zéro. Encore une fois, cela pourrait être un live ici, mais encore une fois, nous devons vérifier une condition laquelle les données sont encore divisées par 400 et en donnant un rappel égal à zéro Si cette année est également divisée par 400, alors ce sera donc votre année bissextile. Et si ce n'est pas le cas, ce ne sera pas comme en Libye. La première condition que nous devons vérifier est donc de savoir si les modifications sont divisées par quatre, puis nous devons vérifier si elles sont divisées directement et le reste est égal à zéro complètement divisé, droite, pour votre modèle, cela signifie un module 40. Ensuite, nous avons un projet encore plus ou moins 100, c'est environ, alors venez zéro et l'année, le module 400. Ils sont donc également nuls. Si c'est le cas, il a sa, euh, Livia. Livia. OK. Et si, et ici aussi, ce n'est pas un divisé par 100, alors ce n'est pas encore en ligne. sortant également de ce panneau, passez à l'autre partie. Et si elle n'est pas divisée par quatre, n' est certainement pas une année bissextile. D'accord ? Donc là aussi, si l'année n'est pas bien orientée pour cela, ce n'est pas une Olympiade. D'accord ? Alors lançons ce programme, soutenons et entrons en 2020. 2020 est la solution préférée car elle est divisée par quatre. Il est également divisé par cent. Et il sera divisé, non ? 400 aussi, non ? Eh bien, c'était vraiment juste vers 400 années 2020. Je savais que j'écrivais pour le oui. Et s'il n'est pas divisé par y, s'il est divisé par cent et que vous ne vous souvenez que de zéro, alors nous avons le projet 400. Mais voilà, ça nous donne quelque chose aux demandeurs, n'est-ce pas ? C'est pourquoi le reste n' est pas nul ici. On va donc passer à l' autre partie et ça vous placera à 20 h 20, c'est la Libye. Donc, si c'est plus ou moins égal à zéro, alors nous devons vérifier si c' est divisé par 400 ou non. Si le module n'est pas égal à zéro, alors on en arrivera à cette étape et cela nous permettra de voir que la Libye des années 2020 soutient à nouveau un cadre autour de ce module. Et si je donnais 1520-500, oui, assez soudainement, pour encore ou pas. Donc C et 2051, c'est divisé par quatre. Il va donc venir ici. Il le prendra et le divisera par 100 ou non. Il est donc entièrement divisé par 100. Ensuite, il va diviser cette boucle et vérifier si elle est divisée par 400 ou non. Voyez donc 2500/400, ce que cela nous donnera pour le reste. Il n'est pas nécessaire que quelqu'un le rende à zéro Il arrivera donc ici et il arrivera à l'autre partie, car le reste n'est pas égal à zéro. Et cette pièce, elle en imprimera 2 500, n'est pas une Libye. Entrons donc et voyons le résultat. C, 2 500, ce n'est pas une feuille ici, non ? De même, si je mets 19 1 900, non seulement la peur, 2 300 2300, je ne pas encore en vie, n'est-ce pas ? Attendez, j'ai encore besoin de Tao Qian. 12. Si tout à coup, nous comprenons pourquoi il est en direct ici, parce qu'il est divisé par quatre, alors nous en viendrons à cela et verrons si le taux annuel total de cette année est divisé par 100, ce qui nous donne un reste de zéro. Non, cela ne nous donne pas le zéro restant. Nous devons donc vérifier à nouveau. Et cela passera clairement à la partie santé et cela imprimera Libyan. OK. Ainsi, nous pouvons écrire un programme pour déterminer si une divinité particulière dort encore ou non. 56. Programme de table de multiplication: Bonjour et bon retour. Donc, dans cette conférence, nous allons écrire un programme simple pour imprimer une table de multiplication, n'est-ce pas ? Aimer une table de multiplication est une table pour aimer. Supposons que la table de multiplication soit égale à deux, puis deux à 24, puis à 2,236, soit 2482 dans un tube comme ça. D'accord ? C'est une table de multiplication si simple que nous allons imprimer. Et pour cela, nous allons écrire un programme. J'ai donc déjà écrit le programme pour gagner du temps. Eh bien, nous allons d'abord prendre l'entrée de l'utilisateur sous forme d'entier, et nous vous demanderons de saisir un nombre. Dès que vous aurez saisi un numéro. Nous allons prendre ce numéro. Et ce que nous allons faire, est faire une boucle. Ce qu'il y a entre un et dix, à cause de la table de multiplication, nous voulons y mettre fin. 14, jusqu'à dix chiffres Valley, non ? Alors, ensuite, nous allons imprimer la multiplication , calculer le nombre n. Et ce que nous allons faire, nous allons simplement multiplier N par i. Nous allons donc d'abord les prendre, ou quelqu'un prendra les chiffres de trois à trois pour un. La prochaine fois que le tableau arrivera, j'en serai un. Donc 3,22 et 3,23 jusqu'à dix. Comme ça. Il imprimera la table de multiplication et, simplement, c'est pour la sortie. Ce sera donc trois en un égal à 33 en deux. Du sexe comme ça. OK, alors lançons ceci et supposons que j'en saisisse trois ici. Alors, quel sera le résultat pour voir trois sur 13 et moi dans un an, accord, donc trois en un égal à 33 en un égal à trois, puis trois sur 26 jusqu'à dix. Donc, si vous souhaitez augmenter ce nombre, vous pouvez placer un coude de soutien ici. Et si je le publie à nouveau, et si je parie sur trois ans, alors regardez ici, ce sera en pré-impression. Ainsi, vous pouvez générer la table de multiplication ou pour n'importe quel nombre n, pour n'importe quel nombre de nombres premiers jusqu'à obtenir la douleur appropriée, un proton ou ce que vous voulez. Supposons donc que je le lance à nouveau et que je garde le numéro 20, étudiez. Numéro, 25 ans, Atlanta 25. Laisse-moi clarifier les choses. Je vais saisir un chiffre de 25 ans. Je veux générer la table de multiplication pour 25. 25 en tête-à-tête. Si je voulais choisir t, 25 contre trois équivaut à 75,25 sur dix, s'il vous plaît. Ainsi, nous pouvons générer la table de multiplication dans notre programme. 57. Quelles sont les valeurs manquantes et les types de valeurs manquantes: Bonjour et bon retour. Dans cette conférence, nous allons apprendre concept très important appelé imputation de données manquantes dans. Ainsi, chaque fois que nous réalisons un projet d'analyse de données, projet d'apprentissage automatique ou même un projet de science des données, d'intelligence artificielle ou d'apprentissage en profondeur. Quel que soit le projet que vous menez en lien avec les données, nous devons travailler sur les données. Et l'un des problèmes les plus difficiles, ou le plus important, est désormais l' absence de valeurs dans les données. Alors, qu'est-ce que je veux dire par valeurs manquantes ou données manquantes ? Ainsi, lorsque cela nous aidera à collecter des données, nous collectons des données à l'aide de sondages ou nous demandons aux gens de remplir des formulaires. Et pendant que les gens naviguent sur Internet, nous collectons des données, pendant que les gens naviguent, nous collectons des données, ils vont faire des achats. Nous collectons des données par le biais de poèmes en demandant des commentaires, toutes ces choses. Il existe donc différentes manières de collecter des données, n'est-ce pas ? Et dans ces différentes méthodes de collecte de données, la personne qui nous fournit des données ou qui nous fournit des données hésite parfois des données ou qui nous fournit des données à fournir toutes les données que nous demandons à Bob, n'est-ce pas ? Et s'il hésite et que Gibbs a des données incorrectes ou qu'il ne conserve pas de données pour certaines valeurs du formulaire, alors les données seront manquantes, n'est-ce pas ? Et cela va de pair, sans compléter les données. Et lorsque nous essayons d' analyser ces données, nous pouvons rencontrer des problèmes car de nombreuses colonnes ou lignes de données seront manquantes. Supposons que l' exemple le plus simple soit que vous vous rendiez dans un centre commercial et personnes vous demandent de remplir un formulaire de commentaires dans lequel elles vous demanderont des informations telles que vos coordonnées familiales, votre numéro de téléphone portable, votre adresse e-mail nom de votre mère , le nom de votre rue, où partez-vous ? Quelles sont tes préférences ? Combien résolvez-vous ? Dans un mois ? Vous êtes comme les détails de votre salaire, toutes ces données. La plupart d'entre nous ne seront donc pas prêts à donner toutes ces données, comme nos données salariales notre adresse personnelle ou notre numéro de téléphone portable. Nous avons donc tendance à cacher et à ne pas fournir ces données sensibles ou les détails de notre famille, par exemple si nous sommes mariés ou non, si nous avons une cage ou non. Nous ne fournissons pas ces données. Ainsi, lorsque l'entreprise collecte données auprès de milliers de personnes dans le centre commercial, en les interrogeant, elle les analyse au moment où elle collecte les données, lorsqu'elles entrent. Ils constateront que la plupart des gens n' ont pas répondu à la question de savoir combien ils possèdent et quel est leur état matrimonial, combien d'enfants ils ont s' ils ne proposent pas ce genre de rupture, ils ne seront pas en mesure de les classer. Eh bien, comme s'ils pouvaient aider certaines personnes. Ils se sont mariés et n'ont pas rempli la colonne, mariés ou célibataires. Ils seront donc soit mal catégorisés , soit ils ne seront pas en mesure de les catégoriser. Et c'est là le gros problème des projets d'analyse de données et d'apprentissage automatique ou de science des données. Pour résoudre ce problème, il existe des moyens de combler les valeurs manquantes. Alors soutenez-vous. Si vous avez des données numériques, à l'appui, vous avez les données sur l'âge et le poids que vous avez collectées auprès de milliers de personnes et certaines personnes pour lesquelles elles sont manquantes ou âgées. Donc, ce que nous pouvons faire dans le cas de données numériques, nous pouvons simplement utiliser l'ensemble de données disponibles. Et nous pouvons remplir la valeur moyenne ou la valeur moyenne dans les valeurs manquantes. Toutes les valeurs manquantes seront remplies par la valeur moyenne ou la valeur moyenne. Cela complétera les données et nous pourrons obtenir une bonne analyse à ce sujet. C'est donc un moyen simple d'imputer les données manquantes dans R ou dans n'importe quel projet de science des données. OK, donc dans le cas de valeurs manquantes, numériques, et si les valeurs manquantes ne sont pas numériques ? Ce que nous allons faire Maintenant que nous avons compris, nous avons compris quelles sont les valeurs manquantes et quelles sont les autres régions pour elles. Comparons donc les types de valeurs manquantes aux types de valeurs manquantes. Nous les avons classés en trois catégories. L'un est M, CAR, puis MAR, ou le dernier est un MAR. Alors, qu'est-ce que ce MC, ARM, cat. Donc MCAR, Stanford disparue complètement au hasard, C4 manquante, A4 complètement aléatoire, disparue complètement au hasard. Et c'est le type rougeâtre de valeurs manquantes lorsque l'absence n'a aucun coût. En d'autres termes, les valeurs manquantes ne sont liées à aucune fonctionnalité comme leur nom l' indique. Ce lac. Il s'agit d'un cas très rare où, par exemple lorsque vous avez saisi les données dans la base de données Excel CDART, vous avez oublié les données. Ou lorsque nous échantillonnons des données ou que nous interrogeons certaines personnes, certaines personnes, de manière aléatoire, vous manquez certaines données. C'est donc un cas assez rare où nous obtenons le MCAR. Ensuite, la colonne suivante, les données MAR, MAR signifie manquante au hasard. C'est assez courant et cela implique que les valeurs manquantes peuvent être complètement expliquées par les données dont manquantes peuvent être complètement nous disposons déjà. Par exemple, il se peut que les hommes soient susceptibles penser qu'une enquête est liée à la dépression quel que soit leur degré de dépression. Comme. Supposons que certaines personnes soient déprimées et que nous les servions. Donc, la plupart des gens cachent leur état mental, n'est-ce pas ? Ils sont très réticents à partager leur santé mentale, n'est-ce pas ? Ils cacheront donc qu'ils ont des problèmes mentaux. Et cela aura tendance à obtenir des informations erronées de la part des gens. Donc, ces valeurs manquantes ou MAR , c'est-à-dire manquantes au hasard, proviennent en fait d'une hypothèse sur les données. Et il n'y a aucun moyen de prouver si les données manquantes donnent une valeur MAR supérieure. Chaque fois que les valeurs manquantes sont classées dans la catégorie MAR ou MCA ou deux valeurs supérieures, elles peuvent être ignorées en toute sécurité. Donc, MCAR, MAR, comme s' ils avaient disparu au hasard, nous pouvons les ignorer. Nous pouvons, si vous avez des données contenant ce type de valeurs manquantes, vous pouvez simplement ignorer ces valeurs et vous pouvez continuer complètement sans remplir ces valeurs manquantes et les supprimer de l'ensemble de données. Et c'est tout à fait normal. Vous n'en manquerez pas beaucoup car tous les numéros sont absents au hasard. Cela ne le lie à aucune fonctionnalité ou à aucune variable susceptible d'affecter de le résultat global de vos données. D'accord ? Le dernier est un AR, et M signifie « ne pas manquer au hasard ». Et c'est important. Pourquoi ? Et CMR. Et lorsque les données ne sont pas MCAR, MAR, elles seront classées comme non manquantes au hasard. Et ce qui n'est pas oublié hasard signifie que, comme je l'ai dit plus tôt, lorsque nous interrogeons des personnes dans un centre commercial, elles peuvent cacher le nom de leur conjoint, le nom de leurs enfants, leurs coordonnées, les détails de leur carte de crédit ou leurs informations salariales. Ce n'est donc pas un hasard, non ? Les gens cachent volontiers des données qu'ils ne fournissent pas. Et lorsque vous analyserez les données, vous constaterez que les personnes n' ont pas indiqué état civil, le nom de leur conjoint, ni le nombre d'enfants qu'elles ont et combien ils ne le sont pas. Ces données ne manquent donc pas au hasard. C'est donc important. Et ce n'est pas un hasard et il se peut que nous ne sachions pas quel cas se trouve le colis. Par exemple, si une personne n'avait rien dit au sujet de son état matrimonial, qu' elle soit mariée ou non, nous ne serons pas en mesure de la classer comme un homme marié ou un homme célibataire. Et cela posera le problème que nous ne serons pas en mesure de classer cette personne dans une catégorie particulière et que nous ne serons donc pas en mesure d' analyser correctement nos données. Et si nous ignorons que NM AR ne répond pas à des données manquantes au hasard, alors supposons que les analystes ou les data scientists ignorent ces données ne manquent pas au hasard. Il se peut qu'il fasse de mauvais calculs, fasse de mauvaises prévisions, ce qui se traduira par d'énormes pertes pour l'entreprise. Si vous êtes là pour vous soutenir, si vous prédisez le chiffre d'affaires de votre organisation et si vous ignorez de ne pas manquer de données aléatoires dans votre jeu de données, si vous prédisez le chiffre d'affaires de votre organisation et si vous ignorez de ne pas manquer de données aléatoires dans votre jeu de données, vous risquez de vous retrouver avec prévisions erronées et de ne pas cibler correctement vos clients, ce qui peut entraîner d'énormes pertes . Et cela vous posera de nombreux problèmes. Vous devez donc prendre soin de ces trois types de valeurs manquantes. Et vous, lors de l'agrandissement, vous devez savoir quels sont les types de valeurs manquantes dans votre jeu de données. Et s'il ne manque pas dans un ensemble de données aléatoire. Et comment, comment savez-vous que les données manquantes ne manquent pas au hasard, les valeurs manquantes ne manquent pas au hasard. Et que vous pouvez décider en fonction de l' impact de cette valeur manquante. D'accord. Donc, que la personne soit mariée ou non, cela affecte parce que vous n'êtes pas en mesure de catégoriser correctement la personne. Ainsi, vous pouvez identifier les implications et impact que cette valeur manquante aura sur l'ensemble des données et résultats que vous allez obtenir de l' analyse des données. Ainsi, à part la moyenne, si nous n'avons pas de données numériques, vous pouvez ajouter d'autres valeurs manquantes en utilisant la moyenne de l'ensemble de données. Donc, à part cela, nous avons des packages R que nous pouvons utiliser pour imputer les valeurs manquantes. Et il s'agit de la fibre issue des packages R populaires pour l' imputation des valeurs manquantes. Et la première et très populaire est cette souris MIC. Il s'agit du package qui peut être utilisé pour imputer les valeurs manquantes. Alors Emilia est un autre package, forêt manquée en est un autre et manquez un autre. Un MI est le cinquième. Voici donc les cinq packages Popplet R pour les valeurs manquantes. Ou à l'aide de ces packages, nous pouvons très bien calculer, imputer les valeurs manquantes dans notre ensemble de données et nous obtiendrons une excellente analyse de nos données. J'espère donc que vous avez compris ce que signifie l'imputation de données manquantes dans R. Quelles sont les valeurs manquantes, les types de valeurs manquantes et comment identifier le type correct de valeurs manquantes et comment traiter les valeurs manquantes. D'accord, alors à la prochaine conférence. 58. Importer des valeurs manquantes dans un ensemble de données: Bon retour. Ainsi, dans la conférence précédente, nous avons expliqué quelles sont les valeurs manquantes et quels sont les types de valeurs manquantes Nous avons découvert que MCAR, MAR et MAR ne manquaient pas au hasard. Nous avons donc découvert quelles sont les valeurs manquantes et quels autres types de valeurs manquantes nous pouvons observer dans la vie réelle lorsque nous utilisons nos compétences, nos projets de science des données. Et nous avons également vu quels sont les packages disponibles dans notre programmation nous pouvons utiliser pour imputer les valeurs manquantes. Nous en avons donc cinq, un package R populaire, des souris, Aemilia, Ms. Water, Act, j'ai raté un IRM. D'accord. Ce sont donc les points que nous avons abordés dans la dernière conférence. Maintenant, nous allons faire notre travail pratique et notre projet dans le cadre duquel nous utiliserons l' ensemble de données intégré disponible avec notre package, le jeu de données iris. Et dans cet ensemble de données Iris, nous inclurons certaines valeurs manquantes. Nous avons donc intentionnellement mis des valeurs manquantes dans l'ensemble de données Iris. Ensuite, nous essaierons d'imputer les valeurs manquantes à l'aide de certaines données. Nous allons donc utiliser le colis Mme Perished et les souris utiliseront les souris et Mme Perez pour le faire, d'accord ? Imputez donc les valeurs manquantes dans l'ensemble de données. D'accord ? Pour cela, nous allons utiliser le milieu de la forêt et nous allons utiliser le jeu de données Iris qui se trouve dans la zone de soudage. La première étape consiste donc à charger les données. Donc, pour charger l'ensemble de données intégré qui est facilement disponible dans R, nous devons simplement appeler ces données. Les données sont donc égales à celles-ci. Et lorsque nous ajoutons des données à quelqu'un, et que nous les exécutons, nous obtenons quelqu'un dans l'ensemble de données sur l'iris. Donc, voyez ici, ce sont les données que nous obtenons à partir du résumé de ces données irlandaises. Il existe donc de nombreuses autres données, mais il ne s'agit que d'un simple résumé des données irlandaises. La prochaine chose à faire est de savoir ce que nous devons faire. Nous le ferons, puisque nous utilisons le package de souris ici. Donc, les expressions idiomatiques des souris manquent à des valeurs aléatoires, non ? Voyons donc les valeurs manquantes dans notre ensemble de données car cet ensemble de données Iris ne contiendra aucune valeur manquante. Donc, ce que nous allons faire, c'est mettre les valeurs manquantes, voir les valeurs manquantes dans notre ensemble de données en utilisant fonction NA large et cette fonction d'élargissement que nous pouvons obtenir à partir de la fonction Miss Forester. D'accord, donc avec cela, nous pouvons utiliser Iris point, omettre les valeurs manquantes, et nous pouvons utiliser la fonction broad n. Et nous utilisons l'ensemble de données pour donner le nom du jeu de données ici, iris et non 0,01. D'accord ? Et lorsque nous le ferons, il verra, quoi qu'il en soit, les valeurs manquantes dans notre ensemble de données. Ainsi, lorsque nous essaierons d' exécuter ce morceau, nous verrons pourquoi nous obtenons cette erreur, car cette fonction d' élargissement n'est pas disponible parce qu'elle appartient au luxe que le package manque de finition. Donc, ce que nous allons faire, essayer d'installer le MS Perished et les souris. Alors laissez-moi d'abord, puisque notre notification arrive ici comme un package de souris à installer. Il suffit donc de cliquer sur Installer et sur les données manquantes principales dans RMD, les souris du package seront installées. Il va donc commencer à s'installer. Vous pouvez maintenant voir le processus d'installation qui a été lancé pour installer des souris. Il va donc le télécharger, cela prendra quelques secondes. D'accord ? Les paquets ont donc été installés avec succès. OK, la prochaine étape est d' installer un autre package appelé Miss Forester. Nous allons donc simplement taper si vous le manquez. D'accord ? Il suffit donc de cliquer sur Installer et le package Hmisc sera installé. Installez ce package. Vous pouvez également utiliser la commande installed packages et vous pouvez leur donner ce nom de forêt et elle sera installée. D'accord, maintenant, le système de stockage d'eau manquante a également été installé avec succès. Essayons de lancer celui-ci. Un morceau ci-dessus. J'ai juste enseigné le mythe et la religion, j'ai créé une fonction et un taux annuel de 0,01. OK, alors allons-y. Je ne sais pas pourquoi nous recommençons. Alors maintenant, ces packages mal pliés ont été correctement installés. Maintenant, nous pouvons simplement et ensuite je vais m'occuper de ce que je pensais que Miss avait apporté. Ensuite, je vais publier le résumé de Irish Dartmouth. Et nous allons voir ici. Ainsi, lorsque vous verrez ce résumé des données irlandaises, vous ne verrez aucune valeur. Vous verrez qu'il n' y a aucune valeur. Mais lorsque nous utilisons cette large NA et impure certaines valeurs manquantes dans les données sur l'iris. Et nous allons créer un nouvel art, des valeurs manquantes. Nadar de IDs. Les enfants m'ont appris. Tu vois, oui, ça, ce qu'il fait, il ajoute de la longueur des sépales, de la longueur et de la largeur des sépales, longueur des pétales et de la largeur des pétales et c'est 19 et les protéines de l'ARN setosa. Nous avons donc introduit ces nombreux 1 819,14. Toutes les valeurs utilisant cela ont été introduites dans une fonction du package Hmisc. Ensuite, nous devons supprimer les variables catégorielles. D'accord ? Alors exécutons-le et voyons ici. D'accord, nous avons donc supprimé cette espèce. Des espèces comme la couleur virginica. Nous avons supprimé toutes ces choses, les données catégorielles en ont été supprimées. Et ensuite, nous allons procéder à la mise en œuvre souris, ce que nous ferons lors de la prochaine conférence. 59. Importer des valeurs manquantes à l'aide de la méthode PMM: Donc, lors de la conférence précédente, nous avons utilisé n'importe quelle fonction du package Myths Forest pour introduire 10 %, 10 % valeurs manquantes dans notre ensemble de données. Ainsi, un nouvel ensemble de données est soit un échec de départ, soit un échec, et lorsque nous exécuterons ces 10 % de valeurs manquantes, elles seront introduites dans nos données. Et pour vérifier cela, nous allons exécuter ceci et nous obtiendrons le résumé ici. Et ici, vous pouvez voir que des valeurs NA ont été introduites dans nos données. D'accord ? Ensuite, je supprime les variables catégorielles afin que nous puissions nous concentrer sur les valeurs continues. D'accord ? À quoi ressemblent les puits continus ? voyez, si vous voyez ici, sont la valeur continue du fil et les espèces, comme les colonies, de quelle couleur est la Virginie ? Il ne s'agit pas de données catégorielles, nous allons donc les supprimer. Donc, ce que nous avons supprimé, nous avons supprimé Select, nous avons utilisé l'irlandais appris à manquer, l'ensemble de données et ce que nous connectons, nous créons le sous-ensemble et nous entrons dans l'œil, ils commencent à manquer un ensemble de données, cet ensemble de données avec des valeurs manquantes et nous cherchons sélectionnés, vous appelez deux espèces moins c. Cela signifie qu'il supprimera l'espèce, qui est une donnée catégorique de notre ensemble de données. Ensuite, nous aurons le résumé. Ainsi, lorsque nous l' exécutons, nous obtenons cet ensemble de données dans lequel les espèces seront supprimées de notre ensemble de données afin que nous puissions nous concentrer et nous concentrer sur les valeurs continues. OK, ensuite, ce que nous allons faire, c' ce que nous allons faire, installer les supports pour souris. Et pourquoi nous avons besoin de ce package de souris, parce que ce package de souris a une fonction appelée motif de points Md. Donc, la fonction Md point Pattern renvoie une forme tabulaire de valeur manquante présentant chaque variable d'un ensemble de données. OK, donc pour cela, ce que nous ferons, c'est installer le fichier install.packages que nous utiliserons pour installer le package. Ensuite, nous utiliserons les souris de la bibliothèque. Ensuite, nous utilisons le modèle de points Md pour les valeurs manquantes présentes dans chaque partie, chaque variable verra quelles sont les valeurs manquantes présentes. Alors d'abord, nous allons installer ou nous l'avons déjà installé. Ensuite, si vous le souhaitez, vous pouvez l'exécuter à nouveau. Si nous ne l'avons pas installé. Ensuite, une fois que le package n'est pas installé, vous pouvez accéder à ce morceau de code, exécuter ce modèle de points Md et placer votre ensemble de données. Il s'agit donc de l'ensemble de données Iris qui contient les valeurs manquantes. OK, alors allons-y. Et quand on l'exécute, voit ce que l'on obtient. Nous obtenons ici les valeurs manquantes. Chacun ici, mais comme la largeur des sépales, longueur des points du sépale, la longueur des pétales et la largeur des pétales. Essayons donc de comprendre ce tableau. C'est ce que nous obtenons dans ce tableau. Essayons de comprendre. Il y a donc 98 ou 96 objets et voici 96 observations, qui ne contiennent aucune valeur manquante dans les valeurs manquantes. Et puis, d'accord, donc ces six. 96. Celui-ci signifie qu' il n'y a aucune valeur manquante et zéro signifie qu'il n'y en a pas. Eh bien, donc 96 variables qui n'ont aucune valeur manquante et aucune largeur de point sépale. Et voilà, vous procédez. Six exécutables ont une valeur manquante alors qu'une variable a également un RelU manquant. Ainsi, nous pouvons comprendre le nombre de valeurs manquantes. Zéro signifie que ces variables ont des valeurs manquantes, d'accord ? Et ça a l'air plutôt mauvais. Et si tu veux, tu peux aussi le voir. Ils se chevauchent assez. Alors voyez ici. Bien, la prochaine chose que nous allons faire, c'est faire la file d'attente, créer la représentation visuelle de ce que nous voyons sous forme de tableau. Donc, pour cela, ce que nous allons faire, installer le package. D'accord ? Ensuite, nous utiliserons la bibliothèque BIM. Et ce que nous allons faire, nous l'utiliserons. Nous allons tracer tout ce que nous obtenons dans le paquet de souris, avec un motif de points vides. Nous allons essayer de le tracer. Nous allons donc utiliser cette fonction et la fonction EDR, et nous utiliserons cet ensemble de données, iris Dartmouth. Ensuite, nous utiliserons la couleur, le bleu marine, le jaune, ce que vous voulez. Vous pouvez mettre, supposons que je mette rouge et du jaune et des chiffres pour trier la valeur , puis le nom de l'étiquette. Je donnerai tous les noms qui s'y trouvent pour chaque départ manqué. Et pourquoi le laboratoire manque vraiment de données. OK, alors exécutons-le et voyons ce que nous obtenons en visualisant. Maintenant, nous obtenons cette visualisation. Donc, avec ces visualisations, nous comprenons que 67 % des valeurs, 67 % des valeurs du désert ne contiennent aucune valeur manquante, 67 % des données ne contiennent aucune valeur manquante. Dix pour cent des 13 % présentent des valeurs manquantes en ce qui concerne la longueur, la largeur et la largeur des pétales. D'accord ? Et nous pouvons également voir cet histogramme. Histogramme. OK, laissez-moi juste voir un histogramme, données manquantes et Leah, les variables pétale, largeur des pétales, largeur des pétales environ le pourcentage de données manquantes avant l'impression, où la longueur est de dix pour cent, la longueur sépales est d' environ 9 % ou quelque chose comme ça. La largeur des sépales contient 8 % ou quelque chose de données manquantes. Et là aussi, tu peux comprendre, d'accord ? Donc, de cette façon, nous pouvons voir la représentation graphique des valeurs manquantes. Maintenant, la prochaine étape est l'arrêt critique. Ce que nous faisons ici. Nous y sommes, nous allons imputer des valeurs aux valeurs manquantes. Pour cela, nous utiliserons la fonction souris et nous utiliserons l' ensemble de données ID start missing avec des valeurs manquantes. Et m phi m est égal à cinq. Ce qu'il fera, il reportera à l'image égale à cinq si vous l'avez donné, il créera le jeu de données du type de fichier avec des valeurs manquantes. Il créera donc cinq ensembles de données imputés et une adresse maximale, qui sera de 50. Et méthode que nous allons utiliser PMM. Qu'est-ce que ce PMF ? Pmm est une correspondance moyenne prédictive pour les valeurs numériques. Nous allons utiliser la méthode PMM, qui est l'appariement prédictif des moyennes, d'accord ? Ensuite, nous le verrons pour 500. Ensuite, nous verrons le résumé des données saisies. Alors exécutons ce morceau de code indésirable. Et nous voici en train de faire quelques modifications. D'accord ? Il ne trouve pas la fonction souris, pourquoi ? Nous devons alors y gagner. OK, alors voyez maintenant, nous sommes en train de saisir les données avec. Valeurs manquantes. Les valeurs manquantes seront donc imputées à certaines données et aux processus en cours. Vous pouvez le voir ici. Donc, comme il fait 50 ans, je m'habille sur du sable, nous en vendons pour 500. Cela peut donc prendre un certain temps. Maintenant. C'est fait. Hein ? Il s'agit donc du nombre d' imputation multiple de cinq. méthode d'imputation est PMM que nous avons utilisé, prédit et matriciel. Vous pouvez voir la longueur des sépales, la largeur des sépales 11. C'est la matrice de confusion, d'accord ? Et quelle est la largeur des pétales ? Voici donc la matrice de confusion que nous obtenons. Maintenant, ce que nous faisons, nous pouvons vérifier les valeurs imputées en utilisant des données imputées, et nous pouvons utiliser la largeur des sépales pour cela. Alors dupliquons cela. Les données importées sont-elles introuvables ? C'est pourquoi nous en revenons là. OK, j'ai donc donné le nom de la variable en tant que nom de jeu de données en tant que période. Et si je l'exécute, voyez ici, ce sont les valeurs que nous avons imputées pour la largeur des sépales. D'accord ? Donc, de la même manière, nous pouvons descendre ici et Control Alt. Je peux vraiment ajouter du terrain et ils feront l'affaire, je vais mettre un peu de longueur. Et si je l'exécute, nous obtiendrons également les valeurs imputées pour la longueur des points du sépale. Bien, nous pouvons maintenant voir quelles sont les valeurs que nous avons insérées dans notre ensemble de données, entrées dans notre ensemble de données. Nous pouvons maintenant obtenir les données imputées complètes. Comme nous avons saisi les cinq données de configuration, nous pouvons obtenir le deuxième objet en utilisant la virgule deux imputée. Donc, cela nous donnera, d'accord, il avait en quelque sorte été souligné, imputé au hockey et dirigé ça. Ensuite, nous pouvons utiliser le résumé. Des données complètes. Dorsi. C'est la pétition complète pour le téléchargement des données, accord, donc de cette façon, nous pouvons imputer les valeurs manquantes. Supposons donc que vous ayez besoin de crier World Project où certaines valeurs sont manquantes. Vous pouvez donc utiliser ce programme ou ce mécanisme pour imputer les valeurs manquantes en utilisant, comme ici, nous avons utilisé PMM. Vous pouvez également utiliser l'autre méthode. Il existe également peu d'autres méthodes que vous pouvez utiliser, comme nous avons utilisé l'appariement des moyennes prédictives PMM pour les valeurs numériques. Si vous avez des variables binaires à deux niveaux, vous pouvez utiliser la régression logistique. Et pour cela, la fonction est log reg. Et si nous avons une régression bayésienne de Bali Tom doit, vous pouvez utiliser une quatrième variable factorielle comportant deux niveaux ou plus. Vous pouvez utiliser la méthode polymère. Et si vous avez des modèles assez étranges, vous pouvez utiliser les modèles 4D proportionnels pour les commandes de niveau 2 ou plus. Voici donc les méthodes dr. Il s'agit de la méthode et des packages que vous pouvez utiliser pour saisir les données. Tout tourne donc autour de ce projet. Et dans le cadre de ce projet, nous avons appris à imputer des données. De la même manière, nous pouvons également mettre en œuvre votre propre projet. Et vous pouvez, vous pouvez utiliser cet ensemble de données ou n'importe quelle autre donnée. Disons essayer d'imputer les valeurs manquantes et essayer de placer les valeurs manquantes dans les données. Tout d'abord, ce que nous avons fait ici, insérer certaines de nos données avec des variables sans valeur, n'est-ce pas ? Ensuite, ce que nous avons fait, nous avons utilisé le PMM pour imputer ces valeurs avec certaines données, des données pertinentes afin d'obtenir la sortie correcte. J'espère donc que vous apprendrez à imputer des données en programmation pour vos projets d'apprentissage automatique et de science des données. J'espère donc que tu as appris quelque chose. 60. Analyser les ensembles de données en utilisant les fonctions R: Dans cette conférence, nous allons analyser un ensemble de données. Donc, tout d'abord, si vous envisagez de travailler en tant que data scientist ou ingénieur en apprentissage automatique, ou même analyste de données en visualisation de données. Il faut que tu n'en aies pas. Qu'est-ce que l'analyse des données et comment pouvez-vous analyser les données ? partie la plus importante de tout projet de science des données est donc de tout projet de science des données manière dont vous analysez les données. L'analyse des données est donc la partie la plus importante de tout projet de science des données, d'apprentissage automatique ou même d'analyse de données. Donc, ce que je vais faire, utiliser données intégré qui est facilement disponible avec le paquet ou le téléchargement. Il est livré avec le package R, d'accord ? Vous n'avez donc pas besoin de le télécharger séparément. Ça va venir avec le cœur, d'accord ? Il s'agit donc d'un ensemble de données intégré avec le r. Nous allons donc utiliser cette main. Je vais vous expliquer comment utiliser les fonctions intégrées pour analyser les données, pour obtenir des informations sur les données. D'accord ? Alors, qu'est-ce qu'un ensemble de données ? Un jeu de données est essentiellement une collection de données. Et nous avons le plus souvent constaté que les ensembles de données sont considérés comme payables. Nous utilisons dans nos bases de données. Des bases de données sur ce qu'ils ont donné. L'ensemble de données le plus courant que nous ayons vu est le. Donc, dans nos bases de données, comme ma suite, notre MongoDB ou n'importe quelle autre base de données, si vous voyez que ce sont essentiellement des données suffisantes pour Calyx, n'est-ce pas ? Si vous voyez, MongoDB est une collection de données en termes de paire clé/valeur. Si vous voyez ma base de données ultérieure ou mon SGBDR, système de gestion de base de données relationnelle, ils conserveront les données sous forme de lignes et de colonnes. Et les lignes et les colonnes conserveront les données, n'est-ce pas ? Donc, la collecte de données la plus courante est un tableau, d'accord ? Et nous conservons également les données au format XML, ainsi qu'au format JSON. Mais la chose la plus courante est la table, d'accord ? Vous pouvez donc, tout ce que vous avez vu dans le tableau Walmart, qui consiste essentiellement à conserver les données, n'est-ce pas ? Nous allons donc utiliser des voitures vides. Empty cars est un jeu de données intégré à R. Et nous allons analyser celui-ci. voitures vides sont donc l'ensemble de données Motor Trend Cars intégré à R et qui a été récupéré les années 1970 pour Motor Trend US makin, d'accord ? Ces données sont donc extraites de cette Ford Motor Trend américaine de 1970, d'accord ? Donc, la première chose à faire est de supposer que nous avons cet ensemble de données intégré composé voitures vides et que nous voulions charger ces données. Donc, ce que nous pouvons faire, simplement écrire le nom de l'ensemble de données. Et lorsque nous l'exécuterons, nous obtiendrons l'ensemble de données. Voici donc l' ensemble de données dont nous disposons. D'accord ? Et quand on vous empêche d'entrer, il y a plus de colonnes, n'est-ce pas ? Voici donc les rangées. Et voici les rangées qui sont différentes. Des noms divins, d'accord ? Et pour chaque carte, il existe plusieurs variables, comme le MPG, cylindrée, que nous attendons. D'accord ? Donc, toutes ces données que nous avons avec la voiture vide, n'est-ce pas ? Il compte donc 11 colonnes et 32 routes. Cela signifie qu'il contient les détails des 32 voitures avec 11 colonnes. 11 colonnes correspondent à 11 variables différentes pour chaque carte. D'accord ? Il suffit donc de taper le nom de l'ensemble de données et vous obtiendrez les informations les plus anciennes, bien que toutes les lignes et colonnes du jeu de données soient définies. D'accord ? Ensuite, supposons que nous l'ayons intégré. Nous voulons obtenir les informations, plus d'informations sur l'ensemble de données. Alors, comment se présente cet ensemble de données sous un angle par rapport à l'endroit où nous obtenons cet ensemble de données. Nous pouvons donc simplement placer le point d'interrogation devant le nom du jeu de données. Et lorsque nous l'exécutons, nous obtenons les informations sur l'ensemble de données. Et les informations de cet ensemble de données arrivent ici. Alors, quand nous aurons terminé. Celui-ci. interrogation, point d' interrogation, voitures vides obtiendront cette information, ensemble de données sur les voitures vides. Et cela signifie qu'il s'agit d'un ensemble de données d'essais routiers de Motor Trend Car. Et cela provient de la documentation R. OK. Il vous donne donc la description complète. Et Total utilise un Brita, façon dont ces données ont été formatées. OK, il s'agit donc d'une manifestation de Motor Trend Cars et les données datent des années 1970 pour être utilisées par Motor Trend. Makin comprend, pour les concepts de carburant et les antennes, les aspects de la conception et des performances automobiles pour 32 automobiles, 32 voitures dans les modèles 1973-1974. OK. Et puis il donne le format comme mpg signifie miles par gallon. Cylindre signifie le nombre de cylindres, la cylindrée, la puissance, le tirage, le rapport axial, le poids supérieur à 141 par quatre miles à temps partiel. Réévaluez le moteur comme VSEPR en général, moteur droit. Donc, comme avant, nous économisons et s'il a zéro, il est reçu et un quart d'affilée, alors je passe à la transmission automatique s'il s' d'un empereur automatique manuel ou automatique et manuel. Et un bon nombre d' années et un nombre incalculable de tests de Cadbury. OK, donc les autres informations que nous obtenons pour cette source de données, d'accord. Revenons maintenant à la partie analyse. Il vous suffit donc de placer un point d'interrogation devant le nom de l'ensemble de données et vous obtiendrez toutes les informations sur l'ensemble de données en entrée. Maintenant, nous voulons obtenir les cellules diamantées et le nom de la variable. Supposons que nous ayons les losanges et le slake, les lignes et les colonnes, et que ce soit le nom de la variable. Supposons donc comment je veux les noms des variables à boucle unique. Alors, comment puis-je l'obtenir ? Vous pouvez donc utiliser. La première chose à faire est donc d' attribuer cet ensemble de données à une variable. Et pour cela, je crée un ensemble de données variables qui soulignent les voitures, et j'attribue des voitures vides. Ainsi, les voitures vides, les voitures du jeu de données représenteront les voitures vides. Ainsi, toutes les valeurs de nos voitures vides figureront dans l' ensemble de données sur les voitures et nous pourrons les utiliser ultérieurement dans notre programme. Donc, si j'utilise dim et que je transmets la variable de l'ensemble de données, cet ensemble de données souligne les voitures. Je vais obtenir le diamant pour résumer l'ensemble de données. Donc, si j'utilise des noms et une partie de l'ensemble de données, j'obtiens les noms des variables dans l'ensemble de données ou je me laisse exécuter ce morceau. Voir ici. Maintenant, il donne les losanges, 32 rôles et 11 colonnes que nous pouvons vérifier à partir d'ici, comme 32 lignes et n colonnes. D'accord ? Voilà donc les diamants et, en haut, l'ensemble de données. Ensuite, lorsque nous utilisons des noms, nous obtenons les noms des variables. Donc, vous voyez ici, nous obtenons les noms des variables. Le cylindre Mpg est traîné SP avec toutes ces choses. 32 x 11, 32 lignes et 11 colonnes sont donc 32 lignes et 11 colonnes sont les dimensions de l'ensemble de données et le nom de la variable. Ensuite, je veux extraire le mauvais nom de la première colonne. Je veux donc trouver les noms des lignes des colonnes. Je peux utiliser des noms de lignes. Et je peux transmettre la variable de l'ensemble de données. Donc, rho name et je vais transmettre cet ensemble de données et ces cartes d'escorte. Cela me permettra d'obtenir le nom de tous les gardes en premier, noms des colonnes, disons C ou D, ou Delta T. Combien ? Il s'agit des 32 variables des ensembles de données. Désolé, ce sont les 32 ou 32 voitures qui ont été utilisées dans l'ensemble de données qui sont disponibles dans cet ensemble de données. Alors la colonne encastrée, d'accord ? Et ensuite, si nous utilisons l'obscurité, si je veux obtenir la seule information précieuse, comme si je voulais obtenir les miles par gallon à partir de l'ensemble de données. Je peux utiliser le nom de cet ensemble de données sur le signe du dollar puis le signe du dollar MPG. Je vais obtenir les valeurs des variables mpg. D'accord ? Ainsi, nous pouvons obtenir les valeurs d'une variable particulière. Donc, au cas où, la valeur de mpg, je peux J'obtiens les valeurs de mpg si j' utilise EM ici et vous obtenez 0,1 parce que c'est automatique et manuel. Alors voyons voir ici, 1000, comme ça. OK, donc zéro pour automatique, un pour manuel. Donc, de cette façon, nous pouvons utiliser noms de variables ici si j'utilise MPG et la prochaine chose à faire est que si je veux trier ça, ce MPG arrivera comme ça, d'accord ? Si je veux les trier dans l'ordre, je peux utiliser la fonction de tri pour cela. Et je peux trier l'ensemble de données et le tableau de bord dollar mpg. Et il triera les valeurs de cette variable mpg c, un artiste arrive maintenant, sous forme triée, en ordre croissant. D'accord ? Voici donc comment nous pouvons les trier. Je perds un objet de valeur. Ensuite, je veux maintenant analyser l'ensemble de données. Je peux donc utiliser quelqu'un et donner le nom de la variable pour l'ensemble de données et j'obtiendrai le résumé des données. Regardez ici ce magnifique résumé des données telles que les miles par gallon. Quel est le moyen ? Quelles sont les valeurs du premier quartile ? Qu'est-ce que la médiane ? Quel est le moyen ? Qu' est-ce que le troisième quartile ? Quelle est la valeur maximale pour chaque variable ? Nous obtenons ces six valeurs, n'est-ce pas ? Médiane d'abord, comme les valeurs min , premier quartile, moyenne médiane , premier quartile, moyenne médiane, puis moyenne minimale, médiane et maximale. Et le premier quartile et le troisième quartile pour chacune de ces variables, nous obtenons cette information. Cela vous donnera donc ce résumé des données. Et ce sont les choses que nous apprendrons lors des prochaines conférences. Comment obtenir la moyenne, qu'est-ce que la médiane, qu'est-ce que premier quartile et le troisième quartile ? C'est ainsi que nous pouvons obtenir des informations et analyser l'ensemble de données dans R. Nous pouvons utiliser le nom de notre ensemble de données pour obtenir l'ensemble de données. Nous pouvons utiliser le signe du dollar pour obtenir les informations sur l' ensemble de données et nous allons le faire. Nous pouvons utiliser la fonction lm pour obtenir la dimension du jeu de données. Nous pouvons utiliser des noms, des fonctions pour obtenir le nom des variables. Nous pouvons utiliser les noms des lignes pour obtenir la suppression d'une ligne, la première colonne, de chaque ligne de la première colonne, d'accord ? Les valeurs de chaque ligne se trouvent dans la première colonne Nous pouvons ensuite utiliser ce signe dollar pour obtenir les valeurs des variables de l'ensemble de données. Ensuite, nous pouvons utiliser la fonction de tri pour trier les valeurs des variables, puis nous pouvons utiliser le résumé pour obtenir le résumé des données. D'accord, voici comment nous pouvons analyser cet ensemble de données dans R. 61. Manipulation de données à l'aide du package dplyr: Bonjour et bon retour. Dans cette conférence, nous allons en apprendre davantage sur manipulation de données dans R. Nous allons donc en apprendre davantage sur la manipulation de données. Et pour cela, nous allons utiliser le package ggplot. Le paquet dupliqué est donc très important lorsque vous souhaitez manipuler des données. Et j'utilise ce fichier RMD. J'ai déjà écrit le code pour que nous puissions simplement continuer en apprendre davantage sur les éléments de base du joueur et manipuler les données. Tout d'abord, si vous souhaitez utiliser le lecteur, vous devez installer le package, n'est-ce pas ? Dans notre système, chaque fois que vous souhaitez utiliser l'intégré, nous souhaitons utiliser certaines fonctionnalités. Nous devons installer le package sur notre R, puis nous pouvons continuer. Si vous voulez travailler avec le plan, vous devez l'installer. Vous pouvez soit installer la couche profonde elle-même, soit pour le Tidyverse si vous souhaitez installer tout ce qui est fourni avec le vers Tidy. Donc, si vous installez Tidy Verse, par défaut, une couche profonde apparaîtra, indiquant que le plan se trouvera à l'intérieur de ce tidyverse. Et si vous ne voulez pas tout installer à l'intérieur de ces Tidyverse, vous pouvez opter pour le d plus. Vous pouvez donc exécuter ceci ou cela. N'importe lequel d'entre eux. Tu peux courir. Donc tu peux t'en tenir à ça. Tu peux opter pour le couplet bien rangé ou tu peux opter pour la couche profonde, d'accord ? Vous vous basez donc sur vos besoins. Tu peux t'en tenir à ça. Je vous suggère d'installer le Tidyverse. J'ai donc installé ces deux packages, donc je n'exécuterai pas ce sous-morceau de code, ce morceau de code, je ne l' exécuterai pas car je les ai déjà installés. Donc, ce que je vais faire, vous montrer la prochaine chose. OK, alors laisse-moi clarifier les choses. Donc, la première chose que nous pouvons faire avec la manipulation de données dans l'art, c'est que le joueur peut utiliser le filtre que nous pouvons utiliser pour sélectionner. Nous pouvons utiliser le groupe en fonction de toutes les choses que nous pouvons faire en utilisant le diagramme dans R. D'accord, donc ce que je vais faire, je vais l'utiliser, je vais également vous montrer comment utiliser le filtre dans R en utilisant les bibliothèques de flous. Donc, pour cela, ce que je vais utiliser, je vais utiliser le jeu de données intégré qui s'appelle Star Wars. Star Wars est un jeu de données intégré disponible dans l'art. Donc, ce que je vais utiliser, Star Wars, puis j'utiliserai cet opérateur de tuyauterie. Et ce que je vais faire, utiliser la fonction de filtrage et donner aux espèces filtrantes ce qu'on appelle deux triades. Donc, ce qu'il va faire, c'est aller chercher toutes les espèces égales pour le dessiner. Il ira donc dans le jeu de données Star Wars. Il affrontera le jeu de données Star Wars. Et à l'intérieur, il appliquera le filtre et il échouera. Il filtrera l'ensemble de données en fonction de cette espèce. D'accord ? C'est ainsi que cela va fonctionner. Alors les espèces glissent, le filtre sera appliqué. Alors laissez-moi, je vais juste exécuter ce code. Il suffit donc de cliquer ici et de voir. Nous sommes maintenant en train de nous recharger. D'accord. Alors voyez votre nom, accentué, la couleur de vos cheveux, la couleur de votre peau, couleur de vos yeux, corrigez toutes ces choses que nous obtenons. D'accord. C'est donc ce que nous obtenons pour l'espèce. Essayez-le. D'accord. Regardez ici, si vous voyez la colonne Espèces, tout est sec. C'est juste, non ? Il affiche donc les données uniquement pour les produits séchés car nous avons appliqué le filtre séché ici. Il nous montrera donc des données troisièmes uniquement pour les espèces. Ainsi, nous pouvons appliquer le filtre, utiliser le nom du jeu de données Via, puis l'opérateur de canal , puis la fonction de filtre et ses espèces. Le nom de la colonne est spécifique à l'espèce, ce qui revient à la dessiner. Il en sera ainsi, donc toutes les espèces, les données supprimées pour nous, d'accord. C'est ainsi que fonctionne le filtre dans l'usine. OK, la prochaine chose est que nous allons utiliser Select. Sélectionnez donc comment cela fonctionnera. Encore une fois, la même chose. Nous utiliserons. Cette étoile était un jeu de données, puis un opérateur de canal, puis nous utiliserons Select, select , puis nous devons conserver le nom se terminant par une couleur, afin qu'il puisse récupérer tous les noms se terminant par une couleur. Alors laisse-moi exécuter ça. Voir ici. Maintenant, ce qu'il fait. Il récupère toutes les colonnes. Toutes les colonnes se terminant par la couleur, couleur des cheveux, la couleur de la peau et la couleur des yeux. Il ne montre donc que les colonnes qui se terminent par une couleur, n'est-ce pas ? Donc, Star Wars sélectionne le nom et se termine par la couleur. Il vous montrera donc les colonnes de Wanli George qui se terminent par une couleur. Donc, soulignez, soulignez la classe. Il ne montre donc que ces données. Si vous regardez ce qui s'est passé plus tôt. Ici. Il existe de nombreuses colonnes comme la hauteur, la masse. Et puis il y a les urgences, le sexe, le genre. Mais il ne nous montre pas toutes ces colonnes, mais uniquement les colonnes qui se terminent par Carlos, qui se terminent par une couleur. D'accord ? C'est donc la façon d'utiliser la sélection. Dans. Ensuite, nous allons en apprendre davantage sur muter. Alors, que va faire une mutation ? Cela créera. Si vous souhaitez ajouter nouvelles variables ou une nouvelle valeur de variable dans l'ensemble de données, vous pouvez utiliser la fonction de mutation, d'accord ? Alors mutez pour ajouter, pour ajouter quelque chose de nouveau, d'accord ? Ajoutez quelque chose de nouveau, une nouvelle variable. Si vous souhaitez ajouter, vous pouvez utiliser la fonction use the mutate. Donc, pour y parvenir, nous pouvons simplement donner à Star Wars, puis un opérateur de canal, puis une fonction de mutation, puis nous devons donner un nom. Ensuite, vous pouvez définir ici la nouvelle variable ou la nouvelle valeur que vous souhaitez fournir. Donc, ici, ce qu'on nous donne, on nous donne un nom et un nom. Ici, nous introduisons de nouvelles variables IMC et v, nous leur expliquons comment l' IMC doit être calculé. Donc, si vous ne voulez pas donner, vous pouvez coder la valeur en dur. Mais ici, nous utilisons la masse divisée par la hauteur par 100 de puissance pour, d'accord ? C'est donc la formule que nous utilisons pour calculer l'indice de masse corporelle IMC, d'accord ? donc la taille et le poids Nous utilisons donc la taille et le poids pour calculer l'IMC. Et puis nous transmettons cet IMC pour sélectionner la fonction. Nous utilisons donc ici un opérateur de tuyauterie deux fois. Donc, ce qu'il va faire, c'est qu'il calculera d'abord cet IMC ici, puis cet IMC le sera, cet IMC sera transmis à cette fonction de sélection ici même. Vérifiez que votre IMC vient de là. Donc, peu importe ce qui est collecté ici, on en arrivera là. Donc, cet IMC va arriver ici, non ? C'est donc ce que font les opérateurs et opérateurs de tuyauterie , n'est-ce pas ? Elle transmettra le, transmettra la sortie à la fonction suivante, sortie désactivée. Il ira à la sélection de la mutation. Mutez, nous allons muter, nous créerons l'IMC, créerons l'IMC, puis nous passerons à la fonction de sélection. D'accord ? Alors, si je donnais une représentation picturale, quoi, comment cela fonctionnera, support informatique, nous utiliserons muate. La fonction de mutation donnera une sortie. Et cette sortie de la fonction de mutation ira au Select. D'accord ? Supposons donc que nous ayons ici la masse et la hauteur. Masse et hauteur. masse et la hauteur iront à la mutation, puis la sortie de mutation ira au, passez au Select. C'est donc ainsi que fonctionne le tuyauteur, n'est-ce pas ? Il en transmettra le résultat à cette fonction. D'accord ? C'est ainsi que l'opérateur de tuyauterie Rockstar. Ici, nous créons la fonction d' obtention de la nouvelle variable IMC, la nouvelle valeur de l'IMC, et nous passons à la fonction de sélection pour sélectionner la fonction que nous appelons masse et IMC. Il sélectionnera donc le masque et calculera l'IMC. Alors laissez-moi exécuter ce code. Cliquez donc ici et voyez ici le nom, la taille et l'IMC. Ainsi, en fonction de la masse et de la taille, du poids et de la taille, il nous indiquera bientôt l'IMC. Cette colonne IMC, IMC ne figurait pas dans les données précédentes, n'est-ce pas ? Laisse-moi te montrer. Ici. Nous n'avons pas l'IMC, rééducation de l' IMC créée avec l'IMC que nous avons créé avec cette fonction mutante, n'est-ce pas ? Donc, avec la mutation, nous avons créé IMC et nous l'avons ajouté à notre ensemble de données. OK, de cette façon, vous pouvez créer une nouvelle variable ou une nouvelle valeur et l'ajouter à votre ensemble de données à l' aide de la fonction de mutation intégrée à la pièce. Ensuite, décrivez la source de masse. Nous sommes ce que nous pouvons faire. Nous pouvons organiser la messe. Alors, exécutons-le et voyons. Vous voyez, maintenant, nous obtenons la taille, la masse et la couleur des cheveux, la couleur de la peau, la couleur des yeux, toutes les données, toutes les colonnes que nous obtenons, n'est-ce pas ? Et cela donne la valeur de masse, n'est-ce pas ? Ici. Ça l'est. C'est comme un ordre décroissant. Cela nous donne la masse, taille, la couleur des cheveux et toutes ces choses. D'accord. Si vous souhaitez le remplacer par, vous pouvez le remplacer par autre chose et voir comment cela va se passer. Prochaine. La première est que nous pouvons également utiliser le groupe ici. Alors, que fera l'affaire group by, group BY ? Il sera regroupé par espèce. Donc, ce que nous faisons un ensemble de données Starbucks très restreint et voici l'opérateur du canal. Et puis groupez selon ce que le groupe par espèce postule ce qu'il va faire. Il regroupera l'une ou l'autre des espèces , puis il nous en donnera la volonté. Donc, en tant que résumé dans un seul jeu de données, d'accord ? Cela donnera ce que la fonction de résumé fera. Il vous donnera le résumé unique de l'ensemble de données. Nous utilisons donc ici n égal à n, la masse égale à la moyenne, la masse moyenne. Et un fichier na.rm signifie que toute valeur non disponible supprimera ce qui se termine à notre ombilical. Voyez si vous regardez ici, certaines valeurs ne sont pas disponibles, n'est-ce pas ? Cela supprimera donc les valeurs qui ne sont pas de niveau. OK, donc j'ai fini par ne pas l'être. Ce que je vais faire. Cela supprimera les lignes de données qui ne contiennent aucune valeur. D'accord ? Donc, ce qu'il va faire, c'est créer la moyenne masquée de la masse. D'accord ? Il en sera ainsi, puisque nous les regroupons par espèce. Donc, pour chaque SPC, il vous montrera la masse moyenne, la masse moyenne. Et pour cela, nous utilisons la fonction moyenne pour obtenir la moyenne ou la moyenne de la masse totale d'une espèce particulière. Et nous les regroupons par espèce. D'accord ? Ensuite, ce que nous faisons, c' est utiliser le filtre. Nous utilisons un filtre ici. Et si la masse est supérieure à un, supérieure à 50, nous appliquons le filtre ici. Quel filtre ? Il doit donc être supérieur à un et doit être supérieur à 50. C'est donc notre filtre, ce filtre que nous appliquons. D'accord ? Quelles sont donc les autres mesures que nous prenons ? D'abord ? Nous les regroupons par espèce, puis nous obtenons le résumé unique. Et nous obtenons la moyenne de la masse pour cette espèce en particulier. Ensuite, nous appliquons un filtre où n est supérieur à un et la masse égale à. Exécutons donc ceci et voyons quel résultat nous obtenons. Exécutons donc ceci et voyons le résultat ici. Voir le résultat C. Maintenant, nous n'obtenons pas le nom, nous obtenons l'espèce parce que nous avons un groupe. Nous avons utilisé, nous avons utilisé le groupe par espèce, nous avons utilisé le groupe par espèce. Et nous avons calculé la moyenne de la masse de l'espèce. C'est pourquoi il affiche le n. supérieur à un. Pour personne, cela ne se voit pas, c'est de la couture et des valeurs qui sont multiples. D'accord. Et les autres espèces, des gommes sèches et mortes, des humains. Pouvez-vous posséder MATLAB, Tweak, Rookie Jab Rack. Donc, toutes les espèces sont oscillantes et elles apparaissent pour les valeurs 1250, parce que ce que nous avons donné, ce que je vous ai donné, la réponse est parce que ce que nous avons donné, supérieure à un. C'est pourquoi il nous montre les valeurs n supérieures à 123630 octets. Maintenant, affiche les valeurs inférieures à un, d'accord ? Et puis la masse, elle apparaît plus que correctement. Donc, quel filtre nous avons appliqué un filtre que nous avons appliqué est une masturbation supérieure à 50. Cela nous montre donc un masque plus grand que la puberté. Ces masses signifient une augmentation de la masse de ces espèces. Donc, il y a peut-être beaucoup de choses à ajouter à notre exposition , n'est-ce pas ? Mais nous avons pris la moyenne de toutes ces pièces et nous avons donné la moyenne des pièces séchées. OK, alors laissez-moi vous montrer l'ensemble de données. Regardez comme si toutes ces espèces appartenaient à la sécheresse et qu'elles en avaient la masse, n'est-ce pas ? Ils savent faire les calculs, non ? Et ils nous ont permis de réaliser ce que nous avons fait. Nous avons mis fin à cette branche pendant des années pour éliminer ces querelles. Et car tous ces noms appartiennent à l'espèce. Dessinez-le, dessinez-le, et ils auront de la masse. Donc, ce que nous avons fait, nous avons pris toute la masse, la somme divisée par le nombre d'espèces, numéroté les noms au hasard. Cette précision, nous avons calculé la moyenne en utilisant la fonction moyenne ici. Permettez-moi de vous montrer ici, d'accord, je veux dire, c'est pourquoi il en est ainsi dans une étoile mosfet chaque groupe d'espèces. Donc, pour l'homme, le message principal est que T2 pour séchoir signifie des masses. Ça, d'accord, donc de cette façon, nous pouvons utiliser le diagramme pour manipuler les données. Alors, quelles sont les choses que nous avons apprises ? Nous avons appris que nous devons installer notre package Tidy Verse pour utiliser le doublon. Et nous avons utilisé comment filtrer et comment appliquer un filtre à notre ensemble de données. Et comment utiliser select dans notre jeu de données. Et ensuite comment nous pouvons muter et ajouter, muter ou ajouter une nouvelle variable dans notre ensemble de données. Ensuite, nous avons vu comment organiser notre ensemble de données. Enfin, nous avons vu GroupBy et le résumé avec le filtre dans notre dernier exemple. J'espère donc que vous savez ce que nous pouvons faire avec la couche profonde et comment nous manipulons les données dans le domaine de l'art. 62. Introduction aux tableaux de bord interactive brillants en R: Bonjour et bon retour. Dans cette conférence, nous allons en apprendre davantage sur la signature depuis RStudio. Alors, quel est ce signe ? De notre total ? Ce minuscule est donc un moyen de communiquer avec les données. Il s'agit essentiellement d'une solution de tableau de bord ou d'un outil de visualisation pour notre, d'accord. Donc, si vous souhaitez visualiser des données dans R, vous pouvez utiliser ce petit RStudio. Il s'agit d'interagir, d'analyser et de communiquer avec la connexion. Nous pouvons créer des tableaux de bord interactifs dans lesquels non seulement les données seront affichées sous forme graphique ou dans un tableau de bord, mais nous pouvons également interagir avec les données fines qui se trouvent sur le tableau de bord. C'est donc la beauté de la connexion depuis RStudio, qui permet non seulement créer un tableau de bord basé sur les ensembles de données, mais également d'interagir sur le tableau de bord lui-même. Il est donc conseillé d'adopter une approche interactive pour raconter histoire de vos données en signant, permettre aux utilisateurs d'interagir avec vos données et vos analyses et de tout faire avec les nôtres. Ainsi, non seulement ils pourront voir les données sous forme graphique, dans les graphiques et le tableau de bord, mais ils peuvent également interagir avec les données et voir réellement l'impact de notre analyse sur les données. Permettez-moi donc faire défiler la page vers le bas pour voir ce que disent les autres options. So are in arsine est un package R qui permet de créer facilement des applications Web interactives directement à partir de notre. Nous n'allons donc pas utiliser autre chose, mais nous utiliserons la programmation R elle-même. Et nous pouvons créer des tableaux de bord interactifs basés sur des applications Web. Vous pouvez héberger des applications autonomes sur le Web ou les intégrer dans R Markdown. Les documents sont conçus comme des sports. Vous voyez, cela doit être flexible. Étant donné que nous le pouvons, nous pouvons non seulement créer des pages Web et des applications autonomes, mais également les intégrer dans le fichier RMarkdown. Les documents se trouvent dans un tableau de bord, ce qui fait toute la beauté de la signature R. Vous pouvez également étendre vos applications de signature avec des équipes CSS, HTML, des widgets et du JavaScript, le PDG d'Exxon. C'est donc la beauté que vous pouvez utiliser. Du CSS, des équipes, du HTML, des widgets et de l'excellence, pour que ce soit plus interactif. Ainsi, une fois créé, nous pouvons travailler de différentes manières avec le tableau de bord créé avec signature. Alors, qu'est-ce que la signature peut faire d'autre ? Assignee combine la puissance de calcul de R avec l'interactivité de la vague moderne. Nous savons donc tous que R possède des packages que nous pouvons aimer travailler sur les données. Nous pouvons obtenir des informations. Nous pouvons obtenir des informations à partir des données directement via nos packages et ajouter de la programmation. Et pas seulement ces informations, mais aussi tout ce que nous obtenons. Calculez à partir des données. Nous pouvons les intégrer à la vague moderne et interagir avec les tableaux de bord, les données ou les graphiques. Cela nous donnera donc plus d' informations à partir des données, n'est-ce pas ? Voici donc un exemple simple d'attribution d'une application. Tu peux te voir. OK, alors laisse-moi voir l'index Google, l'indice des tendances. Il s'agit d'une application simple et brillante qu'ils ont créée. Et ici, vous pouvez voir un très beau graphique est celui que nous pouvons voir. Maintenant, avec le cessionnaire, nous pouvons entendre que vous pouvez sélectionner l'indice, la tendance, le voyage de l'indice. Ou si vous souhaitez changer, vous pouvez le remplacer par la publicité, le marketing et le référencement. Le graphique est en train de changer. Je peux sélectionner quelque chose ici. Et ce graphique, nous allons simplement nous appuyer sur l'indice de tendance du chômage. Je veux voir, See. Cela montre maintenant la tendance du chômage. Je peux sélectionner les petites entreprises et cela résoudra la tendance des petites entreprises en ce qui concerne ces données, loyer, cette nouvelle tendance. OK, donc voici comment nous pouvons ajouter un sélecteur. Nous pouvons créer un tableau de bord interactif à l'aide de la signature. D'accord ? Et vous voyez, oui, c'est créé uniquement avec nos programmes, notre code. Maintenant, nous allons également créer une telle application Shiny lors de la prochaine conférence. Et voyez ici, ce sont les données de l'application, c' est-à-dire le programme écrit en R4, ce genre de de bord interactif désespéré. Ils utilisent donc ici un package de signalisation, lecteur de couche profonde, des équipes si110 et une couche profonde. Et voici la description. Si tu veux, tu peux le suivre. Ceci est le site officiel de signing.rstudio.com. Si vous souhaitez en savoir plus sur le panneau, vous pouvez consulter la galerie et vous obtiendrez plus d'informations sur le panneau. OK, Arsine, tu peux aller voir la régression linéaire du processus de modélisation des détectives. Et puis notre petit package pour apprendre à modéliser la réponse immunitaire. Il existe différents projets que vous pouvez lire vous-même. Je vais apposer une étiquette sur la signalisation du site Web. D'accord. Ainsi, lors de la prochaine conférence, nous créerons également une application Shiny. Et nous verrons comment interagir avec le tableau de bord, d'accord. 63. Créer un tableau de bord interactif avec brillant: Bonjour et bon retour. Donc, dans cette conférence, nous allons créer notre propre application Shiny, dans laquelle nous allons créer une application Shiny. Et donc ce que nous allons créer, puis nous verrons comment créer. D'accord ? Voici donc notre application Shiny. Et ici, nous allons le faire. Nous allons créer une diaspora basée sur le jeu vidéo Mario Kart Eight et sur les personnages du jeu vidéo que nous allons analyser. Nous allons devenir designer. Nous allons créer un tableau de bord dans lequel vous pourrez interagir avec le tableau de bord. Cliquez sur la visualisation et voyez ici, par défaut, la division sera là. Et ici, les autres variables seront là, d'accord ? L'axe Y et l'axe X, d'accord ? Vous obtenez donc que l'axe X sera la variable y, voici la vitesse, et ici, sur l'axe Y, vous couserez le caractère. Nous avons donc les personnages, les personnages et les noms des personnages sont là, d'accord ? Et nous allons analyser leur vitesse et d'autres variables comme la vitesse dans l'eau. Et nous pouvons également sélectionner l'accélération et vous pouvez voir quelle accélération bêta. Alors voyez ici, c'est le tableau de bord où nous pouvons interagir avec le tableau de bord. Nous pouvons sélectionner la variable ici, manipulation. Et c'est ce que nous allons résoudre pour la manipulation et dire : « Oui, je vais mettre la manipulation dans l'eau et ça va générer. De cette façon, nous pouvons créer plus, ce qui sera interactif. Et vous pouvez sélectionner la variable ici et voir l'effet sur le tableau de bord, d'accord ? Graphique. Et voyez ici que les différentes couleurs sont le verre à lancer, lourd, léger et moyen. OK, voici comment nous pouvons utiliser l'application de signature, le tableau de bord interactif, nous avons terminé le jeu Mario Kart Eight. Bon, maintenant nous avons vu ce que c'est ? Voici donc les classes, les différentes couleurs indiquent la classe lourde, la classe légère et le radium. Et ici, nous pouvons sélectionner la vitesse et cela changera la gestion des variables, puis le graphique changera. OK, donc c'est l'application, signez l'application que nous allons créer, d'accord ? Et cela, nous pouvons l'ouvrir dans le navigateur que c' est également parce qu'il s'ouvre sur notre hébergeur local. D'accord, nous pouvons donc également l'ouvrir dans le navigateur en cliquant sur Ouvrir dans le navigateur, et il s'ouvrira dans votre projet par défaut de la même manière. OK, donc, si nous fonctionnons aujourd'hui dans le hockey sur navigateur, et nous perdons le niveau de la source de données sur le site Web de Kaggle. Vous pouvez donc vous rendre sur le site Web de Kaggle et consulter les données et votre visualisation. Tu peux sélectionner Modifier, d'accord ? Donc, en fonction de ce que vous sélectionnez, tout ira bien. Donc, c' est interactif, c'est ce que nous allons créer. Permettez-moi donc de vous présenter rapidement le code. C'est un code assez simple. Donc, ce que nous devons faire ici, en gros, cette application de signature comportera trois composants. Trois composants x vraiment trois composants, ou trois pages Web, trois pages dont nous avons besoin pour que vous puissiez obtenir le premier sera le point de l'application, puis le second sera le serveur. Et la troisième sera la partie interface utilisateur. D'accord ? Donc ensemble de mots, puis UA. Donc app.all server et UI.R. Voici donc les trois fichiers que nous allons écrire, d'accord ? Et en dehors de cela, nous avons créé un dossier. Vous devrez en créer un pour l'application leucine, quel que soit le nom que vous voulez donner, vous pouvez le donner. Ensuite, une application de dossiers de données mise à niveau a conservé le fichier CSV, qui contenait chacun l'ensemble de données. OK. Alors laisse-moi ouvrir et souiller. Il s'agit de l'ensemble de données qui contient tous les caractères, la perle de verre , les autres détails, et voici les noms, la vitesse et toutes ces choses. D'accord ? Voici donc l' ensemble de données que j'ai conservé. Apportez-nous le fichier CSV Character Dot, téléchargez-le depuis le Kaggle. OK. Ensuite, voici l'image que nous voyons sur la face avant. Ces images sont là. Dossier W, W, W. Et ce sont de toute façon les trois fichiers de données de l'application Guitar Solo, des données que j'ai créées. OK, alors laissez-moi passer au code. La première chose est app.all. Ce dont nous avons besoin. Nous avons besoin de la bibliothèque assignée, d' accord, vous devez donc télécharger le téléchargement et installer la bibliothèque Shiny. Vous pouvez trouver ici les packages installés par sexe et par année. Et vous devez cliquer, cliquez simplement sur Installer et donc sur un petit nom, et ce sera fait. Alors laisse-moi te montrer, il suffit de cliquer ici. Et ici, vous devez mettre la signature S, I, N, Y, signe. Ensuite, nous devons cliquer sur Installer. Et le package Sami sera installé. Je l'ai donc déjà installé, donc je ne vais pas le refaire. Vous devez donc mettre le brillant puis cliquer sur Installer et il sera installé. En dehors de cela, vous pouvez également utiliser install.packages. Tu peux utiliser un problème avec le stylo, d'accord ? Et vous pouvez installer le signe nominatif ici. C'est littéralement fait, d'accord ? Vous pouvez donc utiliser install.packages et mettre le nom du package et m'attribuer. Et ici, nous donnons cette option à ces sources qui ajoutent des sources UI.r, à UI.r et à d'autres serveurs de sources. Ce sont donc les deux éléments que nous allons utiliser dans l'application. Dot point, point, point est notre fichier principal dans lequel nous appelons UI.r et données cellulaires. Ensuite, nous créons l'application Shiny en la nommant Shiny app. Et ici, euh, égal à UA et sérologique au serveur. D'accord, donc quel que soit le nom que vous donnez, le nom de fichier que vous pouvez donner ici, d'accord. Il s'agit donc d'un simple point d'application notre fichier où nous ne faisons que charger la bibliothèque, en donnant à la source comme si nous allions utiliser E-Y-E point r et le serveur qui se trouvent à l'intérieur après coup. OK, puis nous créons une application d' attribution dans laquelle nous spécifions le nom de fichier UID et la limite de sulfure. OK. C'est donc l'application qui sort. Ensuite, le mot suivant est le troisième mot « point are ». C'est tellement triste. Je vais passer aux données cellulaires. Et ici, vous pouvez voir que nous avons chargé le tracé GG dans la bibliothèque. Parce que nous allons le faire, nous créons un tableau de bord ou nous créons un graphique pour le graphique. Nous voyons que nous créons à l' aide de GG Plot Two. Et puis nous avons ici une spécification de cet ensemble de données. Donc, à partir de là, nous allons obtenir l'ensemble de données. Les données contiennent moins de caractères, pas une application de fichier CSV. Donc, vous et nous utilisons read point csv total, ce fichier CSV. Et comment lire le fichier CSV que nous avons déjà vu dans les conférences précédentes. OK, alors nous créons le serveur ici. Pour créer un serveur, nous exécutons un serveur où, étant donné la valeur de mes variables, les noms sont corrects, puis nous perdons la fonction, l' entrée, la sortie et la sortie. Nous sommes en train de lire sur l'intrigue. Et nous utilisons la fonction RenderPlot pour effectuer le rendu du tracé. Et nous utilisons le caractère, le caractère, puis nous utilisons des facteurs pour créer des données, des étiquettes et un ordre. Nous utilisons la classe dollar des personnages, d'accord ? Ensuite, nous utilisons le diagramme GG pour dessiner ce graphique. Et ici, les données que nous lisons sont des caractères (point CSV) et l'axe X, la valeur X, le caractère WM, l'identité des statistiques. Et l'entrée y. La valeur y en dollars désigne l'entrée que nous sélectionnerons pour le y qui sera sélectionné. Que c'est la partie où se trouve l'interaction ou la liste déroulante que nous sélectionnons, elle s'affichera, d'accord ? Et puis nous lisons des cartes retournées. Les coordonnées seront donc inversées. D'accord ? La prochaine étape est UI.R. Donc, si vous voyez pourquoi c'est étrange, c'est aussi assez simplifié. Nous utilisons le point caractéristique CSV et nous répétons le fichier csv à points de caractère. Ensuite, nous utilisons la première page d'introduction, puisque nous avons deux pages et deux produits et n, les visualisations et la phase de production se trouvent dans panneau à onglets Draw pour créer le panneau d'introduction. Et nous utilisons le titre Titre de l'introduction pour la finale. Ensuite, nous utilisons la source de l'image. Et nous donnons une pause ici. Et voici l'écriture du paragraphe. Et puis nous donnons ici le lien, le lien Kaggle que nous avons vu, indiquant que nous avons une protéine qui, page après page, est simple. L'interaction et le panneau, nous créons le meilleur outil pour la visualisation. Ce que nous faisons, nous utilisons des valeurs sélectionnées, le nom de la colonne. Le nom de colonne des caractères sera celui des valeurs. Et puis qu'est-ce que nous utilisons ? Sélectionnez des valeurs, sélectionnez où perdre des caractères. D'accord ? Nous faisons donc partie de la classe, d'accord ? Ici, nous utilisons la requête de sélection, tant mieux. Pas dans la tâche Select Value. Contrairement à ce qui se passe essentiellement, nous supprimons les colonnes indésirables ici. Et nous allons choisir le personnage de cette classe. Ici, nous obtenons la barre latérale en utilisant le panneau de barre latérale. Et ici, nous sélectionnons l'entrée pour y, où y souligne où et le niveau seront la variable y. Vous pouvez, si vous le souhaitez, le remplacer n'importe quoi, des choix, des valeurs sélectionnées. Et déjà la valeur chargée sera celle de la vitesse sélectionnée égale à la vitesse. La vitesse sera donc sélectionnée par défaut pour nos désespérés. OK. Ensuite, le contenu principal. Nous utilisons le panneau principal et le graphique de sortie du graphique, d'accord ? Et cela viendra du Southern Blot. Et le deuxième panel, le panneau d'onglets où nous sommes tellement individualisés, le panneau de titre, titre que nous donnons, paragraphe que nous sommes en train d'écrire. Et puis la disposition de la barre latérale, qui souligne le contenu, le contenu principal apparaîtra ici. D'accord ? C'est ainsi que nous avons créé ces trois fichiers. Et ces deux points, serveur et l'utilisateur, appellent Juif dans les données de l'application. Bien, nous allons maintenant lancer l'application. Cliquez donc sur Exécuter l'application, elle s'exécutera et ouvrira la fenêtre RStudio. Maintenant que nous voyons la page, notre main ici, vous pouvez voir la page d'introduction, visualiser et coller deux pages. Et l'introduction paie. Rien ne vient juste de se diriger. Et l'image que nous avons incluse, et voici le paragraphe et voici le lien que nous vous avons donné là où nous l'avons spécifié. Si vous venez ici à UI.R, regardez ici le titre que nous avons donné, et puis l'image que nous avons, encore meilleure, de la Calabre, nous gagnons. Et pourtant, même si nous avons donné le lien Kaggle, d'accord, c'est ce que nous voyons dans le panneau d'introduction et dans le second panneau, lorsque vous ouvrez la visualisation. Ici, vous pouvez voir pourquoi vous activez la vitesse par défaut, car ici, nous avons sélectionné la vitesse et le niveau est la raison pour laquelle vous pouvez le faire, d'accord ? Et nous lui donnons l'intrigue en sortie et voyons le titre. Et c'est un paragraphe que nous donnons. OK. Laissez-moi donc vous montrer comment cela évolue en fonction de la sélection. Si je sélectionne Speed ground, le graphique obtiendra une chaîne. Si je sélectionne la manipulation, le graphique changera si je sélectionne des pistes sur le graphique associé. Voici donc le tableau de bord interactif que nous avons créé à l'aide de l'application Shiny. D'accord ? Regardez ici les différentes couleurs représentant le verre lourd, léger et moyen. Et ici, vous pouvez sélectionner et vous pouvez voir la différence entre ces éléments. OK, voici comment fonctionne le panneau, l'application. 64. Quelques exemples d'applications brillantes dans R: Dans cette conférence, nous allons examiner certains des exemples déjà écrits d' applications de signature qui se trouvent déjà sur le site Web de signature. Voici donc l' exemple de l' application Shiny que vous pouvez examiner en main. Vous pouvez les voir et modifier le code. Et vous pouvez créer votre propre application Shiny en vous connectant à Esports. Alors laissez-moi vous dire comment vous pouvez également exécuter cela. Il suffit d'appeler la bibliothèque Shiny. Nous devons donc écrire une bibliothèque, puis signer, et nous devons exécuter ceci. Une fois cela fait, vous pouvez commencer à utiliser les exemples comme si le premier était quoi, un histogramme. Un exemple est donc la fonction que vous pouvez utiliser pour appeler cette application de signature de programmes déjà écrits. OK, donc 01 soulignement Bonjour, c'est celui-ci. Et allons-y et voyons ce que nous obtenons. Ainsi, lorsque vous l'exécutez, vous ouvrez l'application assignée. Et voyez ici, c'est dire bonjour en signe de signature. Et ici, vous pouvez voir le nombre de poubelles qui arrivent et voici un histogramme des temps d'attente, d'accord ? Donc, ici, à mesure que vous augmentez le nombre de bacs, voyez ici, le nombre de bacs augmente. Et maintenant, il existe des moyens peptidiques. Si vous en faites un, il n' y a qu'un seul gagnant, n'est-ce pas ? Si vous en mettez six, il y a 6,12 3456 bacs. Si vous le voyez ici, il est interactif et vous pouvez donc augmenter ou diminuer le nombre de broches dans ce tableau des tâches. C'est donc la spécialité de l'application Shiny que nous pouvons jouer avec le tableau de bord que nous avons créé, tableaux de bord interactifs que Shiny App Create. Alors maintenant, vous pouvez voir, si vous venez ici, cela vous donnera la description. Il s'agit d'une petite application minuscule pour démontrer, signez ces mises à jour automatiques de l'interface utilisateur. D'accord ? Voici donc la région RenderPlot et les bacs de saisie. Et regardez ici abduct, notre dossier est déjà donné ici. Vous pouvez donc simplement copier le code à partir d'ici. Et vous pouvez exécuter, utiliser ce code, apple.tar. Visualisez votre laboratoire à l'aide de la bibliothèque shiny et uy, puis du titre, puis de la disposition de la barre latérale. Et ici, l'identifiant d'entrée dans la barre latérale que nous donnons aux beans, le nombre de bacs et le minimum sont un, maximum est la propriété et la valeur démarrée, donc par défaut, elle sera sélectionnée. Et puis ici, le panneau principal trace la sortie que nous obtenons, la sortie ou le panneau principal. Voici donc l' idée de sortie de l'intrigue. Donc, si vous accédez au serveur, vous pouvez voir les entrées des fonctions du serveur ou nous allons prendre la fonction. fonction F prendra l' entrée comme entrée et donnera la sortie. D'accord ? Et voici ce graphique. Et puis nous appelons le RenderPlot. Et ici, nous donnons la valeur x. Et la valeur x correspond à une attente fidèle. Et Vinci est là, vous pouvez organiser des débats dans une séquence allant du minimum au maximum, puis pointiller les broches d'entrée plus une. Bon, nous sommes en train de dessiner l'histogramme. Nous essayons donc d'utiliser l'histogramme avec la valeur x et nous donnons au Brexit la même valeur que la peinture et la couleur. Vous pouvez donner ce que vous voulez à la main, au xlab et au titre principal, vous pouvez donner ce qu'ils veulent. Ensuite, nous créerons l'application en utilisant application Shiny, puis UY égal à interface utilisateur et au serveur, chaque appel au serveur. Donc, quelqu'un est décédé du serveur. Et oui, c'est ce que nous définissons ici. Donc, si vous le souhaitez, vous pouvez le mettre dans l'UI.R jusqu'ici. Vous pouvez insérer l'UI.R et la partie serveur. Vous pouvez placer dans le serveur ce r, et ce seront les données de votre application et nous appellerons l'interface utilisateur et le serveur. Ainsi, vous pouvez prendre cette application point r, qui est un seul fichier, et les convertir en trois fichiers si vous le souhaitez, et si vous voulez ajouter d'autres éléments, si vous voulez ajouter, si nous voulons télécharger un autre graphe ici, Giardia, vous pouvez le faire. Vous pouvez donc le modifier car le code est déjà fourni avec Duck Sign sur le site Web de l'application à partir de là. Il s'agit donc de créer le package de connexion, n'est-ce pas ? Alors laisse-moi fermer ça. Voyons le deuxième exemple. Le deuxième exemple consiste à exécuter exemple zéro pour souligner des textes. Voyons ce qu'il y a là. Il s'agit de Table send DataFrame. Alors lançons cette application Shiny et à bientôt. Lorsque vous cliquez dessus, les textes d'inscription s'ouvriront. Il voit ici. Ici, nous pouvons sélectionner le jeu de données Rock, Fraser et Car Support. Je sélectionne une carte. Il nous indique donc la vitesse et cela tend à indiquer la vitesse et la distance. Et ici, vous pouvez définir le nombre de lignes, le nombre d'observations à afficher. Il est donc maintenant 1012. Alors voyez ici aujourd'hui. Donc dans du gravier. Et si je réduis cela à une hypothèse, cela n'en montre qu'une, je peux augmenter, continuer à augmenter. 123. Vous voyez ici, vous interagissez avec cela et ici je peux sélectionner la pression, afin qu'elle vous indique la température et la pression. Et ici, nous pouvons simplement augmenter la température et la pression, ainsi que cette table. Ainsi, nous pouvons jouer et en tirer des leçons, et ce code est également là, app.all que vous pouvez prendre et que vous pouvez modifier selon vos besoins. Passons donc au troisième exemple. Il s'agit de l'application d'expression réactive. 03 souligne donc la réactivité. Et allons-y et voyons quoi notre application si110 est prête à être mise en place. Découvrez donc ici les lacunes et les besoins en matière d' assemblage de données. L'assemblage des données et l'ensemble de données sont préservés et les voitures sont à nouveau préservées. Nous pouvons donc sélectionner des accolades et ici, la même chose que des lignes et des colonnes. Vous pouvez également sélectionner n pour cela. Le fichier sortant est donné, le destinataire, notre fichier est donné ici. Vous pouvez le prendre pour l'examiner et vous pouvez apprendre que si nous voulons le modifier, vous pouvez le modifier. C'est open source, vous pouvez donc le prendre modifier et l'utiliser vous-même. Et ensuite, voyons des étrangers du judo appelés MPG. Et cliquez sur Exécuter. ouverture de l'apogée a donc remarqué une oscillation du nombre de cylindres, la transmission et des engrenages. Il indique donc les miles par gallon. La relation entre le MPT et l'équipement. Et si vous choisissez une transmission égale à Toyoda, des leçons entre la voiture automatique et manuelle avec le Majlis, d'accord ? Et si vous sélectionnez les engrenages avec le cylindre, et pour celui-ci, vous pouvez obtenir le fichier tar et modifier vous-même une niche. Ensuite, ce sont les barres coulissantes. Alors, exécutons-le et voyons quoi. Voici donc un très bon exemple pour en savoir plus sur le package de signalisation et sur la possibilité de le modifier et de le gazonner. Voir ici. Voici les sliders. Il y a donc tellement de sliders sur ce sport. Et pour ce trimestre, c'est déjà fait. Vous pouvez voir ici que je peux utiliser une valeur entière. Je peux faire 1 000 ou 172 décimales, 0,8 ou une décimale comme ça. Et puis la gamme, je peux la modifier à partir d'ici. Et dès que vous le modifiez ici vous pouvez voir les modifications là-bas. Formateur personnalisé, nous pouvons définir une animation en boucle, nous pouvons le définir ici. De cette façon, nous pouvons ajouter anti-A ici. C'est la possibilité de jouer sur ces formats personnalisés. Vous pouvez cliquer ici et Syria 0-500500 change automatiquement . Ça fonctionne bien, alors regardez ici, maintenant ça change lentement ici. Et voyez que cette animation numérique, c'est aussi une tendance. Donc, au fur et à mesure que cela change, le curseur change. Cela est également en train d'être modifié et ajouté. Les autres chiffres seront également modifiés. Voici donc le package Magic of si110 dans R qui vous permet créer ces tableaux de bord interactifs. Vous voyez, cela est en train de changer et cela change également. Bien, passons à l' exemple suivant qui concerne les cellules de type. Il suffit donc de cliquer sur Exécuter et de voir ce que nous obtenons dans la profondeur. C'est normalement uniforme, long, normal et exponentiel. Nous pouvons donc simplement cliquer ici et voir le résumé, le tableau, voir comment cela évolue. En un clic, vous pouvez voir la normale. Si nous voulons voir l'uniforme, vous pouvez le voir. Et si nous voulons voir la forme longue, vous pouvez voir le long poème. Vous pouvez consulter l'ancien traitement, résumé du diagramme et les tableaux. Et les trois évoluent ensemble. Cliquez sur toutes les données ici, vous pouvez augmenter le nombre d'observations. Et instantanément, vous pouvez voir qu'il s'agit d'un très bon outil pour analyser les données et les analystes de données ou les data scientists. Ou si vous souhaitez agrandir vos données, vous pouvez utiliser l'arsine et ce type de tableau de bord interactif que vous pouvez créer et expliquer à votre équipe ou à votre responsable, que vous êtes en contact avec votre client et qu' peut obtenir instantanément un aperçu des données. Donc, de la même manière, vous pouvez voir l'autre chose. Voici un exemple, téléchargement d' arginine, qui nous donnera les hésitations nécessaires pour télécharger les fichiers et tout le reste. Voyons voir. Vous pouvez cliquer ici et vous pouvez simplement sélectionner n'importe quel fichier et vous pouvez le télécharger. Supposons que je veuille télécharger, maintenant il est chargé et comme il ne s'agit pas de notre fichier CSV, nous allons donc entrer dans le vif du sujet. Si vous souhaitez télécharger un fichier CSV, vous pouvez continuer et vous pouvez télécharger un fichier CSV. Laissez-moi donc me rendre au tribunal de première instance jusqu'en 2020, et j'essaierai d'ouvrir un fichier CSV. Permettez-moi d'ouvrir les données CSV Nato Dot que nous avons corrigées dans l'un de nos exemples, ouvrons-les. Téléchargeons les données ici. Maintenant, nous pouvons voir que le fichier CSV Data point a été téléchargé et nous pouvons voir les données à l'intérieur du fichier CSV Data Point. Nous pouvons retirer le document. Vous pouvez mettre l' en-tête comme ça. Nous pouvons tout faire. Nous pouvons mettre un point-virgule. Nous pouvons utiliser un séparateur, une virgule, un point-virgule, ou même du ruban adhésif et des guillemets sans guillemets doubles. Toutes ces choses que tu peux faire ici. J'affiche déjà toutes les données qui s'y trouvent dans le fichier CSV Data point, n'est-ce pas ? Donc, votre karma et voyez si je mets de la tête, cela montrera que vous n'avez fait que du carburant, le chien, c'est comme quelqu'un et qu'il fait le plein de vente au détail. Remarquez le lancement de données. C'est donc une chose très importante. Et ici, vous pouvez le créer. Cela se produit dans notre si110 et vous pouvez partager avec votre client l'endroit où il peut télécharger le fichier CSV et voir le fichier CSV sans avoir à utiliser XL T-TIP. Ils n'ont pas le droit d'être alliés. Ils peuvent simplement sélectionner le pylône CSV. Je vais regarder le CSP vendredi, d'accord ? Et pour cela, le code est déjà donné ici. C'est donc une bonne chose, un légume, les choses que vous pouvez analyser dans le cadre d'une mission et que vous pouvez en tirer des leçons que vous pouvez modifier et utiliser vous-même. Voir le chronomètre. Vous pouvez cliquer ici et le chronomètre indiquera l' heure actuelle. De cette façon, nous pouvons utiliser la signature. 65. 2 applications brillantes dans RStudio: Bonjour et bon retour. Dans cette conférence, nous allons créer une application de signature de deux pages. Donc, deux fichiers s'enregistrant, nous allons créer. Nous avons donc vu comment nous pouvons créer trois pages, comme nous l'avons fait pour apple.tar, UI.r et Teradata. Un autre exemple. Ici. Ce que nous allons faire, c' créer un dossier, deux dossiers. L'un est UI.r, et le second sera constitué de données de serveur. Donc, tout d'abord, ce que nous devons faire, nous devons accéder à notre répertoire de travail et créer un dossier avec l'acronyme. Donc, ici, je donne le nom de l'application comme vrai lors de la signature de l'application. D'accord ? À l'intérieur de celui-ci, je vais créer deux fichiers, UI.R et Solver point Art, sorte que j'ai déjà créé et écrit le code correspondant à la manière dont il se trouve dans le dossier de l'application de signature de fichiers. D'accord. Le nom de l'application sera donc le nom du dossier. Et à l'intérieur du dossier nous enregistrerons cet UI.r et le point r du serveur. Ainsi, ce point aura la même interface utilisateur égale à une mise en page fluide de la page et de la barre latérale et à la saisie du volet latéral, du panneau et de la barre latérale. Nous donnons donc ici l'OBS et le nombre d'observations, d'observations et de visiteurs. Le minimum est de dix, maximum est de 500 et la valeur sera de cent. D'accord ? Ensuite, nous appelons le panneau principal et la sortie du graphique. Ce diagramme et ce diagramme proviendront du serveur dont nos sources sont ce que nous appelons la fonction entrée et sortie et la sortie seront le diagramme parabolique. Et ce diagramme sera intégré à l'histogramme, où les données seront entrées OBS pour nos normes et la couleur que je vais nous donner est le rouge et le vert. D'accord, seuls ces deux fichiers, pas besoin d'écrire l'application, le sont et comment exécuter ce fichier. Nous pouvons simplement accéder à la console ici. Alors laisse-moi effacer la console. Et ici, il vous suffit d' écrire une application d'exécution. Exécutez ça. Nous devons maintenant appeler run app et, dans l'unité RunApp, fournir le nom du dossier ou le nom de l'application pour signer l'application que nous avons créée. Donc, ces quatre que nous avons créés pour signer l'application. Nous allons donc lui donner un nom ici et nous devons l'exécuter. Appuyez donc sur Entrée et votre application Simon trouvera le numéro d'observation du PDG. Et voici un histogramme. J'ai donc donné du vert, rouge et la bordure sera verte. Et si je change ce nombre de générations, il continuera de changer. Donc, de cette façon, nous pouvons créer ou enregistrer une application de signature dans laquelle UI.R répondra à ces données, allons-nous la tuer ? Si vous voulez changer la couleur, vous pouvez mettre le jaune et le vert. Et ici, nous devons simplement le fermer et le réexécuter. J'ai lancé l'application pour classer n'importe quelle application et j'ai appuyé sur Entrée. Voyons maintenant qu'il sera propre et jaune. Ceo, le jaune et la bordure sont verts. Vous pouvez donc faire comme ça. Et vous pouvez constater un certain nombre d' apoptose variées et anormales et vous pouvez voir que l'histogramme change. D'accord ? Ainsi, nous pouvons créer deux fichiers. Inscrivez-moi. 66. Générer des rapports téléchargeables dans brillant: Dans cette conférence, nous allons découvrir comment générer des rapports téléchargeables. Comment générer les rapports sur lesquels nous pouvons télécharger notre divorce téléchargeable. D'accord. Ainsi, lorsque vous visitez le site assignee.rstudio.com, vous pouvez constater qu'il existe déjà une substance et des informations que vous pouvez apprendre sur la signature depuis notre studio. Donc, créer le tableau de bord interactif ici est opsin. Vous pouvez le voir générer des rapports téléchargeables. Vous pouvez donc voir ici l'exemple comme app.all et qu' ils ont donné. Et ici, vous pouvez l' essayer et signaler le point RMD. Et il a cru que ce rapport était vide et qu'il créerait un complot. Et le rapport que vous pouvez télécharger. Et il existe un autre exemple de sommet que je vais vous montrer, lequel nous pouvons télécharger le rapport sous forme de PDF ou de HTML et de barres. Donc, voici le premier jeu de données sur les voitures vides qui est facilement accessible avec le R. Ici, vous pouvez voir en fonction du nombre de cylindres, nous pouvons voir le modèle de régression. Il s'agit du modèle de régression. Cylindre et nombre de cylindres, MPG, comment le nombre de cylindres affecte le kilométrage, miles par gallon, comment le point chaud affecte le MPG, comment le poids de la voiture affecte les miles par gallon, preuves ou kilométrage de la voiture, ou rayon, la façon dont ces facteurs affectent le nombre de vitesses affecte la myéline qu'il s'agit ce que nous avons fait pour analyser votre dette nous l'avons fait dans le cadre de nos programmes. Et ce sont les éléments que nous pouvons apprécier car ils ont été générés en interne lors du développement d'un modèle de régression cadre duquel ils essaient de trouver la meilleure ligne d'ajustement. Et pour cela, maintenant, voici le rapport et le soutien à votre déplacement. peux le mettre comme ça et il existe une option au format de document, PDF ou HTML, ou travailler pour les soutenir en cliquant sur PDF et je clique sur Télécharger. Ce rapport complet sera téléchargé au format PDF si je l'ouvre. Et donc, vous voyez ici, cela montre que cela a fonctionné comme ça. Voici le modèle de régression. Et d'où nous obtenons ces informations, proviennent du fichier Report Dot RMD. Nous sommes là pour créer le modèle de régression linéaire basé sur les sources de données, les voitures vides. Ensuite, ils utilisent le coefficient correspondant. Ensuite, ils insèrent cela dans le diagramme pour trouver la meilleure droite d'ajustement, puis ils obtiennent la droite la mieux ajustée, notre droite de régression. Ce rapport est donc publié comme suit. Lorsque vous le voyez ici, il nous montre les points de données, mais lorsque vous le téléchargez, nous obtenons le rapport complet. Et voici l'ensemble de fichiers composé de r point r et c ici. La moyenne de la formule, l'astuce et de l'entrée MPG, puis de la sortie, désendettement d'un autre graphique, puis le téléchargement du rapport ici, partie puissante, le format du nom de fichier sera le PDF puis le contenu, ils obtiennent la normalisation. Mais importons ceux qui sont vides. C'est important car tous les calculs et tout ce que nous avons vu dans ce rapport proviennent des fichiers d'assemblage. OK, donc c'est très important. Et puis les voici, il suffit de définir le répertoire de travail comme répertoire temporaire afin qu'il ne demande pas l'accès administrateur. Et je vais m'en occuper. Ils l'utilisent pour ensuite trouver une copie du lot et le signaler chez MD, n'est-ce pas ? Ensuite, bibliothéquez le Markdown d'origine et cela permettra de les convertir en fichier RMD dans le PDF. D'accord ? Alors, découvrez renommer le fichier de sortie. D'accord. Donc, ces choses, permettez-moi également de vous montrer le fichier RMD qui a été utilisé en interne. Vous pouvez donc cliquer sur Obtenir le code et cela vous redirigera vers référentiel GitHub où vous signez. Vous pouvez voir ici un rapport indiquant que nos employés sont des mots qui, de toute façon, sont points et des points dans tous les fichiers. Ainsi, lorsque vous cliquez sur le point RMD du rapport, vous pouvez voir ici la moyenne du modèle de régression et voici le code. Voici mon modèle de régression. Et puis en utilisant notre modèle, l'effondrement est vrai. Et il avait des opsines. Ces autres choses, nous les voyons bien. Et puis le MPG original qui fructifie et tout ça. OK, ils créent donc un nuage de points, puis trouvent la ligne la mieux ajustée à l'aide de la ligne abline. Et ils mettent la bonne couleur ? C'est ainsi que nous obtenons ce rapport lisant ce fichier d' assemblage et en préparant les rapports. Ainsi, vous pouvez obtenir un rapport téléchargeable. Si vous souhaitez télécharger ce rapport au format Word, vous pouvez cliquer dessus et il sera téléchargé dans un document X4, n'est-ce pas ? D'accord. Et si vous souhaitez le télécharger au format HTML, vous pouvez cliquer sur HTML et télécharger. Et il sera téléchargé dans le fichier HTML suivant. Ouvrons ceci et les données CSIA, mon fichier HTML à points de rapport. Ainsi, si vous souhaitez créer un rapport ou un tableau de bord téléchargeable, vous pouvez utiliser le Discord et écrire le vôtre. Signez l'application. 67. Analyse de la covariance: Bonjour et bon retour. Dans cette conférence, nous allons donc en apprendre davantage sur l'analyse de la covariance. Et on l'appelle aussi cola. Donc ENCO Reais. Cela signifie l'analyse de la covariance et du secret et du tri, c'est ce que nous appelons. Qu'est-ce donc que cette analyse de covariance ? Vous savez donc ce que nous faisons dans les algorithmes d'apprentissage automatique ou dans un modèle de régression linéaire. Ce que nous faisons en régression, essayer de trouver une valeur réelle, une valeur continue, n'est-ce pas ? Contrairement aux données catégorielles, nous essayons toujours de trouver la longueur de l' arc oui ou non, vrai ou faux, zéro ou un comme ça, n'est-ce pas ? En régression, nous avons donc essayé de trouver une valeur continue. Nous créons donc une analyse de régression vers Lake. Nous utilisons des modèles de régression. Analyse de régression pour créer des modèles décrivant l'effet de la variance sur une variable prédictive, n'est-ce pas ? Sur les variables de réponse. Quel est donc l'effet de la variance des variables de prévision sur le modèle de réponse ? Quel effet les variables prédictives vont avoir sur la variable de réponse. C'est ce que nous essayons de faire avec l'analyse de régression. Et quels que soient les modèles que nous allons créer , nous allons le faire d'une seule façon. Mais que se passe-t-il parfois ? Nous disposons d'un ensemble de données catégorielles. Donc, si vous voyez ensemble de données sur les voitures vides intégré au R et que nous allons utiliser si nous exécutons ce morceau de code, vous verrez que nous avons une colonne E m. Qu'est-ce que ce m. M est automatique ou manuel. Regardez sa valeur, sa valeur est zéro ou 10 signifie automatique et signifie manuel, donc quelque chose comme ça. D'accord ? Donc D représente l' automatique et le manuel, d'accord ? Il s'agit donc d'une donnée catégorique, nulle ou égale à un. Il ne s'agit pas d'une valeur continue comme les miles par gallon, 2 122,8, 21,14, 0,7, n'est-ce pas ? Il est donc difficile de trouver l'effet de cette variable catégorielle sur ce mpg. Voyez ici la puissance, les HP y sont également, mais c'est une valeur continue qui n'est pas catégorique. Bonjour. Alors, que se passe-t-il ? faut, nous avons une variable catégorielle dont les valeurs sont non, zéro ou un, masculin ou féminin. Dans certains cas. N'importe quoi, cela peut être une perte de profits, peu importe, donc quelles que soient les valeurs catégorielles que nous pouvons avoir. Ainsi, l' analyse de régression simple donne plusieurs résultats pour chaque valeur de la variable catégorielle. Donc, pour cette ligne G et un pour zéro, nous obtiendrons 21 points pour ce 018,7. Nous obtenons donc une valeur différente pour MPG, pour le même zéro, n'est-ce pas ? Zéro représente le Hornet et celui-ci représente le sport des Hornets, n'est-ce pas ? Ces valeurs sont donc différentes. Alors, comment allons-nous déterminer l'effet que cela a sur le nombre de miles par gallon ? C'est donc ce qui entre en ligne de compte, l'analyse de la variance. Permettez-moi donc de vous donner une petite explication. L'analyse de covariance est utilisée pour tester l'effet principal et l'effet d'interaction d'une variable catégorielle. Cela signifie qu'il s'agit de viser une variable dépendante continue, savoir le mpg, en contrôlant l'effet de la sélection d'autres variables continues. Donc, si nous savons quel effet cela a sur cela, nous pouvons même avoir décidé quels HP ont un effet sur le MPG ou quel effet ce m a sur le HP ou le MPG, qui varient en fonction de la personne à charge. Les variables de contrôle sont appelées covariables. Les variables encore contrôlées sont appelées covariables. Parfois, si nous avons une variable catégorique avec des valeurs telles que oui ou non, homme ou femme, profit ou perte. régressions simples et les lances donnent plusieurs résultats pour chaque valeur de la variable catégorielle dont j'ai parlé ici. Pour zéro, il existe de nombreuses valeurs mais MPG et pour un, il existe également de nombreuses valeurs. L'analyse de régression simple donne plusieurs résultats pour chaque valeur de la variable catégorielle. Dans un tel scénario, nous pouvons étudier l'effet d'une variable catégorielle en l'utilisant avec une variable prédictive sombre et en comparant les droites de régression pour chaque niveau d'une variable catégorielle. Donc, ce qu'il dit, c'est que dans un tel scénario, nous pouvons étudier l'effet d' une variable catégorielle en l'utilisant avec le prédicteur. Donc, avec un prédicteur comme HP. Nous allons donc utiliser un m avec le HP pour prédire le MPG. Et nous allons trouver la droite de régression pour chaque niveau de la variable catégorielle pour 0,41, pour chacun, mais chaque niveau trouvera la variable catégorielle. D'accord ? Et c'est ce qu'on appelle l' analyse de covariance. Considérons donc cet ensemble de données sur les voitures vides où m représente la transmission automatique manuelle. Il s'agit d'une variable catégorique avec des valeurs de 0,1 Comme je l'ai dit plus tôt, miles par gallon ou le MPG d'une voiture peuvent en dépendre. En outre, la valeur de la puissance, mpg, peut dépendre du fait que la voiture soit automatique ou manuelle, et elle peut également dépendre de la puissance. Nous avons donc étudié l'effet de l'EM sur la régression entre MPG et HP. Et cela se fait en utilisant la fonction a ou V. La fonction Aov est une analyse de la fonction de variance suivie de la fonction NOR. Nous allons donc utiliser les fonctions du bot. Nous allons d'abord utiliser la fonction AOV pour trouver la régression. En utilisant ces deux variables autres HP sont prévisibles et visent à trouver le MPG. Ensuite, nous utiliserons le Nahuatl et déciderons quel modèle nous donne quoi et comment cette variable catégorielle ou une variable prédictive catégorielle affecte la variable dépendante MPG. Donc, ce que nous faisons d'abord, nous obtenons les données d'entrée qui sont des voitures vides. Nous les stockons donc dans les données des voitures vides. Ensuite, nous créons un modèle de régression et un modèle d'inversion. Pour le modèle de régression, nous utilisons une fonction AOV ou fonction d'analyse de variance, fonction AOV que nous utilisons et nous créons un modèle de régression entre MPG et HP avec am. Et nous tirons parti des sources de données, des voitures vides, des données que nous obtenons des voitures vides. Ensuite, nous en imprimerons deux. Nous obtiendrons le résumé du modèle 1. Alors laissez-moi exécuter ceci et laissez-moi exécuter le modèle. Nous sommes donc en train de créer un modèle de régression ici. Quels sont donc les enseignements que nous donne ce modèle de régression, cette source originale selon laquelle la puissance et le type de transmission que HP et M ont un effet significatif sur les miles par gallon en tant que valeur p ou les deux ? La valeur P dans les deux cas est inférieure à 0,5, n'est-ce pas ? Il s'agit donc d'avoir les deux valeurs de p inférieures à 0,5. Mais lorsque nous prenons ces HP et m ensemble, la valeur p est supérieure à 0,5, ce qui signifie que la combinaison du SPN am n'aura aucun effet significatif sur le MPG. L'interaction entre le, cet AM et SB n'est donc pas significative car elle n'aura aucun effet sur le, sur le MPG. Ce modèle nous donne donc l'idée que HP et moi, si vous les prenez seuls, ils auront un effet sur le MPG. Mais lorsque nous les prenons ensemble, ils n'auront aucun effet significatif sur le MPG car la valeur de p est supérieure à 0,5. La prochaine chose que je vais faire, créer un autre modèle de régression. Où vas-tu, que ferons-nous ? Nous n'inclurons pas la valeur catégorielle. Valeur, d'accord ? Nous modélisons sans la valeur catégorique, c'est-à-dire am. Je veux donc dire que sans l'interaction entre le HP et m, nous allons créer un autre modèle de régression, la fonction AOV. Et nous verrons quel effet ils ont sur le MPG. Alors laisse-moi exécuter ça. Pourtant, j'utilise un chariot vide aussi précieux et il contiendra les mêmes données que les voitures vides. Alors voyez ici. Maintenant, dans notre modèle, il n'y a aucune interaction entre HP et m. Ensuite, quelles informations nous obtenons. C'est votre âme qui à la fois, la puissance et ont un effet significatif sur les miles par gallon, car la valeur p est inférieure à 0,5. Bon, maintenant, je vais comparer ces deux modèles, modèle 11 avec la valeur catégorique. Interaction entre le HP et le m. Et un autre modèle n'a pas d'interaction entre le PNM. D'accord ? Permettez-moi maintenant de comparer ces deux modèles, le modèle deux et le modèle un. Donc, ce que je suis, j'utilise la fonction NOR pour comparer ces deux modèles de régression. Alors laisse-moi exécuter ça. Découvrez maintenant les informations que nous recevons de cette région. Nous obtenons que la valeur de p est supérieure à 0,5. Nous pouvons donc conclure que l'interaction entre la puissance et type de transmission n' est pas significative. Les miles par gallon dépendront donc de la même manière que HP et AM. D'accord ? Donc, le HP et le m vont tous deux avoir un effet, les deux auront suffisamment d' effet sur ce MPG. De la même manière. Ce n'est pas comme si les deux allaient affecter différemment. Les deux vont affecter de la même manière. Le MPG dépendra donc de la même manière la puissance de la voiture en mode automatique et manuel. Donc, si la puissance soutient la puissance d'une voiture, qui est automatique, et il donne plus de kilomètres. Et si nous ne le faisions pas manuellement avec le même point d'accès, cela produira moins de myéline. Ce n'est pas le cas du kilométrage de la voiture, que ce soit avec le même soutien, la moitié. Maintenant, supposons 1 CV, une voiture est là et elle est manuelle. Et une autre carte est la même, 1 ch et elle est automatique. Les deux donneront le même mpg. La moyenne ne changera pas , que la voiture soit automatique ou manuelle. D'accord. Cela dépend donc de la puissance et mode manuel ou automatique n' affectera pas beaucoup le kilométrage de la voiture. C'est ainsi que nous pouvons effectuer l'analyse de la covariance. La covariance signifie que les autres variables prédictives vont disparaître Eddie, je vais avoir un effet sur la variable dépendante. Dans ce cas, b et m sont la covariante et mpg est la variable dépendante. Nous avons donc découvert que le fait que la voiture soit automatique ou manuelle avec la même balle suscitera la même insouciance. 68. Handson avec la bibliothèque dplyr: Bonjour et bon retour. Dans cette conférence, nous allons revenir sur la manipulation des données. Et les activités de manipulation de données se feront uniquement avec le package de couche profonde qui est relativement au même niveau que les impairs. Le lecteur est donc un package qui fournit à l'Égypte des outils pour les tâches de manipulation de données les plus courantes. Nous allons donc tout apprendre sur le plan aujourd'hui et voir quelles sont les tâches de manipulation que nous pouvons effectuer. Et nous allons faire ce long dossier que j'ai écrit. Nous ferons tout ce qui est en notre pouvoir et nous verrons ce que nous pouvons faire et comment nous pouvons jouer avec les données, comment nous pouvons manipuler les tâches de manipulation des données. Comment utiliser la tâche de manipulation de données à l'aide du plan. Alors allons-y. La couche profonde fournit la grammaire de la manipulation des données, fournissant un ensemble cohérent de distorsions qui vous ont aidé à résoudre les problèmes de manipulation de données les plus courants. La toute première fonction dont nous parlerons est donc la fonction de mutation. Et ce qu'il fait, c'est qu'il ajoute nouvelles variables qui sont des cellules de variables existantes. Donc, ce qu'il va faire, c'est ajouter nouvelles variables qui sont des fonctions d'une variable existante, saurons ce que cela signifie lorsque nous ferons la pratique. OK, donc le suivant est sélectionner, sélectionner, il crache une cellule. Qu'est-ce que Select ? La sélection des variables en fonction de leur nom est-elle identique une requête de sélection en SQL ? Si vous connaissez SQL, MySQL ou toute autre base de données relationnelle, nous utilisons le select pour sélectionner la valeur qui sélectionnera quelque chose parmi les données de la table en utilisant le nom de la colonne. OK, c'est donc ce que select fait également ici, fixe ou variable en fonction de leurs noms. Ensuite, nous avons le filtre, un filtre plus étroit. Il sélectionne les cas en fonction de leurs valeurs. Donc, si vous voulez filtrer vos données en fonction de certaines valeurs, comme celles relatives à l'oreille ou à quoi que ce soit d'autre, n'importe quelle robe et que vous pouvez regarder, d'accord ? Résumez, la fonction réduit les valeurs multiples à un seul résumé. Donc, ce que fera le résumé, c'est de réduire les valeurs multiples à un seul résumé. Nous verrons également que nous avons alors la fonction orange. Ce que je n'ai pas fait, c'est que cela modifie l' ordre des règles, sorte que les données sont simplement organisées dans un ordre différent. L'ordre de Rose, Twilight, tout va bien. En outre, il soutient également l'opérateur de tuyauterie. Il s'agit donc du pourcentage de tests effectués par l'opérateur de tuyauterie , puis supérieur au signe, puis présenté, c'est ce qu'on appelle l'opérateur de tuyauterie. OK. Alors maintenant, laissez-moi vous expliquer comment installer le package dans vos artistes à faire ou même dans des œuvres d'art. Vous pouvez donc simplement accéder aux packages ici et cliquer sur Installer et vous pouvez mettre la demande ici. OK. En dehors de cela, vous pouvez également utiliser le package Tidy Verse Le moyen le plus simple d'installer le plot est d'installer l'ensemble de Tidyverse. Donc, si vous avez installé le package tidyverse, il inclura le plan D. Et si vous ne souhaitez pas installer ce tidyverse car il contiendra de nombreux packages. D'accord ? Donc, si vous voulez, ou ne voulez pas, les packages que vous n'utilisez pas, vous pouvez opter pour le plan install.packages D, d'accord ? Il installera donc un paquet principal dupliqué. En dehors de cela, vous pouvez également suivre cette voie. Maintenant. Vous pouvez accéder au package d'installation et vous pouvez saisir le nom de ce package et vous pouvez l'installer. Et pour appeler la bibliothèque, nous devons commencer par utiliser la bibliothèque, puis le nom du package que nous donnons. Donc, vous savez déjà les autres choses, mais juste pour diviser les choses que je vous dis. La prochaine étape est moins explorée. Les femmes manipulatrices de base du joueur utiliseront le jeu de données Star Wars. Nous allons donc utiliser le jeu de données Star Wars disponible avec l'arc, qui est préchargé dans R. D'accord ? Donc, si on met tête, tête, Star Wars, ce qu'il va donner, il donnera les cinq premiers. premier type fait apparaître l'ensemble de données que nous connaissons déjà et que nous avons utilisé plusieurs fois, n'est-ce pas ? Mais ce package de couche profonde vous donnera une autre fonction appelée aperçu que je n'ai pas utilisée jusqu'à présent. Je l'utilise pour la première fois. Donc, si vous utilisez un aperçu de Star Wars, il vous donnera toutes les informations sur les règles. Et comme ceci, voyez ici qu'il est écrit que c'est une ligne, 87 lignes et 14 colonnes. Et c'est donner, nous donner le nom de la colonne, nom, la hauteur, la masse, la couleur, et quelles en sont les valeurs ? OK. Les trois premiers pour l'effondrement. Cela nous donne un aperçu des punks et cela vous donnera juste un aperçu des données. Donc, si vous souhaitez avoir un aperçu rapide des données, vous pouvez utiliser la fonction de nettoyage. Sinon, vous pouvez également utiliser la tête. OK. Donc, si vous commentez Glimpse et si vous avez lancé head unit, head vous donnera un résultat comme celui-ci. Et un aperçu vous donnera ce résultat. D'accord ? Voici donc la tête et voici les membres. D'accord ? Nous allons maintenant passer à cet opérateur de tuyauterie. Laisse-moi fermer ça. De même, nous avons également vu la vue. Vous pouvez donc vous offrir un Star Wars et cela vous donnera une vue sur le lac de données. Cela vous donnera une vue complète de l'ensemble de données comme si vous voyiez une personne normale. Cela vous donnera l' ensemble de données complet, d'accord ? Maintenant, l'opérateur de canal, toutes les fonctions de couche profonde prennent DataFrame comme premier argument. dataframe sera le premier argument pour expliquer tout ce que la plateforme contient, plutôt que d'obliger l'utilisateur à enregistrer des plutôt que d'obliger l'utilisateur à fonctions d' objet intermédiaire ou d'imbriquer des fonctions Le plaid fournit à l'opérateur de tuyaux les lignes de filtre avec la fonction de filtre. filtre vous permet donc de sélectionner le sous-ensemble de routes dans un DataFrame. Le premier argument est le DataFrame. Le second document et les suivants font état de la valeur contenue dans la trame de données, en sélectionnant les lignes où l'expression est vraie. Alors voyez ici pour sélectionner le personnage à la peau claire et aux yeux bruns. Donc, ce que nous pouvons faire, nous pouvons l'utiliser, c'est le nom du jeu de données Star Wars. Ensuite, nous pouvons utiliser l'opérateur de tuyauterie. Ensuite, nous pouvons utiliser le filtre, et nous pouvons vous donner le paramètre de filtrage. La couleur de la peau serait claire et la couleur des yeux. Alors sois brun. D'accord ? Et vous pouvez également le faire d'une autre manière, comme Star Wars. Ensuite, vous pouvez utiliser le Star Wars, puis le support, Star Wars, le support, les dollars Star Wars peuvent être coloriés. Cela signifie que nous allons affecter la base de données sur la couleur de peau à partir du jeu de données Star Wars. Et elle est écaillée, la couleur de la peau sera claire, puis l'étoile sera plus grande. La couleur des yeux signifie que nous allons faire face à la base de données sur la couleur des yeux et la couleur des yeux doit être brune. Vous pouvez utiliser l' opérateur de tuyauterie comme ceci. Ou bien, vous pouvez utiliser le dollar. Et Star Wars. Cela signifie que la couleur de peau en dollars de Star Wars signifie que nous allons ajuster l'ensemble de données en fonction la couleur de leur peau à partir de cet ensemble de données Star Wars. Cela signifie que la couleur de peau est une colonne dans le jeu de données Star Wars. D'accord ? Ensuite, nous pouvons l'utiliser simplement ou vous pouvez utiliser l'opérateur du tuyau et utiliser lit filtrant sous la couleur de la peau et la couleur des yeux. Les deux vous donneront le même résultat. Voir ici. Les deux vous donnent le même résultat. Il n'y a aucune différence. Vous pouvez donc l'utiliser soit avec l'opérateur de tuyauterie, soit avec son argent. D'accord ? Voici donc les deux manières de filtrer les données. Lignes arrangées avec fonction orange. Notre fils en bas âge fonctionne donc de la même manière que le filtre, sauf qu' au lieu de filtrer ou de sélectionner des lignes, il les réorganise. Qu'est-ce que ça a fait ? Il réorganise l'ensemble de données. Il faut le DataFrame et une configuration. Les noms de colonnes sont des expressions plus compliquées à trier PAR, utilisez cette expression correcte et décroissante. Donc, si vous utilisez cette fonction DESC, elle ordonnera la colonne dans l'ordre décroissant. Si nous utilisons l'EEOC, il enverra. OK, donc ici, nous ajoutons des éléments dans l' ordre décroissant de hauteur. Pour y parvenir, nous pouvons donc utiliser Star Wars, nous pouvons donc utiliser Star Wars, puis un opérateur de tuyauterie, puis la fonction et la hauteur du DESC. Il vous suffit de le fournir et les données seront classées par ordre décroissant. Regardez ici, maintenant les données proviennent du plus haut niveau et elles sont en baisse. Il s'agit de l'ordre décroissant. Ainsi, nous pouvons ajouter les données ou filtrer les données en fonction de la hauteur par ordre décroissant. OK, la prochaine étape est Slice. La fonction de barre oblique de deux diapositives vous permet indexer les diapositives en fonction de leur emplacement entier. Il vous permet de sélectionner, supprimer et de dupliquer des lignes. Donc, légèrement en désaccord, découpez les données de notre ensemble de données. Tranchez la tête de soulignement et faites-la glisser sur ce que l'on appelle la queue. Sélectionnez la première et la dernière ligne des données. Tranchez l'échantillon de soulignement, sélectionnez ces lignes au hasard. Ainsi, les diapositives situées sous un échantillon de soulignement vous donneront le Raj sélectionné au hasard dans l'ensemble de données si vous souhaitez que votre police le fasse. Donc, si vous n'obtenez pas d'échantillon à partir de l' ensemble de données, un ensemble de données volumineux, vous pouvez utiliser des diapositives sur cet exemple de code, puis sélectionner au hasard des routes et vous les vendre, souvent utilisées comme accessoires, pour en choisir certaines. Proportion des cas. moyenne du trait de soulignement de la tranche et la valeur maximale du trait de soulignement la tranche sélectionnez les lignes dont la valeur est la plus élevée ou la plus faible de notre variable. Cela vous donnera donc simplement, si vous fournissez la moyenne du trait de soulignement de la tranche et ici, vous indiquerez la hauteur. Il vous donnera le minimum de hauteur et les diapositives souligneront les mathématiques, maximum, la hauteur, il vous donnera le maximum de la hauteur. Passons donc à la pratique. Donc, pour obtenir le personnage 5 à 10, nous pouvons utiliser Star Wars Pipe Operator Slice Five, Colon Dix. Alors laissez-moi simplement exécuter ceci. D'accord ? Nous vous en donnerons cinq à dix, d'accord ? Si nous utilisons n égal à trois, cela ne nous donnera, voyez, que trois lignes, d'accord ? Et si nous utilisons n égal à 512345 lignes, si vous voyez la différence ici, cinq à dix, cela vous donnera 56789106 états de ligne, dont cinq n ici, n égal à 5 min seulement 512345. D'accord ? Maintenant, pour échantillonner dix pour cent des lignes, nous pouvons l'utiliser. Nous pouvons utiliser les opérateurs Star Wars Five, les diapositives, les soulignements, un exemple. Accessoire 0,1 %. 0,1 signifie dix pour cent. Et cela vous donnera les dix pour cent des données. D'accord ? Cela permettra de découper les 10 % des données. Utilisez maintenant les diapositives pour obtenir la valeur la plus faible ou la plus élevée. Nous pouvons donc utiliser filtre Star Wars pour ne pas nous cacher. Ensuite, nous pouvons utiliser Slice. Nous passons donc à sélectionner des colonnes avec la sélection désactivée lorsque vous travaillez avec un ensemble de données volumineux contenant de nombreuses colonnes, mais seules quelques-unes présentent réellement un intérêt, tandis que peu de colonnes vous permettent de zoomer rapidement sur un sous-ensemble utile à l'aide d'évaluations qui, généralement, One Leave fonctionnent sur la position des variables numériques. sélectionner des colonnes avec désactivée lorsque vous travaillez avec un ensemble de données volumineux contenant de nombreuses colonnes, mais seules quelques-unes présentent réellement un intérêt, tandis que peu de colonnes vous permettent de zoomer rapidement sur un sous-ensemble utile à zoomer rapidement sur un sous-ensemble utile l'aide d'évaluations qui, généralement One Leave fonctionnent sur la position des variables numériques. Sélectionnez donc les colonnes par nom. Vous pouvez donc utiliser les pipes Star Wars pour sélectionner la couleur des cheveux et la couleur des yeux. Cela vous donnera donc la couleur des cheveux et des yeux. La reine et seulement cette phrase. Et si vous sélectionnez les colonnes en les tranchant, nous pouvons utiliser la couleur des cheveux et la couleur des yeux, les deux ne sont pas identiques. Ensuite, nous voulons sélectionner cela. Ce résultat, vous pouvez voir la couleur des cheveux et des yeux n'est pas là. Toutes les autres colonnes sont présentes, mais la couleur des cheveux et la couleur des yeux sont verrouillées et ne sont pas incluses. La sélection de colonnes avec les critères spécifiques se termine par la couleur. Nous voulons donc sélectionner les données les unes pour les autres, toutes celles qui ont cette couleur. Alors laisse-moi analyser la couleur des cheveux, la couleur de la peau et la couleur des yeux. Trois colonnes se terminant par la couleur. Maintenant muter, muter à partir de Sun vous permet de le faire, permet de créer de nouvelles variables. Ceci est extrêmement utile pour l'analyse statistique. Voici donc l'opérateur de tuyaux Star Wars qui fait muter la hauteur en hauteur de 100. Alors, qu'est-ce qu'on ajoute ? Ici ? Nous obtenons la hauteur à partir de Star Wars, nous la divisons par 100 et créons un nouveau trait de soulignement de la hauteur des colonnes. Ensuite, sélectionnez la hauteur, hauteur et tout le reste. Alors laissez-moi lancer ceci et voir ce que nous obtenons C ici Nous obtenons la hauteur de soulignement m nouvelle colonne ici, et cela fait 172 divisé par cent, donc 1,72 et puis toutes les autres colonnes de Star Wars, c'est inclus. De cette façon, nous pouvons muter en fonction du nouveau trait de soulignement m de la hauteur de colonne dans l'ensemble de données. Et nous pouvons modifier la nouvelle colonne et obtenir la nouvelle valeur de cette colonne en utilisant la fonction de mutation. D'accord ? Désormais, un modèle de régression ajusté utilisant la taille comme examen, l' examen trois comme valeur et Mars, ou l'autre variable de réponse, y compris la valeur aberrante, affiche les statistiques récapitulatives la coopération existante. Nous utilisons donc ici un modèle de régression. Nous utiliserons la fonction lm, la hauteur et la masse, puis les valeurs des données, Star Wars et le résumé. Je vais m'en servir. Alors laisse-moi exécuter ça. Regardez ici, voici le résumé que nous obtenons. Nous pouvons également tracer ce modèle de régression. Voyons voir ici, nous allons obtenir ce résidu comme effet de levier. D'accord ? Donc, si vous voulez entrer dans les détails, vous pouvez voir l'eau, le coefficient que nous obtenons, la valeur p de ReLU, toutes ces choses que vous pouvez voir quelle est la médiane minimale. Premier quartile, troisième quartile, valeur maximale. Toutes ces choses que vous pouvez analyser, vous pouvez voir ici des Q-Q normaux et des valeurs résiduelles standard, ainsi emplacement théorique des carreaux du quadrant. Toutes ces choses. Vous pouvez analyser votre agenda, trouver quelqu'un et tracer le modèle de régression en fonction de la hauteur et de la masse. À partir des données, on m'a dit que c'est rapide d'utilisation de la fonction de tracé, une méthode rapide d'utilisation de la fonction de tracé, une bibliothèque en D plat dans le R. J'espère que vous avez appris ce qu'est le D plat et comment nous pouvons utiliser les différentes fonctions telles que mutex, sélectionner, filtrer, résumer, etc. ce qu'est le D plat et comment nous pouvons utiliser les différentes fonctions telles que mutex, sélectionner, filtrer, résumer, des choses. La prochaine conférence. 69. Régression linéaire simple utilisant un jeu de données de qualité aérienne: Bonjour et bon retour. Dans cette conférence, nous allons en fait faire un autre projet simple dans lequel nous allons utiliser la régression linéaire. Et ce que nous allons faire avec la régression linéaire pour essayer de trouver la droite la mieux adaptée à notre ensemble de données. C'est-à-dire un ensemble de données sur la qualité de l'air facilement accessible avec le R. Donc, cet ensemble de données sur la qualité de l'air est disponible avec le r. Et voici l'ensemble de données sur la mesure de la qualité de l'air à Newark. D'accord ? Voyons donc en quoi consistent ces données, puis ce que nous allons faire avec cet ensemble de données et ce que nous allons réaliser avec la régression linéaire. Donc des mesures quotidiennes de la qualité de l'air en Irak de mai à septembre 1973. Il s'agit donc de l' ensemble de données. Il mesure la qualité de l'air à New York entre mai 1973 et le 19 septembre 1973. L'ensemble de données est la qualité de l'air. Et je vais formater le format des données avec les 153 observations sur six variables. Et quelles sont ces variables ? Couche d'ozone, quelle est la quantité de niveaux ordinaux ? Donc r point r sera nombre numérique et il sera dans les poumons. Et ce sera le PPB. vitesse du vent sera le MPH, puis la température sera en degrés Fahrenheit et du 1 au 12, de janvier à décembre. D'accord. L'ozone signifie donc des lectures quotidiennes des valeurs de qualité de l'air suivantes. Le 1er au 30 septembre 1973 a été retiré et répertorié dans l'ensemble de données. Ne voulez pas dire ou ne pas dire en parties par milliard. 1300-1500 h à Roosevelt Island. D'accord. Si fort que cela représente, la perturbation du rayonnement solaire dans le bail foncier dans la bande de fréquences 4000-7700, Armstrong angstrom, de 8 h du matin à 1 200 h à Central Park. Vent. Il s'agit de la moyenne lorsque la vitesse en miles par heure, 7 à 10 h à l'aéroport de Land Gorilla signifie qu'il s'agit de la température quotidienne maximale en degrés Fahrenheit à cet aéroport. OK, donc tout tourne autour de l'ensemble de données. Passons au code. J'ai donc déjà écrit le code. Je vais vous expliquer ce que nous allons faire. Tout d'abord, nous devons utiliser l'ensemble de données disponible avec l'art, à savoir la qualité de l'air. Nous pouvons donc utiliser les données et nous pouvons utiliser les inégalités. D'accord ? Et ici, nous pouvons visualiser les données avec la vue, fonction, la vue, puis la quantité. Et nous verrons les données. Voici donc l'ensemble de données. Nous avons les six colonnes de données solaires de John. Il s'agit du rayonnement solaire, de la vitesse du vent, de la température, température la plus élevée de la journée, puis du mois, quel mois ? Et c'est le moment. Ils ont donc la température du mois où il a séparé le rayonnement solaire, le rayonnement solaire et l'origine. D'accord ? Tout tourne donc autour de l'ensemble de données et il contient une donnée sur trois, accord, une violette, trois lignes dans cet ensemble de données. Maintenant, ce que je veux faire, simplement tracer ceci ou Joan et le rayonnement solaire un graphique et voir ce que nous obtenons. Permettez-moi donc de tracer ces données. L'axe X concerne rayonnement solaire et la couche d'ozone sera représentée sur l'axe Y. Donc, un jour donné, le rayonnement solaire sera celui-ci et l'origine, la quantité, sera la suivante. Voici donc le graphique que nous obtenons. Maintenant, ce que je veux faire avec la régression linéaire, trouver la droite la mieux ajustée qui représentera correctement cet ensemble de données. Alors, quelle sera cette gamme la mieux adaptée ? Quelque chose comme ça. Quelque chose qui divisera les données de manière presque égale. Et avec cela, nous pouvons deviner quel sera le rayonnement solaire un jour donné. Donc, si vous suivez cette droite, comme y est égal à mx plus c, ce sera l'équation en ligne droite. Donc, si nous traçons cette limite un jour donné, nous pouvons le deviner. OK, donc ce que je vais faire, découvrir quelle est la moyenne de la quantité d'ozone, de la couche d'ozone. Quelle est la moyenne de ce que je perds, je perds à cause de cette qualité de l'air. Air Quality Dollar ou John nous indiqueront l'origine, la valeur à la hausse ou à la baisse à partir de l'ensemble de données sur la qualité de l'air. Et voici ce que je suis en train de faire, toutes les données de chaque trimestre sont vraies, cela signifie que si les valeurs ne sont pas disponibles, nous venons de les voir, et non de les prendre en compte. D'accord ? Donc, avec cela, nous trouverons la moyenne de l'origine. La valeur moyenne de l'origine est donc 42. Ce sera donc quelque chose comme ici. Ce que je vais faire, c'est tracer une ligne droite qui représentera la valeur moyenne de l'origine. Alors laisse-moi gérer ce truc ici. Cette droite représente la moyenne de l'origine. D'accord ? Maintenant, je vais utiliser la régression linéaire pour ajuster la meilleure droite possible. OK, donc, pour y parvenir, nous pouvons utiliser la fonction lm, la fonction modèle linéaire, et nous pouvons utiliser l'origine et la sensibilité solaire ici. Ensuite, j'utiliserai les données sur la qualité de l'air. D'accord, donc à partir des données sur la qualité de l' air, utilisez ces deux paramètres ou ne répondez pas à beaucoup de questions concernant le rayonnement solaire. Et je vais essayer de créer notre modèle de régression linéaire. J'ai donc créé, maintenant je vais voir ce que donne notre modèle. Alors laisse-moi juste le mettre sur le bon côté. Donc, regardez ici, nous obtenons ces coefficients. La valeur d'interception Y est la suivante et elle est si forte pour les artistes, d'accord ? Maintenant, ce que je vais faire, c'est essayer, avec ce modèle, trouver la ligne la mieux ajustée qui représente correctement nos données. Donc, ce que je perds, c'est la ligne AB, et je vais transmettre ce modèle que nous avons créé avec la fonction lm et notre jeu collatéral. Je veux donner la couleur différente à la gamme la mieux adaptée. J'utilise donc le code couleur ici, orange. Alors laisse-moi exécuter ça. PDG. Maintenant, cette ligne orange est la ligne qui convient le mieux à ce produit. Cela représentera donc la valeur de la valeur régularisée de la couche d'ozone enfouie sous le rayonnement solaire. agit de la meilleure droite d' ajustement que nous obtenons à partir de la régression linéaire. Donc, sur la base de ce support, d'un PIP3 jours de données dont nous disposons, nous voulons le prévoir. Nous pouvons donc voir quel est le soutien que je veux prévoir ici ? Donc, ce rayonnement solaire, supposons ici, et cela nous donnera la valeur un mètre delta qui se situera autour de 60 ou 75. D'accord ? Ainsi, nous pouvons trouver la meilleure droite d'ajustement à l'aide de la fonction lm ou d'une régression linéaire. D'accord ? C'est ainsi que nous pouvons utiliser la régression linéaire pour trouver la meilleure droite d'ajustement. 70. Traiter les valeurs manquantes: Bonjour et bon retour. Dans cette conférence et dans les prochaines, nous allons traiter des valeurs manquantes dans R. Nous allons donc voir comment nous pouvons gérer les valeurs manquantes dans notre programmation. Parce que chaque fois que vous démarrez un projet de science des données ou un projet d'apprentissage automatique , vous commencez à travailler sur les données. La toute première étape consiste à explorer les données. Vous devez lire les données et les comprendre. Quelles sont les valeurs qui s'y trouvent ? En quoi consistent toutes ces données que vous devez vraiment comprendre ? À moins que vous ne compreniez les données, vous ne serez pas en mesure de créer quoi que ce soit ou d'en tirer un quelconque aperçu. Il s'agit donc de la toute première étape pour comprendre les données. Et une fois que vous avez compris les données, quelles sont les colonnes qu'elles contiennent ? Quelles sont les valeurs qui s'y trouvent ? Et de quoi parlent ces données, quoi servent-elles ? Donc, une fois que vous aurez compris ce qu'est la version bêta, de quoi parlent les données, quoi elles servent. Vous pouvez interpréter ces données et, une fois que vous les avez comprises, vous pouvez marcher sur ces données. Donc, tout d'abord, vous devez garder à l'esprit que vous devez comprendre les données. Vous devez comprendre quelles sont les colonnes et à quoi servent ces colonnes ? Quel type de données est stocké à ce sujet dans ces colonnes. Une fois que nous aurons compris cela, vous pourrez commencer à travailler sur les données. Vous pouvez commencer à travailler sur votre cycle de vie en matière d'apprentissage automatique ou de science des données. Et c'est la seule étape très importante pour travailler sur les données et créer machine learning ou de l'intelligence artificielle. modèles de science des données permettent de traiter les valeurs manquantes. Chaque fois que vous voyez des ensembles de données, vous pouvez constater qu'il existe de nombreuses colonnes, de nombreuses lignes où les données ne seront pas disponibles. Et ce que cela signifie. Cela signifie que chaque fois que nous collectons les données par le biais de formulaires, enquêtes et collectant les informations des utilisateurs. Ainsi, chaque fois que nous collectons des données auprès des utilisateurs , vous n'êtes qu'un grand groupe d'utilisateurs. Parfois, ils détestent partager leurs données ou parfois ils n'ont pas une sorte de niveau prototype avec eux. Ils ignorent donc ces points d'entrée du Dojo. Et lorsque nous collectons ces données et créons notre ensemble de données, nous pouvons constater qu' il y a très nombreuses colonnes, de très nombreuses valeurs manquantes. Et pour que notre ensemble de données fonctionne correctement pour notre modèle d'apprentissage automatique ou d' intelligence artificielle, vous devez vous adapter pour gérer les valeurs manquantes. C'est donc une tâche très courante dans l' analyse des données de traiter les valeurs manquantes. Dans notre programmation. Les valeurs manquantes sont représentées par un a et cela signifie qu'elles ne s' appliquent pas ou quoi que ce soit d'autre. Vous pouvez comprendre comment les valeurs manquantes sont représentées par un a et, d'une autre manière, elles sont également représentées par 99. D'accord ? L'étape très, très importante consiste donc à traiter les valeurs manquantes. Ainsi, tout en traitant les valeurs manquantes, nous devons suivre les trois étapes. La première consiste à déguster les valeurs manquantes. Qu'est-ce que cela signifie ? Cela signifie que nous devons examiner l'ensemble de données et tester la valeur manquante. Nous devons voir combien de valeurs sont manquantes. Où se trouvent les valeurs manquantes ? Nous devons donc trouver les valeurs manquantes. Ensuite, une fois que vous avez testé les valeurs manquantes dans l'ensemble de données, nous devons enregistrer la valeur manquante. La deuxième étape consiste à décoder les valeurs manquantes. Ce qui revient à décoder les valeurs manquantes, c'est à dire que nous devons en mettre d'autres en place. Supposons que nous ayons nos données sur l'âge où certains d'entre vous n'ont tout simplement pas donné de détails sur leur âge. Donc, ce que nous pouvons y remplir, nous pouvons le prendre comme moyen. Vous venez de manger toute la moyenne ou la moyenne de la justice pour mineurs si nous pouvons attribuer la valeur manquante. Ainsi, quelle que soit la police que vous utilisez, quelle que soit la police qui ne correspond pas à l'âge, nous pouvons y inscrire la valeur d'âge moyenne du groupe. De cette façon, nous pouvons enregistrer les valeurs manquantes. Nous devons donc enregistrer les valeurs manquantes en nous basant sur un algorithme comme la moyenne, toutes ces choses. D'accord ? Ensuite, la troisième étape est que nous pouvons, ou que nous pensions, ou l'inverse serait d' exclure la valeur manquante. Donc, au lieu d'enregistrer, nous pouvons exclure les lignes de valeurs manquantes. Nous pouvons donc simplement supprimer les entrées qui ne bénéficient pas du support nécessaire, pour vous aider. Nous avons le nom, vous n'avez que la ville, l'âge et les détails de l'emploi. Et si un utilisateur n'est pas indiqué à son âge, nous pouvons simplement le supprimer de l' ensemble de données afin d'exclure les valeurs manquantes. Voici donc les trois étapes à suivre pour traiter les valeurs manquantes. Et dans l'exercice suivant, dans la prochaine conférence, nous ferons une activité pratique simple laquelle nous verrons comment identifier les valeurs manquantes, comment enregistrer la valeur manquante et comment exclure les valeurs manquantes. La prochaine conférence sera donc entièrement pratique sur la gestion des valeurs manquantes. Rendez-vous donc lors de la prochaine conférence. 71. Tester les valeurs manquantes: Bonjour et bon retour. Ainsi, dans la conférence précédente, nous avons vu comment travailler avec des valeurs manquantes dans R, ou comment gérer les valeurs manquantes dans R. Nous avons vu les étapes à suivre. Nous devons suivre ces trois étapes. Ou vous pouvez dire deux étapes. Vous pouvez soit enregistrer les valeurs manquantes, soit exclure la valeur manquante. La toute première étape est donc de goûter aux valeurs manquantes. Nous devons tester et trouver les valeurs manquantes dans l'ensemble de données. Ensuite, la deuxième étape est requise les valeurs manquantes ou l' exclusion des valeurs manquantes dans l'ensemble de données. Commençons donc par la toute première étape qui consiste tester les valeurs manquantes. Alors, comment pouvons-nous tester les valeurs manquantes. J'ai donc écrit ce code et nous allons nous occuper de la partie pratique. Alors laissez-moi vous dire ce que je fais ici. Je suis en train de créer un vecteur avec des valeurs manquantes. Je crée donc un vecteur de 1 à 6, puis j'inclus une valeur NA manquante , puis huit à dix, puis manquante. Eh bien, lorsque nous exécutons ce vecteur, voyons ce que nous obtenons. La sortie est 123456, car un à six. Et puis quand n'importe quelle valeur, alors 89108 à dix, puis n'importe quelle valeur. Nous avons donc deux valeurs manquantes ici. Cet ensemble de données que nous créons nous-mêmes. D'accord, donc pour vous dire quelle est la valeur manquante, j'inclus simplement la valeur manquante dans le vecteur. D'accord ? Supposons maintenant que nous ayons ce vecteur x, qui a deux valeurs manquantes. Et nous ne savons pas ici où nous pouvons voir, nous savons donc qu'il y a deux valeurs manquantes. Mais supposons que nous ne le sachions pas, que nous ne soyons pas conscients, que nous ne le soyons pas, que nous ne voyions pas comment nous le pouvons. Il s'agit d'un vaste ensemble de données qui ne se compose pas d'une seule ligne. Il peut y avoir un jeu de données qui comportera plusieurs lignes, des milliers de lignes, et comment nous allons y trouver les valeurs manquantes. Nous pouvons donc simplement exécuter un test pour savoir si Annie existe, si Annie existe, puis nous devons transmettre le nom de l'ensemble de données. OK, nous allons donc dire que l'extracteur est activé, trouver la valeur manquante. Il indiquera que s'il manque des valeurs, il indiquera « vrai ». D'accord ? Donc, pour chaque valeur NA et manquante, il passera par ce vecteur, le vecteur x, et trouvera la valeur manquante. Et une valeur manquante est là, elle retournera vraie. Alors laisse-moi exécuter ça. Ici. Nous devenons faux, faux, faux, faux et vrais. C'est donc pour 1234566. Faux signifie qu'il n'y a aucune valeur manquante avant six. Alors, pour la septième place, il y en a une, et cela nous rend la vérité. Puis 8910, faux, faux. Et jusqu'à dix, il y en a, donc cela devient vrai. Il vous renverra donc la valeur vraie pour les valeurs manquantes. Ainsi, nous pouvons savoir qu'il manque une valeur pour ces deux valeurs. D'accord ? Créons maintenant un DataFrame avec les données manquantes. Je suis donc en train de créer un DataFrame. Df data.frame est le moyen de créer un DataFrame. Et ici, je crée quatre colonnes, colonne une, colonne deux, colonne trois, colonne quatre. Et dans la première colonne, je donne 123 et une colonne à ce NA est, donc c'est la valeur que je mets dans le DataFrame. D'accord ? Alors laissez-moi exécuter ce DataFrame et je vous ai vu la sortie. Alors regardez ici, le DataFrame est comme ça. La colonne 1, la colonne 2, la colonne 3 de la colonne 1 contiendra 123.1 et la colonne 2 indiquera ceci est un texte. Troisième colonne, vrai, faux, vrai, vrai. D'accord. Ainsi, la quatrième colonne sera 3,55, 0,26, 0,2. Voici donc le DataFrame que j'ai créé. Maintenant, je veux identifier n est dans un DataFrame complet. Dans ce dataframe, je veux en trouver. Je peux donc simplement exécuter le test en a et je peux d' abord exécuter le DataFrame V0. Ainsi, chaque trame de données d'entrée renverra vrai ou faux. Donc, cette NA, c'est juste ici, dans la première colonne, la quatrième ligne, nous sommes en train de terminer, puis une autre entrée ici. Nous allons donc y arriver. Et ça en fait un et deux autres ici. Ça veut dire que dans celui-ci, d'accord ? Donc, de cette façon, nous pouvons exécuter notre test par n'importe quel moyen. Supposons que vous souhaitiez identifier une colonne DataFrame spécifique. Je veux donc vérifier si ce DataFrame a des valeurs dans la deuxième colonne afin de pouvoir exécuter le test. Et puis le nom du DataFrame df dollar column two. Donc, ce qu'il va renvoyer, il renverra le vrai et le faux pour la colonne. Alors exécutons ceci et voyons votre faux, vrai, faux, faux. Pourquoi c'est faux ? Parce que dans la deuxième colonne, la valeur est présente, elle renvoie donc faux. Car N8 est vrai pour is et texte c'est Dunning, faux, faux. Cela signifie qu'il manque une valeur dans la deuxième colonne. Ainsi, nous pouvons trouver que les valeurs NA sont des valeurs manquantes dans une colonne particulière. Nous pouvons maintenant exécuter la fonction de somme et identifier le nombre de NINR DataFrame. Nous pouvons donc utiliser un certain off si un df est N A, et nous devons transmettre le nom de l'ensemble de données. Alors, exécutons-le et voyons maintenant que nous en avons trois. Il y en a donc trois. N se trouve dans la trame de données. Maintenant, la somme des colonnes est df, cela vous donnera la somme des valeurs manquantes dans les colonnes. D'accord ? Exécutons donc ceci et voyons que cela se fait dans la colonne 1, ligne, 1, colonne 21, colonne 3. Aucune donnée n'est manquante. Et une colonne pour une personne. Donc C, colonne trois, tout y est vrai, faux, vrai, faux, et il n'y a aucune valeur manquante dans la troisième colonne. La troisième colonne soutient que si je mets quelque chose, d'autres valeurs, au lieu de vrai-faux, je mettrai du marron. Certaines valeurs doivent être mises à 20, d'accord ? Et maintenant, lancez le DF. D'accord ? Maintenant, lancez ceci. La troisième colonne ne contient aucune valeur manquante parce qu'elle contient toutes les données disponibles arrondies à 905123, n'est-ce pas ? C'est pourquoi cela se fait en général pour la colonne trois, somme des nombres, le nombre total de valeurs manquantes dans la troisième colonne est zéro. Dans la première colonne, il manque une valeur, c'est celle-ci. Dans la quatrième colonne, il y a une raison, eh bien, c'est celle-ci. Et dans la deuxième colonne, il y en a un. Ainsi, de cette façon, nous pouvons tester les valeurs manquantes dans R en utilisant is any, if any, renverra true s'il y a une valeur manquante dans le DataFrame. C'est ainsi que nous pouvons réaliser cette première étape. Dans la prochaine conférence, nous verrons comment enregistrer les valeurs manquantes. Rendez-vous lors de la prochaine conférence. 72. Recoder les valeurs manquantes: Bonjour et bon retour. Ainsi, dans la conférence précédente, nous avons vu comment nous pouvons travailler avec les données manquantes. Et nous avons vu comment identifier les valeurs manquantes dans un jeu de données en utilisant is dot, n'est-ce pas ? Donc, chaque point vous donnera les valeurs manquantes. Et maintenant, une fois que vous savez que les valeurs manquantes se trouvent dans l'ensemble de données, ce que nous pouvons faire, c'est soit les enregistrer avec une certaine valeur, soit les supprimer. Voyons donc comment enregistrer la valeur manquante dans un ensemble de données. La première chose à faire est donc d' enregistrer la valeur manquante. S'il s'agit d'une donnée numérique, nous pouvons enregistrer avec la moyenne de l'ensemble de données, la moyenne des valeurs, accord, la moyenne de la valeur. On peut en porter deux, on peut le dire. Donc, ici, je crée un vecteur x, d'accord ? Et voyons ce qu'il y a dans le vecteur S. C'est 123456, puis un, puis 8910, puis n'importe lequel. OK, voici donc tout ce qui concerne les données numériques. Donc, ce que nous pouvons faire, est trouver la moyenne des données existantes, ajuster nos nombres numériques, les nombres et remplir la moyenne à la place des valeurs qui ne sont pas des valeurs manquantes. Donc, ce que nous pouvons faire, nous pouvons utiliser le x, c' est-à-dire l'ensemble de données ou le vecteur et nous pouvons trouver un a de x. Nous pouvons trouver toutes les valeurs NA. Et ici, nous pouvons mettre la valeur moyenne de x. Nous pouvons donc trouver la moyenne de x en utilisant la fonction moyenne et où, partout où toutes les valeurs ne sont pas égales à vrai. Nous pouvons donc remplacer la valeur moyenne. Nous supprimerons les valeurs et nous mettrons la valeur moyenne à la place de l'enveloppe. Alors laisse-moi exécuter ça. Et maintenant, très bien, donc le Z ici, maintenant nous avons le 123456 et à la place de tout, nous avons 5,33 puis 8910. Et à la place de cela et tout le monde a ce 5.3. Alors laisse-moi recommencer. Donc ici, au lieu d'un a, nous avons 5,33. Alors, comment obtenons-nous cette version 5.33 ? Nous obtenons la moyenne de 1234561 plus deux plus trois plus cinq plus six, plus huit plus neuf plus dix, et nous la divisons par le nombre de valeurs lorsque vous obtenez le 5,3. Donc, à la place des anticorps, nous mettons le 5.33. C'est donc la seule façon de traiter les valeurs manquantes, d'enregistrer la valeur manquante avec cette valeur moyenne, soit 5,33. Ensuite, DataFrame recouvre la valeur manquante sous forme d'azote Dans certains jeux de données, le 99 représentera la valeur manquante. Supposons donc qu'il s'agisse du DataFrame que je suis en train de créer, qui comporte deux colonnes. Et exécutons-le et laisse-moi te montrer le DataFrame. La première colonne du DataFrame, colonne 2123. Et ici, au lieu de cinq, il en a 99. Et la deuxième colonne contient tous les puits. Ce 99 n'est donc pas à sa place. C'est comme une valeur manquante. Elle est donc traitée comme la valeur manquante. Maintenant, ce que nous pouvons faire, c'est remplacer ce 99 par un a pour qu' il soit en place. Donc, si nous voulons remplacer ce d F égal à 99 dans a, nous pouvons utiliser DFT et entre parenthèses df égal, égal à, égal à 99. Et si c'est 99, nous devons le remplacer par de l'ADN. Alors laisse-moi exécuter ça. À bientôt en 99, ces 299, nous avons les valeurs N A, n'est-ce pas ? Vous pouvez donc le remplacer par l'inévitable. Si vous ne souhaitez remplacer par aucune valeur, vous pouvez simplement me laisser vous montrer à nouveau le DataFrame avec le 99. Maintenant, nous pouvons mettre n'importe quelle valeur ici. Si vous voulez mettre cinq, vous savez qu'il devrait y en avoir cinq et vous pouvez simplement mettre cinq et C. Maintenant, les valeurs ont remplacé les deux chiffres par cinq. Ainsi, vous pouvez gérer les valeurs manquantes. Nous pouvons simplement mettre de l'ADN, d'accord, de cette façon, nous pouvons enregistrer les valeurs manquantes en nous. 73. Arbre de décision: Bonjour et bon retour. Dans cette conférence, nous allons donc en apprendre davantage sur l'arbre de décision, qui est très important dans l'apprentissage automatique. Nous allons donc tout apprendre sur l'arbre de décision et recommencer à zéro. Qu'est-ce qu'un arbre de décision ? Alors d'abord, laissez-moi vous dire quelle est notre décision. Une décision est quelque chose que nous prenons tous les jours. Supposons que nous voulions aller quelque part et que je veuille assister à un événement. Et c'est moi qui suis là pour le soutenir. Et j'en ai besoin, j'en ai besoin pour aller à l'eau, pour un événement. Donc, ce que je vais dire, qu' il fasse beau ou non, et en fonction de la météo , je vais monter. S'il ne fait pas beau, je n'irai pas. Cela dépend donc des conditions météorologiques. Je vais donc les distinguer tels qu'ils sont. C'est donc une sorte d' arbre de décision que je suis en train de prendre. Je prends, je prends des décisions en fonction de la météo et du soutien. Je peux ajouter une dernière chose si c'est une bonne chose. Et encore une fois, je voudrais ajouter quelque chose comme si je vais bien ou pas bien, n'est-ce pas ? Donc, si je vais bien, j'irai, ce sera oui. Et ce ne sera pas le cas. L'ensemble deviendra donc un grand arbre de décision où, tout d' abord, il fait beau, j'y vais, il ne fait pas beau, je n'y vais pas. Et si c'est bon, utilisez également l'application pour voir si je vais bien ou pas. Et puis, mieux que mon état de santé, je dirais oui ou non. C'est donc un grand arbre de décision, d'accord ? Maintenant, c'est ainsi que nous prenons la décision, n'est-ce pas ? Lorsque nous conduisons une voiture, nous l'examinons, nous examinons l' état de la circulation, puis nous agissons , n'est-ce pas ? S'il est piégé, si le feu de circulation est vert, il se déplacera. S'il est jaune, nous attendrons. Et si c'est rouge, on arrêtera, non ? Ce sera donc également un type de décision que nous allons prendre. Alors, qu'est-ce qu'un arbre de décision ? Si vous voulez comprendre, nous devons prendre un exemple. Supposons que je l'aie fait, supposons que c'est moi, que c'est moi. Et je veux me rendre dans un endroit où acheter des fruits. Et je ne reconnais pas les fruits. D'accord. Un membre de ma famille, quelqu'un, m'a dit que la pomme, pomme, la pomme avaient deux caractéristiques. Il est de couleur rouge et arrondi, non ? Et puis il a dit que la banane, la banane est de couleur jaune et ce n'est pas faux, non ? Pas rond. C'est long en fait. D'accord. Puis il a dit que nous l'avions. J'ai compris qu'il est de couleur orange. Et ce n'est pas faux. D'accord. C'est pas faux. Maintenant, je vais au marché aux canards. Et là, j'ai vu un clavier souple. J'ai vu un commerçant qui vendait des fruits. Et il a autant de fruits qu' il en a un tas, désolée. Il a renforcé son soutien à la banane. C'est la banane. Il a donc beaucoup de bananes qui, je ne sais pas, sont des bananes. OK, donc quelque chose dans Banana Safe, je prévois de faire, désolée pour mon mauvais dessin. Et il a des fruits. Une batterie prouve qu'il l'a fait. Et puis il a eu un truc de couleur orange. J'ai compris. D'accord. Un soutien que peu de gens y ont recueilli. Maintenant, je vais m' arrêter et je me demande comment forcer la perte d'eau, en me basant sur description que j' ai reçue d'un membre de ma famille, je vais demander la touche programmable correspondant à la question que je vais poser. Je vais demander quelle est la couleur, n'est-ce pas ? Donc, la première chose que je vais demander, comme l'Égypte ou le rouge ou l'orange, non ? Je t'ai perdue, Gita. Couleur orange. Donc, la protéase de couleur orange. Et si c'est le cas, je vais pouvoir répondre directement en disant que ce sera oui ou ce sera le cas. Très bien. Donc, si c'est le cas. J'ai compris, ce sera classé ici. Le S, les carottes vont venir ici, non ? Tous les candidats vont donc venir ici à cause de cette couleur orange et toutes les bananes, parce qu'elles ne sont pas de couleur orange. Donc toutes les bananes seront des bananes, elles arriveront ici. Et plus vieux. Il y a aussi des pommes de ce côté, non ? Parce qu'ils ne sont pas non plus de couleur orange. Maintenant, j'ai pris une décision. Les fruits, j'ai classé les fruits en deux catégories, oranges ou non. Donc orange, j'ai toutes les carottes et pas l'orange. J'ai la banane jaune et les pommes rouges. Maintenant, la prochaine chose que je vais demander ou pas ? Ronde. Donc j'obtiens oui et je recevrai non. Hein ? Jusqu'à présent toutes les pommes arriveront ici, n'est-ce pas ? Toutes les pommes seront correctement classées, non ? Et pour le moment, pour savoir ce qui va se passer. Toutes les bananes vont arriver ici, non ? Parce que les bananes ne sont pas rondes. Je vais donc chercher toutes les bananes ici. Alors maintenant, voyez, si vous regardez cette chose, nous pouvons voir que c' est tout cela. Tout cela est un arbre de décision parce qu'il ressemble à un arbre, n'est-ce pas ? L'arbre a des branches et des feuilles, non ? Donc celui-ci, le nœud principal, s'appelle un nœud racine. Le nœud racine et les nœuds enfants que nous avons et les lèvres numériques, n'est-ce pas ? D'accord. Voici donc un arbre de décision dans lequel je suis le premier Je vois tous les fruits et je décide s' ils sont oranges ou non, puis je classe les données qui sont classées correctement. Ensuite, les bananes unipolaires leur appartiennent, puis les pommes et les bananes sont correctement classées. Classifiez les fruits en fonction de leur couleur et conservez-les. Donc, fondamentalement, les arbres de décision sont utilisés pour les problèmes de classification. Les siècles sont donc utilisés dans les problèmes de classification, n'est-ce pas ? Et la moyenne de ce nœud, ce nœud, de ce nœud, du nœud racine ici. C'est ce qu'on appelle l'entropie. Donc, ce que signifie notre entropie, plus le nombre d'éléments dans ce nœud racine sera élevé, plus votre arbre de décision sera dense. D'accord ? Donc, ce que je dois faire, est prendre chaque décision avec chaque nœud. J'ai besoin de chaque nœud pour réduire l'entropie. Donc, ici, l'entropie est là, alors le trapèze sera le plus élevé. Ensuite, à chaque décision, je dois réduire la valeur d'entropie afin que nous puissions classer ces éléments. D'accord ? C'est ce qu'on appelle l'entropie. Donc, chaque trace oculaire et nous le serons, nous réduirons l'entropie, n'est-ce pas ? Nous verrons dans la prochaine conférence comment nous allons réduire l'entropie. Nous allons donc voir comment l' utiliser et le supprimer également lors du titrage et atteindre le nœud enfant, comment réduire l'entropie lors de la prochaine conférence. Mais à l'intérieur, c'est l' arbre de décision et c'est ainsi que nous classons les choses dans l'apprentissage automatique à l'aide de l'arbre de décision. Et c'est ainsi que nous établissons l'arbre de décision, ferons également notre travail pratique lors des prochaines conférences. Nous allons d'abord passer en revue toute la partie théorique, puis nous passerons à la partie pratique où il s'agira de classer votre problème d'apprentissage automatique à l'aide d'un arbre de décision dans notre programmation. Rendez-vous lors de la prochaine conférence. 74. Entropie Et Gain D'informations: Dans cette conférence, nous allons donc voir comment fonctionne un arbre de décision, comment fonctionne un arbre de décision ? D'accord ? Moins de trois. Travail. OK. Donc, pour cela, laissez-moi vous expliquer quelques notions de base avant de passer à autre chose. Donc, tout d'abord, cette décision, cet arbre de décision, nous prenons différentes décisions. Donc celui-ci est connu sous le nom de nœud racine, ou celui-ci est connu sous le nom de nœud racine, n'est-ce pas ? Il s'agit donc d'un nœud racine. Et puis ceux-ci sont appelés nœuds foliaires. C'est donc un nœud foliaire. Il s'agit d'un autre nœud foliaire. On les appelle nœuds foliaires, d'accord ? Nœud racine et nœud foliaire. D'accord ? Nous savons maintenant ce qu'est un nœud foliaire et un nœud racine. Permettez-moi de vous présenter un autre concept appelé entropie et j'ai compris qu'il est très, très important. Alors laissez-moi vous dire ce que je veux dire. Je parle d'entropie. Alors, qu'est-ce que l'entropie ? L'entropie est une chose très importante. Parce que vous voyez ici, maintenant celui-ci, il y a plus d'objets, non ? C'est donc une baisse du haut de gamme. Désolée. C'est avoir une entropie élevée. Entropie élevée, d'accord ? Et celui-ci a une faible entropie. C'est une sorte de population. Ainsi, lorsque vous avez plus d'éléments dans un nœud, entropie est élevée. Et lorsqu'il a un faible nombre d'éléments, on parle de faible entropie. D'accord ? L'entropie est donc une mesure de l'absence de votre collecte de données. Comme plus d' articles, comme ici. Sur le nœud racine, vous avez les éléments avec, en trois couleurs, orange, jaune et rouge, et vous pouvez les enregistrer. C'est donc avoir plus de désordre et de raison. C'est donc avoir une entropie élevée. Et par rapport à celui de ce nœud racine il a une faible entropie et celui-ci a une très faible entropie. D'accord ? Permettez-moi donc de vous présenter un autre concept qui s'appelle « gain d'informations ». Qu'est-ce que c'est ? Cela s'appelle, cela s'appelle le gain d'informations. Qu'est-ce donc que le gain d'informations ? Au fur et à mesure que nous passons de l'arbre de décision du nœud racine au nœud feuille, nous obtenons des informations. Et avec l'acquisition d'informations, ce qu'elles réduisent, l'entropie s'accélère. Supposons ces entropies, car cette entropie est E2, pour ces entropies, E3. Et pour cela, les entropies supportent les entropies E3. Donc, pour chaque trace , on peut dire que E2 sera inférieur à un, n'est-ce pas ? La valeur y1 est donc E1, E1 est supérieure et E2 diminue. E2 est inférieur à Y1. Et de même ici, e3 sera inférieur à E2. D'accord ? Qu'est-ce donc que le gain d'informations ? Le gain d'information est un gain d'information, si nous voulons calculer, ce sera le gain d'information qui sera égal à y1 moins y2. Y1 moins y2 vous donnera le gain d'informations. gain d'informations est la diminution de l'entropie résultant de la division de l'ensemble de données en fonction de certaines conditions. Alors voyez ici. Nous avons maintenant des données 1234567 ici. Et nous mettons une condition, Agent, les protistes soient orange. Et sur la base de cette condition, nous réduisons le nombre de jeux de données ici, deux et ici 345. Nous divisons donc l'ensemble de données. Donc, ici, l'entropie diminue. gain d'informations est la diminution entropie résultant de la division de l'ensemble de données en fonction de certaines conditions. Nous allons voir comment calculer l'entropie. C'est une autre chose mathématique que je vous fais savoir. Mais pour l'instant, supposons que lorsque nous descendons dans l'arbre de décision, l'entropie diminue. Auparavant, c'était e one, maintenant c'est E2, et plus bas, ça descend à e trois. Et e un est supérieur à E2 et E2 est supérieur à E3. gain d'informations pour cela, de ce nœud à ce nœud, arrive à y1 moins y2. D'accord, c'est donc ce que l'information gagne. Quel est donc l'objectif de l'arbre de décision ? Lorsque nous divisons l'ensemble de données en fonction de certaines conditions, nous visons à diminuer l'entropie, diminuer l'entropie pour obtenir des informations, n'est-ce pas ? Le téléphone principal meurt donc pour obtenir plus d'informations. D'accord, donc dans la prochaine conférence, nous verrons comment calculer le gain d'informations et comment utiliser l'ensemble de données, comment diviser les données et comment calculer le gain d'informations. Et nous verrons quelle est l'équation mathématique du gain d'informations, d' accord, alors rendez-vous dans la prochaine conférence. 75. Calcul de Entropy dans l'arbre de décision: Bonjour et bon retour. Dans cette conférence, nous allons donc en apprendre davantage sur l'entropie et sur la façon dont nous la calculons. Ainsi, dans la conférence précédente, nous avons vu comment se déroulent nos promenades distinctes. Et pourtant, je tiens à apporter des précisions. Le nœud de feuille sera, ce sera le nœud d'une feuille. Ce sera un nœud de feuille, n'est-ce pas ? Et ce sera un autre nœud foliaire différent, d'accord ? Le ganglion lymphatique, le nœud terminal. OK, ça va faire parler. Et nous avons vu où nous en sommes lorsque nous descendons profondément dans l'arbre de décision, l'entropie diminuera. L'objectif principal de la zone est d'atteindre le nœud de données, le nœud feuille, où l'entropie sera inférieure à l'entropie du nœud précédent. Et de l'entropie et du gain d'informations. Nous avons appris que y1 moins y2 sera le gain d'informations. Nous allons maintenant voir ce qu'est l'entropie et comment la calculer. Le sujet de cette conférence est donc l'entropie. D'accord ? Nous allons donc discuter en détail de ce qu' est l'entropie et de la façon dont nous pouvons la calculer. Entropie. En fait, supposons que c'est le support, c'est notre seul arbre de décision. Supposons que c'est la nôtre, cette entité où l'on dit F1, F2, F3, d'accord ? Et puis, d'accord, c'est notre feuille vers le nord, n'est-ce pas ? Ce sont nos ganglions lymphatiques. Et ce sera le nœud de la feuille. Peut le sport ou le ganglion lymphatique. Et c'est le nœud racine, n'est-ce pas ? Alors, comment calculons-nous l'entropie ? Supposons encore une chose. Juste pour me souvenir. Cet arbre de décision. Les arbres de décision sont utilisés pour les problèmes de classification, n'est-ce pas ? Des problèmes de classification, non ? Donc, en gros, ce sera la classification croisée binaire, oui ou non. D'accord ? Supposons donc que lorsque nous ajoutons à partir du nœud racine ici, nous arrivions à ce F2. Supposons que nous ayons trois ans et que nous ayons deux nœuds, d'accord ? Et nous avons ici quatre ans et trois nœuds. Et puis nous voici arrivés à cinq ans. Nous avons deux ans, et ici nous avons trois nœuds. Nous supposons simplement ces valeurs, d'accord, et ici, pour le nœud et le support, nous en avons trois. Oui, et il aimait beaucoup les nœuds et a soutenu celui-ci, c' est d'avoir le chemin de fer pendant dix ans, sept nœuds. D'accord ? Maintenant, comment nous calculons l'entropie, entropie est la parité de la division. C'est donc notre ensemble de données et nous sommes divisés en deux nœuds, n'est-ce pas ? F2 et F3. Alors, dans quelle mesure cette scission est-elle pure et bonne ? C'est ce que nous allons décider en fonction de l'entropie. Donc, entropie. L'entropie, c'est essentiellement qualité de la division, la qualité de votre division ? C'est ce que l'entropie va nous dire et comment calculer l'entropie. Qu'il existe une formule simple qui soutient que nous voulons calculer l' entropie de S suppose que ce soit une probabilité négative de oui. Et puis enregistrez le message selon la probabilité de oui. Vous pouvez également dire probabilité positive , plus Alpha moins. Probabilité de ne pas avoir de base logarithmique 2, probabilité de Non, laissez-moi l'écrire correctement. C'est en train de baisser. Supposons que l'entropie soit supportée par E. La formule d'entropie est très simple. Diminution de la probabilité du oui dans la base logarithmique 2 de la probabilité du oui. Moins. Vous pouvez faire plus, moins la probabilité du nord, dans log du journal du pachto, la probabilité du nœud. Voici donc la formule de calcul de l'entropie. Supposons donc que nous voulions calculer l'entropie de ce nœud. Alors, comment pouvons-nous y parvenir ? Donc, ici, le E sera la probabilité de oui, oui sera de trois. Donc trois au compteur, plus trois à trouver. Donc, probabilité de « oui » de trois sur cinq ans. Ensuite, nous ferons la base de données 23 par 5. Et le signe moins moins la probabilité d'un résultat négatif sera de deux sur cinq. À cinq heures. Probabilité négative sur une base logarithmique de deux sur cinq. Ce sera donc l'entropie de, ce sera l'entropie de la note F deux. Voici donc la formule. Vous obtiendrez une certaine valeur ici. Lorsque vous calculez, vous obtiendrez la valeur. Il fera donc nuit et vous déposerez de ce F2. Notez l'entropie de F2, vous pouvez, non ? D'accord ? Donc, l'entropie de F2 nulle sera la suivante moins trois sur cinq. La pauvreté apparaît moins la probabilité d' négative et il faudra utiliser la base logarithmique deux de ces valeurs, probabilité positive et probabilité négative. Donc, oui, vous pouvez dire probabilité de positivité, probabilité de positivité. Et ce sera la probabilité de valeurs négatives et négatives. D'accord ? Ainsi, nous pouvons calculer la valeur d'entropie. Nous pouvons donc calculer la valeur d' entropie pour cela aussi, pour cela, également ici, si vous calculez la valeur de probabilité, qui est la seule, il n'y a pas de négatif, n' est-ce pas ? Parce que c'est le N Naughty, non ? Supposons donc que nous fassions la division et que nous obtenions, supposons que nous y soyons, au lieu de 4,3 nœuds, nous obtenions trois ans et trois nœuds. Donc c'est très, ce n'est pas utile, c'est, ce n'est pas une chose utile, n'est-ce pas ? Parce que nous aurons les deux, trois ans et trois nœuds. Cela ne va donc pas donner un aperçu, n'est-ce pas ? C'est donc très négatif. C'est une très, très mauvaise sorte de séparation, d'accord ? Vos données ne seront donc pas réparties de cette manière dans un arbre de décision. Il s'agit donc de discontinuité ou de hockey, car lorsque vous calculez celui-ci, ce sera trois par six moins trois par six. En gros, la probabilité négative et la probabilité partielle du bateau sont les mêmes, d'accord ? Nous devons donc le diviser de telle sorte que nous ne devrions pas obtenir ce produit. D'accord ? C'est ainsi que nous calculons l'entropie avec cette formule. D'accord ? Et nous devons le faire, et le gain d'informations, tel que discuté, sera le suivant, supposons que celui-ci soit E One ou E F1. Et voici EF2. Les informations glanées de F1 à F2 seront E F1 moins F2. Ce seront donc les informations obtenues d' un nœud à ce nœud. D'accord ? C'est ainsi que nous calculons l'entropie et le gain d'informations. Gain d'informations. 76. Calcul du gain d'information pour l'arbre de décision: Bonjour et bon retour. Dans la dernière conférence, nous avons donc découvert l'entropie. Et le talon se trouve dans cet arbre de décision que j'ai dessiné. Abdullah, c'est une petite erreur, comme Yolanda. Au total, les villes tirent 17, 17 objets puis S. Et il n'y en a pas. Donc, lorsque vous divisez ces deux nœuds, trois ans pour le savoir. Et pour oui et trois nœuds, non ? Quatre plus 37,5, 12 seulement, donc cinq ne sont pas inclus. Vous pouvez donc vous en occuper. J'aime bien que par erreur, on ne m'ait pas donné les bons chiffres ici, mais cela n'affectera rien de ce que j'ai enseigné dans la conférence précédente. Ainsi, seuls les nombres font un total de 17 lorsque vous divisez. D'accord ? Donc, à part cela, tout est correct et la façon dont nous calculons l'entropie, cette formule est correcte, tout le reste est correct. Et c'est ce que je voulais clarifier pour que cela se produise. D'autres chiffres. OK. Trois ou huit ans , puis d'accord. Ce serait une erreur de ma part. J'ai écrit 38 oui. Pour connaître 10.7, 17. OK. Et puis il y aura un soutien de huit ans. Et oui. Ou McDonald's ici, alors ce sera le bon. OK. OK. Passons maintenant au concept suivant appelé gain d'informations. Donc, dans la conférence précédente, ce que je vous ai dit, je vous l'ai dit chez les agriculteurs et le gain, c'est comme ça en entropie moins cette entropie. Donc, vous allez accéder à ce jeu d'information, de cette fonctionnalité F1 à F2. Mais ce n'est pas le gain d'informations total. Ainsi, lorsque notre arbre de décision est complètement formé, nous devons déterminer le gain d'informations de l'arbre de décision total. Quel jeu d'information ? Encore une fois, nous arrivons à la totalité. Laisse-moi donc lancer comme Dawn et ce que je vais faire, créer un arbre de décision. Supposons que nous ayons cet arbre de décision. J'ai donc soutenu cette étape, F1, F2, F3. D'accord ? Donc je suppose que celui-ci a n, oui et sept. D'accord ? Et quand on se séparera ici, on supposera ETS, nez. Et nous voilà en train de couper. Que ce soient ces trois nœuds. Donc, niveau et voilà, j'ai trois ans et trois ans. Nan. OK, donc en voici un, notre arbre de décision soutient un exemple d'arbre de décision que nous sommes en train de créer ici. Maintenant, pour ce nœud, entropie suppose que E F1 vous soutienne. Nous calculons donc l' entropie pour cela. Oui, non, sept nœuds, nous obtenons E F1. Pour cela, nous obtenons une propriété sous le nom de E F2. Et pour cela, nous obtenons un E F 30. D'accord ? Maintenant, cela se base sur ce gain d'informations. Et l'entropie fera l'affaire. L'entropie vous le dira simplement en fonction de la valeur d'entropie, nous pouvons savoir quelle est notre division, n'est-ce pas ? Je ne saurai pas si tous les obèses opteront pour celui-ci ou celui-ci, n'est-ce pas ? Cette scission, ou cette scission, non ? Supposons donc que nous puissions faire une autre division, exemple en commençant par F2, puis en passant par F1 et F3. Cela pourrait donc être une autre scission. Nous ne savons donc pas laquelle est correcte, n'est-ce pas ? Alors, comment le savons-nous ? Quelle stratégie ou quelle division nous devrions adopter serait la même que F1, F2, F3, et commencer par F2, F1, F3, n'est-ce pas ? Alors, comment pouvons-nous en décider ? Nous pouvons en décider en fonction du terme qui m'a apporté un certain bénéfice. Nous pouvons donc décider en fonction du gain d'informations. Quelle voie devons-nous suivre, quelque sorte telle ou telle voie. D'accord ? Cela sera donc décidé par le gain progressif dans l'arbre de décision total. Alors, comment calculons-nous le gain d'informations total, gain d'informations total, et c'est ce que je vais vous dire. Le gain d'informations est la quantité d'informations que nous obtenons pour l'ensemble de cet arbre de décision. Donc, pour cette première chose, ce que nous devons obtenir, nous devons trouver l'entropie pour chacun des nœuds, chacune des fonctionnalités, d' accord, prise en charge jusqu'à présent, avons calculée sur la base de la formule expliquée dans la conférence précédente. Nous avons calculé et obtenu ces valeurs, E d'un an, PUI de trois. D'accord ? Alors, quel gain d'informations ? Gain d'informations. Quels seront les avantages de cet arbre de décision ? C'est comme si l'information gagnait le nœud racine, c' est-à-dire E, f, f1, f1 moins la somme de toutes ces divisions. Résumez toutes ces divisions comme celle-ci. Et celui-ci, l'information vous permet de gagner et de vous en débarrasser. D'accord ? Donc, ce sera ce sous-ensemble de toutes les sous-divisions, comme celle-ci en une division et celle-ci en une division du même nœud, n' est-ce pas ? Donc, une partie de ce sous-ensemble, le poids total pondéré, d'accord ? Et puis support E, F. Cela passe de z égal à un à n support. Nous allons passer d'un nombre de split à un fan de F1, d'accord ? Donc, support E F1, nous avons calculé E, F un. Alors, quel sera le nombre de sous-ensembles que nous aurons ici ? Nous obtenons deux sous-ensembles. L'un est ceci et l'autre est ceci, non ? Quel sera donc le sous-ensemble de ces huit plus 31 111 et le total est de 17, 11 sur 17 dans E de f, deux. Et puis plus trois plus 36 sur 17. Au total. Le compte est de 17 contre E F trois. D'accord ? Cela arrivera donc à l'E F1 -11 d'ici 17, E F2 moins six d'ici 73. D'accord ? Donc, cette formule, cette expression nous donnera, cette expression nous donnera une certaine valeur. Supposons que je ne calcule pas la valeur réelle, vous pouvez calculer. Supposons donc que cette valeur nous donne 0,53. Et de la même manière, supposons que nous ayons également calculé pour cet arbre de décision. D'accord ? Que signifie cette entrée ? Et ici, nous obtenons le gain d'informations comme du vent pour un. Alors maintenant, supposons que ce soit à nouveau une question et que ce soit à nouveau pour voir comment notre algorithme d'apprentissage automatique, ou comment, décidera de la voie à suivre. Nous devrions opter pour cette scission. Cette répartition est basée sur le gain d'informations. Nous obtenons donc, encore une fois, je soutiens 5.53 et nous obtenons ici un gain de 0,41, gain d'informations un est supérieur à l'information obtenue, deux. Nous opterions donc pour la valeur la plus élevée. Plus le gain d'informations est élevé, plus l'arbre de décision sera précis. Nous allons donc opter pour cela, suivre cet arbre de décision. Nous allons donc opter pour la F1, la F2 et la F3. Le gain d'informations décidera quel arbre de décision ou quelle approche nous devons adopter pour créer cet arbre de décision. Et nous ne le ferons pas manuellement ni par des algorithmes d'apprentissage automatique. Ou la bibliothèque va le faire automatiquement pour nous, mais nous devrions savoir comment cela fonctionne en interne. Et chaque fois que vous essayez de créer un arbre de décision pour un problème ou un apprentissage automatique, les algorithmes d'apprentissage automatique créent ces sous-ensembles, ces plaques. Et ils calculeront le, qui calculera le gain d'informations. Et quel que soit le gain d'informations le plus important, il ira de pair avec cette stratégie. Ainsi, le gain d'informations est utile pour décider quelle division ou quel arbre de décision, avec un suivi fonction de la caractéristique à diviser en premier. La fonctionnalité 1 est également basée sur la fonctionnalité. Ce sera donc la raison pour laquelle l'acquisition d'informations est l'une des choses les plus importantes. Nous devrions connaître les calculs qui sous-tendent le gain d'informations. Supportez ces trois, oui et trois nœuds ici, la valeur d'entropie de trois sera de un. Pourquoi ? Parce que c'est un sous-ensemble totalement impur, non ? Parce que ce n'est pas le cas, ce n'est pas bon. Parce que trois S et trois indiquent que les deux sont les mêmes nombres, non ? C'est donc une division impure et pour cette entropie, il y aura 11 choses que j'ai oublié de vous dire. La valeur d'entropie sera toujours comprise entre zéro et un. La valeur d'entropie sera toujours comprise entre 0 et 1. Si vous obtenez 10, votre répartition est bonne. Et nous devons mettre fin à cette scission. D'accord ? Et si split est égal à 1, votre valeur d'entropie devient 1, cela signifie qu'il s'agit d'une division pure ou impure. D'accord ? Donc, pour zéro, nous allons nous arrêter et un, ce sera une division impure. D'accord ? Donc, cette chose que tu gardes à l'esprit. 77. Mains sur l'arbre de décision en R: Bonjour et bon retour. Ainsi, dans les conférences précédentes, nous avons découvert l'arbre de décision. Nous avons également vu comment créer un arbre de décision. Et nous avons vu l'entropie. Qu'est-ce que l'entropie ? Comment calculons-nous l'entropie, et quelle sera la valeur d'entropie. Ensuite, nous avons vu comment nous calculons le gain d'informations et comment gain d' informations de l'arbre de décision décidera de l'approche à suivre approche à adopter. Book Creator, le meilleur arbre de décision pour notre énoncé de problème. Et nous savons également que cette entrée est utilisée pour les arbres pour des problèmes de classification. D'accord ? Il s'agit donc essentiellement d'un problème de classification binaire que nous traitons de l'arbre de décision. Donc, dans cette conférence, nous allons apprendre comment nous allons procéder. En gros, nous allons écrire notre code pour créer un arbre de décision pour notre ensemble de données. Nous allons donc utiliser ici un ensemble de données intégré fourni avec R, à savoir les compétences en lecture. Alors, que contient cet ensemble de données sur les compétences en lecture et quoi, comment créons-nous notre arbre de décision à cet effet ? C'est ce que nous verrons dans cette conférence. Nous écrirons le code avant cela. Permettez-moi de vous présenter quelques applications de l'arbre de décision. Donc, un arbre de décision, si vous voulez voir dans la vraie vie, vous, des arbres de décision sont utilisés lorsque nous essayons trouver quel e-mail est un spam, un e-mail, quel e-mail n'est pas un spam. Donc, nous sommes en train de prendre Disjoint, n'est-ce pas ? Donc, dans le cadre de ce type de projets d'apprentissage automatique, où nous en sommes, nous devons déterminer s' il s'agit d'un e-mail , s'il provient d'une source, s'il s'agit d'un spam ou non, nous créons essentiellement un arbre de décision. Nous faisons ce voyage, spam ou pas. Ce type de problème de classification binaire est un spam ou non un spam. Ensuite, dans le service de santé ou le secteur de la santé, si vous voyez ou détectez un cancer dans une application, qu'il s'agisse d'une tumeur, soit, euh, cancéreux ou non, qu'il soit, euh, cancéreux ou non, nous pouvons décider à l'aide de l'apprentissage automatique et de l'arbre de décision. Et dans le secteur financier en Europe, vous pouvez le constater, nous pouvons, comme dans les domaines du financement bancaire de la BFSI, utiliser pour décider s' ils accordent un prêt ou non. Et ils peuvent également décider s'il est bon ou est bon notre emprunteur doué en matière d'eau en fonction de leur cote de solvabilité. Comme pour l'analyse du risque de crédit, vous pouvez utiliser l'arbre de décision. Voici donc les applications réelles de notre arbre de décision et de notre problème d'apprentissage automatique que vous pouvez envisager de résoudre à l' aide de l'arbre de décision. Alors, comment pourrions-nous résoudre ce problème ? En gros, nous créons un modèle , puis nous essaierons de l'entraîner. Ensuite, sur la base du modèle expérimenté, nous avons essayé fournir des données de test et d'essayer de prendre toutes ces décisions. Alors maintenant, venons-en à ce problème, à cette conférence. Pour en revenir à cette conférence, nous allons utiliser l'ensemble de données sur les compétences en lecture fourni avec R, le package R. Donc, vous dites qu'un ensemble de données et cet ensemble de données décrivent en fait le score d' une personne, ses compétences en lecture, ses compétences en lecture. Si nous connaissons des variables telles que l'âge, le score de suicide et le fait que la personne soit de langue maternelle ou non. Donc, si nous avons cette information, source I est nulle et le locuteur natif est nul, nous pouvons décider. Nous pouvons trouver un score de capacité de lecture ou de personne noire. Nous allons donc créer un arbre de décision à cet effet. D'accord ? Donc, dans notre programmation, nous avons la fonction S3. Fonction S3 que nous utilisons pour créer un arbre de décision. Et cela nécessite deux entrées. L'une est une formule et d'autres l'ont fait. Donc. C3 prend deux formules en entrée et nos données. Nous verrons dans le code. OK, donc la prochaine chose faire est d' écrire le code. La première chose à faire est donc de créer un arbre de décision. Nous avons besoin d'un package appelé party. Nous devons installer ce package. Donc, si vous n'avez pas installé ce package, vous devez écrire la commande install point packages, packages installés. Et vous devez fournir le nom du package. Ensuite, vous devez exécuter le code. Et cela installera ce package de fête pour notre usage. J'ai donc commenté cela. Si vous ne l'avez pas installé, il vous suffit de le décommenter et de l'exécuter. Le package party sera installé. Une fois qu'elle est installée, il vous suffit de la commenter pour que cette commande ne s'exécute pas à chaque fois. D'accord ? Ainsi, une fois le package party installé, ce n'est pas nécessairement pour créer un arbre de décision car cette fonction S3 est fournie avec ce package. Nous devons utiliser ce package. Pour utiliser un package dans R, nous devons utiliser la bibliothèque puis nous devons fournir le nom du package. Donc, emballer mes fêtes, et c'est pourquoi nous écrivons Library Party. Maintenant, cette fête de la bibliothèque va mettre en culture cet ensemble de données sur les compétences en lecture afin que nous puissions voir ce que ces ensembles de données contiennent. Nous pouvons donc simplement exécuter cette tête. La capacité à lire la tête donnera les premiers. Les premières sont des données provenant de cet ensemble de données sur les compétences en lecture. Alors exécutons-le et voyons ici. Nous obtenons maintenant les six premières lignes de l'ensemble de données. Il s'agit de dire l'âge du locuteur natif , les suicides, puis le score. Il s'agit essentiellement du score de lecture. Nous avons donc maintenant un aperçu de ces données. Nous pouvons aller plus loin et créer un arbre de décision. Nous allons donc utiliser ici le point d'entrée pour prendre l'entrée. Nous pouvons simplement, si vous ne voulez pas mettre ce nom, vous pouvez simplement utiliser la saisie. Donc, ici, j'utilise les données par points d'entrée, et je prends les données de cette échelle d'évaluation. Ensuite, nous irons plus loin. Et ici, j'utilise simplement un arbre de décision à points PNG. Et ce sera le fichier image sur lequel sera imprimé notre arbre de décision. Ensuite, nous créons l' arbre ici, l'arbre à points de sortie. Et nous perdons la fonction S3 ici et là, nous fournissons la formule « locuteur natif » formalisé. Et c'est la, c'est la, c'est la variable dépendante. Et en fonction de l'âge, des suicides et de leurs causes fondamentales, nous déciderons s'il s'agit du locuteur natif ou non, d'accord ? Et les données sont égales aux données ponctuelles d'entrée. Et puis nous traçons le, traçons le répertoire de sortie. Je vais donc mettre l'arbre que nous obtenons grâce à cette fonction. Et voici la formule, le score natif H plus plus plus plus basé sur ces trois variables prédictives, nous allons obtenir la valeur du locuteur natif, d'accord ? Ensuite, le thêta est égal aux données de points d'entrée. Et nous sommes en train de tracer cela, ou la productivité ou quoi que ou la productivité ou quoi que ce soit d'autre qui découle de cette préoccupation, nous le traçons. Alors, analysons ceci et voyons comment nous obtenons cet arbre de décision. Alors voyez maintenant que notre fichier d'arbre de décision est créé. Vous voyez ici, c'est l' arbre de décision que nous obtenons. D'accord ? Nous n'avons donc pas encore décidé comment, oh, vraiment, ce nœud foliaire, n'est-ce pas ? Le système a pris une décision automatique. Et T sont inférieurs ou égaux à 3813 zéros x il arrive ici, 30, moins de 38,306 tensions venant ici. Et puis c'est égal à R7. Ce sont moins de six personnes qui arrivent ici, soit plus que c en raison de l'année à venir. Cela est donc imprimé à distance, créé avec la fonction S3. Et voici les informations à nouveau et tout se fera par un système sec, d'accord ? Nous n'avons donc pas besoin de le faire, nous devons simplement utiliser la fonction S3 et probablement la formule et les données, et cela créera l'arbre de décision pour nous. D'accord ? C'est aussi simple que cela. Mais pourquoi nous avons discuté la théorie dans la conférence précédente, c'est parce que nous devrions savoir coulisses ce qui se passe avec cette fonction S3. Et nous devrions être conscients, d'accord ? Alors vous seul pouvez réussir dans le domaine de l'apprentissage automatique et de la science des données. Vous devez connaître les intuitions mathématiques qui sous-tendent l'arbre de décision ou tout algorithme que vous apprenez. D'accord ? N'importe qui peut venir ici utiliser cette fonction S3 et créer un arbre de décision. Mais il se peut qu'ils ne soient pas conscients de la manière dont l'arbre de décision est construit. Qu'est-ce que l'entropie, qu' est-ce que le gain d'informations ? Et très bien, c'est pourquoi vous devriez connaître les véritables intuitions sous-tendent l' algorithme d'apprentissage automatique. D'accord ? Alors, avec cet arbre de décision, quelle conclusion aboutissons-nous ? Nous en arrivons à la conclusion que, comme toute personne dont l'échelle de lecture est de 38,3, inférieure à 38,3 et âgée de plus de six ans, n' est pas un locuteur natif, n'est-ce pas ? Donc, avec ça, on a un lac. Si l'âge est inférieur à, score de lecture est inférieur à 38,3 et l'âge est supérieur à six ans, alors la personne n'est pas un locuteur natif. C'est ainsi que nous pouvons créer l'arbre de décision dans R. 78. Avantages et inconvénients de l'arbre de décision: Dans cette conférence, nous allons découvrir les avantages et les inconvénients de l'arbre de décision. Nous allons donc d'abord voir les avantages, puis les avantages des arbres de décision. D'accord ? Donc la moitié de l'arbre de décision des estimations, d'accord ? il ne s'agit donc pas vraiment Comme nous l'avons appris, d'un algorithme d'apprentissage automatique très populaire. Et résolvez de manière distincte les problèmes liés à l'apprentissage automatique en transformant les données en une présentation géniale comme celle-ci. D'accord ? Traitez une présentation comme celle-ci. Et chaque nœud interne de l'arbre comme ça. Et ils présentent nos notes un attribut et chaque nœud de feuille indique le niveau de classe. Et l'algorithme de l'arbre de décision peut également être utilisé pour résoudre des problèmes de classification et des problèmes de régression. Ce n'est donc pas comme lorsqu'un problème de classification divulgué peut être résolu avec l'arbre de décision. Mais nous pouvons également résoudre les problèmes de réglementation. D'accord ? Donc ça a été fait, d'accord ? Cette entrée peut donc être utilisée à la fois pour les problèmes de dégradation et de classification. Permettez-moi donc de vous dire quels sont les quelques avantages de l'arbre de décision. Le premier avantage de l'arbre de décision est donc qu'il nécessite moins d'argent nécessite un opérateur de prétraitement moins important. Passons au prétraitement des données, d'accord ? Ainsi, pour l'arbre de décision ou par rapport à d'autres algorithmes d'apprentissage automatique, vous devez travailler un peu moins sur le prétraitement des données ou la préparation des données. Vous pouvez dire « j'aimerais une préparation préalable », ou vous pouvez également mettre ici une forme de préparation des données. Vous devez donc consacrer moins d'efforts à la préparation et au prétraitement des données, d'accord ? C'est donc l'un des grands avantages de l'apprentissage automatique. Notre produit. Le deuxième avantage serait qu' un arbre de décision ne nécessite pas de mise à l'échelle. Il n'est pas nécessaire d'augmenter la taille des données. La mise à l'échelle des données n'est pas vraiment requise. D'accord ? Ce n'est donc pas non plus obligatoire et c'est un gros avantage, d'accord ? Et puis le troisième avantage, on peut dire que cela ne nécessite généralement pas de normalisation de la bêta. Ainsi, même si vous n'avez pas normalisé les données, vous pouvez utiliser l'arbre de décision. Normalisation de Greta. C'est en place, ce n'est pas obligatoire. D'accord ? C'est donc également une bonne chose en matière d'apprentissage automatique et nous verrons cet arbre de décision. Ainsi, dans le domaine de l'apprentissage automatique, les siècles et l'algorithme dans lesquels le système adjacent normal et Gil relient les données ne sont pas vraiment nécessaires. Si vous le souhaitez, vous pouvez le faire, mais ce n'est pas vraiment obligatoire. Cela n'aura pas d' impact important, que les données soient normalisées ou non. Si nous travaillons avec un arbre de décision. L'avantage suivant est que les valeurs manquantes dans les données n'ont pas non plus d'impact important sur l'arbre de décision. D'accord ? Par exemple, si vous utilisez d'autres algorithmes d'apprentissage automatique, vous devez travailler manière approfondie pour traiter la valeur manquante. Mais dans l'arbre de décision, cela n'aura pas de valeur manquante, cela n' aura aucun impact sur l'arbre de décision. Pas d'impact, d'accord, donc ça n' aura pas beaucoup d'impact. Ainsi, même si des données sont manquantes, vous pouvez créer un arbre de décision qui ne fonctionnera pas, vous ne manquerez rien qui affecter votre décision ou vos prévisions. D'accord ? Le modèle d'arbre de décision relatif aux avantages suivants est très intuitif et facile à expliquer aux équipes techniques agiles. Ainsi, lorsque vous voyez l'arbre de décision, il est très facile de vous aider à le comprendre. Il est très facile à comprendre et toute partie non technique ou technique peut facilement être comprise. C'est donc le gros avantage d'un arbre de décision. Donc, même si vous voulez présenter votre arbre de décision à un responsable, vous pouvez facilement lui faire comprendre l'arbre de décision. C'est donc l'un des avantages d'un arbre de décision. En dehors de cet arbre de décision. Ou comme les intuitions très humaines que vous obtenez avec l'arbre de décision Get with the Decision. C'est donc très, très similaire au comportement humain. Dans notre vie quotidienne, nous prenons également des décisions disjointes par oui ou par non, en fonction de certaines caractéristiques ou conditions. C'est donc très humain. Je serais content d'avoir un algorithme semblable à un humain. D'accord, voici donc les quelques avantages sur lesquels nous pouvons compter en matière d'apprentissage automatique. Examinons maintenant les inconvénients de l'arbre de décision. Le tout premier inconvénient de l'arbre de décision que nous pouvons constater est donc qu'il n'est pas très fiable si vos données changent. D'accord ? Donc, ce que l'on peut dire, c'est comme si c'était instable, comme si c'était stable. Et si les données changent, si les données changent. Alors, soutenez-vous, vous avez établi un arbre de décision et il y a un petit changement dans les données. Une petite modification des données peut avoir un impact important, un impact important sur l'arbre de décision. C'est donc un gros inconvénient de l'arbre de décision. Même les petites données d'entraînement peuvent entraîner de grands changements dans leur structure. L'arbre de décision soutient cette décision ressemble à ceci. Si vous modifiez légèrement les données, il se peut que la structure de l'arbre de décision ait été complètement différente et cela aura un impact important, n'est-ce pas ? Le deuxième inconvénient est que l'arbre de décision est parfois plus complexe que l'autre algorithme. Ainsi, pour les données les plus simples, votre arbre de décision sera parfois complexe. Nous avons donc parfois un arbre de décision très complexe. Et si vous utilisez un autre algorithme, vous pouvez obtenir la solution la plus simple. Vous devez donc voir si, pour l'énoncé de notre problème particulier, vous avez vraiment besoin d'un arbre de décision ou non. Et si vous utilisez un arbre de décision, il est plus simple que l' autre algorithme ou non. S'il n'est pas plus simple que l'autre algorithme d'apprentissage automatique, vous devriez utiliser l'autre algorithme d'apprentissage automatique et vous ne devez pas utiliser l'arbre de décision. Donc, parfois, ça devient vraiment complexe. Neck Thing, c'est comme si l'entraînement d'un modèle d'apprentissage automatique avec un arbre de décision était énorme, n'est-ce pas ? Il faut donc du temps pour entraîner notre modèle d' apprentissage automatique à l' aide d'arbres de décision. Cela prend donc du temps. Le processus prend énormément de temps pour former un arbre de décision. Le temps passé à distance est plus long. C'est donc cher en termes de temps, non ? Cela prendra plus de temps par rapport aux autres algorithmes. Et c'est aussi comme si la complexité augmentait également dans l'arbre de décision. Autre chose que nous pouvons tirer cette leçon ou ne pas avoir vraiment d'impact. Il en est ainsi, si vous utilisez un arbre de décision pour un problème de classification, un problème de classification, c'est bien. Mais pour les arbres de régression, cela n'a pas beaucoup d'impact, n'est-ce pas ? D'après ce que j'ai compris, mais cela peut être fait pour les deux. Mais les arbres de régression n'ont pas cet impact. Ce sont donc les quelques inconvénients des arbres de décision sur lesquels nous pouvons compter. C'est donc tout pour cette conférence. Tels sont les avantages et les inconvénients des arbres de décision. 79. Introduction du projet: Bonjour et bienvenue. Dans cette conférence, nous allons donc en apprendre davantage sur le projet dans lequel nous allons, à partir duquel nous allons. Nous allons donc faire quelque chose de très important. Il s'agit d'un projet d'apprentissage automatique simple qui vous donnera une idée de ce qu'un algorithme simple d'apprentissage automatique peut faire. En quelques lignes. Nous allons utiliser notre programmation et nous allons utiliser notre ensemble de données, qui contiendra les données précédentes de l'organisation. Et sur la base des données, nous allons prédire les cours futurs des actions. Oui, tu l'as bien deviné ? Nous allons réaliser un projet dans le cadre duquel ils ont utilisé les données précédentes, les données StockData précédentes ou les données historiques des cours des actions. Nous allons deviner les cours futurs des actions comme à partir de maintenant. Quel sera le cours de l' action dans 100 ou 500 jours, ou après un an ou deux ans, après 30 jours, après 40 jours, quel sera le cours de l'action ? Ce sera donc la prévision boursière. Project, lui qui fait de l'apprentissage automatique, d'accord ? Et nous allons utiliser notre programmation pour cela. Un simple fichier XML contiendra donc le cours de l'action. Et pour cela, nous allons utiliser les données du cours des actions de Google pour Google. Et nous allons diviser les prix de Google sur 400 ou 100 jours, les jours sont des jours, d'accord ? Donc, le cours de l'action X et le projet que nous allons réaliser. Et pour cela, nous avons cet ensemble de données au format Excel, qui contient les données historiques des cours des actions Google 2019-2020. D'accord. Et voyez quelles sont les colonnes ici ? La première colonne est la date, puis commence le 26 septembre 19. Et nous avons des données jusqu'au 25 septembre 2020, presque un an de données, d'accord, et puis la deuxième colonne est D, puis la troisième colonne est ouverte. Cela signifie le prix d'ouverture. À l'ouverture de la bourse le matin , quel était le cours ? Il s'agit donc du cours d'ouverture du sixième jour, Septum Auto Toggle 19 , soit le premier jour. Qu'est-ce que c'est et puis ce jour-là, il est passé à 1 245 , soit le plus haut niveau en une journée. Et Low aurait souhaité qu'il passe à 1 232. Donc, en un jour, je suis parti de 1 241,95. Il a été soumis à la loi de 1 232, il est passé à 1 245 et il a clôturé à 1 241. Ces quatre montrent donc à quel point il est très important et ajusté de près est presque la même chose. Et puis le volume, 15 lakh ou 30 000 volumes, était là. Ainsi, nous avons toutes les données pour 365 jours. Sur la base de ces données, nous allons donc prédire les cours futurs des actions à la hausse sur Google. Si vous tracez ces données sur un graphique, nous pouvons voir comment les prix évoluent à la hausse et à la baisse. Vous pouvez donc le voir ici. Nous allons donc également tracer ce type de graphique et voir comment les prix augmentent et diminuent. Dys, d'accord ? C'est donc le projet que nous allons réaliser. Voyons voir. Dans la prochaine conférence, nous commencerons à importer ce fichier Excel dans notre studio d'art puis nous écrirons un code simple et nous essaierons de prédire le cours futur de l'action en hausse par rapport aux le cours futur de l'action en hausse par rapport actions de Google lors de la prochaine conférence. 80. Projet - Prédire les prix des actions: Bonjour et bon retour. Dans cette conférence, nous allons commencer par notre projet qui consiste à commencer par notre projet qui consiste prédire la valeur du cours de l'action Google un jour donné sur la base des données historiques dont nous disposons. Nous avons donc cette feuille Excel, qui contient des données de l'année dernière, comme 26, numéro 20192, jusqu'à septembre 2020, je crois. Oui. Donc, jusqu'au 25 septembre, 20 pays. Nous avons donc près d' un an de données sur le cours de l' action Google, tous les 365 jours de cours ouvert. Quelle était la valeur élevée de l' action un jour donné ? Valeur la plus faible. Quelle était la valeur de clôture et quel était le volume ? Donc, toutes ces données dont nous disposons, sur la base de ces données, nous allons essayer de créer un modèle dans lequel nous pouvons prédire la valeur de l'action à une date donnée, d'accord ? Supposons que dans trois jours, ou dans 500 ou 500 jours, quelle sera la phrase courante ? Je dirais 100 jours. Quelle sera la phase de l'AVC ? Donc comme ça. OK, commençons donc le code. La toute première chose à faire est de savoir ce que nous pouvons faire. Nous pouvons importer le point XLS du cours de l' action Google, le fichier Excel, dans notre studio. Et pour y parvenir, nous pouvons consulter le dossier. Et ici, nous devons accéder au jeu de données d'importation. Nous devons donc accéder à l'ensemble de données d'importation. Et ici, vous pouvez voir à partir des impôts, à partir des trois NADH d'Excel, diverses sources de données ont été répertoriées ici. Donc, ce que nous devons sélectionner ici, nous devons sélectionner cet Excel ici. Depuis Excel, il suffit de cliquer. Ensuite, nous devons parcourir le fichier dans lequel nous avons conservé nos données. Nous avons donc ce fichier Excel. Je vais donc simplement l'ouvrir et découper les données numériquement. Et une fois que c'est fait, cela nous donnera l'option d'importation. C'est donc une façon d'importer le fichier de données dans le studio le plus difficile. C'est une autre solution. Et cela permettra également voir et de voir ici , nous pouvons maintenant voir l' aperçu du code de cette importation. Cela arrive comme une bibliothèque. Je n'ai pas besoin d'Excel et cours de l'action Google sera l'objet. Et ici, nous utiliserons la fonction Lire Excel et fournirons au bot le fichier Excel avec le nom de fichier. Ensuite, nous pouvons utiliser la vue, cet objet. D'accord ? Et ce sera pour que nous puissions simplement copier ce code. Et je ne sais pas pourquoi cela prend autant de temps. Il y a peut-être une IRM, alors laissez-moi annuler cela et importer. Voir. Les données ont maintenant été importées dans notre studio. Oui, nous pouvons voir les mêmes données que celles que nous voyons dans ce fichier Excel. Maintenant, nous pouvons voir l'intérieur de ce studio d'art. Bon, maintenant, nous avons... maintenant, si nous voulons voir ces données ici, voyons qu'il n'y a pas encore de Claudia. Mais puisque nous avons importé, nous pouvons utiliser la vue réelle. Et ici, nous pouvons utiliser le nom d'objet solide : votre main. Nous pouvons courir ici et voir la même chose se produire. Même si vous souhaitez utiliser le résumé des données. Quelqu'un peut exécuter ceci et nous enverrons à quelqu'un cet ensemble de données ici. peut exécuter ceci et nous enverrons à quelqu'un cet ensemble de données ici. Moyenne, premier quartile, moyenne médiane, valeur maximale du troisième quartile sur la quantité de septembre 2020 Et c'était 1 710, le maximum est de 1 733. Ce sera le plus élevé. Et c'est le maximum d'ouverture. Et il s'agit du maximum le plus élevé, ni du maximum local et du maximum de clôture. D'accord ? Ainsi, nous pouvons voir le résumé des données, d'accord ? Maintenant, au lieu de l'utiliser , nous pouvons également nous utiliser la bibliothèque. Nous pouvons utiliser la bibliothèque de code. Je ne sais pas pourquoi ça arrive. Si vous ne connaissez pas le code, vous pouvez simplement accéder au jeu de données d'importation de fichiers et depuis Excel. Et ici, vous pouvez voir le code ici. Copiez simplement ceci et nous n' avons qu'à le coller ici. Et pourtant, vous devez mettre le Read Excel, et pourtant nous devons mettre le nom du bot. D'accord, quelle sera la partie que nous allons mettre ici ? Je peux juste mettre ça. Nous réorganisons donc la bibliothèque Read Excel, puis nous utilisons le nom de l'objet plutôt que d'utiliser la fonction Excel et de fournir la partie incorrecte du fichier XL. Ensuite, nous pouvons utiliser le cours réel de l'action Morgan et cela nous donnera le même résultat. Ça et tu vois, oui, on a la même chose. D'accord ? Donc, de cette façon, nous avons lu et visualisé les données. Ensuite, nous devons comprendre la structure des données. Donc, si vous souhaitez comprendre la structure des données, vous pouvez utiliser la fonction de résumé, résumé de ce cours de l'action Google. Et vous obtiendrez le résumé des données comme nous l' avons déjà vu. Par ici. La prochaine chose est ce que nous devons faire. Nous devons visualiser les données. La prochaine étape est donc de savoir ce que nous devons faire. Nous devons visualiser les données, visualiser les données. Donc, pour cela, ce que je vais utiliser, je vais beaucoup les utiliser. Donc, ce que je vais faire, je ne sais pas pourquoi c' est un énorme complot. Et je vais utiliser cette colonne ouverte et utiliser d, puis les données seront correctes. Et puis lancez ceci. Le four, on le fait fonctionner, on va voir les données. Dans ta leçon. Nous allons voir l'intrigue ici. Voici donc le prix d'ouverture et c' est les jours 1 et 2, violet. Nous pouvons ainsi voir les données, la façon dont leurs cours boursiers évoluent le week-end. Vous visualisez ici. Ainsi, nous pourrons y accéder plus tard, plus tard. La prochaine chose est ce que nous devons faire. Nous devons utiliser la régression linéaire pour prédire la fonction. Alors, qu'est-ce que je vais utiliser ? Je vais utiliser le prix prévu. Et pour le prix prévu, ce que j'utiliserai une cellule hilum Fung et cette fonction lm, je l'utiliserai sur la même entrée que celle que je donnerai lors d'une journée portes ouvertes. Et cela a été fait dans cet ensemble de données, d'accord, fichier Excel, données ALU, ensemble de données. Ensuite, je vais juste m'en tenir au prix prévu. Je vais donc simplement parler du prix plus élevé. Alors laisse-moi exécuter ça. Vous voyez, ici, c'est dire le cœur du présent et cela. Bon, maintenant, ce que je vais faire, utiliser la fonction de résumé pour voir ce que nous obtenons pour ce prix prévu. Jusqu'à présent, ce prix prédictif, ce prix minimum, premier quartile, la médiane, le troisième quartile, toutes ces choses que nous avons obtenues. Maintenant, ce que je vais faire, prédire la porte. Valeur prévisionnelle de l'action à un jour donné. D'accord ? Nous pouvons donc le faire. Je peux utiliser la fonction de prédiction. Et je peux utiliser le prix. Oui. Et puis ce que je peux utiliser, je peux utiliser un cadre de données à points. Ici. Je peux fournir que d est égal à 350, d'accord ? Et cela nous donnera, cela nous donnera le cours de l' action prévu pour le troisième jour. Alors laissez-moi exécuter ceci, voyez ici. En ce qui concerne le taux de mortalité par période, ce sera le cas, le cours de l'action sera de 1 620 points. Si je peux, ça pour 50. Ainsi, le cours de l'action se séparera. Le cours de l'action sera de 1 700. Bénéficiaire, si je mets 150, ce sera 1 400. Si j'en mets un, cela indiquera 12, 30 000. Vous voyez, le cours de l'action Google sera presque doublé dès le premier jour. Ainsi, nous pouvons placer la valeur d ici et prédire quel sera le cours de l'action ce jour-là. C'est donc un projet assez simple que vous pouvez également essayer. Vous pouvez prévoir le soutien. Je voudrais prédire la valeur de l'un d'entre eux, s'il vous plaît. Deuxième jour. Un objectif, deuxièmement, de cette façon, d'accord. Ainsi, vous pouvez également essayer votre propre ensemble de données ou utiliser le même ensemble de données que je peux fournir. Vous pouvez télécharger l' ensemble de données et essayer de prédire le cours de l'action. Vous pouvez également créer votre propre feuille Excel et y mettre des valeurs aléatoires. Et vous pouvez saisir vos propres valeurs ici et vous pouvez les prédire, vous pouvez prendre n'importe quel autre ensemble de données valeurs ou d'autres valeurs que vous pouvez également essayer et saisir dans le même code et essayer de prédire la valeur. D'accord ? Il s'agit donc d'un projet simple utilisant la fonction lm pour prédire le cours de l'action Google. J'espère que vous avez compris comment nous utilisons l'apprentissage automatique et toutes ces fonctions simples de R pour prédire les cours des actions. Merci. 81. Analyse de données Uber du projet 2 en utilisant R: Bonjour et bienvenue. Dans cette conférence, nous allons donc en apprendre davantage sur l'analyse des données biais de visualisations dans R. Et pour cela, nous allons réaliser un projet dans lequel nous allons utiliser les données, ce qu'est l'agrégateur d'écarts, le fournisseur de services pour obtenir les bonnes informations sur une application Cab X Evoking. Tu peux le voir. Vous êtes donc le numéro un des fournisseurs de services de taxi. Nous allons donc utiliser les données UPA pour analyser les données de ce produit. La motivation de ce projet est donc procéder à la visualisation des données, à la narration et à la manière dont nous pouvons utiliser les données pour les analyser et en tirer des informations utiles. Il s'agit d'un élément important de l'apprentissage automatique grâce auquel les entreprises sont en mesure comprendre le contexte de diverses opérations. Qu'est-ce que cela signifie ? Cela signifie que supposons que ce qui se fait dans le service d'agrégation Gap et que les conducteurs de mini-taxi associent à leur application Gap deux applications Over distinctes. Ensuite, je diffuse et je participe à la fourniture du droit au client. C'est tellement énorme qu'il s'inscrit à l'application et qu' il essaie de combler un écart important en fonction de leur localisation. Alors, que faites-vous dès que vous vous connectez et que vous sélectionnez votre position et votre destination où vous souhaitez vous rendre En fonction de votre localité. Il listera toutes les casquettes à proximité qui vous permettront de les atteindre le plus rapidement possible. Ce sera le cas. Ce sera le cas. Ce sera le cas. Il enregistrera toutes les lacunes à proximité de vous puis indiquera la localisation par sexe et vos besoins, il vous conviendra le mieux, ce qui peut vous amener à destination le plus rapidement possible. Alors, comment s'y prend-il ? Vous avez juste besoin de nombreux concepts d'IA, d'apprentissage automatique et de science des données pour analyser les données et provoquer une récession. Dans ce projet, nous allons donc utiliser les données. Et nous allons analyser par exemple combien de se produisent en une journée ou combien de taux mensuels se produisent en une journée. Combien de vos LEA que je commence à avoir une vie mensuelle et un jour, c'est à quelle heure de la journée, le VGS, ce type d'analyse que nous allons faire dans le cadre de ce projet. Nous pouvons donc effectuer tous ces types d'opérations avec ce foutu papa à l'aide de l'apprentissage automatique. À l'aide de la visualisation, les entreprises peuvent tirer parti de la compréhension des données complexes et obtenir des informations qui les aideront à les recadrer. La partie visualisation est donc très importante, car avec de la vigilance, nous pouvons analyser rapidement les données et obtenir informations vraiment utiles, comme quelle heure de la journée se situe le BGN ? Quelles sont les localités les moins exigeantes en matière de cabine où les utilisateurs ne passent pas temps en cabine en cas de retard. Toutes ces analyses peuvent être effectuées avec la visualisation. Il s'agit plutôt de données visualisées dans le cadre d'un projet qui vous guideront vers l'utilisation de la bibliothèque ggplot2 pour comprendre les données et développer une intuition permettant de comprendre quels clients figurent dans les clips sur quelle application. OK, donc c'est, c'est ce que nous allons faire. L'objectif de ce projet est d'apprendre les visualisations dans R et d'analyser les données. Alors allons-y. Donc, avant de poursuivre, nous avons les données ou les fichiers UVA avec nous. Et voici les données d' un mois fébrile. Et cela comporte quatre colonnes : date, heure, latitude, longitude et base. Ce sont donc les informations que vos amis capturent. OK, donc date et heure, longitude, latitude et longitude. Et la latitude indiquera l'emplacement de l'écart et l'heure ou l' heure de la réservation, ainsi que la base à partir de laquelle le meilleur endroit pour cela. D'accord ? Voici donc les données dont nous disposons. Et c'est pareil. Nous avons les données mensuelles dont nous disposons pour mai, juin , juillet, août et septembre . Et nous allons analyser cela sur la base de ces données. Ces données sont assez simples. Date et heure, latitude, longitude Et passons au fichier. Pourtant, j'utilise R pour analyser cela. Donc, avant de continuer, nous allons importer une bibliothèque de fruits, c' est-à-dire GG Plot Two. OK, alors lubrifiez et mettez de l'ordre dans les compétences DT. Alors, qu'est-ce que GG plot to GG Plot Twist. La bibliothèque de visualisation de données la plus populaire la plus utilisée pour créer des diagrammes de régulation esthétique. GG Plot est donc très populaire dans notre programmation pour créer des gants et des tracés très esthétiques visualisations, des gants et des tracés très esthétiques, très rebutants et très attrayants . Nous allons donc utiliser le diagramme 2 de GG. Ensuite, nous utiliserons Lubridate. C'est cet effet de levier sur le calendrier. En utilisant les délais de l'ensemble de données. Ensuite, nous avons la couche profonde qui est la bibliothèque de manipulation de données que nous allons utiliser. Bibliothèque élégante et importante, elle rendra vos données très bien rangées. Nos données ordonnées signifient-elles minuscules, déterminent-elles les données avec lesquelles il est facile de travailler ? Les données. Si c'est facile à utiliser, nous pouvons l'utiliser aussi facilement dans l'autre bibliothèque. Nous allons donc utiliser la bibliothèque R Tidy pour organiser nos données. Ensuite, nous utiliserons le nitty, les tables de données de la bibliothèque JavaScript que nous utiliserons. Ensuite, atteindre réellement des compétences, des compétences. Ces bibliothèques nous permettaient, à l' aide du graphique, à l' aide de l'échelle graphique, l' aide du graphique, à l' aide de l'échelle graphique, de mapper automatiquement les données aux bonnes compétences à l'aide du ****, avec un x bien placé lui-même. Cela nous aidera donc à cartographier automatiquement les données à la bonne échelle. Pour cela, nous devons utiliser cette bibliothèque. Avant cela, si vous n'avez pas installé ces bibliothèques, vous pouvez accéder aux Outils ici, puis cliquer sur les packages d'installation. Et ici, vous pouvez simplement utiliser des packages populaires nommés yuk, comme vous pouvez mettre GG plot two. Et puis, si vous le souhaitez, vous pouvez mettre des thèmes GG et vous pouvez mettre une virgule et écrire tous les noms, les dates principales. D'accord ? Donc, comme ça, vous pouvez le faire, et vous pouvez cliquer sur Installer cette bibliothèque, ceci pour vous. Ainsi, vous pouvez installer les packages. Je vais donc le répéter encore une fois. Vous devez vous rendre dans RStudio pour accéder au menu supérieur. Vous trouverez ici les outils. Cliquez sur les outils et vous verrez les différentes options. Dans Rhodopsine. Vous devez sélectionner le premier, installer les packages, puis donner le nom du package GG plot two. Et si nous voulons installer plusieurs packages à la fois, vous pouvez mettre une virgule et donner le nom des packages en mettant une virgule entre eux, puis en cliquant sur le stock. J'ai déjà installé ce package , je vais donc le laisser s'agiter. Et si vous ne l'avez pas installé, vous suffit de cliquer sur Installer et il sera installé dans les zones rurales de l'Australie. Allons donc plus loin. Donc, une fois notre laboratoire à les utiliser et à les utiliser, il ne nous reste plus qu'à dire aux plus difficiles de le faire. Nous allons utiliser ces bibliothèques GG Plot Rho, G Times Lubridate, Tidy, Tidy Verse, DT et balances. Pour cela, nous devons importer la bibliothèque. Et puis entre crochets, nous devons mettre le nom de la bibliothèque GG plot two. Et toutes les bibliothèques que nous sommes immenses ont besoin d'écrire de cette manière. OK, donc une fois que vous avez écrit ceci, sélectionnez toutes ces bibliothèques et cliquez sur Exécuter. Et il sera prêt à accueillir les Juifs sur les terrains d'Europe. Maintenant, ce que nous allons faire, c'est créer les vecteurs de couleurs, des vecteurs de couleurs pour les tracés. Dans nos tracés, nous utiliserons les couleurs multiples pour les tracés. Dans nos parcelles, nous utiliserons les multiples couleurs pour les rendre plus attrayantes et plus esthétiques. Et pour cela, nous allons créer le vecteur de couleurs. Donc, ici, je crée une couleur vectorielle et je donne C, puis je donne le nom de la couleur, le type égal ACCC 10166. Donc, tous ces gris , ces verts, ces jaunes, ces bleus, ces roses, tous les savants que nous allons utiliser. Ces vecteurs vont donc créer et exécuter ceci. D'accord ? Ensuite, ce que nous allons faire, c'est lire les données de chaque période et manger. Ce que nous allons faire. Nous avons le fichier de données pour chaque mois, comme les estimations de mai, juin, juillet et août. Nous allons donc le faire en utilisant un fichier csv à points de lecture. Vous savez que pour lire un fichier CSV en R, nous lisons la fonction de méthode point csv, donc le point CSV. Ensuite, nous allons donner le chemin de notre fichier de données. Nous avons donc stocké le fichier de données dans cette partie, nous allons donc le donner et le nom du fichier sera à la fin. Bien, nous allons maintenant traiter toutes ces données mensuelles. OK. Il suffit de cliquer dessus et de voir. Il est en train d'être lu avec succès pour les mois d'août et de septembre, et nous vous attendons à courir. C'est donc chose faite. Et la prochaine chose est ce que nous allons faire. Nous allons combiner les données. Nous avons maintenant lu les données et les avons stockées dans ces variables. Moyens : juin, juillet, août, septembre. Maintenant, nous allons utiliser la méthode OnBind pour lier les données entre elles. Alors maintenant, tous ces six mois à sortir ensemble. OK, nous allons donc utiliser les données ici. Méthode Odd Bind, et nous transmettrons simplement ces objets en mai, juin , juillet, et ils seront concaténés ensemble. OK, alors allons-y. Nous avons donc maintenant le sens diamanté du lac de données en ce qui concerne les colonnes et les nombreux rôles. Bien, nous voulons maintenant voir à quoi ressemblent les données combinées. Nous allons donc utiliser la tête et fournir les données de l' objet ici. Il imprimera donc les cinq premières colonnes des données. OK, mon aîné, maintenant, nous avons ces données pour l' heure, la latitude, la longitude. Ensuite, nous utiliserons ces données qui contiennent des colonnes ( date et nous utiliserons ces données qui contiennent des colonnes heure). Ces données contiennent des colonnes, date et l'heure, qui est un facteur, et la longitude, la latitude, qui sont doubles, et essentiellement des facteurs. Nous allons donc formater la date et l'heure dans un format lisible en utilisant la date, la convergence et les fonctions. Nous voici donc dans la fonction de fixation convergente datetime pour convertir cette date/heure en une fonction plus lisible. Pour cela, nous utiliserons les données et la date, la date, l'heure, puis les rechargerons sous forme de CD noir, format de l' heure, l'année, la date du mois, l'année et les heures, les minutes et les secondes. OK. Et puis, quand vous lisez ce format trouvez celui-ci et Reform Act in the Hospitalist. Excellent. D'accord, et ensuite nous combinerons cela. OK, allons-y. Ceci. Le script est toujours en cours d'exécution. Lorsque cela disparaît, vous pouvez passer au suivant. Il suffit de lancer ceci. Il fonctionne donc. Ensuite, nous allons créer des colonnes individuelles par mois, par jour et par année. Et pour cela, nous obtiendrons des données par jour, mois, année et demie. Et nous allons utiliser le facteur ici de manière vectorielle. Et pourtant, prenez vraiment le temps. En fait, notre délai mensuel s'échelonne et tient compte du temps de la semaine dans les données. OK. OK. Et nous allons également l' exécuter. Alors maintenant, il fonctionne. Oui. Donc, ce que nous allons faire, créer les colonnes neutres dans un mois. La prochaine chose, ce que nous allons faire, aussi ajouter des variables temporelles. Ainsi, à temps partiel, vous pouvez faire l'INR à la deuxième minute. Et ici, le facteur est supérieur à Aspen une seconde et demandez-leur le deuxième vecteur de bruit. Le second vecteur mina peut prendre la fenêtre RN. Cela l'exécutera également. Il fonctionne donc. La prochaine fois que ce sera fait, nous examinerons les données. Données. Nous utiliserons cette méthode pour examiner les données telles qu'elles se présentent. Laissons donc cela et voyons maintenant que nous avons la terre, la latitude et la longitude diurnes. Voici les quatre colonnes qui s'y trouvent déjà. Est-ce que c'est le cas. Nous avons maintenant créé de nouvelles colonnes telles que l'heure, jour, le mois, l'année, le jour de la semaine, la deuxième minute. Voici donc les colonnes 123-45-6788, nouvelles colonnes que nous avons créées. Et ces colonnes donneront plus d'informations à l'auditeur. Je pense que ce sera le cas, cela dira comme Dieu, seulement, que maintenant nous savons quel jour du mois, quel mois, et quel jour de la semaine il avait un Richie Rich de, nous connaîtrons également. Et puis créé en second lieu. Maintenant. Nous en avons maintenant terminé avec Nita parcourir les données et de créer des fonctionnalités, nouvelles fonctionnalités, de nouvelles colonnes. Ensuite, nous allons passer visualiseur de données et créer en partie de manière aléatoire les tracés et les graphiques, et nous essaierons d' en utiliser davantage. Ici. Ce que nous allons faire, la première chose à faire, c'est de tracer les gouttes par RT et RD. Pour cela, nous allons utiliser des traits de soulignement, les données sont précieuses et ce que nous allons faire, les données regroupées par R et utiliser la couche profonde pour les résumer. Et quand nous exécuterons ceci, maintenant, regardez-le. Maintenant regarde ça. Maintenant, nous obtenons ces données : zéro, une, deux ou trois heures. Nous avons un tableau de données que nous avons mangé. Pouvez-vous sélectionner nombre d'arbres que vous souhaitez voir à la fois. OK. Ensuite, les données sources figurant dans le tableau d'hier. Mais maintenant, ce que nous allons faire, tracer les données à l'aide de notre diagramme GG et de notre diagramme GD ici. Les seules données que nous avons créées ici. Et comme ton mensonge. Ensuite, nous utiliserons des identités à barres géométriques. Quand même, avec ce bleu sarcelle, la couleur se répandra. Ensuite, les avis sont titrés par r et les sous-titres sont agrégés. Et la légende ne positionne aucun tracé, titre du texte et comment 4,5 et 0,5 et une compétence comme la continuité. Bon, maintenant, nous allons tracer les données en fonction de notre soleil, ce C, et maintenant nous allons obtenir le graphique en fonction de nos voyages. Tous les sous-titres de RM here sont aujourd'hui des produits agrégés. Vous pouvez donc voir les trois ou 24 heures que nous recevons à chaque audit, ce jouet que j'ai commencé, c'était ces nombreuses cassettes. Le deuxième tiers, sombre ou sombre comme celui-ci. Ils font du club de natation pendant 24 h et pour en avoir fini avec ça, on peut voir que les 17 sont on peut voir que les 17 sont dedans ou qu'ils ont plus de voyages. Donc, le bec est chargé s' ils veulent appliquer le milieu applications provenant des Philippines forment notre produit. Minuit la seconde ou par litre. Donc, ces choses, ces choses, ces heures, ce sont des magnétoscopes et ici, quand vous verrez The Office et se termine le soir, ils demanderont qu'ils s' appliqueront, ils factureront frais les plus élevés et ils agrandiront la cabine. C'est ainsi qu'ils procèdent. Ainsi, nous trouverons, contacterons les R sont prêts, VD et sur cette base, nous passerons au riz. C'est ainsi qu'Uber procède. Maintenant, suivez les conseils de traçage par r et par mois agrégez nos données et utilisez vraiment le groupe par fonction. Ici, les mois sont déclarés pour les résumer. Alors essayez ceci Ensuite, nous ferons le graphique GG pour le tracer. Donc C et maintenant, nous avons l'intrigue, qui est déprimée de n mois. Alors regardez ici, celle-ci, cette couleur, c'est vrai, c'est pour moi. Il s'agit du module en juillet, août et septembre. Mais ils ont détruit tous les mois. Ainsi, quel mois a plus ou moins de pKa est similaire pour tous les mois. Plus ou moins, pas exactement, mais vous pouvez plus ou moins analyser. Apparemment, septembre aussi, un musulman est là, du savon de Castille et de l'eau chaque mois. Le bécher est en cours de synthèse. choses se passent plus ou moins de la même manière chaque mois. Donc, en résumant certains gars en groupe par mois, vous pouvez annuler cette faillite. Maintenant, pour ce qui est du traçage, je vais tracer les données par voyages, chaque jour du mois. Ainsi, pour le régime alimentaire, les données seront utilisées de manière précieuse et groupées par jour. Et nous utilisons le Deepak pour résumer les startups. Exécutez ceci, puis ce diagramme facile pour le tracer. Ce sera donc le meilleur pour les sodas et les chips. Alors maintenant, quand vous regardez cela, cela vous donnera un nombre suffisant de voyages par jour. Il existe de nombreux types de deuxième jour comme celui-ci, donc les décès par jour du mois. On peut faire comme ça. Ensuite, nous allons collecter des données par jour de la semaine et par mois. Nous allons donc utiliser le groupe par jour de la semaine et par mois. Et vraiment la couche profonde pour les résumer, le sujet du sang. Exécutez donc souvent ça. Et après ça. Le graphique DD a pris beaucoup de profondeur par jour et par mois. Ainsi, lorsque nous ferons cela, nous recevrons des cadeaux par jour et par mois. Et il devait se contenter palette de couleurs que nous avons dedans et, au début, d'accord. Maintenant, avec cela, ce que nous pouvons obtenir, nous pouvons l'obtenir pendant des jours de la semaine comme ça. Pendant les jours de la semaine. Dimanche, lundi. Pour chaque mois. Combien de vies y a-t-il dimanche ? Combien de jours y a-t-il ? Lundi ? Combien de jours reste-t-il avant la fin de la journée ? Combien de jours ? mercredi, le jeudi, le vendredi et chaque jour de la semaine vous indiqueront le nombre de droits, mais tous les mois. Ainsi, nous pouvons rapidement l' analyser pour dimanche. Apple a enregistré le plus faible nombre de combats et ce mois-ci, quel est le plus grand nombre de courses le dimanche ? Mardi, septembre, plus de plaisir, plus de droites. Ainsi, nous pouvons trouver rapidement le jour le plus populaire du mois. Nous allons maintenant faire un certain nombre de voyages par mois, par mois, oreille interne. Pour cela, nous utiliserons le groupe par mois. Nous n'avons pas passé un mois en un an. Pour cela, nous utiliserons le groupe par mois. Ensuite, nous allons tracer en utilisant le diagramme GG. Exécutez ceci et voyez que vous êtes maintenant mesure de faire ces voyages dans un mois. Il en a été de même pour de nombreux voyages, mais qu'ils puissent se produire en juin, juillet, août. C'est donc un tube ET. En regardant le graphique, vous pouvez dire qu'en septembre, le nombre de voyages augmente , expurgé en août et juillet, et qu'en mai et juin, les types de voyages ne sont pas presque similaires, presque. Même si Joni est légèrement meilleure que moi, et apparemment elle joue des mois par an. Par ici. Maintenant, ce que nous allons faire, créer une carte thermique, un DR et un mois. Il existe donc de nombreuses excursions pour le pont et les groupes par jour. Excellent comme celui-ci. Nous allons maintenant tracer la carte thermique à l'aide de la R&D et du dessin GG renouvelé. Je vais utiliser cette batterie mais tu peux en prendre une bouchée ? Et pourtant, lorsqu'ils sont remplis de protons un jour donné, classe donnée, combien au total, cumulés restent blancs. Laissons ça ici. Maintenant, nous recevons cette carte thermique Notre carte par jour et donc notre journée. Et pour cet art du huitième jour, cela fait 11 fois 11 aujourd'hui. Et pour cela, nous pouvons analyser davantage. Maintenant, lorsque la carte thermique trace D et le mois. Et puis ça, et puis nous allons le lot de GG Plot. Maintenant, nous allons en quelque sorte garder mon mois de divertissement. Ensuite nous allons tracer la carte thermique T de la semaine et du mois. Voici donc la carte thermique pour le mois et le jour et le mois, le mois. Et j'aurai accès à du citron plus tard dans la journée. Cela nous permet également de créer une relation de mutilation pour les prix en Europe. Donc, une probabilité minimale, maximale et maximale atteindra New York. Et voici ce que nous allons faire, nous allons essayer de tracer ces deux objectifs. Gg, complot GG. Voici donc le diagramme GG, notre connaissance de l'éclairage spectaculaire, la valeur totale entre une couleur et la peau, longueur minimale maximale et de la probabilité minimale maximale que nous fournissons. Et puis nous sommes de retour et nous utilisons le diagramme GG pour tracer cette carte des valeurs propres et de la lysine en fonction des dimanches. Cela prend du temps. Il fonctionne toujours. Attendons qu'il sorte ici. Cela prend juste beaucoup de temps. Permettez-moi donc de vous montrer la carte, cette carte père NYC à taper, mais en septembre pratique. Cela prend donc un certain temps Nous avons utilisé toutes mes données antérieures à septembre 2014 pour les analyser et déterminer celles qu'Uber utilisera ultérieurement en fonction du temps. Sur cette base, nous déterminerons quel mois est le meilleur. Nous pouvons donc utiliser toutes ces visualisations en utilisant les données. J'espère donc que ce projet vous aidera à comprendre la visualisation et l'analyse des données 82. Segmentation client du projet 3 en utilisant R: Bonjour et bon retour. Dans cette conférence, nous allons parler d' un autre projet qui est projet numéro trois de cette classe. Et c'est un projet de segmentation de la clientèle utilisant notre programmation. Dans ce projet, nous allons donc apprendre comment segmenter les clients à l'aide de notre programmation réalisée sur un ensemble de données. Ainsi, quelles que soient les données dont nous disposons, l'ensemble de données clients, il s'agit d'une énorme segmentation des produits et des clients. Nous allons donc essayer de trouver le segment de clients qui sera utile pour le moment. Les entreprises qui trouveront leurs meilleurs clients et les plus performants nos meilleurs clients pour leur activité. Qu'est-ce donc que la segmentation de la clientèle ? La segmentation de la clientèle est l'une des applications les plus importantes de l'apprentissage non supervisé. Donc, comme vous le savez, il y a deux, vous savez, deux types d'apprentissage. L'un est l'apprentissage supervisé et l' autre l'apprentissage non supervisé. L'apprentissage supervisé est un type d'apprentissage fondé sur le libre arbitre Je suppose que c'est un enfant et que nous voulons qu'il apprenne. Il existe deux manières de lui indiquer où nous superviserons son apprentissage. Dites-lui ce qu'il doit faire, comment faire, et il nous donnera des instructions de configuration pour qu'il apprenne. Et il y a un apprentissage non supervisé où nous ne superviserons pas d'équipe. Ce sera sans supervision et il apprendra par sa propre expérience. Il existe donc deux types d'activités supervisées et non supervisées. Et la segmentation de la clientèle est une sorte d'apprentissage non supervisé. Tu n'as pas coûté cher, mon Dieu, le clustering. À l'aide de techniques de clustering, les entreprises peuvent identifier les différents segments de clients ou réduire le nombre d'utilisateurs potentiels dans le cadre de ce projet d'apprentissage automatique. Dans ce projet de segmentation de la clientèle, nous utiliserons le clustering k-means. J'apprendrai ce qu'est le clustering k-mean. Et nous allons utiliser cette technologie de clustering k-mean pour ce projet, qui est essentiellement un algorithme permettant de regrouper des ensembles de données non étiquetés. Nous allons donc utiliser ici l'ensemble de données non étiqueté chaque fois que vous aurez besoin de trouver vos meilleurs clients clients , quelle que soit la méthodologie idéale. Parce qu'avec cela, vous trouverez facilement ce segment de clients. Et tout en examinant le segment de clientèle, vous pouvez trouver votre meilleure clientèle. Et vous pouvez avoir Ladder Target, qui vendra vos produits ou services. Nous réaliserons l'une des applications les plus essentielles de l'apprentissage automatique, à savoir la segmentation de la clientèle. Dans ce projet, nous allons implémenter segmentation de la clientèle dans notre programmation. Nous avons donc maintenant la technologie de segmentation des clients et de clustering des remboursements que nous allons utiliser. Voyons donc en détail ce qu' est la segmentation de la clientèle de manière un peu plus différente, peu plus détaillée. La segmentation de la clientèle est donc le processus ou la région qui divise la clientèle en plusieurs groupes de en plusieurs groupes de personnes présentant des similitudes différentes manières pertinentes pour le marketing, exemple le sexe, l'intérêt et diverses habitudes de dépenses. Les entreprises qui déploient des segmentations de clientèle se situent dans le nord du pays chaque client a des exigences différentes et a besoin d'un marketing spécifique, se permet d' y répondre de manière appropriée. Les entreprises souhaitent acquérir une approche plus approfondie des clients qu'elles ciblent. Par conséquent, elles doivent être spécifiques et adaptées pour répondre aux exigences de chaque individu et aux exigences de chaque client à leur égard. Grâce aux données collectées, les entreprises peuvent mieux comprendre les préférences des clients, ainsi que la nécessité découvrir des segments à valeur ajoutée, ce qui constituerait un profit maximal. De cette façon, ils peuvent élaborer des stratégies de marketing plus efficaces et minimiser les risques liés à leur investissement. La technique de segmentation de la clientèle dépend plusieurs facteurs de différenciation clés qui divisent les clients en groupes à cibler. Les données relatives à la démographie, géographie, à la situation économique, ainsi qu'à la réadaptation, jouent un rôle crucial dans la détermination de l'orientation de l' entreprise vers les différents segments variables. Nous avons donc compris que la segmentation de la clientèle augmentait en ajoutant la clientèle plusieurs groupes de personnes en fonction de la similitude en ajoutant la clientèle à plusieurs groupes de personnes en fonction de la similitude de différentes manières pertinentes pour le marketing. Par exemple, nous pouvons diviser la clientèle en fonction du sexe, par exemple du sexe, hommes, des femmes, etc. en fonction de groupes d' âge tels que les adolescents et les personnes âgées types de groupes que nous pouvons créer, en fonction de ces paramètres en fonction de l'intérêt. Supposons que nous ayons le client, une large base de clients où nous pouvons segmenter la clientèle en fonction de leurs intérêts. Comme si quelqu'un s' intéressait à la musique et à la danse, aux arts et aux titres de théâtre. Nous pouvons ainsi segmenter les clients et ensuite, en fonction de leurs intérêts, recommander des produits et des services. Si quelqu'un est intéressé par. Supposons que, dans le sport, nous puissions leur montrer les publicités, leur vendre des produits ou des services liés à ce sport en particulier. Ce sont donc des éléments très importants identifier les meilleurs clients à cibler. Grâce à cette segmentation, les entreprises pourront mieux comprendre leur clientèle. Et sur la base de la compréhension et de la segmentation, ils peuvent cibler les clients de manière plus spécifique. Et cela augmentera leur rentabilité. Parce que si vous n'êtes qu'un expéditeur, vous envoyez des informations au client que vous vendez vos produits et services destinés à soutenir les personnes âgées et que vous envoyez vos e-mails à tout le monde, alors pour les adolescents, ce n'est pas pertinent, n'est-ce pas ? Quel adulte ? Il peut être pertinent, d'une certaine manière qu'ils aient les aînés à la maison. Mais c'est plutôt similaire, mais il est plus susceptible d'être pertinent pour les personnes de plus de 60 ans ou les personnes âgées. Il est donc préférable de cibler uniquement les personnes âgées de 60 ans et cela vous rapportera le plus de bénéfices. C'est donc ce que signifie la segmentation de la clientèle ? Donc, avant de passer à notre projet, comprenons ce qu' est l'algorithme k-means. Lors de l'utilisation de l'algorithme de clustering K-means, la première étape consiste à indiquer le nombre de clusters que nous souhaitons produire dans la sortie finale. D'accord, donc tout d'abord, nous devons décider du nombre de clusters que nous voulons produire dans la sortie finale. L' algorithme commence par sélectionner k objets dans des ensembles de données au hasard. Il sélectionnera donc d'abord le nombre k d'objets de l'ensemble de données de manière aléatoire qui serviront de centres initiaux pour nos clusters. Les amas d'étoiles sélectionnés signifient également de nombreux centres. Donc, comme je l'ai dit, il y a k objets que nous avons sélectionnés. Ces objets ou clusters sélectionnés signifient donc, et ils sont également appelés centroïdes. Ensuite, le centroïde le plus proche est attribué aux objets restants . Le centroïde, le centroïde est défini par la distance euclidienne. Collez la distance euclidienne présente entre l'objet et le cluster. Nous faisons référence à cette bande d'attribution de cluster Azure. Lorsque l'affectation doit être terminée l'algorithme calcule nouvelle valeur moyenne de chaque réactif de cluster dans données après le recalcul du cluster, des observations ou vérifie s'ils se rapprochent d' un cluster différent à l'aide de l'attribution de cluster mise à jour. Cela se répète à plusieurs reprises au cours plusieurs itérations jusqu'à ce que les attributions de clusters s'arrêtent. Altérant. Les clusters présents dans les titrages actuels sont ceux de l'hydratation précédente. Résumer le clustering k signifie. C'est donc ce que signifie le clustering k-means. Nous précisons le nombre de clusters que nous devons créer. Ensuite, l'algorithme sélectionne vos objets au hasard dans notre ensemble de données. Cet objet est un cluster initial ou signifie les risques et essayez-le. Notre objet clé ou épingle l'attribution d' une nouvelle observation. Cette assignation est basée sur la distance euclidienne entre l'objet et ne lit pas les k clusters des données. Une fois que notre centre de données a calculé les nouvelles valeurs moyennes présentes dans le, présentes dans tous les points de données, ce point de données, ce point de données des clusters, le centroïde du kème cluster a une longueur de P qui contient la moyenne de toutes les variables pour les observations dans le kème cluster. Nous indiquons le nombre de variables. J' essaie de minimiser Jason jusqu' au total dans la somme des carrés, puis, grâce à l'hydrate, minimisation de la somme totale de l'affectation au carré a cessé de vaciller. Quand et quand il a atteint le maximum d'arbitrage. La valeur par défaut est dix, que le logiciel artistique utilise pour le maximum d'opérations, donc pour une adresse maximale. Au lieu de cela, nous calculons l'algorithme de clustering pour plusieurs valeurs de k. Cela peut être fait en créant des variations au sein de k, de 1 à 10 clusters. Nous pouvons ensuite calculer la somme des carrés intra-cluster appelée SS. Ensuite, nous avons attendu ce nombre, k clusters. Ce graphique indique. Ensuite, nous obtiendrions les k clusters. Et sur cette base, nous verrons, c'est donc la partie théorique de ce projet. Dans ce projet, lors de la prochaine conférence, nous commencerons à travailler sur le projet lorsque nous commencerons à discuter du code de ce projet et nous aborderons le projet lui-même. Segmentation de la clientèle. Rendez-vous lors de la prochaine conférence. 83. Projet 3 Partie 2 Segmentation client à l'aide de R: Commençons donc par le projet. La toute première chose à faire est donc que nous avons besoin d'un fichier de données contenant toutes les informations sur le client. Nous utilisons donc ici le modèle, le soulignement du modèle. Les clients commencent par créer un fichier CSV et ce fichier CSV se trouve ici. Et si je l'ouvre ici, vous pouvez voir le numéro de client, le sexe, l'âge, le revenu, le score de dépenses. Toutes ces informations ont été données. Nous avons les cinq colonnes numérotées par client et chaque score annuel de recettes, de dépenses et de dépenses. Ce sont donc les seules informations dont nous disposons. Et sur cette base, nous allons savoir que la segmentation de la clientèle utilise. Alors commençons. Donc, tout d'abord, nous devons lire ce fichier. J'utilise donc les données de l'application qui sont précieuses ou les données de soulignement du client et je vais utiliser la fonction, lire le point CSV et Mazda part, part the fight let CSV et il lira le maintenant à partir de ce fichier CSV Vous pouvez donc voir l'identifiant personnalisé, le sexe, l'âge, le revenu annuel et les dépenses de ce cours. Vous pouvez donc voir ici leur propre type de données, char, colonnes D'accord ? La prochaine étape est ce que nous faisons. Nous avons nommé les données clients, puis nous avons vraiment essayé d'imprimer les cinq premières colonnes. Vous avez écrasé votre favori ou étudiez l'identifiant du client, sexe, son âge et les informations volontaires de Commodus. OK, vous pouvez voir. La prochaine étape est de vraiment résumer cela avec le client, alors allons-y et voyons. Pourtant, lorsque nous utilisons le résumé Wong Sun Belt on the edge, cela nous indiquera l'âge minimum Premier trimestre moi, premier quartile, médiane, troisième quartile moyen Donc c'est pour les données d'âge ce sujet et pour faire des statistiques, d'accord ? Ensuite, l'âge du client, le revenu annuel et le score de dépenses pour tous ces éléments fonctionneront de la même manière. Nous obtenons donc ces informations, écart type, l'estimation, la visualisation par sexe. Ici, nous allons créer une base de données clients sous forme de tableau à l'ordre du jour. Ensuite, nous essaierons de tracer un diagramme à barres. Et cela aura l' axe X et le sexe et l'axe Y comme capacité de comptage et de couleurs Et allons-y. Et vous verrez un graphique à barres, où nous avons vu le sexe féminin et masculin ici. Si nous en faisons plus. Donc, utilisez un diagramme à barres pour afficher la comparaison entre les sexes. D'accord ? Ensuite, cette formule est divisée par la somme de a sur 200 livres, homme, femme et homme, femme. Et cela vous donnera la description que vous avez de l'homme et de la femme Donc C et maintenant l'objectif X pour cent et pour les hommes est de 44 %. Alors maintenant, nous ne voulons pas que cela figure dans notre ensemble de données. 56 % chez les femmes, 44 % chez les hommes. Maintenant que nous voulons le faire, nous allons essayer de visualiser la distribution par âge. Essayez donc de dessiner un histogramme sur le verre et la fréquence Alors voyez ici, maintenant, cet histogramme vous montrera le contact de chaque classe Vous pouvez donc voir ici fréquence de zéro à 20 commençant par 20 à 30. Toutes ces choses que tu peux voir, c'est l'histogramme Il s'agit de la classe d'âge 2030, 30 à 40 ans, 40 à 70 ans. Toutes ces choses, nous pouvons les visualiser et les voir sous forme de graphique à barres en fonction de l'âge. Et cela nous donnera analyse descriptive sous la forme d'un diagramme Vous pouvez donc voir ici que cela se situe principalement entre l'objectif et ensuite un revenu C inférieur à N1. Donc, ici, pour l'entreprise qui inscrit, essayez de tracer un histogramme ou le revenu annuel et la fréquence que nous allons placer sur l' Alors à bientôt pour le revenu annuel et la fréquence, vous pourrez regarder votre hockey. Ensuite, nous mettrons le graphique de nos clients , un autre graphique ici, graphique de densité pour le revenu annuel. Vous pouvez donc analyser toutes ces choses, puis nous allons dessiner un diagramme à cases pour le score des dépenses. Voyez ici, c'est la fin, voici le diagramme à cases pour ce score de dépenses. Encore une fois, notre histogramme pour le score des dépenses. Ensuite, nous allons démarrer notre barre de bibliothèque d'algorithmes K-mean, et nous allons commencer à démarrer. Ensuite, nous utiliserons une fonction pour calculer la somme totale intracluster du carré ISS et la mettrons de un à dix D'accord ? La prochaine étape est d'évaluer la valeur, de rapporter, de cartographier l'AV souligné Ensuite, nous allons tracer le nombre de clusters sur l'axe X et l'axe Y, somme totale des carrés au sein du cluster plus le nombre de carrés au sein du cluster plus le Vous en verrez un à dix. Et ici, vous pouvez voir l'axe Y total. Clusters, somme du cluster total, somme des carrés, d'accord ? Numéro de cluster pour ceux-ci, 4464814. D'accord ? Preuve, sélectionnez ma troisième bibliothèque. Vous allez utiliser Cluster Extra. Vous utiliserez ces trois bibliothèques. Donc, s'il n'est pas installé, vous pouvez aller ici, outils, packages installés, et donner le nom du package, mais ce n'est pas possible. Commençons. Maintenant. Ce que je vais faire, nous allons le faire, nous allons créer les clusters k2. Et k2 utilisera les clusters K-means. Et puis nous allons donner que je m' habille et que l'actrice maximale est 100 et que nous allons commencer et repartir à partir d'un algorithme D comme. Ensuite, nous traiterons les valeurs de ce cluster et des données clients. Et l'Euclidien voulait dire que, d'accord, comme ça, nous allons mettre le k3 C'est encore plus loin, c'est pour l'A2. Maintenant, nous allons le faire pour k3, k4, k5 Et on se voit dans l'intrigue en train de tricoter. Nous allons maintenant utiliser le cluster Envy et rien de plus. Et nous ferons de la célébrité et vous le verrez de un à cinq et des données clients, vous le verrez de un à cinq et des données clients, k-means. Et puis K6. Sachez que nous avons ce nombre optimal de clusters et ce nombre de clusters. Cluster One a déjà lutté avec ça pour 3,4 647. Ensuite, nous avons le nombre optimal de clusters. Ensuite, ce que nous allons faire, essayer de visualiser les principaux composants. Le PCC s'est doté d'une fonction PR pour cela. Et allons-y. Ici. Vous pouvez voir le score annuel des recettes et des dépenses. Ensuite, nous utilisons le diagramme GG pour tracer cela. Vous pouvez maintenant voir les clients du modèle segmenter à l'aide des données de clustering k-mean, les clients du C'est un cluster, c'est un autre cluster. C'est un avantage, c'est un cluster. Donc, les clusters doux que le client se base sur son comportement. Maintenant. Maintenant, essayez de placer le cluster 1, le cluster 2, le cluster 3, que l'hydrogène m'a donné. Vous pouvez donc maintenant voir six clusters. Cluster 1, cluster 2, cluster 3 pour le cluster 5. Voici donc les points, les clusters. Nous pouvons voir les données. Maintenant, nous le mettons et nous allons essayer de l'exécuter à nouveau. Et maintenant c'est assez clair. Nous avons maintenant le clustering k-means ici. Vous pouvez donc voir ici que le rouge est le groupe un, jaune, un, le groupe deux, groupe trois, le vert. Ce cluster, le cluster 5, est bleu. Et c'est un cluster pour. Maintenant, ce que vous pouvez voir, ce sont les autres clusters de clients que nous avons créés sur la base du clustering k-mean cluster 4 et le cluster 1 à cluster regroupent les meilleurs clients, les meilleurs clients, moyens et les PC les mieux notés. Et le groupe 6. Discussion classique J'imprime le cluster avec du PCA, PCO2 élevé et un PC faible Premièrement, groupe 5 Dans ce groupe se trouvent des clients présentant un PCO2 moyen et faible Voici donc le lit sur les valeurs PCA One et PC2 que nous avons Nous pouvons appliquer cette glabelle clusters et aux comportements Nous pouvons cibler les clients à l'aide du clustering. Nous pouvons comprendre les variables de manière beaucoup plus précise ce qui nous incite à prendre des décisions prudentes Grâce à l'identification des questions, les entreprises peuvent lancer des produits et services destinés aux clients. n'est pas ce que nous disons, mais j' aimerais simplement prendre en compte les revenus, l'âge, les habitudes de dépenses, etc. De plus, des modèles plus complexes, tels que les lancements de produits, pris en compte pour une meilleure segmentation Voilà donc l'explication la plus simple. Vous pouvez aller en détail et en apprendre davantage sur ces choses. De plus, j'espère que ce projet vous aidera à comprendre comment nous procédons pour le clustering des jeux 84. Projet 4 - Introduction - Recommandation de films: Bonjour et bon retour. Nous allons donc nous occuper du projet numéro quatre, de la recommandation de films, de la connexion au système et de l'apprentissage automatique. Nous avons donc maintenant les connaissances de base de la programmation et nous avons également réalisé quelques projets dans ce cours. Ce projet vous permettra donc d'acquérir une très vaste expérience travail sur des algorithmes d'apprentissage automatique en juger par notre programmation, nous utiliserons le très populaire système de recommandation de films. Vous n'avez pas ajouté d'algorithme de programmation et d'apprentissage automatique. Alors, en quoi consiste ce projet ? Ce projet s'est concentré sur le développement d'un outil de recommandation de films. J'utilise R et des techniques d'apprentissage automatique et des techniques d'apprentissage automatique. L'objectif de ce projet est de mettre au point un système de recommandation. moteur de recommandation qui suggère des films aux utilisateurs en fonction de leurs préférences. Alors, que se passe-t-il réellement sur toutes les plateformes OTP comme Netflix, Hot Star, T5, Amazon Prime Chaque fois que vous regardez des films ou que vous mettez le vôtre, vous avez regardé une comédie. Vous avez Mazda était un film romantique d'actes et de films. Ainsi, en fonction de vos préférences, ce que vous avez regardé dans le passé, toutes vos préférences seront enregistrées. Et en fonction de votre comportement antérieur, comme si vous regardiez une comédie, généralement de genre ou d' actes et de genre. Nous vous recommanderons le prochain film. Ils fléchissent donc tous et perdent tous la même métallurgie. Pour te suggérer le prochain film. Soutien. Vous avez regardé le comité et le film X-Men ces dernières semaines. Ensuite, ce qu'ils veulent, ils peuvent le faire. Ils peuvent vous suggérer un film à la fois comique et excellent. Ils peuvent donc vous suggérer X et un film avec les éléments de bande dessinée qu'il contient. Sont-ils ? Ils suggéreront certainement à Duck la bande dessinée et le film en plus, ils peuvent vous suggérer les films qui contiennent à la fois de la comédie et de l'exon. Nous faisons donc toutes ces choses l'aide d'algorithmes d'apprentissage automatique C'est donc très populaire de nos jours. Ainsi, en mettant en œuvre la collaboration basée sur pour filtrer ce que nous ferons à nouveau, nous acquerrons une expérience pratique en appliquant nos compétences en matière de science des données, de science des données et d'apprentissage automatique à des projets réels tels que le système de recommandation de films Ce que nous utilisons ici, est-ce que c'est le jeu de données MovieLens, qui comprend un lakh, 5 039 évaluations dans Et il contient également 10 329 films dans le fichier CSV movies point Donc, ces deux fichiers CSV, des fichiers de données que nous allons utiliser, l'un d'eux contiendra le film commandé, plus de 10 000 films. part cela, je pense que CSP se taillera place pour certains films publiés par les différents critiques et audits Nous avons donc maintenant les connaissances de base sur ce que nous allons faire. La prochaine étape est de savoir quelles sont les bibliothèques ? De quelles bibliothèques aurons-nous besoin pour cela ? Nous aurons donc besoin du tracé GG pour les données de laboratoire, la table et le récepteur, les autres bibliothèques de base dont nous avons besoin pour ce projet GG les trace donc pour la partie digestion data.table. Quelle table et vues latérales du commandant. Recommandez une leçon. Quelles sont donc les étapes que nous allons suivre dans le cadre de ce projet ? La première étape sera le prétraitement des données. Ensuite, nous passerons à l'étape suivante Élaborer le filtrage consiste à explorer des données similaires. Ensuite, il y aura une base de données. Ensuite, nous passerons à la préparation des données. Et la préparation des données implique quelques étapes pour enfin appliquer la norme une par une. Quelles sont les mesures que nous allons prendre en matière de prétraitement des données Le prétraitement des données est ce qui a été pris en charge. Nous recevons un fichier CSV contenant des données brutes dans un film ou nous lisons des médicaments, oui. Nous devons prétraiter ces données. Ainsi, une fois que nous avons extrait les données du fichier CSV Movies Dot et des évaluations ou des ensembles de données CSV. Ce que j'observe, ce que nous allons observer, c'est que les colonnes de l'identifiant utilisateur et de l' identifiant du film sont des nombres entiers Ce sont donc les choses que nous verrons également lorsque nous examinerons le code. Mais pour l'instant, je vais juste te le faire savoir. Dans ce dossier, nous allons voir ce que nous pouvons faire. Allons tirer la chasse d'eau. donc Voyons donc d'abord ce que nous allons perdre. Donc l'identifiant et l'identifiant utilisateur de ce film. Il était composé de nombres entiers. De plus, nous devons transformer le genre cinématographique en données de soulignement des films et en cadres de données plus conviviaux**** Films ou pas, nous devons passer à un format plus convivial que vous. Pour y parvenir, j'ai créé une métrique d'encodage à chaud qui représente le genre associé à chaque champ. Donc, pour obtenir ce bloc de données convivial, genre de film, ce que j'ai fait, j'ai créé une matrice d'encodage instantanée qui répertorie les genres. Chaque film, par la suite, de tels modèles ont été générés pour faciliter chaque recherche sur la base des journaux John. Comme les films ont souvent plusieurs genres, nous savons tous qu' un seul film peut en avoir, nous les avons classés en plusieurs genres. Un film peut avoir x et il peut aussi avoir du drame. Il peut donc aussi y avoir la comédie. Un film peut également avoir plusieurs genres. Donc, ce que nous allons faire, c'est utiliser cette classe métrique. Et pour ce qui est de nos données, nous allons, ce que nous allons faire, convertir la matrice, la matrice des genres, en cette matrice éparse afin qu'elle soit suffisamment stable pour le système de recommandation de films Et pour cela, nous impliquerons la vraie classe Mad at the Yellow Rating Matrix. La prochaine étape sera donc le filtrage collaboratif ou l' exploration de données similaires. Le filtrage collaboratif implique donc de vous recommander des films uniquement en fonction des préférences des autres utilisateurs Alors, qu'est-ce que cela signifie ? Le filtrage collaboratif consiste supposer que vous regardiez un film, qui est une comédie. Et vous n'avez pas regardé beaucoup de films sur un support de plateforme. Vous regardez Netflix et vous venez de commencer à utiliser votre cou. Et vous n'avez regardé qu'un seul film, qui appartient au genre Comédie. Maintenant, comment Netflix vous recommandera des films, étant donné que Netflix ne fournit aucune donnée, vous reconnaissez avoir regardé une comédie. Donc, soit il peut continuer, vous recommander de nouveaux films, soit vous recommander le tarif des comédies Et ce sera une chose très étrange parce qu' une personne ne dépendra pas. Nous ne regarderons qu'un seul film de genre seul il peut être intéressé par le X et aussi par le drame. Du suspense, du thriller aussi, non ? Pour ce faire, cette fonction de division utilisera filtrage collaboratif, qui consiste à recommander des films aux utilisateurs fonction des préférences des autres utilisateurs Il y a donc des millions d'utilisateurs qui utilisent la plateforme et ils regardent le comité aussi x et aussi. Donc, en fonction de nos utilisateurs qui ont regardé le même film et de ce qu'ils ont regardé ensuite. Sur la base de leurs données. Netflix prédira que vous aimerez peut-être aussi un film en particulier selon l'ordre dans lequel vous venez de le regarder. Netflix peut vous recommander le film X parce que vous l'avez regardé. D'accord ? Donc, si vous sautez dans X et que l'utilisateur B fait de même, alors les films sont regardés énormément par semaine. Et nous avons recommandé une vaste gamme. C'est la même chose que je vous ai expliquée et vice versa. Par conséquent, la recommandation, recommandation de films repose sur l'établissement de notre relation de similitude entre eux. Vous verrez ce que nous faisons réellement ici, nous établissons, nous établissons une relation entre la similitude des rendements en fonction la similitude de leur accent ou de leur intérêt. Utilisation de la bibliothèque de laboratoire recommandée. Ce que j'ai fait, j'ai calculé la similitude à l'aide divers opérateurs tels que le cosinus, Pearson Ensuite, élaborez une leçon de visualisation de données. Nous verrons également la similitude des données. Voici donc ce que j'ai fait j'ai visualisé les similitudes entre les utilisateurs et également exploré les similitudes entre les films précédents Pour obtenir. Les bases de données sont le plus grand nombre de vues que les films verront par rapport à ce que j'ai fait. J'ai étudié davantage dans l'ensemble de données. Avant cette analyse, j'ai calculé le nombre de énormes pour chaque champ et les ai classés par ordre décroissant Le nombre total de visionnages des films du Golfe sera visualisé à l'aide du barplot et auprès des justiciers Et il a été écrit que Fixin était le film le plus regardé Voici donc les données que vous visualisez et tout ira bien. Et après ça. Ensuite, suivi d'un fourrage pour chaque leçon, d'une carte thermique de la datation des films pour avoir un aperçu des évaluations des films, j'ai créé une carte thermique qui affiche les évaluations des 25 premières lignes et des cinq premières colonnes de l'ensemble de données. Ensuite, sélectionnez la sélection. Donc ce que j'ai fait, je l'ai fait, j' aime vraiment le golf. Il vous suffit d'envoyer des films via une carte thermique d'examiner la distribution des notes moyennes pour l'avenir. La prochaine étape est la normalisation des données. Nous dissimulons les biais potentiels causés par les utilisateurs qui attribuent régulièrement des notes élevées ou faibles à tous les films qu'ils regardent. Je normalise les données. Normalement, la procédure consiste à normaliser soudainement valeurs numériques d'une colonne selon une échelle commune, en veillant à ce qu'il n'y ait pas de distorsion de la valeur Ensuite, dans ce cas, normalisation transforme la note moyenne, où je tape ma voix et je la trace Nous verrons que lorsque nous ferons le binaire pratique à la dernière étape, les données ont été bannies, n'est-ce pas ? Attribution de valeurs discrètes 1,0. Cette étape permet d'améliorer l'efficacité des recommandations. Ce que j'ai fait, c' est définir la matrice avec une note de trois qui correspond à un. Et sinon, cela revient simplement dire que si le classement du film est d'environ trois, cela correspondra à un. Sinon, s' il est inférieur à trois, la valeur zéro lui sera attribuée . Système de filtrage collaboratif. Dans ce cadre, j'ai développé un système de filtrage collaboratif basé sur les éléments qui détermine la similitude des articles en fonction des notes élevées L'algorithme affichera notre tableau des articles similaires achetés par les clients et selon une recommandation, les étapes nécessaires pour déterminer la similitude entre les articles sont les suivantes. Pour chaque point de l'ordre du jour, point ID1 présent dans le catalogue des produits achetés par les clients, voir pour les articles I à j par les clients, voir coupable de ce que j'ai fait Je crée Jade par client, se sent coupable de ce que j' ai fait. J'ai créé un enregistrement indiquant que les clients voient les articles I, i1 et i2 achetés , puis calculent la similitude entre les articles I1 et I2 D'accord ? Étant donné que le client a acheté I1 et I2, il se peut qu'il soit répondu que les articles i1 et i2 sont similaires Nous allons donc calculer cette similitude. Ensuite, nous diviserons l'ensemble de données en 80 % pour l'ensemble de données d'entraînement et 20 % pour les tests supplémentaires pour un système de recommandation. La règle des 80, 20 est toujours applicable dans les algorithmes d'apprentissage automatique. La prochaine et dernière étape dirigera le système modèle. Pour cela, exportez les différents paramètres du filtre collaboratif basé sur des éléments La valeur par défaut du paramètre k, qui indique le nombre d' éléments, est utilisée pour le calcul 30. L'algorithme identifie les k éléments les plus similaires et mémorise leurs numéros correspondants. modèle de recommandation du recommandateur a été extrait à l'aide de la fonction get model et de la matrice de sens de similitude en verre ou en diamant que nous avions analysée, ou d'une carte thermique ou générée pour visualiser les éléments les plus croustillants d'un même éclairage La prochaine étape consiste à exploiter ce modèle de système de distanciation humaine En additionnant les lignes et les colonnes de similarité supérieures à zéro, j'obtiens la distribution de certaines colonnes Cette distribution a été visualisée pour obtenir de plus amples informations. Pour créer le système de recommandation. Dans cette diapositive, la valeur supérieure recommandée par la dizaine verticale indique le nombre de films recommandés par chaque utilisateur. Et la fonction de prédiction a ensuite été utilisée pour identifier un élément similaire en conséquence. Chaque note a été traitée comme un poids, qui a été multiplié par les goûts similaires associés. Enfin, tous les poids ajoutés pour générer les recommandations. Voici donc ce que nous allons faire pour le système de recommandation de films utilisant R et l'apprentissage automatique. Notre objectif est de recommander des films aux utilisateurs en fonction de leurs goûts et aversions et de ce qu'ils regardent Un bal de fin d'année sous-estimé à cause de la similitude. D'accord ? Et pour la bibliothèque GG plot TO data.table reçu par le laboratoire recommandé Nous procédons à des étapes qui concernent vraiment le prétraitement des données et le traitement des données suffira , puis nous procéderons au filtrage collaboratif, en explorant les données similaires dont nous avons déjà parlé La leçon d'AWT. Nous verrons ensuite comment nous pouvons réviser les données. Pour la préparation des données, il existe trois étapes pour sélectionner les données la normalisation des données et Nous allons voir la normalisation des données et la binarisation Et le système de filtrage collaboratif que nous avons déjà compris par cet exemple et dont j'ai déjà parlé dans un premier temps. J'espère donc que j'ai expliqué le projet. Eh bien, lors de la prochaine conférence, nous réaliserons le projet en écrivant le script. Alors à bientôt dans le cadre du projet 85. Projet 4 - Partie 1 - Système de recommandation de film utilisant R: Bonjour et bon retour. Dans cette conférence, nous allons réaliser le projet de lire un moteur de recommandation selon un moteur de recommandation selon lequel les films technologiques vous conviennent le mieux. Ils l'ont regardé plus tôt. Et aussi du poids sur les autres utilisateurs de la plateforme ou qui regardent des films. Ou ils proposent des types de films similaires, à vous de juger. Cette énorme dette nous regarde de près. Si vous le faites si vous utilisez la première fois les plateformes de streaming ou le TPU pour l'automne, ils seront toujours en mesure de vous recommander plus de risques Parce qu'ils ont la base de données habituelle, qui contient des millions de personnes qui regardent le même type d'obéissance que vous, en fonction leurs intérêts et de votre intérêt pour un film. C'est la similitude entre vous et les autres, par exemple, il suffit de réfléchir à la plateforme pour que leurs préférences correspondent à celles qu'ils y ont travaillées. Le plus lourd. Ça l'est. Je vous recommande les films. Voici donc ce que nous allons faire, nous allons en arriver à un système de recommandation de filtrage collaboratif basé sur système de recommandation de filtrage collaboratif D'accord ? Donc, quel est l'article en gros, je peux me joindre en fonction d'articles particuliers. Nous allons envisager Dark Collaborate pour afficher notre similitude. Jusqu'à présent, dans cette région de réalité, nous allons utiliser la bibliothèque de laboratoire recommandée, GG plot pour la visualisation des données. Table, quelles tables et récepteur Donc, ces quatre bibliothèques. OK, la prochaine étape est de récupérer et d'afficher les données. Les films et les données sur les films. Lire la suite point csv. Vendredi, nous verrons la source d' androgènes au format CSV. Alors laissez-moi vous montrer le cours de l'action. Il s'agit donc plutôt de Vidar CSV, qui contient l'identifiant du film, qui est de 1 à 10 000. Plus de 10 000 risques supplémentaires ont donc été ajoutés ici dans cet ensemble de données. Et ensuite, allez adorer le film, titre du film, le genre du film, quels journaux vous avez effacés pour moi. Il y a donc plus de 10 000 films dans cet ensemble de données, leur titre et leur genre. Vous pouvez donc voir ici un genre de film, le genre aventure. Avant ce genre d'animation Edward Jeff, les enfants étaient déjà entre parenthèses Nous en avons fini avec trois nuits de comédie et de théâtre. C'est-à-dire que j' aime vraiment de temps en temps les enfants et le théâtre. Drame, fantaisie, mystère, moyen sûr. Ainsi, un film peut appartenir à plusieurs genres de films. Et puis nous avons la structure Yes, CSP, qui contiendra l'identifiant de l'utilisateur, l'identifiant du film, pour quel film, auquel cette note est attribuée Quelle note alors ? Les gars, même au film où c'est pour un ou un pour cinq. Et entre un fort rejet, j'ai dépeint le film. Et puis nous avons les différents types. Allons donc à l'essentiel. Il a donc identifié qu'il ira au chemin du fichier. Nous allons ensuite créer une variable de données de soulignement des films , puis restaurer les données Donc, la fonction de lecture du fichier CSV utilisera un point de film stupide CSV qui est stocké dans cette thiamine, soyez rigide, nous et chaîne sous forme de fructose, faux Et les données de soulignement dendritiques, le CSV à points et tout commence Ensuite, nous verrons que les données sont sombres CSP, moins que cela. Voir ici. Maintenant, nous avons l'identifiant du film sur lequel le professeur peut sauter, non ? Scott fait le lien entre le travail et l'écriture. Eux, toujours. Consultez naturellement le résumé des données en utilisant la fonction de résumé. Le résumé des données que vous pouvez voir, oui, film, premier trimestre, deuxième trimestre, troisième trimestre, je veux dire genre. Donc, ici, ils peuvent voir ceux du film que j'ai vu, la tête haute, ouvrir les entités de données de partition qui arrivent 123456. OK. Maintenant, nous pouvons voir le résumé des données, puis voir réellement le rein qui sort d'un cœur. Et coder pour créer la matrice qui comprend les coûts pour la nouvelle Kendra Roth, chacun par liberté Cela répondra donc du traitement des données. Nous avons créé. Le film à encodage unique souligne Gin Chandra et le film Data as.data.frame souligne les données et Data as.data.frame souligne les données la rivalité jordanienne. chaîne en tant que structures, les chaînes en tant que facteurs est égale à false. Ensuite, passez en revue la table des données de la bibliothèque et oui, création de films souligne Et ici, nous allons ajouter dark data.frame. Et il avait DST, le STR, divisé les genres de films et tapé de vraies chaînes de caractères en carton à points comme fichiers de facteurs. Ensuite, nous lui donnerons le nom de genre cinématographique. Et nous allons utiliser C, un pour savoir. Et ils arrêtent le genre à certaines de ces choses qui se rapportent à votre genou gauche. Bonjour, je suis d'ici à ici. Pas de nom de colonne ni de détails sur la laisse. John, John Drop et Fighted Index One Tool. Et j'ai fait de la randonnée, écrit à la main. Je n'exécute pas ce code. Et pour avoir appelé. Et toi, John, mes deux cadettes, j'aime bien les appeler et y ajouter l'Argentine. Chandra, brisée. Je veux que Dakota fasse à une corde. Cliquez ensuite dessus avec le bouton droit de la souris. Et puis pouvez-vous entendre mes astuces pour une telle base pour nourrissons, un plan Chandra et ces cinq astuces Au cours de ce trimestre, nous utiliserons mes astuces d'édition et mon point de vue sur ces vues. Un paramètre important pour faciliter la tâche au sein de ce système par mole lorsque vous le faites. Bien que comme un registre de stations et un type de données d'entrée pour la matrice L, une matrice. Et il vous a inscrit. J'ai reçu mes tics et ma recommandation Mark Moore, j'ai souligné la matrice de notation et notre confiance Cnidaires. Vous pouvez simplement voir la similitude en utilisant ce graphique et en nous dépeignant légèrement entre les champs D'accord, c'est tout pour cette conférence, nous continuerons lors de la prochaine conférence. 86. Projet 4 - Partie 2 - Système de recommandation de film: Dans la conférence précédente, nous avons commencé par le système de recommandation de films utilisé dans le cadre de ce projet. Permettez-moi donc de vous donner un bref résumé de ce que nous avons fait lors de la conférence précédente, première partie de ce projet Nous en avons donc besoin pour les bibliothèques, Recommender Lab. Vous tracez deux data.table. Nous nous contentons donc de gérer ces bibliothèques, puis nous devons récupérer les données là où vous les avez conservées. Nous stockerons ensuite le fichier CSV à l'aide de la fonction read.csv et restaurerons fichier CSV à l'aide de la fonction read.csv et restaurerons données de soulignement dans les films De même, nous allons stocker les données d'évaluation dans le score de soulignement eta de la même manière entre le CSV foncé Et nous passerons les derniers départs de numération CSV, puis STR, poumons Et nous allons transmettre les données de soulignement de ce mouvement. Ensuite, nous verrons le résumé des données de soulignement du film Et cela vous donnera l'identifiant du film, le titre, le genre. Et ici, vous pouvez voir les détails statistiques ici. minimale, du premier quartile, de la médiane, moyenne, du troisième quartile et maximales pour ces données Ensuite, nous verrons le réalisateur du film souligner les données. Il vous donnera les cinq premières lignes des données. Vous pouvez donc voir ici l'identifiant et le titre du film au clair, puis le genre du film. Ensuite, nous verrons en tête du classement. Mais vous pouvez également voir le premier quartile minimum, médiane ou toutes les colonnes, d'accord ? Ensuite, nous verrons la tête des données de notation. Pourtant, l'identifiant de l'utilisateur, l' identifiant du film, une évaluation et un horodatage sont indiqués Maintenant, nous avons une idée de ce qu'il y a dans le fichier CSV ou dans le fichier de données que nous avons et qui contiennent ces données que nous allons parcourir. La prochaine chose à faire est donc de savoir ce que nous allons faire. Nous allons créer un encodage unique, créant une matrice qui comprend le général correspondant à chaque preuve. Donc, pour l'encodage de notre alimentation, nous devons créer une matrice. Nous allons donc créer une variable ici plus que souligner le genre et ici , sous la forme .data.frame, réutiliser Ensuite, nous utiliserons cette colonne de genre. Donc, si vous regardez ici cette colonne de genre dans les données des films, les films ou le fichier de données. Nous allons donc utiliser cela, puis les chaînes comme facteurs faux, puis la bibliothèque qu'ils utiliseront plus tard. Nous créons donc ici une matrice, une matrice de genre de film, puis nous utilisons simplement le data.frame et le genre de film Ensuite, nous allons terminer la matrice ici, puis celle-ci, puis le nom de la colonne. Et puis ils arrêtent le genre. Genre. Quelle est la liste des genres, c'est votre x et votre aventure. Toutes ces choses feront l'objet d'une liste ici. Et puis nous voyons le genre, Mach One et les noms des colonnes Et pour un index en un. Et Rho Movie Genre to Four lira la chronique et pour chaque genre on obtiendra le nom du film Et tout. Alors passons à autre chose, genre mat 2. Et puis pareil ici. Ensuite, nous le transmettons à STR ici. Ensuite, nous le transmettons à STR. Et maintenant, ce que nous allons faire, créer une recherche chez Patrick. Donc je pense en précisant le genre. Alors John, non ? Exécutons donc cela en utilisant yes, C bind. D'accord ? Ensuite, nous allons de l'avant et voyons maintenant que nous nous retrouvons dans cette affaire. Donc le titre du film CN, une excellente animation d'aventure, des enfants, tous les genres Comme une colonne dans cette matrice, d'accord ? Ensuite, il s'agit d'une matrice. La suivante est la matrice de notation. Et maintenant, ce que nous allons faire, c'est convertir cette matrice d' évaluation en une creuse recommandée pour le laboratoire, cette matrice et la matrice d' évaluation jaune, d'accord ? Ensuite, la matrice d'évaluation C est 668, soit dix fois la quantité, cinq ou n colonnes. La matrice de notation de plus un est décalée de 5 003, 13 et notes. D'accord ? Ensuite, nous utiliserons les noms , le recommandateur et le modèle de recommandation Ensuite, nous utiliserons le mode Recommandation du jeu. Et ici, nous allons utiliser la description. mettant en œuvre un modèle unique dans notre filtrage collaboratif basé sur des éléments, nous en avons 12 Et ici, nous utilisons AI VCF, d'accord ? Désormais, le filtrage collaboratif impliquait suggérer des films à l'attaquant en fonction des préférences collectives de nombreux autres utilisateurs. Vous êtes juste, avec l' aide du laboratoire de recommandations. Nous pouvons calculer la similitude entre l'Eucharistie. Nous allons maintenant créer une métrique de similarité et une méthode que nous utilisons ARCore shine Et plus loin, tu vas bien. Maintenant, nous allons voir que votre simple similitude va faire échouer tout cela. Encore une fois. Il n'y avait pas assez d'espace C. Maintenant, vous ne voyez que des similitudes, vous ne pouvez voir que votre matrice de similitude. De même, nous allons faire, il semblerait qu'il y en ait au moins plusieurs entre les films que nous utilisons. Et nous allons exécuter ceci , puis imprimer cette image. Maintenant, vous pouvez voir que c'est la similitude du film. Maintenant, évaluez les valeurs sous forme données matricielles de notation des directeurs, nous allons voir. Ensuite, des évaluations uniques extrayant les évaluations uniques. Vous utilisez une valeur unique, puis vous avez besoin des valeurs d'évaluation. Tableau des évaluations. Création d'un classement de films. Ensuite, nous verrons le tableau d'évaluation et d'évaluation des valeurs. Maintenant, ce que nous allons faire. Nous allons créer la visualisation la plus regardée. Et pour cela, nous allons tracer deux films, souligner le nombre de vues et matrice de classement de Qualcomm, appelée count, utilisera puis TableViews, un film data.frame Nous allons prendre les noms des spectateurs des films, puis les noms des films visionnés et les transmettre aux spectateurs. Voici les dataframes du futur à travers ce tableau visualisé. De même, l'index TableViews effectuera une itération sur l'ensemble des 325 films Et nous le ferons. Ensuite, nous verrons que les vues du tableau vues s'exécutent. Attendez qu'il soit terminé. Alors voyez ici maintenant, complétez fc ici, vous pouvez voir les critiques et le titre du film. Ensuite, nous allons nous rendre compte que vous utilisez le diagramme à barres ou le nombre total de vues de la première page. Jusqu'à présent, nous utiliserons le graphe GG, TableViews Nous utiliserons le titre, les vues, la barre de géométrage, les textes géographiques, l'équipe et Je vais vous en donner le titre ici. J'espère donc que tu sais toutes ces choses. Je ne vais pas entrer dans les détails. Maintenant, vous pouvez voir que la forêt s'élève à 331. Votre classique de retour à 94, vues et volume. OK. Ainsi, nous pouvons attirer des spectateurs aguerris sur les terrains en gazon. Total soutient les plus grandes entreprises. Maintenant. Des entreprises. OK, nous allons maintenant créer une carte thermique pour les films. Vous pouvez donc voir ici la carte thermique des premières colonnes à 25,25$. OK, c'est la prochaine étape que nous allons faire. Nous allons passer à la préparation des données. Ainsi, les évaluations des films sont supérieures à 50 et le contrat actuel est amélioré. Alors. Consultez le classement du film pour 22, pour 1 400 en classe D'accord ? Ils sont donc là pour plus de trois, d'accord ? Maintenant, en déterminant des indicateurs pertinents, vous venez de donner la note de 0,9. Donc, un minimum de films et un minimum que vous verrez, nous utiliserons le contenu pour cela. Ensuite, nous allons créer un EMS, voir une carte thermique de la partie supérieure, il vous suffira d'ajouter les vidéos. La prochaine étape consiste à visualiser que la distribution des notes moyennes est énorme Pour cela, nous utiliserons la note de soulignement moyenne. Et la forme signifie que nous n'avions pas note du film et que nous n'avions pas été tracés Maintenant, vous tracez C et nous obtenons la distribution de la note moyenne, mais tout va bien. Donc, voici la distribution de la note moyenne, mais vous êtes juste à ce moment-là, nous allons l'utiliser pour cette normalisation des données. Pour cela, nous utiliserons des évaluations non normalisées, fonctions normalisées et des évaluations d'autres films Ensuite, une partie de la ligne indique valeurs normalisées supérieures à 0,001 Et puis regardez cette évaluation normalisée, les meilleurs utilisateurs. Vous pouvez donc voir ici que vous obtiendrez une colonne d'éléments. D'accord, ensuite, la binarisation des données dont nous avons déjà parlé dans l'entérotoxine Nous utilisons donc ici des quantiles et le nombre de lignes, le classement des films, puis davantage de lavage de base Et puis des films classés, des films binaires, plus encore, une note minimale de trois. Donc note minimale a3. Tous ces films vont l'emporter. Alors allons-y. Tu vois, ce sont les films qui ont une note minimale de trois. Nous allons maintenant passer au filtrage collaboratif consiste à diviser l'ensemble de données en un ensemble d'apprentissage et 20 % de l'ensemble de tests Donc, des exemples de données, nous avons votre exemple de méthode ici. Et voici ce que nous avons fait, nous en avons même affecté 80 % à l'entraînement et aux tests. Divisez les données. Nous allons maintenant voir ces données d'entraînement et ces données de test. Ensuite, nous allons créer une recommandation à l'aide d'un registre enregistré de recommandations Et ici, nous allons, ce que nous allons faire, nous allons obtenir les entrées, le type de données, matrice de notation réelle que nous avons créée Ensuite, nous utiliserons l'œil vcf, soulignerons la matrice et les paramètres réels, puis le recommandeur utilisera les Et ici, nous allons passer la méthode des données d' entraînement. Nous allons utiliser la mucoviscidose intraveineuse, et nous allons commencer. OK, alors gérons toutes ces choses. Nous avons maintenant le modèle de recommandation du recommandateur. Déjà. Exécutez cette classe de modèle de recommandation. Vous pouvez voir le laboratoire de recommandation et explorer maintenant la science des données, les modèles de coordination Passons donc à ce modèle de classe, oublions modèle et modèle. Et pour C, D, D, C s'est réuni par la suite, puis entre crochets et le suivant pour Patrick a disparu. Ce sont les meilleurs articles. Ce sont les meilleurs articles. Ensuite, nous verrons la carte thermique de la première ligne et des premières colonnes du. Ensuite, lorsque vous exécutez cette somme de tirages et que vous dressez certains de ces 30,47, puis que vous tracez GG, nous verrons qu' il s'agit du qplot et du graphique à barres Vous pouvez voir la répartition du nombre d' articles à recommander dans la colonne. Vous venez d'en mettre moins de dix et prédit que vous recommanderiez un jour. Quelques recommandations pour le premier film urogénital : un film d'une barre, un film sur dix Et puis une matrice de recommandations, une matrice avec les recommandations pour le vol easyJet, des articles de gentillesse Et nous valorisons les noms des colonnes des films que nous lisons Je vais acheter des objets, puis Dark Title, distribution du nombre d'IVC en hausse et le nombre d'objets depuis t, la distribution des numéros de l'article, le nombre d' objets en hausse par BCF et Léonard de Vinci, les films les mieux recommandés . la distribution du nombre d'IVC en hausse et le nombre d'objets depuis t, la distribution des numéros de l'article, le nombre d'objets en hausse par BCF et Léonard de Vinci, les films les mieux recommandés . Wallace et Gromit, Dieu Père, fils sont morts, tout comme les YuJa Ainsi, nous pouvons obtenir le film recommandé pour YuJa. J'espère donc que vous avez compris ce projet. Si vous avez des doutes, vous pouvez le faire en commentant, en posant la question en classe Merci 87. Introduction du projet 5 Détection de la fraude par carte de crédit: Bonjour et bon retour. Je vous souhaite donc la bienvenue dans un autre projet le projet numéro cinq pour cette classe. Et c'est la détection des fraudes par carte de crédit, en juger par notre programmation. Et ici, nous allons également utiliser un algorithme d'apprentissage automatique. Quel est donc l'objectif de ce projet ? Vous êtes peut-être au courant de fraudes en ligne et de données qui se produisent ces derniers temps, comme si la carte de notes d'une personne était utilisée. leur insu, les réseaux sociaux de quelqu'un ont été piratés Ce type de fraude se fait donc en ligne. Les informations bancaires de quelqu'un sont volées. compte bancaire d'une personne a été volé et l'argent a été retiré de son compte. En Inde, il y a peu d' incidents au cours desquels des personnes sans savoir qu'elles ont partagé l'autorisation de leur tuteur ou un appel téléphonique sans savoir qu'elles ont partagé l'autorisation de leur tuteur ou leur OTP Ah, l'imposteur dit qu'il appelle depuis la banque et qu'il demande le numéro de la carte de débit Ensuite, ils demandent le numéro du CBP. Et les gens disent sans le savoir, en envoyant tous les détails, pensent que la personne qui appelle vient de la banque concernée. Et ils ne font que régler nos coordonnées. Et une fois cet OTP obtenu, tout leur argent de leur compte bancaire a été retiré. Ce type de fraude se poursuit donc et nous devons être très, très prudents L'une de ces fraudes en ligne est la fraude par carte de crédit. Eh bien, les gens utilisent la probation de leur dessin animé pour enfants ou pour acheter quelque chose, ou ils stockent les informations de leur carte de crédit, ou ils il y a des numéros de carte Kate et autres numéros à leur insu et les gens les utilisent à leur insu Et il y a plusieurs incidents où la carte Kate est utilisée sans même que la carte Kate soit physiquement présente sur l'empâtement. Ceci pour la détection des fraudes par carte de crédit. Nous devons donc faire le tri. Chaque fois qu'une personne utilise une carte de crédit, l'entreprise sait qu'il s'agit peut-être d'une transaction frauduleuse et peut immédiatement informer le client titulaire de la carte que vous effectuez ce type de transaction. Et à l'heure actuelle, le client ou le titulaire de la carte de crédit répond : « Non, non, ce n'est pas moi ». Quelqu'un d'autre effectue cette transaction, puis il refusera immédiatement cette transaction. De cette façon, nous n'utiliserons plus cette carte de notes et nous n'économiserons pas beaucoup d'argent. L'objectif de ce projet est donc de développer notre classificateur capable d'identifier les transactions frauduleuses par carte de crédit Pour ce faire, ce que j'ai fait, vous l'avez fait, j'utiliserai plusieurs algorithmes d'apprentissage automatique, tels qu'un arbre de décision, une régression logistique, des réseaux de neurones artificiels et, finalement, un classificateur à amplification de gradient Nous allons donc voir quels sont les algorithmes que nous pouvons utiliser. nous permet de classer ce frauduleux et ce qui n'est pas un produit ou celui de Jackson Pour cela, nous utiliserons un ensemble de données qui contiendra des informations sur la carte à gâteau et le type de transactions par carte de crédit que vous rencontrez la carte à gâteau et le type de transactions par carte de crédit ou non pour l'entraînement et les hommes de niveau modéré Ensuite, nous verrons l'exploration des données, la manipulation, la modélisation des données, l' ajustement du modèle de régression logistique, l'arbre décisionnel, les réseaux de neurones artificiels, tout cela suffira Mais avant cela, nous devons comprendre en détail la fraude et son type. Donc, si vous n'êtes pas au courant du DOM ou du problème que vous avez en main, vous ne serez pas en mesure de donner la bonne solution. Donc, avant de nous lancer dans le projet, nous devons savoir quel problème nous allons montrer. Pour cela, nous devons avoir une compréhension très claire de la nature de chaque fraude et du type de fraude qui se produisent de nos jours à l' ère du numérique. OK, donc tout d'abord, quand Internet n'existait pas, la plupart de nos transactions numériques n'y existaient pas. Ensuite, les gens se rendaient à la banque et prenaient l'argent en remplissant un formulaire, puis en utilisant le système de carte de guichet automatique. Ensuite, les gens ont commencé à utiliser les guichets automatiques pour retirer de l'argent. Et puis les gens ont commencé à frauder les guichets automatiques en manipulant simplement le titulaire de la carte bancaire marqué découvrant simplement le mot de passe de quelqu'un, en volant la carte et en utilisant la carte chez IPM en utilisant ce mot de passe en particulier Donc ce genre de pull frauduleux est arrivé plus tôt. Et avec l'essor du Davison et des services bancaires numériques les fraudes en ligne se produisent aujourd'hui Très rarement en lot. Qu'est-ce donc que la fraude ? La fraude est définie comme tout acte intentionnel de tromperie à des fins personnelles et financières La fraude est définie comme l'acte intentionnel de préceptes dans un but personnel et financier Donc, si vous faites quelque chose, si vous faites cet epsilon avec quelqu'un pour votre gain personnel ou financier, cela sera considéré comme Cela implique d'avoir oublié de présenter, dissimuler ou de manipuler de la graisse pour tromper les autres Et quels types de fraudeurs par cartes de surclassement se produisent ces derniers temps. agit donc de types de fraude par carte de crédit, d'identité, de compte, de carte de prise de contrôle, de carte d'absence, de fraude et de contrefaçon. Et puis vient l'écrémage. Nous allons donc comprendre un par un. Quels sont ces types de fraude par carte ? La toute première chose est donc le vol d'identité. Alors, qu'est-ce que le vol d'identité ? La fraude consiste simplement à voler pour le compte des fraudeurs, voler des informations personnelles telles que des numéros de sécurité sociale ou des identifiants de connexion pour se faire passer pour la victime. Donc, dans cette situation, ce tilde, outre des informations telles que la source, certains numéros de sécurité ou autres, notre numéro de carte ou numéro de carte interdite ou les identifiants de connexion de votre banque Et les Kcat Dunbar, dans certains cas, font semblant d'être les vrais clients Ensuite, ils se connecteront avec les détails et utiliseront vos informations bancaires pour effectuer les transactions. Ils utilisent les informations volées pour ouvrir un compte frauduleux afin d'établir une trajectoire non autorisée. Avec des cartes comme votre autre carte cardio ou PAN, ils peuvent ouvrir un compte bancaire votre nom, puis commencer à se faire passer pour vous-même et effectuer les transactions, qui se feront à votre nom, mais vous n'êtes C'est ce qu'on appelle le vol d'identité. Puis vient la prise de contrôle du compte. Le piratage de compte est un autre type de fraude dans le cadre duquel des criminels obtiennent un accès non autorisé à un compte Meet légitime en volant des informations de compte telles que des mots de passe ou un numéro d'identification personnel Donc, dans ce cas, ils vont simplement pirater votre compte, voler votre mot de passe, votre nom d'utilisateur , votre mot de passe, et votre compte sera piraté. Ensuite, ils feront ce qu'ils veulent avec votre compte. Ils prennent le contrôle de votre compte et l'utilisent pour activités frauduleuses telles que des achats , des œuvres d'art, le transfert de polices. Ainsi, une fois qu'ils ont le contrôle de votre compte, ils peuvent tout faire. Ils peuvent transférer l'argent de votre compte vers n'importe quel autre compte, ou ils peuvent effectuer des achats en ligne et hors ligne. Et vous n'aurez aucun accès à votre compte car votre compte a été piraté, ils peuvent également changer votre mot de passe pour que vous ne puissiez pas vous-même vous connecter à votre compte. Le troisième type de fraude est fraude par absence de carte, qui se produit lorsque des transactions frauduleuses sont effectuées sans la présence physique de la carte de crédit. Et les transactions les plus courantes sont les transactions en ligne ou par téléphone où les informations de carte sont saisies manuellement par des fraudeurs ou vol d' énormes informations de carte de crédit pour effectuer des achats non autorisés Donc, dans ce cas, la carte de note ne sera pas présente physiquement, mais ce qu'ils feront, qu'ils vous appelleront et ils vous demanderont de faire un Jackson en particulier et ils vous demanderont les informations de la carte enfant Au cours de l'appel, ils vous demanderont l'OTP Et dès que vous aurez donné l'OTP ou les tangentes et tout sera terminé, vous n'aurez plus d' argent, ou ils achèteront quelque chose en votre nom et votre carte de crédit sera débitée L'étape suivante, les cartes contrefaites, la fraude, car il suffit de créer des cartes de qualité contrefaites qui ne se rencontrent qu'une seule fois. Donc, dans ce type de fraude, ce que fera le fraudeur, il créera un jeûne, il obtiendra des informations sur les numéros de votre carte-cage Toutes ces choses seront numérotées. Et ils créeront une carte d'apparence similaire avec un numéro de carte-cage similaire et le numéro CBP, que nous considérerons comme très légitime par rapport à la carte d'origine Ils peuvent ensuite encoder informations de la carte de crédit volée sur la fausse carte Ensuite, des cartes contrefaites sont ensuite utilisées pour effectuer des achats. Souvent, à l'insu du titulaire de la carte Carter, il se peut que vous ne sachiez pas que votre carte Grade a été contrefaite et que quelqu' un d'autre possède une double carte de crédit votre carte Grade a été contrefaite et que quelqu'un d'autre possède une double carte de crédit portant le même numéro que celui qui vous a été attribué et qui l'utilisera pour des transactions frauduleuses Il s'agit donc d'un autre type de fraude par carte de crédit qui se produit de nos jours. Le suivant est un complot, c'est-à-dire que l'écrémage implique, légalement, désolé, écrémage implique de saisir illégalement informations de carte de crédit insu des détenteurs de cartes de crédit, supposons que vous facturez votre panier au magasin et que vous ne sachiez ce qu'il fait, il note simplement vos numéros de carte supposons que vous facturez votre panier au magasin et que vous ne sachiez ce qu'il fait, il note simplement vos numéros Si nous numérotons toutes les bonnes informations, la date d'expiration et tout ce genre d' informations, le magasin peut faire des transactions frauduleuses. Ainsi, chaque fois que vous mettez votre voiture en vente au comptoir pour le jour ouvrable suivant, vous vous assurez que personne ne prend aucune information de votre carte KD à votre insu Et puis les manifestants, ce que nous allons faire, c'est que cette vignette a installé des dispositifs frauduleux, des terminaux de paiement ou des guichets automatiques pour capturer les données des cartes de crédit Récemment, en Inde, un type de fraude a été découvert mois dernier : ils utilisaient le charbon préféré dans les distributeurs automatiques de billets. Et avec cela, ils utilisaient certaines techniques selon lesquelles, lorsque vous insérez la carte-cage ou votre carte de crédit, les informations sont capturées d'une manière ou d'une autre. Et plus tard, lorsque vous quitterez les guichets automatiques, ils bloqueront les cellules tragiques de votre APM Et vous ne saviez peut-être pas que c'était un complot pour servir ce qui se passe aujourd'hui Ils utilisent ensuite les informations capturées pour créer de fausses cartes et déterminer la probabilité de tour. Il s'agit donc du type d'usurpation d'identité, de carte d'usurpation de compte qui n'est pas présente cartes contrefaites et des activités frauduleuses ou d'écrémage se font en ligne Il existe également d'autres types de fraudes, comme par téléphone, ils se font passer pour un employé de banque et ils vous demanderont le montant, heureusement, des informations, les informations de votre carte de crédit, vos numéros de sécurité sociale, les numéros de carte bancaire sont plus sombres. Ensuite, ils feront semblant de vous donner un prix ou quelque chose comme ça. Ils transfèrent de l'argent pour créer votre compte, mais en fait, ils vous demanderont de l'argent et vous enverront un lien. Et on vous a demandé de cliquer sur le lien. Lorsque vous cliquez sur le lien, plus fort, vous ne remarquerez pas que vous êtes en train de transférer l'argent. Ils déduisent l'argent de votre compte et vous n'aurez qu'à saisir l'OTP et l'argent de votre compte ira sur le compte courant Ce type de fraude se produit donc et nous devons savoir comment y mettre fin. Et c'est ce que nous allons faire dans ce projet en examinant le gardien Jackson. ainsi que nous développerons un modèle qui détectera le type de transactions et mettra fin aux activités frauduleuses 88. Importance de la détection de la fraude en ligne: Nous avons maintenant une brève idée de ce qu'est fraude et du type de fraude qui se produit de nos jours Maintenant, nous devons également comprendre pourquoi le plot détecte et c'est important. La détection des fraudes est donc importante, c' est-à-dire qu'elle vise évidemment à prévenir les pertes financières. Mais il y a aussi une autre région, il y a peu d'autres raisons pour lesquelles elles sont éliminées et c'est ce que nous allons comprendre. L'importance de la détection des fraudes. Il existe trois principaux moyens de détection des fraudes qui indiquent qu'ils sont là. Et le premier est la prévention des pertes financières. Le second concerne les produits et les clients. Et troisièmement, il faut maintenir la confiance. Et ces trois paramètres sont très, très importants pour toute institution bancaire ou financière. Parce que si vous ne remboursez pas la perte financière par impôt, les clients de vos clients ne resteront pas chez vous Si vous ne protégez pas les intérêts du client, il est probable que vous ne serez pas avec vous pendant plus longtemps. Et si vous ne le faites pas, préparez-vous, prévenez les pertes financières et mettez fin aux produits. Et notre question portait sur l'information, alors vous perdrez évidemment la confiance du client. Il est donc également important de maintenir la confiance. Ces trois éléments sont donc très importants. Donc, tout d'abord, nous comprenons, nous allons comprendre cette prévention des pertes financières. La fraude peut entraîner des pertes financières importantes pour les particuliers, les entreprises et les institutions financières. La détection des fraudes permet d'identifier et de prévenir les activités frauduleuses en minimisant ces pertes de grossesse. Le tout premier objectif du produit axon est donc de le prévenir, de prévenir les pertes financières, les pertes financières de la part de l'individu Des gens comme vous et moi, pour les entreprises, les personnes qui font des affaires et les institutions financières elles-mêmes. Comme si quelqu'un venait et qu'il avait la banque, le compte bancaire lui-même. Et puis lui, l'agent de police, peut faire n'importe quelle transaction sur importe quel client de la banque, non Donc, pour protéger également leur compte, c'est important, d'accord ? La prévention sophistiquée des pertes est donc l'une des choses les plus importantes. La seconde est de protéger, de protéger suffisamment de clients. La fraude peut entraîner vol d'identité, des transactions non autorisées et d'autres formes de préjudice financier pour les clients détecter et de prévenir la fraude et de sceller la protection des actifs financiers et des autorisations personnelles des clients. Donc protège et un point d' interrogation ici. Cela signifie que nous avons besoin de l'un ou l'autre institut bancaire S'il y a une banque, d'autres institutions financières sont présentes. Leur principale responsabilité est de préserver la sécurité et la confidentialité des informations des clients. Pour s'assurer qu'ils doivent mettre en œuvre majeures de détection des fraudes afin que les clients, actifs financiers et les informations personnelles soient en c, c'est-à-dire en sécurité Le troisième est de maintenir la confiance. La confiance est également très importante si votre banque, votre établissement bancaire et des activités frauduleuses sont constamment menées au hasard. Les clients perdront alors confiance en vous et se tourneront alors vers une autre banque. fraude mine la confiance dans le système financier par l' activité, la détection des activités et la lutte contre la fraude Les institutions financières et Venus peuvent maintenir la confiance de leurs clients et du soutien de leurs parties prenantes. Unique. Supposons que vous soyez une banque, X, Y , j et que vous soyez titulaire d'une carte de crédit, client reçoit une notification lorsque quelqu'un essaie de faire ce qui n'est pas autorisé à utiliser Exelon, sa carte de crédit. Et avant de confirmer cette transaction, il vous suffit d'appeler le client et de lui dire : « Oui, il y a un arc tangent et 99$ sont versés sur votre carte KD » L'Égypte que vous consultez sur ce site Web en particulier. Et si le client répond immédiatement « Non, non, non, je ne fais pas ça », veuillez arrêter. Et vous avez bloqué cette transaction, vous la refusez. De cette façon, vous avez économisé 99$ pour votre client. Et cela augmentera sûrement la confiance que cette personne a en vous, dans votre institution et il recommandera sûrement votre outil pédagogique D'autres aussi, car il sait que vous venez d'économiser 99$. De cette façon, en affectant les salaires de détection des fraudes aux institutions financières par l'intermédiaire des entreprises. Cela améliorera également ce crash pour vos clients. Voyons maintenant quel type de données statistiques sur la fraude, quel type de fraude se produit et combien la fraude coûte aux entreprises et aux clients. Ainsi, selon un rapport de l'Association des examinateurs certifiés en matière de fraude, ECF free, il s'agit d'une organisation mondiale Les entreprises internationales perdent environ 5 % de leurs revenus annuels à cause de la fraude. Vous voyez, les organisations internationales et les grandes multinationales perdent 5 % de leur chiffre d'affaires annuel, ce qui pourrait représenter un montant très, très important pour l'ensemble des activités Et cela se traduit par des milliards de dollars perdus chaque année Ainsi, si vous mettez en œuvre les principaux outils de détection des fraudes à l'aide de l'intelligence artificielle et de l'apprentissage automatique, vous pouvez faire économiser ces milliards de dollars à Le second est la fraude aux cartes Arcade. Ce rapport de Nielsen indique que les pertes mondiales dues à la fraude par carte de crédit ont dépassé 27 000 000 000 de dollars en 2020, ce qui représente un montant énorme, et cela ne vaut rien que de classer la fraude par carte de crédit, l' un des types de fraude les Compte tenu de l' énorme carte de mise à niveau généralisée. C'est un fusible. Les ports pour cartes de visite sont très ajustés. Et vous pouvez voir la statistique C0, 27 milliards de dollars en 2020 et maintenant nous sommes en 2023 Il aurait donc pu être doublé avec l'augmentation de la numérisation, comme en Inde ces 34 dernières années, tout est passé au numérique et où les gaz sont très peu consommés Dans ce cas, elle aurait pu augmenter sa présence ou même atteindre un milliard de dollars La détection des cartes de crédit est donc très, très importante à mettre en œuvre. Le prochain est le vol d'identité. Rien qu'aux États-Unis, la Federal Trade Commission FTC ont reçu plus de 1,4 million de signalements concernant le type d' identité en 2020. Cela met en évidence la prévalence de l'impact du vol d'identité, qui conduit souvent à des fraudes financières. Ensuite, la fraude en ligne, avec l' adoption croissante du commerce électronique et des transactions en ligne, fraude en ligne est devenue une préoccupation majeure. Le rapport LexisNexis, cette solution, contient 20 % du coût réel du produit et révèle que chaque dollar de transactions frauduleuses coûte 3,36 dollars aux témoins en raison de la rétrofacturation et de la perte de Mark et de dés Voilà donc l'impact. Les entreprises perdent 1 dollar. Ce n'est pas qu'ils perdent 1 dollar, mais indirectement, cela leur coûtera 3,3 6 dollars selon ce rapport Et ils ont indiqué qu'en raison des rétrofacturations, frais et de la perte de marchandises, ces statistiques soulignent l'urgence et l' importance de mettre en œuvre des mesures de détection des fraudes efficaces afin d'atténuer les finances et les risques éventuels associés à la Cela permet de connaître la fraude en fonction des types et des étoiles, son impact de son impact sur les institutions financières, sur les clients, les clients individuels et les institutions financières, ainsi que sur clients individuels et les faiblesses. Nous sommes maintenant prêts à poursuivre nos projets. Ainsi, lors de la prochaine conférence, nous commencerons site du projet Excel sur les produits pour cartes de date. La prochaine conférence 89. Gérer un ensemble de données déséquilibré: Donc, avant de passer à l'écriture du code du projet, comprenons encore quelques choses sur la détection des fraudes. Et c'est important de faire le projet au fur et à mesure avant de démarrer le projet. Y compris la partie théorique qui est très importante pour améliorer votre apprentissage. Dans cette conférence, nous allons donc comprendre quels sont les défis associés aux modèles de détection des fraudes que nous pouvons créer et comment les surmonter. Alors commençons. Les défis associés aux modèles de détection des fraudes. Il y a donc quelques défis à relever lorsqu'il s'agit de notre tableau ou de nos modèles de détection des fraudes. Et l'une des plus importantes est très, cela se produit très fréquemment. C'est-à-dire des ensembles de données déséquilibrés. Un ensemble de données ou des ensembles de données donc déséquilibré. Supposons que vous alliez détecter les fraudes pour la carte Kd et que vous sachiez que activités de fraude liées aux cartes Arcade sont très inférieures à 0,1 % ou 0,001 Il y a de fortes chances qu' une activité ou une transaction par carte de crédit soit frauduleuse. Donc, lorsque nous avons l'ensemble de données, qui contient la plupart des transactions pour nos quatre voitures dans le monde. Allons-nous le laisser coéquipier, laisser quelques lacs en un lakh, 1 million de cartouches x et il y aura quelques centaines de transactions qui seront frauduleuses Ainsi, lorsque nous collecterons l'ensemble de données , la plupart des 99 % de l'ensemble de données contiendra les cellules des transactions légitimes, seules quelques-unes d'entre elles porteront sur la fraude Ainsi, lorsque nous créons un modèle, les modèles seront toujours favorisés par la majorité. Donc, dans ce cas, ce sera, toujours, quelle que soit la transaction qui se produira, cela déclenchera qu'en tant que transaction légitime car les transactions frauduleuses sont très peu nombreuses, nos modèles n'en apprendront pas grand-chose sur le produit. Jackson et parce que 99 % de l' ensemble de données contient les transactions légitimes, il privilégiera toujours la transaction légitime. Cela ne le déclenchera donc pas très rarement, il déclenchera une activité frauduleuse. données déséquilibré est donc l' un des défis associés à notre modèle de détection des fraudes Les transactions frauduleuses sont relativement rares par rapport aux transactions légitimes. Ainsi, l'ensemble de données bouleversant et déséquilibré, Jackson prétend avoir atteint la majorité, alors que seule une petite partie des transactions sont Ce déséquilibre de classe fait des camarades transaction frauduleuse et légitime. Ce déséquilibre entre les classes pose donc des problèmes aux modèles de formation, car ils peuvent être biaisés en faveur de la classe majoritaire, ce qui se traduit par une mauvaise détection des instances de produits configurées. Nous avons donc compris ce qu'est ce E, donc celui-ci est lié à la majorité de l'ensemble de données qui contiendra les transactions légitimes car les transactions frauduleuses le sont très peu nombreuses. Donc. Cela nous fera croire qu'il faut suffisamment d' instances frauduleuses selon notre modèle. Une autre concerne les techniques de fraude adaptatives qui nous permettent de faire évoluer constamment leurs techniques afin de bisphosphater les systèmes de détection Quel que soit le système de détection, la manière dont nous développons les fraudeurs a une longueur d'avance. Ils développeront et feront évoluer leurs techniques pour contourner ce système de détection Ils adoptent leurs méthodes, ce qui les rend plus difficiles à identifier. Utilisation de règles traditionnelles. Nos approches basées sur des modèles. Comme indiqué, les modèles de détection des fraudes doivent être régulièrement utilisés pour suivre le rythme des nouveaux modèles de fraude. Vous avez Deb Love sur une approche basée sur des règles ou une approche basée sur des modèles Et nous en avons développé un pour le système de détection. Et vous ne le mettez pas à jour. Mais au fil du temps, les manifestants étudieront, développeront des techniques et se contenteront de mettre en place de faux systèmes de détection et ils commenceront à se livrer à des activités frauduleuses. Il est donc très important d'adopter les techniques et d'améliorer vos modèles tous les deux ou trois mois afin que vous soyez, je suis en tête des manifestants. Le problème suivant est l' évolution des modèles de fraude. Les modèles de fraude ne sont donc pas limités. Soutien. Vous disposez d'un ensemble de données dans lequel vous développez un modèle et il existe peu de modèles que vous avez reconnu Le modèle a développé un mécanisme permettant d'identifier et de déclencher une matraque frauduleuse pendant que Nixon poursuit ses activités Mais que se passera-t-il si les fraudeurs vont réinventer ou continuer inventer de nouveaux modèles qui pas dans l'ensemble de données Et à cause de cela, nos modèles ne sont pas formés à ce sujet. Donc, si notre modèle n'est pas activé, il ne reconnaîtra pas ce modèle et cela déclenchera que activités légitimes et frauduleuses d' Azure ne soient pas détectées Un schéma tendu si évolutif. Un autre défi en matière de détection des fraudes. Les modèles de fraude évoluent au fil du temps, ce qui complique de fraude nouvelles et émergentes par les modèles de détection prise en compte des techniques de fraude nouvelles et émergentes par les modèles de détection des fraudes. Les modèles doivent être capables de détecter modèles de fraude inconnus ou inédits sans s'appuyer uniquement sur des données historiques Nous devons donc concevoir notre modèle telle sorte qu'il puisse détecter une transaction frauduleuse, même si elle ne s'est pas produite à ce niveau et ne s'est pas produite auparavant, ou s' il ne s'agit pas de données historiques Il doit donc également reconnaître le nouveau modèle. Il s'agit donc d'un autre problème qui est alimenté par les systèmes de détection des fraudes. évolutivité et le traitement en temps réel constituent un autre défi majeur en matière de détection des fraudes Le système financier à grande échelle traite en temps réel tout le montant des transactions. Les modèles de détection des fraudes doivent traiter efficacement de gros volumes de données et fournir une analyse en temps réel pour identifier les activités frauduleuses très rapidement. Cela nécessite une infrastructure robuste et des algorithmes optimisés pour garantir l' évolutivité et le traitement en temps réel Il s'agit donc d'un autre défi très important et très important évolutivité et le traitement en temps réel Les données sont demandées. Si nous voulons détecter une transaction frauduleuse et que vous souhaitez la déclencher en quelques secondes seulement, six à huit secondes sont nécessaires pour détecter, déclencher et identifier la transaction frauduleuse. Si vous manquez ce laps de temps, de six à huit secondes, il passera. Il est donc chronométré, le traitement en temps réel est très, très important et cela devrait être très rapide C'est donc autre chose. Ensuite, l'ingénierie des fonctionnalités, qui permet de développer modèle de système efficace et de détection des fraudes nécessite des compétences et une ingénierie des fonctionnalités Identifier les fonctionnalités pertinentes qui permettent de détecter les fraudes. La fraude ou les modèles électriques sont essentiels pour une détection précise. Toutefois, la sélection du bon ensemble de fonctionnalités et la création de représentations pertinentes des données peuvent s'avérer difficiles et nécessitent des connaissances du domaine et une réelle activité. J'ai essayé d'expérimenter la confidentialité, la fraude constante, la détection, le traitement de données sensibles sur les clients, la lecture de problèmes de confidentialité. Il est essentiel de garantir le respect des réglementations et de maintenir la sécurité des données tout au long du processus de détection des fraudes. La cellule suivante de ces faux positifs et faux négatifs permet de trouver le juste équilibre entre la réduction des faux positifs, l' indicateur de transaction légitime, les transactions frauduleuses et les transactions frauduleuses faussement Et le déclenchement en tant que transaction légitime représente un défi. Un taux de faux positifs élevé peut gêner le client, tandis qu'un taux de faux négatifs élevé peut entraîner des pertes financières. Ajustement des paramètres du modèle. Et il est toujours nécessaire d' optimiser les performances. Qu'est-ce qu'un faux positif ? faux positif signifie que les transactions légitimes Un faux positif signifie que les transactions légitimes sont signalées comme frauduleuses Que va-t-il donc se passer dans ce cas ? Assistance à l'utilisateur qui utilisait sa propre carte de crédit et effectuait une transaction Votre modèle déclenchera une fraude sur Azure. Et vous appelez immédiatement ce client pour lui dire que vous réalisez avec votre carte de crédit certains projets nationaux et que c'est en cours de réalisation. Que se passera-t-il donc si ce client le fait lui-même, fait transactions et qu'il s' énerve parce qu'il est tangent et qu'on l'a arrêté ? Dans ce cas, faux positifs créeront beaucoup de désagréments pour le client. Et si cela se reproduit encore et encore, cela va beaucoup irriter le client De même, les défauts positifs faux négatifs peuvent également mener au financement Si une transaction frauduleuse est oubliée et qu'elle passe par le système, Gordon entraînera des pertes financières. Au conseil d'administration, nous devons trouver un équilibre entre le faux négatif et le faux positif de telle sorte que ces deux cas se produisent très peu. Capacité et explicabilité interminables. techniques modernes d'apprentissage automatique telles que le deep learning peuvent fournir des modèles de détection des fraudes très précis. Cependant, ils manquent souvent d'interprétabilité, ce qui rend difficile l'explication des raisons qui sous-tendent les décisions du modèle La capacité d'interpréter et d'expliquer les résultats du modèle est essentielle pour gagner confiance et l'acceptation des parties prenantes. Et pour relever ces défis, il faut combiner des techniques de modélisation avancées, une surveillance continue des expertises du domaine, une collaboration entre les data scientists, Unleashed et les experts du domaine afin de créer un système robuste et adaptatif de détection des fraudes dans les décharges de crapets. D'accord, maintenant, nous allons discuter certaines techniques avec lesquelles nous traitons l'ensemble de données déséquilibré Parce que dans notre projet, nous allons utiliser un ensemble de données ou des transactions par carte de crédit qui sont de nature déséquilibrée , car la plupart des transactions se situent autour de 98, 99 %, Tange Excellence est plupart des transactions se situent autour de 98, 99 %, Tange Excellence aussi légitime et une feuille de 1 % et les exons sont présents, ce qui déclenchera le traitement frauduleux d'un ensemble de frauduleux gestion d'un ensemble de données déséquilibré est une étape cruciale dans le développement de modèles efficaces de détection des fraudes Voici plusieurs techniques couramment utilisées pour relever les défis posés par un ensemble de données déséquilibré La première technique est la technique d' échantillonnage consistant à rééchantillonner avec de l'eau. Nous allons échantillonner les données, nous en avons, nous en avons deux. Nous devons le rééchantillonner afin de pouvoir gérer le déséquilibre de l' ensemble de données Et il existe également quelques techniques de rééchantillonnage que nous pouvons appliquer Le premier est le sous-échantillonnage. Les techniques de sous-échantillonnage impliquent de jouer au hasard en supprimant des instances de la classe majoritaire afin d'équilibrer l'ensemble de données Cela réduit la prédominance de la classe majoritaire, mais peut entraîner la perte d'informations précieuses. Donc, si nous continuons à supprimer au hasard la classe majoritaire, cela peut également entraîner la perte d'informations précieuses, mais c'est également le cas. D'accord ? Ensuite, le suréchantillonnage de ces listes de contrôle consiste créer des instances synthétiques de ces classes minoritaires afin d'équilibrer l' de Dans ce cas, nous remplissons l'ensemble de données avec la classe minoritaire. Cela peut être réalisé grâce à des techniques telles que suréchantillonnage aléatoire ou la technique de suréchantillonnage minoritaire d'un modèle synthétique intelligent suréchantillonnage intelligent accroît la représentation de la classe minoritaire, mais peut conduire Cela a donc conduit au problème du surajustement. Modèle hybride. Ces modèles combinaient des techniques de suréchantillonnage et de sous-échantillonnage pour équilibrer efficacement l'ensemble de données équilibrer La prochaine concerne les techniques algorithmiques. La première est un apprentissage sensible aux coûts plutôt que n. Ensuite, les deux méthodes, détection des anomalies est une autre technique, métriques d'évaluation et la prise en compte dans chacune d'entre elles sont donc les techniques que nous utiliserons pour traiter l' ensemble de données déséquilibré Dans notre projet, nous allons donc traiter cet ensemble de données déséquilibré par suréchantillonnage, dans le cadre duquel nous suréchantillonnerons notre ensemble de données avec un cloud dopaminergique cet ensemble de données déséquilibré par suréchantillonnage, dans le cadre duquel nous suréchantillonnerons notre ensemble de données avec un cloud dopaminergique constitué d'activités frauduleuses. Alors rendez-vous lors de la prochaine conférence. 90. Détection de fraude sans modèle: Bonjour et bon retour. Commençons donc le projet. J'utilise donc ici un fichier CSV à points de carte de crédit, qui contient les détails des transactions par carte de crédit. D'accord, donc nous, la première étape consiste à lire ce fichier CSV. Donc, pour ce faire, ce que je perds, c' je perds la fonction CSV et passe le chemin du fichier CSV et du nom du fichier TSV Donc, le plus sale, nous allons le faire pivoter et ensuite je le rangerai dedans Fiche de note variable. tellement important qu' il en soit ainsi, car le savez-vous ? Très bien. Jusqu'à présent, l'étape consiste à exécuter ceci. Maintenant, nous avons les détails de la fiche de note dans cette fiche de note, d'accord, dans cette variable. Donc, lorsque vous cliquez dessus, vous pouvez maintenant voir ici quelques colonnes multipliées par V1, V2, V3 Et cette V1, V2, V3 va se lire 20e Et puis la colonne est la quantité, puis une autre est le verre. Vous voulez donc être 28 , puis horodatage, puis colonne de montant et colonne de classe Alors, quelles sont ces colonnes ? , horodatage et cette V1, V2 à V 28, V2 à V 28, transactions des utilisateurs par carte Arthur Jackson Et pourquoi il en est ainsi, parce que ce ne sont pas les véritables transactions pour la région de la laïcité Et pour protéger les informations de l'énorme carte Arcade. En utilisant le PCM. Nous l'avons fait. Ces colonnes sont la version réduite des données réelles afin de conserver le secteur des informations sur les utilisateurs. Et pour cela, nous utilisons le BCM et nous utilisons modalité diamant pour le réduire à cette forme afin que les informations du juge rejettent votre montant et puis il y a une classe. Les classes sont pour euro, les transactions du grand livre du présentateur et l' une représente des transactions frauduleuses une représente des transactions frauduleuses Il s'agit donc de la réhabilitation de l'ensemble de données, et nous allons parcourir cet ensemble de données La prochaine étape est de voir la structure de l'ensemble de données. Et pour cela, nous utilisons la fonction STR et transmettons cette variable de carte. Et quand nous l'exécuterons, nous le ferons, nous leur donnerons, cela donnera le résultat. Je cours toujours. Commencez par étudier la structure des données. D'accord ? La prochaine étape est la structure de l'horodatage du jeu Vous pouvez donc voir ici que toutes les colonnes sont numériques. Et parmi ces chiffres et la vitre qui se trouve ici, il y a le numéro 1 de la GTO Mais en fait, ce ne soit pas numérique, mais qu'il en soit ainsi, c'est une donnée catégorique, Parce que c'est le cas, le facteur déterminant pour l'euro est celui qui est légitime et 1 pouce plus loin L'une concerne les transactions frauduleuses , donc ce serait dans un format catégorique Donc, ce que nous devons faire, c'est en faire un facteur. Nous devons convertir cet entier en facteur. Et pour cela, ce que je vais faire et utiliser le dollar des cartes de crédit, camarades de classe en dollars, nous allons utiliser ce cours D'accord ? Cette colonne. OK, vous pouvez donc lire que Dollar Call Class nous mènera à cette couleur. Ensuite, nous utiliserons la fonction factorielle pour la convertir en facteur. Et là encore, nous allons donner la classe en dollars des cartes de crédit puis les niveaux de virgule Vous pouvez voir 01. Nous attribuons donc des facteurs G21. De ceci à cela. Donc, de cette façon, il sera converti en facteurs. Donc plus tôt c'était Integer. Maintenant, si nous voyons la structure du jeu de données, si je l'exécute à nouveau, vous pouvez voir ici que toutes les autres colonnes sont nomades et que le verre n'est pas divisé en deux niveaux. 01. D'accord ? Nous avons donc réussi à convertir la colonne de verre, deux facteurs précieux. D'accord ? Encore une fois, nous allons voir la structure de l'ensemble de données et remarquer le facteur lunettes. La prochaine étape consiste à vérifier cette valeur manquante. Ainsi, chaque fois que nous obtenons notre ensemble de données, la première chose que nous faisons est de vérifier la présence de valeurs nulles. S'il n'y a pas de valeurs, nous devons nous y attaquer. Nous devons gérer les valeurs nulles en mettant des perdants, supprimant les colonnes, les étages, qui contiennent un plus grand nombre de valeurs nulles Il existe donc quelques techniques que nous suivons pour gérer les valeurs manquantes. Et ici, pour vérifier les valeurs manquantes, nous utilisons toutes les zones sombres et analysons à nouveau le Et le pouce est un a qui nous donnera le nombre total de valeurs manquantes dans l'ensemble de données. Une partie est sombre, puis la variable de l'ensemble de données ici sera transmise. Alors laissez-moi m'occuper de ça. Maintenant, il arrive à zéro. Cela signifie que notre ensemble de données ne contient aucune valeur manquante, de sorte que nous ignorons les valeurs manquantes. Nous n'avons donc pas à nous inquiéter à ce sujet. Nous n'avons rien à faire pour cela. La prochaine étape consiste à obtenir la répartition des fraudes et des transactions légitimes dans l'ensemble de données Maintenant, pour cela, nous allons utiliser la fonction table et nous allons passer la colonne de verre car la colonne classe est le facteur de distribution qui permet déterminer laquelle est une frauduleuse et laquelle est une transaction légitime Donc carte de crédit, dollar, classe et tables. Cela nous donnera donc le nombre de transactions et le nombre de transactions frauduleuses. Donc zéro est 28 004, soit 84 fois trois, nous obtenons transaction du grand livre un remontée 492 ou les transactions frauduleuses Donc, avec cette semaine, sachez qu'il s'agit données déséquilibré, car la majeure partie de l'ensemble de données, chacune ayant ses tangentes et une transaction légitime agile et solitaire à deux pattes 34 300,492 comme une transaction frauduleuse, ce qui est bien moins que la transaction grand livre ce qui Il s'agit donc d'un type d'ensemble de données déséquilibré. Nous allons maintenant voir quel est le pourcentage de transactions légitimes et frauduleuses dans l'ensemble de données de Berlin transactions légitimes et frauduleuses dans l'ensemble de données de Pour ce faire, nous allons utiliser la fonction prop dot table Et nous allons passer cette table, et nous allons passer cette classe de colonnes. D'accord ? Alors laisse-moi voir. Vos 99,8 % sont frauduleux, désolé, plus tard Angie, Excellent 0,017 % concernent les transactions frauduleuses. La prochaine étape est donc, laissez-moi le mettre dans les diagrammes circulaires. Donc, pour créer un graphique circulaire, nous allons d' abord créer une logique et produire deux vecteurs ici. Ensuite, nous allons l' attribuer à des niveaux, puis nous allons créer un autre niveau. Et nous utiliserons la fonction de collage en fonction de ces étiquettes. Nous allons donc prendre les niveaux, c'est légitime, puis nous utiliserons le cent rond comme table d'accessoires. Cela nous donnera le pourcentage du pourcentage des transactions légitimes et frauduleuses Et voici la virgule deux et nous y sommes allés parce que je veux qu'ici, il y ait plusieurs chiffres après la virgule décimale Je veux le limiter au chiffre, puis aux niveaux, aux niveaux et aux pourcentages. Ensuite, nous utiliserons la fonction pipe. Ici. Ils transmettront la table K plus nom de la colonne sur laquelle je veux tracer le tableau ICE, puis ils étiquetteront cette table légitime et frauduleuse Et puis la colonne A s'effondre ou chaque couleur a un Android vert. La partie verdâtre, les leptons sont excellents pour lire la suite, frauduleux et se débrouillent à égalité Ce sera le titre de notre diagramme circulaire. Alors laisse-moi gérer tout ça ensemble. Et il s'était vraiment fait par graphique ici, transaction légitime en 99,83 et frauduleuse et vin 17 Répétons-le. Ici. Le diagramme circulaire représente votre registre des cliniques et ses 99,83, et ça fait trois, tout passe au vert. Et le rouge est prêt pour seulement 0,17 % de moins. Il s'agit donc d'un ensemble de données véritablement déséquilibré. Maintenant, ce que je vais faire, je vais juste essayer de prédire avec un modèle normal, la prédiction n' utilisera aucun algorithme d'apprentissage automatique et religieux essaieront de prédire sans bouteille. Donc, pour cette étiquette x et y et pour une répétition ou une fonction énorme, ils sont intégrés à GTO. Alors ce que je vais faire, c'est payer par carte de crédit. Ainsi, dans notre ensemble de données pour toutes les lignes, le retour sur investissement donnera un chiffre proche de celui de l'ensemble de données Kate. Et pour tout, la fusée va répéter zéro, elle va remplir des zéros Ainsi, tout le projet deviendra une transaction comptable Ensuite, nous utiliserons le sens de la prédiction du facteur et les niveaux G, première ligne. Et ensuite laisse-moi m'occuper de ça. D'accord ? Et si je mets Predict Sense, OK, et Predictions, OK, alors j'utiliserai la bibliothèque de personnages ici. Parce que je vais utiliser la matrice de confusion. La matrice de confusion, et un boss, ces données, comme vous les appelez une prédiction, celle-ci fait référence à la classe monétaire des cartes de notes. Et si j'utilise ces mesures de confusion, assure qu'il s'agit d' une prédiction chargée. Vous voyez que la précision de ce modèle est de 99,83. Ainsi, toutes les transactions ont été correctement classées comme légitimes Toutes les transactions du grand livre sont correctement classées comme légitimes Et cette maladie, les additifs et tout ça, c'est négatif. Il en va de même pour 92 transactions frauduleuses qui ne sont pas considérées comme des transactions frauduleuses. Toutes les transactions de l'ensemble de données ont donc été classées comme Leggett et exons, même celle-ci pour 92 tan x et Notre modèle de prédiction n' a pas été considéré comme une transaction frauduleuse inscrite dans le grand livre Comme il s'agit d'un ensemble de données véritablement déséquilibré, notre modèle de prédiction prédit tout manière légitime, car il ne s'entraîne pas sur les données frauduleuses, car elles sont très inférieures et c'est pourquoi tout se répercute sur le véritable taux Il s'agit donc de la prédiction basée sur la prédiction normale du modèle. Nous n'avons utilisé aucun modèle ni algorithme d'apprentissage automatique. Dans le prochain cours, nous utiliserons donc un algorithme d' apprentissage automatique pour gérer cet ensemble de données déséquilibré Et nous essaierons de mieux prévoir. Rendez-vous lors de la prochaine conférence. 91. Créer un échantillonnage de jeux de données de formation et de test: Bonjour et bon retour. Dans cette conférence, nous allons donc approfondir notre projet. Et ce que je vais faire ici, je vais m'en emparer. Ce que nous allons faire, c'est prendre les échantillons de données à partir des données de courant de porte dont nous disposons. Nous allons donc prendre les dix pour cent des données de l'ensemble de données existant au niveau de l'échantillon. Sur cette base, nous allons essayer de créer un modèle. Ensuite, lorsqu'il donnera des prévisions correctes, nous appliquerons ce modèle à l'ensemble de données. Alors, pour ce faire , que pouvons-nous faire ? Je vais utiliser une bibliothèque en ré bémol. Il vous suffit donc de le télécharger. Si ce n'est pas le cas, téléchargez-le. Et puis vous avez créé la bibliothèque, nous allons utiliser puis définir la valeur de départ. Premièrement, ce rapport, parce que lorsque je prends 10 % de cet ensemble de données de cartes de crédit. Donc, si vous ne définissez pas un pool de graines défini, ce qui se passera à chaque fois sera prélevé au hasard sur les dix pour cent de l'ensemble de données et chaque fois, ce sera différent, dix pour cent. C'est pourquoi nous voulons la même configuration, 10 % à chaque fois que nous exécutons ce code. À tel point que j'en perds un. OK, alors allons-y. Et puis Cape Cod. OK, je l'ai rafraîchi. Laissez-moi donc essayer de réexécuter tout le code. OK, alors voyez maintenant que nous avons retiré les dix pour cent de cette carte. Voici l'ensemble de données à partir de là, je prélève un échantillon, je souligne, cette fonction que j'utilise et je donne 0,1, 0,1 min, 10 % de l'ensemble de Je prends donc le flux de 10 % entre les tranches de l'ensemble de données et je l'attribue à ce gardien de portail Précieux. D'accord ? Et puis quand je lance ça, vous pouvez voir que nous avons fait la même configuration, les mêmes lignes et colonnes. D'accord ? Ensuite, j'utiliserai la table, et j'utiliserai cette classe. Alors laisse-moi m'occuper de ça. Maintenant. Nous avons le bénéficiaire ici bascule d'avant en arrière ou quelque chose Donc 10 % de ça. OK, et ici, le chiffre légitime est de 28 000, aucun protestant et en vendre 44 D'accord, nous avons maintenant pris les dix pour cent de l'ensemble de données. Quelles sont les choses ? Maintenant, je vais utiliser GG plot pour simplement l'utiliser. Et s'il n'est pas téléchargé, vous le téléchargez, vous l'installez, puis vous l'utilisez. D'accord ? Et voici ce que je vais faire, je vais essayer de créer un diagramme de dispersion Mais pour cette année, cette personne décédée que nous venons de créer, anesthésie peut utiliser les axes x et y. Nous faisons des colonnes et des couleurs et encore une fois, les créons dans la classe zéro ou un de dernière minute Un point légitime sur le devant, d'accord ? Géomérez des points, non, ne louez pas noir sur blanc. Créez votre graphique en équipe. Cela aura donc l'air en noir et blanc. Et le manuel d'échelle des couleurs ici en bleu et noir. Bleu et rouge, désolé, pas noir, bleu et rouge. Couleur bleutée. L'euro et la guerre pour un livre rouge et bleu pour les transactions et le rouge pour les transactions frauduleuses Alors laissez-moi exécuter cet outil D'accord, alors voyez ici, maintenant nous avons ce nuage La classe représentant 0,1 représente, mais elle est toujours déséquilibrée Il y a tellement de Jackson que peu d'entre eux sont coupables de fraude. OK, maintenant nous avons les 10 % des données et nous les avons tracées avec succès Ensuite, nous devons créer l'ensemble de formations et de tests pour la création du modèle de détection des fraudes. D'accord, pour cela, je vais voir des outils. Si vous ne l'avez pas encore installé, vous pouvez l'installer à l'aide de install.packages. Et vous pouvez voir vers le back-end que vous souhaitez installer la bibliothèque Ils utilisent tous la bibliothèque. Et a achète ce nom, celui de Seattle. Et je l'ai fait, puis je vais m'en servir pour ensemencer 123. Ensuite, je vais prélever l'échantillon de données. Et ce que je vais faire, c'est diviser cet échantillon de données que nous avons prélevé à 10 %. Maintenant, cet ensemble de données de 10 % est divisé en 80, 2080 pour l'entraînement et Bronte pour le test Pourtant, je vais donner à l' exemple un point, diviser la classe de carte de crédit sur cette base, vous savez, et un point pour le classificateur, puis vous faire une course divisée, je vais donner 80 % pointu pour l' entraînement et 20 % pour acheter le pointillé OK, et la prochaine étape concerne les données entraînées. Et prenez le sous-ensemble de cet échantillon de données et le sous-ensemble d'échantillons de données, utilisation fonctionnelle et la carte de notation Et si un échantillon est appelé a tos 2 min. Laissez-moi d'abord vous expliquer pourquoi vous n'avez pas compris le vrai et le faux. D'accord ? Ainsi, lorsque nous analysons cet échantillon de données, il ne détecte pas le vrai, le faux, vrai, le vrai, le faux. La valeur True concerne les transactions comptables et la False correspond à la fréquence des transactions frauduleuses OK, maintenant nous avons l'échantillon ici. Donc, ce que je vais faire, c'est prendre les deux ALU et je vais obtenir les fausses valeurs ici. Laissez-moi donc analyser ces données de tendance et ce seront les données de test. Donc, ensemble de données d'entraînement et cet ensemble de données. Maintenant, si nous voulons connaître le sens en losange de ce train et de ce jeu de données d' entraînement et du jeu de données, vous pouvez utiliser un nom de fonction sombre, train underscore data 22 007, 85 lignes et 31 colonnes. Et pour theta 5 696,31 colonnes, les lignes et les colonnes Ainsi, nous pouvons obtenir le train et le jeu de données de test. Lors de la prochaine conférence, nous aborderons plus en détail la création du modèle prédictif 92. Méthodes d'échantillonnage aléatoire sur et sous échantillonnage: Nous avons donc maintenant les données de test et les données d'entraînement. Traitons l'ensemble de données déséquilibré. Il y a donc deux, trois approches que nous allons voir dans ce projet. Le premier est le suréchantillonnage aléatoire. Ensuite, nous verrons le sous-échantillonnage aléatoire, puis nous verrons les deux ensemble. D'accord ? Commençons donc par le suréchantillonnage aléatoire Qu'est-ce que le suréchantillonnage aléatoire ? Le suréchantillonnage aléatoire signifie que nous devons évaluer 50 à 50 % des cas légitimes et de fraude . D'accord. Donc pour cela, ce que je vais faire, je vais utiliser les données du train et au-dessus de cette table en verre. Et laisse-moi m'occuper de ça. Alors voyez maintenant que nous avons la rose légitime, 22 007, 50 et pour notre fuite historique de 35 ans OK, c'est donc déséquilibré, nous devons donc suréchantillonner aléatoirement cet ensemble Le suréchantillonnage aléatoire signifie que nous devons placer les deux conformément aux accords des élèves Nous devons les mettre tous les deux sur un pied d'égalité. Donc, pour cette analyse, le nombre de transactions est appelé collagène, Ashley 22 007, 50 Et ce que je veux faire de la nouvelle fracturation et c'est souvent légitime, eh bien, c' est comment, ce que je veux 50 % OK, je vais maintenant collecter le nombre nouveau et total de lignes requises dans notre nouvel ensemble de données par rapport à un échantillon de données. Donc voici ce que je vais faire, je vais être vraiment allergique à celui-ci divisé par la fraction de portes logiques comme nous le voulons pour que nous le fassions et nous obtenions un nouveau chiffre OK, alors laisse-moi m'occuper de ça. Cela fait donc 45 500 lignes. Nous en avons besoin comme bus, d'accord ? Alors maintenant, je vais utiliser le package Roche ici. Donc, si vous ne l'avez pas installé, vous suffit de l'installer. Dans le cas contraire. C'est tout simplement énorme. Il est assez solide lorsqu'il est installé ici et crée un suréchantillonnage précieux, ce que l'on appelle Et il avait une énorme méthode d'échantillonnage par points. Et ici je vais donner la classe en tant que variable, variable indépendante. Et ce point indiquera toutes les autres variables disponibles dans les ensembles de données. Et puis la virgule, puis les données sont égales à : nous utilisons ces données de train, nous entraînons les données de soulignement que nous avons créées Ensuite, la méthode est le suréchantillonnage. Et en nombre de roses, nouvelles, le total s'élève à 45 500 Et les graines que j'utilise ici, pour obtenir le même résultat à chaque fois. Alors laisse-moi m'occuper de ça. Alors maintenant, il est lancé. Maintenant, si nous regardons cela ou si nous regardons le suréchantillonnage aléatoire, ils facturent, vous pouvez voir ici Cliquez ici et vous pouvez voir que la prochaine étape est si vous voulez voir les données, nous devons utiliser le suréchantillonnage, ce que l'on appelle les données du signe du dollar Cela nous donnera donc l'ensemble de données. D'accord ? Maintenant, si nous examinons ce tableau d'ensemble de données, le suréchantillonnage, crédit y verra 45 500 lignes et les cas allégés à 22 017, 50 et les cas frauduleux sont également imprimés dans un didacticiel 50 Hein ? Maintenant, ce que je vais faire, est simplement tracer cela à l'aide de GG plot. Donc ici, thêta est égal à, je vais prendre ce suréchantillonnage d' excellentes données Pourquoi ? Nous utilisons Class Color, Class, Class, Geom Point et Thin Blue, comme nous l'avons fait précédemment Permettez-moi donc de tracer cela et de voir à quoi ressemblent nos données. Maintenant, j'ai un suréchantillonnage. OK, parce que je clique sur le prix. Regardez ici maintenant notre nouveau jeu de données ou notre exemple de jeu de données Word ressemble à ceci. Il s'agit du diagramme de dispersion et c'est pourquoi nous constatons toujours que le nombre de cas relatifs aux terres agricoles est très inférieur au nombre La plupart d'entre eux regardent le bleu uniquement parce que pour chaque cas de fraude. Nous avons créé des entrées dupliquées lors du suréchantillonnage Et c'est pourquoi chacune d' elles contiendra un plus grand nombre de valeurs dupliquées. C'est pourquoi, derrière tout cela, il y a plus de points. D'accord ? Donc, pour l'examiner, pour mieux le tracer, nous pouvons utiliser le t-test Le test t vous donnera plus de visibilité à ce sujet. Alors laissez-moi vous le dire ici. point géométrique de Giussani est la position du quadrupède, Le point géométrique de Giussani est la position du quadrupède, le détail du trait de soulignement et la largeur. On peut mettre 0,2 ou je peux même mettre 0,5. Et laisse-moi m'occuper de ça. Ces points seront maintenant un peu plus détaillés. Cela permettra donc de savoir qu'il y a plus de points. Et pas seulement sur ce point, car le suréchantillonnage, et non la duplication, créera une duplication des données existantes Je pourrais le voir ici. Maintenant, vous pouvez voir qu'il y a plus de points, des points plus importants. Donc, c'est à cause des doublons. D'accord ? Nous avons donc maintenant compris ce qu' est le suréchantillonnage et comment y parvenir OK, le suréchantillonnage est qu'il y a un problème avec quelque chose qui peut créer des points dupliqués Nous allons maintenant voir le sous-échantillonnage aléatoire. Pour le sous-échantillonnage, utilisez-le également. Soulignez ensuite les données. Et puis ici, il y a un certain nombre de lignes frauduleuses dedans. Commencez simplement si j'écris N, la fraude sera de 35. Je savais ce que je voulais. Je veux 50 % de l'ensemble de données. Et le total des nouveaux cas de fraude sera divisé par 0,5. Cela nous donnera donc le nombre total de routes requises pour le sous-échantillonnage aléatoire. Nous en sommes maintenant à ce sujet. aura 70 nouveaux rôles au total Il n'y aura donc qu'une seule liste, 70 rôles requis. Si nous procédons à un sous-échantillonnage, c'est assez faible et cela entraînera la perte de bêta. OK, encore une fois, pour les autres candidats, je vais donc utiliser le package. Ici, je vais créer un sous-échantillonnage, un sous-échantillon, un pour adultes et mon propre échantillon. La même chose que j'utiliserai. Tout sera pareil sauf que cette méthode métallurgique sera sous-échantillonnée Et c'est ici que nous allons passer au nouveau total et à la nouvelle place. Et laisse-moi m'occuper de ça. Nous l'avons maintenant fait avec des échantillons de données. Maintenant, vous voulez voir l'ensemble de données, l'USDA, sous-échantillonner les données et sous-échantillonner un grand écrivain alkylera nous qui gérons ça. Nous avons maintenant ce sous-échantillonnage Ce que Lisa Monday y dévoile. Et la moitié d'entre eux sont légitimes et l'autre moitié sont frauduleux. Mais cela nous mènera à la perte de données si vous tracez la même chose. Voyons voir. Ici. Les affaires Legged et les affaires frauduleuses sont presque les mêmes Mais ici, nous avons perdu près de 22 700 lignes. Cela n'est bon pour aucune analyse ni pour aucune donnée de prévision. Ainsi, lors de la prochaine conférence, nous combinerons ces deux facteurs : le sous-échantillonnage et le suréchantillonnage, et nous essaierons 93. Utiliser ensemble ROS et RUS pour équilibrer les données: Bonjour et bon retour. Nous avons maintenant vu comment nous pouvons travailler avec le ROS de suréchantillonnage aléatoire Ensuite, nous avons vu comment nous pouvions travailler avec le sous-échantillonnage, le suréchantillonnage et le sous-échantillonnage aléatoires que suréchantillonnage et Ces deux méthodes présentent toutefois certains inconvénients, car le suréchantillonnage peut également provoquer des lésions et le sous-échantillonnage entraînera la suave ou la suppression de la plupart des lignes, ce qui peut avoir un impact sur la prise de décision concernant la prédiction et nos D'accord ? Ainsi, les approches utilisant les deux ensemble signifient que le suréchantillonnage et le sous-échantillonnage aléatoires fonctionneront ensemble Cette méthode s'appelle donc board. Tout sera donc pareil ici. Ce que nous allons faire, je vais utiliser et new et Andrew, le nombre de lignes du jeu de données d'entraînement. Ce sera donc 12 000 étudiants bénéficiaires du tutoriel 785 D'accord. Nous pouvons donc mettre en place le commandement et de nouveaux renseignements 785 Maintenant, fracturation et fraude, c'est nouveau, ce que nous voulons faire, c'est trouver 5 %, 0,5 La moitié de ces transactions seraient des transactions frauduleuses et l'autre moitié des transactions liées au registre des sources de données Maintenant, nous allons procéder à l'échantillonnage Je vais donc utiliser l'échantillon de points et la même chose que nous avons utilisée pour le paramètre underclass Et puis tous les autres trouveront ce point, résoudront les autres colonnes, arriveront vraiment , puis le train de données soulignera la méthode de données Ici. Auparavant, nous avons utilisé cette méthode à maintes reprises. Nous allons maintenant utiliser les deux. Cela permettra donc à la fois de sous-échantillonner et de suréchantillonner. Et vous pouvez faire un trait de soulignement nouveau et être égal à flexibilité et souligner la fraude ou l'inconduite qui connaissait le cadre. Alors nous sommes toujours des graines. Cela va donc obtenir le même retarget. Ensuite, lançons ça. Et si vous voulez voir l'échantillon de l'ensemble de données sur les enfants où ils vont alkyler et prélever des échantillons, échantillonnage met en évidence les données en dollars. Cela vous donnera votre échantillon parce qu'ils ont sauté. Voici donc les données. D'accord ? Nous allons maintenant créer notre table. Alors à bientôt. 11 004, 31 est inférieur ou égal à cinq. Donc, presque le même nombre de cas légitimes et frauduleux. Il s'agit donc d' un peu d'équilibre. Hein ? Nous allons maintenant créer la table d'accessoires. Et ici, vous pouvez voir le pourcentage de personnes si légitimes, si tragiques qu'elles ne sont presque pas des personnes appropriées Et 49 % concernent les transactions avec la patrie. Maintenant, si nous traçons cette distribution, nous utiliserons la même partie de l'examen, celle-ci ou cet ensemble de données. Et nous voulons refaire x et y. Et des couleurs froides sont créées sur le verre et les points de géométrage G et 0,3 OK, allons-y. Donc C mais c'est le nuage de points. Et vous voyez que les points bleus sont immobiles, vous pouvez voir que cela provient davantage, mais en fait, ce n'est pas de cela parce que nous avons un échantillon robuste et un autre échantillon ou un échantillon. Ainsi, les cases à jambes en contiennent moins dans l'ensemble de données, ce qui fait double emploi avec celles créées par l' administrateur et c'est là que cela se Le rouge et le bleu sont donc presque identiques, mais les taux se chevauchent Celui de droite ressemble à moins d'un, mais vous pouvez le voir. J'ai utilisé les détails ici. Ce trait de caractère est donc un peu nerveux. D'accord ? Nous avons donc maintenant vu comment nous pouvons effectuer le suréchantillonnage, le sous-échantillonnage et également utiliser Ensuite, nous utiliserons la technique de suréchantillonnage synthétique des minorités pour équilibrer les données C'est ce qu'on appelle une technique intelligente. Et pour cela, nous utiliserons également la bibliothèque familiale Smart. Lors de la prochaine conférence, nous en apprendrons davantage sur le sport, puis nous écrirons le code de la technique intelligente de suréchantillonnage synthétique des minorités OK, alors rendez-vous lors de la prochaine conférence. 94. Avantages et désavantages du SMOTE: Dans cette conférence, nous allons découvrir suréchantillonnage des petites minorités synthétiques, qui est une technique de suréchantillonnage très populaire, utilisée pour résoudre le problème du déséquilibre des classes dans l' déséquilibre des classes dans Il fonctionne en créant des échantillons synthétiques de classes minoritaires similaires aux échantillons de classes minoritaires existants. Cela permet d'équilibrer la distribution des classes et d'améliorer les performances des modèles d' apprentissage automatique sur un ensemble de données déséquilibré Cela résoudra donc réellement le problème auquel nous avons été confrontés avec les méthodes de suréchantillonnage et de sous-échantillonnage C'est pourquoi on parle suréchantillonnage synthétique des minorités Ainsi, cette transaction minoritaire suréchantillonnera cette classe minoritaire, mais au cours d'une semaine très synthétique Il s'agit donc également d'une technique de suréchantillonnage uniquement, mais Nous allons donc voir comment cela se fait. Voici quelques-uns des avantages d'une technique intelligente et intelligente. C'est une technique vraiment simple et facile à mettre en œuvre. Il peut être utilisé dans divers algorithmes d'apprentissage automatique. Il peut être efficace pour améliorer les performances des modèles d' apprentissage automatique sur des ensembles de données déséquilibrés La première chose est donc que c'est très simple et facile à mettre en œuvre. Et il peut également être utilisé avec divers algorithmes d'apprentissage automatique Et cela améliorera les performances des modèles d'apprentissage automatique. Sur un ensemble de données déséquilibré. Le smart présente également certains inconvénients . Il peut créer des échantillons synthétiques trop similaires aux échantillons de classe magnétique existants, ce qui peut entraîner un surajustement Cela peut donc entraîner un surajustement car cela suréchantillonnera la base de données sur les échantillons de classes obligatoires existants Cela peut donc conduire à l'ensemble de données de telle sorte qu'il le dévore, qu'il puisse surajuster le modèle et que notre modèle ne prédira pas le résultat correct Cela peut augmenter le bruit dans l'ensemble de données, ce qui peut également entraîner un surajustement Cela peut être coûteux en termes de calcul, en particulier pour les grands ensembles de données, car nous suréchantillonnons Et si le jeu de données est déjà volumineux, c'est le cas, il sera plus volumineux et nécessitera plus de temps de calcul Et les dépenses seront très élevées car il faudra plus de temps pour faire des calculs et appliquer n'importe quelle méthode à ce sujet Dans l'ensemble, une technique de suréchantillonnage plus synthétique des minorités est donc une technique puissante qui peut être efficace pour améliorer performances des modèles d'apprentissage automatique sur des ensembles de données déséquilibrés sur Cependant, il est important de connaître ses limites et de l' utiliser avec prudence. Nous allons maintenant voir quels sont les inconvénients et les avantages abord, une technique intelligente. Encore une fois, les avantages de l' EEG et de sa simplicité de mise en œuvre et inconvénients qu'il peut créer ou il peut entraîner peuvent être utilisés sur une variété d'algorithmes d' apprentissage automatique peuvent être supérieurs à ceux du riz Ils ont dit un test. Et pouvons-nous prendre en compte l'amélioration des des modèles de performance des pompes à apprentissage automatique Cela coûtera cher en termes de calcul Nous avons donc maintenant une compréhension de base du concept intelligent et nous savons comment et quels en sont les avantages et les inconvénients. Dans le prochain cours, nous allons implémenter la technique intelligente dans notre projet 95. Appliquer la technique SMOTE sur l'ensemble de données de formation: Bonjour et bon retour. Dans cette conférence, nous allons continuer à écrire notre code. Technique intelligente, technique suréchantillonnage synthétique des minorités pour équilibrer l'ensemble de données ou technique utilisée dans l'ensemble de données GitHub Nous devons donc installer ici le backend install.packages Je vais donc utiliser la famille Smart ici. Donc, s'il n'est pas installé, il vous suffit de l'installer en exécutant cette commande, puis d'utiliser les bibliothèques Spot Family. D'accord. Donc, la première chose à faire est de l'exécuter. OK, la prochaine étape est d'utiliser les données du train sur la vitre. Alors voyez ici maintenant, ce sont nos données orientales, nos données d'entraînement. Ainsi, 22 007, soit 50, c'est le nombre de cas, 35, les affaires foncières générales Maintenant, nous allons fixer le nombre de fraudes et le laisser deviner La personne recherchée a discipliné les gaz médicinaux. D'accord. Il y a donc autant de suppositions dans l'art, les données d'entraînement originales et les cas prévalents à 35 ans Et ce que nous voulons pour notre gyroscope, je lui ai donné 0,6. Qu'est-ce que cela signifie ? Cela signifie que je veux notre nouvel ensemble de données. Après cette technique intelligente. Je veux que ce soit environ 60 % des suppositions légitimes et 40 % des cas frauduleux, d'accord, donc 60, 40 cette année, je veux faire des cendres, je donne mais Arg2 est égal à 0,6 min, 60 % des cas, et 40 % des suppositions de première ligne seront celles Alors, comment calculer les meilleurs sites ? Donc, si vous regardez cette fonction de mode de manière synthétique, vous pouvez mettre F1 et vous pouvez voir cette technique de suréchantillonnage des minorités synthétiques C'est donc par le biais de la dendrite, pinceau synthétique pour accéder à des instances, instances utilisant un algorithme intelligent Et quels sont les paramètres ? Tx, dx, dx, c'est notre jeu de données. cible, c'est que la colonne sur laquelle nous voulons cibler, comme dans notre cas, est le verre. Et puis k. Et puis nous avons les tailles dub, dub, dub. Nombre de fois que c de x est le DataFrame du jeu de données attribué numériquement. Target est un vecteur de la classe cible correspondant à ce qu'elle fait si dx k, le nombre de voisins les plus proches pendant le processus d'échantillonnage, puis la taille du double trait de soulignement est le nombre ou le vecteur représentant le chiffre multiplié par le instances minoritaires synthétiques par rapport au nombre initial d'instances majoritaires D'accord ? Combien de fois voulez-vous que cette technique intelligente pour que nous décidions et comment nous pouvons prendre cette décision ? Nous pouvons décider en utilisant cette formule. Ici, j'utilise la formule 1 -0/0 en n divisé par n, n1, et cela donnera moins un D'accord ? Voici donc la formule. Cette formule donnera le nombre n fois le nombre décharges égal à l'étape de doublage. Nous allons donc calculer cela. Laissons ça et laisse-moi voir combien. 422 fois il doit fonctionner. OK, 432 ouvert, 334433. OK, maintenant nous avons aussi la phase de doublage. Nous allons maintenant utiliser la variable de sortie Smart Underscore pour stocker les données que nous obtiendrons à partir d'ici fonction si fluide que nous utiliserons, puis x, x sera notre train de données d'entraînement et donc notre coordinateur. Et puis ici j' utilise une virgule vide , puis je vais faire moins c une virgule un Pourquoi est-ce que je fais ça ? Parce que dans notre ensemble de données, dans notre jeu de données d'entraînement, dans notre ensemble de données d'entraînement. Si tu regardes ici. Donc, v1 à la première colonne de chaque horodatage dont nous n'avons pas besoin. C'est pourquoi je déplace cette première colonne, horodatage, puis nous en aurons une autre. La classe. Alors classe aussi, je supprime Chrome. Oui, donc c'est vrai, 1,31 première et la dernière colonne, je suis de niveau Nous ciblons ensuite les données de soulignement du train La colonne cible est une classe appelée classe J'en donne cinq et le surdimensionné est égal à n fois. Alors laisse-moi m'occuper de ça. OK, maintenant, si nous l'exécutons et si vous voulez voir les données, ce sera sur les données qu' ils souhaitent ou sur des données en dollars. Et nous allons l'exécuter pour examiner les données, que vous pouvez voir ici. Maintenant, le nouvel ensemble de données intelligent contient V1, V2, V3, jusqu'à lire 28, puis le montant, puis la classe, accord. Maintenant, la classe ici est minuscule c. Plus tôt, nous l'avons utilisée dans la capitale. Pour éviter toute confusion, nous allons simplement le remplacer par des majuscules C. Pour ce faire, nous devons utiliser la fonction de longueur, qui prendra le nom de l'ensemble de données , puis le numéro de colonne Ensuite, vous pouvez donner le nom que vous voulez à cette colonne que je donne à votre classe. Et quand je l'exécuterai, il sera modifié. Et si je clique à nouveau sur, la classe est maintenant en majuscules, d'accord ? Maintenant, si vous voulez voir le pourcentage indiquant s'il a été perturbé, le suréchantillonnage ou l'échantillonnage a été effectué par S2 pendant Tu ne l'es pas. Nous allons donc utiliser la table d'accessoires que nous avons utilisée précédemment Et ici, nous allons transmettre le score de crédit, les petits ensembles de données, la colonne de classe, et nous allons l'exécuter Vous voyez, maintenant d rho est de 60 % et 1 est de presque 40 %. À présent, notre ensemble de données est distribué comme 60 % des cas et le pourcentage recherché concerne les cas frauduleux. Nous allons maintenant comparer avec le nuage de points d'origine. Il s'agit du nuage de points d'origine que nous avons créé sur le jeu de données d'entraînement Alors laisse-moi te montrer à quoi ça ressemblait. Voyez-le comme ça. Je ne connaissais pas la distribution des données. Les cas de fraude étaient très peu nombreux. Et maintenant je vais tracer le nouveau plan, c'est exact. Et c'est grâce à une technique intelligente et intelligente que nous avons appliquée. Vous pouvez maintenant voir que notre ensemble de données est plus équilibré. Et ce champ gazier plus technique, bien qu'il le fasse avec le plus grand nombre de suppositions frauduleuses ici Et il ne s'agit pas de valeurs qui se chevauchent ou se dupliquent. Ce sont les points synthétiques qui ont été remplis grâce à la technique intelligente. Nous avons donc maintenant le jeu de données, le jeu de données sur le déséquilibre. La prochaine étape que nous devons faire créer un arbre décisionnel et de prévoir les cas de fraude que nous traiterons lors de la prochaine conférence. 96. Prédire les cas de transactions par carte de crédit avec le modèle: Bonjour et bon retour. Nous sommes donc maintenant en mesure de prévoir les cas de fraude sur la base de l'ensemble de données que nous avons créé dans ce mode. Prédisons donc la valeur en nous basant sur notre modèle. Pour cela, nous allons utiliser les packages rpart et rpart plot vous ne l'avez pas installé, Si vous ne l'avez pas installé, vous ne l'avez donc pas installé en exécutant ces deux commandes. Et puis la bibliothèque rpart et la bibliothèque notre dotplot. D'accord ? Et puis ici, je suis généralement un modèle de garde en tant que variable. Et voici ce que je vais faire, je vais utiliser la fonction rpart Si nous voulons savoir ce qu' est la fonction rpart, vous pouvez mettre rpart F1 et cela vous donnera la récursive, le partitionnement récursif et l'arbre de régression de nos partenaires Donc, si nous voulons en savoir plus à ce sujet, vous pouvez lire la documentation et savoir ce qu'il faut pour cela, prendre la formule présentée avec l'indice x les défauts de nos pièces et de nos modèles, etc. D'accord ? Si vous voulez lire en détail, vous pouvez aller le lire. D'accord ? La prochaine étape est d'aboyer, puis nous leur donnons les colonnes ou la variable dépendante. Donc, dans notre cas, chaque classe , puis sign puis point signifient toutes les variables indépendantes. point va donc prendre toutes les autres variables indépendantes. Ensuite, nous allons utiliser l'ensemble de données. Grand cours spécialisé. Plus de données. Nous l'avons fait, nous avons fait en appliquant le marché de manière intelligente. Alors allons-y. Vous pouvez donc maintenant voir que le modèle GARCH est ici. Et d'accord, ensuite, nous devons utiliser le R. Maintenant, je vais créer l' arbre de décision pour cela. Voyons donc comment notre modèle prévoit et classe les choses en fonction de celles-ci. Des cas légitimes et le problème le dit, il faut donc la lésion. Donc, notre diagramme, notre part de diagramme à points et ensuite nous allons le transmettre. Et puis extra est égal à l' intégrale de type zéro de la fibre. Et Quick 1.2. OK, alors allons-y et voyons, oui, c'est l'arbre de décision. Ce 1,1, ce 0,2, ça va faire bouillir ce truc. D'accord ? Voici donc l'arbre de décision, et c'est ainsi que notre modèle déterminera lequel est. Supposons donc que c'est avant. Si la valeur est supérieure ou égale à -2,5, elle sera considérée comme un cas légitime, et si elle produit moins de 0,5 à 2,5, il s'agira d'un invité frauduleux Voici donc l' arbre de décision qu'il suivra, d'accord ? Ensuite, si vous voulez voir les valeurs prédites, nous pouvons utiliser la prévision puis nous passerons au modèle GARCH Ensuite, des données de Daesh sur des données qui permettront de prédire votre classe type Il classera zéro ou un. Nous allons donc exécuter ce modèle sur nos données de test et voir comment il permet de prédire. Alors allons-y. D'accord ? Donc maintenant, si nous regardons, pouvons voir ici, maintenant, pour un jeu, il a prédit pour la quatrième ligne, comme ça, 0,1, il a été classé. Alors maintenant, si nous voulons voir quel est le niveau de précision jusqu'à présent, nous pouvons créer une matrice de confusion en utilisant la bibliothèque Keras C'était une énorme carotte et puis il connaissait les métriques convergentes Et je vais transmettre cette valeur prédite ici et ici. Données relatives à la variable dépendante du verre. D'accord ? Exécutons donc ceci et voyons ici la matrice de confusion. Ainsi, sur un total de neuf cas frauduleux où 97 cas ont été retenus , sept cas prévalents ont été classés correctement et le port n'a pas été correctement classé. De même, pour les cas figurant dans la légende rouge, presque tous les cas ont été classés correctement. La précision de ce modèle est donc de 98, soit près de 99%. C'est ainsi que nous avons implémenté le modèle de détection des fraudes par cartes de notes à l'aide de notre programmation. Et nous avons appris tellement de choses, comme comment gérer les données déséquilibrées et quels sont les algorithmes que nous pouvons appliquer ? Quelles sont les techniques utilisées pour équilibrer l'ensemble de données par pastèque ? J'espère donc que vous avez compris si nous avons le moindre doute, vous pouvez le demander en classe en commentant ou en posant une question. 97. Introduction à ggplot2: Bonjour et bon retour. Dans cette série de conférences. Dans les prochaines conférences, nous allons en apprendre davantage sur le complot GG. Nous avons utilisé le diagramme GG trop souvent dans nos cours. Mais ce que j'opte, c'est que beaucoup d'entre nous réutilisent des graphiques tels que des graphiques à barres, des diagrammes à secteurs. Et il y a de nombreux pots ou les bibliothèques pour hommes de droite soient immenses Comme GG Plot Tours, GG Plot. Mais nous avons oublié de connaître les bases de tout cela. Et nous devrions le savoir. En gardant cela à l'esprit. Je suis en train de créer quelques conférences sur les bases de la deuxième intrigue de GG. De même, je vais créer d' autres conférences couvrant également tous les autres sujets, les bases de toutes ces choses afin que nous puissions bien comprendre les choses. DJ ggplot2 est donc un package R pour créer des visualisations de données Il a été développé par Hadley Wickham et intègre une implémentation de la grammaire graphique Nous verrons ce qu'est la grammaire des graphiques, qui fournit une approche structurée pour créer et personnaliser des tracés Le package repose sur le principe de laisser place à l'esthétique mappages et de permettre aux utilisateurs de créer des graphiques hautement personnalisables et de qualité de publication Donc GG plot to Deb adorait créer des clés publiques et des graphismes en 3D. Avant cela, nous avions l'habitude de créer des graphiques, mais nous ne sommes pas prêts à les publier. Donc, si vous voulez créer un public, vous n'avez pas besoin d'une unité graphique 3D pour utiliser des outils tels que Power BI ou Tableau, un autre outil graphique. Mais GG plot two a la capacité de créer des graphiques de qualité pour la publication. Et il est très personnalisable. Ainsi, quelles que soient les couches que vous souhaitez ajouter les utilisateurs peuvent les ajouter en fonction de leurs besoins. Il suit l'approche grammaticale du graphisme qui est très, très importante. C'est pourquoi il possède de nombreuses fonctionnalités pour créer des graphismes et des graphiques époustouflants. Bien, comprenons donc que certaines des fonctionnalités et caractéristiques de GG plot to plot two suivent la grammaire des graphiques GG plot two. Comme je l'ai dit plus tôt, cela pose problème à la grammaire du cadre graphique, ce qui signifie que les tracés sont construits en combinant différents composants de couches tels que les données, l'esthétique, les objets géométriques et les transformations statistiques. Ainsi, non seulement il trace les données, mais il prend également en charge les données, l'esthétique, les objets géométriques et les transformations statistiques. Statistiques, esthétique et mappages. Diagramme Gg pour vous permettre de mapper les variables de vos données selon différentes esthétiques, attributs tels que les coordonnées x et y , la couleur, la forme, la taille, etc. Les mappages ont-ils défini la manière dont les données seront présentées visuellement dans le graphique ? La fonctionnalité suivante est la superposition. Le premier concerne la grammaire des graphiques, puis l' esthétique et la cartographie. Et puis nous avons la troisième clé, les fonctionnalités et les caractéristiques. C'est la superposition. Dans le graphique GG 2, les lots sont créés en ajoutant des couches d'éléments graphiques chaque couche représentant un composant différent des fluides, tel que des points, lignes, des barres ou du texte. Il est donc construit en ajoutant des couches les unes sur les autres. Et les couches ont des composants différents tels que le tracé, des composants des tracés tels que des points, comme le point géographique à utiliser, n'est-ce pas ? Réutilisation de la gamme Geom. Ensuite, les barres que nous utilisons dans notre couche de texte seront également présentes. Les couches peuvent être ajoutées et personnalisées indépendamment, ce qui permet une visualisation complexe et en couches. Les transformateurs statistiques et le diagramme GG fournissent un large éventail de transformations statistiques pouvant être appliquées aux données avant de les visualiser Ces transformations incluent l'agrégation des données, calcul d'un résumé des statistiques, le lissage des données. Le minimal et hautement personnalisable graphique GG minimal et hautement personnalisable offre un haut niveau d'options de personnalisation, vous permettant de modifier presque tous les aspects du graphique, y compris l'accès, les étiquettes, les titres, les légions, les couleurs Ainsi, non seulement il vous permet d'aimer Teams, mais il peut également vous permettre de personnaliser des éléments tels que les axes, les étiquettes, les titres, les légendes, les couleurs, et il propose de nombreux thèmes que vous pouvez appliquer Cette flexibilité vous permet de créer des tracés qui répondent à des exigences spécifiques et correspondent votre style visuel préféré. Support pour le facettage, GG Plot 2 prend en charge le facettage, ce qui vous permet de créer plusieurs diagrammes ou panneaux, d' enchérir sur une ou plusieurs variables de vos données Cela est utile pour explorer et comparer différents sous-ensembles ou catégories au sein de votre jeu de données Intégration à notre diagramme GG pour une intégration parfaite à nos packages et à nos outils de manipulation de données. Vous pouvez facilement combiner le graphique GG 2 avec des bibliothèques de manipulation de données, telles que playa et tidy R pour prétraiter et transformer vos données avant ensemble, le diagramme GG fournit un cadre puissant et intuitif permettant de créer une grande variété de diagrammes de dispersion médullaires de Jason, allant de simples diagrammes de dispersion à plusieurs panneaux à facettes complexes Il est devenu l'un des packages de les plus populaires et visualisation de données les plus populaires et les plus utilisés dans R en raison de sa flexibilité, esthétique et de l'accent mis sur de bons principes de conception. Maintenant, nous avons également les connaissances de base du diagramme GG. Examinons cet enregistrement et créons quelques tracés de base à l'aide de GG plot two. J'ai donc créé un fichier de script R à deux points GG plot. Et ici, nous allons essayer d'utiliser le diagramme GG pour créer un graphique et un tracé de base, et nous essaierons de comprendre les différentes couches qui y sont ajoutées. La première chose à faire est d'installer le package ggplot2 Donc, s'il n'est pas installé dans votre RStudio, vous pouvez le faire en exécutant le script install.packages, et vous pouvez donner le nom du package GG Une fois les packages installés, vous pouvez les utiliser en écrivant une bibliothèque, puis en indiquant le nom du package ici. Cela vous permettra donc d' utiliser le package GG plot. La première étape consiste donc à charger le package, installer et à charger les packages. La deuxième étape consiste à créer un nuage de points de base. Donc pour cela, ce que je vais faire, je vais d'abord créer un DataFrame Donc, pour créer un DataFrame, je vais créer une variable ici Ensuite, j'utiliserai data.frame pour créer un DataFrame. Et ici, je vais fournir les points x, le vecteur x, le vecteur c12, 345 et y et l'axe y pour l'axe y et les cadeaux, voir 246810 Donc 12 243 648,5 dix seront les coordonnées de notre. Ainsi, je vais créer un DataFrame. Maintenant. Je vais créer un nuage en utilisant GG. Le graphique 2 est assez simple Nous allons utiliser la fonction GG plot ici, GG plot. Ensuite, nous fournirons les données, ce DataFrame que nous avons créé Les données à partir desquelles vous souhaitez créer le diagramme. Les données vous le donneront, puis la prochaine étape est l'esthétique. L'esthétique donnera les axes x et y sur lesquels vous souhaitez tracer les points. Donc x est égal à x et y est égal à y. partir de là, il faudra, puis nous donnerons le tracé, désolé, plus le point de géométrage Donc, geom point, nous allons tracer les points. Il prendra les points du diagramme d'urine. Alors laisse-moi m'occuper de ça. Alors voyez ici maintenant que notre nuage de points est prêt. Vous voyez, le premier point est un deux, l'axe X et l'axe Y Ensuite, 242,4 à 4 sont tracés ici, puis 36, puis 4,5 Ces points ont donc été tracés correctement à l'aide du graphique GG 2 Alors laissez-moi vous expliquer un peu plus à ce sujet. Nous créons donc un DataFrame appelé data avec deux colonnes, x et y. La fonction Gg plot initialise un objet de tracé GG qui texte le DataFrame Et puis la fonction esthétique que nous avons utilisée ici pour prendre la fonction spécifie l'esthétique faisant correspondre l'axe X à l'axe X et l'axe Y à l'axe Y. Nous mappons donc ici l' axe X sur les axes x et y. Pourquoi ? Ensuite, les polices geom point et ajoute les points au tracé Donc, la fonction du point de géolocalisation, ce qu'elle va faire, elle en prendra les points et tracera les points sur le tracé Maintenant, nous allons essayer de personnaliser l'intrigue. Donc, ce que nous allons faire, essayer de personnaliser l'intrigue en fonction de son apparence. Personnalisez donc l'apparence de l' intrigue. Nous allons donc utiliser ici la fonction de tracé GG. L'esthétique des données sera la même. Et puis plus Geom Point. Ensuite, après le point de géométrage, nous allons donner un suintement égal à 21 La couleur de remplissage sera bleue et la couleur noire Et des sites, je vous en donne trois. Ensuite, nous utiliserons la fonction Labs pour créer un titre. Le titre du diagramme sera donc le nuage de points. Et puis quel axe x, nous lui donnerons le nom axe x et axe y leur donnera axe y. Encore une fois plus. Ensuite, nous utiliserons, nous utiliserons le thème ici et nous utiliserons le trait de soulignement du thème, ce que nous allons utiliser au minimum, oui Permettez-moi donc d'abord de l' exécuter, puis vous expliquer les différents points à l'utilisateur. Notre nuage de points est maintenant prêt et vous pouvez voir Une fois que j'ai été tracé ici, mais comme nous l'avons ici en bleu, les points sont remplis de bleu et la partie extérieure est comme nous l'avons ici en bleu, les points sont remplis bleu et la partie extérieure Nous avons donc ici donné du noir. Si je le mets en orange, et si je le lance. Maintenant, alternez les parties en orange. Alors permettez-moi d'augmenter légèrement jusqu'à neuf. L'adresse IP et la taille du bénéficiaire et du port sont 31, désolé. Vous pouvez donc voir ici que la taille a été augmentée. OK. C'est donc le pantalon YuJa see qui, selon moi, est bleu si tu le mets en jaune Cela deviendra donc jaune. D'accord ? Ainsi, nous pouvons personnaliser et vous pouvez le faire fonctionner. Et voyez, voici le nuage de points qui se dirige vers le bas, et les axes X et Y vont arriver l' Et l'équipe que nous utilisons est minimale. Alors laisse-moi recommencer. La taille sera donc correcte. Ensuite, il y a la police Geom Point, certains textes qui ne sont pas des arguments pour personnaliser l' apparence des points Ici, nous disons que le bénéficiaire est un cercle complet et une couleur de remplissage allant du bleu, contour de la couleur au noir et une taille trois C'était donc le plus tôt. Nous avons maintenant changé niveau des deux côtés appelé la couleur extérieure est orange, couleur de remplissage est jaune. OK. Vous pouvez mettre F1 en sélectionnant point de géométrage et cela vous donnera la description du point de géométrage, l' Algoma et la cartographie D'accord ? Si vous souhaitez en savoir plus, vous pouvez aller en savoir plus sur le point de géométrage auprès de vous Enregistrer. Vous pouvez le voir ici si vous voulez en savoir plus sur le CEP, vous pouvez venir ici et vous pouvez en savoir plus sur les produits sûrs L'esthétique sûre peut être spécifiée à l'aide d'un entier (0,225) ou d'un caractère unique, qui utilise les caractères du symbole de traçage pour sécher plus petit rectangle visible d'environ un pixel Et cela ne dessinera rien correspondant à une variable discrète. Donc, si nous en mettons 25 ici, voyons ce qui est tracé ici L'autre triangle a été tracé si on en met deux. Donc, comme vous le voyez, le triangle sans remplissage, accord, alors l'un d'entre eux sera le rectangle. Le premier est le cercle cinq. Si vous en mettez cinq différents, répétez ce rectangle. Alors, pour huit, voyons ce qui est tracé ici. OK, lignes 11. Vous pouvez donc voir, explorer et utiliser d'autres choses, d'accord ? Ensuite, nous avons les laboratoires qui ajouteront le titre à l'axe X, axe Y et au Alors Tim minimal est la fonction qui s'applique au thème minimaliste de l'intrigue Nous pouvons utiliser un autre thème qui est le noir et blanc. Ensuite, nous allons apprendre à ajouter plusieurs couches et des annotations à notre graphique Donc ici, tout sera au même point de géométrage. Sur ces objets, il y aura la même ligne géométrique. Nous allons ajouter une ligne géométrique afin qu'une ligne soit dessinée, puis nous allons écrire du texte ici Ainsi, les decks eNodeB x sont égaux à trois, y est égal à zéro, et les laboratoires de niveau 999 titrés donneront la même valeur et l' équipe les utilisera Alors allons-y. Alors voyez ici maintenant, une ligne génomique a été tracée en joignant les points. Et voyez ici pour 3,6, 3,6 points. Nous avons écrit des textes, donc l'alignement du texte est écrit ici, ligne étiquetée. Vous pouvez le remplacer par n'importe quoi. Supposons, supposons que vous vouliez écrire quelque chose ici et que vous l'exécutiez simplement. Maintenant, tout est écrit. Vous pouvez donc tout mettre ici. Donc ligne. Nous allons donc recommencer. Quoi que tu écrives, ça arrivera ici. Donc, ici, par 3,6, l'axe X est trois et les vagues sont six Nous l'avons annoté sans texte, et nous avons donné les textes et le nom du niveau sous forme de ligne OK, et l'équipe que nous utilisons est minimale. OK, la prochaine étape est de géométrer la ligne de Sonata jusqu'aux intrigues, annotez une fois et réutilisez-la pour ajouter une notation Ici, le texte spécifié à afficher ainsi que les coordonnées x et y. Et vous pouvez modifier les niveaux x et y augmentés par la fonction d'annotation. OK, passez ensuite au réglage rapide et aux thèmes. Nous pouvons donc utiliser des facettes pour ajouter plusieurs tracés à un lot. Pour cela, nous utiliserons le data.frame créer une facette de soulignement de données variables, un data.frame et data.frame Les points X et y seront donnés puis regroupés. Ici, je crée un groupe chaque point soit rattaché à un groupe E, a, B et C. Nous avons donc maintenant des groupes ici. Maintenant, exécutons ça. Et puis créez maintenant notre nuage de points à facettes. Permettez-moi donc d'abord de créer les nuages de points. Nous avons maintenant les points. Et puis d'autres catégories ou groupes ABC sont là. Donc Geom Point, tout sauf le rap. Et ici, nous allons fournir le groupe, d'accord, ce panneau et le groupe reprendront le groupe à partir d'ici et il fera des facettes Maintenant, nous avons des groupes ABC et tout le reste est pareil. Nous utilisons une fonction minimale. Encore une fois, fonction d'encapsulation des traits de soulignement à facettes est utilisée pour créer un graphique à facettes basé sur la colonne des groupes, chaque groupe étant Harris sur panel hockey Nous allons maintenant changer le thème en noir et blanc. Le thème souligne v, w. Nous allons l'utiliser, et nous verrons ce qu'il va voir ici Maintenant, le thème a été changé et maintenant il est clair, oups, ABC Il doit y avoir un point B pour que le point C ait un point. OK. La chanson punk à thème So be change l'intrigue, lui en noir et blanc. Et cette intrigue GG 2 comporte divers thèmes intégrés tels que le soulignement minimal, soulignement classique et le thème de soulignement gris Permettez-moi donc de copier ceci et d'essayer d' utiliser le trait de soulignement gris T. Maintenant, il est en gris. Et puis l'équipe a souligné le classique. Le classique, c'est comme deux groupes ici et puis des points. OK, alors faisons-le faisons-le aujourd'hui. D'accord ? C'est donc la base du diagramme GG pour I. Je suppose que vous apprenez et je vous encourage à vous entraîner davantage en créant des points et en traçant divers tracés Et en jouant avec les points de géométrage, en ajoutant les labos, je pense que c' la même chose de jouer avec les mêmes segments de jambes Je me demandais 25. Vous pouvez donc mettre différentes formes et essayer de déterminer ce que les nombres signifient pour la même chose, d'accord ? Voici donc les choses que vous pouvez faire 98. Tracé de schéma et tracé jitté: Bonjour et bon retour. Dans cette conférence, nous allons découvrir un autre élément important du traçage, à savoir un autre élément important du traçage nuage de points et le diagramme Alors laissez-moi vous dire que nous allons voir un exemple. Et pour cela, je vais utiliser le jeu de données intégré, c' est-à-dire le jeu de données Iris, qui est disponible avec R. D'accord ? Permettez-moi donc de vous expliquer brièvement ce que doit être un nuage de points si vous savez ce qu'est un nuage Mais pour vous rafraîchir la mémoire, je vous dis que les nuages de points sont similaires aux graphiques linéaires, qui sont généralement utilisés pour le traçage Le nuage de points enregistre dans quelle mesure une variable est liée à La relation entre les variables est appelée corrélation, qui est généralement utilisée dans les méthodes statistiques. D'accord ? Voici donc la définition du nuage de points. Et pour ce pari, pour cette conférence, je suis un accord écrit à la main Et ici, j'utilise le jeu de données sur l'iris, données très connu qui contient des mesures de votre empreinte, des fleurs d' iris, fleurs d' iris sépales et de la longueur des pétales et de tout son contenu Pour cela, nous avons besoin du jeu de données iris intégré aux données de notre package, puis nous avons besoin tracé GG à partir de ce que nous avons déjà téléchargé Et s'il n'est pas téléchargé, vous pouvez utiliser install.packages et le nom du package GG plot two Et il réinstallera le fichier téléchargé et installé sur votre RStudio Ensuite, pour utiliser le graphique GG 2, nous devons utiliser la bibliothèque puis nous devons transmettre le nom du backend Donc, bibliothèque GG plot pour vraiment nous permettre d'utiliser les fonctions de tracé GG. Ensuite, pour charger le jeu de données iris, il suffit d' écrire des données. Ensuite, nous devons transmettre le nom de l'ensemble de données. Le type de données est l'iris de données Cela chargera l'ensemble de données d'iris. Et lorsque vous cliquez sur ce jeu de données sur l'iris, vous pouvez voir ici qu'il contient l'œil, cette queue de Floride, c' est-à-dire la longueur des sépales, largeur des sépales, la longueur des pétales, largeur des pétales Il y a donc des espèces. D'accord ? Donc, dans ce jeu de données, les objets à propriété unique sont présents et des étiquettes privées, une par ligne p et cinq colonnes, se trouvent dans ce jeu de données. OK, alors laissez-moi revenir au code. Maintenant, ce que nous allons faire, nous allons le faire, nous allons créer un nuage Pour créer un nuage de points, nous allons utiliser la fonction de diagramme GG et nous allons utiliser le nom du jeu de données ici C'est un jeu de données pour le jeu de données Iris. Ensuite, pour des raisons esthétiques, pour l'axe X, nous allons tracer la longueur des sépales et l'axe y. Nous allons tracer la largeur des sépales. Ensuite, nous utilisons la fonction des points de soulignement du génome pour tracer ces points C'est assez simple. Gg trace la fonction puis le nom du jeu de données plutôt que l'esthétique. Nous devons transmettre les coordonnées x et y. Ainsi, la barre x et la coordonnée X utiliseront la longueur des sépales. Et pour la coordonnée y, j'utiliserai la fonction de largeur des sépales et de point de géométrage pour tracer ces points, des points géométriques Ainsi, lorsque nous l' exécutons, nous obtenons ce nuage de points ici Maintenant, tous les points sur la longueur et la largeur des sépales ont été tracés Nous utilisons maintenant la fonction de tracé GG pour n'importe quel objet de tracé GG à curseur et nous spécifions l'ensemble de données C'est ce que nous faisons ici. Ensuite, la fonction esthétique, ici, nous sommes en train de perdre la fonction esthétique. À l'intérieur du diagramme GG, définissez les mappages esthétiques en fonction de la longueur des sépales. Ce que nous faisons ici, c'est cartographier la longueur et la largeur des sépales. La longueur des sépales est mappée sur l'axe X et la largeur des sépales est mappée Et la fonction geom point ajoute des points au tracé. Nous obtenons ainsi le nuage de points, donc vous le déformez. Nous utilisons donc la fonction de tracé GG à l'intérieur de laquelle nous transmettons le nom du jeu de données. Ensuite, nous allergisons la fonction esthétique pour attribuer les coordonnées Mappez cependant, avec le nom de la colonne ou avec les x. Ainsi, x est égal à ce que l'on appelle les sorties et à la largeur des points de sépales sur l'axe Y. Ensuite, nous utilisons la fonction de point géométrique Jin pour tracer les points sur le nuage de Nous obtenons donc ce complot. La prochaine étape est de personnaliser le nuage de points. Donc, la personnalisation passera à nouveau. Nous allons utiliser le diagramme GG. Nous dessinons d'abord l'intrigue. Donc, pour ce diagramme GG, ensemble de données nommez cette esthétique. Ici, esthétique, c'est la même chose que nous lisons. Et ce que nous personnalisons. Nous personnalisons en y ajoutant une couleur. La couleur est donc égale à l'espèce. Ainsi toutes les espèces seront des espèces spécifiques, la longueur et largeur des sépales spécifiques seront colorées Ainsi, pour chaque espèce , une couleur sera attribuée. La couleur est donc appelée espèce. Ensuite, nous utilisons Geom Point. Et ici, et ici, nous venons de tracer les polices Geom Point. J'utilise ici la fonction geom point que nous allons personnaliser en y ajoutant des arguments, comme psi est égal à trois et alpha est égal à 0,7 Ensuite, avec la fonction labs, nous attribuons le titre, donc le titre du nuage de points, nous allons donner un nuage de points pour largeur des sépales pour l'axe X donnera le nom longueur des sépales, et l'axe Y donnera Et puis le thème ici, nous utiliserons le thème t match, un thème minimal, et c'est ce qu' on appelle fonction minimale. Nous avons pu utiliser le thème minimal et minimaliste. Alors traçons cela et nous en discuterons plus en détail. Vous pouvez donc maintenant le voir ici, puisque nous avons donné les espèces écologiques. Donc toutes ces espèces, il y en a trois et trois couleurs ont été attribuées. Donc en regardant cela, on peut dire que le vert est pour le versicolor, car le rose est pour la setosa Virginica est bleu foncé. Bon, maintenant comprenons un peu plus. Nous ajoutons donc des couleurs que vous appelez argument à deux espaces fonction esthétique pour colorer les points en fonction de cette précision de l'œil. Ces diagrammes dont nous avons déjà parlé, l'argument des côtés dans le point de soulignement géom définit la taille du point Maintenant, il y en a trois. Si je fais en sorte que cela soutienne nos 15 ans, se passera-t-il ? Ainsi, les points seront des informations plus importantes. Si vous voulez voir, voyez ici maintenant la partie dorsale plus grande. Donc, selon les exigences, vous pouvez, si vous en mettez un ou cinq, sera comme ça, d'accord ? Maintenant, il y a autre chose, alpha égal à 0,7. Alors, quel est cet argument alpha ? L'argument alpha contrôle cette transparence. Donc, si je le mets, si je l'augmente à un, que se passera-t-il ? Voyons voir. Tu vois qu'il fait plus sombre, non ? Si je mets du vent, un, je vois qu'il ne fait pas si sombre. Et si je mets 0,8, il fera plus sombre. Martin, plus foncé. D'accord ? Je vais donc activer cet ampèremètre qui contrôlera la transparence des points OK. La fonction Next Thing is left est utilisée pour définir le titre du titre et les étiquettes des axes. Ainsi, pour les niveaux d'accès, sur l'axe X, nous avons la longueur des sépales, sur l'axe Y, nous avons donné Et le titre du nuage de points, nous avons un diagramme de dispersion donné de l'échantillon en fonction de la longueur des sépales en fonction de la largeur des sépales . Et le thème met l'accent sur le minimum de points et le minimalisme. Mais l'intrigue. Si nous pouvons le mettre ici, si je le répète et si j' utilise le thème souligné par VW en noir et blanc une fois , que se passera-t-il ? Voyons voir. Rien n'a beaucoup changé. Nous allons maintenant entrer dans le jitter plot. Alors, quel complot agité ? Les diagrammes de données incluent des effets spéciaux grâce aux nuages de points qui peuvent être représentés Un effet spécial permettant de représenter des nuages de points. Cela ajoutera donc l' effet spécial au nuage de points. Le détail n'est rien d'autre qu' une valeur aléatoire attribuée aux points pour les séparer. D'accord ? Vous pouvez ainsi voir si votre jeu contient des valeurs dupliquées et, lorsque vous tracez le nuage de points, les points se chevauchent Ainsi, dans ces cas, si vous voulez savoir quels sont les points qui sont des doublons, vous pouvez utiliser cette fonction d'instabilité pour mettre en évidence les points qui contiennent des doublons D'accord ? Jitter n'est rien d'autre qu'une valeur aléatoire que nous avons attribuée aux points pour les séparer. D'accord ? Maintenant, la fonction de tracé GG, l'esthétique du nom du jeu de données, puis le trait de soulignement géométrique gigue et la largeur donneront 0,2, hauteur donnera zéro alpha 0,7, et toutes les autres choses sont presque mêmes et votre équipe utilisera le noir D'accord ? Alors allons-y. Voir ici. Maintenant, les points sont séparés. D'accord ? Voici donc le troisième complot. Nous modifions donc l'axe X, une espèce et l' accès à l'écriture pour cartographier la longueur des pétales et le retour du génome d'un point agité sur le tracé L'argument de largeur. Contrôlez la largeur des arguments gigue et hauteur ainsi que la hauteur de la hauteur définie sur zéro Ce truc régional, l'instabilité verticale de l'argent. Et je vais contrôler la transparence par le Parlement, comme c'est le cas cette secte et pour toutes les autres sectes dont nous avons déjà parlé. D'accord ? Voici comment nous pouvons créer un nuage de points normal et nous pouvons utiliser un diagramme de gigue pour créer un diagramme de 99. Tracé de bars et hostogram: Bonjour et bon retour. Dans cette conférence, nous allons donc découvrir deux autres tracés importants. Les choses ressemblent à un diagramme à barres, puis nous verrons l'histogramme Il s'agit donc de deux techniques de routage importantes , du type de tracés. Alors laissez-moi d'abord vous dire ce qu'est le barplot. Le diagramme à barres est également connu sous le nom de graphique à barres et il est également connu sous le nom graphique à colonnes car il n'est donc ni colonne ni colonne D'accord ? Et il s'agit d'un type de visualisation qui représente des données catégorielles Vous faites des barres rectangulaires. Chaque barre correspond à une catégorie spécifique. Et la hauteur ou la longueur de la barre représente la fréquence, nombre ou la proportion de cette catégorie. Les diagrammes à barres sont couramment utilisés pour comparer différentes catégories ou pour montrer manière concrète comment l'Arabie saoudite a affiché les données de ce groupe. Un graphique à barres est donc essentiellement utilisé pour les données catégorielles OK, alors laissez-moi vous dire comment nous pouvons créer le package de graphes GD que nous allons utiliser Nous l'avons déjà installé. Si vous ne l'avez pas encore installé, installez-le à l'aide de install.packages. Et puis il ne l'a pas fait. Et puis il y a eu une énorme bibliothèque informatique, ggplot2. Et nous allons simplement l'exécuter. Désolée. OK, alors, pour cet exercice, nous allons utiliser le jeu de données Diamonds. D'accord ? Il s'agit donc d'un ensemble de données intégré dans GG plot pour charger des données. Pour charger ces données dans cet ensemble de données, nous devons utiliser les données, puis le nom du jeu de données, à savoir losanges. Ainsi, lorsque vous cliquez sur cet ensemble de données sur les diamants, vous pouvez voir la carotte du diamant, puis la taille, couleur, la clarté, la profondeur, prix du tableau, x, y, z. Ce sont les colonnes du jeu de données. Il y a 53 009, 40 entrées dans cet ensemble de données et dix colonnes au total s'y trouvent C'est donc un grand Dieu, il le fait. Et maintenant, la deuxième étape consiste à créer un graphique à barres, à dessiner. Donc, pour créer un graphique à barres, nous allons simplement utiliser la fonction de tracé GG et ici nous allons leur donner, comment donner à diamond le nom du jeu de données alors aesthetic x est égal à la colonne cut will. Vous pouvez voir ici que la colonne est la colonne sur l'axe X. Ensuite, le génome et la fonction Escobar seront utilisés pour créer un graphique à barres. Exécutons donc ceci et voyons le résultat. Maintenant, vous pouvez voir ici, sur l'axe X, le ruban qui se trouve là-haut, et sur l'axe Y, le nombre de numéros pour cette découpe apparaîtra automatiquement pour cette découpe apparaîtra Tellement juste, bien, très bien. Type de produit haut de gamme et idéal disponible dans notre ensemble de données. Vous pouvez voir ici dans l'ensemble données : prime idéale, bonne prime, très exposition universelle, très bonne. Prime idéale. Je n'ai pas aimé ça. Bon, maintenant nous pouvons voir que notre graphique à barres est prêt. Donc, pour créer un graphique à barres, nous allons traiter de cette fonction Genome Atlas Group, à barres dans le diagramme GG et à l'esthétique, religion x étant égal à cut, elle utilisera donc le graphique à colonnes ou à barres. Nous utilisons le diagramme GG provenant de l'objet de tracé GG du curseur d'image central et nous spécifions le jeu de données Il n'a pas ces diamants. Et fonction esthétique. Inside GG plot a défini le mappage esthétique avec une carte intestinale l'axe X et des fonctions de barre de soulignement geom faisant office de barres du tracé, créant ainsi le diagramme à barres créant ainsi le OK, ensuite, nous pouvons personnaliser ce graphique à barres ou ce graphique à barres en utilisant la fonction geom bar à l'intérieur laquelle nous pouvons faire passer les quatre moteurs diesel égaux au remplissage, afin qu'il se recharge Et ici x est égal à couper et le remplissage se remplira avec la clarté. Nous allons donc utiliser l'axe X pour tracer le type de découpe de Dieu, et nous allons remplir la bouteille avec cette clarté. Donc, plus cette clarté sera grande, elle supprimera les amis avec eux ou avec la couleur. D'accord ? Et puis, geom souligne la barre en cas de dissidence . Et puis des laboratoires. Cela donnera le titre de l'ensemble du graphique à barres, le diagramme barres indiquant la fréquence de coupe en losange et l'axe X, nous donnerons le nom de la coupe et, pour l'axe Y, la proportion Et puis en équipe, tu perds très peu. OK, alors allons-y. Vous pouvez maintenant voir qu'il est rempli d'une clarté de canard. La clarté, c'est comme ça. La clarté a été donnée avec des couleurs foncées, jaune, le vert, le vert clair, le bleu, le bleu. OK. Ainsi, nous ajoutons un argument de clarté du champ dans la fonction esthétique pour remplir les barres relatives à la clarté du diamant. Le mauvais, décent et prolongé est entré dans la barre de géom, pointe vers le bas, ce qui permet de comparer plus facilement les proportions C'est donc celui qui se trouve au-dessus, c'est le plus gros en dehors du terrain. OK. Vous envoyez des personnes pour les remplacer. Et puis les laboratoires fonctionnent. Nous allons ajouter le titre du graphique à barres et les niveaux d'accès. Tim Minimal, créera une équipe sombre et minimaliste pour l'intrigue Voici maintenant l'histogramme. L'histogramme est donc une représentation graphique de la distribution de données numériques continues Maintenant, nous avons vu le graphique à barres avec chacune des données catégorielles Et l'histogramme concerne les données continues ou numériques. Il se compose de barres Topsy Regia, où chaque barre représente une plage ou un ensemble de valeurs spécifique Et la hauteur de la barre indique fréquence ou le décompte des points de données Pauling se situant dans cette plage L'histogramme donne un aperçu la tendance centrale et répartit les données, alignant ainsi l'analyse visuelle de la distribution Tout est donc une question d'histogramme. Créons-en un. Pour créer un histogramme, nous utiliserons le diagramme GG à partir du sin et des losanges du jeu Aesthetic x est égal au prix. Donc, sur l'axe X, nous allons tracer le prix , puis nous allons tracer la fonction d' histogramme Geom Underscore À l'intérieur du terrain GG. L'histogramme. L'histogramme correspondant à la largeur de votre bac donnera 500, puis les laboratoires pour donner les étiquettes et la barre de titre, la barre, notre titre plus loin, mais malheureusement un histogramme Ensuite, l'équipe utilisera le noir et blanc. OK, alors allons-y. Voici l'histogramme. Vous pouvez voir le prix sur l' axe X et la fréquence ici, les prix des diamants bruts supplémentaires. Nous modifions donc ici l'axe X pour ce prix. Et Yom souligne la fonction d' histogramme, ajoutez le lot au sang en créant l' histogramme sans contrôler la largeur des bacs de données du Donc, si nous mettons cela comme 100, voyons les changements. La largeur se réduit. Si je crée un Tao Qian, le rouge augmentera Ainsi, 400 ont été signalés. OK. C'est ainsi que nous créons un graphique à barres et élévateurs d' histogrammes pour en savoir un peu plus sur les diagrammes à barres et Instagram Les principales différences entre les diagrammes à barres et histogrammes seront comprises en termes de sang que j'ai acheté, de placement, de modèle, de présentation et de cas d'utilisation Ainsi, en termes de type de données, les diagrammes à barres conviennent aux données catégorielles, où chaque barre représente la catégorie ou le groupe, tandis que les histogrammes sont approuvés pour les données numériques continues C'est donc déjà une différence essentielle car le type de données, les diagrammes à barres des types de données pour les données catégorielles et pour les données numériques ou les données continues, nous pouvons Les barres d'histogramme représentent ces plages ou cet intervalle de valeurs Alors que dans la barre, le graphique, barre représente la catégorie ou le groupe. En termes de placement des barres dans le diagramme à barres, les barres sont généralement réparties de manière uniforme le long l'axe X, avec un espace entre chaque barre pour représenter différentes catégories Dans l'histogramme, les barres qui sont distinctes adolescent et qui se touchent autre car elles représentent des plages continues ou des intervalles de valeurs bêta le long de l'axe x. Il s'agit donc d'une autre différence très nette. Si vous pouvez voir la barre, les graphiques, les barres situées le long de l'axe X et il y a un espace entre chaque barre et qui représentent différentes catégories OK, et il gérait des programmes, des indices tracés sur des données continues, des données numériques y aura aucun espace entre les barres et elles seront adjacentes les unes aux autres. Parce que l'autre point brillant que plages continues dans les dumps de représentation des données dans un graphique à barres, la hauteur ou la longueur de chaque barre représente catégorie spécifique proportionnelle au compteur de fréquence Dans l'histogramme, la hauteur de chaque barre indique que la fréquence ou le décompte des points de données compris dans la plage spécifique sont verts Donc, on parle d'histogramme, parle du nombre de dénombrements qui se situent dans une fourchette particulière Alors que le barplot indique le nombre de comptes dans une catégorie spécifique. Et l'énorme supposition, qui est très claire maintenant que les diagrammes à barres sont couramment utilisés pour comparer différentes catégories, afficher des données concrètes, discrètes, désolées, discrètes, ou illustrer la relation entre variables catégorielles, des variables Alors que les histogrammes sont fréquemment utilisés pour visualiser la distribution ou identifier des modèles, tendance centrale et la diffusion de données numériques continues Voici donc les principales différences entre le diagramme à barres et un histogramme J'espère que cela vous aidera à comprendre et que vous saurez que nous devons utiliser le diagramme à barres et où utiliser l'histogramme 100. Diagramme en secteurs avec ggplot2: Bonjour et bienvenue. Dans cette conférence, nous allons donc faire quelque chose d'inhabituel, ce que nous ne faisons pas. Gg intrigue trop, ce serait très intéressant à faire. Donc, ce que je vais faire ici, je vais créer un graphique circulaire à l'aide du diagramme GG. Et avant cela, laissez-moi vous dire. Gg Plot 2 est principalement conçu pour créer des graphiques en couches et en grammaire des graphiques. Les tracés basés sur les bits ne possèdent pas de géom intégré pour les graphiques à secteurs Le graphique GG ne supporte donc pas le bicarbe. Cependant, nous pouvons toujours créer un graphique circulaire à l'aide de g, g et tracer le graphique 2 en manipulant les données et en utilisant d'autres géoms Voyons donc l'exemple. Alors, première étape, chargez les packages et créez un exemple de données. Nous allons donc utiliser ici le téléchargement bloqué que nous n'avons pas fait. Ensuite, nous utilisons la bibliothèque. Tu en as dessiné deux ? Ensuite, nous créons un échantillon de données. Pour cela, nous utiliserons la catégorie data.frame et les catégories ReLu ABCD et la valeur est ce vecteur C, 13e, 20e, 20, soit 35 OK, alors calculons les données de l'échantillon. Ce sont des données catégorielles, d'accord ? Maintenant, Step Toys et manipulez les données pour créer un graphique circulaire. Alors voici ce que nous allons faire, nous allons calculer la proportion pour chaque catégorie. Donc, les données, lorsque vous créez une variable, cette boîte de dialogue en jaune, puis que vous transformez les données. Et les données seront à nouveau transmises à la transformation, nous allons calculer la proportion ok, valeur divisée par somme. Eh bien, d'accord, alors allons-y. Et maintenant, vous pouvez voir ici que les données sont les suivantes. Maintenant, proposition de valeur de la catégorie, nous avons créé une proportion, nous avons créé une proportion appropriée. Nous avons créé, d'accord ? Maintenant, triez les données par ordre décroissant de proportion de celles-ci Pour cela, nous allons utiliser l'ordre des données, les données. Le profit en dollars le fera. Nous voulons trier en fonction de l' accessoire YouTube car il s'agit des seules données numériques Donc, à cette fin, en décroissant vrai. D'accord ? Ce sera dans l' ordre décroissant. Alors faisons-le. Maintenant, si nous regardons les données, d'accord, c'est un nouvel ordre. Maintenant, la troisième étape consiste à créer le graphique à secteurs, le graphique à barres empilées. D'accord ? Donc GG trace deux, puis nous transmettrons les données. Ensuite, l'esthétique, nous utiliserons x, ne servira à rien. Pourquoi ? Nous allons utiliser des accessoires et remplir la catégorie, accord ? Par catégorie. Et puis la barre géométrique, fonction humaine Escobar donnera une statistique égale à l'identité et la largeur en donnera Alors quelle polaire donnera Y à partir de zéro. Et puis tu dois vraiment garder ce titre. Mon tableau et remplissez-le avec la catégorie. L'équipe utilisera le soulignement du thème à grande échelle. Alors voyons voir. Vous savez, nous avons un graphique à barres montrant la catégorie et voici les pistes. Ce diagramme circulaire, c'est le gâteau. Ils sont dessinés à l'aide de la proportion que nous avons créée. D'accord ? Alors laissez-moi vous expliquer un peu plus pour que ce soit le cas, je vais vous apporter plus de clarté. Donc, dans cette approche, une semaine et transformez le graphique circulaire en un graphique à barres empilées. En manipulant les données, nous calculons la proportion en divisant chaque valeur par la somme de toutes les valeurs La fonction de la barre de soulignement geom associée aux statistiques équivaut à Créez les barres empilées avec le, avec la proportion de produit correspondante la plus élevée. D'accord ? Ensuite, Quad a souligné la fonction polaire. fonction What it will do convertit le graphique à barres en une forme circulaire pour imiter un graphique à secteurs OK, puis les laboratoires donneront le titre, la légende et le thème, souligneront polices Word, supprimeront l'arrière-plan inutile et l'humain donnera une apparence nette Voici comment nous créons un graphique circulaire à l'aide de ces deux éléments. Et je vais vous donner une clause de non-responsabilité ici. Comme je l'ai dit plus tôt, le graphique GG n' est pas pris en charge par un graphique circulaire car il est créé moi-même sur le terrain. Vous devez donc noter que les graphiques à secteurs ne sont généralement pas recommandés pour les données. Nous en avons appris certaines en raison de la difficulté percevoir avec précision les différences d'angle entre les zones des tranches Ou que les types de graphiques tels graphiques à barres ou les graphiques à barres empilées sont souvent plus efficaces pour représenter les données verticales. Ainsi, chaque fois que des données catégorielles sont disponibles, nous ne pouvons pas les utiliser, bien que nous n'ayons pas utilisé le graphique circulaire en bus Nous pouvons plutôt utiliser les bogues ou les graphiques à barres empilées. D'accord ? J'espère donc que cela ajoutera de la valeur à leur apprentissage. 101. Tracés en lignes avec ggplot2: Bonjour et bon retour. Dans cette conférence, nous allons découvrir comment créer des tracés de lignes à l'aide du graphe GG dans notre programmation. Les diagrammes linéaires sont donc utiles pour visualiser les tendances et modéliser des données continues, ainsi que des données séries chronologiques à attacher en continu Nous allons également apprendre à créer des tracés linéaires de base, tracer plusieurs lignes sur le même tracé et à personnaliser l' apparence des lignes. Donc, ce que nous allons essentiellement apprendre, c'est découvrir la ligne Plots. Les diagrammes linéaires, pourquoi nous les utilisons pour visualiser les tendances et les modèles dans des données continues. Diagrammes linéaires, nous ne pouvons même pas nous permettre les données catégorielles. Nous pouvons l'utiliser davantage. données continues, des données numériques, ou quelle plage continue. La portée doit également être continue. Et le meilleur exemple est celui des séries chronologiques. Nous allons également apprendre à créer des tracés linéaires de base. Et nous verrons aussi, nous verrons également créer un graphique linéaire de base. Comment tracer plusieurs lignes sur le même tracé. Et comment pouvons-nous personnaliser l'apparence des voyants. Il y a trois lignes sur la même intrigue, comment pouvons-nous aller droit vers le haut tout en abordant certaines lignes, comme les couleurs ou le genre maintenant, d'accord, alors commençons. La première chose à faire est donc de créer un graphique linéaire de base. Donc, pour créer des tracés linéaires de base, nous avons un ensemble de données avec deux variables continues. Ils présentent généralement des sorties. Ce seront la variable indépendante et l'axe Y, ce seront les variables dépendantes D'accord ? Quelles sont donc les deux choses dont nous avons besoin ? Nous avons besoin de cet ensemble de données. Nous avons évidemment besoin d'un ensemble de données. Et les ensembles de données devraient comporter au moins deux variables continues Et généralement, l' axe X sera la variable indépendante et axe Y représentera les variables dépendantes D'accord ? Notre ensemble de données contenant deux variables continues, l'une pour le sexe, les données indépendantes, précieuses et l'autre, sera donc l'une pour le sexe, les données indépendantes, dépendant. Si indépendant, brillant sur l'axe Y. Donc, pour cela, ce que je vais utiliser, je vais créer un simple tracé d' une droite qui représentera la courbe sinusoïdale. OK, jusqu'à présent, prenons un exemple de leader pour ce que je suis créer et qui dépend de l'axe X, certainement de la variable indépendante Alors voici ce que je vais faire, je vais l'expliquer. Eh bien, je vais créer avec notre séquence Fontan. Et il avait une séquence, je vais mettre zéro virgule deux dans pi et à gauche ou fille, je vais donner cent hockey Cela créera donc la variable aléatoire de poussière X, qui fera apparaître la séquence, puis Y, qui est la variable dépendante, qui dépendra de l'axe X. Et comme vous ne voulez pas aller au Canada, même courbe, le sinus vous et la variable X ici. Donc pour chaque expiration, pour chaque Excel, on attribuera une courbe, cette algèbre et l'axe Y, d' Donc X, j'utilise la fonction de séquence, et ici je passe la virgule zéro 2,2 pi et je l'allonge ou je doute que je donne cent et cette valeur X lorsque je passe deux fonctions sinusoïdales Cela a donc conduit au péché, mon Dieu. Et cette fois, peu importe, elle sera basée sur le X. Donc X est la variable indépendante et les variables dépendantes parce que, pourquoi la valeur ajoutée dépend-elle du X que nous transmettons à la fonction sinus Alors pourquoi la variable dépendante et X la variable indépendante ? Donc, de cette façon, nous allons obtenir les X et Y. Maintenant, la bibliothèque de base Plots ggplot2, nous l'avons déjà installée Alors laissez-moi d'abord vous donner, exécutez cette ligne, deux lignes pour que OK. OK. Donc, voyez yell si nous essayons d'imprimer les valeurs X, donc voyez la valeur X des données que nous avons une tentative rénale à l'aide de la fonction de séquence Et si j'imprime Y, ce sera donc la valeur Y en fonction de la valeur X. Ainsi, à l'aide de ce sinus de X, vous obtiendrez la valeur y, qui sera celle de vendredi prochain Eh bien, maintenant nous avons le Et nous avons les points de cheminement OK, nous allons maintenant utiliser la bibliothèque GG plot two. Et puis ce que je vais faire, essayer de configurer des tracés de ligne. Peut tracer l'une ou l'autre ligne, sans parler de la fonction de tracé GG. Les deux données. Vous allez sur data.frame. Et il avait transmis les coordonnées X et Y qui sont des valeurs X et Y. Les annuli sont la fonction esthétique. Et exit est égal à X et Y est égal à Y. Et en plus, ici, je vais utiliser l' allyle essayé pour tracer une ligne, donc je vais utiliser la ligne de soulignement geom Laisse-moi envoyer ça à C.C. , et maintenant on m' assigne le golf. Donc, sur l'axe X , la fusion des centaines, maintenant, en traçant les exploits et Y et Y. Ainsi, nous remontons Ainsi, nous remontons la même courbe tracée sur les X et Y. Donc X est l'indépendant crédible et Y le dépendant Pour chaque X, il y a une valeur y. C'est donc la même courbe que nous obtenons. La façon dont nous pouvons simplement tracer des tracés linéaires. Des tracés linéaires simples et basiques à mettre en cosinus, comme ça. Donc. Si vous le souhaitez, vous pouvez revenir à l'explication. Ainsi, data.frame X virgule Y créera un DataFrame avec Donc les variables X et Y que nous avons créées ici en utilisant la séquence poumons et la réouverture, les valeurs X et mon passager en plus de la fonction sinus. Nous avons les valeurs Y, X et Y. Nous m'avons vu ajouter de l'eau. Ensuite, nous avons utilisé la bibliothèque de parties DD et vous n'avez pas obtenu Plot and Data is equal to data frame X virgule Y. Cela créera un DataFrame avec des variables X Et puis fonction esthétique, X est égal à XY. Il suffit de suivre ce que cela va faire, cette véritable cartographie esthétique. Ainsi, X va faire une macro sur le X et Y va mapper l'axe Y. Ensuite, passez en revue la fonction de ligne de soulignement geom pour ajouter la ligne aux tracés D'accord ? Cela va donc se faire en ligne. D'accord, voici donc l'explication création de cette ligne simple Tracés UG, X et Y, cet exemple que nous avons créé plus tard Nous allons maintenant voir comment tracer plusieurs lignes sur le même bloc. D'accord ? Alors pour cette conférence, d'accord. D'accord, nous pouvons maintenant ajouter plusieurs lignes au graphique en indiquant que différents ensembles de données regroupent les données à l'aide d'une variable de regroupement À présent, traçons à la fois la courbe du sinus et celle du cosinus sur le même graphique Je vais donc tracer la courbe du sinus et du cosinus sur le même graphique X sera donc la même fonction de séquence, doodle, je ne vais pas acheter un terrain dont la panne s'appelle 100 La valeur X sera donc la même ici. Pourquoi le sinus et le blanc crochètent ces deux variables, alkyde ici et là, je vais passer le signe de l' extrudeuse Je vais obtenir le signe de soulignement Y Valeurs. Et le coût du trait de soulignement Y sera transmis à la fonction de coût. Le coût de X nous indiquera comment souligner les valeurs de coût. D'accord ? Donc, de cette façon, je vais pouvoir faire des boucles pour chaque X. Donc, chaque point X aura sinus de X et une valeur de manioc X, n'est-ce pas Sudbury pour X, nous avons deux scores de Y, un sinus et un cosinus. Et ces deux points, je vais les tracer sur le même plan. Ainsi, pour créer le graphique linéaire avec plusieurs lignes, vous utiliserez la fonction de tracé GG. Et ici vous pouvez voir ici le plan de réhabilitation GG. Et nous avons selon les données, data.frame X virgule Y parce qu'il en avait, pourquoi il n'en avait qu'une pourquoi il Nous avons donc cartographié que VX est égal à X et Y au carré Y. Ici, lorsque vous utilisez la fonction de tracé GG. Ici, lorsque vous Et nous allons utiliser l'opérateur plus ici. Ensuite, nous utiliserons la fonction de ligne de soulignement geom. Et dans la fonction de ligne, nous allons transmettre les données. Cadre. Les données sont égales à data.frame X virgule Y. Ici, Y sera le signe de soulignement Y, non ? Nous avons donc ici même X, virgule Y, simplement parce qu'il n'y a qu'un seul moyen Pourquoi y était-il ? Puisqu'il existe deux valeurs y. Donc ici je vais me donner X virgule Y, X sera le même Donc gamma, pourquoi chaque quart, pourquoi souligner le signe et ensuite la fonction esthétique passeront X est égal à X et Y est égal à Y. Et cadeaux latéraux, signez Et ensuite, nous ferons la même chose avec la question du pourquoi. Les données sont donc égales à data.frame X sera le lecteur X et Y. Pourquoi coûte un endoscope ? Et l'esthétique X s'appelle Reacts OH, ou pourquoi. Et la couleur C'est ce qu'on appelle la récursivité. Voici le titre Courbes sinusoïdale et cosinusoïdale d' Azure. Et X est égal au X majuscule et Y est égal à la fonction de couleur Y majuscule et Tim sera le minimum. Alors laisse-moi recommencer et voir ce qui se passe. Vous voyez maintenant que nous avons la courbe des sinus et des cosinus. C'est le temp1 ici. Et puis nous avons les lignes sinus et cosinus sur le diagramme thématique Au revoir, il y a deux intrigues maintenant. Deux lignes. L'un représente notre honte et l'autre est brillant dans la même chose. Ainsi, nous pouvons tracer plusieurs lignes sur le même bloc. Je vais donc le répéter encore une fois. Voici ce que nous avons fait, nous avons créé un X en utilisant une séquence que nous avons déjà utilisée. En créant le diagramme linéaire de base. Séquence et zéro virgule deux dans pi, puis point, point cent Et ici, pourquoi le souligner ? Parce que nous allons tracer les lignes sinus et cosinus sur le même tracé J'ai donc besoin de deux points, Y points pour expliquer pourquoi soulignement sera le sinus de X et le trait de soulignement Y. cosinus sera le coût du trait de soulignement Y sera le coût du cosinus ZR de X. Donc, ceux-ci, ceux-ci peuvent tenir compte de ces trois X virgule Y signée et X virgule Y égale. Et maintenant je dois tracer ces points. Donc, pour la valeur des données, la fonction de tracé GG. Et là, vous avez placé la trame de données sous la direction de la fonction de tracé GG, l' opérateur plus pour transmettre tout ce que vous voulez Et je vais utiliser la fonction de ligne de soulignement geom. Et pourtant, les données des conseillers sont égales à data.frame X virgule Y est égal au signe de réveil et aux La cire est égale à X, Y est égale au blanc et colorée. Pourtant, la couleur allergique est la même, d'accord ? Et la couleur est égale ou brillante. Et ici, c'est pareil. Seul YOLO va affaiblir Nicée. Et puis le titre donnera aux laboratoires la fonction de donner l'heure. Et X est égal à X et Y est égal pour pondérer une fonction de vue latérale et minimale. Et quand on court, on obtient cette connexion ou on a honte de partir quand c'est le même complot J'ai donc déjà expliqué nous créons deux ensembles de données distincts pour la courbe du sinus et du cosinus en utilisant data.frame X virgule Y, X virgule Hawaï, signe hawaïen et X virgule Y. Y est égal à X virgule Y. Vous pouvez savoir pourquoi cela coûte, d'accord ? que nous créons deux ensembles de données distincts pour la courbe du sinus et du cosinus en utilisant data.frame X virgule Y, X virgule Hawaï, signe hawaïen et X virgule Y. Y est égal à X virgule Y. Vous pouvez savoir pourquoi cela coûte, d'accord ? Et puis chacune est une couche de la ligne Yom. Ici, nous créons essentiellement deux couches de couches de lignes distinctes. D'accord ? Ainsi, chaque ligne géométrique, chaque fonction de ligne de soulignement créera une couche correspondant à une ligne séparée, OK, un signe de parc et une Nous utilisons l'esthétique des couleurs pour les distinguer. Ensuite, la fonction de laboratoire que nous utiliserons nous servira à définir le titre et l' axe des niveaux excédentaires, d'accord ? Et l'équipe souligne l'apparence générale minimale et tendance de l'intrigue à la minimalité Ensuite, nous allons essayer de personnaliser les propriétés de la ligne. Nous pouvons maintenant personnaliser les différentes propriétés des lignes telles que la couleur, la ligne, le type et la taille. Ici, les données d'exemple suivront la même séquence que celle de San Values et recréeront la boucle X where. Ensuite, nous expliquerons pourquoi le signe de soulignement et le trait de soulignement Y coûtent en utilisant les fonctions sinus et cosinus ici et en transmettant la sortie illusoire supplémentaire à l'indépendante où ils le feront de toute façon, le signe de soulignement et la sortie indépendante où ils le feront de toute façon, le signe de soulignement et la soulignement crochet sera la variable dépendante car ces valeurs dépendent du X. Et ici, nous allons créer un graphique linéaire avec Vous ajoutez Plot plus geom line ici, DataFrames, la même chose que nous avons utilisée précédemment Et ici, nous allons utiliser des couleurs. Il va signer qu'un type de ligne est appelé un solide et que la taille ici donne 1,5. Donc, tapez une ligne pleine et dites-le, mais j'utilise la taille pour déterminer l' épaisseur de la ligne. D'accord ? Je laisse donc la version 1.5 ici. Et même chose avec un badigeon. Et puis tout le reste sera pareil. Titre du laboratoire. X est égal à XY est égal à la couleur I. Alors nous allons vous donner ceci, exécutons-le, et maintenant nous les avons. C'est en pointillé et c'est cette épaisseur. OK. Ensemble, nous avons terminé votre saisie de ligne sous forme de tableau de bord, elle apparaît sous forme de ligne pointillée Et nous avons ici votre solide, donc il nous vient comme un solide support. Ils vont porter le score à 111,5. Et si je recommence. Voyons donc ce que vous voyez ici. Maintenant. La ligne pointillée arrive. De cette façon. Nous pouvons augmenter ou diminuer l'épaisseur de la ligne. OK, donc je l'espère J'espère que cette partie explique clairement comment créer une ligne. Tracez dans un graphique GG jusqu'à la prochaine conférence. 102. Visualisation de données avec ggplot2: Bonjour et bon retour. Dans la leçon précédente, nous avons vu comment créer des tracés linéaires. Nous avons également vu comment tracer plusieurs tracés linéaires et comment personnaliser les tracés linéaires. Dans cette conférence, nous allons utiliser d'autres données, diagramme GG pour ajouter de la programmation. Alors, je vais chauffer notre ensemble de données, qui contiendra le nom, quelques noms et le sexe, homme, femme, puis leur âge et le résultat du test. Le score sera répété 100 et bien sûr, d'accord Sur cette base, nous essayons de visualiser ces données, qui contiennent le nom, l'âge, le sexe et le score du test. Nous essaierons de visualiser cet ensemble de données à l'aide de tracés de rayons ou de tracés en direct dans GG, et nous essaierons d'apporter des personnalisations à ce sujet, comme de véritables diagrammes à facettes Et nous allons essayer d'utiliser plusieurs éléments sur ces ensembles de données simples J'utilise donc le jeu de données simple que chacun puisse le comprendre. Avant cela, permettez-moi de clarifier les choses. Commençons donc la visualisation des données avec ggplot2. Et à l'aide de ce jeu de données simple, nous allons essayer de mieux comprendre ce que nous avons appris jusqu'à présent en matière de monopolisation de ggplot2 en Guinée Cela chargera donc évidemment les bibliothèques nécessaires, c' est-à-dire GG plot 2. Donc library et nous allons transmettre la bibliothèque de noms de bucket nommée GG plot. Ensuite, nous allons dendriter l'échantillon de jeu de données que nous utilisons habituellement pour cet exercice OK, donc ici je vais utiliser la graine set one-two-three. Et c'est pour la reproductibilité. Reproductibilité des semences. Parce que vous voyez, nous allons utiliser sample en utilisant la fonction sample. Et il aura entre 18 et 25 ans. Il se déplacera de 18 à 25. Ce sera donc le générateur aléatoire. Donc, ce que je veux faire chaque fois que je veux utiliser cet exemple de données, si j'utilise set.seed, ce sera le cas, les données ne seront pas régénérées Une fois qu'il sera généré pour cet exercice, il aura vraiment la même signification. Il reproduira donc les mêmes valeurs aléatoires de configuration. OK, pour l'instant. Donc set.seed reproduira les mêmes valeurs même si nous atteignons la fonction sample, Sinon, si vous n' utilisez pas set.seed à chaque fois, cela créera de nouvelles valeurs aléatoires, de nouvelles valeurs D'accord ? Alors maintenant, nous allons d'abord utiliser set.seed, puis nous allons créer nos variables étudiants Et ici, vous utilisez data.frame. Et ici, le cadre créera la variable de nom et stockera ce vecteur qui contiendra les noms Alice, Bob, Charlie, David, Eva, rank, Frank, Grace, Hannah, Yan et Jack. OK. Ensuite, nous allons créer un autre facteur qui stockera le genre et le genre utilisera le vecteur oui, masculin et féminin. D'accord, et dix par dix, d'accord ? Dix à dix et remplacez vrai. Ensuite, pour Angel, utilisez les échantillons 18 à 25. Et combien je veux, je veux des valeurs finales que j'ai fini par lire pour quantifier et tester le score jusqu'à 210 Discord, je veux les générer en utilisant la fonction d'échantillonnage Nous allons ainsi obtenir les ensembles de données d'échantillons de données. Alors laisse-moi m'occuper de ça. Nous avons maintenant créé l' exemple de jeu de données. D'accord ? Alors voyez maintenant, si nous imprimons l'étudiant, nous pouvons voir votre nom, sexe et Tesco Il avait donc le nom, nous avons donné des noms. Et le sexe a été généré aléatoirement à l'aide de la fonction d'échantillonnage. D'accord ? Les paiements pour hommes, femmes et hommes se font sur place, d'accord ? Homme, femme, homme, femme. Donc, générateur de litres aléatoires, les maris âgés de 18 à 25 ans assignés aléatoirement à ces noms et les résultats des tests ont également été générés nommément De cette façon, nous pouvons créer un exemple de jeu de données. Ensuite, ce que je veux faire, c' ce que je veux faire, créer un nuage entre cet âge et Tesco Je veux voir comment évolue le résultat du test fonction de ce que je veux tracer ou disperser pour obtenir le score pour l'âge correspondant Donc, pour cela, je suis confus : nuage de points, âge par rapport au résultat du test Donc, pour cette allusion, je vais créer un nuage de points variable. Et ici, je vais utiliser la fonction et transmettre l'ensemble de données des étudiants ici. OK, étudiants. Ensuite, je vais esthétiser l' énorme axe X et X est égal aux axes H et Y. Score. Et le point en néodyme, je vais utiliser la fonction de point de géométrage pour tracer les points sur les axes X Et dans votre laboratoire, X est égal à is et c'est pourquoi on l'appelle r2. Score. Et le titre de l'intrigue sera le nuage de points, Age versus Discord Ensuite, j'imprimerai ce nuage en utilisant la fonction rand pour l'afficher ici. Alors laisse-moi juste le garder ici. Et d'accord. Alors regardez ici, nous avons maintenant un nuage de points ici, qui se trouve aux pages 18 à 25, et l'axe Y et la destruction du score, le score du test Donc, pour 18 ans, c' est autour de 85. Donc pour 18 ans, si tu as l'air bien ici. Quelle identité à quatre ans ? Alors voyez ici la thymidine ou à 400 et tracez le graphique. De cette façon. Nous pouvons créer un nuage de points en utilisant le ggplot2. Donc ici, sur la couche esthétique, nous avons donné les axes X et Y, nous avons réussi le score du test. Et nous utilisons la fonction de point géographique pour tracer ces points sur le graphique et votre fonction de laboratoire, nous avons X égal à H. Et pourquoi on l' appelle score de test Et plus précis, le nuage de points par rapport au nuage de points, âge par rapport au foulard De cette façon, nous pouvons l'obtenir en diagramme de dispersion ou en nuage de points. OK, la prochaine chose à faire est ce que je veux faire. Je veux la même explication que j'ai écrite ici et laisser le fichier de données, vous pouvez le parcourir. Et si tu veux, je t'expliquerai à nouveau. Nous allons donc commencer par charger la bibliothèque GG plot pull. Ensuite, nous allons créer l' exemple de jeu de données en utilisant data.frame que nous avons créé ici, data.frame et le nom, l'âge, le sexe et les résultats des tests Ensuite, nous utiliserons la fonction de tracé GG pour lancer le lot et fournir les données. Les étudiants et l'esthétique. La fonction esthétique X est égale à celle de Tesco, qui mappe la variable sur l'axe X. Ainsi, l'axe X sera mappé sur l'axe X et la variable de score sera mappée La fonction geom point est utilisée pour ajouter des points au tracé Ces points seront ajoutés au graphique en utilisant la fonction Geom Point, Geom Underscore Point pour chaque point de données afin de créer un nuage Enfin, nous personnalisons les étiquettes et le titre du tracé à l' aide de la fonction labs. Ici, la fonction Lab sera utilisée pour personnaliser les étiquettes et le titre du Plot. Ensuite, nous utiliserons la fonction d'impression. Henry, mets en pause le nuage de points, le nom que nous avons attribué à ce diagramme, et nous le transmettrons à l'impression et le nuage de points sera imprimé sur notre De cette façon, nous pouvons créer chaque données par rapport à l'échantillon de score que nous avons généré. Ensuite, je veux y ajouter le facettage facetté Le Scatterplot indique le score du test pour chaque sexe séparément OK, ce sera donc le premier bloc. Pour cela, je vais créer un descripteur de tracé variable à la première étape, vous ajoutez Plot. Et il avait un utilisateur. Même DataFrame Ensemble de données sur les étudiants. Esthétiquement, X est égal à X et Y à Tesco. Et il le fera, puisque je veux beaucoup le faire en me basant sur le score du test Each Versa basé sur le pour chaque sexe séparément. Alors ici, la couleur est énorme. La couleur va au sexe, sorte que le sexe sera spécifié par la couleur. Et puis Geom Point. J'avais l'habitude de tracer les points et fonction de laboratoire que nous avions l'habitude de donner. Viennent ensuite le résultat du test et le titre du Seigneur. Et ici, et utilisez la fonction Facet Underscore Wrap. Et voilà, je vais emballer celui-ci. X1 de Mao figurait dans l'appel d'offres. Vous utilisez toujours le genre quatre si je soustrais, OK, alors laissez-moi lancer ça et voir le résultat D'accord ? Maintenant, je peins la peinture et vois que nous avons maintenant l'intrigue à facettes, l' âge par rapport aux résultats des tests par sexe. Donc l'axe X est, encore une fois, et l' axe Y est le code des décès Mais ici, le plan de dispersion de notre Seigneur a été divisé en deux parties, féminine et masculine. Femme ou femme. Le sexe féminin a été tracé ici. Et pour le sexe masculin , cela a été tracé ici. C'est donc une solution claire. Nous pouvons voir ce bureau numérique de quelques minutes ou un bureau féminin appelé Values et sur moi. OK. C'est ainsi que nous pouvons utiliser le diagramme de Fester pour utiliser les données classifiées par sexe D'accord ? Et nous voulons savoir ce qu'il en est de l'explication ? Je vais le répéter encore une fois. Permettez-moi donc décrire ici. Ce que nous avons fait, comme nous l'avons fait auparavant. Nous avons utilisé la fonction de tracé GG pour enregistrer le graphique et fournir les données, les données des étudiants que nous avons créées à l'aide de la fonction d'échantillonnage. Et puis l'esthétique. L'esthétique des polices et X est égal à SY au carré appelé score et Nous avons votre agenda pour cartographier la variable d'âge, appelé agenda pour mapper la variable d'âge sur l'axe X. Tesco est précieux sur l'axe Y, et enregistrez cette couleur pour augmenter la vitesse du vent selon La couleur des points sera donc basée sur l'ordre du jour. Et il y a deux sexes. Naturellement, le mari bicolore utilise le rouge et le bleu. D'accord ? résultera donc en résultera donc des couleurs différentes pour les étudiants masculins et féminins. donc utilisé du Cl pour les hommes et On a donc utilisé du Cl pour les hommes et les femmes de différentes couleurs. Et c'est parce que nous avons une couleur énorme, c'est ce que l' on appelle le genre, d'accord ? Le point de géométrage des années Sandy permet de créer le point de dispersion pour chaque point de données que nous avons déjà vu Et nous personnalisons les niveaux, le titre et l'intrigue. Vous n'avez pas eu la dernière fonction que nous connaissions déjà. Ensuite, le laboratoire Facet Underscore. Et ici, nous allons passer que la dysfonction sexuelle créera des panneaux séparés, des facettes sur ces deux panneaux, masculin et féminin Vous pouvez voir ici que c'est ce que l'on appelle des visites. emballage à facettes et soulignés créera deux panneaux distincts qui seront d' abord définis pour Nous avons donc dépassé le sexe. Ainsi, en fonction du sexe, il y a eu deux facettes deux panneaux représentant les points D'accord ? Cela signifie que cette parcelle sera divisée en deux sous-parcelles D'accord ? S'il y a trois genres, comme masculin, féminin et neutre, alors il sera divisé en trois parties, d'accord Intrigues secondaires. Une entreprise a parcouru le kilomètre jusqu'à l'heure d'exécution, une autre étudiante Et la fonction d'impression sera utilisée pour afficher le nuage de points à l'écran OK, voici donc l'explication pour créer un nuage de points et faciliter le blocage Ensuite, nous allons créer un diagramme à barres. Et ici, nous allons utiliser le genre. Ce que nous voulons tracer, nous voulons tracer le sexe par rapport au code de test en utilisant la valeur moyenne du résumé. Nous allons donc ici créer un diagramme à barres. Et un graphique à barres sera créé sur la base de ces deux variables, le sexe par rapport à Tesco Nous allons comploter. Et ce que nous allons utiliser ici, vous allez utiliser la valeur moyenne, le résumé. Voyons donc ici alkylé partout où il est bar et est appelé plot Et j'utiliserai la fonction de tracé GG en tant qu'ensembles de données. esthétique X des étudiants est égale au score du test de la racine carrée selon le sexe. Et je vais utiliser l'opérateur plus. Et ici, je vais utiliser la barre de soulignement géométrique pour créer le graphique à barres ou le graphique à barres. Et ici, je vais vous dire que statique est égal à résumé. Et la fonction sera la fonction principale ici et remplira chacune d' elles comme stable. Il sera donc reconstruit avec le bleu en acier. Et la fonction sera créée sur le MDA, sur la valeur moyenne ou moyenne de Somebody et stack sera le résumé Donc résumé, je vais résumer par les valeurs moyennes et rire fonctionnel, énorme, écologique, sur l' axe X, le genre et Y, X, X est vraiment avec un score de test moyen sur un score de test moyen Et le titre sera accompagné d'un diagramme à barres, sexe était le résultat moyen du test et le graphique à barres d'impression. Alors laissez-moi lancer ceci et voir le résultat que vous voyez. Et maintenant, nous avons le bar Plot pour hommes et femmes. Et ici, sur l'axe Y nous montrons le score moyen du test, un homme et une femme Jusqu'à présent, le score moyen des femmes aux tests est le suivant. Pour moi ? Je suis juste le résultat d'un test. De cette façon, nous pouvons créer le diagramme à barres. Alors voilà, si vous voyez l' explication chaque semaine, nous vous le dirons. Nous allons donc utiliser la fonction de tracé GG pour lancer le tracé. Esthétique. X est égal au sexe ou score de test au carré Y fait correspondre la variable genre à l'axe X et la variable de score au test à l'axe Et la fonction Escobar consiste à créer un graphique à barres. Et nous nous asseyons. Stat est appelé résumé des deux et phon est égal à ce que deux fonctions principales seront calculées et affichées. Le score pour chaque dôme. La moyenne de leur score sera affichée et le champ qui limitera la quantité de colle sera la couleur de la fourrure au Barstow Le bleu, la couleur des barres. Et nous avons personnalisé les niveaux en utilisant la dernière fonction que nous connaissons déjà. Ensuite, nous allons utiliser la fonction d'impression pour imprimer le tracé à l'écran. La prochaine étape est de créer un boxplot. Genre ou discours, pareil. Donc, ici, le diagramme GG, la fonction, l'actif échoué, esthétique X est égal au sexe loin du score du test sur l'axe Y et à remplir librement par Et nous utiliserons la fonction geom underscore boxplot pour créer le boxplot et la fonction latch sera utilisée pour donner le titre de la barre et le nom des axes X et Y et l'imprimera simplement boxplot pour créer le boxplot et la fonction latch sera utilisée pour donner le titre de la barre et le nom des axes X et Y et l'imprimera simplement. Alors allons-y. Nous avons maintenant un schéma, le sexe par rapport au résultat du test L'axe X représente le sexe et le résultat du test sur l'axe Y. Et voici le box plot pour les hommes et les femmes. Donc tu peux voir, d'accord. Donc, sur cette base, vous pouvez faire une analyse plus approfondie, d'accord ? Quoi que vous en fassiez, boxplot, premier quartile et toutes ces choses, vous pouvez vous détendre La même explication que Gorgias, DG, a tracé pour initier l'esthétique de l'intrigue pour cartographier les vents et fonction Young boxplot utilisée pour créer Et nous personnalisons en utilisant la dernière fonction print. D'accord ? Et ici, vous pouvez voir les deux cases, une pour chaque sexe, masculin et féminin. Les cases Entropie dans l' intervalle interquartile que je vous ai déjà indiqué La ligne à l'intérieur de la case représentant la moyenne, valeur médiane et les points extérieurs aux valeurs minimale et maximale au sein d'un quartile de l'exercice fiscal 2015, d' un intervalle interquartile interquartile Et les points forts sont que les moustaches sont considérées comme le dernier point en dehors de ce risque , car lorsque nous en appelons moins donc l' analyse que vous pouvez effectuer pour trouver des valeurs aberrantes et si c'est le cas, cet ensemble de données ne me suffit pas Là-bas. Cet ensemble de données n'est pas suffisant pour analyser la classe de chiens. Et tout. Il s'agit de l'exemple de jeu de données que nous avons créé en créant simplement les différents tracés. OK, alors la prochaine chose que nous allons faire, créer un histogramme Et ici, nous utiliserons la répartition par âge des étudiants. Ici. Je vais utiliser l'histogramme Je vais créer un histogramme où ils vont tracer la fonction Year GG J'utiliserai le même jeu de données tout en conservant une sortie esthétique égale à H et j' utiliserai la fonction geom histogram geom underscore Hostogram geom underscore Et ici, binwidth, je vais en donner un. Je vais remplir ce tableau, la couleur au blanc, et je vais utiliser la fonction gauche pour donner le nom du tracé et les axes X et Y, puis j' imprimerai simplement l' Voici l'histogramme. Nous les avons créés en disant « OK » Voici donc l'histogramme de la répartition par âge des étudiants OK. Je vais rapidement reprendre l'explication. Encore une fois, nous avons ici la fonction de tracé GG pour enregistrer le tracé , puis le tableau de bord et les données de déformation vers le tracé GG. Et nous utiliserons la fonction esthétique et l'âge parce que nous allons annuler la distribution par âge des étudiants à l'aide d'un histogramme X est donc égal à H et mappez l'historique avec la valeur de l'axe X. Geom souligne les valeurs de la fonction d'histogramme pour créer l'histogramme lorsque chaque barre représente la fréquence, comptez le groupe d'âge spécifique des élèves Donc, ce que j'essaie de dire, c' est que chaque barre représente la fréquence de location de poissons dans une barre d'âge spécifique. D'accord ? Donc, à cette fréquence de la souche pour 20 est-ce que la fréquence va louer combien de brins y a-t-il que vous pouvez voir ? Vous voyez ici des problèmes liés à l'âge. À 24 ans, il n'y a pas d'étudiants, il n'y a donc aucun obstacle. Et le blanc avec un argument en couleur, une barre blanche, l'écart entre ces deux blancs, de sorte que l'écart entre ces deux cette pondération collatérale ne peut pas être soulignée, ne figurera pas Personnalisez ensuite à l'aide de la fonction de gauche. Et l'imprimante utilisant la fonction d'impression est un axe X. Et le président, les différents groupes d'âge et, par hasard, les marques qui ne le font pas, mais je pêchais le loyer dans chaque groupe Donc, ce que 181 c'est pour courir pour 20, il y a des étudiants, donc je critique ou pour le Dataset CF1 18, un seul en fait 20 Et pour 2 012,3 fils, c'est très bien. Si vous regardez ici, pour 23 étudiants, combien de 25 ? C'est Nostradamus. Donc, quand nous, vous examinez les données, la partie D leur convient parfaitement après 24 ans, puis Nostradamus D'accord ? Ainsi, nous pouvons créer différentes licences moyennes nettes en utilisant GG plot 103. Ajouter une esthétique des couleurs aux intrigues: Bonjour et bon retour. Dans la conférence précédente, nous avons vu comment obtenir différents tracés à l'aide de ggplot2 dans notre rééducation manuelle en créant ce jeu de données simple contenant le nom, le sexe Et grâce à cela, nous avons vu comment tracer un nuage de points, qui représentera chaque mot, explique Tesco Ensuite, nous avons vu comment utiliser les polices Geom Point et comment nous pouvons utiliser la fonction Labs Et nous avons vu toutes les explications. Nous avons vu comment créer une intrigue à facettes qui le fera. Les connexions se composent donc de deux parties, comme l'âge et le résultat du test. Basé sur le sexe. Il fera le tri par sexe. Il le sera également dans les deux parties, masculine et féminine. D'accord ? Donc, toutes ces choses que nous avons vues de cette ne seraient pas liées à la rapidité avec laquelle les hommes et les femmes se séparent. donc vu comment nous pouvons y parvenir avec ce lot de parcelles fascinant , qui plus est un nuage Ensuite, nous avons vu comment mettre en place la barre Plot. Et entre l'âge, le sexe et la discorde. Discord que nous avons également vu. Ensuite, nous avons vu comment placer son patron, sa mosquée, son lot, son box plot et entre le genre et le code de test et comment nous le pouvons son patron, sa mosquée, son lot, box plot et entre le genre et le code de test et comment nous Nous avons également vu l'explication de la façon dont nous pouvons analyser les valeurs aberrantes, mais cela sur l'intervalle interquartile et Donc pas tous distincts alors nous avons vu l'histogramme. Vous pouvez faire bien d'autres choses en fonction de vos besoins. Ensuite, je vais vous dire comment ajouter de l'esthétique aux intrigues. Supposons donc que vous ayez regardé Nous avons créé ce graphique, un nuage de points ici Ainsi, lorsque nous voyons le nuage de points, il s'agit du nuage de points comme celui-ci D'accord ? Maintenant, ce que je veux faire, ajouter de la couleur plus tard à l'ordre du jour de cette intrigue. Il en sera donc de même pour la bibliothèque U-Dub et l'ajout de ggplot2. Et voici pourquoi j'ai voulu modifier cette esthétique de cette intrigue. Parce qu'en les regardant, je ne sais pas quel point est masculin ou féminin. Fabriqué dessus. Nous l'avons fait sur le bureau de chaque agent, aurions-nous pu tracer un plan, mais nous ne savons pas, c'est moi Ce score est masculin ou féminin. OK. Je veux mettre les points dans une couleur pour que nous puissions regarder l'intrigue. Je peux savoir que, d'accord, cet être appartient à une femme et que le bleu est pour moi. Nous pouvons donc faire ce genre de choses avec le changement esthétique en ajoutant de la couleur. Nous allons donc ajouter une esthétique chromatique aux intrigues afin de différencier les étudiants des deux sexes. OK, donc voici le même exemple de configuration que Data va créer. Nous devons donc d'abord exécuter la bibliothèque , puis il m'a fallu accéder à cet ensemble de données que nous avons déjà créé. Ensuite, nous allons créer ici un vecteur qui contiendra le mâle, attribuerons une couleur bleue car la mémoire attribuera la couleur rose. Et ce recteur va attribuer à la variable de couleur. OK, donc la même semaine, ce que nous avons créé ici, nuage de points, sera sombre de la même manière Ici, le nuage de points donnera une variable nommée nuage pour vous donner la fonction de diagramme GG Nous transmettrons l'ensemble de données en tant qu'étudiants. Nous l'avons créé, puis nous utiliserons la fonction esthétique. Pourtant, X est égal à H et Y est égal au score du test qui sera le même. La seule chose à faire est que nous allons attribuer un autre paramètre ici, colorier chaque appel en fonction du sexe. Nous allons donc attribuer la couleur en fonction de l'agenda. Et cette couleur proviendra vecteur de couleur que nous avons créé ici. Ensuite, nous utiliserons le point de soulignement géométrique pour tracer le point sur le tracé Ensuite, nous utiliserons la couleur de soulignement de l' échelle dans la seconde Cette fonction sera donc utilisée pour colorer les points soulevés sur l'ordre du jour. La couleur va donc porter sur le genre. Et nous voilà en train de passer, ces polices et cette échelle de couleurs soulignement manuel des couleurs Les valeurs sont égales à Cette valeur proviendra donc de ce vecteur. Masculin et féminin. Le mâle sera bleu et vert. Quand on fait une boucle À partir de là, il choisira la couleur elle sera tracée et fonctionnera en laboratoire Maintenant, nous le savons déjà. Alors laisse-moi juste faire ce truc et voir ici. Nous avons maintenant le nuage de points que nous avons créé. Maintenant, imprimons simplement sur le nuage de points ici. Maintenant, le nuage de points est rose et bleu. Les points qui étaient auparavant d'un Leap Black. Il est représenté en bleu et en rose. Les vents roses appartenaient à la femelle et les vents bleus aux mâles. Ainsi, nous pouvons personnaliser le nuage de points en ajoutant une esthétique des couleurs Laissez-moi donc vous expliquer cela à nouveau. Nous avons créé cet exemple de jeu de données. Les personnes disposant de ce tableau de données de réduction sont le nom, le sexe, l'âge et le score du test d'Eric . Et ici, nous voulons ajouter une esthétique chromatique. Nous avons donc créé notre couleur, nous la vectorions, où nous avons attribué un bleu à la couleur masculine et à la couleur féminine. De cette couleur, nous appuyons sur les barres pour souligner l'échelle, souligner, fonction manuelle Cette fonction va donner des valeurs à partir de ce vecteur de couleur. Et en fait, il attribuera en fonction de l'agenda s'il va attribuer couleur bleue et s'il s'agit de milliéquivalents libres NDA, je pense, d'accord, alors nous avons tracé Nous pouvons faire la même chose avec le diagramme à barres, le diagramme à cases et l'histogramme Alors faisons-le aussi. Donc, ici, je crée un bouton à barre précieux, qui fait un nuage de points, fonction de diagramme GG, j'utilise l' esthétique X des étudiants de Dataset qui est égal au sexe Pourquoi ça s'appelle score. Et je vais remplir avec le genre. Ensuite, j'utiliserai la barre de soulignement geom, sur Tracer le résumé des statistiques et je tracerai avec le résumé avec la valeur moyenne Ensuite, j'utiliserai la balance, le trait de soulignement de l'échelle, le manuel du trait de soulignement Nous avons donc ici la couleur de soulignement de l'échelle, et c'est ce que l'on appelle manuel pour la barre Plot Compétence, soulignement, manuel de soulignement. Et nous allons passer à la couleur à valeur ajoutée. Et puis le labo Swanson sera utilisé par Hedges. Alors laisse-moi m'occuper de ça. Et maintenant je vais imprimer la barre Plot. Tu vois, maintenant, la femelle est tracée. Boxplot, PMM in boxes bring et boîtes aux lettres. Mail bleu. De cette façon, nous pouvons colorer l'esthétique. Bach, Bach bar, complot, désolé. Puis boxplot. J'utiliserai le même ensemble de données . L'esthétique X est égal au sexe, c'est pourquoi on l'appelle bureau ou sexe féminin. Et puis la barre de géométrage, boxplot pour tracer les points, puis le soulignement à l' échelle, le soulignement manuel et vos valeurs lorsque nous colorons et à gauche, le sexe X. Pourquoi Dieu aime le graphique est un boxplot pour les résultats des tests de résistance au genre Et allons-y. Et puis un boxplot aléatoire. Le boxplot Le box plot comporte également des couleurs rose ou féminine et bleu pour le repas OK. Ensuite, nous allons nous occuper de l'histogramme. Ainsi, même fonction de tracé GG pour étudiants esthétique de l' ensemble de données X est égale au champ H. Cela s'appelle l'agenda , puis Geom Underscore Et il voulait donner la bande passante un homme à chaque appel et colorier chaque couleur en blanc. Et puis redimensionnez. Échelle le champ de soulignement et sa commande. Nous transmettrons les valeurs sous forme de couleurs. Ce blanc sera donc la couleur de la bordure, et ce sera fait. Couleurs de l'histogramme en fonction du sexe. D'accord ? Et puis la dernière fonction est l' histogramme d'Israël et la répartition des étudiants Ceci, puis imprimez l'histogramme. L'histogramme indique que je ne l'ai pas fait. La couleur rose et bleue et la couleur de la bordure foncée sont le blanc. Les lignes adjacentes sont blanches. Si tu veux le rendre vert. Exécutons ce programme. Le Nauta, plus ou moins. D'accord ? Donc, cette couleur est pour la limite et cette valeur pour les couleurs que nous choisissons à partir de ce vecteur de colonne que nous avons créé étant une femme et cultivant du formyl, vous pouvez donner la couleur que vous voulez pour donner libre cours à votre D'accord ? Ainsi, nous pouvons ajouter de l'esthétique aux tracés dans ggplot2 J'espère donc avoir expliqué clairement. Et tu peux marcher dessus. Vous pouvez commencer à jouer avec les données de la fonction radius. Vous pouvez creuser un autre ensemble de données et commencer à exploiter les éléments , à les développer, les faire exploser et à commencer à expérimenter des choses La couleur différente, l'esthétique différente. OK, alors rendez-vous lors de la prochaine conférence. 104. Esthétique de l'intrigue de réglage fin: Bonjour et bon retour. Ainsi, dans la conférence précédente, nous avons vu comment ajouter une esthétique chromatique. Nous avons vu comment ajouter des couleurs aux diagrammes, au nuage de points, à barres, au tracé, au diagramme boîtes et à leur stockage Maintenant, j'essaie d' affiner les tracés à l'aide de fonctions de mise à l'échelle. Donc, il faut aussi peaufiner ce qui va bien. Les résultats essaient vraiment de le rendre un peu plus attrayant, tout va bien. Pour affiner l'intrigue, l'esthétique et ggplot2, nous pouvons utiliser la fonction esthétique, la fonction aes pour mapper les l'esthétique et ggplot2, nous pouvons utiliser la fonction esthétique, la fonction variables en fonction de l'esthétique et la fonction d'échelle soulignement de l'échelle a commencé par, il comporte plusieurs fonctions en dessous Nous pouvons donc utiliser les fonctions de compétence pour personnaliser l'apparence des éléments du tracé du rayon. Simplicité, ils peuvent améliorer l'esthétique, adapter les fonctions pour affiner l'esthétique de l'intrigue. Donc, dernière chose à faire, nous allons charger la bibliothèque. Nous allons ensuite créer le même exemple de jeu de données que celui que nous avons créé dans les cours précédents. Ensuite, nous allons peaufiner un nuage de points. Donc, nous ferons la même chose, âge par rapport au résultat du test. C'est la même chose. Ici. Nous allons peaufiner le tout en utilisant fonctions esthétiques et techniques. Le précieux nuage de points que la fonction de diagramme utilisera transmettra le jeu de données Ensuite, la fonction esthétique lorsque X est égal à H de Y est égale au score du test et à la couleur obtenus sur le sexe du gel. Et ici, nous allons utiliser un autre paramètre appelé Save. Et faites des économies. Le type de sauvegarde que nous pouvons associer décidera en fonction du sexe. Et ici, nous allons utiliser fonction geom point pour tracer les points Mais ici, les parties le précisent vraiment. Donc, plus tôt, nous n'avons pas spécifié de taille en points, nous allons en spécifier trois. Donc, les côtés du point de géolocalisation sont égaux à trois. Ce paramètre sera transmis. Ensuite, nous utiliserons le trait de soulignement de l'échelle, soulignement Et il avait des valeurs pour la couleur qui donnera à C. Rector ici le bleu et le rose Et puis pour le CEP, nous utiliserons également des traits de soulignement. Le manuel souligné ici donnera les valeurs. Il en a 16, 17. Cela créera donc divers conseils sûrs que nous pourrons créer, puis nous utiliserons la fonction de laboratoire. Et laissez-moi vous expliquer cela simplement. Lorsque je l'exécuterai, le nuage de points sera créé. Apportons le nuage de points. Alors maintenant vous pouvez le voir ici, maintenant le nuage de points va le créer, mais voyez que le thème des points pour les hommes et les femmes est indifférent voyez que les points sont un peu plus grands car nous n'avons pas spécifié la taille égale à trois. Si je le fais en tartan, que se passera-t-il ? Voyons voir. La taille augmentera et elle bougera, imprimez-la à nouveau. Maintenant, la taille des points est plus grande car nous avons une taille spécifiée égale à 13. Et la couleur que nous avons donnée ici, le bleu et le rose. Donc des couleurs bleues et roses, partie bleutée, une femme et un homme Nous avons donné du rose. Alors le voici. Appoggiature Nous pouvons maintenant corriger simplement. D'accord. Ce n'est donc pas exact et cela ne vous permet pas de calculer la lettre C. Maintenant, les points sont plus grands. Donc, sur la base de ce côté, cela vaut 30 et la couleur vient d'ici et voyez si elle provient de ce tas Quelles que soient les valeurs que nous transmettons ici. Si j'en fais 117, voyons voir. Vous pouvez simplement jouer avec les chiffres et voir maintenant celui-ci s'il y en a un. Ce n'est donc qu'un cercle. Et si je mets un texte représentant le soutien de l'équipe du processus de recuit, je mettrais 88 Et voyons de quel secret il s'agit maintenant. Remarquez que vous arrivez comme ça. Donc, sur la base de ces éléments, vous pouvez voir, si je mets 18, quelles seraient également les mêmes données, vous pouvez voir que vous me laissez les copier. Divisé. Veuillez le voir, et maintenant cela entre dans ce ruban laminé et c'est un triangle. Si j'y arrive. en va de même pour ce qui se produira, disons, si je fais 28, 28 n' a rien à voir avec ça. Nous pouvons y remédier. D'accord. Donc, en fonction des chiffres sur le coffre, cela changera. C'est ainsi que nous pouvons peaufiner les intrigues. Ensuite, nous allons peaufiner la barre Plot. Et pourtant, le score du test sur le sexe et l' inverse signifiaient généralement la valeur du résumé. Nous allons tracer ce que nous avons déjà tracé ici. Le même jeu de données. Esthétique des étudiants, sexe, pourquoi les résultats du test et remplissage par sexe. Et puis la fonction Geom Underscore Bar. fonction Geom Underscore Bar permet résumé et de téléphoner si le trait de soulignement est sensible à la moyenne et à l'échelle Le manuel de soulignement apparaîtra en bleu et en rose. Et c'est une chose simple, il suffit de la coller ici. De même, nous pouvons faire la même chose avec le boxplot. Ceci pour Boxplot. D'accord ? Donc, PDG, maintenant, un point apparaît ici, de sorte que nous avons un bigender fluide non binaire entre les sexes Et ici. De même, nous pouvons faire cet histogramme. C'est ainsi que nous pouvons affiner les intrigues à l' aide de fonctions esthétiques et d' échelle. Les étudiants apprécient le prochain cours 105. Modifier des thèmes, des étiquettes, des titres et des axes à l'aide de la fonction de thème: Bonjour et bon retour. Dans cette conférence, nous allons modifier les thèmes, les étiquettes, les titres et les axes à l'aide de la fonction thème pour modifier les thèmes, les étiquettes, les titres et les axes. Dans GG plot 2, nous pouvons utiliser la fonction du thème ainsi que divers éléments du thème pour personnaliser l'apparence de nos tracés. Commençons donc par un exemple et voyons comment nous pouvons utiliser la fonction du thème pour modifier les thèmes, les étiquettes, les titres et les axes. Donc, très rapidement , nous allons charger la bibliothèque comme cela est relativement indiqué. La prochaine étape est de créer cet exemple de jeu de données que nous avons déjà créé. Alors laisse-moi m'occuper de ça pour l'instant. Maintenant, la prochaine étape est de modifier les thèmes, les étiquettes, les titres, en gros, Banza Donc, à nous de recréer le barplot. Nous allons donc d'abord créer le nuage de points entre l'âge et le code supplémentaire que nous avons déjà créé. Mais ici, nous allons essayer de modifier les niveaux, les titres et les axes du thème à l'aide de la fonction du thème. Le jeûne est donc une bonne chose si les variables se dispersent comme d'habitude, nous utiliserons la fonction de diagramme GG Nous allons transmettre l'ensemble de données, puis nous utiliserons la fonction esthétique. Et ici, X égal à H, Y sera le score du test Color mentionné sur l'agenda et disons « construire sur l'agenda ». Nous l'avons donc déjà fait. Ensuite, les fonctions de point de soulignement geom Sij sont égales à trois Cela tracera les points sur le lot. La taille sera ajustée, les côtés du point seront de trois. Ensuite, nous utiliserons ici les fonctions (scaled underscore color) et DashCon Et ici, nous donnerons les valeurs couleurs bleu et rose et sans danger pour l'exemple, nous donne ces vecteurs 16, 17, nous avons déjà vu dans la diapositive précédente, la conférence précédente comment les formes des points ou des points changeront en fonction des valeurs que nous transmettons ici. D'accord ? Ensuite, le laboratoire que Swanson utilisera pour donner le titre du tracé et le nom des axes X et Y. Ensuite, nous utilisons la fonction minimale de soulignement du thème. Et puis c'est la principale chose que nous allons apprendre dans cette conférence. C'est le thème Function. Donc à l'intérieur du thème Function, ce que nous allons perdre beaucoup, titre à points, nous le donnerons. Et ici l'élément souligné X, ce sera, cette fonction sera utilisée pour donner les côtés du titre D'accord ? Prenez parti pour le titre. Comme un nuage de points avec l'âge, c'était un Tesco. Ce titre proviendra des diagrammes indiquant la taille du texte à partir d'ici à l'aide du paramètre de soulignement, de taxe et de taille que nous allons utiliser ici Ensuite, nous allons indiquer que le visage est égal au gras. Ici, nous pouvons changer le style de la police. Le style de police que nous pouvons changer si vous ne l'avez pas fait face . Si vous avez appelé deux volts en italique comme vous le souhaitez et que vous agissez simplement donner 0,5 et existe un titre de point pour l'axe X et le titre de l'axe Y, nous utiliserons Les côtés du texte soulignés donneront tout ce que vous voulez entendre. Je donne 12 Et puis face bowl. Et puis pour accéder, les textes vous donneront l'élément souligné fonction sexuelle et la taille en donnera dix Et puis le titre du point de la légende, nous utiliserons l'élément. Et c'est ce qu'on appelle une fonction vide. Et des textes de LoginData. Nous utiliserons l'élément sous certains textes. Les côtés indiqueront dix et la position de la légende indiquera en bas. Nous allons donc vous donner le détail ici. Exécutons donc ce nuage de points. Avant cela, permettez-moi de copier ce nuage de points à imprimer, ce nuage Et je vais le dire, il suffit de nous voir sur ce terrain de dispersion planté et en même temps. Alors laisse-moi m'occuper de ça. À bientôt, nous obtenons le nuage de points ici. Et vous voyez, c'est titre de notre intrigue technique que nous avons donné dans un bol ici. si je change cela en 14 à 24, ce sera le cas, plus les textes seront gros, plus la taille des textes sera grande. Alors laisse-moi m'occuper de ça. Maintenant c'est de l'oméga, non ? Il en va de même pour le titre de l'axe si je l'ai donné à 22. Si je lance ça. Voir maintenant le score du test NA ou plus grand. D'accord ? Donc, la façon dont nous pouvons modifier les titres, les niveaux et les axes. OK, alors laisse-moi m'en occuper et 14, en regardant, c' est un nuage de points pour chaque cours OK, ensuite nous ferons la même chose pour le bar Plot. Donc, pour la barre, Plot utilisera également le même ensemble de données. Et nous allons créer une variable de tracé à barres ici, puis un ensemble de données de la fonction de tracé DD. X est égal au sexe. Pourquoi ça s'appelle bureau ou genre. La même chose que nous avons faite plus tôt lors du levage est que nous allons utiliser ce thème Function extra year plot dot title. La même chose que nous utilisons également pour le bar Plot. Je ne vais donc pas prendre le temps d'expliquer la même chose encore et encore. Je vais juste le copier. Et je ferais mieux de faire courir ça à un adulte. D'accord ? D'accord. Alors voyez ici que c' est le mauvais complot. De même, nous allons également faire le boxplot. Voilà donc ce que nous avons déjà fait. La seule chose supplémentaire que nous faisons ici est le thème. la même chose, Elements and Discourse. C'est la même chose. Nous préparons également d'autres boxplot. Et je vais juste y aller et le coller ici. Et lancez ceci pour boxplot. Pour voir le boxplot. Le boxplot, tout a été modifié en conséquence. OK, la prochaine étape est vraiment de faire quoi ? L'histogramme est, les obstacles à la distribution ici aussi, nous avions ce thème Modification de la taille du deck par rapport à la taille de la prise Plot. Alors laisse-moi m'occuper de ça. C'est ainsi que nous pouvons modifier ces thèmes, étiquettes, ces titres et ces axes. Lot utilisé dans ggplot2. Dans chaque thème de tracé, la fonction est utilisée pour modifier les différents éléments du thème tels que le titre du point du tracé, les axes, le titre du point existant ou texte, la légende du point, le titre du point, le texte du point de légende et la position du point du ligand La fonction de texte de soulignement du thème ou de l'élément est utilisée pour définir le site, police et la justification jusqu'à l' Nous utilisons une fonction de soulignement minimale du thème pour commencer par le thème minimaliste, où se trouvent toutes les intrigues, puis personnalisons davantage l'apparence avec le thème Ces exemples montrent comment modifier des thèmes, des étiquettes, des titres et des axes à l'aide de la fonction thème dans ggplot2 Vous pouvez désormais explorer des éléments thématiques supplémentaires et personnaliser davantage l'apparence de vos tracés en fonction de votre visualisation et de vos besoins spécifiques Chaque projet aura sa propre visualisation. Vous devez effectuer cette visualisation ; vous pouvez utiliser ces fonctions et vous pouvez explorer davantage 106. Projet 6: Bonjour et bon retour. Pour cela, nous allons réaliser un projet simple. Vous pourrez ainsi utiliser un ensemble de données du monde réel pour créer une régionalisation des informations Nous travaillons donc avec des ensembles de données réels pour créer licences pertinentes et aspects importants de l'analyse des données, de la science des données et de la narration Passons en revue un exemple utilisant un données réelles pour créer des visualisations pertinentes à visualisations pertinentes Dans cet exemple, nous utiliserons le célèbre jeu de données Iris, qui est facilement disponible par défaut avec le package R L'IDT contient-il les informations sur les différentes espèces de fleurs d'iris, y compris la longueur des sépales, la largeur des sépales, la longueur et la largeur des pétales, ainsi la OK, donc c'est un projet simple qui relu et essaie créer des visualisations, des visualisations Donc, tout d'abord, nous perdons cette bibliothèque, ggplot2. Ensuite, nous allons charger l'ensemble de données iris en écrivant la fonction de données, la fonction données transmettant le nom de l'ensemble de données. Ces deux étapes constituent donc l'étape essentielle pour charger la bibliothèque de besoins charger l'ensemble de données irlandais et explorer la structure du jeu de données. Nous allons utiliser la fonction STR et transmettre le nom du jeu de données. Voyons donc la structure du jeu de données. Vous pouvez donc voir ici qu'il y a un objet par employé ou cinq variables. Cinq variables sont la longueur des sépales, la largeur des sépales, la longueur des pétales, la largeur des pétales et D'accord ? Et puis les valeurs sont données ici. OK, la prochaine étape est de voir le résumé du jeu de données, qui nous donnera les statistiques. Les cinq colonnes, la longueur des sépales, la largeur des sépales, la longueur des pétales et une espèce Et leurs valeurs minimales, quartile écrasé, médianes, valeurs moyennes Troisièmement, les valeurs du quartile et des valeurs maximales pour chacune des variables. D'accord ? Donc, de cette façon, nous pouvons voir l'analyse, d'accord, la prochaine étape est de recharger C'est l'information statistique que nous obtenons en obtenant le résumé de l'ensemble de données. Maintenant, ce que je veux faire, créer un nuage de points pour ce Donc, pour cela, ce que je vais faire, je vais créer une variable de diagramme de dispersion soulignée ici Et je vais utiliser la fonction de tracé GG pour créer le tracé, et je vais l'attribuer à cette variable, puis l'imprimer. Donc, fonction de tracé GG, je vais transmettre l'ensemble de données, le jeu de données Iris. De même, comme dans les conférences précédentes, nous avons utilisé la fonction esthétique ici laisse également la fonction esthétique ici quitte également la fonction esthétique. Et il avait XXS pour la longueur des sépales et la sortie sur l'axe Y. Largeur de point et couleur simples. Construite sur la fonction de point de soulignement des espèces et des géométries que je vais utiliser pour tracer les points sur le tracé et large fonctionnelle, énorme pour conserver le titre de l'axe X, de l'axe Y et le titre du Et puis ici, je vais utiliser la fonction minimale soulignée par l'équipe Ensuite, j'imprimerai ces diagrammes de dispersion. Alors allons-y et voyons comment le sang s'écoule sur le diagramme de dispersion Alors agrandissons-le. Il s'agit du nuage de points que nous obtenons après l'avoir exécuté Alors voyez ici la longueur des sépales sur l'axe X, largeur simple sur l'axe Y et la couleur en fonction Il existe donc deux dosa, versicolor et virginica. Vous voyez, toutes les espèces sont tracées ici en fonction de la longueur et de la largeur des sépales Il s'agit donc du même nuage de points passé que nous avons créé Ensuite le jeu de données Iris contient pour variables numériques, la longueur des sépales, la largeur des sépales, la longueur des pétales, la largeur pétales et une variable catégorielle qui est l'espèce Cette espèce est donc la variable catégorielle. Créons maintenant une visualisation perspicace que vous avez soudainement bloquée. Le premier est donc le nuage de points, nos données que nous avons déjà créées Alors laisse-moi recommencer. Tu obtiens la même chose. Nous allons maintenant créer un boxplot. Donc boxplot, pareil, boxplot GG plot pour vous le faire, puis fonction esthétique Et voici X, X c'est, je vais mettre ces pièces et sur l'axe Y je vais mettre l'hôtel, je vais mettre la longueur des pétales Donc les espèces et la longueur de leurs pétales et nous allons les remplir avec des espèces sombres Et puis Geom Underscore Boxplot. Je vais l'utiliser pour dessiner le boxplot, puis la fonction Laugh appelée title and all Ensuite, j'imprimerai. Alors laisse-moi m'occuper de ça. Voici le diagramme, longueur des pétales par espèce Donc, chacun pour setosa, c'est pour ce boxplot, c'est pour versicolor, c'est pour regarder De même, je veux créer un Et un histogramme que je créerai en fonction distribution de la largeur des pétales entre Donc, pour cet histogramme, la variable DG du tracé du trait de soulignement du gramme, la fonction ggplot2 le fait, elle laissera passer iris que nous utilisons une largeur de pétale X esthétique Et je vais remplir cet article avec leurs espèces, puis l'histogramme, utilisation fonctionnelle de l'histogramme et la largeur de bande, je vais donner 0,1 couleur, je vais donner Il s'agit de la couleur de suppression entre les compartiments. Et je vais donner à 0.7 et Labs une utilisation fonctionnelle pour donner les titres et tout le reste. Et puis le thème minimal que j'utilise ici. Alors allons-y et voyons, oui, c' est la largeur des pétales entre les axes X et Nous avons la fréquence. Et voici la première série de pièces de taille. Verdâtre pour le versicolor et la virginica. Virginica. Du bleu pour la virginica D'accord. Ainsi, nous pouvons créer cet histogramme La prochaine étape consiste à créer un nuage de points à facettes. Et là, je veux montrer la longueur des pétales par rapport à la largeur des pétales pour chaque espèce Pour cela, j' utilise l'axe X, la longueur des pétales, l'axe Y, j'utilise la largeur des pétales et la couleur que je donne, mieux que la vitesse de l'espèce et la taille du point de géométrage la taille du point de géométrage On m'offre trois choses et toutes les autres choses la même année : de l'amitié pour souligner la fonction d' emballage, l'amitié pour souligner la fonction d' emballage je vais m'appuyer sur cette espèce OK, donc cette fonction d'enveloppe de soulignement prédéfinie vous donnera le diagramme de dispersion du professeur Exécutons ceci et voyons le résultat. Nous voyons maintenant le diagramme de dispersion des facettes. Voici l'ensemble des tailles. Il est peut-être préférable d'obtenir un terrain sur l'axe X et la largeur des pétales sur l' C'est pour la setosa, ce vert pour le versicolor et le bleu pour la Voici donc le nuage de points à facettes. Et ici aussi, vous pouvez voir le blocage de la setosa, du versicolor Il s'agit d'une catégorisation claire. D'accord ? Ensuite, ce que nous projetons Under c'est qu'en utilisant ces ensembles de données du monde réel tels que le jeu de données Iris, nous pouvons mieux comprendre les relations et la distribution des variables, identifier les modèles et faire des interprétations pertinentes Bien, vous êtes maintenant libre d'explorer davantage d'intrigues, de taper et de personnaliser l'esthétique que nous avons fait précédemment. Par exemple, vous pouvez modifier les étiquettes des thèmes, les titres, tout ce que nous avons appris dans la conférence précédente et que vous pouvez appliquer à ce sujet et créer votre propre projet. Ensuite, testez les différents ensembles de données. En outre, pour pratiquer et développer vos propres compétences en matière de cours de DWT Il s'agit donc d'un projet simple basé sur le jeu de données Iris pour créer un nuage de points, un histogramme, un nuage de points, un diagramme en cases, cases J'espère que vous avez une idée de la façon dont vous pouvez marcher sur un jeu de données du monde réel. Vous pouvez parcourir l'ensemble de données du monde réel. Merci 107. Gérer les données de date et d'heure dans ggplot2: Bonjour et bon retour. Dans cette conférence, nous allons découvrir comment gérer les données de date et d'heure dans ggplot2 Ainsi, la gestion de la date et de l'heure auxquelles le graphique T2 doit être invoqué, l' insertion de ces données étant correctement reconnues comme la date et l'heure graphique GG peut formater correctement les étiquettes des axes et créer des compétences appropriées Qu'est-ce que cela signifie ? Cela signifie que si vous transmettez les données, données de date et d'heure dans un format correct, vous en tracez deux, occuperez des légumes, objets en traçant et ils n'ont pas collecté d'impôts April enseigne donc objets de date et d'heure cliniquement reconnus Gg plot peut formater correctement les étiquettes des axes et créer des compétences appropriées. Dans notre système, la date et l'heure peuvent être représentées à l'aide de différentes classes, telles que la logique de la ville et les audits, ainsi que les fonctions LD D'accord, nous verrons le projet City et les projets LTE plus tard. Pour l'instant, il suffit de savoir que les données peuvent être représentées à l'aide de différentes classes telles que Logic City et Projects Passons donc à un exemple simple utilisant un ensemble de données contenant des données date et d'heure pour montrer comment gérer la date et l'heure dans ggplot2 Donc, la première chose dont nous avons besoin bibliothèque ggplot2 et de la bibliothèque, quelle mesure ces exemples chargeront ces deux Ensuite, ce que je veux faire, créer un exemple d' ensemble de données et une valeur temporelle. Donc, ici, cela va créer un ensemble de données qui aura la date et les valeurs correspondant à chaque jour. Donc, pour cela, utilisez set.seed 123, afin que j'obtienne les mêmes exemples de données de configuration à chaque fois Quand je lance le programme. Ensuite, pour Data, je vais créer des dates précieuses et je vais, dans quatre jours, je vais perdre une fonction de séquence qui me permet de créer les decks pour moi Ainsi, les fonctionnalités de séquençage Insights vont de l'ajout de Dark pour six villes ajout de Dark Four DX DT Et ici, je vais donner la date de 23 générations, première génération , premier janvier 2023. C'est donc l' origine de la date. Donc, à partir de cette diminution , nous allons commencer, d' accord, ici, je consomme d'un jour. Donc, un jour fera la différence entre chaque date et Lynda Dot Dot sera de 30 30. Je voulais créer 30 jours. Pendant ces 34 ou 30 jours, je veux créer, d'accord ? J'utilise la séquence Ronson et pour les valeurs en utilisant une fonction pnorm impaire, une fonction pnorm Je vais laisser ici le nombre de valeurs que je souhaite créer. Je veux donc obtenir 30 valeurs. Quels sont ces 30 jours ? Ensuite, je veux utiliser la moyenne égale à 50 et écart type soit dix, d'accord ? Et quatre jours, j'ai une fonction de séquence d' union et la fonction de séquence interne que j' utilise est égale à Ag point Cp. Je donne la date de début. Et un par un, pour chaque jour que je vis. Les titres seront créés à partir de 30 jours, seront créés à partir de la première génération, seront imprimés trois Ensuite, je crée un DataFrame, data.frame. Chaque appel à une date ou à une date. J'utilise ces valeurs de test et pour les valeurs, j'utilise cette valeur. D'accord ? Alors allons-y et voyons ce qui se passe. Maintenant, lancez, amenons à la base de données df8, Alors voyez ici. Maintenant, je suis composé de deux colonnes, date et valeurs. Les données commencent à partir de la première génération en 2023 et vont de la première génération à une heure par jour, trois fois par jour Et pour chaque jour, nous avons des valeurs très différentes qui y sont associées. Nous avons donc maintenant des données simples, un exemple de jeu de données, la date et les données correspondantes. Quelle en était la valeur ? Cela peut être n'importe quoi comme le coût d'un article en particulier ou quelque chose comme ça. Nous avons donc une colonne de date et de révision. Nous pouvons maintenant essayer de les tracer à l'aide de ggplot2. Dans cet exemple, nous avons créé un ensemble de données avec deux colonnes, les données le représentant sous forme de données temporelles et la valeur représentant certaines valeurs numériques. OK, alors tout d'abord, que dois-je faire pour créer un graphique linéaire simple avec la date sur l' axe X pour ces tracés de soulignement de lignes précieuses alkylées et auxquels ils font allusion au tracé GG, pour pour Donc ggplot2 et dataset, je vais transmettre le dF que nous avons créé Sachez juste que l'anesthésique X existe. Je voulais mettre la date et l' axe Y Je veux mettre des valeurs, donc X est égal à la date et pourquoi utiliser une valeur Ensuite, j'utiliserai la ligne de soulignement géométrique Human, appelée fonction linéaire pour tracer ces points sur le Et puis ma dernière fonction consiste à donner noms, comme pour l' état de l'axe X, la valeur de l'axe Y et le laboratoire de données, cependant, le tracé est une ligne, la valeur du tracé au fil du temps et le thème, minimal Donc T moins quatre millimoles, puis j'imprimerai le graphique Exécutons donc ceci et voyons quelle est la sortie qui arrive ici. Il s'agit de la commande line plot. La ligne représente la valeur au fil du temps. Donc, pour le 1er janvier, jour et les valeurs Comme nous l'avons tracé ici, par exemple, il y a neuf densités comme celle-ci, d'accord ? Donc, la valeur au fil du temps avec cela, vous pouvez simplement visualiser qu'il produit la deuxième partie du graphique, cette heure de données. Ggplot2 est le plus simple. Sur l'axe X, vous trouverez les données l'axe Y, les valeurs et le reste lorsque nous prenons getaway ggplot2 dans ce vaste diagramme GG pour reconnaître que le contenu de la colonne de date, les données date/heure et les agriculteurs accèdent automatiquement agriculteurs accèdent D'accord. Donc des étiquettes ici. Eh bien, en le créant, nous n'en avons pas donné, comme le format est 01012323 ici, on ne nous le donne pas comme ça, mais GG plot l'a reconnu comme une date, une heure, et a automatiquement attribué les étiquettes Jan à Gemini dans l'équipe Genesis comme ça OK, donc cela a été fait automatiquement, par diagramme DG. Pour savoir ce que nous allons faire ensuite, nous allons essayer de tracer le diagramme des aires avec la date et l'heure sur l'axe X. Donc, un diagramme de surface, un diagramme GG, l'axe X, la date d'Alport l'axe Y au-dessus de l'ALU et rempli avec la fonction de zone de soulignement geom, je vais utiliser pour créer un graphique des aires et les laboratoires quitteront, sortiront, état de sortie, valeur de l'axe Y et zone de titre, tracez la valeur du tracé au fil du temps, thème minimal, et imprimez, imprimez les tracés pour créer un graphique des aires et les laboratoires quitteront, sortiront, état de sortie, valeur de l'axe Y et zone de titre, tracez la valeur du tracé au fil du temps, thème minimal, et imprimez, imprimez les Alors allons-y et voyons. Vous pouvez maintenant voir ici la valeur d' Arial Black au fil du temps et ici aussi stupide et ici aussi les choses qui avaient été prises en charge Et voici la zone Plot créée par did you ggplot2. Sur l'axe X, il y a juste les dates de janvier au 9 janvier, les hommes de nécessité qui sont bénéficiaires, puis 30 Et pour chaque date et valeurs au fil du temps avec Desperate et ainsi de suite selon la zone couverte. Dans ce diagramme, nous avons votre zone soulignée pour créer un diagramme des aires Et GG trace automatiquement niveaux de l'axe X des polymères avec les informations de date. Vous pouvez donc le voir ici. La prochaine étape est de créer un diagramme à barres, avec la date sur l'axe X. Donc, agrégez les données par jour, créez un diagramme à barres. Alors voici ce que je veux faire, je veux lire un diagramme à barres avec le swing, les données pour chaque jour. Pour ductile do LLC, créez un DataFrame et soulignez quotidiennement DF et il a LDF, un DataFrame et soulignez quotidiennement DF et il a LDF, l'opérateur de tuyaux ici. Et j'ai regroupé par date, ajouté une date à points, et ils passeront la date et résumeront par valeur moyenne. Ce sera la moyenne de la valeur. Donc, de cette façon, nous obtiendrons le soulignement quotidien DF, d'accord ? Donc, si je vois bien , c'est le quotidien DF. Date et valeur moyenne. Décrivez-les comme ça, d'accord ? Ce drone a encore deux rangées. D'accord ? Alors maintenant, je vais le mettre dans la barre Plot. Donc barre Plot, barre anti-D ggplot2. Cette fois, j'adore contourner le DF et le transmettre la base de données SQL que nous venons de créer. Et pour une passe fonctionnelle esthétique, X est égal à la date et Y est égal à la valeur moyenne. date proviendra donc de cette date et la valeur moyenne qui découlera de la peur. Et voyez votre rendez-vous. Le type est la date et la valeur moyenne W. D'accord ? Ensuite, j'utiliserai la fonction de colonne de soulignement geom pour créer un diagramme à barres. Et sur la fonction de verrouillage, je vais donner que X est égal à la date, Y est égal à la valeur moyenne et à barre la plus serrée Tracez la valeur moyenne des parties D et T Le kilométrage est minimal et le thème existe point X point X élément souligne l'angle fiscal 45 Faites pivoter l'accès à ses niveaux pour une meilleure visibilité. D'accord. Je fais donc pivoter les niveaux d'excès de 45 degrés pour une meilleure visibilité sur D. OK, puis j' imprime la barre Alors laisse-moi m'occuper de ça. Alors voyez ici, c'est ainsi que nous avons incliné. Sees Ajahn to Jenae a été incliné de 45 degrés. Nous n'y sommes donc pas parvenus en utilisant la fonction fiscale de soulignement des éléments et en passant l'angle est égal à 45 Si je mets l'angle de chaque appel vers notre 75. Et si j'essaie de l'exécuter, ce sera régulièrement sur la 75. Si je soutiens Albert, à 90 ou 30 degrés, il sera incliné de 30 degrés C. Et de 45 degrés. Et de 45 Ça a l'air mieux. D'accord ? Nous avons maintenant la valeur moyenne par jour. Ainsi, même s'il ne s'agit que d'un graphique du 1er janvier, sexe m'a donné trois et quatre comme ça pendant 30 jours, valeur moyenne, partie D, nous pouvons voir ce que nous avons fait dans ce graphique à barres Nous avons agrégé les données jour par jour et utilisé la colonne Geom Underscore pour créer un graphique à barres. Nous avons également fait pivoter l'axe X de 4 pour une meilleure visibilité, comme nous l' avons fait ici avec l' angle à 45 chiffres brouillés Démontrez comment gérer les données date-heure dans ggplot2 en insérant le diagramme GG au format approprié pour gérer automatiquement le nivellement et la mise à l'échelle excessifs, ce qui facilite la création de réglementations pertinentes et pratiquement égales au fil du temps diagramme GG au format approprié pour gérer automatiquement le nivellement et la mise à l'échelle excessifs, ce qui facilite la création de réglementations pertinentes et pratiquement égales au fil ggplot2 en insérant le diagramme GG au format approprié pour gérer automatiquement le nivellement et la mise à l'échelle excessifs, ce qui facilite la création de réglementations pertinentes et pratiquement égales au fil du temps. La seule chose à faire est donc de transmettre la valeur DateTime correcte à ggplot2 sous stop the thing GG plot pour comprendre comment gérer la date et 108. Fonctions POSIXct et POSIXlt avec exemple: Bonjour et bon retour. Dans cette conférence, nous allons découvrir à la fois les fonctions LT de la ville et celles des projets, qui sont très courantes aujourd'hui, à savoir programmation pour gérer les données de date et d'heure. Vous ne voyez donc pas les classes LTE terminales juives à l'heure actuelle, données de date et d'heure. Les deux cours font partie de notre forfait. Vous souhaitez gérer les valeurs de date et d'heure. Mais ils ont des différences dans leur représentation interne et leur comportement. Évidemment, s'il existe deux classes d'objets, il doit y avoir des différences dans leur comportement. Et ainsi de suite. Voyons comment fonctionne le LTE pour la ville et les projets. Nous allons donc d'abord comprendre en quoi Poor City Walks Project City signifie criminalistique, heure calendaire Ainsi, l'heure calendaire CT, calendrier C4 T pour les projets temporels est de 4,6, 0,6 et représente la date et l'heure sous forme de nombre de secondes depuis le début de l'unique C'est le 1er janvier 1970. Donc, l'heure du calendrier du projet débutera du 9 janvier et sous souveraineté Mais tu ne connais pas le système Unix. D'accord ? Ainsi, à partir de ce moment, il comptera le nombre de secondes écoulées depuis écoulées depuis le début du chronomètre pour le projet City's 1971. OK, donc c'est comme ça que ça fonctionne. Et ce sont les classes les plus courantes pour gérer les données de date et d'heure dans notre simplicité et notre efficacité neutralisées Les précédents ont commencé à parler Il est donc vraiment efficace tout en étant solide qu'il est temps Rita et Israeli Simple comprennent également des projets avec n'importe quelle Jump Box. Supposons donc que je veuille créer un objet urbain. Donc, pour cela, je vais donner un nom, la date et l' heure à traverser villes et vous ajouterez un point au projet City. Et il avait de la datation à l'alcène. Et il éclairera le Grundy 3722 foncé. Ça veut dire 20 secondes pour mentir à trois. Et voilà, Algol, pas vraiment un bar de 30 min, 45 s. Et voici la date et l'heure Lui et moi vous donnerons le temps, John. Et je peux donner tout ce que je veux. D'accord. Je le fais donc de manière moins précise, UPC, puis je vais essayer de faire des prévisions OK, voyons maintenant que c'est le 22 juillet 2023, Dynavox fait mal quand me demande l'heure UTC à 45 secondes D'accord. Maintenant, nous avons le type qui est dessiné dans le temps. Maintenant, je veux accéder au fonctionnement et à l'heure individuels des composants c' est-à-dire année, mois, jour. Notre aiguille des minutes, de seconde main que nous pouvons faire très facilement. Si je le veux. L' oreille sonde la date, je peux utiliser le format et ensuite je vais passer la date. Le temps met l'accent sur la ville, qui est l'objet du jour. Ensuite, je vais donner le pourcentage, ce qui me donnera un an. Il s'adaptera ici à partir de cet objet. Alors à bientôt, artiste. D'accord. Il avait affronté des mois similaires. Vous pouvez utiliser la date et l'heure, souligner la ville, les présenter ce qu'ils ont fait, heure ZT et vous pouvez atteindre d'une personne D ou impair N'était-ce pas le cas ? M pendant une minute et S4 secondes M et S, les minutes impaires et deuxième fils constituaient également la participation au capital. OK, alors laissez-moi lancer ceci et passons maintenant à tous ces composants. Donc je vais faire une énorme base. Oui Lui et moi soulignons le CPD par mois, par mois et la capacité de perte pour une date et une pénurie Et si quelqu'un sort une seconde, je vais utiliser la même chose, d'accord ? Ensuite, j'essaierai de l'imprimer. Ainsi, lorsque j'imprime un an, ce produit à vendre 23 mois correspond à sept carrés La deuxième, c'est 20 artistes qui n'ont pas fait de minutes et 45 secondes de projets City object. La suivante concerne LT Toxin ou LD Stanford pour six heures locales et représente les données de date et d'heure et ajoute une liste de composants voilà donc en train de caler , quelques secondes à peine Et ici, il le stockera sous forme de liste. D'accord ? Ainsi, les projets LT seront à Stanford ou heure locale et représenteront les données de date et d'heure sous forme de niche. Les principaux composants, l'année, le mois, le jour, les minutes impaires et les secondes seront stockés sous forme liste dans le fuseau horaire local Donc, par défaut, il ira au type local. Il est plus flexible que Project City car il permet accès direct à de nouvelles composantes de force d' élasticité que je suis John qui gère. Bon, alors voici un exemple de politique. Lt. Je vais créer un objet date-heure, pia, ajouter des projets à points, LTE, MLK, Martin, 20 secondes, juillet Les rappels sont différents, 45 secondes, et je vais essayer de l'imprimer Donc, vous savez, ici, nous n' avons pas spécifié le Tango. Et quand j'imprime, j'ai des collisions de 20 secondes, de l'ozone, du Grundy trois, enfin 30 mi 45 s avec l'heure normale de l' Inde L'heure John, mon danger local, c'est l'heure normale de l'Inde. Il vient d'être lavé ou fixé à cet objet toxique. Maintenant, c'est courant avec la fenêtre chronométrée locale ou Lias dans Project City, nous avons spécifié la chronologie, Martin projects LT. Il n'est pas nécessaire de préciser le temps écoulé ici. Cela prendra automatiquement l'heure locale, John, car c'est l'heure locale des projets. D'accord. Et si nous voulons accéder aux minutes et aux secondes mensuelles, nous pouvons simplement utiliser Eugene date, heure soulignée LT, objet que nous avons créé pour ce dollar, plus 1 900 Alors, ce qu'il fera lorsque vous mettez en LTE stocké comme année depuis 1 904 mois, date/heure soulignez le dollar LT M1 mois plus un projet LT, commencez le mois So Data plus 1€ pour le mois de janvier à 11h47. De même, par défaut, ils utiliseront le mois et le jour de MD. Et pour les valeurs impaires, il s'agit d'une minute, de la moyenne des minutes et de 4 s. Donc, exécutons ceci et accédons des éléments réels, puis je l'imprimerai. vient ici au total et Randy, trois mois, sept jours, 20 secondes environ. La même chose que nous recevons et projette un vrai LTL d'un litre La présentation fait la différence mais projette l'heure locale et stocké, le composant a été déclenché là où Project City il est destiné L'heure calendaire représente la date et l'heure, tandis que le nombre de secondes écoulées depuis le début d' Unix correspond au temps à partir de janvier 1997 OK, donc ce sont des choses que nous pouvons gérer, qu'elles soient date et d'heure ou étranges. Et il y a deux méthodes Project City et Projects empty. Et nous les avons tous deux compris 109. Transformation et synthèse de données du projet 7: Bonjour et bon retour. Nous allons donc réaliser un autre projet simple dans lequel nous allons appliquer des techniques de transformation et de synthèse des données à appliquer des techniques de transformation et de synthèse des données des données du monde réel Ainsi, pour appliquer la technique de transformation et de synthèse des données à des données réelles, nous utiliserons le jeu de données MPG, qui est également disponible dans notre Cet ensemble de données MPG est donc facilement disponible dans notre package. Nous n'avons donc pas besoin de télécharger le jeu de données séparément. Il est déjà disponible dans le package R. Le jeu de données MPG contient des informations sur différents modèles de voitures et leur efficacité énergétique Utilisons donc le diagramme GG lorsque nous appliquons la transformation des données et résumons certaines techniques pour obtenir des informations à partir du jeu de données MPG, c'est-à-dire l'ensemble de données sur les différents modèles de cartes qui se sentent efficaces Donc, la première chose à faire est de charger la bibliothèque ggplot2. Seigneur, l'ensemble de données qui est l'ensemble de données MPG. Nous allons donc quitter la fonction de données et transmettre le nom de l'ensemble de données qui est déjà disponible dans le package R. Donc, donnez et transmettez le nom du jeu de données. OK, donc cet ensemble de données va être chargé. Ensuite, pour explorer la structure de l'ensemble de données, nous utilisons la fonction appelée fonction STR et nous transmettons le nom de l'ensemble de données. Ainsi, lorsque nous l'exécutons, nous obtenons la structure de Dataset, cet ensemble de données MPG Vous pouvez donc voir ici modèles du fabricant, la cylindrée, les années, le numéro de transmission Epsilon Dot, Dr. City, l'autoroute et les classes Toutes ces variables sont donc présentes. D'accord ? Ensuite, vous verrez le résumé de l'ensemble de données. Exécutons donc le résumé , puis passons le nom du jeu de données. Oui, donc cela vous permettra de mieux comprendre comment, quel âge il y a, quel type de lecture, c'est-à-dire fabricant, modèle, cylindrée, année, transmission à cylindres et autoroute de la ville, et le remplissage puis la classe. Pour tout, on lui donne la valeur minimale. Premier quartile, médian, troisième quartile maximum, toutes ces valeurs statistiques issues de cet D'accord ? Donc, si l'on considère la prochaine étape le jeu de données MPG contient plusieurs variables, notamment le fabricant, déplacement du modèle et le déplacement en litres. Et puis le nombre de cylindres, puis les transitions pour un certain type. Dre est Dr. Type et BYU city MPG et WY est MPG autoroutier. Il s'agit donc du kilométrage moyen de la ville, et c'est un IMC élevé, moins celui d'une voiture en particulier Appliquons maintenant ces techniques de transformation et de synthèse des données à l'aide du diagramme GG Donc, la première chose que nous ferons sera d'utiliser la barre de groupe Plot. Et ce faisant, nous allons procéder la compression de chaque ville. Cylindre en fonction du nombre de miles parcourus par Mpg. Nous allons donc utiliser le jeu de données MPG et utiliser l'opérateur de canal. Et ici, groupez par cylindre. Et puis ce regroupement par cylindre. Ensuite, nous le passons à la fonction de synthèse. Ainsi, chaque ville soulignée par la moyenne urbaine est appelée moyenne de la moyenne de la ville Ensuite, nous passerons cela à la fonction de tracé GG, à la fonction esthétique. Nous allons utiliser ce que représente x comme facteur et nous allons cylindre de rejet et pourquoi choisir la même recette et nous le remplirons avec le nombre de cylindres, le cylindre IJ Factors, cylindre IJ Factors Et puis le jamboard utilisera pour passer l' égal de départ à l'identité Ensuite, il fait le test du nombre de cylindres sur l'axe X. L'axe X donnera le numéro Epsilon, l'axe Y pour chaque ville, mile, BD et see titres vous donneront chaque ville et VD par Et l'équipe utilisera le minimum. Ensuite, nous allons imprimer le graphique de la barre de groupe. Alors allons-y et voyons, permettez-moi de maximiser l'espace pour que nous puissions voir le graphique. D'accord ? Oui, en acheter, tu vois fumer. Mali's, d' accord, c' est parce que nous avons une bibliothèque Nocturia DPLYR Alors faites-moi savoir que les tracés OK, si nous les exécutons maintenant, verrons que vous arriverez correctement, soit parce que, en ce qui concerne la fonction by, provient du package dplyr que vous n'avez pas chargé Alors naturellement, ce sont les lancers qui sont si maintenant vous pouvez voir des preuves du DMB D par le nombre de cylindres Donc, nombre de cylindres sur l'axe X. Et pour chaque ville, le kilométrage est sur l'axe Y, donc le numéro du cylindre, la date et la myéline Mais en fait, entrez quatre et diversifiez les éléments de kilométrage ici pour en fait les éléments de kilométrage Ainsi, nous pouvons analyser l'impact du nombre de cylindres d' un modèle de voiture sur le kilométrage parcouru en ville Ensuite, nous allons dessiner le boxplot et Color Box Director sont vraiment la même chose et beauté, esthétique, sortie, sec, autoroute, MPG par type, type, type et axe Y, nous allons nous comporter et privilégier le type de type et comment ces choses que nous savons déjà fait ce boxplot highway MPG Nous y arrivons donc. Le suivant est trois. Nous allons créer un nuage qui indiquera le MPG de la ville par rapport à la cylindrée du moteur par type de transmission type Ainsi, la fonction du tracé GG, l'esthétique du jeu de données MPG, le déplacement X, l'axe Y seront Ensuite, la couleur est la transmission et le point de géométrage pour tracer les points Et puis l'axe X, l'axe Y, l'axe X, puis l'axe Y du déplacement, un amortisseur que vous un amortisseur Et exécutons ceci et voyons le résultat. Diagramme de dispersion par ville (MPG) par rapport à la cylindrée du moteur par camarades de classe et par type C'est pour automatique, automatique et manuel. Toutes ces choses que nous pouvons voir. Ensuite, je vais même mettre la distribution MPG de l'histogramme à facettes de la ville pour chaque type de type Donc ici, même chose, XXS city et le type dérivé et la géom soulignent l'histogramme dans lequel le titre sera blanc, la couleur des yeux blancs et le thème minimal et envenimé Et ici, indique le type de type, puis nous exécuterons et imprimerons le I'm time. Ça va se passer comme ça. C'est donc un histogramme festif, la distribution de MPG dans la ville, non ? Tuyau sec. Il s'agit du kilométrage de la ville et de la fréquence Et c'est pourquoi le tuyau sec, c'est ça ? OK. Donc, ce qui nous reste dans ce petit projet, dans ces exemples, nous appliquons la formation des pierres de données et résumons certaines techniques, telles que le calcul du MPG de la ville de preuves par le nombre de cylindres et l'utilisation de groupements pour créer une réalisation perspicace Et nous avons également appliqué pour résumer et en utilisant boxplot et medulla, la distribution Absolutely MPG pour chaque type de pilote s' En appliquant qu' il ne se forme pas. Techniquement, il n'est pas possible d'en vouloir à quelqu'un. Techniquement, vous pouvez découvrir des modèles, des tendances et des adolescents grâce aux données, ce qui permet de tirer plus facilement des informations significatives à partir d'un ensemble de données du monde réel À partir d'un ensemble de données du monde réel. N'oubliez pas que ggplot2 offre diverses fonctions et la flexibilité nécessaires pour effectuer des plus précises à chaque leçon Vous êtes donc libre d'explorer et de personnaliser le plasmide selon vos besoins d'analyse Il s'agit donc d'un simple projet de plombiers, puis de quelqu'un quelques techniques sur des données du monde réel qu'il s'agit d'un ensemble de données MPG Pour que nous ayons vu 110. Projet 7, partie 2 : Filtrage de données et échelles de couleurs: Bonjour et bon retour. Dans cette conférence, nous allons utiliser des instructions conditionnelles et le filtrage des données dans le diagramme GD OK, donc ggplot2, nous pouvons utiliser des instructions conditionnelles et notre premier lien vers les données pour personnaliser nos graphiques fonction de cette condition spécifique ou de sous-ensembles Quelle que soit l'exigence qui sera basée sur cela, vous pouvez le faire. Cela vous permet de créer des visualisations plus dynamiques et plus pertinentes Dans cette conférence, nous allons donc également continuer avec le jeu de données MPG, qui est le jeu de données contenant des cartes, modèles et leur kilométrage et différentes autres choses OK, donc je prêche que ce n'est pas pour montrer comment utiliser instructions conditionnelles et le filtrage des données ggplot2 Donc, tout d'abord, nous avons écrit le ggplot2. D'accord ? Ensuite, nous chargeons cet ensemble de données, c' est-à-dire l'ensemble de données MPG A fait un jeu de données MPG. Ensuite, nous allons créer notre nuage de points, ville par rapport au MPG sur l'autoroute utilisant la couleur créée en fonction du Alors oui, cela va créer notre variable. C'est un diagramme de soulignement par dispersion. Et ici je vais utiliser le chiffre ggplot2. Et ici, l'ensemble de données est MPD, est-ce que c'est l'esthétique, les polices, et je vais passer le CD et pourquoi Highway et Color ont été créés sous la direction du Dr Greg. OK. Ensuite, géomérez le point de manière fonctionnelle ou pour dessiner le point sur le tracé Ensuite, les laboratoires fonctionnent pour donner les noms des projets existants, MPD, axe Y, autoroute, MPG, titre NBA du nuage de points Nous allons utiliser des diagrammes de dispersion entre le TMP MPG autoroutier avec la couleur rouge sur le type de drapé Ensuite, nous utiliserons le thème minimal, et nous imprimerons le nuage Alors laisse-moi m'en occuper. Nous obtenons maintenant un diagramme de dispersion qui nous montre le CT par rapport au MPG sur autoroute en fonction du type sec. Voici donc l' axe X réel avec le MPG de la ville, l'axe Y est le MPG de l' Et les kilomètres parcourus sur la base du tuyau sec. Donc cette couleur, les couleurs font osciller le tuyau sec. OK, voici donc le nuage de points que nous avons dessiné. Passons maintenant à ce nuage de points de base tous les points de données ou voyons quelqu'un avec des couleurs différentes mais sous du papier sec. Maintenant, ajoutons une instruction conditionnelle et filtrage des données pour personnaliser davantage le graphique. Maintenant, ce graphique est constitué points de données dont les différentes couleurs sont enfouies sous le temps de conduite. Nous allons maintenant utiliser nos instructions conditionnelles et le filtrage des données pour personnaliser le graphique. Pour commencer, nous allons créer un nuage de points avec des points colorés de manière conditionnelle à l'intérieur du seuil MPG de la ville Nous allons donc définir ici le seuil de vélocité et de kilométrage. C'est-à-dire que la ville souligne l' embryogenèse appelée seuil. C'est le lemme ou n'importe quel lemme ANA qui teste toutes les valeurs que je nous donne 20 Maintenant, le nuage de points avec un point coloré de manière conditionnelle. Lorsque notre ville MPG touche tout ce que nous définissons ici comme 20 Donc GG plot, la fonction esthétique de l' ensemble de données. C'est la même chose. Accéder au DIY c'est Salut Rick et Color voici le CD. Et le fait de donner le test ou moins, plus que le bénéficiaire ne voulait que point D plus de densité et de densité Et cela va permettre de prédire que tout ce qui se trouve actuellement dans le district source est supérieur à la quantité. D'accord ? Et puis la fonction du point de géométrage, puis nous lisons la fonction manuelle de soulignement de l'échelle , des deux-points, des points de soulignement Nous donnons ici les valeurs des couleurs rouge et bleu et les étiquettes qui nous sont attribuées en dessous du seuil et au-dessus du seuil. Ainsi, si elle est supérieure à, par rapport à, elle sera supérieure au seuil et inférieure à 20, elle sera inférieure au seuil. Et puis la fonction Laugh que nous utilisons pour donner un nom à Done pour le Plot et tout. OK, alors laisse-moi m'occuper de ça. OK, nous recevons des lettres. Ici. Nous recevons un message d'erreur. Problème d'esthétique informatique. Ajoutez une première couche de jardin appelée YLL objects city et sold ne veux pas d'août, désolé, je n'ai pas exécuté cette variable. Alors maintenant nous l'avons fait. Alors laisse-moi encore une fois. Vous voyez maintenant que nous obtenons ce nuage de points avec vent coloré de manière conditionnelle basé sur le City Ces points bleus sont donc au-dessus du seuil, c'est-à-dire actuellement. Et les points rouges sont inférieurs au test sur cette ville MPG, moins de 20 Génial. Alors maintenant, l'axe X de la ville MPG, l' axe Y est plus énergétique. Les points bleus représentent la valeur seuil ci-dessus qui correspond actuellement aux bénéficiaires du MPG de la ville Donc, au-dessus de la valeur seuil, essuyez en boucle et milo notre swing comme un, d' accord, donc c'est une condition que nous avons appliquée Ensuite, ce que nous allons faire ce ligament que j'ai expliqué un peu plus loin Dans ce graphique, nous utilisons la fonction esthétique pour cartographier la vitesse esthétique des couleurs supérieure à la valeur seuil du MPG de la ville supérieure à celle de Bronte, condition logique rigide selon laquelle l'évolution est vraie ou fausse selon que vraie ou fausse selon MPG de la ville est supérieur ou inférieur ce seuil La couleur, l'échelle, le bureau ou la coloscopie ne fonctionnent pas ici pour appliquer les couleurs personnalisées aux points situés au-dessus et en dessous du ptérosaure, ainsi qu' Ensuite, nous allons utiliser le filtrage des données pour créer un nuage de points, le filtrage des données respectant la durée de vie Les données du filtre pour un type de Dr. Fred spécifique. Par exemple, F4, traction avant. OK, donc ici j'ai besoin d'une variable et je l'assigne comme F, ce sera le cas avec une traction avant éloignée Pour que je joue à la traction avant et à Dieu librement, parsemé de parcelles sur ce précieux alkylat Et je vais utiliser la fonction de tracé GG et les données d'un conseiller, MPG Et ici, je vais définir le MPG et le dipôle-dipôle comme un tuyau sec à traction avant. Ici, nous allons transmettre l'ensemble de données à la fonction de tracé GG. Je le précise à partir de cet ensemble de données qui est intégré, comme si je voulais prendre un dipôle-dipôle Ils le font pour les données qui le tuyau sec comme traction avant vers MPG Dollar DRE est égal au type de propulsion, qui sera la traction avant Et alors la fonction esthétique passera X est égal à CT. Et pourquoi est-ce que j'ai utilisé la couleur en me basant sur le temps de conduite et sur d'autres facteurs Geom souligne le point d'un endroit vague vers Plot et lot et les laboratoires fonctionnent Ensuite, nous essaierons de l' exécuter et de voir comment les tracés peuvent voir soit un nuage de points, soit MPG de la ville était cette autoroute, MPG pour Voici donc le nuage de points du CD. Et j'ai déposé ma petite voiture qui est équipée de la traction avant. Bon, maintenant tu peux comparer, d'accord. Donc, dans ce graphique, pour utiliser le fichier de données dans nuage de points Procreate uniquement pour un type spécifique traction avant, en substituant le jeu de données MPG, où nous avons effectué la substitution ici, les données sont égales à MPG, MPG le nuage de points Procreate uniquement pour un type spécifique, à savoir la traction avant, en substituant le jeu de données MPG, où nous avons effectué la substitution ici, les données sont égales à MPG, MPG dollar, dr. V est égal à la préparation à sec. Nous avons donc pris ici le sous-ensemble de l'ensemble de données du jeu de données MPG Et il s'agit d'une subvention de projet basée sur le type sec, à savoir la traction avant Nous avons donc pris les données, une pour les véhicules endommagés par des véhicules Dodge, qui sont à traction avant, puis pour les modèles de voitures à traction avant stupide, nous avons comparé le kilométrage hybride City My Ligand en utilisant la condition MPG dollar nous avons comparé le kilométrage hybride City My Ligand en utilisant la condition pour les véhicules endommagés par des véhicules Dodge, qui sont à traction avant, puis pour les modèles de voitures à traction avant stupide, nous avons comparé le kilométrage hybride City My Ligand en utilisant la condition MPG dollar, dr. V est égal au type de sauteur de plongée Démontrez comment utiliser les instructions conditionnelles et le filtrage des données dans ggplot2 pour créer des visualisations plus personnalisées et plus pertinentes La prochaine chose que nous ferons sera d'utiliser la couleur, personnaliser les échelles de couleurs et les légendes La personnalisation des échelles de couleurs et légendes dans ggplot2 vous permet d'améliorer les représentations visuelles des données et de rendre votre graphique plus informatif et Vous pouvez personnaliser les couleurs, les étiquettes, les sauts et d'autres aspects de la couleur, échelle et de la légende en fonction de votre visualisation et de votre liste spécifiques. Continuons à utiliser le graphe GG. Comment personnaliser les échelles de couleurs les légendes et l'intrigue mouvementée Nous allons donc utiliser la bibliothèque de graphes GG ici. Alors allons-y. Nous utiliserons les données, les ensembles de données MPG pour charger l'ensemble de données qui est l' ensemble de données MPG Ensuite, nous allons créer un nuage de points (ville, MPG, autoroute). Mpg. Mpg signifie MPG. OK. J'espère que vous le savez, je l'ai expliqué plus tôt également avec la couleur basée sur le type, le type. OK. Donc, votre intrigue GG pour MPG est que cela n'excuse pas esthétique de la part de quelqu'un qui projette tout de suite sur l'autoroute et Color and Drive Et la même chose que nous avons faite plus tôt. Alors allons-y. C'est le nuage de points que nous obtenons . Donc, l'ami à quatre roues motrices de Driven Real Drapé pour quatre roues motrices est le rouge, bleu est à traction arrière et le vert à la traction et le vert OK. Désormais, dans ce nuage de points de base, tous les points de données sont associés à des couleurs différentes en fonction du type sec. Dans GG, tracez pour attribuer automatiquement des couleurs et créer une légende Maintenant, la couleur et les légendes personnalisées essaieront de donner des couleurs personnalisées afin de créer une variable. Le client souligne les couleurs et crée un vecteur. Ici. Créera un vecteur et le jaune donnera ce que F donnera. bleu, pour nous, nous attribuerons la lecture et pour quatre, ce sera le faire. Le front de mer du Queens roulera, il sera bleu, roues motrices arrière, il sera rouge et les pauvres se détourneront, seront verts Ensuite, nous créerons le plan de dispersion avec Dieu. Prenons la légende de Galien, appelée ici trait de soulignement personnalisé, traits de soulignement colorés dispersés, et c'est ce que Ce nuage de points, nous allons créer un diagramme GG, votre jeu de données identique, et quitter l'autoroute Et voici la couleur en fonction du lecteur. Et puis la fonction du point de géométrage sera énorme pour tracer les points Ensuite, nous utiliserons la couleur de soulignement Gayle et nous allons attribuer manuellement la couleur que nous avons créée Et nous donnerons à Valeurs égales aux couleurs personnalisées cette valeur. Ensuite, nous allons créer le nuage de points. Alors allons-y. Maintenant. Notre nuage de points avec les couleurs personnalisées que nous avons définies sera bientôt disponible. vert correspond donc aux quatre roues motrices, bleuâtre à la traction avant et le radius à la conduite réelle La prochaine chose à faire est de résumer ce que nous avons fait à ce sujet. Dans ce graphique, nous utilisons l'échelle de couleurs, le trait de soulignement, les deux points comme fonction de commande pour définir la couleur personnalisée pour chaque type de type de type Nous définissons des couleurs de soulignement personnalisées sous la forme d'un vecteur nommé où les noms qui représentent les types d'entraînement qui s'y trouvent, front va conduire le RPA à maturité dans le monde réel et 444 roues et 444 Et les valeurs représentent les couleurs correspondantes. L'échelle et l'échelle. La couleur de soulignement apparaît. La fonction manuelle nous permet de mapper les couleurs personnalisées en fonction de l'esthétique des couleurs du tracé. Ensuite, nous essaierons d'ajouter une légende et des étiquettes personnalisées. Niveaux de légende personnalisés pouvant être interdits. Donc, un nuage de points avec la légende et le niveau personnalisés que nous allons créer Voici donc la fonction de tracé GG, MPD, sortie esthétique TY, CD Pourquoi autoroutier et préciser le type, le type, géométrique pour tracer le point, l'échelle, la couleur de soulignement, le manuel de soulignement pour donner les Les allergologues appellent donc pour voir. Maintenant que nous l'avons déjà fait. Ensuite, nous ajouterons des étiquettes et il ou C créera une traction avant, une traction coudes et un prix abordable et mûr Nous voici donc donnés. F sera remplacée par la roue avant, elle sera réelle et la quatrième sera à 4 voies Ensuite, nous donnerons le type de Dr. Et puis la fonction Laugh sera utilisée pour conserver les noms. OK, alors laisse-moi m'occuper de ça. Rendez-vous aujourd'hui, le swing s'est ensuivi pour le F, Odd et 40, nous détruisant ainsi la main d'œuvre directe car la roue avant s' arrêtera pour De cette façon, nous pouvons personnaliser les légendes, d'accord ? Dans ce graphique, nous utilisons donc l'argument des niveaux appris. Une partition est une échelle, un trait de soulignement couleur et une fonction de points par minute , une couleur et une fonction de points par minute pour enregistrer les niveaux de costume . Car le Landry utilise également l'argument name pour fournir le titre personnalisé de la légende Il s'agit donc de l'argument de nom que nous avons utilisé pour donner le nom personnalisé à la légende. Alors ça arrive, bon type. OK. J'espère donc que vous avez compris comment nous pouvons utiliser la déclaration conditionnelle et filtrage des données, et comment nous pouvons personnaliser les compétences colorimétriques et les légendes 111. Créer des intrigues interactives avec intrigue et ggplotly: Bonjour et bon retour. Dans cette conférence, nous allons créer diagrammes interactifs avec plotly et ggplotly Nous utiliserons donc les bibliothèques plotly et ggplotly pour créer des tracés interactifs OK, alors qu'est-ce que GGPLOGTLY ? Ggplotly va nous permettre de une fonction qui nous permettra convertir en deux le lot que nous avons créé. Nous avons nommé méthode interactive. Ainsi, tout tracé créé avec ggplot2 peut être converti en tracés interactifs en utilisant plotly et ggplotly. Gplotly. D'accord ? Ainsi, la création tracés interactifs avec plotly et ggplotly dans notre vous permet d'améliorer vos visualisations grâce à vos visualisations Et bien d'autres fonctionnalités. Plotly est un package R qui convertit ggplotly en graphiques en visualisations Web interactives D'accord ? Plotly est donc un autre package que nous vous proposons. Vous pouvez donc installer le tracé. D'accord, donc pour installer, vous pouvez accéder aux outils et cliquer sur Installer les packages. Et puis ici, il vous suffit de rechercher Plotly, cliquer, de le sélectionner, puis de cliquer sur Installer, et il sera installé Je l'ai déjà installé, donc je ne vais pas le refaire. Et pour vérifier cela, installez différentes densités. D'accord ? Je l'annule donc. Vous pouvez cliquer sur Installer s' il n'est pas déjà installé. D'accord. Nous allons donc utiliser UGG ggplot2 et la bibliothèque Plotly dans ce, d' accord, accord, Alors ce que je vais faire, ce que je vais faire. Je vais vous expliquer étape par étape comment créer des tracés interactifs avec plotly et ggplotly OK, donc dès la toute première version modérée, installez et chargez les bibliothèques nécessaires. Comme nous le savons déjà, nous avons vu comment nous pouvons installer. Alors laissez-moi d'abord les charger pour en tirer parti. Donc, une fois ces deux bibliothèques chargées, étape suivante est un bon tracé GG des données, votre tracé ggplot2 OK, commençons donc par créer un graphique GG de base à tracer à l'aide MPG et de l'ensemble de données mtcars que nous avons déjà vu OK, chargez donc le jeu de données MPG, mais vous n'avez pas obtenu de fonction. Charge. Ensuite, nous allons créer un nuage de points, un nuage simple pour créer un nuage de points de soulignement variable en GG Et je vais utiliser le ggplotly. Wong Sun a utilisé le jeu de données MPG. Ensuite, nous utiliserons la fonction esthétique, l'axe X, l'axe sprint et l'axe Y, pour tracer le kilométrage sur l'autoroute, puis colorier en rouge la classe de la fonction de point géologique Reagan que nous utiliserons pour tracer les points et les étangs de laboratoire et nous utiliserons pour donner le nom de l'axe X dans lesquels le déboursement L et Y existe le MPG autoroutier et le titre du nuage de points sera un nuage de le Et puis le thème, nous utiliserons le thème minimal. Ensuite, nous allons imprimer le nuage de points. Imprimons donc ce diagramme de dispersion simple que vous n'avez pas fait sur ggplot2 Alors vous voyez, vous voyez ici qu' il s'agit d'un simple diagramme vertigineux, ces diagrammes de dispersion tracés entre la cylindrée d'un moteur et le MPG sur autoroute. Pourquoi choisir une catégorie de véhicule ? Des catégories tellement radicales ici, des biplaces compactes, des véhicules intermédiaires, moi, des mini-fourgonnettes, des pick-up, des sous-compacts, un VUS Voici donc les différentes couleurs pour chaque classe. Et ici, sur l'axe X, nous lançons le déplacement, d'accord ? Et puis sur l'axe Y, nous voyons l'autoroute MPG. Voici donc le nuage de points simple. Ce n'est pas interactif, n'est-ce pas ? Maintenant. Je veux créer ce graphique, rendre ce nuage de points interactif lorsque je le survole. Alors quelque chose, d'accord. Ainsi, les valeurs, chaque point et toutes les choses sur lesquelles je peux cliquer en juin, je peux gérer tous les éléments que je souhaite ajouter à notre dispersion, plus interactifs afin que nous puissions interagir avec le nuage Pour ce faire, nous allons utiliser, nous allons convertir ce diagramme GG tracés interactifs Plotly Et pour ce faire, nous allons rendre le ggplotly interactif à l' aide de la fonction ggplotly. Cette fonction est très importante pour convertir n'importe quel diagramme GG, diagramme DG en fonction, désolé, tracé en tracés Vous allez donc utiliser ggplotly à partir du package Plotly, d' accord, puis convertir le tracé numérique en tracé interactif Plotly Ce que je vais faire, c'est créer une variable ici, interagissant simplement pour souligner le graphique N'importe quel nom que vous pouvez donner ici, puis déchargez la fonction ggplotly Nous avons ici le tracé UGG. Maintenant, tu vas faire des bêtises. Et je vais juste dépasser le nuage de points, données que nous avons créées à l'aide du diagramme GG Donc, à moins d'être passif par rapport à la fonction ggplotly. Ensuite, je vais simplement imprimer ces graphiques interactifs. Donc, en passant simplement à ce ggplotly, ce simple nuage de points sera converti Cela fonctionne, converti en une intrigue interactive. Voyons donc si cela se produit ou non. Vous pouvez maintenant voir ici ce diagramme de dispersion du déplacement de la tanière par rapport au MPG sur autoroute par vagal Le graphique est thématique, mais chaque fois que je passe la souris sur un point, il affiche les valeurs correspondant à ce point Comme pour ce point, déplacement est de 1,8 sur l'autoroute, MPG est de 36 Et classe de la liste sous-compacte. Si je viens ici, cylindrée 1.837, classe compacte. Et si j'en viens au rose, ces SUV hybrides de 2,5 cylindrées 27 et de classes pour cela. OK, alors voyez, c' est plutôt cool que maintenant, le simple nuage de points, en contournant simplement ce diagramme contournant simplement ce diagramme pour les fonds et la retraite de ggplotly, convertisse en de magnifiques diagrammes interactifs. Ici. Ici, nous pouvons choisir le C. Quand je clique sur C, ne sert à rien d'être sonya Parce que j' ai cela ne sert à rien d'être sonya Parce que j' ai tout sélectionné, tout désélectionné Je vais donc sélectionner un biplace. Alors qu'il s'agit de chemins de fer biplaces ce sera Sonia si je veux aussi ajouter Je vais donc revenir, cliquer sur compact et compact. Les points supprimés seront accessibles. Maintenant, si je clique sur taille moyenne et que je suis un minivan Missing Card Scheme, nous savions que j'ai couru peut devenir ce que vous voulez analyser, vous pouvez ajouter, si vous voulez supprimer cela, même simplement désélectionner et ce sera fait C'est donc l'interface interactive qui a été ajoutée en passant simplement le nuage de points au ggplotly Et c'est assez simple et assez froid ici, vous pouvez voir le tracé que vous avez téléchargé au format PNG. Cette option est également disponible ici. Ensuite, nous avons la Douma. Souvent, nous pouvons cliquer et nous pouvons le faire. Vous voyez ici que ces différentes options se présentent pour interdire, interdire, interdire comme ça. Et vous pouvez analyser qu' il s'agit du groupe Punctum. Ensuite, nous avons la case à sélectionner. Nous pouvons sélectionner un vent particulier ici et vous pouvez analyser les points collectés qui seront mis en évidence. Ensuite, nous pouvons Lasso Select Vous pouvez le sélectionner comme vous le souhaitez et sélectionner si vous souhaitez sélectionner uniquement une chose en particulier vous pouvez sélectionner ici. Ces éléments interactifs ont donc été ajoutés, pensent avoir été ajoutés simplement en transmettant la fonction Plotly de la couleur du nuage Nous pouvons l'éteindre. Et on peut y mettre Jermaine. Et puis ils ont dit Texas. Et puis il y a l'intrigue secondaire. D'accord ? Donc, de cette façon, d'accord, maintenant nous sommes anestrus, mais simplement en passant le nuage de points à la fonction ggplotly, cela Le diagramme GG en nuage de points a maintenant été converti en diagrammes interactifs avec diagramme Et vous pouvez interagir avec elle à l'aide de votre souris et de Dutch Bet. Vous pouvez survoler le point de données que nous avons déjà vu et voir ce qui est vu, humeur ou ton Tips et Jermaine and your mouth band Plot et bien d'autres choses que nous avons déjà faites Maintenant, nous allons ajouter de la myosine en cache à ce graphique. Encore une fois, d'accord Voici donc l'intrigue, intrigue interactive que nous avons créée. Nous allons maintenant procéder à la personnalisation supplémentaire. Nous pouvons maintenant personnaliser davantage tracés interactifs à l'aide de la fonction Plotly. Par exemple, nous pouvons modifier la taxe de Harvard uniquement en fonction de la couleur et y ajouter d'autres annotations. Alors faisons-le. Donc, ce que nous allons faire, c'est personnaliser l'intrigue interactive. Jusqu'à présent, cela créera un graphique de soulignement interactif variable, soulignement personnalisé Il s'agit du nom que vous pouvez donner aux diagrammes interactifs pour les clients. Et ici, je vais utiliser l' Interactif pour tracer ce que nous avons ici. Et nous utilisons le soleil de mise en page. Et à l'intérieur de la mise en page, ce que nous pouvons donner, nous pouvons personnaliser le titre. graphique interactif sera le titre, le titre l'axe X indiquera cylindrée du moteur entre parenthèses. Désolée. Et l'axe Y affichera la liste de sortie de la légende MPG autoroutière Et ce sera la classe du véhicule le couloir et le mode seront les meilleurs. Alors laissez-moi exécuter ceci et cela créera l'intrigue interactive de la fin, et nous allons l'imprimer Maintenant que vous pouvez voir ici l'axe X, il peut prédire le crash de mon graphique interactif Et ici, vous pouvez voir que les points sont des chansons. On peut s'entendre comme ça. Vous pouvez sélectionner Box Select. Tu veux dire ta bouche. Toutes ces choses que nous pouvons faire. Dans cet exemple, nous avons divisé les axes et les niveaux du titre et le titre de la légende. D'accord ? Ainsi, en utilisant Plotly et ggplotly Function, package Plotly et les fonds ggplotly, vous pouvez facilement créer et supprimer une couverture qui se trouve pouvez facilement créer et supprimer Gg Tracez vers Tracés, afin de faciliter l'exploration et la compréhension de vos données. J'espère donc que vous aurez compris les étudiants lors du prochain cours. 112. Introduction à la manière et aux caractéristiques clés: Bonjour et bon retour. Dans cette conférence, nous allons découvrir Plotly, et c'est gratuit Juste. Plotly est donc une bibliothèque open source qui permet aux utilisateurs de créer des langages de programmation pratiques interactifs, de haute qualité , chargés et ritualisés Non seulement dans mon Plotly est disponible en Python, R Donc Python et dites-nous Control pour que vous puissiez utiliser plotly. Et ici. De plus, nous allons en savoir plus sur Plotly. Plotly propose un large éventail de types de graphiques, allant du nuage de points de base aux essences 3D complexes. Découvrez comment nous pouvons désormais régionaliser et 3D Anna, comment Examinons donc les interruptions, le graphique et les fonctionnalités clés La première chose à faire est la visualisation interactive du tracteur. Plotly nous permet donc de continuer. Leçon interactive, capacités interactives non ferreuses. Il permet aux utilisateurs d'interagir. Tracons et deuxièmement, entrons et sortons du hall des ventilateurs ou des points de données pour voir les détails et activer et désactiver les séries de données. Ce sont donc les principales fonctionnalités qui vous donnent un pointeur d' interactivité avec les tracés, etc. Interaction avec les graphiques. Montre-moi ta bouche. Bannissement chargé, passez la souris sur le point de données pour voir les détails du problème, le CDJ de données activé et désactivé Ces interactions facilitent l'exploration et l'analyse des données de manière intuitive. C'est donc la meilleure chose à propos de l'intrigue, elle permet de mettre le graphique sur la bonne voie Donc, et la prochaine étape est facile à utiliser. Apa ou CLI fournit un APA simple à utiliser pour créer votre licence Avec quelques lignes de code. Vous pouvez générer un Josh complexe et interactif, ce qui en fait le favori des data scientists et des analystes. Donc, comme il est assez simple à utiliser, c'est aussi populaire parmi les tactiques de cours de science des données. Donc, comme le tracé du niveau laser dans notre télescope et par Thomas, langage de programmation très populaire, c'est une autre caractéristique clé du tracé. Plotly prend en charge plusieurs langages de programmation, dont Python et JavaScript Cela leur permet de travailler avec langue de leur rapport et de passer facilement de l'une à l'autre. Pour différentes tâches. Chart Plotly prend en charge un large éventail de types de graphiques tels que les graphiques linéaires, les nuages de points, les diagrammes à barres, les histogrammes de Josh, probablement des graphiques 3D, des choroplèthes, des cartes et bien d'autres. Il offre flexibilité et polyvalence en matière de ritualisation des types de radon Ensuite, Plotly fournit également une visualisation sur le Web. Plotly, basé sur le Web, ce qui signifie que vous pouvez facilement interagir avec des graphiques et un tableau de bord en ligne et les intégrer dans des applications Web Des pores pratiques. Plotly vous donne donc la possibilité intégrer vos graphiques et tableaux de bord Plotly Maintenant, nous l'intégrons dans les rapports. C'est bien plus qu' une application Web avec Plotly Dash, vous pouvez simplement créer des applications Web interactives et c'est pour Data Cliquez sur Visualisation des données. Ce qui en fait un outil puissant pour créer des applications individuelles basées sur les Il existe peu de substances en termes de coûts. En fait, en partie, en partie, elles offrent un large éventail d'options aux clients pour adapter l'apparence de charge en fonction d'une exigence spécifique Vous pourrez simplement personnaliser les couleurs, les étiquettes, la police, les styles, la régression, et bien plus encore. Animation et ggplotly prennent en charge les animations et les transitions fluides. Wechat est très utile pour visualiser des données teintées au fil du En explorant les différents états d'une grande exportation, Farmer ggplotly se rend compte qu'il peut être exporté vers différents formats tels que PNG, JPEG, SVG, PDF dessus, et même des GIF animés, et même des GIF animés Vous ne pouviez pas créer de présentations et de documents de qualité. L'intégration à d'autres bibliothèques, même partiellement possible dans Plotly, peut être facilement intégrée d'autres bibliothèques de cours d'analyse de données et de théorie telles que Pandas in my Tongue, RTT ggplot2 in R. Cela permet, vous avez juste besoin de combiner la puissance de Telles sont donc les principales caractéristiques de Plotly, NADPH religieux interactif, APA Plusieurs langages de programmation prennent en charge chaque type de données et prennent en charge les applications Web. Soutenez-la de la meilleure façon possible. Ce sport et les applications Web. Mes animations et transitions. Plotly est largement utilisé dans la science des données, la veille économique, les ressources scientifiques et divers autres domaines Trochléaire, intuitivement attrayant et interagissant pour OK, donc lors de la prochaine conférence, nous allons commencer à faire des exercices pratiques avec le blocage. La prochaine conférence. 113. Travailler avec Plotly: Bonjour et bon retour. Donc, dans cette conférence, nous allons parler de Plotly, nous allons créer des tracés à l'aide de Plotly Dans la conférence précédente, nous avons vu l'introduction à Plotly vu quelles sont les fonctionnalités, quels sont les tracés que nous pouvons créer avec Plotly ? Dans cette conférence, nous allons donc faire des exercices pratiques. J'ai donc écrit du code pour vous, je vais vous expliquer et je vais exécuter le code , puis nous verrons ce que nous pouvons faire avec le Plotly Certaines choses, par exemple, créeront ces tracés 3D à l'aide de Plotly. C'est donc très intéressant et je vous explique comment nous pouvons tracer ces trois diagrammes de dispersion en 3D D'accord, voici donc les quelques choses que nous allons faire dans cette conférence. OK, commençons donc cette conférence. Et les informations sont tirées du site Web rpubs.com de RStudio et de références Alors commençons. Plotly est un excellent outil pour créer de magnifiques tracés interactifs Cela peut être tracé à l'aide du package Plotly ainsi qu'à l'aide de TD Nous pouvons donc faire des choses que nous ne pouvons tracer qu'avec le tracé, ou nous pouvons également utiliser le graphique GG en plus du tracé Pour cela, nous avons besoin des librairies Plotly et DD ggplot2. Je l'ai donc déjà installé, vous suffit donc de l'exécuter. Ensuite, j'utiliserai ici l'ensemble de données Midwest qui est facilement disponible avec le package RStudio are Alors laissez-moi vous montrer à quoi cela ressemble. Alors laissez-moi mettre Control Enter. Tu vois, oui, c'est l'ensemble de données que nous allons envoyer dans l' immense Midwest, OK. Il y a donc un PID puis le pays, l'État, zone, la population, la population totale, la densité de population, la population globale, le noir, méridien pop, le pop, l'ancien, autre Mais pourquoi le noir ? Ainsi, bien que chaque colonne soit présente avec D, chaque colonne ajoute ensuite d'autres variables et elles sont toutes en anglais. Nous allons être les complots, d'accord ? Voici donc l'ensemble de données. Donc, comme le pays, la superficie d'un État, la population totale, toutes ces variables, est-ce que c'est correct ? ce que disent les gens. OK. Nous réutilisons maintenant ces données pour tracer. Donc, tout d'abord, je vais utiliser la fonction Plotly, tracer le trait de soulignement Et pourquoi Plotly fonctionne pour créer un tracé pour ce LPA, transmettre ce Dataset Midwest et l'axe X, je vais faire une grande partie de la classe, mais la classe est un ensemble de données, une colonne de données ici, colonne de données Mais Clark College, d'accord ? Et coloriez et utilisez la zone État masqué et Types. Je vais créer un boxplot ici. Pourcentage d'étudiants ayant fait des études universitaires, mais précipité, pourcentage ayant fait des études universitaires par l'État Pour planifier cela. Donc voyez ici qu'il s'agit du boxplot car le type que nous avons donné ici sous forme de boîte ici Lorsque vous cliquez ici, vous pouvez voir le premier quartile minimum, la médiane, le troisième quartile et la clôture supérieure Et vous pouvez voir la valeur maximale, ces choses-là. Ainsi, nous pouvons rapidement créer Boxplot, 4 % ayant fait des études universitaires par étape Combien de personnes sont scolarisées ? Université ? Dis que c'est le boxplot, d'accord ? Nous allons maintenant essayer de créer des tracés de base à l'aide de Plotly. Pour cela. Ce que je veux faire, ce que je veux, créer un tracé de base directement à l'aide de plotly ou nous pouvons également en tracer deux en UGG Alors ici aussi, UGG ggplot2. Je vais donc utiliser ici l'ensemble de données irlandais que nous avons déjà vu. Donc, si vous voulez voir comment cela se passe dans cet ensemble de données vous pouvez mettre l'iris de la tête. Alors laissez-moi d'abord charger ceci. C'est donc que j'ai juste ensemble de données où vous pouvez voir la longueur des sépales, largeur des sépales, la longueur des pétales, la largeur des pétales et Ce sont les colonnes ou les variables qui ont un niveau dans cet ensemble de données irlandais. D'accord ? Donc si tu veux exécuter ça, tu peux voir, oui, d'accord. Ensuite, j'utiliserai nouveau la fonction LY de soulignement du tracé, et l'ensemble de données sera le même. Les données sont donc égales à Iris, Xe, à l'axe X, à la longueur des sépales et à la longueur des pétales de l'axe Y. D'accord ? Dessinons donc ce meilleur schéma qu'il se présente comme suit. D'accord ? Donc, sur l'axe X, la longueur simple des points, et sur l'axe Y, la longueur des pétales, la longueur sépales et la longueur des pétales Et ces points ont été établis. Donc, pour cette longueur de sépale et de pétale, le mari a tracé ici Désormais, avec ggplot2, le même tracé peut également être créé dans ggplot2 et servir Ensuite, le tracé peut créer, peut être rendu interactif en version ggplotly, fonction Plotly Notez que toutes les fonctionnalités ne fonctionneront pas avec ggplotly Il faut donc parfois faire des essais et des erreurs. D'accord ? Donc, ici, le même nuage de points que je vais essayer de tracer à l'aide du diagramme GG et de tracer un graphique où je vais créer une figure jusqu'à l'endroit où le magasin se trouve dans la figure à l'autre, pour le stocker dans la figure 2 Alors allons-y maintenant. Et j'ai fait allusion à un complot dégueulasse pour comploter ça. Figure 2. OK, alors laisse-moi m'occuper de ça. Alors regarde ici, maintenant, comme ça, d'accord ? La même chose avec l' aide de et ggplotly. Nous avons tracé. En étant capable de tracer votre ggplot vers. Vous pouvez personnaliser le tracé de la même manière qu'avec ggplotly Examinez les noms de colonnes courants. Donc, si vous souhaitez promouvoir le nom de colonne pour le jeu de données Iris, vous pouvez simplement exécuter cette commande. Voyez les noms des colonnes que nous avons déjà vus, n'est-ce pas ? Il y a cinq points de colonne par espèce. Voici donc ggplotly, les données, l'iris, l'esthétique, les polices, et nous utiliserons X, la longueur des sépales, la longueur des pétales et la couleur est Nous allons donc colorier les points par espèce. Ensuite, j'utiliserai la fonction de point de soulignement geom pour tracer ces Et puis ce chiffre que nous obtenons du TG Plot, je vais essayer de le tracer avec le ggplotly OK, il suffit d'imprimer ceci et de voir ici, maintenant nous avons le nuage de points coloré et où se trouve ce rose qui est verdâtre pour le versicolor De cette façon, nous pouvons le faire pour la couleur. À présent, vous pouvez également voir que les espèces apparaissent dans la zone de texte lorsque vous les survolez Maintenant, il montre que vous les survolez. Elle coud maintenant la longueur des sépales, la longueur pétales et est précédée par Tout comme dans ggplotly, vous pouvez personnaliser l'axe, le titre et la couleur, un secteur ici Il a donc un complot GG. Tout ce que nous pouvons faire dans GG , c'est ce que nous faisons ici. Ensuite, nous transmettrons ce chiffre de la valeur de la variable plot au ggplotly Cet objet figure deux sur le ggplotly et il va tracer, d'accord, donc voici l'axe X du journal, puis les points de géométrage Dans la fonction de point de soulignement du geom, l'esthétique et la couleur réelles de chaque trimestre se trouvent les prix et enregistrez également un rapport basé sur OK. Ensuite, la longueur des sépales, la longueur pétales et le titre GG seront la longueur des sépales, la longueur des pétales. D'accord ? Alors allons-y. Maintenant. Vous pouvez le voir ici. Maintenant, les points sont également perdus. Et pour ce type, la versicolor se présente sous forme de triangle, et pour lui, les points apparaissent au carré de la C'est donc parce que nous avons utilisé des espèces distinctes sein de la fonction des points Netskope humains De cette façon, nous pouvons également personnaliser l'axe, le titre et la couleur. Nous allons maintenant créer un graphique à barres de base. Donc, pour créer un graphique à barres de base, nous allons utiliser le data.frame. Et ici, je vais créer un exemple de jeu de données ici. Pour cet ensemble de données, il y aura trois colonnes la prochaine fois et une facture totale. Donc, le sexe de ce vecteur du facteur Alcatel sera masculin et féminin, puis ce sera le déjeuner, le dîner Aucun pour ne pas aller bien. Les niveaux seront le déjeuner et le dîner, et au total, vous garderez quelques factures aléatoires pour ici. Permettez-moi donc de créer ces données, activer d'abord ce DataFrame Je vais maintenant créer un graphique à barres. Temps sur l'axe X Color Fill, groupe par sexe et énorme production d'une fonction d' esquive des traits de soulignement Donc, GG trace un énorme volume de données lorsque vous accédez à celui-ci, à cet objet que nous avons, certaines données d'entraînement que nous avons créées. Ensuite, l'axe X de la fonction esthétique, nous mettrons l'axe Y du temps, je mettrai Crotonville, et je remplirai avec la barre de soulignement du sexe et du geom Je vais utiliser l' identité et le maintien de l'ordre, la police et souligner la fonction néerlandaise Ensuite, je vais créer un autre objet, figure 4, et je vais faire apparaître le graphique à barres de Boston G, ggplotly, ggplotly a, B, puis j'imprimerai la figure pour C. la figure 4, et je vais faire apparaître le graphique à barres de Boston G, ggplotly, ggplotly a, B, puis j'imprimerai la figure pour C. Vous voyez ici. Maintenant, voici le graphique à barres simple. OK, il a donc déjeuné et dîné. Il y a deux choses à voir avec ce système pour les femmes : il s'agit facture totale par repas pour les hommes ou les femmes pour le déjeuner. Et c'est pareil pour le dîner. Donc si vous voulez analyser comme au déjeuner d'une femme, interface sera totalement abstraite. Au total. Nous adorons les roupies soutenues et pour le dîner, femmes qui adorent la cystéine et MATLAB Nous pouvons donc analyser qu'au déjeuner, hommes et femmes, les dépenses au déjeuner sont très différentes Homme, dépensez davantage pour le déjeuner pour le dîner. Même des hommes et des femmes. Nous pouvons donc en conclure que pour le dîner, ils ont acheté les dépenses sont presque les mêmes. Journée masculine et féminine. Nous avons dépensé la même somme pour le dîner. Mais lorsqu'elles viennent déjeuner, les femmes dépensent moins pour le déjeuner. Et dépenseront-ils davantage pour le déjeuner ? C'est ce que nous pouvons conclure sur la base de ce graphique à barres. Ensuite, nous utiliserons la SF de base. Pour cela, nous allons utiliser la bibliothèque elle-même. Et pour cela, nous utiliserons l'objet NCD, SF, deux-points, deux points, soulignement, la fonction de fichier System point sera la vôtre tout en passant en revue la barre oblique SIP NC point SHP et le paquet sera SF et SHP et le paquet sera SF et tout à fait égal à vrai Ensuite, nous allons créer un objet (figure 3). Et ggplotly, vraiment énorme et ggplotly. Et nous allons dépasser ce sous-officier. Objet à souligner par ggplotly et geom en toute sécurité. Soulignez-vous les polices SF et les révisez-vous ? Et il avait des formes esthétiques et des religions comme celles-ci. Et nous allons le remplir par zone. Tracons donc ce diagramme de surface simple ici. Nous obtenons donc maintenant cette surface. Vous pouvez le voir ici sur l' axe X et l'axe Y. Donc, au degré. Et vous pouvez voir l'étiquette au repos de différentes manières. De cette façon, nous pouvons tirer parti du complot. La prochaine étape est que nous pouvons également mettre les cartes pour cela. Je suis ta Zynga. C'est tout pour le mois de février, pour nous et pour le trafic. OK. Ainsi, ces données extraites de ce site Web sont directement réadaptées à ce que nous créons à partir de ce site Web Et ces données font partie du fichier CSV du 21 février du trafic aérien américain. Nous allons donc le stocker dans ce DataFrame. Ensuite, nous allons essayer de télécharger ce trafic aérien sur la carte. Jusqu'à présent, cette valeur que tu coiffes. Je vais donc créer un objet G. G et la portée sont les États-Unis. La portée de cette carte correspond à des projets américains et ces listes sont des types de projets et sont de type liste. Albert's USA. La terre après la terre sera notre fils. La couleur du terrain sera en RGB et nous utiliserons le gris 95. Et la couleur de la sous-unité sera très bonne à cinq pays avec 0,5 et la sous-unité avec du bleu à 0,5. Donc, de cette façon, nous pouvons l'utiliser. D'accord ? Ensuite, nous utiliserons la fonction plot underscore GO pour tracer cela sur la carte Jusqu'à présent, ils ont dépassé le jeu de données sous forme de dF, celui-ci, le jeu de données CSV Airport Traffic Notch que nous allons mettre ici. Ensuite, la latitude indiquera la latitude et la longitude rangera le tout, sont les deux choses qui proviendront de ce jeu de données complet. Est-ce que c'est vraiment épais ? Ajoutez des marqueurs et des textes qui indiqueront l' aéroport, la ville, l'état et l'arrivée. Et puis une couleur très riche, un symbole, une taille carrée. Je passe la souris pour voir les textos. OK, alors laisse-moi exécuter cet outil et oublier la valeur des couleurs dans les gros vols entrants. Et pour la mise en page, utilisez le titre, la fonction de mise en page pour la mettre en page. Et puis essayez de bloquer le plus de trafic aux États-Unis. Et puis lisez ce sujet ensemble. Alors essaie vraiment de mettre quelque chose. Alors maintenant, cela arrive car la plupart du trafic nous ajoute Port Hauer pour l'aéroport Donc ici, quand on voit que les arrivées internationales de Glass et Buck sont de 90, alors vous obtenez des arrivées ou 100 pour ce groupe d'amis que je vais faire, 379. Vous pouvez donc survoler la carte et vous pouvez trouver l'Australie centrale Remington compte la 26e arrivée de ce pays des aigles régionaux 292648 en 1998 à destination de l'aéroport international de Salt Lake City Ainsi, vous pouvez trouver l'aéroport le plus fréquenté. Flux nous. Ensuite, nous pouvons tracer les plans créés par l'acteur rationnel. Ensuite, nous pouvons tracer le raster trash talk qui crée la carte thermique colorée avec deux variables agissant comme les coordonnées X et Y. Et une troisième variable correspondant à la couleur. Pour cela, nous allons utiliser la deuxième étape et Plotly. Pour cela, nous allons utiliser la fonction magique et nous les utiliserons tant que nous ne le pouvons pas. OK, maintenant GG trace sur ce jeu de données et valeur1, valeur2, et geom Rushton, remplissage esthétique que les valeurs ce jeu de données et valeur1, valeur2, et geom Rushton, remplissage esthétique que les valeurs peuvent remplir. Le distillateur utilisera cette échelle fonctionnelle et cette sensation d'Oscar. La pastille sera dans la direction spectrale 1. Et cette fonction de décalage donnera l'axe X d'ouest en est et l' axe Y du nord au sud, le titre et les sables Ensuite, nous essaierons de tracer le plan. Alors allons-y et voyons qu'après avoir été fille, une carte de l'élévation de la maladie pour Mongo pendant un certain temps Et cela est créé sur cette base. OK. Maintenant, nous allons essayer d'établir un diagramme de dispersion 3D des canaux rénaux Donc un nuage de points en 3D pour ça, je vais faire les voitures vides D'accord ? Donc des voitures vides, une voiture vide, M égal à zéro et M égal à un. C'est ce qu'on appelle automatique. Manuel. Et puis voici les voitures vides, facteur de bord, les cartes vides am, puis essayez de tracer en utilisant le tracé, le soulignement données sur les voitures vides uniquement qui est intégré à la zone Utilisez vraiment X bar, WT, Wi-Fi Hotspot Edge Project pour vous projet de point d'accès Wi-Fi malade pour vous, couleur malade basée sur l'AM et la Nous allons également définir ici. C'est pour la couleur et les couleurs donneront cette couleur de conversation. Ensuite, pour la mise en page, vous utiliserez la sortie, la cravate, l'attente et la puissance croisée sur l'axe Y et axes de sortie seront de 141 par six milles Dessinons donc ce tracé en 3D. Je peux donc savoir qu'il s'agit du diagramme 3D, du nuage de points que nous avons créé. Donc, pour cela, vous pouvez voir notre axe X, notre axe Y. L'axe Y correspond à la puissance brute. Et le troisième exon, mon époque. Ainsi, lorsque vous passez le pointeur de la souris sur le point, vous pouvez voir que 3,78 Y est un et un jedi De cette façon, nous pouvons tracer les tracés 3D et ainsi de suite. Il s'agit donc de l'axe X, de l'axe Y, et cette carte dépasse ces axes. Plotly intègre donc d' autres tracés interactifs hautement personnalisables, des cartes, car il est déjà prêt à s'intégrer à GG Plot, la possibilité et moins D'accord, vous pouvez donc faire plus d' exercices à ce sujet, vous entraîner et créer des tracés 3D, des cartes et tout le reste beaucoup plus interactifs. Des tracés en 3D, des cartes et tout, d'accord. Donc c'est sur un bateau, Plotly 114. Créer des tracés 3D dans R: Bonjour et bon retour. Dans cette conférence, nous allons créer des tracés 3D dans l'art. Je vais donc vous donner à tous quelques exemples différents dans lesquels nous pouvons créer des tracés 3D. OK, donc d'abord, je vais utiliser correctement le Plotly et pour cette bibliothèque utilisateur Vous ne l'avez donc pas installé, vous pouvez l'installer. Donc, tout d'abord, j'ai adoré la bibliothèque Plotly , puis je vais créer un exemple de données en utilisant une non-fonction Donc x, y, z, vous savez, 100, 100 et le projet existe et utilisez le carré plus y au carré. OK ? Donc, mais ça permettra d' obtenir ces trois. Le fera-t-il plus tard ? Maintenant, je veux tracer ces trois points à l'aide d'un diagramme de dispersion 3D En utilisant Plotly. Pour cela, j'utiliserai une fonction d'onde largement non réclamée pour souligner le tracé fonction appelée x, je reçois x au carré, les axes y x et y, puis x type sera le mode 3D dispersé, ce seront les marqueurs, les harmonicas et une énorme taille de liste, je donnerai trois couleurs, je serai payé sur l'axe Y et l' échelle de couleurs et tu en as fini avec ça Ensuite, mise en page, j'utiliserai la scène et pour la liste, je fournirai une liste contenant l'axe X, l'axe et l'axe du jet Et pour cela, je vais donner le titre X, Y terminé. Si vous le souhaitez, vous pouvez indiquer l' existence de l'axe X, l'axe Y, et ce x est correct Donc, je vais donner ces trois titres et je vais essayer de les faire, laissez-moi m'occuper de ça. Donc, voyez ici, c'est le tracé 3D verrouillé. Nous avons un diagramme de dispersion 3D, nous avons un diagramme de dispersion 3D Nous arrivons ici, d'accord ? Vous pouvez maintenant voir votre axe X, votre axe Y, et voici l'axe du jet, comme vous le Donc, C et maintenant l'axe X, l'axe Y et le X étant Ce sont les points que nous avons créés en utilisant notre nombre qui ont été tracés dans un diagramme de dispersion 3D Donc axe X, axe Y et cet axe. Ainsi, peu importe ce que nous voulons analyser, nous pouvons ainsi créer un diagramme de dispersion 3D à l'aide de Plotly Permettez-moi donc de réviser à nouveau. J'ai créé un exemple de données en utilisant notre fonction normale, le point de l'axe X. J'ai créé notre norme de 100. L'axe Y n'est plus égal à 400 et les x morts correspondent aux valeurs x et y. Et cette formule pour obtenir les points pour le diagramme de dispersion 3D, j'ai utilisé Plotly et la fonction d'onde carrée pour l'indexation du produit de l'axe X, du point X, de l'axe Y, du produit Et puis nous avons ces éléments, la mise en page et les marqueurs. Et puis, lorsque nous l' exécutons, nous obtenons ce diagramme de dispersion en 3D Ensuite, il n'y a que SP, fonction SP et liaisons B. Et vous pouvez voir dans notre programmation, donc les syntaxes BER SP, c'est un nom de fonction et que nous devons écrire que 3.4 axe X, axe Y, et mort à ce stade, nous devons écrire en tant que paramètre important de cette fonction sous forme de paramètres différents séparés, x, y et z avec x et y sont des vecteurs définissant l'emplacement le long des axes x Et l'axe mort sera la hauteur de la surface dans la surface du jet matriciel. Donc, cette hauteur sera encore la matrice, d'accord ? valeur de retour de cette fonction SP sera donc la transformation ailée des métriques du projet en coordonnées 3D x, y dans le plan en utilisant des coordonnées homogènes, qui seront x, y, z et t. Voyons donc l' exemple d'utilisation de cette fonction mais de la perspective de la fonction SP Vous pouvez dire sponsor. Donc, peu importe ce que tu veux, tu peux appeler, je l'appelle SP, être sponsor. OK, je veux donc dessiner ici notre simple cône circulaire droit. Donc, pour illustrer un simple cône circulaire droit, je crée un objet appelé ici et pour cette fonction. Et puis passez la fonction, fonction à Boston pour laquelle j'utiliserai cette fonction racine carrée, x au carré plus y au carré. OK ? C'est donc la fonction pour les valeurs x, x et y sont des séquences vagues de moins un pour un, pour un retard mental. Et le jet sera le x, le y et le froid extérieurs. Ce sera donc l'axe du réseau , puis la surface 3D sera amenée J'utiliserai la fonction d'analyse x, y, et ces trois points, je les transmettrai à celui-ci OK, alors allons-y Comment ça se passe ? On se voit ? Maintenant, il s'agit du cône circulaire droit 3D que nous pouvons créer à l'aide de celui-ci. Ici, la séquence des fonctions du code Endeavor consiste à pré-générer le vecteur de nombres équidistants et la fonction extérieure pour appliquer la fonction corn à chaque combinaison de x et de y. C'est donc le bon cône circulaire que nous avons créé Maintenant. Maintenant, voyez un autre exemple ici. Ce que je veux faire, ajouter les titres et niveler accès à l'intrigue jusqu'à ce que le thème de la conférence soit le même Maintenant, je trace la surface 3D et maintenant nous allons jouer tracer la surface 3D en utilisant la fonction et en passant le point x, y, z ici Ensuite, j' utiliserai le CTO géré, le tracé en perspective d'un cône OK ? OK, donc diagramme en perspective d'un cône. Et puis git lab, je donnerai la hauteur pour l'axe du jet, je donnerai un nom comme hauteur et Theta party ALX1, qu'est-ce que thêta Et puis phi est le propylène et la couleur est l'orange. Et voyez quel 0,4. OK, alors exécutons-le et voyons quel résultat nous obtenons. Nous obtenons ce diagramme en perspective du tracé actif d'un cône. Ici, le soulevé de terre X Lab 11 peut être utilisé jusqu'au niveau, le niveau pour niveler les trois axes. Et thêta et phi sont la direction d'observation. Theta et phi sont d'autres Windex et ceux que nous voyons. Nous vous attendons donc jeudi et vendredi 1245,15. Voyons ce qui va changer. À voir aujourd'hui. L'angle de victoire a été changé, n'est-ce pas ? Tu peux le faire. Voyons quelle est l'évolution de la situation. L'angle de vue change, d'accord ? Donc, quel que soit l'angle que vous voulez voir et que vous pouvez donner en thêta et en phi, si je fais 4 560,45, voyons comment cela se passe et voyons ça comme ça, d'accord ? C'est T. Alors ça va se passer comme ça. OK ? Prends une décision. OK. Maintenant, je vais les utiliser, disons pour visualiser le simple modèle numérique d' élévation. OK, jusqu'à présent, ce sera un volcan à deux et un authentique avec dix dans une colonne et rangée de 10 m orientée du sud au nord. Et pourquoi vous serez alors plongés dans l'alcool et le froid. Et il faudra le jet pour que Danton se disperse d'est en ouest OK ? Maintenant, une grande partie sera consacrée au diplôme et à la fonction de perspective. Je vais utiliser X, Y, w1, 35 et combattre tous ces autres angles Couleur marron, la peau tombe, Thêta un moins un C'est pour le réglage et la bordure, puis c'est faux. Voyons donc comment cela va se passer. Alors voyez ici qu'il ne s'agit que d'un modèle altimétrique numérique Alpha. OK ? C'est ainsi que nous pouvons créer des tracés 3D dans R. Nous avons donc vu comment nous pouvons faire avec le tracé Plotly une fonction d'onde non décrite Ensuite, nous avons vu comment nous pouvons utiliser pour fonctionner plus une fonction de perspective fonctionnelle, vous voulez, vous pouvez l'appeler. Voici comment nous pouvons créer la télévision 115. Créer des intrigues interactives avec des graphiques: Bonjour et bon retour. Dans cette conférence, nous allons créer des diagrammes interactifs avec Highcharts Nous avons donc vu comment nous pouvons le faire avec les autres bibliothèques. Et maintenant, nous allons faire les Highcharts. Le retour est là. Et pour cela, nous avons téléchargé les Highcharts. vous suffit donc de parcourir les packages installés et ce qu'il avait pour High Chart fait comment le faire dans la poussière et le télécharger. D'accord. La bibliothèque Highcharts en sera donc à l'origine D'accord, notre langage de programmation est donc largement utilisé pour les statistiques, visualisation de données et l'analyse de données que nous connaissons déjà. Utilisation de la bibliothèque Highcharts. données de la bibliothèque Highcharts sont représentées graphiquement dans le logiciel Non seulement des graphiques de signification, mais des graphiques interactifs sont également préparés. Bon, voyons donc quel type de graphiques nous pouvons préparer. Des graphiques interactifs que nous pouvons préparer à l'aide de Highcharts, graphique à colonnes, d'un graphique à barres, graphique à secteurs et d'un nuage Voici les quatre types de graphiques que vous pouvez créer avec les Highcharts Donc Highcharts au Texas, c'est assez simple. Nous allons utiliser X Chart , puis nous allons transmettre l'objet de données, puis taper, puis à Cases, les points X et Y, puis la couleur. Ainsi, l'objet représentant le type d'objet de données est le type de graphique que vous souhaitez créer. Il se compose X et Y qui précèdent les X pour représenter les Ce qui est important et Color représentent ce tracé des couleurs, mais vous ne le faites pas, quelle que soit la valeur que vous fournissez Donc, le graphique va créer le graphique interactif, d'accord ? Et ces graphiques à quatre colonnes à barres, barres, à secteurs et nuages de points que nous allons obtenir ne l'ont pas fait Il s'agit d'une syntaxe assez simple de high chart. Dans un graphique, son graphique est la fonction. Et nous transmettrons le type d'objet de données que la charte souhaite créer et les cas, ce seront les axes X et Y et la couleur, mais peu importe la couleur que vous voulez donner. D'accord, nous allons donc d'abord créer avec le histogramme du document, ou le histogramme affiche des données avec des catégories représentées par un rectangle, parfois appelé graphique à barres verticales. Et les catégories sont généralement organisées le long de l'axe horizontal et les valeurs le long de l'axe vertical que nous connaissons. Donc, la première chose à faire est d'importer la bibliothèque que j' affrète, So Lamport Ensuite, voici ce que je vais faire, je vais créer une donnée simple, un exemple de données pour notre exercice. Je vais donc créer ici un vecteur qui contiendra le nom du pays, l' Amérique, l'Inde, l' Indonésie, le Japon, Canada, la Chine et le Brésil. Et leur PIB. Ainsi, le vecteur du PIB créera et donnera le PIB correspondant au pays. Ensuite, nous vous donnerons les données, le cadre de données, le pays et Ce sera donc le DataFrame. D'accord ? La prochaine étape consiste à tracer le graphique à barres à colonnes ou le graphique à colonnes. Pour cela. Stockez-le dans l'objet P1 et Edge Chart Functional utilise un objet, accord, des données à points, qui contiendront le pays et le PIB Et puis tapez, je veux créer un histogramme. Je vais donc donner une chronique ici. Dans Cases, je vais donner X. X signifie que je vais choisir le pays et l'axe Y est appelé PIB et couleur Je voudrais vous imposer un taux d'imposition. Si vous voulez en faire autre chose , vous pouvez également donner du vert. OK, alors laisse-moi regarder ça et regarder ici. Découvrez à quel point ce histogramme est un bonjour interactif . Permettez-moi donc de les supprimer et encore une fois, lorsque je clique, de voir comment cela apparaît et disparaît de manière très interactive. Voici donc comment nous pouvons créer un graphique à barres, désolé, un histogramme. À l'aide d'un histogramme interactif, vous pouvez pirater. Ensuite, nous allons créer un graphique à barres ou à colonnes, afficher des données avec des catégories représentées par le rectangle, parfois appelé graphique à barres horizontales. D'accord ? OK, créons donc un graphique à barres ici. Donc, le même ensemble de données que je vais avoir avec vous. Consultez ensuite les données d'affichage. Si vous voulez voir vos données, vous pouvez voir le pays et le PIB. D'accord ? La prochaine étape est que je veux tracer un graphique à barres ici. Je vais donc utiliser l' objet du graphique S, le type de données Bar, les cas marginaux, le pays, l'axe X, pays et le PIB sur l'axe Y. Et je n'avais pas lu. OK, alors allons-y. Maintenant. Il s'agit du graphique à barres que nous sommes en train de créer. Il s'agit donc d'un graphique à barres interactif utilisant Highcharts, d'accord, alors regardez comment il apparaît, d'accord ? Et quand vous verrez comment cela se passe, vous verrez le pays et le PIB correspondants, d'accord ? Ensuite, chaque graphique circulaire, graphique circulaire ou type de graphique dans lequel le cercle est divisé en groupes représentant la proportion des valeurs des catégories sont répartis entre les différentes conférences du cercle. Vous segmentez les marques de cette catégorie. Je vais donc utiliser le même jeu de données, d'accord ? Et je vais essayer de créer un diagramme circulaire. Donc, ici, je vais donner une page Web égale à pi. Tout le reste est même type que nous sommes en train de changer ici. Et la couleur, si vous voulez donner une autre , je vous donnerai le diagramme circulaire. Découvrez donc comment le graphique circulaire interactif est apparu ici. Je vais donc y revenir, voir comment cela se présente. Et pour chaque pays, lorsque vous passez la souris dessus, il sera surligné Chine, Japon, Indonésie, Amérique. Comme ça Oui. C'est ainsi que nous pouvons créer par Chart. Ensuite, j'ai voulu entrer dans le nuage de points. Nuage de points, également connu sous le nom de nuage de points. Vous venez d'arriver aux valeurs actuelles. Qu'est-ce que les diagrammes de dispersion des variables médicales sont utilisés pour voir ou écouter entre les variables, comment une variable est affectée par une autre Pouvons-nous visualiser facilement ? Je vais donc utiliser la même méthode, et ce pays et ce PIB vraiment opiniâtres Et il avait utilisé la carte S et la couche, je vais vous en parler. C'est ça D'accord. Carla, supposons que je veuille nous donner du jaune. OK, alors voyons comment c'est dans le graphique à nuages Tu vois les points. Alors permettez-moi de le répéter, CIA Boxer arrive ici. Laissez-moi donc passer à une autre couleur. Fais-le rose. Rose. Le rose n'est pas non plus faisable à ce point et le rend pas visible. D'accord ? Alors tu vois, tu sais, c'est la racine carrée d'un bloc, d'accord ? Ainsi, nous pouvons utiliser la haute charte, la bibliothèque High Highcharts et nous pouvons vous fournir les graphiques interactifs 116. Projet 8 Visualiser des données Airbnb à New York: Bonjour et bon retour. Dans cette conférence, nous allons donc faire un autre petit, très petit projet. Dans cette étude, nous allons réaliser une étude de cas sur la visualisation des données Airbnb pour New York à l'aide du diagramme GG Donc Airbnb, héberge des personnes chez vous. Nous verrons donc comment les gens nichent et quel en est le coût ou quelles sont les tendances du quartier . Donc, en gros, nous allons nous en tenir aux données de la ville de New York. Les données seront donc fournies ici. Donc une annonce ou un CSP que j'ai téléchargé depuis Airbnb. Il contiendra donc les données de la ville de New York, données d' Airbnb pour la ville de New York. L'objectif de ce petit projet est donc d'étudier le jeu, de visualiser et d'obtenir des informations à partir des informations provenant des données Airbnb a et B à New York. Une énorme entité utilisera le diagramme GG pour essayer de les visualiser, d' obtenir des informations à partir des données réelles d'Airbnb. D'accord, nous allons explorer différents aspects des données, tels que la distribution antérieure. Ils étaient sectoriels, d'accord ? Donc, ensemble de données pour cette étude ou pour ce projet, nous utilisons le fichier CSV à points listés à partir d'ici lorsque nous avons fait un site pour la ville de New York. L'ensemble de données contient des informations sur diverses annonces, notamment le prix, la disponibilité des quartiers et d'autres détails pertinents. La première étape est donc la préparation des données. Pour cela, la bibliothèque nécessaire sera chargée. Je vais donc utiliser la couche profonde. Si vous n'avez pas lancé le plan, vous pouvez accéder aux packages d' installation des outils, où je place les pinces et cliquez sur Installer, il sera installé et vous pourrez alors utiliser la responsabilité OK ? Donc, GG trace le graphique et l'applique à notre bibliothèque que nous allons noter pour ce projet. Et nous verrons la structure de l'ensemble de données. Et nous allons prendre les valeurs manquantes d'un terme et convertir le DateTime si nécessaire. OK, alors faites-moi savoir les bibliothèques nécessaires en direct. Et la prochaine chose est de répertorier gros fichier CSV que nous avons sur ma machine locale. C'est ce que j'ai écrit. Je vais donc utiliser cette fonction csv à chaque point et transmettre le chemin du fichier CSV avec le nom du fichier. Et je vais stocker ces données dans les variables de soulignement a, B et B. Alors, gérons ça. OK, donc ces données contiennent 48 008, 95, 95 objets et 16 variables OK ? Permettez-moi donc d'explorer la structure de l'ensemble de données. J'utilise la fonction STR et nous transmettons ces données AirBnB et Discord Laissez-nous faire. Je vais donc vous montrer la structure pour cela. Voyons voir. Donc 48 008 95 objets et dit deux variables. Fait cela avec mon nom et mon identifiant. Religion pour la gestion des coûts : numéro d'identification, nom d' hôte, quartier, groupe, quartier. Laisse-le parler à haute voix. Le prix à court terme Le minimum est maintenant le nombre d'avis. Plus grand, riche en leucine, qui a obtenu listes d'hôtes calculées par mois, le nombre, la disponibilité, la recherche T5 Toutes ces variables sont donc là et leur type de données l'est également Nous allons donc maintenant prendre toutes les valeurs manquantes. Nous pouvons donc vérifier les valeurs manquantes en utilisant Ce n'est pas une fonction f ». Et nous transmettons cet ensemble de données, le nombre de valeurs manquantes et quelques moines et pour obtenir la somme des valeurs manquantes, d' accord, le nombre de protons des valeurs manquantes. Nous imprimons donc le nombre de valeurs et d'ensembles de données manquants en imprimant cette valeur simple. OK ? Il y a donc dix valeurs préparatoires pentatoniques manquantes sur 48, 95 OK ? Ensuite, si le fil passe mal, si votre jeu de données ne passe pas le bon moment, vous pouvez les convertir. Hé, les données Airbnb, le dernier avis, la date, la date que vous n'avez pas rajoutée. Je vais voir que votre contenu n'y figure pas. OK ? Ensuite, nous voulons visualiser les données ou les licences. Pour ce faire, nous utilisons le diagramme GG pour créer une visualisation perspicace intégrée à l'extraterrestre Donc, tout d'abord, nous verrons une distribution irréfléchie. Jusqu'ici. Je vais créer un histogramme pour que les rédacteurs puissent identifier personnellement le bloc D et les pâtes Il avait une donnée de soulignement B&B, c' est-à-dire l'ensemble de données que nous avons stocké en accédant au fichier CSV. fichier CSV OK, alors pour la fonction esthétique de l'axe X, notre axe X, nous utiliserons le prix Ensuite, nous utiliserons l'histogramme de soulignement Geom pour tracer l'histogramme . La largeur du bac donnera 50 Et Phil aura l'impression qu'avec la boucle et la bordure Skype, la couleur sera blanche. Et labos, l'axe X sera la tarification, la tarification, la diversité, et la fréquence et le titre de l'axe Y seront la distribution des prix d'Airbnb L'inscription et l'équipe utiliseront un minimum. Ensuite, nous imprimerons le programme de soulignement des prix que nous sommes en train de créer ici. Laisse-moi m'occuper de ça. Voir ici. Il s'agit d'un graphique. Sur l'axe X, le prix en dollars américains et sur l'axe Y, la fréquence À l'écoute. OK ? Il s'agit donc d'une nouvelle vision proposant des annonces Airbnb. OK. Ensuite, nous verrons le quartier. Pour cela, nous allons créer un diagramme à barres indiquant le nombre d'annonces dans chaque quartier. Pour cela, nous allons créer une variable appelée soulignement de voisinage. Tracé de soulignement Les mêmes données. Soulignez les données. Nous utiliserons l' opérateur de canal pour suivre le groupe par groupe de soulignement Il s'agit de la seule variable de l'ensemble de données. Ensuite, le résumé par nombre est égal à n. Ensuite, nous quittons le diagramme GG et l'axe X ordonnera le groupe de voisins, et nous utiliserons la colonne nombre moins De cette façon, votre accès sera appelé et nous le remplirons barre de géom provenant de l'intérieur qui transmettra l'identité Et les derniers punks et le voisinage sur l'axe X, l'axe Y, le nombre de teintes de chair, le titre, le numéro ci-dessus ne sont pas réalistes Dernière année, minimum et équipe. Elément de texte à points X. Vous pouvez faire un élément sous l'angle de protection 45. Ce sera donc le nom sur l'axe X. Je veux le propulser avant 45 ans. Ensuite, nous allons mettre le diagramme à barres là-dessus. Là-dessus. C'est ainsi que Manhattan et Brooklyn, dans le Queens, le quartier du delta s'inclinent de 45 degrés Voici le quartier et le nombre de tests pour chaque quartier. New York, tu détruis le nombre d'annonces. Voisin du groupe, Bronx, Brooklyn, Manhattan, Queens, Staten Island. OK. Voici donc comment nous pouvons utiliser un diagramme à barres. Pourquoi, en nombre, soulever des poids ? Et puis, ce que nous avons compris en faisant cela, nous pouvons obtenir l'IR suivant, la réponse la plus modérée ou la plus cotée en dessous notre dollar cible et avec une ancienne classe pour ce prix Donc, cette chose que nous pouvons voir sur cet histogramme, voir la plupart des 10 000 et certaines valeurs augmentent leur production, que nous pouvons considérer soit comme Eau Claire Donc, la plupart d'entre eux uniquement. Ensuite, tracez à barres le nombre d' annonces dans chaque groupe. La distribution que j'ajoute entre le parent et que j'ai empruntée , donne un aperçu des zones d'hébergement les plus populaires. Donc, de cette façon, nous pouvons le voir si vous le souhaitez. Vous pouvez obtenir une licence plus régulière et vous pouvez simplement analyser les données et créer un modèle d' instance plus vigilant, un bien spécifique différent Merci. 117. Analyse et visualisation de données COVID 19: Bonjour et bon retour. Dans ce projet, nous allons donc analyser les données relatives à la COVID-19. Ainsi, la COVID-19, l'une des pires choses qui soient arrivées à l'humanité, ou le virus mortel qui a causé la mort de nombreux vétérinaires et personnes dans le monde entier. Nous allons donc aujourd'hui analyser les données sur la COVID-19 et essayer de faire l'analyse exploratoire des données sur la COVID-19 que nous pouvons fournir Lorsque nous utilisons l'ADA, nous obtenons des informations précieuses. Commençons donc par charger les données, puis procédons à l'analyse pour trouver les dix principaux pays enregistrant le plus grand nombre de cas de COVID-19. Nous allons également faire d'autres choses, mais commençons par le minimum. J'ai donc téléchargé l'ensemble de données, l'ensemble de données, le jeu de données en réseau par pays, le jeu de données en réseau par pays ce fichier CSV que je vais vous fournir Donc, si vous voulez aller aux toilettes cette application sur le site Web de l'OMS. Pour cela, nous avons besoin de la bibliothèque. Donc, si nous prenons « non installé », vous pouvez accéder aux outils et packages installés et vous pouvez y mettre le plan. D'accord. Ensuite, vous pouvez le télécharger et l'installer. Il n'a pas pu être téléchargé et installé sur votre hot. OK, alors la prochaine chose à faire est ce que je veux faire. Donc cette pièce, vous allez devoir la remplacer quel que soit votre objet. Je déclare que vous avez le chemin de votre répertoire local. D'accord ? Alors laisse-moi tranquille. Maintenant, ce fichier CSV va-t-il enregistrer les dernières données par pays et les stocker dans des données de soulignement COVID D'accord ? Je vais donc utiliser le CSV à points pour lire ce fichier CSV. Voyons ensuite le résumé de ce code, n'est-ce pas ? J'ai donc mis le résumé. Vous pouvez le voir ici. Nous avons maintenant un pays-région, rapidement, ce record. Est-ce que vous embrassez de nouvelles données, nouvelles pour couvrir des dettes, centaines de suppositions, puis des cas récupérés ou non dirigés qu' ils ont colorés et confirmés Combien de cas le schéma posologique et la rétention d'exons ont-ils augmenté la région de l'OMS ? D'accord. Donc, comme ça, il y a ces colonnes dedans. Il gère ces colonnes de cet ensemble de données avec ou sans valeurs médianes minimales du premier quartile La prochaine chose à faire est maintenant je veux savoir si tu veux, tu peux faire encore une chose. Vous pouvez vérifier la structure de l' ensemble de données à l' aide de la fonction STR. Et maintenant, nous avons ces nombreuses colonnes, 197 objets et variables. Donc, des pays et des régions variables le confirment. C'est donc le genre de Vous pouvez voir les colonnes et le type de données le fait également ici. Laissez-moi donc trouver que le plan supérieur contient le nombre maximum de cas de COVID Cela créera un trait de soulignement supérieur variable , qui soulignera les Et ils utiliseront le fichier CSV de l'ensemble de données et stockeront toutes ces données de soulignement COVID Je vais donc utiliser les données de soulignement et utiliser l'opérateur de canal Et j'ajouterai par ordre décroissant par cas confirmés, cas confirmés et par tête Je veux voir le top 10. Je vais donc mettre de l'heptane. Il va donc trouver les dix premiers inégaux aléatoires. Nous sommes alors de là, ils m'en ont envoyé un autre. Ce sont donc les pays avec le plus grand nombre de cas de COVID Qui est donc la région de ces pays en fait ? Donc, l'Amérique. Et c'est notre travail Dans le dossier, nous chargeons d'abord la bibliothèque requise , puis nous lisons le COVID-19. Est-ce que ça va en coordonnées carrées, Theta. Ensuite, DataFrame, nous affichons le résumé de base de l' ensemble de données pour obtenir un aperçu des Enfin, nous constatons que l'épingle supérieure contient le nombre maximum de cas de COVID-19 et que bon sang pompe, considéré comme un échec, contiendra les dix pays ayant enregistré le plus grand nombre de cas confirmés de COVID Et chaque objectif représentera le pays et chaque colonne contiendra les données relatives au virus pour chaque pays. Je veux maintenant faire une visualisation des données à ce sujet. Donc, pour visualiser les dix premiers pays en termes d'indices de carbone, vous utilisez le graphique circulaire, et nous utiliserons le package ggplot2 pour cela Donc, le diagramme circulaire et le diagramme GG pour vous, les dix premiers pays que nous avons obtenus de vous à partir de là. D'accord ? Ensuite, la fonction esthétique ( axe x, y) se contractera et pompe se remplira de la région du pays. barre Geom, la fonction Yeoman Escobar sera utilisée et le statut égal à l'identité fournira un art polaire cool Nous allons commencer par Jira Labs. Je vais donner la tête du titre et les pays, x-naught, y-naught et le contraire et l'équipe sera branchée pour créer un diagramme circulaire pour cela Alors voyez ici. Nous avons maintenant le diagramme circulaire qui montre les dix principaux pays dotés système de cosinus maximal de la COVID-19 pour la COVID-19 Vous pouvez voir le plus grand nombre de cas de COVID et le plus grand nombre de cas de COVID Puis le Royaume-Uni. Puis, petit à petit, c'est le premier royaume, puis le Brésil. Et puis nous avons un moyen qui est l'Inde. Puis celui-ci, puis ce bleu, c'est le CR. Cela nous permet donc de savoir que les États-Unis, le Brésil, l'Inde et la Russie, où se situent les quatre premiers pays, à savoir les États-Unis, le Brésil pour ce qui est de l'endoste, les pays les plus pauvres, enregistrent le plus grand nombre de cas de COVID-19 et nous sommes en tête le plus grand nombre de cas de COVID-19 et nous sommes en OK, donc ce code va créer la charge en octets. Donc en proportion des cas confirmés de COVID-19 pour chaque pays. Nous pouvons désormais ajouter des textes plus denses et personnaliser les couleurs du graphique circulaire pour le rendre plus interactif, informatif et visuellement attrayant. OK, donc ce code va créer le graphique circulaire. Maintenant, nous voulons ajouter d'autres choses. Je vais donc créer un graphique circulaire avec les niveaux de personnalisation des couleurs. Alors, s'il vous plaît, faites de même. Voici les polaires et ceux que nous avons déjà utilisés. Et des années plus tard, cette fonction à l'échelle de l'équipe remplira à nouveau la même fonction. Et il n'avait pas mis le point Legend Point Partisan en bas, mais du noir en bas. Et le titre du lot donnera des côtés, mais nous le donnerons. Justice. Pipe Frank, taille 16, et la France mettra les textes en gras. La fonction et la taille du texte soulignés de l'élément seront légendées. La taille du texte sera de 12. Et pour ce titre, ce seront des sites pour le titre ou 14. Et s'agirait-il de la force ponctuelle de la planche et de la boîte ? OK, alors et ensuite nous utiliserons le diagramme circulaire. Et pour cela, je vais utiliser l'échelle, champ de soulignement et le faire manuellement Et ici, les valeurs seront obtenues manuellement. Les nombreuses couleurs sont-elles un jeu, d' accord, donc quel que soit le code couleur que vous voulez donner, vous pouvez l'obtenir. Ensuite, nous allons créer un graphique circulaire avec des niveaux. Je vais donc prendre ce diagramme circulaire, puis j' appellerai X et fonctionnalité esthétique, ce qui me ramènera à une région country et d' où vient le punk, n'est-ce pas ? Quand est-ce que tu es fils ? Empiler. Ensuite, je m'occuperai de tout ça ensemble. Et C, et maintenant nous obtenons meilleur diagramme circulaire avec des ligands et des couleurs différentes D'accord ? Maintenant, ce sont les légendes qui sont racontées. Vous avez dit qu'il y en avait eu parce que son royaume s'est progressivement développé. Et ici aussi, vous pouvez voir ce tableau, d' accord. Ainsi, nous pouvons créer un vélo personnalisé et un texte de légende. Maintenant, je veux trouver les dix principaux pays supprimés et le pays qui a enregistré un nombre maximum qui trouve les dix premiers pays qui ont enregistré le plus grand nombre cas ajoutés à partir de la partie de cet ensemble de données sur la COVID-19 Nous pouvons utiliser une approche similaire à celle utilisée auparavant Nous allons trier l' ensemble de données en fonction de la colonne du deck, puis sélectionner les dix premiers pays. OK, jusqu'à présent, cette valeur. Ensuite, nous utiliserons le COVID. Je vais lire cet ensemble de données et les dix principaux pays l'utiliseront, organisé en utilisant cette colonne. Ensuite, nous prendrons le top dix D'accord, celui-ci nous l'a déjà fait. Donc CFTC, les dix premiers pays en termes de nombre maximum de bits. D'accord ? Ensuite, je veux créer un graphique à barres, mais le nombre maximum de décès dans les dix premiers pays parce que vous êtes le graphique à barres et la barre géométrique, les choses ont leur cinq angles, un tiret juste dessus Nous avons maintenant le graphique à barres et les pays qui obtiennent le maximum du jour au lendemain et toutes ces choses sont à venir. Voici le diagramme circulaire. C'est Sunda. Nous aboions. D'accord. Il s'agit donc d'un graphique à barres et d'un graphique circulaire. Eh bien, pareil. D'accord ? Je veux maintenant calculer le pourcentage de recouvrement pour chaque pays. fait donc partie de cette reprise liée à la COVID-19, si vous avez couvert le département 200 des études supérieures. Et je sais que nous sommes en train de nous rétablir et que nous passons à la phase de guérison. D'accord. Données par pays. Voici donc comment un pays a couvert le pourcentage de reprise. Donc, ces villosités, nous avons calculé la dernière, d'accord ? Calculez maintenant les percentiles que vous pouvez obtenir pour chaque pays dans partie supérieure qui vous indiquent les pays initiaux , puis créez un Voici le graphique de biais, le pourcentage de reprise et les pays adoptés. D'accord ? Donc, la reprise aux États-Unis, Ivana est au maximum. Mexique. L'Inde connaît également un peu de comédie, puis le Mexique. Ensuite, je veux que les dix principaux pays soient couverts la craie. C'est la personne qui va contrer les personnages de la doctrine dans la première phrase. Par Chuck. cas les plus actifs provenant du pays où nous trouverons est le pays qui compte le plus grand nombre de cas actifs. Les dix pays avec les cas les plus actifs, si graves qu'il en mourra. Dossiers actifs : la dette mineure confirmée moins les cas actifs provient de moins qui, moins les cas recouvrés, nous donnera le plus grand nombre de cas actifs, puis nous ajouterons ces deux avantages. D'accord ? Vous pouvez donc voir les États-Unis, Brésil et l'Inde sur le vecteur numérique fictif. Il s'agit du pourcentage de pays appliquant la doctrine des cours actifs et créez un diagramme circulaire. Cela nous montrera le plus grand nombre de cas actifs. Le pourcentage des pays utilisant la doctrine du cosinus vectoriel ici utiliseront 7,73 % de cette Ce qui réduit la fréquence maximale des suppositions. Les suppositions utiliseront la fréquence car c'est ce qui va se résumer. Ensuite, pour ce qui est de nous voir comme la fréquence de cela, quel pays connaît la fréquence maximale de la carie parce que ce produit l'a partiellement récupérée. est donc au Brésil que les affaires judiciaires sont les plus fréquentes . D'accord ? Ainsi, si nous voulons analyser davantage, vous pouvez analyser votre combinaison de conditions, votre façon de penser et vous pouvez éclairer les données D'accord. Tout tourne donc autour de l'analyse des données sur la COVID-19 118. Projet 10 dessiner des fleurs en utilisant les mathématiques en R: Bonjour et bon retour. Dans cette conférence, nous allons donc parler du projet. Et dans ce projet, nous allons faire d' énormes programmes mathématiques et artistiques pour dessiner des fleurs. Nous faisons donc sécher les fleurs en utilisant les mathématiques dans notre programmation. C'est l' objectif de l'un ou l'autre de ce projet. Nous savons tous que lorsque vous regardez la nature dans tout ce qu'elle crée, vous pouvez y trouver une matraque, même si vous voyez un papillon qui s'est enfermé, revient sur Dawn, notre ficelle et qui semble faux La nature a donc beaucoup de créativité. Et les créateurs peuvent avoir beaucoup de bâton sur les fleurs, sur les arbres, même chez les humains Nous sommes donc, nous sommes tous des humains et nous avons les mêmes caractéristiques comme les yeux, le nez, la bouche, les mains, les jambes. Mais chaque personne a une apparence différente. Hein ? À part les jumeaux. Même les Queen's ont un CSS différent. Et c'est le pouvoir de la nature. Donc, ce que nous allons faire dans cette conférence, dans ce projet, nous allons essayer tirer des leçons, ce qui nous permettra d'aller plus loin Nous allons donc essayer de dessiner un motif floral. Vous faites des mathématiques en utilisant notre programmation. Commençons donc. Donc, le rechargement pour voir ici, le mandat essaiera de comprendre toutes ces choses, d'accord ? Le problème, c'est que les modèles naturels sont trop nombreux, ce sont trop d'exemples de faits naturels et matraques qui peuvent être décrits en termes mathématiques De bons exemples, disons les flocons de neige de Bob, la géométrie fractale de l'école, brocoli ou les règles d' auto-similarité Dans la croissance des parcelles. Odd est un outil d'analyse sérieuse, mais tout ne l'est pas dans la vie. Comme nous le savons. La vie est aussi amusante et l'art peut être utilisé pour s'amuser et faire de belles choses. Nous pouvons également faire beaucoup de choses créatives, Eugene C'est le but de ce projet. Troy, nous réalisons ce projet, cette activité, Newton, l'art et les mathématiques dans ce cours. Sa puissance graphique peut donc être utilisée pour fournir des images artistiques. exemple, nous verrons comment dessiner toutes ces illustrations que nous verrons lorsque nous dessinerons, lorsque nous exécuterons le code, qui s'inspire de la façon dont les plantes sont des feuilles mortes. Ce fait est appelé phylotoxique et nous allons le résoudre comme base de ce projet OK ? Nous allons donc utiliser le diagramme GG pour deux paquets. Comme d'habitude pour toute forme de veillée artistique, nous utilisons principalement GG plot pour emballer Donc, ici aussi, nous utilisons GG plot pour empaqueter. Et en plus de nous amuser, nous en apprendrons de nombreuses fonctionnalités importantes. Et cela sera utile non seulement pour faire de l'art, mais aussi pour répondre aux données actuelles et aux problèmes de la vie réelle. Ne retardons donc plus les problèmes. Ne tardons plus. Commençons par charger la bibliothèque. Donc, pour ce qui est du premier code, j'utilise le bloc-notes AAD L'avantage de l'utilisation de notre bloc-notes réside donc dans les données. Nous pouvons écrire un morceau de code en appuyant simplement sur la touche Alt Control. Control, Alt, Control Alt I. Lorsque vous l'avez mis, vous pouvez écrire du code dans cette section, d'accord Vous pouvez donc écrire les explications et ensuite écrire votre code comme nous le faisons actuellement. Google Colab. Donc, ce que nous pouvons faire chez les adultes, vous devez aller au File, au New et au dîner. Nous étions en train de créer notre script , puis vous pourrez commencer le suivi. Je vous encourage donc à écrire le code vous-même en suivant la conférence, car cela vous donnera une expérience pratique. Si vous téléchargez simplement le fichier et que vous l'exécutez, vous ne tirerez pas beaucoup d'avantages de la conférence. OK ? Je suggère donc de commencer à écrire, d'accord ? Je n'écris pas ici. Je l'ai déjà écrit. Parce que si je commence à taper toutes ces syntaxes, cela prendra beaucoup de temps. Et cela ne sera pas bénéfique car cela prendra des heures. Si je commence à taper et à expliquer des choses. Pour gagner du temps à des fins d'apprentissage, je veux le faire et je vais vous expliquer. OK ? Donc, tout d'abord, nous allons décharger la bibliothèque de diagrammes GG Et ici, nous allons dire que les images du tracé sont de bon goût pour que je puisse fonctionner et pour un diagramme à points brillant, point, la largeur et la hauteur seront quatre. OK ? Puis rechargez. Alors, gérons ça. Vous pouvez donc voir ici les deux options, les trois options. L'un est le chunk opsin modifié, le suivant est exécuté avec tous les fragments ci-dessus Au-dessus, tous les termes seront R1, R2. Vous pouvez voir cette option ici qui est un segment courant aléatoire. Nous allons donc utiliser ce run junk pour le moment. OK, alors allons-y. Maintenant c'est fait, la bibliothèque de diagrammes GG a été chargée. Ensuite, la deuxième étape de ce projet consiste à arroser et à sécher les points d'un cercle. Dans cette activité, nous allons donc , nous allons essayer de dessiner les points du cercle. Dessine les points autour du cercle, d'accord ? Donc, mythiquement, j'essaierai de dessiner un cercle ici à l'aide de points Il existe donc de nombreuses manières de représenter les données dans diagramme GG 2 pour les diagrammes de dispersion simples ou les diagrammes plus complexes, tels que les diagrammes pour violon Les fonctions qui commencent par Geom Underscore définissent en quoi le tracé est Donc, le soulignement géographique est défini, nous allons bientôt montrer à quoi ressemblera le tracé Dans ce bloc-notes, nous voulons travailler uniquement avec le point de soulignement de la géométrie, qui déforme les points du tracé en deux dimensions Nous avons juste besoin d'un ensemble de données contenant deux variables. Appelons-les x et y. Nous avons donc besoin de deux variables, x et y pour l'axe x et l'axe y. Maintenant, je veux dessiner deux points sur un cercle de rayon, un à chaque point x et y. À chaque point x et y. B dans le cercle unitaire, il s'ensuit que x au carré plus y au carré est égal à un Nous pouvons l'obtenir en utilisant la célèbre identité trigonométrique pythagoricienne, selon laquelle le sinus carré Theta plus cos carré Theta est Theta est Ce sont donc les mathématiques de base que nous connaissons déjà. Très bien, alors laissez-moi ouvrir ce code. Donc, voici ce que je fais, je crée une séquence de nombres. Séquence de chiffres. Donc pour cela, je vais utiliser t comme variable pour stocker ces points. Et je vais dire, utiliser la fonction de séquence pour générer. Et je vais commencer avec une longueur de 0,2, ce sera 52. Le total des points sera généré. Ici. X pour le point x correspond au point de l'axe x. Je vais utiliser le sinus et le sinus de t. En fait, ce seront les angles, d'accord ? D est donc l'angle que cette séquence régénère cependant. Les angles que nous utilisons pour trouver nos x et y x sont sinus Theta et cos Theta Donc, ici, depuis t et puis y ou y, nous utiliserons le coût, d'accord ? Ensuite, pour un DataFrame, data.frame B sera l'angle, puis x, y x, virgule, y, x sera le sinus de t et y sera le sinus de t, le sinus de t cos up Ensuite, avec ces deux points, j' essaierai de créer un diagramme de dispersion en utilisant le diagramme GG pour le diagramme GG deux C'est celui-ci, ce DataFrame, le DataFrame que nous venons Ensuite, j'utiliserai la fonction esthétique pour l'esthétique de l'intrigue. Les points x virgule y. Ensuite, j'utiliserai le point p plus geom Cela les bloquera donc. OK, alors allons-y et voyons, voyons, et maintenant nous sommes tracés sur un cercle, d' accord, des points tracés sur un La prochaine chose est de le rendre harmonieux. OK, révélons le code. Rendez-le harmonieux avec Colin Angle. Donc des blondes ajoutent les feuilles dans cette spirale. Si vous regardez toutes les feuilles de la plante, cela suffira. Forme finale, j'ai essayé la moelle épinière, qui part de l'origine et s'éloigne de sa pointe. Ainsi, lorsque vous regardez une spirale, elle commence par un point particulier et se déroule comme suit. OK ? Ce sera donc comme ça pour commencer à formuler le point, puis ça se passera comme ça OK ? Nous allons nous revigorer, d'accord ? Il part donc de l'origine, s' éloigne de ce point, auxiliaire tourne autour Dans l'intrigue. Ci-dessus, tous nos points sont les mêmes. Distance par rapport à l'origine. Ou un moyen simple de les disposer en spirale est de multiplier x et y par un facteur dont la routine atteint chaque point. Nous pourrions utiliser le facteur Azure AD qui le prend en compte, pourrions utiliser Azure car ce vecteur répond à cette condition. Mais nous allons faire quelque chose de plus harmonieux, utiliser l'angle d'or. Golden, quelle est la formule de l'angle doré ? Il est égal à phi sous trois moins la racine cinq. Et ce chiffre est inspiré du nombre d'or. L'un des chiffres les plus connus de l'histoire des mathématiques. Le nombre d'or et l'angle de Gordon sont apparus dans des endroits inattendus de la nature, à part les fleurs, les pétales et les feuilles des plantes, vous les trouverez. Semez des têtes, de l'or liant, des graines de tournesol, des ventes, des galaxies spirales, des ouragans, etc. OK, il est donc temps de le finaliser. OK, alors regardons le code. Ici. Nous définirons le nombre de points que vous associez. Nous allons le définir comme un gâteau de trois moins la racine carrée de cinq. Ensuite, nous serons ceux qui, sur le vent et sur le vent colère, multiplieront l'angle par 0,500 points, puis l' 0,500 points, puis exposant sera le sinus de t et y sera le coût de T. Ensuite, nous utiliserons le DataFrame pour créer un DataFrame Ensuite, nous allons créer le diagramme de dispersion en utilisant le diagramme GG. Et nous allons ajouter le point géographique. OK, exécutons ceci, la sortie. Vous pouvez maintenant voir comment nous avons créé une spirale en utilisant chaque point. Ensuite, nous allons supprimer tout ce qui est inutile. Outre les données, applaud inclut de nombreux autres composants qui le font Ce graphique contient un ami en arrière-plan avec une grille de couleur grise composée de lignes horizontales et verticales en arrière-plan. Des astuces le long de l'axe, titre sur l'axe X, le extra le long de l' axe et des niveaux Donc, toutes ces choses que nous allons faire en exécutant ce code définiront le DataFrame Je contourne ce côté, le x et le y, pour accéder à la fonction DataFrame et points du diagramme de dispersion dans Donc, le complot RDD. Et nous l'appellerons 100 A-frame. Et puis les valeurs esthétiques, x dans boo, désolé, x dans d, y dans d. D'accord ? Ensuite, nous allons attribuer ce point. Ensuite, nous utiliserons les polices d' équipe ici et à l'intérieur du panneau de groupes fonctionnels du thème, des polices d'éléments en grille de points . Et ici et à l'intérieur de la console, éléments de la grille à points du panneau soulignent le blanc, xis txt souligne le blanc et l'élément de titre le En fait, ils ne peuvent pas préparer le terrain de jeu à Grand Cow. Le panneau sera un fond uni. Cet élément d'arrière-plan et ce soulignement sont abîmés et semblent vraiment énormes, blancs Alors tournons-nous et voyons le résultat. C'est ce que nous obtenons. Si nous le pouvons aussi, ce blanc. Voyons ce qui se passe. OK ? Maintenant, le fond est en rouge. Ainsi, avec cela, nous pouvons créer un arrière-plan. Et si je le lance, l'arrière-plan sera le public. OK ? Il a donc eu du clean. Voyez maintenant comment cette spirale pointe et comment elle ressemble à un motif. OK ? Prochaine étape, le maquillage. Le maquillage va essayer de le décorer. Si la couleur et la transparence sèchent , cela commence à ressembler à une plante, mais nous ne pouvons pas faire beaucoup mieux en modifiant la transparence des couleurs, également appelée transparence alpha, taille alpha plus foncée de l'image deviendra plus attrayante Regardons donc le code. Ici. Un nouveau diagramme GG, Wong Sun, et les données permettent d'obtenir une enthalpie et une entropie x. Et puis Dionne pointe depuis le centre des États-Unis et sa taille donneront une couleur donnée, le vert foncé, le thème et le thème, ce que nous avons dans le bloc précédent. Alors lançons ceci et voyons la colonne de ce jour, si je fais en sorte qu'elle supporte le gris. Et voyez comment les arrière-plans et les vents marins deviennent soudainement verts mais le fond devient gris. Ensuite, il s'agit de jouer avec l'esthétique. Que Dalian jusqu'à présent, tous les points du thème de vos idées, de la couleur, de la forme et de l'alpha Parfois, vous souhaitez que le point central soit une variable dépendante de votre jeu de données. Nous allons maintenant rendre la taille variable. Nous changerons également le thème des points, même si nous ne serons pas en mesure de parler là-dessus, ils ne pensent pas qu'un investisseur vous rappelle ce que Dan Dalian Permettez-moi donc de vous montrer que le noyau jusqu'au point géom du bloc d dans temps avec des fonctions esthétiques, les côtés sont égaux à, sera le t alpha 0,5, disons pour moi pour huit et une colonne, je vous donne un fond noir où je donne du blanc Exécutons ça. Maintenant. Ça arrive comme ça. OK ? Donc, si je change le CFE ou que je soutiens la mer, mais au point où ça ne peut plus être comme ça, d'accord ? Donc, quoi que tu veuilles, tu peux mettre le coffre ici et il sera créé sur cette cassette, d'accord ? Dans cette cassette, d'accord. Nous allons maintenant rassembler tout ce que nous avons fait jusqu'à présent et essayer de créer cette intrigue. Donc, la première ligne est la même. Puis enroulez ici, la taille esthétique est égale à 4,5. Et sirotez la région de réalité 17 et le document de chemise de nuit en vert ou bleu OK, voyons voir. Déployez le code. Propre. Et tu vois, ça a l'air bien. Ce manomètre noir, fond magenta. Prochaine chose. Et si on modifiait l'angle ? Voyons donc si nous modifions l'angle, que se passera-t-il ? Les schémas de drainage occupent une place centrale dans l'angle entre les points situés sur la colonne vertébrale. De petits changements dans l'angle que cela peut générer sont très difficiles pour la religion, disons 1 704,5 et l'angle nous donne deux points, nous passons à des périodes Voyons maintenant à quel point c'est beau. C'est à partir de là que nous en sommes arrivés à cette prise de conscience. La prochaine étape, c'est tout. Maintenant. Nous allons maintenant créer les techniques florales imaginaires que vous avez vues. Le jeton vous permet créer un nombre fini de motifs inspirés de la nature . La seule limite est votre motif inspiré de la nature la seule limite est votre imagination Mais faire de l'art a aussi été une excuse amusante pour apprendre à faire de l'intrigue sur GG, n'est-ce pas ? Nous avons appris tellement de choses. Et c'est très intéressant. J'espère que ce projet vous plaira à tous. Et cette conférence. Tous les textes que nous avons vus au cours d'une longue année pour tracer les données réelles également Trouvons donc cette image sur la gauche. Un peu de rouge, c' est illisible par rapport à la fleur précédente, on voit quelque chose de très similaire aux deux premières qui, tournons les choses, voyons quel point ce motif est beau À partir de là, pour arriver à l'ouest, nous avons commencé par le vent circulaire, puis nous l'avons réduit en utilisant l'angle doré. Ensuite, on nous a donné la couleur de fond, puis nous avons acheté récemment la couleur, la taille et la transparence, puis le SIP. Et puis ceci, et puis nous en sommes enfin arrivés à ceci et à ce magnifique motif floral que nous avons dessiné ici. Si je change d'état pour le faire, pour voir ce qui va se passer. Tu vois, c'est une base triangulaire. Enseignez une colonne. Cela prédit que D viendra comme un autre modèle. À la fin de l'été, la salle de bain. OK. J'ai mis un 17. Ça arrive comme ça. OK. Donc je vais le faire aussi. Alors. C'est le plus beau fait-maison que nous ayons créé. Ainsi, vous pouvez également jouer avec différents angles Alpha, différentes tailles, différentes combinaisons de couleurs et essayer créer votre propre motif floral. Fleur utilisant les mathématiques et chaud. J'espère que ce projet amusant vous plaira. Et vous êtes également en train de réaliser le projet et de télécharger votre Florida dans le juge de Floride, dans la section projet de ce cours. Et nous pouvons tous voir 119. Analyser et visualiser les lauréats du prix Nobel à l'aide de R: Bonjour et bon retour. Dans cette conférence, nous allons aborder d' autres aspects essentiels de l'analyse et de la visualisation. Et c'est aussi une sorte de projet. Et pour ce faire, je vais analyser les données des lauréats du prix Nobel. Ainsi, nos lauréats du prix Nobel chaque année. Quelqu'un obtiendra le prix Nobel dans une catégorie particulière. Quelle catégorie est liée à l'art, aux sciences, travail social sur ces sujets, n'est-ce pas ? Nous allons donc essayer d'analyser sur un autre bitter et nous allons le résoudre Nous allons également visualiser les données. Alors j'ai fait analyser quelques points par Nika et je vais vous montrer comment vous pouvez le faire Donc la plupart des prix Nobel, puis nous nous concentrerons sur le prix Nobel. Ce sont les critères que nous allons aborder. Alors. Nous allons maintenant voir comment il se comporte et comment ou combien de prix Nobel ont remporté l'USS I dominent le scénario du prix Nobel. Ensuite, nous visualiserons la domination des États-Unis. Ensuite, nous verrons le mal et les femmes et les hommes recevront le prix Nobel. Ensuite, nous verrons qui est la première femme à remporter le prix Nobel. Toutes ces choses et bien d'autres sont donc réunies nous allons essayer de le faire. Pauvre, on continue. Laissez-moi vous expliquer l' ensemble de données. Nous utilisons donc ce fichier CSV à points Nobel, qui contient l'oreille dans laquelle le prix Nobel a été décerné. Les catégories, les différentes catégories dans lesquelles le prix Nobel a reçu le nom du prix, le prix Nobel lui-même. Vendredi, ce sera le prix Nobel de chimie, le prix Nobel de littérature en physiologie. Toutes ces choses. OK, c'est donc le nom. La catégorie sera la chimie. La police de Rachel Madison prédit toutes ces choses. D'accord, il y a donc différentes catégories prix Nobel, d'accord ? Et puis la motivation, quelle est la motivation qui se cache derrière ? Si vous attribuez le prix Nobel à cette portion en particulier et au prix cette portion en particulier et au prix qu'elle coûte une par une ou deux, il y a plus d' une personne qui reçoit le prix Nobel de la Gashes se trouve quelque part un par deux. Ils seront deux personnes. Là-bas. Il s'agissait de deux personnes appartenant à la même catégorie chacune Le prix Nobel sera donc divisé en deux. D'accord ? C'est donc le plateau un par deux. Ensuite, vous pouvez voir quelque part un par quatre. OK, donc c'est le prix. Combien de personnes se retrouvent donc dans la même catégorie, au même prix ? Ensuite, Laura Tidy, tous ceux qui ont reçu le prix Nobel se verront attribuer une grande partie du Et puis le type de loterie, ce sera individuel ou organisationnel. Si c'est l'organisation qui obtient tout le gâteau, ce sera de l'organisation. Et s'il s'agit d'une portion individuelle, ce sera individuel. Donc, fondamentalement, il existe deux types de personnes qui font la distinction entre un individu et une organisation. Puis nom complet de la partie de l'organisation, alors qu'obtenir le prix Nobel plutôt que le barreau aujourd'hui vaut plus que le barreau à ce jour. Ensuite, la ville de cette partie particulière, le pays de naissance, puis le sexe, masculin, féminin ou autre. Puis le nom de l'organisation. Ça, faire laver Parson ou vendre est le nom de l'organisation plutôt qu' il ne l'est. Tu l'as éteint. Madison excelle, bien faite, nomme et organise et est la ville d'un pays majestueux. date à laquelle cette personne a expiré, ainsi que cette ville et ce pays. Toutes ces colonnes se trouvent donc dans ce nouveau fichier CSV à points. Nous allons analyser. OK, alors commençons. Alors laissez-moi vous parler des fruits à propos du prix Nobel. Il en va de même pour les prix Nobel, mais c'est la récompense scientifique la plus connue au monde, l' exception de l'honneur, du prestige et des prix substantiels. Le destinataire de moins de 33 à 896 ans qui a établi le cours de l' action. Chaque année. Il est décerné aux scientifiques et universitaires dans les catégories chimie, littérature, physique, physiologie ou médecine, économie et paix. Il s'agit de la catégorie dans laquelle le prix Nobel sera décerné et qui a été décerné au cours des dernières décennies. Le poste Le prix Nobel a été décerné en 1901. Le prix Nobel a donc été créé en 1901. À cette époque, le prix était vraiment eurocentrique et centré sur les hommes, mais aujourd'hui, il n'est aucunement biaisé Voici donc l'histoire du prix Nobel. Nous allons maintenant découvrir Fondation du prix Nobel dispose d'un ensemble de données pour tous les lauréats. Il s'agit donc de l'ensemble de données Nobel disponible pour tous les lauréats du prix Nobel. C'est donc le CSP de premier ordre, 1901-2016. Donc, tout d'abord, nous devons charger le jeu de données. Le nom du jeu de données est donc novel ou CSP. Nous allons donc utiliser read underscore CSP et nous allons lire ceci, puis nous arriverons à la tête qui passera Il s'agit d'un ensemble de données pour la nouvelle fonction de tête de police. Et nous verrons combien, quoi ressemblent ces données. Pour cela, nous allons consulter la bibliothèque de vers bien rangée, nous allons donc également noter cette bibliothèque Lorsque nous l'exécutons, nous pouvons récupérer le jeu de données Clips Up. Alors à bientôt. Nous avons déjà vu dans le fichier CSV ici, prix de la catégorie, puis la colonne de motivation. Alors le prix ici, Laura Tidy Laura type, FullName, droit d'aînesse, mais date, mais ville, quels pays ? Organisation sexuelle. Toutes ces informations s' y trouvent donc. Ainsi, après le chargement, nous pouvons également accéder à ces informations via notre. Ensuite, nous trouverons qui a fini de prier. considère les deux premiers lauréats du prix Nobel, comme on les appelait également, comme on les appelait également, nous voyons déjà qu'une célébrité sera Conrad Rontgen, qui a découvert Et en fait, nous voyons qu'ils sont tous morts. Tous les gagnants de In Nitrogen étaient des gars qui venaient d'Europe, depuis ses débuts en Europe. Donc toute la sueur aminée, qui venait des États-Unis, mais c'était en 1 901 Si l'on considère tous les gagnants, l'ensemble de données allant de 1 901 à 1966 et les pays riches les plus souvent représentés C'est ce à quoi nous allons mettre fin. Le pays du gagnant, en tant que petit pays ne s'applique pas à tous les prix fixés pour nous. D'accord ? donc assez facile de compter le nombre de prix Nobel décernés sera donc assez facile de compter le nombre de prix Nobel décernés entre 1901 et 2016 Nous allons utiliser l' ensemble de données Nobel, utiliser l'opérateur de tuyauterie et nous allons compter en utilisant la fonction de comptage. D'accord ? Et puis en comptant le nombre de prix, un par bénéficiaire masculin et un par bénéficiaire féminin. Nous allons donc utiliser un roman, puis compter sur la base de ces six, nous donnera le nombre de sexes pour les hommes et les femmes séparément , puis le comptage du nombre de prix détenus par différentes nationalités qui sont ici tiendra compte du pays acheté par l'assistant Ensuite, nous ajouterons les blessés par ordre décroissant. Et nous allons voir le premier terme T. Très bien, alors allons-y. Découvrez le pays. États-Unis sur 9 personnes, le Royaume-Uni, 85, la France, l' Allemagne, tel T1, la France pour le P13, que 29 Et ce pays n'a pas 26 ans, Japan Grundy pour le Canada à, dans l'objectif il est habituellement 17 Et puis nous pouvons voir le ratio hommes/femmes ici. Donc, une personne a soulevé 49 femmes jusqu'à présent, jusqu'à 2 016,8. 39 ont peut-être remporté le prix Nobel et 26 ans, le sexe est inconnu. D'accord ? Ensuite, vous pouvez voir qu'un total de 911 personnes ont reçu le prix Nobel. Dans ce cas, il s'agit de 36, l'homme et 49 ou la femme, et 2067 ou ont révélé leur sexe OK. Nous au prix, peut-être l'alerte la plus courante actuellement. Vous faites 1 901 à deux fois 15 était un homme né aux États-Unis d'Amérique Mais dans l'ensemble, c' est en riant là où le pain européen a fait le tour des États-Unis. Donc, avant la création du prix Nobel, tous les gagnants venaient d'Europe, mais lentement, vous dites que l' Amérique a pris le dessus. Ils ont dominé le palmarès des prix Nobel. Alors voyons voir. Nous allons donc calculer ici la proportion de gagnants américains du One par décennie. Jusqu'à présent, cela créera cet accessoire, soulignez, soulignez avec nous. Et nous utiliserons le jeu de données Nobel, même l'opérateur de tuyauterie et nous ferons muter le gagnant né aux États-Unis est égal au pays de naissance Et ici, nous allons être fiers du contrôle des naissances en tant que États-Unis d'Amérique. Et ils l'utiliseront divisée par dix en cent. Et nous utiliserons la cellule rétrécie au sol. Donc, assister à 200 et nous utiliserons le groupe fonctionnel de plancher par décennie utilisera pour obtenir le, puis résumer. Une proportion égale à la moyenne des obligations américaines ne le sera pas. Et une donnée qui est égale à vraie. Alors allons-y. Voyez votre en 19091900, proportion d'entre nous disent que gagner est 0,07 sur 19, puis elle a 1920, 0,70, 741 932,25 % de données et 40,32, 92,299, 290,14 plus dentistes. Et au total devant 4321 EGN, vous enseignez 1030. Maintenant. Ensuite, nous utiliserons le diagramme GG pour tracer la proportion de ceux qui nous ont épargnés. Pour cela, nous allons utiliser le diaphragme et le transmettre au DD Plot. Pour une révision esthétique, l' axe X ne mourra pas de dix ans et l'axe Y indiquera la proportion entre les femmes Et nous perdons la fonction geom underscore à neuf lignes pour dessiner les Les humains pouvaient pointer du doigt pour dessiner les points. soulignement de l'échelle via des niveaux continus est égal à Echelles Colonne, limite de pourcentage de colonne X1, X1 zéro, inférieure à cette valeur. Et regardez ici, vous pouvez maintenant voir une particule. Comment ça se passe. Ensuite, quel est le sexe d'un prix Nobel typique ? Ensuite, quel est le sexe type d'un lauréat du prix Nobel ? Pour cela, nous allons calculer la proportion de femmes lauréates par décennie Nous utilisons un accessoire pour le descopage et soulignons le gagnant à partir de la variable ici et partir de la variable ici et Et nous allons utiliser la fonction de mutation. Gagnante du underscore féminin. Tu dis que deux sexes sont égaux à la femme. Et prenez-le, le plancher sera divisé par dix en dix. Et nous fermerons l' opérateur de canalisations, puis nous augmenterons par décennie, par catégorie et en résumant. En passant, la proportion est égale au premier gagnant moyen et aux données provenant de deux. Ensuite, nous allons tracer cette proportion Freeman Lauric a prédite pour que cela passe D, D, supprimez le trait de soulignement. soulignement ne suffira pas. Certaines esthétiques utiliseront X, X au carré Y. X est quatre. Le nombre de gagnants et couleur seront les catégories en fonction de la catégorie. Alors allons-y et voyons. Vous pouvez maintenant voir ici, sur l'axe des x, les chats ont été tracés et sur l'axe des y, la chimie, l'économie ou la catégorie ont été secouées Et maintenant, nous allons voir combien d'autres repreneurs ou gagnants à ce jour, laissez-moi vous le montrer. Ici, nous allons utiliser le roman sur Data Frame. Et il le fait et nous utiliserons le nombre égal au nom complet et au filtre Si N est supérieur à un, nombre pair d'occurrences est supérieur à un, alors nous compterons, compterons. Comprenez bien cela. Au moins six personnes ont reçu le prix Nobel plus de deux, deux, deux ou plus de deux fois. Alors d'accord. C'est l'heure de demander à Maddie et Lena a perdu du pollen deux fois. Comité du droit international, communauté internationale de la Croix-Rouge, ou trois fois. Maintenant, quel âge avez-vous lorsque vous recevez le prix Nobel et que vous reprenez le contenu des gagnants dans certaines illustrations, nom, nous rencontrons à nouveau Marty Query Madame Curie, qui a obtenu le prix Nobel de physique pour avoir découvert rayonnement et la chimie pour isoler le milieu et John a mis deux fois au frigo des transistors d'exportation et de la supraconductivité. Frédéric Sanger Sanger l'a obtenu deux fois en chimie. Linus Pauling a obtenu première place en chimie et lettrage pour chaque œuvre visant à promouvoir ce vêtement, cet homme et ce moment actuel Et nous apprenons aussi que cette organisation dont les prix sont également subordonnés et vous n'avez toujours pas obtenu son prix Alors laisse-moi te montrer. Utilisez le lubrifiant. Lubrifier. Désolé, il ne faut pas lubrifier le paquet Lubrifiez ici Et ici, nous calculons le E qu'avaient les lauréats du prix Nobel. Donc, innover puis muter est égal à moins l'ère. Mais ensuite, nous traiterons l' analyse de ce DataFrame et l'esthétique utilisera Export As et Wife pendant Et avec le point de géométrage à main levée et les géomètres, Small trace même cette leçon que nous recevons que nous Ensuite, il y a la différence entre les catégories de prix. Donc, Plot a souvent vu ça. Nous voyons des personnes qui passaient quatre à cinq jours à rester assises debout. De nos jours, la moyenne est clairement de 65 ans, mais il y a un large écart dans les salles de cinéma entre les personnes les plus appropriées et les personnes très jeunes. Et vous voyez aussi qu'à l' époque, le nombre de nominations par la Ville est beaucoup plus élevé aujourd'hui qu' au début des années 90 aujourd'hui, beaucoup plus élevé aujourd'hui qu' au début des années 90 Beaucoup plus de prix sont fixés, donc il y a beaucoup plus de gagnants Nous constatons également la rupture de nos prix à la suite du deuxième lavage, pendant la Seconde Guerre mondiale, de 1939 à 1943. Le roman Nobel met l'accent sur l'âge et l'esthétique X, Y. Et passons Découvrez à quel point les catégories et les âges influent sur la chimie, l'économie et le droit. Ils essaient que l'enfant peut recevoir des fonds, des frais et des prévisions, des médicaments, la paix et des prédictions ou moins que le plus jeune gagnant Nous essayons donc de trouver que le trou était le plus ancien et le plus jeune. Supposons donc que nous ayons utilisé le bureau en tant que prix abdominal catégorie par catégorie. Vous pouvez donc le voir pour la chimie et cela pour l'économie, la littérature, la médecine et la physique. Alors sont inférieurs à ceux d'Angular pour l' un ou l'autre des tracés avec beaucoup de cyclins en cours Nous constatons que les soins infirmiers, la chimie et la médecine de Boltzmann ont vieilli au fil du temps La tendance est la plus forte et prédit que vous serez diabétique à 50 ans Et maintenant, la littérature et l'économie ou plus encore Tableau. Et nous constatons également que l'économie entre dans une catégorie plus récente, mais selon un projet dix infirmières chevronnées rajeunissent. La catégorie obèse, nous aussi cette catégorie nous n' étions pas non plus vers 2010, qui semblait exercer son activité presque jeune Cela soulève la question vers deux heures, puis la même chose, sauf que l'odeur d'un jeune homme sent mauvais, cela soulève la question suivante : qui sont les personnes les plus jeunes ou moins que les plus jeunes de tous les temps Pour cela, nous allons utiliser la nouvelle variable d' âge du trait de soulignement, mais sur le trait soulignement supérieur, N en donnera un, puis le fera Et puis pour le trait de soulignement supérieur N1, en ordre décroissant. OK, alors allons-y. bientôt. Dans la catégorie des pièces 2014. Le prix Nobel a été donné au prix Nobel vous a été donné. Alors Malala. Malala a deux ans J et C n'avaient que 17 ans lorsqu'on lui a dit qu'il n' avait que sept ans. Suppression des enfants et des jeunes pour le droit de tous les enfants à l'éducation. Et la CSIA, le prix avec eux, un. Découvrez comment les données ont été partitionnées en juillet 1997 et l'âge était de 17 ans. C est donc le plus jeune, et voici notre liste1 au total et sept sciences économiques La caisse d'épargne Prize in Economics signe un total de sept pour avoir jeté les bases d'un mécanisme, ce qui, en théorie, et il a dit les trois autres groupes à d'autres personnes. s'appelait Leonardo Harvest et il était le seul prix Nobel pour l'instant. Et à 90 ans, il a reçu le prix Nobel Dahmer et il venait d'Amérique Et Malala Yousafzai était originaire du Pakistan. De cette façon, nous n'avons pas aimé ou moins qu'au Pakistan. De cette façon, nous n'avons ni aimé ni moins que le plus jeune lauréat du prix Nobel. Vous pouvez offrir le lauréat du prix Nobel. Vous pouvez trouver d'autres points et les analyser. J'espère que vous avez compris comment nous pouvons visualiser et plus tard. Plus tard. 120. Projet 12 Trouver la force de mots-clés en utilisant R: Bonjour et bon retour. Dans cette conférence, nous allons réaliser un autre projet dans lequel nous allons déterminer la force du mot de passe en utilisant odd. Donc, comme nous le savons, c'est un projet de langage de programmation très populaire et c'est étrange. Parfois, nous devons également prendre en compte la force du mot de passe. Dans ce cas, vous pouvez utiliser cet exercice. Alors voyons voir. Dans ce projet, nous allons donc passer en revue les rôles de publication spéciale 863 du NIST à Qu'est-ce qui donne un coup de pied à la partie secondaire du vérificateur qui est chargée de stocker et de bien boire le mot de passe, connu sous le nom de graisse corporelle ici Il fonctionne pour s'assurer que vous ne choisissez pas un mauvais mot de passe. Nous allons passer en revue les mots de passe des utilisateurs. Ce qui est réparé une petite entreprise et utilisez notre pour vous signaler que vous avez juste un mauvais mot de passe. Mais le fait d'être en mesure de le faire signifie déjà que l'entreprise de signalisation fixe en propose 800. Je suis toujours. Mais si j'ajoute le stockage cellulaire mémorisé, sacré dans sa forme, cela fait dix attaques hors ligne Mémorisez la Christelle à démarrer et à utiliser la fonction de dérivation des touches unidirectionnelles Table Cela ne consiste jamais à enregistrer simplement votre mot de passe en texte brut, toujours crypter les mots de passe En gardant cela à l'esprit pour la prochaine fois que nous proposerons un système de gestion des mots de passe. Chargons ces données. La liste des mots de passe et la base de données fixe ou limitée. Les deux contenus, un vrai lien de mot de passe provenant d'un vrai site Web. Ce mot de passe n'a été filtré d'aucune façon et ne figure pas dans les données d' exfiltration de données de CloudWatch Et c'est donc juste pour le vouloir. OK, chargeons donc le fichier CSV ici. Nous allons utiliser la bibliothèque de vers bien rangée ici. Alors laisse-moi juste, d'accord. Nous allons donc d'abord charger la bibliothèque, la bibliothèque, puis nous devons lire le fichier CSV dans lequel toutes vos données Just ont été stockées. Nous vous utilisons pour démarrer le fichier CSV. Oui. Et nous ne vous conservons que des objets de valeur. En comptant le nombre de personnes que vous venez de recevoir en cure de désintox à partir de maintenant nous utiliserons la fonction Endrew et vous la transmettrons Ensuite, nous imprimerons la première pré-impression. Voyons les données. Il s'agit donc de l'identifiant, du nom d' utilisateur et du mot de passe de l'année. Il s'agit donc de la base de données du fichier objet qui contient l' ID utilisateur, le nom d'utilisateur et le mot de passe. D'accord ? Il y a donc 982 Raj, d' accord, deux rangées inédites ou le Alors maintenant, nous allons vérifier que le mot de passe ne doit pas l'être. À résoudre. C'est une règle. Donc, si nous jetons un coup d'œil aux premiers utilisateurs de la préimpression, nous voyons déjà régulièrement des mots de passe erronés Ce mot de passe est mauvais, ce mot de passe est mauvais. Ce mot de passe est également de retour. Presque tous les mots de passe associés à ces rôles sont incorrects, n'est-ce pas ? Mais ne prenons pas de l' avance. Peut commencer à signaler le mot de passe manuellement. Quelle est la première chose que nous trions selon la publication spéciale du NIST, 800 C3b, lorsque vos premières requêtes cellulaires crient Suzanne, mémorise le secret d' au moins huit caractères D'accord, donc le mot de passe des utilisateurs ne devrait pas être à trier. Commençons donc par vérifier cela. Donc, ce que nous allons faire, vérifier la longueur du mot de passe. Tout d'abord. Donc, pour cela, ce que je vais faire, je vais créer une longueur énorme, une variable, et ici j' utiliserai la longueur du trait de soulignement STR Vérifiez la longueur du mot de passe ici. Je vais vérifier la longueur de la partie qui vous permet accéder à l'utérus, à l' ensemble de données et au mot de passe, et vérifier la longueur du mot de passe. OK. OK. Donc, comme Alice l'a dit dans le, il suffit de prêter et ensuite je créerai une autre variable à trier, à trier. Il a fait le tri quand il faut commencer quand vous venez de faire cette longueur. La longueur que nous avons calculée à partir du champ Mot de passe. Si c'est moins de huit, nous indiquerons qu'il s'agit d'un tri, d'accord ? Ensuite, nous imprimerons le résumé jusqu'à la source. Combien y en a-t-il ? Je vais le résumer et l'imprimer. OK, alors allons-y. Alors, rendez-vous, il y a 376 mots de passe dans cette base de données, cet ensemble de données, qui doivent trier moins de huit caractères et vous verrez que vous triez faux. Cela fait plus de huit caractères, 3368. C'est également vrai. Il s'agit donc de sept caractères, six caractères. Ainsi, ces mots de passe WeChat de moins de huit caractères sont considérés comme un outil de tri pour la L2 OK, maintenant nous avons un moyen plus rapide de signaler le mot de passe que nous pouvons contenir moins de huit caractères La vérification suivante concerne les mots de passe courants. Les gens y sont très favorables. Nous allons utiliser la liste des 10 millions de mots de passe OK, nous allons donc vérifier avec cette liste si le mot de passe provient de cette liste ou non. OK. Donc déjà, cet exemple de règle, quelques contrevenants parmi les 12 premières publications spéciales du lendemain, c'est un SSD à trois V, le rôle qui, lorsque vous licenciez, vendez, comparez les secrets potentiels à la liste que le contenu de Values est connu pour être un mot de passe couramment utilisé, attendu ou compromis à l'avance à partir des corpus de violations précédentes OK. Voici donc la partie deja, passe courant que les gens utilisent, le divulgué Donc des mots du dictionnaire répétés en quelques secondes. Nous allons permettre aux personnages d'accéder à des mots spécifiques, tels que le nom du service, le nom d'utilisateur, le dérivé. OK, tout ça, pensez-y. Pour un mot de passe commun. Nous allons lire les lignes de ce fichier, qui est un fichier TXT de 10 millions de points de liste de mots de passe. Ensuite, nous verrons la liste des mots de passe courants. OK, donc juste dans cette liste. Voici donc le mot de passe courant, comme 123456 ou quelqu'un pourrait le faire. Le mot de passe est égal au mot de passe I 1234530 OK, donc tous ces Superman, Jada et Jennifer, le robot Jolly Ce sont donc les mots de passe courants que les gens utilisent. Nous en avons donc vendu beaucoup. Ils stockent les mots de passe ne doivent pas être les mots de passe courants. Comment vérifions-nous cela ? Nous devons donc signaler tous les mots de passe de notre base de données utilisateurs qui figurent parmi les meilleurs, les plus intelligents. Vous avez déjà utilisé Le mot de passe est le mot de passe commun, d'accord ? Pour cela, je vais utiliser, je vais créer une variable appelée mots de passe communs en dollars. Je vais donc créer un champ appelé mot de passe commun dans la base de données de l'utilisateur. Et ce sera le cas si le mot de passe contenu dans ce mot de passe commun, mot de passe se trouve dans ce mot de passe commun. D'accord ? Si votre mot de passe jet se trouve dans le mot de passe commun, il le signalera comme étant un mot de passe commun , puis nous verrons combien de mots de passe courants se trouvent. Alors voyons voir. Consultez donc vos 129 mots de passe dans notre base de données ou les mots de passe courants que les gens ont utilisés. Voir ici. Ce sont les mots de passe courants de March Tom Murphy. D'accord, nous avons maintenant trouvé un mot de passe commun. Ensuite, nous verrons comment nous pouvons le prendre pour un mot de passe ou non, car les mots de passe ne sont pas des mots de passe très courants, n'est-ce pas ? Jusqu'à présent, nous allons créer une variable pire et lire des lignes à partir des 10 000 textes en anglais de Google. Cela vaut donc corpus de vodka Google Premium que Google nous a fourni , d' accord, ce fichier, puis nous verrons si les utilisateurs utilisent des mots courants dans leur mot de passe. D'accord ? Nous allons donc utiliser le trait de soulignement STR pour abaisser la fonction, pour la réduire Ensuite, nous vérifierons à l' intérieur s' il est là ou non. Ensuite, nous allons consulter l'onglet Récapitulatif et découvrir combien de personnes utilisent des mots courants. Mot de passe. Les mots de passe CR1 37 contiennent donc des mots communs. OK. Ensuite, le mot de passe ne sera pas répété à Predicting. Alors, comment vérifier cela ? Alors d'abord, nous allons partager le pire. Nous allons utiliser le trait de soulignement STR et nous allons diviser le mot de passe, d'accord, puis sélectionner le maximum de caractères répétés opérationnels pour tracer chaque mot de passe Je vais donc créer un maximum de répétitions de traits de soulignement. Et je vais utiliser la fonction Appliquer ici et je vais transmettre cette liste Mot de passe ici. Et puis fonctionnez, vous diviseriez passe de soulignement et max est égal à RLE, le mot de passe divisé Ensuite, nous trouverons la longueur. Et s'il y a trop de répétitions, oups, je vais stocker là-dedans trop de répétitions S'il est supérieur à, pour, supérieur ou égal à quatre, égal à Plus, Plus que ou égal à quatre. OK, alors branchons-le. Alors voyez ici. Répétition maximale jusqu'au maximum, répétez-en une, degré maximum 31. Bon, maintenant ce que nous allons faire, que je vais tout mettre en place. Et nous avons utilisé tous les goûts de base pour chaque mauvais mot de passe. Maintenant, nous avons un mauvais mot de passe. Maintenant, nous allons voir, nous allons tout mettre en place. Je vais créer un mauvais mot de passe précieux et je vais vérifier s'il s'agit de trier notre mot de passe courant ou notre mot courant, ou si trop de répétitions sont trop de répétitions De nombreuses reprises que j'ai ajoutées deux fois. D'accord ? Et si l'une de ces conditions est vraie, signalez que ce mot de passe contient un mauvais mot de passe et nous verrons combien de mauvais mots de passe nous obtenons. Alors voyons voir, vous voyez, maintenant nous voyons ce mauvais mot de passe et ici, quelques mots de passe ont été signalés comme vrais Mauvais mot de passe, c'est vrai. Donc ce co, c'est le mot normal, c'est le mot courant, Commonwealth. Ils sont donc signalés comme un indicateur Data mauvais mot de passe. De cette façon, nous pouvons écrire un code pour trouver le mauvais mot de passe ou la force du mot de passe en utilisant odd 121. Introduction à l'apprentissage automatique: Bonjour et bon retour. Dans cette conférence, nous allons en apprendre davantage sur l'apprentissage automatique. Nous avons maintenant vu comment utiliser notre programmation pour la visualisation et l'analyse des données. À partir de maintenant, nous allons en apprendre davantage sur l'apprentissage automatique. Nous allons commencer par les bases de l'apprentissage automatique. Nous verrons comment fonctionne le machine learning. Quels sont les types de machine learning, quelles sont les applications de l'apprentissage automatique ? Bien, nous verrons ensuite quels sont les processus d'apprentissage automatique, comment nous appliquons les algorithmes, comment nous créons, modélisons, comment nous évaluons. Bien, commençons par une introduction à l'apprentissage automatique, tirer le meilleur parti des données Commençons par la définition de l'apprentissage automatique. Dans un monde piloté par les données, les machines jouent un rôle de plus en important dans la compréhension de la grande quantité d'informations à notre disposition. Comme vous le savez, en cette ère numérique, nous recevons des données, nous les transformons chaque seconde, ce soit dans le secteur de l'aviation, ce soit sur les réseaux sociaux , dans les entreprises, dans le commerce électronique, dans l'apprentissage, en pharmacie, dans le domaine médical, partout. À chaque seconde, nous recevons une grande quantité de données. Ces données ne sont pas les données normales que vous aviez l'habitude de stocker dans les tables Adim, mais ce sont des mégadonnées Ils ne sont pas dans un format très statique. Ils sont dans un format très dynamique. Ce seront des images, ce seront des images. Toutes ces choses, ces données de données dynamiques sont très difficiles de manière traditionnelle. L'apprentissage automatique est un sous-ensemble de l' intelligence artificielle qui est devenu une force transitive, permettant aux ordinateurs d' apprendre et de s'adapter à partir des données, afin d'effectuer des tâches sans programmation explicite Maintenant, étant donné que nous diffusons beaucoup de données, si nous ne sommes pas en mesure d'obtenir des informations à partir de ces données, cela ne sert à rien si vous recevez des milliers de commentaires du client, du consommateur ou de notre utilisateur final Et si vous ne travaillez pas là-dessus, si vous ne savez pas comment travailler là-dessus, cela ne sert à rien, n'est-ce pas ? Nous n'améliorerons pas nos processus, nos produits et nos services avec l'émergence de la science des données intelligente artificielle, apprentissage automatique et de l'analyse des données. Ce que nous pouvons faire, c'est tirer des leçons des données, explorer les données et obtenir des informations relativement bonnes à partir des données. Et nous pouvons nous adapter en fonction des données. Nous pouvons analyser, nous pouvons prendre des décisions à partir des données. Dans ce cas, auparavant, nous le faisions nous-mêmes, mais grâce à l'apprentissage automatique et à l'intelligence artificielle, nous pouvons désormais permettre aux ordinateurs d'apprendre à partir des données et de les adopter pour effectuer des tâches sans programmation accélérée Nous n'avons même pas besoin d' écrire le programme. Il fait de la pré-vente au détail et nous pouvons entraîner les modèles. Et cela nous permettra de commencer à travailler pour nous de moins moins comprendre l'apprentissage automatique de manière un peu plus détaillée. À la base, l'apprentissage automatique consiste créer un algorithme qui permet aux ordinateurs d' apprendre à partir de données et de prendre des décisions ou de faire des prédictions sur la base de connaissances techniques. Contrairement à la programmation traditionnelle, où l'homme donne des instructions explicites aux ordinateurs sur ce qu'ils doivent faire, l'apprentissage automatique permet aux systèmes d'améliorer leurs performances de manière autonome grâce Ceci est réalisé grâce aux éléments clés suivants. Les algorithmes de données, la formation, l'évaluation et les tests des modèles , puis le déploiement. C'est ce que nous faisons dans le domaine de l'apprentissage automatique. Nous obtenons d'abord les données, puis nous appliquons des algorithmes à ces données, puis nous nous entraînons, puis nous évaluons et testons le modèle. Ensuite, si le modèle reçoit les résultats requis, nous déployons en bonne et due forme une production sur ce que sont les données. Les données sont la pierre angulaire de l'apprentissage automatique. S'il n'y a pas de données, il n'y a pas d'apprentissage automatique, il n'y a pas d'IA. Parce que l'apprentissage automatique, la science des données par l' IA, tout dépend des données. Beaucoup de données. Les données qui s'y trouvent seront d'autant plus bénéfiques qu'elles seront efficaces en matière d'apprentissage automatique, d' intelligence artificielle, d'apprentissage profond. Tout cela dépend des données. Les données sont au cœur de l'apprentissage automatique. Si ce n'est pas le cas, l'apprentissage automatique ne marchera pas, l'algorithme ne marchera pas. Les algorithmes apprennent des modèles et des relations à partir de données historiques ou en temps réel, qui servent de terrain d'entraînement à ces systèmes, algorithmes que nous apprenons et appliquons. Ils tirent des leçons du modèle d' algorithme et de la relation à partir des données que nous utilisons pour entraîner des modèles d'apprentissage automatique. Ainsi, lorsque les nouvelles données arriveront, ils feront des prévisions sur la base des données historiques sur lesquelles nous avons entraîné le système. La qualité et la quantité des données sont des facteurs essentiels au succès du modèle d'apprentissage automatique. Les données que nous recevons doivent être significatives. Si les données ne sont pas significatives, elles ne sont pas améliorées, données sont très claires, modèles d'apprentissage automatique ne seront pas très vagues. Nous devons d'abord travailler sur les données. Les données doivent être très propres et précises pour que les modèles d'apprentissage automatique fonctionnent efficacement. Algorithme, les algorithmes d'apprentissage automatique sont des moteurs mathématiques qui traitent des données. Les algorithmes sont en fait une question de mathématiques. Ils travaillent sur les données et les traitent, identifient les modèles dans les données, puis, sur la base de ces modèles ils font des prédictions ou prennent des décisions. Ces algorithmes peuvent être classés en différents types, notamment l'apprentissage supervisé, l'apprentissage non supervisé, l'apprentissage par renforcement, chacun adapté à différentes tâches Les algorithmes, comme la façon dont ils apprennent à partir des données, la façon dont ils apprennent à partir des données, ils lisent les données, sont des types différents que nous apprendrons tout en observant les différents types d'apprentissage. OK. Qu'est-ce que le modèle d' entraînement Au cours de la formation, modèle d'apprentissage automatique est exposé à des données et apprend à reconnaître des modèles. Chaque donnée aura un schéma. Si vous regardez les sites Web d'apprentissage, s'ils collectent des données, ils apprendront que l'utilisateur vient sur le site Web. Ils cliquent ensuite sur quelque chose en se basant sur le qu' ils achètent le pain qu'ils achètent, mais qu'ils achètent du sucre, ils achètent le E, les algorithmes ou le modèle d'apprentissage automatique. Lorsqu'il a atteint les données, il a atteint les données, il observera ce schéma. Si une personne achète du pain, elle achète également du beurre. Quand il achète le pain et le beurre, c'est aussi quand il achète le thé, achète également le sucre du lait. Il s'agit du modèle reconnu par le modèle. Ensuite, le modèle ajuste ses paramètres pour minimiser l'erreur ou écart par rapport au résultat attendu. Évaluation et tests. Évaluation et tests. Après l'entraînement, le modèle est évalué. Lorsque le modèle est entraîné, il évalué à l'aide d'un ensemble de données distinct. Supposons que nous ayons un ensemble de données, nous allons entraîner notre modèle sur cet ensemble de données en particulier. Et nous dirons qu'il faut reconnaître le schéma, comme Brad, quand quelqu' un achète Brad, il achète le. Mais nous devons prévoir ce que l'utilisateur pourra acheter ensuite. Quel sera son comportement, quel produit pourrons-nous lui coudre. Nous nous entraînons sur un ensemble de données , puis nous goûtons et évaluons le modèle sur un autre ensemble de données afin le modèle sur un autre ensemble de données afin de connaître ses performances et sa capacité de généralisation Un réglage précis et une optimisation sont souvent nécessaires pour améliorer la précision. Ensuite, nous affinons le modèle et optimisons le modèle et les algorithmes afin d' améliorer la précision du déploiement du modèle d'apprentissage automatique. Une fois que le modèle est fiable, il peut être déployé dans applications du monde réel pour établir des prévisions, automatiser les décisions et fournir des recommandations. Vous auriez rencontré toutes ces choses, comme sur Amazon Flip Card. Lorsque vous voyez quand vous achetez un produit, le système commence automatiquement à vous recommander de nouveaux produits en fonction de votre comportement antérieur ou du produit que vous avez acheté Il vous en recommandera de nouvelles lorsque vous regarderez Netflix. Si vous regardez une comédie, prochaine fois que vous irez sur Netflix. Commencez à vous recommander les nouvelles comédies, non ? Il a reconnu que vous aviez l'habitude de le regarder sur des modèles d'apprentissage automatique, derrière Netflix , Amazon, etc., ils commencent à vous recommander de nouveaux produits, des films, toutes ces choses, d'accord ? Quelles sont les applications de l'apprentissage automatique ? L'apprentissage automatique a trouvé des applications dans un large éventail d' industries et de domaines, révolutionnant la façon dont nous abordons diverses tâches Voici quelques sauts remarquables. Nous utilisons l'apprentissage automatique dans le secteur de la santé. Aides à l'apprentissage automatique, planification du diagnostic, découverte de médicaments et médecine personnalisée en analysant des données médicales, des images et des séquences génomiques Dans le domaine de la finance, il alimente algorithme du système de détection des fraudes, le trading algorithmique, notation de crédit, l'évaluation des risques et aide les institutions financières à décisions fondées sur les données dans le commerce électronique Les systèmes de recommandation dont j'ai déjà parlé utilisent l' apprentissage automatique pour suggérer des produits, expérience d'achat personnalisée et optimiser la stratégie de prix Véhicules autonomes, l'apprentissage automatique fait partie intégrante des voitures autonomes. leur permettant de percevoir leur information, leur moment, des décisions et de naviguer en toute sécurité grâce à un exemple. traitement du langage naturel, de PNL et de LP automobiles applications de traitement du langage naturel, de PNL et de LP automobiles incluent traduction linguistique, l'analyse des sentiments, les forums de discussion et les relations vocales, ce qui rend l'interaction homme-machine plus fluide et L de création utilisée de nos jours La fabrication, la maintenance prédictive et le contrôle qualité sont améliorés grâce à l'apprentissage automatique. Réduction des temps d'arrêt et des défauts dans les processus de production. Science environnementale, l'apprentissage automatique est utilisé pour la modélisation du climat, prévision des tendances environnementales et l'analyse des données écologiques L'importance de l'apprentissage automatique va au-delà de ses explications. Il a le potentiel d'accélérer la prise de décision, d' améliorer l'efficacité, découvrir des informations, personnaliser votre expérience et d'innover. apprentissage automatique favorise l'innovation ouvrant de nouvelles possibilités dans des domaines tels que la robotique, la réalité virtuelle et la réalité augmentée Nous pouvons découvrir de nouvelles informations à partir des données grâce à l'apprentissage automatique. Nous en concluons que l'apprentissage automatique représente une avancée technologique majeure, c' est-à-dire qu'il remodèle les industries, favorise l'innovation et améliore les processus de prise de décision en données continue de croître en volume et en complexité L'apprentissage automatique jouera un rôle de plus en plus central dans l'extraction de valeur et d' intelligence dans ce monde riche en données Au fur et à mesure que nous approfondirons ce domaine, nous explorerons plus en détail ses différentes techniques, algorithmes et applications, afin libérer tout le potentiel de l'apprentissage automatique À la fin de cette conférence, nous aborderons plus en détail l'apprentissage automatique dans les prochaines conférences. 122. Le rôle de l'apprentissage automatique: Bonjour et bon retour. Dans cette conférence, nous allons découvrir le rôle de l' apprentissage automatique dans la science des données et l'intelligence artificielle, en transformant les données en informations. Nous avons déjà appris les bases de la science des données et de l'apprentissage automatique, mais nous ne comprenons pas encore comment nous pouvons visualiser les données à l' aide de l'apprentissage automatique et de l'intelligence artificielle. Et quelle est l'importance des données dans ces domaines ? La science des données et l'intelligence artificielle, deux des domaines les plus transformateurs du paysage technologique moderne Dans ces domaines, l'apprentissage automatique joue un rôle fatal dans l'extraction d'informations accessibles, automatisation des processus et la mise en place de données pour la prise de décision Dans cette conférence, nous explorerons la relation complexe entre l' apprentissage automatique, relation complexe la science des données et l'IA, ainsi que la manière dont ils contribuent collectivement à l'évolution de la technologie La science des données est un domaine interdisciplinaire qui combine diverses techniques et processus pour extraire des sites de connaissances à partir de données structurées et non structurées Permettez-moi de vous donner quelques précisions sur les données structurées et non structurées Les données structurées sont des données très structurées de telle sorte que nous disposons éléments prédéfinis pour stocker les données, comme nous le faisons dans la base de données Icicle ou dans la base de données relationnelle traditionnelle Des choses pour lesquelles nous avons défini des choses comme il y aura un nom, il y aura une adresse. Il y aura le produit qu'il a acheté. La date, elle sera définie et sous forme de tableau. OK ? Et ce sera une donnée qui sera définie. Ce sera un texte ou une image ou quoi que ce soit d'autre, non ? Mais quand on regarde ça, ce sont des données non structurées. Les données non structurées sont très courantes de nos jours raison de l'émergence des réseaux sociaux, d'Internet, du commerce électronique et de l'industrie aéronautique Partout, nous recevons de nombreuses données non structurées. Les données non structurées ne sont pas définies. Les données arrivent de différentes manières. Comme ça, parfois, cela se présente sous forme de chat. Dans le chat, nous partageons le texte, nous partageons les images, nous partageons les images. Nous vendons les fichiers, nous partageons les vidéos, nous partageons les animations. Cela peut être n'importe quoi. Les données ne sont pas définies. Les données sont structurées et non structurées par nature. Avec les méthodes traditionnelles, il est très difficile de recueillir des informations à partir des données, les stocker ou d' obtenir des informations pertinentes à partir de la partie des données. Grâce aux mégadonnées la science des données et à l'apprentissage automatique par l' IA, il est très facile d'analyser, stocker et d'obtenir des informations à partir des données non structurées que nous obtenons des réseaux sociaux, du commerce électronique, des sites Web ou de notre entreprise De nos jours, il est assez facile d'extraire des connaissances et des informations à partir des données non structurées que nous utilisons avec la science des données Cela englobe un large éventail d'activités, notamment la collecte de données, la manière dont nous collectons les données, le prétraitement des données, le prétraitement des données avant de travailler dessus, puis la manière dont nous effectuons l' analyse des données C'est la partie analyse des données que nous verrons et la visualisation des données permet de visualiser les données. L'objectif principal de la science des données est de transformer les données brutes en informations accessibles et éclairer les décisions commerciales stratégiques. Toute entreprise qui possède de nombreuses données historiques si elle ne tire pas les leçons des données historiques, exemple si nous gérons une entreprise de vêtements ou un site Web de commerce électronique sur lequel nous vendons sait pas ce que nous avons si elle ne tire pas les leçons des données historiques, par exemple si nous gérons une entreprise de vêtements ou un site Web de commerce électronique sur lequel nous vendons des vêtements. Les données selon lesquelles certains produits du conseil d'administration ne se vendent pas, certains produits sont les plus vendus. Si nous n'obtenons pas ces informations à partir des données précédentes, nous ne serons pas en mesure de recommander le nouveau produit, nouveaux designs, aux clients. À l'aide de données historiques, nous prenons les décisions et nous pouvons rendre nos stratégies stratégiques à la fois robustes et plus accessibles D'accord, le rôle crucial de l'apprentissage automatique dans la science des données. apprentissage automatique est le sous-ensemble de IA qui se concentre sur le développement d'algorithmes et modèles permettant aux ordinateurs d'apprendre et de faire prédictions ou de prendre des décisions sans être explicitement programmés Voici comment l'apprentissage automatique améliore la science des données, l'analyse des données et les prévisions. Les algorithmes d'apprentissage automatique peuvent analyser de grands ensembles de données afin de découvrir des modèles, des tendances cachées et des relations fondamentales entre les données Cette capacité est essentielle pour établir des prévisions, qu'il s'agisse de prévoir les ventes, de prévoir le taux de désabonnement des clients ou même de diagnostiquer les chiffres. Dans le domaine médical, apprentissage automatique par prétraitement automatique des données peut automatiser les tâches de prétraitement des données telles que les valeurs manquantes, l' imputation, la détection des valeurs aberrantes, la mise à l'échelle des fonctionnalités, ce qui permet aux data scientists de gagner du temps, de gagner du temps et des efforts L'ingénierie des fonctionnalités peut aider à sélection des fonctionnalités et à l' ingénierie identifiant les variables les plus pertinentes pour une modélisation, une classification et un clustering productifs Les modèles d'apprentissage automatique tels que machines vectorielles de soutien aux dissidents les algorithmes de clustering sont largement utilisés en science des données pour des tâches telles que segmentation des clients et recommandation de classification d' images. Nous avons déjà parlé du système Nous avons déjà parlé recommandation de films, du système de recommandation de produits Ces systèmes de recommandation peuvent être très facilement améliorés grâce au machine learning. collaboratifs de filtrage et systèmes collaboratifs de filtrage et de recommandation basés sur le contenu Les systèmes collaboratifs de filtrage et de recommandation basés sur le contenu sont basés sur l'apprentissage automatique, fournissant des recommandations de personnages dans commerce électronique et les plateformes de contenu telles que Netflix, le langage naturel, le langage naturel, le traitement du langage naturel et les techniques de traitement automatique du langage naturel Un sous-ensemble de l'apprentissage automatique permet l'analyse des sentiments, classification du texte et le développement de forums de discussion Améliorer les données en générant des informations à partir de données textuelles et de visualisation des données L'apprentissage automatique peut aider à générer visualisation des données interactive et informative, rendant ainsi les informations complexes plus accessibles. La synergie de l'IA et de l'apprentissage automatique. Alors que la science des données se concentre principalement sur l'extraction d' informations à partir de données, l' IA étend les capacités de l'apprentissage automatique pour effectuer des tâches et nécessite généralement l'intelligence humaine L'apprentissage automatique est le moteur de nombreuses applications d' IA, permettant à l'apprentissage automatique d' imiter les fonctions cognitives humaines Voici comment l'apprentissage automatique comble le fossé entre science des données et l'automatisation basée sur l'IA. Les algorithmes d'apprentissage automatique automatisent diverses statistiques et tâches allant de la reconnaissance d'images dans les véhicules autonomes à la traduction linguistique dans les forums de discussion. rendre les applications d'IA plus efficaces et accessibles à l'aide de l'apprentissage automatique, comme dans le cas des véhicules supposés autonomes, lorsque nous pouvons entraîner le modèle, le cas des véhicules supposés autonomes, lorsque nous pouvons entraîner le modèle, par exemple lorsqu'il voit le signal, nous pouvons alimenter l'image du signal, qu'il soit rouge, vert ou jaune. Sur la base du signe du signal, la voiture automatisée peut s'arrêter lorsqu'elle voit le signal rouge. Il peut se déplacer lorsqu'il voit le signal vert. Toutes ces choses que nous pouvons entraîner à l'aide de la personnalisation de l'IA L'apprentissage automatique permet aux systèmes d' intelligence artificielle de fournir une expérience personnalisée, telle que du contenu personnalisé, des recommandations , des campagnes marketing personnalisées et même des plans de traitement de santé. Analyse prédictive, j'ai piloté une analyse productive basée sur l'apprentissage automatique. organisations de santé anticipent le comportement des clients dans les trains, pannes d' équipement, ce qui permet une prise de décision proactive. Nous pouvons effectuer une analyse prédictive et deviner comment circulent nos trains, quel est le comportement des clients et comment les clients apprécieront le nouveau produit. décision améliorée, algorithmes d'apprentissage automatique aident le système d'IA à prendre des décisions éclairées en analysant vastes ensembles de données en temps réel, réduisant les erreurs humaines, traitant et en comprenant le langage naturel et en utilisant des modèles LP Un sous-ensemble de l'apprentissage automatique permet aux systèmes d'intelligence artificielle de comprendre et de répondre à des applications utilisant le langage humain , telles que des pots à chat virtuels En conclusion, nous pouvons dire que l'apprentissage automatique est la clé de voûte qui relie les ensembles de données et moi-même, transformant les données brutes en informations exploitables Et permettre à un système d' intelligence artificielle d'effectuer des tâches considérées auparavant comme rêve de l'intelligence humaine. Cela signifie que l'apprentissage automatique jouera un rôle crucial pour intégrer l'intelligence humaine aux machines plus tôt, des choses qui étaient réservées aux seuls humains. Maintenant, c'est possible grâce à l'apprentissage automatique, à la science des données et à moi-même, nos machines peuvent faire le travail que les humains peuvent faire avec une précision très précise. À mesure que la technologie continue de progresser, la relation symbiotique entre la science des données, l'apprentissage automatique et l'IA continuera de sauver notre paysage numérique et de stimuler l'innovation dans divers secteurs Le rôle de l'apprentissage automatique est essentiel pour quiconque s'intéresse au monde dynamique et en constante évolution des données et de l'intelligence artificielle. C'est pourquoi la relation entre la science des données, l'apprentissage automatique et l'IA doit être comprise pour acquérir des connaissances dans ce domaine. J'espère que vous avez compris quelle est la synergie entre l'IA et l'apprentissage, quel est le rôle de l' apprentissage automatique et de la science des données. Nous nous retrouverons lors de la prochaine conférence, et nous discuterons d' autres sujets concernant l'apprentissage automatique. Merci. 123. Types d'apprentissage automatique: Bonjour et bon retour. Dans cette conférence, nous allons apprendre les types d'apprentissage automatique, types d'apprentissage automatique. Nous allons le considérer comme un aperçu très complet. Commençons dès maintenant. Nous avons les connaissances de base de ce qu'est l'apprentissage automatique, de son lien avec l'intelligence artificielle et la science des données, en général. Bien, révisons un peu plus une fois de plus. L'apprentissage automatique, un sous-ensemble de l' intelligence artificielle, a transformé la façon dont les ordinateurs peuvent traiter informations et prendre des décisions Ce que nous avons compris, non ? Cela fait partie de l'intelligence artificielle. Si vous regardez la situation dans son ensemble, la science des données est la solution globale. Sous cela vient l'intelligence artificielle et en dessous vient l'apprentissage automatique. Le deep learning, toutes ces choses. D'accord, l'apprentissage des scènes est un sous-ensemble de l' intelligence artificielle Cela a transformé la capacité des ordinateurs à faire fonctionner un être humain capable prédire les résultats comme un humain et plus rapidement qu'un humain. C'est la transformation que l'apprentissage automatique a apportée. Il est très facile de prendre des décisions pour les entreprises en traitant leurs données. Euh, algorithme d'apprentissage automatique créant des modèles puis évaluant le modèle. Ensuite, ils prédisent, et parfois ils prédisent 100 % d'une information correcte D'accord, les algorithmes d'apprentissage automatique permettent au système d'apprendre à partir des données. Les données sont essentielles. Au cours des dernières conférences, nous avons compris en quoi les données sont la pierre angulaire de l'apprentissage automatique, intelligence artificielle et de l'écosystème global de la science des données Tout dépend des données. Tout commence par l'algorithme des données. Les algorithmes d'apprentissage automatique permettent aux systèmes, ordinateurs ou aux machines d'apprendre à partir des données et d'améliorer leurs performances au fil du temps. Sans programmation explicite, vous devez programmer à chaque fois. Il vous suffit d' entraîner le modèle. Et il commencera à tirer des leçons des données et s' améliorera en fonction du processus d'apprentissage qu'il aura suivi. Il existe plusieurs types d'apprentissage automatique, chacun adapté à des tâches et à des applications spécifiques. Dans cette conférence, nous explorerons les principales catégories de l'apprentissage automatique et ses caractéristiques. OK, commençons. Il existe essentiellement sept types d'apprentissage automatique. Le premier est l'apprentissage supervisé, puis l'apprentissage non supervisé, puis l'apprentissage semi-supervisé, puis l'apprentissage approfondi par renforcement, puis l'apprentissage autosupervisé et enfin l'apprentissage par transfert Voici donc les sept types d' apprentissage automatique que nous allons apprendre. Tout d'abord, nous allons commencer par l'apprentissage supervisé. L'apprentissage supervisé est un apprentissage que nous pouvons associer à l'apprentissage en salle bleue en classe où un enseignant supervisait notre apprentissage. Et il nous enseigne avec les images, la vidéo, l'audio, les divers outils pédagogiques qui enseignent l'apprentissage supervisé. L'apprentissage supervisé est l'un des types d'apprentissage automatique les plus courants. Cela implique un modèle d'entraînement sur un ensemble de données étiqueté où chaque point de données est associé à la bonne cible de sortie. Le modèle apprend à mapper les données d'entrée à la sortie correcte en trouvant des modèles et des relations. Les principales caractéristiques de l'apprentissage supervisé incluent. Avant de voir les principales caractéristiques, laissez-moi vous dire ce que cela signifie. L'apprentissage supervisé est le type d'apprentissage automatique le plus courant. Dans ce que nous faisons, supposons que nous voulions entraîner notre système à reconnaître les visages humains. Dans ce cas, nous ferons bien données à l' algorithme d' apprentissage automatique ou au modèle avec des images, comme celles d'un humain. S'il s'agit d'une phase humaine, nous dirons que c'est une phase humaine. Si c'est autre chose, nous dirons qu'il s'agit d'une phase animale, c'est une phase de dessin animé, d'accord ? Nous allons alimenter autant d'images et chaque image sera étiquetée avec un nom. Il sera étiqueté, d'accord, s'il s'agit d'un visage humain, tous les visages humains seront étiquetés, étiquetés avec un humain. Tous les chats, chiens, animaux et visages d'éléphants seront étiquetés conformément à leurs spécifications. OK, maintenant, lorsque nous introduisons les données par le biais du modèle d'apprentissage automatique, il verra, d'accord, c'est un visage humain, c'est visage humain, c'est un rythme humain. Il reconnaîtra le motif des visages humains et, en se basant sur les motifs qu'il voit sur les visages humains, il apprendra que si ce visage apparaît, c'est un visage humain. Il voit également le motif d' autres images qui n'ont pas de motif similaire à celui des visages humains, il reconnaîtra, d'accord, ce motif appartient à un chat. Ce motif appartient à l'éléphant. Ce motif appartient aux singes. Ainsi, il commencera à apprendre après la formation, lorsque nous alimenterons une nouvelle image qui ne fait pas partie de cet ensemble de données sans étiquette. Il exécutera les modèles et il correspondra au modèle qu'il a appris. Quel que soit le schéma correspondant, il indiquera que, d'accord, c'est le visage humain. Ou s'il s'agit d'un chat, il dira que c'est un visage de chat. Sur la base des données d' entraînement précédentes, reconnaissez le motif d'une nouvelle image et vous obtiendrez le résultat, qu'il s'agisse d'un visage humain ou non. C'est ainsi que fonctionne l' apprentissage supervisé. Il possède des caractéristiques clés, à savoir la classification et la régression. Ce sont les deux termes très importants dont nous devons nous souvenir et dont nous devons être conscients. Le premier est le classement. Classification dans une tâche de classification, le modèle prédit une étiquette ou des catégories discrètes Par exemple, classer les e-mails comme du spam ou non du spam. Lorsque vous regardez le, vous pouvez voir le courrier. Chaque fois qu'un e-mail arrive, automatiquement classé comme spam. Il le mettra dans le dossier de spam. Comment fonctionne-t-il ? Il dispose de certains modèles d' intelligence artificielle ou d'apprentissage automatique entraînés par le fil intelligence artificielle ou d'apprentissage automatique entraînés pour le courrier. Si l'e-mail provient de ces domaines de mots clés, il sera classé comme spam. S'il ne figure pas dans la liste de contacts du destinataire, il sera marqué comme spam. De nombreux e-mails ont été envoyés en masse à partir de cet identifiant de messagerie particulier cet identifiant de messagerie particulier à des inconnus. Il sera alors classé comme spam. C'est ainsi que fonctionne la tâche de classification. D'accord, il y aura des catégories spécifiques étiquetées spam, spam North ou spam North. Alors que la région, les autres caractéristiques, région par région, tâche. Le modèle prédit des valeurs continues. Par exemple, prévoir le prix de l' immobilier en fonction caractéristiques telles que le pied carré et l'emplacement En fonction du pied carré et de l'emplacement, il prédira le prix de la maison. Lorsque nous alimentons les données, que nous nous entraînons, les données seront alimentées pour ce domaine particulier. C'est sur cette base que le tarif de localisation premium sera élevé. Chaque fois que vous installez un nouvel emplacement avec les nouvelles dimensions de la maison en pieds carrés, vous pouvez prédire que, accord, cette maison devrait avoir ce prix. Il s'agit de la région où proviennent les données numériques continues, où nous utilisons la régression, où les données de classification proviennent des catégories, puis nous utilisons la classification. Ce sont les deux. Tenez compte. Le prochain type d'apprentissage automatique est l'apprentissage non supervisé Dans le cadre de l'apprentissage non supervisé, il traitera les données non étiquetées L'apprentissage non supervisé traite de données non étiquetées, où les algorithmes visent à trouver des structures de modèles, des groupements, au sein Il est utilisé pour des tâches telles que le clustering et la réduction de dimensionnalité. Chacune des caractéristiques de l' apprentissage non supervisé inclut le clustering, l'algorithme de clustering, ce qu'il fait, il regroupe les points de données similaires en fonction Par exemple, pour regrouper des clients ayant un comportement d'achat similaire dans le cadre d' clustering marketing ciblé supposons que vous disposiez d'un site Web d'apprentissage Supposons que vous ayez un site Web d'apprentissage en ligne où la plupart des clients achètent les cours et le marketing, tandis que peu de clients achètent des cours dans le domaine de la technologie. Ensuite, le clustering permettra regrouper tous les clients qui ont acheté les cours liés au marketing auprès d'un groupe en particulier Cela les regroupera et la technologie permettra de créer un autre cluster, nous aurons deux groupes de clients. L'un s'intéresse aux cours de marketing et un autre aux cours de technologie intéressants. C'est ainsi, sur cette base, que lorsque le nouveau client adopte un comportement, il le classe, il le regroupe dans un groupe particulier. Vient ensuite la réduction de dimensionnalité. Ces algorithmes réduisent le nombre de caractéristiques des données tout en préservant les informations essentielles. Analyse des composants principaux. Le Pca est une technique courante de réduction de dimensionnalité. Supposons que notre ensemble de données comporte autant de fonctionnalités et que cela devienne un point de données inutile. Cela réduira le nombre de fonctionnalités disponibles dans le jeu de données, se concentrera sur les principaux mots clés et fonctionnalités et permettra d'apprendre, d'accord ? C'est ce que l'on appelle l'analyse en composantes principales, qui est la principale caractéristique de votre ensemble de données. Quelle est la principale caractéristique qui affecte la cible, affectant le résultat que nous trouverons dans l'analyse en composantes principales, PCA Le suivant est l'apprentissage semi-supervisé. L'apprentissage semi-supervisé combine des éléments d'apprentissage supervisé et non supervisé Il exploite l'ensemble de données avec une petite quantité d'ensemble de données étiquetées et une grande quantité de données non étiquetées Cette approche est souvent utilisée lorsque l'obtention données étiquetées est coûteuse et prend du temps. D'accord, puis vient l'apprentissage par renforcement. L'apprentissage par renforcement consiste à former les agents à prendre des séquences de décisions dans un environnement. Maximiser, dans un environnement, maximiser une récompense cumulée. Il est couramment utilisé dans des applications telles que les jeux vidéo, la robotique et les systèmes autonomes. Les principales caractéristiques des renforts apprentissage par renforcement incluent l' agent et l'environnement L'agent interagit avec un environnement et apprend en recevant des commentaires sous forme de récompenses ou de politiques de punition Cette politique est la stratégie ou l'ensemble de règles que l'agent suit pour prendre des décisions. L'objectif est d'apprendre une politique optionnelle qui maximise les récompenses à long terme. Apprentissage profond. L'apprentissage profond est un sous-ensemble de l'apprentissage de base qui se concentre sur réseaux neuronaux comportant de nombreuses couches de réseaux neuronaux profonds Il a gagné en attention et en popularité ces dernières années en raison ses performances exceptionnelles dans des tâches telles que la reconnaissance d'images et de reconnaissance vocale. Les principales caractéristiques de l' apprentissage profond incluent les réseaux neuronaux, les réseaux neuronaux artificiels composés de plusieurs couches de nœuds ou de neurones interconnectés. Réseau neuronal à convolution profonde CNN. Ce sont les RNN des réseaux neuronaux récurrents des tâches de reconnaissance d'images RNN des réseaux neuronaux récurrents des tâches de reconnaissance Ils sont utilisés pour des tâches de données séquentielles telles que le traitement du langage naturel et l'analyse temporelle Sage Nous verrons en détail lorsque nous verrons deep learning, de l'apprentissage autosupervisé. L'apprentissage autosupervisé est une technique dans laquelle un modèle apprend à partir de données sans étiquettes fournies par l'homme. Au lieu de cela, il génère des étiquettes à partir des données elles-mêmes. Apprentissage supervisé, il reconnaîtra un schéma. Les données seront étiquetées comme phase humaine ou Caha. Il étiquettera toutes ces choses par lui-même, souvent en créant une tâche de substitution. Il s'est révélé prometteur dans divers domaines du traitement du langage naturel, du traitement informatique et des tâches informatiques. Vient ensuite l'apprentissage par transfert. L'apprentissage par transfert consiste à entraîner un modèle sur une tâche, puis à utiliser les connaissances acquises pour améliorer les performances d'une tâche connexe. C'est une approche pratique lorsque vous disposez de données limitées pour une tâche spécifique. Aujourd'hui, l'apprentissage automatique englobe un large éventail de types et de techniques, chacun ayant sa force et ses applications. Comprendre les types de données est essentiel pour choisir la bonne approche face à divers problèmes du monde réel. Alors que l'apprentissage automatique continue son impact sur des secteurs tels que la santé, la finance, les systèmes autonomes devraient augmenter, ce qui en fait un domaine fascinant et dynamique à explorer et à maîtriser. Il existe de nombreuses opportunités sur le marché pour l'apprentissage automatique, les ingénieurs, les data scientists, les ingénieurs en IA et les analystes de données. Toutes ces choses se rapportent à ces choses et nous pouvons apprendre beaucoup plus rapidement. Vous avez parlé de la prochaine conférence. 124. Flux de travail d'apprentissage automatique: Et bon retour. Dans cette conférence, nous allons découvrir le flux de travail d'apprentissage automatique, la façon dont nous traitons les données, comment nous partons des données et comment nous passons à l'analyse des données. Commençons. Le flux de travail d'apprentissage automatique est un outil puissant pour visualiser les données. En fait, bonjour et bon retour. Dans cette conférence, nous allons découvrir le flux de travail d'apprentissage automatique. flux de travail d'apprentissage automatique consiste à obtenir les données, les traiter, à appliquer les modèles d'apprentissage automatique et à tirer les enseignements des données. C'est ce que signifie un flux de travail d'apprentissage automatique lorsqu'il est recherché. Dans cette conférence, nous allons découvrir en détail le flux de travail de l'apprentissage automatique. Commençons par le machine learning, un outil puissant. L'apprentissage automatique est un outil puissant qui a révolutionné notre façon de traiter données, de faire des prédictions et de prendre des décisions. C'est ce que nous avons appris lors des quelques conférences précédentes Cependant, l'exploitation de son potentiel nécessite une approche structurée connue sous le nom de flux de travail d'apprentissage automatique Dans cet article ou dans cette conférence, nous explorerons les étapes clés de ce flux de travail, en soulignant les étapes essentielles la transformation des données brutes en informations précieuses et variables. La première étape est la collecte de données. collecte de données est à la base de l'apprentissage automatique ou de la science des données , car tout dépend du parcours des données. Commence par la collecte de données. L'étape consiste à recueillir les données pertinentes à partir de diverses sources telles que des bases de données, des API ou des capteurs. Il s'agit des points de données où nous collectons les données. Une donnée a un impact significatif sur le succès de votre projet d'apprentissage automatique. Faire de la collecte de données une tâche critique et souvent chronophage. Comme vous le savez, la plupart des data scientists et analystes de données, ingénieurs en machine learning, travaillent la plupart du temps environ 60 % du temps sur les données, 40 % du temps sur le code et créent des modèles, appliquent des algorithmes, évaluent le modèle, etc., d'accord ? Mais 60 % d'une tâche consiste à travailler sur les données et à les rendre exploitables Vient ensuite la collecte des données. L'étape suivante est le prétraitement des données. prétraitement des données consiste à affiner les données brutes et à les rendre exploitables Les données brutes sont rarement prêtes pour le chargement automatique, car si vous avez collecté les données à partir des sources, peuvent présenter de nombreux problèmes Il y aura un problème dans les données, il y aura des valeurs manquantes, valeurs dupliquées, des valeurs erronées, valeurs manquantes. Il y aura tellement d'impuretés dans les données brutes. Il ne sera jamais prêt. Si vous travaillez sur ces données, vous n'obtiendrez pas le résultat requis en raison d'informations manquantes et de données mal renseignées Le traitement des données implique le nettoyage, la transformation et la structuration des données afin de les rendre adaptées à l'analyse principales tâches de cette phase incluent la gestion des valeurs manquantes, suppression des valeurs aberrantes et le codage des variables catégorielles L'étape suivante est l'analyse exploratoire des données. En quelque sorte, nous l'appelons EDA. Il s'agit d'une étape très critique car à l'EDA, nous comprenons les données. Avant de vous lancer dans la modélisation, il est essentiel de comprendre vos données, bien les comprendre. La compréhension des données est très importante. Da implique la visualisation des données, calcul de statistiques descriptives identification de modèles et de corrélations Cette étape fournit des informations qui guident la sélection des fonctionnalités et la création de modèles. L'étape suivante arrive, et elle s'appelle l'ingénierie des fonctionnalités. Cela signifie que l'élaboration des fonctionnalités informatives signifie si certaines informations sont présentes et que vous pouvez vous baser sur ces informations, vous pouvez créer une nouvelle fonctionnalité ingénierie des caractéristiques est le est le processus de sélection, de création et de transformation des fonctionnalités, c'est-à-dire variables d'entrée que le modèle d'apprentissage automatique utilisera pour les prédictions. Il fonctionne essentiellement sur les données d'entrée. Une ingénierie spécialisée des fonctionnalités peut améliorer considérablement les performances du modèle au fur mesure que vous obtiendrez un modèle amélioré. Le type suivant est la sélection du modèle. Choisir le bon algorithme. La sélection de l'algorithme d'apprentissage automatique approprié dépend du type de problème. Il s'agit d'une classification ou d'une régression. Tout d'abord, vous devez décider quel type de problème vous avez entre les mains. Ensuite, vous pouvez choisir l'algorithme. Vous devez d'abord déterminer s'il s'agit d'un problème de réplication classique ou d'un problème de régression en fonction de vos données et de leurs caractéristiques. Les algorithmes courants incluent les vectorielles de soutien aux arbres de décision machines vectorielles de soutien aux arbres de décision et les réseaux neuronaux. Vous pouvez décider d'utiliser tous ces algorithmes en fonction de vos données et votre classification du problème. D'accord, le suivant vient après la sélection du modèle. La prochaine étape est la formation des modèles. Tirer des leçons des données de cet espace. Le modèle sélectionné est entraîné à l'aide de la partie des données. Supposons que vous disposiez des milliers de lignes de données. Que faites-vous des données, que prenez-vous ? 60 ou 40 % des données pour l'entraînement et les 60 % restants, vous les conserverez pour les tests, la partie des données que nous prélevons et nous entraînerons notre modèle sur ces données. Ensuite, les 60 ou 40 % de données restantes que nous avons conservées pour les tests sur ces données, nous testerons le modèle. Le modèle apprend à reconnaître les relations et les amis présents dans l'ensemble de données d'entraînement. La formation consiste ensuite à ajuster les paramètres du modèle afin de minimiser les erreurs ou les écarts par rapport aux résultats attendus. Sur la base de la formation que nous donnons au modèle sélectionné, nous affinerons le paramètre afin de minimiser les erreurs ou les écarts par rapport au résultat attendu , ce qui est très critique. Nous passons ensuite à l'évaluation du modèle. Nous verrons quelle performance ou quel résultat nous obtenons, ce que nous obtenons, puis nous évaluerons notre modèle. Après l'entraînement, il est essentiel d' évaluer les performances du modèle. Cela se fait à l'aide d' un ensemble de données distinct, c' est-à-dire le jeu de données de validation ou le jeu de données de test, pour déterminer dans quelle mesure le modèle généralise les deux données invisibles Les indicateurs d'évaluation courants incluent la précision, raison, le rappel et le score F one. Il s'agit des mesures d'évaluation, précision, du rappel de précision et du score F. L'étape suivante est le réglage des hyperparamètres, est-à-dire l'optimisation des paramètres du modèle Les modèles d'apprentissage automatique comportent souvent des hyperparamètres qui ne sont pas appris pendant l'entraînement , mais qui doivent être définis manuellement Le réglage des hyperparamètres implique de rechercher la meilleure combinaison d' hyperparamètres pour optimiser les performances du modèle Puis vient la dernière étape, à savoir le déploiement du modèle en production, production ou dans le monde réel. Une fois que le modèle est jugé fiable et précis, après avoir été testé, il peut être déployé dans un environnement réel pour établir des prévisions ou automatiser des décisions. Cette phase peut impliquer l' intégration du modèle dans les systèmes ou applications existants. Supposons par exemple que vous ayez mis en place un système bancaire dans lequel vous décidiez quel candidat accorder le prêt et lequel rejeter. Et vous avez développé un modèle d'apprentissage automatique qui peut vous permettre de décider si vous êtes apte ou non au prêt. Votre modèle donne jusqu'à 97, 98 ou 99 % de précision. Pendant les tests, vous pouvez déployer dans l'environnement de production et y intégrer les données utilisateur. Et sur la base de l'analyse des données utilisateur issue de la formation qu' il a suivie pendant la formation du modèle, il peut analyser les données, les critères financiers, etc. Et il peut décider si nous pouvons accorder un prêt ou non. Ce sont les choses que nous pouvons faire dans le cadre du déploiement du modèle. Ensuite, après le déploiement du modèle, le travail n'est pas nul, nous devons surveiller et maintenir le modèle. La maintenance est également très importante pour succès à long terme, car elle peut donner un faux négatif ou un faux positif. Nous devons surveiller de près toutes ces choses pour nous assurer que notre modèle de système est nos algorithmes fonctionnent correctement et donnent des résultats précis. Les modèles d'apprentissage automatique nécessitent une surveillance et une maintenance continues, distribution des données évolue au fil du temps Parce que parfois, lorsque nous avons travaillé sur le modèle, nous avons créé le modèle, l'ensemble de données ou les critères de support dans le secteur bancaire. De temps en temps, vous recevez les directives du gouvernement. Sur la base de ces directives, les critères peuvent changer. Nous devons donc continuer à surveiller, euh, et nous devons continuer à examiner les données et les résultats. La distribution des données change au fil du temps. Les performances du modèle peuvent se dégrader car les critères ont été modifiés Il peut donner de mauvaises sorties, nous devons donc le surveiller. Mises à jour et reformations régulières. Lorsque quelque chose change, nous devons réentraîner le modèle en fonction des nouvelles données afin qu' il puisse fonctionner sur les nouveaux critères modifiés Des mises à jour régulières et une formation continue peuvent être nécessaires pour garantir l' exactitude continue du modèle Nous avons donc maintenant compris le fonctionnement du flux de travail. Le flux de travail d'apprentissage automatique est une approche systématique visant à résoudre des problèmes du monde réel en tirant parti de la puissance des données. Il transforme les données brutes en informations exploitables et systèmes intelligents capables de faire des prédictions et de prendre des décisions Comprendre et maîtriser ce flux de travail est essentiel pour les scientifiques des données, les analystes ingénieurs qui souhaitent exploiter tout le potentiel du Maine afin d'exploiter tout le potentiel de apprentissage automatique dans le monde actuel axé sur les données À mesure que la technologie continue de progresser, le flux de travail d'apprentissage automatique jouera un rôle de plus en plus central dans divers secteurs, stimulant l'innovation et la prise de décisions éclairées. J'espère que nous avons compris le fonctionnement du flux de travail d'apprentissage automatique , de la collecte de données au traitement des données, en passant par l'analyse exploratoire , l'ingénierie des fonctionnalités , la sélection des modèles, la formation modèles, l'évaluation des modèles, le réglage des hyperparamètres, déploiement des modèles, la surveillance et la maintenance Toutes ces étapes sont cruciales pour la mise en œuvre réussie d' un modèle d'apprentissage automatique. J'espère que vous avez compris, nous nous retrouverons lors de la prochaine conférence. Merci. 125. Principe GIGO: Bon retour. Au cours de cette conférence, nous allons comprendre le concept et le principe très importants qui sont largement applicables à l'apprentissage automatique très vieux concept selon lequel les déchets entrent dans le travail est un principe utilisé dans l'industrie du QI et des logiciels depuis de nombreuses années Il est également applicable dans le domaine de l'apprentissage automatique. Cela garantira que la qualité des données est bonne et cela deviendra le pouvoir de la qualité des données. Commençons. Les déchets entrent, sortent, partent Dans le domaine de l'apprentissage automatique, un principe fondamental est vrai, car nous savons tous que les déchets, déchets sortis sont un concept très fondamental. C'est-à-dire, pendant de nombreuses années, être à la poubelle, à l'extérieur. Cette phrase concise résume un concept profond. La qualité des entrées influence profondément la qualité des sorties produites par les modèles d'apprentissage automatique. Qu'est-ce que cela signifie ? Cela signifie que les données, les données que vous insérez dans les modèles d'apprentissage automatique qui en résultent, si vous saisissez la qualité de données précises et nettoyées, vous obtiendrez un résultat précis. Si vous insérez les données contenant des déchets, des valeurs manquantes, des informations erronées, d'autres choses, mauvaises valeurs manquantes, vous n'obtiendrez pas le bon résultat requis. Les résultats que vous obtiendrez, les pauses que vous obtiendrez seront très, très mauvais. Parce que tout dépend des données que vous insérez dans le système et qui en résultent. Vous allez entrer dans une ère où les données règnent. Comprendre et apprécier le principe suprême de Gig est une essence essentielle de Une idée simple et profonde à la base. Le principe Gig nous rappelle que, quels que soient le degré de sophistication des algorithmes, la puissance de l'infrastructure informatique ou les compétences des data scientists, la valeur des résultats de l'apprentissage automatique est liée à la qualité des données introduites dans le système Qu'est-ce que cela signifie ? Cela signifie que quel que soit l'algorithme, quel que soit l'algorithme puissant, la quantité que vous codez, la manière dont vous le rendez sophistiqué, l' infrastructure informatique actuelle est puissante et le niveau de qualification des data scientists, apprentissage automatique, des ingénieurs en IA. Si les données ne sont pas bonnes, elles sont toutes utilisées, car si elles ne sont pas bonnes, votre data scientist qualifié, votre infrastructure et vos algorithmes ne fonctionneront pas correctement. Parce que tout dépend des données. La base doit être solide, base doit être très bonne, alors vous pouvez faire pousser u. Si les graines ne sont pas bonnes, de bonne qualité. Une plante ne peut pas pousser de la même façon. Les données sont à la base de toutes les activités d'apprentissage automatique. Avec de bonnes données, vous obtiendrez un bon résultat. Vous en tirerez une bonne idée. Vous obtiendrez de bons résultats. Vous en tirerez des prédictions. Les données doivent être bonnes, puis l'algorithme fonctionnera correctement, l'infrastructure de confort le soutiendra, et le data scientist sera en mesure de vous obtenir les meilleurs résultats et les prévisions sur la base desquelles vous pourrez prendre de bonnes décisions commerciales. La qualité des données est très importante. Sens de la clé. Imaginez une voiture autonome naviguant dans la rue La ville à bord du véhicule s'appuie sur des capteurs et des caméras pour la percevoir. Comme nous le savons tous, les conducteurs autonomes voitures sans chauffeur fonctionnent essentiellement sur les choses. Comment est-ce que je travaille ? Je ne travaille que sur l'appareil photo, l'appareil photo, les yeux de l'humain pour la voiture autonome. Et les capteurs sont les organes sensoriels des voitures autonomes. Les capteurs, ce qu'il a reçu, les signaux et la caméra, ce qu'il voit, ce qu'il traduit et combinés ensemble. Et cela créera un environnement permettant à la carte de conduite cellulaire d'aller de l'avant. S'il voit un signal rouge, il doit s'arrêter. S'il voit des obstacles à l'avant, il doit s'arrêter. Hein ? C'est ce que font le signal, les capteurs et les caméras, non ? Si le A est défectueux. Supposons que vous installiez les capteurs défectueux, que l' appareil photo soit sale ou que la qualité de l'appareil photo ne soit pas S'il y a un signal rouge et que la qualité de la caméra est de bonne qualité ou que l'appareil sale et qu'il n' est pas visible correctement, il ne s'arrêtera pas, il percutera le signal et cela peut provoquer un accident mortel, Ainsi, les capteurs défectueux et l'appareil photo seront, s'ils sont sales, données qu'elle collectera par le biais des capteurs et de l'appareil photo seront inexactes ou incomplètes, incohérentes, et elle prendra de mauvaises décisions à ce sujet Par conséquent, le processus décisionnel de la voiture, tel que la détection des piétons la reconnaissance des panneaux de signalisation, est compromis. Dans ce scénario, même les algorithmes les plus avancés ne peuvent pas résoudre le problème. C'est un exemple classique d'élimination des déchets dans les poubelles. Si vous mettez des déchets, vous les récupérerez. Si vous mettez en place les bons capteurs, vous n'installerez pas les bons appareils photo. Si le système ne reçoit pas bonnes informations via la caméra et les capteurs, les algorithmes et les modèles d'apprentissage automatique ne seront pas en mesure de prédire quoi que ce soit de bon. Et cela provoquera une voiture autonome , un accident. Les bonnes industries. Voyons maintenant quel impact cela aura sur les secteurs dans lesquels les applications d'intelligence artificielle et d' apprentissage automatique seront utilisées dans le domaine des soins de santé ou du diagnostic médical. La précision et l'intégrité des données des patients sont primordiales si les données des patients sont cruciales si elles sont rejetées dans le système impact cela aura sur les secteurs dans lesquels les applications d'intelligence artificielle et d' apprentissage automatique seront utilisées dans le domaine des soins de santé ou du diagnostic médical. La précision et l' les données des patients sont cruciales si elles sont rejetées dans . Le plus important, antécédents médicaux mal étiquetés ou incomplets, peut entraîner un diagnostic et une recommandation de traitement incorrects Dans le cas de la finance, les institutions financières s'appuient sur des données pour des décisions d'investissement et ****** prennent des risques La mauvaise qualité des données peut entraîner des pertes financières et des stratégies mal informées Dans le cas du marketing, les campagnes marketing reposent sur des informations basées sur les données destinées au public cible. effet, des profils clients inexacts ou des informations périmées peuvent se traduire par des campagnes inefficaces et des ressources investies. Vous devez intégrer les bons profils clients et les données dans le profil client. Les données du profil client doivent être très, très récentes afin de pouvoir être facilement ciblées si une personne souhaite acheter une télévision et que cet intérêt a été capturé il y a six mois. Et si vous appelez ce client, d'accord, vous voulez acheter, acheter un téléviseur. Il pourrait alors dire que je cherchais un téléviseur il y a six mois, mais maintenant j'en ai déjà acheté un. Votre campagne marketing va entrer, vous devez appeler, le client va entrer. Et si vous ciblez un client qui vient de commencer à chercher le téléviseur et que vous avez obtenu les données très récemment en 23 jours, il est peut-être toujours à la recherche du bon téléviseur. Et lorsque vous appelez ce client et que vous l' aidez à décider d'acheter un nouveau téléviseur, il se peut qu'il finisse par vous acheter un téléviseur. C'est ainsi que se produit l'impact des déchets jetés dans les poubelles. Les données doivent être récentes, elles ne doivent pas être périmées, et elles doivent être exactes en termes de recommandations commerciales en matière de commerce électronique. plateformes basées sur le comportement des utilisateurs qualité des plateformes basées sur le comportement des utilisateurs dépend des données qui leur correspondent. données de faible qualité peuvent entraîner de mauvaises recommandations de produits et une perte de cellules. Dans le cas du traitement du langage naturel, des applications de PNL telles que les forums de discussion ou l'analyse des sentiments, la qualité des données de formation a un impact significatif sur la capacité des modèles à comprendre le langage humain et à y répondre atténuant le rôle de la qualité des données pour atténuer l'effet de Gig et garantir l'intégrité des résultats de l' apprentissage automatique, l'organisation doit donner la priorité à la qualité des données et à la manière dont elle peut établir des priorités en suivant des étapes telles que la collecte des données, un processus de collecte de données rigoureux doit être mis en place, y compris des procédures de validation et de nettoyage des données Lorsque vous collectez les données, vous ne devez pas les collecter comme ça. Il devrait y avoir un processus de collecte des données. Après la collecte des données, il convient de les valider et suivre les procédures de nettoyage. Prétraitement des données Les données de collecte de données doivent être traitées à l'aide de diverses techniques telles que le traitement des valeurs manquantes et la recherche des valeurs aberrantes Très critique dans le traitement de nos données. Ensuite, la gouvernance des données, établissant le cadre de gouvernance des données pour maintenir la qualité des données tout au long leur cycle de vie, est très importante. La validation des données est une autre étape très importante pour atténuer les difficultés liées à la validation et à la vérification régulières de l' exactitude des données et de leur cohérence, car c'est très important Comme nous en avons discuté au sujet de la perte de vente de téléviseurs, ces données n'ont pas été vérifiées, cela fait 67 mois que le client a manifesté son intérêt. Cela devrait être très important. Nous devons valider vos données , vérifier si elles sont récentes, si elles sont périmées, elles sont périmées, si elles sont cohérentes. Ensuite, les boucles de feedback mettent en œuvre un mécanisme permettant de surveiller et d'améliorer en permanence la qualité des données, la pertinence continue des ainsi que la pertinence continue des tâches à mesure que nous progressons dans le domaine des mégadonnées et de l'apprentissage automatique exemple, nous sommes déjà allés beaucoup plus loin et nous devons maintenant mettre l'accent sur le principe du Go. Le principe Gig reste tout aussi pertinent , car la qualité des données restera la clé du succès et de la fiabilité des systèmes informatiques dans un monde où les données sont abondantes, mais pas Adopter le principe Guigo est essentiel pour exploiter tout le potentiel de l' apprentissage automatique tout en évitant les coûteuses et occupant du concert, vous devez être très prudent Et si vous vous occupez du travail, vous éviterez des erreurs coûteuses et conséquentes En conclusion, le principe de Guigo rappelle la relation symbiotique entre la qualité des données et l'efficacité des systèmes d'apprentissage automatique En donnant la priorité à la qualité des données, les entreprises peuvent tirer parti de la valeur de leurs investissements dans l'apprentissage automatique, prendre des décisions éclairées et garder longueur d'avance dans le domaine des données et du paysage Dans le monde de l'apprentissage automatique, les données de qualité ne sont pas seulement un atout. C'est la base sur laquelle systèmes de renseignement sont construits. C'est une chose très importante à comprendre. Les données de qualité ne sont pas seulement un atout. Des données de qualité sont nécessaires. Les données de qualité ne sont pas simplement un ensemble ou une autre exigence. C'est sur cette base que nous créons tous ces systèmes d'IA, modèles d'apprentissage automatique, modèles d'apprentissage profond , systèmes de recommandation, tous ces systèmes d'IA, modèles d'apprentissage automatique, modèles d'apprentissage profond , systèmes de recommandation, tous ces éléments sur lesquels nous allons travailler et que nous allons utiliser Tout dépend de la qualité des données. Les données sont le fondement et l'élément essentiel de l'écosystème de la science des données. J'espère que vous savez comment nous pouvons atténuer les difficultés et comment nous pouvons obtenir des données sur la qualité des données pour nos modèles d'apprentissage automatique, des données pour nos modèles d'apprentissage automatique Merci lors de la prochaine conférence. 126. Algorithmes d'apprentissage supervisé: Bonjour et bon retour. Dans cette conférence, nous allons en apprendre davantage sur l'algorithme d'apprentissage supervisé. Ce sera la voie vers des prédictions intelligentes grâce à l'apprentissage automatique. Nous faisons des prédictions intelligentes, non ? Commençons. Nous avons les connaissances de base de l'apprentissage supervisé. Mais avant de passer aux algorithmes, voyons quel est le concept fondamental de l'apprentissage supervisé. L'apprentissage supervisé est un concept fondamental dans le monde de l'apprentissage automatique. C'est le rem, où les ordinateurs apprennent à partir de données étiquetées pour faire des prédictions. Ou c'est le point de départ des prédictions, non ? L'apprentissage supervisé est une chose très fondamentale. C'est-à-dire que nous fournirons aux modèles d'apprentissage automatique les données étiquetées et ces algorithmes d'apprentissage automatique par le biais d'algorithmes d'apprentissage automatique le type d' étiquette des données. Sur cette base, lorsque les nouvelles données seront disponibles, il analysera le modèle appris pendant l'entraînement, puis il prendra la décision. OK ? Et elle sous-tend de nombreuses applications dans notre vie quotidienne. Dans cette conférence, nous examinerons de plus près les algorithmes d'apprentissage supervisé. Exploration de ce qu'ils sont et de leur fonctionnement, ainsi que de quelques exemples courants d'apprentissage supervisé. Qu'est-ce que l'apprentissage supervisé ? L'apprentissage supervisé est le type d' apprentissage automatique que nous avons déjà abordé dans le cours précédent. Où l'algorithme est entraîné sur notre ensemble de données étiqueté. En d'autres termes, les données d'entrée sont associées à la bonne sortie ou à la bonne cible, l'algorgate L'algorithme apprend à associer les données d'entrée à la sortie correcte, appuyant efficacement sur les exemples. Ce processus d'apprentissage permet à l'algorithme de faire des prédictions ou de prendre des décisions lorsqu'on présente de nouvelles données invisibles Les mécanismes de l'apprentissage supervisé. L'apprentissage supervisé peut être décomposé en quelques éléments clés. Le premier est celui des données, car elles sont à la base de toutes ces données issues de l' écosystème de science des données , d' IA et d'apprentissage automatique. L'ensemble de données d'étiquette sert de terrain d'entraînement aux algorithmes. Il inclut à la fois des fonctionnalités d'entrée, par exemple, des variables d'attributs, toutes ces choses. Et les valeurs cibles correspondantes, par exemple les étiquettes et les catégories. OK, les données sont le point de départ. Vient ensuite la sélection du modèle, un algorithme d'apprentissage supervisé spécifique basé sur la nature de votre problème. Les algorithmes courants incluent la troisième décision, la région linéaire, la régression logistique, machines à vecteurs de support et les réseaux neuronaux Ce sont tous des algorithmes d'apprentissage automatique que nous appliquons à un modèle. Nous sélectionnerons en fonction de la nature du problème que nous allons résoudre. Entraînement. Pendant la phase d'apprentissage, l'algorithme analyse les données d'entrée, apprend à reconnaître le modèle disponible dans les données, la relation. En outre, il analysera ou décidera des limites. Et quelles sont les limites définies pour la prise de décision qui aboutira au bon résultat. Il ajuste de manière itérative ses paramètres internes minimiser les erreurs de prédiction Viennent ensuite les tests et les évaluations. Après l'entraînement, le modèle est évalué sur un ensemble de données distinct qui n'est pas utilisé pendant l'entraînement. C'est pourquoi nous divisons l'ensemble de données en deux parties. Avant de passer à l'entraînement, c'est-à-dire entraînement et ensemble de données de test sur ensemble de données d'entraînement, nous testons le modèle sur l'ensemble de données de test. Nous le testons pour déterminer sa capacité à se généraliser à de nouvelles données invisibles Diverses mesures de performance telles que la précision, la précision et le rappel sont utilisées pour le modèle d'évaluation après l'entraînement Les tests et évaluations constituent l'une des étapes les plus, très importantes de l'apprentissage supervisé. Maintenant, quels sont les types courants d' algorithmes d' apprentissage supervisé que nous utilisons pendant l'apprentissage supervisé ? Lorsque nous sélectionnons l'apprentissage, lorsque nous sélectionnons les données, nous sélectionnons le modèle, nous sélectionnons l'algorithme. Quels sont les algorithmes que nous utilisons ? Il existe un large éventail d'algorithmes d'apprentissage supervisé, chacun adapté à différents types de problèmes. Chaque algorithme travaillera sur chaque problème, chaque problème. Nous aurons besoin d'une approche spécifique pour résoudre un problème de la vie quotidienne. De plus, vous ne pouvez pas résoudre tous les problèmes de la même manière. De même, dans l'apprentissage automatique, tout en utilisant l'apprentissage supervisé, nous ne pouvons pas résoudre tous les problèmes par le biais d'un seul algorithme. chaque problème spécifique, nous aurons besoin d' une méthode spécifique pour le résoudre, n'est-ce pas ? D'ailleurs, il existe de nombreux algorithmes et en fonction de nos besoins, nous pouvons choisir le mieux adapté à notre problème. Et parfois, nous ne savons pas quel algorithme fonctionnera. Dans ces cas, les data scientists appliqueraient trois algorithmes. Et ils analyseront le résultat et les prévisions. Et la méthode la plus courante pour déterminer le type d' algorithme à utiliser dans notre modèle est celle qui donne les prédictions les plus correctes . C'est la méthode la plus courante pour type d'algorithme à utiliser dans notre modèle Voici quelques exemples notables, comme la régression linéaire, l'un des algorithmes d'apprentissage supervisé les plus populaires. Ensuite, la régression logistique, l' arbre de décision est très important VM à vecteurs de soutien aux forêts aléatoires Les VM à vecteurs de soutien aux forêts aléatoires sont des réseaux neuronaux très importants Et les K voisins les plus proches. Il s'agit de l'algorithme d' apprentissage automatique supervisé très populaire algorithme d' apprentissage automatique supervisé que nous utilisons pour résoudre des problèmes. À l'aide de l'apprentissage supervisé, quelle est régulation utilisée pour prédire les valeurs continues dont nous avons également parlé précédemment ? Hein ? Il existe deux types de valeurs. Les valeurs continues, c'est-à-dire les valeurs numériques et les valeurs catégorielles, où nous avons clairement défini les catégories de données La régulation linéaire est utilisée pour prévoir des valeurs continues Ici. Nous savons maintenant très clairement que chaque fois que nous avons des valeurs continues, nous devons prévoir le cours d'une action, prix d'un ensemble de choses où les chiffres sont impliqués. Nous pouvons utiliser la régulation linéaire. Nous pouvons considérer la régulation linéaire comme l'un des algorithmes de résolution de problèmes pour l' apprentissage automatique utilisant l'apprentissage supervisé. Régulation linéaire utilisée pour prédire des valeurs continues telles que les prix de l'immobilier, fonction de caractéristiques telles que l'emplacement en pieds carrés Il suppose une relation linéaire entre l'entité en entrée et l'entité cible. Dans le cas de la prévision du prix de l'immobilier, il s'agit d'une relation assez linéaire. Chaque fois que vous vous rendez dans un endroit haut de gamme, vos prix seront élevés. Lorsque nous nous rendons dans les endroits les moins économiques, le taux sera élevé. Si vous optez pour un pied carré de surface de construction, le prix de votre maison augmentera d' pied carré, moins le prix. Il s'agit d'une relation linéaire entre l'entité en entrée et l'entité en entrée cible. Dans ce cas, selon une prédiction interne c'est un pied carré de l' emplacement de la maison, n'est-ce pas ? Qu'il s'agisse d'un pneu, d'une ville à l'autre. Toutes ces fonctions sont la fonction d'entrée et la fonction d'entrée. Nos prix augmenteront et baisseront. C'est une approche que nous pouvons utiliser, la régulation linéaire pour les valeurs continues. La logistique, regationrimarilyedinaryssifbre, problèmes où nous avons une spécification très claire selon laquelle il existe une situation par oui ou par non dans laquelle vous pouvez dire oui ou non ou vous pouvez classer en termes de spam par e-mail ou non problèmes où nous avons une spécification très claire selon laquelle il existe une situation par oui ou par non dans laquelle vous pouvez dire oui ou non ou vous pouvez classer en termes de spam par e-mail ou non de spam. Il y a des classifications très spécifiques que nous voulons faire. Soit nous voulons classer cet e-mail provenant d'une personne inconnue comme spam ou non comme spam C'est ce qu'on appelle la classification binaire, les deux types de classification que nous utilisons, spam ou non spam. Le binaire est très clair et nous devons le mettre dans l'une des catégories, d'accord ? Dans ce cas, c'est un spam ou non, d'accord ? En cas d'approbation du prêt, prêt approuvé ou non, approuvé ou rejeté. Dans le problème de demande de prêt, classification est binaire : le prêt sera approuvé, prêt rejeté, approuvé et rejeté. Ce sera la classification binaire. régulation logistique modélise la probabilité qu' une entrée appartienne à une classe spécifique Le cours est un spam. Spam, OK, Decision. La décision. L'algorithme polyvalent. Ils sont très polyvalents et sont utilisés à la fois pour la classification et le regrationasketil Nous sommes une région linéaire et une région logistique. Ainsi, cette région linéaire, région linéaire que nous pouvons utiliser pour la régression logistique des valeurs continues, nous pouvons l'utiliser pour les problèmes de catégorie ou de classification Mais parfois, les approches régionales et logistiques linéaires ne sont pas suffisamment adaptées au problème Nous avons besoin d'une meilleure approche. Dans ce cas, la décision Rich entre en jeu. Il s'agit d'un algorithme très polyvalent et décent qui peut être utilisé à la fois pour les tâches de classification et de région. Décision Créez une structure arborescente pour les décisions et les résultats en fonction de la fonction d'entrée. En fonction de la fonctionnalité d'entrée, vous obtiendrez une structure arborescente. Sur cette base, vous pouvez prévoir le résultat. Forêt aléatoire, forêt aléatoire Méthode d'exécution Gimble qui combine plusieurs arbres de décision pour améliorer précision et réduire les machines vectorielles, prend en charge les machines vectorielles Les SVM sont très efficaces pour les tâches de classification. Sbm trouve l' hypervoie optimale qui sépare le mieux les points de données appartenant à différentes classes Dans ce cas, nous allons classer l' ensemble de données complet en différentes classes Et SBM trouvera ligne optimale de l'hyperplan qui séparera les points de données appartenant à différentes classes différentes Les réseaux neuronaux, l'apprentissage profond, les réseaux de neurones alimentent en particulier les réseaux de neurones et les réseaux de neurones conventionnels. Les CNN sont des outils puissants pour des tâches telles que la reconnaissance d'images et de voix qui vont résoudre un problème de reconnaissance d'images et de Nous devons traiter ces réseaux neuronaux dans un réseau neuronal profond. Nous avons également les deux approches. Deux approches font avancer le réseau neuronal et le réseau neuronal convolutif C'est N. Puis viennent les K voisins les plus proches utilisés pour la classification et la régression. Les deux problèmes peuvent être résolus en n'effectuant pas de prédictions basées sur la classe majoritaire ou la valeur moyenne point de données K le plus proche dans l'ensemble d'entraînement Il prédit les valeurs en fonction de la classe majoritaire ou de la valeur moyenne du point de données K le plus proche dans l'ensemble d'apprentissage Certains exemples concrets, tels que les applications de l'apprentissage supervisé en cas de diagnostic médical, la prédiction du résultat G sur la base de données sur les patients, comme le dépistage du cancer, sont l'un des exemples de diagnostic médical que nous utilisons à l'aide de l'apprentissage supervisé Sur la base des données des patients, nous prévoyons que, qu' il s'agisse d'un cancer ou non, traitement du langage naturel ou la PNL sont utilisés pour le traitement du langage naturel Nous utilisons l'analyse des sentiments, classification des textes et la traduction automatique. C'est également un exemple d'apprentissage supervisé. Reconnaissance d'images, identification des objets, des visages et des anomalies dans les images et les vidéos, c' est-à-dire reconnaissance d'images. Autre exemple d' apprentissage supervisé, la notation de crédit, l' évaluation de la solvabilité des individus sur la base des données financières et personnelles C'est également un exemple d' apprentissage supervisé qui est beaucoup utilisé dans le secteur financier accédant aux données financières personnelles et aux données personnelles pour définir sa solvabilité en fonction de la cote de solvabilité Ils décident si la personne est éligible à un prêt immobilier, prêt personnel ou à un prêt commercial ou non. Ensuite, les systèmes de recommandation recommandant des films sur les produits sont contenus en fonction des préférences de l'utilisateur C'est l'apprentissage supervisé le plus utilisé de nos jours. Partout, nous voyons le système de recommandation, que ce soit sur les sites de commerce électronique, Amazon, eBay, etc. Ils recommandent des produits basés sur le système recommandé et utilisent en interne l'apprentissage supervisé. Ensuite, les films, Netflix, Hot Star, tout ce qu'ils utilisent des systèmes de recommandation. Ensuite, le contenu basé sur la clôture, comme les publicités Facebook, Youtube, les vidéos Youtube basées sur vos références. Ce sont là les applications réelles de l'apprentissage supervisé. Ce que nous pouvons maintenant citer de cette conférence, c'est que algorithmes d'apprentissage supervisé sont des heures de travail consacrées à l'apprentissage automatique, permettant l'apprentissage informatique, permettant aux ordinateurs d'apprendre à partir de données étiquetées et de faire prédictions avec une précision remarquable. Les applications couvrent les secteurs, industries et les domaines, ce qui en fait un outil essentiel pour extraire des informations, automatiser des tâches décisions basées sur les données dans notre monde riche en données Alors que l'apprentissage automatique continue de progresser, algorithmes d'apprentissage supervisé resteront la pierre angulaire de l'innovation et de la résolution de problèmes dans les domaines de l' intelligence artificielle et de la science des données. J'espère que vous avez découvert les algorithmes d'apprentissage automatique à très grande échelle que nous utilisons. Et nous verrons dans la prochaine conférence, dans la prochaine. 127. Régression linéaire: Bonjour et bon retour. Dans cette conférence, nous allons découvrir la régression linéaire, qui est la base de la modélisation prédictive. Commençons. Qu' est-ce que la régression linéaire ? Avant cela, nous allons simplement comprendre que la régression linéaire est la pierre angulaire de l'analyse statistique et de la modélisation prédictive, jouant un rôle essentiel dans la compréhension relation entre les variables et dans l'établissement de prévisions. Dans cette conférence, nous aborderons le monde de la régression linéaire. Exploration de ses principales applications et de la manière dont il permet aux data scientists de tirer des informations précieuses des données région linéaire est très importante pour le data scientist ou même pour les ingénieurs en apprentissage automatique, car avec la région linéaire que nous pouvons comprendre et prévoir, nous pouvons signer un modèle plus productif. Bien, recommençons à comprendre la région linéaire. Comme il est dit, la région linéaire est méthode statique utilisée pour modéliser la relation entre une variable dépendante appelée x, la variable dépendante souvent désignée par y, et une autre variable indépendante, généralement désignée x. Y sera la variable dépendante et x sera la variable x sera OK, l'arion linéaire est la méthode statistique pour définir la relation entre la variable dépendante x et la variable indépendante Y. Qu'est-ce que cela signifie lorsque nous changeons le Comment le Y modifie-t-il cette relation ? Nous essayons de trouver cette technique de modélisation qui vise à trouver la régulation linéaire la mieux adaptée qui décrit les variables associées. Avec la régulation linéaire, nous essayons de trouver l'équation linéaire la mieux adaptée qui peut définir la relation entre x et y lorsque x change façon dont Y modifie cette relation. Vous essayez de définir par cette équation : équation linéaire L'équation de régulation est désignée par y. Nous voulons déterminer le y, son évolution en fonction du x. L' équation de régulation linéaire est bêta 0 plus bêta sur e en x plus erreur OK, nous allons voir quelles sont les versions bêta 0 et bêta et quels sont les epsilon, il s'agit en fait d'une s'agit en fait Maintenant, cette équation nous donnera la valeur y lorsque nous mettrons X bêta zéro et bêta un plus erreur. OK ? Voici l'indépendant, Y est le dépendant, indépendant Y est la variable dépendante ou la variable cible, d'accord ? La valeur que nous voulons prédire en fonction du X, d' accord, est la variable dépendante ou la variable cible que nous l'appelons, n'est-ce pas ? Ensuite, bêta zéro est l'intersection représentant la valeur de Y lorsque X est nul. Dans la prochaine leçon, dans la diapositive suivante, bêta un est la pente indiquant dans quelle mesure y change pour un changement d'unité de x et epsilon représente le Il s'agit du terme d'erreur expliquant la variabilité y qui n'est pas expliquée par la régulation linéaire avec x. Vous voyez ici, c'est la région linéaire, c'est la ligne de régression C'est le X qui est la variable indépendante sur le X, X, c'est sur le y. X change la façon dont Y change. C'est ce que nous voulons prévoir ici, c'est ce que nous voulons définir ici. Il s'agit d'une variable dépendante, c'est une variable indépendante de X sur cette équation, bêta zéro plus bêta un dans x. Vous voyez ici, le bêta zéro est l'intersection indépendante Il s'agit de l'intersection où il intercepte les yX. C'est ce qu'est la bêta zéro. Si vous considérez ce point ici, ce sera le bêta zéro, ce sera le bêta zéro. Et la bêta 1 sera la pente. Quelle est la pente ? Pour l'axe X ? OK ? Dans quelle mesure x, y change lorsque x1x change. Lorsque x change, quelle mesure Y change ? C'est quoi ? Bêta 1. OK ? Ici, c' est le point réel et c' est la ligne de dégradation ici Notre prédiction est celle-ci. Puisque x est appelé à un, nous obtenons y ici. Mais au point réel de notre ensemble de données qui se trouve ici, cette distance entre cette valeur prédite et la valeur réelle est appelée terme d'erreur ou erreur, et désignée par cet epsilon lorsque nous ajoutons bêta zéro plus bêta un dans Un terme, on, on obtient le point de réintégration, accord ? Tu as bien compris. C'est la ligne de réintégration et cette distance d'écran s'appelle epsilon Et les points de taux sont les points de données que nous avons, ces points de données, nous essayons de trouver la meilleure ligne d'ajustement, c' est-à-dire la ligne de réintégration pour définir les relations entre le x et le y, d'accord ? Applications de la région linéaire. La régression linéaire a de nombreuses applications dans différents domaines. Comme en économie, les économistes utilisent la régression linéaire pour analyser l'impact de variables telles que les taux d'inflation, les taux d'intérêt et les dépenses de consommation sur indicateurs économiques tels que le financement du PIB. En finance, la régression linéaire permet de modéliser les cours des actions, prévoir le rendement des actifs et facteurs de risque liés aux actifs influant sur l'investissement. Les portefeuilles d'investissement dans le secteur médical et les ressources médicales utilisent une régression linéaire pour prédire les résultats du patient en fonction de facteurs tels que l'âge, la génétique et le protocole de traitement. En marketing, les spécialistes du marketing utilisent la régression linéaire pour évaluer l'efficacité des campagnes publicitaires, analyser le comportement des clients, les ventes, les sciences sociales Les spécialistes des sciences sociales appliquent une régulation linéaire pour étudier des phénomènes tels que les taux de criminalité, les résultats scolaires et les tendances protiques En ingénierie, les ingénieurs utilisent la régulation linéaire pour modéliser propriétés physiques telles que la relation entre la température et la résistance du matériau. Création et évaluation d'un modèle de régulation linéaire. création d'un modèle de régulation linéaire implique les étapes suivantes. Collecte de données, la première chose est collecte de données a rassemblé l'ensemble de données qui comprend variable indépendante y et une autre variable indépendante X, les variables indépendantes X et y, nous avons besoin de cette collecte de données. Ensuite, l'exploration des données, l' exploration des données, l'utilisation de statistiques descriptives et visualisations pour mieux comprendre la relation entre les variables Puis vient le cintrage du modèle. Utilisez un logiciel de statistiques. Utilisez un logiciel statistique ou un langage de programmation tel que Python ou R pour créer un logiciel de régénération linéaire, estimer la valeur de bêta zéro et de bêta un qui correspond le mieux aux L'évaluation du modèle est l'étape suivante permet d'accéder aux performances du modèle à l'aide de matrices. Des métriques telles que le coefficient de détermination, quadratique moyenne R au carré ou l'erreur quadratique moyenne des racines, RMSC Ces mesures quantifient dans quelle mesure le modèle s'adapte aux données. Interprétation, interprétez les coefficients bêta zéro et bêta un Pour comprendre la force et l'orientation de la relation entre les variables de prédiction, utilisez le modèle de tendance pour faire prédictions pour les nouveaux points de données. Quels sont les défis de cette région linéaire ? Bien que la région linéaire soit un outil polyvalent et puissant, elle présente des limites. Cela suppose qu'un temps linéaire n'est pas toujours vrai dans les scénarios du monde réel. De plus, il se peut qu'il ne capture pas relations complexes ou non. En conclusion, la régulation linéaire est une technique fondamentale dans le monde de la statique et de la modélisation prédictive Sa simplicité, son interprétabilité et son large éventail d' applications en font un outil essentiel pour extraire des informations précieuses des données Et prendre des décisions éclairées dans divers domaines et industries. Bien que cela serve de tremplin pour aller de l'avant, passez aux techniques de modélisation avancées. La maîtrise de la régulation linéaire est une compétence fondamentale pour tout data scientist ou analyste Nous avons compris les principes de base de régression linéaire et nous avons compris quelles la régression linéaire et nous avons compris quelles sont les applications pour la région linéaire, comment nous construisons un modèle de régression linéaire et quels en sont les défis. Lors de la prochaine conférence, nous essaierons de faire la région en utilisant notre programmation, voir dans la prochaine conférence. 128. Régression linéaire dans R: Bonjour et bon retour. Dans la conférence précédente, nous avons découvert en détail la régénération linéaire Nous avons compris le concept en théorie. Nous allons maintenant donner un exemple simple de régression linéaire et voir comment implémenter la région linéaire à l' aide de la programmation R. R propose une large gamme de packages et de fonctions pour l'analyse de régénération linéaire Ici, je vous donne un guide pour effectuer une région linéaire étape par étape à l'aide de la programmation R. La toute première étape devrait être la préparation des données. Car les données sont à la base de tous les signes de données, de l'apprentissage automatique, des visualisations de données, l'apprentissage profond, de tout ce qui touche à la science des données La première étape est la préparation des données. Les données sont très importantes. Pour cela, nous allons utiliser fichier CSV qui contiendra un ensemble de données très simple. OK ? La première étape consiste à préparer votre bande, préparer vos données, charger vos données dans R. Ensuite, elle doit être très formatée, elle doit contenir des variables dépendantes et indépendantes D'accord, nous utilisons ici des données, CSP que j'ai chargé En utilisant le fichier re dans R, nous chargeons tous. C'est une fonction qui nous permet de lire les données, accord. À partir d'un fichier CSV, je crée une variable ici, les données. Et j'utilise le fichier CSV pour lire les données de ce fichier, et je stocke le résultat dans les données. OK, allons-y. OK ? Je vais vous fournir le fichier CSV de données. Vous pouvez le télécharger depuis le cours et vous pouvez l'utiliser, d'accord ? Vous devez placer le CSP de données dans le répertoire de votre projet afin qu'il lise correctement et donne le chemin complet vers ce répertoire Et ça va se lire, d'accord. Sinon, cela donnera le mauvais chemin. Cela vous enverra le message d'erreur. OK, un fichier, pas un, juste toutes ces erreurs que vous allez avoir. Ensuite, nous verrons ce qu'il y a dans ces données. Nous utiliserons la tête fonctionnelle de tête et nous transmettrons les données de cet objet. Et puis, lorsque nous l' exécutons, nous pouvons voir que notre ensemble de données un ensemble de données assez simple contenant x et y. X est la variable indépendante et Y est la variable dépendante basée sur x. Y change ici. OK, pour chaque x, nous allons tracer y et essayer de trouver une région linéaire. La ligne de régression indiquera laquelle représentera cette relation entre x et y. Elle conviendra le mieux à tous ces points, points, Sur cette base, si vous donnez une autre valeur x qui n' est pas présente dans le, elle prédira la valeur y, d'accord ? Ensuite, il y a le modélisme. Pour cela, nous allons utiliser la fonction LM. Fonction L pour le modèle linéaire. OK ? Lm signifie modèle linéaire. Il s'agit de la fonction Lm que nous allons utiliser pour la régression linéaire ou pour créer le modèle linéaire. OK ? Elle est écrite sous fonction L M LM que nous avons utilisée pour construire un modèle de régression linéaire. Dans cet exemple, nous allons prédire la variable dépendante y en fonction la variable indépendante x. Bien, pour créer un modèle de régression linéaire, nous allons créer un objet de modèle ici. Ensuite, nous utiliserons la fonction L M et nous dirons que X, Y dépend de x données que les données fourniront sous forme de données, objet de données que nous avons créé ici. OK ? Les données sont égales aux données et Y dépend de x. Maintenant, exécutons-le. Cela créera notre modèle. Je veux maintenant voir le résumé de notre modèle. OK ? Pour cela, nous pouvons utiliser la fonction de résumé et transmettre cet objet modèle ici. Exécutons ça. Voici le résumé de notre modèle. Vous pouvez voir ici la moyenne résiduelle, médiane et le premier quartile Troisième quartile et valeurs maximales, d'accord ? La valeur maximale est 24,469 OK. Ensuite, nous pouvons voir le coefficient erreur type estimée et la valeur R. D'accord ? Toutes les interceptions, tout ce que vous pouvez voir, voilà ce qu'il faut. Nous verrons comment il suffit de regarder les choses et nous verrons comment nous pouvons les déterminer en fonction de cette lettre correspondant au premier quartile, au troisième quartile et aux valeurs maximales atteints troisième quartile et aux valeurs maximales OK, la prochaine étape est l'évaluation du modèle. Vous pouvez maintenant évaluer les performances du modèle en examinant les statistiques récapitulatives, y compris les valeurs du coefficient R au carré. La prochaine étape est celle des prédictions. Nous allons utiliser la fonction de prédiction pour faire des prédictions. Avec votre modèle, vous pouvez spécifier une nouvelle valeur x qui n'est pas présente dans le jeu de données que nous voulons. Prédisez la valeur y ici. Nous allons créer un nouvel objet ici, nouvelles données de soulignement ici Je vais utiliser le bloc de données ici, x. Je vais nous fournir des valeurs de 102030 x. Je donne ici trois valeurs. Je donne 1 020,30 Pour ces trois valeurs, je veux prédire pour dix, quel sera le y ? Pour 20, qu'est-ce qui le fera, et pour 30. Ensuite, j'utiliserai les prédictions. OK, je vais utiliser la prédiction. Je vais enregistrer les nouvelles valeurs dans les prédictions. Et j'utiliserai la fonction de prédiction 2 du modèle de prédiction, les valeurs y basées sur la valeur x. Pour cela, je vais utiliser notre modèle que nous avons créé ici. OK, dans la fonction alun, nous avons créé ce modèle. Je vais utiliser ce modèle pour prédire les valeurs. Je vais passer le modèle pour prédire la fonction. Et les nouvelles données sont équivalentes aux nouvelles données de soulignement. Les nouvelles données de soulignement que nous transmettons sont vectorielles X. OK ? Ce vecteur transmettra ces nouvelles données. Cela nous donnera maintenant les nouvelles valeurs prédites. Bon, maintenant nous avons les prédictions. Imprimons les prédictions ici. Faisons-le. Voyons que nous pouvons voir maintenant que nous pouvons voir la valeur de prédiction 22,8 pour 102 035,5 et 48,5 30 Permettez-moi d'en tenir compte pour que nous puissions voir le résultat ici même Voyez ici. Nous obtenons maintenant les trois valeurs de y x. Lorsque x vaut dix, nous obtenons la valeur y, nous obtenons la valeur y, 22,78. Lorsque vous regardez les données ici, il n' y en a pas dix, n'est-ce pas Non 2030. Mais tu vois un 38. Pour 38, c'est 56. 30 c'est correct, non ? Pour 20, nous obtenons 35,65 Pour dix, nous en avons 22. Nous allons maintenant le visualiser en le traçant. Nous utiliserons la fonction plot, les x et les y, et nous donnerons le titre sous forme de région linéaire Xlab et Ylab Alta Essayez de tracer la ligne de région linéaire l'aide de la fonction Able. Pour que la fonction Able trace la ligne de régression Alec, nous utilisons le modèle que nous avons créé et nous spécifierons la couleur comme regrlineilllottdlt'seeeow'etlegrelinere nous utilisons le modèle que nous avons créé et nous spécifierons la couleur comme regrlineilllottdlt'seeeow'etlegrelinere , nos modèles de régression linéaire. Maintenant, lorsque vous pouvez prédire n'importe quelle valeur de x ici pour 30, ce sera la valeur de y pour 35. Ce sera l'interception. Lorsque vous placez une ligne d'ici à ici et là où elle se croise, ce sera la valeur prévue, 50 pour toutes ces choses. Certaines valeurs sont éloignées d'ici, de cette ligne rouge à la distance qui sera parcourue par ce point. C'est ce qu'on appelle une erreur, non ? Epsilon que nous avons vu dans notre partie théorique, non ? La distance entre le point et la droite de régression, epsilon ou erreur, d' C'est ainsi que nous pouvons utiliser la région linéaire pour prédire la valeur. Maintenant, si vous prenez des valeurs x et que vous passez par ici, vous trouverez la valeur y sur cette régression, les valeurs prédites OK, la région linéaire est désormais un outil puissant pour l'analyse et la prévision des données , ainsi que pour la modélisation prédictive Avec R, vous pouvez facilement effectuer des opérations linéaires, évaluer la relation entre les variables et faire des prédictions en fonction de votre modèle. Nous y avons vu l' introduction aux informations de base sur la région linéaire, mais il reste encore beaucoup à explorer, notamment la gestion des diagnostics du modèle de colinéarité de Monte et les techniques de régression avancées La régression linéaire n'est qu'une facette du riche paysage de l' analyse statistique et de l'apprentissage automatique lequel nous pouvons faire bien plus encore Nous verrons également quelques autres exemples de régression linéaire. J'espère que vous avez appris comment créer le modèle de région linéaire et comment nous pouvons prédire les valeurs. Comment pouvons-nous tracer une droite de régression ici pour prédire les valeurs voir dans la prochaine leçon 129. Prédire la taille d'une personne à l'aide de la régression linéaire: Bonjour et bon retour. Dans la conférence précédente, nous avons vu comment créer un modèle de fouille linéaire, accord, pour prédire les valeurs Y en fonction du X. OK, ici X était la variable indépendante et Y était la variable dépendante. Nous allons maintenant faire un pas de plus, un petit pas vers le fils. Dans cet exercice, nous allons essayer de prédire la taille d'une personne en utilisant le degré linéaire. En utilisant notre programmation, bien sûr. OK, tout d'abord, lorsque vous travaillez sur un projet, vous obtenez le véritable jeu de données. Ici. Ce que je fais, je n' utilise pas les données du monde réel. Au lieu de cela, je génère un ensemble de données synthétique. La plupart du temps, nous obtenons les données en temps réel. Mais pour la pratique et pour tout le monde, nous ne pouvons pas à chaque fois travailler sur un très grand ensemble de données, n'est-ce pas ? Dans ce cas, nous créons notre propre jeu de données, d' accord, avec les valeurs aléatoires, et nous essayons de créer des modèles et de travailler dessus. D'accord, plus tard, nous implémenterons la même chose en utilisant les données du monde réel. Pour cet exemple, je vais utiliser ensemble de données synthétiques avec des valeurs d' âge allant 18 à 65 ans. Nous aurons les valeurs d'âge pour les personnes de 18 à 65 ans OK ? Ensuite, nous allons créer les valeurs de hauteur correspondantes en utilisant une relation linéaire. OK, nous allons d'abord créer une valeur d'âge, 18-65 ans. Pour chaque valeur nous essaierons de créer un support de taille correspondant à 18 ans, personne aura la taille, 19 ans, un site comme ça OK. Nous allons créer une taille correspondante aléatoire pour la personne d' un âge donné en utilisant une relation linéaire. Ensuite, nous ajoutons du bruit aléatoire. Toutes les données ne seront jamais parfaites, est-ce pas, il y a du bruit dans les données. Il y aura des irrégularités dans les données. Nous allons ajouter du bruit aléatoire pour simuler avec l'ensemble de données du monde réel. Parce que dans le jeu de données du monde réel, nous n'aurons jamais les bonnes valeurs, bruit se répercutera sur l'ensemble de données. Il faut qu'il y ait de l' ambiguïté dans notre ensemble de données. OK, nous allons créer cette ambiguïté en utilisant le bruit aléatoire pour simuler les données du monde réel Nous créons une trame de données appelée data à partir des variables H et height Ensuite, nous allons effectuer un grationUsingLMFunction linéaire, où nous prédisons la hauteur H Nous résumons le modèle régional à l'aide d'un modèle de synthèse. Nous avons fait tout cela dans l'exercice précédent comme nous le ferons ici, mais dans une perspective différente, n'est-ce pas ? Le résumé, nous allons utiliser le résumé pour résumer notre modèle de réintégration Et nous allons passer ce modèle que nous avons créé lors la fonction Lm et nous verrons les flics et les statistiques Nous prédisons la hauteur pour une nouvelle valeur H. Une fois que nous aurons créé un modèle, nous ferons passer une nouvelle valeur d'âge, supposée 30 ou 35 ans, et nous essaierons de prédire la taille en fonction de l'âge. Pour cela, nous allons utiliser la fonction de prédiction. Enfin, nous allons imprimer et visualiser la régression linéaire, d'accord ? Prédisez la hauteur et visualisez également cette droite de régression. Bien, commençons par la première chose que nous allons faire générer un jeu de données synthétique. Pour cela, j'utilise le set 123. Ce qu'il fera, il définira les paramètres de reproductibilité, À chaque fois, il produira les mêmes données de configuration. OK ? Ici, on prendra de 18 à 65 ans. Ici, il sera âgé de 18 à 65 ans. Ensuite, pour la hauteur, je ferai 15150 une ligne de base minimale Les gens en auront 150, d'accord. Hauteur, 150 centimètres. Nous aurons alors le plus 0,5 dans H ici. Nous allons utiliser la fonction de norme ici. Nous donnerons la longueur de H, puis nous utiliserons la moyenne zéro et l'écart type cinq. Cela générera la taille synthétique pour chaque âge. OK, on y est, on passe le H ici. OK, allons-y. Nous avons maintenant créé le jeu de données synthétique. Maintenant, ce que je vais faire, c'est créer un dataframe. Je vais stocker dans le bloc de données une valeur égale à h et une hauteur égale à une hauteur. Cette hauteur, d'accord, est égale à h est égale à ceci. OK, exécutons-le également. Nous allons maintenant voir le jeu de données, ce que nous avons créé. Exécutez ceci, voyez ici maintenant pour 18. La hauteur aléatoire. Nous le générons depuis 1920 ans. Ça, d'accord. Nous avons maintenant le jeu de données entre nos mains. Ensuite, nous allons créer un modèle d'agrégation linéaire pour cela. J'utiliserai un modèle variable ici et j'utiliserai la fonction LM pour créer notre modèle d'action linéaire. Ici, je vais donner la hauteur, la hauteur en tant que valeur que vous voulez prédire que variable dépendante et en tant que variable indépendante. Et les données sont égales aux données. Créons ce modèle en exécutant ce morceau de code. Maintenant que c'est créé, laissez-moi le supprimer. OK. C'est ce que j'ai fait plus tôt. OK, maintenant notre modèle est prêt. Notre modèle est maintenant prêt. Voyons maintenant le résumé de notre modèle. Ici, vous pouvez voir toutes ces valeurs, ces coefficients et la valeur de la valeur de l'ère standard, toutes ces choses, d'accord ? Nos valeurs au carré. OK, ce que je vais faire maintenant, est que le modèle est prêt. Je veux prédire l'âge d'une personne de 30 ans. Pour cela, je vais créer une nouvelle ère variable. Et je vais utiliser la fonction dataframe du bloc de données ici. Je vais passer le cap des 30 , puis je prédis la hauteur. Je veux prédire la taille de cette personne de 30 ans. Je vais utiliser la fonction de prédiction. Sur quelle base je vais le prévoir. Je vais utiliser le modèle pour prévoir la hauteur. Je vais transmettre ce modèle que nous avons créé ici en utilisant la fonction LM. OK ? Et les nouvelles données sont synonymes de nouvelle ère ici. Je passerai le nouvel âge à 30 ans. Je passe cette variable qui contient la valeur. OK, allons-y. Maintenant, ce que je vais faire, essayer d'imprimer la hauteur prévue. Nous avons obtenu la hauteur prévue. Si vous voyez ici, la hauteur prévue est correcte. Laisse-moi courir. Cette taille prévue pour une personne de 30 ans est 165,29 De cette façon, nous avons prédit la taille de la personne de 30 ans Si vous avez les données en temps réel, vous pouvez les utiliser ici. OK ? C'est vrai. Ensuite, vous pouvez le prévoir. Maintenant, permettez-moi de mettre une autre valeur, comme je veux utiliser données d'une personne âgée de 49 ans. Il y en a maintenant 165. Voyons quelle sera la valeur pour 49, pour une personne de 49 ans, la taille sera de 174,84 8 174,47 C'est donc la hauteur prévue. De cette façon, nous pouvons prévoir la hauteur. Tracons maintenant la ligne de régulation ici. J'ai écrit un bout de code dans lequel si vous n'avez pas installé le GG plot 2, vous pouvez écrire ce code. Qu'est-ce que cela fera si c' est GG plot qui est requis, il installera le package et utilisera la bibliothèque, d'accord ? Et s'il est déjà là, alors c'est bon, il l' utilisera. OK. Ensuite, nous utiliserons ici la fonction de tracé G GG. Je vais transmettre les données. X sera le H et le y, x sera la hauteur et le point de départ, méthode gomo LM, couleur bleue pour la ligne de régression et tous ces en-têtes, vous savez, non ? Le minimum que nous avons vu dans la section du diagramme GG. Le nouveau bloc de données est égal à 30 et à la hauteur prévue. Je vais utiliser le modèle. OK, alors on l'imprime. OK, allons-y. Voyons voir ici. Ici aussi, nous obtenons la taille d'une personne de 30 ou 30 ans. Et vous voyez ici que nous obtenons la droite de régression. Ici aussi, la régression permet de prédire la taille en fonction de l'âge. Il s'agit de l'âge de l'axe X et de la taille Pour chaque âge, vous obtiendrez un point sur la droite de régression. Ce sera le montant prévu pour le soutien pendant 52 ans. Il viendra ici, ce sera la taille, 52 ans, la personne 62 ans. Il viendra ici comme ça, d'accord ? Je vais venir ici comme ça, d'accord ? De cette façon, nous pouvons prévoir ici si vous le souhaitez, vous pouvez donner n'importe quoi et cela prédira. J'espère que vous avez compris la régression linéaire et que vous vous retrouvez dans la prochaine étape. 130. Régression logistique: Bonjour et bon retour. Dans cette conférence, nous allons en apprendre davantage sur la région logistique. Nous allons comprendre quelles sont les mathématiques qui sous-tendent cette méthode mathématique qui sous-tend la classification en utilisant la région logistique. OK, alors commençons. La régulation logistique est une méthode statistique puissante utilisée pour les tâches de classification binaire telles que la détection de spam Comme nous pouvons le voir, le courrier électronique utilise cette classification du courrier électronique, par exemple, lorsque vous recevez le courrier électronique, il le classe comme authentique ou comme spam. Donc, tous les e-mails de spam iront dans les dossiers de spam, non ? C'est donc un exemple de régulation logistique ou de classification binaire Diagnostic médical, qu'il s'agisse d'un ou de plusieurs chiffres spécifiques ou de ce type de classification. Nous pouvons également le faire. La classification de la bande passante est également l'évaluation des risques lors de l' octroi du prêt ou de la carte de crédit. Les banques et les institutions financières évaluent le risque de crédit en fonction de l'adéquation, approbation ou du rejet, d'accord, pour déterminer si le prêteur sera en mesure de rembourser l'argent ou non Malgré son nom, il ne s'agit pas d'une régression au sens traditionnel du terme, mais d'un algorithme de classification. Bien que le nom soit régression logistique, il ne s'agit pas en fait d'une régression au sens traditionnel du terme, mais d'un algorithme de classification Dans cette conférence, nous explorerons les principes fondamentaux de régression logistique, les mathématiques, les fondements et les applications du monde réel où nous pouvons tous utiliser la régression logistique pour comprendre la classification binaire comprendre En classification binaire, nous traitons des problèmes où l'objectif est d'attribuer des observations à une ou deux classes ou catégories. Par exemple, il s'agit de classer les e-mails comme du spam ou non, prédire si un client abandonnera ou restera, c'est entreprise de télécommunications qui détermine si le résultat d'un test médical est positif régions logistiques nous aident à résoudre ces problèmes en modélisant la probabilité qu'une observation appartienne à une classe particulière. Des choses comme le spam ou non. Test médical, test sanguin une maladie particulière est positive ou non, comme dans le cas du covid, il était positif ou négatif au covid. classification binaire et cette régression logistique nous aident à résoudre de tels problèmes en modélisant la probabilité qu'une observation appartienne à une classe particulière fonction de région logistique est au cœur de la région logistique. Et la clé de régression logistique réside dans la fonction logistique, également connue sous le nom de fonction sigmoïde Cette fonction sigmoïde est très importante dans une région logistique, qui fait correspondre n'importe quelle entrée à une valeur 0-1 0,1 dans 0-1 qu'elle cartographiera 0,1 dans 0-1 qu'elle La fonction de région logistique est définie comme p de y égal à un égal à un par un plus e à la puissance moins le bêta zéro plus le bêta un dans x. Vous vous souvenez de ce bêta zéro plus le bêta un dans x. Nous l'utilisons dans l'équation linéaire, mais ici, la formule a changé Il est égal à un, y plus e à la puissance moins bêta zéro plus bêta un dans x p de y. égale à un est la probabilité à laquelle l' observation appartient plus un Ici, cela signifie que cela donnera la probabilité que l' observation appartienne à une classe sur e. Cette formule donnera la probabilité que bêta zéro soit interceptée, comme nous l'avons déjà vue dans la régression linéaire Bêta un en x représente la combinaison linéaire des entités en entrée. courbe de sept de la fonction logistique commence près de zéro, augmente progressivement et se rapproche de manière symptomatique Cela ressemblera à cette courbe sinusoïdale, n'est-ce pas ? Entraînez ensuite un modèle de régression logistique. Pour entraîner un modèle de loisirs logistiques, nous utilisons un ensemble de données avec des exemples étiquetés Pour chaque exemple, nous calculons la probité d'appartenance à la classe 1 à l' aide d'une fonction logistique. Ensuite, nous avons défini une fonction de perte, c'est-à-dire une perte d'entropie croisée Pour mesurer les performances du modèle, l'objectif est de trouver la valeur de bêta zéro et de bêta un qui minimise la fonction de perte Cette optimisation est généralement réalisée à l'aide méthodes numériques ou d'algorithmes d'optimisation tels que la descente en gradient. Il s'agit d'un autre terme très important. Nous verrons des applications de la région logistique. La régression logistique est largement utilisée dans divers domaines, comme nous l' avons déjà indiqué dans le diagnostic médical qui permet de prédire évolution d'une maladie, par exemple Sur la base des données des patients, telles que résultats des tests ou les antécédents médicaux, nous les alimentons et elles nous indiqueront s'il s'agit d'un diabète perméable, diabétique ou non L'analyse du marketing et de la clientèle permet d'identifier les charnes potentiels ciblant publicité et la segmentation de la clientèle Toutes ces choses, nous pouvons utiliser la régulation logistique dans le domaine de la finance Nous avons déjà discuté de l'évaluation du risque de crédit, la détection des fraudes et des défauts de paiement, traitement du langage naturel, du NLP, de la classification de textes Par exemple, une analyse des sentiments La détection du spam est une application courante du NLP utilisant l'analyse d'images des régions logistiques dans un traitement d'image dans régulation logistique peut être utilisée pour la classification binaire des tâches Si vous fournissez à l'appui des images d'humains et d'animaux basées sur un certain Ca, cela définira si cette image appartient à la catégorie humaine ou à la catégorie animale. Comme ça. L'interprétation des cofficiens logistiques, l'interprétation des coefficients de loisirs logistiques, bêta zéro efficace et le bêta un dans les relations logistiques ont une logistiques Par exemple, dans un modèle d'évaluation du risque de crédit, version bêta 1 peut représenter l'impact du revenu sur la probabilité de défaut de paiement. Un bêta positif indique qu'un revenu plus élevé réduit le risque de défaut de paiement. Quelle en est la conclusion ? Le cation logistique est outil volatil et interprétable pour les problèmes de classification binaire Nous devons toujours nous rappeler que c'est pour le problème de classification binaire. Il s'agit d'une base mathématique capable d'estimer les probabilités, fait un élément essentiel de la modélisation prédictive en science des données et en apprentissage automatique Bien qu'il s' agisse d'un algorithme fondamental, ses applications ont une grande portée contribuent à une meilleure prise de décision dans tous les secteurs et domaines. Alors que nous continuons d'échapper à nos solutions basées sur les données. La régression logistique demeure un atout précieux pour relever les défis du monde réel en matière de classification Tout cela est une question de théorie, qui fait partie d'une relation logistique Dans la prochaine conférence, nous allons utiliser R de manière pratique et nous essaierons d'implémenter une régression logistique Voit la prochaine conférence. 131. Prédiction de churn client à l'aide de la régression logistique: Bonjour et bienvenue. Dans cette conférence, nous allons écrire notre programme de régression logistique Et nous essaierons de prédire si un client se désabonnera ou non Voyons voir, c'est notre période pendant que le projet prédit la perte de clients. Bien, voici ce que nous faisons, nous créons un exemple de jeu de données avec deux variables et sur lequel John est un résultat binaire égal à zéro ou un indiquant si un client a quitté le site ou non OK, c'est donc ce que nous essayons de faire. D'accord ? Nous utilisons GLM, GL, GL est un modèle de ration général D'accord ? Nous utilisons ici le GLM, fonction GLM pour adapter un modèle de ration logistique, dans lequel le modèle est basé sur une fonction de l'âge, l' argument familial est défini Pour spécifier une régression logistique. L'argument défini sur logic indique la fonction du lien logistique OK, nous affichons un résumé du modèle de régression logistique à l'aide d' fonction de synthèse et nous transmettrons le modèle logistique à cette fonction de synthèse pour voir les valeurs des coefficients et d'autres statistiques Nous faisons des prédictions pour les nouvelles données. Et nous allons utiliser les données 38,62 et voir si les deux sont un client avec 38,62 quelle est la probabilité en utilisant la fonction de prédiction avec le type d'argument comme réponse OK, cela renvoie une probabilité prédite de John pour ces deux clients. Ensuite, nous imprimons, d'accord, voyons voir ici. Je crée également un exemple de données pour la classification des couleurs des bandes ici. Nous utilisons le set seed 123 et les données et j' utilise un cadre de données. Je crée ces deux vecteurs et le churn ici En âge, je donne le H ici, je donne la valeur John 01 pour les groupes d'âge. D'accord ? Le churn est un résultat binaire, comme nous en avons déjà discuté Et ensuite, exécutons-le. D'accord ? Nous avons maintenant créé un exemple de jeu de données. D'accord ? Lex est en train de créer un modèle logistique pour cela Nous utiliserons la fonction GLM et dans la fonction GLM, sur quelle base créera-t-on cette création logistique basée sur le H Ici, les données seront les données et la famille sera le lien binomial égal Cela signifie que nous allons passer à la régression logistique. OK, exécutons-le maintenant. Notre modèle de régression logistique est prêt. Maintenant, nous allons passer ce modèle logistique à une fonction de synthèse pour voir le résumé de ce modèle de régression Vous pouvez voir ici les valeurs Copic, les erreurs d' interception, la valeur jet et les valeurs R. OK, vous pouvez voir ici ce paramètre de personne pour le bannissement, considéré comme une déviance interne et des valeurs de déviance résiduelle C. Toutes ces choses, des choses que tu peux voir. Ensuite, je veux savoir que notre modèle logistique est prêt. Je veux prédire si le client va se désister ou non Je vais passer les deux H 38,62 et je vais voir la probabilité des données Je vais créer de nouvelles données. Je vais passer les deux vecteurs à H pour les stocker dans les nouvelles données. Je transmettrai ensuite ces nouvelles données à la fonction de prédiction. Je vais transmettre les deux éléments, modèle logistique que nous avons créé et les nouvelles données qui se trouvent ici, la transmission et le type de réponse. Ensuite, nous exécutons ça. Nous avons maintenant les valeurs prédites dans ces accessoires prédits et nous allons essayer de les imprimer. Faisons fonctionner ça. Voyez la probabilité de produire le client H 38 à 0,077 par temps, alors que pour le client de 60 à 22 ans, elle est d'environ 97 %. Ici, elle est d'environ 97 % nous pouvons facilement dire que le client avec un H 62 va sortir : 100 % 97 %, soit près de 98 % 97,75 % ici, la probabilité de renvoyer le client avec 62 est de près de 98 %. Le client avec 38 est près de 98 % OK. Nous constatons ici qu'avec les deux données, la probabilité est très inférieure à 38. Si je passe à 18 et que je suppose que je passe à 52. Maintenant, je vais l'exécuter à nouveau et nous verrons maintenant que la probabilité de 18 est même réduite. Pour les 0,004 % ici, c' est 76 %. Nous en concluons que plus la probabilité de perte de clients sera élevée pour 28,72 % ici plus la probabilité de perte de clients sera élevée pour 28,72 Même à 72 ans, nous avons presque 99 % de chances qu'un client de 72 ans en fasse 28 C'est presque zéro pour obtenir la probabilité, plus de probabilité pour les clients moins âgés. Plus l'âge sera élevé, plus il y aura de probité en matière de fidélisation des clients. C'est ainsi que nous pouvons utiliser la région logistique pour prédire si un client va se retirer ou J'espère que vous avez compris comment utiliser la fonction GLM pour Los pour les régions logistiques (voir dans la prochaine 132. Algorithme KNN: Bonjour et bon retour. Dans cette conférence, nous allons en apprendre davantage sur k voisins les plus proches. Nous l'appelons l' algorithme simple et efficace pour classification et la régulation à la fois. OK, To nous avons vu la région, puis nous avons vu l' étiquette de réglementation logistique pour la classification Nous allons maintenant voir le non qui peut être utilisé à la fois pour la classification et pour la région, deux problèmes. OK, commençons. Voisin le plus proche ou algorithme efficace simple pour les problèmes de classification et de région. Dans le monde de l' apprentissage automatique et de la science des données, les navas ou les algorithmes les plus proches constituent l'une des techniques les plus simples et remarquablement puissantes pour résoudre les problèmes de classification et de régression Lorsque vous rencontrez des problèmes de classification et de régression, nous pouvons utiliser les deux. Il s'agit d'un algorithme non paramétrique basé sur des instances qui repose sur la proximité pour faire des prédictions Tout est une question de proximité. Nous verrons comment cela fonctionne. Dans cette conférence, nous explorerons les principes fondamentaux de Canon, son fonctionnement, ses variantes et ses applications réelles. Comme son nom l'indique, il y a à la base un algorithme simple. Il fait des prédictions basées sur la classe majoritaire pour la classification. Et la moyenne de régression tient essentiellement compte de deux choses. Pour les problèmes de classification, les prédictions sont basées sur la classe majoritaire pour les problèmes de régression, c'est-à-dire comme base, accord, des k points de données les plus proches d'une requête donnée. Le k dans le k NN représente le nombre de voisins les plus proches pris en compte lors des prédictions. Dans ce voisin le plus proche, k représente le nombre de voisins les plus proches pris en compte lors des prédictions pour la classification, voici les étapes que nous suivons. Le premier est la représentation des données. Commencez par un ensemble de données étiqueté où chaque point de données possède une étiquette de classe, puis une métrique de distance. Choisissez une métrique de distance, par exemple, incluant la distance ou la distance du modèle humain pour mesurer la similitude entre les points de données de la prédiction. La prochaine est la prédiction. Pour classer un nouveau point de données, calculez la distance entre le point de données et tous les autres points du jeu de données. Sélectionnez les K voisins les plus proches en fonction du vote majoritaire à la plus petite distance. Déterminez la classe d'un nouveau point de données en votant majoritairement parmi les classes, ses plus proches voisins K Pour la représentation des données de régression. Encore une fois, commencez par le jeu de données d'étiquettes, mais cette fois, les étiquettes sont des valeurs continues, c' est-à-dire numériques, d'accord ? Les métriques de distance utilisent les mêmes métriques de distance en symétrique, comme nous l'avons vu dans la classification Il s'agit de la distance Ec ou de la distance de Manhattan, pour mesurer la similitude entre les points de données. OK, puis vient la prédiction. Pour prévoir une nouvelle valeur de point de données. Calculez la distance entre ce point et tous les autres points du jeu de données. Sélectionnez les K voisins les plus proches fonction de la plus petite distance, puis la valeur moyenne pour compléter la moyenne des étiquettes des K voisins les plus proches. Ainsi, tous les voisins les plus proches seront pris, puis cela signifiera qu'ils seront calculés. Cela signifie alors que cette valeur moyenne, quelle que soit la valeur moyenne obtenue, devient la prédiction pour le nouveau point de données. OK ? Variantes de, Il existe trois variantes de non. Le premier est un Canon pondéré, second est un indicateur de distance et le troisième est Fit Scaling. Dans le Canon pondéré attribuez des poids différents au voisin en fonction de la distance. Les voisins de distance et de fermeture peuvent avoir une plus grande influence sur la prévision. Ensuite, le second est celui des mesures de distance. Testez les différentes mesures de distance pour adapter l'algorithme afin de spécifier les types de données, les types de données ou les domaines. La mise à l'échelle des entités normalise ou normalise les entités pour garantir qu'aucune entité domine le calcul de distance applications réelles basées sur des objets non trouvés, des applications dans un large éventail de domaines, comme des systèmes de recommandation tels que Netflix ou Facebook, ou même les cartes Amazon et Flip. Tous ces sites Web de commerce électronique, les plateformes Ott dans le système de recommandation, produits recommandés, les films sont contenus fonction du comportement ou des préférences habituels Là aussi, nous pouvons utiliser l' image et la reconnaissance vocale. Ensuite, le diagnostic médical. anomalies, détection des anomalies dans le trafic du réseau de transactions financières ou dans les processus industriels Les problèmes de traitement du langage naturel ( NLP) peuvent également être résolus Ce canon classifie les documents texte, l' analyse des sentiments et la traduction linguistique Un autre exemple concret est celui de la surveillance environnementale, de prévision de la qualité de l'air, des prévisions météorologiques et de la surveillance de la pollution Tous ces problèmes, on peut utiliser le canon. OK, les défis. Bien que Canon soit un algorithme de style, il présente certaines limites. Cela peut être coûteux en termes de calcul, en particulier avec un grand ensemble de données, car cela nécessite de calculer distance de tous les points de données, Ce sera assez coûteux à calculer, n'est-ce pas ? Parce que pour chaque point de données, nous devons calculer le cours de la dimensionnalité. Comme l'encourage la fonction du nombre de dimensions, l'efficacité de la fonction « non » peut diminuer en raison du cours de dimensionnalité. Le choix de k, la sélection de la valeur appropriée pour K sont cruciaux et peuvent avoir un impact sur les performances du modèle. D'accord, la gestion de données déséquilibrées sur un ensemble de données déséquilibré peut être difficile avec données déséquilibré où une classe est nettement plus nombreuse que l'autre. OK ? Tous ces défis, car Canon ne constitue un ajout précieux à la boîte à outils d'apprentissage automatique en raison de sa simplicité et de sa polyvalence. Mais il comporte certaines limites que nous avons déjà comprises. Il est particulièrement utile lorsqu'il s'agit d'un ensemble de données de petite à moyenne taille. données de petite et moyenne taille peut être très Si vous avez un ensemble de données petit modérément moyen ou pas très grand, cela ne peut pas être vraiment utile pour les tâches de loisirs et de classification. En comprenant le principe qui sous-tend on et ses diverses données, les scientifiques et les praticiens de l'apprentissage automatique peuvent tirer parti de sa puissance pour établir des prédictions précises et classer les données manière efficace dans diverses applications. Tout cela n'est pas une question de théorie. Nous essaierons également de faire des exercices pratiques en utilisant notre programmation. Voir l'intérieur de la prochaine conférence. 133. Implémenter kNN: Et bon retour. Dans la conférence précédente, nous avons parlé de l'algorithme. Dans cette conférence, nous allons implémenter la non-utilisation notre algorithme de programmation K le plus proche voisin pour la classification. OK ? Les étapes, je vais vous dire quelles sont les étapes que vous allez suivre dans cet exemple. Tout d'abord, nous chargeons le package de classe qui fournit la fonction in pour la classification. Nous utilisons le célèbre ensemble de données irlandais que nous avons déjà utilisé dans le cadre de nos conférences de ce cours. Au début, vous devez connaître l'ensemble de données Iris qui est disponible en R et contient les mesures des fleurs d' iris ainsi que les étiquettes de leurs espèces. Nous avons divisé l'ensemble de données en ensembles d' entraînement et de test, 70 % des données étant utilisées pour l'entraînement de l'ensemble de données. Nous nous répartirons en ensembles de formation et de test, lesquels 70 % des données seront utilisées pour la formation et 30 % des données seront utilisées à des fins de test. Habituellement, dans le monde réel, nous prenons 80 % des données pour la formation et 20 % pour les tests, mais 70 à 30, c'est également acceptable. En fonction des exigences de votre projet ou de vos données, vous pouvez décider si vous souhaitez suivre 60 % pour la formation, 70 % pour la formation, pour 80 % de la formation. Afin que vous puissiez décider en fonction vos besoins et des besoins de l'entreprise. Nous définissons ici le nombre de voisins, c'est-à-dire k, qui détermine le nombre de voisins les plus proches à prendre en compte lors des prédictions. déterminer le nombre de voisins Uber Il est très important de déterminer le nombre de voisins Uber, tandis que le nonce détermine le nombre de voisins les plus proches à prendre en compte, car cela aura un impact sur les prévisions Hein ? Ensuite, nous effectuons la classification neuf à l'aide de la fonction neuf dans laquelle nous spécifions les données d'entraînement , les tests , les données, les niveaux de classe et la valeur de K. Pour cet exemple, nous allons prendre k cinq, le voisin le plus proche considéré étant le cinq. Ensuite, nous évaluons la précision du modèle en comparant les espèces prédites aux espèces réelles du kit de test. Nous créons ensuite une métrique de confusion pour mieux évaluer les performances du modèle. OK. Lorsque vous exécutez ce code, vous obtiendrez la précision du classificateur canin et de la matrice de confusion qui montrent dans quelle mesure le modèle a bien classé les différentes espèces de fleurs d' iris dans le kit de test Commençons maintenant ici. La première chose à faire est que si la classe n'est pas installée, elle s'installera, puis elle le sera. OK ? Exécutons ceci et récupérons le chargement des données. La fonction data data utilisera des données et nous transmettrons le nom du jeu de données, c'est-à-dire iris. Exécutons ça aussi. Ensuite, nous allons diviser l'ensemble de données en ensembles d' entraînement et de test La première chose que nous devons faire est de définir le set 123. D'accord, c'est une étape assez essentielle. Ensuite, nous créons une variable ou un objet, un échantillon d'indices de soulignement Ici, nous allons prendre l'échantillon pour inscrire Iris. Et la taille sera de 0,7. Cela signifie que 70 % de l'ensemble de données Iris pour les données des trains d' entraînement sera constitué par l'iris des indices d'échantillonnage. Ces indices seront placés dans l'iris et 70 % des données deviendront les données entraînement. Les données seront l'iris de moins les indices de l'échantillon. OK ? C'est pourquoi nous utilisons ici le signe moins. OK ? Il restera 30 %. Disons cela comme le nombre de voisins, c' est-à-dire k, ici, je définis comme égal à cinq. OK, exécutons-le également. Nous allons maintenant effectuer le classement par neuf. Ici, je vais créer une espèce de soulignement prédite par une variable ou un objet espèce de soulignement prédite Ici, je vais utiliser la fonction neuf ici. Entraîner consiste à entraîner les données de soulignement de un à quatre. Test pour tester les données de soulignement, une à quatre classes seront espèces de données de soulignement du train, d'accord ? Sur la base des espèces que nous allons classer. OK ? Alors égal à deux k, cela deviendra cinq OK ? Maintenant, exécutons-le. Nous allons maintenant évaluer la précision du modèle en utilisant une fonction. Les espèces prédites sont égales au dollar des espèces des données de test divisé par les données de test N up. D'accord, voyons voir, puis nous l' imprimerons avec précision en 200. OK, vous voyez maintenant que la précision de ce modèle est de 97,78. C'est plutôt bien Nous allons maintenant imprimer la matrice de confusion en utilisant une fonction de table réellement égale aux données de test des espèces P. Bien, créons la matrice de confusion ici, voir ici. Maintenant, la matrice de confusion que vous pouvez voir ici pour Setosa 14 a presque été classée correctement. Un seul a été mal classé. Dans le cas contraire, tout est classé correctement. C'est ainsi que nous pouvons implémenter le non. 134. Arbre de décision et forêts aléatoires: Bonjour et bon retour. Dans cette conférence, nous allons découvrir les arbres de décision et les forêts aléatoires. Ces deux-là sont les meilleurs amis, ils travaillent ensemble et ils sont tout simplement géniaux pour l'apprentissage automatique. Leurs applications sont utilisées et elles sont très utiles et pratiques si vous travaillez sur un apprentissage automatique, en particulier dans le cadre de l'apprentissage supervisé. D'accord, commençons à en apprendre davantage sur ces deux puissants outils d'apprentissage automatique. Nous allons d'abord comprendre ce que sont dysenterie et la forêt aléatoire dans le cycle de l'apprentissage automatique La dysenterie et la forêt aléatoire sont deux outils formidables qui ont révolutionné la prise de décision en matière de données Ces algorithmes sont largement utilisés pour la classification et la régression. Tâche nous avons compris qu'est-ce qu'une tâche, n'est-ce pas ? La classification signifie que nous devons classer en deux ou plusieurs segments, tels que la vraie ou la fausse réputation, la candidature, l'acceptation ou le rejet C'est une menace, du spam, non ? Tâche de régression. Nous le faisons pour le continu, pour les choses numériques, non ? Ces algorithmes sont largement utilisés pour les tâches de classification et de régression, ce qui les rend inutiles pour diverses applications Dans cet article, nous allons, dans cette conférence, explorer les principes de fonctionnement et les applications réelles de la forêt dissidente. Nous explorerons le concept qui sous-tend les degrés et la forêt aléatoire. Quels sont les principes de travail qui sous-tendent les arbres de décision et les forêts aléatoires ? Et quelles sont les applications réelles arbres de décision et des forêts aléatoires ? Commençons donc par les arbres de décision. L'arbre de décision est une structure semblable à un arbre comme vous pouvez le voir ici, d'accord ? Le nœud parent, puis le nœud enfant, puis le nœud enfant, d'accord ? Il va grandir comme ça, non ? Un arbre décisionnel est une structure semblable à un arbre qui est utilisée pour l'aide à la décision. OK. Voici un exemple simple. Si vous voulez acheter quelque chose, que vous ayez une confusion, vous voulez acheter, acheter, acheter. Maintenant, la décision se prend en deux choses : par e-mail ou non, spam, spam comme ça, d'accord ? Il décompose un processus de prise de décision complexe en une séquence de simulations. Chaque nœud de l'arbre représente une décision ou un avant-goût d'un attribut, chaque branche représente un résultat, chaque branche est un résultat. OK ? Voici les résultats, non ? Le test de décision sur l'attribut, chaque branche représente un résultat et chaque nœud feuille représente un niveau de classe ou une décision, d'accord ? Ce sont les nœuds. Ce sont les feuilles, d'accord ? Comment Desiree construit les bâtiments et les arbres en utilisant une approche récursive descendante appelée partitionnement récursif, comme vous pouvez le voir ici, est une approche de type haut en bas C'est une récursive qui continuerait à se répéter, non ? Les arbres de décision sont construits, sont construits selon une approche récursive descendante appelée partitionnement récursif. Nous partitionnons de manière récursive chaque nœud pour les nœuds. bon algorithme sélectionne le meilleur attribut à chaque étape pour diviser les données en sous-ensembles À chaque étape, l'algorithme de décision 3 sélectionnera le meilleur attribut à chaque étape. Pour diviser les données, il divisera les données en fonction de l'attribut en données aussi homogènes que possible par rapport à la variable cible. En gardant la variable cible à l'esprit, il divisera les données en un sous-ensemble Cela garantira également que le sous-ensemble est homogène, d'accord. Cela aidera à atteindre la variable cible. Sélection d'attributs. Divers critères tels que le gini, l'impureté, entropie et le gain d'informations sont utilisés pour déterminer le meilleur attribut pour le fractionnement L'objectif est de minimiser les impuretés ou de maximiser le gain d'informations Le troisième est l'élagage. L'arbre de décision peut devenir trop complexe et entraîner un surajustement L'élagage consiste à supprimer les branches qui ne contribuent pas de manière significative à améliorer la précision, ce qui permet d'obtenir une branche plus simple ou plus généralisable L'élagage est une chose simple : si vous continuez à faire pousser un arbre, il peut pousser dans n'importe quelle direction Mais si vous voulez garder un arbre dans un très bon coffre-fort, nous devons couper les branches supplémentaires de la même manière que dans les arbres de décision. De plus, si nous maintenons sa croissance, elle deviendra trop complexe et sujette à un ajustement excessif Ensuite, c'est là que vient l'élagage. L'élagage consiste à enlever les branches qui ne contribuent pas de manière significative Certaines branches peuvent ne pas être utiles. Plus tard, nous élaguerons ces branches, ce qui permettra de créer des applications modèles plus simples et plus généralisables du dissident dysenteur Dans de nombreux domaines, vous pouvez trouver les applications de différents scientifiques dans de nombreux domaines tels que la médecine, le diagnostic de la maladie en fonction des symptômes et des antécédents médicaux du patient dans la section financière, la notation des cartes de crédit, la détection des fraudes, l' investissement, un exemple de dissident le diagnostic de la maladie en fonction des symptômes et des antécédents médicaux du patient dans la section financière, la notation des cartes de crédit, la détection des fraudes, l' investissement, un exemple de Dans tous ces domaines, nous pouvons utiliser le marketing sur la dysenterie, la segmentation de la clientèle, le ciblage et la prédiction du taux de désabonnement peuvent être effectués fabrication, le contrôle qualité et l'optimisation des processus de production peuvent être effectués par le biais de séries, panneaux environnementaux, de classification des espèces et de surveillance de l'environnement à l'aide de la dysenterie Voici les applications de Decision Tree qui couvre désormais la forêt aléatoire. Random Forest est comme Gimble. Bien que les arbres de décision soient puissants, ils peuvent être sensibles aux modifications mineures des données. La forêt aléatoire répond à cette limite en combinant plusieurs arbres de décision pour créer un modèle d' ensemble robuste et précis. Vous voyez ici, il s'agit d'un arbre de décision, mais d'une combinaison forestière aléatoire de plusieurs arbres de décision. Hein ? Ce qu'il fait, l'arbre de décision, c' est quelque chose de très petit. Cela changera radicalement ses résultats, traitera les nœuds, etc. Tout va changer. Si vous apportez des modifications à l'ensemble de données, tout changera. Pour surmonter cette limite, Random Forest répond à cette limitation en combinant plusieurs arbres de décision afin de créer un modèle de fouillis robuste et précis Cela créera des arbres de décision similaires et constituera une forêt aléatoire robuste. Il y aura de nombreux arbres, et c'est pourquoi on l' appelle forêt aléatoire car de nombreux groupes d'arbres en feront une forêt, n'est-ce pas Comment fonctionne une forêt aléatoire ? Échantillonnage Bootstrap. Random Forest commence par créer plusieurs échantillons de bootstrap, des échantillons aléatoires à remplacer à partir des données d'entraînement Il commencera à créer les échantillons de bootstrap à partir de l'ensemble de données d'entraînement Sélection aléatoire de caractéristiques pour chaque arbre de la forêt. Un sous-ensemble aléatoire de caractéristiques est pris en compte à chaque nœud pour choisir le meilleur arbre création de plusieurs arbres de décision est construite indépendamment avec son propre échantillon bootstrap et une sélection aléatoire de fonctionnalités Ensuite, le vote et la moyenne. Pour les tâches de classification, les forêts aléatoires utilisent le vote majoritaire parmi les arbres pour la regrationaskyuseveragingeere Il utilise le vote pour la moyenne de régénération pour faire des Quels sont les avantages de la forêt aléatoire ? Cela réduira le suréquipement, c'est la limite de la sentinelle La forêt aléatoire est moins sujette au surajustement que les espèces isolées Généralisations améliorées et robustesse par rapport à l'importance des données Les forêts aléatoires fournissent des informations sur l'importance des fonctionnalités , ce qui facilite leur sélection Applications de la forêt aléatoire. Les forêts aléatoires sont largement utilisées dans de nombreux domaines tels que l'analyse d'images, la finance, l'écologie, le marketing et les soins de santé. En matière d'analyse, la reconnaissance d'objets, la classification d'images et l'extraction de fonctionnalités peuvent être effectuées dans le secteur de la finance. Encore une fois, il est possible de prévoir les cours des actions et détecter les fraudes au risque de crédit. L'écologie, nous aimons la modélisation de la distribution des espèces et les évaluations de la biodiversité peuvent être effectuées dans le cadre du marketing, du système de prévision et de recommandation des clients dans soins de santé, en prédisant les résultats pour les patients et en établissant un diagnostic G. OK, quelle est la conclusion ? Ces deux sentinelles dynamiques et la forêt aléatoire sont dynamiques dans le monde de l'apprentissage automatique Alors que Gentry fournit une interabilité aléatoire, une précision et une robustesse améliorées, algorithme de compréhension des arbres et leur application fournissent aux scientifiques des données et aux praticiens de l'apprentissage automatique de puissants outils pour résoudre des problèmes pour résoudre Alors que la prise de décision basée sur les données continue d'économiser de l'énergie dans le monde, la polyvalence et l'efficacité des arbres de décision et forêts aléatoires garantissent leur pertinence durable dans le domaine de l'apprentissage automatique. Ces deux sont des algorithmes d'apprentissage automatique décents et des forêts aléatoires très, très importants algorithmes d'apprentissage automatique décents et des forêts aléatoires J'espère que nous avons couvert la base de ces deux (voir conférence). 135. Algorithme de machines vectorielles de soutien: Bonjour et bon retour. Dans cette conférence, nous allons découvrir la machine à vecteurs de support. OK, laissez-moi bien, ignorez celui-ci. D'accord ? Nous allons en apprendre davantage sur l'algorithme de la machine à vecteurs de support. Supporte la machine vectorielle, ou SPM. C' est, nous l'appelons, l'un des algorithmes d'apprentissage supervisé les plus populaires , utilisé pour les problèmes de classification et de régression. Cependant, il est principalement utilisé pour les problèmes de classification dans l'apprentissage automatique, il peut être utilisé à la fois pour la régression et la classification, mais nous l'utilisons principalement pour la classification uniquement, d'accord ? Ainsi, la plupart du temps que vous utiliserez pour des problèmes de classification, SPM peut être utilisé pour la classification La plupart du temps, 99 % du temps, vous en utiliserez un ou 2 % sur 5 %. Il y aura des cas où vous pourrez l'utiliser davantage, où vous pourrez l'utiliser davantage. Des problèmes de régression aussi, mais c'est très rare dans le monde réel, d'accord ? L'objectif de l' algorithme SBM est de créer la meilleure limite de décision linéaire capable de séparer l'espace dimensionnel en classes afin que nous puissions facilement placer le nouveau point de données dans la bonne catégorie à l' Cette limite de meilleure décision est appelée hyper lane. C'est comme créer un hyperlien, créer une ligne. Supposons que vous tracez les points de données sur l'espace x et y u et que vous dessinez, nous l'avons vu dans la régression linéaire, n'est-ce pas ? Nous dessinions une ligne qui divisait les points de données de la même manière que SBM En outre, il essaiera de trouver une ligne qui peut diviser le jeu de données, c'est bien. C'est l'objectif du SPM. La limite de diction est appelée hyper ligne. Spm choisit les points de données extrêmes ou le vecteur qui aident à créer l'hyperligne. Les cas extrêmes sont appelés vecteurs de support. SBM. L'algorithme de la machine Support Vector choisit les points de données extrêmes ou le vecteur qui aident à créer l'hypo Ces cas extrêmes sont appelés vecteurs de support. Il va d'abord trouver les points extrêmes ou les vecteurs et ces vecteurs sont appelés vecteurs de support. Pour créer l'algorithme d' hyperligne terme « machine à vecteurs de support » OK, trouver les vecteurs de support, c'est pourquoi cet algorithme est connu sous le nom de machine à vecteurs de support. Considérez le diagramme ci-dessous dans lequel deux catégories différentes sont classées en fonction de la limite de descente ou du battage médiatique. Voir ici Nous avons maintenant le X un et X deux. Et ici, vous pouvez voir qu'il s'agit de la ligne de marge maximale. Cette ligne est la ligne de marge maximale et il s'agit du lien hypertexte positif à marge maximale Ce sont les vecteurs de soutien. Ce sont les vecteurs de soutien. Ces points que nous avons trouvés. Ce sont les vecteurs de soutien. D'accord ? De ce côté, c'est négatif. Hypolositiveypolineximumrgin sera l'hypervoie, la marge maximale, l'hyperlinéaire , voir ici. Maintenant, cette hypervoie divise ces deux points de réglage, n' est-ce pas ? Précis. Ces points sont appelés vecteurs de support. D'accord, nous trouvons d'abord le vecteur de support et avec les vecteurs de support, nous allons essayer de trouver le lien hypertexte Bm peut être compris avec l'exemple que nous avons utilisé dans le classificateur canin Supposons que nous voyions un chat étrange qui possède également certaines caractéristiques d'un chien. Supposons que nous ayons une photo d' un chat qui présente certaines caractéristiques kystiques du chien De plus, si nous voulons un modèle capable d'identifier avec précision s'il s'agit d'un chien chat, un tel modèle peut être créé à l'aide d'un algorithme. Nous allons d'abord entraîner notre modèle avec de nombreuses images de chats et chiens afin qu'il puisse en apprendre davantage sur différentes caractéristiques des chats et des chiens. Ensuite, nous le testons avec cette étrange créature, qui ressemble à la fois au chat et au chien, mais c'est en fait un chat. Comme le vecteur de soutien crée une frontière distincte entre ces deux données, chat et le chien choisissent les cas extrêmes, les vecteurs de soutien. Il étudiera le cas extrême du chat et du chien sur la base de vecteurs de soutien. Il le classera comme un chat. Examinez le schéma ci-dessous. Consultez ces anciennes données d'étiquette. Ce sont des données rapides comme ceci est un chien et ceci est un chat. Ici, nous créons un modèle et lui apprenons que cette créature est un chien et que cette créature est un chat. Il lit toutes les caractéristiques de ces deux images et notre modèle suit actuellement une formation. Notre modèle de prédiction prédira qu'il s'agit d'un chat. Comment ça va se passer. Supposons que nous donnions une image très similaire à celle du chat et du chien. Il possède certaines caractéristiques du chien. De plus, ce qu'il fera, c'est de voir les traits extrêmes d'un chat. Il classera les caractéristiques d'un chat. Il le classera, il trouvera l'hyper voie fonction des caractéristiques, des caractéristiques extrêmes C'est lui qui décidera s' il s'agit d'un chat ou d'un chien. À l'extrême, cela correspondra au chat. Il classera cela comme s' il ne correspondait pas aux caractéristiques extrêmes du chat Ensuite, il le classera comme un chien avec le PM, même avec cet étrange chat, qui ressemble beaucoup au chien B. À l' aide des vecteurs de soutien et de l' hypertexte précis indiquant que c'est un chat et non un Par exemple, les machines à vecteurs de support, comme les applications de machine à vecteurs de support, SBM peuvent être utilisées pour la classification d'images Comme nous venons de le voir, SBM ont été utilisés pour la classification des images Des tâches telles que la reconnaissance de l'écriture manuscrite et la détection d'objets, telles que l'analyse des sentiments, détection du spam et la catégorisation des documents bio, la poétique et les PM sont utilisées pour la reconnaissance des plis protéiques, la classification des gènes et le diagnostic G. Dans le secteur financier, les PM sont utilisés pour le codage du crédit, prévisions boursières et pour détection dans le segment des soins de santé Ils ont été utilisés dans le diagnostic et le pronostic de la DG sur la base des données médicales, le traitement du langage naturel et le LP SPM jouent un rôle dans reconnaissance des entités nommées et la catégorisation des textes Voyons quels sont les types de SPM. Le Spm peut être de deux types. La première est la régression linéaire. Le SPM non linéaire peut être classé en deux types, le SPM linéaire, j'ai dit régression, c'est le SBM, le SPM linéaire et le SPM non linéaire. Le SBM linéaire est utilisé pour les données séparables linéairement. qui signifie que si un ensemble de données peut être classé en deux classes utilisant une seule ligne droite, alors une telle donnée est un terme classificateur de données séparable linéairement classificateur de données utilisé ici est appelé classificateur ici est appelé Si les données concernent un combat de classe linéaire, nous sommes en mesure de les classer selon une hypervoie séparable linéairement, une ligne droite, puis on parle de données hypervoie séparable linéairement, une ligne droite, séparables de manière linéaire. Et le classificateur utilisé ici sera appelé linéaire SBM SVM linéaire non linéaire est utilisée pour les données séparées de manière non linéaire, ce qui signifie que si le jeu de données ne peut pas être classé à l'aide d'une ligne droite, ces données sont qualifiées de données non Le classificateur utilisé dans ce cas est connu sous le nom de SPM non linéaire. Nous verrons en quoi les deux diffèrent. OK, Hyper Lane et vecteurs de support. Dans l'algorithme SPM, nous savons ce qu'est hyperligne que nous dessinons en hyper Il peut y avoir plusieurs lignes ou limites de décision pour séparer les classes dans un espace à n dimensions, mais nous devons trouver la meilleure limite de décision qui aide à classer le point de données Cette meilleure limite est connue sous le nom d'hypervoie du SPM. Les dimensions de l'hyperplan dépendent des entités présentes dans le jeu de données Ce qui signifie que s'il y a deux entités comme indiqué sur l'image, l' hyperligne sera une ligne droite S'il existe trois entités, l'hyperligne sera le plan bidimensionnel D'accord ? Nous créons toujours une hyperligne avec une marge maximale, c' est-à-dire une distance maximale entre les points de données D'accord ? D'accord. Vecteur de support. Les points de données sont des données vectorielles, les plus proches de l'hyperligne, qui affectent la position de l'hyperligne, qui sont très proches de l'hyperligne, affecteront très efficacement la position hyaline de l' Ces points de données sont des vecteurs appelés vecteurs de support, car ces vecteurs supportent le vecteur hyperleuport OK, comment fonctionne SPM ? Nous allons d'abord voir le SVM linéaire. Le fonctionnement de l'algorithme SPM peut être compris à l'aide d'un exemple Supposons que nous ayons un ensemble de données comportant deux points, le vert et le bleu Ici, nous avons pris ces deux couleurs marron et brun plus clair. D'accord ? L'ensemble de données comporte deux caractéristiques, X un et t. Vous voulez classer la paire x le maïs en vert ou en bleu ? Supposons que ce soit vert et bleu, d'accord ? Les couleurs, j'ai écrit un peu mal ici, gris et gris plus clair, d'accord ? OK, supposons que c'est bleu et vert, d'accord ? Maintenant, dans un espace à deux D, en utilisant simplement une ligne droite, nous pouvons facilement séparer ces deux classes, n'est-ce pas ? Nous pouvons tracer une ligne ici. Nous pouvons tracer une ligne comme celle-ci. Et ce deux vert et bleu, on peut les séparer, mais il peut y avoir plusieurs lignes qui peuvent séparer chaque classe. Pense à eux. On peut dessiner cette image, rouge, c'est aussi les deux. Je peux tracer une ligne comme celle-ci. Je peux également tracer une autre ligne ici qui peut classer cela. Je peux également tracer une autre ligne ici qui classe, il peut y avoir plusieurs lignes qui peuvent séparer ces classes. Par conséquent, l'algorithme Pm aide à trouver la meilleure ligne, ou est-ce que cette meilleure limite est appelée hyperligne ici Maintenant, nous pouvons avoir plusieurs lignes, comme si le but était de trouver la meilleure ligne à créer. D'accord ? Cette région est appelée vecteurs de support hyperled Ce sont les points bleus et verts qui sont les vecteurs de support. D'accord ? La distance entre les vecteurs et la marge hyperlinéaire, voir ici le support, cette distance est appelée D'accord ? C'est ce que l'on appelle la distance entre le vecteur de support et l' hypo lane, c'est ce qu'on appelle la marge Pour maximiser cette marge, hypolimrginlledptimhyplaneeowf, essayez de mettre une ligne ici, hypolimrginlledptimhyplaneeowf, essayez de mettre une ligne ici, la marge sera moindre. Si vous mettez une ligne ici, la marge sera moindre ici. Si nous considérons cette ligne, la marge d' ici et d'ici, elle sera maximale. À chaque point, la marge entre les vecteurs de support et le plan sera maximale. Il s'agit de la méthode optimale pour trouver l' hyperligne, à droite, la distance entre ces points entre les vecteurs et la marge de l'hyperligne Et l'objectif de SPM est de maximiser cette marge. L'hyperligne avec marge maximale est appelée hyperligne optimale C'est l' hypolène optimal que nous trouvons. Maintenant, vient le SPM non linéaire. Si les données sont organisées de manière linéaire, nous pouvons les séparer en utilisant une ligne droite Pour les données non linéaires, nous ne pouvons pas tracer une seule ligne droite. Considérez la même chose, les points bleus sont également là. Ici aussi, et plus écologique ici. Maintenant, nous ne pouvons pas tracer une ligne droite qui classe les points bleus et verts dans une région distincte, n'est-ce pas ? Certains points seront attribués à chacune des régions. La classification en ligne droite n' est pas possible ici, n'est-ce pas ? Dans ce cas, pour séparer ces points de données, nous devons ajouter une dimension supplémentaire. Pour les données linéaires, nous avons utilisé deux dimensions, x et y. Pour les données non linéaires, nous ajouterons une troisième dimension, calculée en utilisant cette formule, égale à x au carré plus q. Nous ajouterons une autre dimension ici, car dans les deux dimensions, n'est pas possible de classer, de séparer, tracer une ligne avec des points verts et bleus séparés, nous allons ajoutez une autre dimension qui sera la dimension du jet. Et ces points de jet seront pris en compte par cette formule. Jet call vers x carré plus y carré. D'accord ? Ainsi, pour chaque x et y, il y aura un point de jet, qui sera calculé par x au carré plus y au carré. D'accord ? En ajoutant la troisième dimension, l'espace d'échantillonnage ressemblera à cette image ici. Maintenant, x y et le bleu de jais ici et le vert sont maintenant. Nous pouvons voir ici, nous pouvons voir qu'il y a deux régions en ce moment. Sbm divisera l'ensemble de données en classes. Dans le set in classes de la manière suivante. Ce sera la meilleure hypervoie que nous puissions tracer, et elle séparera les points de données, bip lane de ce côté de l'hyper lane, puisque nous sommes dans l'espace, cela ressemble donc à un plan parallèle à l'axe X, n' un plan parallèle à l'axe X Si nous le convertissons en espace avec Gal égal à un, alors cela deviendra comme ça. D'accord ? Si nous considérons que celui-ci est dans l'espace, si nous l'appelons, alors il deviendra comme ça, d'accord ? Ainsi, nous obtenons une circonférence de rayon un. Dans le cas de données non linéaires, nous pouvons ainsi trouver la meilleure hypervoie dans un objet circulaire, n'est-ce pas ? Circonférence d'une circonférence de rayon un. Voyez à l'intérieur du cercle vert et à l'extérieur du circuit en bleu de cette façon, cette hyperligne circulaire que nous pouvons obtenir pour ces données OK, j'espère que nous avons compris comment fonctionne SPM. Découvrez l'intérieur de la prochaine conférence. 136. Comprendre l'analyse de régression: Bonjour, et bon retour. Je suis donc Son, et je suis de retour avec la nouvelle mise à jour de ce cours. Dans cette série de conférences que je vais mettre en ligne maintenant, nous aborderons l' analyse de régression en détail. Donc, tout d'abord, nous allons commencer par les bases Ces séries de conférences seront publiées dans les semaines à venir, et vous verrez peut-être mises à jour très régulièrement dans ce cours sur le partage des compétences. Commençons donc. La première chose à faire est donc un aperçu de l'analyse de régression. Alors, qu'est-ce que l'analyse de régression ? L'analyse de régression est une technique statique utilisée pour comprendre la relation entre une variable dépendante et une ou plusieurs variables indépendantes Il s'agit donc simplement d'une analyse de la relation entre la variable dépendante et une ou plusieurs variables indépendantes. Vous pouvez donc comprendre que le fait d' avoir une crise cardiaque chez un patient dépend de plusieurs variables. Ici, crise cardiaque est une variable dépendante. Cela dépend une ou de plusieurs variables indépendantes telles que votre âge, votre style de vie, vos habitudes alimentaires et tout autre facteur, comme le fait que vous êtes diabétique ou que vous avez des problèmes génétiques, des antécédents de crise cardiaque dans votre famille. Il existe plusieurs variables indépendantes qui vont affecter les risques de crise cardiaque chez un patient. Ici, la crise cardiaque ou le fait d' avoir une crise cardiaque sont des variables dépendantes et tous les autres symptômes de santé votre mode de vie ou les maladies existantes sont des variables indépendantes L'analyse de régression est donc une technique statistique utilisée pour comprendre la relation entre ces variables, dépendantes et indépendantes. J'espère avoir été très clair. Maintenant, vous savez comment nous procédons. Il est donc largement utilisé dans divers domaines tels que l'économie, la finance, les sciences sociales et les soins de santé. Donc, les soins de santé, par exemple, je vous les ai déjà, euh, donnés. En économie, comme en finance, vous pouvez également voir si vous investissez dans certaines actions et dans toutes les autres. Vos profits et pertes seront donc les variables dépendantes, Vos profits et pertes seront donc les variables dépendantes les sentiments du marché et tout le reste, quoi les actualités et tout ce qui affecte les cours des actions seront une ou plusieurs variables indépendantes. Soins de santé pour modéliser et prévoir les résultats en fonction de la variable d'entrée. Nous y aborderons les bases de l'analyse de régression ainsi que les types, les sauts et les applications Nous allons maintenant comprendre d'une manière mathématique. Qu'est-ce que l'analyse de régression ? Ainsi, l' analyse de régression vise essentiellement à estimer la relation entre les variables dépendantes, souvent désignées y, et une ou plusieurs variables indépendantes, notées x un, x deux, etc. OK. La relation est généralement représentée par une équation de la forme. Il s'agit d'une équation linéaire, où y est égal à Bêta zéro plus Bêta un dans x un plus Bêta deux dans x t plus Bêta trois, et ainsi de suite jusqu'à Bêta n dans x plus epsilon OK. Bêta zéro est un intercepteur, où x un, x et y vont intercepter et Bêta un, Bêta deux et B sont les coefficients représentant les efforts des variables indépendantes, comment les variables indépendantes vont affecter Il s'agit d'un terme d'erreur qui représente la différence entre l'objet et les valeurs prédites. Donc, ce que nous observons et ce que nous prédisons. Quelle est la valeur prévue et quelle est la valeur de l'objet ? La différence sera que nous appelons le terme d'erreur. Le terme d'erreur est ce que nous avons prédit et le résultat exact obtenu. Supposons donc que nous prédisions un bénéfice de six à 50, mais que nous observions que nous avons obtenu un bénéfice de Donc six 50 -501 50 sera le terme d'erreur, en termes simples si je l'explique D'accord ? Donc, type d'analyse de régression, régression linéaire simple dont nous savons tous qu' elle implique une seule variable indépendante et une relation linéaire avec la variable dépendante. Donc, si vous regardez, ce sera très simple, tracez graphique x, y, et il y aura une ligne qui le traversera, n'est-ce pas ? Puis vient la régression linéaire multiple qui traite plusieurs variables indépendantes et d'une relation linéaire avec la variable dépendante. Ensuite, la régression polynomiale ajuste une courbe aux données en introduisant les termes polynomiaux de la variable indépendante Enfin, la régression logistique est très utilisée pour les problèmes de classification binaire où la variable dépendante est catégorique Nous verrons comment nous pouvons réaliser tout cela, comment nous pouvons comprendre et comment nous pouvons utiliser pour décoder tous les multiples nominaux logistiques et les régressions simples Maintenant, admets l'analyse de régression. Pour que l'analyse de régression fournisse un résultat précis, certains sauts doivent être effectués Le premier est la linéarité. Linéarité. La relation simple entre les variables dépendantes et indépendantes doit être linéaire. La première exception est donc que la relation entre les variables dépendantes et indépendantes doit être linéaire. Ensuite, le second A est l'indépendance. Les observations doivent être indépendantes les unes des autres. La suivante est l'homo sdsticité, la variance du terme d'erreur doit être constante tous les niveaux des variables indépendantes Puis vient la normalité. Le terme d'erreur doit suivre une distribution normale. Le terme d'erreur que nous avons vu ici E doit donc suivre la distribution normale. Puis vient la multicolinéarité. Les variables indépendantes ne doivent pas être fortement corrélées entre elles Donc, lors de la prochaine conférence, je vais expliquer brièvement ce que sont la normalité , la multicolinéarité et l' homocd afin que vous puissiez mieux Pour l'instant, il ne vous reste plus qu' à suivre le cours. absence de colinéarité multiple signifie donc les variables indépendantes ne seraient pas étroitement liées les unes aux autres. Applications de l'analyse de régression. Donc, comme je l'ai dit, l'économie pour calculer les coûts de la demande et analyser l'élasticité des prix. Ensuite, dans le domaine de la finance, nous pouvons l'utiliser pour prévoir les cours des actions et évaluer les facteurs de risque En sciences sociales, nous pouvons l'utiliser pour étudier l'impact des interventions, analyser les données de l'enquête. Les données d'enquête sur la protection sociale, le gouvernement gère tout ce que nous pouvons faire avec l'analyse de régression Ensuite, dans le domaine des soins de santé, nous pouvons prédire les résultats pour les patients en évaluant le facteur de risque une dG en particulier, comme nous en avons parlé pour le cœur. Les fouilles, quelles que soient les recherches que vous pouvez prévoir en fonction des données. Voici donc la conclusion de cette conférence analyse de régression est une technique statistique puissante pour modéliser les relations entre les variables et faire des prédictions. En comprenant ses principes fondamentaux, sauts et ses types, les analystes tels que les analystes commerciaux et les scientifiques des données, ainsi que les ressources, peuvent utiliser efficacement l' analyse de régression pour obtenir des informations à partir des données et prendre des décisions éclairées , dans divers domaines Ainsi, une fois que vous avez compris le concept d'analyse de régression, vous pouvez l'utiliser dans n'importe quel domaine afin d'obtenir des informations à partir des données et de prendre des décisions éclairées. C'est donc un outil très puissant que nous allons apprendre. de la prochaine conférence, nous en apprendrons davantage sur l'analyse de régression. Donc S lors de la prochaine conférence. 137. Comprendre le modèle de régression linéaire: Bonjour, et bon retour. Dans cette conférence, nous allons donc en apprendre davantage sur le modèle de régression linéaire. La régression linéaire est donc l'une des techniques fondamentales utilisées dans les statistiques et l'apprentissage automatique. Ceci est utilisé pour modéliser la relation entre la variable dépendante et une ou plusieurs variables indépendantes. Nous l'avons appris dans le cours précédent en comprenant l'analyse de régression. La régression linéaire est donc l'un des modèles d' analyse de régression. Dans ce document, nous allons approfondir les mécanismes de la régression linéaire Il s'agit de l'exemption, de la manière d'interpréter les paramètres du modèle et des considérations pratiques. Commençons. Comprendre la régression linéaire. La régression linéaire vise à ajuster une relation linéaire entre la variable indépendante x et la variable dépendante y. La relation est généralement représentée par l'équation, y est égal à bêta zéro plus un dans x plus e, où y est une variable dépendante, x une variable indépendante Bêta zéro est l'intervalle, c'est la valeur de y lorsque x est Et la bêta 1 est le coefficient de pente, où la variation de y pour une unité change de x, est alors l'eratom que nous connaissons déjà représente l' écart entre la valeur objective et les valeurs prédites . Maintenant c'est clair. Si je peux dessiner, OK. Il n'y a aucun outil de dessin ici. Laissez-moi vérifier si je peux dessiner ici. OK. Laisse-moi ouvrir une épingle ici. Donc, si je peux vous dire, c'est l'axe X, et ce sera l'axe Y. C'est-à-dire qu'il s'agit de y, et la régression linéaire consiste trouver une droite de régression comme celle-ci, où x est égal à y égal à. Cette ligne sera y égale à « Let me ». Nous allons le mettre B zéro plus B un, x plus. Vous pouvez donc comprendre comme ceci, y est égal à Beta zéro plus p1x plus Ici, là où nous allons comprendre ici, Bêta zéro est le terme d' interception où y, la valeur de y lorsque x est égal à zéro Donc, lorsque vous allez ici, x vaut zéro, et lorsque vous interceptez depuis ici comme ça Ici x est zéro et y, d'ici à ici, le site B zéro ou B t zéro. Tout ce que tu peux. Ce sera le b zéro, et le bêta sera le changement de y pour une unité de variation de la pente x. Donc, si vous voyez ici, fur et à mesure que vous vous déplacez d'ici à ici, puis à partir d'ici, la pente sera la pente B. Est-ce que l'erreur est tom, sera le terme d'erreur. Supposons par exemple que nous prédisions une certaine valeur ici, et que nous nous opposions à quelque chose ici, donc la différence sera la valeur. Il s'agit de la droite de régression. Alors laissez-moi vous dire que cette droite est la droite de régression. Cette ligne est la ligne de régression. OK. C'est l'équation en ligne droite, y est égal à x plus c, vous pouvez également le comprendre. J'espère que c'est clair. Pour obtenir un tal fiable, plusieurs aumpton régression de Redia doivent être maintenus pour la plusieurs aumpton Le premier est la linéarité, l' indépendance, le sadisme, la normalité, le non parfait, mais la colinéarité. Linéarité, nous avons déjà compris où entre x et y doit être linéaire comme ça Car lorsque nous traçons x et y, nous devrions obtenir une ligne droite. C'est donc de la linéarité. Indépendance, les observations doivent être indépendantes les unes des autres et l'homo sadicité est la variance du terme d' erreur qui doit être constante à tous les niveaux de normalité x. Les termes d'erreur doivent suivre une distribution normale, et en l'absence de multilinéarité parfaite, les variables indépendantes ne doivent pas être parfaitement corrélées entre elles, d' accord. Ensuite, interprétez les paramètres du modèle Ici, l'interception bêta zéro, bêta zéro, représente y lorsque x est égal à zéro, sens que s' il se situe dans la plage des données pente bêta un, la pente que nous avons observée ici, bêta un, indique le changement de y pour une unité de variation de x. Donc, si nous pouvons voir ce x, alors ce sera le. Laisse-moi changer de couleur. Pour ce x, pour ce x, ce sera le y. est ce que cela signifie, ou changement de y, ou changement de y, pour un changement d'unité de x, une pente positive suggère que la pente négative positive indique le relanceefficient négatif de la détermination r au carré mesuré pour la proportion d' une variance de la variable dépendante qui est prévisible à partir de la variable indépendante . valeur R au carré plus élevée indique un meilleur ajustement pour le modèle Considérations pratiques L'évaluation du modèle permet d'accéder à la qualité et à la qualité de l'ajustement à l'aide de matrices telles que la moyenne quadratique MSC, moyenne quadratique RMS et la valeur carrée R. Les valeurs aberrantes et influentes indiquent, identifient et traitent les valeurs aberrantes susceptibles influencer de manière disproportionnée Vérifiez la colinarité entre plusieurs variables indépendantes et envisagez de déterminer variables indépendantes et si c'est Pregent. Validation croisée : validez les performances du modèle à l'aide techniques telles que la validation croisée en K pour garantir une lisibilité générale OK. En conclusion, le modèle de régression linéaire fournit un cadre simple et puissant pour comprendre et modéliser la relation entre les variables en respectant ses hypothèses, en interprétant efficacement les paramètres du modèle et en tenant compte de considérations pratiques Les analystes et les ressources peuvent tirer parti de la régression linéaire pour obtenir des informations à partir des données et des décisions éclairées dans divers domaines. Voici donc ce que nous devons savoir à propos de la régression linéaire. Nous nous occuperons également de l'aspect pratique avec le cœur de notre programmation, mais ce serait la dernière option. Pour l'instant, nous allons comprendre les bases de divers modèles d' analyse régression tels que la régression linéaire, puis nous verrons également la régression multiple. Voir à l'intérieur de la prochaine conférence. 138. Comprendre la cédasticité: Bonjour, et bon retour. Dans cette conférence, nous allons donc en apprendre davantage sur mo Cdesticdy Ainsi, l'homo statistique, également connue sous le nom d'homo génité de la variance, est un saut de régression linéaire qui fait référence à la condition dans laquelle la variance de l'erreur ou des résidus est constante connue sous le nom d'homo génité de la variance, est un saut de régression linéaire qui fait référence à la condition dans laquelle la variance de l'erreur ou des résidus est constante à tous les niveaux des variables indépendantes. En termes plus simples, cela signifie que la répartition des valeurs résiduelles doit rester la même quelle que soit la valeur des variables indépendantes Alors, qu'est-ce que l'homosticie ? C'est l'homogénéité de la variance, et c'est un Ajmson que nous prenons en régression linéaire, fait référence à la condition selon laquelle les erreurs, les valeurs résiduelles que nous déterminons resteront constantes à tous les niveaux resteront constantes ? C'est l'homogénéité de la variance, et c'est un Ajmson que nous prenons en régression linéaire, qui fait référence à la condition selon laquelle les erreurs, les valeurs résiduelles que nous déterminons resteront constantes à tous les niveaux des variables indépendantes. Ainsi, quelle que soit la valeur que vous choisissez pour les variables indépendantes, la variance des erreurs ou des valeurs résiduelles sera constante J'espère que tu l' as appris, non ? Quelle est donc l'importance de l'homodatité ? L'homosadicité est un saut important dans la régression linéaire, car le non-respect de cet argument peut entraîner une estimation biaisée des paramètres est un saut important dans la régression linéaire, car le non-respect de cet argument peut entraîner une estimation biaisée des paramètres. Donc, si nous ignorons simplement cet homocdat, que se passera-t-il ? Nous obtiendrons l'estimation, mais ce sera le biais des sous-paramètres, et cela vous mènera au erreurs types incorrectes test des erreurs types incorrectes et des hypothèses trompeuses. Lorsque Hétérode, le projet de l'homo sadicity, est présent, le modèle peut accorder trop d'importance à certaines observations avec des résidus importants mais ce sera le biais des sous-paramètres, et cela vous mènera au test des erreurs types incorrectes et des hypothèses trompeuses. Lorsque Hétérode, le projet de l'homo sadicity, est présent, le modèle peut accorder trop d'importance à certaines observations avec des résidus importants et entraîner une insuffisance et estimations peu fiables Alors, si nous ignorons cette homodatité, nous évoluerons vers l'hétérodativité, qui s'oppose à l'homodatie que cette hérosétie présentera dans notre modèle , qu'en aurons-nous ? cette homodatité, nous évoluerons vers l'hétérodativité, qui s'oppose à l'homodatie que cette hérosétie présentera dans notre modèle, qu'en aurons-nous ? Ce que nous allons faire, c'est mettre davantage l'accent sur l'observation des valeurs résiduelles importantes, ce qui aura pour effet de rendre les estimations efficaces peu fiables Des estimations, ce qui rendra notre modèle très incohérent et peu utile. Donc, pour identifier l'homo sédaticité, il y a deux choses premier est un complot résiduel et le second est un test païen Nous allons donc comprendre ce qu'est un diagramme résiduel. Une méthode courante pour diagnostiquer l' homosadsticité consiste à tracer les valeurs résiduelles par rapport à la valeur prédite Ainsi, quelle que soit la valeur prédite que nous obtiendrons , nous traçons les valeurs résiduelles par rapport aux valeurs prédites ou aux variables indépendantes dans un diagramme des valeurs résiduelles Si l'écart des valeurs résiduelles semble grossièrement restreint sur toute la plage, les valeurs prédites ou les variables indépendantes, l'homocdstcity aux variables indépendantes dans un diagramme des valeurs résiduelles. Si l'écart des valeurs résiduelles semble grossièrement restreint sur toute la plage, les valeurs prédites ou les variables indépendantes, l'homocdstcity est probablement prégnante. Toutefois, si la dispersion des résiduelles s'élargit ou se rétrécit sous forme de valeurs prédites, le changement d' le changement d' La deuxième technique consiste à renforcer le goût païen. Il s'agit du goût statistique utilisé pour définir formellement le goût pour l'homosexualité dans les analyses de régression L'hypothèse nulle du test païen de Brace est que variance des valeurs résiduelles Alors que l' hypothèse alternative est que la variance des valeurs résiduelles n' est pas une hétérodensité constante Un résultat significatif indique une preuve d'hérosédité. OK. Que va-t-il se passer ? Quelles seront les conséquences de la violation de l'homosexualité ? Il y aura une estimation biaisée. Les estimations des coefficients peuvent être biaisées si l'écart des valeurs résiduelles varie systématiquement avec les valeurs des variables indépendantes Erreurs types incorrectes : il se peut que les erreurs types soient sous-estimées ou surestimées , ce qui entraîne intervalle de confiance et un test d'hypothèse incorrects. Dans le cas d'estimations efficaces, l'efficacité des estimations des paramètres peut être compromise réduit la capacité de l'analyse de régression à détecter une véritable relation entre les variables. Pour remédier à l'homo sadasticité, si l'homo sdstcity est violée, si l'homo sdstcity est violée, plusieurs approches peuvent être envisagées. La transformation des variables, la transformation des variables dépendantes ou indépendantes peuvent aider à stabiliser la variance des valeurs résiduelles, pondérées au carré de liste Utilisation d'une régression pondérée au carré de litch où les observations sont pondérées en fonction de leur variance et peuvent tenir compte de la sédativité des héros erreurs types robustes et techniques d'erreurs standard peuvent être utilisées pour ajuster les erreurs types pour les sédatifs héroïques sans en présumer le détail. Forme de la structure de variance. L'homosadicité est donc exemption cruciale dans la régression linéaire qui garantit la validité et la fiabilité du modèle d'estimation La détection et le traitement des violations de l'homosexualité sont essentiels pour produire des résultats de régression précis et fiables Voilà donc ce qu'est l'homodacité et l'importance de comprendre comment l'identifier, il y a deux manières, puis nous avons vu les conséquences de la violation de l'homo Ensuite, nous avons vu comment aborder l'homo sadasticité Il existe trois méthodes de transformation des variables carrés de hangar pondérés et des erreurs types robustes. D'accord ? Dans la prochaine conférence, nous verrons ce qu'est la normalité. Elle participe donc à la prochaine conférence. 139. Comprendre la normalité: Bonjour, et bon retour. Dans cette conférence, nous allons donc comprendre ce qu'est la normalité. normalité est un effet de la régression linéaire qui fait référence à la condition dans laquelle les valeurs résiduelles ou les erreurs du modèle de régression sont distribuées Ainsi, lorsque les erreurs ou les valeurs résiduelles sont distribuées normalement, on parle En d'autres termes, cela implique que la distribution des résidus suit une courbe en cloche ou une courbe en forme de cloche centrée autour La plupart des valeurs résiduelles étant regroupées près de la moyenne et moins de valeurs résiduelles Qu'est-ce que cela signifie réellement ? Cela signifie que lorsque les erreurs de notre modèle ou les valeurs résiduelles de notre modèle de régression sont distribuées normalement. Qu'est-ce que cela signifie ? Normalement distribué signifie que la distribution des résidus suit la courbe en cloche où le It est centré Il est centré. Toutes les flèches sont centrées autour du zéro, la plupart des valeurs résiduelles étant regroupées près de la Donc, dans la plupart des cas, si vous regardez la cloche, à quoi ressemble-t-elle ? Cela ressemble à ça, non ? OK. Laisse-moi utiliser un stylo. Si vous regardez une cloche, ce sera comme ça, non ? Il sera donc centré autour de ce zéro, supposons. Et la plupart des valeurs se rapprochent de cette valeur moyenne, de cette valeur moyenne. OK, donc c'est ce que cela signifie. Cela devrait être comme des cloches où se trouvent la plupart des valeurs. À travers la moyenne des valeurs. courbe bien formée était centrée sur le bras zéro, la plupart des végétaux étant regroupés près de la moyenne et moins de résidus Maintenant, l'importance de la normalité. normalité est une régression par sauts importante, car nombreuses méthodes statistiques de goût et d'estimation utilisées dans les analyses de régression reposent sur l'saut de normalité. Lorsque les valeurs résiduelles sont distribuées normalement, cela indique que les erreurs sont aléatoires et indépendantes et que le centre de régression est estimé efficacement cela indique que les erreurs sont aléatoires et indépendantes et que le centre de régression est estimé efficacement . Comment identifier la normalité à l'aide du diagramme des valeurs résiduelles ? L'une des méthodes courantes pour évaluer l'exemption de normalité consiste examiner un histogramme ou un graphique Q Q, un diagramme quantile quantile Dans un diagramme Q Q, si les points se situent approximativement le long de la diagonale, cela suggère que les valeurs résiduelles sont distribuées normalement Sinon, un histogramme du résidu ressemblerait à une carte b step comme celle-ci OK. La méthode suivante est le goût sapiro k. Il s'agit du goût statistique utilisé pour tester formellement la normalité des valeurs résiduelles L'hypothèse nulle du goût du lait sapiro est le test selon lequel les résidus sont Un résultat significatif indique preuves contre la normalité. OK. Les conséquences d'une violation de la normalité lors de l'analyse de régression sont les mêmes que celles que nous avons observées en termes d'homogénéité, estimation biaisée Qu'est-ce que l'estimation biaisée ? estimations de Copicient peuvent être biaisées si les valeurs résiduelles ne sont inférence incorrecte signifie que l'intervalle de confiance et le test d'hypothèse basés sur les distributions t peuvent être invalides si les valeurs résiduelles ne sont pas distribuées normalement prévisions inexactes se produiront si nous violons la normalité, intervalles de prévision peuvent ne pas être fiables si l'exemption de normalité Alors, comment aborder la normalité si la normalité est violée, plusieurs approches peuvent être envisagées pour y remédier Le premier est la transformation des données qui transforme les données. La transformation des variables dépendantes et indépendantes peut contribuer à une distribution plus normale des valeurs résiduelles Les transformations courantes incluent la racine logarithmique ou carrée ou la transformation contribuer à une distribution plus normale des valeurs résiduelles. Les transformations courantes incluent la racine logarithmique ou carrée ou la transformation de boxcox. Une régression robuste, des techniques de régression robustes telles que les erreurs types robustes ou l'estimation peuvent être utilisées pour estimer le coefficient de régression dans les prégènes des erreurs non normales Et puis le troisième est le boostraping. Boost Strapping est une technique de rééchantillonnage qui peut fournir inférence robuste dans analyse de régression sans porter atteinte à la normalité . Nous pouvons donc conclure que la normalité est une exemption de régression linéaire qui garantit que la validité, l'efficacité et la fiabilité du modèle de régression sont estimées correctement sans inférence Bien que les violations de la normalité ne soient pas toujours à l'origine de problèmes importants, il est essentiel évaluer et de corriger les écarts par rapport la normalité afin de produire un résultat de régression précis et fiable OK. J'espère donc que vous avez également appris ce qu'est la normalité. Dans la prochaine conférence, nous comprendrons qu'il n'existe pas de multicolinéarité parfaite Restez donc à l'affût de la prochaine conférence. 140. Comprendre l'absence de multicollinéarité parfaite: R et bon retour. Dans cette conférence, nous allons découvrir ce qu'il n'y a pas de multicolinéarité parfaite Aucune multicolinéarité parfaite n' est donc une exemption que nous adoptons dans régression linéaire qui indique qu'il ne doit y avoir aucune relation linéaire exacte entre les OK. Les variables indépendantes sont les variables appelées également prédicteurs. Les variables indépendantes sont les prédicteurs et les valeurs que nous prédisons sont appelées variables dépendantes En d'autres termes, cela implique que la variable indépendante ne doit pas être une combinaison linéaire parfaite des autres. Une variable indépendante ne doit donc pas être une combinaison linéaire parfaite des autres. Il ne devrait donc pas y avoir de combinaison de linéarité. Importance de l'absence de multicolinéarité parfaite Oui, multicolinarité se produit lorsque deux ou plusieurs variables indépendantes d' un modèle de régression sont fortement corrélées un modèle de régression la multicolinarité se produit lorsque deux ou plusieurs variables indépendantes d' un modèle de régression sont fortement corrélées entre elles. Ainsi, deux ou plusieurs variables indépendantes ne doivent pas être corrélées, fortement corrélées entre elles Alors que la multicolinéarité elle-même n'est pas multicolinéarité parfaite peut entraîner problèmes d'estimation du coefficient de régression et compromettre l'interprétation du Identifier une matrice de corrélation multiple parfaite. Une méthode courante pour détecter la multicolinéarité consiste examiner la matrice de corrélation de variables indépendantes à examiner la matrice de corrélation de variables indépendantes. coefficient de corrélation proche de plus un ou de moins un indique une forte relation entre deux variables La deuxième méthode est le facteur d' inflation de la variance VF, VF étant une mesure de la mesure dans laquelle la variance du coefficient de régression estimé augmente en raison de la multicolinéarité Un F F élevé signifie un facteur d' inflation de la variance, une valeur généralement obtenue indique un niveau problématique de multicolinéarité Que se passe-t-il si nous violons la colinéarité multicolaire parfaite ? Cela conduira à des estimations peu fiables et fiables. Lorsque la colinéarité multicoli parfaite existe, le modèle de régression ne peut pas estimer un coefficient unique pour chaque variable indépendante Par conséquent, les estimations des coefficients deviennent instables et peu fiables Des solutions infinies. Avec une multicolinéarité parfaite, il existe une infinité de combinaisons d'estimations de coefficients qui Par conséquent, le modèle de régression ne peut pas déterminer de manière unique les problèmes d'interprétation des coefficients. La colinarité multiple parfaite complique l'interprétation des estimations des coefficients individuels, car il devient impossible d'isoler l'effet des variables indépendantes des autres Comment effectuer une sélection parfaite de variables à colinéarité multiple, supprimer une ou plusieurs variables fortement corrélées du modèle, hiérarchiser les variables les plus fortement corrélées du modèle, hiérarchiser les variables les pertinentes sur le plan théorique ou celles qui sont plus étroitement associées à la variable dépendante . La transformation des données transforme une ou plusieurs variables afin de réduire la colinarité multiple. Par exemple, la création de termes d'interaction ou de termes polynomiaux peut aider à saisir relations complexes sans introduire de colinarité parfaite. Régression des crêtes. La régression de crête est une technique de régularisation qui permet de gérer colinarité multiple en ajoutant un terme de pénalité à la Ce terme de pénalité aide à stabiliser les estimations des coefficients et à atténuer l'effet de la multicolinéarité Ce sont les trois techniques très efficaces que nous pouvons utiliser pour atteindre la multicolinéarité parfaite. La première est la sélection variable Nous pouvons supprimer ou en ajouter supprimer une ou plusieurs variables fortement corrélées du modèle Ensuite, la transformation des données, nous pouvons transformer une ou plusieurs variables pour réduire la coolité multiple et la régression des crêtes est une technique de régulation permettant de gérer la multicolité en ajoutant OK. Il est donc essentiel de garantir l' absence de refroidissement multiple parfaite pour produire des résultats fiables et interprétables dans le cadre d'une analyse de régression linéaire détection et le traitement de la collarité multiple dès le début du processus de modélisation peuvent contribuer à améliorer la précision et la stabilité des estimations de régression Nous avons donc maintenant compris l'homo sadisticité, la normalité et Maintenant, avec cette compréhension, nous allons poursuivre notre analyse de régression, notre compréhension. OK, alors regardez l'intérieur de la prochaine conférence. 141. Notions de régression linéaire simples et formulation: Et bon retour. Dans cette conférence, nous allons comprendre la régression linéaire simple, les concepts et la formulation. Ainsi, comme nous l'avons vu précédemment, la régression linéaire simple est également une technique statistique de base utilisée pour modéliser la relation entre deux variables, une variable dépendante, et une variable dépendante est également connue sous variable de réponse et une variable indépendante appelée variable prédictive variable prédite prédira donc une variable dépendante Ici, nous approfondirons le concept de formulation de la régression linéaire simple, explorant les principes fondamentaux et les applications pratiques de la régression linéaire simple Le concept de régression linéaire simple , nous le comprenons d'abord. Dans son code, la régression linéaire simple vise à capturer la relation linéaire entre une seule variable indépendante x et une variable dépendante y. La relation repose sur une équation linéaire y égale à x plus c plus B t zéro. B zéro est zéro, nous l'avons déjà vu dans la leçon précédente, est le point d' interception ou l'intersection x et y est la variable indépendante, y est la variable dépendante, et B un, Beta un est un coefficient Nous en avons déjà discuté ici. C'est Bêta zéro, c'est B un, ceci, et voici x. D'accord. Maintenant, le terme d'interception représente la valeur de y lorsque x est nul, comme nous l'avons déjà vu et le coefficient de pente eta un indique la variation de y associée à la variation d'une unité de x. Donc, lorsque vous regardez ici, cette valeur eta va changer Maintenant, formulation d'une régression linéaire simple. Estimation : estimation de la pente correspondant à la zone bêta. Le coefficient de pente Bêta un est estimé à l'aide de la méthode des moindres carrés, qui minimise la somme de différence quadratique entre les valeurs objectives et prédites de y. La formule pour estimer Bêta un est égale à Sigma de x i moins x à y moins y. C'est la valeur prédite moins l' objet moins la prévision, divisée par Sigma off, divisée par Sigma off estimé à l'aide de la méthode des moindres carrés, qui minimise la somme de la différence quadratique entre les valeurs objectives et prédites de y. La formule pour estimer Bêta un est égale à Sigma de x i moins x à y moins y. C'est la valeur prédite moins l' objet moins la prévision, divisée par Sigma off, et voilà variant d'égal à un, deux et xi moins x. Carré entier. Où est le nombre d'observations, x et y sont les valeurs individuelles de x et y et x et y, s'agit de la moyenne de l'échantillon de la moyenne x et la moyenne y la moyenne des x et y. Estimation du bêta zéro. Une fois que le coefficient de pente bêta un est estimé, le terme d'interception bêta zéro peut être calculé à l'aide de la formule bêta zéro, bar égal à y bar moins bêta 1 bar, où x bar x barre bêta un est le coefficient de pente et x bar y bar sont les moyennes d' échantillon de x et y. Voici donc la formule de formulation de la de formulation de la Application de la régression linéaire simple, nous connaissons déjà en économie pour modéliser la relation entre les revenus et les dépenses en finance, prévoir les cours des actions sur la base de données historiques, dans le domaine des soins de santé et Ling la relation entre l'âge du patient et les dépenses médicales et dans le domaine de l'éducation, et Ling la relation entre l'âge du patient et les dépenses médicales et dans le domaine de l'éducation comme prédire les performances des étudiants en fonction des performances nous connaissons déjà en économie pour modéliser la relation entre les revenus et les dépenses en finance, prévoir les cours des actions sur la base de données historiques, dans le domaine des soins de santé et Ling la relation entre l'âge du patient et les dépenses médicales et dans le domaine de l'éducation, comme prédire les performances des étudiants en fonction des performances sur l'étude s. La régression linéaire simple est donc un puissant outil statistique pour modéliser et comprendre les relations entre les deux variables en stimulant la pente et le coefficient d' interception. Les analystes peuvent quantifier la force et orientation de la relation et faire des prédictions sur la base des données observées Comprendre le concept et la formulation de la régression linéaire simple est essentiel pour effectuer une analyse précise et significative. Dans différents domaines. donc une longueur d'avance, nous y sommes allés et nous avons compris comment se produit la formulation de régression linéaire simple. Et nous avons également compris le concept. Nous en verrons donc plus sur cette régression linéaire simple dans la prochaine conférence. 142. Expliquer la théorie de la méthode des moindres carrés: Et bon retour. Dans cette conférence, nous allons donc comprendre ce qu'est la méthode des moindres carrés. La méthode des moindres carrés est donc une approche couramment utilisée dans la régression linéaire. Pour estimer le coefficient de l'équation de régénération. Il vise à trouver la ligne qui correspond le mieux aux données de l'objet en minimisant la somme des différences carrées entre l'objet et les valeurs prédites de la variable dépendante Voici comment fonctionne la méthode des carrés de liste. La première chose à faire est de définir l'équation de régression. L'équation de régression pour un modèle de régression linéaire simple est généralement représentée par y égal à Bêta zéro plus Bêta un et deux x plus ou epsilon, où y est une variable dépendante Nous l'appelons également variable de réponse, x est variable indépendante, nous l'appelons variable prédictive Bêta zéro est le terme d'interception, Bêta un est slofficient et Epsilon est le terme d'erreur, représenté par une variation Bêta un est slofficient et Epsilon est le terme d'erreur, représenté par une variation inexpliquée. La deuxième étape consiste à calculer la valeur prédite à l'aide de l'équation de régression donnée, calculer la valeur prédite, c' est-à-dire pour chaque observation de l'ensemble de données. Ensuite, la valeur prédite y pour l'observation est donnée y y bar plus Bêta zéro plus Bêta un dans xi où Bêta zéro et Bêta un sont des coefficients estimés selon la méthode des moindres carrés. Maintenant, la troisième étape sera de calculer le résidu. Le résidu de pour chaque observation est la différence entre la valeur de l'objet de y et la valeur prédite, y hat colon i est égal à deux, yi hat. Pour minimiser la somme des valeurs résiduelles au carré. L'objectif de la méthode list squa est de minimiser la somme des valeurs résiduelles quadratiques Mathématiquement, cela peut être exprimé sous la forme de cette équation. Sigma deux n, Sigma F est égal à un à n i au carré est égal à Sigma F y moins yi hat carré où je vais varier de un à n. En minimisant cette somme, nous obtenons la droite la mieux ajustée qui passe par nous obtenons la droite la mieux ajustée qui les points de données car elle réduit l' écart global entre les valeurs observées et prévues de y. Estimez le coefficient, page de la cinquième étape. Estimez le coefficient, page de la cinquième étape Pour trouver la valeur de bêta zéro et de bêta un qui minimise la somme du calcul résiduel au carré, des dérivées partielles spéciales sont utilisées Les formules d'estimation du coefficient sont données telles quelles, où x bar où x bar et ar échantillonnent les moyennes des x et y respectivement. Après avoir trouvé la valeur à partir d'ici, étape suivante consiste à interpréter le coefficient Une fois que la barre bêta zéro et la barre bêta 1 efficaces sont estimées, elles peuvent être interprétées comme suit barre bêta zéro est un terme d'interception représentant le y représentant la valeur de y où x est zéro et la barre bêta 1 est le coefficient de pente indiquant la variation de y associée à une modification unitaire de x. En appliquant cette méthode du carré de liste, nous obtenons des estimations du coefficient qui définissent la meilleure ligne d'ajustement pour les données données, ce qui nous permet de quantifier relation entre les variables indépendantes et dépendantes dans un modèle de régression linéaire simple. C'est ainsi que fonctionne la méthode des carrés de hangar, et c'est la théorie qui sous-tend la méthode des carrés de liste. 143. Exemple de méthode des moindres carrés dans la régression linéaire: Bonjour et bon retour. Dans la conférence précédente, nous avons vu la théorie qui sous-tend la méthode des listes carrées. Dans cette conférence, nous allons exécuter ce programme simple que j'ai écrit pour expliquer la méthode des listes quadratiques en régression linéaire Ici, ce que je fais, je génère des données synthétiques. Pour cela, j'utilise set dot set 123. Cela définira l'ensemble pour la reproductibilité. Ici, je prends X comme une valeur de 1 à 200. Il s'agit d'une variable indépendante, donc x est une variable indépendante. variable dépendante sera le y, et nous savons que la recréation, désolé, la formule linéaire simple est que y est égal à x plus c. Voici donc les deux de x que je prends deux et deux x, deux x plus un bruit aléatoire que je prends ici en utilisant la formule, utilisant la fonction norm, 100 et cela signifie que je prends zéro et la divation standard je prends dix Cela nous donnera donc la variable dépendante avec un certain bruit aléatoire. Maintenant, ce que je vais faire, ajuster le modèle de régression linéaire en utilisant la liste carré par tiers. Ici, je vais créer le modèle de régression linéaire en utilisant les fonctions LM, je vais créer le modèle et j'utiliserai la fonction m, et ici, y sera la variable dépendante, et x sera la variable indépendante. Je crée le modèle de régression linéaire ici. Je vais maintenant imprimer le modèle de régression linéaire. Laissez-moi courir jusqu'ici. Voyez ici maintenant nous pouvons voir ici. Minimum de résidus. médiane du premier quartile est-elle le troisième quartile et le maximum et le coefficient que nous pouvons voir ici Norme résiduelle 9,1 sur 90 degrés de liberté, multiple R au carré 0,0 978 R carré ajusté 0,0 Maintenant, je vais tracer les données, ajuster et trouver la ligne ajustée. Pour tracer, j'utiliserai la fonction x et je garderai le titre du graphique régression linéaire par les moindres carrés et x x, je dirais x et y, x p y, avec la droite ab, je vais essayer de trouver la droite de régression ajustée. Je vais utiliser le modèle ici. Ce modèle de régression linéaire, que je vais utiliser pour la droite, j'utiliserai la couleur rouge. Maintenant, laisse-moi m'occuper de ça. Voyez maintenant ici, laissez-moi le faire. Voyez maintenant ici, pour chaque x, nous obtenons y et C, j' obtiens une régression linéaire. Voici la droite de régression, la ligne rouge, j'arrive ici. Il s'agit de la droite de régression linéaire utilisant la méthode des moindres carrés Nous obtenons ainsi cette droite de régression. Ici, nous avons utilisé la méthode des moindres carrés pour trouver la droite de régression. Découvrez l'intérieur de la prochaine conférence. 144. Conclusion et travail de projet: Salut les gars, nous avons donc appris la programmation artistique et nous sommes prêts à utiliser nos connaissances en programmation. Et nous pouvons désormais mettre en œuvre ces connaissances de programmation artistique dans les domaines de la science des données et de l'apprentissage automatique. D'accord, à partir de maintenant, vous êtes prêt à implémenter des algorithmes de science des données et d'apprentissage automatique à l'aide de notre programmation. Notre programmation est donc claire. Vous avez maintenant chargé. La prochaine étape consiste maintenant à implémenter algorithmes de science des données et d'apprentissage automatique dans notre programmation et à essayer de les explorer. C'est donc la prochaine étape. Vous pouvez maintenant aller plus loin et commencer à analyser les données à l'aide R et implémenter des algorithmes de machine learning tels que la régression linéaire à l'aide de la programmation R. Ce sont donc les choses que vous pourrez approfondir après avoir terminé ce cours. Ensuite, quel est votre projet pour ce cours ? Vous pouvez donc maintenant créer vos propres données, comme j'ai créé des données sur les employés dans un fichier CSV. Vous pouvez également créer vos propres données dans un fichier CSV pour ce cours, ce travail de projet. Et essayez de lire ce fichier CSV par le biais de l'art. Essayez ensuite d'effectuer une analyse de données sur ces données, sur les données de ce fichier CSV en utilisant l' art, comme nous l'avons fait dans notre classe. Et essayez de créer des tableaux et des graphiques basés sur des données, comme les données de réadaptation de nos employés. De même, vous pouvez penser à un problème, une donnée, et vous effectuez toutes ces tâches. Et une fois que vous aurez terminé, disons, votre rapport d'analyse final. Par exemple, quelles sont les choses que vous aurez découvertes à partir des données ? Et essayez de créer un rapport et essayez de créer des graphiques et des tableaux. Et essayez de mettre cela dans la section projet de ce cours afin que nous puissions tous le parcourir. leçons de votre expérience, apprenez de votre projet et n'échangez pas de commentaires constructifs les uns avec les autres. Ainsi, lorsque vous enregistrez votre projet, tous les autres étudiants. Et même moi, je peux passer par là et même dire que les commentaires et les autres l'examinent et se font part de leurs commentaires. Et grâce à cela, nous pouvons apprendre et grandir. Commencez donc à définir et à publier votre projet. C'est tout pour ce cours. J'espère que vous avez apprécié ce cours et que vous avez appris notre programmation pour vos futurs projets de science des données et d'apprentissage automatique. Au revoir, au revoir, prends soin de toi.

Bootcamp de programmation R pour la science des données et l'apprentissage automatique

Sunil Kumar Gupta

Regardez ce cours et des milliers d'autres

Regardez ce cours et des milliers d'autres

Leçons de ce cours

1.

Introduction

1:15

2.

Installation R

7:15

3.

Installer et explorer RStudio

11:34

4.

Pourquoi apprendre R

5:15

5.

Premier programme R et opérateurs dans R

11:06

6.

Types de données dans R

8:33

7.

Créer des vecteurs dans R

5:49

8.

Séquence dans R

14:59

9.

Fonction de répliquer

5:09

10.

Accéder aux éléments vectoriels

8:04

11.

Manipulation de vecteurs dans R

5:39

12.

Recyclage d'éléments vectoriels

5:22

13.

Trier les éléments vectoriels

5:35

14.

Prise de décision dans R

9:55

15.

Commande de boucle à l'aide de la boucle repeat et while

6:18

16.

Pour la boucle et la prochaine déclaration

5:10

17.

Fonctions dans R

13:01

18.

Matrices dans R

13:04

19.

Facteurs dans R

7:53

20.

Cadres de données dans R

16:14

21.

Combiner des cadres de données

9:03

22.

Analyser les données dans R à partir d'un dossier CSV

18:44

23.

Créer un graphique à secteurs dans R

8:30

24.

Analyser les données des employés

13:30

25.

Lire le dossier excel dans R

7:05