Transcription
1. Introduction: Bienvenue dans ce cours d'apprentissage automatique utilisant Python et scikit-learn conçu pour les débutants absolus. Commencera par les scores de classe sur Python et diverses bibliothèques. Ensuite, nous allons plonger dans la construction de modèles d'apprentissage automatique à l'aide de scikit-learn. Vous comprendrez également comment créer un papier risqué, votre modèle d'apprentissage automatique en utilisant le framework Flask. C' est un cours complètement Hudson. En tant qu'unité préalable, avoir une formation en programmation et des connaissances en mathématiques de niveau secondaire. Pour commencer avec ce cours, aucune connaissance préalable de l'apprentissage automatique n'est requise. Sera expliquer tous les concepts étape par étape et vous enseigner comment construire le modèle d'apprentissage automatique à partir de zéro.
2. Qu'est-ce que l'apprentissage de machines ?: Comprenons l'apprentissage automatique. Dans l'apprentissage automatique, nous lisons des modèles à partir de données à l'aide un algorithme d'apprentissage automatique, puis nous créons un modèle. Ensuite, nous utilisons ce modèle pour prédire la sortie de nouvelles données. Par exemple, si un modèle est formé pour prédire le comportement du client, vous pouvez alimenter un nouveau profil client et il peut prédire si le client a écrit BYOD non basé sur son âge, salaire et d'autres paramètres. Si un modèle est formé pour classer une image, qu'il
s'agisse d'un chat ou d'un chien. Le nouveau nouveau image_id alimenté pour prédire s'il s'agit d'un chat ou d'un chien. Une analyse de sentiment Modern peut lire du texte et prédire si le sentiment est positif ou négatif. Alors, qu'est-ce qu'un modèle ? Donc, le modèle peut être une classe ou un objet ou il peut être une formule mathématique. Et comment déployer et utiliser le modèle ? Le modèle peut être stocké dans le système de fichiers au format binaire. Il peut être stocké dans une colonne de base de données, dans un blog ou d'autres formats. Comment vous pouvez prendre le modèle et créer une API de repos et rendre accessible aux applications ou quel protocole HTTP. Ou vous pouvez simplement prendre la coordonnée modale, le widget dans un autre programme.
3. Processus de machine learning: Examinons de plus près le processus d'apprentissage automatique et comprenons quand notre modèle est prêt pour le déploiement. Dans l'apprentissage automatique, l'algorithme examine les données, dérive le modèle et crée un modèle. Commençons par les données. Généralement, nous avons reçu des données larges et ensuite nous effectuons le prétraitement des données. prétraitement des données implique des stapes, la normalisation des données de nettoyage des
lacs, la résolution des problèmes avec les valeurs nulles, les enregistrements
manquants, les valeurs inconnues et diverses autres choses. Pendant le prétraitement des données, nous convertissons également des valeurs catégorielles, deux valeurs numériques. Parce que les modèles d'apprentissage automatique peuvent fonctionner avec numérique. Cette étape peut être effectuée dans la limite de l'apprentissage automatique, ou elle peut être effectuée par une autre équipe. Par exemple, une équipe spécialisée dans le Big Data Spark, qui est une technologie très populaire pour le prétraitement des données. Pour de nombreux modèles, nous faisons également la mise à l'échelle des fonctionnalités. Cela signifie amener toutes les entités à la même échelle afin que le modèle ne soit pas biaisé ou influencé par la fonction particulière. Une fois que cela est fait ou que les données sont prêtes pour l'algorithme d'apprentissage automatique. Selon le problème que nous essayons de résoudre, nous pouvons répéter ce processus plusieurs fois pour obtenir les données parfaites. Pour notre algorithme d'apprentissage automatique. Nous alimentons les données à un algorithme, un modèle. Mais est-ce le modèle final ? Une fois que nous obtenons un modèle, nous testons la précision. Nous affinons le modèle pour obtenir une plus grande précision. Si nous revenons à l'étape de prétraitement des données et générons à nouveau les données et les alimentons à l'algorithme à nouveau et pour obtenir le modèle avec la précision désirée. Outre l'exactitude, nous vérifions également si les données sont suradaptées et sous-ajustées. Et une fois que nous sommes satisfaits du modèle, nous déployons un Watson particulier à la production. C' est donc le modèle final et qui est utilisé par différentes applications.
4. Types de machines-outils: Comprenons différents types d'algorithmes d'apprentissage automatique. Nous avons parlé du profil du client, de
l'apprentissage du comportement du client basé sur un certain profil et de l'application de cet apprentissage. Regardons ça en détail. Donc, quand on parle de profil de client, ça pourrait être des pays de salaire AID, genre. Sur cette base, disons que nous savons si un client a été acheté dans le passé ou non. On commence par l'achat, l'euro commence mais pas acheté. Si nous transmettons ces informations à un algorithme d'apprentissage automatique, vous pouvez consulter ces données d'achat antérieures. Il examinera ces différentes fonctionnalités dans leur comportement en termes d'achat ou non, puis créera un modèle. Ici, la sortie est toujours un ou 01 signifie achat, 0 signifie pas achat. Ce type d'apprentissage automatique est donc appelé classification. Lorsque nous prédisons un certain nombre de classes à partir des données d'entrée. Regardons un autre exemple de classification. Lorsque nous nourrissons une image à un modèle et que le modèle reconnaît qu'il est un chat ou un chien. C' est aussi la classification. Si nous créons un algorithme d'apprentissage automatique avec différentes images qui appartenaient à trois classes. C' est un chat, un chien et une vache. Et si nous créons un modèle, c'est aussi la classification parce que notre prédiction est toujours limitée ensemble de valeurs. Il existe un autre type d'apprentissage automatique appelé régression, où au lieu de prédire une classe, nous prédisons certaines valeurs qui pourraient être une valeur continue en termes de prix de la maison. Vous pouvez avoir des informations sur la région, le nombre de chambres à coucher et la distance de l'arrêt de bus ou du centre-ville. Sur cette base, si vous devez créer un modèle qui prédit le prix de la maison, ce type d'apprentissage automatique est appelé régression, où vous prédites une valeur continue au lieu de prédire à quelle classe appartient la sortie. La classification et la régression sont appelées
machine learning supervisé , car Algorithm atterrit à partir des données. Il atterrit à partir de l'ensemble des caractéristiques et du comportement. Informations de montage sur le prix de la maison pour un ensemble de fonctionnalités. Ou vous avez des informations sur si le client est acheté ou non. L' algorithme apprend de cela. Et puis il prédit la sortie pour un nouvel ensemble de variables. Il s'agit d'un apprentissage automatique supervisé, où vous indiquez à l'algorithme ce qu'il faut rechercher dans un jeu de données particulier. Il existe un autre type d'apprentissage automatique appelé apprentissage automatique non supervisé, où vous alimenter certaines données à un algorithme, mais vous ne dites pas ce qu'il faut rechercher. Par exemple, vous pouvez nourrir un salaire, pays, un sexe et combien la personne tourne. Et demandez à l'algorithme de les regrouper d'une manière afin que vous puissiez prendre certaines décisions basées sur cela. Typiquement des grappes de nucléate utilisant l'apprentissage automatique non supervisé, vous pourriez créer différentes grappes comme les jeunes dépenseurs sont à revenu élevé et dépenseurs élevés. Sur cette base, vous pouvez décider
quel groupe de clients cibler dans votre campagne marketing. Il s'agit d'un apprentissage automatique non supervisé. Dans l'apprentissage automatique supervisé, nous divisons les données en données d'entraînement et en données de test. Généralement, 70 à 80 % des données sont conservées pour la formation du modèle, et 20 à 30 % restants sont utilisés pour tester le modèle.
5. Créer un environnement de développement Anaconda Spyder: Nous perdons l'araignée Anaconda pour le développement de l'apprentissage automatique. Recherchez le téléchargement Anaconda et allez sur leur site Web. Cliquez sur le prix. Faites défiler vers le bas,
sélectionnez l'édition individuelle qui est gratuite. Cliquez sur En savoir plus. Cliquez sur Télécharger et choisissez la version adaptée à votre système d'exploitation. Une fois téléchargé, cliquez sur le programme d'installation. Sauf que la condition Thomson signifie juste répertoire bien sélectionné. Assurez-vous qu'il n'y a pas d'espaces dans le répertoire. Je recommande de sélectionner les deux cases à cocher car vous pouvez créer des variables d'environnement Python NEW dalda. Cliquez sur installer. L'installation prend environ 20 à 30 minutes. Une fois terminé, cliquez sur Suivant. Nous n'avons pas besoin de sélectionner cette option pour cliquer sur Terminer. Commencé pour enregistrement, notre araignée a déjeuné. Spider va d'abord créer un répertoire de travail où nous allons stocker tous les fichiers. Répertoire sous le moteur utilisateur. Ce sera mon répertoire de travail. Allez dans le coin supérieur droit et sélectionnez-le directement. Et ça, ça fonctionnerait directement. Maintenant, créons un nouveau bouton. Nous allons écrire Helloworld. Le fichier est Python ou inférieur sélectionné et exécutez-le. Vous pouvez le plier en utilisant recyclé. Et nous pouvons voir helloworld Dot console.
6. Cours accéléré sur Python NumPy Pandas Matplotlib: Nous allons couvrir Python, Numpy, Pandas et matplotlib. Dans ce labo. Vous êtes déjà familier avec ces passifs Python. Ensuite, vous pouvez sauter cette conférence et passer à la suivante. Créons un nouveau fichier en utilisant l'araignée et commençons à coder. En Python, vous pouvez déclarer des variables sans donner de types de données. Et il met maintenant remplir une valeur de chaîne que nous pouvons, Python ne se plaindra pas. Peut araignée variable explorateur, vous pouvez voir toutes les variables et leur valeur. Disons trois, être égal à cinq, puis diviser en un plus b. Sélectionnez ce 31. Donc, nous pouvons voir que la sortie est imprimée en Python. Vous pouvez effectuer toutes sortes d'opérations arithmétiques. Python est un type de données appelé liste. Et vous l'avez déclaré entre crochets. Et puis vous spécifiez une liste d'éléments. Et vous pouvez ensuite saisir des éléments spécifiant le numéro d'index. Et le numéro d'index commence par 0. On va imprimer ça. Alors. Faites, FAIRE n'importe quel index, et ainsi de suite. Pour saisir le dernier élément, vous spécifiez minus1. Vous pouvez également spécifier trois dans ce cas, mais minus1 vous donnerait également le dernier élément. De cette façon, lorsque la liste est très longue, vous pouvez facilement saisir le dernier élément en spécifiant minus1. Et puis si vous faites moins deux, il vous donnera le deuxième dernier élément, c'est-à-dire 30. C' est ainsi que nous pouvons déclarer une liste et saisir différents éléments. Et la liste peut avoir assez communistes différents types de données. En Python, vous pouvez écrire une boucle en donnant un deux-points de condition et appuyez sur Entrée. En Python, les guillemets simples et les guillemets doubles sont corrects. Frappeurs d'espace et d'indentation en Python. Donc si on écrit ça comme ça,
ça lui donnera la fin de la boucle quand Sundance. Maintenant, si j'écris quelque chose ici qui est dehors, si regarder en dehors de la boucle est imprimé, débat change la condition. Il imprimera les deux. Il existe de nombreuses façons d'écrire une boucle for en Python. Donc, je peux dire pour moi dans la gamme 10. Donc, cela devrait imprimer la valeur de i commence de 0 à neuf. Ce sont donc les dix valeurs. Vous pouvez également regarder à travers cette liste. Mon enrôleur, vous pouvez dire pour moi dans ma liste de soulignement, cravate, it, imprimé tous les éléments de la liste. Et faisons une autre opération sur la liste, qui est de choisir toutes les valeurs de la première liste, les
multipliant par trois, avait été de créer la nouvelle liste. En Python, vous déclarez la fonction avec le mot-clé def. Calculez un peu, disons un, B. Et nous pouvons faire cette somme. Et maintenant on peut appeler ça en passant deux valeurs et ensuite on aura la somme. Vous pouvez également renvoyer plusieurs valeurs. Donc, nous pouvons voir que les deux variables sont remplies. Donc, vous pouvez retourner plusieurs valeurs à partir d'une fonction Python pour créer un fichier en Python, utiliser avec open, puis écrire du contenu. Vous pouvez voir mon fichier dans l'explorateur de fichiers. Il a un contenu d'échantillon. Notez que le mode est W ici. C'est ce que note. Vous pouvez ajouter plus de contenu à l'aide d'un mode campagne d'application. Exécutons ceci et vérifions le fichier. Vous pouvez voir plus de contenu obtenir l'art it. Mais vous pouvez également travailler avec le mode W. Maintenant, vous devriez voir que le nouveau contenu, les choses
lourdes devraient être écrasés nouveau contenu. Donc, nous pouvons créer un fichier en Python. Comprenons maintenant NumPy. Numpy est une responsabilité Python populaire pour l'informatique scientifique. Nous devons d'abord importer numpy, importera numpy comme np. Et maintenant, nous pouvons faire toute l'opération NumPy en utilisant NB. Beaucoup des bibliothèques populaires d'apprentissage automatique, scikit-learn, sont conçues pour fonctionner sur la base de tableaux Numpy. Vous pouvez créer une liste. Déclarez une liste. Et nous pouvons créer un tableau unidimensionnel à partir de la liste. Prenons cette valeur, échantillon numéro un DRA. Donc, il s'agit d'un objet tableau numpy, va maintenant créer un tableau numPy à deux dimensions. Il a quatre lignes et trois colonnes. Devrait créer un treillis bidimensionnel d'arbitre. Vous pouvez facilement les remodeler paire est. Donc, il s'agit d'un tableau de trois colonnes pour la ligne. On peut le remodeler en deux rangées et six colonnes. Notez que lorsque vous remodelez, l'Arabisme original est remodelé, vous pouvez le stocker d'une manière nouvelle. Il a deux lignes et six colonnes. Vous pouvez remodeler à condition que le nombre total d'éléments corresponde. Vous ne pouvez pas avoir deux fichiers car il a deux éléments. Si nous remodelons avec, disons un moins1, cela créerait une ligne et un nombre maximum de colonnes. De même, vous devez remodeler à une colonne et le nombre maximum de brut possible. Vous pouvez le faire en spécifiant minus1 et un. Vous n'avez pas besoin de compter combien de lignes ou de colonnes sont là. Nous aurons cela comme nouvelle édition trois. C' est ainsi que nous pouvons remodeler NumPy R fait parfois le traitement de l'apprentissage automatique. Vous devrez peut-être extraire des lignes et extraire
des colonnes et faire quelques opérations à ce remodelage serait très utile. Vous pouvez récupérer une partie du tableau Numpy. Donc, cela signifie me donner d'abord dessiner jusqu'à la troisième rangée, mais pas intuiter la troisième rangée. Deuxième colonne jusqu'à la quatrième colonne, l'
exclusion de la quatrième colonne. Voyons ce que nous obtenons. Donc, le tableau d'origine n'est pas modifié. Nous vivons pour le remplir dans un nouveau tableau et voir l'échantillon de nouvelles de sortie. Nous sommes devenus rose à l'index 12 et à la colonne à l'index deux, parce qu'il n'y a pas de colonne à l'index trois. Pandas est une bibliothèque Python populaire pour l'analyse de données. Vous importez des pandas disant importer des pandas comme PD, c'est convaincant. Et des tableaux unidimensionnels de pandas connus sous le nom de villes. Donc, c'est très clair que les villes, c'est unidimensionnel. Leur avantage avec des parenthèses, vous pouvez donner vos éléments et votre nom. Par exemple, je peux dire 10203040, mais je peux leur donner une étiquette. Vérifions ça. Vous pouvez voir que l'index ABCD, vous pouvez saisir une limite spécifiant le nombre, numéro d'
index notre perspective. Si vous faites Sample Series 2, vous obtenez 30. Vous pouvez également l'attraper en disant des villes échantillonnées à voir. Cela donnera également la même valeur. Vous déclarez un DataFrame, qui est un tableau à deux dimensions utilisant pd dot DataFrame fonction. Et vous pouvez passer une liste bidimensionnelle et vous obtiendrez un DataFrame. On peut voir les pandas DataFrame. Et avec Pandas, vous pouvez également donner des lignes et des colonnes et étiqueter. On devrait avoir la ligne 1, la quatrième, la deuxième, la troisième. Vous pouvez également saisir des éléments spécifiant le nom de ligne, le nom de
colonne ou spécifiant le numéro d'index pour chaque ligne et colonne. Colonne de trois ans, 36912, qui est ceci. Et vous pouvez saisir plusieurs colonnes en spécifiant les deux colonnes. Pour saisir des lignes, vous spécifiez un emplacement Lucy et donnez à Roden m, vous obtiendrez la ligne pour saisir une partie du DataFrame. Vous pouvez spécifier des noms de ligne et de colonne de bateau et obtenir cette personne. On obtient la colonne 2, la colonne 3, la ligne 2, ligne 3 de l'échantillon de données 2. Vous pouvez également spécifier l'emplacement de l'index au lieu de libéraux pour obtenir une partie d'un DataFrame. Ceci est rho 0 jusqu'à la ligne deux nulle, y compris la ligne deux, la colonne un, jusqu'à la colonne trois, sans compter la colonne trois. Si vous ne spécifiez rien, vous obtenez toutes les lignes et toutes les colonnes. Et si vous êtes à la dernière colonne, vous dites minus1 noir. Donc, vous avez 14710 à 581. C' est la colonne 1, la colonne 2, et toutes les lignes. Et on a dit de prendre toutes les colonnes jusqu'à la dernière colonne. C' est ainsi que nous pouvons saisir toutes les colonnes et toutes les lignes, mais en excluant la dernière colonne. Et un sous-ensemble d'un DataFrame est un dataframe si c'est deux diamants odeur. Si vous saisissez une ligne ou une colonne, il peut s'agir d'une série. En Python, vous pouvez utiliser une bande pour vérifier le papier de n'importe quelle variable. Vous pouvez facilement le convertir en Pandas en invoquant valeurs de
points lorsque les passifs d'apprentissage automatique sont conçus pour notre PRA Putnam. Donc, faites la conversion en utilisant des valeurs sombres. Ceci est maintenant un tableau NumPy. Vous voyez deux crochets d'ouverture et de fermeture. C' est donc un tableau NumPy à deux dimensions. Vous pouvez stocker ceci dans un nouveau tableau NumPy. C' est maintenant un tableau numpy. Nous avons saisi une partie du DataFrame et l'avons convertie en données NumPy avec des valeurs sombres. Cela convertirait la dernière colonne en données NumPy. Regardons un exemple d'opérations de filtrage sur DataFrames. Donc, nous disons ici, donnez-moi ces échantillons où les valeurs de la colonne un sont supérieures à pour. Partout où il est supérieur à 48 vous donne vrai. Sinon, ça t'a donné faux. Exemple de DataFrame. Vous appliquez cette condition sur le DataFrame milieu. Avec Pandas, vous pouvez facilement lire les fichiers CSV sont en effet get-up fichier. Et comme le read_csv, lisons un fichier sample.csv de notre dépôt. Nous dirions de stocker des données point CSV. Pandas chargerait le fichier CSV dans un DataFrame. Et si nous vérifions notre DF Now, là, c'est la poursuite a été chargée dans un DataFrame. On peut aussi vérifier le dossier. Donc, ceux-ci sont énormes en partie vous pouvez facilement charger toutes les lignes et les colonnes à un DataFrame. Avec df.describe, vous pouvez obtenir un élément statistique vidéo sur le DataFrame. Comme combien de lignes, quelle est la moyenne et l'écart-type ? Vous pouvez obtenir des informations supplémentaires avec dF Dot info. Quel type de données et quelles sont les colonnes ? tête DF.Loc vous donnerait les cinq premières lignes. Vous pouvez prendre un échantillon d'un DataFrame en faisant tête. Et vous pouvez également spécifier le nombre de lignes que vous n'étiez pas dans la tête. Donc cette prémisse de mise trois colonnes. On peut prendre les deux premières colonnes et convertir ce Vietnam. Maintenant, allons à l'explorateur de variables et cochez x. donc c'est les deux premières colonnes parce que nous avons exclu la dernière colonne et il a été converti en arbitre. Pour convertir la dernière colonne, il
suffit de saisir la dernière colonne. Vous n'avez pas besoin de spécifier la plage. Et la dernière colonne sera convertie en arbitre. C' est une zone unidimensionnelle. Enfin, regardons la bibliothèque matplotlib. En utilisant matplotlib, vous pouvez visualiser les données en dessinant différents types de sang. Araignée est applauds onglet où les parcelles seront créées. Vous importez matplotlib comme ceci. Maintenant, déclarons deux listes. Et nous allons tracer x et y. nous avons inline-block par défaut, nous obtenons un tracé de ligne. Lorsque nous complotons pour obtenir un nuage de points, vous dites scatter plt.plot. Et vous obtiendrez un nuage de points. Vous pouvez donner des étiquettes à votre sang et aussi un diagramme d'échantillon de titre, axe x et Y. allons créer un tracé pour nos données que nous lisons à partir du fichier CSV. Nous allons créer un nouvel intrigue. Et X6 est que nous tirons parti de l'axe y aura un salaire, et nous allons saisir des colonnes et la transmettre à la fonction de tracé pour obtenir le bloc. Ainsi, vous pouvez voir l'intrigue pour nos données qui aidera à partir du fichier CSV. Ceci est un exemple d'histogramme. Donc, il s'agit de Numpy, Pandas, Matplotlib et certains Python de base. Ce n'est pas tout ce qui est en jeu dans ces passifs. Cependant, ces connaissances sont suffisantes pour vous permettre de
commencer à programmer l'apprentissage automatique en utilisant Python.
7. Créer un modèle de classification à l'aide de l'algorithme KNN: Nous avons les données d'achat du magasin. Nous avons des données pour différents clients. Il y a dans leur salaire et qu'ils achètent ou non. Sur la base de ces données, nous allons construire un modèle de classification d'apprentissage automatique, qui permettra de prédire si un nouveau client ayant un certain âge et un certain salaire achèterait ou non. Donc, en cela est dans les variables salariales ou indépendantes. Nous allons construire un modèle de classification d'apprentissage automatique en utilisant kNN, qui éliminera les données des parties de distorsion. Comprenons le voisin k le plus proche ou l'algorithme d'apprentissage automatique K-nn à travers un exemple très simple. Imaginez que nous avons des chats et des chiens montrés dans ce diagramme. Sur l'axe des x, nous avons le poids et sur l'axe des y nous avons la hauteur. Tous les verts sont des chats car évidemment ils auraient moins de poids et de laicite et tous les bleus sont des chiens. Et si nous connaissons la taille et le poids d'un nouvel animal, disons ce nouveau au centre. Peut-on prédire si c'est un chat ou un chien ? L' algorithme de Knn ? En outre, sur base des caractéristiques des voisins les plus proches. petite valeur k est cinq. Nous regardons les cinq voisins les plus proches peuvent, sur la
base de cela, nous décidons quelle classe l'animal pourrait être regroupé deux. Par exemple, dans ce cas, il y a trois verts et deux bleus. Cela signifie qu'il y a trois chats et chiens qui ont des caractéristiques similaires à celles du nouvel animal. Donc, ce AnyVal est plus susceptible d'être un chat parce que la majorité des animaux appartiennent à la classe des chats dans le quartier le plus proche. Donc, c'est k technique du voisin le plus proche où le résultat est prédit en fonction des caractéristiques montrées par les voisins les plus proches. Et le kava Louis typiquement cinq. Appliquons cette technique sur les données d'achat du magasin. Nous avons les données dans le dossier du projet. Nous pouvons spider jusqu'à sélectionner votre dossier de projet ici. Et puis nous pouvons aller dans les fichiers et voir tout le code source et les fichiers. Ce sont donc les données d'achat stockées que nous utilisons qui vont construire un modèle de classification d'apprentissage automatique. Créons un nouveau fichier Python. Will nématodes ML Pipeline. Nous allons importer les bibliothèques standard. Nous supposons que vous êtes familier avec NumPy et pandas, qui est une condition préalable à ce cours. Dans araignée, dès que vous tapez, vous obtenez toutes les erreurs ou avertissements. Il dit que nous n'utilisons pas de pandas Numpy, c'est bon. Nous allons écrire le code pour le même peu. Chargons maintenant les données d'achat du magasin dans un DataFrame Pandas. Nous vivons les données de formation, dataframe, qui stockera les données d'achat de magasin. Notez que ne sera pas nettoyé avec l'ensemble des données. Nous aurons des dossiers pour la formation et les tests, que nous verrons ensuite. Mais les pandas de données de formation DataFrame stockeraient l'ensemble des données de fichier CSV. Vous pouvez exécuter le fichier entier en sélectionnant le cycle ou en exécutant la sélection. Lancez la sélection. Vous pouvez aller à l'explorateur variable, cliquez sur les données de nettoyage et nous pouvons voir que achats de
salaire ont été chargés dans le dataframe de données de formation. Allons obtenir des informations statistiques, des données de nettoyage de bateau. Nous pouvons voir diverses informations statistiques sur les données. Combien de disques ? On a 40 dossiers. Nous pouvons voir la moyenne, écart-type et d'autres statistiques sur les données stockeront les variables indépendantes dans un IRA. Prendra rose jusqu'à la dernière colonne et les stocké dans une variable dépendante X, qui est un tableau NumPy. Faisons ça. Donc, cela devrait remplir les agents salariés. Suivant. Allons à l' explorateur de
variables et à la caisse. Nous pouvons voir que le salaire de l'agent ont maintenant rempli dans le tableau NumPy remplira la colonne d'achat, qui est la prédiction à et au tableau Numpy loin. Donc, cela devrait remplir la dernière colonne et la stocker en chemin aussi. C' est notre y, qui est la variable dépendante ou celle que nous essayons de prédire. Nous avons des aides dans le salaire et tableau x NumPy. Et nous avons y, qui est les données d'achat. Pour non acheté. L' un est où les parties. Donc, qui est stocké dans un tableau Numpy. Maintenant, nous avons les variables indépendantes et
les variables dépendantes dans deux tableaux Numpy séparés. Ensuite, l'utilisation de scikit-learn séparera les données en ensemble d'entraînement et ensemble de tests. Et nous allons énorme ratio 80-20, 80% des données pour la formation et 20% pour les tests. Scikit-Learn est une bibliothèque très populaire pour l'apprentissage automatique en utilisant Python. Scikit-Learn est pré-installé avec l'araignée Anaconda. Si j'utilise un environnement Python différent, vous devrez peut-être installer scikit-learn en utilisant le style pip install SKLearn est la commande pour installer toutes les bibliothèques Python. Anaconda araignée est livré avec scikit-learn, numpy, pandas, et beaucoup d'autres bibliothèques qui sont nécessaires pour la compétition scientifique et l'apprentissage automatique. Nous utilisons scikit-learn, train, test split class pour diviser le jeu de données en deux parties. Maintenant, une fois que nous faisons cela, nous laissons l'ensemble d'entraînement et l'ensemble de test. L' ensemble d'entraînement aura 32 enregistrements. Nous avons dit que 80 % des données seront utilisées pour la formation. Nous avons donc totalisé 40 dossiers dont 32 seront utilisés pour le nettoyage. Donc c'est extrême. Et le train de poids 32 records pour le trading. Et X-test a des records de chaleur. De même poids cela aura huit enregistrements. Il s'agit des données pour tester le modèle. Ensuite, nous présenterons la compétence que les données. Donc c'est tout, le salaire est dans le même pont et le modèle d'apprentissage automatique ne pouvait pas être influencé par le salaire, qui est dans une fourchette plus élevée. Laissons ça. Maintenant, nous pouvons voir les données d'échelle. scaler standard distribue les données de
manière à ce que la moyenne soit 0 et l'écart-type soit un. Maintenant les A et le salaire ou dans le même pont. Ensuite, nous allons construire un modèle de classification en utilisant la technique K voisin le plus proche. Il aura cinq voisins. Nous perdons les métriques de Minkowski. Pour construire ce classificateur. métriques Minkowski fonctionnent en fonction de la distance euclidienne entre deux points. La distance euclidienne n'est rien d'autre que la distance la plus courte entre deux points. C' est ainsi qu'il décide quels voisins sont les plus proches. Suivant adaptera les données de formation au classificateur pour le nettoyer. C' est là que le modèle est drainé. C' est l'objet classificateur qui est formé avec certaines données de nettoyage,
qui est, est-ce que le salaire est la variable d'entrée, la tête achète la variable de sortie. Le classificateur est notre modèle. Vérifiera rapidement la précision
du classificateur en essayant de prédire. Pour les données de test. Classifier a une méthode de prédiction qui prend une entrée de tableaux Numpy et retourne comme sortie dans un autre nombre. Donc c'est notre x et c'est le poids. Et voyons quelle est la prédiction. Wavelet six pour un disque. Le modèle prédit avec précision. Pour tous les dossiers. Nous pouvons également vérifier la probabilité de prédiction pour toutes les données de test. Ici, nous pouvons voir que partout où nous avons plus de 0,5 probabilité, le modèle prédit que le client dû par le client n'achèterait pas. La mobilité est utile lorsqu'il aimait trier les données de la prédiction et que les clients étaient plus susceptibles d'acheter. L' histoire. Le troisième est plus susceptible d'acheter parce que les probabilités de 0,8 ou 80 % vérifieront l'exactitude du modèle à l'aide de la matrice de confusion. La matrice de confusion est une technique statistique permettant prédire grâce à un modèle de classification. La façon dont cela fonctionne est assez simple. Si la valeur réelle est un et que le modèle prédit un projet PRINCE2. On perd 10, c'est faux négatif. De même, 00 est vrai négatif et 01 est faux positif. Il peut également être représenté dans ce format. Donc, une fois que nous connaissons les quatre types, nous pouvons facilement déterminer la précision. Donc, ils ne pouvaient pas voir est vrai positif plus vrai moyen négatif divisé. Les quatre types de prédictions. Quelle que soit la technique de classification que vous utilisez, kNN ou toute autre matrice de confusion peut être utilisée pour calculer la précision du modèle. Cyclique learning et d'autres bibliothèques d'apprentissage automatique. Les classes intégrées à la matrice de confusion de bits Jen permettent des données prédites Julian. Créons les métriques de confusion passeront la valeur réelle de l'ensemble de test, c'
est-à-dire le test de poids et les valeurs prédites, c'est-à-dire le pain blanc. Et obtenez les métriques de confusion de la classe de matrice de confusion des terres cycliques. Accédez à l'explorateur de variables araignées. Et on peut voir la matrice de confusion ici. Nous avons trois vrais négatifs. Pour de vrais positifs. Un seul faux négatif et faux positif. Donc, ce modèle est très bon,
parce que nous avons seulement un faux positif ou négatif de huit enregistrements. Calculons la précision du modèle. Et nous allons imprimer le silence 0.875. Donc, notre modèle est 87,5% s'est produite. Donc, ce modèle peut prédire si un client avec un salaire d'agent particulier, au revoir ou non avec une précision de 87%. Vous pouvez également obtenir le rapport de classification intact pour en savoir plus sur le rappel de précision et le score F1. Nous avons donc pris cela pour les données d'achat et créé un classificateur qui peut prédire si quelqu'un serait par R rien. Ce modèle ou classificateur peut être utilisé pour prédire si un client avec un salaire d'agents particulier serait BYOD nulle. Alors essayons de prédire si un client avec H porter Sal jour à jour 1000 bon biochar. Notez que ce modèle prend un tableau NumPy et retourne une Europe de comparaison pour créer un tableau Numpy à partir du salaire des agents, compétence de
fonctionnalité que les données, puis l'alimenter au classificateur. Parce que le classificateur est formé sur les données de compétences d'entités devraient avoir été cheminées vers les données que vous adaptez est également mis à l'échelle des entités. Même technique, qui est le détartreur standard dans notre cas. Et la prédiction est 0, le client ou pas par quelqu'un de 40 ans. Et la cellule D2, budget D3 ne serait pas acheter est. Mais ce modèle, nous pouvons vérifier la probabilité de la prédiction pour les mêmes données. Classé comme un paramètre de prédicteur à l'aide duquel vous pouvez obtenir la probabilité. Donc, la probabilité est de 0,2 ou 20%. C' est pourquoi le modèle mis au client n'achèterait pas. Essayons de prédire pour un client qui a 42 ans et salaire 50 mille. Cette fois, le modèle définit le client ou l'acheteur. Vérifions la probabilité. C' est 0,880%. Il y a donc 80% de chances que le client achète un modèle d'apprentissage automatique, gourmand. C' est un modèle de classification. Il peut prédire si un client avec une certaine cellule d'agent D serait par R nulle. C' est donc le classificateur que nous avons, qui est le modèle, et nous ajustons les données à ce modèle pour obtenir la sortie. Ensuite, vous verrez diverses techniques de déploiement de modèles. Comment sauvegarder ce modèle et déployer ce modèle dans d'autres environnements, y compris certains environnements de fournisseurs de cloud.
8. Enregistrer le modèle et la gamme de modèles: Nous avons construit un modèle de classification kNN, qui peut prendre est en salaire comme paramètres d'entrée et de prédire si un client particulier avec ce salaire des agents serait par R nulle. Voyons maintenant comment sauvegarder le modèle que nous avons créé. Pour résumer le processus de mise en garde du modèle, nous avons lu 40 enregistrements de l'ensemble de données et identifié 32, soit 80 %. Pour la formation. Celles-ci sont représentées ici. Et puis nous utilisons le scaler standard pour mettre à l'échelle les valeurs de sorte que la moyenne devient 0 et l'écart-type devient un pour les deux agents salaire. Pour de nombreux modèles, le meurtre est nécessaire. Sinon, le modèle pourrait être influencé par des valeurs qui sont dans la fourchette de salaire plus élevée dans notre cas. Et vous pouvez utiliser un scaler standard ou tout autre mécanisme de mise à l'échelle. Une fois les données mises à l'échelle, nous les nourrissons au modèle dans un format de tableau NumPy bidimensionnel. Et nous obtenons une sortie qui est aussi un tableau numpy avec une colonne. En interne, le modèle applique la technique KnN. Il regarde la sortie pour chaque enregistrement et essaie d'optimiser la formule de sorte que le liquide global que vous monteriez. Il y a plusieurs façons de sauver le modèle. Pour certains, nous pouvons extraire la formule. Et dans certains cas, nous devrons sauvegarder le format binaire de modélisation afin que nous puissions restaurer et ensuite utiliser ce modèle pour prédire la sortie d'un nouvel ensemble de données. Nous le verrons bientôt en action. Si quelqu'un veut prédire avec The Model, deux choses. Vous n'avez pas besoin du modèle de classificateur. Et ils auraient également besoin du
scalaire standard s'ils utilisent une autre technique pour mettre en évidence la compétence des données, que le modèle pourrait ne pas donner un résultat correct parce que nous avons utilisé un tueur de normes particulier. Nous l'exporterions également avec le modèle. Avec le modèle classificateur et le scaler standard, faites la prédiction dans n'importe quel environnement Python. Voyons comment nous pouvons enregistrer et exporter ces objets vers d'autres environnements. Python est une technique appelée décapage, en utilisant laquelle vous pouvez stocker des objets Python au format sérialisé ou flux d'octets. Dans un autre environnement Python, vous pouvez être sérialisé ces objets et les utiliser dans votre code. Donc, nous allons comprendre comment nous pouvons décaper le modèle et le détartreur
standard ont été construits dans l'unité de laboratoire précédente, nous importons le fichier de passifs de cueillette, KnN modèle.predict sont prêts classificateur limité point cornichon. Si nous ne voulons pas dire quelle technique nous utilisons pour créer ce modèle, nous pouvons simplement le nommer comme classifié ou plus rapide. Et en utilisant la méthode point-point-point décapé, nous pouvons stocker l'objet classificateur que nous avons créé plus tôt en impression dans ce fichier classé ou cornichon. De même, nous pouvons effacer le fichier de cornichon pour ce tueur. Conservera le détartreur standard dans un fichier de cornichons CDART. Ici, wB signifie que le fichier est ouvert pour l'écriture et en mode binaire. Exécutons ce code. Et on peut aller à l'Explorateur de fichiers. Et ne voit que classifié ou cornichon et ACWP kilobit créé. Vous pouvez également vérifier la même chose dans l'Explorateur. Donc, ces deux sont des fichiers binaires ou sérialisés pour notre classificateur et nos objets scalaires standard. Dans ce laboratoire, nous avons vu comment enregistrer le scalaire
standard borderland au format binaire en utilisant Python pick celebrity. Ensuite, nous allons voir comment utiliser les fichiers décapés dans un autre environnement Python.
9. Réinitialiser le modèle à partir du fichier Pickle et l'utiliser localement: Jusqu' à présent, nous avons vu comment créer un modèle et le stocker dans le format mariné. Nous avons également stocké les objets scalaires standard au format binaire en utilisant la responsabilité du sélecteur. Ensuite, nous allons voir comment les relais DC et utiliser ces objets pickle dans un autre environnement Python. Il pourrait être sur site ou sur le cloud. Essayera d'abord d'utiliser les fichiers pickle dans l'environnement local. Créons un nouveau fichier Python. Nous l'appellerons utiliser model.predict. Nous devons d'abord importer les bibliothèques. Nous devons également importer NumPy. Ensuite, nous allons relais DC et stocker le classificateur dans un objet local dans le nouveau programme utilisera la méthode de point mariné Lord pour charger le classificateur ce véhicule en utilisant le format binaire de lecture. De même, va lire le scalaire à un nouvel objet. St.Petersburg sera chargé sur les objets scalaires locaux. Ensuite, nous allons utiliser le classificateur local et le scalaire local pour prédire si un client avec 40 ans et soudainement 20 000 au revoir ou non. Avant de l'exécuter, il permet d'effacer toutes les anciennes variables. Vous pouvez cliquer ici et supprimer les anciennes variables. Vous pouvez également effacer la console en cliquant avec le bouton droit de la souris et en faisant effacer la console ici. Maintenant, exécutons ce programme. Maintenant, nous pouvons voir cette nouvelle prédiction et qui est 0, qui correspond à la prédiction précédente. Prenons la nouvelle probabilité. C' est à nouveau 0,2 pour le client avec 40 ans et soudainement 20 mille et retarde l'objet classificateur et l'objet scalaire local. Ensuite, nous avons essayé de prédire si un client ou un acheteur n'utilise pas les objets associés de ce D dans un nouveau programme Python. Donc, ce programme ne sait rien sur la façon dont le modèle a été construit ou négocié. Il a récupéré le scalaire de modélisation à partir des fichiers de cornichons et les utilise pour prédire. Nous pouvons également essayer de prédire pour chaque 42 et salaire 50 mille. Plus tôt, nous avons eu 80% de probabilité. Nous devrions voir la même sortie ici, 0.8, et la prédiction est un. Achat client. Vous avez donc vu comment utiliser les fichiers Pickle dans un autre programme Python, qui ne sait rien sur la façon dont le modèle a été construit et comment le modèle a été formé. Nous avons essayé cela dans un environnement local. Ensuite, nous allons l'essayer dans un environnement cloud.
10. Exporter le modèle vers l'environnement Google Colab Environnement: Ensuite, nous allons prendre les fichiers marinés à l'environnement Google collab et essayer de prédire leur. Google collab est comme un environnement Jupiter avec une certaine personnalisation visuelle. Et il a beaucoup de bibliothèques pré-construites pour l'apprentissage automatique et l'apprentissage profond. Vous pouvez simplement vous connecter en utilisant votre Jimmy lady ou Google lady, puis créer un nouveau bloc-notes et commencer à coder. Créons un nouveau bloc-notes que j'ai déjà connecté. Donnera un nom à ce fichier. Nous pouvons aller à la configuration de l'outil et changer le thème en sombre ou adaptatif. Envoyez-le dans l'obscurité. La Colombie est comme un environnement de bloc-notes Jupiter. Vous pouvez simplement taper le code NDA, appuyez sur Maj Entrée. Vous verrez la sortie. Ou vous pouvez cliquer sur l'icône Exécuter ici et exécuter le programme. Et vous pouvez cliquer avec le bouton droit sur Supprimer le péché ou vous pouvez simplement cliquer ici et supprimer la vente. Dans Kuulab trouverez la plupart des bibliothèques d'apprentissage automatique et d'apprentissage profond pré-installées. Si quelque chose n'est pas installé, vous pouvez faire pip installer ici et l'installer. wallabies aiment l'environnement Linux. Vous pouvez faire le point d'exclamation Ellis et voir tous les fichiers qui sont présents ici. Actuellement, il n'y a rien qui soit un exemple de dossier de données dans votre moment colombien. Et tous les fichiers sont enregistrés sur Google Drive. Va transférer cela pour choisir vos fichiers au moment colombien. Nous irons dans notre dépôt GitHub. Et nous avons déjà téléchargé les fichiers pickle dans ce dépôt sur GitHub, déploiement
futuriste de modèle ML qualifié. Sélectionnez le classifié ou typique. grandement peut télécharger et copier l'adresse du lien, aller à la colombienne Robert et faire un Linux W obtenir. Et le chemin d'accès s'assure que le chemin d'accès du fichier est la ligne. Obtenez le fichier, faites ls pour voir si le fichier a été copié ou non. Ensuite, nous allons obtenir le détartreur standard. Cliquez sur un cornichon CDO, non ? T peut télécharger, copier l'adresse de lien, ne pas faire un W GET et obtenir le fichier décaleur standard. Maintenant, nous pouvons voir les deux fichiers marinés sont disponibles dans le moment colombien. Nous avons téléchargé la morale au moment colombien. Ici, dans ce cahier. Nous ne savons pas comment les modèles ont été construits sont formés, mais nous pouvons utiliser ces modèles pour faire des prédictions similaires à celles que vous avez faites précédemment. Créez un objet classificateur. On appellera ça l'effondrement du classificateur. Créez un objet scalaire. Et nous utiliserons ce classificateur et ce savant pour prédire. Tapez simplement le nom de la variable et appuyez sur Entrée. On verra la sortie. Donc la prédiction est 0. Il est identique à ce que nous avons obtenu plus tôt pour un client avec l'âge de 40 ans et tout à coup 20 mille va obtenir la probabilité aller aussi. Vous pouvez également imprimer la même cellule. Le dernier terrain est imprimé. Donc, nous voyons 20% probabilité de quelqu'un avec l'âge 40 et solide 20 000 acheter le produit fera la même chose pour l'âge 42 et san-serif 50 mille. La prédiction en est une. La probabilité est de 0,6 parce que nous n'avons pas mis le bord droit. On recommence. Cette fois, on en a 80. C' est ainsi que nous pouvons former des modèles dans un environnement unique et les
amener dans un environnement complètement nouveau et les exécuter morts. Vous donnez le modèle à une autre équipe ou à un tiers. Ils ne savaient pas comment vous avez intégré entrer dans votre modèle tout le bruit. C' est un classificateur, il prend de la valeur dans un certain format. Et Gibbs doute.
11. Comprendre la structure web Flask: Ensuite, nous allons comprendre comment exposer le modèle d'apprentissage automatique avec redémarrages de l'API de
repos par transport d'État représentatif. Le repos est un moyen populaire de données étendues dans le monde réel. Vous pouvez créer une application en utilisant Java, Scala ou toute autre technologie, et vous pouvez l'exposer avec une interface de repos au monde extérieur. Et en effet, le client veut utiliser votre application ou accéder aux données,
ils peuvent le faire en utilisant les données de poignet est généralement étendu au format XML ou JSON sur le protocole HTTP. Flask est un framework populaire pour construire l'API Rest pour une application Python. Regardons d'abord une application API de repos de flasque helloworld. Ensuite, nous allons plonger dans l'exposition de notre modèle d'apprentissage automatique à l'API restante. Dans araignée a créé un nouveau fichier Python. On l'appellera Flask Helloworld. Pour créer une fiole Christy EPA, importez Flask et l'objet de requête associé à partir de la bibliothèque de flasques. Vous pouvez accéder à la documentation Flask pour en savoir plus sur la création d'une application Flask. Pour l'instant, il suffit de suivre cette syntaxe et avec quelques lignes de code, vous pouvez le construire comme TPA. Nous allons déclarer un modèle de classe Endpoint. Et qui recevra la demande de poste dans cette application. En utilisant post, vous pouvez envoyer des données à l'API restante et recevoir une réponse. Si vous utilisez Git, vous ne pouvez recevoir qu'une réponse. Faisons une fonction bonjour monde. Dans cet exemple, nous allons envoyer les données au format JSON et les recevoir au format JSON. Ici, quelles que soient les données que nous recevons la demande au format JSON, nous le stockons dans les données de soulignement de requête passeront le nom du modèle dans la requête qui va récupérer et affiché à l'utilisateur. N' importe qui pourrait poser le nom du modèle en invoquant ce dernier point de modélisation affiche une chaîne simple que vous demandez pour une interpolation de chaîne Python. Nous montrons ce modèle Nim. Maintenant, ajoutons une méthode principale. Spécifie le numéro de port de sorte que lorsque l'application est démarrée, elle l'exécute ce port particulier. Lancez l'application dans l'environnement local. Si quelqu'un veut l'utiliser, invoquera avec ce modèle de classe que vous êtes. Maintenant, pour courir. Il va aller à l'invite de commande et démarrer le programme. Regardons l'invite de commande premier. Maintenant, commençons. Mais... Programme Helloworld, darpa est maintenant commencé. Nous avons créé une API de repos simple qui fonctionne au port 8 mille. Voyons maintenant comment envoyer des données à cette application et recevoir une réponse. Nous allons créer un nouveau fichier Python. On appellera ça le restaurant un point végétal. Puisque vous allez envoyer les données au format JSON, importons JSON First. Nous devons également importer la bibliothèque de requêtes. Request est la bibliothèque HTTP. Et tu pourrais juste planer dessus et en lire plus à ce sujet. Utilisation des requêtes. Vous pouvez envoyer une requête HTTP. Maintenant, nous allons avoir une variable pour l'URL. Dans le nom du serveur. Nous pouvons ajouter localhost, ou nous pouvons mettre l'adresse IP qui a été affichée dans la console, 1270018 mille, qui pointe vers l'hôte local, aura des données de requête très simples au format JSON avec une clé et une valeur. Et nous passons KnN est le membre modal. Maintenant, nous allons envoyer une demande de poste, éventuellement URN entrer des données au format JSON. Et à partir de l'objet de réponse, nous pouvons extraire le texte et l'imprimer. Maintenant, exécutons-le et voyons la puissance de sortie. Maintenant, nous pouvons voir la sortie que vous demandez pour un modèle KNN, qui vient de grâce TPA.
12. Créer une API REST pour le modèle de classification: Ensuite, nous allons créer une liste EPA pour le
modèle d'apprentissage automatique afin que tout le monde puisse invoquer le risque EPA et faire des prévisions. Créons un nouveau fichier Python. Nous l'appellerons classificateur service de repos point pi. Copions le code de l'application HelloWorld Python. Et nous allons importer cornichon, importer numpy va dominer les fichiers cornichons. Nous utiliserons les classificateurs locaux pour prédire les données. Pour n'importe quelle haie. Et le salaire récupérera le salaire de l'agent de la demande représentera d'abord h, puis le salaire. Nous passons maintenant les gays dans les variables de bord salarial au classificateur pour prédire. Et quelle que soit la prédiction que nous avons, nous la rendrons. La prédiction est et passe la variable de prédiction à un moment différent. Maintenant, exécutons cette application. Nous dirons classificateur Python, assistant rr. À présent, il est en cours d'exécution au port 8 mille. Effacons la classe Machine Learning. On l'appellera un client de repos fondu. Copions le code d'ici. Et au lieu d'avoir un kNN mortel, maintenant, deux paramètres que nous utilisons, qui est une valeur numérique, disons 40. Et nous aimons le salaire, 20 000. Nous passons deux variables maintenant. Et avec ces deux variables, nous allons appeler la
méthode de prédiction du classificateur pour obtenir la prédiction où il y aura 0 ou un. Et sur la base de cette prédiction, revenons à si client maintenant, exécutons-le. Nous le ferons dans un autre port. Laisse effacer la console et sont là pour imprimer la déclaration pour le salaire de l'agent afin que nous puissions savoir ce qui est la folie ou d'être passé. Laissons-le et voyons si tout va bien. Il a bien compilé. Nous allons maintenant l'exécuter à partir de l'invite de commande. Il est en cours d'exécution au port 8 000 jusqu'à maintenant. Et on va voir le client de courrier et l'appeler avec l'âge pour les 20 000 Sangre. La prédiction est 0. Si nous l'appelons avec l'âge 42 et le salaire, 50 000 enregistrés, la prédiction est un. Au lieu de deux prédictions finales, nous pouvons également déterminer la probabilité ou le risque de TPA. On peut voir que la prédiction est de 0,8. Et si on le change à 4020 000, on devrait obtenir 0,2. Nous avons vu comment créer une API de repos en utilisant qui sont les clients peuvent accéder au modèle d'apprentissage automatique et obtenir la prévision. Et ces clients peuvent s'exécuter en Python, Java ou tout autre langage. Ils peuvent envoyer des données via HTTP et recevoir une réponse à ce qu'est le PIB. Donc, lorsque vous faites un appel de repos ne sera pas seulement sur la façon dont l'application est écrite. C' est ainsi que nous pouvons exposer votre modèle d'apprentissage automatique Python à d'autres applications qui sont écrites en utilisant Python.
13. Régression linéaire: Nous allons donc comprendre la régression linéaire à travers un exemple simple. Contrairement à la classification où nous prédisons la classe de la sortie. Ici, nous prédisons des valeurs continues. Par exemple, si ce graphique montre quel est le prix de la voiture pour un certain nombre de cylindres, alors donné un certain nombre de cylindres, pouvons-nous prédire le prix de la voiture ? Ce type de prédiction s'appelle Régulation. Maintenant, compte tenu de ces points de données, comment déterminer le prix d'une voiture neuve pour un certain nombre de cylindres ? En utilisant la régression linéaire, nous pouvons facilement résoudre ce problème. La régression linéaire n'est rien d'autre que d'essayer de trouver la ligne qui correspond le mieux à ces points. Et comment déterminons-nous cette ligne ? Il est calculé sur la base d'une formule appelée Y égale a plus bx, où a est l'interception et b le coefficient de la ligne. Maintenant, il faut un nouveau point, si nous connaissons la valeur x, alors nous pouvons facilement déterminer la valeur y en utilisant cette formule. Scikit-Learn et d'autres bibliothèques d'apprentissage automatique, ils vous fournissent une classe à l'aide de laquelle vous pouvez alimenter différents points de données et obtenir cette agression ou le prédicteur. Comment le modèle détermine-t-il la ligne la plus ajustée ? Et comment connait-on l'exactitude de la prédiction ? Cela se fait par un concept simple appelé r-squared, qui est également connu sous le nom de coefficient de détermination. Ce que cela signifie est la qualité de la ligne par rapport à la ligne qui est représentée par la valeur moyenne de tous les points. Par exemple, si c'est la valeur moyenne de tous les points de données, nous pouvons également prédire en utilisant cette valeur moyenne. Mais si nous arrivons à une nouvelle régression linéaire de largeur de ligne, nous devons voir à quel point cette voie est bonne par rapport à cette ligne. Maintenant, calculer le concept de valeur R carré est simple. Vous calculez quelle est l'erreur pour chacun des points. Cela signifie à quelle distance la ligne est éloignée de la valeur réelle ? Pour n'importe quel point ? Si c'est la valeur réelle, le pointé avec la ligne rouge verticale intercepte le prédicteur est la valeur prédite. La distance en rouge représente la perte ou l'erreur de prévision. Vous calculez la perte pour chaque point. Faites un carré de cela, et additionnez-le, vous obtenez la somme des valeurs résiduelles qui est affichée dans le numérateur ici. De même, vous calculez la distance de
la ligne moyenne par rapport à la valeur réelle représentée en vert ici. Donc, c'est la somme des carrés jusqu'aux totaux inférieurs l'erreur inférieure est la valeur de la somme des carrés des valeurs résiduelles. Donc, le numérateur tendra à 0. Lorsque le modèle devient plus précis. Cela signifie que la valeur R carré serait plus proche d'un pour une modélisation plus précise. Donc plus haut le carré de la partie de la fenêtre est mieux la précision. Et R-carré ne peut jamais Maxwell en boucle un. R-square est également connu sous le nom de coefficient de détermination. Vous ne vous souvenez peut-être pas de la formule exacte de R-carré. Mais pour n'importe quel modèle, vous trouverez une méthode pour obtenir la valeur R-square. Hollywood à vérifier est si elle est proche d'un ou non. Si la valeur est proche d'un, alors vous savez que votre modèle est très précis. Appliquons ce concept et résolvons un cas d'utilisation. Ensuite, nous allons voir comment extraire des formules, puis utiliser la formule pour prédire la sortie pour un nouvel ensemble de valeurs. Nous avons un nouveau jeu de données appelé maison priays dot csv. Donc, il est deux champs, la distance et le prix. Donc la distance représente quelle est la distance de la maison du centre-ville et,
et représente ce qui est le prix de la maison. Donc, comme vous pouvez le voir, sont plus élevés la distance inférieure est le prix. Maintenant, comment calculer comment les sprays d'une nouvelle maison, qui est à une distance particulière du centre-ville. Nous devons construire un modèle d'apprentissage automatique à l'aide de la technique de régression linéaire, que vous apprenez de ces données et créer un modèle à l'aide duquel nous pouvons prédire les jeux de maison pour un nouvel ensemble de données. Importons les bibliothèques standard. Cette fois, nous allons également importer matplotlib afin que nous puissions tracer le prix de la maison et la distance. Ensuite, chargeons le jeu de données dans un DataFrame Pandas. Ainsi, comme vous pouvez le voir, la publicité chargée dans les pandas DataFrame. Décrivez-le pour obtenir des informations statistiques. Nous pouvons voir qu'il y a 40 enregistrements et la moyenne, écart-type et d'autres valeurs. Séparons les variables indépendantes et dépendantes. X aura la distance au centre-ville et pourquoi vous avez laissé le prix de la maison. À ce stade. Nous pouvons également tracer le prix de la maison et la distance pour voir à quoi il ressemble sur un graphique. On peut voir qu'il y a une relation linéaire. Au fur et à mesure que
la distance augmente, les prix des maisons baissent. Et c'est de façon linéaire. Maintenant, en utilisant la régression linéaire devra trouver une ligne qui représente le mieux ces points. Et l'utilisation de cela permettra de prédire la sortie pour les nouveaux points de données. Nous allons le commenter pour l'instant. On recommence. Maintenant, l'utilisation de la division de test de train scikit-learn va créer les données de formation et les données de test à l'aide de 32 enregistrements pour la formation et de huit enregistrements pour les tests. Scikit-Learn fournit dans la classe de régression linéaire à l'aide laquelle nous pouvons créer un objet de régression qui sera notre modèle. Donc l'agression est la ligne ou le modèle qui a été formé sur les données de formation. À partir de la régression, nous pouvons facilement calculer la valeur du carré R. Il y a une méthode de score qui nous donne le carré R. Affiche la valeur carrée R est 0,807. À partir du régresseur, nous pouvons facilement déterminer le coefficient d'interception pour notre interception est 610710. Allons maintenant obtenir le coefficient. Le coefficient est moins 72635 parce que les prix de nos maisons baissent à mesure que la distance augmente. C' est là que nous sommes un seul coefficient négatif. Maintenant, quiconque veut utiliser notre modèle peut prendre cette interception et ce coefficient et obtenir le prix de la maison. Nous n'avons pas besoin de leur envoyer la classe de régresseur au format binaire ou d'exporter ce modèle. Tout ce que nous avons besoin de partager, c'est la formule. Donc, notre formule devient Y interception égale plus coefficient multiplié par x. il est
donc la séquence 610710 moins 72635 multipliée par la distance va d'abord prédire en utilisant la méthode de prédicteur, va alimenter les données d'entraînement à la régression et obtenir la prédiction. C' est donc le prix prédit de la maison. Comparons ça à la maison de prison. Nous pouvons voir que, dans certains cas, c'est très proche. Dans certains cas, il est peu éloigné du prix réel. Ce sont les prix réels, ce sont les valeurs prévues. Nous pouvons également tracer la valeur prédite et la valeur réelle. Création d'un diagramme éparpillé pour les valeurs réelles par période de valeur prédite. Donc cette ligne représente notre degré ou notre prédicteur. Maintenant, pour tout nouveau point, nous pouvons facilement déterminer le prix de la maison compte tenu de la distance par rapport aux citoyens. Prédisons maintenant le prix de la maison pour
une maison qui est à 2,5 miles du centre-ville. La valeur se situe autour de 1449100 à 0. Nous pouvons également obtenir la même sortie en utilisant la formule y égale interception plus coefficient multiplié par la valeur X. On a donc quatre contre 91 contre 0. Maintenant, pour partager ce modèle avec n'importe qui, nous pouvons partager la formule. Nous pouvons également créer des fichiers cornichons et créer des API de repos, mais c'est l'une des options disponibles pour exporter des modèles de régression linéaire.