Transcription
1. Vidéo d'introduction: tous et bienvenue dans mon
dernier cours, Intro to Colab. Alors qui suis-je et pourquoi
devriez-vous m'écouter ? Eh bien, je suis un
programmeur paresseux et je suis l'auteur de plus de 30
cours en ligne sur la science des données, l'apprentissage
automatique et l'analyse
financière. J'ai deux masters en ingénierie et en statistiques. Ma carrière dans ce domaine s'
étend sur plus de 15 ans. J'ai travaillé dans plusieurs
entreprises que nous appelons aujourd'hui Big Tech et dans plusieurs startups. Grâce à la science des données, j'ai
augmenté mes revenus de
plusieurs millions de dollars grâce
aux équipes que j'ai dirigées. Mais surtout,
je suis très
enthousiaste à l'idée de vous proposer cette technologie
essentielle. Alors, quel est l'objet de ce cours ? Ce cours est un refrain très
simple conçu
pour vous aider à démarrer
avec Google Colab. Maintenant, vous vous demandez peut-être
ce qu'est Google Colab ? Google Colab est une plate-forme informatique très
puissante qui vous permet de fonctionner sur ordinateurs portables
Jupyter dans le cloud. Cela signifie que vous n'avez pas
besoin d'acheter du matériel
coûteux pour faire de l'apprentissage
automatique
et de la science des données. Vous pouvez simplement utiliser le
matériel de Google pour un festival gratuit. Vous pouvez également accéder gratuitement
aux GPU et aux TPU, qui sont essentiels à la formation de réseaux neuronaux profonds
modernes. Alors, qui doit suivre ce cours et comment vous y préparer ? Ce cours est conçu
pour les étudiants qui
s'intéressent à la science des données
et à l'apprentissage automatique. Mais je n'ai jamais entendu parler de colab besoin d'
aide pour le configurer. Vous n'avez même pas besoin
de savoir
coder pour suivre ce cours, même si cela peut être
utile si vous voulez comprendre pourquoi nous
faisons ce que nous faisons. Donc, en termes de ressources, quelles ressources aurez-vous besoin
pour suivre ce cours ? Heureusement, pas grand-chose. Vous aurez besoin d'un ordinateur, d'un navigateur Web et d'une
connexion à Internet. Et si vous
regardez cette vidéo, vous remplissez déjà
ces conditions. Voyons maintenant
pourquoi vous devriez suivre ce cours et ce à quoi vous devez vous
attendre. En termes simples, Google Colab est un outil puissant
et pratique et c'est vraiment incroyable que
nous puissions l'utiliser gratuitement. En utilisant Google Colab, vous pourrez
transférer tous
vos
scripts importants de science des données
et d'apprentissage automatique vers le cloud et les partager
facilement
avec vos collègues. À la fin de ce cours, vous aurez configuré Google
Colab sur votre compte Google. Et vous pourrez gérer
vos propres ordinateurs portables et utiliser les GPU et TPU
gratuits de Google. J'espère donc que vous êtes tout
aussi enthousiaste que moi à l'idée de découvrir cette
incroyable plateforme. Merci de m'avoir écouté, et je vous
verrai lors de la prochaine conférence.
2. Comment configurer Google Colab: Dans cette conférence, nous
allons passer en revue un tout nouvel environnement
passionnant pour écrire du code
d'apprentissage profond en Python, Colab de Google,
abréviation de Collaboratory. Pour ceux d'entre vous qui aiment
utiliser le bloc-notes Jupiter, c'est une option encore meilleure. C'est fondamentalement le même que carnet
Jupiter avec
les bonus suivants. abord, il est hébergé par Google, ce qui signifie que vous n'avez pas à utiliser votre propre puissance informatique. Vous remarquerez que lorsque vous
devez télécharger des fichiers de données, cela se fait très
rapidement car, eh bien, le réseau de Google
est extrêmement rapide. Ensuite, vous avez accès à un GPU et même au nouveau TPU de Google, qui est assez incroyable. Un TPU n'est pas quelque chose que vous pouvez acheter pour votre ordinateur personnel. C'est donc très agréable de
pouvoir en utiliser un. N'oubliez pas que, compte tenu de la manière dont le code
TensorFlow est écrit, vous n'avez pas à vous soucier du
type d'appareil que
vous utilisez. Eh bien, dans la plupart des
cas, le même code fonctionnera, que vous
utilisiez un processeur, un GPU ou un TPU. Troisièmement, les carnets de notes Colab sont stockés dans votre Google Drive, donc dans le Cloud. Vous ne le perdrez jamais et il est très facile de le partager
avec d'autres personnes. Quatrièmement, de nombreuses bibliothèques dont vous avez besoin
pour
le deep learning, l' apprentissage
automatique et
la science des données sont déjà incluses. En fait, j'ai été surprise qu' il y en
ait beaucoup
plus que je ne le pense, voire que des
bibliothèques d'apprentissage
en profondeur concurrentes soient déjà incluses, telles que le piano et Py Torch. Donc, pour ceux d'entre vous qui
détestent configurer un environnement, moi y compris, c'est
vraiment génial. Donc, dans cette conférence,
nous n'allons
rien faire de vraiment compliqué
sur le plan technique. Nous
allons plutôt parler Google Colab et faire quelques courtes
démos pour que vous sachiez comment cela
fonctionne et que vous puissiez constater par vous-même que c'est comme écrire du
Python n'importe où ailleurs. Pour commencer, je
suppose que vous savez déjà comment créer un compte
Google Drive. Si vous n'en avez pas, rendez-vous sur drive.google.com
et inscrivez-vous. Une fois que vous avez votre
compte Google Drive et que vous êtes connecté, vous verrez cette interface. À partir d'ici. Vous pouvez
accéder au nouveau menu, qui vous permet de créer
différents types de fichiers, tels que Google Docs, une feuille de calcul, une
présentation, etc. Alors allons-y. Maintenant, ce que vous
voulez faire est d'aller dans le menu Plus et de
cliquer sur Collaboratoire. Très bien, comme vous pouvez le voir, cela fait apparaître un nouveau carnet. Et à partir de là, vous pouvez
l'utiliser principalement comme vous le feriez
avec un ordinateur portable normal. Maintenant, il
se peut que vous ne voyiez pas du tout Collaboratory
dans le menu. Comme vous pouvez le constater, j'ai cliqué sur le menu Nouveau
et j'ai cliqué sur d'autres, mais je ne vois pas
Colab dans ce cas. Voici ce que tu peux faire. Vous souhaitez sélectionner, connecter plus d'applications. À partir de là, il suffit de
rechercher Colab. Et la première chose qui
apparaîtra est le Colab de Google. Ajoutez ceci et Google
Colab sera disponible dans le menu
que nous venons de consulter. Donc, si nous y
retournons, nous pouvons voir que Colab apparaît
maintenant là où il le devrait. Nous allons donc
renommer ce carnet
en tf point Dato intro. Donc, d'abord, nous allons passer
aux bonnes choses. Comment utiliser
un GPU ou un TPU ? Pour ce faire,
vous devez accéder au menu d'exécution et sélectionner
Changer
le type d'exécution. Comme vous pouvez le constater, il y a
deux cases de sélection ici. La première vous permet de sélectionner
la version de Python que
vous souhaitez utiliser. Nous allons donc utiliser Python
3 pour ce cours. Le second et vous permet de sélectionner type d'appareil que
vous souhaitez utiliser. C'est donc soit aucun, qui est la valeur par défaut, GPU ou TPU. Notez maintenant que
parfois le GPU ou TPU peuvent ne pas être disponibles. Cela est dû au fait qu'il
s'agit de ressources partagées. Vos collègues
qui suivent ce cours et d'autres
étudiants et chercheurs en apprentissage automatique du monde entier utilisent
peut-être Google Colab. Et nous partageons tous
ces ressources. Donc, si notre utilisation de ces ressources atteint la
limite des ressources disponibles, il se peut que vous n'ayez pas de GPU ou TPU disponible lorsque
vous en avez besoin. Pour cette raison, une partie
du code que vous verrez dans ce cours peut également être
créée sur ma machine locale. Mais n'oubliez pas que le code Python
fonctionne de la même manière n'importe où, donc cela ne
fait aucune différence. Ensuite, vous pouvez voir qu'il existe deux principaux types de cellules que nous pouvons créer dans le bloc-notes. Code et texte. Vous pouvez cliquer sur l'une ou l'autre de ces cases
pour créer une nouvelle
cellule de ce type. Cliquons sur Texte, car c'est un peu plus facile. Ce n'est pas vraiment quelque chose que nous
allons utiliser très souvent, alors
éliminons-le. Je vais donc
supprimer la toute première cellule. Très bien, comme vous pouvez le
voir, lorsque je clique dessus,
cela crée une nouvelle cellule avec ce qui ressemble à
un éditeur de texte enrichi. Vous remarquerez qu'il est
divisé en deux moitiés. La partie gauche est l'endroit où
vous entrez votre texte et la partie droite est un aperçu de ce à quoi il ressemblera. Entrons donc du texte. C'est mon titre. Vous pouvez maintenant cliquer sur la petite icône en
forme de T, qui le transforme
en texte d'en-tête. Vous pouvez donc voir que cela le
rend un peu plus grand
et plus audacieux,
adapté à un titre. Ensuite,
saisissons du texte normal. Il s'agit d'un texte normal. Notez qu'il existe également
ces crochets fléchés. Il semble donc que cela va nous
permettre de saisir des extraits de code. Essayons donc ça. Comme vous pouvez le voir, cela fait du texte
une police monospace
, appropriée pour le code. Maintenant, il y a
d'autres options ici. Vous pouvez donc créer un lien, ajouter des images, retrait, ajouter une liste
numérotée ou à puces, etc. Donc, si cela vous intéresse, jouez avec ça. Sinon, nous n'allons pas
le mentionner à nouveau. Ensuite, nous avons la cellule de code, créons-en une. Très bien, et comme mentionné, nous n'allons pas écrire de code
sophistiqué dans cette conférence. Nous voulions simplement
faire quelque chose de simple pour nous assurer que tout
fonctionne comme prévu. Commençons donc par importer
numpy et matplotlib. Très bien, magnifique. Comme je l'ai mentionné précédemment, ceux-ci sont déjà
préinstallés. Ensuite, créons une nouvelle
cellule de code et créons une onde sinusoïdale. Nous devons donc d'abord
créer des valeurs x. Faisons donc x aller de 0 à 10 pi
avec 1 000 points entre les deux. Ensuite, faisons de
y le sinus de x. Ensuite, créons une nouvelle cellule et traçons ce que nous venons de créer. Donc, c'est juste plt.plot x y. Maintenant, comme il s'agit d'un carnet, il n'est pas nécessaire d'appeler plt.show puisque le tracé
apparaîtra simplement dans le carnet lui-même. Très bien, très cool. Fonctionne comme un carnet
ordinaire. À ce stade, nous sommes convaincus que Google Colab vous permet de faire les choses
habituelles que vous
attendez d'un ordinateur portable Jupyter. Maintenant, comme je l'ai mentionné plus tôt, ce qui est très intéressant à
propos de Colab, c'est qu'il est déjà livré avec un tas de
bibliothèques utiles préinstallées. À mon avis, cela rend Google Colab bien meilleur
que le bloc-notes Jupiter. Et si quelqu'un me demandait
d'écrire dans un environnement de
bloc-notes,
je choisirais d'écrire dans un environnement de
bloc-notes, Colab par défaut. Je ne suis pas un grand fan des carnets de notes, mais je suis un grand fan de Colab. Nous pouvons donc voir ici
que j'
ai écrit du code pour essayer d'importer
un tas de bibliothèques. Plus précisément, ces
bibliothèques sont des bibliothèques qui ont été
utilisées dans mes cours, certaines plus que d'autres. Certains sont assez rarement utilisés. vous attendez donc pas à ce
qu'elles soient incluses dans des bibliothèques
telles que Word Cloud, que nous n'avons
utilisée qu'une seule fois jusqu'à présent. Et pourtant, si nous regardons, nous voyons que tout ce que
j'ai essayé d'importer ici ne
génère pas d'erreur. Cela nous indique donc
que ces bibliothèques sont effectivement disponibles. Ce qui
m'intéresse, c'est que certaines de ces bibliothèques ne sont pas du tout liées à
l'apprentissage automatique. Bien sûr, nous les avons utilisés
dans mes cours car ils sont généralement utiles
en tant que bibliothèques Python. Mais il est agréable de voir
que les employés de Google
utilisent également ces mêmes bibliothèques et ont donc pensé à les inclure. Vous pouvez donc voir ici les
éléments habituels tels que scikit-learn, numpy, scipy,
matplotlib dans Pandas. Nous avons également Torch et le Nano, ce qui est surprenant
car ce sont des bibliothèques de
deep learning concurrentes et le
développement du ghetto
est arrêté depuis un certain temps. Maintenant. Nous avons également un
nuage de mots maritime, Beautiful Soup, qui est destiné aux demandes d'analyse XML et
HTML, qui permet de passer des appels HTTP. Network X, qui est pour la fonctionnalité
graphique, CB2, qui est pour OpenCV. Et Jim, qui est OpenAI Gym. Dans l'ensemble, c'est très impressionnant et
bien plus que ce à quoi je m'attendais. Il y a donc quelques dernières mises en garde à faire à Colab et je
voulais le mentionner. abord, la principale
chose à retenir est qu'il
s'agit du Cloud, donc ce sont des ressources partagées. Cela vous
affecte donc notamment si vous
laissez votre ordinateur portable
seul pendant une longue période,
il deviendra inactif
et se laissez votre ordinateur portable
seul pendant une longue période, déconnectera. calculs que
vous avez effectués
précédemment ne seront pas enregistrés. Ainsi, par exemple si vous définissez une
variable a égale cinq, puis que vous revenez
plus tard après la déconnexion de votre bloc-notes et
que vous essayez d'imprimer une,
cela indiquera que
a n'est pas défini. Vous voyez que ce bloc-notes
s'est déconnecté. Supposons que je me
reconnecte et que j'imprime un. Cela signifiera que
a n'est pas défini. Cela vous affecte également, car vous risquez de
manquer de mémoire. Donc, si cela se produit, vous pouvez plutôt essayer d'exécuter le code sur votre
machine locale. Et comme mentionné précédemment, le GPU et le TPU peuvent ne pas
être disponibles. Ainsi, soit vous pouvez exécuter votre
code sans le GPU ou le TPU, exécuter le même
code localement comme toujours, options que vous aviez précédemment
sont toujours disponibles. exemple, vous pouvez mettre en service
une instance GPU sur AWS
qui, si vous choisissez la
bonne AMI ou l'instance Amazon Machine Instance, sera
livrée avec les bibliothèques habituelles
préinstallées également.
3. Installer Tensorflow 2.0 sur Colab (facultatif): Maintenant, il y a une raison pour laquelle
je n'ai pas mentionné TensorFlow spécifiquement
dans la conférence précédente. C'est parce que c'est
ce dont nous allons
parler dans cette conférence. Cette conférence va donc
expliquer comment
utiliser TensorFlow to 0.0 dans Colab. Vous remarquerez que si
vous importez TensorFlow dans Colab et que vous vérifiez la
version, le message 1.14 sera affiché. Alors faisons-le. Maintenant. Cela
dépend évidemment du moment où vous essayez de le faire. Actuellement, au moment où
je prépare ce cours, TensorFlow to 0.0
est toujours en version bêta, ce qui signifie qu'il n'a pas encore été
officiellement publié. Donc, si vous essayez d'utiliser
la commande habituelle, pip install TensorFlow, vous n'obtiendrez pas
TensorFlow à 0.0. Bien entendu, cela
changera à l'avenir lorsque TensorFlow to 0.0
sera officiellement publié.
À ce moment-là, la
commande habituelle pip install TensorFlow vous
donnera
TensorFlow vers 0.0. Et bien sûr, au fur et à mesure
que
les versions suivantes seront publiées, elles passeront à 2.1
à 0.2 et ainsi de suite, ou quel que soit le
numéro de version qu'elles utiliseront. Heureusement, vous pouvez installer d'autres bibliothèques dans
un bloc-notes Colab, qui n'était pas fourni avec
le bloc-notes. Par exemple si Colab n'est pas fourni avec
scikit-learn installé, vous
devez simplement exécuter
la commande pip install scikit-learn
dans une cellule de code du bloc-notes Colab. En d'autres termes,
pour installer des bibliothèques, il suffit d'exécuter
les commandes PIP habituelles. Il suffit de
mettre le symbole bang premier, et plus à ce sujet plus tard. Pour l'instant, nous nous intéressons
à TensorFlow to 0.0. Au moment où j'ai réalisé cette vidéo, la version actuelle de
TensorFlow to 0.0 est bêta 1. La commande actuelle serait Bang pip install moins
q TensorFlow est égal à 2,0, 0,0 tiret Beta-1. Notez que l'
option minus q signifie « silencieux », ce qui signifie simplement que vous
imprimez moins de contenu. Cela ne modifie pas réellement la fonctionnalité
de la commande. Surtout, ici,
vous devez garder à l'esprit que l'une de
mes fameuses règles, apprendre les principes,
pas la syntaxe. C'est très important ici. Pourquoi est-ce que je dis ça ? Eh bien, inévitablement, une
âme perdue finira par se dire : « Pourquoi devrais-je utiliser cette commande alors que la troisième
version bêta de TensorFlow est sortie ? Cela ne signifie-t-il pas que la
conférence est périmée ? Ne devriez-vous pas mettre à jour
cette conférence ? Et souvenez-vous de la règle, apprenez les principes,
pas la syntaxe. Bien entendu, aujourd'hui, la
dernière version est Beta-1. Demain, ce
sera peut-être du bêta-2 et bêta-3 ou du bêta cinq cents. Qui sait ? Le
principe est de consulter site Web de
TensorFlow pour vérifier quelle est la commande actuelle. C'est le principe. N'essayez pas de mémoriser la commande
d'installation mot pour mot, ce qui serait très stupide. Ok, alors sois intelligent. Ne sois pas stupide.
Apprenez les principes et ne mémorisez pas la syntaxe. Notez également que vous pouvez installer la version GPU de TensorFlow,
qui consiste, comme d'habitude, installer le GPU TensorFlow. Fait intéressant, sur
Colab, j'ai découvert que l'utilisation du GPU n'est pas beaucoup
plus rapide que celle du processeur. Donc, pour la plupart des petits problèmes, peu importe ce que
vous utilisez pour les TPU, nous discuterons son
fonctionnement plus tard
dans le cours. Alors exécutons-le. Ainsi, après avoir installé
TensorFlow sur 0.0, vous pouvez vérifier à nouveau la version. Il suffit d'imprimer le trait de
soulignement TF, version de
soulignement, le
soulignement, le trait de soulignement. Et vous devriez voir 2.0, 0.0 ou quelque chose de similaire. Alors exécutons-le. Maintenant, il y a une mise en garde à ce
sujet, c'est que j'ai découvert que parfois
cela ne fonctionne pas. Donc, même après avoir installé
TensorFlow sur 0.0, j'imprime la version
et elle indique toujours 1.14. Il semble que le
problème est que si vous importez TensorFlow et que vous essayez ensuite de
changer de version,
cela ne fonctionnera pas. Donc, si vous le faites
accidentellement et que vous
voulez vraiment que TensorFlow passe à 0.0, vous devez abord vous assurer que vous n'
essayez pas d'importer TensorFlow
avant d'installer TensorFlow. Commentons donc cela. Ensuite, allons dans
le menu d'exécution et sélectionnons Redémarrer l'exécution. Donc oui, donc nous ne gérons
plus cela. Nous allons juste l'exécuter. Et maintenant, nous allons l'exécuter. Et ça fonctionne. Nous avons donc maintenant 2.0, 0.0 Beta-1. Maintenant, en général, je trouve
que c'est un peu bancal. Donc, si je lance ce
bloc-notes et que j' essaie de changer la version de
TensorFlow plus tard. Donc disons que j'essaie de passer d'un
processeur à un processeur graphique ou inversement, les choses ont tendance à devenir
un peu bizarres. Donc, ce que j'aimerais faire c'est que tout soit réglé
depuis le début, savoir ce que vous voulez utiliser, puis l'exécuter comme ça dès
le début et ne pas essayer changer les choses entre les deux parce que Parfois, ce
que vous utilisiez avant est un peu collant. Donc, même si vous essayez de le changer,
cela ne changera pas réellement. Maintenant, il y a une autre mise en garde
importante à ce sujet, savoir que si vous vous en
souvenez plus tôt, j'ai dit que si vous laissez
votre ordinateur portable inactif trop longtemps,
il se déconnectera. Si cela se produit, malheureusement, votre version de TensorFlow
reviendra à valeur par défaut et vous devrez à nouveau
installer TensorFlow vers 0.0. Personnellement, cela ne me
dérange pas de faire fonctionner toutes les
cellules à chaque fois. Puisque si je voulais vraiment tout
gérer en une seule fois, je le ferais simplement localement. Mais si, pour une raison quelconque, vous
souhaitez que TensorFlow
to 0.0 Beta-1 soit
installé en permanence dans votre Colab. Vous pouvez essayer la solution fournie dans ce
lien que j'ai joint. Encore une fois, cela dépend de vous. Mais personnellement, je n'avais
aucune raison de le faire moi-même. Vous vous souviendrez donc que nous avons
discuté de cette commande bancaire, qui
existe d'ailleurs également dans le Jupyter Notebook normal. Jusqu'à présent, vous savez qu'
il peut être utilisé pour exécuter des commandes d'installation pip. Mais en général,
vous pouvez traiter cela comme une directive qui
indique au bloc-notes que vous souhaitez
exécuter cette commande comme vous
le feriez dans le terminal, par exemple si je veux lister tous les fichiers
du répertoire, je pourrais utiliser la commande bang ls. Essayons donc ça. Il est intéressant de noter
que ce dossier apparaît sous le
nom d'exemples de données. Nous pouvons donc appeler le manuel
comme exemple de données. Vous pouvez voir ici que nous avons
le célèbre jeu de données m-nest,
le jeu de données California Housing et un fichier JSON aléatoire. Nous pouvons les utiliser ou non, mais ils sont utiles
si vous souhaitez simplement exécuter des tests simples, par exemple, essayer un simple
classificateur d'images sur m-nest. Quoi qu'il en soit, vous l'avez. C'est ainsi que vous utilisez
TensorFlow to 0.0 dans Colab. Au cas où il ne serait pas
encore officiellement publié.
4. Téléchargement de données dans Colab: Dans cette conférence,
nous allons effectuer quelques tâches supplémentaires dans Colab. Plus précisément, nous
allons examiner quelques moyens de télécharger votre
propre jeu de données dans colab. Supposons par exemple que votre client
ou votre employeur vous donne un fichier CSV ou que vous téléchargiez
un fichier CSV depuis Kaggle. Comment pouvons-nous ensuite rendre ce fichier accessible depuis notre carnet
Colab ? Dans cette conférence, nous
allons discuter de différentes
manières de procéder. La première méthode que nous
allons examiner consiste simplement à utiliser la commande
Linux classique W get. Comme indiqué précédemment,
vous pouvez exécuter des
commandes de ligne de commande avant la commande avec le symbole bang
ou le point d'exclamation. Alors allons-y et téléchargeons l'ensemble de données sur
les arythmies. Maintenant, nous voulons vérifier
où se trouvent les données et quand. Utilisons donc bang ls pour voir si les données se trouvent dans
notre répertoire actuel. OK, on dirait que c'est le cas. Utilisons maintenant la commande
head pour voir les premières lignes
du fichier de données. Et aussi pour vérifier si le fichier possède ou non une ligne d'en-tête. OK, donc il semble qu'il
n'y ait pas de ligne d'en-tête. Ensuite, essayons de charger les données
à l'aide de pandas. Nous allons le transmettre dans
l'en-tête égal à aucun, car nous savons que les données
n'ont pas d'en-tête. Ensuite, comme les données
comportent de nombreuses colonnes, nous allons simplement
prendre la première vue. Nous allons également
renommer les colonnes car il ne s'agit actuellement
que de valeurs entières. Comme d'habitude, comme
ces données proviennent
du référentiel UCI Machine
Learning, vous pouvez simplement consulter
la documentation si vous souhaitez en savoir
plus sur les données, exemple sur la nature de chaque colonne. Alors exécutons-le. Suivant. Créons un histogramme
de ces colonnes de données. Comme le bloc-notes par défaut
rend le tracé assez petit, nous allons importer matplotlib et modifier
la taille de la figure. Une fois cela fait, nous pouvons appeler df.head juste pour créer des histogrammes
pour chaque colonne. Notez que j'ai ajouté un
point-virgule à la fin de df.head simplement parce que
si ce n'est pas le cas
, un bloc-notes affichera
la dernière valeur renvoyée, comme d'habitude, ce que nous ne voulons pas pour le moment. Voici donc de jolis histogrammes
à regarder. Nous allons maintenant créer
un diagramme commun pour l' analyse
des données, la matrice de
dispersion. Cela permet de créer un nuage de points entre chaque entité et
toutes les autres entités. Le long de la diagonale.
Il trace simplement l'histogramme de chaque entité, que nous avons déjà vu. Très bien, assez
standard jusqu'à présent. Examinons ensuite la deuxième méthode de
chargement et de données, qui s'applique également
lorsque vous avez une URL. Cela permet d'utiliser directement
TensorFlow, particulier la fonction Keras
get file. Commençons par assigner l'URL à une
variable appelée URL. Nous allons utiliser le jeu
de données automatique MPG. Bien que cela n'ait pas
vraiment d'importance ce que vous utilisez pour cet exemple, tant que vous pouvez
y accéder directement via une URL. Allons-y. Suivant. Nous allons nous assurer que TensorFlow to 0.0 est installé. Nous allons donc exécuter pip
install TensorFlow, puis imprimer la
version pour nous assurer que nous avons la bonne. Ensuite, nous allons appeler
la fonction Keras get file. Le premier argument
est le chemin du fichier. Nous voulons en enregistrer deux, et le second argument
est la source du fichier. Allons-y. Notez qu'il est possible d'enregistrer le fichier dans un
autre répertoire, mais nous l'enregistrerons dans le dossier par défaut de
Keras. Vous pouvez donc voir sur
l'impression que
le fichier se retrouve dans des ensembles de données slash,
route, slash, point,
keras, slash, point, slash. Ensuite, nous allons appeler la
commande head afin que nous puissions voir les premières
lignes d'un fichier. Comme vous pouvez le constater, il ne s'agit
pas exactement d'un fichier CSV. Au lieu de cela, chaque colonne
est séparée par un espace et il n'
y a aucune ligne d'en-tête. Donc, pour charger ces données, nous pouvons toujours utiliser la fonction
pandas read csv, mais nous devons passer
deux arguments. Le premier argument est de
dire qu'il n'y a pas de ligne d'en-tête, l'
en-tête est égal à aucune. Et le deuxième
argument supplémentaire est de
dire aux pandas que le
délimiteur est un espace blanc. Nous avons donc défini l'
espace blanc du membre comme vrai. Ensuite, nous appelons df.head juste pour nous assurer que tout
fonctionne comme prévu. Comme vous pouvez le constater, le résultat semble être dans
le bon format. Et à partir de là, vous pouvez
traiter ces données en utilisant du code Python comme
vous le feriez normalement. La troisième méthode que
nous allons
examiner pour ajouter votre propre Colab
plus rapidement consiste à télécharger
le fichier directement. Pour ce faire,
nous devons exécuter une fonction Colab spéciale. Donc, nous disons que les fichiers d'importation de Google
Dot Colab appelés fichiers point upload. Alors exécutons-le. Vous voyez donc que cela crée un bouton de téléchargement sur lequel nous pouvons cliquer et ensuite choisir un fichier dans le système
de fichiers local. Je vais donc choisir les températures minimales
quotidiennes. Et si nous imprimons
la valeur renvoyée, vous pouvez voir qu'il s'agit d'un
dictionnaire où le
nom du fichier est la clé et la valeur
est le contenu du fichier. Si nous utilisons la
commande et que vous tapez ls, nous pouvons voir que
le fichier a été téléchargé dans le répertoire
de travail. Ensuite, lisons le fichier
en utilisant pandas pour nous assurer d'
obtenir ce que nous attendons. Maintenant, ce fichier a quelques
poubelles vers la fin. J'ai donc tenu compte
de cela en définissant les mauvaises
lignes d'erreur d'argument égales à false. Cela ignore les erreurs mais les
imprime au fur et à mesure
qu'elles se produisent. Comme vous pouvez le constater, le fichier
est correctement chargé. Pour suivre cet exemple, nous allons examiner une
variante de ce que nous venons de faire. Vous vous souvenez que lorsque vous
écrivez du code en Python, il est
parfois utile de le diviser en plusieurs fichiers. Cela permet d'organiser votre code et de conserver les éléments similaires au même endroit, tout en gardant les
différents éléments séparés. titre d'exemple simple, nous allons
parfois découvrir plusieurs algorithmes
au cours d'un même cours, mais nous allons tester tous ces
algorithmes sur le même ensemble de données. Il ne sert à rien de
réécrire le code pour charger dans l'ensemble de données et à
plusieurs reprises. Au lieu de cela, nous pouvons écrire
le code de chargement des données une seule fois, puis
l'importer à partir de chaque fichier. Maintenant, vous vous demandez peut-être si,
puisque nous travaillons dans Colab, comment pouvez-vous importer une fonction
à partir d'un script Python ? Si ce script Python se trouve
sur votre disque dur local. Heureusement, nous pouvons adopter la même
approche que celle que nous avons
déjà utilisée pour télécharger ce
fichier sur Google Colab. Donc, ici, je vais appeler
des fichiers à télécharger à nouveau. Et cette fois, je télécharge
le script Python, fake util point py. Donc, fake util dot py
ne contient qu'une seule fonction appelée
Ma fonction utile. Et il ne fait qu'
imprimer Hello World. Une fois que vous avez chargé le fichier, vous pouvez voir que
nous pouvons l'importer comme nous le ferions si nous
travaillions localement. Donc, je peux dire à partir de fake util
import ma fonction utile. Ensuite, quand j'appelle ma fonction
utile, vous pouvez voir que Hello World est imprimé comme prévu. Et d'ailleurs, vous vous demandez
peut-être, comme je l'ai fait, quel est réellement le chemin du
répertoire actuel. Pour le déterminer,
vous pouvez simplement exécuter la commande Linux habituelle, PWD, qui affiche le contenu
de la barre oblique. Slash Content est donc notre répertoire de travail
actuel. La dernière chose que je
voulais aborder est une chose que vous vous demandez
probablement tous. Google Drive est
destiné au stockage de fichiers. Est-il donc possible d'accéder aux
fichiers de votre Google Drive ? Et bien sûr, la réponse est oui. Pour ce faire, nous devons donc importer le lecteur
depuis Google Colab. Ensuite, nous devons
monter le lecteur en appelant Dr. Don mount et spécifiant le chemin, la barre oblique, le
contenu, la barre oblique, le lecteur G. Cela va donc
vous donner un code d'autorisation. Vous accédez donc à l'URL
de votre navigateur. Il vous demande de
vous connecter pour accepter certaines conditions. Ensuite, il vous donne un code C, vous copiez ce code et vous le
remettez dans cette boîte. Vous appuyez sur Entrée. OK, donc ça marche. Une fois cela fait, nous pouvons appeler ls
à nouveau pour vérifier ce qui se trouve maintenant dans
le répertoire actuel. Nous pouvons voir qu'il y a maintenant
quelque chose de plus ici, G Drive. Alors allons-y, conduisons et
voyons ce que cela nous donne. Très bien, il
semblerait que nous ayons maintenant un outil appelé Google Drive. Encore une fois, LS ceci, n'oubliez pas que vous
devez ajouter des guillemets si votre chemin contient des espaces. Et maintenant, nous pouvons voir un tas de fichiers qui se trouvent dans
mon Google Drive, qui est essentiellement un ensemble de contenu
VIP pour les
versions VIP de mes cours.