Transkripte
1. Einführungsvideo: Alle und willkommen zu meinem
neuesten Kurs, Intro to Colab. Also wer bin ich und warum
solltest du auf mich hören? Nun, mein Name ist der faule
Programmierer und ich bin Autor von über 30
Online-Kursen in Data Science, maschinellem Lernen und
Finanzanalyse. Ich habe zwei Master-Abschlüsse in Ingenieurwesen und Statistik. Meine Karriere in diesem Bereich
erstreckt sich über 15 Jahre. Ich habe bei mehreren
Unternehmen gearbeitet, die wir heute
Big Tech nennen , und mehreren Startups. Mithilfe von Data Science habe ich den
Umsatz mit den Teams,
die ich geleitet habe, um
Millionen von Dollar gesteigert. Vor allem aber bin
ich sehr
leidenschaftlich daran interessiert , Ihnen diese
entscheidende Technologie zur Verfügung zu stellen. Worum geht es in diesem Kurs? Dieser Kurs ist ein sehr
einfacher Refrain, der
Ihnen den Einstieg
in Google Colab erleichtern soll . Jetzt fragen Sie sich vielleicht, was ist Google Colab? Google Colab ist eine sehr
leistungsstarke Computerplattform , mit der Sie bei
Jupyter Notebooks in der Cloud laufen können . Das bedeutet, dass Sie keine
teure Hardware kaufen
müssen , um maschinelles Lernen
und Data Science zu betreiben. Sie können die
Hardware von Google einfach für ein kostenloses Festival verwenden. Sie erhalten außerdem freien Zugang
zu GPUs und TPUs, die für das Training
moderner tiefer neuronaler Netze unerlässlich sind . Wer sollte diesen Kurs belegen und wie sollten Sie sich vorbereiten? Dieser Kurs richtet sich an Studierende, die sich
für Data Science
und maschinelles Lernen
interessieren. Aber ich habe noch nie von Colab gehört oder brauche Hilfe
bei der Einrichtung. Sie müssen nicht einmal
programmieren können, um an diesem Kurs teilzunehmen. Dies kann
jedoch
hilfreich sein, wenn Sie
verstehen möchten, warum wir
das tun, was wir tun. also in Bezug auf Ressourcen, Was benötigen Sie also in Bezug auf Ressourcen,
um an diesem Kurs teilzunehmen? Zum Glück nicht viel. Sie benötigen einen Computer, einen Webbrowser und die
Verbindung zum Internet. Und wenn Sie sich dieses Video
ansehen, erfüllen
Sie
diese Bedingungen bereits. Lassen Sie uns nun darüber sprechen,
warum Sie
diesen Kurs belegen sollten und was Sie
davon erwarten sollten. Einfach ausgedrückt ist Google Colab ein leistungsstarkes und praktisches Tool und es ist wirklich erstaunlich, dass
wir es kostenlos nutzen können. Durch die Verwendung von Google Colab können
Sie alle wichtigen Data Science
- und Machine
Learning-Skripte in die Cloud auslagern wichtigen Data Science
- und Machine
Learning-Skripte und sie
einfach
mit Ihren Kollegen teilen. Am Ende dieses Kurses haben
Sie Google
Colab in Ihrem Google-Konto eingerichtet. Und Sie können
Ihre eigenen Notebooks betreiben und kostenlosen GPUs und TPUs von Google
nutzen. Ich hoffe, Sie freuen sich
genauso wie ich , etwas über diese
großartige Plattform zu erfahren. Danke fürs Zuhören und wir
sehen uns in der nächsten Vorlesung.
2. Wie man Google Colab einrichtet: In diesem Vortrag
gehen wir auf eine sehr neue und
aufregende Umgebung für das Schreiben von
Deep-Learning-Code in Python ein, das Googles Colab,
kurz für Collaboratory. Für diejenigen unter Ihnen, die das Jupiter-Notebook verwenden möchten
, ist
dies eine noch bessere Option. Dies ist im Grunde dasselbe wie Jupiter-Notizbuch mit
den folgenden Boni. Erstens wird es von Google gehostet, was bedeutet, dass Sie nicht Ihre eigene Rechenleistung
verwenden müssen . Sie werden feststellen, dass das Herunterladen von Datendateien extrem
schnell
geschieht, da das Google-Netzwerk extrem schnell
ist. Zweitens erhalten Sie Zugriff auf eine GPU und sogar auf Googles neue TPU, was ziemlich erstaunlich ist. Eine TPU können Sie nicht für Ihren PC
kaufen. Es ist also ziemlich nett, einen
nutzen zu können. Denken Sie daran, dass
Sie sich bei der Art und Weise, wie
TensorFlow-Code geschrieben wird , keine Gedanken darüber machen müssen welche Art von Gerät
Sie verwenden. Nun,
im Allgemeinen funktioniert
derselbe Code, unabhängig davon,
ob Sie
eine CPU, GPU oder TPU verwenden . Drittens
werden die Colab-Notizbücher in Ihrem Google Drive gespeichert, also in der Cloud. Sie werden es nie verlieren und es ist sehr einfach, es
mit anderen Menschen zu teilen. Viertens sind viele der Bibliotheken, die Sie
für Deep Learning,
Machine Learning und Data
Science benötigen , bereits enthalten. Tatsächlich war ich überrascht, dass es viel mehr gab,
als ich vermute dass es dort oder sogar konkurrierende
Deep-Learning-Bibliotheken
wie Klavier und Py Torch bereits enthalten waren . Für diejenigen unter Ihnen, die es
hassen, eine Umgebung einzurichten, einschließlich
mir, ist das
wirklich großartig. In dieser Vorlesung werden
wir also
nichts wirklich
technisch Kompliziertes machen . Vielmehr
werden wir nur über
Google Colab sprechen und einige kurze
Demos machen, damit Sie wissen, wie es
funktioniert und Sie selbst sehen können dass es genau so ist, als würden Sie
Python woanders schreiben. Zunächst gehe ich
davon aus, dass Sie bereits wissen wie Sie ein
Google Drive-Konto erstellen. Wenn Sie noch keine haben, gehen Sie auf drive.google.com
und melden Sie sich an. Sobald Sie Ihr Google
Drive-Konto haben und sich angemeldet
haben, wird diese Oberfläche angezeigt. Von hier aus. Sie können
auf das neue Menü klicken, dem Sie
alle Arten von Dateien erstellen können, z. B. Google Text & Tabellen, eine Tabelle, eine
Präsentation usw. Also lass uns das machen. Jetzt
möchten Sie zum Menü Mehr gehen und
auf
Kollaborativ klicken. Ordnung, wie Sie sehen können, wird ein neues Notizbuch angezeigt. Und von hier aus können Sie es meistens wie
ein normales Notizbuch
verwenden. Eine Sache, die Ihnen
passieren könnte, ist, dass Sie möglicherweise überhaupt
nicht Kollaborativ
im Menü sehen. Wie Sie sehen können, habe
ich das Menü Neu aufgerufen
und mehr geklickt, aber ich sehe
Colab in diesem Fall nicht. Folgendes können Sie tun. Sie möchten auswählen, Weitere Apps verbinden. Suchen Sie von hier aus einfach nach Colab. Und das erste, was
auftaucht, ist Googles Colab. Wenn Sie dies hinzufügen, wird Google
Colab über das Menü
verfügbar sein , das
wir uns gerade angesehen haben. Wenn wir also noch einmal dorthin gehen, können
wir das Colab sehen und
jetzt erscheint, wo es sollte. Also lass uns reingehen und dieses Notizbuch
in tf dot Dato Intro
umbenennen . Also zuerst kommen wir
gleich zu den guten Sachen. Wie können wir eine GPU oder TPU verwenden
? Um dies zu tun, müssen
Sie zum Laufzeitmenü gehen und Laufzeittyp
ändern auswählen. Wie Sie sehen können, gibt es hier
zwei Auswahlfelder. der ersten können Sie auswählen , welche Python-Version
Sie verwenden möchten. Also werden wir Python
Three für diesen Kurs verwenden. der zweiten können Sie auswählen , welche Art von Gerät
Sie verwenden möchten. Das ist also entweder keine, was die Standardeinstellung ist, oder GPU oder TPU. Beachten Sie nun, dass die GPU oder
TPU
manchmal nicht verfügbar ist. Dies liegt daran, dass es
sich um gemeinsame Ressourcen handelt. Ihre Kollegen, die an diesem Kurs
teilnehmen, und andere
Studenten und Forscher des maschinellen Lernens
auf der ganzen Welt verwenden
möglicherweise Google Colab. Und wir alle teilen
diese Ressourcen. Wenn unsere Nutzung
dieser Ressourcen die
Grenze der verfügbaren Ressourcen erreicht,
steht Ihnen möglicherweise keine GPU oder
TPU zur Verfügung, wenn
Sie sie benötigen. Aus diesem Grund kann ein Teil
des Codes, den Sie in
diesem Kurs sehen , auch auf
meinem lokalen Computer ausgeführt werden. Aber denken Sie daran, Python-Code
funktioniert überall gleich, also macht es keinen
Unterschied. Als Nächstes können Sie sehen, dass es
zwei Haupttypen von Zellen gibt , die wir im Notizbuch erstellen können. Code und Text. Sie können auf eine dieser Optionen klicken , um eine neue
Zelle dieses Typs zu erstellen. Klicken wir auf Text, da das etwas einfacher ist. Es ist nicht wirklich etwas, das wir sehr oft verwenden
werden, also lassen Sie
es uns einfach aus dem Weg räumen. Also werde ich tatsächlich die allererste Zelle
löschen. Ordnung, wie Sie
sehen können, wenn ich
darauf klicke, wird eine neue Zelle mit
einem Rich-Text-Editor erstellt. Sie werden feststellen, dass es in zwei Hälften
geteilt ist. In der linken Hälfte geben
Sie Ihren Text ein
und in der rechten Hälfte sehen Sie er aussehen wird. Geben wir also etwas Text ein. Das ist mein Titel. Jetzt können Sie auf das kleine t,
große T-Symbol klicken , wodurch
es in Kopfzeilentext umgewandelt wird. Sie können also sehen,
dass dies
für einen Titel etwas größer und mutiger wird. Als Nächstes
geben wir regulären Text ein. Das ist regulärer Text. Beachten Sie, dass es auch
diese Pfeilklammern gibt. Es sieht also so aus, als würden wir Codefragmente eingeben können. Also lass uns das versuchen. Und wie Sie sehen können, macht
es den Text zu
einer Monospace-Schriftart, die für Code geeignet ist. Jetzt gibt es hier einige
andere Optionen. Sie können also einen Link erstellen, Bilder hinzufügen, Sie können einrücken, Sie können eine
nummerierte oder mit Aufzählungszeichen versehene
Liste hinzufügen und so weiter. Wenn Sie also interessiert sind, spielen Sie damit herum. Andernfalls werden wir es nicht noch einmal erwähnen. Als nächstes haben wir die Codezelle, also erstellen wir eine davon. Ordnung, und wie bereits erwähnt, werden
wir in dieser Vorlesung keinen
ausgefallenen Code schreiben. Wir wollten nur etwas Einfaches machen
, um sicherzustellen, dass alles wie erwartet
funktioniert. Beginnen wir also damit,
numpy und matplotlib zu importieren. Ordnung, wunderschön. Wie ich bereits erwähnt habe, sind diese bereits
vorinstalliert. Als Nächstes erstellen wir eine neue
Codezelle und erstellen eine Sinuswelle. Also müssen wir zuerst einige x-Werte
erstellen. Lassen Sie uns also x 0-10 Pi
mit 1.000 Punkten dazwischen gehen. Als nächstes machen wir
y zum Sinus von x. Als nächstes erstellen wir eine neue Zelle und zeichnen, was wir gerade erstellt haben. Das ist also nur plt.plot x y. Da
es sich um ein Notizbuch handelt, müssen Sie plt.show nicht aufrufen da der Plot nur im Notizbuch selbst
angezeigt wird. Ordnung, sehr cool. Funktioniert wie ein
normales Notizbuch. An dieser Stelle haben wir
uns davon überzeugt, dass
Sie mit Google Colab die
üblichen Dinge tun können, die Sie von einem Jupyter Notebook
erwarten . Wie ich bereits erwähnt habe, ist
eine Sache, die sehr nett
an Colab ist, dass
es bereits eine Reihe nützlicher
Bibliotheken vorinstalliert hat. Meiner Meinung nach ist
Google Colab dadurch viel besser
als das Jupiter-Notebook. Und sollte mich jemals jemand bitten in einer
Notebook-Umgebung
zu schreiben, würde
ich standardmäßig Colab wählen. Ich bin kein großer Fan von Notebooks, aber ich bin ein großer Fan von Colab. Hier können wir sehen
, dass ich Code geschrieben habe , um zu versuchen,
eine Reihe von Bibliotheken zu importieren. Insbesondere handelt es sich bei diesen
Bibliotheken um Bibliotheken, die in meinen Kursen
verwendet wurden, einige mehr als andere. Manche werden ziemlich selten benutzt. Sie erwarten also vielleicht nicht
, dass es sich um Bibliotheken
wie Word Cloud handelt, die wir bisher nur einmal
verwendet haben. Und doch, wenn wir schauen, sehen
wir, dass alles, was
ich versucht habe, hier zu importieren,
keinen Fehler auslöst. Das zeigt uns also
, dass diese Bibliotheken tatsächlich verfügbar
sind. Was für
mich interessant ist, ist, dass einige
dieser Bibliotheken überhaupt nicht mit
maschinellem Lernen zu tun haben. Natürlich haben wir sie
in meinen Kursen verwendet, weil sie im Allgemeinen
als Python-Bibliotheken nützlich
sind. Aber es ist schön zu sehen, dass die
Leute bei Google auch dieselben Bibliotheken
nutzen und sie daher einbeziehen sollten. Hier kannst du die üblichen
Sachen wie scikit-learn,
numpy, scipy,
matplotlib in Pandas sehen. Wir haben auch Torch und Nano, was überraschend ist,
weil sie mit
Deep-Learning-Bibliotheken konkurrieren und Entwicklung für das Ghetto für eine Weile eingestellt
wurde. Jetzt. Wir haben auch die
Seaborne-Wortwolke Beautiful Soup, die für XML- und
HTML-Parsing-Anfragen gedacht ist, die für HTTP-Aufrufe bestimmt ist. Network X, das für die
Graph-Funktionalität steht, CB2, das für OpenCV ist. Und Jim, das ist OpenAI Gym. Alles in allem sehr beeindruckend und
viel mehr als ich erwartet hatte. Es gibt also einige letzte Vorbehalte bei Colab, die ich erwähnen
wollte. Zunächst müssen Sie sich vor
allem daran
erinnern, dass
dies die Cloud ist, also handelt es sich um gemeinsam genutzte Ressourcen. Dies
wirkt sich auf Sie aus, wenn Sie Ihr Notebook für längere Zeit in
Ruhe
lassen, wird
es inaktiv
und die Verbindung wird getrennt. Berechnungen, die
Sie möglicherweise
zuvor ausgeführt haben , werden nicht gespeichert. Wenn Sie also z. B. eine
Variable definieren, ist a gleich fünf, und Sie
später wiederkommen, nachdem Ihr Notebook getrennt
wurde und
Sie versuchen, eine zu drucken, heißt
es, dass a nicht definiert ist. Sie sehen also, dass dieses Notizbuch getrennt
wurde. Nehmen wir an, ich
verbinde mich erneut und drucke eine aus. Es wird sagen, dass
a nicht definiert ist. Dies wirkt sich auch auf Sie , dass Ihnen möglicherweise der Speicher
ausgeht. Wenn das passiert, sollten
Sie stattdessen versuchen,
den Code auf Ihrem lokalen
Computer auszuführen . Und wie bereits erwähnt, GPU und TPU
möglicherweise nicht verfügbar. Entweder können Sie Ihren
Code ohne GPU oder TPU ausführen,
oder Sie können denselben
Code wie immer lokal ausführen.
Optionen, die Sie zuvor hatten,
sind weiterhin verfügbar. Beispielsweise können Sie
eine GPU-Instance auf AWS bereitstellen,
die, wenn Sie die
richtige AMI- oder
Amazon-Maschinen-Instance auswählen , auch mit den üblichen Bibliotheken
vorinstalliert ist.
3. Installiere Tensorflow 2.0 in Colab (optional): Es gibt einen Grund, warum
ich
TensorFlow
in der vorherigen Vorlesung nicht ausdrücklich erwähnt habe. Das liegt daran, dass
wir in dieser Vorlesung darüber
sprechen werden. In dieser Vorlesung geht es also
darum, wie TensorFlow to 0.0 in Colab
verwendet wird. Sie werden feststellen, dass, wenn
Sie TensorFlow in
Colab importieren und die
Version überprüfen, 1.14 angezeigt wird. Also lass uns das machen. Jetzt. Das
hängt natürlich davon ab, wann Sie dies versuchen. Derzeit befindet sich
TensorFlow to 0.0
zum Zeitpunkt, zu dem ich diesen Kurs
mache , noch in der Beta-Phase, was bedeutet, dass es noch nicht
offiziell veröffentlicht wurde. Wenn Sie also versuchen,
den üblichen Befehl
pip install TensorFlow zu verwenden , erhalten
Sie
TensorFlow nicht auf 0.0. Dies wird
sich natürlich in Zukunft ändern, wenn TensorFlow auf 0.0 offiziell veröffentlicht
wird Zu diesem Zeitpunkt gibt Ihnen der übliche
Befehl pip install TensorFlow tatsächlich
TensorFlow auf 0.0. Und wenn nachfolgende
Versionen veröffentlicht werden, ändert sich
das natürlich auf 2.1
bis 0.2 und so weiter oder welche
Versionsnummern sie letztendlich verwenden. Zum Glück können Sie
andere Bibliotheken in
einem Colab-Notebook installieren , das nicht im Lieferumfang
des Notebooks enthalten war. Wenn Colab also nicht mit
scikit-learn geliefert wurde,
dann würden Sie einfach
den Befehl pip install scikit-learn in einer Codezelle innerhalb des Colab-Notebooks ausführen. Mit anderen Worten, um Bibliotheken
zu installieren, Es ist so einfach wie
das Ausführen der üblichen PIP-Befehle. Du musst nur
zuerst das Knallsymbol
setzen , dazu später mehr. Im Moment interessieren
wir uns für TensorFlow to 0.0. Zu der Zeit, als ich dieses Video gemacht habe, ist
die aktuelle Version von
TensorFlow to 0.0 Beta-1. Der aktuelle Befehl wäre Bang Pip install minus
q TensorFlow gleich 2,0, 0,0 Dash Beta-1. Beachten Sie, dass die
Minus-Option q hier leise bedeutet, was nur bedeutet, dass Sie weniger Sachen
ausdrucken. Es ändert nicht wirklich die Funktionalität
des Befehls. Wichtig ist, dass
Sie hier
bedenken müssen , dass eine
meiner berühmten Regeln, die Prinzipien
lernen,
nicht die Syntax. Das ist hier sehr wichtig. Warum sage ich das? Nun, unweigerlich wird eine verlorene
Seele am Ende sagen:
Warum sollte ich diesen Befehl verwenden, Warum sollte ich diesen Befehl verwenden wenn TensorFlow
Beta 3 veröffentlicht wird? Bedeutet das nicht, dass die
Vorlesung veraltet ist? Solltest du
diese Vorlesung nicht aktualisieren? Und erinnere dich an die Regel, lerne die Prinzipien,
nicht die Syntax. Natürlich ist die
neueste Version heute Beta-1. Morgen
könnte das Beta-2 und Beta-3 oder Beta fünfhundert sein. Wer weiß? Das
Prinzip besteht darin, auf der Website von
TensorFlow zu überprüfen wie der aktuelle Befehl lautet. Das ist das Prinzip. Versuchen Sie nicht, sich den Befehl
install wörtlich zu merken, was sehr albern wäre. Okay, also sei klug. Sei nicht albern.
Lerne die Prinzipien und merke dir die Syntax nicht. Beachten Sie auch, dass Sie
die GPU-Version von TensorFlow installieren können die GPU-Version von TensorFlow ist wie üblich, pip install TensorFlow GPU. Interessanterweise habe ich bei
Colab festgestellt, dass die
Verwendung der GPU nicht viel
schneller ist als die Verwendung der CPU. Bei den meisten kleinen Problemen sollte
es also keine Rolle spielen,
was Sie für
TPUs verwenden . Sie werden später
im Kurs besprechen ,
wie das funktioniert. Also lass uns das machen. Nachdem Sie
TensorFlow auf 0.0 installiert
haben, können Sie die Version erneut überprüfen. Drucken Sie einfach den
TF-Punkt-Unterstrich, Unterstrichversion, den
Unterstrich und den Unterstrich aus. Und du solltest 2.0,
0.0 oder etwas Ähnliches sehen . Also lass uns das machen. Nun gibt es eine Einschränkung,
nämlich dass ich festgestellt habe , dass es manchmal
nicht funktioniert. Selbst nach der Installation von
TensorFlow auf 0.0 drucke
ich die Version aus
und es heißt immer noch 1.14. Es scheint, dass das
Problem darin besteht, dass es nicht funktioniert, wenn Sie
TensorFlow importieren und dann versuchen
, die Version zu ändern. Wenn Sie
dies also versehentlich tun und TensorFlow tatsächlich
auf 0.0 setzen möchten, sollten Sie zunächst sicherstellen, dass Sie nicht
versuchen, TensorFlow zu importieren,
bevor Sie TensorFlow installieren. Kommentieren wir das also aus. Und dann gehen wir
zum Laufzeitmenü
und wählen Runtime neu starten. Also ja, also führen wir das
nicht mehr durch. Wir werden das einfach machen. Und jetzt führen wir das durch. Und es funktioniert. Jetzt haben wir 2,0, 0,0 Beta-1. Im Allgemeinen finde ich
das ein bisschen wackelig. Also, wenn ich dieses
Notebook starte und dann später
versucht habe , die
TensorFlow-Version zu ändern. Also sagen wir, ich versuche von
CPU zu GPU oder umgekehrt zu wechseln, die Dinge werden
eher komisch. Was ich also gerne tun würde ist alles
von Anfang an eingestellt zu haben, zu
wissen, was Sie verwenden möchten, und es dann von Anfang an so ausführen und nicht versuchen,
die Dinge dazwischen zu ändern, weil Manchmal ist das Ding, das
du vorher benutzt hast, irgendwie klebrig. Selbst wenn Sie versuchen, es zu ändern, wird
es sich nicht wirklich ändern. Nun, es gibt noch eine weitere
wichtige Einschränkung: Wenn Sie
sich zuvor erinnern, sagte
ich, wenn Sie
Ihr Notebook zu lange
im Leerlauf lassen ,
wird die Verbindung getrennt. In diesem Fall
wird
Ihre TensorFlow-Version leider auf
die Standardeinstellung zurückgesetzt und Sie müssen TensorFlow erneut auf 0.0
installieren. Jetzt persönlich macht es mir
nichts aus, jedes Mal alle
Zellen zu betreiben. Denn wenn ich wirklich alles auf einmal
ausführen wollte, würde ich es einfach lokal ausführen. Aber wenn Sie
aus irgendeinem Grund TensorFlow
to 0.0 Beta-1 dauerhaft in Ihrem Colab
installiert haben möchten . Sie könnten die Lösung ausprobieren, die in diesem
Link
bereitgestellt wird, den ich angehängt habe. Nochmals, das liegt an dir. Aber ich persönlich hatte keinen Grund
, es selbst zu tun. Sie werden sich also erinnern, dass wir diesen Bankbefehl
besprochen haben
, der übrigens auch im normalen
Jupyter Notebook
existiert. Bisher wissen Sie, dass
es verwendet werden kann, um pip install-Befehle
auszuführen. Aber im Allgemeinen können
Sie dies
wie eine Direktive behandeln , die dem Notebook
mitteilt dass Sie diesen Befehl
wie
im Terminal
ausführen möchten, z. B. wenn ich alle Dateien
im aktuellen Verzeichnis, ich könnte den Befehl bang ls verwenden. Also lass uns das versuchen. Interessanterweise werden Sie
feststellen, dass es diesen
Ordner gibt , der
als Beispieldaten bezeichnet wird. Wir können also manuell
als Beispieldaten aufrufen. Hier können Sie sehen, dass wir
den berühmten M-Nest-Datensatz, den California Housing-Datensatz und eine zufällige JSON-Datei haben. Wir können diese verwenden oder auch nicht, aber sie sind gut,
wenn Sie nur
ein paar einfache Tests durchführen möchten , wie zum Beispiel,
versuchen Sie es mit einem einfachen
Bildklassifizierer auf m-nest. Auf jeden Fall haben Sie es da. So verwenden Sie
TensorFlow to 0.0 in Colab. Für den Fall, dass es noch nicht offiziell veröffentlicht
wurde.
4. Daten in Colab hochladen: In dieser Vorlesung werden
wir noch ein paar Aufgaben in Colab erledigen. Insbesondere
werden wir uns
einige Möglichkeiten ansehen , Ihren
eigenen Datensatz in colab hochzuladen. Nehmen wir an, Ihr Kunde
oder Arbeitgeber gibt Ihnen eine CSV-Datei oder Sie laden
eine CSV-Datei von Kaggle herunter. Wie können wir diese Datei dann von unserem
Colab-Notizbuch aus
zugänglich machen ? In diesem Vortrag
werden wir einige verschiedene
Möglichkeiten diskutieren , dies zu tun. Die erste Methode, die
wir uns ansehen werden, ist die Verwendung des klassischen
Linux-Befehls W get. Wie bereits erwähnt, können
Sie
Befehlszeilenbefehle vor dem Befehl mit dem Knallsymbol
oder Ausrufezeichen ausführen. Also lasst uns weitermachen und
den Arrhythmie-Datensatz herunterladen. Jetzt wollen wir überprüfen,
wo die Daten wann sind. Verwenden wir also bang ls um zu sehen, ob sich die Daten in
unserem aktuellen Verzeichnis befinden. Okay, es sieht so aus wie es ist. Verwenden wir nun den Befehl
head, um
die ersten Zeilen
der Datendatei anzuzeigen . Und auch um zu überprüfen, ob die Datei eine Kopfzeile hat oder nicht. Okay, es sieht also so aus, als hätte es
keine Kopfzeile. Als nächstes versuchen wir, die Daten mit Pandas zu laden
. Wir werden es im Header übergeben,
der keiner entspricht, da wir wissen, dass die Daten
keinen Header haben. Da die Daten
viele Spalten
haben, werden wir als Nächstes nur die erste Ansicht
machen. Wir werden die Spalten auch
umbenennen, da es sich derzeit
nur um ganzzahlige Werte handelt. Da
diese Daten aus
dem UCI Machine
Learning Repository stammen, können
Sie wie üblich dem UCI Machine
Learning Repository stammen, einfach
die Dokumentation überprüfen wenn Sie
mehr über die Daten erfahren
möchten, z. B. was jede Spalte ist. Also lass uns das machen. Weiter. Erstellen wir ein Histogramm
dieser Datenspalten. Da Notebook die Handlung standardmäßig ziemlich klein
macht, importieren
wir matplotlib und ändern
die Figurengröße. Sobald wir das getan haben, können
wir df.head aufrufen ,
um Histogramme
für jede Spalte zu erstellen. Beachten Sie, dass ich am Ende von
df.head ein
Semikolon hinzugefügt habe , nur weil,
wenn Sie dies nicht tun, ein Notizbuch den letzten zurückgegebenen Wert
ausgibt, wie es normalerweise der Fall ist, was wir momentan nicht wollen. Hier sind ein paar nette Histogramme,
die Sie sich ansehen können. Als Nächstes erstellen wir
ein gemeinsames Diagramm für Datenanalyse, die
Streumatrix. Dadurch wird ein Streudiagramm zwischen jedem Feature und
jedem anderen Feature erstellt. Entlang der Diagonale
Es zeichnet nur das Histogramm jedes Features auf, das wir bereits gesehen haben. Ordnung, soweit ziemlich
normal. Als nächstes schauen wir uns die zweite Methode zum
Laden und Daten an, die auch gilt,
wenn Sie eine URL haben. Dies dient dazu,
TensorFlow direkt zu verwenden, insbesondere die
Keras-Get-File-Funktion. Beginnen wir damit,
die URL einer
Variablen namens URL zuzuweisen . Wir werden
den Auto-MPG-Datensatz verwenden. Es spielt zwar keine
Rolle was Sie für dieses Beispiel verwenden, solange Sie direkt über die URL
darauf zugreifen können. Lass uns das machen. Weiter. Wir werden sicherstellen, TensorFlow to 0.0 installiert ist. Also führen wir pip
install TensorFlow aus und
drucken dann die
Version aus, um sicherzustellen , dass wir die richtige haben. Als Nächstes rufen wir
die Funktion Keras get file auf. Das erste Argument
ist der Dateipfad. Wir wollen zwei speichern, und das zweite Argument
ist die Dateiquelle. Lass uns das machen. Beachten Sie, dass es möglich ist,
die Datei in einem
anderen Verzeichnis zu speichern , aber wir speichern sie im Standardordner von
Keras. Sie können also anhand des Ausdrucks sehen, dass
die Datei in Schrägstrich-,
Route- und
Schrägstrichpunkt-Keras-Schrägstrich-Datensätzen landet . Als nächstes rufen wir den
Befehl head auf, damit wir die ersten
Zeilen einer Datei
sehen können . Wie Sie sehen können, handelt es sich
nicht gerade um eine CSV. Stattdessen
ist jede Spalte durch
Leerzeichen getrennt und es
gibt keine Kopfzeile. Um diese Daten zu laden, können
wir immer noch die Funktion
pandas read csv verwenden, aber wir müssen zwei Argumente übergeben
. Das erste Argument ist
zu sagen, dass es
keine Kopfzeile gibt, der
Header ist gleich keiner. Und das zweite zusätzliche
Argument ist, Pandas
mitzuteilen, dass das
Trennzeichen Leerzeichen ist. Also setzen wir den
Whitespace für Gliedmaßen auf true. Als nächstes rufen wir df.head an, um sicherzustellen, dass alles wie erwartet
funktioniert. Wie Sie sehen,
scheint das Ergebnis im
richtigen Format zu sein. Und von hier aus können Sie diese Daten wie
gewohnt
mit Python-Code
verarbeiten . Die dritte Methode, die
wir uns
ansehen werden, um Ihr eigenes
schnelleres Colab hinzuzufügen , besteht darin,
die Datei direkt hochzuladen. Um dies zu tun, müssen
wir
eine spezielle Colab-Funktion ausführen . Also sagen wir von Google
Dot Colab Importdateien, dann nennen wir Dateien Dot Upload. Also lass uns das machen. Sie sehen also, dass dadurch
ein Upload-Button erstellt wird , auf den wir
klicken und dann eine Datei
aus dem lokalen Dateisystem auswählen können . Also werde ich die
täglichen Mindesttemperaturen wählen. Und wenn wir
den zurückgegebenen Wert ausdrucken, können
Sie sehen, dass es sich um ein
Wörterbuch
handelt, in dem der Dateiname als Schlüssel und der Wert der Dateiinhalt sind. Wenn wir den
Befehl und bang ls verwenden, können
wir sehen, dass
die Datei in das
Arbeitsverzeichnis
hochgeladen wurde . Als nächstes lesen
wir die Datei mit Pandas ein, um sicherzustellen, dass wir
das bekommen, was wir erwarten. Jetzt hat diese Datei gegen Ende einige
Müllzeilen. Also habe ich das berücksichtigt
, indem das Argument error bad
lines gleich false gesetzt habe. Dadurch werden Fehler ignoriert, aber sie werden
ausgedruckt
, sobald sie auftreten. Wie Sie sehen, wurde
die Datei erfolgreich geladen. Um diesem Beispiel nachzugehen, schauen
wir uns eine
Variante dessen an, was wir gerade getan haben. Sie erinnern sich, dass es beim
Schreiben von Code in Python
manchmal nützlich ist, Ihren Code auf mehrere Dateien aufzuteilen . Dies hilft, Ihren Code zu organisieren und ähnliche Dinge
an einem Ort zu speichern , während
verschiedene Dinge getrennt bleiben. Als einfaches Beispiel lernen wir
manchmal mehrere Algorithmen
in einem Kurs kennen, aber wir testen alle diese
Algorithmen an demselben Datensatz. Es macht keinen Sinn, den Code
neu zu schreiben, der in den Datensatz
geladen werden soll, und zwar
mehrmals. Stattdessen können wir
den Datenladecode
einmal schreiben und
ihn dann aus jeder Datei importieren. Nun fragen Sie sich vielleicht,
wie Sie,
da wir in Colab arbeiten, eine Funktion
aus einem Python-Skript importieren können? Wenn sich dieses Python-Skript
auf Ihrer lokalen Festplatte befindet. Glücklicherweise können wir den gleichen
Ansatz verfolgen, den wir bereits verfolgt haben , um diese
Datei auf Google Colab hochzuladen. Also hier rufe ich
Dateien auf, um sie erneut hochzuladen. Und dieses Mal lade ich
das Python-Skript hoch, fake util dot py. Also fake util dot py enthält nur eine Funktion namens
Meine nützliche Funktion. Und alles was es tut ist Hello World
auszudrucken. Sobald Sie die Datei hochgeladen haben, können
Sie sehen, dass
wir sie
genauso importieren können, wie wir es tun würden, wenn wir lokal arbeiten
würden. Also kann ich von fake util
import meine nützliche Funktion sagen. Wenn ich dann meine
nützliche Funktion aufrufe, können
Sie sehen, dass Hello World genauso
ausgedruckt ist , wie wir es erwarten. Übrigens fragen Sie sich
vielleicht,
wie ich es getan habe, wie der Pfad des aktuellen
Verzeichnisses eigentlich ist. Um dies festzustellen, können
Sie einfach
den üblichen Linux-Befehl PWD ausführen , Schrägstrichinhalte
ausgibt. Slash Content ist also unser
aktuelles Arbeitsverzeichnis. Das Letzte, was ich behandeln
wollte, ist etwas, das Sie sich
wahrscheinlich alle fragen. Google Drive dient
zum Speichern von Dateien. Ist es also möglich, auf
Dateien in Ihrem Google Drive zuzugreifen? Und natürlich lautet die Antwort ja. Um dies zu tun, müssen
wir das Laufwerk
von Google Colab importieren. Dann müssen wir das Laufwerk
mounten, indem Dr. Don mount
aufrufen und den
Pfad-Slash-Inhalts-Schrägstrich G Drive
angeben. Das gibt
Ihnen also einen Autorisierungscode. Sie gehen also zur URL
in Ihrem Browser. Sie werden aufgefordert, sich anzumelden,
um einige Bedingungen zu akzeptieren. Und dann gibt es dir einen Code C, du kopierst diesen Code und
legst ihn wieder in dieses Feld. Du drückst die Eingabetaste. Okay, das funktioniert also. Nachdem wir das erledigt haben, können
wir ls erneut aufrufen um zu überprüfen, was sich jetzt
im aktuellen Verzeichnis befindet. Wir können sehen, dass es jetzt
eine zusätzliche Sache gibt, G Drive. Also lass uns gehen, fahren und
sehen, was uns das gibt. Okay, es sieht
also so aus, als hätten wir jetzt ein Ding namens Google Drive. noch einmal
daran, dass Sie Anführungszeichen hinzufügen
müssen, wenn Ihr Pfad Leerzeichen enthält. Und jetzt können wir eine Reihe von
Dateien sehen , die sich in
meinem Google Drive befinden ist im Wesentlichen eine Reihe von VIP-Inhalten für die
VIP-Versionen meiner Kurse.