Datenwissenschaft mit Pandas in Python | Lazy Programmer Inc | Skillshare

Playback-Geschwindigkeit


1.0x


  • 0.5x
  • 0.75x
  • 1x (normal)
  • 1.25x
  • 1.5x
  • 1.75x
  • 2x

Datenwissenschaft mit Pandas in Python

teacher avatar Lazy Programmer Inc

Schau dir diesen Kurs und Tausende anderer Kurse an

Erhalte unbegrenzten Zugang zu allen Kursen
Lerne von Branchenführern, Ikonen und erfahrenen Experten
Wähle aus einer Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Schau dir diesen Kurs und Tausende anderer Kurse an

Erhalte unbegrenzten Zugang zu allen Kursen
Lerne von Branchenführern, Ikonen und erfahrenen Experten
Wähle aus einer Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Einheiten dieses Kurses

    • 1.

      Einführungsvideo

      3:12

    • 2.

      Pandas-Umriss

      1:08

    • 3.

      Daten einladen

      3:43

    • 4.

      Zeilen und Spalten auswählen

      9:39

    • 5.

      Die apply() Funktion

      2:23

    • 6.

      Plotten mit Pandas

      2:36

    • 7.

      Pandas-Übung

      2:01

    • 8.

      Wo du Rabattgutscheine und KOSTENLOSES Machine Learning bekommst

      5:31

  • --
  • Anfänger-Niveau
  • Fortgeschrittenes Niveau
  • Fortgeschrittenes Niveau
  • Jedes Niveau

Von der Community generiert

Das Niveau wird anhand der mehrheitlichen Meinung der Teilnehmer:innen bestimmt, die diesen Kurs bewertet haben. Bis das Feedback von mindestens 5 Teilnehmer:innen eingegangen ist, wird die Empfehlung der Kursleiter:innen angezeigt.

42

Teilnehmer:innen

--

Projekt

Über diesen Kurs

In diesem Kurs lernen Sie, wie Sie Pandas verwenden, um wichtige Aufgaben im Zusammenhang mit Data Science und Machine Learning zu erledigen. Dies beinhaltet das Einladen, Auswählen, Transformieren und Manipulieren von Daten mit Datenframes.

Der Kurs beinhaltet Videopräsentationen, Programmierlektionen, praktische Übungen und Links zu weiteren Ressourcen.

Dieser Kurs richtet sich an:

  • Jeder, der sich für Data Science und Machine Learning interessiert
  • Alle, die Python kennen und den nächsten Schritt in Python-Bibliotheken für die Datenwissenschaft machen möchten
  • Jeder, der Tools zur Implementierung von Machine Learning Algorithmen erwerben möchte

Empfohlene Voraussetzungen:

  • Gute Python-Programmierkenntnisse
  • Erfahrung mit Numpy und Matplotlib

Triff deine:n Kursleiter:in

Teacher Profile Image

Lazy Programmer Inc

Kursleiter:in
Level: Beginner

Kursbewertung

Erwartungen erfüllt?
    Voll und ganz!
  • 0%
  • Ja
  • 0%
  • Teils teils
  • 0%
  • Eher nicht
  • 0%

Warum lohnt sich eine Mitgliedschaft bei Skillshare?

Nimm an prämierten Skillshare Original-Kursen teil

Jeder Kurs setzt sich aus kurzen Einheiten und praktischen Übungsprojekten zusammen

Mit deiner Mitgliedschaft unterstützt du die Kursleiter:innen auf Skillshare

Lerne von überall aus

Ob auf dem Weg zur Arbeit, zur Uni oder im Flieger - streame oder lade Kurse herunter mit der Skillshare-App und lerne, wo auch immer du möchtest.

Transkripte

1. Einführungsvideo: Hallo zusammen und willkommen zu meinem neuesten Kurs, Data Science mit Pandas und Python. Also wer bin ich und warum solltest du auf mich hören? Nun, mein Name ist der faule Programmierer und ich bin Autor von über 30 Online-Kursen in Data Science, maschinellem Lernen und Finanzanalyse. Ich habe zwei Master-Abschlüsse in Ingenieurwesen und Statistik. Meine Karriere in diesem Bereich erstreckt sich über 15 Jahre. Ich habe bei mehreren Unternehmen gearbeitet, die wir heute Big Tech nennen , und mehreren Startups. Mithilfe von Data Science habe ich den Umsatz mit den Teams, die ich geleitet habe, um Millionen von Dollar gesteigert. Aber am wichtigsten ist, dass ich sehr leidenschaftlich daran interessiert bin , Ihnen diese entscheidende Technologie zur Verfügung zu stellen. Worum geht es in diesem Kurs? In diesem Kurs geht es darum, Ihnen grundlegende Fähigkeiten mithilfe der Pandas-Bibliothek zu vermitteln , die in den letzten zehn Jahren zum Standard für Data Science mit Python geworden ist. Sie erfahren, wie ein Datensatz als Datenrahmen und wie man DataFrames auf eine Weise manipuliert, die in der Data Science häufig benötigt wird. ZB Auswahl verschiedener Zeilen und Spalten, Anwenden von Funktionen auf ganze Spalten und sogar das Erstellen von Plots. Diese Fähigkeiten sind entscheidend, wenn Sie Data Science mit Python in der realen Welt betreiben möchten. Wer sollte diesen Kurs belegen und wie sollten Sie sich vorbereiten? Dieser Kurs richtet sich an Studierende, die sich für Data Science und maschinelles Lernen interessieren und bereits Erfahrung mit numerischen Computerbibliotheken wie NumPy und Matplotlib haben . Die zweite Fähigkeit, die Sie benötigen, ist eine grundlegende Programmierung. Jede Sprache ist in Ordnung, aber da dieser Kurs Python verwendet , wäre das ideal. Zum Glück ist Python eine sehr einfach zu erlernende Sprache. Du kennst bereits eine andere Sprache. Sie sollten kein Problem damit haben, aufzuholen. Für diese beiden Themen. Ein Verständnis auf High-School-Niveau sollte ausreichend sein. In einem Grundstudium wäre das Verständnis noch besser. also in Bezug auf Ressourcen, Was benötigen Sie also in Bezug auf Ressourcen, um an diesem Kurs teilzunehmen? Zum Glück nicht viel. Sie benötigen einen Computer, einen Webbrowser und eine Verbindung zum Internet. Und wenn Sie sich dieses Video ansehen, erfüllen Sie diese Bedingungen bereits. Lassen Sie uns nun darüber sprechen, warum Sie diesen Kurs belegen sollten und was Sie davon erwarten sollten. Nun, was mir nach vielen Jahren des maschinellen Lernens aufgefallen maschinellen Lernens ist, ist, dass es eine große Wissenslücke gibt. Die Schüler besuchen einen Kurs für maschinelles Lernen , um maschinelles Lernen zu lernen. Sie werden die Konzepte verstehen, haben dann aber keine Ahnung, wie sie diese Konzepte in Code umsetzen sollen , weil sie nicht wirklich wissen, wie man programmiert. Dieser Kurs soll Lücke schließen , indem er eine Brücke zwischen einer normalen Beschichtung und der Art der Codierung schlägt , die Sie für Data Science und maschinelles Lernen benötigen. Speziell das Laden und Bearbeiten Ihrer Datensätze. Am Ende dieses Kurses haben Sie genug gelernt, um das Gelernte in einem echten Datensatz zu verwenden . In der Tat werden wir dies als unser Abschlussprojekt tun. Ich hoffe, Sie freuen sich genauso wie ich darauf, etwas über diese großartige Bibliothek zu erfahren. Danke fürs Zuhören und wir sehen uns in der nächsten Vorlesung. 2. Pandas Umrisse: In dieser Vorlesung stellen wir den nächsten Abschnitt dieses Kurses vor, der sich mit Pandas befasst. Pandas ist eine Bibliothek, die das Lesen, Schreiben und Bearbeiten von Daten sehr einfach macht . Obwohl es in Pandas viele Funktionen gibt, werden wir in diesem kurzen Abschnitt nicht auf alles eingehen können . Dieser Abschnitt konzentriert sich ausschließlich auf die Grundlagen. Wir wollen Fragen beantworten wie, wie lädt man eine CSV ein und wie schreibt man eine CSV? Was macht ein DataFrame und wie unterscheidet sich das von einem NumPy-Array? Übrigens, wenn Sie einen künstlerischen Hintergrund haben und aus der Statistik stammen, sollten Sie sich bei DataFrames wie zu Hause fühlen. Wir werden uns grundlegende Operationen in DataFrames ansehen , wie die Auswahl bestimmter Zeilen und Spalten. Das wird sehr seltsam sein, wenn Sie aus einem reinen Programmierhintergrund kommen . Denn so wie es auf den ersten Blick aussieht, scheint es das Gegenteil von dem zu sein , was man als Numpy sehen würde. Wir betrachten eine spezielle Funktion namens apply Funktion , mit der Sie dieselbe Operation für jede Zeile Ihrer Daten effizient ausführen können , ohne eine for-Schleife verwenden zu müssen. Zum Schluss schauen wir uns an, wie Pandas das Plotten Ihrer Daten sehr bequem macht . 3. Laden in Daten: In dieser Vorlesung werden wir uns ansehen, wie man Daten mithilfe von Pandas einlädt. Pandas ist besonders nützlich für Daten, die als Tabelle strukturiert sind. Es wird also nicht mit Bild - oder Audiodaten oder unstrukturierten Textdaten umgehen , wenn Sie das gedacht haben. Tabellarische Daten, wenn sie in einer Datei gespeichert sind liegen normalerweise in Form einer CSV oder einer TSV vor. Das steht für kommagetrennte Werte und tabulatorgetrennte Werte. Sie können Pandas auch zum Lesen aus einer Excel-Tabelle verwenden , da diese eine ähnliche Struktur hat, obwohl dies ungewöhnlicher wäre. Also werden wir zunächst Pandas importieren. Importiere Pandas als PD. Als Nächstes laden wir eine CSV aus meinem GitHub-Repository herunter. Sowohl Sie als auch ich werden diese URL aus meinem vorab geschriebenen Notizbuch kopieren . Versuchen Sie also nicht, dies manuell einzugeben, wie es einige von Ihnen manchmal tun. Wir werden W holen. Und dann diese URL. Wie Sie sehen können, heißt die Datei, die wir gerade heruntergeladen haben, S-Box, diese CSV. Als nächstes lesen wir die CSV ein, also das ist df gleich pd, lesen CSV als Boxpunkt CSV. Beachten Sie, dass dieser Befehl auch direkt mit URLs funktioniert. Wenn wir also die URL direkt kopieren, gehen wir zu df gleich pd, lesen CSV und fügen dann diese URL ein. Ordnung, das funktioniert also auch. Als Nächstes können wir den Objekttyp von df überprüfen, indem wir den Typ df ausführen. Wie Sie sehen können, ist es ein Dataframe-Objekt und kein NumPy-Array. Jetzt sollten wir uns nur zum Vergleich ansehen, was in der Datei enthalten ist , die wir heruntergeladen haben. Verwenden wir also den Linux-Befehl. Das ist Bang Head as Books Dot CSV. Wie Sie sehen können, gibt es eine Kopfzeilenspalte mit den Headern Datum, offen, hoch, niedrig, geschlossen, Volumen und Name. Es sollte klar sein, dass dies Aktienkurse für Starbucks ab Februar 2013 sind . X wir gehen zurück zu Pandas. Pandas hat einen analogen Befehl und df.head. Lass uns das versuchen. Und wie Sie sehen können, wenn Sie sich in einem Notizbuch befinden , das Ihnen eine schön formatierte Vorschau des oberen Randes Ihres DataFrame zeigt . Sie können auch die Anzahl der Zeilen festlegen , die Sie als Argument sehen möchten. Also können wir df.head ten machen. Und das zeigt uns die ersten zehn Reihen statt der ersten fünf. Genau wie unter Linux gibt es einen tail-Befehl. Also können wir df, dy tail machen. Und das zeigt uns das Ende des DataFrame. Schließlich gibt es noch eine Info-Funktion, Df dot info. Und das gibt uns einige wichtige Informationen über den Datenrahmen. Wie Sie sehen können, erfahren Sie beispielsweise, welche Art von Index DataFrame verwendet, wie viele Spalten es hat, die Datentypen für diese Spalten und wie viel Speicher es beansprucht. 4. Auswahl von Reihen und Spalten: In dieser Vorlesung werden wir diskutieren, wie Sie Zeilen und Spalten aus unserem DataFrame auswählen. Dies ist analog zur Indizierung eines Arrays. Also zB mit einem NumPy-Array kann ich fragen, gib mir das Element in Zeile Null, Spalte Null. Und in diesem Fall würde ich die Schreibweise mit eckigen Klammern verwenden und ein Nullkomma-Null übergeben. Mal sehen, ob das mit einem DataFrame funktioniert. Df Null Komma Null. Wie Sie sehen, funktioniert das nicht. Bevor wir also etwas anderes tun, überprüfen wir die Spalten des DataFrame mithilfe des Attributs namens columns. Das ist also df, dy. Column gibt ein Index-Objekt mit den Spaltennamen zurück. Beachten Sie, dass Sie die Zuweisung für dieses Attribut auch mit einer Liste von Spaltennamen durchführen können. Nehmen wir an, mir gefällt die Tatsache nicht, dass die Namensspalte die einzige ist, die groß geschrieben wird, da sie mein Gefühl der Einheitlichkeit verletzt. Also lasst uns das in Kleinbuchstaben ändern. Wir können df.columns machen und dann einfach eine Liste schicken. Ändern Sie das in Kleinbuchstaben. Und los geht's. Und wir können auch überprüfen , ob es funktioniert hat. Ordnung, also funktioniert es. Ordnung, also hier ist eine Idee. Was passiert, wenn ich einen dieser Spaltennamen in die eckigen Klammern eingebe? Also lass uns es mit df versuchen. Offen. Wie Sie sehen, gibt dies die offene Spalte des DataFrame zurück. Wir können auch mehrere Spalten auswählen indem wir eine Liste von Spaltennamen verwenden. Also lasst uns versuchen, die Klammer zu öffnen, die Klammer zu öffnen, zu schließen. Und das gibt beide Spalten zurück. uns nun aus Neugier Lassen Sie uns nun aus Neugier den Datentyp für die offene Spalte überprüfen. Das ist also Typ offen. Interessant, es ist also eine Serie. Überprüfen wir nun den Typ der offenen und geschlossenen Spalten. Das ist also ein DataFrame. Die Lektion hier ist, dass, wenn Sie nur eine Dimension haben und Pandas normalerweise als Reihe gespeichert wird. Wenn es zweidimensional ist, ist es ein DataFrame. An dieser Stelle denken Sie vielleicht, dass Pandas sehr seltsam weil eckige Klammern verwendet werden, um Spalten auszuwählen. Während in NumPy und jeder anderen Art von Array die eckigen Klammern normalerweise die Zeilen auswählen würden. Die offensichtliche Frage ist jetzt, wie wählen wir eine Zeile in einem DataFrame aus? Die Antwort ist, dass wir dies mit dem I und den lokalen Attributen erreichen können . Wir können also einen DF-Punkt von Null machen. Und das gibt die Nullspalte des DataFrame zurück. Vielleicht möchten Sie das noch einmal überprüfen. Wir können auch das F-Punkt-Log von Null machen. Und das gibt auch dieselbe Zeile zurück. Sie fragen sich vielleicht, was der Unterschied ist? Der Unterschied besteht darin , dass I look für ganzzahlige Indizes verwendet wird und egal was passiert, während low die Zeile anhand der Indexbeschriftung auswählt. Und es kommt einfach so vor, dass sie in unserem DataFrame ein und dasselbe sind. Um diesen Unterschied zu demonstrieren, laden wir unseren DataFrame erneut, aber dieses Mal geben wir an, dass die Datumsspalte der Index sein soll. Also machen wir df2 gleich pd, lesen CSV als Boxpunkt CSV. Und dann sagen wir, Index Col ist gleich Datum. Übrigens wird dringend empfohlen, die Dokumentation für Pandas zu lesen. Es gibt viele Argumente für die vielen Funktionen, die Pandas hat, und Sie werden sich im Grunde nie an alle erinnern können. Gewöhnen Sie sich also an die Verwendung der Dokumentation. Jetzt machen wir den F2-Punktkopf. Wie Sie sehen können, scheint die Datumsspalte jetzt einen Sonderstatus zu haben. In der Tat ist es der Index für diesen DataFrame. Jetzt können wir d of too low machen. Und dann können wir einen dieser Indizes weitergeben. Und das gibt die erste Zeile des DataFrame zurück. Übrigens, wenn wir den Typ dieser Zeile überprüfen, können wir sehen, dass es sich auch um eine Serie handelt. Somit sind sowohl einzelne Zeilen einzelne Spalten Serienobjekte. Lassen Sie uns nun darüber sprechen, wie wir mehrere Zeilen des DataFrame auswählen können . Angenommen, ich möchte alle Zeilen, in denen der Eröffnungspreis größer als 64 war. Also kann ich df offene Klammer machen, d f open größer als 64. Ordnung, das sind also alle Reihen, in denen der Eröffnungspreis größer als 64 ist. Nehmen wir an, ich möchte alle Zeilen, in denen der Name nicht Starbucks ist. Also kann ich df, df Name nicht gleich S-Box machen. Okay, wir haben also keine Zeilen, in denen der Name nicht Starbucks ist. Es scheint also, dass ich mit der Schreibweise in eckigen Klammern so etwas wie einen booleschen Code wie diesen von innen heraus übergeben kann . Schauen wir uns also an, was dieses boolesche Ding eigentlich ist. Lass uns den Typ überprüfen. überrascht vielleicht nicht, dass es sich um eine Serie handelt, die boolesche Werte enthält. Also die eckigen Klammern auf einem DataFrame außer einer booleschen Reihe als Eingabe. Seltsamerweise stimmt dieses Verhalten mit der Funktionsweise von Numpy-Arrays überein. Meiner Meinung nach ist numpy hier konsistenter, da dies die Zeilenauswahl beinhaltet und sie nicht als Auswahl bezeichnet. Also lass uns das machen. Importieren wir numpy, da np gleich np.array Bereich zehn ist. Mal sehen, was ein ist. Das ist also ein Array von ganzen Zahlen 0-10. Nehmen wir an, ich möchte nur die geraden Zahlen behalten. Dann kann ich eine offene Klammer machen, ein Mod zwei ist gleich Null. Das gibt mir alle geraden Zahlen in diesem Array. Jetzt können Sie als Hausaufgabe den Datentyp der Sache überprüfen , die wir gerade in die eckigen Klammern eingegeben haben. Ein Mod zwei ist also gleich Null. Beim Erstellen von Algorithmen für maschinelles Lernen möchten Sie normalerweise mit Arrays von Zahlen arbeiten und nicht mit DataFrames, die alle Arten von Objekten enthalten können. Wie können wir also einen DataFrame in ein NumPy-Array konvertieren? Wir können das Values-Attribut verwenden. Das sind also nur DF-Punktwerte. Leider gibt uns das dtype-Objekt, was wir nicht wollen, wenn wir maschinelles Lernen betreiben, da es jetzt Strings innerhalb dieses Arrays gibt. Mal sehen, was passiert, wenn wir nur die numerischen Spalten auswählen. Also lasst uns gleich df, open, close Werte machen und wir werden überprüfen, was es ist. Okay, jetzt haben wir ein richtiges Zahlenfeld. Lassen Sie uns den Typ eines überprüfen. Ordnung, es ist also wie erwartet ein NumPy-Array. Ordnung, nehmen wir an, jetzt, da wir das getan haben , was wir mit unserem DataFrame tun mussten, möchten wir es in einer Datei speichern. Dies wird mit den beiden CSV-Funktionen erreicht. Nehmen wir an, ich möchte nur die offenen und geschlossenen Spalten behalten . Dann kann ich kleine df gleich df öffnen, schließen. Und dann kann ich kleine df zu CSV machen, Punkt CSV ausgeben. Okay, und das hat gerade meinen DataFrame in einer Datei namens output dot CSV gespeichert . Jetzt können wir den Linux-Befehl verwenden , um zu sehen, was sich in unserer Datei befindet, damit wir den Head-Ausgabepunkt CSV ausführen können. Leider scheint es in unserer Datei eine ziemlich nutzlose Indexspalte zu geben . Zum Glück können wir das loswerden. Also machen wir dieselbe Zeile. Und wir fügen ein neues Argument hinzu. Index ist gleich falsch. Jetzt können wir den Befehl head nochmal versuchen. Und die Indexspalte ist weg. 5. Die apply() Funktion: In dieser Vorlesung werden wir die Funktion apply diskutieren. Der typische Anwendungsfall für die Funktion apply wäre ähnlich dem Szenario, in dem wir einige Operationen für jedes Element einer Liste ausführen möchten , z. B. wenn wir jedes Element quadrieren wollen, natürlich in Python, wir wissen, dass Schleifen langsam sind, also möchten wir sie nach Möglichkeit vermeiden. Die Funktion apply kann verwendet werden, wenn Sie dieselbe Operation für jede Zeile eines DataFrame oder jede Spalte eines DataFrame ausführen möchten. Mit anderen Worten, es macht das, was Sie mit einer for-Schleife machen möchten , ohne tatsächlich eine for-Schleife schreiben zu müssen. Lassen Sie uns ein Beispiel machen. Angenommen, ich möchte eine Spalte namens Jahr haben, in der ich die vorhandene Datumsspalte nehme, das Jahr analysiere und es in eine Ganzzahl konvertiere. Beginnen wir also damit, eine Funktion zu schreiben, die eine einzelne Zeile eines DataFrame als Eingabe akzeptiert . Das wäre also die zwei Jahre taub und es dauert in Folge. Also geben wir int of rho zurück, Datum in eckiger Klammer. Dann teilen wir diese Saite mit einem Strich, und dann greifen wir nach dem Null-Element. Wenn Sie jetzt nicht sofort sehen können, wie das funktioniert, würde ich vorschlagen, dies an einer Dummy-Datumszeichenfolge zu versuchen. Denken Sie daran, dass das Format ein Jahresstrich, ein Monats-Strich-Tag ist Als Nächstes wenden wir diese Funktion auf jede Zeile unseres DataFrame an. Also bewerben wir uns von Jahr zu Jahr. Das erste Argument ist also, dass eine Funktionsachse gleich eins ist. Die Achse ist gleich eins ist notwendig. Andernfalls funktioniert dies säulenweise anstelle von Robotern. Also lass uns das machen. Und wie Sie sehen können, bringen wir eine Serie heraus, die nur das Jahr des Typs D in 64 enthält . Beachten Sie, dass wir diese Serie auch einer neuen Spalte zuweisen können . Wir können also tun, dass das DF-Jahr dem entspricht, was wir oben haben. Ordnung, jetzt schauen wir uns an, was das mit unserem DataFrame gemacht hat. Wie Sie sehen können, gibt es eine neue Spalte namens Jahr. 6. Plotten mit Pandas: In diesem Vortrag werden wir uns ansehen, wie man mit Pandas plottet. Pandas macht dies sehr einfach, da es Instanzmethoden sowohl für Serien als auch für DataFrames bereitstellt sowohl für Serien als auch für DataFrames , die automatisch Plots generieren. Also lasst uns ein paar ausprobieren. Also machen wir df open dot hist. Wie Sie sehen können, wird dadurch ein Histogramm erstellt. Wie wäre es mit dem F-Open-Grundstück? Wie Sie sehen können, wird dadurch ein Liniendiagramm erstellt. Diese Methodennamen entsprechen übrigens ihren Kartenplott-Live-Versionen, wodurch sie leicht zu merken sind. Wir können auch interessantere Plots wie den Boxplot machen. Jetzt ist das Boxplot natürlich nützlich für numerische Spalten. Wählen wir also Open High, Low und Close. Das wäre also df, offen hoch, niedrig, nah. Und wir machen Plot Dot Box. Und das ist also ein Boxplot. Ein weiteres Diagramm, das sehr nützlich ist, um eine schnelle Zusammenfassung Ihrer Daten zu erhalten , ist die Streumatrix. Also lasst uns das zuerst planen und dann besprechen wir , was wir sehen. Also werden wir die Scattermatrix importieren. Importieren Sie also aus Pandas Punktplotten die Streumatrix. Und dann rufen wir diese Funktion auf. Also Scattermatrix, derselbe DataFrame wie oben. Und dann sagen wir, Alpha ist gleich 0,2 und figsize ist gleich 66. Okay? Dies ist eine Scattermatrix. Wie Sie wissen, dass Alpha gleich 0,2 ist, haben die Punkte Transparenz und durch die feste Größe wird der Plot etwas größer, sodass wir ihn besser sehen können. Was ist diese Handlung? Im Grunde zeigt dieses Diagramm die lineare Korrelation zwischen den einzelnen Datenspalten. Auf der Diagonale erhalten wir ein Histogramm jeder einzelnen Spalte. So können wir die Verteilung unserer Daten sehen. Mit anderen Worten, dies ist eine statistische Zusammenfassung der Daten. Wir sehen, welche Art von Verteilung jede Spalte hat und wie sie miteinander verwandt sind. 7. Pandas Übung: In dieser Vorlesung gehen wir auf die nächste Übung zur Pendissektion ein. In dieser Übung kombinieren Sie das, was Sie in den vorherigen Abschnitten gelernt haben , und gehen noch einen Schritt weiter. Sie müssen auch die Pandas-Dokumentation verwenden , um diese Übung abzuschließen. Übrigens ist die Verwendung der Dokumentation sehr wichtig, da diese Bibliotheken ständig aktualisiert werden und sich die APIs ständig ändern. Sie könnten ein ganzes einwöchiges Bootcamp über Pandas machen und wissen immer noch nicht Hälfte dessen, was Pandas zu bieten haben. Und selbst wenn Sie die gesamte Pan is API studiert hätten, was übrigens sehr unwahrscheinlich ist, was übrigens sehr unwahrscheinlich ist, könnten Sie sich sowieso nicht das Ganze merken. Selbst wenn Sie sich all diese Informationen merken könnten, warum sollten Sie wollen, wenn was Sie auswendig gelernt haben, meine Änderung. Versuchen Sie also nicht, sich die Syntax zu merken oder sich zu sehr an eine bestimmte Vorgehensweise zu binden, sondern lernen Sie einfach, die Dokumentation zu verwenden. Und noch ein Hinweis, Sie sollten dies tun ohne Blogs oder Tutorials zu verwenden. Verwenden Sie nur die offizielle Pandas - und NumPy-Dokumentation. Ordnung, also was ist die Übung? In dieser Übung generieren Sie das Donut-Dataset, also das Dataset mit konzentrischen Kreisen. Sobald Sie den Datensatz generiert haben , der natürlich in einem Array gespeichert wird, erstellen Sie einen DataFrame aus diesem Array. Sie möchten die Spaltennamen X1 und X2 aufrufen. Dann möchten Sie neue Spalten basierend auf X1 und X2 ableiten . Wir nennen diese quadratische Feature-Erweiterung. Sie möchten also drei neue Spalten generieren x1 quadriert, x2 quadriert und X1 mal X2. Möglicherweise finden Sie hier, dass die Anwenden-Funktion nützlich ist. Außerdem möchten Sie diese Spalten entsprechend benennen. Nachdem Sie Ihren DataFrame fertiggestellt haben, speichern Sie ihn in einer CSV ohne Header und ohne Indexspalte. Daher sollte Ihre CSV nur die Zahlen enthalten , die gespeichert würden, wenn es ein NumPy-Array wäre. Viel Glück und wir sehen uns in der nächsten Vorlesung. 8. Wo erhalte ich Rabatt-Coupons und kostenloses maschinelles Lernmaterial: Hallo zusammen und willkommen zurück in dieser Klasse. In dieser Vorlesung beantworte ich eine der häufigsten Fragen, die mir gestellt werden. Wo erhalte ich Rabattgutscheine und kostenloses Deep-Learning-Material? Fangen wir mit Coupons an. Ich habe verschiedene Möglichkeiten, wie Sie mit mir auf dem Laufenden bleiben können. Die absolute Nummer eins, die beste Möglichkeit, sich über neu veröffentlichte Rabattgutscheine auf dem Laufenden zu halten neu veröffentlichte Rabattgutscheine , besteht darin , meinen Newsletter zu abonnieren. Es gibt mehrere Möglichkeiten, dies zu tun. Zunächst können Sie meine Website besuchen, Lazy Programmer Dot. Oben auf der Seite befindet sich ein Feld, in das Sie Ihre E-Mail-Adresse eingeben und sich für den Newsletter anmelden können. Eine weitere Website, die ich besitze und betreibe , ist Deep Learning courses.com. Diese Website enthält größtenteils die gleichen Kurse wie auf dieser Plattform, aber sie enthält auch zusätzliches VIP-Material. Dazu später mehr. Wenn Sie also zum Ende dieser Website scrollen, finden Sie ein Feld zur Eingabe Ihrer E-Mail-Adresse, dem Sie sich für den Newsletter anmelden können, wie Sie es bei einem Lazy-Programm bei DOT ME tun würden . Sie müssen also nur eines davon machen. Lassen Sie uns jetzt einen kleinen Exkurs machen, denn das ist eine weitere häufig gestellte Frage, die ich bekomme. Worum geht es bei diesem VIP-Material und wie kann ich es bekommen? So funktioniert die VIP-Sache. Wenn ich einen Kurs veröffentliche, veröffentliche ich ihn normalerweise mit temporärem VIP-Material, das exklusiv für Frühaufsteher ist , die sich während meiner Ankündigung für den Kurs angemeldet haben . Das ist eine nette kleine Belohnung für diejenigen unter euch , die über meine Ankündigungen auf dem Laufenden bleiben und sie natürlich auch tatsächlich lesen. Es ist wichtig zu beachten, dass VIP-Material jederzeit veröffentlicht werden kann. Z. B. konnte ich drei Jahre nach Beginn keine größeren Aktualisierungen an einem Kurs vornehmen und eine weitere VIP-Veröffentlichung durchführen. Der Zweck von Deep Learning courses.com ist es, ein dauerhaftes Zuhause für diese VIP-Materialien zu haben. Auch wenn es auf der Plattform, auf der Sie sich angemeldet haben, vorübergehend sein könnte . Wenn Sie sich für die VIP-Version des Kurses anmelden, erhalten Sie auf Anfrage dauerhaft Zugriff auf die VIP-Materialien auf deep learning courses.com. Hier sind einige Beispiele für Materialien, die Sie möglicherweise in den VIP-Bereichen meines TensorFlow finden . Natürlich gibt es drei zusätzliche Stunden Material zu Deep Dream und Objektlokalisierung. Normalerweise veröffentliche ich den VIP-Inhalt nicht im Videoformat, aber das war eine Ausnahme. Ein weiteres Beispiel in meinem hochmodernen KI-Kurs war ein zusätzlicher schriftlicher Abschnitt über den T3-Algorithmus. In diesem Kurs wurden insgesamt drei Algorithmen behandelt. Also der Extras-Bereich , der Ihnen noch ein, oder mit anderen Worten, 33% mehr Material bietet. Ein weiteres Beispiel in meinem fortgeschrittenen NLP- und RNNs-Chor ist ein Abschnitt über Spracherkennung mithilfe von Deep Learning. Darüber hinaus gibt es einen völlig neuen Abschnitt des Kurses über Aktienvorhersagen oder Speichernetzwerke, je nachdem, welche Version des Kurses Sie belegen. Der Grund dafür ist, dass ich möglicherweise leicht unterschiedliche Versionen jedes Kurses auf verschiedenen Plattformen veröffentliche leicht unterschiedliche Versionen jedes Kurses . Aufgrund der Funktionsweise der Regeln auf all diesen Plattformen muss ich die Kurse unterscheiden. Da ich jedoch eine Deep-Learning-Kurs.com besitze, ist dies die einzige Plattform, die die vollständigste Version des Kurses enthält , die alle Abschnitte umfasst. Bitte beachten Sie, dass dies selten vorkommt. Je nachdem, welchen Kurs Sie belegen, hat dies möglicherweise keine Auswirkungen auf Sie. Ordnung, also lass uns bei dir zurückkommen. Rabattgutscheine und kostenloses Material. Andere Orte, an denen ich Rabattgutscheine angekündigt habe , sind Facebook, Twitter und YouTube. Vielleicht möchten Sie dieses Video pausieren, damit Sie zu diesen URLs gehen und mir folgen oder mich auf diesen Websites abonnieren können, wenn es sich um Websites handelt , die Sie regelmäßig verwenden. Also für Facebook, diesen facebook.com Schrägstrich fauler Programmierer Punkt Emmy für Twitter, das ist twitter.com Slash Lazy Underscore Wissenschaftler für YouTube, youtube.com Schrägstrich C Schrägstrich fauler Programmierer x. Gelegentlich habe ich immer noch völlig kostenloses Material veröffentlicht. Das ist schön, wenn ich nur über ein einzelnes Thema sprechen möchte , ohne einen ganzen Kurs dafür machen zu müssen. ZB ich gerade ein Video über Börsenprognosen veröffentlicht und warum die meisten anderen Blogs in Kursen dieses Problem völlig falsch angehen. Das ist ein weiterer Vorteil der Anmeldung für diese Dinge. Ich kann gefälschte Datenwissenschaftler entlarven , die wirklich Vermarkter sind. Wohingegen ich niemals einen ganzen Kurs darüber machen würde. Manchmal kann dies in schriftlicher Form und manchmal in Videoform erfolgen. Wenn es in schriftlicher Form vorliegt, wird es entweder im Lazy-Programm sein und ME unterrichtet oder Deep Learning courses.com. Wenn es ein Video ist, wird es auf YouTube sein. Abonniere mich also unbedingt auf YouTube. Wenn ich ein Video veröffentliche, kann ich auch einen Beitrag darüber auf Lazy Programmer dot ME schreiben. Und ich kann es auch mit anderen Methoden ankündigen , die ich zuvor besprochen habe. Das ist also der Newsletter, Facebook, Twitter und natürlich YouTube selbst. Jetzt merke ich, dass das eine Menge Zeug ist und Sie wahrscheinlich nicht all diese Plattformen verwenden. Das tue ich bestimmt nicht, zumindest nicht regelmäßig. Wenn Sie also das Nötigste tun möchten, sollten Sie Folgendes tun. Melde dich zunächst für meinen Newsletter an. Denken Sie daran, dass Sie das entweder im Lazy-Programm bei DOT ME oder im Deep Learning courses.com tun können. Zweitens abonniere meinen YouTube-Kanal auf youtube.com. Slash C slash lazy programmer x. Danke fürs Zuhören und wir sehen uns in der nächsten Vorlesung.