Transkripte
1. Einführung: Guten Tag und willkommen zu dieser Einführung in Excel Python mit
Jupiter Teil zwei. Dies ist ein Kurs zur gemeinsamen Nutzung von Fähigkeiten. In dieser Einführung wird
dieser Kurs mit der Einführung in
die Programmiersprache Python
fortgesetzt . Wir gehen davon aus, dass Sie neu in Python
sind, aber mit Excel
und Tabellenkalkulationen vertraut Wir werden Jupiter Lab
als Python-Codierungsumgebung verwenden . Beachten Sie nur, dass dies
Teil zwei des Kurses ist, und konzentrieren Sie sich auf weitere
Excel-Python-Beispiele. Wir zeigen Ihnen
Excel-Operationen wie das Sortieren, Filtern und Hinzufügen
berechneter Spalten. Wir verwenden Pandas und zeigen
Ihnen, wie Sie Daten gruppieren, Spitzenwerte
finden und Daten mit Diagrammen
visualisieren können Wir werden auch
fortgeschrittene Themen wie V-Suche, Indexabgleich und Python behandeln. Schließlich werden wir uns mit der
Bereinigung von Daten in Tabellen und der Durchführung
statistischer Operationen befassen. Wir werden
dieselben Excel-Daten verwenden, um die zuvor verwendeten
Beispiele
festzulegen. Dies ist ein Beispiel für die Daten, vier Spalten, ID,
Carme, Modell und Preis Dies ist ein Abschnitt der
Beispiele, die ich behandeln werde. Zum Beispiel
arbeiten wir in Excel üblicherweise mit Durchschnitt, Max und Min, und wir zeigen Ihnen, wie Sie
dieselben Beispiele auch
in Python machen können. V Lou und Index Matching in Python sehr beliebt und
nützlich, genauso wie Sie es in Excel verwenden
können. Wir zeigen Ihnen also,
wie Sie das in Python ganz
einfach machen können. Großartig. Lass uns anfangen.
2. PROJEKT: Nun, ein Ansatz aus erster Hand um zu verstehen, was wir
behandeln werden, ist eigentlich ein Projekt. Hier werden Sie also sehen,
was Sie in diesem
zweiten Teil eines Kurses
behandeln werden . Laden Sie also noch einmal die CSV-Datei mit dem
Dam-Datenpunkt aus dem
Abschnitt Ressourcen dieses Kurses herunter, und Sie müssen
die Daten für dieses Projekt verarbeiten und die Daten auch grafisch darstellen. Das sind also Daten, mit denen Sie mit
Stadtbussen arbeiten
werden , Bevölkerung
in Millionen. Sie
müssen also
Städte mit mehr als
21,5 Millionen Einwohnern extrahieren Städte mit mehr als
21,5 Millionen Einwohnern und in einer CSV-Datei speichern Berechne den Durchschnittspreis
aller Städte und das
Histogramm der Auch dies sind die Dinge, die
Sie im Kurs lernen werden. Sie
müssen also noch ein Balkendiagramm
der Stadt mit Städten mit mehr als 21,5 Millionen
Einwohnern erstellen , Beschriftungen für die X- und
Y-Achse Ihres Grundstücks
hinzufügen, einen Titel hinzufügen und
schließlich Ihr Grundstück speichern und als
CSV-Datei hochladen Großartig. Jetzt wissen Sie, womit Sie arbeiten und was Sie in diesem Kurs lernen
werden. Großartig. Lass uns anfangen.
3. Lektion 01 Erste Schritte: Großartig, fangen wir
mit Lektion eins an. Machen wir uns mit
der
Python-Codierungsumgebung vertraut ,
die Sie verwenden werden, nämlich Jupiter Lab. Sie gehen zu diesem Link,
Jupiter lab dot Github IO slash Demo
slashlablash index dot MO, und Sie werden einen
Browser sehen, der Ihnen die Möglichkeit gibt
, auf meine Notebook-Option zu Also hier werden wir die
Python Podide Notebook-Option verwenden Python Podide Notebook-Option Auch hier sehen Sie, was
Sie sehen werden, wenn Sie auf den Link gehen und
die Option Notizbuch sehen und
wir Python Piodide auswählen Das haben Sie also schon einmal gemacht. Aber jetzt, in diesem zweiten Teil, werden
wir Kartendaten verwenden zwei Punkte, CSV fünf, die Sie
im
Abschnitt Ressourcen des Kurses finden . Sie laden das einfach herunter
und laden Ihre Duple-Lab-Umgebung hoch,
wie wir es
Ihnen im ersten Teil des Kurses gezeigt haben Ihnen im ersten Teil des Kurses Klicken Sie dazu auf der
linken Seite der
Werkzeugleiste auf die Schaltfläche „Hochladen dazu auf der
linken Seite der
Werkzeugleiste auf die Also nochmal, was Sie
tun müssen , wenn Sie Daten
einlesen möchten, insbesondere CC-Dateien, zuerst würde
ich sagen, Pandas als PD importieren Und dann werden wir
die Daten in der DF-Variablen speichern. Das steht eigentlich
für Datenrahmen. So speichert Panda Daten. Wir können es also in DF speichern und Sie setzen das damit gleich, wie
wir das machen werden Also, wie wir Daten
einlesen werden, wir werden
PD Dot Read CSV verwenden Dadurch lesen wir die CSV-Datei ein
und geben ihr einen Namen, Kartendaten mit zwei Punkten, CSV. Wenn Sie dann DF ausdrucken, erhalten
Sie Ihren
Datensatz,
der in der Formel-CSV-Datei enthalten war , und Sie können sehen, wie die Daten hier
dargestellt werden. Jetzt nicht mehr der Unterschied im
Layout, wenn Sie Drucken nicht verwenden. Wenn Sie einfach DF sagen
und das ausführen, erhalten
wir in
JupraLab ein sehr schönes
Tabellenlayout , das auch etwas einfacher
zu lesen und zu sehen ist Wir werden das
im Kurs verwenden. Jetzt eine sehr nützliche Eigenschaft für Datenrahmen, indem Sie auf
beliebige Eigenschaften zugreifen, Sie können Punkt und
verschiedene Eigenschaften sagen .
Wir werden Barrieren überwinden. Aber die erste Methode, über die wir immer Bescheid wissen
sollten ist die Head-Methode oder
die
Head-Funktion, die Ihnen die
ersten fünf Zeilen
Ihres Datensatzes oder
Ihres Datenrahmens anzeigt . Jetzt können wir eine andere
Zahl angeben, zum Beispiel zehn oder eins oder 11 oder
wie viele Sie möchten, aber es ist eine sehr
nützliche Eigenschaft oder Methode, um
mit Datenrahmen zu verwenden und darauf zuzugreifen. Ein sehr nützliches ASOR
ist jetzt die Punktinformation für Ihren Datenrahmen D info gibt Ihnen Informationen
über die Spalten und Zeilen. Das
Wichtigste
dabei ist, wie Pandas in Ihrem Datensatz
gelesen haben Wir können sehen, dass wir
verschiedene Spalten haben und wir können sehen, dass sie jetzt nein sind, dass Werte dargestellt werden, und der Typ D ist eigentlich der
wichtigste, den man sich ansehen sollte Denn hier erfahren
Sie, wie Pandas in der CSV-Datei
lesen und
wie sie aktuell gespeichert ist Derzeit wird die ID-Spalte als Ganzzahl
gespeichert. Car Mac wird als Objekt gespeichert, Pandas stellt
Zeichenketten und Texte als Objekt dar,
was Sie erwarten Das Modelljahr wird als int
dargestellt. Alle Datumsfelder, die wir
eigentlich nicht als Ganzzahl haben wollen, wollen
wir
als Datums- und Uhrzeitfeld, zu
dem Sie gelangen,
weil wir so
die Daten
nach unseren Wünschen filtern und ändern können wir so
die Daten
nach unseren Wünschen filtern und ändern Wir werden das aber später ändern. Preisspalte wird als Float
dargestellt, was wir auch erwarten. Das war also eine Zusammenfassung,
nur um dort
anzufangen , wo wir in Teil eins
aufgehört haben Der einzige Unterschied
besteht darin, dass wir
DF verwenden , nicht zum Speichern der Daten, nicht der Datenvariablen, und dass wir
Autodaten als CSV-Datei verwenden Großartig. Fahren wir mit
der nächsten Lektion fort.
4. Lektion 02 Excel-ähnliche Operationen in Python: Großartig. Hören Sie sich
El-Operationen in Python an. Also haben wir
die Daten schon einmal eingelesen. In der vorherigen Lektion werden
wir es jetzt noch einmal machen. Sie diesen Schritt wiederholen,
geben Sie Pandas PD, DF gleich P Punkt Read CSV und den Dateinamen
Kartendaten in Punkt Denken Sie daran, dass die Unterstriche ebenfalls sehr wichtig sind Das erste, was wir tun werden
, ist nach Spalten zu sortieren. Nun, das ist
in Excel durchaus üblich und wir können dies
auch in Python mit Pandas problemlos tun Wie machen wir das? Nun, auch hier verweisen
wir auf unseren Datenrahmen DF. Alle unsere Daten werden in DF gespeichert
und wir verwenden den Punkt, um
bestimmte Parameter oder Methoden abzurufen bestimmte Parameter oder Methoden denen wir
die Daten tatsächlich ändern und modifizieren können. Es gibt also eine eingebaute, genau
wie wir Head und Info verwenden. Es gibt auch einen, der als
Sortierwerte bezeichnet wird. Was Sie also tun werden
, ist Werte zu sortieren. Und es gibt bestimmte
Parameter, die wir für diese
eingebaute Methode auswählen
können. Wir
sortieren also nicht nur Werte, wir wollen die Werte auch nach dem Preis sortieren. Und wie wollen
wir das dann? Eine weitere Eigenschaft bezieht
sich darauf, wie es sortiert werden
soll, während wir
es aufsteigend falsch machen wollen Warum ist das die Reihenfolge, nach der
wir es sortieren wollen. Lassen Sie uns sehen, wenn wir das
ausführen, wir bekommen das nach Preis sortierte
Ergebnis, und wir sehen die
höchsten Preise oben, und es geht in dieser Reihenfolge. Also habe ich
dir gerade die ersten fünf gezeigt. Du kannst es natürlich ändern,
weißt du , auch zehn daraus machen. Dann war das vorher einfach
nicht gelaufen, lass mich das hier nochmal überprüfen. Dann machen wir es hier drüben. Da haben wir's. Das ist
eine gute Methode um zu sehen, ob etwas
schief geht, was zu tun ist. Die vorherige Art von DF wurde
tatsächlich nicht ausgeführt. Deshalb hat es nicht funktioniert. Es ist auch eine gute Praxis. Wenn Sie ein Problem sehen,
versuchen Sie es zu lösen, und oft ist es so Sie
die vorherige Zelle nicht ausgeführt haben, Sie haben
die vorherige Zelle nicht ausgeführt. Diese sind nützlich, um zu sehen,
wie das behoben werden kann. Als nächstes können wir Rose filtern. So
möchten wir zum Beispiel Rose
nach Autopreisen von mehr als
20.000$ filtern nach Autopreisen von mehr als
20.000$ Das können wir also ganz
einfach in Python machen. Nun, wir
ändern nicht unbedingt den Datenrahmen. Wir filtern ihn. Wir filtern
es also so , dass wir einen neuen
Datenrahmen oder
eine Teilmenge von
Datenrahmen erstellen müssen, der prüft, ob die Werte größer
und kleiner als 20.000 sind Der erste, den wir uns tatsächlich ansehen
müssen, ist der DF-Preis. Wenn wir uns nur
die innere Klammer ansehen, was sich in der Klammer befindet. Was sich innerhalb der
Klammer befindet, ist, dass wir nur überprüfen, ob der aktuelle Wert
in der Preisspalte
größer als 2000 ist . Wenn ja, erhalten
Sie einen booleschen Wert. Boolean ist entweder wahr oder falsch. Es wird Ihnen tatsächlich einen neuen Datenrahmen
geben. Da
wir eigentlich nur auf einen Datenpreis in einer Spalte zugreifen, wird
dieser als Serie
bezeichnet, es
sich um eine einzelne Tabelle
mit einer einzigen Spalte handelt. Dadurch erhalten Sie jedoch
Werte wie wahr oder falsch. Und was wir
dort tun, ist , dass
wir die wahren
und falschen Werte nehmen und diese jetzt
auf unseren äußeren Datenrahmen anwenden. Auf diese Weise filtern wir. Wir wollen nur die
Zeilen sehen, die wahr sind. Das ist standardmäßig das
, was passieren wird. Die falschen
werden nicht angezeigt. Und wenn du es ausführst, wirst du Folgendes sehen. Sie werden sehen, dass Ihre Ausgabe zusammengeklappt ausgeführt
wird Sie werden nur die
CarMx-Autos mit einem Wert von mehr
als 20.000 sehen CarMx-Autos mit einem Wert von mehr
als 20.000 So filtern Sie Zeilen, und Sie können
Daten auf verschiedene Arten filtern Und das ist eine Möglichkeit, das zu tun. Nun zu einigen
zusammenfassenden Statistiken. Excel-Funktionen wie Durchschnitt
und Max und Min werden also häufig verwendet, und das können wir mit Pandas ganz
einfach tun Wenn man sich also nur anschaut, ob man zum Beispiel
nur auf die Spalte
Kernpreis im Datenrahmen
zugreifen nur auf die Spalte
Kernpreis im Datenrahmen Wir können darauf zugreifen, genau wie
Sie es mit Kopf und Info gemacht haben, ähm, jetzt können wir auch den Mittelwert
nur für diese Spalte berechnen. Max können wir nur das Maximum Mit Dot Max können wir nur das Maximum
für die Spalte berechnen. Wir können den
Mindestwert für diese Spalte ermitteln. Dies sind all die
verschiedenen Eigenschaften oder spezifischen Methoden, wir mit
Pandas standardmäßig zugreifen Ich drucke
es hier aus und das sind die Ergebnisse
, die wir bekommen Also berechnete Spalten hinzufügen. So können wir eine neue
Spalte mit Formeln hinzufügen. Zum Beispiel
der Preis
für den Rabatt von 10% . Also wie macht man das? Nun, lassen Sie uns zunächst wieder
auf die eine Preisspalte zugreifen. Alles, was wir tun, fügen wir einen
Rabatt von 10% hinzu, mal um 0,9, und das sparen wir in
einen reduzierten Preis Wir sparen es zu einem
vergünstigten Preis. Lassen Sie uns das überprüfen und Sie können in der neuen Spalte hier sehen ,
dass es sich um einen reduzierten Preis
handelt, wenn Sie zuerst die ersten fünf
anzeigen ,
dass es sich um einen reduzierten Preis
handelt, wenn Sie zuerst die Auch hier kann es geändert und zu Ihrem Datenrahmen
hinzugefügt werden. Wir können also auch Pivot-Tabellen verwenden. Pivot-Tabellen sind
weit verbreitet und werden in Excel
verwendet, und das können wir
auch mit Python tun. Jetzt mache ich das wieder mit der
Achse des Datenrahmens, und alles, was wir tun, ist
, eine Gruppe nach
Methode zu verwenden und wir spezifizieren,
dass wir nach karmischen Werten gruppieren wollen Und wie wollen wir es gruppieren? Nun, wir wollen den
Durchschnitt der Preise ermitteln. Also schauen wir mal, was wir bekommen. Also gab es ein paar Gruppen. Es gab Honda und
Kyoto, die gruppiert wurden. Die anderen waren einzigartig, aber sie wurden in der Kategorie zusammengefasst. Die Berechnung basiert
auf dem Durchschnitt
der Honda und Kyota, die ich herstelle Ich denke, Kia, es
gab auch mehr als eine
Option für Kia Jetzt können Sie auch
die Top-Endwerte finden. In Exil können Sie
bedingte
Formatierungen oder Filter verwenden bedingte
Formatierungen oder Filter , um die oberen Endwerte hervorzuheben Python ist ziemlich
einfach. Auch hier haben Sie diese
Methode namens Punkt Enlargest und Sie können angeben, okay, geben Sie mir die
drei größten Werte
basierend auf dem Preis Und wenn Sie das ausführen, erhalten
Sie die ersten drei
recht schnell und einfach, um die gesamte Unabhängigkeit zu erreichen Falls Sie in Excel die
Funktionen
für Groß- und Kleinschreibung verwenden möchten , verfügen
Sie über diese Funktionalität. Auch in Pandas. Auch hier wirst du
vielleicht auf das Karmische zugreifen ,
weil das Saiten Das ist Text. Also sagen wir hier
nicht einfach oben, weil wir jetzt in verschiedenen
Eigenschaften darauf
zugreifen. Wir müssen auf die
String-Eigenschaften zugreifen. So sagen wir Punktfolge. Und als Teil von Dot
String haben
wir standardmäßig die Methode mit dem oberen Punkt, der nur alle Buchstaben in Großbuchstaben erstellt Es gibt verschiedene andere
Eigenschaften von string, und dies ist nur eine
davon . Großartig.
Das siehst du. Die Automarke schreiben wir
jetzt in Großbuchstaben. Sie können, wie ich
bereits erwähnt habe,
zwei Kyotos 202 Kyo sehen zwei Kyotos 202 Das vorherige
Beispiel zeigt nur , wie man sie
gruppiert, um einen Durchschnitt zu finden Jetzt können Sie auch eine
Spalte hinzufügen, die auf einer Bedingung basiert. Das machen Sie
in El ziemlich oft, wenn Sie die If-Anweisung verwenden, die Bedingung ist wahr, wenn falsch. Jetzt können Sie dies ganz einfach mit Python und
einer Lambda-Funktion Ich kann hier anfangen und
sagen, wenn X 15.000 ist, dann ist das Ergebnis
ja, sonst ist es nein Dies ist ein Format, das Sie mit einer
einzeiligen Funktion
schreiben können . Es gibt andere Möglichkeiten,
dies zu tun, aber das ist nur eine Möglichkeit. Das Schöne an
Pfannen ist, dass wir diese Funktionalität
überall
anwenden können . Auch hier agieren
wir wie eine
Preisspalte und verwenden eine
Punktmethode, was wir
anwenden, wenden diese Funktion Wir prüfen, ob X
größer als 15.000 ist, platzieren ja, sonst platzieren wir nein, und wir speichern das in einem neuen
Säulenkabel , ist das teuer Dort können Sie sehen,
wenn Sie das ausführen, sehen
Sie ja, nein,
ja, nein, nein, vier. Autos über 15.000
würden mit Ja oder Nein, Nein oder Ja bewertet werden. Bei dieser Bestellung habe ich vorhin
über das Modelljahr gesprochen, also die Umwandlung von Zeichenketten in Datumsangaben. Exil, Sie können einen Datumswert verwenden
oder Zellen als Daten formatieren. Python, das kannst
du ganz einfach tagsüber machen. In diesem Fall
werden Sie das Modelljahr in
ein Datetime-Format
konvertieren Ich werde keine Zeichenfolge mehr verwenden,
sondern ein Datetime-Format, und wir werden es als Jahr
beibehalten Wir werden das speichern
und
es fast in die bestehende
Spalte Modelljahr überschreiben es fast in die bestehende
Spalte Modelljahr Wenn Sie das haben, sehen Sie, ähm, das Modell wurde,
Sie wissen schon, geändert Wir können auch Rang bekommen. Rang ist eine
Bolt-in-Funktion in Excel. Auch hier können
Sie für die Preisspalte Rang und aufsteigend ein
False verwenden und nur
die ersten fünf Sie können
auch Rang verwenden. Gleitender Durchschnitt. Dies ist der gleitende Durchschnitt und die
Exil-Funktion, die Sie verwenden können Sie können einen ähnlichen Ansatz verwenden Jetzt gibt es Bolting,
Meta, Quad-Rolling. Sie können auch den Wert
für Windows 3 oder den gewünschten
Breit-Wert und den
Wout-Punkt wählen gewünschten
Breit-Wert und den
Wout-Punkt wählen Dann erhalten Sie erwartungsgemäß den
gleitenden Durchschnitt für die ersten fünf Werte für die ersten fünf Werte,
wie
Sie sehen können Großartig. Gut gemacht,
dass du so weit gekommen bist. Hoffentlich können Sie die
Vorteile von Python und all die verschiedenen
Funktionen, die Sie in
Python von Exl aus ausführen
können Großartig. Lassen Sie uns
mit der nächsten Lektion fortfahren.
5. Lektion 03 Fortgeschrittene Operationen und Statistiken: Lassen Sie uns mit Lektion drei,
Fortgeschrittene Operationen
und Statistiken, fortfahren . Deshalb haben wir Informationsbeispiele
in Python behandelt und erklärt, wie Sie das tun können was Sie in
Excel und Python tun können. Jetzt werden wir Filter verwenden,
um bestimmte Zeilen zu finden. Jetzt können
wir, wie schon zuvor, die
CSV-Datei mit dieser Zeile einlesen. Und jetzt wollen wir bestimmte Zeilen
bekommen. Und wie wir Ihnen bereits gezeigt haben, wollen wir, wenn
wir etwas Bestimmtes wollen, eine Tabelle
mit wahren und falschen
Werten erstellen , eine Tabelle mit diesen Werten,
die wir
verwenden werden , um
unseren Hauptdatenrahmen herauszufiltern. Wir haben also einen in
der Mitte, einen in der Mitte, einen den
inneren Klammern, dann haben wir den
Datenrahmen an Land, den wir filtern wollen Schauen wir uns also zuerst
diesen an. In Ordnung. Also wollen wir
alle Zeilen finden , die
den Comic-Toyota enthalten. Um das zu tun,
werden wir zuerst auf
das Säulenmikrofon verweisen. Und dann müssen wir
auf eine Methode zugreifen, die Zeichenketteneigenschaften
hat, also sagen wir Punktzeichenfolge. Ein Teil der Punktfolge ist dann , dass sie eine andere Methode
namens contains hat. Wir haben es schon einmal gemacht, die
Methode „
upper and lower “ und „
string dot string“ hat viele andere Methoden oder Untermethoden, die sie verwenden kann.
Contains ist eine davon. Also prüft es.
Enthält die Zeichenfolge das Wort Toyota? Und das gibt uns eine einzige
Tabelle mit Wahr und Falsch. Alle Zeilen geben uns, ob diese Zeile
Iota enthält oder nicht Wahr oder falsch? Und dann wenden wir das auf unseren
Hauptdatenrahmen DF hier in den eckigen
Klammern an. Das Ergebnis sind bestimmte Zeilen. Und wenn Sie es ausführen,
sehen wir unseren neuen Datenrahmen, nur zwei Zeilen mit einem
karmischen Toyota und einem Tota hat Auf diese Weise können Sie schnell und
einfach nur die
Daten filtern , die Sie sehen möchten
. Sehr nützlich und praktisch. Find and Replace ist ein
gängiges Tool in Exl, in Python können Sie es auch sehr einfach
machen Jetzt ändern wir
die Spalte speziell.
Wir verwenden einfach DF Comic, um sie
zuerst zu referenzieren, und dann verwenden wir eine
eingebaute Methode namens replace und ersetzen
Teota Wenn Sie das ausführen, können
wir sehen, dass zuerst die ersten fünf
ausgedruckt werden.
Wir können sehen, dass Choda durch Corolla ersetzt
wurde Sehr schneller und einfacher
Weg, das zu tun. Um doppelte Zeilen zu entfernen. In El mit Pandas können Sie Duplikate
auf verschiedene Arten erstellen. Wenn eine Rose ein exaktes
Duplikat von sich selbst ist, können Sie DFT-Drop-Duplikate verwenden und diese Zeile wird dann vollständig entfernt Ein Beispiel, wenn Sie sie nur ausdrucken
möchten, obwohl es in diesem Beispiel keine
Duplikate gibt, aber wenn Sie möchten, können
Sie Wenn Sie fehlende Daten eingeben
möchten, was manchmal der Fall ist Wir können die vollständige NA-Methode verwenden und diese auf
unseren Datenrahmen anwenden. Und womit
möchtest du es füllen? Wir können es mit Null,
Eins oder was auch immer Sie wollen füllen. Aber etwas, das vielleicht etwas
zutreffender ist,
lassen Sie uns es vielleicht füllen, wenn wir
eine leere Zelle, ein
leeres Feld finden . Lassen Sie uns das durch die Spalte mit den anderen
Durchschnittspreisen ersetzen. Aber nette Art,
einen leeren Wert zu füllen. Auch dieses Beispiel
hat das nicht, aber Sie können es bei Bedarf jederzeit in
Ihrem eigenen Beispiel verwenden. Um vielleicht viele
Spalten von Zeilen zu löschen, können
Sie die Drop-Methode verwenden Wenn Sie zum Beispiel die Preisspalte
löschen möchten. Sie können einfach DF verwenden dies
auf Ihren
gesamten Datenrahmen anwenden, den Spaltennamen
löschen und dann angeben. Wir verwenden nur die
Preisspaltenfolge, von der Sie sehen, dass keine Preisspalte mehr
ist, sobald
Sie diesen Befehl ausführen. Be Lou und Index Matching, offensichtlich sehr beliebt und
nützlich in Excel, und wir können dasselbe in Python tun. Auch in diesem Fall verwenden
wir zwei innere
und äußere Datenrahmen. Der innere gibt uns eine Tabelle, eine einspaltige Tabelle oder
eine Reihe
von wahren und falschen Werten,
und er wird
nur überprüfen, ob die ID in diesem
Fall der Fahrzeug-ID
entspricht, wir haben es gerade auf fünf gemacht. Es wird prüfen, ob
es der ID entspricht? Wenn nicht, wird es falsch sein. Wir werden
eine Liste mit einzelnen
Spalten mit Wahr und Falsch erhalten . Wir wenden das auf den
anderen Datenrahmen und erhalten Fahrzeugdetails. Dann, wie Sie sehen können,
gibt es nur eine Nummer fünf, und das ist die Zeile
, die wir herausnehmen werden. Eine weitere nützliche Sache, die Sie
vielleicht mit V Lou verwenden könnten, ist die
Kombination von Daten aus zwei Blättern. Jetzt habe ich
mithilfe der Zusammenführungsfunktion auch
zusätzliche Daten hinzugefügt . Ich habe hier
ein Wörterbuch mit zwei Listen und
einer ID erstellt , damit ich
es der vorhandenen zuordnen kann. Und was ich tatsächlich
hinzufüge, ist der Kilometerstand. Ich füge es nur zu
den ersten fünf Zeilen hinzu. Ich erstelle einen neuen Datenrahmen und ich kann dieses Wörterbuch
hier einfach als Eingabe hinzufügen und um einen neuen Datenrahmen zu
erstellen, sage
ich PD Dataframe sage
ich PD Dataframe füge das Wörterbuch hinzu und ich habe
meinen neuen Datenrahmen, den ich Was ich jetzt
tun werde, ist ihn mit Pd Dot
Merge zusammenzuführen, meinen ursprünglichen Datenrahmen
mit meinem neuen DF zwei, und ich möchte ihn auf
ID zusammenführen und wie Es ist eine linke Zeichnung, was
meinen ursprünglichen Datenrahmen DF bedeutet , der
bereits alle Daten enthält. Das werden meine
Hauptdaten sein und sie werden
dort bleiben und nur alles
, was auf der
ID damit übereinstimmt, wird hinzugefügt. Ausgedruckt wirst du sehen, wie Meilen
zu den ersten fünf hinzugefügt wurden Erstellen Sie Pivot-Tabellen für
zusammenfassende Statistiken,
etwas, das wir
bereits früher behandelt
haben , aber das ist
ein anderer Weg In Python hat der
Datenrahmen standardmäßig Pivotables als Methode und hat bestimmte Parameter , die Sie in
Form von Werten verwenden können Wir können auf den Index der
Preisspalte verweisen. Es wird ein Modelljahr und Ag Funk werde ich sein. Das werden wir verwenden
, um zu spezifizieren. So drucken Sie
es aus, sobald Sie diese Zeilendaten
ausgeführt haben . Dann wieder Daten transponieren,
etwas, um
Zeilen und Spalten umzudrehen Das geht ganz schnell und einfach
, nur DFT. Und wenn Sie das ausführen, erhalten
Sie Ihren Datenrahmen , der hier als umgedreht dargestellt wird Wir haben das zuvor manuell gemacht,
indem wir die durchschnittlichen Werte für Min und Max verwendet haben. Sie können auch die
integrierte Beschreibungsmethode von Panda verwenden, die
Ihnen standardmäßig diese Werte, durchschnittliche Abweichung und
verschiedene andere Dinge Wenn Sie DF Punkt beschreiben sagen
und das ausführen, werden
Sie sehen, dass Sie
Statistiken über Daten erhalten Zähle bis Mittelwert, sanare
Abweichung, Minimum, verschiedene Quantile und
Maximum für alle Daten In diesem Zusammenhang ist
der Preis die einzige Spalte, die relevant ist, aber es ist sehr praktisch,
um ein Gefühl für Ihre Daten zu bekommen Aggregationen. Wenn Sie benutzerdefinierte Formeln und
Pivot-Tabellen verwenden möchten, können Sie das tun Wenn Sie zum Beispiel bestimmte Spalten, Gruppen, Einkäufe, Karma
und relativ zum Preis
gruppieren möchten , können Sie den
Aggregationsmittelwert maximal und
min definieren und Sie können
diese auch gruppieren. Sie verwenden eine Aggregationsmethode und
Sie bekommen nur diese Funktionen in
Ihren benutzerdefinierten Statistiken
angezeigt und Sie können verschiedene
andere Funktionen hinzufügen Aber wir verwenden nur die ausgedruckten Mittelwerte von Max und M, um
benutzerdefinierte Statistiken für
die verschiedenen Felder zu erhalten benutzerdefinierte Statistiken für
die Wenn Sie beispielsweise eine prozentuale
Änderung hinzufügen möchten , können
Sie Formeln wie B
zwei minus B eins, a B eins verwenden. Das können Sie auch ganz einfach
mit Preisänderungen tun. Spalte, wenn du das hinzufügst.
Sie können die integrierte Methode zur Preisänderung verwenden, die der Spalte Preis
hinzugefügt wird. Wenn Sie das erhalten,
erhalten Sie diesen Wert hier oder Sie erhalten die
Tabelle hier, was Sie für
die Preisänderung für
die verschiedenen Werte erwarten . Sie können auch eine kumulative
Summe, einen Summenbereich oder
kumulative Formeln berechnen also eine CM-Summe verwenden, können
Sie sie auf
die Preisspalte anwenden und erhalten den kumulierten Und Sie drucken es
aus, das erhalten
Sie mit all Ihren Daten Auch Korrelation, sehr
wichtig und nützlich in Excel. Korrelieren Sie Bereich
eins und Bereich zwei. Auch hier geht es um das Modelljahr, das mit dem Preis
korreliert, und Sie möchten
die Korrelation
zwischen Modell und Preis ermitteln zwischen Modell und Preis Sie können eine
Korrelation von 0,68 feststellen,
was bedeutet, dass R ziemlich eng
korreliert Gut gemacht, das sind einige
fortgeschrittene Operationen und Statistiken, die so weit kommen Lassen Sie uns mit
der nächsten Lektion fortfahren.
6. Lektion 04 Plotbeispiele: Großartig.
Gehen wir nun zu Lektion vier über, in der es
darum geht, Beispiele zu zeichnen Hier ist ein grundlegendes Liniendiagramm
, das wir
behandeln werden, und Excel verwendet
Linientrab für bestimmte Trends Wie
wir Ihnen bereits gezeigt haben, verwenden
wir in Python eine Plotbibliothek
namens MatplotLib Pilot is PLT, und wir werden sie zum Plotten verwenden Lassen Sie uns nun zuerst
unsere CSV-Datei hier drüben einlesen ,
wie Speziell für Liniendiagramme wollen wir nur die ersten zehn Zeilen
verwenden. Ich habe es gefiltert, indem ich einfach
Df Punkt Kopf zehn gesagt habe und ESMA DF zwei
gespeichert Um nun den
interaktiven Modus auszuschalten, das ist nur für Jupraab Du kannst das machen. Und wenn wir plt dot Iof ausführen, wie spezifizieren
wir dann das Liniendiagramm Nun, wir sagen einfach df dot
plot. Es gibt eine Methode. Geben Sie die X-Werte Y-Werte an und um welches Diagramm handelt es sich? Wir wollen ein Liniendiagramm
und fügen einen Titel, Preisentwicklung nach Modelljahr, ein Y-Label und einen Preis
hinzu. Wenn wir diesen Code ausführen, erhalten
wir Folgendes. Um das wirklich zu planen
, müssen wir
plt dot I on und plt dot show sagen plt dot I on und plt dot Auf diese Weise erhalten Sie ein Diagramm des Jahres im Vergleich zum Preis
Ihres Datenmodells Jetzt machen wir einen Barhot. Jetzt starten Sie erneut mit dem
Umschalten des interaktiven Modus. Auch in Ihrem eigenen Beispiel müssen
Sie das nicht wirklich tun, aber für meine Präsentation werde
ich, wir werden ein Balkendiagramm erstellen. Also tolle Balkendiagramme. Es ist nützlich,
Kategorien und kategoriale Daten zu vergleichen. Um das zu tun, verwenden
wir in diesem Fall DF und sagen Handlung Auch hier gilt: Comic-mäßig
ist der Preis wie ein
Balkendiagramm und der Titel Sobald Sie das ausgeführt haben, erhalten
Sie ein Balkendiagramm
der verschiedenen Daten, die wir im Vergleich zum Preis
haben Und dann ein Kreisdiagramm zu erstellen,
und das ist offensichtlich nützlich, um Proportionen
mithilfe von Kreisdiagrammen zu visualisieren Wir müssen zuerst gruppieren, wir
müssen nach karmischem Wert gruppieren, und dann, relativ zum
Preis und zur kumulativen Summe, werden
wir
das alles in einer Linie darstellen Das Art Kreisdiagramm
oder das Kreisdiagramm. Dies ist nur ein bestimmter Parameter Zeichnen von Kreisdiagrammen müssen Sie sich keine
Gedanken machen, aber standardmäßig gibt uns
1.1 den ähm, den Wert, den Sie
im Kreisdiagramm sehen werden, und den Titel die
Verteilung nach Karmic Sobald Sie das ausgeführt haben, werden Sie
sehen, dass dies die
Verteilung ist und dass dies
die Prozentsätze des Werts
waren , den Sie hier gesehen haben. Der Auto-PCT, das ist der 1.1 F. So werden die
Prozentsätze verteilt Dies sind die Werte bei C. Dies ist eine typische hohe
Verteilung eines Mikrofons Also werden wir wieder den interaktiven
Modus
ausschalten und ein Histogramm erstellen Auch hier verwenden
wir für Excel ein Histogramm für die
Häufigkeitsverteilung, und auch hier verwenden wir DF Denken Sie daran, dass
wir für das Liniendiagramm DF 2 verwenden, aber für
die restlichen Diagramme verwende
ich DF, nur um anzuzeigen, mit wie viel mehr Daten
Sie arbeiten Histogramm zu zeigen
ist also eine Art Hist,
eine Reihe von Bins, die
wir als
fünf Titel wählen können : Gewürzverteilung, Farbe, Himmelblau,
Randfarbe ist Dann können wir
auch ein X-Label dafür hinzufügen und wir
können das angezeigte
Diagramm ausführen,
dann ist das die Preisverteilung nach Distrikten für die Diagramme für die Daten Um ein Streudiagramm zu erstellen, das auch sehr
nützlich ist , um Beziehungen
zwischen Variablen,
DFA-Diagramm, X-Achse,
Modelljahr oder Y-Achsenpreis aufzuzeigen DFA-Diagramm, X-Achse, , oder die Y-Daten oder Xata sind Streutitel,
Preis im Vergleich zum Modell, Farben
rot und fügen auch
eine Preis im Vergleich zum Modell, Farben
rot und fügen Und wenn Sie das ausführen, erhalten
wir mit diesen Befehlen
das Streudiagramm
eines Modelljahres im eines Wir können also auch einen
Boxplot erstellen, um die Datenverteilung mithilfe von
Box- und Whiskerdiagrammen zu visualisieren Also hier werden wir DF Dot Box Plot
verwenden. Dies ist eine einzigartige Art von Handlung. In der Kolumne wird
der Preis pro Mikrofon angegeben. Wir werden keine Raster
- oder Vertikaleigenschaften verwenden, sondern sie einfach falsch angeben. Fügen Sie einen Titel, einen Untertitel und eine Bezeichnung hinzu. Wenn Sie das haben,
erhalten Sie Ihren Boxplot und verschiedene Distributionen für
Toyota Lexis, Kia Dies waren Optionen mit mehreren
Zeilen. Und die Preisverteilung. Dann
machen wir ein Diagramm mit mehreren Linien. Mehrzeiliges Diagramm, plotten Sie mehrere
Reihen in einem Diagramm. Auch hier verwenden wir tatsächlich DF zwei. Für die Liniendiagramme verwenden wir also
DF zwei und alle Diagramme von DF , weil die Diagramme nicht proportional
sein werden. Also verwenden wir DF zwei und ich mache
nur eine Kopie davon speichere es in mehreren DF. Was ich herausfinden möchte, ist, auch einen ermäßigten Preis
auszuarbeiten auch einen ermäßigten Preis
auszuarbeiten Ich habe das in der Spalte
und dann werde ich den Modellpreis im Vergleich zu einem reduzierten Preis
angeben Ich kann den Vergleich
zwischen zwei verschiedenen
Liniendiagrammen sehen zwischen zwei verschiedenen
Liniendiagrammen Der Zweck besteht darin,
zwei verschiedene Liniendiagramme zu zeigen, nur mit einem Rabatt von 10%, wie wir es zuvor getan haben.
Wenn wir das tun, gehen
wir raus, wir können sehen, dass wir
zwei verschiedene Grundstücke bekommen und Sie können sehen, dass sie ziemlich genau übereinstimmen, wobei eines
offensichtlich nur einen um 10% unterschiedlichen Preis gegenüber
dem reduzierten Preis Balkendiagramme
sind auch sehr nützlich, um den Beitrag
zur Gesamtsumme mithilfe
gestapelter Balkendiagramme darzustellen zur Gesamtsumme mithilfe
gestapelter Balkendiagramme Sie können wiederum nach
kumulierter Summe, Art, Balkendiagramm und
gestapeltem Balkendiagramm gruppieren kumulierter Summe, Art, Balkendiagramm und
gestapeltem Balkendiagramm gruppieren Sie können also auch verwenden. Und da ist die Art der
Handlung, die Sie sehen werden. Großartig. Dies ist nur eine etwas ausführlichere Einführung
in all die verschiedenen
Arten von Diagrammen, die Sie in Python
verwenden können , und
etwas, das Sie
auch in Excel
verwenden könnten in Excel
verwenden , und wie Sie
von einem zum anderen springen können. Großartig. Hoffentlich war
das nützlich. Fahren wir mit
der nächsten Lektion fort.
7. Lektion 05 Daten konvertieren: Ordnung. Hören Sie fünf, hier werden wir uns auf die Konvertierung von Daten
konzentrieren. In diesem Abschnitt werden wir
uns ansehen, wie
Daten in verschiedenen Formaten konvertiert werden. Wenn Sie nun Folgendes eingeben, müssen
wir den
Datenrahmen in eine CSV-Datei konvertieren. Wir haben mit Daten gearbeitet, wir haben sie modifiziert und geändert. In Exil speichern wir
Daten normalerweise im CSV-Format, um sie einfach teilen
zu Das können wir auch in Python machen. Wenn wir also unseren
Datenrahmen nach Belieben modifiziert
und gefiltert und
sortiert und geändert haben, können wir
das
jetzt tatsächlich konvertieren und
als neue CSV-Datei speichern , in zwei CSV-Dateien. Und wieder können wir
es als Autos speichern, die
CSV-Daten enthalten, und den
Index als falsch belassen. Und dann sollten Sie,
wenn Sie das ausführen, diese Datei auch
in Ihrem UPLA-Labor speichern lassen Wenn Sie den Datenrahmen
auch in das JSON-Format konvertieren möchten. Auch hier ist JSN für Web
- oder Datenbankanwendungen vorgesehen Sie können dies ganz einfach mit
der Methode mit zwei JSN tun , die
außerhalb des gesamten Sie können
es vielleicht einfach Autodaten oder JSON nennen
oder nach Datensätzen und Zeilen
entspricht Diese können sich je
nachdem, was Sie ausgeben, ändern. Um einen Datenrahmen in HML zu konvertieren ihn
für die Anzeige im Internet oder für Berichte zu konvertieren, können
Sie einfach HML mit Punkt zwei
verwenden
und ihn als Cars-Data-2-HML speichern, und der diskrete Index Während der Konvertierung von Daten können
Sie auch
Datenrahmen in die Formate Excel, SQL Parke und Feather Es gibt viele Möglichkeiten,
das Becken
je nach Bedarf umzurechnen das Becken
je nach Bedarf Großartig. Damit ist der Kurs tatsächlich
abgeschlossen, hoffentlich
lernst du etwas und jetzt kannst du deine Übung machen, konkret
an dem Projekt arbeiten.
8. Abschluss: Abschließend fassen wir nur zusammen,
worauf Sie sich konzentrieren In diesem Kurs konzentrieren wir uns darauf, unsere
Python-Fähigkeiten anhand von Excel
aufzubauen. Wir haben Ihnen das
Jupiter-Labor und die
Umgebung gezeigt , wie man Python-Code
schreibt. Wir haben Ihnen auch einige
erweiterte Funktionen
von Python für Excel gezeigt . Gewinnen Sie Arbeit mit einem kleinen Datensatz.
Wir haben Ihnen gezeigt, wie
Sie Statistiken filtern, sortieren, aggregieren, gruppieren und
trainieren können. Wir haben Ihnen gezeigt, wie
Sie verschiedene Diagramme erstellen und Datenrahmen
in verschiedene Formate konvertieren können. Python hat viel mehr zu bieten,
als wir behandeln wollen. Seien Sie gespannt auf den nächsten Kurs
und viel Spaß beim Programmieren. Danke.