Aus Daten Erkenntnisse machen: 10 Schlüsselfunktionen zur Datenanalyse in Python | Skillshare Member | Skillshare
Suchen

Playback-Geschwindigkeit


1.0x


  • 0.5x
  • 0.75x
  • 1x (normal)
  • 1.25x
  • 1.5x
  • 1.75x
  • 2x

Aus Daten Erkenntnisse machen: 10 Schlüsselfunktionen zur Datenanalyse in Python

teacher avatar Skillshare Member

Schau dir diesen Kurs und Tausende anderer Kurse an

Erhalte unbegrenzten Zugang zu allen Kursen
Lerne von Branchenführern, Ikonen und erfahrenen Experten
Wähle aus einer Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Schau dir diesen Kurs und Tausende anderer Kurse an

Erhalte unbegrenzten Zugang zu allen Kursen
Lerne von Branchenführern, Ikonen und erfahrenen Experten
Wähle aus einer Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Einheiten dieses Kurses

    • 1.

      Einführung

      3:09

    • 2.

      Pandas für die Datenanalyse

      1:29

    • 3.

      Funktion 1 CSV lesen

      3:12

    • 4.

      Funktion 2 Kopf

      1:29

    • 5.

      Funktion 3 Info

      1:45

    • 6.

      Funktion 4 beschreiben

      1:35

    • 7.

      Funktion 5 dropna

      7:28

    • 8.

      Funktion 6 fillna

      2:44

    • 9.

      Funktion 7 Gruppe nach

      3:04

    • 10.

      Funktion 8 Sortierwerte

      2:49

    • 11.

      Funktion 9-Abfrage

      2:09

    • 12.

      Funktion 10 zusammenführen

      4:43

    • 13.

      Vielen Dank

      0:51

  • --
  • Anfänger-Niveau
  • Fortgeschrittenes Niveau
  • Fortgeschrittenes Niveau
  • Jedes Niveau

Von der Community generiert

Das Niveau wird anhand der mehrheitlichen Meinung der Teilnehmer:innen bestimmt, die diesen Kurs bewertet haben. Bis das Feedback von mindestens 5 Teilnehmer:innen eingegangen ist, wird die Empfehlung der Kursleiter:innen angezeigt.

9

Teilnehmer:innen

--

Projekt

Über diesen Kurs

Willkommen bei "10 großartigen Funktionen in Python zur Datenanalyse"!

Für wen dieser Kurs geeignet ist

Dieser Kurs ist für alle geeignet, die in die Welt der Datenanalyse mit Python einsteigen möchten – unabhängig davon, ob du bereits Programmiererfahrung hast oder nicht. Vorkenntnisse sind nicht erforderlich – nur ein Computer, eine Internetverbindung und die Bereitschaft zum Lernen. 

Was du brauchst

Um mit der Datenanalyse mit Python zu beginnen, musst du eine Python-Umgebung auf deinem Computer einrichten. Aber keine Sorge – ich bin hier, um dir bei jedem Schritt zu helfen. Wir verwenden Tools wie Anaconda (einschließlich Jupyter Notebooks) oder Visual Studio Code, die beide kostenlos und häufig für die Datenanalyse verwendet werden. Wenn du noch keine Erfahrung hast, schau dir detaillierte Setup-Tutorials an:

Diese Schritt-für-Schritt-Anleitungen stellen sicher, dass du in kürzester Zeit mit dem Programmieren beginnen kannst.

Was du lernen wirst

In diesem Kurs wirst du in 10 der leistungsstärksten und praktischsten Funktionen in Python eintauchen, die für die Datenanalyse unerlässlich sind. Jede Kurseinheit konzentriert sich auf eine bestimmte Funktion, erklärt ihren Zweck und zeigt Ihnen, wie man sie mit realen Datensätzen verwendet. Am Ende des Kurses verfügst du über ein solides Toolkit mit Python-Fähigkeiten, das du direkt auf deine eigenen Datenprojekte anwenden kannst. Hier ist, was du behandeln wirst:

  • So lädt und zeigt man Daten mit read_csv() und head() an
  • Zusammenfassen deiner Daten mit info() und description()
  • Bereinigen und Behandeln fehlender Daten mit dropna() und fillna()
  • Gruppieren und Sortieren von Daten mit groupby() und sort_value()
  • Daten mit query() filtern
  • Kombinieren von Datensätzen mit merge()

Am Ende dieses Kurses wirst du nicht nur die vorgestellten Methoden verstehen, sondern auch die 10 Funktionen in deinen eigenen Datensätzen anwenden und hast großartige Fähigkeiten in Bezug auf Datenanalyse erworben.

Triff deine:n Kursleiter:in

Teacher Profile Image

Skillshare Member

Kursleiter:in
Level: Beginner

Kursbewertung

Erwartungen erfüllt?
    Voll und ganz!
  • 0%
  • Ja
  • 0%
  • Teils teils
  • 0%
  • Eher nicht
  • 0%

Warum lohnt sich eine Mitgliedschaft bei Skillshare?

Nimm an prämierten Skillshare Original-Kursen teil

Jeder Kurs setzt sich aus kurzen Einheiten und praktischen Übungsprojekten zusammen

Mit deiner Mitgliedschaft unterstützt du die Kursleiter:innen auf Skillshare

Lerne von überall aus

Ob auf dem Weg zur Arbeit, zur Uni oder im Flieger - streame oder lade Kurse herunter mit der Skillshare-App und lerne, wo auch immer du möchtest.

Transkripte

1. Einführung: Hallo und willkommen zu zehn SAM-Funktionen in Python zur Datenanalyse. Dieser Kurs richtet sich speziell an Anfänger , die in die Datenanalyse mit Python eintauchen möchten. In diesem Kurs werde ich uns Schritt für Schritt durch einige der wichtigsten Funktionen von der wichtigsten Funktionen Python für die Datenmanipulation und -analyse führen. Am Ende dieses Kurses werden Sie nicht nur die vorgestellten Methoden verstehen, sondern auch in der Lage sein, die zehn Funktionen auf Ihre eigenen Datensätze anzuwenden , und Sie werden umfangreiche Fähigkeiten in der Datenanalyse erworben haben umfangreiche Fähigkeiten in der Datenanalyse Dieser Kurs folgt einem sehr praktischen Lernansatz Für jede Funktion erkläre ich zunächst das Konzept anhand eines einfachen, leicht zu drehenden Standfußes. Dann wenden wir das Gelernte sofort auf einen realen Datensatz an, sodass Sie genau sehen können wie jede Funktion in der Praxis funktioniert. praktische Methode hilft Ihnen dabei, ein klares und konkretes Verständnis dafür zu erlangen , wie Datenanalyseaufgaben effektiv ausgeführt werden können. Es ist mir eine Freude, Ihnen beim Einstieg zu helfen oder Ihre analytischen Fähigkeiten in Python zu verbessern. Mein Ziel ist es, dass Sie am Ende des Kurses zehn der nützlichsten Funktionen von Python für die Datenanalyse verstehen und anwenden können . Wenn Sie in der Lage sind, diese Funktionen selbst an Ihrem eigenen Datensatz auszuführen , wäre ich mehr als glücklich. Ich verfolge in diesem Kurs einen sehr praktischen Ansatz. Deshalb werde ich Ihnen zuerst jede Funktion erklären und Ihnen danach direkt in unserem Datensatz zeigen, direkt in unserem Datensatz zeigen wie diese Methode angewendet wird und was sie bewirken wird. Für deinen Lernfortschritt ist es sehr wichtig , dass du dir ein glasklares Bild davon machst, was das Ergebnis der Funktion sein wird. Daher werden wir einen realen Datensatz aus einfachen Karten verwenden , der viele Daten zu verschiedenen Städten der Welt enthält . Sie können diesen Datensatz in den Anhängen des Kurses herunterladen . Um Daten mit Python zu analysieren, müssen wir Python einrichten. Sie müssen eine geeignete Umgebung für die Codierung mit Python auswählen . Zwei der beliebtesten und kostenlosen Optionen sind Anaconda, denen auch Atributor-Notebooks und Visual Studio-Code gehören und In der Beschreibung des Kurses finden Sie Links zu nützlichen Tutorials, wie Sie Python mit diesen Möglichkeiten Schritt für Schritt einrichten können . Bevor Sie mit der nächsten Lektion beginnen, stellen Sie sicher, dass Sie ein Jupiter-Notizbuch geöffnet haben, entweder in Visual Studio-Code oder über eine Conda oder eine andere Plattform Ihrer Wahl Lassen Sie uns also anfangen. Ich freue mich darauf, dich im Kurs zu sehen. 2. Pandas für die Datenanalyse: Ordnung. Lassen Sie uns jetzt die Python-Pandas-Bibliothek installieren. Dies können wir tun, indem wir in die Zelle A klicken und Pip install Pandas eingeben Sie können eine Zelle ausführen, indem Sie entweder hier auf dieses Symbol klicken oder Jetzt wird es geladen, da ich Pandas schon einmal installiert hatte. Es heißt, dass die Anforderung bereits erfüllt ist. Ihr Text klingt möglicherweise anders, wenn Sie Pandas zum ersten Mal installieren Jetzt können wir überprüfen, ob die Installation erfolgreich war, indem wir Pandas importieren , und wir gehen zu einer nächsten Zelle geben Import Pandas as PD und In Ordnung. Das hat funktioniert. Wir haben Pandas erfolgreich installiert, was die Grundlage für alle kommenden Funktionen ist 3. Funktion 1 csv lesen: Kommen wir also zu unserer ersten Funktion. Unsere erste Funktion besteht darin , die CSV-Funktion zu lesen. Mit Read CSV können wir Daten aus einer CS-Datei in einen Pandas-Datenrahmen laden Daten aus einer CS-Datei in einen Pandas-Datenrahmen Dies ist eine der am häufigsten verwendeten Funktionen da Sie damit problemlos Daten aus externen Quellen zur Analyse und Bearbeitung importieren können Daten aus externen Quellen zur Analyse und Bearbeitung importieren zur Analyse und Bearbeitung In Ordnung. Bevor wir unsere CSV-Datei importieren, möchte ich erwähnen, dass Sie, wenn Sie wissenschaftliche Zahlen in Ihrem Notizbuch vermeiden möchten , diese Codezeile verwenden und ausführen können , und zwar mit den Pandas-Optionen, Display, D-Fließkommazahlen Sie können sicherstellen , dass Sie nur Zahlen mit zwei Dezimalstellen haben , was ich normalerweise bevorzuge Außerdem finden Sie mein gesamtes Notizbuch mit dem vollständigen Code in den Anhängen zum Kurs. Ordnung. Apropos unser Hauptdatensatz, mit dem wir arbeiten werden. Es handelt sich um einen Datensatz über Städte, Sie auch in den Anhängen zum Kurs finden. Wenn du mehr darüber erfahren möchtest , wie der Datensatz hergestellt wird und woher er stammt, findest du hier den Link zum Originaldatensatz. Okay. Gehen wir jetzt und importieren unsere CSV-Datei. Sie können Ihrer Datei einen Namen geben. Diese Datei, die CSV, wird ein Datenrahmen sein, und Sie können ihr einen Alias geben, Typ L in DF für Datenrahmen. Entspricht Pandas PD und liest Cs. Jetzt müssen Sie in die Klammern den Pfad eingeben, in dem sich Ihre Datei befindet, oder wenn Ihr Notizbuch im selben Ordner wie Ihr CS gespeichert ist, können Sie den Namen der CSV-Datei eingeben Ich habe keine Änderungen am Namen vorgenommen, sodass ich World C D CV eingeben kann Wenn Sie diese Zelle mit Shift Enter ausführen, wurde der Datenrahmen geladen. Sie können jetzt überprüfen, ob Sie DF eingegeben und die Zelle ausgeführt haben. Wir sehen, dass unser Datenrahmen erfolgreich importiert wurde und nun mit DF aufgerufen werden kann. 4. Funktion 2 Kopf: Als nächstes kommt die Kopffunktion. Mit der Head-Funktion können Sie die ersten Zeilen Ihres Datenrahmens anzeigen. Standardmäßig werden die ersten fünf Zeilen angezeigt, Sie können jedoch eine andere Zahl angeben. Diese Funktion ist nützlich, um die Struktur und den Inhalt Ihrer Daten schnell zu Nachdem wir unsere Daten geladen haben, werfen wir einen kurzen Blick auf die ersten Zeilen mit der Head-Funktion Also gehe ich zu einer Zelle und tippe dF ein, weil wir unseren Datensatz mit DF definiert haben und dF Punkt Kopf plus Klammern eingeben Punkt Kopf plus Klammern und die Zelle mit Shift Enter ausführen, und wir sehen die obersten fünf Zeilen unseres Datensatzes. Wir sehen zum Beispiel, dass der Datensatz Spalten wie Stadt, Breitengrad, Land oder die Bevölkerung der Stadt enthält . Wenn Sie eine andere Zahl in die Klammern eingeben, erhalten Sie außerdem eine andere Anzahl von Zeilen. Nehmen wir zum Beispiel an, Sie tippen auf dF drei und Sie sehen die obersten drei Zeilen Ihres Datensatzes. 5. Funktion 3 info: Tool Nummer drei ist die Infofunktion. Die Info-Funktion bietet eine kurze Zusammenfassung Ihres Datenrahmens, einschließlich der Datentypen jeder Spalte, der Anzahl der Werte ohne Null und der Speicherbelegung Diese Funktion ist wichtig, um die Gesamtstruktur und den Zustand Ihres Datensatzes zu verstehen die Gesamtstruktur und den Zustand Ihres Datensatzes Schauen wir es uns an. Ich gebe erneut DF info plus die Klammern ein und führe die Zelle aus. Wir sehen also, dass wir insgesamt 47.868 Einträge haben. Jetzt sehen wir auch , dass die meisten Spalten vom Typ Objekt sind und einige numerische Float-Spalten sind Eine weitere wertvolle Information , die wir sehen können, ist die Anzahl der Nichtwerte in jeder Spalte. Bei der Stadt in dieser Spalte fehlen beispielsweise keine Werte, da diese Zahl der Gesamtzahl der Zeilen im Datensatz entspricht . Aber beim Namen Admin sehen wir, dass es ein paar fehlende Werte gibt und dass es in der Hauptstadt eine Menge fehlender Werte gibt, weil wir hier nur etwas mehr als 13.000 Nicht-Null-Werte haben etwas mehr als 13.000 Nicht-Null-Werte 6. Funktion 4 beschreiben: unserer vierten Funktion, describe, geht es darum , Ihre numerischen Daten zusammenzufassen Die beschriebene Funktion generiert deskriptive Statistiken für numerische Spalten in Ihrem Datenrahmen, z. B. Mittelwert, Mittelwert, Standardabweichung und Perzentile Ich zeige Ihnen, wie es angewendet wird. Mal sehen, wie das hier aussieht. Ich gebe hier dF describe ein, wir sehen den Zählmittelwert, Standardabweichung, den Minimalwert, Maximalwert und 255075 Perzentile Da es also nur numerische Werte gibt , die auf diese Weise beschrieben werden können, sehen Sie, dass wir Breitengrad, Längengrad, Bevölkerung und ID haben Längengrad, Die anderen Spalten sind nicht numerisch, weshalb wir sie nicht auf diese Weise beschreiben können. Zum Beispiel können wir sehen, dass die durchschnittliche Bevölkerung pro Stadt 108.000 Einwohner beträgt oder dass die Standardabweichung des Breitengrads 23 beträgt 7. Funktion 5 dropna: Die Dropna-Funktion steht an fünfter Stelle. Die Dropna-Funktion wird verwendet, um fehlende Werte aus Ihrem Datenrahmen zu entfernen Wenn Sie einen Datenrahmen untersuchen, fehlen häufig Werte Sie können sich dafür entscheiden, Zeilen oder Spalten zu löschen, die bedeutungslose fehlende Werte enthalten, um sicherzustellen, dass Ihre Analyse auf vollständigen Daten basiert. Schauen wir uns zunächst unseren ersten Datenrahmen an. Er enthält mehr als 47.000 Einträge. Wenn ich jetzt DF drop eintippe, werden Sie sehen, dass wir nur noch 12.764 Zeilen übrig haben , wenn wir alle Zeilen löschen, die mindestens einen fehlenden Wert enthalten Standardmäßig entfernt drop now alle Zeilen, in denen Werte fehlen Sie könnten auch alle Spalten entfernen , die fehlende Werte enthalten, und das tun Sie, wenn Sie Achse ist gleich eingeben Erstens, dann schauen wir uns die Spalten mit fehlenden Werten an, und wie Sie sehen können, sind nur noch sechs Spalten übrig und all diese Spalten haben keine fehlenden Werte, weshalb sie immer noch da sind Zum Beispiel wurde der Admin-Name rausgeschmissen, weil er fehlende Werte enthält, zum Beispiel auch das Capital-Attribut. Eine wichtige Information über alle Funktionen ist, wenn Sie Shift Tab in die Klammern einer Funktion eingeben, sehen Sie alle Parameter einer Funktion. Eine Funktion in Python besteht aus verschiedenen Parametern, denen Sie eine Funktion spezifizieren und anpassen können. Hier findest du eine Dokumentation zu jedem Parameter. Also zum Beispiel die Achse, über die ich bereits gesprochen habe, hier steht, dass sich eins auf die Spalten bezieht, und wenn Sie Achse gleich Null eingeben, dann werden alle Zeilen gelöscht, die fehlende Werte enthalten Der Standardstatus ist Null. A-Zeilen, die fehlende Werte enthalten, werden entfernt Ein weiterer wichtiger Parameter in dieser Dropna-Funktion ist der How-Parameter, der Standardstatus Das bedeutet, dass alle Zeilen oder Spalten entfernt werden, in denen mindestens ein Wert fehlt Ich könnte diesen Parameter auf all ändern, und das würde bedeuten, dass nur die Zeilen entfernt werden , die überhaupt keine Werte haben, was bedeutet, dass sie alle fehlenden Werte enthalten. Ich könnte dir hier zeigen , wie man anruft. Antwort: Es ändert nichts an der Größe unseres Datenrahmens , weil wir keine einzige Zeile haben , die komplett voller fehlender Werte ist. Ein weiterer nützlicher Parameter ist, dass ich fehlende Zeilen, die auf einer bestimmten Spalte basieren, entfernen möchte , indem ich die Teilmenge ändere dem Teilmengenparameter können Sie angeben, um welche Spalte Sie fehlende Werte löschen möchten Nehmen wir an, ich möchte nur Zeilen mit Großbuchstaben behalten geben dann Großbuchstaben ein Kapital ist jetzt das Attribut, auf das ich abzielen möchte Wenn also Werte in Großbuchstaben fehlen, werden diese Zeilen entfernt. Wir sehen jetzt, dass wir 13 als und 23 Zeilen übrig haben. Wenn Sie diese Zahl mit den Nicht-Nullwerten von Kapital in der DF-Info-Funktion von zuvor vergleichen , sehen wir, dass diese Zahl dieselbe ist, was jetzt absolut Sinn macht. Ein weiterer wichtiger Aspekt, den ich erwähnen möchte, ist, dass wir jetzt alle Zeilen, die auf dem Kapital basieren, gestrichen haben . Wenn ich jetzt jedoch auf mein DF zurückgreife, sehen wir wieder unseren kompletten Datenrahmen mit allen fehlenden Werten. Wenn wir also mit unserem Datensatz weitermachen wollen, müssen wir ihm einen neuen geben, da DF beispielsweise Nichtwerte entfernt hat, die unserer Definition entsprechen, bevor wir die fehlenden Werte löschen Wenn wir diese Zelle ausführen, enthält dieser Name jetzt den Datenrahmen, den wir gefiltert haben Ich tippe in ein neues DF, entfernt nichts und führe es aus. Jetzt sehen wir, dass wir nur noch unsere 13.000 Zeilen übrig haben. Ich persönlich bevorzuge es, einen neuen Datenrahmen mit Ihren Änderungen zu erstellen , die Sie vornehmen möchten Sie können also immer einen der beiden Datenrahmen verwenden , je nachdem, was Sie sehen möchten. 8. Funktion 6 fillna: Daran schließt sich die FilNA-Funktion an, eine vielseitige Methode zum Umgang mit fehlenden Daten der Fila-Funktion können Sie fehlende Werte in Ihrem Datenrahmen durch einen bestimmten Wert ersetzen , z. B. einen Mittelwert, Median oder Null oder einen anderen Wert Ihrer Wahl Dies ist nützlich, um fehlende Daten zu verarbeiten , ohne Zeilen oder Spalten vollständig zu entfernen Anstatt Zeilen mit fehlenden Daten zu löschen, können wir fehlende Werte auch mit der Funktion flNA ausfüllen fehlende Werte auch mit der Funktion flNA Wir haben zum Beispiel gesehen , dass in unserer Hauptspalte viele Werte fehlen Zum Beispiel hier , wo keiner steht. Um sicherzustellen, dass wir keine wertvollen Daten verlieren und gleichzeitig die fehlenden Einträge korrigieren, können wir fehlende Werte mit einem Wert unserer Wahl ergänzen. Wenn ich beispielsweise dF-Filmklammern eintippe, wenn ich einen Beispielwert eintippe, können Sie sehen, dass dieser Wert jetzt den Stellen mit fehlenden Werten in unserem Datenrahmen zugewiesen wurde den Stellen mit fehlenden Werten in unserem Datenrahmen Wenn Sie nur fehlende Werte in einer bestimmten Spalte ausfüllen möchten , können Sie dies tun und müssen nur auf eine bestimmte Spalte zugreifen Sie können dies tun, indem Sie den Punkt df und den Namen der Spalte, die Sie adressieren, Capital, eingeben. Entspricht zum Beispiel DF Capital Film. Ich gebe als Beispiel Value Capital ein. Wenn ich jetzt diese Zelle ausführe und DF öffne, können wir sehen, dass wir jetzt unser Beispiel Value Capital darin haben . 9. Funktion 7 gruppieren nach: Als Nächstes haben wir die mächtige Gruppe nach Funktion. Die Funktion „Gruppieren nach“ wird verwendet, um Ihre Daten anhand der Werte einer oder mehrerer Spalten in Gruppen aufzuteilen . Sie können dann Aggregatfunktionen wie Summe oder Mittelwert für diese Gruppen ausführen , was für die Analyse kategorialer Daten von entscheidender Bedeutung ist In unserem Datensatz könnten wir beispielsweise die durchschnittliche Bevölkerungsgröße pro Stadt für jedes Land aggregieren pro Stadt für jedes Land Lass uns das machen. Ich tippe es zuerst ein und dann erkläre ich es dir. Tschüss. Was passiert hier? Zunächst weisen wir Python an, unsere Daten nach Ländern zu gruppieren. Das steht hier in der Klammer. Dann wählen wir die Populationsspalte aus und wenden die Mittelwertfunktion darauf an. Wenn wir schließlich den Reset eingeben, wird das Ergebnis wieder in einen Datenrahmen umgewandelt und sieht besser aus. Wir können ihm jetzt einen neuen Namen geben. Beispiel: DF gruppiert Wenn wir jetzt auf die DF-Gruppe zugreifen, erhalten wir den neuen Datenrahmen mit zwei Spalten, Land und Bevölkerung. Jede Zeile steht für ein Land, und die Bevölkerungsspalte zeigt jetzt die durchschnittliche Bevölkerung der Städte in diesem Land, zum Beispiel Albanien mit 43.000 Einwohnern Eines der großartigen Dinge an Groupi ist, dass es extrem flexibel ist Sie können es verwenden, um andere Aggregationsfunktionen wie Count Mean oder Max und mehr anzuwenden wie Count Mean oder Max und Wenn Sie beispielsweise die Gesamtbevölkerung für jedes Land anstelle des Durchschnitts ermitteln die Gesamtbevölkerung für möchten, würden Sie einfach den Mittelwert durch einen Wert ersetzen. Ich gebe hier einige ein. Wir werden sehen, dass sich die Zahlen geändert haben, weil wir jetzt die Gesamtzahl der Menschen für jedes Land haben . Albanien ist jetzt 1,65 Millionen. 10. Funktion 8 Werte sortieren: Als Nächstes folgt die Funktion zum Sortieren von Werten. Die Funktion „Werte sortieren“ sortiert Ihren Datenrahmen anhand der Werte in einer oder mehreren Spalten. Sie können in aufsteigender oder absteigender Reihenfolge sortieren, um die Rangfolge oder Priorisierung von Daten in Ihrem Datensatz zu vereinfachen Priorisierung von Daten in Mithilfe von Sortierwerten können wir unseren Datensatz beispielsweise nach der Bevölkerungsspalte sortieren Auf diese Weise können wir auf einfache Weise die beliebtesten und unbeliebtesten Städte oder Länder identifizieren . Ich kann zum Beispiel Sortierwerte mit dem F-Punkt eingeben und in die Klammern geben Sie die Spalte , nach der Sie sortieren möchten. Ich gebe Population ein. Und wir sehen Städte ganz oben ohne Bevölkerung, weil wir fehlende Werte haben. Diese erscheinen immer ganz am Ende, Diese erscheinen immer ganz am Ende wenn Sie fehlende Werte haben und eine Sortierung durchführen. Mit dem, was wir gelernt haben, können wir jetzt auch unsere Dropna-Funktion einfügen Also gebe ich TF ein, damit die Sortierung gleich dF ist, Teilmenge Jetzt führen wir das aus. Wenn wir jetzt den Wert nach Population sortieren, wurden die fehlenden Werte und die entsprechenden Zeilen entfernt. Wir können jetzt sehen, dass Tokio mit 37 Millionen Menschen die größte Stadt ist . Standardmäßig sind die Schwertwerte in aufsteigender Reihenfolge angeordnet, dies kann jedoch geändert werden Wenn Sie den Parameter aufsteigend auf Stürze setzen, erscheinen die größten Städte in den ersten Zeilen und die kleinsten Städte hier unten 11. Funktion 9-Abfrage: Nummer neun auf unserer Liste ist die Abfragefunktion, eine benutzerfreundliche Methode, Ihren Datenrahmen nach Ihren Bedürfnissen zu filtern . der Abfragefunktion können Sie Ihren Datenrahmen mithilfe einer Abfragezeichenfolge filtern , sodass Sie auch komplexe Bedingungen problemlos anwenden können. Sie vereinfacht die Auswahl von Zeilen auf der Grundlage mehrerer Bedingungen und bietet eine intuitive Möglichkeit, Daten ohne komplizierte Indizierung zu filtern Daten ohne komplizierte Indizierung Wenn wir beispielsweise nur die Städte in den Vereinigten Staaten sehen möchten , können wir DF query eingeben Dann ist es wichtig, Anführungszeichen zu verwenden, und wir geben in unserer Spalte gleich und wir müssen hier doppelte Anführungszeichen verwenden , weil Vereinigte Staaten eine Zeichenfolge ist Und bei dieser Abfrage ist Land gleich USA, wir erhalten nur US-Städte Wir können unserer Abfrage aber auch mehrere Bedingungen hinzufügen. Wenn ich die US-Städte weiter filtern möchte, können wir das tun, indem wir das Endzeichen hinzufügen. Nehmen wir an, wir möchten Städte mit mindestens 5 Millionen Einwohnern herausfiltern Städte mit mindestens 5 Millionen Einwohnern herausfiltern geben eine Bevölkerung von mehr als 5 Millionen ein. Wir sehen, dass wir nur noch ein paar Zeilen übrig haben , alle Städte in den USA mit mindestens 5 Millionen Einwohnern 12. Funktion 10 zusammenführen: Schließlich haben wir die Merge-Funktion, ein wichtiges Tool zum Kombinieren mehrerer Datenrahmen auf der Grundlage gemeinsamer Spalten. Es ähnelt SQL-Joints und ist für das Zusammenführen von Datensätzen mit gemeinsamen Schlüsseln unerlässlich Zusammenführen von Datensätzen mit gemeinsamen Schlüsseln Die Zusammenführungsfunktion ermöglicht uns dies, indem unseren Datensatz mit Weltstädten mit einem anderen Datensatz verknüpfen , der die Temperatur für Großstädte enthält Temperatur für Großstädte Unter diesem Link finden Sie die Erklärung zu dem Datensatz, von C stammt. Sie können den Datensatz auch in den Anhängen des Kurses herunterladen . Und wie wir gelernt haben, importiere ich die Datei mit der roten CS-Funktion und nenne sie DF Temp Wenn ich diese Zelle starte, führe ich das unterstrichene F temp aus. Wir können sehen, dass wir 100 Zeilen mit den wichtigsten Städten der Welt und einer bestimmten Temperatur in Celsius und einer Reihe anderer Wie können wir jetzt unseren Join machen? Ich mache einen Inner Join und wähle mit dem Schlüsselwort Inner Join Datensätze aus , die in beiden Tabellen übereinstimmende Werte haben. Ich werde in diesem Kurs nicht näher auf die anderen Join-Typen eingehen. Aber hier möchte ich nur eine Verknüpfung erstellen, die auf der Stadt und dem Land der beiden Datenrahmen basiert . Also gebe ich dF merge ein. Wir greifen auf unseren ersten Datenrahmen zu. Und in die Klammern gebe ich den Namen des Datenrahmens ein, auf dem wir die Zusammenführung durchführen möchten. DF Als Nächstes gebe ich mit dem How-Parameter an , dass ich eine innere Verknüpfung durchführen möchte. Achten Sie darauf, den Typ der Verknüpfung mit Anführungszeichen einzugeben. Dann müssen wir angeben welche Spalten wir die Zusammenführung durchführen möchten. Wenn wir weitermachen und unseren ersten Datensatz DF betrachten wollen, wollen wir Stadt und Land berücksichtigen. Ich tippe links auf und dann eckige Klammern, weil es mehr als eine Spalte gibt. In Anführungszeichen gebe ich Stadt ein. Und dann haben wir unseren zweiten Datenrahmen DF temp. Hier heißen die spezifischen Spalten Stadt und Land, aber mit einem großen C. Ich tippe direkt in Klammern C und Land. Lassen Sie uns das ausführen und wir sehen, dass wir insgesamt 93 gemeinsame Zeilen haben insgesamt 93 gemeinsame Zeilen , bei denen die Zusammenführung erfolgreich war Zum Beispiel sehen wir jetzt täglich unsere ersten Spalten, aber auch die neuen Spalten aus dem zweiten Datensatz mit der Temperatur, zum Beispiel 13. Vielen Dank: Vielen Dank, dass Sie an diesem Kurs über zehn großartige Funktionen in Python zur Datenanalyse teilgenommen Wenn Sie es bis hierher geschafft haben, möchte ich Ihnen zum Abschluss dieses Kurses gratulieren . Gut gemacht. Ich hoffe, Sie fanden die Lektionen hilfreich und fühlen sich sicher, diese Funktionen auf Ihre eigenen Projekte anzuwenden . Während Sie Ihre Reise in der Datenanalyse fortsetzen, wünsche ich Ihnen viel Glück bei all Ihren zukünftigen Bemühungen Denken Sie daran, dass Übung den Meister macht Experimentieren Sie also weiter mit verschiedenen Datensätzen und erkunden Bevor Sie loslegen, würde ich mich sehr über Ihr Feedback zu diesem Kurs freuen Ihre Erkenntnisse und Vorschläge helfen mir, meine Inhalte in Zukunft zu verbessern. Bitte nehmen Sie sich einen Moment Zeit, um Ihre Gedanken mitzuteilen. Es bedeutet mir sehr viel. Ich danke dir vielmals.