Erste Schritte in der Datenanalyse mit Python, Pandas und Jupyter

Paul O'Neill

Erhalte unbegrenzten Zugang zu allen Kursen

Lerne von Branchenführern, Ikonen und erfahrenen Experten

Wähle aus einer Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Erhalte unbegrenzten Zugang zu allen Kursen

Lerne von Branchenführern, Ikonen und erfahrenen Experten

Wähle aus einer Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Einheiten dieses Kurses

- 1.
  
  Einführung
  
  1:03
- 2.
  
  Kursübersicht
  
  1:24
- 3.
  
  Einige Daten zur Arbeit mit
  
  1:09
- 4.
  
  anaconda installieren
  
  5:14
- 5.
  
  Jupyter Notebook öffnen
  
  6:32
- 6.
  
  Analysieren der Daten
  
  12:39
- 7.
  
  Cheatsheet und Hilfe-Funktion
  
  2:44

Anfänger-Niveau

Fortgeschrittenes Niveau

Jedes Niveau

353

Teilnehmer:innen

Projekte

Über diesen Kurs

Dies ist eine Klasse für Anfänger auf der Ebene Data Analytics mit Python, Pandas und Jupyter Notebook. Ich erkläre in der Klasse, welche Software du brauchst und wie du sie installieren kannst, ist es ganz einfach. Alles ist frei und frei und läuft auf einem Windows-, Mac- oder Linux-Computer. Am Ende des Kurses hast du eine Arbeitsumgebung, in der du Pandas zum Ausforschen einiger Daten verwenden kannst. Der Kurs erfordert keine vorherigen Programmier- oder data

Triff deine:n Kursleiter:in

Paul O'Neill

Kursleiter:in

Hello, I'm Paul. I am an artist, cartoonist, teacher and data analyst. I live in Ireland but I've also lived in Japan for a significant portion of my adult life.

Vollständiges Profil ansehen

Skills dieses Kurses

Entwicklung Sonstiges zur Entwicklung Data Science

Level: Beginner

Praxisnahes Kursprojekt

Das Kursprojekt hat zwei Teile. Erhalte zuerst ein Arbeitsumfeld und zweitens führe eine grundlegende Analyse deiner Daten aus und veröffentlichen deine Ergebnisse. Ich zeige einige Beispiele für Orte, an denen du Daten finden und herunterladen kannst und einige grundlegende Datenvisualisierung zeigen kannst.

Electric Vehicle Population Data in WA state, US

Mohammed H'SAINI 1 Like

Data Analysis Using Python

Anwish Kumar

Kursbewertung

Warum lohnt sich eine Mitgliedschaft bei Skillshare?

Nimm an prämierten Skillshare Original-Kursen teil

Jeder Kurs setzt sich aus kurzen Einheiten und praktischen Übungsprojekten zusammen

Mit deiner Mitgliedschaft unterstützt du die Kursleiter:innen auf Skillshare

Lerne von überall aus

Ob auf dem Weg zur Arbeit, zur Uni oder im Flieger - streame oder lade Kurse herunter mit der Skillshare-App und lerne, wo auch immer du möchtest.

Transkripte

1. Einführung: Hi. Willkommen in dieser Klasse zur Datenanalyse mit Python Pandas auf dem Jupiter-Notebook. Mein Name ist Paul. Jetzt ist er seit etwa 12 Jahren Datenanalyst. Dies ist eine Anfängerklasse, also erwarte ich nicht, dass Leute irgendwelche Vorkenntnisse haben oder Pandas ihr Notizbuch bestellt haben. Und in der Tat, Sie haben keine Vorkenntnisse von der Durchführung von Datenanalysen. Das Ziel des Glases ist es, eine Arbeitsumgebung einzurichten, so dass Sie Jupiter Notebook auf Panders haben und Sie in der Lage, Ihre eigenen Daten zu analysieren. Legen Sie Ihre eigenen Daten fest. Die Fähigkeit, Daten zu analysieren, um Roll-Daten in Informationen umzuwandeln, ist eine sehr wertvolle Fähigkeit , die heutzutage zu haben. Viele Arbeitgeber würden jemanden mit diesen Fähigkeiten in ihrem Team schätzen, also hoffe ich, dass Sie während der Klasse mitverfolgen können. Auf diese können Sie Ihr eigenes Projekt in Ihre eigene Did-Analyse am Ende der Klasseerstellen Klasse 2. Kursübersicht: Ok. Diese Klasse hat vier Männer-Teile nach der Einführung. Der erste Teil besteht darin, einen Datensatz zum Arbeiten zu erhalten. In diesem Video zeige ich Ihnen verschiedene Orte, an denen Sie Ihren eigenen Datensatz herunterladen können, um mit zu arbeiten. Sie sind alle Open Source auf ihrem alten freien, um mit Nummer zwei zu arbeiten, dann ist es, Anaconda zu installieren. Die Anaconda-Distribution enthält viele Pakete über 100 Pakete auf. Es enthält die Pandas auf dem Jupiter-Notizbuch, die wir beide für diesen Kurs benötigen. Dann Nummer drei ist einfach öffnen Sie die Reise es oder Notebook und machen Sie sich bereit, einige Datenanalyse auf der letzten zu tun ist, tatsächlich beginnen, einige mit zu tun. Hat Analyse das Ziel am Ende der Klassen, eine Arbeitsumgebung haben, können Sie Datensätze mit Pandas analysieren. Entrepreneur Notizbuch Also, was ist dann Pandas? Es ist eine Software-Bibliothek, die für die Python Programmiersprache für Datenmanipulation und -analyse geschrieben wurde . Auf dem Dribbler-Notebook ist eine Open-Source-Webanwendung wie Dokumente erstellen und teilen, die Lebenscodegleichungen auf vielen andere Dinge. Du kannst es dafür benutzen. Eine Bereinigungstransformation , Datenvisualisierung usw. 3. Einige Daten zum Arbeiten beziehen: OK, da dies ein sehr praktischer Kurs ist, praktische Scholle. Ich schlage dringend vor, dass Sie so viel wie möglich mit der Klasse folgen. Um dies zu tun, müssen Sie einen Datensatz finden. Wolltest du damit arbeiten, ist wirklich egal, was das Defizit ist, solange es etwas ist, an dem du interessiert bist. Es gibt viele Orte, die Sie es ein Sets in diesen Tagen finden können. Regierungen, zum Beispiel, ist ein Kuss. Also hier haben wir Ihnen ein offenes Datenportal. Sie verfügen auch über Datenportale der kanadischen Regierung, US-Regierung Datenportale der US-Regierung. Wählen Sie ein Thema aus, an dem Sie interessiert sind. Gwynn, Beispiel, etc. Bildung. Suchen Sie nach einem Datensatz, den Sie heruntergeladen haben. Das ist alles, was Sie tun müssen, um damit zu beginnen. Sobald Sie Ihren Datensatz und den nächsten Abschnitt haben, werden wir uns Harvick Naxi geladene Assets in eine Arbeitsumgebung ansehen und beginnen einige haben Analysen 4. Anaconda installieren: Okay, Also einmal wurden ein Datensatz ausgewählt, mit dem wir arbeiten wollen. Das nächste, was wir wollen, um das herunterzuladen und dann irgendwo auf unserem Computer zu finden, dass schwächen speichern. Also speichere ich meine alle auf meinem D-Laufwerk. Ähm, das ist eine Windows-Maschine. Ähm, ich habe einen Ordner im Verzeichnis Cold erstellt. Hat Analyse innerhalb, dass ich viele weitere Verzeichnisse habe. Geld, mehr Ordner. Jeder ist für ein spezifisches Defizit. Also haben wir eine auf der Rüstung. Ob hat einen Satz Brexit Bitcoin viele andere. Ich rate, dies zu tun, so dass alles getrennt gehalten wird, anstatt alles in einem Verzeichnis zu sein, was sehr chaotisch werden könnte, wenn Sie anfangen, viele Datensätze und viele Jupiter-Notebooks und andere Dinge dort gespeichert zu haben . Okay, also Abend haben wir unseren Datensatz eingerichtet. Das nächste, was wir tun müssen, ist eine Arbeitsumgebung zu schaffen, damit wir tatsächlich einige Did-Analysen durchführen können ? Ähm, ich empfehle ein Kondom, das eine Sammlung von Python ist. Hat die Analyse gemacht? Hat ein Science-Paket? Es beinhaltet tote Analysen in einem neuronalen Netzwerk des maschinellen Lernens. Diese Art von Ding. Es sind etwa 100 Pakete in dieser Anaconda-Distribution enthalten. Ähm, und Sie können es auf Windows-Maschinen bekommen. Mac unter UNIX Betriebssystemen. Außerdem ist es, was Sie auf einer Eigentumswohnung Punkt com gehen. Ähm, klicken Sie auf Download-Button sortieren. Es erkennt, dass ich auf einem Windows-Computer bin, aber wenn Sie auf einem Mac oder im nächsten Jahr sind, wird es genauso gut funktionieren. Ähm, Sie müssen dann wählen, welche Version von Paice und Sie verwenden möchten. Sie können Pace und drei oder Peyton verwenden, zu meinem Rat wäre, den Python zu verwenden. Drei. Ich weiß nicht, was diese Version. Der Grund dafür ist, dass der Patient gut ist, wenn Sie zum Look von Python Dot Orgs gehen, sehen Sie, dass sie auch Python Sonnenuntergänge sind , was eine andere Möglichkeit ist, Python Zweis im Wesentlichen tot zu sagen. Sie können weiterhin place in verwenden, wenn Sie möchten, aber es wird nicht mehr unterstützt, zumindest nicht offiziell unterstützt. Dies bedeutet, dass, wenn es irgendwelche Probleme gibt, gibt es irgendwelche Sicherheitsprobleme mit dem Tempo, um sie in der Zukunft nicht behoben werden. Uh, dies trat im Allgemeinen in Kraft, die 1. 2020 Also, wie ich sage, würde ich empfehlen, mit der Python drei zu beginnen. Also, sobald Sie Python drei herunterladen. Du solltest ein Arbeitsumfeld haben. Sie befinden sich auf einem Windows-Computer und gehen zum Startmenü. Wir werden es sehen. Da ist eine. Laut drei. Erweitern Sie das. Da ist der Anaconda Navigator, und das ist ein guter Ausgangspunkt. Wenn Sie gerade anfangen, klicken wir auf den Navigator. Mach es auf. Sie werden sehen, es gibt verschiedene verschiedene Anwendungen zur Verfügung. Genaue Anwendungen, die Sie genau die gleichen wie diese gemacht haben, können in einer anderen Reihenfolge angeordnet sein , aber die, die wir wirklich interessiert sind, ist das Jupiter-Notebook. Wenn Sie also auf Start für das Jupiter-Notebook klicken, wird es in jedem beliebigen Browser geöffnet. Ich weiß nicht von so etwas, äh, äh, dem Männerverzeichnis, das es Ihnen gesagt hat. Denken Sie daran, ich hatte all diese verschiedenen Verzeichnisse für meine verschiedenen DigiScents. Also wird dieser Junge anfangen, sich den Datensatz anzusehen, den ich für die Rüstung ausgesucht habe. Ob es gesagt hat, Wenn wir in das hier gehen, werden Sie sehen, es gibt neue mit einem wir das erweitern können. Da steht Notizbuch, Python drei. Wenn Sie den Patienten installiert haben, wird es sagen, Tempo in zwei Jahren. Also habe ich darauf geklickt, dass wir ein neues Jupiter-Notizbuch bekommen, und so sieht es aus. Also, wenn du so weit bist, hast du Ah, neues Jupiter-Notizbuch geöffnet. Gut gemacht. Das ist der erste große Schritt, um analysieren zu können. Hat A Pandas auf Jupiter Notebook verwendet? 5. Jupyter Notebook öffnen: Okay, Also, wenn du mitgefolgt bist und du nicht hättest, bist du Jupiter-Notizbuch eingerichtet. Ähm, ein Datensatz? Nein. Sollte sich im selben Verzeichnis befinden. Es ist einfach einfacher zu arbeiten. Also, nein, wir werden anfangen. Das erste, was wir tun müssen, ist Pandas zu importieren. Ähm, wir arbeiten und Python. Es ist das gleiche wie jeder andere Python-Programmschlüssel. Was ist Import in die Bibliothek, an der wir interessiert sind, ist Pandas Library. Wir müssen diese Bibliothek mehrmals referenzieren. Also, anstatt Pandas jedes Mal auszutippen, wenn wir Lizzie haben könnten, geben Sie ihm einfach einen neuen Namen und er ist ihr Name. Wir werden es als S. D.nennen. D. Okay, wir können das ausführen. So haben Sie einen Blick Stern. Hoffentlich wird sich das bald zu einer Zahl drehen. Ja. Okay, also hat es erfolgreich Pandas geladen. Wenn es ein Problem gab, erhalten Sie eine Art Fehlermeldung. Dann musst du versuchen herauszufinden, was schief läuft. Es gibt viele Foren zur Verfügung, in denen Leute versuchen können, Ihre Fragen zu beantworten . Oder Sie können nach ähnlichen Problemen suchen, die andere Leute hatten. Welche Lösungen, die ich bin, haben sie sich ausgedacht. Aber hoffentlich klappt alles. Importieren Sie die Pandas-Bibliothek erfolgreich. Wir können unsere haben es nicht importieren. Also werden wir die Daten in eine Sache importieren, die ein hat Afrim es für ihn getan hat. Es ist nur eine Datenstruktur innerhalb von Pandas mit den Daten gespeichert und Sie können es als eine zweidimensionale Tabellenkalkulation vorstellen . Excel Kalkulationstabelle Es hat sich auf Säulen erhoben. Also rufen wir unsere Daten wieder für ihn an. Es Caesar Typ DF und Eingabe von Daten aus jedem Mal. Aber Sie können es nennen, wie immer Sie wollen, diese Idee von Gleichen. Jetzt rufen wir die Panis-Bibliothek an. Also PD auf in der Pandas-Bibliothek, gibt es eine Funktion kalt lesen. Siehst du, SV, unser hat es in einer CSE-Datei. Wir werden die lesen-SV-Funktion verwenden, um diese Daten über mich zu bekommen, um die Funktion mit Punktnotation aufzurufen , so p d dot gelesen unterstrichen CSTV aus den Klammern. Wir müssen es sagen, den Namen aus der Datei, die wir gehen wollten und holen auf die Datei, die ich habe genannt wird, ob Punkt CSP, wenn Sie eine Datei gemacht haben, ist Ihr Datensatz nicht im gleichen Verzeichnis wie Ihr Jupiter-Notebook. Sie müssen ihm den vollständigen Verzeichnispfad geben, damit er ihn finden kann. Wenn Sie dies nicht tun, wird es nur mit einer Fehlermeldung angezeigt, die besagt, dass die Datei fehlt oder etwas nicht finden konnte . Gut. Okay, also führen wir das nochmal durch, sehen Sie, es ändert sich in eine Zahl. Also Ron richtig, wir können einfach überprüfen, dass ich einen Druck machte, also drucken Sie offene Klammern DF. Nun, wenn wir das nur ausführen , werden alle Zeilen zurückgegeben. Andi, das wird eine Menge von dem Bildschirm nehmen, weil es Tausende von Rose gibt, oder zumindest Hunderte von Rose ohnehin. So können wir einfach nach oben schauen. Shiro mit einer anderen Funktion dieses Mal namens Kopf. Öffne die Klammern. Wenn wir eine Zahl dort einfügen, wird diese Anzahl von Zeilen als Standard zurückgebracht, wenn Sie sie einfach leer lassen. Die Standardeinstellung sind, glaube ich, fünf Reihen. Also versuchen wir, das zu laufen. Ja, ja. So bringt fünf Reihen zurück. Diese Spalte von Zahlen ist nicht wirklich Teil Ihrer akzeptiert. Dies ist ein Index. Die anderen gibt die Daten, Freund, so dass die erste Regel Null zweite stieg 1234 Dieser Index könnte dann verwendet werden, um eine bestimmte Rolle oder eine Gruppe von Rose, die Sie später analysieren wollen greifen . Es ist also eine nützliche Sache zu haben. Wir haben in diesem Defizitjahr sieben Spalten. Die maximale Temperatur des Monats in diesem Monat, die minimale Temperatur die Anzahl der Tage in diesem Monat, die auf ihrem Frostdie Gesamtzahl in Millimetern auf dem gesamten Sonnenschein in unserem für diesen Monat gemessenhatte die Gesamtzahl in Millimetern auf dem gesamten Sonnenschein in unserem für diesen Monat gemessen . Sie sehen, der Zustand der geht zurück auf Januar 1940 Es Sie können auch auf den unteren Teil des Datensatzes schauen , wenn Sie wollen. Es ist im Grunde die CME. Nennen Sie mich das an statt Kopf. Ähm, die Funktion heißt Teal und wieder können Sie hier eine Zahl eingeben. Wenn Sie dies nicht tun, bringt es wieder fünf Reihen zurück. Also, wenn wir laufen, dass Sie es sehen, dies ist bis zu Jahr 2015 cm Idea Monat Temperaturen akzeptiert. Okay, also nicht mit erfolgreich importiert oder hat A Es ist in einer Sache namens hat Afrim, die diese zweidimensionale Datenstruktur innerhalb von Pandas ist. Wir sind nicht in einer Position. Wir können mit der Analyse der Daten beginnen 6. Die Daten analysieren: Ok. Im letzten Abschnitt haben wir unsere Daten in unsere Daten importiert, Freund. Wir überprüfen nur, dass alles richtig geladen war, mit den Kopf auf den Schwanz Funktionen darauf sah aus, als hätte alles richtig geladen. Also jetzt sind wir in der Lage, tatsächlich mit einer Datenanalyse zu beginnen. Also habe ich mir vier Aufgaben oder vier Fragen gegeben, die ich zu beantworten versuche. Wenn Sie Ihr eigenes Projekt machen, können Sie seine vielen Aufgaben wählen. Problem wie so Nummer eins. Ich werde versuchen und finden, was war die verlorene auf der höchsten Temperatur in diesem Datensatz aufgezeichnet Set auf Wann hat Hektar oder was war der Monat im Jahr? Nummer zwei. Was ist die Menge an Sonnenlicht? Sehr im Laufe des Jahres. Präsentieren Analyse Als Diagramm werden wir versuchen und tun. Einige haben eine visuelle Analyse durchgeführt, anstatt nur Zahlen aus dem Datensatz zu holen. Nummer drei hat die Anzahl der Luftfrost pro Jahr wieder geändert. Präsentieren Sie uns ist ein Diagramm eine Zahl vier. Gibt es eine Korrelation zwischen den verschiedenen Werten und dem Defizit auf? Ich werde versuchen, das auch grafisch zu präsentieren. Okay, die erste Aufgabe ist es, die niedrigsten Temperaturen im Defizit zu bekommen. Also habe ich zwei Variablen. Lois. Verlockend höchste Temperatur. Und ich werde versuchen, Werte zu bekommen und diese in diese Variablen zu setzen. Also sagen wir Lewis temp gleich D F. Oder hat ein Freund Original tat von ihm und eckige Klammern Zitate Team umschlossen die Gerichte, Kleidung die eckigen Klammern Punktnotation wieder auf die Funktion seiner Männer. Diese Funktion erhält also nur den Mindestwert in dieser bestimmten Spalte. Also verwenden wir die eckigen Klammern. Die Anführungszeichen auf dem Namen, um anzugeben, welche Spalte innerhalb des Datenfreundes, an dem wir interessiert sind . Sie werden sich daran erinnern, dass es sieben Spalten in diesem anderen gab. Wir sind nur an der Mindesttemperatur interessiert. Seien Sie vorsichtig mit eckigen Klammern auf der Flucht. Haben Klammern Funktionen in der Regel eine Reihe von Klammern nehmen. Holen Sie sich die Verwirrtheit, Sie erhalten verrückte Fehlermeldungen. Okay, wir leiten das hier und dann können wir auch Tochter drucken. Werte. Also sehen Sie, minus 3,8 Celsius war die niedrigste Temperatur in diesem Datensatz auf 23 Punkt. Es war die höchste Temperatur im Defizit. Nicht wollen wir auch wissen, wann diese aufgetreten sind, und wir können die beiden Regeln aus den genannten Daten greifen . Aber wenn die Schuld von für ihn und das wird uns den Monat im Jahr geben, wenn die Temperaturen aufgetreten sind. das zu tun, werden Sie sich erinnern, ich sagte, diese Zahlen auf der linken Seite waren Indizes. Also essen Sie das tat A Frame gibt jeder Zeile ihre eigene eindeutige Kennung. Das ist es, was wir versuchen werden zu finden. Nein. Also wieder zwei Variablen. Wir sagen, es soll die minimale Temperatur in den Daten von oben betrachten, die maximale Temperatur es für ihn getan hat. Diese beiden Spalten, Ich werde eine Funktion verwenden, die ich d X Männer und I D X max. Dies ist also der Index vom Minimalwert auf dem Index des Maximalwerts. Also, sobald wir diese ausführen, werden diese beiden Variablen Zahlen wie vier es 11 oder was auch immer Nummer die Regel war bekämpfen. Also lassen Sie diese jetzt ausdrucken, diese zwei Zahlen, okay? So können wir sehen, unsere minimale Temperatur ist in stieg 754 auf unsere maximalen Temperaturen und Zeile 497. Also, jetzt benutzten alle, um diese zwei Euro tatsächlich zu greifen, eine Funktion namens Look oder Location Wenn Sie den Index an die Position übergeben, muss der Index innerhalb eckiger Klammern liegen, und dann muss das in eckigen Klammern liegen. Dann natürlich nimmt die Druckfunktionnatürlichdie Rhonda Klammern. Wir führen das hier. Okay, so können Sie sehen, im Dezember 2010 war unser Mindesttemperaturlauf die nächste. So war der Juli 1989 unsere höchste Temperatur. Okay, die nächste Aufgabe war Hodges, die Menge an Sonnenlicht, sehr im Laufe des Jahres. Also werde ich es für Monat betrachten, und ich werde den Durchschnitt oder die Hauptzahl von uns Sonnenschein für Januar fürFebruar, fürMärz und so weiter berechnen Februar, für und dann in einem Diagramm plotten. Also, um das zu tun, werde ich eine neue Daten erstellen, aus denen eine Teilmenge unserer Männer es für ihn getan hat. Ich werde eine Gruppe nach Funktion verwenden, weil ich alle Januarergebnisse gruppieren muss . Der ganze Februar ist ein wenig von den März-Ergebnissen, und so weiter. Ich schaue mir diese spezielle Kolumne an, die Sonnenstunden und wieder rufe ich Funktion Ming auf. Also wird es es koppeln. Der durchschnittliche Mittelwert für diese Erkältung für jeden Monat. Okay, also hat er das hier als nächstes ein paar Zeilen geleitet. Es ist nur, um die Größe des Bootes zu setzen. Es ermöglicht mir, Kunst zu drucken. Das Diagramm innerhalb des Mitwirkenden Notizbuchs liegt mir auch, um die Größe zu definieren. Die Standardwerte sind nicht sehr groß innerhalb des Mitwirkenden Notizbuchs auf Es ist schwierig, die Jahre zu lesen . Noch eine Nummer. Das macht es einfach ein bisschen größer, ein bisschen leichter zu lesen. Okay, also applaudieren wir. 1. 1, das wäre aber ein Balkendiagramm ist. Okay, wir können Anfang hier im Januar Februar sehen. Nicht viel Sonnenschein. Uh, wenn man im Mai und Juni kommt, gibt es noch mehr. Ananta beginnt gegen Ende des Jahres wieder abzuschalten. So interessant ist, dass die maximale Menge an Sonnenschein zu sein scheint, kann, aber der längste Tag ist im Juni. Da ist also etwas Interessantes los. Ähm, du arbeitest mit den Daten. Es könnte mehrere Möglichkeiten geben. Die Daten selbst könnten in irgendeiner Weise beschädigt sein. Es könnte falsch sein. Der Code könnte korrekt sein. Ich glaube nicht, dass dieses Zitat eine andere Möglichkeit ist. Sie müssten dann überprüfen, eine andere Möglichkeit ist nur, dass da etwas Interessantes los ist . Wir würden erwarten, dass das Tageslicht mit Tageslicht im Juni am größten ist. Aber das ist der Blick auf Sonnenschein die Menge an Sonnenschein, die nicht genau so ist. Es kann nur der Juni eine Last sein, die Tage oder länger. Vielleicht gibt es mehr Clyde im Juni im Allgemeinen, im Mai mal tendenziell einige hier, ein Schwung als Balkendiagramme. Sie haben andere Entscheidungen. Wir gemeinsamen Schmutz, diese Zeile und auf Kommentar. Dieser Lauf dieses Assed erzeugt nur die Plot-Funktion gibt Ihnen nur einen Liniendiagramm auf Sie können die Farbe ändern. Ähm, also kannst du einfach den ersten Buchstaben von einigen der Männerfarben setzen, als ob unser rot ist oder orange G grün ist. Also habe ich in diesem hier auch die Transparenz geändert. Woods machte das Rot mehr von einer rosa lachsrosa Farbe. Also wieder, Sie können das von Null bis zu eins variieren. Okay, das ist also unsere zweite Frage beantwortet. Der nächste war, Hat sich die Anzahl der Luftfröste pro Jahr wieder geändert. Anwesend. Das ist ein Graph. Wir machen etwas sehr Ähnliches. Wir verwenden eine Gruppe nach Funktion. Diesmal gruppieren wir nach Jahr. Wir betrachten die Anzahl einer Anzahl von Tagen, die einen Luftfrost hatten, an dem sich diese Tage summieren oder zusammenfassen. Okay, wenn wir das hier ausführen und dann prüfen, ob es gedruckt wird. Ok. Wir haben ein Jahr auf die Anzahl der Luft für uns pro Jahr. Führen Sie das noch einmal aus. nur sicher, dass die Größe des Graphen lesbar ist. Nie abgeschlossen. Ich würde okay, so können Sie sehen, es gibt eine ganze Menge Variation von Mai 20 bis über 80 Tage mit ihren für uns, es scheint kein starkes Muster zu geben. Aber wieder, Sie könnten weitere Untersuchung weiter Did Analyse, um zu sehen, ob es eine Variation im Laufe der Zeit, wenn es irgendwelche Trends in Ihren Daten. Okay, das ist also schwer. Dritte Frage. dritte Mal ist das letzte. Wir werden nach Korrelationen zwischen den verschiedenen Werten suchen, den verschiedenen Spalten im Defizit. Also führst du diesen Code aus, okay? Sagt Code erzeugt diese psychedelische Suche hat eine Visualisierung. Das sind also Korrelationen. Also haben wir unsere sieben Säulen, Jahresmonate, Temperaturen und so weiter entlang der oberen Seite, und jedes dieser Quadrate ist die Korrelation zwischen den Säulen. Also von oben links unten rechts, werden Sie maximale Korrelation erhalten. Nun, Gelb, denn das Jahr, offensichtlich, Carly, ist es mit dem Jahr, dem Monat mit dem Monat und so weiter. Es sind diese anderen Plätze, an denen wir interessiert sind, so dass Sie sehen können, dass das Jahr nicht wirklich stark Korallen lebt mit irgendetwas. Aber wenn man sich Monate anschaut, gibt es eine gewisse Korrelation mit maximaler Temperatur, minimaler Temperatur, Luftfröste und dann, wenn wir uns die Temperaturen selbst betrachten, gibt es sehr starke positive Korrelation zwischen T. Max im Team und auch zwischen Team und Team Max. Es gibt auch eine starke negative Korrelation zwischen T. Max auf die Anzahl der Tage, die nicht zuerst Luft haben. Also, anderen Worten, wenn die Temperatur, das Team Max erhöht die Anzahl der Tage, die eine Luftwaffe haben abnimmt, was wir erwarten, und umgekehrt, wie die Anzahl der Tage mit einer Luft Frost steigt, die maximale Temperatur wird abnehmen. Diese Art der Visualisierung ist also sehr gut für die Suche nach Korrelationen innerhalb Ihrer Daten. Wenn Sie es zum Beispiel geschäftlich hatten, könnte es sein, dass könnte es sein, dass einige Daten über Ihre Kunden mit einigen anderen Daten korrelieren, die möglicherweise niemand in Ihrem Unternehmen jemals realisiert hat. einige Daten über Ihre Kunden mit einigen anderen Daten korrelieren, Wer könnte ein nützlicher Weg sein, diese Dinge zu entdecken? 7. Cheatsheet und Hilfefunktion: so werden Sie sich erinnern, dass eines der ersten Dinge, die wir taten, war es, Daten von einem CSP zu lesen fallen in, ah, Daten für ihn mit dieser Funktion, lesen Sie CSP, wenn Sie den Namen der Funktion kennen, aber Sie sind nicht sicher, was alle mögliche Parameter sind, gibt es eine nützliche Funktion, die Sie in Jupiter Notebook verwenden können. Es ist diese Hilfe. Sie haben also geholfen, die Klammern zu öffnen. P d dot reid CSP schließt Klammern. Bei dieser Funktion würde ich Ihnen viele eigene Informationen geben, CSE lesen oder welche Funktion Sie herausfinden möchten, einschließlich aller Parameter, die Sie in einigen Notizen übergeben können und was es tut lesen CSC Komma getrennte Dateien in eine tat für ihn mehr Informationen als alle Parameter, einschließlich, was Sie in Beispielen übergeben können, usw. Also ist es eine sehr nützliche Funktion, die Zehe haben , Natürlich, wenn Sie den Namen einer Funktion nicht kennen, ähm, das ist ein anderes Problem. Ich würde vorschlagen, ein Pandas Spickzettel auf ihre vielen davon zu bekommen. Ein Beispiel ist hier auf dieser Website Fracht. Also dieser Spickzettel hat, ähm, Dinge wie das Entfernen von doppelten Rose. Um, nach fehlenden Rosen oder fehlenden Daten in Rose und so weiter und so weiter. Dies ist also ein nützlicher Ort, um zu beginnen. Und es gibt viele nicht nur ein Vieh, sondern viele andere Websites haben die Pandas Spickzettel . Diese Website Toggle ist auch eine gute Quelle von Datensätzen, so dass sie Wettbewerbe haben. Aber sie haben auch Martin. Wieder viele Datensätze. Diese sind Open Source und Sie können sie herunterladen und mit ihnen arbeiten, um zu sterben. Entladen Sie sie, obwohl Sie ein Konto eröffnen müssen. Andi, es ist lange her, dass ich meinen Komfort geöffnet habe. Von dem, was ich mich erinnere , brauchen Sie eine gültige E-Mail-Adresse, aber Sie müssen ihnen auch Ihre Handynummer geben und sie werden Sie per SMS senden , eine Pin-Nummer, die Sie in setzen müssen. Ich denke, du musst das nur beim ersten Mal machen. Dass Sie Ihr Konto eröffnen, ist nur, um Ihre Art zu verifizieren. Aber wenn Sie glücklich genug sind, das zu tun, gibt es Hunderte und Hunderte von möglichen Datensätzen zu allen Arten von Themen.

Erste Schritte in der Datenanalyse mit Python, Pandas und Jupyter

Paul O'Neill

Schau dir diesen Kurs und Tausende anderer Kurse an

Schau dir diesen Kurs und Tausende anderer Kurse an

Einheiten dieses Kurses

1.

Einführung

1:03

2.

Kursübersicht

1:24

3.

Einige Daten zur Arbeit mit

1:09

4.

anaconda installieren

5:14

5.

Jupyter Notebook öffnen

6:32

6.

Analysieren der Daten

12:39

7.

Cheatsheet und Hilfe-Funktion

2:44

Über diesen Kurs

Triff deine:n Kursleiter:in

Paul O'Neill

Skills dieses Kurses

Praxisnahes Kursprojekt

Kursbewertung

Warum lohnt sich eine Mitgliedschaft bei Skillshare?

Lerne von überall aus

Transkripte

Erste Schritte in der Datenanalyse mit Python, Pandas und Jupyter

Paul O'Neill

Schau dir diesen Kurs und Tausende anderer Kurse an

Schau dir diesen Kurs und Tausende anderer Kurse an

Einheiten dieses Kurses

1.

Einführung

1:03

2.

Kursübersicht

1:24

3.

Einige Daten zur Arbeit mit

1:09

4.

anaconda installieren

5:14

5.

Jupyter Notebook öffnen

6:32

6.

Analysieren der Daten

12:39

7.

Cheatsheet und Hilfe-Funktion

2:44

Über diesen Kurs

Triff deine:n Kursleiter:in

Paul O'Neill

Skills dieses Kurses

Praxisnahes Kursprojekt

Kursbewertung

Warum lohnt sich eine Mitgliedschaft bei Skillshare?

Lerne von überall aus

Ähnliche Kurse

Transkripte