Transkripte
1. Kurs-Trailer: Hallo, ich bin Höflichkeit hier, und ich bin einer der Dozenten für diesen Kurs, und in diesem Kurs werden
wir Ihnen die Prinzipien der Datenaufbereitung beibringen. Ich arbeite seit etwa acht Jahren professionell im Datenbereich. Ich bin der Direktor von Analytics. Es wird hier in Austin anfangen. Ich habe einen Master-Abschluss in Analytik, und ich cohost auch einen Podcast namens Data Crunch, der Leute interviewt, die interessante
Dinge mit Daten tun . Also sind Daten wirklich von zentraler Bedeutung für das, was ich tue. Und ich bin wirklich aufgeregt, einige dieser Fähigkeiten mit dieser Klasse zu teilen. Wir werden über die drei Grundprinzipien der Datenbereinigung sprechen, und wir werden Ihnen auch die technischen Fähigkeiten beibringen, die Sie lernen müssen. Um das tun zu können, verwenden
wir ein Software-Programm namens Tri Factor, das kostenlos ist. Sie können herunterladen, ausprobieren, faktorieren und sofort loslegen. Und der Grund, warum wir dieses Tool gewählt haben, ist, weil wir denken, dass es am einfachsten ist, mit ihm zu arbeiten. Ich habe mir eine Menge von Software-Tools für die Datenaufbereitung angesehen und Trockenfaktor ist bei weitem der einfachste für Sie. Deshalb werden wir es in diesem Anfängerkurs verwenden, um Ihnen zu zeigen, wie es geht. Also mach dir keine Sorgen. Wenn Sie nicht viel Erfahrung und Daten oder sogar technische Fähigkeiten haben, kann
dies wirklich von jedem durchgeführt werden. Aber die Software macht es wirklich einfach. Und wir werden Sie Schritt für Schritt durch das, was nötig ist, um Ihre Daten zu säubern und vorzubereiten . Und ich bin nicht der Einzige, der das beibringen wird. Ich bin von meiner Podcast-Co-Moderatorin Jeanette verbunden. Ich bin Jeanette Method und ich bin der andere Lehrer, der diesen Kurs unterrichten wird. Ich habe meinen Abschluss in Englisch und Geisteswissenschaften erworben und habe vor kurzem begonnen, mit Daten zu arbeiten, so dass ich wahrscheinlich mehr als die meisten davon sprechen kann. Aber Sie müssen keinen Hintergrund in Daten haben, um mit Daten zu arbeiten, so dass es keine Anforderungen für Sie gibt, um einen Hintergrund zu nehmen. Dieser Kurs, den Sie Ihr eigenes Sechs-Schritt-Datenrezept erstellen und ein Datenrezept in
Test-Übungsbegriffen sind im Grunde nur die verschiedenen Schritte, die Sie unternehmen, um Ihre Daten zu bereinigen. Wir freuen uns sehr, mit Ihnen zusammenzuarbeiten, und wir freuen uns sehr, zu sehen, was Sie kreieren
2. Drei Prinzipien für die Datenreinigung: Hallo und herzlich willkommen zum Kurs. Wir freuen uns sehr, dass Sie sich entschieden haben, uns zu begleiten, nur für ein bisschen Hintergrund. Wäre dabei, einen Datensatz von Vulkanausbrüchen zu verwenden. Dies kommt vom Smithsonian Institute, ihrem globalen Vulkanismusprogramm. Und es sind all die bestätigten Eruptionen, die in der Welt passiert sind. Das ist also ziemlich interessant. Wir werden uns damit beschäftigen und Ihnen die drei Grundprinzipien der
Datenbereinigung beibringen . Das ist eine, die wir Ihnen beibringen werden, wie Sie nach Fehlern in Ihrem Datensatz suchen und wie Sie sie
entfernen können. Zwei. Wir zeigen Ihnen, wie Sie nach Daten suchen, die nicht wirklich in Ihrem
Datensatz enthalten sein müssen . Das ist irrelevant und entfernen Sie es. Und wir zeigen Ihnen, wie Sie nach Möglichkeiten suchen, wie Sie den Datensatz klären können, damit es für einen Endbenutzer sinnvoller ist. Das sind also die drei Prinzipien, die wir immer wieder durchgehen werden, wir werden Tri-Faktor verwenden. Also werden wir dir auch die Fähigkeiten beibringen, die du im Tri-Faktor brauchst. Um dies zu tun, zeigen
wir Ihnen, wie Daten hochladen wird Ihnen zeigen, wie ein Datenrezept erstellen wird Ihnen zeigen,
wie Sie Transformationen erstellen, die Ihre Daten durch diese Schritte verschieben, die notwendig sind, um sie zu transformieren. Also ohne weitere Umschweife, wir einfach direkt hineinspringen, und wir zeigen Ihnen, wie Sie Track Factor herunterladen können.
3. Trifacta Installieren: Hallo, Jeanette hier. Bevor wir also alles tun, was Sie herunterladen müssen, probieren Sie Faktor Wrangler aus, und ich werde Sie
Schritt für Schritt durchlaufen . Und wenn Sie es bereits in der Vergangenheit heruntergeladen haben und Sie es zufällig auf Ihrem Computer haben , überspringen Sie diese Lektion und gehen Sie zur nächsten. Und denken Sie daran, dass, während wir durch diese Lektionen bewegen, fühlen Sie sich frei, positive Video an jedem Punkt. Wenn Sie mehr Zeit benötigen, um herunterzuladen oder die Schritte zu befolgen. Für diejenigen von Ihnen, die das nicht auf Ihren Computer heruntergeladen haben, lasst uns loslegen. OK, also zuerst gehen Sie zu Faktoren Startseite versuchen. Öffnen Sie also einen Internet-Browser und geben Sie tri factor dot com ein. Von hier aus sehen
Sie rechts oben auf dem Bildschirm, und Sie werden hier sehen, dass es eine
Schaltfläche mit der Aufschrift „Download“ gibt . Wählen Sie es aus, und es wird Sie zu einer anderen Seite bringen, die ein wenig Informationen für Sie hat. Nur ein kurzes Highlight. Wenn Sie Fragen zu den Systemanforderungen haben, können
Sie direkt hier auf den Link gehen. Kommen Sie über diese Schaltfläche auf der rechten Seite, die sagt, Versuchen Faktor Wrangler herunterladen und Sie werden feststellen, dass es ein kleines Beta-Tag über die Schaltfläche . Denken Sie daran, da dies eine Software ist, die sich noch in der Entwicklung befindet und während der Aktualisierung den Kurs aktualisiert . Sie haben die neuesten Informationen neben gehen Sie voran und wählen Sie diesen Download-Button, und es wird jetzt ein Registrierungsbildschirm angezeigt und fragt nach einer Firma und einer Stellenbezeichnung. Aber Sie sind ein Student im Kurs, also würde ich empfehlen, dass Sie in, was Sie sich wohl fühlen, aber als Vorschlag,
etwas, das Sie hier unter Firma setzen könnte versuchen Factor Ausbildung und Job Titel könnte Student sein, und von dort braucht es eine Telefonnummer. Jetzt habe ich meine Telefonnummer und in der Vergangenheit angegeben, und sie haben mich nie nach meinem Wissen anrufen lassen, und ich hatte noch nie eine Voicemail von ihnen, also glaube ich nicht, dass sie dich hier anrufen werden. Geben Sie in Ihrem Land auf Ihren Bundesstaat und dann Ihre E-Mail, und von dort aus erstellen Sie ein Passwort. Sie wählen auch aus, dass Sie kein Roboter sind und akzeptieren die Lizenzvereinbarung. Nach dem Absenden Sie zu dieser letzten Seite, und hier wählen Sie aus, was Sie für Ihren PC oder Ihren Mac benötigen. Nun, ich werde das auf meinem Desktop sagen, als versuchen Faktor Wrangler und lassen Sie den Download passieren. Sobald Ihr Download abgeschlossen ist, gehen Sie
einfach vor und wählen Sie die Datei, die Sie heruntergeladen haben. Mein Computer fordert, dass ein Stick es in meinem Anwendungsordner. Also werde ich voran gehen und das tun. Sie können es hier oben sagen. Es kopiert es nur in meinen Anwendungsordner. Also, sobald es geladen klingen und Sie wissen, dass es bereit ist, die Anwendung zu finden und öffnen trifecta jetzt auf einem Mac, wird
es Sie fragen, ob Sie diese Anwendung öffnen möchten, weil es aus dem Internet ist, gehen Sie voran und sagen Guess, indem Sie den offenen Knopf Herzlichen Glückwunsch und Sie sind bereit, mit Daten zu
spielen, werden
wir direkt in die Verwendung von grundlegenden Datenprinzipien eintauchen und einen Anwendungsfall dessen erforschen, was dieses Tool kann
4. Flows: hier haben wir in den Fluss-Bildschirm getreten, und ein Flow ist im Grunde ein Paket, das sowohl Ihre Daten als auch die Änderungen enthält, die Sie daran vornehmen . Und der Bildschirm zeigt Ihnen schließlich eine Liste aller Ihre Flows, wie Sie sie im Laufe der
Zeit erstellen . Für den Augenblick. Da wir noch keinen Flow gestartet haben, ist
es völlig leer. Aber Sie werden sehen, dass es hier drei Registerkarten gibt, die die Registerkarte „Flows“, die auf der Registerkarte „Datensätze“ waren, die Ihnen die Datensätze anzeigen, die Sie hochgeladen haben, sobald Sie Datensätze hochgeladen haben, und dann Ergebnisse, sobald Sie tatsächlich Aufträge ausgeführt haben und Sie haben Ergebnisse zu zeigen. Aber lassen Sie uns auf den Flow-Bildschirm gehen, und wir werden erstellen Fluss auswählen. Hier können Sie also einen beliebigen Flussnamen schreiben, jede Flussbeschreibung, aber wir werden heute einen Vulkandatensatz importieren. Also für den Namen des Fließens werde
ich die Vulkanausbrüche der Welt schreiben. Sie können dort setzen, was Sie wollen, was für Sie Sinn macht und dann als faras die Beschreibung. Dies ist ein Ort, an dem Sie alles schreiben würden, was hilft, den Fluss und alle anderen Wörter zu beschreiben, die Sie wollen. Also hier werde ich etwas für die Wirkung aller bestätigten Vulkanausbrüche aller
Zeiten schreiben . Gehen Sie weiter und drücken Sie „Erstellen“. Und das wird Ihren allerersten Flow erzeugen.
5. Daten herunterladen: Jetzt müssen wir einen Vulkandatensatz hinzufügen, um Faktor zu versuchen. Um dies zu tun, müssen
Sie das Data Excel Dokument von Skill Share finden und herunterladen. Gehen Sie also zu Ihrem Projekte-Tab unter diesem Kurs und schauen Sie sich die rechte Seitenleiste an, um den
Anhang zu finden . Laden Sie die Datendatei namens Vulkan herunter. Unterstriche Eruptionen unterstrichen Datensatz unterstrichen. Sobald Sie das in getan haben, versuchen Sie es uns. Lassen Sie die Schaltfläche Datenmengen auf diesem Datenimportbildschirm importieren und hinzufügen. Hier haben Sie einige Möglichkeiten, um Ihre Daten hinzuzufügen. Sie können die Datei entweder per Drag & Drop ablegen oder die Datei von Ihrem Computer auswählen. Wählen Sie, welche Upload-Methode am besten für Sie geeignet ist. Jetzt habe ich die Datei auf meinem Desktop, also gehe ich weiter und ziehe sie in Trifecta ab. Diese Datei dauert ein wenig Zeit zum Hochladen, da sie mehrere Registerkarten enthält und versuchen, Factor muss sie separat identifizieren und anzeigen, um Ihnen Optionen für den Upload zu geben. So fühlen Sie sich frei, um Ihr Video zu pausieren, während der Computer für diese Klasse hochgeladen wurden auf Lee gehen, um mit dem ersten Tab zu arbeiten, indem Sie das Pluszeichen neben diesem oberen Tab hier auswählen. Während Sie also die Möglichkeit haben, andere Datenquellen zu öffnen, die hier aufgelistet sind, werden
wir bei dieser einen Registerkarte für jetzt bleiben. Aber für Ihr Wissen, wenn Sie zum Pluszeichen für die gesamte Datei hier oben gehen, bietet
es an, den Datensatz in einem Datensatz paaren zu können,
und das bedeutet im Grunde, dass es die Registerkarten miteinander kombiniert und eine Datendatei erstellt. Und Sie möchten sehr vorsichtig sein, wenn Sie das tun. Es kann sich nicht als das herausstellen, wonach Sie suchen. auch Wenn Sie möchten, können Sie alle Registerkarten auswählen, indem
Sie das Pluszeichen als nächstes markieren, jede von ihnen, und dies würde sie getrennt halten. Sie werden auch feststellen, dass es ein kleines Augensymbol auf der rechten Seite gibt, das Sie verwenden können, um eine Vorschau
anzuzeigen, wenn Sie sich nicht erinnern, welche Registerkarte welche Daten hat, und das könnte ein wirklich hilfreiches Werkzeug sein. Nun, wenn Sie die Pluszeichen für den Datensatz auswählen, den Sie wollen, werden
Sie sehen, dass sie hier oben auf der rechten Seite geladen werden, und das macht es bereit für den Upload, so dass es noch nicht wirklich hochgeladen hat. Wenn Sie dieses Pluszeichen jetzt hier auswählen, können
Sie es umbenennen. Sie können sie beschreiben. Sie können sie durch dieses Papierkorbsymbol löschen, und Sie haben wieder die Möglichkeit, sie durch dieses andere kleine I-Symbol hier zu sehen . Gehen Sie also voran und wählen Sie die Schaltfläche „Datensätze importieren“.
6. Innerhalb eines Flusses: wir sind in einem Fluss angekommen und wir sehen drei Symbole. Das erste Symbol stellt die importierten Daten dar, und das zweite Bildlaufsymbol stellt eine Liste der Änderungen an den ursprünglichen Daten dar, und das dritte symbolisiert Ihre bereinigten Daten mit diesen Änderungen. Und während Sie die Optionen auswählen, können
Sie sehen, dass jedem von ihnen in diesem
Detailfenster einige Dateiinformationen zugeordnet sind. Wenn wir jedes Symbol auswählen,
gibt es für jeden von ihnen eine blaue Aktionsschaltfläche, die wir auswählen können,
und Ihre Optionen sind entweder tauschen oder bearbeiten. Wenn wir jedes Symbol auswählen, gibt es für jeden von ihnen eine blaue Aktionsschaltfläche, die wir auswählen können, Rezept-Swap bedeutet nur, Ihre Daten für einen anderen Datensatz auszutauschen, oder die andere Option, die Sie auf den anderen beiden Symbolen sehen, ist das Rezept für uns zu gehen und mit den Daten zu
spielen. Lassen Sie uns diese Schaltfläche auswählen, und jetzt bekommen wir zu gehen, um die lustigen Sachen
7. Übersicht der Grid: Jetzt sind wir da, wo wir die Magie verwirklichen können. Und lassen Sie uns einen kurzen Blick auf einige der grundlegenden Werkzeuge an Ihren Fingerspitzen werfen. Hier sind Ihre Daten und in der Rasteransicht, wie Sie es bereits in Excel gesehen haben. Sie sind hier gestiegen und Sie haben Spalten hier, und Sie können mit einfachem Touch-Scrollen durch das Raster blättern, wenn Ihr Computer dies unterstützt , oder Sie können einfach scrollen, indem Sie die Bildlaufleisten auf der rechten oder unteren Seite des Creds verwenden. Eine andere Bemerkung ist, dass, wenn Sie über den Bindestrich neben der Rose blättern, es zeigt Ihnen, nach welcher Rollennummer es sich handelt. Versuchen Sie, Faktor importiert es und welche Straße von der ursprünglichen Datenquelle ist, was manchmal nützlich ist. Während diese Zeile jetzt Zeile Nummer eins ist, zeigt
sie, dass es tatsächlich Straße von der ursprünglichen Quelle war, was uns dann fragt Wo ist die Straße Nummer eins? Und das ist Ihre Kopfzeile jetzt hier oben, die Kopfzeile hat die Spaltennamen und flankiert jede Spalte auf beiden Seiten des
Spaltennamens sind Dropdown-Menüs, die später genauer untersuchen. Aber als eine kurze Übersicht. Die auf der linken Seite ändert schnell den Datentyp wie eine Postleitzahl oder so Sicherheitsnummer oder was auch immer Datentyp es ist. Und hier würdest du es kategorisieren. Wenn wir zum rechten Dropdown-Menü wechseln, sehen wir, dass es eine Vielzahl von Möglichkeiten bietet, wie Sie
Ihre Daten jetzt unter der Kopfzeile ändern können . Mit den zum Dropdown-Menüs, müssen
Sie wirklich tolle Werkzeuge. Erstens gibt es die Datenqualitätsleiste, die Ihnen einen groben Überblick über Ah, Spalten gibt. Qualität der Daten. Es ist eine begrenzte Qualitätsprüfung, aber es zeigt Ihnen dunkelgrau für alle fehlenden Werte in einer Spalte. Wie Sie hier sehen, wird angezeigt, dass Sie für alle nicht übereinstimmenden Werte lesen oder, anderen
Worten,
Werte, die nicht mit dem Datentyp übereinstimmen, den die Spalte kategorisiert wurde, wie Sie hier sehen, und grün für alle gültigen -Werte. Aber bitte bedenken Sie, dass Green nicht bedeutet, dass die Daten perfekt sind. Es könnte immer noch eine Menge Dinge falsch sein, auch wenn es grün markiert ist. All dies zeigt Ihnen wirklich an, dass eine Zelle nicht leer ist, und sie entspricht dem Spaltendatentyp für diese entsprechende Spalte. Das zweite fabelhafte Werkzeug hier ist die Spalte, zischte ein Gramm, die Ihnen eine grafische Darstellung der Daten in jedem Aufruf zeigt. Jeder Balken hier stellt einen Wortwert oder eine Kategorie in der Spalte dar, und direkt unter dem gezischten ein Gramm sehen
Sie ein weißes Informationsfeld, das tatsächlich wie eine Zeile aussieht. Aber wenn Sie bemerken, dass es keinen Bindestrich daneben hat wie diese andere Rose. Das ist also der Hinweis, dass es keine Reihe ist. Dieses Informationsfeld ändert tatsächlich den Inhalt entsprechend Ihren Aktionen. zum Beispiel Lassen Sie unszum Beispielherausfinden, welcher Vulkan am meisten genannt wird. Wenn ich mit meinem Fadenkreuz über diese Balken scrolle, werfen Sie einen Blick auf das Inhaltsfeld darunter. Wie Sie sehen können, wird der
Ätna 197 mal geschrieben, was etwa 2% der Spalte ausmacht. All dies sagt uns wirklich, dass Aetna derzeit in mehr Zeilen in dieser Spalte
des Datensatzes erscheint als alles andere. Wenn wir uns die Rose anschauen, erkennen
wir, dass jede Zeile einen eindeutigen Ausbruch darstellt, so dass wir wissen, dass es ist, wo die meisten Eruptionen aufgetreten sind, nach unserem aktuellen Wissen über den Datensatz bedenken Sie, dass es mehr zu den Kontext des Datensatzes, den wir noch nicht entdeckt haben. Aber bei einem flüchtigen Blick sieht
es so aus, als wäre Aetna der Gewinner für die meisten bestätigten Eruptionen in der weltweit aufgezeichneten Geschichte. Diese Rasteransicht zeigt Ihnen auch ein paar andere Dinge hier in der oberen Mitte. Es zeigt Ihnen, dass Sie einen vollständigen Datensatz haben. Jetzt. Dies ist wichtig für Trife gehandelt, um Ihnen zu sagen, denn wenn Sie eine unglaublich große Menge an Daten haben, versuchen Faktor wird nur eine kleine,
zufällige Probe davon nehmen , dass Sie damit arbeiten können. Der Grund dafür ist, wenn die Daten zu groß wären, würde
es Ihren Computer wirklich langsam machen oder nicht genügend Speicher haben, um alles zu laden und
damit zu arbeiten . Und deshalb könnte es einfach den Datensatz neben dieser Kennzahl abtasten. Es sagt Ihnen, dass Sie 24 Spalten, 9815 Zeilen und fünf Arten von Daten haben. Alles, was hier blau ist, wie diese fünf können Sie auswählen, um mehr Informationen zu erfahren. Eine andere Sache, die Sie hier auf der rechten Seite tun können, ist, dass Sie das Gitter filtern können. Wenn es also ein Wort gibt, das Sie nach etwas Besonderem suchen, können
Sie es hier eingeben, und es wird das Raster für Sie filtern. Für die Zwecke dieser Klasse wurden die Rasteransicht verwendet, die die Ansicht ist, in der wir jetzt mit Spalten und Zeilen sind. Aber Sie werden feststellen, dass Sie ganz hier nach links auch die Möglichkeit einer
Spalten-Browser-Ansicht in dieser Spaltenübersicht haben . Sie können z. B. schnell bewerten, dass die Daten Spalten ausblenden, die Sie in der
Rasteransicht nicht sehen möchten , oder sehr schnelle Änderungen über mehrere Spalten hinweg anwenden, z. B. das Entfernen einer Reihe von Spalten aus dem Datensatz. Nun, das ist etwas, das Sie auf jeden Fall später genauer untersuchen sollten,
aber im Moment konzentrieren
wir uns auf unsere gute Sicht.
8. Recipe Übersicht für die Recipe: gut, es ist Zeit, über Datenrezepte zu sprechen, was ich denke, ist eine der besten Funktionen, die Factor versucht hat. Wenn Sie also einen Blick mit mir über die rechte Ecke werfen,
gibt es dieses Symbol, das wie eine Schriftrolle aussieht, und wenn Sie voran gehen und darauf klicken, wird
es öffnen, was als Datenrezept bekannt ist jetzt Datenrezept. Es ist eine Schritt-für-Schritt-Liste aller Änderungen, die Factor an Ihren Daten vornimmt. Jeder Schritt ist also eine Änderung, die versucht, Factum in Ihrem Datensatz in Tri-Faktor-Begriffen passiert Diese Schritte, die sie als Transformationen bekannt sind, und es tut im Grunde, was es beschreibt. Jeder Schritt transformiert Ihre Daten irgendwie, und die Bilder sind wirklich interessant, darüber nachzudenken. Es ist wie ein Backrezept oder etwas, das viele Schritte hat, die Sie unternehmen. Aber das Glück hier ist, dass, wenn Sie einen Ihrer Schritte durcheinander bringen, Sie einfach zurückgehen und es leicht löschen oder ändern können, indem Sie den Rückgängig-Button
hier oben drücken . Und Sie können auch wiederholen, wenn Sie sich entscheiden, Sie tatsächlich, einer dieser Schritte, um dort zu sein. Der Grund, warum Rezepte so groß sind, ist, weil es Ihnen einen Auto-Trail zu dem gibt, was Sie mit Ihren Daten tun. Wenn Sie Excel wie viele Leute verwenden, erledigen Sie die Arbeit an Ihren Daten. Sie werden oft auf das Problem stoßen, dass Sie eine Menge Dinge mit Ihren Daten gemacht haben. Sie haben Spalten hinzugefügt. Sie haben Spalten gelöscht. Sie haben Rose gelöscht. Sie haben einige Daten in den Zellen geändert, und Sie haben alle diese Schritte durchgeführt und schließlich ein Ergebnis gefunden. Aber dann ist dir klar,
dass ich vor fünf Schritten einen Fehler gemacht habe. Aber wenn Sie alles nicht schwer dokumentieren und aufschreiben, machen
Sie ein Excel, es ist wirklich schwer zu versuchen, zurückzugehen und herauszufinden, was Sie getan haben und was schief gelaufen ist und wie
man es repariert. Und die andere Sache ist, sagen
wir, Sie machen alle Ihre Transformationen richtig und übertreffen und Sie präsentieren es jemandem , und sie haben eine Frage, ob es richtig ist oder ob Sie etwas richtig gemacht haben. Wenn Sie es in Excel tun, gibt es wirklich keine Möglichkeit, jemandem zu zeigen, was Sie tatsächlich mit den Daten gemacht haben,
es sei denn, Sie korrigieren sorgfältig alle Schritte und alles, was Sie tun,
so dass es keine Transparenz gibt. Es gibt keinen Audit-Trail. Try Factor hilft Ihnen, das zu tun. Und das ist eine notwendige Sache, die Sie haben, wenn Sie mit Daten zu tun haben, weil so viele Dinge schief gehen
können und es ist so wichtig, Transparenz zu haben, wenn Sie sich diese
Schritte ansehen , wenn Sie einen Fehler machen, Sie können zurück zu Schritt drei gehen oder Schritt für und sagen:
Oh, das ist eigentlich, was ich getan habe. Das ist, wo mein Fehler ist. Ich kann es leicht beheben, und alle Schritte danach werden automatisch aktualisiert. Oder wenn jemand wissen möchte, was Sie in Ihrer Datenvorbereitung Ihre Analyse getan haben, können
Sie sie ganz einfach hier zum Rezepturbildschirm bringen und ihnen jede einzelne
Sache zeigen , die Sie mit den Daten gemacht haben. Es ist also reproduzierbar, transparent, und es ist etwas, das Sie haben müssen, wenn Sie mit großen,
komplexen Datensätzen arbeiten . Sonst wirst du am Ende eine Menge Zeit verschwenden
9. Bereit gemeldete Recipe: Wir haben ein wenig über Rezepte und Transformationen gesprochen, also werfen wir einen Blick und entdecken, was trifecta automatisch schon für Sie getan hat. Wenn Sie diesen Datensatz laden, hat
er bereits diese vier Schritte durchlaufen. Und nur damit Sie einen kurzen Überblick haben und verstehen können, was versuchen Tatsache hier macht, werden
wir diese wirklich schnell durchgehen. Wir könnten tiefer gehen, aber jetzt werden wir es auf hohem Niveau halten. Werfen wir einen Blick darauf, wie Ihre Daten aussehen, bevor Sie sie tatsächlich in den Try-Faktor setzen. Dies ist die Nur-Text-Datei Ihrer Daten. Sie werden hier oben bemerken Vulkan Nummer Vulkan Namen diese Luft Ihre Header und dann beginnen Sie zu sehen, jede dieser Zeilen ist eine Art andere Zeile in den Daten traurig. Und es sieht so aus, als würden sie Kommas verwenden, um zu trennen, wo die Spalten sein sollten. So sehen Ihre Daten tatsächlich aus, aber Sie können nicht wirklich so damit arbeiten. So gelten Trifecta tatsächlich. Einige Transformationen im Rezept, um es in ein verwendbares Format zu bekommen. Lassen Sie uns also einen Blick auf jeden dieser Schritte werfen. Wenn Sie auf den ersten Schritt klicken Was versuchen Tatsache tun wird, ist eigentlich grau aus den Rest dieser Schritte, und es wird Ihnen zeigen, was das Ergebnis waas dieses ersten Schritts, dass es dauerte. Also kommen Ihre Daten rein, hier ist die Datei trifecta. Tut diesen ersten Schritt und dies ist das Ergebnis. Es sagt also, dass es Ihre Daten in Zeilen aufteilt und es hat dieses kleine s unser Symbol in einem Kreis, der bedeutet, dass es die geteilte Rose Transformation ist. Was Sie hier bemerken werden, ist, dass Sie Rose haben. erste Jahr hat Vulkan Nummer alle. Kannst du die zweite Zeile,
dritte Zeile und so weiter benennen ? Also das ist alles, was dieser erste Schritt getan hat, ist, dir Rose zu geben. Mal sehen, was es tut, wenn Sie den zweiten Schritt tun, damit wir einfach darauf klicken können. Es nimmt es aus dem Grau, und dann zeigt es Ihnen die Ergebnisse des zweiten Schritts, durch den Sie Ihre Daten durchgeführt haben. Sie werden es als SP hier bemerken. Das ist die geteilte Transformation. Und dann sagt es Ihnen, dass es Spalte 1 in 24 Collins auf einem Komma aufgeteilt hat. Du hast es genau dort bemerkt. Zwischen diesen Anführungszeichen verwendet
es ein Komma, genau wie wir hier gesehen haben, dass es eine Reihe von Kommas gibt, die den
Datensatz aufteilen scheinen . Es wird sagen, , in diesem Schritt haben
wir Dinge durch Kommas getrennt und wir nehmen diese Kommas und wir werden Spaltenumbrüche mit jedem dieser Kommentare erstellen. Also, jetzt haben Sie Ihre Säulen. In Ordnung, wir nähern uns, aber wir sind noch nicht ganz da. Es hat immer noch diese hässlichen Zitate. In allen diesen Datenfeldern sind Anführungszeichen enthalten, die nicht wirklich einfach zu bearbeiten sind. Also der dritte Schritt hier versuchen Faktor Vermutungen. Wahrscheinlich wollen wir diese Zitate loswerden. So verwendet es dieses r P in dem Kreis, der als Ersetzungstransformation bekannt ist. Also heißt es Nimm alle Anführungszeichen und ersetze sie durch im Grunde nichts. Es benutzt also nur diese beiden Anführungszeichen hier und setzt nichts zwischen ihnen, was im Grunde bedeutet, dass wir die Zitate einfach loswerden, weil wir sie durch nichts
ersetzen . Sie werden also alle Anführungszeichen bemerken, die um diese Zahlen herum waren, und Wörter sind jetzt verschwunden. Das ist großartig. Das letzte, was hier, werden
wir auch in dieser ersten Zeile bemerken, wir tatsächlich unsere Spaltenkopfnamen haben. Aber das wollen wir nicht wirklich. In unserem Datensatz wollen
wir, dass das die Spaltennamen sind? Tja, versuchen Sie die Tatsache. Ach, wieder einmal vermutet, dass wir das tun wollen. Also, wenn wir uns diese letzte Transformation anschauen, diese hee transformiert, die die Header-Transformation ist. Was das tut, ist, dass es diese erste Zeile braucht und sie in Ihren Spaltennamen konvertiert. Also, jetzt ist alles in dieser ersten Reihe jetzt, Sie sind Spaltenname, Vulkannummer, Vulkanname, Eruptionsnummer, und so weiter.
10. Schnelle Recipe: jetzt Lassen Sie unsjetztein wenig mehr über diese Transformationen sprechen. Wenn Sie einen dieser Schritte nicht mögen, haben Sie aus irgendeinem
Grund einige Optionen, die Sie jederzeit löschen oder bearbeiten können. Du bemerkst also, als ich über ihnen schwebte. Anfangs bekommst
du die drei Optionen hier drüben. Mülleimer. Cran wird es völlig loswerden. Also möchte ich nur diese Transformation löschen. Es ist aus meinem Datensatz verschwunden und jetzt befinden sich die Header nicht mehr in den Spaltennamen. Jetzt sind sie hier unten. will ich eigentlich. Also werde ich einfach auf tun und es wird das direkt auf den Rücken bringen. Sie können auch bearbeiten, wenn Sie gerade dieses Bleistift-Symbol drücken und Sie haben auch mehr Optionen, wenn Sie die Auslassungspunkte hier
drücken. Also hier unten haben Sie ein paar Optionen. Sie können einen Schritt tatsächlich kopieren, wenn Sie ihn duplizieren, einfügen oder sogar in einen anderen Versuch einfügen möchten. Fakt ein Fenster, in dem Sie an einem anderen Datensatz arbeiten und Sie haben auch die Möglichkeit, Schritte vor und nach dem aktuellen Schritt
einzufügen. Wenn ich also beschloss, dass ich vor diesen Header treten musste, könnte
ich vorher einfach einen einfügen, und dann gibt es einen weiteren Schritt, den ich erstellen kann. Jetzt haben wir all diese Schritte gesehen, die die Trifecta unternommen hat, um Ihre Daten vorzubereiten. Und jetzt wissen Sie, wie Sie sie bearbeiten oder löschen, wenn Sie möchten. Und jetzt hat die Track-Tatsache diese ersten vier Schritte getan. Die nächsten sechs Schritte, die Sie hinzufügen, sind diejenigen, die für Ihr
6-Schritt-Rezept-Projekt zählen , das Sie vielleicht bereits einige hinzugefügt haben, wie wir hier gegangen sind, und wenn ja, gehen Sie weiter und laden Sie ein Bild davon hoch.
11. Empfehlungskarten: diese Lektion in der nächsten sind das Fleisch dieses Kurses. Und wenn Sie noch nicht gewesen sind, empfehle
ich, dass Sie auf Ihrem Computer nachahmen, was ich hier tue, wie ich es tue. Dies wird Ihnen helfen, das Beste aus diesem Abschnitt herauszuholen. Eine unglaublich hoffnungsvolle Fähigkeit, die trifecta hat, ist, dass sie vorschlägt, was sie denkt, dass Sie tun würden , um Ihre Daten vorzubereiten. Lasst uns wie ein bisschen Steuer im Netz. Jetzt wirst du sehen, dass es einen Abschnitt unten gibt, der auftauchte. In diesem Abschnitt werden verschiedene Optionen für Transformationskarten aufgeführt, mit denen
Sie die ausgewählten Daten ändern können . Über diesen Transformationskarten stehen
Ihnen drei Optionen zur Verfügung. Brechen Sie Ihre Auswahl auf, ändern Sie Ihre Auswahl oder fügen Sie sie dem Datenrezept hinzu. Für jetzt, lassen Sie es uns absagen. Lassen Sie uns die gesamte Spaltenausbruchkategorie auswählen, indem Sie auf die Kopfzeile gehen, indem Sie
ihren Namen auswählen . Beachten Sie hier, dass, wenn wir unsere Spaltenauswahl nicht abbrechen und wir eine andere Spalte im
Raster auswählen , versuchen Faktor wird diese zweite Spalte hinzufügen. Zusätzlich zu dem, was wir bereits ausgewählt haben. Anstatt zu denken, dass wir versuchen, zwei verschiedene Änderungen vorzunehmen, könnte
das etwas sein, was wir tun wollen, aber vielleicht nicht. Und wenn wir es nicht tun wollen, schwächen einfach de wählen Sie die unerwünschten Spalten, indem Sie erneut die Spaltennamen auswählen. Der erste Vorschlag, der hier aufgeführt ist, ist Drop and Try Factor hat es automatisch für
uns ausgewählt . Drop bedeutet, dass wir die gesamte Spalte aus dem Datensatz entfernen, und es gibt tatsächlich einen Unterschied zwischen Drop und Delete
, der in der nächsten Lektion näher eingeht. Nun, da wir ein wenig genauer auf die Unterseite der Karte schauen, gibt es hier einen hellgrauen Erklärungstext. In diesem Text wird erläutert, was sich diese Änderung auswirkt und hervorruft. Diese Karte bestätigt die Tatsache, dass es nur diese eine Spalte fallen wird, und wenn Sie auf Ihr Rezept schauen, es ist ein vorübergehender Schritt in es, der Ihnen zeigt, wie Ihr Rezept aussehen wird, wenn Sie diese Option
wählen. Denken Sie eigentlich nach, fallen zu lassen. Dies ist ein großartiger Schritt, denn, wie wir aus dem zischten ein Gramm sehen können, alle Werte in dieser Spalte, mit Ausnahme des Spaltenkopfnamens, sagen
alle Werte in dieser Spalte,
mit Ausnahme des Spaltenkopfnamens,genau das gleiche, was bestätigte Eruption. Und ich brauche oder möchte diese Informationen nicht in meinem Datensatz, weil es offensichtliche und implizite Informationen im Datensatz sind. Also gehen wir weiter und lassen diese Kolumne fallen. Dies ist ein Beispiel dafür, wie wir unsere Daten vereinfachen können. Eines der Prinzipien der Datenbereinigung haben wir am Anfang erwähnt. Nun, versuchen Faktor macht das sehr einfach. Also werde ich voran gehen und die Spalte fallen lassen und wir können dies tun, indem wir die
Werbe-Rezept-Schaltfläche hier auf der rechten Seite über den Optionskarten auswählen. Okay, wählen
wir eine andere Spalte. Wie wär's mit der VE I Kolumne? dieses Mal Wählen
wirdieses Maldie Umbenennungskarte aus. Wie wir sehen können, zeigt
es eine Vorschau darauf, wie diese Änderung aussehen könnte. Hier. Probieren Sie Faktoren aus. Setzen Sie einen Platzhalternamen namens neuen Spaltennamen, bis wir in unseren eigenen Namen Wert setzen, um den Namen zu ändern. Wählen Sie die Schaltfläche „Ändern“, indem Sie die Schaltfläche „Ändern“ auswählen. Es führt uns zum Transformations-Builder, einem Ort, an dem wirFaktoren und
Vorschläge hier modifizieren,
ausprobierenkönnen Faktoren und
Vorschläge hier modifizieren,
ausprobieren . Lassen Sie uns unsere Spalte umbenennen, indem Sie den neuen Namensbereich hier drüben ausfüllen. Beachten Sie, dass Sie keine Leerzeichen in Ihren Spaltennamen haben Wenn Sie
also ein Leerzeichen möchten, verwenden Sie ein Unterstrichsymbol. Probieren Sie auch Faktoren aus. Namenskonvention ist Groß- und Kleinschreibung zu beachten, daher ist dies ein weiterer guter Tipp, den Sie beachten sollten. Jetzt, da ich gelernt habe, dass ich für Volcanic Explosive Iity Index steht, lasst uns das Akronym für diesen Datensatz ausschreiben. Dieser Name könnte wichtig sein, wenn unser Publikum nicht weiß, wofür dieses Akronym steht. Diese Änderung klärt also unsere Daten. Ein anderes Prinzip, das wir zu Beginn der Klasse erwähnt haben. wir nun die Spalte umbenannt haben, werden
Sie feststellen, dass „Try Factor“ uns eine Vorschau zeigt, wie die Spalte aussehen würde, wenn wir diese Änderung Zehe
vorgenommen haben . Eigentlich machen Sie die Änderung. Gehen Sie voran und wählen Sie aus. Zum Rezept hinzufügen. Jetzt wählen wir eine andere Spalte aus. Wie wär's mit dem Vulkan? Nein SPALTE. Wir sehen eine Option zu aggregieren. Da dies eine Zwischentransformation ist, die in einer zukünftigen Klasse abdecken wird. Lasst uns an diesem hier vorbei gehen. für jetzt Lassen Sie unsfür jetztnach einem suchen, der mehrere Optionspunkte darunter hat. Dies ist hier ein gutes Beispiel, dass, wenn fehlt Transformationskarte, sehen
wir unter der Optionskarte, dass es diese vier Punkte. Jede Option Punkt bietet eine Änderung des Vulkans Namen in dieser Spalte, die erste Option oder,
falls fehlt, Option bietet, eine Zelle zu ersetzen, die einen Namen fehlt, um etwas anderes unserer Wahl zu ersetzen. Oder wir können alle Namen hier in Kleinbuchstaben schreiben. Die Namen hier fragen Sie vielleicht, warum sollte ich das Wort Groß- und Kleinschreibung ändern wollen? Und ein hypothetischer Grund, warum ist, dass Sie diesen Datensatz möglicherweise mit einem anderen kombinieren müssen , und Sie müssen das Wort Groß-/Kleinschreibung übereinstimmen, um die Groß-/Kleinschreibung konsistent zu halten. Dies würde die Daten rationalisieren und möglicherweise klären, was eines unserer Grundsätze der Datenbereinigung für heute ist. Lassen Sie uns den richtigen Fall Diebe Vulkannamen durch Auswahl hinzufügen Rezept. Wenn Sie dem Rezept hinzufügen, werden Sie feststellen, dass die Vorschau, die Sie anzeigen, verschwindet und die Änderung in
tatsächlich den Rezepturschritt verfestigt. Beachten Sie auch hier, dass sich die Qualitätsleiste und der Datentyp ändern können, wenn wir mit den
Daten arbeiten , da wir sie ändern, und
versuchen Sie daher Faktoraktualisierungen entsprechend. Wie Curtis bereits erwähnt hat,können
wir einen Rezeptschritt an jedem Punkt im Datenrezept ändern. Wie Curtis bereits erwähnt hat, Nachdem wir nun einige Schritte ausgearbeitet haben, wir einen genaueren Blick, wenn wir einen Schritt auswählen, um ihn zu ändern. Das Rezept wird keine Schritte nach dem Punkt mit ausgewählten Vorschau, und seine Curtis zeigte uns die Schritte oder hellgrau. Wenn sie nicht aktiviert sind, können
Sie jederzeit einen Schritt löschen,
und die restlichen Leute bleiben bei diesem Schritt und in dem letzten Zustand, an dem wir gearbeitet haben, und es wird so bleiben, bis wir den letzten Schritt in der Rezept, und dann wird es alle unsere anderen Änderungen aktivieren. Auch als Warnung. Denken Sie daran, dass, wenn wir einen der Schritte hier löschen
, möglicherweise zukünftige Schritte ungültig werden. Hier ist ein gutes Beispiel dafür. Wenn wir diesen Schritt ausführen, wird nichts ungültig. Aber wenn wir diesen Schritt erledigen, tut
es das.
12. Halten und Löschen: Mir ist etwas Hörbares aufgefallen. Wir schauen uns die Spalte „Vulkan Name“ an. der Spalte fehlt tatsächlich ein Wert, und das ist seltsam, weil dies eine Liste aller bestätigten
Vulkanausbrüche in der Geschichte der Welt sein soll , also sollten wir keinen leeren Wert für die Spalte des Vulkannamens haben. Also lasst uns herausfinden, welcher Wert fehlt. Um dies zu tun, können
wir hier den fehlenden Wert in der Datenqualitätsleiste auswählen. Und wenn wir das getan haben, sehen
wir, dass es neue Informationen gibt, die hier neben dieser Filterleiste erscheinen. Es hat stieg als ein Doppelpunkt, und dann die Worte alle und verwandelte eine Reihe. Wenn wir die transformierte eine Zeile anstelle von allen auswählen, werden
wir das auf Lee bemerken. Der fehlende Wert wird hier angezeigt. Und wenn wir durch die Spalten scrollen, sehen
wir, dass es nichts anderes in dieser Zeile gibt, was mich frage, wo diese Rolle im ursprünglichen Datensatz war. Selbst in diesem Vorschaumodus haben
wir die Möglichkeit, über diesen Bindestrich neben einer Straße zu scrollen, um weitere
Informationen zu erfahren , und das gibt uns jetzt hilfreiche Informationen, weil es uns sagt, dass diese Rolle ursprünglich Zeile 9816, was bedeutet, dass es die letzte Zeile im Datensatz war, und es hat keine wertvollen Informationen, so dass wir voran gehen und einfach löschen können. Und das Löschen entfernt Rose aus einem Datensatz. Im Gegensatz zu Dropping, das Spalten aus dem Datensatz entfernt, und es kann ein wenig seltsam erscheinen, haben
Toe zwei verschiedene Begriffe für das, was auf der Oberfläche scheint die gleiche Aktion zu sein. Ich werde nur Rose loswerden. Aber Spalten und Zeilen funktionieren etwas anders, und so traditionell wurden sie anders behandelt. Spalten haben Namen und Rose, Ken und sollten in der Regel eine eindeutige I D Spalte haben, die auch die Zeile identifiziert. jedoch leicht, Es istjedoch leicht,eine Spalte loszuwerden, indem Sie einfach die Spalte „Vulkannummer fallen“ sagen. Aber um Rose loszuwerden, müssen
Sie sagen, löschen Sie Zeilen, die bestimmten Kriterien entsprechen. Zum Beispiel, in unserem Datensatz, die Kriterien zum Löschen einer Zeile könnte etwas sein, um die Wirkung von Löschen All Rose, wo die Spalte Vulkan Nummer verantwortlich gemacht wird, so dass die Differenz nuanciert. Und deshalb haben diese scheinbar identischen Entfernungstransformationen unterschiedliche Namen. Sehen wir uns nun an, was unsere Optionen in den Vorschlagskarten sind. Die erste Option ist die Keep-Option, die unter bestimmten Umständen hilfreich wäre, weil sie auf Lee die Zeilen beibehalten würde, die unseren Spezifikationen
entsprechen, das Gegenteil von Löschen. Aber in diesem Fall wollen
wir diese Zeile nicht behalten, Also lasst uns zur nächsten Karte gehen, die Löschen sagt. Und das ist es, was wir wollen. Lassen Sie uns also voran gehen und löschen, indem Sie die Löschkarte auswählen und sie unserem Rezept hinzufügen. Indem wir diese leere Zeile löschen, verwenden
wir das wichtige Datenbereinigungsprinzip, Fehler zu entfernen, sind fehlende Werte aus dem Datensatz, wenn angemessen.
13. Drop-Down: Ok, gehen wir zum letzten Weg. Wir werden Daten bereinigen und Rezeptschritte in diesem Kurs hinzufügen, so dass über dem zissierten ein Gramm und Qualitätsbalken, sehen
wir, dass es zwei Bereiche für Dropdown-Menüs gibt, die wir kurz am Anfang des Kurses angesprochen haben. Der Typ links ist der Datentyp, und mit diesem Dropdown-Menü können
wir schnell den Datentyp der Spalte ändern. Lassen Sie sich nicht davon täuschen, wie einfach das Konzept eines Datentyps klingt. Es ist wirklich wichtig, das jetzt zu bekommen. Wenn wir uns die Spalte Eruption Nummer betrachten, stellen wir fest, dass es eine Postleitzahl ist, was ein lustiges Beispiel ist, weil versuchen Faktor, einen wirklich guten Gast hier
treffen, weil dies eine fünfstellige Zahl ist, die passieren könnte, ist eine Postleitzahl -Code. Es ist leicht zu sehen, warum das passiert ist, aber es ist falsch, also müssen wir es reparieren. Da wir diese Drop-Down-Menüs haben, gibt es eine schnelle und einfache Möglichkeit, dies zu tun. Gehen Sie nun zum Dropdown-Menü auf der linken Seite, und so ändern wir den Datentyp. Hier sehen wir einige andere Datentypen, aus denen wir eine andere Kategorie für unsere Daten auswählen können. Die Top-Kategorien sind die allgemeinsten und gebräuchlichsten für fast alle Programme, die mit
Daten arbeiten . So haben Sie Ihre Strings unter Juroren Dezimalstellen, die auch als Floats und viele andere Programme und Sprachen bekannt sein könnten. Und wir haben Milliarden. Also haben wir die String-Kategorie, und dies ist eine Kategorie, die normalerweise Wörter und Buchstaben darunter gruppiert hat. Aber eine Zeichenfolge kann auch Zahlen sein, mit denen wir nicht Mathematik machen möchten, wie potenziell eine Eruptionsnummer, die Sie in diesen mathematischen Funktionen nicht zu einer anderen hinzufügen würden, subtrahieren oder teilen oder eine dieser mathematischen Funktionen ausführen würden. Also lasst uns weiter hier suchen. Als nächstes haben wir ganze Zahlen, die ganze Zahlen sind, mit denen wir mathematische Zahlen und dann Zahlen mit Dezimalstellen und dann Boolean,
was bedeutet, dass die Daten nur zwei Werte enthalten können, die normalerweise als wahr oder falsch angezeigt werden. Und dann haben Sie auch einen Datentyp für Datumsangaben für diese Klasse, die über Objekt
im Array übersprungen wurden und zu mehr Optionen übergehen, die Spezialtypen in Trifecta und ihre selbsterklärende sind, wie Sie hier sehen können. Also aus diesen drei Optionen. Die Zeichenfolge scheint am besten zu passen, weil wir mit diesen Zahlen keine Mathematik machen wollen. jedoch Hier istjedochein Profi-Tipp. Es gibt einen wichtigen Grund, warum wir
in ähnlichen Situationen Eindringlinge wählen möchten. Und der Grund ist, dass wir, da es sich um eine I-D-Spalte handelt, möchten
wir sie vielleicht mit einer anderen Datenquelle verbinden. Und Inter Juroren schließen sich typischerweise schneller an als Strings. Strings nehmen auch ein wenig mehr Speicher in Anspruch. Für kleine Datensätze
ist es also wirklich egal, ob wir String oder Inter Juror wählen, weil der Unterschied in Speicher und Geschwindigkeit vernachlässigbar sind. Aber wenn wir mit einem wirklich,
wirklich großen Datensatz arbeiten würden, wollen
wir vielleicht Eindringlinge auswählen. Da unser Datensatz wirklich klein ist, könnten
wir wirklich wählen, diese Spalte entweder eine Zeichenfolge zu machen oder Ihre hier eingegeben. Aber wenn Sie eine ganze Zahl wählen, denken Sie
daran, keine mathematischen Transformationen für diese Spalte zu machen, und Sie werden in Ordnung sein. Als nächstes gehen wir zum Abwärtspfeil auf der rechten Seite der Spalte, und wenn wir diese Schaltfläche auswählen, sehen
wir viele schnelle, ausgewählte Optionen, die eine andere Möglichkeit bieten, einige der Änderungen vorzunehmen, die wir bereits gesprochen haben , wie das Umbenennen einer Spalte oder das Ändern des Datentyps
, der etwas redundant ist. Aber es gibt auch Optionen, über die wir noch nicht gesprochen haben, wie das Bearbeiten der Spalte. Dies ist, wo wir die Spalte vereinbaren, indem wir auswählen, ob die Spalten datiert auf- oder absteigen sollen. Oder wir können die Reihenfolge der Spalten ändern, und wir können sogar duplizieren oder hoch, um ihn hier anzurufen. Jetzt kann die Sortieroption besonders nützlich sein. Zum Beispiel, seitdem wir herausgefunden haben, wofür ich steht, war
ich wirklich neugierig, wie Maney bestätigte Eruptionen höhere Zahlen auf dieser
Skala waren , Null ist der mildeste Vulkanausbruch und acht die Der schwerste Hitter. Lassen Sie uns also zu dieser Spalte gehen, um diese Sortierfunktion zu verwenden. Lassen Sie uns von der höchsten bis zur niedrigsten Zahl sortieren, wählen Sie
also absteigend. Es zeigt uns leere Werte. Das ist also, was es als der höchste Wert für die Auswahl auf Lee platziert wird, die Zeilen mit eingegebenen Werten wählen die gültigen Werte in der Datenqualitätsleiste aus und
wählen dann oben transformiert aus, Sie fragen sich vielleicht, warum wir die Zeilen nicht mit keine Werte hier. Aber da gibt es andere wichtige Informationen entlang dieser Zeilen. Wir wollen sie jetzt nicht loswerden. Wir sehen nur die Werte, die Zahlen haben, und auf diese Weise macht es einfacher, die Daten zu untersuchen. Hier können wir einige mächtige Vulkanausbrüche an der Spitze sehen, und indem wir über die Rose scrollen, finden
wir ihre Namen heraus und wenn sie ausbrachen , was jetzt einige wirklich interessante Informationen bietet. Eine andere Sache, die ich in der Spalte des Vulkans bemerkte, war, dass es einen unbenannten Vulkan gibt an einem Punkt ausbrach,
und ich bin wirklich neugierig, ob dies das einzige Mal ist,
dass dies passiert ist oder ob es andere
bestätigte Vulkanausbrüche gibt , die nicht benannt sind. Und dazu werde ich unser Gitter nach unbenannten Vulkanen filtern,
und es sieht so aus, als ob es 14 Reihen von ihnen gibt. Lassen Sie uns nun auf den Breiten- und Längengrad überprüfen, um zu sehen, ob sie tatsächlich einen Standort haben, und es sieht so aus, als ob sie dio. Und nicht nur das, es gibt mehrere, die Wiederholungsstraftäter sind, die wir hier und jetzt sehen können. Ich bin neugierig, wann diese Eruptionen passiert sind. Lassen Sie uns gehen und bewegen Sie den Anfang in der Nähe der Spalte neben diesen Spalten, um leichter zu vergleichen. Wir sehen, dass diese Vulkane nicht so lange her eingewickelt sind, vergleichsweise in der Weltgeschichte. Eine Hypothese ist also, dass diese Vulkane einfach keine Namen haben. Aber zumindest wissen wir, dass dies keine Fehler sind, die wir im Datensatz löschen sollten, also lassen Sie es uns in Ruhe.
14. Exportieren von Ergebnissen: Jetzt haben wir unser Beispiel fast vollendet. Arbeiten Sie an diesem Datensatz. Es gibt definitiv noch mehr, was wir damit machen könnten. Aber das ist es, was Sie in Ihrem 6-Schritt-Rezept-Projekt tun werden. Mehr Arbeit an diesem Datensatz, also lassen Sie uns einfach diesen Start senden. Du bist wieder da, wo es war. Nun, da wir einen Blick auf Datumsangaben neben dem Längen- und Breitengrad genommen haben. Und während wir auf den Anfang schauen, wollte ich
Sie nur in eine seltsame Ahnung, bevor Sie mit der Arbeit an Ihrem Projekt beginnen. Die Datumsangaben im Tri-Faktor sind eine einzigartige Situation, und Sie werden feststellen, dass es hier einige Unübereinstimmungswerte gibt, und wenn Sie sie betrachten, sind
sie immer noch Datumsangaben. Es sind nur Staaten, die früher als 1400 Uhr vorangehen , um die Tatsache zu versuchen, und sie danach fragten. Und sie sagten, dass Programme, die normalerweise eine untere Grenze für ihre Daten haben, und sie wählten 1400 a. D als ihre untere Grenze. Also wird jedes Datum vor 1400 a. D als nicht übereinstimmender Wert angesehen, obwohl es ein legales Datum ist, und sie sagten auch, dass sie nie ein Feedback gehört hätten, dass diese Grenze nicht ausreicht. Also, wer weiß es? Vielleicht wird es sich in der Zukunft ändern, und dann werden Ihre Daten nicht als nicht übereinstimmen markiert. Wenn es Sie wirklich stört, können
Sie den Datentyp ändern, um Jer einzugeben. Lassen Sie uns nun unseren letzten Schritt beenden, darin besteht
, diese Änderungen über alle unsere Daten hinweg auszuführen und unsere Ergebnisse zu erhalten. Und wir tun dies, indem wir hier oben auf die Schaltfläche „Ergebnisse generieren“ gehen und sie auswählen. Es führt uns zu diesem neuen Bildschirm und hier können wir wählen, welches Dateiformat Sie wollen. Ich werde nur eine CSFB auswählen, die von un check the Jason und sehen SV steht für
kommagetrennte Werte, was ein Dateityp ist. Ich kann mich in Excel öffnen, dann gehen Sie weiter und drücken Sie Ergebnisse generieren. Und hier sind die Ergebnisse. Hier können wir uns die Ergebnisübersicht ansehen, die einen Überblick über Ihre Daten gibt. Sie können sich auf die Top 20 Werte umsehen, und Sie können auch Dinge wie Median, Minimum und Maximum sehen. Aber lassen Sie uns ein Ergebnis öffnen. Während wir hier surfen, können
wir einige unserer Änderungen und Entscheidungen sehen, wie wenn wir die Spalte der Eruptionskategorie fallen lassen
und wir die Spalte V I umbenannt haben,
und auch, dass wir uns entschieden haben, nicht die unbenannten Vulkane fallen zu lassen
15. Project: In Ordnung. Also haben wir den Kurs durchlaufen, und jetzt können Sie anwenden, was Sie gelernt haben. In diesem Projekt werden wir Sie darum bitten, den Datensatz des vulkanischen Datensatzes zu nehmen und sechs Transformationen darauf
anzuwenden. Also sechs Schritte in diesem Datenrezept jenseits der vier. Dieser Try Faktor tut automatisch für Sie. Also, während Sie dies tun, denken Sie
daran, die drei Datenprinzipien, die wir wieder übergegangen sind. Das heißt, Fehler zu finden und sie zu löschen, Daten zu
finden, die nicht wirklich wichtig sind. Es ist irrelevant für das, was Sie versuchen, es loszuwerden und den
Datensatz zu klären . Versuchen Sie also, diese drei Prinzipien im Auge zu behalten. Wenn Sie mit Ihren Transformationen kommen, müssen
Sie nicht nur die Transformationen verwenden. Wir sind in der Klasse rüber gegangen. Sie können wirklich alles verwenden, was Sie wollen. Der Punkt ist, in der Lage zu sein, sechs neue Datenschritte auf Ihr Rezept anzuwenden und mit einem
Datensatz zu kommen , der sauberer ist als das, was es kam, und Ihnen helfen, durch das zu arbeiten. Denken Sie nur daran, wo Sie den Datensatz aufnehmen möchten. Vielleicht möchten Sie eine Karte von Vulkanausbrüchen der Villa erstellen oder so etwas tun. In diesem Fall möchten
Sie
beispielsweise viele Spalten
entfernen, die nichts mit Breiten- und Längengrad oder
Positionierung zu tun haben , was immer Sie versuchen, einfach diese Daten Prinzipien und wenden Sie diese Transformationen an, um zu versuchen und dorthin zu gelangen. Und wenn du das getan hast, mach
einfach einen Screenshot davon und lade ihn hoch, damit wir die großartige Arbeit sehen können , die du gerade machst.
16. Wir sind hier für dich!: herzlichen Glückwunsch zum Abschluss des Kurses. Wir freuen uns sehr, die Projekte zu sehen, die Sie entwickeln, und wenn Sie irgendwelche Fragen auf dem Weg haben, zögern
Sie bitte nicht, uns zu kontaktieren und uns zu fragen. Dafür sind wir hier.