Programmieren in R: Daten bereinigen und transformieren in RStudio | Emmanuel Segui | Skillshare
Suchen

Playback-Geschwindigkeit


1.0x


  • 0.5x
  • 0.75x
  • 1x (normal)
  • 1.25x
  • 1.5x
  • 1.75x
  • 2x

Programmieren in R: Daten bereinigen und transformieren in RStudio

teacher avatar Emmanuel Segui, Data Analysis Made Easy!

Schau dir diesen Kurs und Tausende anderer Kurse an

Erhalte unbegrenzten Zugang zu allen Kursen
Lerne von Branchenführern, Ikonen und erfahrenen Experten
Wähle aus einer Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Schau dir diesen Kurs und Tausende anderer Kurse an

Erhalte unbegrenzten Zugang zu allen Kursen
Lerne von Branchenführern, Ikonen und erfahrenen Experten
Wähle aus einer Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Einheiten dieses Kurses

    • 1.

      Einführung

      2:12

    • 2.

      Gruppen von Beobachtungen auswählen

      7:07

    • 3.

      Dataset (n)

      7:12

    • 4.

      Dataset (n)

      6:29

    • 5.

      Fehlende Werte behandeln

      5:15

    • 6.

      Zellen teilen und kombinieren

      2:57

    • 7.

      Daten aus verschiedenen Tabellen zusammenfügen

      4:27

    • 8.

      Übung 1

      1:40

    • 9.

      Übung 2

      1:56

    • 10.

      Abschließende Bemerkungen und nächste Schritte

      0:43

  • --
  • Anfänger-Niveau
  • Fortgeschrittenes Niveau
  • Fortgeschrittenes Niveau
  • Jedes Niveau

Von der Community generiert

Das Niveau wird anhand der mehrheitlichen Meinung der Teilnehmer:innen bestimmt, die diesen Kurs bewertet haben. Bis das Feedback von mindestens 5 Teilnehmer:innen eingegangen ist, wird die Empfehlung der Kursleiter:innen angezeigt.

39

Teilnehmer:innen

1

Projekte

Über diesen Kurs

In diesem dritten kurzen Kurs der Reihe „Datenanalyse mit R“ lernst du alles, was du wissen musst, um Daten innerhalb von RStudio-IDE zu bereinigen und zu transformieren und mit der Analyse von Daten in R zu beginnen.

Hier ist, was du lernen wirst:

  • Gruppen von Beobachtungen auswählen und neue berechnete Felder erstellen

  • Dataset (n)

  • Dataset (n)

  • Fehlende Werte in R behandeln

  • Zellen und Spalten in R teilen und kombinieren

  • Daten aus verschiedenen Tabellen in R zusammenfügen

Folgendes erhältst du:

> Sechs (6) Anleitungsvideos, um dich Schritt für Schritt zu der RStudio-Schnittstelle zu führen, um mit dem Importieren deiner Datensätze zu beginnen und mit der Programmierung in R zu beginnen

> Drei (3) Spickzettel. Du wirst One-Pager für schnelle Referenzen zum Bereinigen und Umwandeln von Daten mit RStudio erhalten

> Zwei (2) Übungsaktivitäten, um deine Fähigkeiten zu verbessern, indem du Daten mit RStudio reinigst.

> ALLE in diesem Projekt verwendeten Dateien

Folgendes ist als nächstes zu tun:

1. Nimm an diesem Online-Kurs teil. >>

2. Das Kursprojekt abschließen, um dein Selbstvertrauen aufzubauen

Triff deine:n Kursleiter:in

Teacher Profile Image

Emmanuel Segui

Data Analysis Made Easy!

Kursleiter:in

Do you like French accents? Eh ben Voilà! 

I am really excited to help the data analyst community on Skillshare. Whether you're a seasoned data analyst or aspiring to be, I hope you get what your heart desire, maybe a better lifestyle, or salary, or even learn new skills for fun! I hope to be one of your instructor in your journey.

As a data scientist and biostatistics instructor I have been involved in research studies and projects such as: 1) dashboard creation and publishing (using RStudio, Tableau, PowerBI). 2) statistical analyses and reports  (regressions, anovas, chi-square, factor analyses), 3) data warehouse and pipelines development with R and SQL Server. I also build Excel VBA applications to automate reports and save time from tedious reporting... Vollständiges Profil ansehen

Level: Intermediate

Kursbewertung

Erwartungen erfüllt?
    Voll und ganz!
  • 0%
  • Ja
  • 0%
  • Teils teils
  • 0%
  • Eher nicht
  • 0%

Warum lohnt sich eine Mitgliedschaft bei Skillshare?

Nimm an prämierten Skillshare Original-Kursen teil

Jeder Kurs setzt sich aus kurzen Einheiten und praktischen Übungsprojekten zusammen

Mit deiner Mitgliedschaft unterstützt du die Kursleiter:innen auf Skillshare

Lerne von überall aus

Ob auf dem Weg zur Arbeit, zur Uni oder im Flieger - streame oder lade Kurse herunter mit der Skillshare-App und lerne, wo auch immer du möchtest.

Transkripte

1. Einführung: Willkommen zum dritten Teil dieser Serie über die ersten Schritte mit RStudio. Im ersten Teil dieser Serie ging es also um RStudio Cloud und darum, wie Sie verschiedene Optionen verwenden können, um Ihr Cloud-Konto zu konfigurieren. Im zweiten Teil drehte sich alles um Umfragedaten. Und hier geht es darum, wie man Daten bereinigt und in RStudio transformiert. Wie Sie hier sehen können, gibt es acht Lektionen. In der ersten Lektion, dem ersten Video, geht es darum, wie man Gruppen von Beobachtungen auswählt. Wir werden uns also verschiedene Funktionen ansehen und verschiedene Ordnungsfunktionen lernen, verschiedene Ordnungsfunktionen lernen insbesondere das Deploy Your Package oder das Tidy Verse-Paket. Dann Video 2.3 oder zwei Teile, wirklich zwei Videos darüber, wie man chaotische Daten in saubere Daten umwandelt. Zunächst werde ich definieren, was einen chaotischen Datensatz ausmacht und wie er gereinigt werden kann. Also zwei Videos, und um einen Datensatz zu bereinigen, werden Sie natürlich einen Datensatz zu bereinigen, fehlende Werte oder Nullwerte haben. Deshalb ist es wichtig zu wissen, wie man mit fehlenden Werten in R Das ist das Ziel dieses Videos. Das nächste Video zeigt, wie man verschiedene Zellen teilt und kombiniert. Es verwendet also einige Funktionen um Zeichenkettendaten zu teilen und zu kombinieren. Das Video hier zeigt, wie Sie verschiedene Tische kombinieren , zusammenfügen oder zusammenstellen können. Es entspricht also dem inneren Join, dem linken oder dem rechten oder dem vollständigen äußeren Join in Sequel. Schließlich müssen Sie das Video üben, um Ihr Selbstvertrauen in die Bereinigung und Umwandlung von Daten in RStudio zu stärken. Natürlich können Sie am Ende ein Projekt haben und die Beschreibung des Projekts finden Sie unter diesem Video hier im Projektbereich. Deshalb schlage ich vor, dass wir gleich loslegen und lernen, wie man Daten in RStudio bereinigt und transformiert. 2. Ausgewählte Gruppen von Beobachtungen: Willkommen im Abschnitt über das Transformieren von Daten in R. In diesem Abschnitt wird sich also alles um die Verwendung eines Pakets namens Tidyverse drehen. Das Tidyverse ist eher eine Sammlung von Paketen in R, all unseren Benutzern häufig verwendet werden , um Daten zu analysieren und auch Datenwissenschaft zu betreiben. Das spezielle Paket , das wir in diesem Video verwenden werden, heißt Player. Also bereiten wir zuerst die Bühne für dieses Video vor. Wir werden den Datensatz hochladen und Tidyverse installieren und laden. Und dann werde ich ein bisschen mehr der Funktionen erklären , die wir verwenden werden, um ein R aus dem Paket dplyr zu verwenden. Zuerst laden wir es hoch und laden einen Datensatz in Ihre R-Sitzung, einen Datensatz namens Verletzungen. Verletzungen ist das, was ich sagte , in der insgesamt 231 Patienten aufgeführt sind, die wegen verschiedener Verletzungen in die Notaufnahme gegangen sind. Um den Datensatz in unser Projekt hochzuladen, gehen wir zu Datei und dann können wir hochladen. Hier wählen wir das Dataset-Engineering aus und klicken auf Okay. Und wir können sehen, dass Verletzungen unter Files Project stehen. Jetzt können wir den Datensatz in die R-Sitzung laden. Wir importieren den Datensatz aus Excel. Die Importer-Schnittstelle wird gestartet. Und dann können wir unsere Datei auswählen. Wir können hier für verschiedene Variablen in jeder Variablen, bei der es sich um eine Charaktervariable handelt, sehen sich um eine Charaktervariable handelt, hier mehrere Altersgruppen gibt. Und dann der Typ, Autounfälle usw. Dies ist auch eine Zeichenvariable und wir haben hier eine Schätzung. Sie können sehen, dass RStudio vermutet hat , dass es sich um eine Zeichenvariable handelt, aber das ist nicht wirklich richtig. Warum steht das da? Der Grund, warum osteo vermutet hat, dass es sich um eine Zeichenvariable handelt, ist, dass wir in der Excel-Datendatei zur Darstellung von Nullwerten die Zeichen haben. Und zur Zeit in Port versucht Osteo zu erraten, dass der Datentyp dieser Variablen, wie Sie sehen werden, aus einigen Zeichen besteht und denkt automatisch , dass die gesamte Variable eine Zeichenvariable ist. Wir werden den Datentyp auf numerisch ändern. Sie können hier also die Zeichen NaS oder nicht und die Buchstaben a nicht mehr sehen , sondern sie stehen für Nullwerte. Also klicken wir auf Import und installieren jetzt das tidyverse-Paket. Installiere Tidy Verse. Jetzt ist das Tidyverse installiert. Das Paket ist uns hier wichtig, wird Deep Supplier genannt. gibt es viele verschiedene Funktionen In diesem Deep-Layer-Paket gibt es viele verschiedene Funktionen, aber wir sind an Funktionen hier interessiert. Zuerst die Funktion Select , mit der wir Variablen oder Felder oder Spalten des Datensatzes auswählen können . Dann verwenden wir den Funktionsfilter , mit dem wir Zeilen basierend auf bestimmten Bedingungen abrufen können . Bei der dritten Funktion werden wir diese Funktionsgruppe verwenden , mit wir den Datensatz anhand einer bestimmten Variablen gruppieren können . Dann verwenden wir die Funktion Zusammenfassen, um die Schätzung zusammenzufassen oder eine Gesamtschätzung der Daten anhand einiger Gruppen vorzunehmen. Also zuerst die Funktion auswählen, ich zeige Ihnen zwei Möglichkeiten, diese Funktion zu verwenden. Zuerst werden wir die Funktion so zusammenstellen , wie sie normalerweise geschrieben ist. Und dann verwenden wir den sogenannten Pipe-Operator. Nun, der Sinn der Pipe-Operatoren ist, Ihnen zu helfen, Code so zu schreiben , dass er einfacher zu lesen und zu verstehen ist. Es ist eine Möglichkeit, verschiedene Aktionen zu verketten. Ich würde sagen, in unserem Pipe-Operator schreiben Sie, Prozentsatz größer als Prozentsatz. So schreibt man es. Dieser Pipe Operator stammt aus dem Maghreb-Paket. Aber wenn Sie laden, lädt das Tidyverse automatisch diesen Pipe-Operator, wir werden ihn jetzt verwenden. Zuerst werde ich Ihnen zeigen, wie Sie die Funktion so verwenden , wie sie geschrieben ist. Also select, das erste Argument der Select-Funktion ist der Datensatz. Also Verletzungen. Und dann sind die zweite Funktion die Spalten oder Felder oder die Variablen, die wir hier einrichten wollen. Wählen wir das Alter aus. Um die Pfeife zuerst zu benutzen, beginnen Sie mit dem Anfang. Ganz am Anfang steht der Datensatz. Also Verletzungen. Und dann fügen Sie einen Pipe-Operator ein. Sie können auch mehrere Spalten auswählen. In diesem Fall verwenden Sie natürlich den Pipe-Operator, wählen einen Agententyp aus, hier kommen als Sammlung von Vektoren und nicht nur H, Sie möchten mehrere Spalten, also müssen wir sie in einer Sammlung zusammenfassen. Sie können auch die Indexspalte verwenden , um Ihre Variablen auszuwählen. Hier wähle ich Spalte eins und Spalte drei aus, also Alter und Verletzung. Also verwenden wir jetzt den Verbfilter. Und der Filter wird verwendet, um den Datensatz anhand einer Bedingung zu filtern. Also hier werden wir ein Beispiel verwenden. Die Bedingung wird sein, dass die Altersgruppe zwischen 0 und 17 liegt , oder? Also nehmen wir alle Patienten, für die die Altersgruppe 0 bis 17 Jahre alt ist. Wir können auch nach verschiedenen Bedingungen filtern. Nehmen wir an, wir möchten hier nach der Altersgruppe von 0 bis 17 Jahren und auch nach der Art der Krankenhausaufenthalte filtern . Ich werde hier etwas Platz schaffen. Und dann verwenden wir die dritte Funktion, Funktion group BY, hier gruppieren wir nach Alter. Ich drücke die Eingabetaste. Sie werden sehen, dass das Ergebnis zuerst eine Tabelle ist. Aber dann können Sie in den Metadaten sehen , dass es 11 Gruppen gibt. Wir können auch nach verschiedenen Variablen gruppieren. Also hier gruppiere ich zB zuerst nach Alter und dann nach Typ. Nun, es gibt 11 Altersgruppen und es gibt drei Typen. Wir leben also in Zeiten von drei gleich 33 Gruppen. Auf der Grundlage dieser Gruppen werden wir nun einige Berechnungen durchführen. Hier. Wir werden die Daten zusammenfassen. Also nehmen wir Verletzungen vom Typ Buying Agent und fassen sie dann zusammen und sagen: Okay, ich möchte, dass diese Spalte insgesamt heißt und Summe ist gleich. Also weisen wir zu, dass es einige der Schätzungen zur Summe gibt und wir vergessen nicht, die DNAs zu entfernen , bevor wir die Summierung durchführen. Das war's also für dieses Video. Im nächsten Video werden wir uns weitere Funktionen aus den Paketen Deep Layer und Tidyverse ansehen , um Daten zu verbinden, Zellen zu kombinieren usw. 3. Transformiere messy in einen sauberen Datensatz Teil 1: In diesem Video geht es darum, mit einigen Funktionen aus dem Tidyverse chaotische Daten in aufgeräumte Daten oder saubere Daten umzuwandeln Daten in aufgeräumte Daten oder saubere Daten . Also zuerst werden wir den Workspace säubern und R neu starten. Hier siehst du also, dass es keine Variablen oder Objekte mehr in der Umgebung gibt. Ich werde etwas Platz machen. Und jetzt sind wir bereit , die Voraussetzungen zu schaffen. Zuerst sehen wir uns Tiny versus Loaded an. Hier geben wir Tidyverse ein. Klicken Sie auf das Kontrollkästchen. Und jetzt ist der aufgeräumte Vers geladen. Die beiden Pakete sind wichtig. Hier sind der Lieferant und die Ordnung. Lassen Sie uns also über chaotische Daten im Vergleich zu aufgeräumten Daten sprechen. Was sind Macy-Daten? Hier gibt es drei Szenarien für chaotische Daten. Zuallererst sind die Spaltenüberschriften Werte und keine Variablennamen. Schauen wir uns also den Datensatz an, in dem Deep-Layer-Paket namens Relic Income enthalten ist, Daten aus einer Umfrage zu Religion und Einkommen. Sie können hier also sehen , dass die Spaltennamen hier keine wirklichen Variablen sind und dass sie Variablen sein sollten. Die Spaltennamen hier sind Werte von Einkommensgruppen. Dies wird also als chaotische Daten angesehen. Das zweite Szenario hier sind mehrere Werte, die in einer Spalte gespeichert sind. Also werde ich Ihnen das mit einem Datensatz der Weltgesundheitsorganisation namens TB-Tuberkulose zeigen . Also werden wir zuerst den Datensatz hochladen und Sie wissen, wie das geht. Jetzt importieren Sie Ihren Datensatz hier. Klicken Sie auf Durchsuchen, wählen Sie den Datensatz T aus, okay? Und jetzt importieren Sie den Datensatz. Wenn ich also TB hier eingebe, können Sie in der dritten Spalte, G TRH, sehen, dass wir mehrere Werte haben, die sowohl das Geschlecht als auch H, M und F als weiblich und die Altersgruppe repräsentieren . Also müssen wir diese beiden Variablen trennen. Das dritte Szenario hier für chaotische Daten, bei dem wir es als chaotisch betrachten , d. h. wenn Variablen sowohl Zeilen als auch Spalten speichern. Also werde ich Ihnen einen weiteren Datensatz der Weather Association zeigen . Jetzt weißt du also, wie es läuft. Sie laden den Datensatz hoch, wählen ihn aus und importieren ihn dann in Ihre R-Sitzung. Das ist es, was ich gerade mache. N1 und geben Sie das neue ODER-Objekt ein, das über die Importschnittstelle erstellt wurde. Ob ich in der Elementspalte zwei Dinge sehen kann, wir haben mehrere Werte. Diese sind hier also in verschiedene Variablen und auch spaltenübergreifend zu trennen , die Spaltennamen sind wirklich Tage. Sie wollen 31 sein. Und das sollte wirklich eine Spalte mit dem Namen Datum sein. Lassen Sie uns nun das ER verwenden und Funktionen anwenden , um diesen Datensatz aufzuräumen oder zu bereinigen. Und wieder ein winziger Datensatz. Was wir in R für einen aufgeräumten Datensatz halten, sind drei Dinge. Jede Spalte ist eine Variable, jede Zeile ist eine Beobachtung. In jeder Zelle befindet sich ein einzelner Wert. Also verwenden wir tidy, um verschiedene Funktionen zu priorisieren , um den Datensatz, der sich erfüllt, so gut wie möglich zu bereinigen . Diese Definition besteht aus drei Bedingungen. Okay, gehen wir zurück zu unserem vorherigen Datensatz, dem ersten, Religion und Einkommen. Also gab das Kommando hier erste Ansicht, laufendes Einkommen aus. Und ich kann links die RStudio-Ansicht des Datensatzes sehen . Sie können hier deutlich sehen die Einkommenskategorien als Spalten dargestellt werden, was wir nicht wollen. Und wir können rechts auf der Konsole sehen, dass ich den zweiten Befehl gegeben habe, Relikteinnahmen. Also, was wir hier tun werden, ist eine Funktion aus dem tidyr-Paket namens pivot longer zu verwenden . Nun, dieser Datensatz hat drei Variablen, nämlich Religion, Einkommenskategorie und den Wert innerhalb jeder Einkommenskategorie. Um diesen Datensatz zu bereinigen, werden wir die nicht variablen Spalten pivotieren. Also all diese Einkommenskategorien in der Spalte Einkommen gepaart mit dem entsprechenden Wert. Daher wird diese Maßnahme manchmal als Erweiterung oder Erweiterung dieses Vermögenswerts bezeichnet . Wir werden die Funktion pivot longer verwenden, die die Daten verlängert oder vergrößert, die Anzahl der Zeilen erhöht, wie gesagt, und die Anzahl der Spalten verringert. Das Gegenteil von Pivot Longer ist Pivot Wider und wir werden es in der nächsten Übung verwenden. Also nehmen wir das tatsächliche Einkommen des Datensatzes und dann den Rohrbetreiber und wir sagen, Hey, ich nehme die Einnahmen aus der Religion, die ich gesagt habe, und dann werde ich länger schwenken. Was möchte ich ändern? Nun, ich wollte mich auf die nicht variablen Spalten konzentrieren , also auf alle Spalten des Datensatzes außer Religion. Hier können wir also Minus Religion verwenden oder wir können das Ausrufezeichen verwenden, um nicht die Spalte Religion, sondern auch die Argumentnamen zu sagen . Wir werden all diese Spalten in einer neuen Spalte zusammenfassen , die beispielsweise als Einkommenskategorie bezeichnet wird. Und dann die entsprechenden Werte im Argument, Werte zwei. Und wir nennen es Frack oder Frequenz. Wenn Sie die Eingabetaste drücken, können Sie hier sehen, dass alle Spaltennamen in einer Spalte zusammengefasst wurden , einer Variablen namens Einkommenskategorie, und der entsprechende Wert in einer anderen Variablen namens Häufigkeit enthalten ist . Um die zweite Situation eines chaotischen Datensatzes zu veranschaulichen, bei dem es sich um mehrere Variablen handelt, die in einer Spalte gespeichert sind. Wir werden den Datensatz tuberculosis verwenden und die Funktion separate verwenden, um eine Variable in mehrere Variablen zu unterteilen, entweder mit regulären Ausdrücken oder numerischen Stellen. Hier verwenden wir numerische Orte. Gehen wir also zurück zu RStudio und sehen die Tuberkulose an, die hier links abgebildet sind. Und beim zweiten Befehl werden wir uns einfach ansehen, der in der Konsole festgelegt ist. Wir können sehen, dass die dritte Spalte, GDR H, wirklich aus zwei Variablen besteht , einer Geschlechtsvariablen, einem Zeichen N oder F und dann einer Altersgruppe Null bis 14, 15 bis 24, 25 bis 34 usw. Wir werden eine separate Funktion verwenden, um diese Spalte in zwei verschiedene Spalten zu unterteilen, Geschlecht und Altersgruppe TB und dann den Pipe-Operator. Und dann rufen wir die Funktion separate auf in welcher Spalte sich die Spalte G, D RH befindet, und wir trennen diese Spalten GDR 8022. Also C für Sammlung und dann zwei Spalten, Geschlecht und Altersgruppe. Und wir sagen, ich möchte das erste Zeichen der ersten Spalte beibehalten das erste Zeichen der ersten , indem ich die Eingabetaste drücken würde. Und wir haben die DDR-H-Kolonne erfolgreich in zwei Spalten unterteilt , Geschlecht und Altersgruppe. Im dritten Video zeige ich Ihnen, was in unserer dritten Situation eines unordentlichen Datensatzes zu tun ist, wenn Variablen sowohl in Zeilen als auch in Spalten gespeichert werden . 4. Transformiere messy in einen sauberen Datensatz Teil 2: Willkommen zum zweiten Teil dieses Videos in unserer dritten Situation eines chaotischen Datensatzes, wenn Variablen sowohl in Zeilen als auch in Spalten gespeichert werden . Und in einem früheren Video haben wir uns mit längeren Pivot-Funktionen und einzelnen Funktionen befasst. Jetzt schauen wir uns alle Funktionen an. Die Funktion mutiert vom Lieferanten, dann Pivot weiter vom Titel ER, und dann eine Funktion, die sich mit Zeichenketten, STR-Sub aus der Zeichenfolge oder einem Paket befasst . Auch hier befinden sich all diese Funktionen im Tidyverse. Wenn wir uns also die erste Spalte, das Spaltenelement, ansehen , können wir sehen, dass es in dieser bestimmten Spalte mehrere Werte und sogar Variablen gibt . Wir müssen diese Spalte also in mehrere Spalten aufteilen, wobei die ersten Elementzeichen die ID sind. Die anderen vier Zeichen stehen für das Jahr, die nächsten beiden Zeichen für den Monat und die nächsten vier Zeichen sind tatsächlich variable T max Teaming und PRC P für Höchsttemperatur, Mindesttemperatur und Niederschlag. Aber zuerst verwenden wir Pivot Longer erneut, um alle Tage in einer Variablen zusammenzufassen, nämlich Tag und alle Werte in einer neuen Spalte namens temp. Also ob Datensatz, Pipe-Operator, dann Strg+Enter drücken, um den Cursor auf die nächste Zeile zu setzen , ohne RStudio anzuweisen, den Befehl auszuwerten. Also stellen wir alles außer den Elementnamen auf den Calling Day um. Wir fassen all diese Spalten zu einer Spalte zusammen, die Tag heißt. Und dann die zugehörigen Werte in die Spalte feucht. Sie können hier das Ergebnis sehen, wenn Sie als Moderator tätig sind. Und das wurde bereits im Spaltenelement gesagt: Es gibt verschiedene Variablen und verschiedene Werte, die wir trennen müssen. Also werden wir diese separate Funktion aus dem tidyr-Paket verwenden . Wir trennen das Spaltenelement oder unterteilen diese Spalte in vier Spalten : ID, Jahr, Monat und Element. Also nicht das dritte Argument ist der Standort. Die ersten Buchstaben des Elefanten sind also die ID für die zweite Spalte. Was sind die nächsten vier Charaktere? Also bis zum 15. Zeichen für das Jahr und dann 16, 17 für den Monat. Und dann verhaften und legen Sie das L 21 go in das Spaltenelement nennen es erneut Element. Also lassen wir etwas Platz bei Strg-L-Aufwärtspfeil , um den vorherigen Befehl aufzurufen. Und jetzt verwenden wir eine neue Funktion aus dem Deep-Layer-Paket namens mutate. Mutation erstellt eine neue Spalte in unserem Datensatz. In diesem speziellen Fall erstellen wir nun eine neue Spalte anstelle dieses Spaltenelements. Und wir nennen dieses neue Spaltenelement. Es ist wie ein an Ort und Stelle in Python. Also sagen wir Element mutieren, der Name der neuen Spalte entspricht lower. Also schreiben wir jeden Wert dieser Spalte in Kleinbuchstaben. Und wir drücken die Eingabetaste. Und Sie können hier sehen, dass jeder Wert im Spaltenelement in Kleinbuchstaben geschrieben ist. Jetzt verwenden wir erneut mutate , um das Spaltendatum zu ändern. Also nochmal, mutieren, eine weitere Spalte erstellen, aber wir werden eine implizite an Ort und Stelle machen, wenn du willst, mutiere Tag, wir werden sie data same name nennen. Und das Ziel hier ist es, die Werte D1, D2, D3, D4 durch den entsprechenden Tag 1234 zu ersetzen , und wenn Sie den Datentyp auch der Spalte ändern , anstatt der Merkmale sehen Sie hier, wir wollen eine Ganzzahl. Wir werden eine Funktion aus dem String- oder Package CTR underscore sub verwenden , die verwendet wird, um Zeichenketten aus einem Zeichenvektor zu extrahieren und zu ersetzen . Also STR sub und was uns hier beschäftigt, ist der Kolumnentag. Die nächsten beiden Argumente sind nun der Anfang und das Ende der Zeichenfolge, die wir beibehalten möchten. Der Stern ist also zwei und das n ist minus eins. Dann wollen wir, wie gesagt, diese Spalte in eine Integer-Spalte umwandeln. Also fügen wir vor der STR-Zelle eine Ganzzahl hinzu und drücken dann die Eingabetaste. Wir können hier sehen, dass die Spalte Day ein Integer-Datentyp ist und wir haben die Werte D1, D2, D3 durch nur 1234 ersetzt . Jetzt verwenden wir Pivot Wider. Nun, wir haben bereits über das Spaltenelement mit TMax-Teaming und Niederschlag gesprochen über das Spaltenelement mit TMax-Teaming , die eigentlich Variablen sind, also sollten sie Spalten sein. Dazu verwenden wir also die Funktion Pivot wider, um diese Spalte zu nehmen und drei Spalten aus den Werten des Spaltenelements zu erstellen . Die drei neuen Spalten werden also T max, T min und Niederschlag PR, CP lauten. Und die entsprechenden Werte werden der Spalte Temp entnommen. Drücken Sie also l, um etwas Platz nach oben zu schaffen, um den vorherigen Befehl aufzurufen. Also hier verwenden wir Pivot Wider. Nehmen Sie also die unterschiedlichen Werte des Spaltenelements und erstellen Sie Spalten zu neuen Variablen. Dann stammen die entsprechenden Werte aus der Spalte temp. Wir drücken die Eingabetaste. Und wir können hier drei neue Spalten sehen, TMax, demean und PRPP. Dieser Datensatz hat also ein aufgeräumtes Format, in dem jede Spalte eine Variable ist, jede Zeile eine Beobachtung und jede Zelle ein einzelner Wert ist. Jetzt möchten Sie vielleicht die Spalten neu anordnen oder die ID-Spalte lesen. Was Sie jetzt tun, ist einfach die gewünschte Spalte in der gewünschten Reihenfolge auszuwählen. Wählen Sie hier aus und suchen Sie dann nach der Abholung. Und wir werden sagen, ich will zuerst das Jahr und dann den Monat und den Tag. Und dann Teammitglieder, TMax, NPR, CP. Hier haben wir also das Aufräumen dieses Datensatzes abgeschlossen , in dem Variablen sowohl in Spalten als auch in Zeilen gespeichert sind. 5. Umgang mit fehlenden Werten: In diesem Video geht es um fehlende Daten. In unseren fehlenden Werten werden fehlende Daten also durch das Symbol N dargestellt, was bedeutet, dass sie nicht verfügbar sind. Nun, es gibt einen Unterschied zwischen einem A und einem NaN. Du wirst es manchmal sehen. Und NAM bedeutet keine Zahl. Das sind also unmögliche Werte, z. B. können sie nicht durch Null geteilt werden. Und Sie werden fehlende Werte in Ihrem Datensatz haben , das ist unvermeidlich. Also hier in diesem Video werden wir vier Dinge tun. Zuerst testen wir mit der Funktion is a auf fehlende Werte. Dann werden wir Werte in fehlende Daten umcodieren. In unserem Beispiel werden wir also sagen, dass alle Werte, also 99, durch NA ersetzt werden. Dann verwenden wir die Funktion drop NA vom Lieferanten. Und dann ersetzen wir all diese ns durch den Median, durch die Funktion replace a und f aus dem Tidyverse. Und dafür werden wir hier den Datensatz Verletzungen verwenden, wie Sie hier links in einer Spaltenschätzung sehen können Sie sehen zwei NAs auf der rechten Seite oder in der Konsole. In der Spalte Schätzung sehen Sie hier einen NA in Rot. Das bedeutet, dass es keine Werte gibt. Die erste Funktion, die wir verwenden werden, ist also, ist Delta N eine Funktion? Und diese Funktion gibt für jeden Wert in einem Datensatz den Wert wahr und falsch zurück . Wenn der Wert also NA ist, die Funktion den Wert True zurück. Andernfalls wird der Wert false zurückgegeben. In diesem speziellen Fall möchte ich sehen, ob die Spaltenschätzung so viele Werte hat. Um auf eine bestimmte Spalte im Datensatz in R zuzugreifen, verwenden wir das Dollarzeichen, also Verletzungen, Dollarzeichen schätzen, drücken wir die Eingabetaste. Wir können also hier sehen, dass wir ein paar wahre Werte haben. Ein paar NA-Werte in Verbindung mit der Funktion sind also N-A. Lassen Sie uns die Funktion any verwenden, um zu sehen, ob die Spaltenschätzung Nullwerte enthält. Dies ist also eine weitere Möglichkeit, schnell zu suchen ob es in einer bestimmten Spalte Nullwerte gibt. Nun möchten Sie wissen, wie viele Nullwerte in diesen Spaltenschätzungen enthalten sind. Also werde ich die Anzahl der inneren Werte summieren oder zählen. Und wir können sehen, dass es hier 11 gibt. Es ist nicht ungewöhnlich, einen Datensatz zu finden , in dem alle Werte, z. B. unbekannt oder eine bestimmte Zahl wie 999, beliebige Werte oder Nullwerte darstellen. In dieser speziellen Spaltenschätzung haben wir also keine bestimmte Zahl oder ein bestimmtes Zeichen, das NA-Werte darstellt. Also stellen wir uns vor , dass wir einen Haufen von 58, 30 wie hier haben , die für beliebige Werte stehen. Was tun Sie also , wenn Sie diese Zahl durch N A-Werte ersetzen möchten ? Also nehmen wir die Verletzungen unseres Datensatzes und dann werden wir an Ort und Stelle mutieren. Und wir werden sagen, dass Schätzung ist gleich die Spalte Schätzung ersetzt. Und in der Wirtschaftsschätzung, wenn Schätzung a 58, 30 entspricht. Benutze einfach NA oder ersetze es durch NA. Sie drücken die Eingabetaste und sehen, dass in der Spalte Schätzung 58, 30 waren . Jetzt gibt es NA. Also wurden alle Werte von 58 30 in der Spalte Schätzung durch ein a ersetzt. Lassen Sie uns nun eine Funktion verwenden, um fehlende Werte zu löschen. Wir verwenden die Funktion drop NA from the tidy und löscht alle Zeilen, die fehlende Werte enthalten. Wenn Sie sich also erinnern, dass es 11 und ihre Werte in einer Spalte Schätzung und Jahr gab , wenn Sie sich die Metadaten des Datensatzes Verletzungen ansehen, können Sie sehen, dass es sich um eine Tabelle mit 231 Zeilen handelt. Wenn wir also die Zeilen löschen, die fehlende Werte enthalten, werden wir am Ende 220 Zeilen haben. Also dafür ist es sehr einfach. Wir nehmen einfach die Verletzungen unseres Datensatzes und lassen dann die NAs fallen oder drücken die Eingabetaste. Und wir können in den Metadaten sehen, dass es sich immer noch um eine Tabelle handelt, natürlich Datensatz, aber jetzt ist es eine Tabelle 220 Rosen und natürlich vier Spalten. In unserem letzten Beispiel verwenden wir also eine Funktion namens replace ANA aus dem tidyr-Paket. Und wir werden die NAs durch den Mittelwert ersetzen, oder Sie können ihn auch durch den Median ersetzen. Also werden wir zuerst den Mittelwert berechnen. Also Mittelwert des Dollarzeichens für die Rosettenverletzungen um auf die Spalte zuzugreifen, die Schätzung der Spalte hier. Und wir können hier vergessen, dass wir die NA entfernen müssen bevor wir einen Mittelwert oder einen Durchschnittswert ermitteln, wir müssen die NAs entfernen. Und was wir hier tun werden, ist einer Variablen namens Mittelwert den Mittelwert zuzuweisen . Wie Sie hier im globalen Umfeld sehen können. Und unser Objekt wurde geschaffen und heißt Mean. Jetzt werden wir dieses Mittel verwenden, um alle DNAs durch den Mittelwert zu ersetzen. Also nehmen wir die Verletzungen und dann mutieren wir an Ort und Stelle Schätzung entspricht dem Ersetzen der Spaltenschätzung. Und wir ersetzen die NAs durch einen Mittelwert. Wir drücken die Eingabetaste und wir können hier sehen, dass das NA durch einen Mittelwert ersetzt wurde. Das war's für dieses Video zum Umgang mit fehlenden Daten NR 6. Teilen und kombinieren: In diesem Video geht es darum, wie man Zellen und Spalten in R teilt und kombiniert Wir haben also bereits das Verb trennen vom Tidyverse verwendet , um zwei Spalten zu trennen oder zwei Spalten zu teilen. Was wir tun werden, ist, zuerst zwei Spalten zu kombinieren. Und dafür verwenden wir das Verb oder die Funktion unite. Ich habe hier eine Excel-Datei hochgeladen. Sie können die Noten der Schüler mit dem Punkt XLS sehen, der die Noten von etwa 100 Schülern in Mathematik und Physik enthält . Also habe ich den Datensatz, den ich SD genannt habe , hochgeladen und auch importiert. Sie können hier sehen, dass es 100 Beobachtungen oder 100 Schüler und drei Variablen gibt. Die Idee des Schülers, der Nachname und der Vorname. Wenn ich nun das R-Objekt S T eintippe, können wir hier sehen, dass in der Spalte Nachname und Vorname hinter jedem Namen ein Leerzeichen steht. Jetzt müssen Sie, abhängig vom Format der resultierenden Spalte, alle Namen hier kürzen. Also entferne das Leerzeichen. Und anstatt den STR-Trim vom Tiger für den Nachnamen und dann für die Spalte FirstName zu verwenden, verwenden wir eine Funktion namens across. Und was wir sagen werden , ich möchte alle Namen in diesen beiden Spalten kürzen. Also werden wir hier in diesen beiden Spalten an Ort und Stelle mutieren . Also der Datensatz S, t, und dann werde ich ihn an Ort und Stelle über zwei Spalten stummschalten und dann die gewünschten Spalten sammeln. Also Nachname und Vorname. Dann ist die Funktion, die wir anwenden wollen , STR trim. Wir können also sehen, dass wir uns erfolgreich im Kolonnenfahren erzogen haben . Jetzt kombinieren wir diese beiden Spalten mit einem Trennzeichen. Jetzt verwenden wir die Funktion unite, die diese beiden Spalten kombiniert. Wir nennen diese neue Spalte Namen und dann die Spalten, die wir kombinieren möchten. Siehe also Nachname, Vorname, das Trennzeichen, das Komma. Und dann sagen wir, ich möchte die Spalte Nachname und Vorname nicht entfernen. Hier haben wir also erfolgreich Vor- und Nachnamen zu einem brandneuen Spaltennamen kombiniert . Und natürlich können wir die Funktionen separat verwenden, wodurch der Spaltenname nach einem Trennzeichen aufgeteilt wird. Also bring den vorherigen Befehl und ich füge separate hinzu, trenne den Spaltennamen in zwei Spalten. Zuletzt, zuerst. Sag jetzt Entferne den Spaltennamen nicht. In diesem Video haben wir also mehrere Funktionen verwendet in verschiedenen Spalten an Ort und Stelle mutieren. Wir haben einige Spalten gekürzt und wir haben vereinte oder kombinierte Spalten, getrennte oder geteilte Spalten. Im nächsten Video werden wir die verschiedenen Joints verwenden , die im dplyr-Paket verfügbar sind . 7. Daten aus verschiedenen Tabellen zusammenfügen: In diesem letzten Video dieses Abschnitts, Daten in R transformiert werden, werden wir uns die verschiedenen Verbindungen ansehen, die verfügbar sind, sind die verschiedenen Verbindungen Teil des Lieferantenpakets. Innerhalb des Tidyverse. Hier links hast du alle Funktionen, hier siehst du Inner Join, Left, Join, Right Join, Full Join usw. Jetzt auf der rechten Seite wollte ich ein Diagramm zeigen, was das für den inneren Join bedeutet. Wenn Sie Tabelle A und Tabelle B verbinden, findet die innere Verknüpfung die gemeinsamen Elemente. Nun, die linke Verknüpfung von a und B, das Ergebnis zeigt alle Zeilen des Doppelpunkts a, auch wenn es keine Gemeinsamkeiten mit Tabelle be gibt. Rechtsverknüpfung ist das gegenteilige Ergebnis einer Rechtsverknüpfung von Tabelle A und Tabelle B listet alles aus Tabelle B auf, auch wenn es in Tabelle a keinen entsprechenden Wert gibt. Und das Ergebnis einer vollständigen Verknüpfung wird alles aus Tabelle A und Tabelle B auflisten Also habe ich hier eine weitere Excel-Datei hochgeladen, auch die Noten der Schüler, und wir werden sie importieren. Jetzt. Ich gehe zu Import und dann zu Excel-Datei. Dann klicke ich auf Durchsuchen und wähle meine Datei aus. Klicken Sie nun auf Öffnen. Wenn Sie hier auf den Pfeil klicken, können Sie sehen, dass es zwei verschiedene Blätter gibt. Eine für die Ausweise und Namen der Schüler und eine für die Noten. Also werden wir den Importer zweimal verwenden, einen für Ausweise und einen für die Noten. Hier können wir links sehen , dass unsere Objekte erstellt wurden. Id mit 26 Beobachtungen besteht aus drei Variablen in Noten mit 48 Beobachtungen und vier Variablen. Schauen wir uns hier den ID-Datensatz an. Wir können sehen, dass die Studentenausweise mit 100.300 beginnen , hier mit dem Nachnamen und dem Vornamen. Und wenn wir gute Noten haben, können wir die Noten der 100 Schüler und der 200 Schüler sehen . Für 300 Schüler gibt es keine Noten. Die Gemeinsamkeit hier ist also, dass wir Ausweise und Namen und Kursnoten der 100 Schüler haben. Der innere Join wird also nur den 100 Schülern zu sehen sein. Lassen Sie uns also herausfinden, ob das stimmt, aber indem wir den inneren Join aus der dplyr-Paket-ID verwenden. Dann wird die interne Verknüpfung oder das Zusammenfügen mit dem Datensatz anhand der gemeinsamen Spalte bewertet, bei der die Studenten-ID handelt. Hier können wir sehen, dass nur die 100er angezeigt werden. wir einfach einen Befehl ein, um diesen Datensatz auf dem linken Aufwärtspfeil anzuzeigen , um den vorherigen Befehl aufzurufen. Und dann fügen wir die Ansicht hinzu, und dann können wir das Ergebnis auf der linken Seite sehen. Es werden nur die 100 Schüler angezeigt, da dies die gemeinsamen Elemente zwischen den beiden Datensätzen sind. Lassen Sie uns nun eine Linksverknüpfung zwischen ID und Noten machen. Und wie Sie hier links sehen können, die 100.300 Studierenden aus dem IID-Datensatz hier angezeigt, Tabelle B, in diesem Fall die Datensatznoten, die für die Kurse für 300 Studierende keinen Wert haben . Sie haben also NA an Ort und Stelle. Lassen Sie uns jetzt rechts beitreten. Wir haben das Gegenteil. Wir haben alle Schülerausweise aus Tabelle B. Also aus den Noten, die ich hier festgelegt habe, und für die Werte, die im Datensatz nicht existieren , solange wir NAs oder Nullwerte haben. Lassen Sie uns jetzt den vollständigen Join machen. Und wie gesagt, eine vollständige Verknüpfung zeigt und zeigt alle Werte aus beiden Datensätzen an und zeigt Nullwerte oder N A-Werte an, wenn in einem der Datensätze kein entsprechender Wert vorhanden ist . Dieses Video schließt diesen Abschnitt ab, indem wir diesen INR transformieren . Wir haben uns hier viele Funktionen des Lieferanten angesehen, das ordentliche R N eine Zeichenfolge oder ein Paket. Und damit ist auch der Videokurs Erste Schritte mit RStudio“ abgeschlossen. Ich hoffe es hat euch gefallen, dass ihr viel über RStudio und den Tidy Verse, den DVD-Player, Tidy our string, unser Paket gelernt habt über RStudio und den Tidy Verse, den DVD-Player, . Nun die Funktionen , die verfügbar sind, um Daten in saubere Datensätze in R umzuwandeln 8. Übung 1: Willkommen zur ersten Übungsaufgabe für den Abschnitt Transformieren von Daten in R. In dieser Übungsaktivität werden Sie also das Importprogramm verwenden, um alle Blätter in der Excel-Datei Verletzungen zu importieren. Sie finden den Datensatz der Excel-Datei für Verletzungen im Abschnitt Ressourcen Ihres Kurses. Jetzt sollte der Name des Datenrahmens Verletzungsdatensatz lauten. Wählen Sie dann nur Fälle aus, in denen Verletzung gleich Körperverletzung ist, und wählen Sie nur die Spalten Verletzung und Schätzung aus. Jetzt können Sie das Video anhalten und die Übung auf Ihrem RStudio Cloud-Konto oder RStudio Desktop durchführen. Und du kannst für die Antwort hierher zurückkommen. Verwenden Sie nun zunächst das Wichtige, um alle Verletzungsblätter zu importieren , um auf Datensatz importieren zu klicken. Es gibt nur ein Blatt, einen Datensatz, der dem Verletzungsdatensatz mit 231 Beobachtungen und vier Variablen entspricht . Jetzt müssen Sie natürlich das Tidyverse- oder das dplyr-Paket laden . Dann können Sie den R-Befehl sehen. Sie nehmen den Datensatz Verletzung, den ich festgelegt habe, den Rohrbetreiber, und dann filtern Sie , dass Verletzung gleich Körperverletzung ist. In R gibt es also ein Gleichheitszeichen, das in den meisten Fällen als Ersatz für den Zuweisungsoperator verwendet wird . Aber das wollen wir nicht. Wir wollen hier doppelte Gleichheit, was immer für Gleichheitstests verwendet wird. Hier, Verletzung. Wir wollen, dass er auf Augenhöhe angreift als der Rohrbetreiber. Und wir wählen die Spalte Verletzung und die Spalte Schätzung aus. 9. Übung 2: Willkommen zur zweiten Übungsaufgabe des Abschnitts, der Transformation von Daten mit RStudio. Für diese Übungsaufgabe verwenden Sie den Importer, um alle Notenblätter der Schüler mit Punkt XLS zu importieren , die sich im Ressourcenbereich des Kurses befinden. Es gibt zwei Blätter, also wird es zwei Datensätze geben. Die Namen der Datenrahmen sind, die Datensätze sollten Schüler in den jeweiligen Klassen für jedes Arbeitsblatt sein . Ich möchte, dass Sie die beiden Datenrahmen anhand der Schüler-ID, der gemeinsamen Spalte, verbinden und auf der Liste die Noten für Lachs auswählen . Auch hier pausieren Sie das Video, machen die Übung und dann können Sie zurückkommen, um die Antwort zu erhalten. Hier links können Sie also sehen ich den Importer verwende, um die Datensatznoten mit 204 Beobachtungen und vier Variablen zu importieren die Datensatznoten mit . Und die Datensatzschüler würden die Schüler mit dem Datenrahmen mit 100 Beobachtungen und drei Variablen versehen. Wenn ich mir jetzt einen Datensatz eines Studenten ansehe, kann ich sehen, dass die Studentennummer für Semi Newman 75 ist. Ich weiß also, dass ich diesen Rahmen nach der Studentennummer 75 filtern werde . Aber zuerst muss ich beide Datensätze verbinden. Ich werde beide Datensätze mit einer gemeinsamen Spalte verbinden, nämlich der Studenten-ID. Wenn Sie nun die Studenten-ID nicht erwähnen, wie hier beim Befehl arc, prüft die Funktion inner join automatisch, ob es eine gemeinsame Spalte gibt. Wenn es eine gemeinsame Spalte gibt, wird sie die Spalte verwenden. In diesem Fall ist es also der Studentenausweis. Also es braucht Schüler und dann Operator, ich gehe innerlich zu den Schülern mit Noten, wie gesagt, in einem Joint hat eine gemeinsame Spalte Studentenausweis gefunden. Und dann filtere ich nach der Studenten-ID ist gleich, gleich, um die Gleichheit erneut auf 75 zu testen, was der Studenten-ID von Semi Newman entspricht. 10. Abschließende Bemerkungen und nächste Schritte: Dies ist also das Ende des dritten Teils dieser Serie, Erste Schritte mit RStudio In diesem speziellen Videokurs ging es um das Bereinigen und Umwandeln Daten in RStudio, falls Sie die beiden vorherigen Videokurse verpasst haben. Die erste ist auf RStudio Cloud und wie Sie es einrichten und alle Optionen verwenden um Ihr Cloud-Konto zu konfigurieren. Und Teil zwei war , wie man alle Arten von Daten in RStudio importiert. Sie können unter diesem Video nachschauen und Links zu diesen vorherigen Videokursen über die ersten Schritte mit RStudio finden Links zu diesen vorherigen Videokursen . Und ich hoffe, Ihnen haben der Kurs und seine Reihe über die ersten Schritte mit R Studio gefallen . Vielen Dank.