Transkripte
1. Einführung: Willkommen zum dritten Teil
dieser Serie über die
ersten Schritte mit RStudio. Im ersten
Teil dieser Serie ging es also um RStudio Cloud und darum, wie Sie verschiedene Optionen verwenden
können, um Ihr Cloud-Konto zu konfigurieren. Im zweiten Teil drehte
sich alles um Umfragedaten. Und hier geht es darum,
wie man Daten bereinigt und in RStudio
transformiert. Wie Sie hier sehen können, gibt es acht Lektionen. In der ersten Lektion, dem ersten Video, geht es darum, wie man
Gruppen von Beobachtungen auswählt. Wir werden uns also verschiedene Funktionen ansehen und
verschiedene
Ordnungsfunktionen
lernen, verschiedene
Ordnungsfunktionen
lernen insbesondere das
Deploy Your Package oder das Tidy Verse-Paket. Dann Video 2.3 oder zwei Teile, wirklich zwei Videos darüber, wie man chaotische Daten in saubere
Daten
umwandelt. Zunächst
werde ich definieren, was einen chaotischen Datensatz
ausmacht
und wie er gereinigt werden kann. Also zwei Videos, und um einen Datensatz
zu bereinigen, werden
Sie natürlich einen Datensatz
zu bereinigen, fehlende
Werte oder Nullwerte haben. Deshalb ist es wichtig zu wissen, wie man mit fehlenden Werten in R Das ist das Ziel
dieses Videos. Das nächste Video zeigt, wie man verschiedene Zellen teilt und kombiniert. Es verwendet also einige Funktionen um
Zeichenkettendaten zu teilen und zu kombinieren. Das Video hier zeigt,
wie Sie verschiedene Tische kombinieren ,
zusammenfügen oder zusammenstellen können. Es entspricht
also dem inneren Join, dem linken oder dem rechten oder dem
vollständigen äußeren Join in Sequel. Schließlich müssen Sie das Video üben,
um
Ihr Selbstvertrauen in die Bereinigung und Umwandlung von Daten in RStudio zu stärken. Natürlich können
Sie am Ende ein Projekt haben
und die Beschreibung
des Projekts finden Sie unter
diesem Video hier im Projektbereich. Deshalb schlage ich vor, dass wir
gleich loslegen
und lernen, wie man Daten in RStudio bereinigt und
transformiert.
2. Ausgewählte Gruppen von Beobachtungen: Willkommen im Abschnitt über das
Transformieren von Daten in R. In diesem Abschnitt
wird sich
also alles um die
Verwendung eines Pakets
namens Tidyverse drehen. Das Tidyverse ist eher eine
Sammlung von Paketen in R, all unseren Benutzern häufig
verwendet werden , um Daten zu analysieren
und auch Datenwissenschaft zu betreiben. Das spezielle Paket
, das wir in
diesem Video verwenden werden, heißt Player. Also bereiten wir zuerst
die Bühne für dieses Video vor. Wir werden
den Datensatz hochladen und Tidyverse installieren
und laden. Und dann werde ich
ein bisschen mehr der Funktionen erklären ,
die wir verwenden werden, um ein R
aus dem Paket dplyr zu verwenden. Zuerst laden wir
es hoch und
laden einen Datensatz in Ihre R-Sitzung, einen Datensatz namens Verletzungen. Verletzungen ist das, was ich sagte
, in der insgesamt
231 Patienten aufgeführt sind, die wegen
verschiedener Verletzungen in die Notaufnahme gegangen sind. Um den
Datensatz in unser Projekt hochzuladen, gehen
wir zu Datei und dann können
wir hochladen. Hier wählen wir das Dataset-Engineering aus
und klicken auf Okay. Und wir können sehen, dass Verletzungen unter
Files Project stehen. Jetzt können wir den
Datensatz in die R-Sitzung laden. Wir importieren den
Datensatz aus Excel. Die Importer-Schnittstelle wird gestartet. Und dann können wir unsere Datei auswählen. Wir können hier für
verschiedene Variablen in jeder Variablen, bei der es
sich um eine Charaktervariable handelt, sehen sich um eine Charaktervariable handelt, hier mehrere
Altersgruppen
gibt. Und dann der Typ, Autounfälle usw. Dies ist auch eine
Zeichenvariable und wir haben hier eine Schätzung. Sie können sehen, dass RStudio vermutet hat , dass es sich um eine
Zeichenvariable handelt, aber das ist nicht wirklich richtig. Warum steht das da? Der Grund, warum osteo vermutet hat, dass es sich um
eine Zeichenvariable handelt, ist, dass
wir in der
Excel-Datendatei zur Darstellung von Nullwerten die Zeichen haben. Und zur Zeit in Port versucht
Osteo zu erraten, dass der
Datentyp dieser Variablen, wie Sie sehen werden, aus einigen
Zeichen besteht und
denkt automatisch , dass die gesamte Variable eine Zeichenvariable
ist. Wir werden
den Datentyp auf numerisch ändern. Sie können hier also die Zeichen NaS oder
nicht und die Buchstaben a nicht mehr sehen , sondern sie stehen für
Nullwerte. Also klicken wir auf Import
und
installieren jetzt das tidyverse-Paket. Installiere Tidy Verse. Jetzt ist das Tidyverse installiert. Das Paket ist uns hier
wichtig, wird Deep Supplier genannt. gibt es viele
verschiedene Funktionen In diesem Deep-Layer-Paket gibt es viele
verschiedene Funktionen, aber wir sind an Funktionen hier
interessiert. Zuerst die Funktion Select
, mit der wir
Variablen oder Felder
oder Spalten des Datensatzes auswählen können . Dann
verwenden wir den
Funktionsfilter , mit dem wir Zeilen basierend
auf bestimmten Bedingungen abrufen können . Bei der dritten Funktion werden
wir
diese Funktionsgruppe verwenden , mit wir
den Datensatz anhand
einer bestimmten Variablen gruppieren
können . Dann verwenden wir
die Funktion Zusammenfassen, um die Schätzung zusammenzufassen
oder eine Gesamtschätzung
der Daten
anhand einiger Gruppen vorzunehmen. Also zuerst die Funktion auswählen, ich zeige Ihnen zwei
Möglichkeiten, diese Funktion zu verwenden. Zuerst werden wir
die Funktion so zusammenstellen , wie sie
normalerweise geschrieben ist. Und dann verwenden wir
den sogenannten Pipe-Operator. Nun, der Sinn der
Pipe-Operatoren ist, Ihnen zu helfen,
Code so zu schreiben , dass er einfacher
zu lesen und zu verstehen ist. Es ist eine Möglichkeit,
verschiedene Aktionen zu verketten. Ich würde sagen, in unserem
Pipe-Operator schreiben Sie, Prozentsatz größer
als Prozentsatz. So schreibt man es. Dieser Pipe Operator stammt
aus dem Maghreb-Paket. Aber wenn Sie laden, lädt
das Tidyverse automatisch diesen
Pipe-Operator, wir werden ihn jetzt verwenden. Zuerst werde ich Ihnen
zeigen, wie Sie
die Funktion so verwenden , wie sie geschrieben ist. Also select, das erste Argument der Select-Funktion
ist der Datensatz. Also Verletzungen. Und dann sind die zweite
Funktion die Spalten oder Felder oder die Variablen, die
wir hier einrichten wollen. Wählen wir das Alter aus. Um die Pfeife zuerst zu benutzen, beginnen
Sie mit dem Anfang. Ganz am Anfang
steht der Datensatz. Also Verletzungen. Und dann
fügen Sie einen Pipe-Operator ein. Sie können auch
mehrere Spalten auswählen. In diesem Fall verwenden
Sie natürlich den Pipe-Operator, wählen einen Agententyp aus, hier kommen als Sammlung von
Vektoren und nicht nur H, Sie möchten mehrere Spalten, also müssen wir sie
in einer Sammlung zusammenfassen. Sie können auch
die Indexspalte verwenden , um Ihre Variablen auszuwählen. Hier wähle ich Spalte
eins und Spalte drei aus, also Alter und Verletzung. Also
verwenden wir jetzt den Verbfilter. Und der Filter wird verwendet, um den Datensatz
anhand einer Bedingung zu
filtern. Also hier werden
wir ein Beispiel verwenden. Die Bedingung wird
sein, dass die Altersgruppe
zwischen 0 und 17 liegt , oder? Also nehmen wir
alle Patienten, für die
die Altersgruppe 0 bis 17 Jahre alt ist. Wir können auch
nach verschiedenen Bedingungen filtern. Nehmen wir an, wir möchten
hier nach der Altersgruppe von
0 bis 17 Jahren und auch nach der
Art der Krankenhausaufenthalte filtern . Ich werde hier
etwas Platz schaffen. Und dann
verwenden wir die dritte Funktion, Funktion group BY, hier
gruppieren wir nach Alter. Ich drücke die Eingabetaste. Sie werden sehen, dass
das Ergebnis zuerst eine Tabelle ist. Aber dann können Sie in
den Metadaten sehen , dass
es 11 Gruppen gibt. Wir können auch nach
verschiedenen Variablen gruppieren. Also hier
gruppiere ich zB zuerst nach Alter und dann nach Typ. Nun, es gibt 11
Altersgruppen und es gibt drei Typen. Wir leben also in Zeiten von
drei gleich 33 Gruppen. Auf der Grundlage dieser Gruppen werden
wir nun einige Berechnungen durchführen. Hier. Wir werden die Daten
zusammenfassen. Also nehmen wir Verletzungen
vom Typ Buying Agent und fassen sie dann zusammen
und sagen: Okay, ich möchte, dass diese Spalte insgesamt
heißt und Summe ist gleich. Also weisen wir zu, dass es einige
der Schätzungen zur Summe gibt und wir vergessen nicht, die
DNAs zu entfernen , bevor wir die Summierung durchführen. Das war's also für dieses Video. Im nächsten Video werden
wir uns weitere Funktionen aus
den
Paketen Deep Layer und Tidyverse ansehen , um Daten zu verbinden, Zellen zu kombinieren usw.
3. Transformiere messy in einen sauberen Datensatz Teil 1: In diesem Video geht es darum,
mit einigen Funktionen
aus dem Tidyverse chaotische Daten in
aufgeräumte Daten oder saubere Daten
umzuwandeln Daten in
aufgeräumte Daten oder saubere Daten . Also zuerst werden
wir den Workspace säubern und R
neu starten. Hier siehst
du also, dass es keine Variablen oder
Objekte mehr in der Umgebung gibt. Ich werde etwas Platz machen. Und jetzt sind wir bereit
, die Voraussetzungen zu schaffen. Zuerst sehen
wir uns Tiny versus Loaded an. Hier geben wir Tidyverse ein. Klicken Sie auf das Kontrollkästchen. Und jetzt ist der aufgeräumte
Vers geladen. Die beiden Pakete sind wichtig. Hier sind der Lieferant und die Ordnung. Lassen Sie uns also über chaotische
Daten im Vergleich zu aufgeräumten Daten sprechen. Was sind Macy-Daten? Hier gibt es drei Szenarien für chaotische Daten. Zuallererst sind die
Spaltenüberschriften Werte und keine Variablennamen. Schauen wir uns also den
Datensatz an, in dem
Deep-Layer-Paket namens Relic Income enthalten ist, Daten aus einer Umfrage zu
Religion und Einkommen. Sie können hier also sehen
, dass die Spaltennamen hier keine wirklichen
Variablen sind und dass sie Variablen sein
sollten. Die Spaltennamen hier sind
Werte von Einkommensgruppen. Dies wird also
als chaotische Daten angesehen. Das zweite Szenario hier sind mehrere Werte, die in einer Spalte
gespeichert sind. Also werde ich Ihnen
das mit einem Datensatz der
Weltgesundheitsorganisation namens
TB-Tuberkulose zeigen . Also werden
wir zuerst den
Datensatz hochladen und Sie wissen, wie das geht. Jetzt importieren Sie
Ihren Datensatz hier. Klicken Sie auf Durchsuchen, wählen Sie
den Datensatz T aus, okay? Und jetzt importieren Sie den Datensatz. Wenn ich also TB hier eingebe, können
Sie in der
dritten Spalte, G TRH, sehen, dass
wir mehrere Werte haben, die sowohl das Geschlecht als auch H,
M und F als weiblich
und die Altersgruppe
repräsentieren . Also müssen wir
diese beiden Variablen trennen. Das dritte Szenario hier für chaotische Daten, bei dem
wir es als chaotisch betrachten , d.
h. wenn Variablen sowohl Zeilen als auch Spalten
speichern. Also werde ich Ihnen
einen weiteren Datensatz der
Weather Association zeigen . Jetzt weißt du also, wie es läuft. Sie laden den Datensatz hoch,
wählen ihn aus und importieren ihn dann
in Ihre R-Sitzung. Das ist es, was ich gerade
mache. N1 und geben Sie das
neue ODER-Objekt ein, das
über die Importschnittstelle erstellt wurde. Ob ich
in der Elementspalte zwei Dinge sehen kann, wir haben mehrere Werte. Diese sind hier also in
verschiedene Variablen und auch
spaltenübergreifend zu trennen , die Spaltennamen
sind wirklich Tage. Sie wollen 31 sein. Und das sollte wirklich
eine Spalte mit dem Namen Datum sein. Lassen Sie uns nun
das ER verwenden und
Funktionen anwenden , um diesen Datensatz
aufzuräumen oder zu bereinigen. Und wieder ein winziger Datensatz. Was wir in R für einen aufgeräumten
Datensatz halten, sind drei Dinge. Jede Spalte ist eine Variable, jede Zeile ist eine Beobachtung. In jeder Zelle befindet sich ein einzelner Wert. Also verwenden
wir tidy, um
verschiedene Funktionen zu priorisieren , um
den Datensatz, der sich erfüllt, so
gut wie möglich zu bereinigen . Diese Definition besteht
aus drei Bedingungen. Okay, gehen wir zurück
zu unserem vorherigen Datensatz, dem ersten,
Religion und Einkommen. Also gab das Kommando hier
erste Ansicht, laufendes Einkommen aus. Und ich kann links
die RStudio-Ansicht
des Datensatzes sehen . Sie können hier deutlich sehen die Einkommenskategorien als Spalten
dargestellt werden, was wir nicht wollen. Und wir können
rechts auf der Konsole sehen,
dass ich den zweiten
Befehl gegeben habe, Relikteinnahmen. Also, was wir hier
tun werden, ist
eine Funktion aus dem
tidyr-Paket namens pivot longer zu verwenden . Nun, dieser Datensatz hat drei
Variablen, nämlich Religion, Einkommenskategorie und den Wert innerhalb jeder
Einkommenskategorie. Um diesen Datensatz zu bereinigen, werden
wir die
nicht variablen Spalten pivotieren. Also all diese
Einkommenskategorien in der
Spalte Einkommen gepaart
mit dem entsprechenden Wert. Daher wird diese Maßnahme
manchmal
als Erweiterung oder
Erweiterung dieses Vermögenswerts bezeichnet . Wir werden die
Funktion pivot longer verwenden, die die Daten verlängert
oder
vergrößert, die Anzahl der Zeilen erhöht, wie gesagt, und
die Anzahl der Spalten verringert. Das Gegenteil von
Pivot Longer ist
Pivot Wider und wir werden
es in der nächsten Übung verwenden. Also nehmen wir das tatsächliche Einkommen des
Datensatzes und dann den
Rohrbetreiber und wir sagen, Hey, ich nehme die Einnahmen aus der
Religion, die ich gesagt habe, und dann werde
ich länger schwenken. Was möchte ich ändern? Nun, ich wollte mich auf
die nicht variablen Spalten konzentrieren
, also auf alle Spalten
des Datensatzes außer Religion. Hier können wir also Minus
Religion verwenden oder wir können das Ausrufezeichen
verwenden, um nicht die Spalte Religion,
sondern auch die Argumentnamen zu
sagen . Wir werden
all diese Spalten in
einer neuen Spalte zusammenfassen , die
beispielsweise als Einkommenskategorie bezeichnet wird. Und dann die
entsprechenden Werte
im Argument, Werte zwei. Und wir nennen
es Frack oder Frequenz. Wenn Sie die Eingabetaste drücken, können
Sie hier sehen, dass alle Spaltennamen in einer Spalte zusammengefasst wurden
, einer Variablen namens
Einkommenskategorie, und der entsprechende
Wert in einer
anderen Variablen
namens Häufigkeit enthalten ist . Um die zweite
Situation eines chaotischen Datensatzes zu veranschaulichen, bei dem es sich um mehrere Variablen handelt, die in einer Spalte
gespeichert sind. Wir werden den
Datensatz tuberculosis verwenden und die Funktion
separate
verwenden, um eine Variable in
mehrere Variablen zu unterteilen,
entweder mit regulären Ausdrücken
oder numerischen Stellen. Hier verwenden wir
numerische Orte. Gehen
wir also zurück zu RStudio und sehen die Tuberkulose an,
die hier links abgebildet sind. Und beim zweiten Befehl werden
wir uns einfach ansehen, der
in der Konsole festgelegt ist. Wir können sehen, dass die dritte
Spalte, GDR H, wirklich aus
zwei Variablen besteht ,
einer
Geschlechtsvariablen, einem Zeichen N oder F und dann einer
Altersgruppe Null bis 14, 15 bis 24, 25 bis 34 usw.
Wir werden eine
separate Funktion verwenden, um
diese Spalte in zwei
verschiedene Spalten zu unterteilen, Geschlecht und Altersgruppe TB und dann den Pipe-Operator. Und dann rufen wir die
Funktion separate auf in
welcher Spalte sich die Spalte G, D RH befindet, und wir trennen
diese Spalten GDR 8022. Also C für Sammlung und
dann zwei Spalten, Geschlecht und Altersgruppe. Und wir sagen, ich möchte
das erste Zeichen der ersten Spalte beibehalten das erste Zeichen der ersten , indem ich
die Eingabetaste drücken
würde. Und wir haben
die DDR-H-Kolonne
erfolgreich
in zwei Spalten unterteilt , Geschlecht und Altersgruppe. Im dritten Video zeige ich
Ihnen, was in unserer dritten Situation eines unordentlichen
Datensatzes zu tun ist,
wenn Variablen sowohl in Zeilen als auch in Spalten
gespeichert werden .
4. Transformiere messy in einen sauberen Datensatz Teil 2: Willkommen zum zweiten Teil dieses Videos in unserer
dritten Situation
eines chaotischen Datensatzes,
wenn Variablen sowohl in Zeilen als auch in Spalten
gespeichert werden . Und in einem früheren Video haben wir uns mit längeren Pivot-Funktionen
und einzelnen Funktionen befasst. Jetzt schauen wir uns alle Funktionen
an. Die Funktion mutiert
vom Lieferanten, dann Pivot weiter
vom Titel ER, und dann eine Funktion, die
sich mit Zeichenketten,
STR-Sub aus der
Zeichenfolge oder einem Paket befasst . Auch hier
befinden sich all diese Funktionen im Tidyverse. Wenn wir uns also die erste
Spalte, das Spaltenelement,
ansehen , können
wir sehen, dass es in dieser
bestimmten Spalte mehrere Werte und
sogar Variablen
gibt . Wir müssen diese Spalte also in mehrere Spalten aufteilen, wobei die ersten
Elementzeichen die ID sind.
Die anderen vier Zeichen
stehen für das Jahr, die nächsten beiden Zeichen für den Monat und die nächsten vier
Zeichen sind tatsächlich variable T max Teaming und PRC
P für Höchsttemperatur, Mindesttemperatur
und Niederschlag. Aber zuerst verwenden wir
Pivot Longer erneut, um alle
Tage in einer Variablen zusammenzufassen, nämlich
Tag und alle Werte in
einer neuen Spalte namens temp. Also ob
Datensatz, Pipe-Operator,
dann Strg+Enter drücken,
um den Cursor auf
die nächste Zeile zu setzen , ohne RStudio anzuweisen, den Befehl auszuwerten. Also stellen wir
alles außer den Elementnamen auf den Calling Day um. Wir fassen all
diese Spalten zu einer Spalte zusammen, die Tag heißt. Und dann die zugehörigen
Werte in die Spalte feucht. Sie können hier das
Ergebnis sehen, wenn Sie als Moderator tätig sind. Und das wurde bereits
im Spaltenelement gesagt: Es gibt
verschiedene Variablen und verschiedene Werte, die
wir trennen müssen. Also werden wir
diese separate Funktion
aus dem tidyr-Paket verwenden . Wir trennen
das Spaltenelement oder unterteilen diese Spalte
in vier Spalten
: ID, Jahr, Monat und Element. Also nicht das dritte Argument
ist der Standort. Die ersten Buchstaben des Elefanten
sind also die ID für die
zweite Spalte. Was sind die nächsten vier Charaktere? Also bis zum 15.
Zeichen für das Jahr und dann 16, 17 für den Monat. Und dann verhaften und legen Sie das L 21 go in das Spaltenelement nennen es erneut Element. Also lassen wir etwas
Platz bei Strg-L-Aufwärtspfeil , um den
vorherigen Befehl aufzurufen. Und jetzt verwenden wir eine neue Funktion aus dem
Deep-Layer-Paket namens mutate. Mutation erstellt eine neue
Spalte in unserem Datensatz. In diesem speziellen Fall erstellen
wir nun eine neue Spalte anstelle dieses Spaltenelements. Und wir nennen dieses
neue Spaltenelement. Es ist wie ein an Ort und Stelle in Python. Also sagen wir Element mutieren, der Name der neuen
Spalte entspricht lower. Also schreiben wir
jeden Wert dieser Spalte in Kleinbuchstaben. Und wir drücken die Eingabetaste. Und Sie können hier sehen, dass jeder Wert im Spaltenelement in Kleinbuchstaben geschrieben
ist. Jetzt verwenden wir
erneut mutate , um das Spaltendatum zu ändern. Also nochmal, mutieren, eine weitere Spalte
erstellen, aber wir werden eine
implizite an Ort und Stelle machen, wenn du willst,
mutiere Tag, wir werden sie data same name
nennen. Und das Ziel hier ist es, die Werte D1, D2, D3,
D4 durch den entsprechenden
Tag 1234 zu
ersetzen , und wenn Sie den Datentyp auch
der Spalte ändern , anstatt der
Merkmale sehen Sie hier, wir wollen eine Ganzzahl. Wir werden eine
Funktion aus dem String- oder
Package CTR underscore sub verwenden ,
die verwendet wird, um
Zeichenketten aus einem Zeichenvektor zu
extrahieren und zu ersetzen . Also STR sub und was
uns hier beschäftigt, ist der Kolumnentag. Die nächsten beiden Argumente
sind nun der Anfang und das Ende der Zeichenfolge, die
wir beibehalten möchten. Der Stern ist also zwei und
das n ist minus eins. Dann wollen
wir, wie gesagt, diese Spalte
in eine Integer-Spalte umwandeln. Also fügen wir
vor der STR-Zelle eine Ganzzahl hinzu und drücken dann die Eingabetaste. Wir können hier sehen, dass
die Spalte Day
ein Integer-Datentyp ist und wir
haben die Werte
D1, D2, D3 durch nur 1234 ersetzt . Jetzt
verwenden wir Pivot Wider. Nun, wir haben bereits
über das
Spaltenelement mit
TMax-Teaming und Niederschlag gesprochen über das
Spaltenelement mit
TMax-Teaming ,
die eigentlich Variablen sind, also sollten sie Spalten sein. Dazu verwenden wir also
die Funktion Pivot wider, um
diese Spalte zu nehmen und
drei Spalten aus den
Werten des Spaltenelements zu erstellen . Die drei neuen Spalten
werden also T max,
T min und Niederschlag PR, CP lauten. Und die entsprechenden
Werte
werden der Spalte Temp entnommen. Drücken Sie also l, um etwas Platz nach oben zu schaffen, um den vorherigen Befehl
aufzurufen. Also hier
verwenden wir Pivot Wider. Nehmen Sie also die unterschiedlichen Werte
des Spaltenelements und erstellen Sie Spalten zu
neuen Variablen. Dann stammen die entsprechenden
Werte aus der Spalte temp. Wir drücken die Eingabetaste. Und wir können hier
drei neue Spalten sehen, TMax, demean und PRPP. Dieser Datensatz hat also
ein aufgeräumtes Format, in dem jede
Spalte eine Variable ist, jede Zeile eine Beobachtung und jede Zelle
ein einzelner Wert ist. Jetzt möchten Sie vielleicht die Spalten
neu anordnen oder
die ID-Spalte lesen. Was Sie jetzt tun, ist einfach die gewünschte Spalte
in der gewünschten Reihenfolge
auszuwählen. Wählen Sie hier aus und suchen
Sie dann nach der Abholung. Und wir werden
sagen, ich will zuerst das Jahr und dann den
Monat und den Tag. Und dann Teammitglieder,
TMax, NPR, CP. Hier haben wir also das Aufräumen
dieses Datensatzes abgeschlossen , in dem Variablen sowohl
in Spalten als auch in Zeilen gespeichert sind.
5. Umgang mit fehlenden Werten: In diesem Video geht es um
fehlende Daten. In unseren fehlenden
Werten werden fehlende
Daten also durch das Symbol N dargestellt,
was bedeutet, dass sie nicht verfügbar sind. Nun, es gibt einen Unterschied
zwischen einem A und einem NaN. Du wirst es manchmal sehen. Und NAM bedeutet keine Zahl. Das sind also unmögliche
Werte, z. B. können
sie nicht durch Null geteilt werden. Und Sie werden fehlende Werte in
Ihrem Datensatz
haben , das ist unvermeidlich. Also hier in diesem Video
werden wir vier Dinge tun. Zuerst testen wir
mit der Funktion is a auf fehlende Werte. Dann werden wir
Werte in fehlende Daten umcodieren. In unserem Beispiel
werden wir also sagen,
dass alle Werte, also 99, durch NA ersetzt werden. Dann verwenden wir
die Funktion drop NA
vom Lieferanten. Und dann ersetzen wir all diese ns durch den Median, durch die
Funktion replace a und f aus dem Tidyverse. Und dafür werden
wir hier den Datensatz Verletzungen
verwenden, wie Sie
hier links in einer Spaltenschätzung sehen können Sie sehen zwei NAs auf der
rechten Seite oder in der Konsole. In der Spalte Schätzung sehen
Sie hier einen NA in Rot. Das bedeutet, dass es keine Werte gibt. Die erste Funktion, die
wir verwenden werden, ist also, ist Delta N eine Funktion? Und diese Funktion
gibt für jeden Wert in einem Datensatz den
Wert
wahr und falsch zurück . Wenn der Wert also NA ist, die Funktion
den Wert True zurück. Andernfalls wird
der Wert false zurückgegeben. In diesem speziellen Fall möchte
ich sehen, ob die
Spaltenschätzung so viele Werte hat. Um auf eine bestimmte
Spalte im Datensatz in R zuzugreifen, verwenden
wir das Dollarzeichen,
also Verletzungen, Dollarzeichen
schätzen, drücken wir die Eingabetaste. Wir können also hier sehen,
dass wir ein paar wahre Werte haben. Ein paar NA-Werte
in Verbindung mit
der Funktion sind also N-A. Lassen Sie uns die Funktion
any verwenden, um zu sehen, ob die Spaltenschätzung Nullwerte enthält. Dies ist also eine weitere
Möglichkeit, schnell zu suchen ob es
in einer bestimmten Spalte Nullwerte gibt. Nun möchten Sie wissen,
wie viele Nullwerte in diesen Spaltenschätzungen enthalten sind. Also werde ich die Anzahl
der inneren Werte summieren oder zählen. Und wir können sehen, dass es hier 11 gibt. Es ist nicht ungewöhnlich,
einen Datensatz zu finden , in dem alle Werte, z. B. unbekannt oder eine
bestimmte Zahl wie 999, beliebige Werte
oder Nullwerte
darstellen. In dieser speziellen
Spaltenschätzung haben
wir also keine
bestimmte Zahl oder ein bestimmtes Zeichen, das NA-Werte
darstellt. Also stellen wir uns vor , dass wir einen Haufen von 58,
30 wie hier haben , die
für beliebige Werte stehen. Was tun Sie also
, wenn Sie diese Zahl
durch N A-Werte
ersetzen möchten ? Also nehmen wir die Verletzungen unseres Datensatzes und dann werden wir
an Ort und Stelle mutieren. Und wir werden
sagen, dass Schätzung ist gleich die Spalte Schätzung
ersetzt. Und in der Wirtschaftsschätzung, wenn Schätzung a 58, 30 entspricht. Benutze einfach NA oder ersetze es durch NA. Sie drücken die Eingabetaste und
sehen, dass in der Spalte Schätzung
58,
30 waren . Jetzt gibt es NA. Also
wurden alle Werte von 58 30 in der Spalte Schätzung durch ein a ersetzt. Lassen Sie uns
nun eine Funktion verwenden,
um fehlende Werte zu löschen. Wir verwenden die
Funktion drop NA from the tidy und löscht alle Zeilen, die fehlende Werte
enthalten. Wenn Sie sich also erinnern, dass es 11 und
ihre Werte in einer Spalte
Schätzung und Jahr gab , wenn Sie sich die Metadaten
des Datensatzes Verletzungen ansehen, können
Sie sehen, dass es sich um
eine Tabelle mit 231 Zeilen handelt. Wenn wir also die Zeilen löschen, die fehlende Werte
enthalten, werden
wir am
Ende 220 Zeilen haben. Also dafür ist es sehr einfach. Wir nehmen einfach die Verletzungen unseres
Datensatzes und lassen dann die
NAs fallen oder drücken die Eingabetaste. Und wir können in den Metadaten sehen, dass es sich immer noch um eine Tabelle handelt, natürlich Datensatz, aber jetzt ist
es eine Tabelle 220 Rosen und
natürlich vier Spalten. In unserem letzten Beispiel verwenden
wir also eine Funktion namens replace ANA aus
dem tidyr-Paket. Und wir werden die NAs durch
den Mittelwert ersetzen, oder Sie können ihn auch
durch den Median ersetzen. Also werden
wir zuerst den Mittelwert berechnen. Also Mittelwert des Dollarzeichens für die
Rosettenverletzungen um auf die Spalte zuzugreifen, die Schätzung der Spalte hier. Und wir können hier vergessen, dass
wir die NA entfernen müssen bevor wir einen Mittelwert
oder einen Durchschnittswert ermitteln, wir müssen die NAs entfernen. Und was wir hier
tun werden, ist einer
Variablen namens Mittelwert
den Mittelwert zuzuweisen . Wie Sie hier
im globalen Umfeld sehen können. Und unser Objekt wurde
geschaffen und heißt Mean. Jetzt werden wir dieses Mittel
verwenden, um alle DNAs durch den Mittelwert zu ersetzen. Also nehmen wir die Verletzungen und
dann mutieren wir an Ort und Stelle Schätzung entspricht
dem Ersetzen der Spaltenschätzung. Und wir ersetzen die
NAs durch einen Mittelwert. Wir drücken die Eingabetaste und
wir können hier sehen, dass das NA durch einen Mittelwert
ersetzt wurde. Das war's für dieses Video zum Umgang mit fehlenden Daten NR
6. Teilen und kombinieren: In diesem Video geht es darum,
wie man Zellen und Spalten in R teilt und
kombiniert Wir haben
also bereits das
Verb trennen vom
Tidyverse verwendet , um
zwei Spalten zu trennen oder zwei Spalten zu
teilen. Was wir tun werden, ist, zuerst zwei Spalten zu
kombinieren. Und dafür verwenden wir
das Verb oder die Funktion unite. Ich habe
hier eine Excel-Datei hochgeladen. Sie können die Noten der Schüler mit
dem Punkt XLS sehen, der die
Noten von etwa 100 Schülern
in Mathematik und Physik enthält . Also habe ich den Datensatz, den ich SD genannt habe
, hochgeladen und auch importiert. Sie können hier sehen, dass es
100 Beobachtungen oder 100 Schüler und
drei Variablen gibt. Die Idee des Schülers, der Nachname und der Vorname. Wenn ich nun das R-Objekt S T
eintippe, können wir hier sehen, dass in der Spalte Nachname
und Vorname hinter jedem Namen ein Leerzeichen
steht. Jetzt müssen Sie, abhängig vom Format
der resultierenden Spalte, alle Namen hier kürzen. Also entferne das Leerzeichen. Und anstatt
den STR-Trim vom Tiger für
den Nachnamen und
dann für die Spalte FirstName zu verwenden, verwenden
wir eine
Funktion namens across. Und was wir sagen werden
, ich möchte alle Namen in
diesen beiden Spalten
kürzen. Also werden wir hier in diesen
beiden Spalten
an Ort und Stelle mutieren . Also der Datensatz S, t, und dann werde ich ihn
an Ort und Stelle über zwei Spalten
stummschalten und dann
die gewünschten Spalten sammeln. Also Nachname und Vorname. Dann ist
die Funktion, die wir
anwenden wollen , STR trim. Wir können also sehen, dass wir
uns
erfolgreich im Kolonnenfahren erzogen haben . Jetzt kombinieren wir
diese beiden Spalten
mit einem Trennzeichen. Jetzt verwenden wir die Funktion unite, die
diese beiden Spalten kombiniert. Wir nennen
diese neue Spalte Namen und dann die Spalten, die
wir kombinieren möchten. Siehe also Nachname, Vorname, das Trennzeichen, das Komma. Und dann sagen wir,
ich möchte die Spalte Nachname und
Vorname nicht entfernen. Hier haben wir also
erfolgreich
Vor- und Nachnamen zu
einem brandneuen Spaltennamen kombiniert . Und natürlich können wir
die Funktionen separat verwenden, wodurch der Spaltenname
nach einem Trennzeichen aufgeteilt wird. Also bring den vorherigen
Befehl und ich füge separate hinzu, trenne den
Spaltennamen in zwei Spalten. Zuletzt, zuerst. Sag jetzt Entferne
den Spaltennamen nicht. In diesem Video haben wir also mehrere Funktionen
verwendet in
verschiedenen Spalten an Ort und Stelle
mutieren. Wir haben einige Spalten gekürzt und wir haben vereinte
oder kombinierte Spalten, getrennte oder geteilte Spalten. Im nächsten Video werden
wir
die verschiedenen Joints verwenden , die im dplyr-Paket
verfügbar sind .
7. Daten aus verschiedenen Tabellen zusammenfügen: In diesem letzten Video
dieses Abschnitts, Daten in R
transformiert werden, werden
wir uns die verschiedenen Verbindungen ansehen,
die verfügbar sind, sind die verschiedenen Verbindungen Teil des
Lieferantenpakets. Innerhalb des Tidyverse. Hier links hast du alle Funktionen, hier siehst
du Inner Join,
Left, Join, Right
Join, Full Join usw. Jetzt auf der rechten Seite wollte
ich
ein Diagramm zeigen, was das für den inneren Join
bedeutet. Wenn Sie Tabelle
A und Tabelle B verbinden, findet
die innere Verknüpfung die gemeinsamen Elemente. Nun, die linke Verknüpfung von a und B, das Ergebnis zeigt alle Zeilen
des Doppelpunkts a, auch wenn es keine
Gemeinsamkeiten mit Tabelle be gibt. Rechtsverknüpfung ist das gegenteilige
Ergebnis einer Rechtsverknüpfung von Tabelle A und Tabelle B listet
alles aus Tabelle B auf, auch wenn es in Tabelle a keinen
entsprechenden Wert gibt. Und das Ergebnis einer
vollständigen Verknüpfung wird alles aus
Tabelle A und Tabelle B
auflisten Also habe ich hier eine
weitere Excel-Datei hochgeladen, auch die Noten der
Schüler, und wir
werden sie importieren.
Jetzt. Ich gehe zu Import und
dann zu Excel-Datei. Dann klicke ich auf Durchsuchen und wähle meine Datei aus. Klicken Sie nun auf Öffnen. Wenn Sie hier auf den Pfeil
klicken, können
Sie sehen, dass es
zwei verschiedene Blätter gibt. Eine für die Ausweise
und Namen der Schüler und eine für die Noten. Also werden wir
den Importer zweimal verwenden, einen für Ausweise und einen
für die Noten. Hier können wir links sehen , dass unsere Objekte erstellt
wurden. Id mit 26 Beobachtungen besteht aus drei Variablen in Noten mit 48 Beobachtungen und
vier Variablen. Schauen wir uns hier den
ID-Datensatz an. Wir können sehen, dass die
Studentenausweise mit
100.300 beginnen , hier mit dem
Nachnamen und dem Vornamen. Und wenn wir gute Noten
haben, können wir die Noten
der 100 Schüler und
der 200 Schüler sehen . Für 300 Schüler gibt es keine Noten. Die Gemeinsamkeit hier
ist also, dass wir Ausweise und Namen und Kursnoten
der 100 Schüler haben. Der innere Join wird also nur den
100 Schülern zu sehen sein. Lassen Sie uns also herausfinden,
ob das stimmt, aber indem wir den inneren Join
aus der dplyr-Paket-ID verwenden. Dann wird die interne Verknüpfung oder das Zusammenfügen mit dem Datensatz
anhand der gemeinsamen Spalte bewertet, bei der die Studenten-ID handelt. Hier können wir sehen, dass nur
die 100er angezeigt werden. wir einfach einen
Befehl ein, um diesen
Datensatz auf dem linken Aufwärtspfeil anzuzeigen , um
den vorherigen Befehl aufzurufen. Und dann fügen wir die Ansicht hinzu, und dann können wir das
Ergebnis auf der linken Seite sehen. Es
werden
nur die 100 Schüler angezeigt, da dies die gemeinsamen Elemente
zwischen den beiden Datensätzen sind. Lassen Sie uns nun eine Linksverknüpfung
zwischen ID und Noten machen. Und wie Sie
hier links sehen können, die 100.300 Studierenden aus dem IID-Datensatz
hier angezeigt, Tabelle B, in diesem Fall
die Datensatznoten, die für
die Kurse für 300 Studierende keinen Wert haben . Sie haben also NA an Ort und Stelle. Lassen Sie uns jetzt rechts beitreten. Wir haben das Gegenteil. Wir haben alle
Schülerausweise aus Tabelle B. Also aus den Noten,
die ich hier festgelegt habe, und für
die Werte,
die im Datensatz nicht existieren , solange wir NAs oder Nullwerte
haben. Lassen Sie uns jetzt den vollständigen Join machen. Und wie gesagt, eine vollständige
Verknüpfung zeigt und
zeigt alle Werte
aus beiden Datensätzen an und zeigt Nullwerte
oder N A-Werte an,
wenn
in einem der Datensätze kein
entsprechender Wert vorhanden ist . Dieses Video schließt diesen
Abschnitt ab, indem
wir diesen INR transformieren . Wir haben uns
hier viele Funktionen des Lieferanten angesehen, das ordentliche R N eine
Zeichenfolge oder ein Paket. Und damit ist auch
der Videokurs Erste Schritte mit RStudio“ abgeschlossen. Ich hoffe es hat euch gefallen, dass
ihr viel über RStudio
und den Tidy Verse,
den DVD-Player, Tidy our
string, unser Paket gelernt habt über RStudio
und den Tidy Verse,
den DVD-Player, . Nun die Funktionen
, die verfügbar sind, um Daten in
saubere Datensätze in R
umzuwandeln
8. Übung 1: Willkommen zur ersten
Übungsaufgabe für den Abschnitt
Transformieren von Daten in R. In dieser Übungsaktivität werden
Sie
also
das Importprogramm verwenden, um alle Blätter in der
Excel-Datei Verletzungen zu importieren. Sie finden den
Datensatz der Excel-Datei für
Verletzungen im
Abschnitt Ressourcen Ihres Kurses. Jetzt
sollte der Name des Datenrahmens Verletzungsdatensatz lauten. Wählen Sie dann nur Fälle aus, in denen
Verletzung gleich Körperverletzung ist, und wählen Sie nur die Spalten
Verletzung und Schätzung aus. Jetzt können Sie das Video anhalten und die
Übung auf Ihrem RStudio Cloud-Konto
oder RStudio Desktop durchführen. Und du kannst für die Antwort
hierher zurückkommen. Verwenden Sie nun zunächst das Wichtige,
um alle
Verletzungsblätter zu importieren , um
auf Datensatz importieren zu klicken. Es gibt nur ein Blatt, einen Datensatz, der dem
Verletzungsdatensatz mit
231 Beobachtungen
und vier Variablen entspricht . Jetzt müssen Sie natürlich
das Tidyverse- oder
das dplyr-Paket laden . Dann können Sie den R-Befehl sehen. Sie nehmen den Datensatz
Verletzung, den ich festgelegt habe, den Rohrbetreiber, und dann
filtern Sie , dass Verletzung
gleich Körperverletzung ist. In R gibt es also ein
Gleichheitszeichen, das in den meisten Fällen
als Ersatz für den
Zuweisungsoperator verwendet wird . Aber das wollen wir nicht. Wir wollen hier doppelte Gleichheit, was immer
für Gleichheitstests verwendet wird. Hier, Verletzung. Wir wollen, dass er auf Augenhöhe
angreift als der Rohrbetreiber. Und wir wählen die Spalte Verletzung
und die Spalte Schätzung aus.
9. Übung 2: Willkommen zur zweiten
Übungsaufgabe des Abschnitts, der Transformation von Daten mit RStudio. Für diese Übungsaufgabe verwenden
Sie
den Importer, um
alle Notenblätter der
Schüler mit Punkt XLS zu importieren , die sich im
Ressourcenbereich des Kurses befinden. Es gibt zwei Blätter, also
wird es zwei Datensätze geben. Die Namen der Datenrahmen
sind, die Datensätze sollten
Schüler in den jeweiligen Klassen
für jedes Arbeitsblatt sein . Ich möchte, dass Sie die beiden Datenrahmen
anhand der Schüler-ID,
der gemeinsamen Spalte,
verbinden und auf
der Liste die Noten für Lachs auswählen . Auch hier pausieren Sie das Video, machen die Übung und
dann können Sie
zurückkommen, um die Antwort zu erhalten. Hier links können Sie also sehen ich den Importer verwende, um
die Datensatznoten mit
204 Beobachtungen
und vier Variablen zu importieren die Datensatznoten mit . Und die Datensatzschüler würden
die Schüler mit dem Datenrahmen mit 100 Beobachtungen und
drei Variablen versehen. Wenn ich mir jetzt
einen Datensatz eines Studenten ansehe, kann
ich sehen, dass
die Studentennummer für Semi Newman 75 ist. Ich weiß also, dass ich
diesen Rahmen nach
der Studentennummer 75 filtern
werde . Aber zuerst muss ich beide Datensätze
verbinden. Ich werde beide
Datensätze mit einer gemeinsamen Spalte verbinden,
nämlich der Studenten-ID. Wenn Sie nun die Studenten-ID nicht
erwähnen, wie hier
beim Befehl arc, prüft die Funktion inner
join automatisch, ob
es eine gemeinsame Spalte gibt. Wenn es eine gemeinsame Spalte gibt, wird sie die Spalte
verwenden. In diesem Fall ist
es also der Studentenausweis. Also es braucht Schüler
und dann Operator, ich gehe innerlich zu
den Schülern mit Noten, wie gesagt, in einem Joint hat eine gemeinsame
Spalte Studentenausweis
gefunden. Und dann filtere ich
nach der Studenten-ID ist gleich,
gleich, um die
Gleichheit erneut auf 75 zu testen, was der
Studenten-ID von Semi Newman entspricht.
10. Abschließende Bemerkungen und nächste Schritte: Dies ist also das Ende des
dritten Teils dieser Serie, Erste Schritte mit RStudio In diesem speziellen Videokurs ging es um das Bereinigen
und Umwandeln Daten in RStudio, falls Sie die beiden
vorherigen Videokurse verpasst haben. Die erste ist auf RStudio
Cloud und wie Sie es
einrichten und alle Optionen verwenden um Ihr Cloud-Konto zu konfigurieren. Und Teil zwei war
, wie man alle Arten
von Daten in RStudio importiert. Sie können unter diesem
Video nachschauen und
Links zu diesen vorherigen
Videokursen
über die ersten Schritte mit RStudio finden Links zu diesen vorherigen
Videokursen . Und ich hoffe, Ihnen haben
der Kurs und
seine Reihe über die
ersten Schritte mit R Studio gefallen . Vielen Dank.