Transkripte
1. Einführung: Hallo und willkommen zum
Class R-Programmier-Bootcamp für Datenwissenschaft und
maschinelles Lernen. In diesem Kurs werde ich Ihnen Add Programming
beibringen, die
zweitbeliebteste Programmiersprache, die im Bereich maschinelles Lernen
und Datenwissenschaft verwendet
wird . Der erste Bin, Python. Wenn Sie also
R-Programmierung lernen möchten und in
Ihrer
Karriere in den Bereichen Datenwissenschaft
und maschinelles Lernen auszeichnen möchten, dann ist dies der
richtige Kurs für Sie. Ich bin Sunil, dein
Lehrer für diese Klasse. Ich habe in den
letzten 12 Jahren jahrelange Erfahrung Softwareentwicklungsunternehmen und Technologieanalysten in
Softwareentwicklungsunternehmen
und Technologieanalysten gesammelt. In den letzten sechs
Jahren habe ich
Menschen zu Themen der Datenwissenschaft und des
maschinellen Lernens unterrichtet . Deshalb werde ich Ihnen das
Programmieren von
den Grundlagen bis hin zum
sehr fortgeschrittenen Thema beibringen . Und wir werden sehen, wie wir
unsere Programmierung gesetzlos nutzen können ,
um die Daten zu analysieren, Daten
zu visualisieren und wie
wir die R-Programmierung verwenden können, um unsere datenwissenschaftlichen und
maschinellen Lernmodelle so
zu
gestalten , dass sie im Bereich maschinelles Lernen
und Datenwissenschaft verwendet werden. Wenn Sie also daran
interessiert sind, für Datenwissenschaft und maschinelles Lernen zu lernen
und zu
programmieren, dann ist dies der
richtige Kurs für Sie. Wenn Sie also Interesse haben,
melden Sie sich für diesen Kurs an, und wir sehen uns in
der nächsten Vorlesung. Danke.
2. R Installation: Hallo und willkommen. In dieser Vorlesung werden
wir uns also den Prozess der
Kunstinstallation ansehen. Und am Ende dieser Vorlesung werden
wir unsere
Programme in unserer Konsole ausführen können. Also lasst uns anfangen, R auf unserem Computer zu
installieren. Wir müssen auf die Website gehen. Die Kanäle der Kranzdrüsen sind ein
Bindestrichprojekt. Dunkles Beobachten. CNN Dot stehen für hyphen
project oder towards you, was die offizielle
Website unserer Programmierung ist. Und Sie können ein
umfassendes R-Archiv sehen. Wenn Sie hierher kommen,
sehen Sie möglicherweise ein anderes Tempo, wenn wir nach ein paar Monaten zu einer anderen
Zeit
kommen. Aber mehr oder weniger werden Sie hier
das Comprehensive R
Archive Network sehen . Und
dann sehen Sie hier, wie Sie R herunterladen und installieren. Und
hier sehen Sie die verschiedenen
Betriebssystemoptionen , mit denen Sie R4 herunterladen können. Also hier sind wir auf
dem Windows-Computer. Also nehme ich diesen
Download R für Windows. Wenn Sie Linux verwenden oder
macOS verwenden, können
Sie zu den entsprechenden
Betriebssystemen wechseln. Also müssen wir
auf den Download R für
das jeweilige
Betriebssystem von meinen Kindern klicken . Ich klicke auf die Fenster. Hier. Sie können
R zum ersten Mal installieren auswählen. Okay? Und los geht's mit dem Download R für Punkt
oder Punkt für Windows. Klicke darauf oder nicht. Oder Bindestrich vier Punkt 0, n2 Bindestrich grüner Punkt. Die EXE-Datei
wird heruntergeladen. Es ist die 83,6 MB große Datei. Und mein Internet ist heute, seit Morgen, etwas
langsam. Es dauert also einige Zeit. Wenn Sie in einem
Highspeed-Internet sind, kann
es einige Minuten dauern und die EXE-Datei wird heruntergeladen. Warte einfach,
bis es heruntergeladen ist. Und wenn es fertig ist, beginnen wir mit
dem
Styling und der Verarbeitung. Jetzt
wurde die Punkt-EXE-Datei heruntergeladen. Darauf müssen wir doppelklicken. Und Sie werden aufgefordert, die Kunst
zu installieren. Wir müssen nur
auf Ja klicken, um dem Administrator Zugriff auf den
Installationsvorgang zu gewähren. Und sobald Sie das getan haben, erscheint die Histon-Abhöraufforderung
wie folgt. Und hier müssen wir die
Sprache auswählen, damit Sie Ihre Sprache auswählen und auf klicken können. Okay. Jetzt müssen wir die
Thompson-Bedingung wie das
GNU General Public
License Agreement kennen Thompson-Bedingung wie das . Also musst du es lesen und dann müssen wir auf Weiter
klicken. Jetzt können Sie
das Verzeichnis auswählen. Ich behalte es standardmäßig in der
C-Datei. Und wir müssen auf Weiter klicken. Das Ding existiert schon, weil
es schon da war. Also klicke ich einfach, um es auf irgendeine Weise zu
installieren. Klicken Sie darauf und Sie können es unverändert lassen
und auf Weiter klicken. Klicken Sie auf Weiter. Hier können Sie, wenn Sie möchten, auswählen, ob der
Startmenü-Ordner nicht erstellt werden soll, okay? Wenn du willst,
möchte ich erschaffen werden. Also klicke ich auf Weiter. Und hier müssen Sie auswählen, Sie wählen einfach die Daten aus. Bei den nächsten Drops handelt es sich
um Abkürzungen, mit denen Sie die Grafik einfach
starten können . Wann immer Sie ein Programm schreiben
möchten, können
Sie einfach auf den
zusätzlichen Plotbauch klicken und schon kann es losgehen. Klicken Sie auf Weiter. Und jetzt wird
das Seltsame
auf unserem System installiert. Es kann ein paar Minuten dauern. Kaum. Es dauert höchstens zwei
bis 3 Minuten. C hier. Nun zum Teil, wir sind drinnen, um Punkt
oder Punkt zu starr zu machen. Und es heißt, es ist vorbei. Klicken Sie also einfach auf Fertig und R ist
auf Ihrem Computer installiert. Um zu überprüfen, ob seltsam
installiert ist oder nicht, müssen
Sie auf
den Windows-Start klicken und Sie müssen nur nach unten scrollen, um zu überprüfen, ob
Künstler es nicht sind. Schau hier. Da ist der Kunstordner. Und wenn Sie darauf klicken auf den Kunstordner
klicken, werden
Sie sehen, dass die beiden
Optionen I1,
I3, ein T6 sind , und fügen Sie ein solches T4 hinzu. Wenn Sie also ein Windows 7 - oder Windows
10-Betriebssystem oder höher verwenden, können
Sie sich für die
Vier-Bit-Version entscheiden. Ansonsten kannst
du den 386 nehmen. Okay, ich habe weniger als
64-Bit-Maschinen, also klicke ich darauf
und r wird verloren gehen. Das ist also die R Do Re und das ist die R-Konsole. Und hier können wir anfangen, das Herzprogramm zu
schreiben. Nehmen wir an, ich liebe vier plus fünf
und es ergibt neun. Wenn Sie das einfache
Hello World-Programm für Kunst schreiben. Also müssen wir in gedruckter Form schreiben. Und dann in dem einfachen
Anführungszeichen Hallo Welt, und es wird Hallo Welt gedruckt. Also wir sehen uns jetzt. Dies ist das einfache Hello
World-Programm in R. So
können unsere Programme also in der Konsole ausgeführt werden. Für diesen Kurs werden
wir jedoch nicht unsere Konsolen-GUI
verwenden. Stattdessen werden wir
RStudio verwenden, IDE
für R. Und
das ist
die vorzuziehende
und bessere Option um mit
der R-Programmierung fortzufahren. In der nächsten Vorlesung werden
wir also damit beginnen, RStudio herunterzuladen
und zu installieren. Du siehst mich in der nächsten Vorlesung.
3. Installieren und Erkunden von RStudio: In der vorherigen Vorlesung haben
wir es heruntergeladen und auf unserem Computer
installiert. Und wir haben gesehen, wie man
mit der Art Console arbeitet, oder? Ja. Aber wir werden
damit nicht fortfahren. Also werden wir
RStudio für diesen Kurs herunterladen. Und während dieses Kurses werden
wir RStudio verwenden. Rstudio ist eine integrierte
Entwicklungsumgebungs-IDE für R-Programmierung. Und damit
können wir die Dinge einfach erledigen und wir können die Dinge auf
organisierte Weise verwalten,
und AD hilft sehr beim Programmieren. So können wir problemlos beschichten und die Ergebnisse damit sehen. Also nächste Woche
fahren wir mit dem RStudio. Also zuerst müssen
wir RStudio herunterladen. Um RStudio herunterzuladen, müssen
wir also zu
art studio.com gehen. Dies ist die offizielle
Website von RStudio. Und wenn wir die
RStudio-Website erreichen, werden
Sie die verschiedenen
Optionen wie Produkte,
Lösungen, Kunden,
Ressourcen und vieles mehr sehen . Und oben können Sie sehen dass
der Download
nicht darauf klickt. Vorher schauen wir uns
einfach an, welche Produkte
Level bei RStudio bietet. Da ist also unser Studio, die erste IDE für R. Dann ist der
RStudio-Server schon da. Und RStudio-Pakete
sind auch da. Also werden wir RStudio
verwenden, die ID, und dann werden wir R-Pakete für
verschiedene Zwecke
verwenden , wenn wir
das datenwissenschaftliche
maschinelle Lernen exportieren , all diese Dinge
werden dann R-Pakete verwenden. Okay, also RStudio- und
R-Pakete werden wir verwenden. Also klicken Sie bitte auf RStudio. RStudio ist also eine integrierte
Entwicklungsumgebung für Kunst. Es enthält einen
Syntaxhervorhebungseditor für die Konsole , der die
direkte Codeausführung unterstützt, sowie Tools für Plotten, Historie, Debugging
und What-Management. Okay, also all diese Dinge, die
wir mit dem RStudio machen können, wir werden
die neueste Version
bis RStudio verwenden , eins bis drei. Und es gibt zwei
Versionen von RStudio auf Level, nämlich RStudio
Desktop und RStudio Server. Also werden wir den RStudio-Server nicht
verwenden. Wir werden RStudio
an unseren Deckstopps verwenden, also klicken wir darauf. Und wenn Sie
anderen zusätzlichen Speicherplatz sehen, werden Sie
die beiden Optionen sehen, Open Source Reason, was im Grunde eine kostenlose Sache
ist, und RStudio Desktop Pro, das für den kommerziellen Gebrauch ist und für diesen Künstler,
um zusätzliche Pro zu lesen, müssen
wir 995$ zahlen. Wir werden
diesen Werbespot nicht verwenden. Wir werden
für diesen Kurs
die kostenlose
Open-Source-Version von RStudio verwenden , das ist eine GPL-Version
drei, kostenlose Lizenz. Also klicke ich darauf. Herunterladen, RStudio
extra. Klicke darauf. Und wenn Sie darauf klicken, gelangen Sie in
die schwierige Download-Phase. Und hier können wir
diese kostenlose Version wählen und auf Herunterladen
klicken. Und wenn Sie auf Herunterladen klicken
, gelangen Sie zu Ihrem
jeweiligen Betriebssystem. Wir sind fertig. Also hier werde ich RStudio für Windows
herunterladen. Wenn Sie ein anderes
Betriebssystem verwenden, können
Sie darauf klicken. Wie Coben für
macOS, Fedora, BBN, egal welches
Betriebssystem Sie haben, wählen
Sie einfach diese Datei aus und
klicken Sie auf Herunterladen. Also werde ich RStudio für
Windows herunterladen und darauf klicken. Und Künstler, die
EXE-Datei des Künstlerstudios wird heruntergeladen. Der Download beginnt hier. Also werde ich darauf warten. Also diese RStudio Dot
EXE-Datei wurde heruntergeladen, also muss ich nur darauf
doppelklicken. Der Artists Reduce Setup
Wizard wurde also gestartet. Warum müssen Sie also einfach auf Weiter
klicken? Sie müssen nur auf
Weiter Weiter klicken und es ist erledigt. Sie müssen nichts extra tun. Klicken Sie also auf Weiter, Weiter, Weiter. Und es wird
in ein paar Minuten erledigt sein. Die
Einrichtung des Künstlerstudios ist also abgeschlossen. Sie klicken einfach auf
Fertig stellen und RStudio ist
auf Ihren Maschinen komplett ins Stocken geraten oder To-Do-App ist
jetzt
da, klicken Sie einfach auf Ausführen. Ein Künstlerstudio
wird eröffnet. Also sind die von Cel geladen. Rstudio, nun, sieht so aus, du
dieses Jahr die
Option sehen wirst, dein Drehbuch zu schreiben. Und das ist die
Konsole, auf der wir die Ergebnisse
dieser Skripte
sehen können . Und dann können
Sie in dieser
rechten oberen Ecke die
Umgebung und die Geschichte sehen. Was auch immer das Kommando und Verschrottung sein mögen, wir
laufen auf dem Rücken. Sie können dann diese
Verbindung und dann das Tutorial sehen. Wenn Sie also etwas über ein bestimmtes
Paket oder etwas anderes
erfahren möchten , können
Sie hier
mehr darüber erfahren. Und dann können Sie hier
die Dateien im Arbeitsverzeichnis sehen die Dateien im ,
die
Dateien werden hier angezeigt. Dann die Plots, wenn wir Diagramme und alle Grafiken
verwenden
und wenn wir
etwas Landschaft verwenden, um etwas als grafische Dinge zu plotten, all diese Plots und
all diese Diagramme werden bald hier sein. Die Pakete, die wir in unserem Skript
verwenden. Diese Pakete
werden unser Level hier sein. Also alle Pakete, die hier installiert
sind. Und Sie können einfach auswählen, und wenn Sie das Paket
entfernen möchten, können
Sie es von hier aus entfernen. Wenn Sie
mehr über das Paket erfahren möchten, können
Sie auf
diesen Link klicken und Sie können mehr
über das Paket erfahren. Hier können Sie also
den Paketnamen und
dann die Sortierbeschreibung
des Pakets und den
Wortlaut des Pakets sehen dann die Sortierbeschreibung
des Pakets und den
Wortlaut des Pakets und dann den Mob erkunden und
dann löschen. Die Paketoption ist da. Wenn Sie
ein neues Paket installieren möchten, müssen
Sie nur auf Installieren
klicken und einen
neuen Paketnamen angeben und es
wird heruntergeladen. Okay, und dann
gibt es hier eine Hilfe, und du willst etwas
über R und RStudio lernen, oder willst du zu
den Handbüchern gehen , die
umfangreich sind,
du kannst hier gehen und
Hilfe zu jedem Thema bekommen, okay, dann haben wir diese Dinge gesehen Connexins und Tutorials
und alles wird hier sein. Und von hier aus die drei Punkte. Sie können sehen, wenn
Sie darauf klicken, können
Sie das
Arbeitsverzeichnis auswählen , das Sie
für Ihr RStudio festlegen möchten. Nehmen wir an, wir wählen unser 2020
als Arbeitsverzeichnis aus. Also wähle ich das einfach aus. Und dann müssen wir
auf dieses weitere Opsin klicken und Option Als
Arbeitsverzeichnis
festlegen die Option Als
Arbeitsverzeichnis
festlegen müssen Sie nur
darauf klicken. Also senior set, WD sagte, WE ist der Befehl, um unser Arbeitsverzeichnis
festzulegen. Also C- oder D-Doppelpunkt
gedruckter Stipendiat. Dieser Baum wurde auf
das Arbeitsverzeichnis gesetzt. Also, wenn du das nicht von hier aus tun
willst, kannst
du diesen Befehl verwenden um das
Arbeitsverzeichnis festzulegen, okay? Und dann kannst du hier einen neuen Ordner
erstellen,
du kannst löschen, du kannst all diese Optionen auf unserer
Ebene hier umbenennen und hier
können wir unser Skript einfach
um plus fünf schreiben. Und dieser Lauf, du kannst diese Zeile
auswählen und
du wirst auf
Run klicken und dieses Skript oder
diese Anweisung wird ausgeführt und du
wirst das Ergebnis hier
sehen, phi plus Pipe dann kannst du
einfach, wenn du etwas drucken willst,
hallo, RStudio und du auf Run klicken
willst, wirst
du sehen, dass da
LTL hallo, RStudio ist. Okay? Und in der Historie werden Sie alle Befehle
sehen
, die berechnet werden. Okay? Also das sind die Dinge und
diese Datei kannst du speichern. Wenn Sie diese Datei speichern möchten, können
Sie auf Speichern klicken und sie wird in Ihrem
aktuellen Arbeitsverzeichnis gespeichert. Sie können also
jeden beliebigen Namen rot angeben. Es wird in unserer Datei gespeichert. Okay, ähnlich, wenn wir eine neue Datei erstellen
wollen, musst
du nur
hier klicken und schon siehst du
die Gruppe des Künstlers. Sie werden
unsere Skriptdatei oder unser Notizbuch
oder unsere R-Markdown-Datei erstellen . Wir werden sehen, was eine
R-Markdown-Datei ist. Wir werden etwas
über dieses Agile lernen. Okay? Und wenn Sie dann klicken, können
Sie ein neues
Projekt oder ein neues Verzeichnis erstellen, oder Sie können zum
vorhandenen Verzeichnis wechseln. Und hier können Sie
die Versionskontrolle sehen. Okay? Das sind also die
verschiedenen Level-Optionen. Wenn Sie erneut auf Datei klicken, wird das
New File R Script angezeigt. McDonald's, diese Dinge können
Sie hier sehen. Und Goldgrundstücke, die
wir hier gesehen haben. Das Gleiche. Tools zum Erstellen und Debuggen
von Profilen sind es nicht. Wir werden also alle Optionen
untersuchen wann und wo sie benötigt werden. Und wir werden all
diese Dinge vorerst untersuchen. Das ist der Teil mit dem Schreiben von
Drehbüchern, und hier sehen wir einen Richter,
und hier können wir das Arbeitsverzeichnis von
Dark Current und die Plots und all das sehen . Wenn wir es verwenden, können Sie
sehen, dass Ihre Pakete von hier aus installiert werden
können und riesig
sind. Und hier können Sie
die Geschichte und alles sehen. Okay, hier dreht sich
alles um RStudio. Und jetzt sind wir
bereit, mit
der R-Programmierung
mit diesem RStudio Ib zu beginnen . Ab der nächsten
Vorlesung werden
wir also unser Programmieren lernen. Also tippt Steven die nächste Vorlesung ein.
4. Warum R lernen: Hallo und willkommen.
In dieser Vorlesung werden
wir lernen, warum sind, warum wir die Programmiersprache
R lernen sollten? Um diese Frage zu beantworten, müssen
wir also zwei Dinge
durchgehen. erste Sache ist, was
ist R und warum
sollten wir herausfinden , ob Ihre Regionen
hinter dem Erlernen unserer Programmierung stehen ? Fangen wir also
mit dem an, was ist R? R ist also die
beliebteste Sprache in der Welt der Datenwissenschaft. Datenanalyse ist Statik. Daher wird es häufig
bei der Analyse strukturierter und
unstrukturierter Daten verwendet. Heutzutage
erhalten wir riesige
Datenmengen , die als Big Data bezeichnet werden und größtenteils unstrukturiert sind. Und wenn Sie diese großen
Datenmengen analysieren möchten, können
Sie dies problemlos mit
der R-Programmierung oder Odd tun. Seltsam. Seltsam. Odd ist eine Programmiersprache
und Software und Warming für statistische
Analysen und Grafiken. Die Präsentation und Berichterstattung
darüber, was von
Eros Yamaka und
Robert Jackson Man
und der University of
Auckland, Neuseeland, geschaffen wurde Eros Yamaka und
Robert Jackson Man . Und derzeit
werden sie
von unserem Entwicklungs-Kernteam blockiert . R wurde also von Yamaka
und Robert Gentleman erfunden. Und deshalb ist der Name seltsam weil der Name im Winter
mit unserem Roth und
Robert beginnt mit unserem Roth und und sie
ihn nach ihrem Namen benannt haben. Und es heißt von ihnen unsere
Programmierung. Regions to learn R. R ist Open-Source-und frei verfügbare Open-Source-Software, die
Sie einstecken und abspielen können. Und wenn wir zur Kunst beitragen wollen , können Sie das auch tun. Und es ist die GNU
General Public License. Es ist also kein Level, dass
Sie selbst etwas kostenlos bezahlen müssen. Und das ist der beste Grund
, unsere Programmierung zu verwenden. Plattformübergreifend kompatibel. Ob Sie
unser Programm also unter
Windows oder Linux oder
macOS ausführen , spielt keine Rolle. Es läuft nahtlos
und liefert Ihnen auf jeder
dieser Plattformen
das gleiche Ergebnis. Sind diese hochflexiblen
und sich weiterentwickelnden Künstler Natur aus
flexibel? Und es entwickelt sich sehr. Und derzeit sind es
mehr als 2 Millionen weit mehr als 2
Millionen Benutzer nutzen
unsere Programmierbranchen und -domänen. Weit verbreitet ist unsere Programmierung. Wenn Sie die Branche nennen werden
Sie die Verwendung
unserer Programme in einem
ähnlichen
Finanzbereich finden, mit dem sie betrügerische Transaktionen
im Telekommunikationsbereich
aufdecken. Sie werden in der
Kunstprogrammierung verwendet. Zu. Weit weg von Abonnentenprofilen. Im Bereich Biologie finden
Sie das Tool für
Computerbiologie zur Durchführung der Genomanalyse. Viele, viele Domains. Sie verwenden R. Und
es ist eine riesige Community, wie ich Ihnen schon sagte, 2 Millionen Benutzer und eine
Nutzer-Entwickler-Community. Und seltsam ist,
mehr als 10.000 zu haben. Die letzten Pakete und das
Fehlen integrierter Funktionen erfüllen
vielfältige Bedürfnisse. Egal, ob Sie
eine einfache
Summenoperation durchführen
möchten oder ob Sie den Mittelwert einiger
Funktionen ermitteln möchten, es sind einige Zahlen. Oder Sie
möchten Ihre Daten
grafischer darstellen. Mit
den Audit-Paketen und den
integrierten Funktionen können Sie dies problemlos tun . Und unsere Pakete eignen sich hervorragend
für Datenmanipulation, Datenvisualisierung,
maschinelles Lernen, Datenwissenschaft und
statistische Modellierung, Imputation und viele andere Pakete, die zum Herumspielen
beschriftet sind. R eignet sich hervorragend zur Visualisierung. Und R-Pakete wie GG
plot to Gibbs erstellen Sie Visualisierungen, sodass
Sie
Daten mit
unserer Programmierung einfach visualisieren können . Und viele große Unternehmen
wie Facebook und Google nutzen Kunst für
ihre verschiedenen Bedürfnisse. Odd ist gleich
sprachlicher Teil, dass statistische Analyse
und Data Science to od
in den Bereichen Datenwissenschaft,
maschinelles Lernen, Datenanalyse,
Data Mining und all diesen Dingen weit verbreitet maschinelles Lernen, Datenanalyse,
Data sind. Gott ist also die Sprache der Wahl
für all diese Dinge. Und wenn wir lernen wollen, wenn Sie sich mit Datenwissenschaft
und maschinellem Lernen
befassen wollen , beginnen Sie
meiner Meinung nach mit
der Programmierung. Denn wenn Sie die
Grundlagen der Programmierung kennen, können
Sie leicht Konzepte der Datenwissenschaft und des
maschinellen Lernens
erlernen , und Sie können diese Konzepte,
diese Algorithmen, leicht mit
seltsamer Programmierung implementieren .
5. Erstes R und Operatoren in R: Hallo und willkommen zurück. In dieser Vorlesung werden
wir also unsere erste R-Skriptdatei
oder zuerst unser Programm
schreiben oder zuerst unser Programm und uns mit
der Syntax unserer Programmierung vertraut machen. Okay, also zuerst müssen
wir unsere Datei erstellen. Also habe ich in der vorherigen
Vorlesung erste Daten erstellt, ich schließe sie einfach. Und wir müssen nur hier klicken. Und wir wählen unser Drehbuch aus. Oder Sie können alternativ Control Shift verwenden und
unsere Skriptdatei erstellen. Und hier, was ich tun werde, ich werde versuchen, das zu speichern,
indem ich hier klicke. Sie können Controller setzen
und diesen Namen an die erste Stelle setzen. Ist kaputt gegangen. Okay. Punkt. Punkt, Punkt ist warum Wahlen
und welche Programme. Okay, füge ein Drehbuch hinzu. Also klicke ich einfach auf Speichern. Jetzt ist unsere erste
Skriptdatei für Kunstprogramme fertig. Was ich jetzt tun werde, ich
fange einfach mit einigen Variablen an. Nehmen wir X, X 0s
und wertvolles Ohr an. Und ich möchte den
Wert sieben oder acht zuweisen. Hier können wir also einen
Wert mit einem
Kleiner-und-Zeichen zuweisen , also x. Und wenn wir weniger als acht verwenden, bedeutet das, dass dieses
x-Objekt in unserer Programmierung alles ein Objekt ist. Also können wir x als n Variable aufrufen, oder wir können es als Objekt nennen. Als Objekt oder Variable. Also ist x ein Objekt und wir weisen
ihm den Wert Acht zu. Wie können wir das überprüfen? Es hat jetzt keinen Wert acht? Wenn Sie also hier auf
„Ausführen“ klicken, sehen und sehen
Sie hier auf der Registerkarte „globale
Umgebung“, hier können
Sie x-Werte x sehen. x-Objekt
erhält
also eine While-Schleife. Es. Wir können einfach den Befehl print verwenden. Und wir können x hineinlegen. Und wenn wir das dann ausführen, erhalten
wir den Wert Acht. Okay, wir sind auf dem Weg dorthin. Was ich jetzt tun werde, ich schreibe einfach ein Programm, um zwei Zahlen
zu addieren. Also verwende ich x gleich acht und weise y gleich neun zu. Und dann, also sieh hier, was ich gemacht habe. Ich habe x, y
zugewiesen und dann habe ich noch
eine andere Variable oder ein anderes Objekt verwendet . Und ich habe x
plus y gleich Jet zugewiesen. Und was ich getan habe, ich
drucke Details aus, damit
wir das x plus y tot reinbekommen. Also werden wir X plus Y,
X plus Y plus 917
tragen . Also bekommen wir
Wert I, nur 17. In ähnlicher Weise können
wir, was ich tun werde , auch eine Zeichenfolge verwenden. Die Veranda, ich verliere meinen Frühling. Und ich weise ihm einen
Zeichenkettenwert zu. Nehmen wir an, ich verlasse mein Zuhause. Irgendetwas, okay?
Dies ist die Zeichenfolge ich
meinem Zeichenkettenwert zuweise. Jetzt
bekommt das
MyString-Objekt also das , was mein Zuhause ist, oder? Also was ich tun werde, ich werde
einfach versuchen, meinen Zeichenkettenwert zu drucken , und ich werde versuchen, das auszuführen. Warum werden wir trauriger? Weil ich diese Zeile und unsere
Ausführung dieser Druckanweisung nicht ausgeführt habe. Also müssen wir Zeile für
Zeile ausführen, okay? Und wenn wir sofort
ausführen wollen, müssen
Sie nur auf die Quelle
klicken. Also klicken Sie auf Quelle und alles
wird 17 für
diesen Druck und dann für meine Homepage
für diesen Zeichenkettenwert gleich diesen Druck und dann für meine Homepage 17 sein. Okay? So willst du es also. Noch einmal. Angenommen, ich verwende x. Entspricht 910. Drucke x hier aus. Und wenn ich das mache, kriege ich acht. Also weil diese Aussage ich
habe und du zuvor erstellt hast, also erhalte ich X4 Acht. Der neue Wert, x gleich neun, x gleich zehn, wird nicht ausgeführt. Also um das auszuführen, was ich tun muss, und
es wird diese Zeile ausführen. Und wenn ich diese
Anweisung erneut ausführe, erhalte
ich den Wert n, richtig. Wenn ich diese ganze Quelle starte,
was ich zuerst bekomme, erhalte
ich x plus y
17, weil hier, bis hier, der x-Wert acht ist. Aber wenn wir mit
dem Programm fortfahren, wird der
X-Wert auf zehn umgestellt. Und deshalb erhalten wir
den X-Wert hier als Zehn. Okay? Der MyString-Wert
ist also eine Zeichenkettenvariable, U und X, Y, j, die anderen Zahlen, okay? Und stell
dir etwas vor, wenn du es unterstützen willst, möchte
ich nicht, dass
x gleich zehn ist. Ich kann es
mit Hess kommentieren. Okay, jetzt
wird diese Anweisung nicht ausgeführt. Also, wenn ich jetzt
dieses ganze Programm, das ganze Skript, was ich bekomme,
starte ich, dass x gleich acht ist. Okay? Ich verstehe nicht
die Sonne, der CEO. Jetzt erhalte ich den x-Wert
als x-Wert bei 818910. Wenn ich diesen Kommentar
wieder entferne , erhalte ich zehn. Der C x -Wert sinkt. Wenn Sie also etwas
runterkommen möchten, können
Sie Hess verwenden
, diese Aussage
wird kommentiert. In ähnlicher Weise können wir
alle mathematischen
Operatoren für die Variablen ausführen . Nehmen wir an, ich möchte vier von fünf
verwenden. Ich nehme 25, 20. Wenn ich will, benutze 25/5 und wir bekommen fünf. Also all diese Dinge, die wir tun können, wir können alle
mathematischen Operatoren hier ausführen. Angenommen, ich möchte
25/2 verwenden, ich erhalte 12,5. All diese Dinge, die
wir hier tun können, können
wir auch unsere
exponentiellen Dinge verwenden. Angenommen, ich möchte drei
Exponentialwerte für die
Exponentenregel verwenden . Wir kriegen neun, oder? Also mach das und sieh mal, hier
kriegt man neun. Ähnlich, wenn ich
25 exponentiell 25 verwende, wie viel bekommen wir? Lass uns sehen. Okay. Das ist also der große Wert. Ich hätte es nicht benutzen sollen. 25 exponentielle zwei
ergeben 625, schätze ich. Ja, es ist x 25. Also all diese mathematischen
Operatoren können wir hier verwenden. Wenn du
sechs exponentielle Eins verwenden willst, bekommst
du trotzdem sechs, oder? Wenn wir zwei machen, bekommen wir 36. Also all diese mathematischen
Operatoren und Berechnungen können
wir wie gewohnt in R verwenden, okay? In ähnlicher Weise können wir auch eine
Subtraktion durchführen. 78 minus drei plus
sechs ergibt 22. Wir haben also, wie Edison,
Subtraktion, Multiplikation,
Exponential gesehen , und wir haben einen speziellen Operator
, der Modulus ist. Ebenfalls. Nehmen wir an, ich verwende 45 und
modelliere . Lassen Sie uns zweimal verwenden. Also 45 Modellierer. Nehmen wir an, ich verwende fünf. 45 Modulus Phi
ergibt also Null, oder? Ja. Und wenn ich
45 Modul vier verwende, erhalte
ich eins, z. Wenn ich
also 25,
randlos drei verwende , erhalte ich 41. Okay? Modulus
behält also den Rest. Also 3/20, 5/3 geben uns 13 in 824 und dann
bekommen wir die Eins als Erinnerung. Okay, wenn wir also
eine Division durchführen, wird
der Rest als Modul
angegeben. Das sind also die
Operatoren, die wir im Sinne des
Jackson-Multiplikationsexponentials
und dann des Moduls
gesehen haben im Sinne des
Jackson-Multiplikationsexponentials
und dann des Moduls
gesehen .
6. Datentypen in R: Hallo und willkommen zurück. In dieser Vorlesung lernen
wir Datentypen
in der R-Programmierung
kennen. Also anders als in anderen
Programmiersprachen wie Java oder C oder C plus plus, wo wir eine Variable deklarieren, deklarieren
wir die Variable
ohne Datentyp, oder? Nehmen wir an, wenn wir
eine Ganzzahlvariable verwenden wollen, deklarieren
wir diese Ganzzahl x. Richtig? Nun, Float, warum unser
Charakter das X ist, oder? Schnur. Warum String A, String
es so, richtig? Aber in unserer Programmierung deklarieren
wir keine Variablen
mit Datentyp, oder? Nehmen wir an, ich habe meine gelöscht,
wahrscheinlich, wie hier, habe ich x oder zehn zugewiesen, oder? Ich habe dem x zehn zugewiesen. Diesem Objekt wird
also
ein ermittelter Wert zugewiesen. Der Datentyp dieses
Objekts wird also Datentyp, Datentyp dieser
Zahl Zehn, oder? Also diese oder jene Variable,
nehmen wir an, das ist zehn
als Ganzzahl. Aus diesem Objektdatentyp
wird also eine Zahl. Wenn ich x einer Zeichenfolge
zugewiesen habe, wird
dies zur
Zeichenkettenvariable. Wir entscheiden also nicht im Voraus was wir der Variablen oder
dem Objekt zugewiesen haben, dieses Objekt wird
zum Objekttyp. Es ist also vier oder weniger hell wie unser dynamisches Spiegellicht. Wir stellen den
Datentyp also nicht in den Vordergrund. Es wird entschieden welcher Wert dieses Objekt haben
wird. Und dieses Objekt wird
zu einem solchen wertvollen Objekt werden, oder? Lassen Sie mich also
eine weitere Datei erstellen , in der wir die Datentypen sehen
werden. Lassen Sie mich also diesen Rand freimachen. Nun, es gibt also im Grunde
sechs Typen unserer Objekte. Und sie sagen: Oh,
rectus, inferior. Rektus. Dann Listen. Und dann haben wir Alice. Und dann haben wir Matrizen. Und dann haben wir Faktoren. Faktoren und dann studieren. Okay? Und dann haben wir Datenrahmen. Okay? Das sind also die sechs
anderen Objekttypen , die wir in unserer Programmierung haben. Lassen Sie mich das erklären. Datentypen einzeln oder
Objekttypen nacheinander. Okay? Als Erstes sehen
wir also den Vektor, also das Vektorobjekt mit dem einfachsten Objekt
in unserer Programmierung. Und der Tod hat
wohl sechs Datentypen. Also werden wir sehen, nehmen wir an, ich
verwende x gleich wahr. Und wenn ich drucke x
drucke, was uns gefällt, kann ich
das schreiben und unterstützen. Wenn ich wissen will was für Daten
das X sind, was ich tun kann, kann
ich Druck verwenden
und dann Glas innerhalb der
Druckaltersklasse X. Okay? Und wenn ich das ausführe, erhalte ich die Klasse
von x ist logisch, also ist das der
logische Exit-Datentyp. Okay? Ebenso haben wir
numerische Unterstützung. Wenn ich x gleich 90 zuweise und das einfach nach y kopieren lasse gebe ich hier das Plus von y ein. Und wenn ich den ganzen Quellcode verwende, die Klasse, warum
Swing Nomadic, oder? Jetzt
weisen wir also nicht Otorrhö zu, deklarieren
nicht den Datentyp von Y. Welchen Wert wir
auch immer auf dieser Grundlage
zuweisen. Die Variablen sind, der
Datentyp wird festgelegt. Okay? Also musste er
aufgrund einer Logik rehabilitieren. Es ist also logisch. Und hier haben wir nomadisch gegeben, also ist es noetisch. Das nächste Ding ist Indien, oder? Nehmen wir an, 90,9. Also, was wird das C sein? Es ist kein Nomadentempo. Jetzt ist das nächste Ding
wirklich Thin Integer. Nehmen wir also D an, und ich weise
einige Werte zu, natürlich 34. Okay? Und dann verwende ich
Print Gloss Plaza de. Wenn ich die Druckklasse
bis zu dir benutze, welche Heckklappe? Siehst du, ich werde nomadisch. Tut mir leid, ich gehe ins Innere. Nein, class up this integer d ist up integer datatype, oder? In ähnlicher Weise haben wir eine
komplexe Zahl angenommen und deklariert, drei bis plus fünf hoch. Richtig? Und wenn ich Cluster V setze, was uns gefällt,
sehe ich, dass die Klasse von I komplex ist, also dieses V, jede komplexe
Zahl zwei plus Phi. Nehmen wir in ähnlicher Weise Sinus
C als ReLU-Programm an. Wenn ich das Glas hochziehe, sehe ich, was es hier wäre, Charakter
zu sein, oder? Lassen Sie mich also den
gesamten Quellcode C ausführen. Jetzt hole ich mir den Charakter
Glass Up Sis. Als Nächstes, was
überhaupt unterstützt wird, verwende
ich Blau und
weise ihm ein neues Zeichen zu, um zu zeichnen und Java zu
verwenden. Und wenn ich
Klasse von Problem B ausdrucke , wäre
es, mal sehen. Es ist das Rohmaterial. Okay? Als Nächstes
werden die seltsamen Objekte Vektoren genannt, okay? Das sind also die Vektortypen wie Glas und w
ist ein Stab in der Nähe. C ist die Zeichenklasse von v ist eine komplexe Zahl plus
oder p ist eine Ganzzahl, Klasse von y ist numerisch und x in der Nahaufnahme ist logisch. Das sind also die
Datentypen oder Objekttypen, kann
man in unserer Programmierung sagen. Lassen Sie mich
diese Datei also auch speichern. Datentypen. In der nächsten Vorlesung werden
wir sehen, wie wir unseren Vektor erstellen
können, okay?
7. Vektoren in R erstellen: Hallo und willkommen zurück. In der vorherigen
Vorlesung haben wir also
die verschiedenen
Datentypen der R-Programmierung gesehen . In dieser Vorlesung werden wir
etwas über Vektoren lernen. Wie wir einen Vektor
mit den meisten Personen-Elementen,
mehr als einem Element
oder Control N erstellen können mehr als einem Element
oder Control N Ich erstelle eine neue R-Skriptdatei. Und hier werden wir unsere Schritte zum
Erstellen eines Vektors mit
mehreren Elementen,
mehr als einem Element,
aufschreiben Erstellen eines Vektors mit
mehreren Elementen,
mehr als einem Element, . Okay? Also was ich tun werde, ich werde versuchen, Hockey zu kreieren
und zu rektieren. Also unterstütze. Ich möchte einen
Vektor namens g erstellen. Und ich möchte
ihn mehreren Werten zuweisen. also in unserer Programmierung Wenn wir also in unserer Programmierung einen
Vektor mit mehreren Elementen erstellen wollen, müssen
wir eine Funktion
namens C-Funktion verwenden, oder? Diese C-Funktion
ermöglicht es uns also,
mehrere Elemente zu erstellen und mit ihnen zu korrigieren. Okay? Wenn Sie also die Klammer sehen
und dann schließen, und dann in diese Klammer legen, können wir unsere Elementsunterstützung
schreiben. Ich möchte den Namen
eines Landes erstellen. Nehmen wir an, Alport,
Australien, Großbritannien. Okay. Südafrika. Unterstützen Sie digitale Elemente. Ich erstelle innerhalb dieses Vektors. Okay, also können wir
die Funktion verwenden, um
einen Vektor mit
mehreren Elementen zu erstellen. Stimmt es? Jetzt verwende ich einfach
Print und gebe Ci ein. Dadurch werden also die
Werte innerhalb des Directors gedruckt. Also lass mich das ausführen. Lassen Sie mich diese Datei speichern. Und ich speichere diese
Datei als Rektor Punkt. Okay? Und all diese Dateien
werden unser Level in diesem aktuellen Arbeitsverzeichnis sein
, das wir gezippt haben. Und ich werde diese Akten beglaubigen. Also schon kannst du es herunterladen
und weitermachen. Okay, lassen Sie mich
diese Quelldatei ausführen. Jetzt sind wir dran, lassen Sie mich diese Konsole
leeren und sie erneut ausführen. Also sehen Sie hier, jetzt erhalten wir den Wert für den
t-Vektor als Australien, Großbritannien, Südamerika
und Russland, oder? Das heißt also, ein Vektor mit mehreren
Elementen darin. Wir können, wir haben
gesehen, wie das Sortieren funktioniert. Wir haben gesehen, wie wir unseren Vektor mit
einem einzigen Element wie Indien
erstellen können . Und es wird uns den
Wert im Gehirn geben. Es wird uns beim Audit geben. Auf diese Weise können wir also einen Vektor und ein
Objekt mit einem einzigen
Element
erstellen und wir können Funktion c
verwenden, um einen
Vektor mit mehreren Elementen zu erstellen. Und nehmen wir an, wenn Sie Glas von G
drucken möchten , was wird das Ergebnis sein? Kannst du es erraten? Lass uns sehen. Zeichen C, die
Nullzeichen. Es gibt uns also das S-Zeichen des
Cluster-T-Vektors. Nehmen wir an, wenn ich
das auf 0 ändere, tut mir leid, lass mich zuerst
diese Klasse von t ausdrucken . Also das
Cluster-Zeichen bitte hier. Was ich jetzt mache, ich ändere es
einfach auf 200, einen numerischen Wert, okay? Und ich werde versuchen zu rennen,
habe versucht, das auszuführen. Und dann versuche ich,
diese letzte Aussage C zu wiederholen. Und jetzt stellen wir
das Glas auf. B hat einen Nomaden. Ähnlich, wenn ich
hier 120367900 ändere. Und wenn ich diese Quelldatei ausführe, was wir bekommen,
bekommen wir die 12367900. Und die Klasse von G wird
jetzt auf numerisch umgestellt. Welche Daten Sie
also auf der Grundlage dieses Datentyps
des Vektors verwenden werden, wird nicht im
Voraus entschieden , wie bei C- oder
Java-Programmierung, okay? Das ist also der Unterschied
zwischen C und Java n, oder? Was auch immer Sie auf dieser Grundlage
verwenden, es wird entschieden.
8. Sequenz in R: In dieser Vorlesung werden wir etwas
über Sequenz lernen. Wir werden etwas über
die Sequenzfunktion in
r lernen . Was machen wir also mit der Sequenzfunktion
, die wir sehen werden? Aber vorher möchte ich Ihnen noch eine
wichtige Sache sagen, die ich
in der vorherigen Vorlesung vergessen habe, und das ist Unterstützung. Ich erstelle einen Vektor
und verwende die C-Funktion. Und wenn wie hier, habe
ich eine Funktion erstellt,
die nur numerische Werte verwendet. Die Klasse dafür wird also
numerisch sein , da alle
Elemente numerisch sind. Was wäre, wenn ich ein Zeichen gebe
und dann eine Zahl gebe und dann eine logische Zahl
durchgehe und dann eine Ganzzahl gebe. Und wenn ich das durchführe und wenn ich zuerst diese Recta bringen lasse
, sehen Sie, hallo, 67 durch alles
bis zu einem Zitat. Warum? Denn wenn wir, wenn wir eine Vektor-Z-Funktion erstellen und wenn eines der Elemente Zeichen hat,
alle anderen Elemente mit einer
numerischen Ganzzahl oder einem logischen
Element , wird
es in eine Zeichenfolge umgewandelt
. Also, wenn ich, lass mich das einfach kopieren und wenn ich ein Glas Wasser hineinlege, wird
es
zum Charakter. Also werden alle anderen Elemente
in das Zeichen umgewandelt. Wenn ein Element ein Zeichen ist, alle anderen numerischen, göttlichen, logischen oder ganzzahligen Elemente werden alle
anderen Elemente das Zeichen
umgewandelt und die Klasse dieses Vektors
ist Zeichen. Denken Sie also daran,
wenn alles numerisch
ist, wird es numerisch sein. Wenn alle Integer-Klassen
Ganzzahlen sind, aber wenn sie aus
Ganzzahl und Zeichen gemischt sind, wird
die Ganzzahl
in das Zeichen umgewandelt. Wenn jemand, ein beliebiges Element, ein Zeichen
ist, wird
alles
in das Zeichen umgewandelt. Okay, das ist zur Klarstellung. Als Nächstes
erstelle ich eine neue Skriptdatei. Ich weiß nicht, warum
das nicht steigt. Okay. Das ist eine Art von Fehlern. Ich weiß nicht warum. Also werden wir jetzt
etwas über die Reihenfolge lernen. In R können wir also eine
Zahlenfolge
erstellen , wie angenommen, ich
möchte eins bis zehn erstellen. Ich möchte die
Zahlen eins bis zehn drucken. Das kann ich in zwei Schritten machen. Auf zweierlei Weise. Ich kann das in zwei Schritten tun, aber auf zwei Arten kann ich das tun. Ich kann einen Doppelpunktoperator oder die
Sequenzfunktion verwenden. Also werde ich als Erstes versuchen, eine
Zahlenfolge zu erstellen. Ich weise ihm einen Wert zu. Nehmen wir an,
ich möchte die Sequenz haben. Nehmen wir an, ich sage, sehen Sie,
ich erstelle eine fertige, wir werden sehen, dass wir einen Mehrwert haben
werden. Ich möchte ihm einen Wert von
eins bis sieben oder eins, um es zu erhalten,
oder eins zu einhundert zuweisen . Also, wie kann ich das machen? Ein Doppelpunkt, 100. Wenn ich eine Farbe bei
100 mache und wenn ich sie ausführe,
was sie tun wird, wird eine Sequenz von 1 bis 100
erstellt. Lass mich sehen. Sehen Sie hier. 1200 Zahlen
waren Generatoren, also wird eine
Zahlenfolge von 1 bis 100 erstellt. Also lass mich die
Konsole auf die rechte Seite stellen. Jetzt wird es einfach sein, den Code
hier zu verstehen und zu schreiben und die Ausgabe
wird hier sein. Und lass mich, okay. Was wir nun tun müssen, um eine Sequenz
zu erstellen, wir müssen die erste Zahl angeben von der aus wir beginnen möchten. Und dann müssen wir die Endnummer
angeben. Angenommen, ich erhalte zehn und
es schlägt bei diesem Tool fehl, es wird eine Sequenz 1-10 erstellt. Wenn wir also eine Sequenz
erstellen möchten, können
Sie diesen Doppelpunktoperator verwenden und Sie können eine
Zahlenfolge erstellen. Angenommen, ich möchte die Zahlen 1-20
erstellen, oder ich möchte zwei bis 20 erstellen. Wie können wir das machen? Wenn ich das durchführe, was wir sehen werden, werden
wir 2468 auf 20 erhöhen. Also jedes einzelne Element. Eine Sequenznummer wie
eins wird mit
22 multipliziert und mit zwei
multipliziert. So. Wir werden es schaffen, richtig. Ebenso kann ich die Reihenfolge
der Punkte erstellen. Ich wollte eine
Sequenz von 2,5 bis vier erstellen. Das schaffe ich. Wenn ich f c Hier drucke, erhalte
ich 2,53,
0,5, weil das nächste
für Valley sein wird. Es wird also die
Sequenz ab 2.52 drucken. Und wenn ich hier 40 verwende, gibt
es dem Ecto 0,53, 0,5 bis 39 Punkte
, oder? Nehmen wir auf die gleiche Weise an, ich
möchte eine Sequenz
aus zwei Doppelpunkten erstellen , 20 minus eins. Und wenn ich D drucke, können Sie sich vorstellen, was die Antwort sein
wird? Lass uns sehen. Jetzt kommen wir von eins zu 19. Warum es
eins zu 19 kommt, weil niemand
von diesen 1,20 minus sein wird. Es wird also tatsächlich
die Zahl Von eins bis 19,
bis minus 11 und minus 119 generieren die Zahl Von eins bis 19, . Die Boards werden uns also genau hier
das gleiche Ergebnis geben. Okay? Die nächste Sache ist, wir es auch auf
andere Weise machen können. Ich kann es gebrauchen, tut mir leid. Ich kann eine Variable a verwenden, ich kann einen Wert Acht zuweisen. Und was ich dann tun kann, das kann
ich, ich will die Zahlen 1-8
generieren. Also ich kann, wenn ich dieses
Tool starte, was ich bekomme, werde
ich in die Reihenfolge
der Zahlen 1-8 kommen, oder? Also auch auf diese Weise können
wir der Variablen oder dem Objekt e einen Wert zuweisen, und dann können wir ein ist darauf setzen, anstatt
es zu schlagen, wir können eins zu a setzen. Und das wird
uns auch dieselbe Ziffer geben. Ein bis acht Zahlen, die
ich generiert habe. Ich kann
auch eins minus a setzen und sehen, was das Ergebnis von Null bis Sieben ergibt,
denn es wird eine minus 172027-Sequenz
generiert. Wenn ich ein Minus
Eins in die Klammer setze. Und wenn ich versuche, das auszuführen, erhalte ich
jetzt eins bis sieben weil das zuerst
ausgeführt wird, okay? Es wird also 7.1 sein , weil wir
diesen hier nicht abziehen. Denn wenn es in
der Klammer rein und rein ist, bekommt
die Klammer
die höheren Preprints. Das wird also zuerst ausgeführt. Eins ist vor sieben, heißt. Es werden die Zahlen 1-7 generiert. Abgesehen davon können wir
Sequenz verwenden, um eine
Folge von Zahlen
zu erstellen , um zu unterstützen, dass Sie eine
endliche SEQ erhalten und ich gebe
ein Komma, ein Komma fünf. Welches Ergebnis werde ich bekommen? Ich nehme die Reihenfolge
der Zahlen 1-5, oder? Ähnlich, wenn ich
eine Folge von Neun
und welche digitale
Zielfolge der Zahlen 1-9 angebe . Hier gebe ich eins
bis fünf, das heißt 1-5. Und wenn ich
die vierte Ziffer nicht gebe, was wird benötigt, es wird standardmäßig 1-9
generiert, okay? Das, das ist der
Standardcharakter der Sequenz. Okay? Als Nächstes können wir
diese Funktion auch auf
andere Weise verwenden . Ich kann von wässrig
annehmen, um 8,2 bis 32 anzunehmen. Und wenn ich es starte,
was wird
es tun, es generiert Zahlen
aus 32, 32, okay? In ähnlicher Weise können wir auch die
Reihenfolge verwenden , da ich
die erste Nummer behalten kann. Dann kann ich die beiden
Zahlen angeben, nehmen wir acht an. Und dann kann ich dem geben, was die
beiden hier machen werden. Das wird es. Dies wird als Schritt bezeichnet. Also lass es mich hier schreiben. Sequenz Koma zuordnen, Schotterkomma
unterstützen, Schritt bis. Dieses Argument ist ein Schritt. Lassen Sie mich das zuerst ausführen
und dann erkläre ich es. Sehen Sie hier, was wir
bekommen. Wir bekommen. 24681012. Was es tut, anstatt eine
Sequenz von 234 bis 12 zu erstellen,
was es tut, es erzeugt,
es gibt uns, es gibt uns, zwei bis vier zu
addieren. rechts gibt es eine Lücke, weil wir
den Schrittwert mit zwei angegeben haben. Also zwei plus 244
plus 266 plus 28, dann unterscheiden wir bis zu
zwischen diesen beiden Sequenzen. Das ist also das Step-Argument des
Benutzers, das ist das
Step-Out, wenn dies
das Step-Argument ist , oder? Wir können auch ein anderes Beispiel sehen. Angenommen, ich möchte
eine Sequenz von zehn, 10-25 erstellen. Und ich möchte die
Reihenfolge um Wine, Seven Flame erhöhen. Also lass mich das ausführen. Saudi Cl, was wir
bekommen, bekommen, die Zahlenfolge fängt bei
zehn an , weil du
zehn gegeben hast und es geht bis 25. Und was es tut, es fügt 0,75
zu jedem Wert oder
zehn hinzu , es wird beginnen, dann wird es 0,75 hinzufügen, dann 10,75, was es tun wird, es wird weitere
0,75, 0,5, 12,25 hinzufügen. Also dieses Byte, sieben,
fünf Minuten, es wird
den Wert um 0,75 erhöhen. Nehmen wir an,
wenn ich das mit drei mache, wird das Ergebnis
101-316-1920, 2,25 ergeben. Wenn ich
den Wert auf fünf erhöhe, was passiert, dann wird es
1015, 2025 so. Okay? Auf diese Weise können wir die Sequenz
generieren. Es gibt noch eine andere Sache
, die Länge genannt wird. Nehmen wir an, ich möchte die Zahlen 25-50
erstellen und die
Länge gleich sechs halten. Was es hier tun wird, ist,
dass wir
mit 25 beginnen, dann 630, dann 35,40, 45 und dann 50. Es wird also eine Folge
von sechs Zahlen zwischen 25 generiert. Und wenn ich es schaffe, nehme ich an ,
dann wird
es die Zahlen 25, 27 erzeugen. Also was es tun wird, 25-50, es wird zehn
Zahlen mit der Gleichheit erzeugen, Beispiel 205-20-7303 Punkte,
ungefähr so. Okay? Wenn ich 100 gebe, generiert
es Hunderte
von Sequenzen, oder? Wenn ich es einem geben würde, was es tun würde, es würde nur eine Zahl 25-50
generieren. Wenn ich zwei gebe
, werden zwei Zahlen generiert. 25,50. Wenn ich drei behalte, wird
es durch drei
geteilt, siehe 2.537,5 und 50, okay? So wie das. Es wird also versuchen,
drei Sequenzen zu generieren, 25-50.
9. Funktion replizieren: In dieser Vorlesung werden wir etwas über die
Replikationsfunktion lernen. Also, welche
Replikationsfunktion wird das tun. Also werden wir diese
App rep verwenden, die repliziert und wann wir etwas replizieren
wollen. Also, lassen Sie mich es
Ihnen anhand eines Beispiels zeigen. Nehmen wir an, ich möchte
eine Sequenz erstellen , in der ich 58 Mal wiederholen
möchte. Ich verwende diese Funktion und
gebe fünf an, die ich wiederholen möchte. Und hier gebe ich
mal dreimal 28. Was diese
Replicate-Funktion also tun
wird, wird fünfmal wiederholt. Also, was du
hier siehst, 5558 mal. Okay? Diese Replicate-Funktion
repliziert also dieselbe Zahl. Replizieren heißt wiederholen, es
wird achtmal wiederholt. In ähnlicher Weise können wir auch
Charaktere verwenden. Unterstützung, die uns geben wird. Und dann gebe ich Zeiten an, die drei oder zwei
entsprechen. Es werden drei
ds, ds, ds, ds gedruckt. Es wird dreimal eine Sequenz
von BSD SDS erstellen. Okay? Denkt also daran, was auch immer
wir hier geben, es wird
mehrfach aufgebraucht werden, okay? Auf die gleiche Weise, wie wir even verwenden können, können
wir das Objekt an die
andere Anwendungsfunktion übergeben. Nehmen wir an, ich wollte, ich habe es geschaffen, um die Funktion „
Kunst replizieren“ zu unterstützen. Ich möchte eine Variable R erstellen. Nun, ich möchte die Sequenz 3-6
generieren. Also, was diese drei bis
drei bis sechs sind, werden wir seltsam machen. Wenn ich es ausdrucke, wird 34568-Support
erstellt. Ich verwende hier die
Funktion Replizieren. Und was ich tun werde, werde
ich bestehen, diese Kunst
könnte sich replizieren. Und hier bekommst du zweimal. Was es tun wird, wird
diese Sequenz wiederholen , 3-6 zweimal. Okay? Wenn wir das also ausführen, was es ergibt, wird es
3456 und dann wieder 32562 mal bekommen . Wenn ich drei schaffe, wird
diese Sequenz dreimal
wiederholt. Also 3456, wieder 3456
und wieder 3456. Also, wie oft
es wiederholt wird, wird
die gesamte Sequenz so oft
wiederholt, oder? Genauso wie wir,
tut mir leid, haben wir hier ein anderes
Argument. In dieser Anwendungsfunktion. Das heißt, nehmen wir an, ich
verwende denselben
Objektbereich und möchte jedes Objekt darauf anwenden. Wenn ich mich jedes Jahr bewerbe, habe ich mich dreimal
beworben. Jetzt wende ich
jeweils gleich zwei an. Also, was es tun wird, mal sehen. Ich nehme an, ich führe das aus.
Was es tut. Es ist das, jedes Element 3-6
wird zweimal wiederholt, und dann geht es zur
nächsten Anzahl von Monaten, also drei, zweimal 33, dann 44, dann 55, dann 663-344-5566. Also
wird jedes Element wiederholt und dann wird mit
dem nächsten Element fortgefahren. Und früher
wird jedes Element wiederholt. Hier? Jedes Element
wird wiederholt, und dann geht es
zum nächsten Element. Und hier wurde die ganze
Sequenz wiederholt. 3456, dann wieder 3456. Und doch hat 3344
unser Porträt unterstützt. Drittens, was es tun wird, es wird, jedes Element wird der Beschützer
sein, Zeit 333444, dann 555666. Das ist also der
Unterschied zwischen den Zeiten und den einzelnen in der
Replikationsfunktion. In der
Replikationsfunktion gibt es zwei Argumente, dann wiederholt
sich jedes Mal die gesamte Sequenz
so oft. Und jedes Testament, jedes Element
wird dafür viele Male wiederholt. Und dann wird die Sequenz wie 333444
erstellt, so.
10. Vektorelemente zugreifen: Hallo und willkommen zurück. In dieser Vorlesung
lernen
wir, wie man auf Vektorelemente zugreift. Wir haben gesehen, wie wir Vektoren in R
erstellen können . Was ich
nun tun werde, dass Vektor Henry versucht, auf das
Element der Vektoren zuzugreifen. Wir werden sehen, wie wir auf
die Vektorelemente in R
zugreifen können Dafür muss
ich eine Datei
erstellen und ihr einen Namen geben. Ric dot R. Okay? Was ich nun mache, ich erstelle ein Rechteck
mit einem Namen, Monat. Und für den Monatsvektor, was Alice groß und klein ist. Monate. Januar,
Februar, März, April so. Okay? Die C-Funktion, und ich werde versuchen, die Werte Jan
zu speichern. Was ich hier mache, ich erstelle einen Vektor
und installiere
diesen Vektor in den Objektmonat, okay? Und wie viele
speichern dann die Werte? Januar, Februar,
bis Dezember. Okay. Jetzt haben wir erstellt und festgelegt, wie wir auf
die Elemente des Vektors zugreifen werden. Was ich dafür tun werde, lassen Sie mich die Konsole
hier löschen , damit wir das Ergebnis hier
sehen können. Also, wenn ich das mache und die Monate
Januar bis Dezember laufe , okay? Was ist jetzt, wenn ich
auf das App Play zugreifen möchte? August oder September so,
okay, dafür ,
was wir tun müssen, kann ich erstellen, ich kann ein weiteres Tool für den
Vektorunterstützungsmonat erstellen. Und dafür, was ich
tun werde, werde ich einen riesigen Monat brauchen. Und es war die Großbuchstabe
und man sieht nur die Funktion. Und innerhalb der C-Funktion behalte
ich den Index für die
Unterstützung am 1. Januar 2344. Komma sieben. Komma neun. Okay. Also, ähm, ich möchte auf
den Monat für 7,9 zugreifen und ein Tool zum Ausdrucken des Monats. Also, wenn ich diese beiden durchführe, was wir jetzt bekommen,
bekomme ich April, Juli und September, denn
was der Index ist vier, dann 567 für Juli und für
September sind es neun. Auf diese Weise können wir
unseren Zugriff die Elemente
einer Vektorfunktion nennen . Ein Vektor. Also ein Vektorobjekt, auf das wir
wie auf das X zugreifen können, wenn Sie auf
ein bestimmtes Element zugreifen
möchten. Das kannst du machen. Wenn ich es auf drei ändere, lege eins und zweimal. Und wenn ich diese
beiden Aussagen durchführe, bekommen wir, ja,
wir bekommen März und dann
normal und drehen sie um wir bekommen März und dann
normal und ,
ist Montag, Mai. So können wir auf
die Vektorelemente zugreifen. Wir können auch x die
Vektorelemente verwenden logische Indizierung verwenden. Wie macht man das. Nehmen wir an, ich erstelle
ein weiteres Objekt, Monat drei und unterstütze welchen Monat ich jeden Monat
zugreifen möchte. Und die große Klammer
und innerhalb der C-Funktion, was ich tun werde
, zuerst unterstütze ich true und dann gebe ich false. Und dann werde ich falsch. Dann werde ich wahr. Nehmen wir an, ich übergebe
diese vier Werte, wahr, falsch, wahr. Und wenn ich Monat drei drucke,
was passiert dann? Lassen Sie mich das ausführen und das Ergebnis
sehen. Was wir bekommen,
wir bekommen Januar. Der erste Monat
stimmt. Es wird also hier gedruckt. Dann das nächste Falsch, Falsch. Februar, März
wird also falsch sein,
das heißt, es wird nicht sein, wir greifen nicht auf
Februar und März zu, oder? Diese beiden Werte
werden also auch nicht da sein. Es ist Februar, März
ist hier nicht gedruckt. Dann stimmt das für den vierten
. Wir kommen also auf vier. Und dann das restliche
Element, das wir nicht gegeben haben. Es kommt also entweder im Mai,
August und September. Es wiederholt sich. Also stell dir vor, was es tut. Es ist wieder der
gleiche Kampf in dieser Sache. Janet, britische Bürgermeisterin, Gas
im September und Dezember. Also wiederholt es die Sache. Okay. Als Nächstes können wir tun. Wir können eine negative Indexierung verwenden. Nehmen wir an, ich erstelle
ein anderes Objekt, Monat für und was ich tun werde, weisen
wir dem
Monat Alkohol Monat zu, und sehen uns zumindest die Funktion an. Und hier ist ein Projektil, gib
minus zwei Komma minus fünf. Also, was wird das bewirken und den vierten Druckmonat
unterstützen. Und wenn ich diese
beiden starte, was passiert dann? Ich erhalte Januar, März
und dann vielleicht auch nicht Da sind Februar und Mai nicht
gedruckt, weil minus zwei bedeutet, dass die zweite Indexierung
minus zwei bedeutet, dass wir jeden
Februar, Februar
nicht sein , auf
minus zwei und -5 Minuten im zweiten Monat und
dem Monat, auf den wir nicht zugreifen
möchten , außer dass alles
andere gedruckt wird. Okay. Februar und
Mai werden also nicht gedruckt. Siehe hier, Februar
und darf nicht gedruckt werden. Akzeptiere, dass alle anderen gedruckt sind. Wenn ich -12
eingebe, wird der Dezember nicht mitgedruckt. Also jetzt ist die Norm, dass sie
jemand sind, nicht da. Wenn Sie also auf
Elemente zugreifen möchten und wir einige Elemente belassen
möchten, können
Sie Dopamin für
diesen Index verwenden und er
wird nicht gedruckt.
11. Vector in R: Hallo und willkommen zurück. In dieser Vorlesung werden
wir also
etwas über Vektormanipulation lernen. Also werden wir sehen, wie wir
eine Läsion innerhalb der
Vektorelemente bilden können . Wie wir zwei Vektoren addieren können, wie wir zwei Vektoren subtrahieren können, wie wir eine Division
innerhalb von zwei Aktoren durchführen können. Und wir werden sehen, wie wir die Vektoren multiplizieren
können. Also lasst uns anfangen. Also erstelle ich eine
R-Skriptdatei und gebe ihr einen Namen. Viele törichte Manipulationen. Okay. Lassen Sie mich also die Konsole hier leeren, damit
wir richtig sehen können. Okay, also als
Erstes, was ich mache, ich führe automatisch aus, oft nicht innerhalb von zwei
mit zwei Vektoren. Also als
Erstes, was wir tun werden, wir zwei Vektoren erstellen, werden
unseren Vektor F1 erstellen, unterstützen. Und ich erstelle einen
Vektor, den Vektor F1. Und was ich tun werde, ich weise einige Werte zu. Ich nehme an, sie sind es
noch nicht, 95 oder so. Okay, also erstelle ich einen Vektor,
F1, und kopiere und füge ihn ein. Und ich erstelle
einen weiteren Vektor, F2. Und wir werden irgendwo
hinkommen, wo viele D und 20 tippen. Okay? Das wird reichen, okay. Jetzt haben wir also zwei
Vektoren, F1 und F2. Ich möchte eine Addition durchführen. Okay? Was ich tun werde, ich erstelle weiteren Vektor, ein
weiteres Objekt a. Und was ich mache, ich F1 zu, die Formel F1 plus F2. Also, was ich hier mache, ich füge diese beiden Vektoren F1 und F2 hinzu und weise
sie Objekt a zu. Okay, was ich jetzt
mache, ich drucke a. Also lass mich dieses n ausführen. Also bist du digital fertig. Siehst du, weißt du, was ich kriege? Ich erhalte das Ergebnis 24, 24, y plus 212. Das erste Element
dieser beiden Vektoren wird hinzugefügt, 12 plus 214. Dann
ist 78 plus acht 690 plus 31, 25 plus 25, 30. Auf diese Weise können wir also eine Region
aufführen. Nehmen wir an, ich möchte ein paar Tracks
spielen und was
ich tun werde, kopiere ich einfach. Ich habe an diesem Tag wirklich mit den
Mietern gespendet. Ja. Und ich bringe Tränen mit
und was ich tun werde, ich mache F1 minus F2. Also F1 minus F2. Wenn ich welche Heckklappe mache? Siehst du, ich erhalte wieder 107060
und -20 y, 12 minus 21078 -70, 90 -30, 65 -25, 20. Auf diese Weise können wir die
Subtraktion auf die gleiche Weise durchführen. Wenn y Deine Multiplikation, ich schaffe über m und
was für ein niedriges F1 und F2. Und ich drucke, wenn ich das ausführe, bekommen wir 12, wenn zwei zu 24, 78 zu 862490 zu
3027005205125. In ähnlicher Weise können wir
eine Division durchführen. Nehmen wir an, ich erstelle
einen Vektor d und mache F1 geteilt durch zwei. Und ich werde den Deal ausdrucken. Und wenn ich das durchführe, werde ich dich um zwei
krank machen auf 678/9, 0,759, 0,7, 5,90, 233 5/25 ist 0,2. Okay? Auf diese Weise können wir eine ordentliche Subtraktion,
Multiplikation und Division
durchführen . Also lass mich hier schreiben, das ist eine Mehrfachanwendung. Und dann ist das die Region. Auf diese Weise können wir Addition,
Subtraktion, Multiplikation
und Division am Rectus
durchführen . Und das nennt man
Vektormanipulation.
12. Recycling von Vektorelementen: Hallo und willkommen zurück. In dieser Vorlesung werde
ich Ihnen also etwas sagen
, das ich
Ihnen
in der vorherigen Vorlesung nicht vollständig beigebracht habe. Und das ist eine sehr
einzigartige Frage, die
Sie sich vielleicht gestellt haben ob es sich um einen physischen
oder einen Offline-Kurs handelt. Und Sie müssen gekommen sein, diese Frage ist Ihnen vielleicht auch in den Sinn
gekommen. Nehmen wir an, ich habe zwei
Vektoren, F1 und F2. Und F1 hat vier Elemente und F2 hat
nur zwei Elemente. Und was ist, wenn ich
diese beiden Vektoren hinzufüge? Nehmen wir an, ich führe die
Anfangsbedingungen für F1 plus F2 durch. Also hier vier Elemente und
hier zwei Elemente, eine Liste. Also, wie wird es funktionieren. Wenn wir also in R versuchen, F1 plus F2
auszuführen,
wenn wir versuchen, zwei
ungleiche Vektoren zu addieren, dann bedeutet
das, dass der zweite Vektor , der von
kürzerer Länge ist ,
Elemente recycelt werden, Elemente recycelt werden ihn
zu einer dunklen Länge
des ersten Vektors zu machen. Also,
was wird in diesem Fall passieren? Vector wird
so werden. Intern. Was? F2 wird wie
zwei Kommas Acht sein. Komma zwei, Komma acht. Okay? Also wenn aus zwei so
etwas wird, okay? Du auch, es wird
wiederholt, bis die Anzahl der Elemente in
der Formel 1 erreicht ist. Es gibt also vier Elemente, also wird es sich wiederholen. Das wird also so
etwas werden. Und dann wird es
den automatischen Betrieb durchführen. Lassen Sie mich diese Handerde, mit der ich mich
befasst habe , bearbeiten, damit Sie eine bessere Vorstellung
bekommen. Lass mich das klären und das
ausführen. Schau hier. Jetzt ist das Ergebnis 14, 86, 90 bis 13. Wie man vier plus, tut mir leid, zwei plus zwei. Entschuldigung, 12 plus 214. Und dann 78 plus 886 und dann 90 plus zwei. Weil die beiden, es
wird wiederholt werden. Also 90 plus 292,5 plus 813. Das wird also so werden. Wenn ich
hier noch ein Element hinzufüge, nehme ich an 80. Und wenn ich das starte,
was passiert dann? Mal sehen. Schau hier, wir bekommen hier
eine Fehlermeldung. längere Objektlänge ist
kein Vielfaches der Länge des
Starterobjekts. Es heißt, jetzt sehen Sie es noch. Dieses Element ist ein Viertel bis es aus
zwei Elementen besteht .
Zwei Elemente. Und F1 hat Spaß daran,
Phi-Variablen zu haben, oder? Wir verschulden uns. Das zweite, das erste Element hat zwei Elemente
und dieses hat fünf. Fünf ist also kein
Vielfaches von zwei, oder? Deshalb
kommen wir zu dem Schluss, denn zwei, wenn Sie fünf durch zwei teilen, erhalten
Sie den Rest eins. In diesem Fall wird dieser
Ruf nicht funktionieren. Aber wenn ich noch ein
Element hinzufüge, nehme ich sieben an. Und wenn ich versuchen würde, das auszuführen, wird das diesmal funktionieren. Jetzt bekommen wir das Diagramm , weil die Anzahl
der Elemente hier sechs ist. Und der zweite ist
22268/2, oder? Sechs ist Multiple
bis zum ersten L. Längere Elemente, längere
Vektoren hätten die Markierung. So viele Zahlen. Die Anzahl der Elemente
wäre mehrere App mögen
bestimmte Elemente sechs, oder? Sechs ist also das Multipolare
zu dieser Funktion, dieser Multiplikation oder Division
oder Addition, die Sie durchführen können. Aber wenn es fünf ist, dann ist zwei nicht das Phi, es ist nicht
das Vielfache von zwei und es wird
ein Fehler wie dieser ausgelöst. Okay? Also ich hoffe du hast es verstanden. In ähnlicher Weise können Sie dies auch tun
, wenn Sie eine Multiplikation
durchführen möchten. Hier bekommen wir die
Multiplikationsdivision, alles wird erledigt sein. Recycling
der Elemente erfolgt also nur, wenn das Vielfache der Elemente im sortierten Vektor dem Vielfachen
der Elemente im sortierten Vektor entspricht, je weicher die Elemente
im längeren Vektor sind. Also längere Vektoren, die
Anzahl der Elemente wäre das Vielfache dieser
Elemente, okay? Nummerieren Sie Sorta-Elemente. Okay. Ich hoffe, es
ist für dich klar.
13. Vektorelemente sortieren: Hallo und willkommen zurück. In dieser Vorlesung werden wir also lernen, wer
Vektorsortierung ist. Schauen wir uns also an, wie wir Vektoren sortieren
können. Okay? Was wir also lernen werden, das
Sortieren von Recta. Okay? Dafür haben wir also eine
Funktion namens sort. Also werden wir
die Sortierfunktion verwenden. also als Erstes Lassen Sie mich also als Erstes ein
Vektor-0-Wrack erstellen. Und dafür gebe
ich eine Zufallszahl, 349-082-7543, einige Zufallszahlen. Okay? Und nehmen wir an, ich möchte diese Vektorelemente
sortieren. Was ich also tun kann, ich kann einfach
weitere Objekte erstellen, die kaputt sind. Und was ich tun werde, ich nenne die Sortierfunktionsleisten so, was ein Nullvektor
für die Sortierfunktion ist. Und was diese
Sortierfunktion bewirken wird. Es wird diesen Vektor starten. Und was ich dann mache, ich drucke einfach den Start aus. Also hier drucke ich den sortierten Vektor und das
ist das zusätzliche Recto. Und ich übergebe diesen Vektor
an die Sortierfunktion und drucke dann
den sortierten Vektorwert. Lassen Sie uns das ausführen und sehen, dass dieses
Terminal
definitiv gelöscht ist , und führen Sie es erneut aus. Siehst du, wir
bekommen einen sortierten Vektor. Also 349, 273-043-6408. Es ist also in
aufsteigender Reihenfolge sortiert. Standardmäßig wird es also in
aufsteigender Reihenfolge sortiert. Die niedrigsten Elemente bewegen
sich also zuerst und dann
nimmt sie weiter zu. Okay? Auf diese Weise können wir in
R
sortieren und vektorisieren . Was ist, wenn ich diese Rinde sortieren
möchte? Ich will in absteigender Reihenfolge. Also, was ich dafür tun kann, kann
ich dieselbe
Sortierfunktion verwenden. Und hier, was ich tun werde, ich werde einfach weiter
abnehmen, abnehmen. Das ist logisch. Und ja, ich gebe es wahr. ich also abnehme, behalte ich den Nachteil bei
, weil er standardmäßig falsch ist. Und das wird es tun. Zunehmende Reihenfolge,
oder? Aufsteigende Reihenfolge. Standardmäßig wird es
in aufsteigender Reihenfolge sortiert. Was ich also tun werde, ich werde tun, dass sie
kulturelle Wahrheitswerte erstellen die den Vektor in
absteigender Reihenfolge
sortieren. Lassen Sie uns das also ausführen und schauen wir uns
nun diese Sortierung in die Reinigung oder eine 98 an,
dann 463-06-3420, 79.4. Auf diese Weise können wir
in absteigender Reihenfolge sortieren. Als Nächstes sehen
wir uns die Sortierung von Charakter,
Charakter und Zeichengerüst an. Damit wir auch annehmen können, dass
ich ein Rechteck habe, eines, das einige Werte hat wie für einige zufällige Dinge. Und das rote, blaue Land. Alles in einer Charakterform. Okay, das ist also der
Zeichenvektor. Es hat Werte
im Charakter. Und nehmen wir an, ich möchte das
sortieren und den sortierten Vektorwert
im Tierarzt
speichern, damit er funktioniert. Ich rufe die
Sortierfunktion auf und übergebe dieses eine Recta an
die Sortierfunktion. Und wenn ich diese beiden Zeilen ausführe, welcher Algorithmus?
Was magst du? Lassen Sie mich zu diesem Drucktool kommen. Also, wenn ich diese Linie
übernehme, was wir mögen
und du bekommst Blau, dann Land statt vier,
dann ertrinken, dendrite. Warum es so ist, weil B, dann C, dann F, dann r. Okay, es wird also in alphabetischer Reihenfolge
sein. Und was ist, wenn ich das
einordnen möchte? Aber er war schwieriger. Ich kann Sie immer weniger
zum Zeichnen aufrufen und jetzt
sehe ich, dass das verdient ist. Als wir mit der
Spülung angefangen haben, sind
dann f, dann C und dann B. Also muss D die Armut lösen, Baumwolle, auf diese Weise
können wir die Vektoren sortieren, sowohl
Zeichen als auch Zahlen, okay?
14. Entscheidungsfindung in R: Hallo und willkommen zurück. In dieser Vorlesung werden wir also etwas über
die
Entscheidungsfindung in unseren,
in unseren anderen
Programmiersprachen lernen . Wir haben die if-Anweisung,
wir haben die if-Anweisung, wir haben die Anweisung if else und wir haben die Switch-Anweisung. Damit können wir
Entscheidungen treffen. Wenn eine Anweisung bedeutet
, dass etwas wahr ist, dann wird die folgende
Anweisung ausgeführt. Und es bedeutet gefühlt, wenn
etwas wahr ist und wenn Sie
eine Bedingung stellen und diese Bedingung nicht erfüllt
ist, dann
wird die Else-Anweisung ausgeführt. Switch wird sehen, wie die Variable auf Gleichheit
getestet wird. Hier ist die Liste der Werte,
also werden wir sehen, ob es sonst noch so ist. Und dann werden wir den Schalter sehen. Lassen Sie mich also hier unsere
Skriptdatei erstellen. Und ich gebe dem einen Namen. Entscheidungsfindung, dunkle Kunst. Seetang. Lass mich die Konsole leeren
, damit wir das Gel sehen können. Also zuerst, was wir sehen werden, wir werden sehen, ob es leid tut, ich muss hier zuerst tippen. Wir werden sehen, ob Aussage. Okay. Also zuerst Realität, wenn Aussage. Und wenn es Regenwasser ist, ist
es
konsistent, konsistent. Jetzt Boolescher Ausdruck
und folgende Aussage. Wenn also der boolesche
Ausdruck wahr ist, wird die folgende
Anweisung ausgeführt. Unterstützen Sie, was ich hier tun werde. Ich erstelle ein Objekt a und weise einen Wert 67 zu. Du kannst alles schreiben, okay? Und was ich tun werde, ich schreibe,
wenn die Aussage weniger als 70
ist, dann werde
ich versuchen, dann werde
ich versuchen, weniger als 17 zu drucken. Okay? Nehmen wir an, das ist
das, was ich aufführen möchte. Also, wenn ich das starte, was kriege ich? Sehen Sie, das Ergebnis, das ich
erhalte, ist weniger als 70. Angenommen, ich ändere
diesen Wert auf 75, 75. Und wenn ich versuchen würde,
das auszuführen, was passiert? Ich werde keine
Ausgabe bekommen, weil E 75 ist. Und wenn ich in
diese Wenn-Aussage eingehe, dann
ist das Nähen von weniger
als 70 größer als 70. Es wird also nicht
in diese Erklärung eingehen. Es erfüllt die
Hundebedingung nicht und diese Erklärung wird
nicht gedruckt, oder? Das nennt man also
IF-Anweisung, oder? Ebenso kann ich
wie eine Ganzzahl mit einem Punkt schreiben . Also der andere Teil ist Integer, und dann übergebe ich E und ein Licht ist. Lassen Sie mich das ausführen, weil
es hier eine Zahl ist. Und was ich noch teste, wenn es eine Ganzzahl ist, dann muss ich eine Ganzzahl drucken
, oder? Wenn ich sage, mache daraus eine Ganzzahl, die 75
L entspricht. Und wenn ich das ausführe, sehen Sie, jetzt ist a eine Ganzzahl. Es wird Malerei sein. Auf diese Weise. Wenn diese Bedingung
erfüllt ist, wird diese
nachfolgende Anweisung gedruckt. Okay? In ähnlicher Weise können wir hier
eine weitere Aussage platzieren. Wenn jede Ganzzahl,
dann wird diese gedruckt. Ich kann etwas anderes drucken. Der See ist nomadisch. Okay, also wenn ich renne, ist
das eine Ganzzahl. Wenn ich das auf numerisch ändere und das erneut ausführe ,
erhalten wir numerisch. Lass es mich versuchen. Wenn ich schon
angefasst habe , ist das numerisch. Und wenn ich das starte, was ist passiert? Okay, ich muss das ablegen. Und wenn ich das ausführe, ist die
Zeichenfolge eine Ganzzahl. Ich muss
die Aussage hier ändern, New Relic und hier
Integer, oder? Jetzt. Da a nomadisch ist, wird
diese Bedingung wahr. Drucken ist also nomadisch, Rate ist numerisch, ist nomadisch. Und diese Aussage ist
es nicht, sie geht nicht
zum anderen Teil über. Auf diese Weise können wir eine
Switch-Anweisung eingeben ,
für den Moment sehen wir sie. Die Switch-Anweisung. Also lasst uns die Switch-Anweisung
annehmen, ich habe einen Vektor D und verwende switch. Und dann Einblicke in
das, was ich tun werde. Ich unterstütze vier Kommas eins. Und ich gebe 2345. Und dann schließe ich den Schalter. Wenn ich dann in d eingebe, welchen Wert bekommen wir. Lass uns sehen. Wenn du vier hast, weil ich überlasse, was die
Switch-Anweisung tun wird. Es geht zum vierten Wert und es wird diesen Wert drucken. Also ein Jahr für gibt es 1234, also wird es vier drucken. Nehmen wir an, ich schreibe
hier etwas anderes. hallo. Dieses Hallo
wird also gedruckt. Okay? Lassen Sie mich Ihnen diesen
Druck zeigen, hallo. Und nehmen wir an, wenn ich eins oder zwei mache, dann wird
es gedruckt, dann geht es bitte zum
entsprechenden. Okay. Bisher zwei, es
wird auf den 12. gehen. Es wird diese drucken. Für drei wird es
zum Hallo gehen, für vier wird
es zum Hallo gehen. Fünf, es wird 55 drucken. Was es also tun wird, eine Switch-Anweisung
ermöglicht es, einen Wert auf Gleichheit mit
der Werteliste zu
testen. Das ist also die Liste der Werte. Und für sie beträgt die
Indexierung 1.234,5. Welchen Index Sie
Ihnen auch geben
, dieser Indexwert
wird gedruckt. Ich nehme an, ich habe drei gegeben. Also wird der Indexwert
drei gedruckt. 3 Minuten, 1233. Wirst du ein Geschenk für kaufen? Dann wird Hallo gedruckt. C. Auf diese
Weise können wir die
Switch-Anweisung in Heart verwenden.
15. Loop mit Repeat- und while: Hallo und willkommen zurück. In dieser Vorlesung
lernen
wir also etwas über die Loop-Aussage in unserer, was ist ein Loop? Eine Schleife ist eine Funktion. Du kannst eine Schleife sagen. Mit einer Schleife können wir eine
Anweisung oder Gruppe von Anweisungen
mehrfach ausführen. Wenn wir also eine Schleife
einfügen, wenn wir eine Anweisung
in die Schleife
einfügen, wird sie
mehrmals ausgeführt bis die Bedingung erfüllt
ist, oder? Solange
die Bedingung nicht erfüllt ist, wird dieselbe
Aussage immer wieder wiederholt. Eine Loop-Anweisung
ermöglicht es uns also,
eine Anweisung oder eine Gruppe von Anweisungen
mehrmals auszuführen. Und es gibt drei Typen. gibt es drei Arten
von Loop-Statements In R gibt es drei Arten
von Loop-Statements: Die erste ist Repute-Anweisung, die zweite ist eine While-Schleife. Und dann haben wir den
sehr beliebten One Loop. Also was ich tun werde, ich fange zuerst mit einer
Wiederholungsschleife an. Schauen wir uns also an, was
Wiederholungsschleife in R
ist Nehmen wir an, wir haben ein
Recto dem die Eisenbahn Indien unterstützt, Burton, okay? So wie das hier. Also werde ich es etwas später sagen. Wir haben also einen Vektor mit
den Werten
Indien, USA und Großbritannien. Und nehmen wir an, ich nehme
eine andere Route, wir an, ich habe ihr einen Namen gegeben. Und ich unterstütze
Kant genauso wie vier. Und was ich dann machen werde, hier funktionierten dreckige Füße. Und ich möchte
den Vektor einer bestimmten
Anzahl von Malen drucken . Okay? Was ich also tun werde, ist Bericht, den ich gegeben habe,
auszudrucken. Wenn du hier zählst, wenn die Zählung
weniger als zehn ist weniger als zehn ,
dann möchte
ich Rec drucken. Okay? Also werden sie sagen Welcher Brief. Also, wenn ich das starte, was passiert dann? Lass uns sehen. Wir sehen uns. Es wird das weiter drucken weil die Zählung dafür ist und
welche Bedingung ich gegeben habe. Mir wird angezeigt, wenn die Zählung weniger als zehn
ist, also wird dieser Ford immer weniger als zehn
sein, oder? Also was ich tun werde, verwende
ich hier zählen, zählen plus eins. Also jedes Kleid und ich erhöhen
den Zählwert auf eins. Lassen Sie mich jetzt damit aufhören. Und lassen Sie mich diesen Code erneut ausführen. Jetzt schau, was passiert. Es druckt es 123456
mal y ist das Extrem. Das erste Mal wird es kommen. Die Anzahl ist gleich vier. Es wird also gedruckt,
wann immer Sie wieder gehen. Aus der Zählung werden also fünf. Dann werden wieder vier gedruckt. Dann 54678 bis neun. Dann Extranet, die
Zählung wird zehn. Es wird nicht gedruckt,
es wird 45 drucken. Es wird 445.678,9 drucken. Der Nettostrom
wird also zehn werden, er wird aus dieser Schleife kommen. Das ist also die übliche Schleife. Okay? Auf diese Weise können wir
die Wiederholungsschleife verwenden, okay? Auf die gleiche Weise werden
wir versuchen, die while-Schleife zu verwenden. Also, was ich tun werde, ich werde wild drauflos. Und wieder
ist die Anzahl Waterloo geringer als angenommen. Solange der Zähler weniger als
acht ist, werde ich die höheren Landkreise ausdrucken und
für das, höheren Landkreise ausdrucken was ich Ihnen gebe,
eine Zählung unter acht, dann wird
Wake gedruckt und es wird die Anzahl
während der Schleife deutlich um eins
erhöhen. Also, wenn wir das machen, bekommen
wir Indien-USA.
viermal, oder? Weil
44 gedruckt wird, wird das Profil gedruckt. Es wird für sechs drucken,
es wird 47 drucken. Und sobald die Zählung acht
wird. Es wird aus
dieser währenden Schleife herauskommen. Okay? Auf diese Weise können wir also die
While-Schleife verwenden.
16. Für Loop und nächstes Statement: In dieser Vorlesung lernen
wir die For-Schleife in R
kennen Nehmen
wir an, ich erstelle rektal
einen Vektor d
, der
etwa zwei bis 20 enthält, okay? Bretter, wenn ich
es mitbringe , gebe ich mir die Zahlen 2-20. Okay? Was ich jetzt tun werde, schreibe
ich hier, ich werde es tun. Ich verwende eine Variable i in D. Also für jeden Wert von I in dem, für jeden Wert in diesem Vektor d, was ich tun möchte,
möchte ich drucken, oder? Und dann
will ich I plus eins machen. Ich bin gleich I plus eins. Lass mich, okay. Ich werde es mit einem Brief sagen. Lassen Sie mich das ausführen und
sehen, was wir bekommen. Was ich kriege, ich
kriege 234 auf 20. Was es also tut, es prüft, ob dieses Ich, in dem, für i, es wird 11 sein, nicht da ist, dann wird es um eins erhöht. Also wird es kommen und auch hier
nachschauen, ist das in D zwei, dann wird es wieder, ich gleich drei, dann wird es drei drucken. So. Es wird 20 drucken und dann wird es
aus der Schleife kommen. Auf diese Weise können wir also
den For-Loop verwenden, oder? Auf die gleiche Weise, was ich tun kann. Wenn ich hier eine einfache Sache nenne. Ich werde das entfernen. Und ja, was sonst tun? Ich kann hier eine Menge
Kondition reinstellen. Wenn ich auch den
Support 15 anrufe , dann werde ich, was ich tun werde, ich
drucke, ich schreibe. Wenn ich 15 habe, drucke ich. Ich habe mich hier umgezogen, ich nehme als Nächstes. Und dann drucke ich. Drucken, richtig. Also wir sehen uns, was wird passieren? Lassen Sie mich erklären ,
warum wir zu denen kommen. warum wir zu denen kommen. Wir haben das wieder gemacht. Was, was passiert hier? Ich will jeden Wert und ich, es druckt das, aber es überprüft den Wert. Wenn ich zwei Flugzeuge rufe, tut es das. Was mache ich als Nächstes. Also hier siehst du
2345678 bis 13, 14, es druckt richtig
und dann ist es denke, okay, ich bin gleich 15. Als Nächstes bedeutet Weiter, dass diese Titration
übersprungen wird. 15 werden hier also nicht gedruckt weil im nächsten Monat dieser Tracer übersprungen
wird. Also habe ich ein Preprint gerufen, das
heißt, diese Adresse und wir werden entkommen und der Fußabdruck
wird nicht gedruckt. Und dann
geht es zum Cystein und dann 161-718-1920,
nachgedruckt. Also nächsten Monat werde ich
überspringen, dass ich mich anziehe. Wenn ich also hier 17
verwende, dann werden die 17.
Titrationen übersprungen. Druck 16, 17 wird nicht
gedruckt, und 18, okay, wenn Sie
also einen
Stickstoff weglassen möchten, können Sie den nächsten verwenden. Ich hoffe, Sie haben eine Idee
, wie Sie es als Nächstes verwenden können. Wir sehen uns in der nächsten Vorlesung.
17. Funktionen in R: Hallo und willkommen zurück. In dieser Vorlesung lernen
wir Funktionen in In
R gibt es zwei
Arten von Funktionen. Also die eine sind
eingebaute Funktionen, eingebaute Funktionen und die andere sind
benutzerdefinierte Funktionen. Definiert. Okay? Es gibt also zwei
Arten von Funktionen, eingebaute Funktionen und
benutzerdefinierte Funktionen. Lassen Sie mich
Ihnen zunächst sagen, was eine Funktion ist. Funktion ist eigentlich so,
wenn wir eine Gruppe von
Anweisungen ausführen
und
einige Berechnungen durchführen wollen Gruppe von , wollen
wir etwas tun. Es ist also im Grunde so, als wäre eine
Funktion ein Schlüsselwort. Und in funktionalem
V hauptsächlich für eine lustige Gruppe von Aussagen, okay? Unsere Gruppe von Funktionen für
Gruppenberechnungen. Wir werden eine Berechnung durchführen
oder wir machen etwas
, das eine Funktion ist. Okay? Lassen Sie mich Ihnen also die
Grundstruktur einer Funktion erklären. Nehmen wir also an, unsere Funktion benötigt,
nehmen wir an, dass dies ein
Funktionsschlüsselwort in R ist Und was es
braucht, sind Argumente, oder? Es braucht also Argumente, also kann es eine beliebige Anzahl von
erweiterten Erweiterungen annehmen ,
eins, Komma zwei. Das wird also eine
Funktion sein, okay? Und in dieser Funktion können wir mit diesen
Argumenten
alles anfangen, oder? Nehmen wir an, diese Argumente
können einige Werte haben, also kann ich das unterstützen, ich kann einige
davon verwenden, um zu erweitern, sodass ich
Augment eins plus zwei ausführen kann. Und ich kann gerne einige dieser
12 Monate drei
ausdrucken. Das ist also eine Funktion,
bei der ich einige
dieser Funktionen ausführe , um sie zu
erweitern, zu erweitern und zu erweitern, und ich finde einige davon um ein
Plus Segment Tool zu erweitern. Das ist also eine Funktion
und ich kann
diese Funktion aufrufen , indem ich das Argument
übergebe. Nehmen wir an, ich gebe dieser Funktion, einer Funktion,
einen
Namen und weise
dieser ganzen Funktion zu. Und ich gebe ihm einen
Namen, eine Funktion. Okay? Was kann ich jetzt tun? Ich kann diese Funktion aufrufen, oder? Die beiden Argumente beherrschen, Argument eins, Argument zwei. Damit ich Spaß haben kann. Und hier kann ich drei
Kommas sechs ausführen. Ich kann bestehen. Wenn ich das starte, lass mich das erste
unter etwas Spaß das ausführen. Und dann lasse ich das laufen
, okay, ja,
Hawks One, das ist es. Also lass es mich noch einmal ausführen. Und wenn ich die
Funktion per Vorbeigehen aufrufe, okay, das ist auch falsch
Saudi für diesen Fehler. Und wenn ich
diese Funktion aufrufe , indem ich
diese beiden Argumente
3.6 übergebe , erhalte ich das
Ergebnis als neun, weil drei plus sechs bis neun. Das ist also eine
benutzerdefinierte Funktion,
rechts, wir haben bereits eine eingebaute Funktion
gesehen. Was sind also die eingebauten
Funktionen, die wir gesehen haben, wir haben eine Sequenz wie die
Sequenz eins, Komma, Acht gesehen. Und das gibt uns die
Reihenfolge der Zahlen 1-8. Diese Sequenzfunktion
ist also eine eingebaute Funktion
, die wir in unserer haben, also ist dies eine eingebaute
Funktion, die sie ausführt. Wir müssen kein Programm schreiben,
um die Zahlen 1-8 zu drucken. Das geht
automatisch, weil in dieser Sequenz
eine Funktion hinterschrieben wurde, wie es in der Coda soweit ist, wurde definiert,
dass, wenn wir
Sequenz verwenden und zwei Argumente
angeben. Eine ist zu helfen, es wird die Zahlen 1-8
generieren. Das ist also schon definiert und deshalb werden
sie auch als, sorry, riesige,
eingebaute Funktionen
bezeichnet, oder? Das sind also eingebaute
Funktionen, ähnlich wie wir
sie in einigen Sommern gesehen haben. Einer ist 28. Und das gibt uns die Summe
der Zahlen von eins bis eins. Es wird uns die
Ergebnisstatistiken auf die gleiche Weise geben. Wir haben die Hauptfunktion. Also tippe ich, ja, ich meine, nehmen wir an, ich komme zu
Nummer 23, Komma 90, 87. Und wenn ich
mich nicht gesehen habe und wir lesen 23 kann auch zwei Kommas Neun bedeuten. Und für den kostenlosen
Zahnarztbesuch kriege ich 5,5. Wir können also doc mean
verwenden all diese
eingebauten Funktionen zu sequenzieren. Wir haben also gesehen, dass
diese Anzeigen eine benutzerdefinierte
Funktion haben, benutzerdefiniert. Und diese Sequenz
und etwas Wasser. Eingebaute Funktionen. Okay? Was ich nun tun werde, wir können sehen, wie wir
diese Summenfunktion aufrufen können. Okay? Lassen Sie mich also diese Summe kopieren. Wir können diese Funktion also aufrufen indem wir die Argumente hier angeben. Und wir können das auch als x bezeichnen, eins bis vier, Komma zwei bis neun. Jetzt komme ich auch auf 13, wir können,
das Y-Position und
das ist
das Argument, den
Namen, das Argument, das Argument, dem
eins entspricht, variieren . Für ein Argument
, das gleich neun ist, können wir Folgendes angeben. Das ist also eine andere Art, die Funktion
aufzurufen, okay? Was ich nun tun werde, ich werde
unsere Funktion schreiben, um herauszufinden
, Quadrate Städte haben
Niemanden aus Zahlenreihen. Also, was ich hier tun werde, ich werde dich töten. Ruhige Funktion. Und was ich darauf übergebe
und eine Zahl pro Hand weitergebe. Was ich tun werde, ich erstelle
eine Zahlenfolge, also verwende ich hier die For-Schleife. Und was ich
für mich in eins bis zehn mache,
okay, also welche Zahl das auch sein mag,
es wird von dieser Zahl bis zehn sein. Ich möchte eine
Zahlenfolge erstellen. Und dann kündige ich, was
ich tun möchte , was ich zuweisen möchte. Ich möchte den
I-Wert quadrieren und ihn b zuweisen. Und dann möchte ich auf den B-Wert bringen
, okay? Das ist also die
Quadratwurzelfunktion der Funktion , die ich hier definiere. Und jetzt werde ich diese quadratische Funktion nennen, indem
ich eine Zahlenunterstützung
für ihre Funktion übergebe. Es erstellt zuerst die
Zahlen 4-10 und dann werden
45678 bis zehn benötigt, und es druckt die Zahlen. Okay, lass mich das ausführen. Schau hier, wir bekommen Cystein. Die erste Zahl
ist 44 Quadrat 16, dann wird Cystein gedruckt. Dann
wird die nächste Zahl fünf sein. Es druckt 2055 quadriert 25 und dann 630-67-4097 kariert. 409849 ist quadratisch
1,10 Quadrathundert. Auf diese Weise können wir also
eine einfache Funktion erstellen , die diese ruhige
Abfolge von Zahlen
findet . Also die Zahl von Syriza ist vier bis zehn und wir kommen hier auf ein Quadrat von
vier bis zehn. Jede Zahl wird quadriert
und wir bekommen das nächste,
was ich tun werde. Ich werde die
Summe der geraden Zahl finden. Also werde ich
ein Programm schreiben, um einige
gerade Zahlen
zwischen zwei Zahlen zu finden . Okay? Also, was ich tun werde,
nehmen wir an, eins bis zehn. Zuerst möchte ich die Summe der geraden Zahlen von
eins
bis zehn finden , okay? Keine quadratische Summe
der geraden Zahlen. Okay? Also was ich tun werde, ich schreibe eine
Funktionssumme einer geraden Funktion. Und was ich tun werde, schreibe
ich hier, zuerst generiere ich
die gerade Zahl. Und wie man gerade Zahlen generiert. Und Sie sehen eine gerade Zahl von Alginat von
eins bis zehn. Also was ich tun werde, ich multipliziere die Zahl mit zwei. Es wird also
die Zahlen 1-10 zusammenfassen. Und was ich dann mache, ich und drucke in Druck, was ich mache, die Summe
dieser geraden Zahlen, also und fördere gerade Zahlen, diese Folge von Zahlen zu summieren, Summenfunktion und dann dreht es sich. Lassen Sie mich also vorher
auf die angegebene Zahl eingehen. Okay? Und dann komme ich raus und
rufe die Even-Funktion auf. Okay? Also lass mich das ausführen. Okay, das ist das Kleinbuchstabe
c. Du
bekommst zum ersten Mal 246810, Summe der geraden Zahlen 1-10. Also das sind manchmal
sogar die Zahlen 1-20, okay? Weil ich mit zwei multipliziere. Wenn ich fünf draus mache, wird
es das frühere sein,
was wir geschrieben haben. Das wäre es nicht, okay. 246810. Okay.
Auf diese Weise können wir also die Summe gerader Zahlen, die Summe der Zahlen angeben. Und wenn Sie mit dieser Funktion
fertig sind, einige von geraden Zahlen. Es wird also
alles zusammenfassen und uns das Ergebnis
geben. Okay? Wenn Sie diese
Zahlen also summieren, erhalten Sie 110. Auf diese Weise
erhalten wir also einige der geraden Zahlen 2-2001 bis 20. Okay? Also auf diese Weise können wir es machen. Als Nächstes rufe
ich die Funktion
ohne Dokument auf. Das ist sehr einfach, eine Funktion
ohne Argumente
aufzurufen. Also was ich hier machen werde, ich werde hier einfach ein Funktionsschlüsselwort function,
hello, h erstellen . Und innerhalb des Schlüsselworts function, was ich auch
hier sehe , haben wir uns teilweise sogar,
teilweise sogar function
genannt , ohne ein Argument zu
übergeben. Okay? Das Gleiche werden
wir auch hier tun. Was ich hier machen werde,
ich verwende einfach einen Aufdruck und sage Hallo. Wie geht's dir? Dann? Oh,
Mietverhältnis. Sag hallo. Ich nenne es einfach. Okay. Vorher
muss ich das ausführen. Also lass mich das ausführen
und sehen, ja, wir werden Hallo bekommen und wie geht es dir auf
diese Weise können wir eine
Funktion ohne Augment aufrufen.
18. Matrizen in R: Hallo und willkommen zurück. In dieser Vorlesung
werden wir etwas
über Metriken in unserer
Matrixanalyse lernen , sehr wichtiges Konzept, und
wir müssen es verstehen. Denn wenn wir weiter
über diesen Kurs hinausgehen, wenn Sie versuchen das Kunstkonzept
der Datenanalyse
umzusetzen,
wenn Sie versuchen, die R4-Datenmanipulation, Datenvisualisierung
oder sogar das
Data Mining, die
Datenanalyse und in
datenwissenschaftlichen Projekten
im maschinellen Lernen zu verwenden die R4-Datenmanipulation, Datenvisualisierung
oder sogar das
Data Mining, die
Datenanalyse und in . Matrizen werden also sehr
voll sein und wir werden sie an vielen Stellen
verwenden. In unserer Matrix. Ist ein Objekt oder ein Objekt. In der Kunst ist alles ein Objekt. Und auf diese Weise sind
Matrizen auch
unsere Objekte, oder? Matrizen sind also
die Kunstobjekte
, in denen sich Elemente
desselben Atomtyps anordnen. In Matrix, Matrix fügen
wir also derselben
Art von Elementen
dieselben atomaren Elementtypen in einem zweidimensionalen
rechteckigen Layout hinzu. Es werden also rechteckige Matrizen
aus Diamantstein sein. Matrix ist eine Funktion. Also, wie werden
wir die Matrix erstellen? Wir werden die
Matrixfunktion verwenden, die
in R eingebaut ist . Erstellen Sie Metriken und Grafiken. Die Syntax wäre Matrix. Und dann stellen wir die Daten bereit und
bestimmen die Matrixelemente, bestimmen die Matrixelemente die
wir hier bereitstellen werden. Und dann
geben wir die Anzahl der Zeilen an und rho ist die Anzahl der Zeilen in der
Matrix und dann n Spalten, Anzahl der Spalten in der Matrix. Und dann sagen wir
zeilenweise, wir wollen
die Elemente zeilenweise,
spaltenweise hinzufügen , die wir mit
diesem Argument definieren werden. Und dann geben wir
den Diamantensöhnen den
Namen Means. Wir werden den
Namen der Dimensionen beibehalten. Okay? Daten sind also Eingabevektoren, die zu den
Datenelementen der Matrix werden,
die Sie zeichnen können. Dies ist
die Anzahl der zu
erstellenden Zeilen und die
College-Anzahl der von Rho zu
erstellenden Spalten ist ein
logischer Hinweis, falls dies zutrifft, sind die
Eingabevektorelemente nach Zeilen angeordnet. Wenn Sie also eine Matrix
erstellen möchten indem Sie die
Elemente zeilenweise zuweisen, müssen
wir von
rho gleich wahr geben. Andernfalls
wird es standardmäßig
spaltenweise sein, okay? Spaltenwerte, z. B. wenn uns
die Elemente eins bis zehn gegeben werden, sind es 12 oder drei. Kolumnenmäßig wird es
so sein, wenn du wahr gibst, dann wird es Viral Hockey heißen. Und Dim Name ist
der Name , der den Zeilen
und Spalten zugewiesen wurde. Okay? Das ist also das Grundlegende, das
wir kennen sollten. Und was ich jetzt tun werde, ich werde von der Matrix abweichen. Okay? Dafür habe ich
bereits
unsere Datei erstellt, in der ich einige Programme
geschrieben habe,
einige Funktionen zum
Erstellen von Metriken, damit wir unsere Zeit nicht damit verschwenden den Code
immer wieder zu
schreiben. Und beim Schreiben
nimmt es viel Zeit in Anspruch. Also habe ich bereits
diese beiden Matrizen in
unseren Dateien erstellt . Erklären Sie, was ich in jedem einzelnen Schritt
tun werde. Okay? Als Erstes erstellen
wir eine Matrix, in der Elemente standardmäßig
sequentiell nach
Spalten angeordnet sind . Okay? Nehmen wir an, ich erstelle eine Matrix und
gebe ihr den Namen M1. Man wird also ein
Objekt in NADH sein, das diese Matrix enthalten
wird. Also werde ich die
Matrixfunktion verwenden. Und hier, was ich weitergebe, das sind die Daten
, die ich weitergebe. 12 bis 35 bedeutet, dass die Zahlen 12-351213,
14 bis 35
erstellt werden. Also das werden Daten gemacht und dann, was ich als Nächstes gebe,
Andrew,
die Anzahl der Zeilen sechs. Also übergebe ich nur die Daten und gebe die
Zeilennummer der Zeilen an. Ich möchte
eine Matrix
mit der Anzahl von Rogers sechs erstellen . Das war's. Ich gebe keinen
Spaltenwert oder so. Ich gebe
das Datenlaufwerk nur an 35 Nummern und an
Rogers sechs weiter. Ich gebe dieses Argument nicht zeilenweise oder
spaltenweise an. Ich komme hier nicht vorbei. Also erstelle ich einfach eine
Matrix, die hat, die mit
den sechs Zeilen erstellt wird und sie wird mit den Daten bis 35
aufgefüllt. Also lass
es mich erstellen. Wenn ich das mache. Wir sehen uns, M1 ist eins zu sechs, also eins ist zu 412 bis 36
Daten werden bereitgestellt. Und wenn ich diese
M1-Matrix C hier drucke, haben wir
jetzt sechs Zeilen, 123456 Zeilen insgesamt sechs Straßen. Und in diesen sechs Zeilen
befinden sich die Daten 12, 13, 14. Sehen Sie sich hier zuerst die erste
Spalte an,
die die Jahresspalte
112, 131-415-1617 auffüllt . Dann geht es in die Spalte bis dann 24 bis 29 und dann 30 bis 35. Auf diese Weise werden die Daten spaltenweise
gefüllt, oder? Um die erste Spalte, die zweite
Spalte und dann die dritte Spalte zu waschen . Okay? Weil ich nichts
gegeben habe, ja, ich habe hier von rho nichts
gleich etwas angegeben. Okay? Die nächste Sache ist, wenn ich by rho gleich false verwende, was es tun
wird, es wird dasselbe tun. Wenn ich das also auch noch einmal ausführe, erhalte
ich dieselbe Ausgabe, dieselbe Matrix
wird erneut gedruckt. Aber wenn ich hier den gleichen
Code mit rho gleich true angebe, wird die Matrix
jetzt erstellt,
indem zuerst die Zeilen gefüllt werden. Also 12131415 geleert, die
erste Zeile wird fehlschlagen. Dann 16, 17, 18, zweite Reihe, dann 2021, 22, 24.
Reihe, so. Okay, so schnell, die
Regeln werden wieder aufgefüllt. Und dann die zweite Reihe, dann die dritte Reihe so. Und hier war es erste
Zeile, dann zweite Zeile, erste Spalte, zweite Spalte, dritte Spalte, so als ob
es sich hier füllte. Erste Zeile, zweite Zeile, dritte Zeile zeilenweise oder
spaltenweise oder zeilenweise. Wenn Sie also die Daten zeilenweise
füllen möchten, müssen
Sie by
rho gleich wahr angeben. Okay? Verstanden. Als Nächstes geben Sie den
Spalten- und Zeilennamen. Angenommen, ich möchte hier
den Spaltennamen und
diesen Zeilennamen auch angeben. Wie kann ich das machen. Ich kann die C-Funktion verwenden und den Spaltenzeilen
einen Namen geben. Also nehmen wir an, ich
möchte dann sechs Reihen haben. Ich möchte jeder
Zeile den Namen Zeile eins,
Zeile zwei Zeile, Zeile sechs geben . Also verwende ich die Funktion c und erstelle ein
Objekt mit Zeilennamen, und ich erstelle ein anderes
Objekt mit Spaltennamen,
anstatt Spalte eins, Spalte zwei,
Spalte
drei, Spalte vier zu behalten , welchen Namen Sie auch immer
geben möchten, Sie können es Ihnen geben. Dann werde ich
beim Erstellen der Matrix, was ich tun werde, zuerst die
Datenmatrix innerhalb des
Matrix-Funktionswalds weitergeben Datenmatrix innerhalb des , um die Daten zu speichern. Und dann gebe ich die
Anzahl der Reihen an, sechs. Dann werde ich das
nacheinander durchgehen, du kannst wahr oder falsch angeben,
was du willst, okay? Und hier
wird das nächste Argument als benannter
Dimensionsname betrachtet. Und hier, was ich tun werde, ich erstelle eine Liste. Und in der
Liste übergebe ich, was
ich tun werde, die Zeilennamen und Zeilenspalten
als zwei Argumente. Dadurch werden also die
Dimensionen für die Matrix erstellt. Zeilen- und Spaltennamen
werden von
hier abgerufen und an die Liste weitergegeben. Und es erstellt
die Zeile und Spalte, die nach der Matrix
benannt sind. Lassen Sie mich also diese beiden Linien ausführen. Okay, tut mir leid, ich muss
die ganze Sache regeln. Schau hier. Jetzt erhalten wir eine Matrix mit dem Spaltennamen, Spalte eins, Spalte zwei, Spalte drei, Spalte vier. Und Zeilennamen wie
Zeile eins, Zeile zwei, Zeile drei, Zeile vier, Zeile fünf, Zeilen sechs. Auf diese Weise müssen
wir zuerst
eine Spaltenliste mit Spaltennamen und
Spaltenzeilennamen und Spaltennamen erstellen eine Spaltenliste mit Spaltennamen . Und wir
müssen diese Argumente für düstere Namen angeben, okay, über unsere Liste, okay? Und dann wird
eine Zeile erstellt und in dieser Matrix
werden Spaltennamen angegeben. Als Nächstes greifen Sie auf die
Elemente aus der Matrix zu. Nehmen wir an, ich möchte von
der M5 aus auf das Element zugreifen, diese Matrix, die erste
Spalte und die dritte Zeile. Also, wie kann ich das machen? Die dritte Zeile, drei Kommas eins, m phi, und dann die Klammer
und drei Kommas eins. Das bedeutet, dass ich die dritte Spalte, die
dritte Zeile und die erste Spalte
abrufen möchte . Das erste Argument ist für die Zeile und das
zweite für welche Spalte? Dritte Zeile, das erste Element
wird gedruckt. dritte Zeile bedeutet diese und die Spalte
einen Monat, viel. Also, wenn ich das mache, sollte
ich 20, 32 Jahre bekommen. Ich sehe mal, wir kriegen 20. Also ist m5 die Matrix. Und ich möchte
die dritte Spalte beenden, dritte Zeile, erste Spalte, dritte Zeile, erste Spalte. In ähnlicher Weise möchte ich zuerst
den Wert der fünften Zeile und zweite Spalte durchblättern. Dies ist der umgekehrte
Vorläufer der zweiten Spalte, also würde hier die 29. gedruckt werden. Ja, wir werden 29. Nehmen wir in ähnlicher Weise an,
dass ich die erste Reihe sechs haben möchte. Okay? Also kann ich m phi und
rho sechs und den Spaltenwert geben. Ich lasse es. Also, wenn du
so gibst, was bekommst du dann? Sie erhalten hier den
Wert c für Zeile sechs, 323-033-4305. Das ist also die sechste Zeile.
Das wirst du bekommen. Okay? Ebenso kann ich, wenn ich
auf die zweite Spalte zugreifen möchte,
geben, ich kann
die Zeile verlassen und ich kann den Spaltenwert von
einem Liter angeben. Und wenn ich das mache, lasse ich die Kolumne
zu dir kommen. 13, 17. Dies ist die Spalte 213-17-2120, 5.20, 9.33, 29, 30. Auf diese Weise können wir den
Spaltenwert angeben. Als nächstes folgt die
Addition und Subtraktion der Matrix. Wir können Multiplikation,
Addition, Subtraktion und
Division mit der Entenmatrix durchführen. Nehmen wir an, ich habe eine M1-Matrix, lassen Sie mich das ausdrucken. Sehen Sie, das ist die M1 und ich habe
eine andere Matrix, die M2 ist. Also beide sind dieselbe Matrix, aber was sind die verschiedenen,
unterschiedliche Metriken, aber
die Werte sind gleich. Okay? Also Unterstützung, ich
möchte m1 und m2 hinzufügen, damit ich einfach m1 plus m2 machen kann. Und ich weise diesen
Wert einem Objekt zu. Wenn ich das also ausführe und den
Summenwert c hier ausdrucke, erhalte
ich die Garantie für 36, als wären sie
gespeichert 2012 +12, 241-313-2614 plus 14, 20. so. Okay, ähnlich
können wir m1 minus m2 machen und wir erhalten 000, weil
beide Metriken gleich sind, oder? Aus M1 mach m2. Wir können multiplizieren,
tut mir leid. 12 mach 12, 24, 30 und unterhalte, wenn
es so wird. Okay? Und auf die gleiche
Weise können wir die Matrixmultiplikation durchführen,
bei der jedes Element
durch jedes Element geteilt wird, okay? Nun, mit 121, so. Okay? Auf diese Weise können wir die Matrix
verwenden und wir können sie
durchführen, indem wir keine
Subtraktion durchführen und auf die Matrixelemente zugreifen.
19. Faktoren in R: Hallo und willkommen. In dieser Vorlesung werden
wir etwas über
Dustin R lernen . Was
spielt also eine Rolle? Faktoren sind die Datenobjekte
, da wir bisher gelernt haben
, dass alles ein Objekt ist. Faktoren sind also
auch Datenobjekte in R, die zur
Kategorisierung der Daten verwendet werden. Im Grunde
werden also Faktoren verwendet, um
die Daten zu kategorisieren und diese dann zu speichern Daten in die Ebenen zu
kategorisieren. Also zuerst werden die Daten
kategorisiert
und dann werden die beschrifteten Daten
Spot, Dodge Categorize Data erstellt . Und dann wird es
diese Etiketten speichern, okay? Es wird diese Daten auf
diesen Ebenen speichern, oder? Und Faktoren werden verwendet, um die kategorialen Daten
darzustellen. Und sie können sowohl
Zeichenketten als auch Ganzzahlen speichern. Und sie haben einen
Integer-Vektor mit einer Ebene erstellt. Nehmen wir an,
ein Integer-Vektor hat eine Ebene, etwa so. Okay? Nehmen
wir also im Grunde an, wir haben Daten, nehmen wir an, ein Mann oder eine Frau. Also können wir das speichern. Es ist besser,
das als 0,1 zu speichern, oder? Was es also tun wird,
ist anzunehmen, dass wir Daten mit männlichen und weiblichen Daten haben , einige Datenpopulationen, bei denen wir unsere Daten für Männer
und Frauen
haben, beide. Welche Faktoren werden
dazu führen, dass
eine Datenkategorie
mit Männern und Frauen erstellt wird, und
diese Daten werden in
der Kategorie männlich und weiblich gespeichert . Und dann kann man leicht herausfinden wie viele Männer es gibt und wie viele Frauen es gibt, so
etwas. Okay. Lassen Sie mich die Datei öffnen, in der ich vier Vektoren erstellt
habe. Ich habe also bereits
einen Dateifaktor in R
Punkt R erstellt . Und hier werde ich auch,
wie man einen Faktor in R Der erste Schritt zum
Erstellen eines Faktors in R ist das Erstellen eines Vektors. Also hier, was ich mache, ich erstelle einen Vektor
für die Gesichtsbehandlung. Und hier in der
Berufsgruppe wird es Dr. Ingenieur Zimmermann,
Dr. Mechaniker, Pilot, Dr. Zimmermann
in Kenia geben. Okay. Es gibt also ein paar Berufe, die
ich hier geschaffen habe. Das ist also der Professor-Vektor , in dem ich den
Professor der Personen aufbewahrt habe. Okay? Also, wenn ich diese beiden
Linien laufen lasse, was es tun wird, es wird ein Vektor
für Frankreich erstellt und richtig. Und es wird Dr.
Engineer Carpenter haben , Dr. also siehe Adopter wird
wiederholt, das Recht. Dr. Es
gibt so viele Ärzte, oder? Nehmen wir an, das ist ein
Vektor, den ich erstellt habe. Wenn ich überprüfen möchte, ob dieser Vektor unser
Faktor ist oder nicht, kann
ich
hier eine Funktion namens each factor verwenden. Also egal, wenn wir
überprüfen wollen, ob es sich um einen Faktor handelt oder nicht, können
Sie jede
Faktorfunktion verwenden und diesen Vektor oder das Objekt an
die einzelnen Faktorfunktionen
übergeben können
Sie jede
Faktorfunktion verwenden und diesen Vektor oder das Objekt an
die einzelnen Faktorfunktionen
übergeben
und
Sie erhalten , ob es sich um einen Faktor handelt oder nicht. Okay, lassen Sie uns das ausführen. Sehen Sie hier, es zeigt uns falsch. Das bedeutet, dass dieser Vektor kein Faktor
ist. Dies ist ein Vektor, kein Faktor. Also, wie wandelt man diesen Professor und
Vektor in einen Faktor um? Das werden wir tun. Der nächste Schritt. Im nächsten Schritt
wenden Sie die Faktorfunktion an. Also unterstütze. Jetzt möchte ich dieses Niveau
mit einem Faktor
umrechnen. Also erstelle ich ein anderes, erstelle ein weiteres Objekt,
dessen Unterstrich faktorisiert ist. Professor. Okay, jetzt verwende ich
die Faktorfunktion und übergebe diesen
Berufsvektor an die Faktorfunktion, sodass dieser Berufsvektor in den Faktor umgewandelt
wird. Okay? Nun, ob ich das ausführe und wenn ich das starte, welche Zuweisung, sehen Sie hier. In diesem Schritt erstellen wir nun den Faktor aus diesem
Professor-Vektor. Also jetzt dieser Faktor,
Professor nasaler Faktor, damit ich hier überprüfen kann, ist der Faktor. Hier führt es uns durch. Und wenn ich
diesen Faktor professionell drucke, was ein Faktor ist, was ich bekomme,
erhalte ich das gleiche Ergebnis. Dr. Innenschreiner, Dr. So, dieselben Daten. Aber hier erhalte ich eine weitere
Ausgabe, bei der es sich um Labels handelt. Und Labels sind
Zimmermann, Lehrer,
Dr., also all diese Dinge
werden keine Etiketten sein, oder? Die anderen Stufen sind Schreiner, Dr. Junior Driver, Mechaniker, Pilot und Lehrer. Wenn ich die Tabellenfunktion verwende
und diesen Faktor,
die Tabellenfunktion, übergebe ,
was
sie tun wird, gibt sie uns
dasselbe, Labels, okay? Und wenn ich eine Zusammenfassung verwende,
was uns gefällt. Wenn Sie jemanden einsetzen, erhalten
Sie, wie viele Schreiner sind in diesen Daten enthalten? Also für den Schreiner, drei Ärzte, einen Fahrer, für den Ingenieur, für den Mechaniker, für den Piloten
und für Lehrer. Okay? Auf diese Weise können wir also einen Vektor in den Faktor erstellen
. Factor wird sehen, dass es einen Faktor geschaffen
hat, Zimmermann Dr. und
es gibt uns die Daten, dass es zwei Ärzte
gibt. Es gibt zwei Schreiner, drei Ärzte, so einen
Fahrer. Also wird es die Daten kategorisieren. Nun, der Faktor, welcher
Faktor hat getan? Es hat diese Daten,
diese Daten in die Kategorie
von Berufen wie Schreiner,
Dr. eingeordnet diese Daten in die Kategorie
von Berufen wie Schreiner, und es gibt
uns Zahlen wie diese vielen Zimmerleute oder diese vielen Zimmerleute oder
ihre Hauptärzte, wenn
Ingenieure in unseren Daten vorkommen. Der Faktor wird also bei der Analyse der Daten,
bei denen
es sich um kategoriale Daten handelt, nützlich sein Analyse der Daten,
bei denen , oder? Wir werden also sehen, wie wir eine
kategoriale Analyse
mit Faktoren in R durchführen können kategoriale Analyse
mit Faktoren in R Vorerst reicht es
also aus zu
verstehen, wie man aus
dem Vektor
einen Faktor in R erzeugt , okay? Wir können also die
Faktorfunktion auf
den Vektor anwenden und dieser Vektor wird
in den Faktor umgewandelt. Und die Bedingung
ist, dass diese
Professor-Vektoren einige kategorische Daten haben. Okay? Und dann können wir
jede Faktorfunktion überprüfen. Mit der, jeder Faktorfunktion können
wir überprüfen, ob ein Vektor ein Faktor
ist oder nicht, okay? Und wir können die Tabelle verwenden, um die Stufen des
Faktors zu sehen, und wir können
die Zusammenfassungsfunktion verwenden ,
um zu überprüfen, wie Zahlen es gibt, z. B. wie viele Dr., wie viele
Ingenieure gibt es? Also jemand, der den
Faktor hoch ist, wird mit der
Zusammenfassungsfunktion
erkannt, okay?
20. Datenrahmen in R: Hallo und willkommen zurück. In dieser Vorlesung
lernen wir also etwas über DataFrames in unserer Programmierung und wie
wir DataFrames verwenden können. Das ist das Thema
dieser Vorlesung. Lassen Sie mich
Ihnen zunächst sagen, was DataFrame ist. Dataframe ist eine Tabelle oder eine zweidimensionale Array-ähnliche
Struktur, in der
jede Spalte
Werte einer Variablen enthält und jede Zeile einen Satz
von Werten aus jeder Spalte enthält. Du verstehst, was ich gesagt habe. Dataframe ist eine tabellenähnliche Struktur oder ein
zweidimensionales Array, in dem jede Spalte
Werte einer Variablen enthält. Jede Spalte
enthält Werte
aus Werten einer Variablen, und jede Zeile enthält den Satz
von Werten aus jeder Spalte. Okay? Und es ist ein
Sonderfall einer Liste
, in der jede Komponente jeder Komponente
die gleiche Länge hat und jede Komponente die Spalte
und den Inhalt der
Komponenten auf der Straße bildet . Verstanden. Jede Komponente bildet die Spalte. Jede Komponente
bildet die Spalte und der Inhalt der Komponente bildet
die Straßen. Du wirst es verstehen, wenn
wir das Praktische machen, du wirst es besser verstehen. Ein DataFrame in R wird also folgende Funktionen
haben. Die erste Sache ist, dass
Zeilennamen eindeutig sein müssen. Der Zeilenname sollte also
immer eindeutig sein. Also Zeilennamen, also wäre es einzigartig. Sie können nicht dieselben
Zeilennamen in einem DataFrame haben, okay? Also muss jeder Zeilenname eindeutig
sein und dann Spaltenname nicht leer sein. Also Spaltenname, also nicht leer sein. Es sollte nicht leer sein. Also
würden alle Spaltennamen Einträge enthalten, okay? Und Daten, die in
einem DataFrame gespeichert sind,
können vom numerischen Faktor abweichen,
sind Zeichentypen. Sie können also alle Daten dieser Art in DataFrame,
numerischer Faktor oder
Zeichentyp speichern . Und jede Spalte
enthält also die gleiche Anzahl
von Datenelementen. Jede Spalte enthält also die
gleiche Anzahl von Datenelementen. DataFrame also als Tabelle
oder zweidimensionale
Array-ähnliche Struktur in R, in der jede Spalte den Wert einer Variablen enthält und jede Zeile
den Satz von Werten aus jeder Spalte enthält. Okay? Fangen wir also
mit dem Praktischen an. Okay, was ich getan habe, ich habe bereits
ein Programm geschrieben und der Dateiname
ist DataFrame Punkt r. Was ich hier mache, ich erstelle einen DataFrame. DataFrame kann also
wie folgt erstellt werden, um was, wie wir einen DataFrame erstellen. Wir benutzen. Datenrahmen. Die Data.frame-Funktion wird
verwendet, um einen Datenrahmen zu erstellen. Und das ist Student ist ein Objekt, dem ich diesen DataFrame
zuweisen werde. Okay? Also data.frame. Und dann, was ich hier mache, erstelle ich als
Erstes
eine Seriennummer. Okay? Also Seriennummer,
ich erstelle 1-5. Und dann acht, ich gebe, ich verwende die Funktion c, um das Alter zu
erstellen, okay? Ich erstelle hier einen Vektor,
siehe 201-15-1030, 5.45. A's werden also diese Einträge haben. Dann erstelle ich einen Namen. Der Name wird die vielen Einträge haben. Okay. Also fünf Einträge, zottelig, Ronnie ist John und Tom von heute, und dann schließe ich das. Okay? Auf diese Weise können wir einen DataFrame
erstellen. Lassen Sie mich diese Zeile zuerst ausführen,
damit Sie einen DataFrame erhalten. Schau hier. Dann lass mich das ausdrucken. Studentischer CEO. Nun, der Student ist
ein DataFrame, oder? Und was es enthält, es enthält eine Zeile oder
Spalte mit Seriennummer,
Alter und Namen, weil wir die Seriennummer angegeben
haben, dann die Acht und dann den Namen. Und jede Spalte. Seriennummer und Name
werden die Werte enthalten. Welche Seriennummer wird den Wert eins bis fünf
enthalten, also 12345 Seriennummern und
dann Alter 201-15-1030, 5,40. Und der Name wird
diese Werte haben, okay? Jede Spalte wird also
die Werte aus Name,
Name, Variable haben . Das haben wir
im Theorieteil gelernt. Auf diese Weise können wir
unseren DataFrame-Schüler erstellen, der
die
Seriennummer der Spalte als Name und die Zeilenwerte enthält. Ab der Seriennummer 1-5, 21 Jahre. Und diese fünf sind, wir haben einen Namen gegeben, wir haben einen
in der Namensvariablen angegeben. Diese Variablenwerte
werden also der Eintrag in diese Tabelle, oder? Es ist also eine tabellarische Struktur. Okay? Das ist also das, was in R
als DataFrame bekannt ist. Und wir können die Struktur in unserem DataFrame sehen , indem wir die STR-Funktion
verwenden. Wir können STR verwenden und dann
können wir den DataFrame übergeben. Es wird uns die
Struktur des DataFrame geben. Der DataFrame hatte Struktur
und wir sagen Dataframe. Und es hat fünf von drei wertvollen
Zeilen. Sehen Sie hier 12345. Also fünf Objekte oder fünf
Zeilen und drei Variablen. Drei Variablen sind seriell, Zahl ist ein Name. Dies sind die drei Variablen. Die Spaltennamen werden als Variablen
bezeichnet. Also drei Variablen
und fünf Zeilen, fünf Objekte mit drei Variablen. Und diese Variablen sind
Seriennummer, ist und Name. Die Seriennummer ist also
ganzzahlig, sie ist numerisch, und für Schiffe mit Charakter,
Typ und Vorgesetzten wird
jede Variable oder
jede Spalte dieselbe Anzahl von Elementen
haben wie die Seriennummer eins bis fünf
ist. Das Alter hat auch
fünf Einträge und der
Name hat auch
fünf Einträge, oder? Also sollten alle die gleiche
Anzahl von Einträgen haben, oder? Okay. Nehmen wir an, wenn ich sechs
Jahre gebe, was passiert dann? Lassen Sie mich diesen DataFrame
bearbeiten. Weil die
Seriennummer eins bis 6.8 nur fünf Einträge und der Name auch
fünf Einträge hat, oder? Also hier, welcher Fehler
wir bekommen einen Fehler im Dataframe
und es verwendet
Argumente , impliziert eine unterschiedliche
Anzahl von Zeilen sechs und 6,5. Eine Variable
hat also sechs Zeilen, sechs Elemente und alle anderen
haben 51 Blätter. Deshalb
zeigt es uns den Fehler. Es sollten also jeweils 55 sein. Okay, hier kannst du also
fünf eingeben und wenn wir es dann ausführen, bekommen
wir keine Fehlermeldung. Und es wird
erfolgreich laufen. Mit dem STR. Wir können die Struktur
des DataFrame abrufen. Als Nächstes
werden wir lernen, dass auf
DataFrame-Komponenten wie auf eine Liste
oder wie eine Matrix
zugegriffen werden kann . Also schauen wir uns zuerst
den Zugriff auf die Leica-Liste an. Wir können also, wenn Sie
auf ähnliche Listen zugreifen möchten, dieser drei verwenden. Wir können unseren Dollar-Operator verwenden
oder wir können die
doppelte Klammer verwenden, oder wir können die
einzelne Klammer verwenden, okay? Um auf die Daten
aus dem DataFrame zuzugreifen. Okay, nehmen wir an,
ich möchte auf
den Namen aus dem DataFrame zugreifen ,
ist Student, einer der Namen. Also, wenn ich das
mit diesem Schüler
und dann innerhalb der Spalte machen kann , kann
ich den Variablennamen oder den Spaltennamen übergeben. Okay? Und wenn ich das starte, erhalte ich alle Namen
aus dem DataFrame. In ähnlicher Weise kann ich
dasselbe mit diesem Dollarsymbol machen, oder? Dollar-Operatoren Student,
das ist der DataFrame-Name, dann Dollar und dann der Spaltenname oder ein Variablenname. Also hier, wenn ich das durchführe, erhalte
ich das gleiche Ergebnis,
Senior Student Dollar Name. Es wird dir
die Namen aller Schüler geben. Okay? Und in ähnlicher Weise können wir
das auch tun, ist zu mieten. Und in der Klammer. Auch hier können
wir in der Klammer den Namen weitergeben. Diese drei Dinge
führen zum gleichen Ergebnis. Okay? Jetzt können wir so machen, wie
wir hier den Namen gegeben haben. Der Name ist die dritte Spalte
direkt in diesem DataFrame. Wir können also auch die
Spaltennummer übergeben, Schüler drei, sodass Sie die dritte Spalte
erhalten. Der Name. Name ist die dritte, dritte Spalte in diesem DataFrame. Siehst du, wenn ich
es schaffe, gibt es uns das Alter. Ca, es wird uns die Is geben. Auf diese Weise können wir
die Spaltennummer übergeben und
die Daten aus dem DataFrame abrufen. Als Nächstes ändern Sie
die DataFrame-Elemente. Wir können den DataFrame auch so ändern wie C Sie diesem Schüler
geben, das ist ein DataFrame-Namen. Und dann behalten wir hier
die 11, bedeutet die erste Zeile, und dann gebe ich
H. Und ich möchte
modifizieren, dass die erste Zeile 291 ist. Okay? Lassen Sie mich das ausführen und
lassen Sie mich den Schüler ausdrucken. Schau hier. Jetzt ist die erste Zeile, wird auf 91 geändert. Früher waren es 21, jetzt sind es 91. Also auf diese Weise können wir. Ändern Sie die
DataFrame-Elemente des Rahmens. Wir können der
Roche-Komponente Zeilen zum DataFrame hinzufügen. Angenommen, ich möchte eine weitere Zeile
hinzufügen. Nehmen wir an, hier
sind fünf Reihen da, oder? Ich
möchte dem DataFrame Halloween noch eine Zeile hinzufügen, ich kann das tun, ich kann
die Funktion rbind verwenden. Unsere Funktion wird verwendet, um dem DataFrame
eine Zeile hinzuzufügen. Innerhalb des Rbinds muss ich
den DataFrame-Namen übergeben und
dann eine Liste verwenden. Und in der Liste muss
ich die Seriennummer sechs angeben,
dann ein-zwanzig Jahre alt werden, und dann
wären die Namen, es gibt eine Vielzahl von Namen, also muss nichts leer sein. Alles, was wir geben müssen, drei Spalten, also
müssen wir hier drei Spalten angeben. Die Seriennummer ist n, Name. Und wenn ich das ausführe , wird
eine weitere
Zeile hinzugefügt. Das Mittel gegen Anfälle sechs, eins und zwanzig wurde
dem Student DataFrame hinzugefügt . In ähnlicher Weise können wir auch eine Spaltenkomponente zur Spaltenkomponente
zum DataFrame hinzufügen . Und wie wir das machen können, können
wir mit dem C1 machen. C1 bedeutet, dass Columbine
Vitamine sind, die reihengebunden sind. Okay, also cbind-Funktion, wir haben dem DataFrame früher eine Spalte
hinzugefügt. In derselben Sache müssen
wir also den
DataFrame-Namen übergeben. Und dann müssen wir eine Spalte, die ich hinzufügen
möchte, als Land
annehmen. Also muss ich den
Spaltennamen Land angeben und danach
die C-Funktion verwenden und
die Ländernummer der Länder übergeben . Also hier muss ich die
sechs Länder in ihnen bestehen, oder? 12345, okay? Und wenn ich das ausführe, weil der sechste Wert, haben
wir uns nicht verpflichtet. Es kommt also nicht im kommenden Jahr. Oder in einem DataFrame, der
nur fünf Zeilen hat, er die Phi-Zeile hinzu, okay? Auf diese Weise können wir also eine weitere Spalte
hinzufügen, wie im Gegensatz zu unserem DataFrame. Als Nächstes
können wir das Land listenartig zuweisen, wie Listen
wie Aufgaben,
wir können das Land der Schüler
in Listen
wie Aufgaben, Dollar verwenden. Das bedeutet, dass
wir im DataFrame eine weitere Spalte hinzufügen werden. Das heißt, das wird ein Namensland
sein. Und wir werden die Einträge
wie diese Länder
hinzufügen , okay? Sechs in Indien, neutral
und in den USA, Japan und China. Okay? Und wenn ich diese
beiden Anweisungen ausführe, erhalte
ich, dass das Land hier hinzugefügt
wurde und die
Ländernamen hier stehen. Auf diese Weise können wir einer Liste eine Spalte
wie eine Aufgabe hinzufügen. Okay? Als Nächstes können wir eine Komponente
aus DataFrame löschen. Wir können also eine ganze
Spalte löschen, indem wir dieses Ding verwenden. Okay, Student, das
ist DataFrame-Name,
Dollar hier, Spaltenname, Name, und ich kann Null zuweisen. Wenn ich also Null zuweise, wird
die gesamte Spalte gelöscht. Also lass mich das machen und wir sehen uns. Jetzt. Seriennummer ist und Länder,
deren Namensspalte wurde gelöscht, da wir
die Namensspalte auf Null gesetzt haben. Okay, auf diese Weise können wir die gesamte Spalte
löschen. Auf die gleiche Weise können wir eine ganze Zeile
löschen. Um also die gesamte
Zeile zu löschen, was wir tun können, können
wir Student
und minus zwei verwenden, und dann können wir
die gesamte Zeile löschen. Also lass mich das ausführen. Hier. Die zweite Zeile wurde gelöscht. Zwei ist zwei Fußabdrücke in
Neuseeland, die gelöscht wurden. Wenn Sie also
eine bestimmte Zeile löschen möchten, können
Sie hier minus
zwei Mittel angeben, dass die zweite Zeile aus
dem Student DataFrame gelöscht
wird. Auf diese Weise können wir eine
ganze Zeile aus einem DataFrame löschen. So können wir mit data.frame einen DataFrame
erstellen. Und wir können die Anzahl der
Spalten oder die Anzahl der Variablen angeben . Und dann müssen wir
die Anzahl der Werte für
diese Variablen angeben , die als Anzahl der
Elemente hier fünf bezeichnet
werden sollen. Also wären alle
Einsen und Namen 55, dann wird nur dadurch ein DataFrame
erstellt. Dann können wir die Struktur
eines DataFrame
mithilfe der STR-Funktion abrufen . Dann können wir die
jeweilige Spalte nach Belieben phasen indem wir
den Spaltennamen mit dieser Klammer oder
dem Dollarsymbol angeben. Und wir können die Spaltennummer kaufen. Wir können
DataFrame so modifizieren, DataFrame-Elemente wie
dieses und all diese Dinge,
cbind, Irvine, all die
Dinge, die wir gesehen haben, oder? Ich hoffe, Sie haben DataFrames in R besser
verstanden.
Und ich hoffe, ich vermittle Ihnen ein Verständnis dafür, was DataFrame ist und wie wir
mit den DataFrames umgehen können. Wir sehen uns in der nächsten Vorlesung.
21. Datenrahmen kombinieren: Hallo und willkommen zurück. In dieser Vorlesung werden
wir lernen, wie wir Vektoren
zu DataFrames kombinieren
können. Das heißt, wir nehmen an, dass wir
drei oder vier Vektoren haben. Und ich möchte aus diesen Vektoren einen
DataFrame erstellen. Also, wie können wir das machen? Und zweitens,
was wir versuchen werden, werden
wir versuchen, auch
die DataFrames zu kombinieren. Okay, lass uns anfangen. zuerst die Vektoren
zu kombinieren, müssen
wir zuerst den Vektor erstellen. Also hier, was ich mache, erstelle
ich für Vektoren, Namen, Stadt,
Postleitzahl und Gehalt. Diese vier werden also
die vier Vektoren sein , die ich erstelle, sind vier
Objekte, die ich erstelle. Und ich werde, was ich tun werde, ich werde diese vier kombinieren,
um einen DataFrame zu erstellen. Diese vier Vektoren werden also einen DataFrame für mich
erstellen. Okay, der erste Rektor heißt Namen. Und im Namensvektor, was ich gebe, im
Namensvektor, was
ich gebe, verwende ich die
C-Funktion und gebe die Namen der
Parsons-Laktamase,
Rockies, Henry und Monkey an. Und dann ist der zweite
Vektor ein Stadtvektor. Und darin nenne ich speziell ihre
jeweiligen Städte mit Namen wie Bangalore, London, New York und Mumbai. Okay, und dann gebe ich den Geschenkcode für diese
Städte im dritten Vektor. Und dann ist der vierte
Vektor das Gehalt, in das ich
ihr entsprechendes Gehalt einrechne. Das wird also
das Dermis-Gehalt, Schlägergehalt und seit Kurzem und
Mantissa haben. Mantissa-Gehalt. Diese vier Vektoren können wir damit
erzeugen, die wir im Vektorkapitel
in der Vorlesung Vektoren
gelernt haben . Also lass mich das ausführen. Das wird also diese
vier Vektoren erzeugen, okay? Jetzt möchte ich
diese vier Vektoren kombinieren und einen DataFrame
erstellen. Ich möchte einen DataFrame erstellen,
indem ich diese vier Vektoren verwende. Also möchte ich
diese vier Vektoren kombinieren und einen DataFrame
erstellen. Also, was ich mache, gebe
ich hier einen
DataFrame-Namen, impliziert Details. Die EMP-Punktdetails
werden also der DataFrame-Name sein. Was ich
tun werde, ich werde die Funktion
cbind verwenden , um diese Vektoren zu
kombinieren. Okay? Da dieser Name
City Deep Code sein wird, wird
das Columns Team sein. Also verwende ich hier natürlich
C bind, um
die Spaltennamen, die
Stadt und die Postleitzahl zu kombinieren . Und leider sind das die vier, das werden die vier
Spalten im DataFrame sein. Also verwende ich C Wine und gebe
die Namen der Spalten an, wie Namen, Vektor,
Stadtvektor, Postleitzahl und Gehalt. Okay? Also lass mich das ausführen. Okay. Lassen Sie mich nun die
Mitarbeiterdaten ausdrucken. Okay. Lassen Sie mich also die
Einzelheiten der Arbeitgeber sehen. Schau hier. Jetzt ist das
Mitarbeiterdetail DataFrame. Und wir können die Spalten Name,
Stadt und Postleitzahl sowie Gehalt sehen . Und die Einträge sind Dummies, Bankdaten und
PLZ und Gehalt, Rockies City, London, du
hast das und das Gehalt. Dann Henry. Sehen Sie hier, aus diesen vier
Vektoren, für die wir erstellt haben, ausgehend von diesen
vier Vektoren haben
wir einen
DataFrames erstellt, oder? Nehmen wir an, ich gebe die Namen ein und wenn ich
diesen Namen verwende, dann erhalte
ich einen Anführer, der ähnlich
benannt ist, City und The Current Alley. Also habe ich die
Vektoren zu einem Datenrahmen kombiniert. Jetzt haben wir
hier eine
tabellenähnliche Struktur , die ein DataFrame ist. Jetzt haben wir also einen DataFrame. Was werde ich in ähnlicher Weise tun? Ich werde lesen, Sie können die C-A-T-Cat-Funktion
verwenden
, um etwas zu drucken. Okay, hier
drucke ich nur die Datei DataFrame
aus vier Vektoren. Und das, dann
wird es so kommen. Okay, der erste
DataFrame aus
vier Vektoren besteht also aus implizierten
Details, EMP-Punktdetails. Okay? Wenn du also eine Überschrift drucken
möchtest, kannst
du die
Chat-Funktion verwenden, okay? Und drucken Sie dann die
Mitarbeiterdaten ich hier bereits gedruckt habe. Und du kannst
es auch hier ausdrucken. Und dann, was ich jetzt mache, ist
die nächste Aufgabe, zwei
DataFrames
zu einem zu kombinieren. Wir haben also einen DataFrame
impliziert Details, die wir aus den vier
Vektoren erstellt
haben. Was ich jetzt tun werde. Erstellen Sie einen weiteren Vektor, tut mir leid, ich erstelle einen weiteren DataFrame, Mitarbeiterdetails auch zu
EMP-Punktdetails, mit der Hale-Bopp
DataFrame-Funktion. Und hier manuell. Im DataFrame gebe ich den Namen Vector C T
Vector, Postleitzahl, Gehalt an. Okay? So können wir
auch im ersten Schritt das schaffen, was wir gemacht haben. Wir haben den
Namen Stadt, Postleitzahl und
Gehaltsvektor separat erstellt und dann die Funktion cbind angehalten ,
um einen DataFrame zu erstellen. Und was wir jetzt tun, wir
geben diese Vektoren direkt weiter. Wir erstellen die Vektoren innerhalb der DataFrame-Funktion. Wir altern C Y nicht, und hier
verwenden wir die Funktion data.frame, DataFrame, um einen DataFrame zu
erstellen. Und innerhalb der
DataFrame-Funktion, die wir übergeben, erstellen wir Namen. Vektor, Dichtevektor, dann
PLZ-Vektor und
auch Einträge geben wir
hier nur an, okay? Gehalt und
Nebenfaktor falsch. Okay? Und wenn wir das dann ausführen, erstellen
wir
einen DataFrame. Das sind auch Mitarbeiterdetails. Okay? Und wenn ich dieses Tool starte, was bekommen wir, wir bekommen den zweiten DataFrame
, der verwendet wird. Es benennt tendenziell
strategischen Code und es gibt 3,2 Kleinbuchstaben
RAM und Push-Pop. Und ihre Postleitzahl und jeweiligen Gehälter sind hier
abgedruckt. Jetzt haben wir die beiden DataFrames, Mitarbeiterdetails und implizite Details zu dem, was ich tun wollte. Ich möchte die Zeilen aus den
beiden DataFrames kombinieren und
einen weiteren DataFrame erstellen , der alle Mitarbeiterdetails enthält
, der alle
impliziten Details von One
bis DataFrame enthält. Also erstelle ich ein anderes Objekt, alles Punkt-Mitarbeiter-Punktdetails. Okay, das wird der DataFrame sein der
die Zeilen
von Employee DataFrame und
DataFrame kombiniert und
Details zu DataFrame impliziert. Also, was
ich dafür verwenden werde, Out-of-Band zu
kaufen weil wir die Straßen hier,
drei Reihen und hier vier Reihen, zu diesen vier
Reihen
kombinieren wollen . Und diese drei Zeilen möchte
ich kombinieren und einen weiteren DataFrame
erstellen. Deshalb verwende ich Out-of-Band
, um die Zeilen zu kombinieren. Und dann stelle
ich im Audubon den ersten DataFrame
und dann den zweiten DataFrame bereit . Und dann können wir
die Chat-Funktion verwenden um die Überschriften zu drucken, die
zusammen Details implizieren. Und dann kann ich drucken. Okay, lass mich das ausführen. Wir sehen uns. Jetzt haben wir alle
impliziten Details DataFrame , der
alle sieben Zeilen enthalten wird, die vier aus dem
ersten DataFrame und das letzte Drittel aus
dem zweiten DataFrame. Auf diese Weise können wir also zwei DataFrames
kombinieren. Okay? Also, was sind die Dinge, die
wir gelernt haben? Zunächst haben wir
gelernt, wie man
einen DataFrame aus Vektoren erstellt . Und dann haben wir gesehen,
wie wir
die beiden DataFrames
zu einem Datenrahmen kombinieren können . Okay, auf diese Weise können wir
die DataFrames kombinieren und wir können auch einen DataFrame aus
den Vektoren
erstellen. Wir sehen uns in der nächsten Vorlesung.
22. Daten in R aus einer CSV-Datei analysieren: Hallo und willkommen zurück. In dieser Vorlesung
lernen wir also das sehr
wichtige Konzept kennen, und das ist die Datenanalyse in R. Was wir
also in dieser Vorlesung
tun werden, werden wir
zuerst versuchen, eine CSV-Datei
zu lesen, CSV-Datei, kommagetrennte
CSV-Dateien. Und es ist wie ein echter
Sitz, den Sie sich vorstellen können. Und es wird die
Summe der implizierten Details enthalten. Und was wir dann tun werden, wir werden versuchen, diese
CSV-Datei mit unserer Programmierung zu lesen. Nachdem wir die Daten gelesen haben, werden
wir versuchen, die Daten zu analysieren
, die sich in der CSV-Datei mit den
Mitarbeiterdetails befinden. Und wir werden versuchen, aus diesen Daten einige
Erkenntnisse zu gewinnen. Okay, lassen Sie mich
Ihnen zuerst die CSV-Datei zeigen. Das ist also die CSV-Datei
, die ich erstellt habe. Und wir werden hier sehen, dass dies
die CSV-Datei mit den Mitarbeiterdetails mit
Punkten ist und es sich um
eine durch Kommas getrennte Datei handelt. Also die erste Mitarbeiter-ID, Name des
Mitarbeiters, das Gehalt, die Daten
zum Zeitpunkt des Beitritts und die Abteilung. Dies sind die vier Spalten. Das wird die Spalte des Tisches oder
der
Excel-Sitz sein, wie Sie sehen können. Und dann wird das die erste Reihe
sein. Die durch Kommas getrennten Werte. Die eine ist die Mitarbeiter-ID, dann ist
die Dienstliste der Name des Mitarbeiters. Das Gehalt wird 3.000 betragen. Sie haben darauf getippt, sich dem anzuschließen. Und dann wird die Abteilung CSE oder so
sein. Okay. Das sind also einige Daten, die ich
in dieser CSV-Datei aufbewahrt habe. Und was ich jetzt tun werde, ich werde versuchen, diese Daten,
diese Spalten und Zeilenwerte
durch unsere Programmierung abzurufen . Und dann werden wir versuchen
, die Daten zu analysieren. erste Typ ist das Lesen
einer CSV-Datei durch unsere, okay, also lass mich zum Code gehen. Als erstes müssen
wir unser
Arbeitsverzeichnis einrichten. Um das Arbeitsverzeichnis festzulegen, müssen
Sie also zu den
Dateien hier, diesem Abschnitt, gehen
und sehen, wenn Sie auf
diese drei Punkte hier klicken, gelangen
Sie zu
dem Punkt, an dem Sie die
Dateien auf Ihrem Computer durchsuchen können. Und hier was ich tun werde, ich gehe zur Art
2020, weil das
mein Arbeitsverzeichnis ist und ich diesen Ort als unser
Arbeitsverzeichnis
festlegen möchte . Das wähle ich aus. Und jetzt befinden wir uns in
diesem Kunstverzeichnis für 2020. Jetzt möchte ich dafür sorgen, dass dieser
Steuersatz ein Arbeitsverzeichnis hat, damit ich das tun kann. Da kann ich öfter hingehen. Und das Jahr der Fähigkeiten,
Als Arbeitsverzeichnis festlegen, also klicke ich auf
Als Arbeitsverzeichnis festlegen. Okay, auf diese Weise können wir
dies zu unserem Verzeichnis für 2020
als unser Arbeitsverzeichnis machen . Alternativ können Sie einfach den Befehlssatz WD
verwenden. Set WD ist eine Funktion, die das Arbeitsverzeichnis
festlegt. Wd bedeutet Arbeitsverzeichnis und Segmente,
die das Arbeitsverzeichnis einrichten. Also set work set, WD ist die
darin enthaltene Funktion, mit der Sie den Pfad
für Ihr Verzeichnis angeben
können. Und dieser Pfad wird Ihr Arbeitsverzeichnis
sein
, wenn Sie ihn ausführen. Okay? Jetzt haben wir
das Arbeitsverzeichnis festgelegt. Was ich getan habe, ich habe die CSV-Datei mit den
Mitarbeiterdetails
hier aufbewahrt , damit wir leicht
erkennen können, wer das liest. Wir müssen hier nicht
den kompletten Pfad angeben,
da wir ihn haben, wir befinden uns im
Arbeitsverzeichnis und unsere Tilde-Punkt-CSV-Datei für Mitarbeiter befindet sich auch im selben
Verzeichnis, okay? Und wenn es nicht da ist, müssen wir hier
den kompletten Pfad
und den kompletten Teil für diese Datei angeben . Okay? Der erste Schritt ist also, dass wir die CSV-Datei
durchlesen wollen. Also was ich tun werde, ich erstelle zuerst eine Variable, die
du sagen oder als Objekt in
unseren Employ-Daten angeben kannst , EMP-Punktdaten. Dies ist eine Unvariable,
in der ich alles
speichern möchte , was ich aus dieser CSV-Datei
lesen werde. Um eine CSV-Datei zu lesen, was wir benötigen, benötigen
wir eine Funktion
namens read.csv. read.csv wird also verwendet
, um die CSV-Datei zu lesen. Und in dieser
Funktion, read.csv, müssen
wir
den Punkt CSV-Dateinamen angeben ,
sodass unser Dateiname
Personaldetails Punkt CSV ist. Das war's. Wenn wir
diese Funktion ausführen, liest
sie die Daten aus dieser
Mitarbeiter-Punkt-CSV und
speichert sie in diesen Mitarbeiterdaten. Lassen Sie mich das zuerst ausführen. Schau hier. Wenn Sie nun hier sehen, zeigt
es uns, dass es uns EMP-Punktdaten von
Mitarbeitern zeigt , acht
Objekte mit fünf Variablen. Das bedeutet, dass die CSV-Datei acht Zeilen und fünf Spalten
enthält. Mitarbeiter-ID, eins bis
acht, impliziert Name. Dies sind der implizite Name, Gehaltssatz bis zum Beitritt. Und das hat es, die Details können Sie hier
sehen. Jetzt haben wir die CSV-Datei gelesen und die Daten
in diesen EMP-Punktdaten gespeichert. Jetzt kann ich diese
EMP-Punktdaten ausdrucken und sehen, welche
Details sie enthalten. Lass es einfach laufen und wir sehen uns. Lassen Sie mich das noch einmal ausführen. Jetzt bekommen wir die Tabelle, die
mir gefällt, Struktur, oder? Personalausweis, Mitarbeitername, Gehalt, Beitrittsdatum
und Abteilung. Das sind die
Spaltennamen und das
sind die Werte, oder? Reihen. Für die entsprechenden
Spalten, oder? Es gibt acht Zeilen
und fünf Spalten. Fünf Variablen
bedeuten fünf Spalten. Kannst du dir also vorstellen, um welche Art
von Datentyp es sich in der Kunst handelt? Dies wird DataFrame genannt. Dataframe wird die
tabellenähnliche Struktur haben, oder? Was auch immer wir
aus der CSV-Datei lesen, es wird
als Datenrahmen in R gespeichert Und wir können
anhand der einzelnen Daten überprüfen, ob es sich um
einen DataFrame handelt oder nicht. Jede Dot Data.Frame-Funktion, rechts, ist eine
Punktdata.Frame-Funktion. Und wir können dieses
Mitarbeiterdatenobjekt übergeben. Also lass mich das ausführen. Sehen Sie hier, es gibt
das Ergebnis als wahr an. Das bedeutet, dass diese
EMP-Punktdaten unserer Mitarbeiter unser DataFrame sind. Was auch immer wir hier lesen, read.csv erhält einen Datenrahmen. Jetzt haben wir hier einen DataFrame. Als Nächstes
haben wir hier unsere
tabellenähnliche DataFrame-Struktur. Jetzt kann ich die Anzahl
der Spalten mithilfe einer
aufgerufenen Funktion ermitteln. Also kann ich eine Kohle verwenden und dann
kann ich den
DataFrame-Namen hier übergeben. Und es gibt
uns die Anzahl der Spalten im DataFrame. Diese CSV-Datei
hat also fünf Spalten. In ähnlicher Weise können wir und Rho verwenden, und Rho ist die Anzahl der Zeilen. Wenn wir das ausführen,
erhalten wir die Anzahl der Zeilen, acht Zeilen in diesem DataFrame. Sehen Sie hier, wie einfach wir
die CSV-Datei gelesen und eine Tabelle oder einen
DataFrame in R
erstellt haben . Und
jetzt finden wir mit n Doppelpunkt und Zeile die
Anzahl der Spalten und die Anzahl der Zeilen
in diesem DataFrame. Jetzt werden wir
einige interessante
Informationen mit R bekommen einige interessante
Informationen mit R Jetzt möchte ich
das Höchstgehalt herausfinden. Was ist das
Höchstgehalt eines Mitarbeiters? Also kann ich die Max-Funktion verwenden und die Mitarbeiterdaten weitergeben. Dollargehalt. Das bedeutet, dass ich
die Gehaltsspalte,
diese Gehaltsspalte
an die Max-Funktion, die Gehaltsspalte und
die EMP-Punktdaten übergeben möchte diese Gehaltsspalte
an die Max-Funktion, die . Dollargehalt bedeutet, dass diese Spalte ich hole, und ich übergebe
sie an die Max-Funktion. Diese maximale Funktion
wird also intern funktionieren und das Maximum
aus diesen Gehältern finden. Es wird uns also geben, es gibt uns das Ergebnis 95.200. Lassen Sie mich das Höchstgehalt ausdrucken. Sehen Sie hier, wir bekommen das Höchstgehalt
eines Mitarbeiters von 95.200. Okay? Auf diese Weise können wir
das Höchstgehalt ermitteln. Wir können
das Durchschnittsgehalt auch mithilfe der Mittelwertfunktion ermitteln. In der Hauptfunktion werden
wir also diese Gehaltsspalte
bereitstellen. Und es wird uns das
Durchschnittsgehalt der Mitarbeiter geben. Ihr Durchschnittsgehalt
auf dem Platz. Jedes Gehalt von
ihm ergibt 53.009, 24. Und wenn wir die
Summe der
Gehälter aller Mitarbeiter verwenden und durch acht dividieren, weil es
acht Mitarbeiter gibt erhalten wir den gleichen Satz wie der CEO. Auf diese Weise können wir das Durchschnittsgehalt
der Mitarbeiter ermitteln. Auf die gleiche Weise
können wir das Maximum finden. Wir können die
Mitarbeiterdetails mit dem Höchstgehalt finden.
Wir haben festgestellt, dass 95.200
das Höchstgehalt sind. Eins impliziert das Bekommen. Jetzt können wir den
Mitarbeiter mit diesem Detail finden. Wir können also
die Teilmengenfunktion verwenden und diese impliziten Daten übergeben. Und dann können wir hier
ein weiteres Argument vorbringen, Gehalt entspricht dem Höchstgehalt. Was wir also tun werden, wir werden den Mitarbeiter finden , der das
Höchstgehalt hat. Es gibt uns also die Information des
Mitarbeiters, wer das maximale Gehalt aus dem Angebot bezieht. Lass mich das ausführen. Sehen Sie hier,
dass dieser Mitarbeiter das Höchstgehalt
erhält
und dies sind seine Daten. Auf diese Weise können wir
das
sonnigste Gehalt eines Mitarbeiters angeben, der das Höchstgehalt erhält. Auf diese Weise können wir
den Mitarbeiter finden , der das maximale Gehalt und das
höchste Gehalt
erhält . Auf die gleiche Weise. Wir können das auch ausführen. Sorgen Sie dafür, dass alle Mitarbeiter
im Finanzwesen
arbeiten, in der Finanzabteilung und ein Gehalt von
mehr als 85.000€ erhalten. Sehen Sie hier, das ist
die Abteilung, also das ist die
Finanzabteilung. Es gibt zwei Mitarbeiter und beide erzielen
mehr als 85.000 Verkäufe. Also, welche Bedingung stellen wir? Wir geben
den Aufruf der Teilmenge und die
Bereitstellung der Mitarbeiterdaten an. Und dann
geben wir eine Bedingung Abteilung der
Finanzen entspricht und die Gehälter über 85.000 liegen
würden. So erhalten wir alle Mitarbeiter detailliert,
deren Abteilung für Finanzen und Gehälter zuständig
ist,
mehr als 85.000. Lass mich das ausdrucken.
Lass mich das ausführen. Hier. Wir werden implizit. Lass es mich noch einmal ausführen.
Also hier bekommen wir die Mitarbeiter-ID 3.8,
was bedeutet, dass es losgeht. Dies sind die beiden
Mitarbeiter, die der Finanzabteilung angehören und deren Gehalt
mehr als 85.000 beträgt. Also diese beiden Mitarbeiter, die die
Personalabteilung, Finanzen und die Finanzabteilung einstellen, und ihre Gehälter betragen mehr als 85.000. Als Nächstes möchte ich herausfinden
, wer
am oder nach 2000 dazugekommen ist. Also haben wir hier auch ein Datum für den
Beitritt, oder? Also möchte ich
alle Mitarbeiter finden , die nach 2000
dazugekommen sind. Ehre, nach 2000. Und so kann ich
die Mitarbeiterdaten angeben und das Datum von Ashdod angeben. Und darin gebe ich das Datum
des Beitritts an. Also Daten zum Ertrinken stelle ich dieser Datumsfunktion zur
Verfügung. Und das sollte größer sein
als das hinzugefügte Anmeldedatum. Erster Januar 2000. Okay. Also alle Mitarbeiter
, deren Daten über Joanne
größer sind als dieses Tutorial, First Gen to Tarjan erhalten die Details zu diesen
Mitarbeitern hier. Also lass mich das ausführen. Warte noch einmal, sieh es dir hier an. Jetzt bekommen wir also die
Implikationen Priyanka Mahesh. Sie treffen uns also, wenn diese
fünf andeuten,
dass sie im Jahr 2000
beigetreten sind, und danach oder nicht nach 2000, sind
sie dem
Unternehmen beigetreten und wir erhalten die Mitarbeiterdaten. Wer mitgemacht hat, ähm, am sind oft 2000er. Auf diese Weise können wir die CSV-Datei und die Daten,
die wir in
der CSV-Datei haben, in Excel
analysieren . Das ist also eine ziemlich
coole Analyse, die wir mit den
einfachen Funktionen
durchführen können . Stimmt es? Was ich jetzt tun möchte, wir haben eine CSV-Datei gelesen, oder? Wir haben die
CSV-Datei gelesen und all diese Analysen
durchgeführt. Was ich jetzt tun möchte, ich möchte eine CSV-Datei schreiben. Ich möchte ein paar Daten haben. Ich möchte einige Daten generieren
und möchte, dass diese Daten in einer CSV-Datei
veröffentlicht werden. Wie kann ich das machen? Das kann ich damit machen. Write.csv. Read.csv liest
die CSV-Datei. Und write.csv bedeutet Lesen
oder Schreiben einer CSV-Datei. Wir wollen eine CSV-Datei schreiben. Welche Daten auch immer, diese
Daten, die ich gefunden habe deuten darauf hin, wer
nach 2000 dazugekommen ist, oder? Also möchte ich diese Tabelle
oder diese Daten in eine CSV-Datei schreiben . Also werde ich dieses
Objekt, das nach
2000 hinzugefügt wurde, an diese write.csv übergeben . Und hier gebe ich den Namen
der CSV-Datei. Also ich erhalte den CSV-Dateinamen als Mitarbeiter Punkt zwindig nach dem
Zahnursprungpunkt csv. All diese Daten werden also in diese CSV-Datei
geschrieben. Eine neue CSP-Datei wird erstellt. Okay, also lass mich, lass mich sehen, ob
diese Datei schon ist, siehe hier, diese Datei
ist schon da. Also was ich tun werde, ich
lösche das. Okay? Und dann gehe ich zurück
und führe das aus. Okay, lassen Sie mich das ausführen. Und lass mich
zum Ordner hier gehen. Sehen Sie hier, jetzt haben wir
eine neue Datei erstellt. Lassen Sie mich Ihnen die Daten zeigen. Hier. Wir haben 12345 Zeilen. Hat mir durch
Eddie erzählt, dass die Daten bis n 2000, 2018, 2.914.2018 sind. All diese Implikationen sind nach
dem Jahr 2000 hinzugekommen. Also ähnliche Daten gibt es hier. Und jetzt, wo die Daten in diese neue CSP-Datei
eingefügt wurden, im
Nachhinein Punktverbindungen
verwendet wurden und sehen, wie einfach es ist, das Ergebnis
hier
zu erhalten und dieses
Ergebnis in eine CSV-Datei zu schreiben die wir
gerade durch unser Throughing erstellt haben, können
wir die Ergebnisse auch
in eine CSV-Datei schreiben. Und jetzt kann ich lesen, benutze den Lesepunkt csv, um diese CSV-Datei
erneut zu lesen und zu drucken. Also lass mich das ausführen. Hier. Wir erzielen auch hier das gleiche
Ergebnis. Auf diese Weise können wir uns per
CSV-Datei schreiben und wir können eine CSV-Datei
lesen. Und wir können
all diese Analysen durchführen , z. B.
das Höchstgehalt ermitteln, den Mitarbeiter
finden, der das höchste Gehalt hat, wer das
höchste Gehalt erhält. Wir können die Mitarbeiter finden nach einem bestimmten Datum
beitreten. Wir können das
Durchschnittsgehalt der Mitarbeiter ermitteln. Wir können den
Mittelwert des Gehalts ermitteln. Wir können viele andere Dinge finden, was auch immer für Ihr
Unternehmen erforderlich ist. Wenn du willst. Kommen Sie zu einem bestimmten Ergebnis,
indem Sie die Daten vergrößern, können
Sie mit den,
mit den seltsamen Funktionen machen und
Sie können Ihre Daten analysieren. Ich hoffe, Sie haben
die Stärken unserer
Programmierung kennengelernt und erfahren , wie man Daten in
der R-Programmierung und beim Lesen und
Lesen und Schreiben, Lesen und Schreiben einer CSV-Datei verarbeitet. Wir sehen uns in der nächsten Vorlesung.
23. Kreisdiagramm in R erstellen: Hallo und willkommen zurück. In dieser Vorlesung werden
wir also etwas
über Kreisdiagramme lernen. Lassen Sie mich also zuerst
diese Konsolen und Objekte testen
und lassen Sie mich diese Datei schließen. Und ich habe
eine Datei erstellt , die
Byte Char Tatar heißt. Also habe ich das Programm geschrieben, ich habe die
Funktionen geschrieben, um ein
Kreisdiagramm mit Daten zu erstellen . Wir nehmen also an, dass
wir einige Daten
haben und diese
Daten in einem Kreisdiagramm darstellen möchten. Und wir wollen
die Daten analysieren, damit wir in unserer, sehr einfach,
auch für
diese Funktion beliebten Anzeige machen können , weil wir die
Daten anhand verschiedener Diagramme visualisieren können. Also eine Gitarre ist Kreisdiagramm und das werden wir
in dieser Vorlesung lernen. Also müssen wir als
Erstes, als Erstes
die Daten für das Diagramm erstellen. Also erstelle ich einen
Vektor n und
gebe Werte wie
307-82-3309, so etwas. Du kannst geben, was du willst. Und dann erstelle ich die Bezeichnungen a, B, C, D für diesen Wert. Der Wert wird also 30, 78, c, 23 und D 39 sein, so. Okay? Jetzt kann ich den
Datendateinamen für den Chat abrufen, egal welches Diagramm ich
gerade erstelle,
ich kann ihm einen Namen wie
ABC-Punkt-PNG oder ein
Kreisdiagramm-Punkt-PNG geben . Nehmen wir an, ich gebe ihm einen
Namen von Jarred dot PNG. Alles, was du geben kannst. Okay. Also gebe ich ihm einen Namen. Ich kann die PMT-Funktion verwenden und eine Datei angeben, die dem Dateinamen
entspricht. Also möchte ich eine PNG-Bilddatei mit
Kreisdiagramm-Punkten erstellen. Was auch immer das gepackt hat
, es wird in einem
PNG-Datei-Bildformat gespeichert. Okay, das kann
also auch mit dieser Zeile anfangen. Das ist also optional, wenn Sie eine PNG-Datei
auf einer Bilddatei haben
möchten, können Sie damit erstellen. Andernfalls können Sie direkt hierher
kommen und
die Kreisfunktion verwenden und
die Daten übergeben. Das geht also in die Daten und dann können Sie die Labels
weitergeben.
Das sind die Levels. Wenn also ein Kreisdiagramm mit diesen Daten
erstellt wird
und diese Daten mit a, B, C, D beschriftet
werden . Okay, also und dann
bedeutet dev.off, dass diese Datei auf dem, auf
dem System abgeschrieben wird . Okay? Lassen Sie mich diesen Code hier ausführen. Also lass mich rennen. Okay. Also CEO, jetzt haben wir, aber wir sehen diese Grafik hier
nicht. Ich weiß nicht warum. Lassen Sie
mich diesen Teil noch einmal ausführen. Schau hier. Jetzt haben wir ein Kreisdiagramm
mit den Bezeichnungen a, B, C, D. E ist
also verspätet. V ist am ähnlichsten 78. Das ist richtig, der größere
Bereich für b und dann d und C. Auf
diese Weise haben
wir mit diesen einfachen Daten diese
grafische Darstellung erstellt. Und lassen Sie mich zum
Kunststipendiaten und CEO gehen, es muss eine Datei erstellt werden. Sehen Sie hier das Kreisdiagramm. Diese PNG-Datei wurde
mit dieser grafischen
Darstellung erstellt . Also sieh hier, diese
Bilddatei
wurde auch erstellt und sieh
hier die a, B, C, D. Das sind die Bezeichnungen und
das ist der Datenwert
ist 78, das haben wir angegeben. Ein Wert ist 30 und C10 ist 23, 29 so. Okay, sehen Sie, wir
glauben, dass wir
eine grafische Darstellung
unserer Daten erstellt haben eine grafische Darstellung
unserer und dass wir
unsere Daten so präsentieren können. Okay, lassen Sie mich
zurück zum Kern gehen. Das ist also der Befehl, das ist die Funktion
PNG, um
eine PNG-Datei aus unserem Diagramm zu erstellen . Okay, das ist
unser Diagramm und das
ist unsere PNG-Datei für dieses Diagramm. Okay? Wenn Sie also das Diagramm
versenden möchten, können
Sie eine PNG-Datei erstellen
und diese per E-Mail senden. Okay? Auf diese Weise können wir ein Kreisdiagramm
erstellen. Okay, als Nächstes möchte ich
ein weiteres Kreisdiagramm erstellen. Und dafür kreiere ich quasi
implizit und ihr Gehalt. Also erstelle ich einen
Gehaltsvektor und
gebe ihm diese Gehälter
impulsiv
und er unterstützt
nur unser Gehalt und die Namen der Mitarbeiter, bis auf ein Datum und
all diese Dinge. Okay? Das sind also die beiden Vektoren, die ich für das
Gehalt und die Namen erstelle. Also offensichtlich wird es
diese Elite wundern,
aber es waren 800 so. Okay? Und das Gleiche gilt für
B und D. Ich versuche eine PNG-Datei
zu erstellen, Gehaltspunkt-PNG für
das Diagramm, das gezogen wird, und dann nach Gehalt und Namen, die ich übergebe
und übergebe das Gehalt als Daten und Namen
wie Labels. Das nächste Kreisdiagramm, das
wir erstellen werden, wird auf
der Grundlage des Gehalts erstellt und die Namen
werden Bezeichnungen sein, wie hier,
ABCD hat
es der Grundlage des Gehalts erstellt und die Namen
werden Bezeichnungen sein, wie hier, in diesen Stufen getan,
wird da sein und gespeichert werden. Aber BUN und diese Dinge. Okay, lassen Sie mich
diesen Deal hier erstellen. Lass mich das ausführen. Okay? Das nochmal. Schau hier. Jetzt haben wir ein Kreisdiagramm mit den Namen wie offensichtlich
Park J Tan. Und was ist die Verwendung
grafischer Daten beim Plotten. Denn damit
können wir sehen, dass, okay, ist Aaron, weniger
Gehalt für Musik hat weniger Gehalt, aber ein N Far Oak
hat ein ziemlich gutes Gehalt. Das Geld und Ellen ist
Erin jedes Gehalt. Mit dieser Grafik können
wir
die Daten also leicht analysieren, können
wir
die Daten also leicht analysieren ohne uns die Daten genauer anzusehen
. Wir können das sehen und wir können zu dem Schluss
kommen, dass Musik danach
weniger Gehalt hat, Satan kaum
mehr als jeder Kranke. Und dann der Buck und Ellen, und dann Spule und Stoff und
Stoff haben die meisten, die meisten zellulären
Elemente unserer Lucas, die
Fotokopien haben , bekommen das höchste
Gehalt, 1.000 Rupien Nachlass. Wir können
diese Analyse also durchführen , indem wir uns das
Kreisdiagramm ansehen und hier sehen, dass hier eine Gehaltsdatei erstellt
wurde, siehe hier. Also das kannst du über
die E-Mail schicken und du
kannst es so formulieren. Okay. Das ist also das riesige Kreisdiagramm. Und mit dieser einfachen
Pipe-Funktion können
wir ein
Kreisdiagramm erstellen, indem
wir die Daten schreiben und die Beschriftungen angeben
müssen. Dieser Name ist ein Etikett dafür, dass
wir gut sind. Danke. Okay. In der nächsten Vorlesung werden wir uns
die restlichen Dinge ansehen, z. B. wie wir die CSV-Dateidetails
analysieren können. Also sehe ich
dich im nächsten.
24. Mitarbeiterdaten analysieren: Hallo und willkommen zurück. In dieser Vorlesung werden
wir also die
Punkt-CSV-Datei mit
den Mitarbeiterdetails analysieren Punkt-CSV-Datei mit
den Mitarbeiterdetails , die wir
in den vorherigen Vorlesungen gesehen haben. Und wir werden die
Daten aus dieser CSV-Datei abrufen. Lesen Sie die Daten aus der CSV-Datei und wir
erstellen ein Kreisdiagramm. Und wir werden sehen, was wir
mit dem Kreisdiagramm machen können. Welche grafischen Dinge können
wir mit
dem Kreisdiagramm analysieren? Wie wir
die Mitarbeiterdetails aufklären können. Aus dem Kreisdiagramm. Um eine CSV-Datei zu lesen, verwenden
wir die read.csv und
übergeben die CSV-Datei hier. Und das werde ich
in den EMP-Punktdaten speichern. Das haben wir schon gesehen. Also führe ich das aus und wir bekommen die Daten in das
EMP-Punktdatenobjekt. Dies wird nun eine
DataFrame-Rate sein. Erinnerst du dich, oder? Wenn ich also diese
Mitarbeiterdaten ausdrucke, EMP-Punktdaten, wird
auch ein Datenrahmen angezeigt. Sie werden die
Struktur hier mögen. Diese Daten erhalten wir
aus dieser CSV-Datei. Jetzt möchte ich zeichnen, ich möchte ein Kreisdiagramm
wie dieses bekommen , weil das
impliziert, okay? Dazu kann
ich die Pipe-Funktion verwenden
und ein Kreisdiagramm erstellen. Deshalb möchte ich ein
Kreisdiagramm erstellen, das auf dem Gehalt basiert. Also was ich tun werde, ich verwende EMP-Punktdaten, Dollars Salad, all
diese Elemente. Holen Sie sich die
Gehaltsspalte in diesem DataFrame. Und es wird ein Kreisdiagramm erstellen
und das, was ich gebe, beschriften Ich gebe das Etikett
als Mitarbeiternamen an. Also EMP-Punktdaten, Dollar,
E&P-Unterstrichname, Mitarbeitername. Es wird also ein
Kreisdiagramm wie dieses erstellt, und das wird
das Gehalt des Mitarbeiters sein und die Stufen werden so
sein, dass der Name impliziert wird. Lassen Sie mich das ausführen
und sehen, hier
erhalten wir ein Kreisdiagramm, in dem diese Blöcke
das Thema Gehalt und die
Höhe der Implikationen darstellen . Mit diesem Kreisdiagramm können
wir
das also deutlich sehen. Sieh dir das an. D trocknet also das Gehalt dieses
Monats. Randolph hat
dieses Most-Gehalt bezogen, oder? Also hohe Gehälter, Höchstsatz. Und wir sehen hier, so hohe Gehälter, maximal 95.200. Und mein Haar trocknet,
je weniger Gehalt, oder? Also, wenn wir das
Gehalt sehen, 7.800, okay. Auf diese Weise können wir Kreisdiagramm erstellen,
das auf dem Gehalt und dem
Namen des Mitarbeiters sowie den Bezeichnungen basiert . Okay, als Nächstes
möchte ich das Diagramm, den
Titel und die Regenbogen-Farbpalette
plotten , also möchte ich
sie bunter machen. Also hier, was ich tun werde, ich verwende die Pipe-Funktion. Geben Sie das Gehalt weiter und geben
Sie dann den Namen an. Das sind also die Daten, dann ist dies die Bezeichnung und der
Mittelwert, der dem Gehalt des Mitarbeiters entspricht. Dies wird die Überschrift
für dieses Diagramm sein. Okay? Das wird also die
Überschrift für dieses Diagramm sein. Und was ich dann benutze, nenne
ich gleich
regenbogenfarben, heißt Regenbogen. Und dafür gebe ich Mitarbeitern die Länge der Punktdaten, okay? Tippen Sie anschließend auf die Mitarbeiterdaten. Okay, lass mich das ausführen. Jetzt. Wir erhalten ein sehr farbenfrohes Diagramm
oder ein Kreisdiagramm, in dem die Überschrift das Gehalt des
Mitarbeiters und die Namen die
Bezeichnungen und das Gehalt sind. Diese Blöcke
repräsentieren die. Impliziert Gehalt. Okay? Auf diese Weise können wir
ein farbenfrohes Kreisdiagramm erstellen, das viel besser
aussieht als das vorherige, sodass Sie es auch verwenden können. Als Nächstes möchte
ich die Labels erstellen. Was ich also tun werde, sehen Sie, ja, wir geben die Stufen
an, sie zu beschäftigen, die bereits in diesem
DataFrame enthalten sind, oder? Jetzt möchte ich
meine eigenen Level erstellen. Also, was ich hier mache, ich werde einen Prozentsatz des Gehalts festlegen,
andere Labels, okay? Also, was ich hier mache, ich erstelle ein
Objekt zu fünf Prozent und verwende die
runde Funktion. Und was ich hier mache, Hundert in das Gehalt eines Mitarbeiters geteilt durch einen Teil des
Gehalts aller Angestellten. Okay. Was ich also mache, ist, den Prozentsatz
der Geburten- und
Sterbegehälter jedes Mitarbeiters auf der
Grundlage des Gesamtgehalts zu ermitteln. Das Gesamtgehalt ergibt die Summe
aller Gehälter. Und dann werden wir
versuchen herauszufinden, wie viel Susanna rauskriegt. Wie hoch ist das prozentuale
Gehalt von Susanna? Das Gesamtgehalt. Okay. Wir erhalten also diesen prozentualen Wert für
Rohre. Und was ich dann tun werde, ich werde das
Zahnarztgehalt in einem Kreisdiagramm darstellen. Also verwende ich dafür
die Pipe-Funktion. Und hier werden die Daten das
gleiche Gehalt der Mitarbeiter sein, diese Spalte, Gehaltsspalte. Und dann sind die Kennzeichnungen
das prozentuale Verhältnis. Also das Label statt des Namens gebe
ich jetzt fünf
Prozent an, okay? Es werden also 1% sein, 2% so. Okay? Und dann die Hauptüberschrift, ich gebe, dieses
Gehalt per Chat zu analysieren, okay? Und dann die Collette, ich behalte das gleiche
Schema, Rainbow. Und hier gebe ich
die Linsen und Daten, Mitarbeiterdaten, Gehalt, Gehalt
und Bereitstellung als Länge. Okay. Lassen Sie mich also, und dann noch
etwas, das ich gebe, ich gebe die Liganden, Liganden oder etwas
wird
hier gedruckt , um zu spezifizieren,
was das bedeutet, R, welche Farbe wird
OXO, was impliziert. Es wird also in
der oberen rechten Ecke veröffentlicht. Und dann
gebe ich hier Mitarbeiterdaten. Dollar, Mitarbeitername
bedeutet den Namen des Mitarbeiters. Und dann gebe ich das
Cex-Mittel an, dass es sich um den Wert der Länge oder
Breite des Dings handelt. Sobald ich das gezeichnet habe, wirst
du verstanden werden. Also lass mich, du wirst verstehen hier
ein Sterndiagramm C kommt. Okay? Lassen Sie mich das auch ausführen. Und jetzt lass mich sehen. Ja, jetzt haben wir den Namen aufgegriffen. Wir erhalten die
prozentualen Zahlen wie die Summe der
Gesamtgehälter aller Mitarbeiter. Diese Person, die grüne
, die so viel Geld
hat, die 22,1%
des Gesamtgehalts erhält. Und dann
lassen wir unsere Augen laufen und sehen 19 Punkte. Also das, diese Legion, das nennt man Läsionen. Das, das ist die Loyalität. Und anhand der grünen
Farbblöcke sind das
die Brote, die dem Prion
gehören. Anhand dieser Grafik können
Sie also verstehen, dass die Gehälter
von Priyanka 0,6 Prozent
des Gesamtgehalts ausmachen, oder? Auf die gleiche Weise
gehört auch diese Zelle Michael, Michael ist 25,6. Und das niedrigste Gehalt
dieser Person, die
Riba ist, wie Sie sehen, ist ein
geringeres Gehalt, 0,2 Prozent. Auf diese Weise können wir
unsere eigenen Labels erstellen und
die Legenden für jedes Level platzieren. Und das ist genauer gesagt,
wie viel 1% als prozentuales,
prozentuales Gehalt erhalten. Als Nächstes können wir das 3D-Kreisdiagramm
zeichnen. Und dafür müssen wir diese
Bibliotheks-Plotmatrix
herunterladen. Okay? Also wenn wir es nicht sind, wenn es nicht
für dein RStudio da ist, kannst
du zur Datei kommen. Sie können zu den Paketen gehen und auf die
Installationspakete klicken. Hier kannst du deinen Namen, den Namen der
gestarteten Bibliothek,
die du
herunterladen möchtest, angeben gestarteten Bibliothek,
die du
herunterladen möchtest und
auf Installieren klicken. Eine Party ist nicht da. Sie können auf Installieren klicken
und diese Bibliothek
wird auf Ihrem Computer installiert, RStudio in Data Studio
und Sie können sie verwenden. Also brauchen wir diese Bibliothek, Plottricks, um
ein 3D-Kreisdiagramm zu erstellen. Und in dieser Bibliothek
haben wir die Pie 3D-Funktion. Und damit
können wir die Daten weitergeben, das ist das Gehalt des Mitarbeiters. Auf den Etiketten wird der Name
des Mitarbeiters angegeben. Und dann untersucht Punkt und Haupt ist das
Gehalt der Plazenta in 3D. Okay, lassen Sie mich das ausführen, um zu sehen, und jetzt
erhalten wir ein 3D-Kreisdiagramm. Genau hier. Wir bekommen ein 3D-Kreisdiagramm so wie dies die
Zusammenfassung des Sudan ist. Das ist sicherlich ein Anstieg
des Fleischantikörpers Michael, der C durchquert, sehr weniger Gehalt für weniger
Dinge oder die Masse wie diese. Das ist also die 3D-Darstellung der Mitarbeitergehälter. Also können wir hier sehen, und das wird viel
besser aussehen als das 2D-Kreisdiagramm. Auf diese Weise können wir ein Kreisdiagramm
erstellen und die Daten in der Kunst analysieren. Okay? Sie können es also auch
mit Ihren eigenen Daten versuchen. Sie versuchen,
Ihre eigenen Vektoren zu erstellen und
versuchen dann, das Kreisdiagramm zu zeichnen. Sie können die
Daten aus einer CSV-Datei analysieren, Ihre eigene CSV-Datei
erstellen und all diese Dinge tun. Ich möchte, dass ihr
euer eigenes Projekt wie dieses erstellt
und sowohl diese Grafiken und sowohl diese Kreisdiagramme in den
Projektabschnitt dieser Klasse einfügt. Und wir werden sehen, dass wir unser Feedback
geben können und so. Es wird also zwischen uns,
allen Schülern
und auch mit mir geteilt . Sie versuchen also,
Ihre eigenen Daten wie diese zu erstellen oder zu erstellen, und versuchen, Ihre
Datenbank zu visualisieren, indem Sie
das Kreisdiagramm oder ein 3D-Kreisdiagramm
erstellen das Kreisdiagramm oder ein 3D-Kreisdiagramm wie das Finden des Mittelwerts, das
Finden des
Durchschnittsgehalts, all diese Dinge. Okay. Also und in
die Projekte hervorragend eingedrungen.
25. Excel-Datei in R lesen: Hallo und willkommen zurück. In dieser Vorlesung werden
wir also lernen, wie wir eine
Excel-Datei durch Kunst lesen
können. Es ist ziemlich einfach und wir
müssen ein Paket installieren und dann müssen wir dieses Paket
laden. Und dann müssen wir
die Excel-Datei durch
einen einfachen einzeiligen Code lesen , und dann können wir die Daten drucken. Schauen wir uns an, wie wir das machen können. Also, was ich getan habe, ich habe dieselbe
Excel-Datei erstellt, dieselben
Details , die ich in
dieser Excel-Datei beibehalten habe , die wir in unserer CSV-Datei
hatten. Es sind also dieselben Daten, aber ich habe über diese
CSV-Datei eine Excel-Datei erstellt. Und was ich dafür getan
habe, ist, dass Apps einfach
diese CSV-Datei öffnen. Was ich tun werde, ist, dass ich
das Microsoft Excel hier nicht habe. Also was ich tun werde, ich gehe einfach zur und
hier haben wir die CSV-Datei mit den
Mitarbeiterdetails, oder? Ich öffne das einfach
hier im Google-Sitz. Und wir werden sehen, dass es bei x erstellt
wird. Und wenn ich ja sehe,
haben wir jetzt die Spalte Namensschild, Mitarbeiter-ID, Mitarbeitername, Gehalt, Beitrittsdatum
und Abteilung und alle Details
im Excel-Format. Was ich jetzt tun werde,
ich lade einfach diese Datei im
Excel-Ethikformat herunter. Klicken Sie also auf das Microsoft
Excel-Format und laden Sie es herunter. Jetzt wurde es heruntergeladen
und ich habe das behalten. Ich habe diese Datei hier in
unserem Arbeitsverzeichnis aufbewahrt. Als Nächstes haben wir jetzt diese Mitarbeiterdetails mit
Excel-Punkt x, y = Null. Das bedeutet, dass die
Microsoft Excel-Datei hier in unserem Arbeitsverzeichnis unser 2020 ist. Also was ich tun muss, als erstes müssen wir dieses Paket
installieren. Und der Paketname ist XLSX. Um also ein Paket in R zu installieren, können
wir diese Syntax
install.packages verwenden und
den Paketnamen angeben , den
wir installieren möchten. Wenn Sie diesen Befehl
ausführen, wird die
Excel-Ethikklammer installiert. Alternativ können wir hier auch zu diesem Paket-Tab
gehen. Und wir müssen
auf Installieren klicken. Und hier müssen wir X als X
angeben, okay? Und Sie können hier auf Installieren klicken
und es wird installiert. Wir können also beides tun, und die
XLSX-Packer werden installiert. Dieses Paket ist erforderlich
, da wir diese Excel-Datei während unserer
Programmierung
lesen müssen . Und wir benötigen die
Bibliotheken, die in das Excel-Paket
integriert sind . Also einfach auf Ausführen klicken
und das ist erledigt. Okay. Also was ich tun werde, ich
storniere es einfach, weil ich dieses Paket
bereits installiert habe . Du klickst einfach darauf und
es wird installiert, okay? Und du kannst hierher gehen und das kannst
du auch tun. wird kaum
eine Minute in Anspruch nehmen Ihre Zeit wird kaum
eine Minute in Anspruch nehmen und dieses Paket
wird installiert. Das nächste Ding ist eine Oper
, bei der wir
dieses Ding verschieben müssen , weil es
immer noch nicht in unserer Skriptdatei enthalten ist. Nachdem Sie die
Bibliothek oder das Backend installiert haben, müssen
Sie diese Zeile löschen. Es geht immer noch nicht zum
Liquor Other Script-Kampf. Als Nächstes wollen wir unsere Excel-Ethikdateien
lesen. Und
in dieser Bibliothek gibt es eine Funktion. Also müssen wir die Bibliothek laden, wir müssen das Paket laden, also werden wir die Bibliothek verwenden und dann behalten
wir den
Bibliotheksnamen XLSX. Und dann muss ich die
Funktion v dot XLSX verwenden. Das bedeutet, dass wir eine Excel-Datei,
eine
Microsoft Excel-Datei, lesen wollen . Und hier, das erste Argument, wir müssen Geld geben,
um den Dateinamen zu geben. Also das endgültige Bild, Mitarbeiterdetails Punkt XLSX. Okay? Und dann müssen wir den Sitzindex
angeben, Index entspricht eins. Okay? Und das, was auch immer wir hier in
diesem roten Punkt in Excel
lesen, wir speichern es in Sichtweite oder
Objekt in einem Objekt. Mitarbeiter unterstreichen Daten,
E&P unterstreicht Daten. Das enthält also
alle Daten, die wir aus
dieser Excel-Datei lesen. Und dann drucken wir das
einfach aus. Lassen Sie mich also diese Datei ausführen und sehen, dass wir hier
das Ergebnis erhalten, Mitarbeiter-ID, Mitarbeitername, Gehalt, am Ende treten sie
bei und Abteilung. Dieser Weg ist also ziemlich einfach. Wir können das durchlesen, wir
können die Älteren darauf zugreifen, können
wir lesen, oder? So ziemlich einfach. Laden Sie die Bibliothek. Installieren Sie zuerst das Paket und laden
Sie dann die Bibliothek. Dann müssen wir
die Excel-Datei lesen , indem wir einfach
den Excel-Dateinamen angeben. Und wir müssen diese Daten
in einem Objekt in einem Objekt speichern. Und dann
drucken wir dieses Objekt einfach um zu sehen, was dieses
Objekt speichert. Es speichert im Grunde alle Details aus
dem Excel-Blatt. Okay, ich hoffe, du hast erfahren, wie wir eine Excel-Datei lesen können. Wir können also eine
Excel-Datei lesen, indem XLSX-Funktion
read dot verwenden. Und wir müssen
den Excel-Dateinamen angeben. Und dann bekommen wir einfach alle Daten in
der Excel-Datei. Das Paket ist also XLSX
, das wir installieren müssen. Und wir müssen
die Bibliothek XLSX laden bevor wir die XLSX-Funktion verwenden. diese Weise
können wir also eine Excel-Datei, eine
Microsoft Excel-Datei
durch unsere Programmierung lesen . Du bist in der nächsten Vorlesung.
26. xml-Datei in R lesen: Hallo und willkommen zurück. In dieser Vorlesung werden
wir also lernen, wie wir eine XML-Datei
durch unsere Programmierung lesen
können. Also werden wir einen Code schreiben und durch den
wir die XML-Datei lesen. als Erstes sagen, Lassen Sie mich Ihnen als Erstes sagen, welches Stück. Xml-Datei. Eine
XML-Datei ist also eine XML-Datei. Xml bedeutet XML Extensible
Markup Language und einfügen nennen wir es XML
Extensive Markup Language. Und es ist ähnlich
wie Rewrite HTML, Hypertext Markup
Language, wissen Sie, zum Schreiben von Webseiten
und alles auf die gleiche Weise, XML Extensible Markup Language. Es ist eine Datendatei. Und in dieser Datei speichern wir
Daten wie in einer Datenbank, so wie wir Daten auch in
der Excel speichern. Wir speichern Daten auch in einer
Textdatei und wir haben sie auch in
der Datenbank gespeichert. Auf die gleiche Weise
speichern wir Daten in XML-Dateien, das ist Extensible
Markup Language. Es ist wie
ein HTML-Dokument formatiert, wie in einem HTML-Dokument, wir verwenden die Markups und alles, um das Dokument
auf die gleiche Weise zu speichern. Xml, außerdem verwenden wir das Markup, um die Daten
in der Datei zu behalten. Aber hier verwenden wir benutzerdefinierte Tags. In HTML
ist alles vordefiniert. Aber in XML können wir
unsere eigenen Tags wie HTML erstellen. Wir müssen
die ältere vordefinierte
Sprachsteuer verwenden die ältere vordefinierte
Sprachsteuer , die spezifisch für das HTML ist, aber in XML können wir unsere
eigene Steuer schreiben, was auch immer wir wollen. Dafür können wir ein Tag erstellen. Und deshalb wählst du benutzerdefinierte, tagbasierte Sprache Wochenende eine
benutzerdefinierte, tagbasierte Sprache
oder
eine Dateierweiterung aus. Ich werde die
Markup-Sprache einreichen, damit wir hier benutzerdefinierte Tags
verwenden können hier benutzerdefinierte Tags
verwenden , um Objekte und die
Daten in den einzelnen Objekten zu definieren. Wir können also
das benutzerdefinierte Objekt definieren und die Daten
entsprechend platzieren,
unabhängig davon, welche Daten wir für die Tags
portieren möchten, können wir tun. Xml-Dateien können
als textbasierte
Datenbank wie MySQL betrachtet werden. Wir verwenden die Jugend, um
die Daten in einem Tabellen- und
Rohformat zu speichern , und wir entscheiden welche Art von Spalte wir einfügen
möchten , genauso wie
es sich um eine textbasierte Datenbank handelt. Also was ich jetzt tun werde, ich möchte keine
XML-Datei von Grund auf neu erstellen. Und ich möchte
dieselben unsere Daten verwenden, dieselben Details, die wir in unserer CSV-Datei
hatten, Mitarbeiterdetails als Punkt CSV, und dann haben wir die Excel-Datei mit
den Mitarbeiterdetails mit
Punkten löschen . Ich möchte also
dieselbe Art von Daten haben, dieselben Daten in XML Agile. Dafür können wir also manuell eine XML-Datei
erstellen. Andernfalls können wir auch
dieses Konvertierungstools auf
der IO-Website verwenden , auf wir einfach
die Excel-Datei durchsuchen und sie
in eine XML-Datei
konvertieren können. Also lass es mich dir zeigen. Also, wenn Sie auf diese
Website kommen Konvertierungstools Punkt Edu Slash konvertieren
Slash Excel in XML. Also diese Phase, wenn
Sie hierher kommen und wir, wenn Sie stöbern und einfach Ihre Excel-Datei mit
den
Mitarbeiterdetails hier eingeben. Jetzt verwende ich diese
XLSX-Datei mit
Mitarbeiterdetails , um eine XML-Datei auf der
Grundlage dieser Dateidaten zu erstellen. Sie müssen also nur die Datei
auswählen. Und dann müssen wir
auf Run Converge klicken diese Excel-Datei in eine XML-Datei
konvertiert wird. Und es dauert ein paar Sekunden und Ihre XML-Datei wird
automatisch bereit sein. Also, was ich getan habe, ich habe
diese XML-Datei hier bereits heruntergeladen, XML-Datei mit den
Mitarbeiterdetails. Und wir werden versuchen, diese XML-Datei zu
lesen. Es enthält dieselben Daten
wie Mitarbeiterdaten, oder? Also okay, also was ich getan habe, habe ich geändert und ich habe es hier nur zur Aufzeichnung
aufbewahrt. Und wenn Sie die Datei, die
ich gerade erstellt habe, in
Downloads und dieser XML-Datei sehen , werden
Sie Daten sehen. Acht Mitarbeiter haben es
bis dahin identifiziert. Ist das okay? Also so, das können wir machen. Lassen Sie mich
diese zwei Stunden kopieren und einfügen. Ja. Okay. Also habe ich auf Lake Rehab das Paket XL XX
zum Lesen der Excel-Datei
installiert. Auf die gleiche Weise müssen
wir das Paket XML installieren, um
die XML-Datei zu
lesen . Und dafür müssen wir
install.packages verwenden und den Paketnamen XML angeben. Alternativ können wir
zum Installationspaket gehen und hier
den Paketnamen XML angeben. Und wir müssen auf Installieren klicken
und es wird installiert. Ich werde es also nicht neu
installieren weil ich das bereits
installiert habe. Und wenn Sie es nicht installiert haben, führen
Sie einfach diese
Zeile aus oder Sie können
hierher kommen und das XML hier angeben, und Sie können auf Installieren klicken, und es wird ein paar Sekunden dauern, das Paket
zu installieren, oder kaum eine Minute, um das Paket zu
installieren. Sobald das Paket installiert ist, müssen
wir diese Zeile entfernen da das Paket
bereits installiert ist. Als Nächstes müssen wir das XML-Paket oder
die XML-Bibliothek laden. Also müssen wir den Befehl verwenden oder wir müssen die
Skriptbibliothek verwenden. Und wir müssen
den Paketnamen angeben. Also müssen wir das
Paket laden, okay, also Bibliothek. Und wir müssen
den Paketnamen XML angeben. Alle Funktionen
und die zum
Lesen der XML-Datei erforderlichen Funktionen werden also in diese XML-Bibliothek geschrieben. Und dass alle
eingebauten Funktionen für uns unser Level sein
werden. Als Nächstes müssen wir auch
die Bibliotheksmethoden hinzufügen. Dies ist für
dieses XML-Paket erforderlich. Okay, und als Nächstes,
was wir tun müssen, müssen
wir die
Funktion XML parse verwenden. Xml-Dateien sind eine Funktion, die zum Lesen und
Lesen einer XML-Datei erforderlich
ist . Also verwenden wir XML
Parse und
müssen den
Dateinamen für die XML-Datei angeben. Also Datei, die dem Dateinamen entspricht. Also unser letztes Bild, Mitarbeiterdetails Punkt XML. Und wir müssen, was auch immer es
aus dieser XML-Datei abrufen wird, wir müssen es
in diesem
Mitarbeiterdetails-Objekt speichern . Denn in R müssen wir alles in einem Objekt
speichern , wie man sagen kann,
Variablen. Implizite Details, Variablen
oder Objekte behalten also ,
was auch immer wir sind. Wir erhalten aus dieser Datei eine XML-Datei durch diese
XML-Parse-Funktion. Jetzt werden alle Details aus dieser implizierten
Detail-Punkt-XML-Datei in diesem Objekt gespeichert. Jetzt müssen wir das Objekt
drucken. Also lass mich bis hier rennen. Okay, lass mich das hier sehen. Es druckt die
XML-Datei wie ein Akkordeon einfach ID1 und das
Glassdoor-Gehaltsdatum des
Beitritts in die Abteilung an. Okay, hier sind also die benutzerdefinierten Tags, die wir
für unsere XML-Datei erstellt haben. Okay, wir sehen uns alle Details an,
die wir bekommen, damit wir
die XML-Datei so lesen können. Xml analysiert die Funktion, um
die XML-Datei
in C zu lesen die XML-Datei . Oder wir können die
Funktion XML food node verwenden, den Stammknoten der XML-Datei. Wir drängen also auf den
Stammknoten und übergeben
die
Mitarbeiterdetails, E&P unterstreicht das Detailobjekt an den Stammknoten und
dann drucken wir diesen Stammknoten. Lassen Sie mich also diese beiden Linien ausführen. Wenn ich den ersten Stammknoten einfüge
, werden mir die ersten
Knotendetails angezeigt, das Gitter impliziert ID1. Wenn ich eins von zwei gebe, gibt
es mir den Namen. Die erste Zeile, in der
Sie arbeiten, heißt Priyanka
Rostow vom ersten Knoten aus. Wenn ich zwei
zu dem hinzurechne, was ich bekommen werde, erhalte ich den Namen,
der zweite impliziert
, dass es sich um die Mitarbeiter-ID handelt. Der Name des Mitarbeiters ist. So können
wir auf jeden Knoten zugreifen. Ich kann drei von eins nehmen. Nehmen wir an, drei von dreien
bekommen das Gehalt des
geteerten Spiels, richtig. Und auf die gleiche Weise können wir
herausfinden, wie viele Knoten es dafür gibt, wie viele Norths es
in unserer XML-Datei gibt,
wir können die XML-Größe verwenden
und
das Stammknotenobjekt bereitstellen , das
wir vom XML-Stamm erhalten haben. Also, wenn wir das machen, werden
wir die Nummer nördlich erledigen. Lassen Sie mich das ausdrucken. Nummer vier, weil
diese Excel-Datei die
ich nur
für den Arbeitgeber aufbewahrt habe, ist es. Es zeigt uns also, dass es
vier Nordländer gibt. Wir haben vier Knoten, wenn impliziert, einen in Bright, für den
D3 und die Mitarbeiter-ID verwendet werden. Es gibt uns also das, was
oben im Norden in der XML-Datei steht. Jetzt ist die Hauptsache,
wenn wir diese Daten haben, XML-Daten, können wir
R lesen . Wir müssen sie in den DataFrame konvertieren
, weil es sehr einfach ist, Daten zu lesen oder zu manipulieren wenn sie im
DataFrame-Format vorliegen, oder? In Are gibt es also eine Funktion
namens XML to DataFrame. Das bedeutet, was auch immer wir in
dieser
Punkt-XML-Datei mit den Mitarbeiterdetails haben , wir können
das direkt in einen funktionierenden DataFrame konvertieren,
indem wir die
XML-to-DataFrame-Funktion und alle Details verwenden. Wir speichern es im
DataFrame mit dem Unterstrich des
Mitarbeiters und können es dann
ausdrucken und wir werden sehen, dass es wie DataFrame aussieht. Lassen Sie mich das ausführen und sehen,
dass alle Details in einem tabellarischen Format oder in einem DataFrame-Format in
unserer leitenden Mitarbeiter-ID, dem
Mitarbeiternamen und den Gehaltsdaten für
Planung und Abteilung vorliegen. Damit, mit dieser
einzigen Codezeile, können
wir in der R-Programmierung eine
XML-Datei
in DataFrame konvertieren . Und das ist ziemlich
praktisch, wenn wir unsere explorative Datenanalyse maschinelles Lernen
und Datenwissenschaft durchführen. So können wir eine
XML-Datei einfach in einen DataFrame konvertieren und dann weiter analysieren, um die Daten zu analysieren oder die Art und Weise, wie wir Grafiken erstellen möchten,
und all das Plotten und so weiter. All diese Arten von Analysen können
wir also mit diesem DataFrame durchführen. Es ist also ziemlich einfach,
all diese Dinge in
unserer Programmierung zu tun . Ich hoffe, Sie haben verstanden,
wie wir eine XML-Datei lesen können. Woher wissen wir, wie,
wie viele Knoten es
mit dieser XML-Größe gibt? Und wie können wir dann eine XML-Datei in R in
unseren DataFrame
konvertieren , indem wir
XML in DataFrame verwenden, oder? Das war's für diese Vorlesung. Wir sehen uns im nächsten.
27. JSON-Datei in R lesen: Hallo und willkommen zurück. In dieser Vorlesung werden
wir also lernen, wie man JSON-Dateien in
unserer Programmierung
liest. Also, was wir tun werden, wir werden lernen, was eine JSON-Datei ist, dann werden wir eine JSON-Datei erstellen. Und dann werden wir endlich versuchen, diese JSON-Datei
durch unsere Programmierung zu lesen. Also lasst uns anfangen. Als Erstes sollten wir also
wissen, was ein Sulfit ist. Jason steht also für
JavaScript Object Notation und es ist ein
Open-Source-Standarddateiformat. Es handelt sich also um ein offenes Standarddateiformat und ein
Datenaustauschformat. Also im Grunde auch das
Osterdateiformat und auch das
Datenaustauschformat. Das heißt, wir können die Daten speichern und wir verwenden sie für den
Austausch der Daten. Außerdem, dass du nur
menschenlesbarer Text bist. Darin schreiben wir
menschenlesbaren Text, um Datenobjekte zu speichern und zu
übertragen aus
Attributwertpaaren bestehen. Das heißt, es wird so sein, als würden wir zuerst Schlüsselwertepaare verwenden,
all diese Dinge, Seite. Wenn Sie die MongoDB oder
andere Datenbanken ohne Sequel kennen, müssen
Sie wissen, dass es
eine Dokumentendatenbank
gibt , in der
wir Daten in
Form von Schlüsselwertpaaren speichern. Es wird also einen Schlüssel geben, und für diesen Schlüssel wird
es auf
die gleiche Weise einen
entsprechenden Wert geben, nur Sie
nur die
Attributwertpaare. Das bedeutet, dass es ein
Attribut geben wird und dieses Attribut, es wird ein Attribut, Wertepaare und
hinzugefügte Datentypen geben. Im Grunde auch alle anderen
Werte, und dieser Typ wurde im Grunde bearbeitet. Also, ich hoffe, Sie haben herausgefunden,
was Jason theoretisch ist, lassen Sie mich wissen, wie wir eine JSON-Datei
erstellen können. Also bis bald. Die Datei ist sehr einfach. Wir müssen Daten in
diese geschweiften Klammern einfügen. Und innerhalb der geschweiften Klammern, was wir tun werden, werden
wir dieses
Schlüsselwertepaar verwenden, um Daten zu speichern. Nehmen wir an, was
ich tun werde, ich werde dieselben
Mitarbeiterdaten nur speichern. Wir haben gesehen, wie wir
das in einer CSV-Datei wie hier speichern. Und dann haben wir gesehen,
wie wir
es in einer Excel-Datei speichern können . Und dann haben wir gesehen, wie wir das in einer XML-Datei
speichern können . Und jetzt werden wir sehen,
wie wir
dieselben
Mitarbeiterdetails in einer JSON-Datei speichern können . Also dafür haben
Sie, wie gesagt, den besten
Dateiformat-Trick gesehen. Hier, Mitarbeiter-ID. Alle Mitarbeiter-IDs speichere
ich in einem
Array eins bis acht. Also alle
Mitarbeiter-IDs von eins bis eins, als ob wir acht Mitarbeiter-IDs haben. Also haben wir, wir haben all die
wiederhergestellt. Und wir haben den
Attributnamen als Mitarbeiter-ID angegeben, und die Werte liegen
zwischen eins und acht, oder? Und dieser Doppelpunkt ist die
linke Seite des Dickdarms. Diese Kolonisten, die den
Schlüssel und den Wert trennen , sind
Attribut und Wert. Also die linke Seite der Kolonien, Mitarbeiter-ID und auf der rechten
Seite der entsprechende Wert. So wie wir den Namen der
Mitarbeiter unterstreichen, das ist ein Attribut und
alle Namen der Mitarbeiter, diese Priyanka wird dem
entsprechen,
jemanden implizieren oder um die letzten beiden zu setzen sind ich wie React es gibt immer noch die Teile
eins bis vier zu meiner Eile für das, was Sie
so sehen. Okay, dann speichern wir
die Gehaltsliste, dann speichern wir
die Trainingsdaten darin und dann die Abteilung darin. Auf diese Weise können
wir in der Abteilung Daten in die JSON-Datei einfügen, können
wir in der Abteilung Daten in die JSON-Datei einfügen und ich habe
diesen Punkt mit
den
Azure-Mitarbeiterdetails im JSON-Punkt gespeichert . Jetzt wissen wir, wie wir
Daten in einer JSON-Datei speichern. Als Nächstes
werden wir versuchen, das zu lesen, durch unsere Programmierung auf Dateidaten zugreifen. Also lass es uns machen. Also öffne ich, ich habe den Code
bereits geschrieben. Also öffne ich die lesende
JSON-Datei, die ich geschrieben habe. Und dafür müssen
wir das Paket installieren. Unsere Gäste haben dazu, auf diesem Backend
Minister installiert. Oder Sie können es installieren, indem Sie diese Codezeile
ausführen. Und du kannst zum
Installationspaket kommen. Und du kannst
hier oder diesen hinstellen. Und Sie können
auf Installieren klicken und es
wird installiert. Sie können also auch dieses
Befehlsskript verwenden. Dann müssen wir die
Bibliothek oder das Axon benutzen. Und dann müssen wir
den JSON-Dateinamen angeben. Und der JSON-Dateiname sind
Mitarbeiterdetails gegenüber der Sonne. Und hier verwenden wir eine Funktion aus dieser
Bibliothek sind Jason, Das ist von Jason. Das bedeutet, dass wir die Objekte
aus unseren Daten
lesen werden ,
aus dem
Punkt js mit den Mitarbeiterdetails in dieser JSON-Datei, einer
Datei, die dem endgültigen
Namen entspricht, den Sie angeben müssen. Und diese Funktion von JSON
liest die Daten aus
dieser JSON-Datei und was auch immer
sie liest, gespeichert
in diesem Objekt E&P
unterstreicht Details. Dann drucken wir es einfach aus. Also lass es mich dir hier zeigen. Lassen Sie mich das ausführen und sehen , wie es die
Daten wie die Mitarbeiter-ID liest, ein bis acht Mitarbeiternamen. Dies sind der
benannte Mitarbeiter, dann das Gehalt, und dann kommt das Datum des Beitritts und dann
die Abteilungen. Sehen Sie sich hier an, wie wir mit
einer Codezeile aus
nur einer einfachen Funktion leben . Und nur wir
geben den Dateinamen und er liest alle
JSON-Dateidaten. Das nächste Ding ist jetzt
mit diesem Wochenende. Drucken Sie die Daten aus. Wir können also hier sehen, dass die Daten
aus der JSON-Datei
gedruckt werden. Wie wir in unserem wissen, ist
es ziemlich einfach und es
wird dringend empfohlen die Daten in
einem DataFrame-Format
zu erhalten. Wir können also einfach jetzt sich
die JSON-Dateidaten in diesem Objekt in E&P
Underscore Details befinden, wir können das
in den DataFrame konvertieren, indem agilen dunklen Datenpunktrahmen
verwenden. Also wenn wir diese Funktion
als.data.frame verwenden und dieses Objekt mit
gerade älteren
Dateidokumenten oder den Daten
übergeben . Dieses Objekt erhält alle Details aus
dieser JSON-Datei. Und wenn wir
dieses Employee-Retail-Objekt
an den as.data.frame übergeben , werden
diese Daten konvertiert. Jetzt ist das Format so. Es nimmt diese Daten
und wandelt sie in einen DataFrame in R um. Und wir stellen diese
Details wieder her, unseren DataFrame in E&P Underscore Data
Understrich Frame. Und wenn wir drucken, werden die Daten in einem DataFrame-Format angezeigt. Also lass mich das ausführen. Sehen Sie hier, jetzt
erhalten wir Daten in unserem DataFrame-Format
in R. Es ist also ziemlich einfach, dass
wir diese
JSON-Datei mit der Funktion
from JSON lesen können . Und dann
übergeben wir einfach dieses Objekt, das alle Details aus
den Mitarbeiterdetails oder
der
Sonne erhält , und konvertieren es in den DataFrame, indem wir
diese einfache Funktion
als.data.frame verwenden diese einfache Funktion
als.data.frame und dieses Objekt übergeben. Was für ein JSON-Objekt, oder ein Python-Objekt das die Daten
aus der JSON-Datei
trägt, ein DataFrame in R. Und einfach können
wir diese Hand ausdrucken CEO, wie schön es ist, sich in einen DataFrame zu
verwandeln. Auf diese Weise können wir unsere
JSON-Datei lesen und
diese JSON-Dateidaten in einen
DataFrame in der R-Programmierung konvertieren . Und dafür können wir diesen DataFrame
verwenden, um die Daten zu analysieren und
weiterzuverarbeiten, Diagramme zu erstellen und
alles, was Sie
tun möchten , können Sie mit
diesem DataFrame machen. So können wir JSON-Datei mit
unserer Programmierung
lesen. Wir sehen uns in der nächsten Vorlesung.
28. Bar-Plot erstellen: Hallo und willkommen zurück. In dieser Vorlesung lernen
wir also
ein anderes Visualisierungsdiagramm oder eine
Grafik kennen ein anderes Visualisierungsdiagramm oder , die wir mit R
erstellen können Und das ist ein Balkendiagramm
oder ein Balkendiagramm, wie Sie sehen können, ein Balkendiagramm. Balkendiagramm oder
ein Balkendiagramm oder ein Balkendiagramm ist eine
der häufigsten Arten der grafischen Visualisierung
, die Sie in Ihrem Büro oder in
Ihren Projekten
gesehen haben müssen . Wann immer wir versuchen, eine Prognose
zu visualisieren, verwenden
wir ein Balkendiagramm. Und wenn Sie dieses Diagramm sehen, ist
dies ein Balkendiagramm. Und Sie werden feststellen
, dass Sie es viele,
viele Male
benutzt haben müssen , oder? Wir könnten dieselbe Art von
Balkendiagramm auch in unserem
Microsoft Excel bekommen . Und wenn wir versuchen, etwas zu
visualisieren, auch wenn wir etwas
auf Stift und Papier zeichnen. Um etwas zu visualisieren, zeichnen wir
höchstwahrscheinlich ein Balkendiagramm. Barplot ist also eine
der häufigsten Arten der
grafischen Visualisierung. Und es geht um die
Beziehung zwischen einer numerischen und einer
kategorialen Variablen. Also, was heißt das? Das bedeutet, dass der CEO, die A, B, C, D, diese X-Achse
etwas sein wird , das
sehr kategorisch sein wird. Also, was sind
Wochen oder Tage in einer Woche? Wie Sonntag, Montag,
Dienstag, unser Januar, Februar, März, April,
Mai, Juni, so. Und diese Y-Achse wird
die numerische Darstellung
für diese Monate sein , z. B. der Umsatz einer Organisation
oder das Gehalt der Mitarbeiter. Also diese X-Achse, ABC,
werden die Mitarbeiter sein, und das wird
ihr entsprechendes Gehalt sein. Dieser Überschuss wird also
den numerischen Teil lesen und dies wird
der kategoriale Teil sein , oder? Jede Entität
der Kategorievariablen wird also als Balken
dargestellt. Das ist also die Bar. Und deshalb
heißt es Balkendiagramm, weil der numerische Wert als Balken angezeigt
wird. Also das ist super, ist bekannt als das Balkendiagramm und Größe der Batterie
stellen den numerischen Wert dar. Diese Größe wird also so dargestellt, als wäre das
irgendwo umgedreht. Das ist irgendwo um 13, das ist irgendwo um sieben, und das ist irgendwo allein, neun, und das ist eine Entscheidung. Der E-Wert ist also 15, B-Wert ist sieben, C-Wert ist neun, der Wert ist acht. Und dieser e-Wert ist 13. Also so. Diese Körpergröße entspricht diesem
numerischen Wert. Ob ABC oder Angestellter, das sind ihre jeweiligen
Gehälter, oder? Auf diese Weise können wir
das Balkendiagramm verwenden und in R
können wir ein Balkendiagramm zeichnen, indem wir einfach die Balkendiagrammfunktion
verwenden. Also Balkendiagrammfunktion. Und innerhalb der Funktion stellen
wir nur einige bereit, aber Amateure und unsere Daten. Und es wird das Balkendiagramm erstellen, dieses Funktionsbalkendiagramm
zum Erstellen von Balkendiagrammen. Es können sowohl vertikale
als auch horizontale Balken sein. Und die Syntax ist Barplot und es wird
das Argument th verwenden. Diese Kanten werden der
Vektor, der Datenvektor, sein. Der Vektor, der alle Daten
enthalten wird. Und dieses Xlab ist die X-Achse, Y ist die Y-Achse, so ist
a, B , a, B, C, D die X-Achse, xlab und y ist die
Y-Achse, diese Hauptachse. Und dann wird der Name
Ochse der sein, mal
sehen, was das ist? Das ist, das wird so eine Benennung
wie diese sein. 123, lass mich dir das sagen. Diese Null bis 14, wie das
Gehalt des Mitarbeiters, werden die Daten sein. Und diese Namen
werden die Namen der Implikationen sein. Okay? Diese Kante
und der Name beginnen also damit, dass
beide Vektoren dieselbe Anzahl
von Daten haben , oder? Dieselbe Anzahl von
Datennummernoperatoren
wäre in der Kante mit dem Namen start dieselbe. Okay, okay. Wir werden sehen, dass HE, der Vektor oder die Matrix,
die den numerischen Wert
des Balkendiagramms enthält . Wie gesagt, xlab ist
die Ebene der X-Achse. Warum ist Liebe die Ebene der Y-Achse? Und hauptsächlich der Titel des Busses. Hier wird
also der Titel des Balkendiagramms angezeigt, z. B.
das Gehalt des
Mitarbeiters. Und dann benannter Start argumentiert, dass ein Vektor nach oben benennt und jeder Teil erscheint
, wie ich schon sagte, für diesen Balken, diesen Balken b so. Okay? Und der Ruf
wird verwendet, um
die Farben an den Balken zu halten die Farben an den Balken zu wie hier bekommen wir
verschiedene Farben. Wenn Sie also
ein Diagramm bunt gestalten möchten, nutzen
wir den Aufruf. Argument, okay,
Henry, darüber hinaus. Okay. Also hier ist ein
einfaches Beispiel. Was ich
hier mache. Ich erstelle einen neuen Vektor und er wird diese, diese
vielen Zahlen
enthalten. Okay? Dieser Vektor wird also so viele
Zahlen
enthalten, okay? Und dafür möchte ich
ein Diagramm erstellen. Also was ich tun werde, ich
erstelle einfach diesen Q-Vektor und übergebe diese Q-Vektor-Plot-Funktion mit
zwei Balken. Und es wird
das Balkendiagramm für uns erstellen. Und diese ist eine
PNG-Datei, die einem b entspricht, kein PNG, das
dem Dateinamen entspricht. Sie können eine Bilddatei
neben dem Diagramm oder Balkendiagramm erstellen und
sie auf Ihrem System speichern. Und dafür verwenden wir
die PNG-Funktion. Und darin
verwenden wir die Datei Col2 und Namen
der Datei, den Sie angeben möchten, den
Sie hier angeben können. Auf der Grundlage dieser Daten
wird also eine Charta erstellt und die Diagrammdaten werden in
dieser Bilddatei gespeichert. Und dann verwenden wir die
Balkendiagrammfunktion, um das Balkendiagramm für uns zu zeichnen. Und dann
bedeutet dev.off, dass wir
die Datei speichern und sie wird auf unseren lokalen Computer
geschrieben. Gehen wir also zum RStudio
und führen diesen Code aus. Also hier erstelle ich einen
Vektor für die Dateneingabe. Basierend auf diesen Daten wird also das Balkendiagramm erstellt. Jetzt erstelle ich eine Datei, um das Balkendiagramm darauf zu
schreiben. Ich gebe PNG-Datei gleich und hier
können Sie einen beliebigen Namen angeben. Du kannst abc, abcd,
nicht PNG angeben , welchen Namen
du willst, du kannst, okay? Also gebe ich ein, b, c, d-Balkendiagramm, okay? Und dann verwenden wir das
Balkendiagramm, um ein Balkendiagramm zu erstellen, und dann speichern wir es, richtig, dev.off, speichern Sie die Datei. Jetzt werde ich das Ganze überprüfen und schauen, ob das Grundstück
aus
irgendeinem seltsamen Grund hier nicht verkauft wird. Aber wie Sie hier sehen, wurde unser Balkendiagramm erstellt. Die Datei wurde hier erstellt. Wir sehen uns. Also okay, 12345678 Einträge, oder? Und hier haben wir 12345678. Die längste ist
9.001,99 Tausend. Auf diese Weise können wir
Ihnen ein doppeltes Balkendiagramm geben. Das ist also ein einfaches
Balkendiagramm, das wir auf der Grundlage
dieser Daten
erstellt haben , oder? Als Nächstes können wir etwas
weiter gehen und versuchen, etwas Interessanteres
zu kreieren. Ich werde haben, also
was ich hier gemacht habe,
ich habe Daten wie B erstellt,
einen Vektor oder Daten, die die in
jedem Monat geborenen Babys enthalten, wie
B enthält
einen in
jedem Monat geborenen Babys enthalten, wie V-Vektor
, der die Babys enthält, die in Monaten wie
Januar 5.600,
Februar bis März
geboren wurden,
7.800 Babys, die bis zum Sommer auf diese Weise geboren wurden. Okay. Das sind also die 12-Monats-Daten für die Babys, die in
einem bestimmten Monat geboren wurden. Und dann, das ist also
der numerische Wert. Und was ich gerade mache,
ich erstelle einen weiteren Vektor M, der den
Monatsnamen enthält, richtig, für jeden Wert
den entsprechenden
Monatsnamenvektor, den ich erstelle, also Januar, Februar, Dezember,
er wird enthalten, okay, das ist also klar. Ich erstelle den numerischen
Wert hier und den Namen für jeden Balken,
den ich hier für den
Januar-Faktor 600 erstelle, so. Okay? Dann erstelle ich eine Datei, Babies Born Dot PNG. Und ich übergebe dieses endgültige
Ziel an die PNG-Funktion mit Punkten. Okay,
Kanaldiagramm sammeln, Name der Bilddatei. Und was ich dann mache, ich zeichne einfach das
Balkendiagramm auf der Grundlage dieser Daten. Okay? Also was ich mache, ich bin gezwungen, den V-Wert zu verwenden. Also gebe ich die Daten
ein, basierend auf diesen Daten, ich möchte ein
Balkendiagramm erstellen, okay? Und dann heißt names.org für Benennung der einzelnen Balken, an die ich diesen M-Vektor
übergebe. Der M-Vektor streut die
Monate Januar und Februar. Die X-Achse ist also
Januar, Februar und die Y-Achse die Anzahl der Babys, die
in einem bestimmten Monat geboren wurden. Dann xlab, ich
gebe ihnen einen Monat. Und mein Labor, ich gebe
Babys in diesem Monat Bond. Dann gebe ich Farbe Grün. Und hauptsächlich bedeutet das
Erreichen des Charts. Ich gebe Babys ein Bond-Diagramm. Und dann für jeden Balken. Ich gebe einen Tiefschlag, okay, und dann speichere ich die Datei. Also lass mich das ausführen. Okay, ich habe es richtig
gemacht. Lassen Sie uns das sehen, der Senior, jetzt haben wir eine weitere Akte. Baby wird Punkt PNG geboren. Jetzt. Wir haben diesen Januar, Februar, März, April,
Mai, Juni, Juli. Es war so. Und dann haben wir hier
vielleicht den Bond Data Lake Januar, irgendwo um die 5.000
Babys, die im Februar
irgendwo zur Verdünnung geboren wurden , so
etwas. Okay. Also die meisten Babys, die
im November und dann im Juli geboren wurden. Das ist die, wenn wir uns
dieses Balkendiagramm
ansehen, können wir diese Norm kennenlernen. In welchem Monat die meisten Babys
geboren und danach? Juli. Also Juli und Nummer, erste Zahl und
dann zweite ist Juli. Sehen Sie hier für den 7. Juli 304. Jetzt bei Kumpel 9.800. Ich habe am 9. Juli angefangen
und die Nummer 9.800. Auf diese Weise können
wir mich unterstützen. Ich möchte
diese Farbe auf Rot ändern. Und wenn ich das starte, sehe ich, dass unser Diagramm in Lesen
umgewandelt wurde, oder? Sie können sehen, dass es einen kleinen
Rand mit gelber Farbe gibt. Lassen Sie mich es auf
grün ändern, damit wir sehen können , dass das früh sein kann, oder
es sauber machen und erneut ausführen. Diese Datei, seht ihr, jetzt wird
sie bereinigt. Der Barnard ist grün. Auf diese Weise können wir mit Odd
ein Balkendiagramm oder ein
Balkendiagramm erstellen . Ich hoffe also, es ist klar für die Zahl und für
den Namen name.org. Ich übergebe diesen M-Vektor, diesen M-Vektor und B und übergebe den
anderen Haupteingabevektor. Und dann xlab, Monat. Und warum Laborbabys, die geboren werden und rot
gefärbt sind, möglicherweise nicht aufgeladen werden. Schlagen ist die
Geburtsurkunde und die Flasche ist grün. Dann speichert dev.off die
Datei auf unserem lokalen Computer. Ich hoffe, es ist klar, wie wir ein einfaches
Balkendiagramm erstellen können und wie wir diese
Art von Balkendiagrammen erstellen
können. Wir haben also gesehen, wie
wir das geschaffen haben. Und dann haben wir
James's zum Lesen und
Schreiben, und wir haben auch
dieses einfache Balkendiagramm erstellt. Auf diese Weise können wir also
ein Balkendiagramm erstellen, oder? Wir sehen uns in der nächsten Vorlesung.
29. Gestapeltes Balkendiagramm in R: Hallo und willkommen zurück. In dieser Vorlesung
werden wir also
ein sehr interessantes Balkendiagramm visualisieren, visualisieren das uns ein
sehr gutes reales Vermögen bescheren wird. Was passiert in einer
Organisation wie vierteljährlich, regional abgerechnet wird? Wie wir mit einem Balkendiagramm plotten können. Das werden wir sehen. Um das zu tun, was ich getan habe, das
Vierteljahr, das Kind, was eigentlich jeden Monat, was ich getan habe, habe ich eine Matrix
erstellt, okay? Ich habe also all diese Einnahmen ich nicht
in der Matrix gespeichert habe. Also habe ich eine Matrix mit
den Einnahmen für vier Monate erstellt . Quartal eins, Quartal, zwei, Quartal drei Viertelviertes,
Quartal, ein Quartal, ein Quartal, zwei, Quartal, drei, Quartal vier. Also diese Nischen jedes Quartal und jedes vierte
Quartal gibt, oder? Für jedes Quartal sind
dies also die Einnahmen. Okay? Also habe ich eine Matrix erstellt
und was ich tun werde, ich werde diese Matrix als
Eingabedaten an unser Balkendiagramm übergeben. Also übergebe ich
hier das M und dann den
Hauptgesamtumsatz. Und dann Start für
Quartal genannt, ich beende Quartal. Quartal. Quarter ist ein Vektor
,
der den Wert Q1, Q2, Q3, Q4 enthält . Okay? Also auch diese L-Balken, names.org, und dann wird
xlab das Viertel sein, der Name und die weißen Beine. Wildtiere werden die Einnahmen sein. Und dann farbig. Ich werde bestehen. Ein weiterer Vektor. Farben, für die ich zeichnen möchte. Der Boden wird bunt
sein. Sobald es gezeichnet ist,
erkläre ich Ihnen vier Farben. Ich habe einen Vektor erstellt und
er hat einen fortlaufenden Wert, blau, pink, gelb und grün. Und dann das Quartal.
Und dann habe ich die Regionen erstellt,
Regionen wie Ost,
West, Süd, Nord. Okay? Damit habe ich auch okay, und die Matrix, welcher Typ vier Zeilen
und vier Spalten
erzeugt hat. Und ich arrangiere Developed by Rock und finde heraus, was
ich für Legion mache. Ich füge die Legende
auch oben links hinzu. Und was ich ihrer Region ziemlich nachsichtig
gebe ,
sind satte Farben. Region sieht diese Region im Süden, Osten, Westen, Süden, Norden. Okay. Und ich fühle mich mit den Farben, jeder
Farbe auch. Ja. Okay. Lassen Sie mich das zuerst ausführen. Also sehen Sie hier, das
ist die Matrix und sehen Sie, welcher Quartalsumsatz. Also diese Art von Balkendiagramm oder Balkendiagramm bekommen
wir hier
für das erste Quartal. Das ist das Quartal TO, das ist das Ergebnis oder der Treiber neues Quadrat drei
und Quartal vier, dieses Ding hier, dieses
Blau, Rosa, Gelb und Grün für diese Farben, ich habe ein
Legendentheorem erstellt und sage dass Blau für die Südregion steht, gelblich für jede Region. Und Grün steht für die westliche
Region und nicht für die rosafarbene Region. Und der Süden ist blau, ist das gelb so? Okay, wenn wir uns diese
Grafik oder das Balkendiagramm ansehen, können
wir
die digitalen
Quartalsergebnisse für jede Region leicht finden . Süden. Das ist der Umsatz
für das
erste Quartal ,
genauso für den Norden, das ist der Umsatz
für den Osten. Das ist der Umsatz
für das zweite
Quartal, das dritte Quartal, das
vierte Quartal. Es ist also ziemlich einfach, Dinge
mithilfe eines Balkendiagramms zu finden und zu visualisieren, oder? Und wie wir dann, dass wir
zuerst
unseren Farbvektor erstellt haben, dann den Viertelvektor und
dann die Regionsvektoren und dann die Reagenzien, die ich in der Legende
verwendet habe. Und die Kennzahlen wurden
vier mal vier verbessert. Okay. Und hier erstelle ich eine
vierteljährliche Umsatzpunkt-PNG-Datei. Und hier übergebe ich
das Quartal, dieses Quartal als
benanntes und dann Neues, und ich fülle die Farben
unter Umgehung des Farbvektors. Auf diese Weise können wir die Ebenen
plattieren und unser Balkendiagramm
verwenden. Okay? Sie können also auch
mit Ihren Daten herumspielen und versuchen, ein schönes,
gut aussehendes, farbenfrohes Barplot zu erstellen. Stevens zitierte den nächsten Vortrag.
30. Boxplot in R: Hallo und willkommen zurück. In dieser Vorlesung werden
wir also etwas
über Boxplot lernen. Boxplot ist eine Methode zur
grafischen Darstellung von
Gruppen numerischer Daten
anhand ihrer stillen Kacheln. Ich sage dir, was
sind diese Quartile? Es ist also im Grunde ein grafischer
Sohn numerischer Daten. Gruppieren Sie numerische
Daten wie in einem Balkendiagramm und das
alles auf die gleiche Weise. Boxplot ist auch da. In diesem Fall stellen wir jedoch
eine Gruppe von Daten in einer Box dar. Es wird also tropisch sein, aber es wird ein Kästchen sein, solange
Sie das Balkendiagramm mögen. Wir haben Balken mit den
Daten und gruppieren eine Beta. Hier. Wir haben das Labor, die Box mit den
Grubhub-Daten und Boxplots sind ein Maß dafür, wie gut die
Daten im Datensatz
verteilt sind. Also, es wird
wie ein Major Four sein. Die Sache ist, wie
werden die Daten in diesem
Datensatz
verteilt, oder? Also werden wir sehen, wenn wir den Boxplot
zeichnen. Lass mich dir noch eine Sache sagen. Boxplots sind ein Maß dafür, wie gut die
Daten im Datensatz verteilt Sie unterteilen die Daten
in drei Quartile. Also, was sind diese Quartile? Wie Sie auf diesem Bild sehen können
, gibt es drei Quartile. Eins ist Quartil eins
und Quartil zwei, und das ist Quartil drei. Und das ist der Bereich
zwischen den Quartilen. Dieses Diagramm soll den minimalen,
maximalen Median, das erste
Quartil und das dritte Quartil
darstellen . Also dieser Teil C, das sind die Box-SAP-Daten, okay? Und diese Winde sind an diesem Punkt
Ausreißer, und dieser Punkt ist
ihre Klasse, das ist der minimale Ausreißer. Und das ist das Maximum an Blendung,
oder? Und zwischen diesem Feld und der blauen Linie befindet sich
hier der Median. Dies ist der Median
des gesamten Datensatzes. Das ist also der Median, Medianwert
des gesamten Datensatzes. Und das sind der Minimalwert
und der Maximalwert der alten
Klasse . Und diese blaue Linie
ist der Median. Und das sind die maximalen Daten
, die nahe am Median liegen. Das sind also eigentlich andere
nützliche Daten. Das ist also das Minimum,
das ist das Maximum. Und das sind die, dieser
Bereich von Jahr zu Jahr, diese Interquartildaten, und
diese werden als Q1 bezeichnet. Q1-Quartil, erstes Quartil, und dieses wird
als drittes Quartil bezeichnet. Das erste Quartil und das dritte Quartil
und das erste Quartil, ich Stipendiat, Perzentil und drittes Quartil
oder 75. Quartil. Und in R verwenden wir die
Boxplot-Funktion, um unseren Boxplot zu zeichnen oder zu zeichnen. Und auf diese Weise bieten Sie
ähnliche Augments wie X-Daten, nicht was mit Namen und Maine. Also sage ich dir, was
sind diese Dinge? X ist also ein Vektor oder eine Formel. Also hier ist x ein
Vektor von Formeln. Wir werden also sehen, dass wir
im Grunde Bu behalten,
Dinge, die veröffentlicht
werden müssen,
die eine relationale Formel sind, auf der das Boxplot gezeichnet
wird. Und dann die Daten,
natürlich die Daten, aus denen wir
diese Beziehung ziehen, edX, schreiben die Formel x. Das ist
also die Formel oder Beziehung, für
die wir die Daten zeichnen werden , und
diese zeichnen den Graphen. Und das sind die Daten, tatsächlichen Daten, aus denen
wir diese
Formel oder einen Vektor erhalten. Und Notch ist ein logischer Wert. Wenn Sie auf true setzen, um nichts zu zeichnen,
wird sofort angezeigt, was nicht angezeigt wird. Lassen Sie mich Ihnen zunächst erklären, was
das bedeutet. Augmentierungen. Was es ist. Logische Werte legen S2 so fest, dass die
Breite des Felds proportional
zur Stichprobengröße gezeichnet wird. Also Wasser mit, wenn es
durch dieses Feld gesetzt wird, wird die Größe proportional zum gesamten Datensatz
sein,
die Größe des gesamten Datensatzes, okay? Wenn es also nicht stimmt, wird
es nicht proportional
zum gesamten Datensatz sein. Okay? Als nächstes kommt der Name. Namen ist die Gruppe von Labels , die
unter jedem Boxplot gedruckt werden. Das ist also ein Boxplot. Und wenn Sie dafür einen Namen angeben
möchten, können
Sie ihn über
das Argument names angeben. Und Maine
ist offensichtlich der Name des Graphen. Okay, also den Titel der Grafik können
wir mit dem Mittelwert angeben. Jetzt kommt das Was ist nicht. Die Einkerbungen an den Seiten
des Boxplots können so interpretiert
werden, als ob sich ein Unternehmensabstand
um den Medianwert bewegt. Und die Höhe des dummen Medians der
Nazis plus oder -1,7 in IQR geteilt
durch die Quadratwurzel von n, wobei IQR der Bereich
zwischen den Quartilen ist. Wir haben gesehen, was der Bereich
zwischen den Quartilen ist. Das ist also der
Interquartilbereich zwischen
dem 25. und 75. Perzentil. Dies ist der
Interquartilbereich. Also im Grunde ist das der, das ist der n-Wert, okay? Wobei IQR der
Interquartilbereich ist der durch das 25.
und 75. Perzentil
definiert ist. Und Yan ist die Anzahl der
Datenpunkte im Datensatz. Gesamtzahl der
Datenpunkte im Datensatz ist N. Und Sie können hier sehen dies das Boxplot und das ist der Ausreißer, der
maximale Output. Das ist der minimale Ausreißer und das ist der
Medianwert, oder? Und das ist das 25.
Perzentil oder Q1, und das ist das 75.
Perzentil, das ist Q3. Und dieser Wert, dieses Ding,
das Neunte und das nicht, das
nennt man Notch. Dieser Wert von hier bis hier wird Notch genannt. Notch ist das
795-Konfidenzintervall des Medians. Okay? Ausgehend vom Median ist dies
der Median und dieser, und dieser Wert
wird als Notch bezeichnet. Okay? Wenn Sie also
nicht gleich wahr setzen, können
Sie diese
Kurve an diesem Ding sehen. Wenn Sie die Kerbe
ungleich zwei setzen, sehen
Sie hier eine
gerade Linie. Das nicht, wird nicht da sein. Okay? Also auf diese Weise, siehe hier
in dieser Kerbe, ist falsch. Sie werden es also
wie in diesem Boxplot sehen, und wenn Sie nicht
gleich wahr setzen, erhalten
Sie diese Kerbe. Nun, das bedeutet, dass die
meisten Daten hier nahe am
Median liegen werden und es
wird ein sehr sicheres
Intervall der Daten
sein, wie zum Beispiel der Medianwert ist dies und dieses Plus und Minus von
ihnen, wie hier. Die konzentrierten
Datenpunkte werden in der Nähe des Medians liegen und es werden
die wahren Daten darstellen, oder? Jetzt haben
wir also grundlegendes
Verständnis dafür, was Boxplot ist, was Quiet Title,
was Ausreißer sind? Und was ist das minimale Quartil und was ist das maximale Quartil? Was ist Interquartilbereich? Und was ist Q1? 25. Perzentil und Q3 ist
das 75. Quartil, okay? Und das ist der Medianwert. Wir werden also in der nächsten
Vorlesung sehen, wie wir
ein Boxplot auf
der Grundlage der Daten, die wir
in unserer Estelle Blake haben, zeichnen können ein Boxplot auf
der Grundlage der Daten, die wir
in unserer Estelle Blake haben, Wir werden MT-Autos verwenden, einen echten Datensatz
, der im Autopaket verfügbar ist , oder
den
ADA in der Art
Dish, um sich selbst zurückzusetzen. Und wir verwenden diesen Datensatz mit leeren
Autos, um
das Boxplot auf der Grundlage
der MPT und der
Anzahl der Zylinder zu zeichnen das Boxplot auf der Grundlage . Wir sehen uns also in
der nächsten Vorlesung.
31. Boxlot mit mtcars Dataset (n): Hallo und willkommen zurück. In
dieser Vorlesung werden
wir ein Boxplot zeichnen, okay? Und wir werden einen
leeren Fahrzeugdatensatz verwenden , bereits
in unserer Distribution verfügbar
ist. Wir wissen also, dass wir diesen Datensatz
herunterladen müssen. Es ist bereits in
unsere Umgebung
oder unseren Vertrieb integriert . Wir können das also direkt
verwenden und haben
versucht , die leeren
Fahrzeugdaten in einem Boxplot darzustellen. Okay, schauen wir uns an,
wie wir das machen können. Lassen Sie mich Ihnen zunächst zeigen,
was sich in dieser Box befindet. Was ist das in den leeren Autos. Lassen Sie mich also zuerst bezahlen, um
auf das zugreifen zu können. Ich erstelle eine Dateneingabe und leere Autos, die jedoch bereits im Inneren
verfügbar sind. Seltsam und eins gemeint. Und was ich tun werde, ich werde versuchen, das auszuführen
und zu sehen, was da ist. Lass mich es ausdrucken. Hier. Das leere Auto, unser Datensatz und Krankheit, die wie
ein Laptop schützt, dass Martha den Strich
1017 für
Dr. Riley und das
Desktop-Forschungsteam exportiert Dr. Riley und das
Desktop-Forschungsteam müssen Städte und all diese Karten, Details sind da wie
Meilen pro Gallone. Was ist das Myelin? Jedes
Auto Meilen pro Gallone. Und dann die Anzahl
der Zylinder, die Motoren haben dann
die Anzahl der Zylinder, also 2468, die Anzahl der
Zylinder im Motor. Und dann Hubraum, HP. Was ist der Hotspot und der
Luftwiderstand der Autos? All diese Parameter
sind hier
in diesen Daten angegeben , bei denen es sich um leere Autos handelt. Was ich also verwenden werde, ich werde nicht
den gesamten Datensatz verwenden. Ich werde C,
D und E verwenden . Ich erhalte eine Lee Miles pro Gallone
und Anzahl der Zylinder. Okay. Also dafür, was ich tun werde. Okay, also lassen Sie uns
diese Anzahl von Zylindern von 2 mi
pro Gallone verwenden . Okay? Und was ich mache, ich drucke und dann werde
ich den Kopf riesig machen. Und dann gebe ich diese
Dateneingaben weiter, damit wir sehen
können, was kommt. Lassen Sie mich diese
beiden Linien laufen lassen und sehen. Jetzt geben wir die
Autos und ihren Kilometerstand, Meilen pro Gallone und die
Anzahl der Zylinder hinein. Sie sind im Gefängnis. Also diese beiden Details, die ich
damit kriege, okay, also werde ich jetzt diese Dateneingabe
verwenden, die die Meilen pro Gallone anzeigt und die Zylinder nummeriert. Und ich werde versuchen, unser Boxplot zu
zeichnen. Okay, also als
Erstes, was ich tun werde, erstelle
ich eine PNG-Datei,
um das Diagramm in
einer Datei zu speichern , und habe eine riesige Datei, die Allen
entspricht,
einen Namen gegeben , wie leere Autos, Boxplot Punkt PNG. Okay. Also gebe ich den Dateinamen als leere Autos Box Plot Dot PNG an. Und dann, was ich jetzt tun werde, werde
ich versuchen,
den Boxplot und für
Diät und Verlust den Boxplot zu zeichnen . Und hier, was ich tun werde, ich gebe zwei MPG-Meilen pro Gallone mit der
Anzahl der Zylinder an. Okay. Also werde ich
zeichnen, ich werde ein Boxplot zwischen
diesen MPG und
der Anzahl der Zylinder
erstellen . Okay? Und was ich dann gebe, gebe ich Daten
entsprechend dieser Dateneingabe,
unsere leeren Autos. Also werde ich die Daten den leeren Autos
gleichstellen. Stimmt es? Dann. Was wir behalten müssen Als nächstes brauchen
wir das XLab. Was wird getan?
Was wollen wir schreiben? Schreibt die
Anzahl der Zylinder von X Lab. Und warum wird das Labor weiß sein? Im Labor werden
MPG-Meilen pro Gallone berechnet. Okay. Als Nächstes,
was wir behalten, werden wir die Hauptdaten
meinen kleinen Daten gleichstellen. Daten. Harder wird
Karten myelinisiert geben. Okay. Dann speichern wir die Datei. Okay, dev.off. Okay. Also, was wir hier
machen,
wir erstellen ein Boxplot, mpg und Nummer
Epsilon n für das Auto,
und wir verwenden den Datensatz leere Autos
und die X-Achse werden vom
Zylinder nach oben nummeriert und die Y-Achse ist Meilen pro Gallone. Und der Name der Grafik
wird Autos sein, Kilometerdaten. Okay? Und lassen Sie mich das ausführen. Okay. Okay. Das ist also unsere Handlung, das Boxplot, das wir gezeichnet haben. Es wird hierher kommen. Jetzt ist die Überschrift der Name
des Diagramms mit den Kilometerdaten des Autos. Und das ist
die Zahl der schlanken 468, und das sind Meilen pro Gallone. Und das Datenboxdiagramm. Okay? Auf diese Weise können wir jedoch zeichnen, wir können Boxplots erstellen. Wenn du es
noch einmal verstehen willst, sage ich es dir. Was wir getan haben, ist einfach. Wir haben, wir verwenden
leere Fahrzeugdaten, die bereits in
unserer Distribution
verfügbar sind, sodass wir sie nicht erstellen oder herunterladen
müssen. Es ist bereits
in die Umgebung integriert. Wir verwenden das, sie nehmen ein oder zwei leere
Autos, was bedeutet, dass
wir diesen Datensatz mit
leeren Autos verwenden werden
, der all
diese Informationen über die Autos enthält, verschiedene Autos. Und dann, was ich mache, verwende
ich ein Boxplot und ich
zeichne das Boxplot zwischen dieser Zylinderzahl und Kilometerstand pro Gallone
für jedes Auto. Okay? Und ich verwende Daten
und Pre-Comps. Und für x, x ist, verwende
ich
dort die Zahl Epsilon und die Y-Achse mpg, okay? Und dann der Name
des Diagramms, das ich meinen Live-Daten
gebe
und dann schreibe ich diese Datei, weil ich bei meinen
Audits einige Probleme habe. Ich kann
die Grundstücke hier nicht sehen. Und das ist der Grund, warum ich das getan habe. Ich habe es in die Datei
empty car, boxplot dot PNG geschrieben. Und wir können die Datei hier sehen. Das ist also der Boxplot
und das ist der Median. Das ist der Median, oder? Und das ist die Mindestverkaufsmenge. Und das ist das
Maximum oder Minimum. Und es ist Adam. Kein Durchschnittswert für
die Anzahl der Verkäufer. Also Vierzylindermotor. Meine Objektive hier und die durchschnittliche
Laufleistung beträgt etwa 26, 27 Meilen pro Gallone oder die
Anzahl der Zylinder sechs. Es kommt um 20,
20 Meilen pro Gallone und
Anzahl der Zylinder, wenn es acht ist,
das Myelin um 15 Gallonen pro 15 Meilen
pro Gallone, oder? Auf diese Weise können wir aus den leeren Autos ein
Boxplot zeichnen. Wir sehen uns in der nächsten Vorlesung.
32. Boxplot mit Notch: Hallo und willkommen zurück. In der vorherigen Vorlesung haben
wir also gesehen, wie wir unser Boxplot mithilfe eines
leeren Fahrzeugdatensatzes
zeichnen können . Und basierend auf dieser
Zylinderzahl und dem Kilometerstand pro Gallone. Basierend auf diesen beiden Parametern
gibt es also keine zwei Merkmale
dieses Datensatzes. Wir haben den Boxplot gezeichnet und gesehen, wie
der Boxplot aussieht. Also Autos, Kilometerdaten hier, mpg und Nummerierung des Zylinders
46 8 mi pro Gallone. Ja, 15. 2025. Und diese schwarze Linie ist
der Median jeder Gruppe. Okay? Also Vierzylinder-Autos, Sechszylinder-Autos
und ein Zylinder-Auto. Jetzt können wir tatsächlich
dasselbe Boxplot ohne zeichnen. Wir haben also gesehen, was nicht ist. Jetzt. Wir werden sehen, wie nicht. Wenn wir Notch als
wahr bezeichnen, wie wird
sich dieses Boxplot ändern und NADH wird zum Zeichnen verwendet, als würde es Ihnen sagen,
wie die Mediane jeder Gruppe miteinander in Beziehung
stehen, oder? Wie die Mediane verschiedener
Gruppen miteinander übereinstimmen. Okay, also lass uns das machen. Und wir werden auch sehen, wir werden auch versuchen
, ein paar Farben in dieses Diagramm-Boxplot einzufügen, damit
es gut aussieht, okay? Und wir werden auch
versuchen, diese X-Achse zu benennen. Okay, also lass uns das machen. Also
zuerst, was ich tun werde, ich werde diesen Namen in
Boxplot-Breite ändern. Nicht. Okay. Und was ich dann tun werde, sage ich einfach nicht gleich, tut mir leid, nicht gleich wahr. Und jetzt lass mich das ausführen. Lass mich jetzt hierher gehen. Siehst du, das haben wir, also sah unsere Grafik so aus. Wenn ich nun
nicht gleich wahr setze, hat sich
unsere Grafik so geändert. Und sieh, weißt du, das ist der Median
jedes Graphen, oder? Jeder Datensatz für jede
der Gruppen, wie Vierzylinder,
Sechszylinder. Und wie diese Mediane Beziehung
stehen,
unterscheidet sich voneinander, wie sie zueinander passen. Aber sieh dir den Median an. Wie würden diese
Dinge kommen, die Nazis für
jede dieser Gruppen kommen würden. Lassen Sie mich jetzt etwas
Farbe in die Schulden bringen. Also, was ich tun werde, ich werde riesig. Und dann setze ich den Rektor ein und
höre, welchen Algorithmus du gibst. Rot, Grün, Gelb Jetzt gebe ich drei Farben. Rot, Grün, Gelb, Gelb Und lassen Sie mich das ausführen. Lassen Sie mich einen Namen nennen:
Maria Callas Hockey. Das wird also die verschiedenen,
unterschiedlichen Grafiken, Bilder haben . Können wir jetzt
verschiedene Farben für
verschiedene Gruppen oder Boxen haben . Und früher war es so, ohne Farbe und
ohne Kerbbreite, Kerbe, Kerbbreitenfarben. Okay. Lassen Sie mich nun
einige Namen nennen. Okay. Also hier, die Kilometerstände. Hohe Rate für
Vierzylinderfahrzeuge, hohe
Laufleistung
für Sechszylinder, Medium, und für Zylinder gibt
dieses Gesetz die Namen
hoch, mittel und niedrig. Wenn wir uns also
Boxplot ansehen, haben wir verstanden, dass wir verstehen werden, dass dies ein Auto mit hohem Durchschnittswert ist und ein mittelgroßes und um Benzin mit geringem Kilometerverbrauch
handelt. Okay? Das ist also cool. Hotelnamen geben hoch, mittel, niedrig an. Okay. Lass mich das ausführen. sehen uns also und jetzt haben
wir
statt 46,8 Hoch, Mittel und Niedrig. Auf diese Weise können wir das, oder? Und wenn du es genauer wissen
willst, kannst
du
Porzellan so hoch legen, so
etwas in der Art, damit
es klarer wird. Hervorragend, mittel, niedrig, so. Okay. Okay. Also kannst du es
auch so ausdrücken. Ich hoffe, du hast verstanden,
wie du Boxplots platzieren kannst. Also versuchst du auch,
dich in der nächsten Vorlesung zu sehen.
33. Histogramm und Verteilung von Histogramm: Hallo und willkommen zurück. In dieser Vorlesung werden wir
etwas über Histogramme lernen. Also werden wir sehen, was unser Histogramm
ist. Und wir werden uns auch ansehen, welche Arten von Histogrammen es gibt und wie wir in unserer taktischen Saison darauf
zurückgreifen können , wie wir Histogramme auf der Grundlage unserer
Daten
platzieren können . Okay, hier sehen wir uns den theoretischen Teil an und
lernen, was Histogramm ist. Also lass es mich dir sagen. Ein Histogramm ist keine
angemessene Darstellung der Verteilung
numerischer Daten. Es ist also im Grunde ein Diagramm wie ein Balkendiagramm oder ein
Balkendiagramm, das wir gesehen haben. Es schien einfach so, als ob die Art der Verteilung
diese Verteilung
numerischer Daten repräsentiert . Wenn Sie also numerische Daten
haben, können
Sie im Grunde ein Diagramm oder eine
Grafik zeichnen, oder Brad und Histogramm eine sehr geeignete
Darstellung der Verteilung numerischer Daten. Also wird es im Grunde genommen was benutzt? Numerische Daten, und dass numerische Daten in den
meisten Fällen
kontinuierlich sein sollten , wurden erstmals
von Karl Pearson eingeführt. Also hat Karl Pearson das Histogramm
eingeführt. Eine andere Art, Histogramm zu sagen, wie eine andere Definition
von Histogramm, ist eine grafische Darstellung von Brita der Teile
unterschiedlicher Höhe
verwendet werden. In einem Balkendiagramm haben wir gesehen, wie der Bus auf die gleiche Weise gestorben ist. Histogramm ist auch eine
grafische Darstellung von Daten mithilfe von Balken unter
verschiedenen Höhen. Es ähnelt einem Balkendiagramm oder einem Histogramm, das
Zahlen in Bereiche gruppiert. Wenn Sie also ein Balkendiagramm sehen
, sind die Daten nicht in
den Bereich von zehn bis 2020
bis 30 gruppiert . Es wird nicht arrangieren. Die Daten werden nicht gruppiert, aber im Histogramm werden die
Daten in die Bereiche gruppiert. Und dann wird
das Balkendiagramm, das
Balkendiagramm mit Zahlen,
in die Bereiche eingefügt. Zahlen in
die Bereiche gruppieren , erhalten
Sie ein Histogramm. Ich hoffe also, dass das Bild klar
wird. Wir werden die Bilder auch sehen. Wir werden die tatsächliche
Darstellung sehen wie sich das Balkendiagramm
vom Histogramm unterscheidet. Hier ist es also gut, das Balkendiagramm und die
Gruppierung numerischer
Daten in Bereiche zu
beachten , als ob Sie Daten von 10 bis 100 haben. Es wird also die Balken erstellen. Und damit
wird es auch
die Daten 10-2020 bis
30 in den Gruppen anordnen . Und es wird Wege schaffen. Es wird also ein Histogramm sein, die Höhe jedes verkauften Balkens, wie viele in diesen Bereich fallen. Es wird
Ihnen also im Grunde eine Vorstellung davon geben, dass 10-20, wie viele Zahlen es gibt? Wie viele Unterstützer? Wenn Sie sich das
Gehalt der Leute ansehen. Es wird dir also sagen,
etwa zehn bis 20, wie viele Leute sind da? Wie viele Leute
gibt es so? Okay. Die Erstellung eines historischen Sonnenlichts und die Erstellung eines Histogramms bieten eine visuelle Darstellung
der Datenverteilung. Histogramm kann
große
Datenmengen und die Häufigkeit
von Datenwerten anzeigen . Wie bei dem, was es tut, gruppiert
es die
Daten in die Bereiche. Es wird dir also eine
Frequenz von zehn bis 20 geben. Wie viele? Es gibt Ihnen also auch
die Frequenz unterstützt einen bestimmten Datenwert. Es zeigt Ihnen, wie
oft es auftritt Die Häufigkeit der
Datenwerte, der Median und die
Verteilung der Daten können
durch Ihr Histogramm bestimmt werden. So können der Median und die
Verteilung der Daten auch per Histogramm
bestimmt werden. Darüber hinaus kann es
alle Ausreißer oder Lücken
in den Datenstützen lösen . Wir haben die Daten 10-140 bis 50. Wir haben keine Werte. Es wird
dir also sagen, dass 40 bis 50, es wird dir die Bar nicht zeigen. Also mit der grafischen
Darstellung kannst
du es finden, okay, 40 bis 50, wir
haben keine Mitarbeiter. Es zeigt Ihnen also
die Lücke in den Daten und es zeigt
Ihnen auch den Ausreißer. Nehmen wir an, Sie haben etwa
zehn bis 100 und dann haben
Sie einen weiteren Balken
aus dem Jahr 17180. Alle
Datenblöcke werden also gegen
100 tendieren und ein weiteres
Diagramm ist weit weg. Es zeigt Bereiche von 171 bis 81 bis 7180 und einen Ausreißer, den wir anhand des Histogramms leicht identifizieren
können. Histogramm, oder eine gute Möglichkeit, dies zu
lösen, bringt also kontinuierliche, kontinuierliche Daten, die
ich Ihnen zuvor gesagt habe, wie Größe und
Gewicht, wenn Sie möchten. Das Histogramm ist also am besten für diese Art von Radar
geeignet. Also hier habe ich. Ich zeige Ihnen also nur wie Sie das
Balkendiagramm und die Histogramme unterscheiden können. Wir sehen uns also im
Histogramm, es gibt keine Lücke. Es ist ein sehr kontinuierlicher
Wert, wie 468 bis 24. Die Bar kommt gleich rein. Hier sehen Sie den Unterschied zwischen
Histogrammen und Balkendiagrammen. Also hier kannst du das Histogramm
sehen, es ist so sehr kontinuierlich. Ignorieren Sie
die Lücken zwischen
den Balken hier, das Balkendiagramm, das Sie sehen
können , zeigt Ihnen die
Unterschiede wie Januar, Februar, März, und es
gibt eine Lücke zwischen den Balken. Das ist also der Hauptunterschied
zu einem Histogramm. den Balken
wird es keine Lücke
zwischen den Balken geben und das Balkendiagramm wird
einige Lücken zwischen den Balken haben. Okay? Das ist also ein bildlicher
Unterschied, den Sie zwischen den
Histogrammen und Balkendiagrammen finden
können. Jetzt kommt das
Verteilungshistogramm oder wie viele Arten von
Histogrammen gibt es? Normalverteilung, das sieht
man so. In einer Normalverteilung sind also Punkte auf der einen Seite des
Durchschnitts wahrscheinlich
genauso wie auf der anderen Seite
der Beweise, sodass
Sie sehen , dass Ihre Daten auf dieser Seite, linken Seite und auf der rechten
Seite fast gleich sind, oder? Das ist also die
Normalverteilung. Und wenn wir zur
bimodalen Verteilung übergehen, werden
Sie in eine
bimodale Verteilung geraten. Es gibt zwei Gipfel, C-O, es gibt einen Peak und es gibt einen weiteren Peak. Die Daten enthalten zwei Peaks. Das wird also in bimodalen Verteilungsdaten
bimodal sein. Also haben wir getrennt und als separate
Normalverteilung
analysiert. Das ist also eine
Normalverteilung und dies wird eine weitere
Normalverteilung sein. Und wenn zwei
Normalverteilungen zusammenkommen, entsteht eine
bimodale Verteilung. Dies ist die
Normalverteilung und dies ist die bimodale Verteilung. Die dritte Art der
Verteilung oder Histogramms ist eine
rechtsschiefe Verteilung. Was eine rechtsschiefe
Verteilung oder ein Histogramm
oder eine rechtsschiefe
Verteilung ist, wird auch als positiv
schiefe Verteilung bezeichnet. Warum heißt es positiv
schiefe Verteilung weil ich sehe, dass die schiefen Werte auf der rechten Seite
kommen, Null bis unendlich, oder? Das sind also die
positiven Werte. Wenn es sich also auf der rechten Seite befindet, sind
die Werte für Push Two schief. Das wird es, nennen wir eine
rechtsschiefe Verteilung. Bei einer rechtsschiefen Verteilung eine große Anzahl von
Datenwerten auf der linken Seite eine geringere Anzahl von Datenwerten
auf der rechten Seite. Sehen Sie hier, auf der linken Seite gibt es
mehr Datenwerte und auf der rechten Seite nimmt
die Zahl ab, okay? Ordnung, es ist
eine
gleichmäßige Verteilung , wenn Daten
eine Bereichsgrenze auf der linken Seite
des Histogramms haben, z. B. Grenze von G und die nächste ist eine
linksschiefe Verteilung. Hier. Eine linksschiefe Verteilung
wird auch als negativ bezeichnet. Warum negativ? Denn auf der negativen Seite
wird es verzerrt. In einer linksschiefen
Verteilung sind groß. Die Anzahl der Datenwerte
befindet sich auf der rechten Seite. Die Zahl steigt also
von links nach rechts. Wenn wir uns also nach rechts bewegen, steigt
die Zahl, oder? Und eine geringere Anzahl von
Datenwerten unter linken Seite oder linken Seite ist ein
geringerer Wert als die rechte Seite. Mehr Werte sind eine
linksschiefe Verteilung. Und eine rechtsschiefe
Verteilung
tritt normalerweise auf, wenn die Daten
eine Bereichsgrenze haben. Auf der rechten Seite
dieses Diagramms, z. B. Grenze, z. B.
Hunderte. Okay? Das sind also die vier
Arten von Histogrammen. Eine ist eine linksschiefe Verteilung, dann haben wir eine
rechtsschiefe Verteilung gesehen, dann die bimodale Verteilung und dann
ist die erste Normalverteilung. Histogramm. Nun, sind Sie nur eine Hist-Funktion auf die JIST Hist Funktion
, um ein Histogramm zu erstellen. Und es werden
nur wenige Parameter oder
Argumente benötigt , um ein Histogramm zu zeichnen. Okay, also eax ist, was ist X? X ist ein Vektor von Werten
, für den das Histogramm ein Diagramm ist. Dieses x ist also ein Vektor,
für
den wir das Histogramm,
das Main, Xlab und Ylab zeichnen wollen den wir das Histogramm,
das Main, Xlab und Ylab zeichnen . Haupt. Haupt. Main ist der Titel
für das Histogramm und xlab ist die
Achsenbeschriftung, okay. Wie Frequenz oder etwas
anderes, wenn Sie portieren möchten. Und dann sind x, lima und wildly die Bereiche der X- und Y-Werte. Okay? Und dann
Brexit-Einmalvektor , der die Bruchpunkte zwischen den Histogrammzellen angibt,
sind Funktionen von Computervektor-Breakpoints in einer einzigen Zahl,
die den Umsatz eines Histogramms angeben. Okay, wir werden im Detail sehen
, was es kaputt macht. Dann haben wir die
farbige Kohle und dann haben wir
die Grenze, die Sie kennen. In der nächsten Vorlesung sehen wir uns also das Beispiel an, wie wir
die Hist-Funktion verwenden können , um unser Histogramm zu
zeichnen. Also werden wir in der nächsten Vorlesung ein Histogramm
mit
der Hash-Funktion zeichnen .
34. Histogramm mit der hist-Funktion zeichnen: Hallo und willkommen zurück. In dieser Vorlesung werden
wir also unser erstes
Programm für Histogramme
schreiben. Was wir also tun werden, wir werden einen Vektor erstellen
, der unsere Daten enthält. Und dann werden
wir mit diesem Vektor ein Histogramm
erstellen. Wir werden grafisch darstellen, dass die
Daten ein Histogramm haben. Also lasst uns damit anfangen. Also, was ich getan habe, ich habe bereits
eine Punkt-R-Datei erstellt , die das
Histogramm Punkt R ist . Und ich
habe den Code geschrieben. Also zeige ich dir,
was der Kurs ist. Ich habe den
Code also schon geschrieben, damit wir beim
Schreiben Zeit sparen
können, okay, so weiter. Was ich mache, ich erstelle
Vektordaten für das Diagramm. Also erstelle ich die Daten hier. Also erstelle ich, ich erstelle einen Vektor und weise
diesen Vektor x zu.
Also x ist ein Vektor,
der Daten,
Lake für Ausdrucke und 17.000,
3.006 plus externe Unterstützung enthält Lake für Ausdrucke und 17.000, . Die Gehaltszahl impliziert, dass ich in diesem Vektor x
speichere. Dieser Vektor X ist
also unsere Daten und der
beinhaltet die Unterstützung, das Gehalt der Mitarbeiter. Okay? Das ist also das Gehalt der impliziten Propan
Tao Qian, so. Okay, dann in einigen Bereichen
wie Preppy bis 2050 bis 60, 20 bis 30, 40 P2P so. Okay, was nun als Nächstes,
das wird
das sehr einfache
Histogramm-Beispiel sein . Okay, jetzt haben wir die Daten. Ich möchte ein Histogramm zeichnen. Also was ich tun werde, ich erstelle eine
Foster-Histogramm-Bilddatei. Also verwende ich die
PNG-Funktion und wir geben die Datei, die dem
Histogramm-Punkt-PNG entspricht. Und was ich dann tun werde, verwende
ich die
Hist-Funktion, die ich Ihnen in der
vorherigen Vorlesung erklärt
habe. Also hier erstelle ich
das Histogramm, okay? Also verwende ich die Funktion hist
und übergebe dieses x. Was ist x? X sind
die Daten, für die
wir das
Histogramm zeichnen werden. Okay, diese Werte
passen hier zu X. Also ist X ein
Datenvektor, Vektordaten. Dann
entspricht das, was ich Xlab gebe, dem Gehalt und dann die Farbe gebe ich als Grün und den Rand gebe
ich gelb. Ich gebe also noch nicht zu
viele Parameter an. Ich übergebe nicht zu
viele Parameter. Ja. Nur xlab, dass
ich das Gehalt gebe, dann die Farbe hoch, ich gebe Grün und die Grenze,
ich gebe die Slowakei. Und dann speichere ich diese Grafikdatei unserem System, das mit dem Tiefenpunkt nicht versehen
ist. Okay, also bevor wir umziehen, lassen Sie mich unser
Arbeitsverzeichnis festlegen. Um das zu tun, was ich tun werde, und doch, was ich
tun werde, werde ich mir das sparen. Gehe in dieses Verzeichnis. Und als Nächstes, was ich
tun werde, gehe ich zu mehr. Und doch, was ich tun werde, ich lege das Arbeitsverzeichnis fest. Okay, jetzt
speichere ich diese Datei. Ich hoffe also, dass die Schritte ziemlich einfach
sind. Ich erstelle einen Vektor
X mit den Daten. Dann verwende ich die
PNG-Funktion, um
eine Bilddatei für unser
gesamtes Diagramm zu erstellen , damit wir es sehen und
verwenden können. Und dann speichere ich das in
unserer lokalen Datei von Deborah Off. Okay. Und ich verwende die
Hist-Funktion, um ein Histogramm mit den Daten zu erstellen und X-Vektor hier
und dann das X-Labor zu
übergeben, ich gebe den Namen
Gehalt und Farbe grün und eingetauscht
wird gelb. Also jetzt habe ich gespeichert, jetzt habe ich
also diese ganze Quelldatei gemacht . Klicken Sie auf Quelle
und das ist erledigt. Als Nächstes muss ich zum D Drive
gehen, zu unserem 20
gehen
und hier unsere Firewall
mit dem Histon sehen. Lassen Sie mich den Dateinamen überprüfen. Das letzte Bild, dieser
obere Grafikpunkt im PNG-Format. Und wenn er es auch ist, denke
ich, das ist das
Dateinamen-Histogramm-Diagramm PNG. Okay, auf diese Weise lösche
ich alle anderen
, die ich zuvor erstellt habe. Jetzt haben wir also das
Histogramm von x. Und hier, was wir erstellen, gebe
ich das, lass mich das entfernen, löschen. Lassen Sie mich das Programm erneut ausführen. Lass mich das auf Rot ändern. Und die Grenze wird gelbes Hockey
sein. Lassen Sie mich das noch einmal ausführen. Lassen Sie mich sehen, ob
die Datei
generell Ihr Histogramm sehen soll. Das ist Gehalt und
hier Frequenz. Und dann sind hier die
Bereiche wie zehn bis 2020 bis 30.030 bis 40.040,
2050 bis 60.000. Jetzt können Sie also sehen, wie dunkel das
Histogramm ist. Also zehn bis 20.000, wie viele Implikationen
versuchen es mit einem Gehalt von 10-2123. Lassen Sie uns das anhand der Daten überprüfen. Okay. Gehen wir also hierher, gehen wir hierher. 22 tendieren zu 2010 bis 23, also zehn zu 2012. Und dann haben wir noch einen, du hast einen Vorsprung zwei. White macht es. Okay.
Und dann haben wir 20 oder 2.000.017.000.15
Tausend $. Das sind also die drei
Implikationen, die leider 10-20 ziehen. Es zeigt also eine Tendenz von
2310 bis 23 Mitarbeitern. Auf diese Weise werden
die Daten in Bereiche aufgeteilt und sie zu unseren Gruppen
oder zehn bis 23 Mitarbeitern . 20 bis 32 bedeuten auch weniger
25 Daten. 20 bis 31. Sie fingen an, 20 bis 30 zu sehen. Wir haben zwei Mitarbeiter. Okay. 25.020, 2000. Das ist auch wahr. Vollkommen. Dann 30 bis 42. Nochmals 30 bis 42, 34, t1 und t2 eins. Okay. 30 bis 40
, danach sind 40 bis 50, nur ein Mitarbeiter da. Schauen wir uns also T2, T4, T5 an. Und sieh, das ist mehr
als vollkommen okay. Also 40 bis 50 impliziert nur eines,
während das nächste das letzte ist, T2s t Wir haben vier Implikationen. Sehen wir uns das mehr als 5012 an, dann drei und dann vier. Wir haben also vier, oder? Siehst du, wenn du der
Stadt vertrauen musst, haben wir vier Implikationen. Auf diese Weise werden
die Daten gruppiert und
die Frequenz angegeben. Wenn Sie sich das ansehen, können
Sie leicht erkennen, dass das
Kryptosystem mehr als 50.000 Gehalt für Mitarbeiter hat oder zehn bis 23 Mitarbeiter
zieht, 20 bis 32 implizieren und 40 bis 50, was den Preis angeht, nur einer, der
ein Gehalt für P2P bekommt. Auf diese Weise wird also ein Histogramm gezeichnet und die
Daten werden anhand der Häufigkeit gruppiert. Okay? Es definiert
einen Bereich oder Beta und teilt Ihnen
dann die Häufigkeit des Auftretens der
Daten in diesem Bereich mit. Also zehn bis 23 auftreten, 20 bis 32 Arbeiter, 30 bis 42 Arbeiter, 40 bis 52 Vorkommen und dann Petrischale t als Agonist
setzen. Es wird also, was es tun wird, es wird die Daten in
einige Bereiche gruppieren und dann
wird es Ihnen mitteilen, wie Daten in diesem Trend vorkommen
. Also zehn bis 20, es gibt drei Daten, 310 bis 20 und es ist dreimal
Jacqueline. Okay? Also so, so
können wir sagen, dass drei Mitarbeiter
trocknen, leider 10-20. Das ist also die
Bedeutung des Histogramms. Okay. Als Nächstes habe ich das getan. Ich habe unsere
verschiedenen Daten hier genommen. Ich bin was ich benutze,
114-567-8910. Okay. Also dann das Gleiche, ich gebe ein anderes, mit einer Datei
verschönertes Programmdiagramm, ein Punkt-PNG. Und hier, was ich benutze, x sin x, ich verbringe das Jahr. Nur die Datenpunkte
unterscheiden sich. Die Datenwerte sind hier unterschiedlich. Okay. Und
später ziemlich einfach, 114-567-8910. Okay. Und dann
speichere ich es auf okay. Lassen Sie uns das ausführen und sehen,
was wir bekommen. Lassen Sie mich hier das erste
Histogramm finden. Jetzt. Es definiert die Daten. Ich mag Null bis Zwei. Wie es
den Bereich definiert, ist Null bis 22 bis 44 bis 64.628,8 bis zehn. Also g rho 22, wie
viele Vorkommnisse? Zwei Vorkommnisse, dass
also G Reihe zwei bis 11 ist, diese beiden sind
weniger als zwei, oder? Also Null vor zwei zur Korrektur. Als Nächstes gilt: Zwei für eins. Also zwei vor vier. Nur vier Gibt es einen. Dann vier bis sechs bis vier bis 65,6 um zu schreiben, dann wieder sechs bis 8782, und dann 9108 bis zehn bis 9,10. Auf diese Weise werden
die Daten in zwei Bereiche unterteilt, Null bis zwei oder zwei bis
44 bis 66 bis 8,8 bis zehn. Und dann gibt es uns
die Häufigkeit des Auftretens von Daten 0-22 zweimal zwei bis vier, einmal vier bis sechs. Wiederkehrender Preis, okay? Zum Vorkommen der
Werte 4-6, richtig? Ja, 5.6. Auf diese Weise können
Sie die
Farbe auch von hier aus ändern. Du kannst es schwarz machen. Und wisse, dass die Grafik schwarz sein
wird. Auf diese Weise können wir
die Farbe im Histogramm ändern. Wir sehen uns in
der nächsten Vorlesung. Wir werden einige andere
Beispiele für Histogramme sehen.
35. Breaks xlim ylim in Histogramm verwenden: Hallo und willkommen zurück. In der vorherigen Vorlesung haben
wir also gesehen, wie man ein Histogramm
zeichnet. Wir haben zwei Beispiele gesehen,
zwei verschiedene Daten. Also haben wir einen Vektor genommen. Und dann haben
wir im zweiten Beispiel die
sehr einfachen Daten genommen. Und jetzt, was wir tun werden, werden
wir lernen,
wie man Break benutzt, wie man Limit-, Y-,
Limit- und Break-Bonds verwendet , diese drei Parameter
der Hist-Funktion um ein Histogramm
mit Pause und X-Grenze zu zeichnen. Okay, also habe ich den Code
geschrieben. Also verwende ich als Erstes
den gleichen Vektor, bei dem
wir die subtile Anzeige Ihrer Blinds haben , die vom Ursprung
des
Druckvorabdrucks bis 60.000 lesen. Also erstelle ich einen X-Vektor , den wir in
der vorherigen Vorlesung gemacht haben. Und dann erstelle ich eine Zieldatei, in der
ich dieses Histogramm speichere. Ich verwende die P- und G-Funktionen
und gebe endlich Mises zu Brex dot PNG To
with Brex dot PNG. Das ist der endgültige Name
,
der im Namen der
Datei erstellt wird, auf der
unser Plot sein wird, unser Histogramm wird
gezeichnet, okay, und dann erstelle
ich hier mit
der Hist-Funktion das Histogramm. Also übergebe ich den
X-Vektor hier bei den Daten. Und dann gebe ich Xlab den
Namen, fügt Gewicht und Farbe hinzu. Ich gebe Blau,
gib die Grenze. Ich gebe das Grün. Und dann gebe ich das x-Limit. Hier verwende ich ein Argument
, das ausgezeichnet ist. Die x-Grenzen. Für die X-Achse gebe ich
den Grenzwert Null auf 40.000. Und siehe, unsere Daten enthalten
die Werte
15-60-Toleranz sind abgedeckt. Die Daten gehen über t hinaus, aber hier mache ich eine Schleife beschränke die
X-Achsenwerte auf Null bis 40.000. Okay? Und warum die Extremität GTO vor zehn
ist. Okay, so gut, warum die Y-Achse die Häufigkeit
des Auftretens
der Daten ist, also Null bis Zehn oder Null bis 20, was auch immer wir erstellen. Unsere Eröffnung beinhaltet ein
Ziehgehalt 0-2020 bis 30 oder 30 bis 40, so. Okay. Damit ich den Zeh hochhebe. Also und dann verwende ich hier
einen anderen Parameter, Pausen sind gleich zwei. Also lass mich zuerst eins daraus machen. Okay? Also, was ich mache, ich
gebe dem Brexit gleich eins. Wir werden sehen, welche Auswirkungen
dieser Brexit gleich eins
auf unser Histogramm hat. Und dann speichere ich die Datei. Das Histogramm, das
generiert wird, speichert dabei seinen Zeh mit einer Brex-Punkt-PNG-Datei,
um das auf unserer lokalen Datei zu speichern
, wobei sie DB Punkt aus verwenden. Damit wird es auf unserer Maschine
gespeichert. Also, das ist der Code, einfacher einzeiliger Code, dem wir einige Parameter
mit Bricks
übergeben. Schlank. Xlim, xlim begrenzt die
Datenwerte auf der X-Achse, die
Y-Grenzen für die Y-Achse und Break wird verstehen, wenn
ich diesen Code ausführe. Sie werden es also besser
verstehen, wenn Sie die Ausgabe sehen. Und mit dieser Visualisierung werden
wir verstehen, was der
Brexit tatsächlich bewirkt. Okay? Lassen Sie mich also diese
Quelle ausführen, Quelle gedrückt halten, auf die Quelle
klicken
und das wird so lassen Sie mich die Ausgabedateien öffnen. Also hier sind zwei mit
Brexit-Datei erstellt worden. Lass es öffnen. Jetzt die Akte, unsere
historischen Zahlen. Sie werden also hier sehen, da ich Pausen von eins
gegeben habe, sehen
wir nur
einen großen Balken, oder? Null bis 40, und es zeigt, dass 0248 Arbeitgeber versuchen,
Gehälter zwischen 40 und 40 zu verdienen. Lassen Sie mich das überprüfen. Sehen Sie hier, wir haben insgesamt 10.12 3456, 1234, 5670, 2408. Aber wir haben eine Liste, 702, 40, ich schätze 123.456,7. Alle anderen sind mehr als 40, oder? 1234. Okay, jetzt können wir diese Grafik
sehen. Lass mich die Steine durch zwei ersetzen. Jetzt werden Sie sehen, dass es zwei Partitionen geben
wird. Okay? Also lassen Sie mich, wenn die Datei nochmal, hier
sehen, jetzt haben wir Null bis 40. 40-Gehalt wurde
in zwei Teile aufgeteilt, wobei der Status Null bis 20,22, 40 und dann 42 getrennt
angezeigt wird, oder? Jetzt
wurde der gesamte Datensatz in drei Teile aufgeteilt, aber seitdem von Null bis 40. Seitdem haben wir
angefangen, wenn Null bis 40. Also Null bis 40 Daten, Null bis 40 Daten wurden in zwei Teile
aufgeteilt. Cheeto auf 20,0 bis 60, c, Null auf 20,0 bis 22 400.220,02, 400.223,22, 44
Daten und 40 bis 65. Okay. Lassen Sie mich
Ihnen den Unterschied zeigen. Wenn ich
hier t Null auf t setze, was passiert dann? Die Daten von 0 bis 60 werden in zwei Teile
aufgeteilt. Lass mich Also öffnest du
die Datei erneut. Jetzt
wurde G von Null bis 60 in
drei Teile unterteilt , weil wir keine Daten
haben, die über die Sicherheit hinausgehen. Es zeigt nicht die andere
, sondern null bis 60% Internetverschuldung. Wir haben Daten. Daher
wurden die Toxizitätsdaten von Quito in drei Teile unterteilt. Also in dieser Phase, was kaputt
geht, so x lim Null auf 60. Was passiert, wenn ich 50 schaffe? Die Daten von 0 bis 50 werden in zwei Teile
aufgeteilt. Okay, lass mich das ausführen. Sie haben also gesehen, dass Sie das können Lassen Sie mich auf Quelle klicken und lassen mich zu der Datei gehen
und sie erneut öffnen. Nun wurden die wenigen Vordaten von J22 in drei Teile
unterteilt. Okay. Ich hab's. Null bis 2020 bis 40, dann kommen 40 bis 60
zusammen, oder? Es werden also bis zu 50 angezeigt. Okay. Was passiert, wenn ich drei schaffe? Lass uns sehen. Lass mich es noch einmal öffnen. Wir sehen uns auf
2020 bis 40,40 bis 60. Lass mich
weiter experimentieren. Was passiert, wenn ich vier draus mache? Siehst du, jetzt werden
zehn bis 2020 bis 30,
30 bis 40, 40 bis 50 angezeigt , und dann
werden 50 bis 60 getrennt angezeigt. 12340250-Daten wurden also in vier
Teile aufgeteilt, oder? Das haben wir für R2P
verlangt, also teilen wir es in vier auf. Wenn ich auf Null gehe, um 32 anzunehmen, werden
30.000 Daten in vier Teile
aufgeteilt. Lassen Sie mich die Datei erneut öffnen. Zehn bis 20.20 bis 30, weil wir nicht
so viele Daten haben, oder? Also wurden zehn
bis 2020 bis 30 und dann 30 und
darüber hinaus aufgeteilt. Weil wir, wenn ich
es auch schaffe, schauen wir mal. 30 Daten wurden in zwei Teile
aufgeteilt. Die erste ist 0220 und dann
20 bis 40 und darüber hinaus, oder? Also lass mich mein Portrait
wie G Naught to T und lass es machen und sehen. Die Ausgabe. Die Sicherheit von Gate A2 wurde
in 1234 Teile unterteilt. Lassen Sie mich die
Datei erneut öffnen, um
die Objektdatei C und G zu sehen , Null bis 6110 bis 2020 bis 30, 30 bis 40, 40 bis 50 bis 60. Okay, das machen
wir also mit den Pausen. Okay? Also das ist es, was x Lim
und wild, wild maulen. So können Sie unser CEO, während Sie
sich das Bild machen , indem Sie die
Frequenz der Y-Achse auf Null bis Zehn einschränken. Nehmen wir an, wenn ich das ändere, wenn ich das ändere, um Ihre
einzigen sechs zu unterstützen , was passiert dann? Lassen Sie mich das ausführen und die aktuelle Datei
öffnen. Sehen Sie hier, jetzt sehen wir die
Frequenz Null bis Sechs. Okay? Auf diese Weise können wir
die X-Achse und
Y-Achse einschränken , wo das Xylem
weit verbreitet ist. Wenn ich es schaffe Für
was wird passieren. Es ist gut, mit
dem Code zu experimentieren, um die Ausgabe zu sehen. Und wenn Sie die Ausgabe sehen, wissen
Sie, wie
der Parameter C tatsächlich verwendet wird .
Sie erhalten eine Zwei für, eine kleine dafür ist okay. Wenn ich es unterstütze, mache
ich es von Null bis
Zwei. Was wird passieren? Jetzt ändere ich die
Y-Achse, die Frequenz. Ich sehe, du wirst sehen, weißt
du, es
läuft wie dieser. Das Auftreten der Allelfrequenz von insgesamt bis zu ihm verläuft nach rechts. Auf diese Weise können wir mit
dem Code in jeder
Programmiersprache
herumspielen , Bit R oder Python oder so. Wenn du lernen willst, musst
du anfangen, mit
dem Code zu spielen und
mit den Parametern zu spielen. Und wenn Sie den Parameter ändern, sehen
Sie die genaue
Auswirkung dieses Parameters. Und in diesem Sinne werden
Sie besser lernen und
die Implikationen, die
genauen Auswirkungen dieses
bestimmten Arguments, eines
bestimmten Parameters in
einer bestimmten Funktion erhalten genauen Auswirkungen dieses
bestimmten Arguments, eines
bestimmten . Wie in seiner Funktion wissen
wir, was x ist, was ist x Lab, was ist Farbe, was ist Grenze? Was ist x Lim. Wir haben gesehen, wie sich We Xlim auf das Histogramm
auswirkt, wie sich der Wild-Limb-Parameter auf das Histogramm
auswirkt und wie sich Bricks auf das Histogramm
auswirken, also auf das Histogramm. Wenn Sie also experimentieren, wenn Sie mit
dem Code und seinen Daten herumspielen, erhalten
Sie bessere Einblicke und ein besseres Verständnis
des Codes. Ich hoffe, Sie haben
verstanden, was X-chromosomal,
Y-chromosomal und Brüche sind und wie
sie sich auf unser Histogramm auswirken. Damit sehen wir uns
in der nächsten Vorlesung.
36. Grundlegendes Liniendiagramm für Zeitreihen mit ggplot2: Hallo und willkommen zurück. In der vorherigen
Vorlesung haben wir also gesehen, wie man ein Histogramm zeichnet. Jetzt kommen wir zu einer
sehr interessanten Grafik. Sie können unser
einfaches Liniendiagramm sehen. Und das ist sehr wichtig , denn das wird
wichtig sein wenn Sie mehr
über Zeitreihen oder
Probleme auf Ihrem Weg zur
Datenwissenschaft erfahren . Und das ist, in dieser Vorlesung werden
wir gerne sehen, wie wir ein einfaches Liniendiagramm
für unsere Zeitreihen zeichnen können , indem wir das GG-Plot
verwenden, das ein Paket in R ist.
Also, was ist die Zeit seitdem? Zuerst müssen wir das
verstehen. Lassen Sie mich Sie also zu den grundlegenden, sehr grundlegenden Definitionen von
Wikipedia über Zeitreihen führen. Eine Zeitreihe ist eine
Reihe von Datenpunkten. Im Grunde werden Ihre indexierten
CD-Job-Datenpunkte aufgelistet oder abgerufen. Es kann sich also um eine Indexierung
der Reihe von Datenpunkten handeln, oder es kann sich um eine
Lift-Up-Serie von Datenpunkten handeln, oder es kann sich um eine grafische
Darstellung einer Reihe von Datenpunkten in zeitlicher Reihenfolge handeln. Es kann also
alles andere als unsere Zeitreihenfolge sein. Also eine Reihe von Datenpunkten, die in zeitlicher Reihenfolge
indexiert sind. Das bedeutet, dass die Datenpunkte auf der Zeit
basieren und daher im Laufe der Zeit
erstellt werden sollten. Wenn wir also Daten haben,
die auf der Zeit für einen bestimmten Zeitraum oder
eine bestimmte Zeit in Teach basieren, basierend auf der Zeit, dann ist
das eine Brita. Wir können, wenn wir plotten, ein Zeitreihendiagramm erhalten. Also am gebräuchlichsten Lee, oder Zeitreihen und Sequenzen, die zu einem aufeinanderfolgenden,
gleichmäßig verteilten Zeitpunkt
aufgenommen wurden. Was heißt das? Bedeutet, dass Zeitreihen eine Sequenz sind
, die wir gesperrt haben, oder? Zeitreihe oder Abfolge von
Datenpunkten , die in zeitlicher Reihenfolge indexiert sind. Und am häufigsten handelt es
sich bei Zeitreihen eine Sequenz, die an aufeinanderfolgenden
Terminen in
gleichem Abstand zu einem Zeitpunkt durchgeführt wird. Nehmen wir an,
wir nehmen auf unserer Zeitlinie aufeinanderfolgende, gleichmäßig verteilte Punkte zu
Zeiten aller 0220 4 h, dann brauchen wir null bis
3 h, dann 3 bis 6 h 32, 9 h neun bis 12. Frühe Erfolge, zwei Punkte in
gleichem Abstand wie drei,
3-Stunden-Intervall , das wir einlegen. Das wären also Daten von 0,326, 6299 bis 12, so. Okay. Also gebe ich ein Beispiel. Es ist nicht genau das Richtige. Aber du kannst verstehen
, welche Zeitlinie, Null bis 24 Stunden und ein paar Dinge,
die jeweils passieren, jeder Sekunde, in
jeder Minute, oder? Wenn wir also
diese Datenpunkte dokumentieren, etwa bei einem Vier-Sterne-Objekt, sind
dies die Daten
der zweiten Stunde. Das sind die Daten der
Tada. Das sind die Daten. Wenn wir diese Daten also
nacheinander mit
gleichem Abstand definieren , erhalten
Sie
die Zeitreihe, die Abfolge der Zeitreihen. Es handelt sich also um eine Folge
diskreter Zeitdaten. Es ist nicht kontinuierlich, es ist diskreter Natur,
weil wir aus diesen Daten
Zeitpunkte mit gleichem Abstand
nehmen. Also machen wir eine diskrete. Das ist also die Definition. Was wir nun tun werden, wir werden versuchen,
dies zu verstehen, indem wir es planen. Wenn wir planen, werden
wir mehr darüber erfahren. Okay, also bevor wir plotten, haben wir darum gebeten, die
Bibliothek GG plot two zu installieren, damit Sie zum Paket gehen
und diesen GG-Plot zwei installieren können . Okay? Also dafür brauchen wir Library GG, Handlung zwei
und den Spieler, okay? Diese beiden Bibliotheken sind
also erforderlich. Und was wir dann tun, erstellen
wir Dummy-Daten. Was ich also tun werde, ich werde einen DataFrame erstellen
, der den Tag enthält. Sie werden wie ein Punkt aufgewühlt sein. Das bedeutet, dass Daten
in diesem Format wie der
ersten Generation insgesamt 15 verwendet werden. Und was ich dann mache, ich will auch von hier auf Null. Recherche bis 4 Minuten, 365 Tage. Also von hier bis 365 Tage, jeden Tag
aufwärts wie ersten Generation und dann
am 31. Dezember 2014, nehme
ich mir drei bis fünf Tage Zeit. Und für ein bestimmtes Datum, an dem
ich den Wert nehme, verwende
ich die runif-Funktion. Weißt du, was ist, führe eine Funktion aus, die Fox
ausführt und sie erstellt, was, was sie tun wird. Es wird eine Folge
von geraden Zahlen erstellt, 4365. Es wird also eine
Folge von Zahlen erstellt. Also, was wird die
Running-Funktion tun? Es generiert die
zufälligen Abweichungen einer Gleichverteilung und
wird als runif geschrieben. Was es also tun wird, es wird auf einfache Weise
die n Anzahl von
Zufallszahlen generieren , die es rendern wird. Was wir
hier also aus Wertgründen tun, Initiativforschung, um die Zufallszahlen
für jeden Tag zu löschen. Also weisen wir die erste Zufallsgeneratornummer bis heute zu, eine, wie diese. Und dann
wird die zweite
zufällig generierte Zahl dem zweiten Datum zugewiesen. Okay? Wir verwenden also nicht nur, wir verwenden nur die
zufällig generierten Zahlen aus dieser Standardfunktion. Okay? Aber wir fügen dem auch
hinzu, indem wir auch eine genetische Sequenz
von minus 142 bis 40 haben. Und in dieser Sequenz
sind wir das, was wir tun. Davon nehmen wir eine
Quadratwurzel und dividieren dann
durch diese 10.000. Okay? Im Grunde wollen wir also
das Ergebnis daraus ziehen. Wir werden das hinzufügen, was wir
von dieser runif-Funktion erhalten. Okay? runif gibt also die zufälligen Abweichungen und die
gleichmäßige Verteilung an. Okay? Also, was wir
daraus bekommen, bis Datum, Tag und Wert, die wir in diesem DataFrame
speichern werden, erstellen
wir einen
DataFrame, zwei Werte enthält, t und einen bestimmten Wert aus diesen beiden Funktionen,
die wir erhalten, wir werden sehen, wie wir das haben, welche Werte
wir bekommen, okay? Und was wir dann tun werden, ich drucke einfach die Daten aus, um Ihnen zu zeigen, welche Daten
wir erhalten. Und dann werde ich mit diesen
DataFrame-Daten, was ich tun werde, das
GG-Plot verwenden, um diese Daten zu plotten. Also gebe ich diesen Datenrahmen weiter. Und was das dann tun wird, ich gebe die X-Achse als
T- und die Y-Achse als Wert an. Plus. Ich verwende die Geom-Linie, Funktion zwei und dann die
Xlab-Werte, okay? Und dann drucke ich den Druck, ich drucke das Produkt. Okay. Als Nächstes, was ich tun werde, was diese
Geomline-Funktion hier machen wird. Sie können Ihre
Zoom-Nine-Schriftarten darauf sehen, was sie tun werden. Es verbindet die Punkte in der Reihenfolge der Variablen auf der X-Achse und G. Und
es wird tatsächlich ein
staubiges Stufendiagramm
wie ein Treppendiagramm erzeugen. Ok, also
was es im Grunde tun wird, es wird die Punkte verbinden und
es wird das Diagramm erstellen. Okay? Hier verwenden wir also einige
Symbole wie Prozent, d ist d als Zahl Null bis 31. Der Prozentsatz wird
als Wochentag erstellt. Der Prozentsatz entspricht in Großbuchstaben einem abgekürzten
Wochentag, wie Montag. Und das wird Aufruhr
und prozentuale Marmeladen sein. Monate Null bis 12 mit
b und Großbuchstabe B werden abgekürzt und ein abgekürzter
Monat wie Jan
wird abgekürzt und der volle Januar
wird nicht verschärft. Und dann sind der Prozentsatz Y und der prozentuale Großbuchstabe
Y Tool, der Prozentsatz der Vitamine noch
zweistellig und der prozentuale Buchstabe Y
wird noch vierstellig sein. Okay? Das ist also die grundlegende Abkürzung
, die wir verwenden werden. Gehen wir also zum RStudio
und versuchen, diesen Code auszuführen. Also verwenden wir hier GG Plot und
die Player-Bibliothek. Und dann, was ich
hier mache, verwende ich Daten. Ich erstelle hier einen DataFrame, Dummy-Daten mit ähnlichem Acetat. Und dann erstellen wir einen
zufälligen Wert mit dieser
Runif und dieser Sequenz. Und dann drucke ich das, was auch immer wir von
der Runif bekommen , das
zeige ich dir, was wir von der runif Funktion bekommen
und was wir als Daten bekommen. Okay? Lassen Sie mich diesen Code hier ausführen. Okay? Also lass mich diesen Schwanz hier laufen lassen. Also werde ich dir jetzt zeigen
, was wir bekommen. Okay? Also sehen Sie hier, für
die runif-Funktion erhalten
wir diesen
Wert, okay, 0,3, 44,4. So wird es 365 generieren. Winde. Okay, und dann für
die Daten, die wir bekommen, d, wie der 1. Januar, John, insgesamt und weit dazwischen und
wir erhalten diesen Wert. Okay. Und dann für das Protein vom
31., 3.
und 4. Dezember, das wir bekommen, also bekommen wir diese Daten
und den Wert in unseren Datenrahmen. Und was ich jetzt tun werde, übergebe ich den Datenrahmen an die GG-Plotdaten und beende dann den Anruf heute
Y, was dem Wert entspricht. Und ich verwende die
Geom-Linie, um die Daten zu plotten und dann, was da sein wird
oder was ich hier verwende. Ich verwende die Skala für die durchschnittliche
Abweichung, Unterstrich und das Datum des Unterstrichs. Und hier gebe ich den
Schuldenstand von x v an. Okay? Lassen Sie mich also den gesamten Code ausführen. Klicken Sie auf die Quelle
und sehen Sie sich die Handlung hier an. Lassen Sie mich also den Boden ausdrucken. Schau hier. Jetzt erhalten wir noch
Zeitreihendaten für Januar 2014, 2014, Juli 2014, Oktober
2014 und Januar 2015. Okay. Und wenn ich das durchführe, bekommen
wir die
Abkürzungen Januar, Juli wie folgt. Dann läuft
es so. Wenn ich das große Y,
b, das kleine b und d verwende , was wir bekommen, bekommen wir das ganze
Jahr, also 2014, dann tourt Jan One auf 14
Kleidungsstücken, eine wie diese. Okay. Und das ist
die Woche, oder? Es zeigt dir also
die Wochen, die späten. 13., Woche, 26.,
Woche 3093 und so weiter. Okay. Wenn es ein riesiger Berg ist,
warum wird er uns den Monat geben, warum? Monat und YC. So ein düsterer Januar mit insgesamt 14 Zulassungen für solche
Tunnelproteine. Das ist also der Punkt, an dem wir den Monat auf der X-Achse
sehen. Hier sehen wir den
Berg zusammen. Wir sehen den besonderen
Wert zu diesem Zeitpunkt. Okay? Auf diese Weise können wir also eine einfache Zeitreihe zeichnen. Hier. Wir können
das ein wenig ändern. Und hier verwende ich SLB, unsere Teambibliothek, in der
Sie, falls Sie keine haben, zu den Paketen gehen können, auf Paket
klicken, auf Installieren klicken und
Sie können sie installieren und dann können Sie sie verwenden. Ich verwende also dieselben Daten
, die wir
in der vorherigen Version erstellt haben. Gerade eben. Und hier,
was ich mache, alles, ich verwende
das Thema in der Geom-Zeile. Ich gebe die
Farbe als Grün an. Hesiod ist die schwarze Linie. Im Moment ändere ich
das auf grün. Also hier geom line, ich gebe Farbe,
die Farbe Grün. Es wird also so sein, dass das Diagramm in der grünen Farbe sein
wird. Und dann das Thema unterstreicht Ipsum, ich verwende Blast für das Team. Was mir gegeben wird x dx t Punkt x Element Punkt TXT
Unterstrich t Eigentlich Winkel. Ich gebe 45 und ich gebe
nur einen. Was also dieser Winkel von 45 bewirkt, wird dieses
Diagramm um 45 Grad drehen. Lassen Sie mich also den ganzen Code ausführen. Schau hier. Jetzt sieht
die Grafik so aus. Und die 45 Grad, also wird sie auf 45 Grad umgerechnet. Auf diese Weise können wir einen
Winkel von 45 verwenden, bevor ich t
annehme. Schauen wir uns an, welchen
Unterschied wir haben. Ein Künstler hat sich leicht verändert. Lassen Sie mich es ändern, um 160 zu unterstützen. Kannst du einen
Unterschied sehen, wenn ich 45 gebe? Und jetzt ändere ich es. Tun Sie 145. Mal sehen, ob wir
einen Unterschied machen. Jetzt kommt es wie Januar 2020, Oktober 2019. So. Die Grafik ändert
sich mit der Geschwindigkeit. Wenn ich es mache 45. Es kommt so. Und wenn
ich es mache, nehmen wir an, 90 Grad, wird
es
auf eine andere Art und Weise reinkommen. Ist es. Diese Darstellung ändert
sich, oder? Januar. Dieses, dieses Ding ändert
sich, oder? Wenn ich zehn Grad schaffe. Und wenn ich hier einen Plan mache
und sehe, wie sich
das, was auch immer wir hier schreiben, im Januar 2019, dieser Blickwinkel
ändert, oder? Wenn ich es schaffe, nehmen wir an
, er sieht TDD, dann
schauen wir mal, wie sich
das Geschlecht nicht ändert. Lassen Sie mich eine Einheit daraus machen. Wenn du mit
den Daten spielst, mach weiter. Kannst du geben, um zu verstehen
, was eigentlich anders ist? Du machst es
richtig. Das Ohr. Es ist Mitte,
Ende Januar 2019. Jetzt wird es als gespiegeltes
Bild vom Januar 2019 angezeigt. Das ist also der Unterschied. Okay. Auf diese
Weise können wir das Level erreichen, okay? Also Orientierung auf X-Achsenebene, Wochenendketten wie diese, okay? Wenn Sie 90 Grad angeben, entspricht
dies einem IT-Abschluss. Ich hoffe, jetzt ist Ihnen klar welchen Unterschied dieser
Blickwinkel macht, oder? Jetzt ist es bei 90 Grad. Auf diese Weise können wir also die Elementtexte
verwenden und
die Ausrichtung
der Texte wie
im Januar so ändern . Okay? Also auf diese Weise können
wir das machen.
37. Scatter Plot und Plotmatrizen in R: Hallo und willkommen zurück. In dieser Vorlesung werden wir
etwas über Scatterplot lernen. Also, was ist Scatterplot? Ein Streudiagramm ist eine Art von Diagramm. Unser mathematisches Diagramm
verwendet kartesische Koordinaten zur Anzeige von Werten. Was sind normalerweise zwei Variablen besser? Es bedeutet also, dass es einfach ist. Wenn Sie unsere X, Y-Ebene nehmen, müssen
wir Punkte
auf die Ebene setzen, x und y, x komma y Punkt, die wir plotten
müssen, damit wir keine
sicheren Linien zeichnen oder so, sondern nur die Punkte, an denen
wir portieren, um
die Majlis und die Anzahl
der Zylinder zu unterstützen , usw. Zylinder. Die Zahl Epsilon auf der X-Achse und meine Legende auf der Y-Achse. Es wird also wie ein Vierkomma sein. Die Anzahl der
Zylinder beträgt vier und das Myelin
verdreifacht sich immer noch vier. Lassen Sie uns einen Punkt auf
der kartesischen Ebene abdrucken , die wir platzieren werden. Es ist also ziemlich einfach. Sind die Punkte codiert, kann
einer, der immer noch wertvoll ist, angezeigt werden. Okay, was ich hier mache, ich werde einen
Datensatz zeichnen, der aus leeren Autos besteht, das sind die Eingabedaten. Set. Unser Niveau damit
haben wir bereits in
unseren früheren Beispielen verwendet. Also werde ich einen
leeren Fahrzeugdatensatz verwenden, unserer, unserer Umgebung leicht verfügbar
ist. Also, was diese leeren Autos sind, das WHO-Labor wird es haben. Es wird Daten zu den
Autos
wie Nummer Epsilon, dunklem Myelin und Gewicht
des Autos und andere Dinge enthalten. Okay, also aus diesem
Datensatz, was ich mache, werde
ich die Anzahl Zylinder und Myelin
aufzählen, und das bedeutet die
Anzahl der Zylinder und die Majlis der jeweiligen Kosten , die ich
aus diesem Datensatz abrufen werde. Also verwende ich Recta. Siehe Zylindermyelin. Myelin, das heißt
Zylindermyelin. Und das speichere ich
in diesem Objekt. Okay? Also, wenn ich diese beiden laufen lasse, was kriege ich dann hier? Ich erhalte also Details für
verschiedene Autos wie Mazda, Datsun und ich erhalte die
Nummer Epsilon, das ist sechs,
Formaldehyd-Export. Und der Kilometerstand ist eins zu eins. In ähnlicher Weise ist Lotus
Europa, Nummer Epsilon, das ist Nahrung und Myelin
ist 34 für Bandera. Es ist Zylinder und das
Myelin steht für punktgenau, während Woof 142 e die Anzahl der Zylinder vier
und das Myelin 21 beträgt. Auf diese Weise erhalten wir
die Geschichten für viele Autos, verschiedene Autos und deren Kilometerstand. Okay. Also, was ich jetzt tun werde, ich werde ein Streudiagramm erstellen das die Götter
zeigt,
und dann meine Liste. Für das, was ich verwende,
verwende ich eine
PNG-Funktion und gebe den Namen der Scatterplot-Datei
als mein List-Plot-Punkt-PNG an. Und dann verwende ich
die Plot-Funktion. Streudiagramms
wird eine einfache Plotfunktion Zeichnen
dieses Streudiagramms
wird eine einfache Plotfunktion verwendet. Und doch gebe ich an
, dass x der Eingabe entspricht. Also ist x im Grunde
der Eingabevektor. Sie erhalten also x, das dem entspricht,
was ich zur Verfügung stelle. Ich gebe die Eingabe
als Zylindernummer an. Die X-, X-Achse wird der
Eingangszylinder sein. Das bedeutet, dass ich die
Anzahl der Zylinder erhalte, okay? Und die Y-Achse wird wichtig sein. MPG-Eingabedollar mpg bedeutet, dass ich diese MPG-Daten erhalte, mpg. Das ist also meine Liste X-Achse ist die
Zylindernummer des Zylinders und die Y-Achse ist die
Laufleistung, Meilen pro Gallone. Okay. Und xlab Ich gebe das
X-Achsen-Niveau der X-Achse an. Mir wird die Nummer des
Zylinders gegeben, weil ich dort die Anzahl
der Zylinder eingebe. Und für die Y-Achse gebe ich den Namen Myelin und die X-Grenze gebe ich vier bis acht, weil die
Anzahl der Zylinder 4-8 oder zehn anzeigt. Okay? Also gebe ich vier bis
acht für die X-Achsengrenze. Und das Y-Achsenlimit gebe
ich zehn bis 35. Okay? Und der Name des Graphen
oder des Streudiagramms, ich gebe die Zahl Zylinder auf,
Zylinder gegen geistlos. Mein Laserpunkt hat gekostet, okay. Und dann verwende ich Keep Dark
oder Off, um den Kampf zu retten. Es ist also ziemlich klar hier. Lassen Sie uns nun diese Datei speichern und diesen Namen als leere Autos
verwenden. Ca wird Zylinder minus okay sein. Und dann speichere es. Okay, lassen Sie uns das jetzt ausführen. Lassen Sie uns also diese Quelldatei ausführen. Jetzt ist es also später
erfolgreich. Sehen Sie nun, dass die Ausgabedatei verstreut werden
soll, und zeichnen Sie mein Listenprodukt auf. Schauen Sie sich also an, welchen Namen wir gegeben haben. Wir erhalten den
Kilometerpunkt PNG. Das ist also die Handlung. Okay? Also sehen Sie, der Name des Scatterplot-Teams ist die Anzahl der Zylinder für
dieses Myelin und die X-Achse.
Ich nähe die Zahl der
Zylinder auf, sodass jeder 45678 und die Y-Achse Myelin ist,
10, 152-025-3035. Okay? Und hier bei jedem Punkt nehmen wir an, dass dies der Punkt ist. Dieser Punkt steht für die Zahl
Epsilon, also vier, weil der X-Achsenwert vier ist und Y-Achsenwert irgendwo
um 21 oder 22 liegt. Also vier Zylinder und myelogener Frontier
14-Zylinder, ein weiterer Punkt, 4,23 oder 2023, dann 2044 ,
Komma 24 und dann
vier Komma 26, 27, so für etwa
30143034 Komma vier. Also Anzahl der Zylinder für, und das sind die Laufleistungen
für die Vierzylinder-Autos. Und bis bald als Punkt, x Komma y Punkt auf dieser kartesischen Ebene in der
zweidimensionalen x-y-Ebene. Und wir geben die Punkte
wie die Nummer des Zylinders vier und meine religiöse 21
Punkte etwas an, okay? Ebenso
bedeutet die X-Achse sechs die Anzahl der Zylinder, sechs Punkte diese Zahl sechs. Die Autos, die
keine Zylinder wie sechs haben, hatten so
viele Myelinscheiden. Dieser myelinähnliche Fußabdruck, Meilenstein
16171516 bis 2021. Somit können wir wissen, dass
Sechszylinder-Schutzvorrichtungen im Vergleich zu
den Vierzylinder-Autos
weniger Laufleistung bieten und zu den Luftzylinder-Fahrzeugen
kommen. Das sind meine Objektive
für diesen Loop. Die
Achtzylinder-Autos geben also den niedrigsten Myelinwert. Das beste Myelin ist also Garza die
Anzahl der Zylinder zu
geben, vier und dann sechs Grünpflanzen. Anhand dieses Streudiagramms können wir zu dem Schluss
kommen, dass die Anzahl der Zylinder über die
Laufleistung des Autos entscheidet, geringer als
die Anzahl der
Zylinder im Auto ist, desto größer wird das Myelin sein. Das heißt, wenn die
Anzahl der Zylinder zunimmt, sinkt
die Laufleistung. Der Anfall für die Laufleistung beträgt
mehr als sechs Myelin und verringert sich. Die Anzahl der Zylinder
steigt auf acht. Das Myelin nimmt
weiter ab und ist unter den
46,8-Zylinder-Fahrzeugen am
niedrigsten. Also Nummer eins, Myelinscheide. Umgekehrt proportional
zur Anzahl
der Zylinder ist der Zylinder, die
Zylinderzahl der Zylinder
im Automotor geringer, Laufleistung wird höher und die Anzahl der Zylinder
im Auto wird höher sein, die Laufleistung wird geringer sein. Okay? Bei dieser Art
von Streudiagramm können
wir also leicht
zu dem Schluss kommen, können
wir also leicht
zu dem Schluss kommen indem wir uns nur
die Grafik ansehen, okay? Und es ist eines der
einfachsten Grafiken, die Sie sehen können und es ist ziemlich einfach, es zu analysieren und die Details
aus dem Diagramm selbst abzurufen. Als Nächstes gebe ich den Dateinamen als
leere Autos an und bespreche das Streudiagramm, die Abenddämmerung oder die Matratze. Also, was ich hier machen werde, ich werde
die Paarfunktion
in R verwenden. Und mit
dieser Paarfunktion in R verwenden. Und mit
dieser Paarfunktion können
wir
Matratzen herstellen, die in der Tabelle ganz oben stehen. Und wie wir das machen können. Wir können die Datenpunkte
aus dem Datensatz für leere Autos entnehmen. Und in jedem Tempo. Laufleistung pro
Gallonen-Hubraumzylinder. Aus diesem Datensatz,
leere Fahrzeugdaten, erhalte ich Daten, die m
entsprechen. Precast bedeutet, dass wir diesen Datensatz für
leere Autos verwenden. Davon ausgehend verwenden wir diese vier Variablen
in vier Spalten,
wie Wait, MPG,
Meilen pro Gallone, Hubraum und
Anzahl der Zylinder. Und F4-Säule. Diese vier Parameter
werden verwendet, um
Diagramme zu erstellen , z. B.
wird das Gewicht genommen und das Punktdiagramm wird auf der Grundlage des Gewichts
gezeichnet. Und meine Liste, Gewicht
und Hubraum, Gewicht und Zahl
Epsilon. Auf die gleiche Weise wird
Myelin genommen und dann werden die Grafiken nicht wie
Mileage Plus-Gewicht minus
plus Hubraum, dann
Mileage Plus-Zylinder sein . Also Laufleistung versus Zylinder, Laufleistung versus Hubraum,
Laufleistung versus Gewicht. Auf diese Weise wird eine
Variable genommen und das Diagramm wird Bezug auf
die drei Variablen
gezeichnet. Hier gebe ich die
Scatterplot-Matrix für leere Autos als Namen. Lassen Sie mich
zunächst den wichtigsten loben. Und zuerst benutze ich, ich fange mit dem einfachen an. Ich versuche einfach, den MP zu zeichnen. Meine Liste war dieses
Epsilon-Zahlendiagramm, das wir hier ohne Paar gezeichnet
haben. Also was ich mache, ich werde versuchen,
ein dunkles Bier nur mit
MPG und Zylinder zu zeichnen . Und mal sehen, was die Ausgabe sein
wird. Okay? Also lass uns das ausführen. Und der Dateiname ist
dieses C hier. Wir sehen uns. Also die gleiche Ausgabe. Aber hier sehen wir, was
wir sehen, in einer Matrixform. Also hier wirft es MPG-Meilen pro Gallone und
Schwimmnummer Epsilon Doc. Sie können hier also
MPG-Meilen pro Gallone und
hier die Anzahl der Zylinder sehen . Sie können also die Nummer Epsilon , die für alle
Vierzylinder-Autos steht, Ihre 46,8 sein. Sie sind hier für die
jeweilige Kilometerzahl zusammengefasst oder heilen das Vierzylinder-Myelin hier, dann die Sechs-Zylinder-Myelitis und jetzt ist es die Zylinder-Myelinliste. Wenn Sie also diese beiden kombinieren,
erhalten Sie dieses Streudiagramm. Wenn wir diese beiden kombinieren, erhalten
wir diesen. Ceo, wir
bekommen das nicht früher, wir nehmen diese Anzahl
von Zylindern in meine Liste auf. Bei dieser Grafik, die wir bekommen, gehe
ich auf meiner Liste den
Zylinder nach oben. Jetzt sehen wir
die Abneigung gegen die Y-Achse. Das wird der erste Kilometer sein. Okay. Und die Anzahl der Zylinder, die Sonia
und das Myelin sind
, ist Sonya getrennt
in einer Matrixform, oder? Das Gleiche, aber in einer
anderen Darstellung. Okay. Lassen Sie mich nun zum Code gehen und diese Zeile
kommentieren und dann diese Zeile entkommentieren. Jetzt verwende ich DUF für Variablen. Und lassen Sie mich das ausführen. Und jetzt sieh dir die Grafik an,
wie das kommt. Also mach das auf. Sehen Sie sich nun die vier Variablen
Gewicht, MPG, Hubraum
und Zylinder an. Also dann hier das Gewicht, der Majlis Hubraum und der
Zylinder, der Sonya hilft. In Ordnung. Also diese Verschwendung ist dünn. 123 456-789-1011, 12,4 Cystein wurde gezeichnet. Okay, lass mich tatsächlich planen. Und mit diesen vier Dingen, also vier mal vier
Matrix-Ehemann, richtig? Auf diese Weise können wir
diese Biere verwenden, um
die Plotmatrix
für diesen Datensatz zu erstellen . Dadurch wird also die
Streudiagrammmatrix
erstellt wir Blockmatrizen
erstellen können. Okay. Wir sehen uns in der nächsten Vorlesung.
38. Mittel in R finden: Hallo und willkommen zurück. In den nächsten Vorlesungen werden
wir etwas über
Statistik in R lernen .
Wir werden also sehen, welche Funktionen in
unsere Programmierung eingebaut
sind und
die wir für
die
statistische Analyse in R verwenden können . Und das wird für unseren Körper sehr
hilfreich sein. Das wird für maschinelles Lernen,
künstliche Intelligenz,
Deep Learning
und all diese Dinge sehr nützlich künstliche Intelligenz,
Deep Learning sein. Statistiken sind also die Hauptsache, wenn wir
Informationen aus den Daten gewinnen wollen. Und die Artikelanalyse
ist die Grundlage für die
Algorithmen des maschinellen Lernens. Wir sollten also wissen, was
die statistische
Analyse und die Schlafsäle sind . In den kommenden Vorlesungen werden
wir also etwas
über diese Dinge lernen, statistische Analysen
in unserer Programmierung. Also lasst uns anfangen. Es gibt viele eingebaute
Funktionen, mit denen wir statistische Analysen durchführen
können. Und diese Funktionen sind
sehr nützliche Tools und nur eine Einheit, um den
Funktionsnamen zu verwenden und Sie müssen den Datenvektor übergeben
, ihn mit einigen Argumenten
nehmen, und Ihre Arbeit ist erledigt. Es ist also ziemlich einfach, alle Analysen in
unserer Programmierung durchzuführen. Jetzt werden wir sehen
, was ein
Mittelwert ist und wie wir den Mittelwert
berechnen können. Dann werden wir auch sehen,
was Median ist. Und dann werden wir mehr sehen. In dieser Vorlesung
lernen wir also im Grunde den
Mittelwert, den Median und den Modus. Okay, lass uns anfangen. Also als Erstes, was ist gemein? Mittelwert wird berechnet,
indem die Summe aller Werte
durch die Anzahl der Werte dividiert wird. Es ist also durchschnittlich. Sie wissen also, wie man den Durchschnitt
berechnet. Ich unterstütze Sie haben die Zahlen 12345 und
Sie möchten den Durchschnitt daraus ermitteln. Sie machen also eins plus zwei
plus drei plus vier plus fünf geteilt durch die
Anzahl der Werte. Also Anzahl der Pfeile, gelb, 5/5, also bekommst du den Durchschnitt. Durchschnittlich ist also gemein. Mittelwert ist auch Mittelwert
entspricht dem Durchschnitt. Der Mittelwert ist also die Summe der Werte
in einem Vektor, unsere Daten, einige Werte in den Daten
geteilt durch die Anzahl der Daten. Okay, lassen Sie mich Ihnen zeigen,
wie wir das in R machen können Und für die Berechnung des
Mittelwerts gibt es in R eine Funktion
namens Hauptfunktion. Okay? Lassen Sie mich dafür ein
Programm schreiben. Lassen Sie mich Ihnen zuerst sagen,
was der Syntaxteil bedeutet, und dann schreiben wir das. Für mich. Wir verwenden diese Funktion mean und was sind die Dinge
, die wir nehmen, wir nehmen x und das
wird der Datenvektor sein. Und dann wird
ein weiteres Argument benötigt , das gleich Null ist. Und dann dunkel. Was das also bewirken wird
und was der Stream ist, werden
wir sehen, wenn wir unsere Praktika
machen. Also ist es einfach und dann ist
Punkt RM gleich falsch. Und das war's. Okay? Das ist also die grundlegende
Hauptfunktion in Kunst, wobei x der
Datavector-Trimm
und dann ein Auto ist . Also, was ist X? X ist der Eingabevektor. Lassen Sie mich Ihnen hier sagen, x ist der Eingabevektor, der
die Datumsdaten enthalten wird. Und dann wird unser Traum, hier verwenden
wir die Trimmung dazu, einige
Werte von beiden Enden wegzulassen. Wenn Sie also dream
gleich Null geben
, werden keine Werte verloren gehen. Aber wenn Sie einen angeben, wird von jeder Seite ein
Wert verloren gehen. So ist es, wenn Sie Werte von beiden Enden
löschen möchten , von
beiden Enden dieses x-Vektors. Okay, wir werden sehen und
wir werden es besser verstehen. Und der dunkle Adam wird es tun,
was es tun wird. Es wird
ihnen nur fehlende Werte entfernen. Es geht also darum,
die fehlenden Werte zu entfernen. Also ist x der
Eingabevektor, Datenvektor. Trimmen Sie die Dürrewerte sowohl der Ends als auch der
NMDA-Armeen. Und entferne das. Fehlende Werte. Angenommen, Sie haben einen Datensatz und größere
Werte fehlen. Wenn Sie also diese Werte
entfernen möchten, können
Sie alle Werte verwenden, die
nicht wahr sind. Wenn unser
Bild also als falsch bezeichnet wurde, bedeutet das, dass
es die Ladungen,
die
keine haben, nicht entfernt . Die Indizes, die keine Werte haben
, werden nicht entfernt . Wenn Sie dies als wahr verwenden, werden alle
fehlenden Werte entfernt. Okay, ich hab's. Sie können es
je nach Anforderung mit wahr oder falsch angeben. Lassen Sie mich das kommentieren. Also, was wir jetzt tun werden, wir werden einen einfachen Vektor erstellen. Also, was ich hier mache, ich werde
ein Rechteck erstellen , das ein
Eingabevektor ist. Okay? Also werde ich
einen Eingabevektor erstellen. Also, was ich tun werde,
nehme ich an, diese Daten. Nehmen wir an, ein
riesiger Vektor ist der Eingabevektor oder einfach ein riesiger Vektor. Und ich werde, ich werde, ich werde hier
einige zufällige Werte angeben. Okay? Nehmen wir an, ich habe 789, 671-250-6304 bis 405-80-9907, minus zwei ,
-34, 32 -21,
all diese, alle Bewohner. Wir haben also unseren Eingabevektor , der die Werte enthält. Okay? Und jetzt nehmen wir an, ich
möchte einen Mittelwert finden. Also, was ich tun kann, ich kann einfach annehmen , dass ich hier
eine Variable erstelle. Gemeinsamer Unterstrich a,
das bedeutet Mittelwert von a. Okay? Und ich verwende einfach die Mittelwertfunktion und
übergebe diese als, ich übergebe das EBITDA hier. Also, was diese Mittelwertfunktion tun
wird, sie
nimmt diesen Vektor als
Eingabe und
berechnet den Mittelwert dieser Werte. Lassen Sie mich das also unterstreichen. Es wird uns also den
Mittelwert dieser Werte geben. Okay? Lass mich das ausführen. Hier. Wir erhalten
den Mittelwert als 33,7, 8571. Das ist also der Durchschnitt
dieser Werte, die Mittelwerte
dieser Werte sind. Okay? So können wir sie finden. Mittelwert des Eingabevektors aus dem
Mittelwert der Eingabedaten. Dieser Mittelwert
dieser Daten ist also 33,78. Okay? Als Nächstes werden
wir lernen, wie man Atome anwendet
und abzieht. Nehmen wir an, ich erstelle hier
einen weiteren Vektor. Lassen Sie mich dieses Terminal
oder diese Konsole auf die linke Seite stellen, das wird EG sein. Also gehe ich zu den Farben und
lege das auf die rechte Seite ,
damit wir
das hier sehen können. Okay. Also gemein ist hier, okay. Was ich jetzt tun werde, tut mir leid. Wir werden
die fehlenden Werte entfernen. Okay? Nehmen wir an, ich habe den gleichen Vektor mit einigen
fehlenden Werten, okay? Das sind also die fehlenden Werte. Nehmen wir an, einer ist hier. Okay? Für diese haben wir also keine
Beta, ist NA nicht anwendbar. Okay? Wie entfernt man
diese fehlenden Werte? Wir können also einfach, wenn ich „gemein“ verwende, a
unterstreichen, tut mir leid. Und ich verwende „Mittelwert“ oder
„was wir als Ergebnis bekommen“. Lass uns sehen. Also lass mich. Siehst du, wir sehen
keine Ergebnisse, weil es die NA-Werte
hat. Okay? nun, wenn ich den
Mittelwert eines Kommas setze und Was passiert nun, wenn ich den
Mittelwert eines Kommas setze und sie mit
true
verdunkle? Es wird uns geben, mal sehen. Entschuldigung, ich habe es benutzt
und das ist falsch. Lassen Sie mich das noch einmal ausführen. Siehst du, wir verstehen jetzt
den Wert. Okay? , wenn ich
alle Änderungen von hier aus entferne Was passiert, wenn ich
alle Änderungen von hier aus entferne
und sie erneut starte? Um zu sehen? Siehst du, wir bekommen keine. Okay? Wenn Sie also
den Mittelwert dieses Vektors ermitteln wollen , indem Sie den NA-Wert
fallen lassen, müssen Sie einen beliebigen Wert verwenden
, der den Herbst als wahr bezeichnet und das gibt Ihnen das Okay. Also, was
ich als Nächstes tun werde, ich werde die Trimmfunktion verwenden, also verwende ich hier die Trim-Option, okay? Also habe ich einen Vektor C erstellt
, der ReLu hat,
einfache Werte, 1234567. Okay? Und wenn ich das ausführe
und den
Mittelwert finde erhalte ich einen Mittelwert. Das sind vier. Okay? Also und wie wir vier bekommen, denn eins +2, 361-015-2120
8/7 ist gleich vier. Das ist der einfache
Durchschnitt. Okay? Also, was ich mache, ich werde einfach für sieben hier sein. Dann. Ich lege einen hier, ich lege vier hier und drei hier. Also einfach, ich gebe die
Werte einfach an
eine zufällige Stelle. Okay? Das ist also kein
sortiertes Array, oder? Also, wenn ich
nochmal den Mittelweg finde , nehme ich das Foto. Okay, wir haben den
gleichen Wert, oder? Was passiert, wenn ich Trim gleich
Null verliere? Lass uns sehen. Wir werden die vier richtig machen? Wenn ich nun 0,13 gleich 0,1 verwende, was es tun wird,
wird es diesen Addie sortieren. Es sortiert das
in aufsteigender Reihenfolge und dann wird das Feld einem Wert
von jeder Seite gelöscht. Also schauen wir mal, was bedeutet, dass
wir hier ankommen. Wir bekommen für Y weil es um 1,7 fällt
und der Rest des Werts für zwei plus 244 plus
36 plus 399 plus 514, und dann plus 62020/5
ist vier, oder? Wenn ich Coulter
davon träume, was es bewirken wird, werden die beiden
Alice von seiner Seite fallen. Und wieder bekommen wir dafür. Also lassen Sie mich das
Original nennen, das sortierte. Also werde ich hier einfach kommentieren
und 123.456,7 angeben. Was also ein Wert von
Null bis 0,2 bewirkt, wird 1,2 von dieser
Seite und 67 von dieser Seite entfernen. Was wird also führen? 345. Es wird also rückfällig, wobei das C gleich drei Komma vier Komma fünf ist. Also sieben plus drei plus 47 plus 51212 geteilt
durch drei Viertel. Da
bekommen wir also wieder vier. Was passiert, wenn ich zehn setze? Wir rufen 2.3 auf und führen das aus. Es sortiert und entfernt
drei Werte von jeder Seite. Und noch einmal, wir bekommen für y, wir rufen an, wenn wir 123
von dieser Seite und
fünf Sechstel n von dieser Seite entfernen , wieder bekommen wir, dass 41
der vier links sind, oder? Es werden nur noch vier übrig sein und der
Mittelwert von vier wird vier sein. Okay? So funktioniert es also. Lass mich, ich gebe hier noch ein paar
Werte ein, 910910 hier. Und lassen Sie uns das ausführen. Sehen Sie, jetzt erhalten wir
den Mittelwert als phi y, weil dadurch drei Werte,
1.234,78, 7910, aus dieser Suche
entfernt werden . Also, was
uns übrig bleibt, sind 45,6. Also 4561, was wird das bedeuten? Es wird 15 sein, oder? Einige davon für 5 s pro 15/3. Das heißt, Anzahl der
Werte drei, also Fußabdruck geteilt durch drei, erhalten
wir, wir erhalten fünf. So können wir also die Trimmfunktion
verwenden. Also zuerst, was es tun wird, es wird das in einem Resort sortieren, diesen Vektor, und es
wird so aussehen. Und dann werden drei
, die ich verliere, von der Ostseite,
von der, von den ersten drei
und von den letzten drei entfernt . Und der Rest
bringt dir den Mittelwert. Okay, so funktioniert
dieser Traum. Okay? Wenn Sie also
die Werte vom
Anfang und vom Ende entfernen möchten , wollen
sowohl das Ende als auch wir den Durchschnitt ermitteln, oder Sie können die Kürzung und
den Wert nur Texas 0,1 verwenden. Du willst keinen, heißt
einen Funksender von seiner Seite. 0,2 bedeutet zwei Buchstaben von mir, sagen wir 0,3 min, drei
Werte von jeder Seite. Okay? So funktioniert es also. Und wenn Sie
die fehlenden Werte entfernen möchten, können
Sie einen beliebigen
arabischen Punkt verwenden, der wahr entspricht. Es entfernt diese
NA-Werte aus dem Datensatz und gibt Ihnen
die verbleibenden Werte und ermittelt den Mittelwert
dieser verbleibenden
verbleibenden Werte. Okay? So funktioniert nn
dot Autumn and Trim. sehen uns in der nächsten Vorlesung wir etwas über
Median lernen werden in der wir etwas über
Median lernen werden, wie man Median in der Kunst
findet.
39. Median und Modus in R finden: Hallo und willkommen zurück. In dieser Vorlesung werden
wir sehen, wie wir den Median
der Daten
berechnen können , okay? Wie können wir also
den Medianwert finden? Als Erstes werden
wir also wissen, was der Median ist. Der Median ist also der mittelste
Wert in einer Datenreihe. Nehmen wir an, wir haben
diese Datenreihe. Wir wollen also den mittleren
Wert dieser Datenreihe finden. Also lasst uns anfangen. Okay, also medial, am relevantesten, der Wert, der in der Mitte
steht, ist nicht wie ich, das
ist nicht wie ich, der
Durchschnittswert der Datenreihe. Aber das ist der Mittelwert Wenn wir diese
Daten auf einigen X darstellen, welcher Wert wird
also
in der Mitte liegen? Das ist der Wert, wir
finden werden, der Median. Der Median ist also der mittlere
Wert in einem Datensatz, was in Ordnung ist. Und um den Median zu finden, verwenden
wir die Funktion Median in r. Also verwenden wir die
Funktion Median in der Kunst. Also nicht meine DNA, es ist Median. Also werden wir diese
Funktion verwenden, Median, okay? Ich verwende den DIN-Median, um den Median zu
finden. Der Datensatz. Das ist also der Datensatz, den ich
erstellt habe , und das ist
die Medianfunktion. Und was sind die
Werte, die es braucht. Es werden das E
und der Eingabevektor verwendet. Und dann wird es
jeden dunklen Herbstruf als
falsch oder wahr nehmen , was auch immer du willst,
du kannst geben. Okay? Wenn wir Werte entfernen möchten, können
Sie Adam dot eingeben. Wenn Sie
die N A-Werte entfernen möchten, können
Sie sie bei
Aram gleich Falsch setzen. Wir haben
in der vorherigen
Vorlesung gesehen, in der wir über den Mittelwert
gesprochen haben, wie NADH verwendet in der vorherigen
Vorlesung gesehen, in der wir über den Mittelwert
gesprochen haben wird. Also bei der gleichen Funktionalität
und auch für jedes Datenelement. Falsch
bedeutet, dass die fehlenden Werte nicht entfernt werden. Und wenn n nicht gleich wahr ist, werden die
fehlenden Werte entfernt. Okay? Also, wenn ich das mache,
was uns gefällt, dann kriege ich, ich hole den Median dieser Serie. Ich
unterstreiche deinen Median mit einem und weise
diesen Median diesem zu. Aber **** schwer so
gut, diese Variable, das Durchschnittsalter der Unterstriche. Lassen Sie mich das ausdrucken. Wenn wir das also ausführen, erhalten
wir den Median als einen
Mittelwert dieser Daten. Seizes Serie ist neun, oder? Angenommen, ich verwende, ich gebe mehr
zufällige
Werte wie 6745, 2245, 4722, 9979 ein. Und wenn ich jetzt versuchen würde, es zu
finden, bekommen wir 33. Okay? In ähnlicher Weise wird
es versuchen, den mittleren
Wert des Datensatzes zu finden. Ich mache es umsonst und
das wird 44 bekommen, okay? Es wird also versuchen,
den mittleren Wert des Datensatzes zu finden ,
der in Ordnung ist. So finden wir den Median einer
Datenreihe, unseres Datensatzes. Als Nächstes werden wir lernen, dass es
darum geht , den Modus
zu finden. Okay? Also werden wir jetzt
versuchen, den Modus zu finden. Was wir hier gelernt haben, haben
wir nicht gefunden. Also werden wir jetzt lernen,
wie wir mehr finden können. Also, was ist der Modus? Modus ist der Wert der höchsten Anzahl an
Alkalien in der Innenstadt. Nehmen wir an, wir haben das. Lass mich das kopieren. Und lassen Sie mich den Datensatz
für dieses
weitere Problem erstellen , okay? Und dies ist unser Datensatz, in dem
wir Unterstützung haben, 45 oft vorkommt, also 45 als Ihrer, ich entferne dieses Pseudo 45
und dann werde ich für diverse sprechen. Also t Here, 45 wiederholt sich
1234 mal, oder? Unterstützung. Dieser Findungsmodus
bedeutet also Mod Easter. Nummer der Suche nach
der maximalen Häufigkeit
von Vorkommen oder
nach Wert, richtig? Mode ist also der Wert mit der höchsten Anzahl von
Dokumenten in unserem Datensatz. Im Gegensatz zu Mittelwert und Median kann
der Modus sowohl Zahlen als auch Zeichen enthalten. Also werden wir zuerst sehen, wie man den Modus dieses
numerischen Datensatzes
findet. Und dann sagen wir, versuche auch nach dem
Zeichendatensatz zu suchen. Also wenn ich Mod verwende, weil es keine eingebaute
Funktion gibt, um mehr in R zu finden. Okay? Wir werden also unsere eigene
benutzerdefinierte Funktion erstellen, um maximale Häufigkeit des
Vorkommens von
Datenwerten in einem Datensatz
zu ermitteln. Okay, also dafür, was ich tun werde, werde ich
eine Funktion erstellen. Also, was ich hier kann, bekommst
du für die Summe, okay? Also erstelle ich den
Regionsfunktionsmodus, okay? Und was ich tun werde, ich gebe diesen Namen,
so wie sie es getan haben. Gehen wir weiter.
Okay. Und dafür verwende ich die
Funktion und übergebe sie dann. Okay, was ist
der Datensatz? Okay? Und unter dem, was ich verwenden werde, finde ein einzigartiges, einzigartiges Unterstrich-Alter. Das,
was ich finden möchte, ist ein einzigartiger Wert. Für dieses, was ich verwenden werde, verwende ich eine einzigartige
Funktion, die es in der Kunst gibt. Und was ich tun werde,
gebe ich hier weiter. Diese einzigartige
Funktion gibt mir also den eindeutigen Wert in
diesem Datensatz. Okay? Also lass mich das vielleicht einfach mit zur Schule bringen. Sie wissen, was ich tun werde. Ich verwende einfach mehr
als das, was man a nennt. Und was ich tun werde, nenne ich einfach den Modus
Fertig falsch und okay, also und ich gebe eine Flüssigkeit darauf. Okay? Lassen Sie mich das loben und ich
muss in den Modus,
Modus wechseln, und das heißt a. Okay, lassen Sie mich das noch einmal ausführen. Also sieh hier, was
ich jetzt kriege. Ich bekomme den gleichen
Datensatz, oder? Jetzt. Was ich tun muss, ich muss hier ein paar
Berechnungen durchführen. Ich muss hier etwas
Logik schreiben, um
den eindeutigen Wert des
Vorkommens eines bestimmten Werts zu finden . Wir werden es wie
diese 45-Zahl herausfinden, die häufigste Zahl
in dieser Reihe. Okay? Dafür verwende ich also den eindeutigen Unterstrich a.
Und was
ich hier anwende, ich liebe es,
Rich, Dark Max zu spielen. Und dann benutze ich
Tablet, Tablet, Tablet. Und dann, was ich benutze,
die Match-Funktion. Und was ich tun werde,
ich nehme Pasta, ein Koma, einzigartig und
macht einen guten Tag. Okay. Und wenn ich jetzt den Return kriege, wenn ich das starte,
kriege ich den Modus, okay? Ja, 45, ich bin damit
fertig, 45 zu digitalisieren. So können wir es also. Um eine benutzerdefinierte
Funktion für den Suchmodus zu erstellen. Also hier erstellen wir unsere eigene Funktion,
return underscore more, die diesen Vektor als
Eingabevektor verwendet oder die Eingabedaten wir den Daten hier geben. Das wird also, dieser Datensatz
wird in diese Funktion aufgenommen. Und hier, was ich mache, erstelle ich einen weiteren wertvollen,
eindeutigen Unterstrich j. Und hier verwende ich die eingebaute Funktion in R,
die einzigartig, einzigartig ist. Es wird also dem
Einzigartigen einen hohen Wert geben. Und dann, was ich
für dieses Ergebnis verwende, diesen eindeutigen Unterstrich a, ähm, du hast
ihn nicht dem Punkt Max gegeben , was das ist, was am häufigsten vorkommt
. Ich gleiche also dieses e, ursprünglichen Datensatz mit
diesem einzigartigen Datensatz ab und finde heraus, welche Zahl die meiste Zeit vorkommt,
und ich erhalte das Ergebnis. Also hier erstelle ich
einen weiteren Modus-Unterstrich j, und ich rufe einfach diese
Funktion auf und sie gibt uns die am häufigsten vorkommende Zahl aus
diesem Datensatz. Das ist 45. Wenn ich von guten 76
ausgehe, meistens. Und wenn ich versuchen würde,
das auszuführen, was passiert? Lass uns sehen. Jetzt haben wir 76
als die Zahl, die am meisten
zu kämpfen hat. Auf diese Weise können wir das nutzen, wir können dasselbe mit
dem Text rückgängig machen wie Ihre MBA-Unterstützung. Ich möchte einen
unterstrichenen Datensatz erstellen. Und hier, was ich tun werde, ich gebe ein paar Zeichenkettenwerte ein. Angenommen, ich gebe den
Namen des Landes wie Indien, USA, Südafrika,
Australien so ein. Und was ich tun werde, das werde
ich unterstützen. Sie haben dieses
Australien ein paar Mal geschlagen. Okay. Wiederhole das Australien zweimal, okay. Und wiederhole dieses Täuschungsmanöver zweimal. Okay. Also, das ist der, das ist der Datensatz, in den wir zweimal
und Australien zweimal geschrieben
haben. Okay? Und ich möchte den Modus ausschalten. Das nennt man spät. Was ich also tun kann, ich kann diesen
Return-Underscore-Modus einfach nennen. Und ich kann
diesen Datensatz hier einfach auf
diesen geschriebenen Modus für die Funktion umstellen, okay? Und wenn ich das ausdrucke, erhalte
ich
als Ergebnis Australien. Also lass mich das ausführen. Okay, ich habe vergessen, C hier einzufügen, dummer Fehler, den ich gemacht habe. Also lass mich das hier reinstellen. Okay. Also lasst uns aufhören,
die Sache ist okay. Es ging uns also besser
, weil wir C hier nicht platziert haben. Das ist der Punkt, an dem du dich
darauf einlässt. Und das habe ich so ignoriert, dass ich das nicht gesehen habe. Okay. Das tut mir so leid. Lass mich das
nochmal machen und wir sehen uns. Jetzt bekommen wir
Australien digital, sodass Feindseligkeiten
zweimal gemeldet werden und Großbritannien zweimal. Also bekommen wir Australien. Lass mich etwas versuchen. Wie gesagt, Australien
schickt wahrscheinlich auch alles zweimal. Beides wie zweimal. Lass mich sehen, was wir bekommen. Wir kriegen Großbritannien. Also, wenn du zuerst die ersten
Aktienzuschüsse bekommst, okay, also tu so, als käme
zuerst und dann Australien. Und nehmen wir an
, dass , auch
Indien produziert wird. Zweimal sehen wir, was wir bekommen. In C bekommen wir
Indien, wie K. Und nehmen wir die Ausgabe an,
tun Sie zuerst so, als ob, Curtis. Und ich habe es hier hingelegt. Und wenn ich das übernehme, schauen wir mal, wir
kriegen Großbritannien. Also, was sind wir jemals, das
erste Dokument, höchste Priorität eingeräumt
wird. Also, obwohl Meridian, Indien und Australien alle
zweimal vorkommen, gibt uns das Ergebnis, da Großbritannien, das wir nennen, so tut, als wäre es direkt vor dem Eishockey. Und wenn ich Australien nenne, lass mich wieder Australien angeben. Und wenn ich das jetzt mache, kommen
wir nach Australien und fühlen uns irgendwie
an sie gebunden. Auf diese Weise können wir den Modus unserer Daten besser anhand unserer Daten ermitteln. Der größte Marketingwert
aus unserem Datensatz. Wir essen uns. Zeichendatensatz oder
numerischer Datensatz. Okay, wir können also unsere
eigene Funktion erstellen, die ich nicht modifiziert habe, bei der wir die
einzigartige Funktion verlieren und dann angeben,
welcher Punkt maximal ist. Und wir werden das
auf dem Tablett abgleichen und die maximale Häufigkeit ermitteln, in
der ein bestimmter Wert vorkommt. Okay, auf diese Weise können
wir mehr gebrauchen. Wir haben also Treffen in
der vorherigen Vorlesung und Median
und Modus in dieser Vorlesung gesehen . Jetzt wissen wir also, wie man
die grundlegenden Dinge,
Mittelwert, Median und Modus,
in unserer Programmierung macht, obwohl Morty keine eingebaute Funktion
hat. Um mehr zu finden, haben wir
unsere eigene Benutzerfunktion erstellt , um den Modus eines Datensatzes zu
finden. Ich hoffe, du musst
verstehen, wie das geht. Wir sehen uns in der nächsten Vorlesung.
40. Was ist lineare Regression: Hallo und willkommen zurück. In den vorherigen Vorlesungen haben
wir also gesehen, wie wir
statistische Analysen in R
für maschinelles Lernen
oder Datenwissenschaft durchführen können statistische Analysen in R . Das sind also die Dinge, die
sehr nützlich sind, und wir
sollten
all diese Statistiken kennen , um mit maschinellem Lernen
und künstlicher Intelligenz
oder Deep Learning
weiter voranzukommen maschinellem Lernen
und künstlicher Intelligenz
oder Deep Learning
weiter , was auch immer Sie weiter lernen
möchten. In diesem Kurs
lernen wir Datenwissenschaft und maschinelles Lernen
durch unsere Programmierung. Wir haben also den Mittelwert, den
Median und den Modus von Rasen, wobei wir
diese Umkehrfunktion gesehen haben , um Mittelwert und Median zu
finden, wohingegen sie keine eingebaute
Funktion zur Bestimmung des Modus hat. Was wir also getan haben, wir haben eine
benutzerdefinierte Funktion erstellt , mit der wir benutzerdefinierte
Schriftarten erstellt haben und um sie zu finden, um sie genauer zu berechnen. Und dann haben wir
den Modus berechnet , den wir in
der vorherigen Vorlesung gemacht haben. Du kannst es dir also ansehen,
falls du es nicht gesehen hast. Also was weiter? Jetzt lernen wir ein sehr wichtiges Konzept , das als
lineare Regression bezeichnet wird. lineare Regression ist sehr wichtig und wird
häufig im
maschinellen Lernen und in der
künstlichen Intelligenz eingesetzt . Wenn Sie also weiter
vorgehen möchten, müssen
Sie wissen, was
lineare Regression ist und wie Sie diese zur Vorhersage verwenden können. Die lineare Regression ist also ein Modell
für maschinelles Lernen. Damit können wir
die Werte vorhersagen,
nehmen wir an, wir haben Daten,
nehmen wir an, wir haben hier Daten, Größe und Gewicht, wobei wir
das Gewicht der Proportionen haben . Und basierend auf dem
Gewicht der Proportionen berechnen
wir die Höhe
oder Breite und die Höhe. Wir wollen das
Gewicht der Proportionen berechnen. Also alles, was Sie
wollen, um
die Beziehung zwischen
diesen beiden Variablen,
Größe und Gewicht, herzustellen die Beziehung zwischen
diesen beiden Variablen, . Wir können das tun und vorhersagen,
nehmen wir an, dies sind die
Beispieldaten, die wir haben die wir
durch unsere Experimente gesammelt haben. Jetzt haben wir also die
Datengröße und das Gewicht. Und basierend auf diesen Daten gehen
wir davon aus, dass wir hier
diese Diskrepanzen
bis zu 19 Datensätze haben . Und basierend auf diesem Datensatz wollen
wir unser Modell, das Modell des
maschinellen Lernens, auf dem
linearen Regressionsmodell trainieren . Und nehmen wir an, ich möchte eine
neue Körpergröße einer Person angeben, ich gebe ein neues Hightech, das in dieser
Spalte nicht
präsent ist , und ich möchte das
zu erwartende
Gewicht dieser Person vorhersagen. Also was ich mache, ich trainiere mein Modell mit diesen Daten. Und wann immer ich die neue
Größe einer Person angebe, wird das System das Gewicht
der Person vorhersagen, das erwartete Gewicht
der Person auf der Grundlage der
Berechnung und es wird funktionieren. Auf diese Weise können wir unser Gewicht einer
Person anhand ihrer Größe
vorhersagen. Also werden wir mit
diesen Daten und allen Daten trainieren, allen neuen Daten, die wir der Höhe geben können. Und es wird das erwartete
Gewicht dieser Person vorhersagen. Okay, das
werden wir also durch
lineare Regression tun. Was ist also lineare Regression? lineare Regression ist eine taktische statistische
Methode, die in den Bereichen Finanzen,
Investitionen oder
anderen Disziplinen
verwendet wird Investitionen oder
anderen Disziplinen versucht,
die Stärke und
den Charakter der Beziehung zwischen
einer abhängigen Variablen, die
normalerweise mit Y bezeichnet wird,
und einer Reihe
anderer Variablen, die als
unabhängige Variable bekannt sind, zu bestimmen die Stärke und
den Charakter der Beziehung zwischen
einer abhängigen Variablen, normalerweise mit Y bezeichnet wird, und einer Reihe . Also, was haben Sie verstanden,
was dieses Modell ist, wenn es eine Methode ist, um
die Beziehung
zwischen zwei Variablen zu finden , eine ist unabhängig,
Hannah, die abhängig ist. Was hängt also davon ab,
was unabhängig ist? Angenommen,
ich möchte hier anhand der Körpergröße das Gewicht
der Portion ermitteln. Die Höhe, die wir als Eingabe angeben, wird als
unabhängige Variablen aufgerufen. Hier ist also die Größe unabhängige Variable
und das Gewicht die abhängige Variable,
da
wir auf der Grundlage der Größe das Gewicht vorhersagen. Basierend auf der Höhe, der Eingabe, die wir
haben, wie Höhe
, wird dies auf
dem Wert aufbauen , den wir vorhersagen
möchten. Basierend auf der Höhe, die
wir vorhersagen wollen. Höhe ist die
unabhängige Variable und das Gewicht ist
die abhängige Variable. Denn abhängig von der Größe, wir vorhersagen, wird das Gewicht, die
Größe jedoch eine
unabhängige Variable sein, und das Gewicht wird die
abhängige Variable sein. Okay? Sie müssen also wissen,
was eine abhängige
und eine unabhängige Variable ist , oder? Eine abhängige Variable
wird also mit Y bezeichnet. Und unabhängige Variablen sind die Reihe anderer Variablen. Es wird also ein Blatt geben. Angenommen, Sie haben ein
Unternehmen und
möchten den Umsatz
des Unternehmens vorhersagen. Der Umsatz des Unternehmens
kann also nur eine Variable sein. Damit wir auf
der Grundlage der verschiedenen anderen Dinge vorhersagen können der Grundlage der verschiedenen anderen Dinge z. B. wie
sich Ihr Unternehmen entwickelt, was ist angemessen,
was ist der Verlust? Hey, wie viele Kunden hast du, wie viele Kunden hast du verloren und wie, wie du
Salish unseren Implikationen gibst. All diese Gehaltskomponenten, Gewinn, Verlust, Marktlage, all dies sind die
unabhängigen Variablen , die Ihren Umsatz
definieren werden. Der Umsatz ist hier also eine
abhängige Variable und alle anderen Dinge
, die
sich auf Ihren Umsatz auswirken, werden als abhängige Variablen bezeichnet. Dort kann es also viele
abhängige Variablen geben und es wird nur eine
unabhängige Variable , die wir vorhersagen werden. Okay? Die Regressionsanalyse ist also ein statistisches Standardverfahren zur Schätzung der
Beziehung zwischen einer abhängigen Variablen, die
oft als Ergebnisse bezeichnet werden. Welches Ergebnis wir also
erzielen werden, wird als
abhängige Variable bezeichnet. Und eine oder mehrere
unabhängige Variablen. Eine oder mehrere
unabhängige Variablen
implizieren also Gehalt, Gewinn, Verlust,
Marktlage, all
diese Dinge, die oft als
Prädiktoren,
Kovariaten oder Merkmale bezeichnet werden. Diese werden also auch Funktionen
genannt basierend auf den Funktionen, für die
wir einen bestimmten Wert vorhersagen werden. Ich werde ein bestimmtes Ding platzen lassen, okay? Und diese werden auch Prädiktoren
genannt, weil
sie uns beim Umsatz oder
beim Gewicht einer Person helfen werden. Die häufigste Form der
Regressionsanalyse, die
Analyse, ist die lineare Regression. Okay? Also hier gibt es multiple
Regressionsanalysen wie multiple oder würden
sie
eine Analyse der einfachen
linearen Regression, der
linearen Regression,
all dieser Dinge schicken eine Analyse der einfachen
linearen Regression, der . Okay? Bei der linearen
Regression, die wir tun, stellen wir
fest, dass die Linie eine
komplexere
Linearkombination ist, die den Daten gemäß
dem spezifischen
mathematischen Kriterium am ehesten entspricht . Okay, was heißt Meer? Dies sind die Daten
Nick-Gewicht auf der X-Achse und Höhe auf der Y-Achse. Okay? Basierend auf der Größe werden
wir also das Gewicht
der Proportionen vorhersagen. Also hier, wenn Sie sehen, das
sind die Punkte. Diese Punkte sind 64, 64, R1, 77 KG, 177, Höhe. Das Gewicht beträgt etwa 64 Punkte
, oder? Also dieser Punkt, das sind die
Datenpunkte, die wir haben. Was wir also mit der
linearen Regression machen, wir versuchen hier eine Linie zu finden. Versuche hier eine Zeile zu finden,
die die Daten darstellt und sie aufbereitet. Ergebnisdaten wie Support, Sie finden hier jeden Punkt wie 65. Und wenn du hier eine Linie ziehst, wird
sie sich dort kreuzen, du bekommst einen Punkt und
baust auf diesem Gewicht auf. Sie werden feststellen, dass die
Höhe besser
ist als dieser Y-Wert für die Höhe, Sie erhalten den X-Wert, oder? Dieser Punkt gibt Ihnen also
die X- und Y-Kombination oder Höhen- und Breitendaten, oder? Also, wenn du hier eine Linie
ziehst, bekommst du die eine. Nehmen wir an, wir erhalten 65,8 oder wir geben
162 als höchste Zahl. Wenn wir also hierher kommen, erhalten
wir hier den x-Wert. Das heißt, das wird das
Gewicht der Person sein. Also werden wir versuchen,
eine Linie zu finden, die die Linie
korrekt darstellt, okay? Und Daten, oder? Daten nach den spezifischen
mathematischen Kriterien. Okay? Also lineare Regression, diese beiden Variablen oder
durch eine Gleichung. Bei der linearen Regression tragen
diese beiden Variablen, abhängige und
unabhängige Variablen, abhängige und
unabhängige Variablen,
die
Exponentenpotenz beider digitaler Ebenen gleich Eins. Weil wir
diese eine einfache Liniengleichung verwenden diese eine einfache Liniengleichung schreibe y ist gleich m x plus
c. Y ist gleich m x plus c, wobei m die Steigung und der
konstante Wert ist, okay? Also ist eine Konstante, oder? Also hier ist m x m Steigung. Auf dieser Grundlage können wir also jede Grenze
ziehen, oder? Das ist also die einfache
Liniengleichung, oder? Geradengleichung y
ist gleich mx plus c. Auf der Grundlage dieser X- und Y-Werte versuchen
wir
also, diese Linie zu finden , die diese Daten, Größen-
und Gewichtsdaten wirklich
repräsentiert . Und da sie heißen, ist
ihre Potenz eins, y quadriert m x plus c. Die
Potenz von x und y ist eins. Es wird einfache
Liniengleichung genannt. Und wenn ihre Leistung
nicht eins entspricht, wird
daraus ein Auto. Es wird keine gerade Linie sein. Es wird eine gekrümmte Linie sein, wie Sigmoidfunktion oder
so, oder? Auf der Grundlage dieser Gleichung
werde ich also versuchen herauszufinden, okay, also ist y die
Antwortvariable, oder? Weil der Y-Wert, den wir auf der Grundlage des x-Werts
vorhersagen werden. Und x ist der Prädiktorwert, Wert oder die unabhängige Variable. A und b werden Koeffizienten genannt. Wenn wir also eine
lineare Regression durchführen, werden
wir versuchen, das herauszufinden. A- und B-Werte, diese werden Koeffizienten genannt, sind Regressionskoeffizienten. Und basierend auf diesen beiden Werten, a und b, finden wir
den Y-Wert, okay? Und damit
bekommen wir diese Punkte, diese Punkte auf der Linie. Und wenn wir eine Linie ziehen, ergibt das Verbinden dieser Punkte eine gerade Linie oder
eine Verringerung auf der Linie. Und diese Zeile gibt
Ihnen die wahre Vorhersage
der Daten. Okay? Wo wird es verwendet? Nun, wir verwenden die
lineare Regression. Die Regressionsanalyse wird also
hauptsächlich für
zwei konzeptionell unterschiedliche
Zwecke verwendet : Kräfte. Analysen werden häufig für
Vorhersagen oder Prognosen verwendet. Angenommen, wir haben Größen
- und Gewichtsdaten. Wir wollen auf der Höhe bauen. Wir wollen die
Größe einer Person dort vorhersagen. Wir können unsere Prognosen verwenden. Nehmen wir an,
morgen regnet es oder nicht, wahre oder falsche Fälle. Okay? Diese Art von
Vorhersagen können wir also machen, wenn das Wetter
wie ein sonniger Tag
sein wird. Ich gehe an einem sonnigen
Tag aus. Es wird nicht regnen. Prognose, das können wir in
der Prognose- und
Vorhersagesituation tun , wir verwenden die lineare Regression
beim maschinellen Lernen. Und zweitens
kann eine
situationsstrenge Analyse verwendet werden, um
zufällige Beziehungen zwischen den unabhängigen und
abhängigen Variablen zu erhalten.
Sie unterstützen Sie, wenn Sie zwei Variablen
und abhängige und unabhängige Variablen haben , Sie herausfinden möchten, wie
sie miteinander in Beziehung stehen. Sie sind, wir können diese
lineare Regression verwenden, um
die Beziehung zwischen
der abhängigen und der
unabhängigen Variablen zu finden die Beziehung zwischen . Nun, wie man die lineare
Regression oder Regression
festlegt. Einfaches Beispiel, das wir in unserer Hand machen
werden, bei
Sonnenuntergang, das Gewicht einer Person
anhand der Körpergröße vorhersagen wird. Wenn wir also die
Größe einer Person kennen, können
wir mit
dieser linearen Regressionsanalyse das Gewicht vorhersagen . Dazu benötigen wir also Verhältnis zwischen Größe und Gewicht einer Person
und wie wir das machen, denn wir haben hier die Daten
Höhe und Breite, die wir
in unserem Beispiel verwenden werden. Was ich also zuerst mache, wir
die Daten sammeln müssen, für die wir
diese Beziehung herstellen wollen. Also werden wir diese
Daten haben und dann werden wir, was wir tun werden, sobald
wir die Daten haben werden. Die eigentliche Sache ist, sobald wir die
Daten haben, werden wir eine explorative Datenanalyse durchführen explorative Datenanalyse um die Daten von einigen
fehlenden Werten zu bereinigen, wie wir diese Daten entfernen können, was, wie können sie sich anfühlen. Also solche Dinge tun
wir im wirklichen Leben. Aber hier, was wir tun werden, wir werden hier
sehr charakteristische Daten sortiert haben. Wir wissen also, dass
wir all die Dinge, die wir im
letzten Teil
des Kurses sehen werden, nicht dass
wir all die Dinge, die wir im
letzten Teil
des Kurses sehen werden tun sollten. Aber im Moment haben wir hier
die sehr sauberen Daten. Was wir also tun werden, das
werden wir durchführen. Wir verwenden die LM-Funktion
und versuchen, die Beziehung
zwischen Größe und Gewicht
herzustellen. Höhe und Breite,
y und x, richtig? Größe und Gewicht
werden versuchen, Leistung zu erbringen. Der Leasinggeber wird versuchen,
mit der Funktion lm
ein lineares Regressionsmodell zu erstellen . Die Lm-Funktion ist die
Umkehrfunktion in R, die alle mathematischen
Berechnungen im Hintergrund durchführt. Und es wird uns die
Beziehung zwischen x und y geben. Schreiben Sie, y und x
sind nass erhöht. Dadurch entsteht die eigentliche
IF-Funktion. Und wenn wir eine Zusammenfassung
dieser wahren Essenz verwenden, ob wir die Koeffizienten
a und b finden können und wie
sie miteinander in Beziehung stehen. Auf dieser Grundlage können wir also
die reguläre Insulinlinie ziehen. Und wir können auch
das Gewicht einer Person vorhersagen. Sie haben die Funktion nicht vorhergesagt. Es gibt eine weitere
Funktion namens Predict, die wir diese Beziehung verwenden werden
, nämlich die LM-Funktion. Okay, es wird also
die lineare Regression verwenden, unsere Beziehung, die wir in diesem Schritt
hergestellt haben. Und es wird diese
X- und Y-Werte und
diese Beziehung verwenden und versuchen, die Regressionslinie für uns zu ziehen. Wir werden die
Regressionslinie hier zeichnen, aber hier mit der
Vorhersagefunktion. Und die
Vorhersagefunktion verwendet intern die Funktion oder Beziehung , die wir durch das
lineare Regressionsmodell erhalten. Und es wird dieses
Modell verwenden, um
die Größe anhand des Gewichts vorherzusagen . Also werden wir in der nächsten Vorlesung sehen, wie wir das
machen können. Ich hoffe, Sie müssen
verstehen, was
lineare Regression ist. Lineare Regression ist so
etwas wie Unterstützung. Wir haben die Punkte
hier und
wollen auf der Grundlage der neuen Daten vorhersagen. Wir wollen das
anhand der Körpergröße vorhersagen, ich möchte, nehmen wir an, basierend auf der Körpergröße 230, welches
Gewicht ich ermitteln möchte? Also hier, wenn wir nur die
Datenpunkte haben, können wir das nicht tun. Welches lineare
Regressionsmodell wird also funktionieren? Es wird eine
gerade Linie erstellt, die diese Datenpunkte
wirklich darstellt. Es wird also bis 30 gemacht wenn du
hier und hier eine Linie ziehst, den Schnittpunkt hier, dann bekommst du so
etwas wie
die Größe dieser Person. Es wird dir also
eine Regressionslinie geben. Auf dieser Grundlage können Sie
den Prädiktorwert von R vorhersagen und das Gewicht einer
Person anhand der Größe vorhersagen. Okay? Wir sehen uns also in
der nächsten Vorlesung.
41. Vorhersage mit linearem Regressionsmodell: Hallo und willkommen zurück. In der vorherigen Vorlesung haben
wir also gelernt, was
Regression ist und was
wir gelernt haben, was die lineare Regression ist und wie wir sie verwenden können
und wo sie ist. Du hast recht. Das ist also
das praktische System. Und hier werden wir versuchen,
unseren Code zu schreiben , um eine
einfache lineare Regression zu implementieren, wobei wir
einen von zwei Vektoren verwenden, x und y, wobei x das Gewicht
der Portionen
enthält. X enthält jeweils die Körpergröße
des Patienten oder die teilweise Körpergröße
einiger Personen, okay? Und dann wird y das Gewicht
enthalten. Also ist x die Höhe und y enthält das Gewicht, das diesem x
entspricht. Okay? Ausgehend von der Höhe, die nicht auf dem X
basiert, wollen
wir also das Y finden, oder? Das ist also unser Datensatz, oder? Auf der Grundlage von X,
also der Körpergröße einer Person, wollen
wir die Größe
eines Teiles, das Saudi anhand der Körpergröße
erstellt hat, vorhersagen . Wir wollen das Gewicht
der Person vorhersagen, oder? Basierend auf x
wollen wir also das Y vorhersagen, und hier
überlegen wir
, warum es anders gewichtet wird. Also ist x Größe und Gewicht. Und es ist ziemlich einfach, die Beziehung
zwischen x und y in R
herzustellen . Und
weil R die Funktion oh,
lm hat, ist die LM-Funktion eine lineare
Regressionsfunktion oder ein lineares Modell. Die Lm-Funktion erzeugt
diese Beziehung
zwischen x und y. Also hier die erste Variable, die ersten
Datenvektordaten, die wir hier
definieren werden , das sind die
abhängigen Variablen. Deshalb wollen wir auf der Grundlage des X
vorhersagen. Wenn wir
also so schreiben, heißt das, dass
wir auf der Grundlage von x y vorhersagen werden. Y ist
also kein Vorhersagewert und x ist der Prädiktor. X ist die unabhängige
Variable und y ist die abhängige Variable.
Y. Y ist abhängig, weil Y-Wert vom
angegebenen X abhängt, oder? Welchen x-Wert auch immer auf dieser
Grundlage ergeben wird, unser Modell sagt den Y-Wert voraus, das ist das Gewicht, oder? Also geben wir X an, das
ist die Höhe der Proportionen. Auf dieser Grundlage wird die abhängige
Variable Y
vorhergesagt, nämlich Gewicht und Größe. Wir werden das
Gewicht der Proportionen vorhersagen. Also diese lm-Funktion ist einfach, wir werden nicht im Hintergrund rechnen, weil
die LM-Funktion sie implementiert, den
Koeffizienten
findet und alles, was sie benötigt , um diese Beziehung herzustellen. Aber in R wird, da
wir In-vitro
in erstellten Bibliotheken
der LM-Funktion verwenden , automatisch
die Beziehung
zwischen x und y herstellen . Auf dieser Grundlage können
wir Vorhersagen treffen. Der erste Schritt besteht also
darin,
die lineare Beziehung
zwischen x und y herzustellen , okay? Also wird der Prädiktor hier sein oder die abhängige Variable
wird hier sein. Und das ist die
unabhängige Variable. Also anhand der Höhe
wird x vorhergesagt. Warum das so ist, warte
bis die Portion kommt. Also hier
gebe ich einfach einen Dateinamen, W, Höhe, Gewicht, einen
Punkt PNG, eine beliebige Datei. Lass mich, du kannst ihnen
hier geben, was ich mache. Ich zeichne nur y-, x-, y-Werte, x-Werte
auf der x-y-Ebene. Und ich gebe ihm eine Farbe Blau. Du kannst es grün geben. Und wir können hier die
Größe, das Gewicht und die Lektionen schreiben. Wenn du die Lektionen ausdrucken kannst, die Regression,
was auch immer
du willst, kannst du das hier eintragen, okay, und dann verwende ich die AB-Linie. Jede Zeile erzeugt
die Regressionslinie, und dennoch gebe ich die LM an. Okay? Und dann werden wir, wir werden sehen, wie wir uns
ändern können und was ist das? Es ist wie haha, wie du die
Datenpunkte in der Grafik platzieren willst. Und dann auf der X-Achse, Wartekäfig und Y-Achse,
Höhe in Zentimetern. Okay? So werden
wir es also planen. Und dann, was ich hier mache. Ich werde den
High-Touch-170 Zentimeter zur Verfügung stellen. Also hier gebe ich X an, das 170 Zentimeter
entspricht. Und basierend auf diesem x-Wert möchte
ich das vorhergesagte
Gewicht der Person Y vorhersagen. Also X gebe ich hier an. Also erstelle ich einen DataFrame und zeichne x gleich 170. Das wird sein, ich gebe
dieser Variablen
einen neuen Rand, eine neue Höhe. Okay? Und dann sage ich einfach ein
Museum voraus, die Vorhersagefunktion,
prognostiziere und ich verwende diese Beziehung, die
wir hergestellt haben. Und ich sorge dafür. Die unabhängige
Variable, die x ist. Also dieser x-Wert
ist hier. Neu nass. Ich gebe ein neues an
, das ist eine 70er-Zahl,
eine, die angibt, was ich hier zeichne
x und ich
möchte das Y vorhersagen. Wenn wir das
also ausführen, erhalten
wir den Y-Wert. also für eine Körpergröße von 170 Zentimetern das Gewicht
der Person, Was ist also für eine Körpergröße von 170 Zentimetern das Gewicht
der Person, die
auf der Grundlage der Beziehung, die wir im linearen Modell,
dem linearen
Regressionsmodell, festgelegt haben, vorhersagt die wir im linearen Modell,
dem linearen
Regressionsmodell, festgelegt haben . Lassen Sie mich das ausführen
und die Ausgabe z sehen. Die Ausgabe, die wir erhalten, ist 67,33. Für 170 Zentimeter entspricht die Körpergröße
einer Person also einer Körpergröße
von 70 Zentimetern. Unser System prognostiziert
, dass
es das Hoch von 67,33 erreichen sollte . CEO. Wenn du 170 siehst, wird
es ungefähr darum gehen. Okay, ich sehe 167. Ist es. Unser System sagt für eins, 70er, 67
voraus. Okay? Es wird also die mathematische
Berechnung in der vorherigen Lektion und wir sind fertig damit, zuzuhören, basierend auf diesem Modell, linearen
Regressionsmodell, das wir erstellt haben, es wird das Gewicht
der Person vorhersagen ,
die ungefähr 67,33 wird. Lassen Sie mich Ihnen die Grafik zeigen. Nun, das ist also die Grafik
, die wir hier gedruckt haben. Stellen Sie sicher, dass Sie
hier diese Punkte sehen, die
Datenpunkte sind grün , weil wir hier grün
angegeben haben. Wenn ich es lesen lasse, werden
die Datenpunkte in richtig, richtig
umgewandelt. Okay, lassen Sie mich
die Datei erneut öffnen. Die Datenpunkte sind rot markiert. Und noch eine Sache, die ich Ihnen sagen
wollte, dieser CX-Wert
bestimmt, ob ich dafür er 2,5 unterstützt, und wenn ich ihn ausführe, werden
die Datenpunkte größer sein. Okay? Also, wir sehen uns, jetzt kommen
die Datenpunkte in einer größeren Form. Okay? Auf diese Weise
ist dies der X-Wert, um die Seiten
der Datenpunkte zu vergrößern oder zu verringern. Okay? Und dieses Stück hier, Cystein und lassen Sie mich es auf
26 ändern und sehen, wie sich das auf die Abstimmung
auswirkt. Jetzt kommt es so. So möchten
Sie Ihre Daten also im Grunde platzieren. Also jetzt kommt es jetzt. Rechteckig, gerade. Wenn ich es in das Projekt einfüge, kommt
es in Diamantenform. Das ist also im Grunde, wie du deine Nadel platzieren
willst, wie du willst,
dass sie einfarbig wird. Wert des PCs
wird also im Grunde die Form
der Datenpunkte verändern, oder? Cystein im Portraitformat, es
wird mehr oder weniger kreisförmig in Kreisen erscheinen. Okay? Also jetzt und xlab ist das, was wir auf die X-Achse und
den Namen auf die X-Achse und
dann die Y-Achsenhöhe setzen . Das ist also Höhe und
dieses Kantengewicht. Und das ist
das Wichtigste, wenn wir es
benutzt haben , um
Größe und Gewicht und Reißverschluss zu verwalten. Das wird also
hierher kommen und sehen, ja, das ist die Regressionslinie
, die unser Modell gezogen hat. Das wird dir sie also geben. Wenn Sie einen Wert vorhersagen möchten, können
Sie hier einfach
67 eingeben und es wird Ihnen dieses
Wertesystem geben, das vorhersagt. Also sieh dir deinen Prozess T7 an, die Höhe ist, lass mich
etwas tiefer in die Sache gehen. Also nach 67 gesucht, die Höhe ist eins. Solches T7. Ich wollte es nicht
vorbereiten. Und lassen Sie uns sehen, was unser System
für 150 vorhersagt, okay? Das ist mein Port 165. Sie können also nach einem
solchen T7 suchen, auch nach diesem. Aber unser System sagt fünf
voraus. Es ist also ähnlich wie
67,25, 1321 wie T7. Und unser System sagt
einen voraus ,
der den Checkpoint und
C setzt . Das ist also, als würde man mit dem Code
herumspielen. Wenn ich das einschenke, schauen wir mal, was wir bekommen. C, wir bekommen 65,44. Was ist das in unserem Datensatz? Ich komme um die 67. prognostiziert unser System also. Es ist ziemlich genau, okay? Und das sagt die
Regressionslinie aus, die es gezogen hat. Also hier sagen wir voraus, okay? Das nächste, was wir tun können,
ist mein Idealzustand. Okay? Was ich dir noch sagen wollte, wir können jemanden vom
Unterricht nehmen und wir werden sehen, was für
jemanden es uns gibt. Wenn ich also allein
darauf Wert lege, CEO, sollten
wir
alle Residuen wie Minimum, Median eines
Quartils, Maximalwerte im
dritten Quartil und dann die
Kopienkoeffizienten m und c m und c m x plus c m- und c-Werte als Intercept hier
herauskommen. Und das kommt dieser T-Wert und der P-Wert kommt so. Das sind also die Dinge, ist die
Kooperation, die durch die LM-Funktion
berechnet wird . Und auf dieser Grundlage sagt
es das Wetter voraus. Und auf dieser Grundlage probiert
es die
bestimmte Zelllinie aus. Und mehrere
R-Quadrat-Werte des CEO kommen wie folgt. Das angepasste R-Quadrat
kommt so. Und F-Statistiken
kommen dazu. Okay? Und die p-Werte hier, wir werden es so sehen, würden den
Rahmen dieses Kurses sprengen. Wenn wir lernen, wenn Sie
Algorithmen für
maschinelles Lernen eingehend erlernen , werden
Sie wissen,
was diese Kopien sind werden
Sie wissen,
was diese Kopien sind
und wofür sie verwendet werden. Das würde den Rahmen
dieses Kurses sprengen, da wir gerade unseren Teil der Programmierung für
maschinelles Lernen lernen. Sie sollten wissen
, dass die LM-Funktion
nun intern
diese
Kostenkoeffizienten der 3D-Welten verwendet und den
Standardfehler, dass dieser Fehler auftritt, weil kein Modell
die Schaltfläche „Verbinden“ vorhersagt,
sodass es zu einem Fehler kommen
wird . Der verbleibende
Standardfehler liegt also bei diesem R-Quadrat-Wert von 17
Freiheitsgraden. Also was ich will die prognostizierten Werte
und den erwarteten Wert, die prognostizierten Werte und
was auch immer es sein würde. Das wird also der Fehler sein. Was auch immer wir suchen und welches System vorsieht, dass
es eine Bearbeitung geben wird. Und wenn wir einen ziemlich schlechten Tag
haben, werden wir die dort
beschriebenen bekommen. Okay? Dies sind also die
Werte, die
vom linearen
Regressionsmodell für maschinelles Lernen intern
und zur Vorhersage der
abhängigen Variablen verwendet vom linearen
Regressionsmodell für maschinelles Lernen intern werden. Okay, ich hoffe, Sie
haben ein
wenig über ein lineares
Regressionsmodell verstanden und wissen, wie Sie die LM-Funktion
verwenden können , um
Vorhersagen zu treffen und wie Sie diese lineare
Regressionslinie zeichnen
können. Okay, also Stephens Seite,
die nächste Vorlesung.
42. CSV lesen, ein LR-Modell erstellen und Vorhersagen: Hallo Leute, willkommen zurück. In der vorherigen Vorlesung haben
wir also gesehen, wie wir das
lineare Regressionsmodell verwenden können und wie wir
die Beziehung zwischen
der abhängigen Variablen
und der unabhängigen Variablen herstellen die Beziehung zwischen der abhängigen Variablen
und der unabhängigen Variablen können
und wie wir
die lineare Regressionslinie vorhersagen und sogar plotten können. Regressionslinie meinte ich. Okay, und wir haben gesehen, was
die Koeffizienten sind , wenn wir
die Zusammenfassung und das
lineare Modell für Pixel verwenden , und wir haben gesehen, wie wir die Daten vorhersagen
können. Aber im vorherigen
Beispiel, was wir getan haben, haben
wir den Vektor r genommen, wir haben diesen Datenvektor für Größe und Gewicht genommen. Und dann haben wir
das lineare
Regressionsmodell für x
und y erstellt . Und dann haben wir vorhergesagt, dass wir die
Daten
in der realen Welt nicht in diesem Format haben
werden, im Vektorformat. Stattdessen befinden sich die
Daten in
unseren Datenbanken meistens in
den Excel- oder CSV-Dateien. In den meisten Fällen handelt es
sich um
eine CSV-Datei mit Punkten oder um durch Kommas getrennte Dateien,
oder? Du weißt es. In diesem Beispiel werde ich Ihnen sagen, was ich
tun werde, als ob wir bereits in den
vorherigen Vorlesungen
gesehen haben, wie wir
die CSV-Datei lesen können . Und dieses Wissen werden
wir in
dieser Vorlesung verwenden, um ein lineares Modell zu erstellen. Und wir werden die Daten
aus der CSV-Datei lesen. Dafür habe ich mit den gleichen Daten für Höhe
und Gewicht, die wir in der
vorherigen Vorlesung verwendet haben, eine CSV-Datei
mit Gewicht und Größe erstellt. Diese Spalte ist also das Gewicht
und diese Spalte ist die Höhe. Okay? Das ist also die CSV-Datei Punkten für
Höhe und Breite. Und was ich tun werde, der erste Schritt ist, dass wir
die Daten aus der CSV-Datei lesen die CSV-Datei behandeln. Dafür verwende ich Metadaten
und
verwende die
Funktion read.csv, um die CSV-Datei zu lesen. Mit dieser read.csv liest
es also die CSV-Datei und überträgt die
Daten in diesen Vektor, dieses Objekt, Datenobjekt. Wir können also anhand
unserer Datei read.csv sehen , ob
die Daten richtig gelesen werden oder nicht. Dafür können wir also
die View-Funktion verwenden und
das darin enthaltene Objekt bereitstellen. Also, wenn diese Ansicht Lungen hat und
wir dieses Datenobjekt bekommen, wird
es hierher gehen und es
wird die CSV-Datei lesen. Und dann können
wir uns mit BYU die Daten ansehen. Lassen Sie mich diese
beiden Linien für Sie ausführen. Sehen Sie hier, wir
erhalten die Ansicht
der TO-Daten in unserem
Gewicht und unserer Größe. Also das Gleiche, tut mir leid. Sehen Sie jetzt dieselben Daten,
die wir im RStudio sehen können , mit
der View-Funktion Wavefunction sieht
die Daten auf diese Weise. Jetzt ist uns klar
, dass unsere Datendatei Daten sind, wir
aus der CSV-Datei gelesen haben. Im nächsten Schritt können wir nun das lineare
Regressionsmodell für die Vorhersage
erstellen. Also wollen wir das
Gewicht und die Größe vorhersagen. Wir wollen das
Gewicht der Person vorhersagen. Dafür erstellen wir also
das lineare Regressionsmodell. Also verwenden wir hier die
Funktion lm und w, Gewicht ist das
Gewicht, das
die abhängige
Variable ist und Höhe ist
die
unabhängige Variable. Basierend auf der Größe wollen
wir also das Gewicht vorhersagen. Hier werden Daten als Daten bezeichnet. Daten bedeuten, dass wir diese Daten
verwenden. Sie können ihm einen beliebigen
Namen geben. Du kannst. Jetzt können wir dies mit,
sorry, Größengewicht, leider,
eigentlich W-Daten,
Größengewichtsdaten ändern sorry, Größengewicht, leider,
eigentlich W-Daten, . Und so essen wir
ihre CSP-Datei. Wir stellen das hier hin. Und dann bedeuten Daten, dass CO2 die
Höhe erhöht, wenn Daten, okay? Auf diese Weise
handelt es sich bei der Datenquelle um Größengewichtsdaten , die wir
aus der CSV-Datei erhalten haben. Und hier erstellen wir das lineare Regressionsmodell
mit der LM-Funktion. Und wir geben hier die abhängige oder unabhängige
Variable an, warte, und die unabhängige Variable
ist die Höhe und Daten die unserer Datenquelle
entsprechen, sind
diese ZWEI Daten. Und lassen Sie mich das nur kommentieren,
damit es uns nicht stört. Und jetzt haben wir, jetzt dieses Modell. Ich habe einen Namen und ein Modell angegeben. Und wir werden die Zusammenfassung unseres
Modells verwenden, um die Details zu erhalten. Lassen Sie mich also diese
beiden Zeilen ausführen, lassen Sie mich bis hier laufen,
weil wir sie geändert haben. Also lass mich das ausführen. Also sehen Sie hier, jetzt bekommen
wir die Zusammenfassung unseres linearen Modells, lineares Regressionsmodell
wie den Cholesterinspiegel oder dieses, den Quartilmedian. Maximaler Koeffizient des dritten Quartils, enger Achsenabschnitt, all diese
Werte, die wir hier bekommen. Und dann bekommen wir
den Standardfehler. Der Standardfehler ist 1,21, 0,789, 17 Freiheitsgrade mehrfacher R-Quadratwert angepasster
R-Quadratwert, p-Wert. Und wir beschäftigen uns auch
mit Statistiken, okay? Also, jetzt ist unser Modell, das heißt, ein lineares
Regressionsmodell fertig. Jetzt sind wir bereit, auf der
Grundlage der neuen Daten Vorhersagen zu treffen. Also, was ich hier mache, ich gebe eine neue
Höhe an, die 152,21 ist. Okay, lassen Sie mich
das auf 16485 ändern. Okay? Und für diese Größe möchte
ich das Gewicht vorhersagen, was für diese 165,85
Zentimeter Höhe, ich möchte das
Gewicht der Person vorhersagen. Also dieser amüsante DataFrame, denn was auch immer wir aus der CSV-Datei
lesen, es wird als DataFrame kommen. Also erstelle ich hier
einen DataFrame mit einer Höhe von 174,85 und gebe ihm einen Namen, von dem ich wusste, dass das neueste Objekt von
gestern die Site Azure 164.85
enthalten wird . Jetzt
prognostizieren die letzten Tage das Gewicht
anhand eines Modells. Und dafür
verwenden wir die Vorhersagefunktion. Und innerhalb der Vorhersagefunktion geben
wir zwei Argumente an. Eines ist unser Modell, unser Modell, das wir hier geschaffen
haben. Also dieses LM-Modell, das
ich hier zur Verfügung
stelle, damit es auf der Grundlage dieser Beziehung
vorhersagt und was vorhersagt. Und wir stellen die
Daten zur Höhe zur Verfügung. Wir geben also eine
Höhe von 164,85 Jahren an. Also stellen wir
hier
das Datenobjekt als die neue Kante bereit. Also wird es
das als Eingabe verwenden. Es wird zu diesem Modell gehen. Und basierend auf dieser wahren
Essenz von Höhe und Breite wird die Höhe auf
174,85 gesetzt und das neue Gewicht, das
Gewicht dieser Person,
vorhergesagt . Okay, jetzt sagen wir einen gewissen Wert
voraus. Ich halte es bei der Gewichtsprognose, weil
wir die Gewichte sind. Also habe ich wet predicted
als diesen Objektnamen angegeben. Als Nächstes haben wir
das neue Gewicht in diesem wiederholten
Gewicht in diesem Objekt. Das müssen wir ausdrucken. Sie können also hier drucken. Da ich aber mehrere
Zeilen drucken wollte, verwende
ich die Cat-Funktion. Okay? Da die Funktion printf also nur 11
Zeilen gleichzeitig druckt, wollte
ich ein oder
zwei Sätze verketten. Für die Höhe. Dieses prognostizierte Gewicht ist das. Okay? Das kann also
nur mit der Cat-Funktion möglich sein. Wir können dies mit
der Druckfunktion nicht tun ,
da die Druckfunktion darauf beschränkt
ist, nur die Objekte,
Objektwerte, zu
drucken. Nur es kann drucken, es
kann die Aussage nicht drucken. Dafür benutze ich Cat. Wenn Sie so
etwas drucken möchten, können
Sie die Cat-Funktion verwenden. Jetzt verwende ich Cat und
verwende für Höhe
gleich, um
diese für den Wind zu modifizieren. Das vorhergesagte Gewicht von fünf ist, ich drucke jetzt aus, wo
es hier vorhergesagt wurde. Lassen Sie mich also den
gesamten Code hier ausführen, also klicke ich auf Quelle
und CEO für die Größe 164,85 werden vorhergesagt, das
Gewicht ist 661794. Damit können wir also vorhersagen, jetzt sagt unser Modell, dieses lineare Regressionsmodell das Gewicht als 66,79
voraus. Lassen Sie mich Ihnen dieses Modell zeigen und das frühere Modell
liefert dasselbe Ergebnis oder nicht. Was ich also tun werde, statt
eines PIP2 im
vorherigen Beispiel gebe
ich 164,85 ein und ich werde versuchen, auch dieses letzte
Jahr durchzuführen Wir erhalten das gleiche
Ergebnis, 66,7, 9465. Also in beide Richtungen, weil
die Daten hier gleich sind, haben
wir sie im
Here-Vektorformular belassen und hier
lesen wir sie aus der
CSV-Datei, aber die Daten sind dieselben. Deshalb erzielen wir mit
den beiden Modellen die gleichen Ergebnisse . Auf diese Weise können Sie aus
der CSV-Datei lesen und ein
lineares Regressionsmodell erstellen. Und auf dieser Grundlage können
Sie den Wert vorhersagen, was auch immer Sie wollen.
Das kannst du machen. Sie können dieses Problem mit
allen anderen Datenpunkten versuchen , die Sie haben können. Zum Beispiel anhand des Alters können
Sie das
Gewicht oder
anhand von
kategorischen Daten ermitteln ,
Ihre Daten können Sie nehmen
und in
die CSV-Datei einfügen und Sie können einen Wert vorhersagen,
aber den anderen, indem Sie das lineare Regressionsmodell erstellen. Ich hoffe also, dass
wir mit diesem Beispiel ziemlich zuversichtlich sind, was die lineare Regression angeht, wie wir ein
lineares Regressionsmodell erstellen können ,
um die Werte vorherzusagen. Und ich hoffe, du wirst mehr damit
üben. Und du kannst das viel
besser machen, oder? Wenn du also übst, wirst
du besser mit unserer Programmierung und den Dingen des
maschinellen Lernens umgehen. Ich hoffe, Sie haben das
lineare Regressionsmodell verstanden. Und das war's für diese Vorlesung. Schauen wir uns also an, was wir weiter lernen
können.
43. Multiple Regression: In der vorherigen Vorlesung haben
wir gesehen, wie wir die lineare Regression
verwenden können. Was wir als
lineare Regression mit
zwei Vektoren gesehen haben , sind zwei
Datenobjekte wie Gewicht und Höhe. Und wir haben die Marke
des Lizenznehmers geschaffen, dann haben wir Hockey. Und dann haben wir diese CSV-Datei landen lassen oder unser LM-Modell
erstellt, die lineare Beziehung zwischen Gewicht und Höhe und
dann Meta und Höhe. Wir haben das entsprechend
weniger Produktive vorhergesagt. Großartig das Teilstück. Okay? Nun, das war die lineare
oder die Kollision, oder? Nun, unsere einfache
lineare Regression, jetzt haben wir ein anderes
Problem, bei dem wir die Antwortvariable für unsere
abhängige Variable sind
oder der Wert, den
wir vorhersagen werden, an sie geht. Es kann, wie bei der linearen
Regression, das, was wir gesehen haben, die abhängige Variable und
unabhängige Variablen. Abhängige Variable,
abhängig von nur einer Variablen, einer unabhängigen variablen Rate. Aber in realen Situationen meistens die Leistung
oder der Wert, den wir vorhersagen
werden. Es wird nicht unbedingt nur von einer
abhängigen Variablen
abhängen. Aber es kann viele, viele unabhängige
Variablen geben, die definiert werden, um
die unabhängige Variable zu beeinflussen. Es ist also nicht so, dass wir immer
die lineare, einfache
lineare Regression bekommen werden. Wir können mehrere
unabhängige Variablen haben , die sich auf
die Ausgabe auswirken. Wie im
Fall der Unterstützung dieser Vorhersage, des Wetters. Vorhersage kann von
vielen Situationen abhängen , z. B.
ob es ein Regentag ist, welche Region es sich handelt, welche Art von Wolken es gibt? Und viele weitere Dinge, oder? Angenommen, Sie haben ein
Unternehmen und werden Ihren Umsatz
anhand einiger Faktoren vorhersagen. Es muss also viele Faktoren geben, wie ich bereits sagte, wie ich bereits sagte, Sie müssen die
Anzahl der Mitarbeiter haben, wie wir Ihre Mitarbeiter
loben werden, das wird sich auch auf Ihren Umsatz
auswirken. Wie ist Ihr Gewinn und Verlust? Wenn Sie Gewinne erzielen, wird
Ihr Umsatz höher sein. Wenn Sie verloren sind, Ihre Einnahmen sinken. Und wenn Sie das nicht tun, nehmen wir an, Sie haben einige unserer Steuern, mehr Steuern, dann
werden sich Ihre Einnahmen
darauf auswirken. Es gibt also viele
Faktoren, die
Ihren Umsatz bestimmen oder definieren werden . Also hier, dieses, dieses Problem kann nicht mit
der linearen Regression gelöst werden. Wir müssen die multiple
lineare Regression verwenden, da der Produktionswert oder der Umsatz von vielen Faktoren
abhängt. Hier sind also die Faktoren, dass die
Funktionen unabhängig sein werden. Funktionen sind die Faktoren, die den Umsatz ausmachen werden
. In diesem Fall haben
wir also etwa a, B X1, X2 plus so weiter
und so fort, bn XN. Das heißt, b1, b2, bn und E, all die Koeffizienten, die wir
später bei uns gesehen haben, y ist gleich mx plus c genau hier, nur eine Achse dort. Aber bei der multiplen Regression
werden bis Vn b1, b2, b3 vor uns liegen, oder? Dass es
eine Reihe von Faktoren geben kann, die das beeinflussen
werden.
Okay ? Das ist also die
einfache lineare Regression. Und diese Gleichung gilt für die multiple lineare Regression,
weil Sie B1, B2 sind. Es kann eine Reihe von Faktoren geben, die das Ergebnis beeinflussen werden
. multiple lineare Regression,
auch einfach als
multiple Regression bekannt,
ist also auch einfach als
multiple Regression bekannt, eine statistische Methode
, bei der Sie nur mehrere erklärende Variablen verwenden, um
das Ergebnis unserer
Antwortvariablen vorherzusagen . Okay, also was ich tun werde, lassen Sie mich Ihnen einen Datensatz zeigen. Was ich also verwenden werde, werde
ich in
realen Daten verwenden , die mit dem R
verfügbar sind
, also leere Autos. Also empirische Daten, dieser Datensatz ist
mit dem R-Paket selbst verfügbar. Wenn Sie also R herunterladen, wird
es mit
dem R-Paket geliefert. Okay? Also leere Autos, damit
du View benutzen kannst. Ansicht. Die Trigger von I'm geben
Ihnen die Ansicht des Datensatzes. Also seht, das ist der Datensatz
verschiedener Götter wie
Martha Jackson, Hornet. Das ist unübertroffen, ist okay. Es gibt also viele Autos und
es ist wie Meilen pro Gallone, Hubraum,
Pferdestärken, Gewicht. Okay. Es gibt also, es gibt viele
wichtige Jahre Auto. Okay. All diese Faktoren
werden also
die Meilen pro Gallone definieren , oder nur wenige Faktoren haben
möglicherweise keinen großen Einfluss. Und Feldvektoren
werden mehr beeinflussen. Wenn Sie beispielsweise
Meilen pro Gallone als die
Leistung betrachten , die Sie erzielen möchten, möchten Sie
die Meilen pro
Gallone anhand des Hubraums,
der
Pferdestärke und des Gewichts des Autos vorhersagen Gallone anhand des Hubraums,
der . Dann
wird vielleicht auch die
Anzahl der Zylinder keinen großen Einfluss auf
die Meilen pro
Gallone haben , oder in einigen Fällen kann
es viel Lexi haben, ja, Vierzylinder haben
noch -33, 30, 26. Und wenn Sie sehen,
dass acht Zylinder weniger minus zwei haben, diese Anzahl von Zylindern
im wirkt sich
diese Anzahl von Zylindern
im Motor
auf das Myelin aus. Das ist also ein Faktor. Dann. Hubraum kann sich auch auf den Durchschnitt
der Laufleistung des Autos
auswirken. Und dann das Auto nachlesen
wird sich auch auswirken. Sehen Sie hier, dass es verschiedene Merkmale
gibt, nämlich die unabhängigen Variablen, die Anzahl des
Zylinderhubraums, Gewicht und die Anzahl der Gänge. Das sind also die
Dinge, die das Myelin beeinflussen werden . Hier müssen wir also eine
multiple Regression verwenden , wenn
Sie
den Kilometerstand oder pro Auto anhand der Anzahl des
Hubraums und des Gewichts vorhersagen möchten den Kilometerstand oder pro Auto anhand . Wenn
Sie all diese Faktoren berücksichtigen wollen, müssen wir diese
multiple Regression verwenden. Und wenn Sie, wenn Sie diese Gleichung
der multiplen Regression sehen, diese b0, b1, b2, x2 und x1. Dieses X 1 kann also
das Gewicht des Autos sein, zusätzlich kann es der
Hubraum des Autos sein. Und X3 könnte
der andere Faktor sein, wie die Anzahl der
Zylinder im Auto. Also, bei all
diesen Koeffizienten werden die Werte b1 ,
b2, b3
je nachdem, wie, wie sich X1 oder das Gewicht des Autos auf
das gesamte Majlis auswirken, entscheiden X1 oder das Gewicht des Autos auf
das gesamte Majlis auswirken oder
den
Durchschnitt des Autos erhöhen. Auf der Grundlage dieser Werte wird also entschieden, wie es
sich auswirkt, ob a, b1 höher ist als diese Gewichtung des
X1, oder? Auf diese Weise können wir also
die multiple Regression verwenden. Was ich also in
der nächsten Vorlesung machen werde, ist, dass
wir diesen
Datensatz, der leere Autos enthält, praktisch bearbeiten. Und wir werden versuchen, eine
multiple lineare Regression
oder eine multiple Regression
zu verwenden multiple lineare Regression
oder eine multiple Regression , um Meilen pro
Gallone oder den Durchschnittswert eines Autos vorherzusagen , basierend auf den Merkmalen, die davon abhängen ,
also hier, Hubraum, Gewicht des Autos. All dies werden abhängige
oder unabhängige Variablen sein. Und Meilen pro Gallone
werden die abhängigen Variablen sein. Bedeutet, dass diese Werte Zylindergewicht
des Autos, die Anzahl des Zylindergewichts des Autos, den Hubraum des Autos und die
Anzahl der Jahre im Auto sind. Dies ist der Prädiktor und Meilen pro Gallone
ist der prognostizierte Wert. Oder dies sind die Merkmale oder die unabhängigen Merkmale,
unabhängige Variablen. Und das wird die
Antwortvariable oder die Ausgangsvariable oder der Vorhersagewert sein. Das werden wir also der nächsten Vorlesung
in einer praktischen Lektion tun. Wir sehen uns in der nächsten Vorlesung.
44. Vorhersage des PKW-Kilometerstandes mit Multiple Regression in R: Hallo und willkommen zurück. Also werden wir jetzt etwas
mit der multiplen Regression machen. Das ist also ein praktisches System mit
multipler Regression. Also werden wir einen
leeren Fahrzeugdatensatz verwenden. Und dafür werden wir
nicht
alle Spalten verwenden, sondern all die
Dinge, die es gibt. Aber wir verwenden MPG, Hubraum, SP
und warten auf Gott,
okay, Pferdestärken und
Gewicht des Autos. Okay. Auf der Grundlage dieser drei Werte werden
wir den
Kilometerstand des Autos oder
den Durchschnittswert des Autos,
Meilen pro Gallone, vorhersagen Kilometerstand des Autos oder
den Durchschnittswert des Autos, . Okay, wir werden diese drei Funktionen
verwenden, diese vier Funktionen
in unserem Datensatz. Und drei werden die sein, diese drei werden die
unabhängigen Variablen sein, und diese NPD wird
die abhängige Variable
oder der prognostizierte Wert sein . Und diese drei werden der
vorhergesagte Prädiktor sein. Okay? Als Erstes müssen wir also das Beziehungsmodell
erstellen,
das lineare Regressionsmodell, unser multiples Regressionsmodell. Also genauso, wir werden die lm-Funktion,
die wir hier
zwei haben, in eine einfache
lineare Regression
verwenden . Die Theme LM-Funktion werden
wir verwenden, aber mit einer etwas
anderen Formel. Also, was auch immer wir geben, hört diese sogenannte Formel. Und die zweite Eingabe ist, das
zweite Argument sind die Daten. Okay? Also hier, lassen Sie mich
diese Kostendaten eingeben. Das hat seinen Preis. Okay? Also das sind jetzt die, das sind unsere Daten. Das wird diese
vier Funktionen enthalten, okay? Und ihre entsprechenden Werte. Okay? Also Daten, wir nutzen Kostendatenhockey, das wir von den leeren Autos
bekommen. Okay? Wir werden das Modell
erstellen. Okay? Lassen Sie mich daraus ein lineares
Regressionsmodell, multiples lineares
Regressionsmodell und ein MLR-Modell machen. Ich gebe ihm den Namen. Also lass mich, okay. Also hier, unser
Layer, was machen wir? Wir hatten nur einen prognostizierten Wert
und einen Prädiktor, oder? Also haben wir immer so gegeben,
okay, verheiratet unter
Vertreibung, finde den Majlis. Aber jetzt haben wir drei unabhängige
Variablen, die
das Myelin im Auto beeinflussen werden. Also müssen wir angeben, das wird der vorhergesagte Wert oder die abhängige Variable sein. Und hier bei diesen drei können
wir Hubraum
plus p plus Gewicht angeben. Bei diesen drei Variablen wird es sich unabhängige Variablen handeln, die das Myelin beeinflussen werden um
unabhängige Variablen handeln, die das Myelin beeinflussen werden
. Auf diese Weise können wir
die LM-Funktion für multiple Regression und die
multiple Regression verwenden,
da wir mehrere Merkmale für die
Vorhersage eines Werts verwenden. Ein vorhergesagter Wert
wird auf der Grundlage der mehreren, einer oder mehreren unabhängigen
Variablen ermittelt, okay? Und Daten entsprechen Cos Theta. Also lass mich bis hier rennen. Wir drucken das Modell. Okay, mal sehen, was
die Koeffizienten sind und wir bekommen nur Natrium. Also sehen Sie hier, unser
Modell gibt den Schnittpunkt als 37 an und Verschiebung als Windurogenital 97 bei einem B-Koeffizienten
kommt wie folgt. Und unser Koeffizient
ist da. Also hier ist der Intercept. Dieser Schnittwert ist 37. Das wird sein, das ist a. Wenn Sie sich diese Formel ansehen, ist
y gleich a plus b1 x1 plus x2 plus beta drei x drei. Okay? Also hier haben wir drei, also werden es drei sein. X d. Hier ist 37. Dieser Schnittwert ist
das a, und dann ist B1
die Verschiebung. B2 ist der
HP, der HP-Koeffizient, und B3 ist das
Gewicht der Kopien, also -3,8. Okay? Jetzt haben wir also die
Koeffizientenwerte hier. Wir können einfach
den Koeffizientenwert drucken. Wenn ich x gebe , erhalte ich den
Verschiebungskoeffizienten. Der gleiche Wert, den ich hier
bekomme, oder? Was ich jetzt tun kann, ich kann diese
Koeffizientenwerte
in diese Gleichung eintragen, um
unseren vorhergesagten Wert
y zu erhalten . Y wird der MPG sein. In diesem Fall, unsere
Piloten in diesem Fall, haben
wir diesen Intercept und
wir haben den B1 als diesen, B2. Wir haben das und
das wird der V3 sein. Nun, wenn wir ein Auto
mit
324 Hubraum und 110
PS und einem Gewicht von 2,5 haben. Wir können den
Durchschnitt vorhersagen, indem diese Werte mit
dem Koeffizienten zusammensetzen und die Dinge
trennen diese Formel. Also was ich tun werde, y ist gleich einem Plus, also wird a dieser
Wert 37 sein, okay? Und x wird der Schnittpunkt
der Verschiebung sein, dieser. Und dann multipliziere ich das mit dem Verschiebungswert 324. Dann ist x ist p der
Koeffizient von HP, dieser. Und ich multipliziere
das mit 110. Das wird der heißeste
Teil des Autos sein. Und dann ist x t
der Gewichtskoeffizient, den
wir hier bekommen, -3,8. Und das multipliziere ich mit
dem Gewicht des Autos. Also sehen wir uns, indem
wir einfach diese Gleichung, diese Werte, können
wir die Leistung vorhersagen, unabhängig von dieser
Gleichung, die Leistung, es wird die prognostizierte
Kilometerleistung des Autos sein. Lassen Sie mich das einfach ausführen, lassen Sie
mich diese beiden Zeilen ausführen. Jetzt sind die vorausgesagten Meilen
der Karte 23,87 Meilen. Also basierend auf der Frage hier, basierend auf dieser Gleichung, denn hier
wird der E-Wert 37 -0,00, 0937 sein. Und all diese Werte. Und wenn wir das eingeben, erhalten
wir den Y-Wert. Y ist die MPG-Meilen das Auto hinauf. Also das Auto mit
324 Hubraum, Hundert
PS und 10,2, 0,5, unser System sagt
das Myelin als 23,8 7247 voraus. 23,8 wird also der
Durchschnitt dieses Autos sein. In ähnlicher Weise können Sie
einen anderen Wert für
den Hubraum
bei B und das Gewicht des Autos angeben einen anderen Wert für
den Hubraum . Basierend auf diesen drei
unabhängigen Variablen prognostizieren
wir also eine
abhängige Variable, die y ist. Sehen Sie hier, wir haben
die Koeffizienten und Schnittpunkt in dieser Gleichung,
um den Kilometerstand des Autos zu ermitteln. Das ist ziemlich einfach
und ziemlich real, oder? Wir bekommen den echten Output, wir bekommen den Output. Und das heißt, das ist durch ein multiples
Regressionsmodell, das wir durch diese Beziehung,
durch diese Formel
erstellt haben . Hier lautet die Formel, dass Sie nur
ändern, alle anderen Dinge sind
der linearen Regression ziemlich ähnlich. Aber hier, wenn wir noch mehr Funktionen hinzufügen möchten
, können
Sie diese
unabhängigere Variable hier einfügen. Und es wird eine abhängige Variable
oder die Ausgangsvariable geben. Okay? Auf dieser Grundlage erhalten
wir die
Ausgabe als 23,87. Auf diese Weise können wir also
die multiple lineare Regression
und die multiple Regression verwenden die multiple lineare Regression , um den Wert vorherzusagen. Sagen Sie also einen Wert auf
der Grundlage der vielen Merkmale voraus, die viele
unabhängige Variablen enthalten. Wir müssen die multiple
lineare Regression verwenden.
45. Logistische Regression: Hallo und willkommen zurück. In dieser Vorlesung lernen
wir logistische Regression
und sehen uns ein einfaches Beispiel logistische Regression an und
wie wir diese verwenden können. Okay,
lassen Sie uns zunächst verstehen, was logistische Regression
ist. Logistisches Regressionsmodell. logistische Modell, auch Logikmodell
genannt, wird verwendet, um die
Wahrscheinlichkeit einer bestimmten Klasse zu modellieren. Nehmen wir an, wenn Sie wollen, Sie, wenn Sie einige Daten von Watson haben wo ich wie Diabetiker bin,
beschriften Sie all diese Dinge. Und auf dieser Grundlage
möchten Sie vorhersagen, ob die Sonne fit ist oder nicht, oder? Also hier
ist die Person fit oder nicht fit. Also ja, die Daten sind
genau das Ergebnis, dem wir vorhersagen wollen, dass es sich um eine
Art von
dem wir vorhersagen wollen, dass es sich um eine
Art binärer Natur handelt. Es gibt zwei Dinge, die passen ,
nicht fit, fit oder
nicht fit, oder? Das logistische Modell wird also verwendet,
um die Wahrscheinlichkeit zu modellieren eine bestimmte Klasse oder das
Ereignis existiert, wie zum Beispiel Boss-Pille, wenn Sie etwas Unordnung schreiben, werden
Sie entweder
bestehen oder nicht bestehen. Wenn Sie
an Begleitprogrammen teilnehmen und diese gewinnen oder verlieren. Es gibt also binäre
Outputs richtig, past pale, win-lose, live, tot,
gesund oder krank. Dies kann erweitert werden, um
verschiedene Klassen von Ereignissen zu modellieren ,
z. B. um festzustellen ,
ob ein Bild
eine Katze oder einen Hund oder einen Löwen enthält, oder? Sie können also unsere E-Mails eingeben und ein System trainieren
, dass es die findet, egal ob die Bilder von Katzen
oder Hunden oder Linien, oder? Also Katze oder Hund, etwas wie ein
Löwe, oder? Jedem Objekt,
das im Bild erkannt wird, würde
eine Wahrscheinlichkeit von 0-1 zugewiesen werden , oder? Es kann also eine Katze
oder ein Hund sein, oder? Also Katze sein, eins ist Hund. Und wenn Sie
irgendein Bild präsentieren, wird
es entweder
den Wert Null oder Eins
oder eine Wahrscheinlichkeit
zwischen Null oder Eins zuweisen . Es könnte 0,05 oder
1,65 sein, oder? Wahrscheinlichkeit wird also
0-1 sein und die gesamte Summe
aller Wahrscheinlichkeiten wird gleich Eins
sein, weil das Auftreten von Ereignissen, Wahrscheinlichkeit des Auftretens
von Ereignissen immer eins
wäre , oder? Auf diese Weise verwenden wir also unsere logistische Regression und
logistische Regression, oder? Gleichung für die logistische
Regression lautet, y ist gleich 1/1 plus e potenz a plus b 1X1 plus b2 x2
plus B3 X3 und so weiter. Das ist also die
mathematische Gleichung der logistischen Regression. In Python verwenden wir die GLM-Funktion zur GLM-Funktion für die
logistische Regression. GLM-Funktion
dafür wird also auch als generalisiertes
Logistikmodell bezeichnet, oder? Glamour. Und es wird die Formel enthalten wie wir es bei der
linearen Regression getan haben. Also schreiben wir die When-Formel mit der abhängigen Variablen und der
unabhängigen Variablen, oder? Und dann müssen wir die Daten
angeben, für die wir
die GLM-Funktion ausführen möchten. Und dann müssen wir die
Schriftfamilie angeben. Wie eine Familie. Hier verwenden wir das
Binomial in unseren Beispielen. Also was ich tun werde, ich werde das
Thema Autodaten verwenden,
leere Fahrzeugdaten, die wir zuvor verwendet
haben, oder? Also Kostendaten, die wir auch im
vorherigen Beispiel verwendet haben. Und ich werde AIM verwenden. Ziel ist wie ein automatisches oder
manuelles Getriebesystem. Also PS, Pferdestärke, Gewicht und Anzahl der Zylinder
im Motor, richtig? Und dieses EM ist
automatisch oder manuell. Die Daten in den leeren Autos enthalten
also Null oder Eins. Lassen Sie mich es Ihnen zeigen, lassen Sie mich diese beiden
Zeilen ausführen und mir die Daten ansehen. Sehen Sie hier, für alle Fahrzeuge, PS, Gewicht und Zylinder
ist m entweder Null oder Eins. Es ist ein binärer
Wert, Null oder Eins. Entweder ist es automatisch
oder manuell, oder? Okay. Für alle Fahrzeuge haben
wir Daten für m, die Null oder Eins sind, dann ist es eins oder Null für die
gesamte Kombination aus HP-Gewicht und
Zylinder. Also, was ich hier in
diesem Problem, in dieser Vorlesung, tun werde, was wir mit der GLM-Funktion oder der logistischen
Regressionsfunktion machen werden. Basierend auf dem, was wir tun werden
, gibt es vier Dinge. Vier Säulen, AM, HP,
Gewicht und Zylinder. Also werden wir versuchen, das zu finden. Wir machen diese PS, Gewicht und den Zylinder als
unabhängige Variablen. Und m wird die
abhängige Variable sein. Bedeutet. Wir werden vorhersagen. Nein, mir geht es gut, alles klar, also was wir tun werden, wir
werden sehen, dass
wir Sie dabei unterstützen, ein Modell zu bauen. Wir sollten wissen,
welche Faktoren oder welche Merkmale sich auf
die prognostizierten Werte auswirken werden. Mehr Unterstützung. Wenn wir ein logistisches
Regressionsmodell mit
all diesen drei
Antwortvariablen oder
unabhängigen Variablen erstellen all diesen drei
Antwortvariablen oder , ist unser
Modell möglicherweise nicht korrekt ,
da sich bei diesen drei
PS Gewicht und Zylinder nicht
alle drei auf
die
gleiche Weise darauf auswirken , ob die Fahrzeuge manuell oder automatisch fahren, oder? Vielleicht entscheidet die Zylinderzahl des Zylinders, der Endocast
entscheidet,
mehr Einfluss auf das Carving
als Dienstmädchen haben , da ein Automatikgetriebe oder ein manuelles Fahrzeug oder ein
höheres
Gewicht oder mehr PS haben. Die Pferdestärke
entscheidet darüber , ob die Kosten
automatisch oder manuell erfolgen. Was wir also mit der
einfachen GLM-Funktion machen werden, wird versuchen herauszufinden, welche dieser drei
abhängigen Variablen, tut mir leid, wir erreichen diese drei
unabhängigen
Variablen , Auswirkungen auf EM haben. Was es also tun wird, es wird uns helfen, das zu
analysieren.
Welche Merkmale sollten wir für die weitere Analyse in Welche Merkmale sollten wir für die Betracht ziehen. Und lassen Sie die andere IP-Unterstützung übrig. Wir stellen fest, dass das
Gewicht
weniger Einfluss auf Am hat
als die anderen beiden. Wir können das Gewicht für
die weitere Analyse weglassen und uns für den HB
und den Zylinder entscheiden, oder? Wenn der Zylinder keinen Einfluss darauf hat, können
wir uns für den SPN entscheiden. Diese Analyse
hilft uns also, das irrelevante Merkmal, die
irrelevante Spalte
, bei der Entscheidung für den EM
zu finden . Okay, das
werden wir in dieser Vorlesung tun. Okay? Also, wie werden wir das machen? Wir verwenden die GLM-Funktion und schreiben die
Formel so
um, als würden wir das m als prognostizierten Wert
oder als abhängige Variable verwenden. Und diese drei
unabhängigen Variablen wir zu erstellen versuchen, werden versuchen,
die GLM-Funktion zu generieren. Und dann
werde ich mit der
Zusammenfassung von GLM versuchen zu sehen, welchen Koeffizienten und welchen
p-Wert wir erhalten. Der p-Wert entscheidet darüber
, ob sich unsere Variable
auf den
vorhergesagten Wert auswirkt oder nicht. P-Wert. Der P-Wert
bedeutet die Wahrscheinlichkeit des Auftretens dieses Dings, okay, die Wahrscheinlichkeit des Auftretens von Gewicht auf diesem
HP-Gewicht und Zylinder. Wenn der p-Wert also
größer als 0,5 ist, bedeutet das, dass, falls der HP-Wert als
Teil
unterstützt wird,
größer als 05 ist, das bedeutet, dass
P keinen Einfluss hat, keinen signifikanten
Einfluss auf das Ziel. Und wir können den HP verlassen und
mit dem p-Wert fortfahren. Fahren Sie mit den
unabhängigen Variablen fort , deren
p-Wert unter 0,05 liegt. Also lass mich, also
haben wir das erledigt. Lassen Sie mich also, der nächste Schritt, nächste Schritt ist,
dass wir die logistische Regression durchführen müssen. Also hier gebe ich einen
Variablennamen für die Daten des Autos. Okay? Unser Datensatz ist also cos Theta. Und hier erstelle ich ein
logistisches Regressionsmodell. Ich gebe Ihnen den Namen Kosten
, die ich bin und ich verwende GLM-Funktion hier in der
Formel, was mir gegeben wird, ich werde als unabhängige,
abhängige Variable, e
Omega, automatisch oder manuell gegeben . Es ist eine binäre
Sache, oder? Null oder eins. Und gebe ich
als abhängige Variable diesen
Wert an, den wir auf der Grundlage
dieser drei Zylinder,
SP und Radar
vorhersagen werden auf der Grundlage
dieser drei Zylinder,
SP und Radar
vorhersagen , der
unabhängigen Variablen oder Merkmale, die entscheiden werden
, ob ich Recht habe. Und Daten, die ich verwende,
Daten, die wir aus
dem Binomial der leeren Autos und
Familien erhalten . Okay, lassen Sie mich
das jetzt ausführen und die
Zusammenfassung der Daten ausdrucken, das datenlogistische Regressionsmodell
eines Autos. Jetzt haben wir
die GLM-Funktion verwendet und
die Zusammenfassung davon gedruckt. Sie können diesen Ausdruck belassen und einfach die Zusammenfassung
ausführen. Das wird dir auch
dasselbe geben, okay? Also sieh mal, es gibt uns all die Dinge
, von denen wir genug haben. Sogar die lineare
Regression bezieht sich auch auf den Koeffizienten
und auch hier nennen
wir die GLM-Funktion
mit der Formel so. Okay? Und wir verwenden die Datensatzklassendaten und das Familienbinom
und sehen uns Ihre Dividende an. Mittelwert, Median im ersten Quartil, Maximum im
dritten Quartil, all
diese Werte, die wir erhalten. Und dann erhalten wir
die Koeffizienten für jede unabhängige Variable. Also hier, sehen Sie hier
abfangen, wir erhalten diesen Wert und das
ist der PR-Wert, das ist der P-Wert, von dem
ich gesprochen habe. Wenn der p-Wert größer
als 050,05 ist, dann ist das, nun, diese wertvolle, diese Antwortvariable, die
wir weglassen können, oder? Das hat keine großen
Auswirkungen auf das Ziel. Für Zylinder. Siehst du dich? Der p-Wert ist 0,6 491. Es ist viel zu hoch
im Vergleich zu 0,05, oder? Also Zylinder, das
bedeutet, dass der p-Wert des Zylinders
größer als 0,05 ist. Das bedeutet, dass diese
Zylinderzahl keinen
wesentlichen Einfluss
auf die Entscheidung hat , ob die Kosten
automatisch oder manuell anfallen, oder? Also können wir den
Zylinder als nächstes verlassen, HP, HP, der p-Wert ist ein
Wahrscheinlichkeitswerteschema 0,084, was wiederum größer
als 0,05 ist, oder? Wir können den HP
auch belassen, da dieser
ebenfalls einen p-Wert von
mehr als 0,05 hat. Als nächstes wird die dritte
Antwortvariable gelesen. Und der
p-Wert ist 0,0 276, was weniger als 0,05 ist. Das bedeutet, dass das Gewicht
einen Einfluss auf das Gewicht
des Autos hat und entscheiden wird, ob
die Autos automatisch
oder manuell fahren, oder? Gewicht der Karte
hat also einen erheblichen Einfluss auf den m-Wert, da
ihr Wahrscheinlichkeitswert 2,0, 276
liegt, oder? Korrigiert. Zu welchen Schlussfolgerungen können wir also kommen? Wir können zu dem
Schluss kommen, dass
wir bei der weiteren Analyse weiter sind. Wenn Sie unser
logistisches
Regressionsmodell weiter ausbauen wollen , können
wir den Zylinder und die
PS belassen und mit
der Gewichtsantwortvariablen
alleine weitermachen der Gewichtsantwortvariablen , weil das,
das hat , das hat nur den
signifikanten Einfluss auf den m-Wert im Vergleich zu
Zylinder und HP. Nun, okay, wir haben herausgefunden, dass
aufgrund dieses p-Werts ein p-Wert von mehr als 0,05
entscheidet, p-Wert von mehr als 0,05 ob die
Antwortvariable
signifikante Auswirkungen auf die
abhängige Variable hat oder nicht. Okay, das ist also
die einfache Verwendung der GLM-Funktion, die
wir gelernt haben. Jetzt. Sie können also damit
üben und Sie können
einen beliebigen Datensatz nehmen und dies tun, um
herauszufinden, welche Antworten sich
wirklich gut
auf die prognostizierten Werte auswirken. Und Sie können diejenigen
weglassen , die aufgrund des p-Werts
keine großen Auswirkungen haben.
46. Normalverteilung: Hallo und willkommen zurück. In dieser Vorlesung werden wir etwas über Normalverteilung
lernen. Also was ist die Normalverteilung. Bevor wir also verstehen, was eine Normalverteilung ist,
lassen Sie mich Ihnen das sagen. Im wirklichen Leben
sind die
meisten Daten, die meisten Daten, normal verteilt. Und warum erzähle ich das? Denn wenn Sie sich die
Daten der Körpergröße in Fuß ansehen und annehmen, Sie haben Daten, Daten für Größe und Gewicht sowie Daten zu Größe
und Gewicht, werden wir dann hoch, hoch
normalverteilt sein? Warum sage ich hochgradig
normalverteilt? Weil es sehr selten ist, die Person zu bekommen, die sehr wenig groß ist
. Und es ist auch sehr selten, dass
die Person mit einer
sehr hohen Leerlaufhöhe, wie
ein Paket mit weniger als 3 Fuß, eine sehr geringe
Wahrscheinlichkeit hat, dass sie passiert. Eine Person mit der Größe
Clifford ist sehr selten, oder? Ebenso Boston
mit einer Höhe von 6,5 m bis 7 Fuß.
Warum Triade, oder? In diesem Sinne sind
also die meisten Daten
normalerweise
zwischen 4,5 und 6 Fuß verteilt , oder? Warum wird diese Art der Datenverteilung als
Normalverteilung bezeichnet, okay? Diese Art der
Betaverteilung wird als Normalverteilung
bezeichnet bei der die meisten Daten verteilt werden, um
den Mittelwert der Daten zu ermitteln. Nehmen wir also an, wenn wir dieses Diagramm,
dieses Diagramm als die
Größengewichtsverteilung von Parsons
betrachten , dann können Sie sehen, dass
dies diese Daten darstellt. Das, das, dieses Fest. Ich vertrete die
Sattelhöhe, den Salzgeschmack Thailands. Dies ist der längste
Typ C oder der Parsons mit der
sehr kurzen Höhe. Es ist sehr selten, richtig zu werden. Die Person bei uns mit einer
Sortierhöhe von weniger als drei
Bit hat also sehr recht. Lass mich weniger als drei machen. Weniger als drei.
Ähnlich, Parson-Breite, sehr lange Höhe, oder? Seine Größe. Das ist auch sehr selten, oder? Größer als 6,5, oder? Diese beiden Daten sortieren also weniger als 3 Fuß und eine Höhe von
6 Fuß ist sehr selten. Und deshalb
können Sie sehen, dass es
in der
normalverteilten Kurve sehr niedrig ist. Eine Normalverteilung
der Kurve ergibt als Glockenkurve,
wenn wir
sie verteilen , wenn wir die
normalverteilten Daten grafisch darstellen. Warum wird es
als Glockenkurve kommen? Denn siehe hier,
das ist der sehr seltene Fall. Es verteilt sich in Richtung hier und die
Höhe ist hier sehr hoch, 6,5 Fuß. Also diese beiden sind hier
vertreten. Und die meisten Daten, wenn Sie hierher gehen, sind die meisten
Daten verteilt. Die meisten Daten sind hier
verteilt, oder? In diesem Teil. Korrigiert. Das ist also der Mittelwert
der Daten, oder? Das ist also der Mittelwert. Dies ist die durchschnittliche
Höhe von Paketen. Wenn Sie also richtig sehen können, die
meisten Daten auf beiden Seiten
des Mittelwerts verteilt, oder? Wenn Sie die Daten zur Hälfte dividieren, erhalten
Sie den Mittelwert und den
größten Teil der zurückgegebenen Daten
geteilt in Richtung des Mittelwerts. Die Höhe des Pfarrers
nimmt also zu und wir
werden den Mittelwert beobachten. Und dann, nach dem
Durchschnittswert, steigt
er und erreicht eine sehr
hohe Höhe von 6,5. Die meisten Daten sind also normalerweise
in dieser Region verteilt. Und diese Region ist
die Region, oder? den meisten Menschen können
wir also leicht sagen, dass
sie unter die Höhe
von 526,5 Fuß fallen . danach
wird der Fund
einer Person mit der Größe 6,57 sehr sein, sie haben danach gefragt, dass es so
kommt. Auf diese Weise erhalten wir also eine Glockenkurve, eine Normalverteilungskurve ist
immer BellKor Und
das ist der Mittelwert. Und das nennt man
Standardabweichung. Also Standardabweichung
vom Mittelwert. Je mehr Sie also vom Mittelwert
abweichen, desto gehen
Sie entweder auf
diese oder auf diese Seite. Dies wird also als
Normalverteilung bezeichnet. normale Verteilungskurve kann so
sehr kohlenhydratreich sein, oder sie kann wie
diese lila sein, oder sie kann wie diese aussehen. Dies hängt auch von ihren Daten ab, aber dies wird der
Mittelwert der Daten sein. Okay? Das wird der Mittelwert dieser Daten sein und das wird
der Mittelwert dieser Daten sein, oder? Das nennt man
Normalverteilung. Die meisten Dinge in unserem Leben sind normal
verteilt, oder? In der nächsten Vorlesung werden
wir also sehen, was die Eigenschaft der
Normalverteilung
ist und wie wir normalverteilte Daten plotten
können.
47. Normalverteilung mit dnorm und pnorm-Funktion: Hallo und willkommen zurück. In der vorherigen Vorlesung haben
wir also verstanden, was Normalverteilung
ist
und wie sie funktioniert. In dieser Vorlesung werden wir uns mit der
Normalverteilung beschäftigen und wir werden sehen, welche
eingebauten Funktionen wir in unserer Programmierung
für die Normalverteilung
haben. Es gibt also grundsätzlich vier Arten von
Normalverteilungen. Funktionen sind in unserer Programmierung eben und
sie sind Denom. Diese Funktion d norm, die drei Argumente
oder drei Wertwerte als Eingabe verwendet
, also x Mittelwert und sd, das ist Standardabweichung. Also, was ist X hier? X ist die Vektorzahl. Was zum Beispiel?
Zahlenvektor der Zahl. Nehmen wir an, Sie haben einen Datensatz, wir haben eine Reihe von
Unterstützungen, die Sie benötigen um die Wahrscheinlichkeit und alles zu ermitteln. Also dafür ist der
Ausgangszahlvektor Arbeit erledigt Zahl Vektor aus Zahlen und Zahl Vektor aus Zahlen und
Mittelwert der Mittelwert
, den Sie wollen, Sie müssen entscheiden,
welcher Pin an welchem Mittelwert liegt. Sie möchten die
Normalverteilung grafisch darstellen. Und dann ist das der Mittelwert
des Datensatzes, okay? Und dann Standardabweichung, müssen
Sie
die Standardabweichung angeben. Der maximale Standardwert ist eins für die
Standardabweichung. Und wir können einen beliebigen
Wert für das Diagramm angeben, aber der Standardwert ist eins. Wenn Sie einer Sache die
Farbe nicht geben, wird sie
standardmäßig als
Standardabweichung als Eins angesehen. D-Norm ist also eine Funktion. Und dann müssen wir die
P-Norm enorm sein. Textet auch die oberen Zahlen, dann den Mittelwert und die
Standardabweichung. Dann haben wir die Q-Norm, die p annimmt. P ist ein
Vektor von Wahrscheinlichkeiten. Hier ist X ein Vektor von Zahlen. In der Qnorm ist die Eingabe p
ein Vektor von Wahrscheinlichkeiten, dann Mittelwert und
Standardabweichung wie sie sind, dann haben wir eine weitere
Funktion namens sind Nichtbanken und eine
unbekannte Funktion
nimmt als Eingabe und Mittelwert und auch die
Standardabweichung. Okay, also was ist n Here? N ist die Anzahl der Beobachtungen. Das bedeutet
, dass die Stichprobengröße die Gesamtzahl der Stichproben erhöht, in die wir gehen
und das nehmen, okay? Und Mittelwert ist der
Mittelwert der Stichprobendaten. Sein Standardwert ist Null. Okay? Hier, was wir machen und wir geben die Standardabweichung an, der
Standardstandardwert ist eins. Okay? Fangen wir also mit der verdammten
Normalverteilung an. Also, was ich zuerst mache, wir werden sehen, was die
Normalverteilung für X und d ist.
Was ist nun die Normfunktion? Also das Nullgeschenk, die Höhe der
Wahrscheinlichkeitsverteilung an jedem Punkt für einen bestimmten Mittelwert
und eine gegebene Standardabweichung. Es gibt
Ihnen also die Höhe
der Wahrscheinlichkeitsverteilung an jedem Punkt des Datensatzes. Und für den angegebenen Mittelwert, weil der Mittelwert die Eingabe ist , die wir zusammen mit
der Standardabweichung und
dem Vektor der Zahlen angeben . Okay? Nehmen wir an, wir
verstehen das Beispiel, wir nehmen ein X als eine Anzahl von Akteuren
, die korrupte Zahlen sind. Okay? Was auch immer wir hier tun, wir generieren eine
Zahlenfolge von minus fünf bis 20. Und dann, was uns gegeben wird, die
Standardabweichung
, wenn wir
minus fünf bis 20
erhöhen, indem wir 0,15 erhöhen. Okay? Also -0,15, -5,15,
-5,3, so. Okay. Es wird also inkrementiert. Die generierte
Zahl wird um 0,5
erhöht worden sein , okay? X
hat also kostenlose Mautspuren. Siehst du, so werden
die Zahlen generiert. Okay? Und dann, was
wir hier machen, nehmen
wir unsere Vektor-Y- und Region-D-Normfunktion
und zeichnen x als wichtig auf, das X, das wir von dieser
Sequenzfunktion
erhalten. Dann meine ich
nehme an, ich gebe 7,5 an und die
Standardabweichung gebe ich mit einem Punkt an. Und dann zeichne ich den
Graphen mit X und Y. Also ist x dieser Wert und y wird von dieser
Dnorm-Funktion abgeleitet. Okay? Lassen Sie mich also dieses x kommentieren und
diesen Code ausführen. Also klicken Sie hier, c hier. Jetzt erhalten wir dieses
Normalverteilungsdiagramm. Also hier ist der Mittelwert 7,5. Und 7,5 Daten werden
normalerweise mit einer
Standardabweichung von 0,1 verteilt. Standardabweichung des Punktes. Wenn ich Likes 0,5 gebe, sehen Sie, dann werden
unsere Daten zu diesem Zeitpunkt kommen
, sie werden so kommen. Wenn ich eine angebe, was die
Standardstandardabweichung ist, wird
unser Diagramm
ungefähr so aussehen. Wenn ich 1,5 gebe, unsere Grafik so aussehen. Wenn ich es als Werkzeug geben würde, würde
unsere Handlung so aussehen. Okay, Sie können also die
Standardabweichung
wie für den anderen Quadranten angeben und x und y plotten, wir werden, wir zeichnen
die X- und Y-Werte auf. Okay? Das ist also 13 Alltoxin, was die Höhe
der
Wahrscheinlichkeitsverteilung an jedem Punkt ergibt . Der nächste ist also P naught p norm. Was es bedeutet, ist
die Wahrscheinlichkeit normalverteilte
Zufallszahl kleiner als, kleiner als der Wert einer
bestimmten Zahl ist, okay? Und es wird auch als kumulative
Verteilungsfunktion bezeichnet. Also hier nehmen wir dasselbe Beispiel und hier erhöhen
wir um 0,4. Und dann generieren wir
y mit der p-Norm x. Wir übergeben x hier in die
P-Norm-Funktion. Und dann gebe ich
jemandem
wieder fünf und
Standardabweichung Lassen Sie uns zeigen. Und dann plotte ich x und y. Und wenn wir plotten,
erhalten wir diese Art von Daten. Wenn ich die Standardabweichung der
Unterstützung
auf einen Punkt setze, sehen wir das so, okay, wenn ich das durch
Wind erhöhe, Unterstützung 0,5. Okay? Auf diese Weise können wir also
die P-Norm-Funktion erhalten , die wir verwenden
können, und wir erhalten
diese Art von Diagramm. Was es uns also geben wird,
ist die Wahrscheinlichkeit, dass eine normalverteilte
Zufallszahl kleiner als
die angegebene Zahl ist. Okay? Und den Rest der beiden 2-Normen und unsere Nummer werden
wir in der nächsten Vorlesung sehen.
48. Normalverteilung mit qnorm und rnorm-Funktion: In der vorherigen Vorlesung haben
wir gesehen, wie wir die
Dnorm-Funktion
für die Normalverteilung implementieren können . Und wir haben p Now auch
für die Normalverteilung gesehen. In dieser Vorlesung werden
wir uns nun mit der Qnorm und unserem Don Funk-Sinn
für Normalverteilung befassen. Was ist also eine QNormfunktion? Diese Funktion nimmt den
Wahrscheinlichkeitswert und behält die Zahl bei, deren kumulierter Wert mit
dem Wahrscheinlichkeitswert übereinstimmt. Das ist
hier ziemlich einfach, wir verwenden hier
das andere wichtige. Was wir tun werden, wir verwenden
0,1 und generieren die Folge der Zahlen 0-1 und drei Zahlen
werden um 0,03 erhöht. Also generieren wir eine
Folge von Zahlen 0-1, und jede Zahl wird durch
OpenGL oder um drei erhöht. Und dann werden wir
die Funktion qnorm verwenden und dennoch diese
exogene Eingabe bereitstellen. Und was ich gebe,
ich gebe den Mittelwert S2 und die
Standardabweichung als zwei an. Du kannst alles geben, was
du kannst, wenn du willst, gib, Mittelwert als 1,5, du kannst eine Standardabweichung geben
, du kannst eins oder 1,5 geben und
sehen, wie dein Graph
für zwei und einen
Standardmittelwert S2 und eine
Standardabweichung zwei kommt für zwei und einen
Standardmittelwert , wir bekommen dieses Diagramm. Und wenn ich das für 1.5 laufen
lasse, bekommen wir so
etwas. Okay? So verwenden wir also die Funktion qnorm für die
Normalverteilung der Daten. Okay? Als Nächstes ist es normal, dass nicht anonym
die Zufallszahlen für die
Verteilung generiert
werden dass nicht anonym
die Zufallszahlen für die
Verteilung generiert
werden. Also, was braucht unsere Zahl und wie ich
in der vorherigen Vorlesung sagte, es Dexter n als Eingabe, wobei n die Anzahl der
Beobachtungen oder die
Stichprobenstellen
ist , oder? Welche andere
Zahl wir auch haben, die Stichprobengröße gibt diese
als Eingabe für die Funktion an. Also was es tun wird, es wird die
Stichprobengröße als Eingabe verwenden, wie hier, ich gebe Knorpel
und es werden zufällig generierte Zahlen
für die Stichprobengröße generiert. Nehmen wir an, wir erhalten hier
30, Stichprobengröße. Es wird also die
Zufallsgeneratorzahlen generieren. Und dann verwenden wir
das Histogramm, um
diese Normalverteilung
mit einer unbekannten Konsole zu zeichnen . Dieser Y-Vektor ergibt also zufällig generierte Zahlen aus dieser Stichprobengröße 30. Okay? Sobald wir das ausgeführt haben, erhalten
wir dieses Histogramm für diese generierten, zufällig
generierten Zahlen. Okay, so verwenden wir also die unbekannte Funktion für die
Normalverteilung. Lassen Sie mich einfach y ausdrucken, damit wir sehen
können, welche Zahlen wir
hier bekommen, c hier. Wenn Sie also auf Konsole klicken, sind dies die Zahlen, die mit der Zahl 30
generiert werden. Es wird also die
Zufallszahlen wie folgt generieren. Und das Histogramm, das wir zeichnen werden sind zufällig generierte
Zahlen in einem Histogramm. Das ist also das, das ist das Y zwischen minus eins und drei,
es wird verkauft. Und dann auf dem Träger ist
das die X-Achse, das ist die Y-Achse, das
ist die Frequenz. Also g rho zwei, wie minus eins bis weniger
als minus eins Zahlen , die
viermal minus eins bis Null vorkommen. Dies ist die Häufigkeit
von Zahlen und Null bis 1,122 wie folgt. Okay? Lassen Sie mich also einfach die Daten
für den Support ändern , sodass es 100 werden. Und wenn ich das durchführe, sehen Sie, bekommen wir
dieses Histogramm. Und wenn Sie die Konsole sehen, werden
Sie sehen, dass wir die Funktion pnorm
verwenden um das Diagramm
mit unserer unbekannten Funktion
für die Normalverteilung zu zeichnen . Okay? So verwenden wir also
die Normalverteilung. Und wir haben die
Nordvietnam-Qnorm und die
Normalverteilung der Daten mit
unbekannten Funktionen gesehen . Wie okay
49. Rekursion in R: Hallo und willkommen zurück. In dieser Vorlesung werden wir etwas über Rekursion
in unserem Programm lernen. Also, was ist Dickerson oder was
ist eine rekursive Funktion? rekursive Funktion
ist also eine Funktion, die sich selbst
mehrfach
aufruft, oder? Unterstützen Sie Sie also, wenn
Sie
dieselbe Operation
immer wieder ausführen möchten . Wir können den
Dickerson benutzen, um nicht
so zu tun , als hättest du eine etwas
unnatürliche Zahl
gelernt. Einige von Ihnen haben
all diese Dinge
wie diese Probleme nummeriert , wie zum Beispiel natürliche Zahlen zu finden , bei denen n von eins bis zu einer
beliebigen Zahl
variieren kann , oder? Bis zu einem bis 100.000, so
etwas. Um diese
Art von Problem zu lösen, müssen
wir also den Dickerson verwenden
und Ihr Cursor ist eine sehr wichtige Sache, wenn
wir programmieren, oder? In unserem Also können wir
die Dickerson-Funktion verwenden. rekursive Funktion
kann sich selbst immer
wieder aufrufen , um die Operationen auszuführen. Und schließlich wird es uns das Ergebnis
geben. Um zu verstehen, wie Rekursion in unserer
Programmierung funktioniert, sagen wir, wir machen ein einfaches Programm,
um die Summe der natürlichen Zahlen bis
n mithilfe der Rekursion zu ermitteln. Okay? Also werden wir versuchen zu finden, werden eine Zahl geben, eine beliebige Zahl. Und wir werden versuchen, die Summe der
natürlichen Zahlen von
eins zu dieser Zahl zu
finden . Nehmen wir an, hier gebe
ich 85. Also hier möchte ich die Summe der
natürlichen Zahlen bis 85 min
finden , eins plus zwei plus drei plus fünf plus sechs plus
sieben plus acht, bis zu plus 85, oder? Um diese
Art von Problem zu lösen, müssen
wir also die Rekursion verwenden. Also was ich hier mache, ich schreibe
hier einfach
eine einfache Funktion und gebe ihr einen Namen unter dem Unterstrich n. Das bedeutet einige der natürlichen
Zahlen, oder? Manche unterstreichen n. Und darin nehme
ich die Eingabe als
Argument, da n u n
die Anzahl der natürlichen
Zahlen sein wird , oder? Natürliche Zahl, bis zu der wir
die Summe berechnen wollen. Stimmt es? Hier. Ich mache den einfachen Check. Was ich hier mache. Ich überprüfe einfach, ob n
kleiner oder gleich eins ist, ich gebe das einfach zurück. Und warum überprüfe ich
diesen Zustand hier? Denn wenn n eins ist, müssen
wir eins zurückgeben,
weil eins ein Monat ist. Die natürlichen Zahlen
beginnen mit Eins. Und manchmal
betrachten manche Menschen natürliche Zahlen
mit Null als alle möglichen Arten. Im Fall von 0,1 müssen
wir diese
bestimmte Zahl
selbst zurückgeben, müssen
wir diese
bestimmte Zahl
selbst zurückgeben weil Sie Null produzieren, wir müssen Null zurückgeben
und wenn es eins ist, müssen
wir nur
eins bestimmen, oder? Die
rekursive Funktion muss nicht aufgerufen werden. Okay? Das ist also der Fall, sich um die 0,1
zu kümmern wenn Sie überhaupt
die natürlichen Zahlen
einschließlich Null berücksichtigen , und wenn sie bei Eins beginnen, wenn Sie dann Eins berücksichtigen, okay? Natürliche
Zahlen beginnen also im Grunde mit Eins, aber manchmal denken die Leute auch an Agile, die
bei Null beginnen. Okay? Und dann verwende ich das, ich gebe eine If-Bedingung und dann verwende ich eine
andere Else-Bedingung. Und was ich sonst mache,
gebe ich einfach Gan plus
etwas Yan zurück plus bedeutet,
nehmen wir an, eine Zahl ist zu,
nehmen wir an, ich gebe dir zwei. Nehmen wir also an, diese
Zahl ist zwei zu zwei plus Summe bis minus
eins, Summe von eins. Was es also tun wird, es wird ungefähr zwei plus die Summe
von zwei im Sommer zu minus
eins machen . Wir werden eins zusammenzählen. Es wird hierher kommen und
die Summe von eins wird eins zurückgeben. Diese Funktion gibt zwei plus
eins
zurück , bis plus eins drei ergibt. Wenn wir diese Funktion ausführen, erhalten
wir die Ausgabe hier
als Drei. Weil einige der
natürlichen Zahlen bis zwei drei sind, oder? Ich nehme an, ich gebe
hier drei. Was wird passieren? Es wird dauern, es wird zum anderen Teil
kommen , weil drei
diese Bedingung nicht erfüllt, oder? Größer als eins, oder? Es wird also in einen anderen Teil kommen und es wird einfach n plus
Anklageschrift drei plus zurückgeben. Und dann wird es
sie selbst wieder anrufen. Die Funktion
nennt sich selbst die Funktion sum n in Excel. Und es wird dazu führen, dass einige
von N drei minus zwei haben, manche haben zwei, manche haben
zwei, werden hierher kommen. Dann ist n gleich zwei,
es wird hierher kommen. Was es dann tun wird, zwei plus drei plus zwei plus Summe von zwei
minus eins, Summe von eins. Es wird hier rein gehen und
es wird eins zurückgeben. Also drei plus zwei plus eins. Wie viel? Sechs. Also dieser geschriebene Sex. Sehen Sie hier, die Produktion
beträgt sechs Jahre. Also haben wir verstanden, wie es funktionieren wird. Lassen Sie mich
das Kommando einfach in die Zeitform setzen. Bist du das erste Mal
, wann es kommt? Es wird sein wie, es wird wie Hallo sein, fertig. Drei plus drei plus
Summe Unterstrich N. Drei minus 13 minus
eins bedeutet zwei. Also wird es einige bis,
okay, dann nennt es sich von selbst. Dies wird Rekursion genannt. Dann wiederum, im nächsten Schritt, wird
es, der nächste Schritt
wird geschrieben, drei,
zusammenfassen, wie es kommen wird. Es wird hierher kommen, um zu funktionieren, nimmt die Eingabe S2 und dann kommt es in
den anderen Teil, aber plus. Also hier wird es so
kommen wie drei plus zwei minus 12, minus 12 minus eins ist die
Summe von eins, oder? Der nächste Schritt ist also drei
plus zwei plus
die Summe von einem Sommerspaß
Wasser, es wird gehen, es wird
die Funktion selbst aufrufen. Und es wird auf
die Summe von eins gehen. Die Summe von Eins gibt
n zurück, das heißt Eins. Das wird
uns also das Ergebnis eins geben. Es wird also drei
plus zwei plus eins kommen. Das wird also Ticarcillin genannt
, die Endleistung
beträgt nur sechs. Und hier auch drei
plus 25 plus 16. Das heißt also
Records Sun, oder? Unterstützung. Ich gebe dir
eine große Zahl, 785. Es wird also in
diese Funktion gehen und 75 minus eins aufrufen, dann 782-52-7875 minus 1784. Dann wird es
hierher kommen, 74 minus 17823. Also wird es weiter anrufen. Dies wird Rekursion genannt. Wenn wir das also ausführen, erhalten
wir die Ausgabe wie folgt. Okay, entspann dich etwas, okay? Auf diese Weise können wir die Rekursion
in unserer Programmierung
verwenden , um
die Summe der natürlichen Zahlen zu ermitteln.
50. Factorial einer Zahl mit Rekursion in R finden: In dieser Vorlesung
machen wir also noch einen Hansen. Und in dieser Vorlesung werden
wir versuchen, das Faktorielle
mit Hilfe der Rekursion zu finden. Also, weißt du, was die
Faktorielle einer Zahl ist? Du musst nett sein, oder? Du musst das
in deinem Mathematikunterricht gelernt haben und gestorben sein. Also Mathematik an der Highschool, du musst wissen,
was faktoriell ist. Lassen Sie mich Ihnen sagen
, was faktoriell ist. Faktoriell, unsere
Telefonnummer ist das Produkt aller Ganzzahlen von eins
bis zu dieser Zahl, die Zahl unterstützt Wenn ich Faktoriell von zwei sage, Faktor zwei das
Produkt von eins zu zwei. Produkt der Zahlen 1-2. Das Produkt der Faktorzahl von
zwei wird also eins zu zwei sein, oder? Wenn ich sage, Faktoriell von drei
ist eins zu zwei zu drei. Ähnlich, wenn ich Faktoriell von
sieben sage und wir
den Faktor so bezeichnen. Sieben Faktorielle ergibt also eins aus einem Produkt der Zahlen 1-7. Es wird also eins zu zwei
zu drei zu 45 und 6,7 sein, was
als Produkt der Zahl etwa 5.040 ergibt. Faktoriell für Zahlen
ist also, bei Eins zu beginnen
, bis diese Zahl
jede Zahl multipliziert und das Produkt
aller Zahlen
ergibt. Okay? Also 1287, wenn ich hier
meine faktorielle Acht eingebe, wird
es ein Produkt
der Zahlen 1-8 sein. Und das wird
etwas anderes sein, oder? Lassen Sie uns also herausfinden, was
das Faktorielle davon ist. Lassen Sie mich also dieses Programm ausführen
und lassen Sie mich das ausdrucken. Lass mich das ausführen. C-Faktorial von Acht ist 43 20, also das Faktorielle von Acht
ist 43 20. So
können wir also die Faktorielle einer
Zahl mithilfe der Rekursion finden. Lassen Sie mich also diese Funktion erklären, die wir geschrieben haben, um
die Faktorzahl einer Zahl zu finden. Also hier schreibe ich eine
Funktion rekursiv faktoriell. Und das wird die
Zahl als Eingabe verwenden. Und hier überprüfe ich, ob n
kleiner oder gleich eins ist, ich gebe einfach
die Zahl eins zurück, okay? Dann
ist der Faktor Null auch eins, okay? Wenn es also eins oder Null ist, wird die Ausgabe als Eins
zurückgegeben. Und wenn die Zahl größer
als eins ist , geht es
in den anderen Teil. Und hier, was ich
mache, verwende ich, ich verwende N into, N into, und dann rufe ich die Funktion wieder auf,
dieselbe Funktion. Das nennt man das
Konzentrat, das sein soll. Die Funktion ruft sich innerhalb der Funktion
selbst auf. Die Funktion ruft sich innerhalb der Funktion
selbst auf, und das wird Rekursion genannt. In dieser
Faktorfunktion des Datensatzes nennen
wir das also die
Faktorfunktion. Und
du wirst n minus eins brauchen. Es bedeutet, dass die Unterstützung
faktoriell davon abhängt. Also rein,
dann geht es zu den Schriften
und rekapituliert faktoriell. Und es wird die
Eingabe als acht minus 17 annehmen. Es nimmt also die
Eingabe als sieben an, und wir nennen diesen
Datensatz faktoriell. Dann
wird die Funktion wieder hierher kommen. Dann wird es wieder
hierher kommen und es wird acht vor sieben
sein, was einem Rekordfaktor von sechs entspricht. Und so wird es eine Wiederholung
sein, oder? Das nennt man recurse on, es ruft sich
innerhalb der Funktion Pill weiter auf. Die Zahl wird Null. In Ordnung? Es wird also 8-7 bis 6 Uhr
beginnen. Und dann wird es so kommen,
was eins minus 10 kommen wird. Und dann faktoriell
von n minus eins. Faktorzahl Null
wird also eins und wir bekommen das Produkt von acht zu sieben
zu sechs zu fünf zu vier zu
drei zu eins. Und so funktioniert das
Factorial. Lassen Sie mich das auf fünf ändern
und es werden ungefähr 120 sein. Siehst du, die
Faktorzahl von fünf ist 120, okay? So läuft also die faktorielle
Funktion in unserer Programmierung
mit der Rekursion ab. Die Konstante wird also unterstützt und ich schreibe diese
Funktion faktoriell. Und in dieser Funktion selbst rufe ich
die Funktion selbst auf. Innerhalb der rekursiven
Faktorfunktion nenne
ich diesen
Datensatz also faktoriell. Und das nennt man Rekursion
, wenn
sich die Funktion innerhalb von Carson aufruft . Wenn sich die Funktion selbst aufruft, ruft
sie das Auto Sohn auf. Okay? So
funktioniert Rekursion in unserer Programmierung. Wir haben zwei Beispiele gesehen. Eine besteht darin, das Faktorial
einer Funktion mithilfe der Rekursion zu ermitteln. Und im vorherigen Beispiel haben
wir gesehen, wie man die Summe der natürlichen
Zahlen mithilfe der Rekursion ermittelt.
Dabei bauen wir dieses Ökosystem
auf, Dabei bauen wir dieses Ökosystem um die Summe der
natürlichen Zahlen zu finden. Und hier haben wir
das Faktorial einer
Zahl mit Rekursion gefunden .
51. Beispieldaten aus einer Population: Hallo und willkommen zurück. In dieser Vorlesung
lernen wir, wie
eine Population aus einem
Datensatz in der R-Programmierung entnommen wird. Das ist also sehr wichtig,
denn wenn wir ein maschinelles Lernproblem oder datenwissenschaftliches Problem oder
ein Überschwemmungsproblem haben, haben
wir einen riesigen Datensatz
, oder? Und wir wollen
einen Einblick in die Daten gewinnen, oder wir wollen eine Stichprobe von Daten. Nehmen wir an, wir haben die meisten
Stadtbewohner und möchten
analysieren, wie viele Parsons an Diabetes
erkrankt sind. Also nehmen wir
eine Stichprobe von Daten, analysieren sie und auf dieser Grundlage können
wir ein Modell erstellen
und dieses Modell dann auf eine
größere Population
anwenden, oder? Entnahme einer kleinen Population oder
einer Stichprobenpopulation aus
einem großen Datensatz wird also einer Stichprobenpopulation aus als
Stichprobenahme einer Population bezeichnet. Allgemein ausgedrückt Sampling einer Beta
sehr wichtig. Und um das zu wissen, sollten
wir wissen, was ist, unsere Funktionen sind einfach, wie man Vektoren erzeugt. Und so wissen wir all diese Dinge. Also, was wir tun, wir werden uns ein einfaches Beispiel ansehen, wie wir Stichproben machen können. Okay? Also, um die Probenahme zu handhaben und die Probenahme zu
unterstützen, oder hat eine eingebaute
Funktion namens Sample. Also unsere Beispielfunktion, diese einfache SAM-PLE-Stichprobe, diese Stichprobenfunktion,
was sie tun wird, sie wird einfach die
Population abtasten, wenn wir eine
Stichprobe angeben und wir eine beliebige
Ganzzahl als Eingabe angeben. Was es also tun wird, es wird ein
bis 20 Zahlen abtasten, das
heißt, es wird
eine Population bilden, Stichprobenpopulation von eins bis 20. Wenn ich das also ausführe, siehe hier, lass mich das löschen
, damit wir die
Ausgabe korrekt sehen können. Also, wenn ich dieses Beispiel 20 ausführe, sehe ich, was es macht. Dadurch werden einige Zahlen von 1 bis 20
in
unserer Population entstehen . Und es ist nicht dagegen, es hat keinen
bestimmten Zufallsgenerator verdient, okay? Es ist also einfach nicht in
aufsteigender
oder absteigender Reihenfolge angeordnet. Nur die Zahlen 1-20,
es wird generiert. Also 123, alle Zahlen 1-20. Okay? Auf diese Weise können
wir ein Beispiel
für die Zahlen 1-20 erstellen. Das ist ein einfaches Beispiel. Als Nächstes werde
ich tun. Ich erstelle einen Vektor von
1—15 Zahlen. Nehmen wir an,
das ist unser Datensatz, der hier die
Zahlen
1-21 bis 15 enthält , ich bin z. B. also eins bis 20, das ist unser x-Vektor in dem wir
die Zahlen 1-20 behalten. Das ist also die Bevölkerung. Dieses x wird als Population
bezeichnet , da dies der gesamte Datensatz
ist
, den wir haben. Also ist X die Population. Und aus dieser Population von x möchte
ich äußerlich
fünf Elemente oder fünf auswählen. Ich möchte eine Beispieldatei haben. Ich will die fünf haben. Das sind die Markierungen. Sind das, das ist die
Anzahl der Preprint-Leute. Ich will die Zahlen
von nur fünf Personen. Ich möchte fünf Elemente probieren. Wie können wir das machen? Wir können die Beispielfunktion verwenden. Wir können hier die
Grundgesamtheit angeben, x und dann Komma fünf, wie viele Elemente Sie aus
dem Chargendatensatz von X entnehmen
möchten dem Chargendatensatz von X Stichprobe x Komma fünf gibt
uns
also die fünf Zufallszahlen aus diesen großen Populationsdaten und es wird
eine Stichprobe für uns erstellt. Lassen Sie mich das also eilig ausführen
und dann Exon fünf testen. Schau hier. Jetzt erhalten wir 481.410,12 aus dem
Bevölkerungsdatensatz, oder? Der Populismus-Datensatz
ist dieser, okay? Eins bis 15. Daraus ergibt sich
das
Zufallsprinzip für 81.410,12. Dies ist unser Beispieldatensatz. Wenn ich es noch einmal
starte, erhalten wir fünf
verschiedene Zahlen. Sehen Sie hier, jetzt
wird die Stichprobe geändert und es nach dem Zufallsprinzip fünf Zahlen aus
diesem X-Vektor oder dieser X-Population ausgewählt, und es wird
eine Stichprobe von Daten erstellt. So funktioniert unsere
Beispielfunktion. Als Nächstes können wir
replace gleich wahr geben. für diesen Wert also Ersetzen Sie für diesen Wert also gleich zwei. Es wird
die gleichen Zahlen generieren. Wenn ich es noch einmal starte, gibt
es uns die
verschiedenen fünf Zahlen, die hier ersetzt wurden, gibt uns
das nicht das, was es tut. wenn wir unsere Stichprobe verwenden und
Acts als Grundgesamtheit angeben, verwenden wir einfach
replace, was wahr ist. Was wird passieren? Lass uns sehen. Es wird das Element c ersetzen. Jetzt 51302, 74, 414-151-2312. Siehst du,
nicht alle Zahlen sind richtig bis 15. Einige Zahlen wurden
ersetzt, z. B. 131 mal, aber fünf ist auch ein Mal, 14 wird dreimal wiederholt, 12 wird zweimal wiederholt. Hallo, da. Auf ähnliche Weise
werden
einige der Zahlen durch andere Zahlen
ersetzt, werden
einige der Zahlen durch andere Zahlen
ersetzt z. B. einige , die
eine, Unterstützung, unterstützen. Darin ist niemand, aber unser ursprünglicher Datensatz
hat eins bis 15. Aber hier nicht alle Zahlen,
1-15 hier, oder? Die meisten Zahlen
werden ersetzt. Was also
mit true ersetzt wird, bewirkt, es weiterhin die
Zahlen aus dem Datensatz ersetzt. Von den
ein-zwei-drei Prozent wird
es also einige der Daten nehmen, es wird einige der Daten wiederholen und es wird
einige der Zahlen ersetzen. Also
wurden einige der Zahlen durch die Summe
der anderen Zahlen wie eins ersetzt . Angenommen, eins wird wiederholt, eins wurde
durch vier ersetzt, oder? In ähnlicher Weise hat
14 eine
andere Zahl wie
sechs oder so ersetzt . Weil Sex hier fehlt. Es fehlt hier. Also die fehlenden 6,8, die durch
die anderen Zahlen im
Bevölkerungsdatensatz ersetzt wurden . Das ist 14412, oder? Was es also tun wird, es wird die Zahl
intern ersetzen und das Geschlecht in unsere
Stichprobenpopulation für uns einbeziehen. Also wird es die Daten einfach weiter durch andere
ersetzen. Okay? Dann nehmen wir an, wir haben ein Ereignis, bei dem Kopf und
Schwanz eine Münze werfen. Wir haben also zwei Veranstaltungen, oder? Entweder wir kriegen Kopf, geht es uns gut? Nehmen wir an, wir haben
diesen Beispieldatensatz und ein reziprokes Ereignis von
H- und T-Kopf und -Schwänzen. Und wir wollen, dass es probiert wird. Es gibt die
Größe des zu druckenden Musters an und ersetzt
es mit zwei. Was es tun wird, es
wird das einfach ausführen,
sehen, was es tun wird. Es wird einfach
ein Muster mit T und
Kante, Kopf und Schwanz erstellt . Und es wird Kopf
und Erzählung mehrmals wiederholen. Weil wir
die Stichprobengrößen lila angegeben haben. Und so entsteht der
Edge DHHS, eine Entität. Das ist ziemlich zufällig. Sie sequenzieren, dass Sie,
wenn Sie es erneut ausführen, möglicherweise die andere
Sequenz von H und T erhalten, und das ist Upside-Scripting. Auf diese Weise können wir ein Beispiel für
Head and Tail-Events
erstellen . Und wir können
die Zahlen hier angeben. Wenn ich fünf gebe, ist es erledigt. Es wird uns das TTT geben. Sehen Sie hier, in diesen
zeitlichen Trends
haben wir nur fünf Schwänze angegeben. Schwänze, Schwänze kommen.
Nein, es gibt keinen Kopf. Wenn ich es schaffe, nehme ich sechs an. Jetzt gehen wir zu Kopf, Schwanz, Schwanz, Schwanz und Kopf. Es ist also ziemlich zufällig. Auf diese Weise können wir
die Stichprobenfunktion
in der R-Programmierung verwenden , um
die Stichprobe aus einer
großen Population zu erhalten , wie wir es hier getan haben. Wir haben diese Population x genommen, die die
Zahlen eins bis neun enthält, und wir haben nur eine Stichprobe von
fünf Elementen aus diesem Datensatz entnommen . Und wir haben unser
Beispiel mit fünf Elementen erstellt. So können wir die Stichprobenfunktion
verwenden, um die Stichprobe aus einem
Populationsdatensatz zu erhalten, okay?
52. Programm zum Überprüfen von Primzahlen: Hallo und willkommen zurück. In dieser Vorlesung lernen
wir also, wie man überprüft, ob eine
Zahl eine Primzahl ist oder nicht. Das sind also die Probleme
, mit denen wir in unseren kompetitiven
Codierungsinterviews
konfrontiert werden könnten , denen der Interviewer Sie möglicherweise
bittet, ein Programm
zu schreiben , um die Summe von
n Zahlen zu finden oder ob
eine Zahl eine Primzahl ist
oder nicht, oder einige gerade Zahlen
oder gerade Zahlen zu finden. Wie überprüft man gerade Zahlen, wie nimmt man eine Primzahl? Das sind also die Probleme, nicht selten
die umfassenden Prüfungen zu stellen und zu Programmiertests zu
kommen. Es ist also besser zu wissen, wie man dies auch in unserer
Programmierung
implementiert. Wenn Sie ein angehender
Datenwissenschaftler und Ingenieur für maschinelles Lernen
und KI sind. Es ist also gut,
die Grundlagen zu kennen, oder? In der Vorlesungsreihe nutzen
wir also diese Dinge aus,
wie wir
in unserer Programmierung ein Programm schreiben können, um eine Primzahl zu finden, insbesondere in dieser Vorlesung. Okay? Dieses Programm soll also überprüfen, ob die Zahl eine Primzahl
ist oder nicht. Und die Zahl, die wir
als Klinkeneingänge verwenden werden. Also bitten wir den Benutzer
, die Eingabe einzugeben, und sobald der Benutzer die eingegebene Nummer eingegeben hat, nehmen
wir diese eingegebene
Nummer und prüfen, ob diese
Zahl eine Primzahl ist oder nicht. Und dafür
verwenden wir die For-Schleife. Wenn Sie also wissen, wie
man if und else
und für Loop benutzt , werden Sie dieses Programm
ziemlich gut machen können. Okay? Und lassen Sie mich Ihnen sagen,
was ist eine Primzahl? Primzahl ist also eine positive
Ganzzahl größer als eins, die
außer einem und der
Zahl selbst keine anderen Faktoren hat . Also, was heißt das? Angenommen, wir haben eine
Zahl für Nummer vier, wir können in
Form von zwei in zwei schreiben. Es hat also zwei Faktoren. Zwei zu, zwei zu
zwei ist vier, oder? Das ist also keine Primzahl. Nehmen wir an, wir haben eine Nummer. Nehmen wir an, wir haben Nummer sechs. Nummer sechs, wir können
in Form zwei in T3 schreiben. Es hat also zwei Faktoren, 2.3. Ebenso haben wir eine Nummer. Nehmen wir an, wir haben Nummer fünf. Nummer fünf, wir können keinen Faktor
einschreiben, oder? Wir können nicht versuchen, aus einer Zahl zwei etwas wie zwei
zu machen, wir können es kaum erwarten. Wir können zwei in 2,5 machen, aber das ist nicht richtig. Wir sollten die
ganzzahligen Faktoren gerade haben. Auf diese Weise ist es nicht
möglich, oder? Also die Zahlen wie fünf, die eins, den Faktor
eins und sich selbst hat. Wir können also fünf in
der Form von eins zu fünf schreiben. Ebenso mögen wir, wenn wir
77 haben , wir können auch in
der Form schreiben , dass wir sieben Wanli wollen. Wir können es mit Hilfe
einiger anderer Zahlen in ein
bisschen schreiben , wie wir sechs bis drei geschrieben
haben, wir können, wir können keine Zahl finden
, die sich teilen lässt. 77 kann durch
eins geteilt werden, nur 1,7 selbst. Deshalb sind die
Primzahlen Zahlen, positive Ganzzahlen
größer als eins, die durch eins geteilt werden können. Die Zahl selbst, die außer
einem und der Zahl selbst
keine anderen Faktoren hat . Also die Primzahlen oder zwei, dann drei, dann fünf, dann sieben, dann LeBron und dann 13, dann 17 und so weiter. Das sind also die
Primzahlen, C7. Wir können es nicht durch eine
andere Zahl teilen außer durch eins und sich selbst, auch durch
13, auch durch 11. Das sind also die Primzahlen. Jetzt haben wir also das Verständnis dafür, was die Primzahlen
sind. Lassen Sie uns mit der
Lösung dieses Problems fortfahren. Also zuerst, wie man
Eingaben vom Benutzer in
R entgegennimmt . Wir können also
die Funktion Zeile lesen verwenden , um Eingaben vom Benutzer zu
erhalten. sollten Sie auch sein, Sie sollten die Readline-Funktion
kennen, die über ein
Azure-Argument verfügt. Readline-Funktion
nimmt also eine Eingabeaufforderung entgegen, sodass sie den Benutzer dazu auffordert. Und was auch immer Sie hier schreiben, es wird
auf der Konsole angezeigt. Und es wird Sie bitten, alles zu tun,
was Sie hier schreiben um Sie zu bitten, nehmen wir an, wir geben
hier ein, wir schreiben, bitte
geben Sie eine Zahl ein. Die Eingabeaufforderung nimmt also
die vom Benutzer eingegebene Nummer an und wir übergeben sie
an die Lesezeilenfunktion. Und hier können wir diese
Benutzereingabe in zwei Ganzzahlen konvertieren. Was wir also sind, wir speichern die vom Benutzer
eingegebene Nummer. Variablen 0 und n. Als Ganzzahl wird
es also aus allem, was
wir von dieser
Baumzeilenfunktion über diese Eingabeaufforderung erhalten, in eine
Ganzzahl umgewandelt . Okay? Also, wenn ich das hier starte, wenn ich das starte, werden
wir gebeten, bitte eine Zahl einzugeben. Okay? Dann lass mich das klären. Okay? Und dann
setzen wir eine Flagge. Es heißt auf Null. Anfänglich. Wir werden, wir werden sehen,
warum wir
diese Flagge verwenden , die gleich Null ist, und wir werden auch sehen,
warum sie kommt. Das ist eine Summe, weil wir die Zahlen eingegeben
haben. Es zeigt uns
dieselbe Nummer. Das ist Summe, ah, bearbeiten wir, wir werden sehen. Okay, also setzen wir
die Flagge auf Null. Und dann fügen wir Geben hinzu. Wie gesagt, die Primzahlen sind immer
größer als eins, oder? Beginne mit zwei bis
357-11-1317 so. Es ist also immer
größer als eins. Als Erstes überprüfen
wir, ob die Zahl größer als eins
ist. Dann gehen wir in den Kreis hinein. Und wenn Zahl nicht
größer als eins ist, dann ist sie definitiv keine
Primzahl, oder? Für diese Flagge wird also Null sein. Und für Flagge Null,
was wir geben, für Flagge Null
wird uns keine Primzahl gegeben. Wenn Sie also eine Zahl in minus,
minus zwei, minus drei,
minus fünf eingeben minus zwei, minus drei, , werden
diese Zahlen hierher kommen. Pulsieren Sie und es wird nachgeben, es wird. Die Nachricht, dass
Sie die eingegebene Zahl eingegeben haben, ist also keine Primzahl, okay? Und was
ist, wenn die Zahl größer als eins ist? Unterstützt 235678,
all diese Nummern. Was wir also tun werden, werden wir nach den Faktoren
suchen. Und bevor wir nach den Faktoren
suchen, was wir tun werden,
setzen wir die Flagge auf eins. Okay? Eins bedeutet, dass Zahl
Primzahl ist, okay? Also haben wir es zunächst auf Null
gesetzt. nun Nudge angeht, wird
in diese if-, if-Schleife,
IF-Funktion, if-Anweisung eintragen , was wir tun, wenn die Zahl größer als eins
ist, wird das Flag zunächst
auf eins setzen. Und dann was für Blau, wir erstellen eine For-Schleife. Und was wird die For-Schleife sein? Schleife ist für I in zwei, weil die Primzahlen mit 22 bis n minus eins
beginnen. Und minus eins heißt, nehmen
wir an, wir geben fünf ein, also zwei bis vier. Also ich in zwei bis 4 Minuten, es dauert vier bis T
für diese drei Zahlen. Und was für den Faktor
benötigt wird, ob die Zahl eine Zahl ist, wird durch
zwei oder drei oder vier geteilt, sie kann
durch 23,4 geteilt werden oder nicht. Und wenn dann eine Person, diese Person, die ich vermisse, wird nach dem Faktor gesucht,
ob die eingegebene Zahl geteilt
wird durch,
nehmen wir an, wir geben fünf ein. Es wird also geprüft , ob das Segment durch zwei
geteilt wird oder nicht. Und dann wird geprüft,
geteilt durch drei oder nicht. Dann dauert
es entweder vier oder ungleich, gleich Null. Und dann setzen wir die
Flagge auf Null. Und wenn es durch 234 geteilt wird, wird die Flagge auf
Null gesetzt und es wird aus der For-Aussage
herausgenommen. Es wird die For-Schleife unterbrechen
und aus dieser herauskommen. Und okay, und wenn n
gleich zwei ist, wird
die Flagge gleich eins gesetzt. Also was es hier tun wird, es wird überprüfen,
ob die Zahl,
nehmen wir an, wir geben sechs ein. Sechs ist also durch zwei geteilt, oder? Es wird also gleich
Null sein. Es wird also die Flagge auf
Null setzen und es wird
aus der Schleife kommen. Und es wird flagge. Die Null wird
im anderen Teil erscheinen,
und das wird sie auch, es ist also
keine Primzahl. Nehmen wir an, wir geben fünf ein. Fünf wird also durch zwei geteilt. Nein, es wird herauskommen und die
Flagge wird ein Jahr dauern. Flagge eins bedeutet also, dass fünf
eine Primzahl ist, oder? Ähnlich unterstützt geben
wir acht ein, also wird Acht geteilt durch.
Es dauert zwei bis sieben, bis zuerst durch zwei geteilt wird. Die Aufteilung auf
nur die Flagge ist Null. Es wird aus
der Schleife kommen und Null markieren denn es ist keine solche
Primzahl. Es wird überprüft und es
wird uns das Ergebnis geben. Ich unterstütze Sie, wir geben 11 ein, also wird N
geteilt durch 211/2 benötigt. Nein, es wird Out
of the Loop unterstützt. Wir geben Cystein ein. Cystein geteilt durch 2/2. Ja, Zero Flag 016
geteilt durch so. Okay? Es wird also durch Speichern
aus der Schleife herauskommen und die Flagge auf Null
setzen. Und alle Zahlen werden
keine Primzahl sein. Und nehmen wir an, wir
geben 1717/2 ein. Nein. Was also zwei sind, wird passieren, es wird aus der
Schleife herauskommen und es wird die
Flagge auf eins setzen . Flagge gleich Eins bedeutet, dass
es sich um eine Primzahl handelt. Und wenn die Zahl, die du eingegeben
hast, dann direkt
Primzahlen, oder? Und zum einen
kommen wir in den anderen Teil, mehr als einer, wir
kommen in den anderen Teil. Okay? Lassen Sie mich also diese ganze Quelle ausführen. Was ist das Problem hier? Okay, lass es mich noch einmal ausführen. Jetzt fordert
uns die Konsole auf, eine Nummer einzugeben. Nehmen wir an, ich gebe eine Nummer eins ein. Es tut uns leid. Angenommen, ich gebe
hier eine Nummer eins ein und drücke die Eingabetaste,
was passiert? Eins ist keine Primzahl. Warum ist Eins keine Primzahl? Es wird hierher kommen und prüfen, ob n
größer als 100 ist oder so. Yan ist größer als einer oder nicht. Das ist also ernsthaft nicht, es wird nicht in
diese Schleife kommen und Flag wird für diese Null
sein weil es nicht
in diese If-Schleife kommt, weil F eins ist und es wird
hierher kommen, Flag gleich Null. Also jetzt wird es hierher kommen. Und es wird die Flagge überprüfen, die einem Knoten
entspricht. Also wird es in den anderen
Teil kommen und es wird Saudi studieren. Es wird in
diesen anderen Teil kommen. Und eins ist auch keine solche
Primzahl. Okay? Lassen Sie mich das noch einmal ausführen. Und wenn ich zwei eingebe, tut mir leid, wenn ich
hier zwei eingebe, was passiert dann? In c2 ist es eine Primzahl. Warum ist zwei eine Primzahl? Es wird hierher kommen und ist
größer als eins, oder? Zwei ist größer als eins. Dann Flagge, es wird eins setzen, dann wird es
hierher kommen, um es durch zu teilen, um es durch zwei
zu eins zu teilen, oder? 2/2. C ist also 2/2, wenn gefeiert wird. Es wird also aus
dieser Schleife herauskommen, oder? Und die Flagge wird eine sein. Zwei ist also eine Primzahl. Wenn ich drei draufsetze, tut mir leid. Wenn ich das noch einmal ausführe
und Nummer drei eingebe, dann hat es erhalten, dass drei eine Primzahl
ist. Warum? Weil es
in dieses If-Statement-Flag aufgenommen wird. Es wird die Flagge auf 1.4 setzen. Markieren Sie eins, es wird eine
Primzahl sein und dann
wird sie in diese
For-Schleife I in 222 kommen , oder? Also 3/2, nein. Es wird also diese Aussage brechen und die Flagge wird eine sein, oder? Also und wird die Primzahl sein. Also, wenn Sie
Support the length oder 17 eingeben, saudische Unterstützungszelle
hier 17 ein. 17 ist eine Primzahl, warum? Es wird hierher kommen und
17 ist größer als eins. Es wird hierher kommen, die Flagge auf Eins
setzen, dann wird es in diese For-Schleife
für i in 21617/2 gehen. Ja. 17 wird nicht durch zwei umgeleitet, also wird es aus
dieser Schleife herauskommen und Flagge
bleibt 1,4. Flagge eins, die Zahl
ist eine Primzahl und deshalb sind diese
17 eine Primzahl. diese Weise können wir also
ein einfaches Programm schreiben , um Primzahlen
in unserer Programmierung zu finden.
53. Programm, um EVEN oder ODD zu überprüfen: In dieser Vorlesung
werden wir in unserer Programmierung
ein Programm schreiben, um
herauszufinden, ob die eingegebene
Zahl ungerade oder gerade ist. Also nehmen wir die
Eingabe des Benutzers und bitten den Benutzer, eine Nummer
einzugeben. Und basierend auf der Eingabe des Benutzers
wird angezeigt, dass die vom Benutzer eingegebene Nummer eine ungerade
oder eine gerade Zahl
ist. Stimmt es? Was ist also eine ungerade
oder gerade Zahl? Also Zahlen, die ohne den Rest
durch 0/0 geteilt werden. Es heißt gerade Zahl. Nehmen wir an, wir haben eine Zahl
x und wenn wir
die Zahl durch zwei teilen und als Erinnerung Null
erhalten, dann ist es eine gerade Zahl. Und wenn die Zahl durch zwei
geteilt
wird und wir einen Rest erhalten,
dann eine gerade Zahl. Also einfach, wenn eine
Zahl durch
zwei geteilt wird und der Rest Null ist, also eine gerade Zahl und
dividiere sie durch zwei. Und es gibt eine gewisse Nachfrage,
es ist eine ungerade Zahl, oder? Nehmen wir also das Programm. Also hier habe ich ein Programm geschrieben , bei dem ich die
Eingabe als Ganzzahl verwende. Also nehme ich die Eingabe von
der Benutzer-ID als Ganzzahl
und bitte den Benutzer
, die Nummer einzugeben, bitte geben Sie eine Zahl ein. Readline-Funktion
wird also verwendet, um
die Benutzereingabe und die
Aufforderung, die wir geben, entgegenzunehmen . Bitte geben Sie eine Zahl ein. Dann konvertieren wir in
eine Yeoja, Ads Dot Integer. Okay? Also, was auch immer das ist, eine ganze Zahl, oder? Und dann
prüfen wir einfach, ob diese Zahl n durch zwei geteilt wird. Und wenn der Rest Null ist, so n geteilt durch zwei. Wenn Amanda gleich Null ist, sagen
wir, n ist eine gerade Zahl. Und wenn wir einen
anderen Rest als Null oder Zahl bekommen, richtig? Es ist eine ungerade Zahl. So einfache Sache. Wenn n durch zwei
geteilt wird und
der Rest Null ist,
dann ist es eine ungerade Zahl, wenn sie und wenn der Rest
anders als Null ist, ist
es eine ungerade Zahl, oder? Also ich hoffe du hast die Idee verstanden. Lassen Sie mich Ihnen also sagen, was
die geraden
und ungeraden Zahlen sind . Also 24681012. All diese Zahlen
sind gerade Zahlen. Und unsere Zahlen
sind wie 35791113. All diese Zahlen. Also nicht nur das, es geht weiter bis Okay. Also die Nummer, auf die eine Dame auch bei
Gino
lange gewartet hat. Gefragt wird als gerade Zahl bezeichnet. Eine ungerade Zahl, wenn
diese Behauptung unter einer
anderen Zahl als Null steht. Lassen Sie uns also dieses Programm ausführen
und die Ausgabe sehen. Lassen Sie mich das zuerst klären. Geben Sie eine Zahl ein. Nehmen wir an, ich gebe Nummer 45 ein. Die Ausgangsspannung, die
bei ihnen bei 45 liegt, oder Zahl durch 45, ist eine ungerade Zahl,
denn wenn
wir 45 teilen, erhalten wir eins, entweder Nachfrage oder zwei, in 20 bis 44,1, die wir als Erinnerung erhalten, also ist Erinnerung etwas anderes als Null. Es wird also zu
diesem anderen Teil kommen. Und es war wirklich die Methode
, dass 45 eine ungerade Zahl ist. Und nehmen wir an, ich führe es erneut aus, und wenn ich eine Zahl 12 eingebe ,
tut mir leid, gebe ich die Zahl 12 ein, dann ist 12 eine gerade Zahl. Nehmen wir an, ich lasse es noch einmal laufen. Und wenn ich hier eine Zahl eingebe, muss uns das eine gerade
Zahl geben. Und wenn ich es noch einmal starte und wenn ich fünf bekomme und fünf ist eine ungerade Zahl. Auf diese Weise können wir also feststellen,
ob eine Zahl
ungerade oder gerade einfache
Logik ist und
durch zwei geteilt gleich Null ist. Wenn es von Null kommt. Zur Erinnerung, wir
sagen welche Zahl, sonst sind es Sortiernummern. Ich hoffe, diese
einfachen Programme
helfen Ihnen zu verstehen,
wie das Programmieren funktioniert und wie Ihre Logik aussieht. Und das sind auch
in Interviews ziemlich
beliebte Fragen , insbesondere für eine Gefriertruhe. Und wenn wir einen neuen Absolventen hätten
und nach dem Job suchen würden, würden diese Fragen
beim
Campuspraktikum ziemlich häufig gestellt, okay.
54. Programm zum Überprüfen von Positiv Negativ oder NULL: In dieser Vorlesung werden wir
ein Programm schreiben, in dem wir überprüfen, ob eine Zahl negativ, positiv oder Null
ist. Es wird also ein
einfacher Test sein, bei dem wir
herausfinden , ob eine Zahl
negativ, positiv oder Null ist. Dafür werden wir also
dasselbe tun, was
wir in der
letzten Vorlesung gemacht haben, aber hier etwas anders. Die Nummer kann
mit einer doppelten Lendenwirbelsäule versehen werden. Okay, also nimm die
Eingabe als doppelt und wir verwenden die
Funktion zum Lesen von Zeilen und dieselbe Aufforderung, bitte gib eine Zahl ein. Dann prüfen wir, ob die eingegebene Zahl
größer als Null ist. Wenn es größer als Null ist, wird die Meldung ausgegeben. N ist eine positive Zahl. Und wenn es gleich Null ist, geben
wir, als wäre es eine Null. Und zwar nur, wenn es
anders als Null ist. Dann wird es das zuerst überprüfen. Wenn n größer als Null ist,
dann postrenal, okay? Dann kommt es zu einem anderen Teil
in L3, der ein verschachteltes Wenn-Else verwendet. Wenn Zahl nicht
größer als Null ist, kommt
es zu diesem anderen Teil. Und dann überprüfen
wir in diesem anderen Teil, ob die Zahl gleich Null
ist, was
ergibt, dass Zahl Null ist. Andernfalls, wenn Zahl nicht Null
und größer als Null,
kleiner als Null ist ,
dann werden wir, was
wir tun werden,
diesen anderen Teil eingeben wollen. Das heißt, es wird eine
negative Zahl sein, oder? Wenn die Zahl kleiner als Null ist. Wenn Zahl nicht
größer als Null ist, wenn Zahl nicht größer
als Null ist, oder? Mantissa, es kann Null
oder weniger als Null sein, oder? Wenn es also Null ist, bekommen
wir Null. Wenn es weniger als Null ist, kommen
wir zum
anderen Teil und geben die Nachricht so ein, als ob
die Zahl eine
negative Zahl ist , es einfach überprüfen. Lass uns das ausführen. Lass
mich das klären. Okay? Okay, hier. Okay, lassen Sie uns das ausführen. Lassen Sie mich also eine Nummer eingeben, die Atlanta
unterstützt. Oh, minus fünf. Minus fünf ist eine Zahl. Ich nehme an, ich führe es
erneut aus und gebe 45 ein. Es tut uns leid. Ich trete 45 Jahre ein. Vier vor fünf ist eine Portion oder
nehmen wir an, ich lasse es noch einmal laufen, praktisch, ich setze Null. J, die saudische
Tito-Zahl ist Null. Okay? Und dann nehme ich an, ich führe es erneut und gebe
eine doppelte Zahl wie -78,5. Also -7.578,5 ist eine
negative Zahl, oder? Auf ähnliche Weise ergibt das Minus acht
ein Minus. Dies ist also das einfache
Programm, um herauszufinden, wo die Zahl positiv,
negativ oder Null ist.
55. Programm zum Überprüfen des Schaltjahres oder NICHT: Hallo und willkommen zurück. In dieser Vorlesung werden
wir ein Programm schreiben, um herauszufinden, wo dieses Ohr
ist, Bolivien hin oder her. Also, was ist Leaf hier? Verschwinde von hier. Sie
erhalten einen zusätzlichen Tag, etwa drei bis sechs
Tage im Jahr. 376 Tage hier sind plötzlich
aufgetaucht, oder? Wie entscheiden wir also , ob die Werft kein
Schaltjahr ist oder nicht. Es gibt also eine einfache Formel. Wenn das Ohr durch vier geteilt wird
und der Rest Null ist, könnte
es sich um ein Libyen handeln, aber das ist nicht der
Ein-Liter-Fall, oder? Wenn das Ohr durch vier geteilt wird, ist
dies die Modulfunktion. Wenn Sie es durch vier teilen und jedem Anbieter Null
geben, dann könnte das Libyen sein. Aber wir müssen
eine andere Bedingung überprüfen, ob die Zahl auch zu
gleichen Teilen durch Hundert geteilt wird. Wenn Sie den Bericht
der United Way-Studie auch mit Null teilen , könnte
es sich um ein Schaltjahr handeln, aber wir müssen überprüfen,
ob das durch
Hundert geteilt wird , und Ihnen
eine Erinnerung als 0/100 geben. Auch die Angabe des
Restes ist Null. Auch hier könnte es sich um ein
Live handeln, aber auch hier müssen
wir eine Bedingung überprüfen, müssen
wir eine Bedingung überprüfen bei der die Daten noch durch
400 geteilt werden und eine
Erinnerung als Null geben, wenn dieses Jahr ebenfalls gleichmäßig durch 400
geteilt wird,
dann ist das also
Ihr Schaltjahr. Und wenn nicht, dann wird es nicht wie Libyen sein. Die erste Bedingung, die
wir überprüfen müssen ist, ob die Bearbeitung durch vier
dividiert wird, dann müssen wir überprüfen,
ob sie direkt
geteilt werden und der Rest als Null vollständig geteilt ist, richtig, für Ihr Modell bedeutet
das Modul 40. Dann haben wir das Projekt
noch mehr oder weniger 100, es ist ungefähr, also kommen Null
und Jahresmodul 400. Sie kommen also auch zu Null. Wenn das so ist, hat er seine, äh, Livia. Livia. Okay. Und wenn und auch hier, das nicht geteilt durch 100 ist, dann ist es noch nicht live. Wird auch
aus diesem Panel herauskommen, gehe zum anderen Teil. Und wenn es nicht durch vier
geteilt wird, dann
ist es sicherlich kein Schaltjahr. Okay? Auch hier gilt Wenn das Jahr dafür nicht richtig
ausgerichtet ist, ist
es keine Olympiade. Okay? Lassen Sie uns also dieses Programm durchführen
und das Jahr 2020 unterstützen und starten. 2020 ist der bevorzugte Weg
, da es durch vier geteilt wird. Es ist auch durch Hundert geteilt. Und es wird aufgeteilt werden, oder? 400 auch, oder? Nun, es ist wirklich
ungefähr 400 2020er Jahre. Ich wusste, dass ich für ja geschrieben habe. Und wenn es nicht durch Y geteilt wird, wenn es
durch hundert geteilt wird und
Sie nur an Null erinnert werden, dann haben wir Projekt 400. Aber hier ist es, es gibt uns den Nachfragern
etwas, oder? Deshalb
ist der Rest hier nicht Null. Es wird also zum
anderen Teil kommen und Sie werden um 20:20 Uhr in Libyen sein. Wenn es also mehr
oder weniger gleich Null ist, dann müssen wir überprüfen, ob es durch 400
geteilt wird oder nicht. Wenn der Modulus nicht gleich Null ist, wird es
zu diesem Teil kommen und wir
werden sehen, dass
Libyen der 2020er Jahre wieder einen
Rahmen dafür bildet. Und wenn ich 1520500 gebe, ja, ziemlich plötzlich
für immer oder nicht. Also C noch 2051, das ist geteilt durch vier. Also wird es hierher kommen. Es wird genommen und durch 100 geteilt
oder nicht. Es ist also vollständig durch 100 geteilt. Dann kommt es
zur Divided This Loop und es wird geprüft, ob diese durch 400 geteilt
wird oder nicht. Sehen Sie sich also 2500/400 an, was es uns für den Rest geben
wird. Jemand rendert es
nicht auf Null, also wird es hierher kommen und es wird zum anderen Teil
kommen, weil der Rest
nicht gleich Null ist. Und dieser Teil, der 2.500
drucken wird, ist kein Libyen. Also lasst uns reingehen und das Ergebnis
sehen. C, 2.500 ist hier kein
Blatt, oder? Ähnlich, wenn ich 19.1.900 ansetze, dann fürchte ich
nicht nur 2.300.2300, noch
nicht am Leben sind, oder? Warte, ich brauche
wieder Tao Qian. 12. Wenn wir plötzlich herausfinden,
warum es hier live ist, weil es durch vier geteilt wird, dann wird es
zu diesem kommen und sehen,
ob die jährliche Gesamtrate dieses Jahres
durch 100 geteilt wird und wir
einen Rest von Null haben. Nein, es gibt
uns nicht den Rest Null. Also müssen wir noch einmal nachschauen. Und es wird eindeutig um
den Gesundheitsteil gehen und
es wird libysch gedruckt. Okay. Auf diese Weise können wir ein Programm
schreiben, um herauszufinden ob eine bestimmte
Gottheit noch schläft oder nicht.
56. Programm für Multiplikationstabelle: Hallo und willkommen zurück. In dieser Vorlesung werden wir also ein einfaches Programm
zum Drucken von
Multiplikationstabellen schreiben , oder? Eine
Multiplikationstabelle zu mögen ist eine Tabelle für Gleichheit. Nehmen wir an, die
Multiplikationstabelle bis zu ist zwei, dann zwei zu 24, dann zu 2,236
, also 2482 in eine Pipe. Okay? Also eine einfache
Multiplikationstabelle die
wir drucken werden. Und dafür werden wir
ein Programm schreiben. Also habe ich das
Programm bereits geschrieben, um unsere Zeit zu sparen. Nun, zuerst nehmen wir
die Benutzereingabe als Ganzzahl und wir werden Sie auffordern,
bitte geben Sie eine Zahl ein. Sobald Sie eine Zahl
eingeben. Wir nehmen diese Nummer. Und was wir tun werden, wir werden eine For-Schleife laufen lassen. Was in eins bis zehn steht, weil das
Einmaleins, wir wollen es beenden. 14, bis zu zehn Zahlen
Valley, richtig? Also, und dann
drucken wir die Multiplikation, tabellarisch die Zahl
n. Und was wir tun werden, wir multiplizieren einfach N mit i. Also nehmen wir sie zuerst, oder jemand nimmt die Zahl
drei bis drei zu eins. Wenn der Vorstand
das nächste Mal kommt, werde ich einer sein. Also 3,22 und 3,23 bis zehn. So. Es wird die
Multiplikationstabelle drucken und
das ist nur für die Ausgabe. Es wird also drei zu
eins sein, was 33 zu zwei entspricht. Sex wie dieser. Okay, lassen Sie uns
das ausführen und nehmen wir an, ich
gebe hier drei ein. Also, was wird das
Ergebnis sein, um drei von
13 zu sehen und ich ist ein Jahr, okay, also drei zu eins entspricht 33 zu eins gleich drei, dann drei zu 26 bis zehn. Wenn Sie also diese Zahl
erhöhen möchten, können
Sie hier den Stützarm platzieren. Und wenn ich es noch einmal laufen lasse und für drei Jahre wette, also sieh mal hier, das
geht bis zu den Preprints. Auf diese Weise können Sie also
die Multiplikationstabelle
oder für eine beliebige Zahl n,
für eine beliebige Anzahl von Primzahlen
bis zur richtigen Pain,
ein Proton erzeugen die Multiplikationstabelle
oder für eine beliebige Zahl n, für eine beliebige Anzahl von Primzahlen
bis zur richtigen Pain, , was Sie wollen. Also nehmen wir an, ich lasse es noch einmal laufen und behalte die Nummer 20, lerne. Nummer 25, Jahr Atlanta 25. Lass mich das klären. Ich gebe eine Zahl 25 Jahre ein. Ich möchte die
Multiplikationstabelle für 25 generieren. 25 eins zu eins. Wenn ich t wählen wollte, entspricht
25 zu drei bitte
75,25 zu zehn. Auf diese Weise können wir
die
Multiplikationstabelle in unserem Programm generieren .
57. Was sind fehlende Werte und Arten von fehlenden Werten: Hallo und willkommen zurück. In dieser Vorlesung lernen
wir sehr wichtiges Konzept kennen, das
als Imputation fehlender Daten bezeichnet wird . Also wann immer wir ein Datenanalyseprojekt, ein Projekt für
maschinelles Lernen
oder sogar ein Datenwissenschaftsprojekt, ein Projekt für
künstliche Intelligenz
oder ein Deep-Learning-Projekt durchführen maschinelles Lernen
oder sogar ein Datenwissenschaftsprojekt, . Welches Projekt Sie auch im Zusammenhang mit den Daten
durchführen, wir müssen an den Daten arbeiten. Und eines der
herausfordernden
oder größten Probleme ist jetzt das
Fehlen von Werten in den Daten. Was meine ich also mit fehlenden
Werten oder fehlenden Daten? Wenn es also die Art und
Weise unterstützt, wie wir Daten sammeln, sammeln
wir Daten mithilfe von Umfragen oder wir haben die Leute gebeten, die Formulare
auszufüllen. Und während die Leute
im Internet surfen, sammeln wir Daten, während die Leute surfen, sammeln
wir Daten, die polarisiert
sind, einkaufen gehen. Wir sammeln Daten durch Gedichte, indem Feedback
bitten,
all diese Dinge. Es gibt also verschiedene Möglichkeiten, Daten
zu sammeln, oder? Und bei diesen verschiedenen
Arten der Datenerfassung zögert
manchmal die Person, manchmal die Person uns Daten
gibt oder uns Daten zur
Verfügung die uns Daten
gibt oder uns Daten zur
Verfügung
stellt, all die Daten denen wir Bob fragen, nicht wahr? Und wenn er zögert und Gibbs falsche
Daten gibt oder er für einige
Formularwerte keine Daten speichert, dann
werden die Daten fehlen, oder? Und das gilt auch für das Vervollständigen der Daten. Und wenn wir versuchen, diese Daten zu
analysieren, können
wir auf Probleme stoßen, da viele der Datenspalten
oder -zeilen fehlen. Nehmen wir an, das einfache
Beispiel ist, wenn Sie Einkaufszentrum gehen und sie sind. Die
Leute
bitten Sie, ein Feedback-Formular auszufüllen , in dem sie nach
Ihren Familiendaten, Ihrer Handynummer,
Ihrer E-Mail-ID und Ihrer Mutter
namens Vatername, Ihrem Straßennamen fragen,
wo verlassen Sie? Was sind deine Präferenzen? Wie viel lösen Sie? In einem Monat? Du bist wie dein Gehalt
, all diese Daten. Die meisten von uns werden also
nicht bereit
sein all diese Daten
wie unsere Gehaltsdaten oder sogar die Privatadresse
oder die Handynummer anzugeben. Wir neigen also dazu, uns zu verstecken und
diese sensiblen Daten oder
unsere Familiendaten nicht bereitzustellen , z. B. ob wir verheiratet oder
unverheiratet sind oder ob wir einen Käfig
haben oder nicht. Diese Daten stellen wir nicht zur Verfügung. Wenn das Unternehmen also
die Daten von Tausenden
von Menschen im Einkaufszentrum sammelt und sie
befragt, werden
sie, wenn sie die Daten sammeln, wenn sie
hineingehen, die Daten analysieren. Sie werden feststellen, dass die
meisten Menschen nicht geantwortet
haben, wie viel sie besitzen und was
ihr Familienstand ist, wie viele Kinder sie haben, wenn sie nicht für diese
Art von Trennung sorgen, sie werden sie nicht kategorisieren können
. Nun, sie könnten einige Leute
unterstützen. Sie haben geheiratet und sie haben die Spalte
nicht ausgefüllt,
verheiratet oder unverheiratet. Sie werden sie also entweder
falsch
kategorisieren oder sie werden sie nicht kategorisieren
können. Und das ist das große
Problem bei Datenanalyse und maschinellem Lernen oder
Datenwissenschaftsprojekten. Um dieses Problem zu lösen, gibt es Möglichkeiten,
die fehlenden Werte zu füllen. Also unterstütze dich. Wenn Sie numerische
Daten haben, Unterstützung, Sie haben die Alters- und
Gewichtsdaten, die Sie
von Tausenden von Menschen und
einigen Personen gesammelt haben von Tausenden von Menschen und
einigen Personen , bei denen sie
fehlen oder bei denen sie im Alter fehlen. Was wir also
bei numerischen Daten tun können, können
wir einfach
den verfügbaren Datensatz verwenden. Und wir können
den Mittelwert oder Durchschnittswert in
die fehlenden Werte eintragen. Was auch immer die fehlenden Werte
sind, wird mit dem
Durchschnittswert oder Mittelwert
gefüllt. Und das wird
die Daten vervollständigen und wir können eine gute Analyse dazu durchführen. Das ist also eine einfache
Möglichkeit,
fehlende Daten in R oder einem anderen
Data-Science-Projekt zuzuschreiben . Okay, also im
Fall fehlender Werte,
numerisch, was ist, wenn die fehlenden
Werte nicht numerisch sind? Was wir tun werden. Was wir nun verstanden haben, haben
wir verstanden, was
die fehlenden Werte sind und welche
anderen Regionen für sie gelten. Lassen Sie uns also die Typen
fehlender Werte zu den
Typen fehlender Werte verstehen . Wir haben sie
in die drei Typen eingeteilt. Eins ist M, CAR, dann MAR, oder das
letzte ist ein MAR. Also, was ist diese MC, AR, M-Katze. Also MCAR, Stanford fehlt
völlig zufällig, fehlt C4, komplett A4 bei Arpa Random fehlt
völlig zufällig. Und ist der rötliche Typ
fehlender Werte, wenn
das Fehlen keine Kosten verursacht. Mit anderen Worten,
die fehlenden
Werte haben nichts mit Funktionen zu tun wie der Name schon
sagt. Dieser See. Sie sind nur ein sehr
seltener Fall, in dem
Sie die Daten beispielsweise beim Einfügen
der Daten in die Excel-CDART-Datenbank verpasst haben. Oder wenn wir Daten
sammeln oder einige Personen, manche Leute,
nach dem Zufallsprinzip
befragen , fehlen
Ihnen einige Daten. Das ist also ein ziemlich seltener
Fall, in dem wir das MCAR bekommen. Dann die nächste Spalte,
die MAR-Daten, MAR bedeutet zufällig fehlen. Dies ist durchaus üblich und
impliziert, dass die fehlenden Werte vollständig durch die Daten
erklärt werden können , die
wir bereits haben. Beispielsweise kann es vorkommen
, dass Männer eine Umfrage im
Zusammenhang mit Depressionen wahrscheinlich empfinden unabhängig davon, wie
depressiv sie sind. Wie. Nehmen wir an, einige Menschen sind depressiv und wir
dienen diesen Menschen. Die meisten Menschen verstecken also ihren
mentalen Status, oder? Sie zögern sehr, ihre geistige und
psychische Gesundheit mit
anderen zu teilen, oder? Sie werden also verbergen, dass sie einige psychische Probleme
haben. Und das wird dazu führen, dass
die Leute die falschen
Informationen bekommen. Diese fehlenden Werte oder MAR,
richtig, die zufällig fehlen, sind also tatsächlich darauf zurückzuführen, tatsächlich darauf zurückzuführen dass eine Annahme
über die Daten getroffen wurde. Und es gibt keine Möglichkeit
zu beweisen, ob die fehlenden Datenwerte den MAR-Wert erhöhen. Immer wenn fehlende
Werte als MAR
oder MCA oder zwei größere Zahlen kategorisiert werden, können sie getrost ignoriert werden. Also MCAR, MAR, da sie
quasi zufällig fehlen, können
wir sie ignorieren. Wir können, wenn Sie Daten
mit diesen,
dieser Art von fehlenden Werten haben , diese Werte einfach
ignorieren
und
Sie können komplett
weitermachen , ohne
diese fehlenden Werte zu füllen und Sie können
sie aus dem Datensatz entfernen. Und das ist völlig in Ordnung. werden Sie nicht
viel verpassen, da alle Zahlen zufällig
fehlen. Das bezieht sich
nicht auf ein Feature oder eine Variable, die
sich
stark auf Ihr gesamtes
Datenergebnis auswirken wird . Okay? Der letzte ist ein AR, und M steht für not
missing at random. Und das ist wichtig. Warum? Und CMR. Und wenn es sich bei den Daten nicht um MCAR, MAR handelt, werden sie Zufallsprinzip so
kategorisiert, dass sie nicht
fehlen. Und was nicht
zufällig fehlt , bedeutet, dass,
wie ich bereits sagte, wenn wir
Leute im Einkaufszentrum befragen, sie ihren Ehepartner, den
Namen ihres Kindes,
ihre Adressdaten,
ihre Kreditkartendaten
oder ihre Gehaltsdaten verbergen können ihre Adressdaten,
ihre Kreditkartendaten . Das ist also kein Zufall, oder? Die Leute verstecken bereitwillig
Daten, die sie nicht bereitstellen. Und wenn Sie, wenn
wir die Daten analysieren,
feststellen, dass die Personen ihren Familienstand
oder den Namen ihres Ehepartners nicht angegeben
haben Familienstand
oder den Namen ihres Ehepartners oder wie viele Kinder sie haben
und wie viele nicht. Diese Daten
fehlen also nicht zufällig. Das ist also wichtig. Und das ist kein Zufall, und wir wissen vielleicht
nicht in
welchem Fall die Paketlinien stehen. Wenn eine Person nichts
über ihren Familienstand gesagt hat, ob sie verheiratet ist oder nicht, können
wir sie nicht
als verheirateten Mann
oder unverheirateten Mann einordnen . Und das wird zu
dem Problem führen , dass wir diese Person
nicht in eine
bestimmte Kategorie einordnen Person
nicht in eine
bestimmte Kategorie können
und daher unsere Daten nicht korrekt
analysieren können. Und wenn wir
dieses NM AR Meeting ignorieren , bei dem keine zufälligen Daten
fehlen, dann nehmen wir an, Analysten oder
Datenwissenschaftler , die diese Daten
ignorieren fehlen nicht zufällig. Er könnte am Ende zu
falschen Berechnungen
kommen, falsche Prognosen sind falsch und das wird zu
einem enormen Verlust für das Geschäft führen. Wenn Sie Sie unterstützen, wenn Sie
den Umsatz Ihres
Unternehmens prognostizieren und wenn Sie keine
zufälligen Daten in Ihrem Datensatz ignorieren, dann könnten Sie am Ende falsche Berechnungen und
Prognosen erhalten, die, was zu enormen Verlusten führen kann, Ihre
Kunden nicht richtig ansprechen. Und das wird zu
vielen Problemen für Sie führen. Sie müssen sich also um
diese drei Arten
von fehlenden Werten kümmern . Und
Sie müssen beim Vergrößern wissen, welche Werte,
welche Art von fehlenden Werten
in Ihrem Datensatz fehlen. Und wenn es nicht
an einem zufälligen Datensatz fehlt. Und woher wissen Sie, dass
nicht zufällige Daten
fehlen, fehlende Werte nicht zufällig
fehlen. Und dass Sie auf der
Grundlage des Wie und wie sich
dieser fehlende
Wert auswirken würde, entscheiden können . Okay. Also, ob eine Person
verheiratet ist oder nicht, es wirkt sich darauf aus, weil
Sie die Person nicht richtig
kategorisieren können . Auf diese Weise können Sie ermitteln welche Auswirkungen
das hat und welche Auswirkungen dieser
fehlende Wert auf
die gesamten Daten und
das Ergebnis haben wird
, das Sie aus der
Analyse der Daten erhalten werden . also keine numerischen Daten haben, können
Sie neben dem Mittelwert Wenn wir also keine numerischen Daten haben, können
Sie neben dem Mittelwert auch andere fehlende
Werte angeben, indem Sie den Mittelwert, den
Mittelwert des gesamten Datensatzes, verwenden . Davon abgesehen haben
wir einige R-Pakete, mit denen wir
die fehlenden Werte unterstellen
können. Und das sind die Fiber aus den beliebten R-Paketen für die
Imputation fehlender Werte. Und die erste und sehr
beliebte Mäuse sind MIC. Dies ist das Paket, mit dem die
fehlenden Werte unterstellt
werden können . Dann ist Emilia ein weiteres Paket,
Missed Forest ist ein anderes, und ich vermisse noch eins. Ein MI ist der fünfte. Das sind also die fünf Popplet-R-Pakete
für fehlende Werte. Oder mit Hilfe
dieser Pakete können
wir sehr viel berechnen, die fehlenden Werte
in unserem Datensatz
zuschreiben und am Ende haben
wir eine großartige
Analyse unserer Daten. Ich hoffe, Sie haben
verstanden, was fehlende Daten in R impliziert. Was sind die fehlenden Werte, Arten von fehlenden
Werten und wie Sie den richtigen Typ
fehlender Werte identifizieren
können und wie wir mit den
fehlenden Werten umgehen können. Okay, wir sehen uns in
der nächsten Vorlesung.
58. Importieren von NAs aus fehlenden Werten in einem Datensatz: Willkommen zurück. In der
vorherigen Vorlesung haben wir also behandelt, welche Werte
uns fehlen und welche Arten von
fehlenden Werten wir haben.
Wir haben gelernt, dass MCAR, MAR und MAR nicht zufällig
fehlen. Wir haben also gelernt, was
fehlende Werte sind und
welche anderen Arten von fehlenden Werten wir
im wirklichen Leben sehen können , wenn
wir unsere Fähigkeiten,
unsere Data-Science-Projekte, durchführen . Und wir haben auch gesehen, welche Pakete
in unserer Programmierung verfügbar sind Pakete
in unserer Programmierung verfügbar ,
mit denen wir die fehlenden Werte
unterstellen können. Wir haben also fünf beliebte R-Pakete, Mäuse, Emilia, Ms. Water,
Act, haben einen MI verpasst. Okay. Das sind also die
Dinge, die wir
in der letzten Vorlesung behandelt haben . Jetzt machen wir unser echtes
praktisches und unser Projekt, bei dem wir, was wir tun, den eingebauten
Datensatz verwenden , der in unserem Paket verfügbar
ist,
nämlich den Iris-Datensatz. Und in diesen
Iris-Datensatz, was wir tun, werden
wir einige
fehlende Werte aufnehmen. Deshalb haben wir bewusst
einige fehlende Werte
in den Iris-Datensatz aufgenommen. Dann werden wir versuchen,
fehlende Werte mit einigen Daten zu unterstellen. Also werden wir das
Paket verwenden, das Frau umgebracht hat und die Mäuse werden die Mäuse
und Frau Perez dafür benutzen , okay? Implizieren Sie also die fehlenden
Werte im Datensatz. Okay? Dafür
verwenden wir also den Mittenwald
und wir werden den Iris-Datensatz verwenden ,
der
sich im Schweißbereich befindet. Der erste Schritt ist also, dass wir die Daten laden
müssen. Um also den eingebauten Datensatz zu laden , der in R leicht verfügbar ist, müssen
wir diese Daten einfach
aufrufen. Daten sind ihnen also ebenbürtig. Und wenn wir
jemanden Daten hochladen
und wenn wir das ausführen, werden
wir jemanden erledigen
, der den Iris-Datensatz bearbeitet. Also sehen Sie hier,
das sind die Daten, wir aus der Zusammenfassung
dieser irischen Daten erhalten. Es gibt also viel mehr Daten, aber dies ist nur eine
einfache Datenzusammenfassung aus den irischen Daten. Als Nächstes müssen
wir tun. Das werden wir, da wir hier
das Mäusepaket verwenden. Mäuse-Redewendungen fehlen also
bei zufälligen Werten, oder? Sehen wir uns also die fehlenden
Werte in unserem Datensatz da dieser Iris-Datensatz
keine fehlenden Werte enthalten wird. Was wir also tun werden, wir
fügen fehlende Werte ein und sehen uns die fehlenden Werte
in unserem Datensatz an, indem wir die
breite NA-Funktion verwenden , und diese Verbreiterungsfunktion können wir von der Miss
Forester-Funktion
abrufen. Okay, damit können wir Iris Dot Miss die
fehlenden Werte verwenden
und wir können die
breite n-a-Funktion verwenden. Und wir verwenden den Datensatz, um hier den Datensatznamen zu
geben, Iris und nicht 0,01. Okay? Und wenn wir das tun, wird
es, was es tun wird, es wird die fehlenden
Werte in unserem Datensatz sehen. Wenn wir also versuchen, diesen Chunk
auszuführen, werden
wir herausfinden, warum wir
diesen Fehler bekommen,
weil diese Erweiterungsfunktion
nicht verfügbar ist , weil dies zu dem Luxus
gehört, den das
Paket verpasst hat. Also was wir tun werden, wir werden versuchen, MS Perished und Mäuse zu installieren
. Lassen Sie mich also zuerst, da unsere Benachrichtigung hier wie ein Paket
Mäuse
kommt, die installiert werden sollen. Klicken Sie also einfach auf Installieren und
überprüfen Sie die fehlenden Daten in RMD, die Paketmäuse
werden installiert. Also wird es mit der Installation beginnen. Kann jetzt den
Installationsvorgang sehen , der mit der
Installation von Mäusen gestartet wurde. Also wird es heruntergeladen, es wird ein
paar Sekunden dauern. Okay? Pakete
wurden also erfolgreich installiert. Okay, als Nächstes müssen wir ein anderes Paket
namens Miss Forester
installieren. Also tippen wir einfach, dass du es verpasst. Okay? Also einfach auf Installieren klicken und das
Hmisc-Paket wird installiert. Installiere das Paket. Sie können auch den
Befehl installed
packages verwenden und ihnen
diesen Gesamtstrukturnamen geben und
er wird installiert. Okay, jetzt der Miss Water Storage auch
erfolgreich installiert. Lassen Sie uns versuchen, diesen auszuführen. Chunk hier oben. Ich habe gerade Mythos und Religion unterrichtet, eine Funktion
und ein Jahresgehalt von 0,01
eingeführt. Okay, lassen Sie uns das ausführen. Ich weiß nicht, warum wir
es wieder versuchen. Jetzt
wurde dieses falsch gefaltete Paket korrekt installiert. Jetzt können wir einfach und dann lasse ich das laufen, von dem ich dachte,
Miss hat es mitgebracht. Und dann lese ich die
Zusammenfassung von Irish Dartmouth. Und wir werden es hier sehen. Wenn Sie also diese
Zusammenfassung der irischen Daten sehen, werden
Sie
keine Werte sehen. Sie werden sehen, dass
das keine Werte sind. Aber wenn wir
diese breite NA verwenden und einige fehlende
Werte in den Irisdaten verunreinigen. Und wir werden eine neue
Kunst schaffen, bei der Werte fehlen. Nadar von IDs. Ids hat es mir beigebracht. Siehst du, ja, was es tut, es macht irgendeine Addition von
Kelchblattlänge, Kelchblattlänge und Kelchbreite, Blütenblattlänge und
Blütenblattbreite und ist 19 und die Proteine der Setosa-RNA. Also haben wir
diese vielen 1.819,14 eingeführt. Alle Werte, die das verwenden, haben eine Funktion aus
dem Hmisc-Paket übernommen. Als Nächstes müssen wir die kategorialen
Variablen
entfernen. Okay? Also lass uns das ausführen und hier sehen. Okay, wir haben diese Spezies
entfernt. Arten wie
die Farbe Virginica. All diese Dinge haben
wir entfernt, die kategorischen Daten
wurden daraus entfernt. Und als Nächstes werden
wir
mit der Implementierung von
Mäusen fortfahren , was wir
in der nächsten Vorlesung tun.
59. Fehlende Werte mit PMM-Methode implizieren: Was wir in
der vorherigen Vorlesung gemacht haben, wir haben jede Funktion
aus dem Myths
Forest-Paket
aufgebraucht , um 10%, 10% fehlende Werte
in unseren Datensatz aufzunehmen. neuen Datensatz haben wir
entweder einen Fehlstart, und wenn wir
diesen ausführen ,
werden 10% fehlende Werte in unsere Daten aufgenommen. Und um das zu überprüfen, werden
wir das ausführen und wir werden die Zusammenfassung hier
abrufen. Und hier können Sie
sehen, dass NA-Werte in unsere Daten
aufgenommen wurden. Okay? Als Nächstes entferne ich die
kategorialen Variablen sodass wir uns auf
die kontinuierlichen Werte konzentrieren können. Okay? Wie sehen die
kontinuierlichen Brunnen aus? Siehst du, wenn du hier siehst, das
sind der
kontinuierliche Garnwert und die Arten wie Siedler, welche Farbe hat Virginia? Es handelt sich nicht um kategorische
Daten, also werden wir sie entfernen. Also, was wir entfernt haben, wir haben select entfernt, wir haben Irish Teached Miss verwendet, den Datensatz und was
wir verbinden, wir erstellen die Teilmenge
und wir geben das Auge ein, sie beginnen, Datensatz mit fehlenden Werten und wir sehen ausgewählt aus, ihr nennt zwei Arten minus C. Das bedeutet, dass die Art
entfernt wird,
bei der es sich um kategorische
Daten in unserem Datensatz handelt. Und dann bekommen wir die Zusammenfassung. Wenn wir das also ausführen, erhalten
wir diesen Datensatz, in
dem die Spezies
aus unserem Datensatz entfernt wird, sodass wir uns auf die kontinuierlichen Werte konzentrieren
können. Okay, als Nächstes,
was wir tun werden, werden
wir
die Mäusehalterungen installieren. Und warum wir dieses
Mäusepaket brauchen, weil dieses
Mäusepaket
eine Funktion hat , die
Md-Punktmuster genannt wird. Also die
Md-Punktmusterfunktion, was sie tut, sie gibt eine tabellarische
Form des fehlenden Werts zurück jede
Variable in einem Datensatz
darstellt. Okay, also für das, was wir tun, werden
wir die install.packages installieren, mit denen
das Paket installiert wird. Und dann benutzen wir
die Bibliotheksmäuse. Und dann verwenden wir
das Md-Punktmuster die fehlenden Werte, die in jedem Teil
vorhanden Jede Variable sieht sind.
Jede Variable sieht,
welcher
Wert vorhanden ist. Also zuerst installieren wir oder
wir haben es bereits installiert. Dann können Sie das auch noch einmal ausführen, wenn
Sie möchten . Wenn wir nicht installiert haben. Und danach,
nachdem das Paket
nicht installiert ist, können
Sie zu diesem Code kommen und
dieses Md-Punktmuster ausführen und
Ihren Datensatz einfügen. Das ist also der
Iris-Datensatz, der die die fehlenden Werte enthält. Okay, lassen Sie uns das ausführen. Und wenn wir das ausführen, sehen Sie hier, was wir bekommen. Wir bekommen hier die
fehlenden Werte dafür. Jeder hier, aber
wie Kelchbreite, Kelchpunktlänge,
Blütenblattlänge und Blütenblattbreite. Also lasst uns diese Tabelle verstehen. Das bekommen wir in dieser tabellarischen Form.
Lass uns das verstehen. Es gibt also 98 oder 96 Objekte und hier gibt es 96
Beobachtungen, bei denen in den fehlenden
Werten keine Werte fehlen. Und dann, okay, also diese sechs. 96. Dieser Wert bedeutet, dass keine Werte fehlen und
Null bedeutet, dass er fehlt. Nun, also 96 Variablen , bei denen keine
Werte und die Breite der Kelchpunkte fehlen. Und hier geht es weiter. Sechs Runnables haben fehlenden Wert, während bei einer Variablen auch RelU fehlt. Damit können wir also verstehen,
wie viele Werte fehlen. Null bedeutet, dass bei diesen Variablen Werte fehlen, okay? Und das sieht ziemlich schlecht aus. Und wenn du willst, kannst
du dir das auch ansehen. Ziemlich überlappend. Also sieh hier. Okay, als Nächstes, was
wir tun,
stellen wir uns in die Warteschlange erstellen die
visuelle Darstellung dessen, was wir
in dieser tabellarischen Form sehen. Also, was wir dafür tun werden, werden
wir das Paket installieren. Okay? Und danach
verwenden wir die BIM-Bibliothek. Und was wir tun werden, das nutzen
wir. Wir zeichnen das, was auch immer wir durch das
Mäusepaket
bekommen, ein leeres Punktmuster auf. Wir werden versuchen, das zu planen. Also werden wir diese Funktion
und die EDR-Funktion verwenden, und wir werden diesen
Datensatz verwenden, Iris Dartmouth. Und dann verwenden wir Farbe, Marineblau, Gelb,
was auch immer du willst. Sie können angeben, nehmen wir an, ich gebe Rot und Gelb und Zahlen Wert
zu sortieren, und
dann den Namen der Bezeichnung. Ich gebe alle Namen die es in beiden verpassten
Starts gibt. Und warum dem Labor wirklich das Datenmuster
fehlt. Okay, lassen Sie uns das ausführen und sehen, was Visualize
und wir bekommen. Jetzt bekommen wir
diese Visualisierung. Sehen Sie hier also mit
diesen Visualisierungen, was wir verstehen, sind
67% der Werte, 67% der Werte in der
Wüste ohne fehlenden Wert, 67% der Daten haben
keine fehlenden Werte. zehn Prozent von
13 Prozent fehlen Werte Bei zehn Prozent von
13 Prozent fehlen Werte für die Länge und Breite der
Blütenblätter und außerhalb. Okay? Und wir können dieses
Histogramm auch sehen. Histogramm. Okay, lassen Sie mich hier
einfach ein Histogramm sehen, fehlende Daten und Leah,
die Variablen Blütenblatt, Blütenblattbreite haben
etwa
prozentuale Prozentsätze vor dem Druck,
wobei die Länge
zehn Prozent beträgt etwa
prozentuale Prozentsätze vor dem Druck, , Kelchblattlänge
etwa 9% oder so. Bei der Kelchbreite fehlen Daten von
etwa 8%. Und hier kannst du das auch
verstehen, okay? Auf diese Weise können wir die grafische Darstellung
der fehlenden Werte
sehen. Als Nächstes folgt
der Critical Stop. Was wir hier machen. Wir sind dabei, wir
werden den
fehlenden Werten
einige Werte zuschreiben. Dafür verwenden wir also die
Mausfunktion und wir verwenden die ID start missing data
set with missing values. Und m phi m ist gleich fünf. Was es tun wird,
es wird
dem Bild gleich
fünf melden , wenn Sie es angeben, es wird den
Dateitypdatensatz mit fehlenden Werten erstellen. Es werden also
fünf implizierte Datensätze und eine
maximale Adresse erstellt , die dann 50 beträgt. Und Methode, wir
werden PMM verwenden. Was ist das PMF? Pmm ist ein prädiktiver
Mittelwertabgleich für numerische Werte. Wir werden
die Methode PMM verwenden, bei der es sich um den prädiktiven
Mittelwertvergleich handelt, okay? Und dann sehen wir es uns für 500 an. Und dann sehen wir uns die
Zusammenfassung der Eingaben bei data an. Lassen Sie uns also diesen
Junk-Code ausführen. Und hier
bekommen wir eine Bearbeitung. Okay? Es findet
die Funktion Mäuse nicht, warum? Dann müssen wir gewinnen. Okay, also sieh mal hier, wir geben die Daten mit ein. Fehlende Werte. Die
fehlenden Werte werden
also einigen Daten und
den ablaufenden Prozessen zugeschrieben. Das kannst du hier sehen. Also, weil es 50 ist, kleide
ich mich auf Sand, wir verkaufen für 500. Es kann also einige Zeit dauern. Jetzt. Es ist erledigt. Stimmt es? Das ist also
die Zahl der multiplen
Imputation fünf. Unsere Imputationsmethode ist PMM, die wir verwendet haben,
prognostiziert und matrixiert. Sie können die
Kelchblattlänge und die Kelchblattbreite 11 sehen. Das ist die
Konfusionsmatrix, okay? Und wie groß ist die Breite der Blütenblätter? Das ist also die
Konfusionsmatrix, die wir bekommen. Was wir nun tun, ist, dass wir
die implizierten Werte
anhand von imputierten Daten überprüfen können , und wir können dafür die
Kelchblattbreite verwenden. Also lassen Sie uns das duplizieren. Wurden importierte Daten nicht gefunden. Warum wir
es wieder so machen. Okay, also habe ich
den Variablennamen als
Datensatznamen als
Zeitraum angegeben . Und wenn ich das ausführe, siehe hier, das
sind die Werte, die wir für
die Kelchbreite angegeben
haben. Okay? Also können
wir auf die gleiche Weise hierher kommen
und Alt drücken. Ich kann wirklich
Meter hinzufügen und sie werden reichen, ich werde etwas Länge angeben. Und wenn ich das ausführe, erhalten
wir auch die unterstellten Werte für die
Länge der Kelchblattpunkte. Okay, jetzt können wir sehen, welche Werte wir in unseren Datensatz
eingefügt und in unseren Datensatz
eingegeben haben . Jetzt können wir die
vollständigen unterstellten Daten abrufen. Da wir die fünf
Setup-Daten eingegeben haben, können
wir das zweite Objekt abrufen,
indem wir das implizierte Komma zwei verwenden. Das wird uns also das, okay, er musste irgendwie unterstrichen werden,
unterstelltes Hockey geben und das leiten. Dann können wir die Zusammenfassung verwenden. Vollständige Daten. Dorsi. Dies ist die vollständige Petition zum Hochladen von
Daten, okay, auf diese Weise können wir die fehlenden Werte
zuschreiben. Nehmen wir an, Sie müssen
ein
Weltprojekt anschreien , in dem einige Werte
fehlen. Sie können also dieses Programm
oder diesen Mechanismus verwenden, um fehlende Werte zu unterstellen, indem Sie
wie hier PMM verwenden. Sie können auch die andere
Methode verwenden. Und es gibt auch nur wenige andere Methoden
, die Sie verwenden können, wie zum Beispiel den prädiktiven
Mittelwertvergleich von PMM für
numerische Werte. Wenn Sie binäre
Variablen mit zwei Stufen haben, können
Sie die
logistische Regression verwenden. Und dafür lautet die
Funktion log reg. Und wenn wir die Bayessche
Bali-Tom-Regression haben, können
Sie Variablen des vierten
Faktors
mit zwei oder mehr Stufen verwenden . Sie können die
polymere Methode verwenden. Und wenn Sie ein
seltsames Modell haben, können
Sie die
proportionalen 4D-Modelle für
Auftragsebene zwei oder mehr verwenden . Das sind also die Methoden dr. Dies sind die Methoden
und Pakete, die Sie für die Eingabe der Daten verwenden
können. Also hier dreht sich alles
um dieses Projekt. Und in diesem Projekt haben wir
gelernt, wie man Daten zuschreibt. Auf die gleiche Weise können
wir also auch
Ihr eigenes Projekt umsetzen. Und Sie können, Sie können
diesen Datensatz nehmen oder Sie können
beliebige andere Daten verwenden. Sagen wir, versuchen Sie, die
fehlenden Werte zu unterstellen und
versuchen Sie , die fehlenden
Werte in die Daten aufzunehmen. Was wir hier getan haben, haben
wir zunächst einige unserer Daten
mit Variablen
ohne Werte eingefügt , oder? Und dann haben wir, was wir getan haben, das PMM verwendet, um diese Werte
einigen Daten zuzuordnen, einigen relevanten Daten, damit wir die richtige Ausgabe erhalten
können. Ich hoffe also, Sie lernen,
wie Sie Daten
in der Programmierung für Ihre Projekte im Bereich maschinelles Lernen und
Datenwissenschaft implizieren können. Ich hoffe, du hast etwas gelernt.
60. Datensätze mit R-Funktionen analysieren: In dieser Vorlesung
werden wir den Datensatz analysieren. Also zuerst,
wenn Sie planen, als
Datenwissenschaftler oder Ingenieur für
maschinelles Lernen
oder sogar als Datenanalyst für
Datenvisualisierung zu arbeiten Datenwissenschaftler oder Ingenieur für
maschinelles Lernen
oder . Du musst keine haben. Was ist Datenanalyse und wie können
Sie die Daten analysieren. Der wichtigste Teil
aller
Data-Science-Projektdaten ist also , wie Sie die Daten analysieren. Datenanalyse ist also der
wichtigste Teil jedes datenwissenschaftlichen
Machine-Learning-Projekts oder sogar eines Datenanalyseprojekts. Was ich also tun werde, ich werde den
integrierten Datensatz verwenden , der
mit dem Paket oder dem Download sofort verfügbar
ist . Es kommt mit
dem R-Paket, okay? Sie müssen es also nicht separat
herunterladen. Es wird so sein, dass es
mit dem Herzen kommt, okay? Es ist also ein eingebauter
Datensatz mit dem r. Also verwenden wir diese Hand. Ich werde Ihnen sagen, wie wir
die eingebauten Funktionen verwenden können ,
um die Daten
zu analysieren und Informationen
über die Daten zu erhalten. Okay? Was ist also ein Datensatz? Datensatz ist im Grunde
eine Sammlung von Daten. Und wir haben am häufigsten gesehen, dass
Datensätze quasi kostenpflichtig sind. Wir verwenden in unseren Datenbanken. Datenbanken, was sie gegeben haben. Der häufigste Datensatz
, den wir gesehen haben, ist der. Also in unseren Datenbanken
wie meiner Fortsetzung, unserer MongoDB oder jeder anderen Datenbank, wenn Sie sehen, dass sie im Grunde genommen aus
dem Kelch genug Daten sind , oder? Wenn Sie sehen, dass MongoDB
eine Sammlung von Daten in Form eines Schlüssel- und Wertepaars ist. Wenn Sie meine
Nachfolgedatenbank oder das
relationale
Datenbankmanagementsystem RDBMS sehen , werden
sie
die Daten in Form
von Zeilen und Spalten speichern. Und Zeilen und Spalten
werden die Daten speichern, oder? Die gebräuchlichste
Datensammlung ist also eine Tabelle, okay? Und wir speichern Daten auch im
XML-Format, auch im JSON-Format. Aber am häufigsten
ist ein Tisch, okay? Sie können also, was auch immer Sie in der
Walmart-Tabelle gesehen
haben,
das die
Daten im Grunde genommen enthält, oder? Also werden wir leere Autos
benutzen. Empty Cars ist ein eingebauter Datensatz in R. Und
diesen werden wir analysieren. Also leere Autos ist der in R eingebaute Datensatz von Motor
Trend Cars, der aus den 1970er Jahren für Motor
Trend US Makin abgerufen wurde, okay? Diese Daten stammen also aus diesem Ford Motor
Trend US-Matching von 1970, okay? Nehmen wir also als
Erstes an, wir haben diesen eingebauten Datensatz, der aus
leeren Autos besteht, und wir
möchten diese Daten laden. Was wir also tun können, wir können einfach
den Datensatznamen schreiben. Und wenn wir das ausführen, erhalten
wir den Datensatz. Das ist also der
Datensatz, den wir haben. Okay? Und wenn du dich draußen hältst, gibt es mehr Kolumnen, oder? Das sind also die Zeilen. Und das sind die
Zeilen, die unterschiedlich sind. Gute Namen, okay? Und für jede Karte gibt es
mehrere Variablen wie MPG,
Zylinderhubraum, auf
die wir warten. Okay? Also all diese Daten, die wir
mit dem leeren Auto haben, oder? Es hat also 11
Kolonnen und 32 Straßen. Das heißt, es enthält die 32 Fahrzeugdetails
mit 11 Spalten. 11 Spalten sind 11 verschiedene
Variablen für jede Karte. Okay? So einfach
geben Sie den Datensatznamen und Sie erhalten die
älteren Informationen, obwohl Sie alle Zeilen
und Spalten des Datensatzes erfassen. Okay? Als Nächstes nehmen
wir an, wir haben das drin. Wir wollen die Informationen bekommen, mehr Informationen
über den Datensatz. Also, wie sich dieser Datensatz in einem Winkel befindet, von dem aus
wir diesen Datensatz erhalten. Wir können also einfach
das Fragezeichen vor
den Datensatznamen setzen . Und wenn wir das ausführen, erhalten
wir die Informationen
über den Datensatz. Und diese
Datensatzinformationen kommen hierher. Also wenn wir fertig sind. Dieser. Fragezeichen,
Fragezeichen: Leere Autos
erhalten diese Information, der Datensatz für
leere Autos. Und das ist der Straßentestdatensatz von Motor
Trend Car. Und das stammt aus
der R-Dokumentation. Okay. Und so gibt es
Ihnen die vollständige Beschreibung. Und total verwendet eine Brita, wie diese Daten formatiert
wurden. Okay, das ist
also ein
Protest gegen Trendautos , und die
Daten wurden aus den 1970er Jahren
für Motor Trend verwendet. Makin befasst sich mit
Kraftstoffkonzepten und Antennenaspekten des Automobildesigns und der
Leistung von 32 Automobilen, 32 Autos in den Modellen 1973-1974. Okay. Und dann gibt es das Format an, als ob mpg Meilen pro Gallone
bedeutet. Zylinder bedeutet Anzahl der Zylinder Hubraum,
PS, Pferdestärken, Tiefgang, axiales Verhältnis Gewicht als 141
mal vier Meilen Teilzeit. Beurteilen Sie den Motor wie VSEPR im Allgemeinen,
gerader Motor. Wir sparen also nach wie vor und wenn es Null hat,
wird es empfangen und
ein Viertel gerade, dann bin für Getriebe
automatisch, wenn ein automatischer Kaiser manuell
oder automatisch und manuell. Und gute Anzahl von Jahren und geschnitzte Anzahl
von Cadbury-Tests. Okay, also die anderen Informationen, die
wir für
diese Datenquelle erhalten , okay. Kommen Sie jetzt zurück
zum Analyseteil. Sie setzen also einfach ein Fragezeichen
vor den Datensatznamen und Sie erhalten alle
Informationen zum Eingabedatensatz. Jetzt wollen wir
die Diamantzellen und
den Variablennamen erhalten . Nehmen wir an, wir haben die
Diamanten und
Schrägstriche, Zeilen
und Spalten, und das ist der Name der Variablen. Stellen Sie sich also vor, wie ich die Variablennamen mit
einer Schleife haben möchte. Also, wie kann ich das bekommen? Also kannst du benutzen. Als Erstes
müssen wir diesen Datensatz
einer Variablen
zuweisen. Und dafür erstelle ich einen variablen
Datensatz, der Autos unterstreicht, und ich weise leere Autos zu. Leere Autos,
Datensatz-Autos werden also die leeren Autos
repräsentieren. Alle Werte für unsere
leeren Autos werden also hier in den Datensatzwagen stehen und diese
können wir in unserem Programm weiter verwenden. Wenn ich also dim verwende und die Datensatzvariable
übergebe, unterstreicht
dieser eine Datensatz Autos. Ich werde die
Diamantensumme des Datensatzes zusammenstellen. Also, wenn ich Namen und einen Teil
des Datensatznamensatzes verwende, oder ich rufe die Variablennamen im Datensatz ab oder lasse
mich diesen Chunk ausführen. Sehen Sie hier. Jetzt gibt es die
Diamanten und 32 Rollen und 11 Spalten, die wir von hier aus überprüfen
können, z. B. 32 Zeilen und n Spalten. Okay? Das sind also die Diamanten
und höher der Datensatz. Und wenn wir dann Namen verwenden, erhalten
wir die Variablennamen. Sie sehen also hier, wir bekommen die
Variablennamen. Der MPG-Zylinder wird von SP
mit all diesen Dingen mitgeschleppt. 32 mal 11,
32 Zeilen und 11 Spalten sind also 32 Zeilen und 11 Spalten sind die Dimensionen des Datensatzes und dies ist der Name der
Variablen. Als Nächstes möchte ich
den falschen Namen
der ersten Spalte extrahieren . Also möchte ich die
Zeilennamen der Spalten finden. Ich kann Zeilennamen verwenden. Und ich kann die
Datensatzvariable übergeben. Also rho name und ich gebe den
Datensatz und die Begleitkarten weiter. Damit erhalte ich zuerst
die Namen aller Wachen, Spaltennamen sagen C oder D oder Delta T. Wie viele? Dies sind die 32
Datensatzvariablen. Entschuldigung, dies sind die 32, 32 Autos, die in
dem Datensatz verwendet wurden und die in diesem Datensatz
verfügbar sind. Also die Flush-Spalte, okay? Und wenn wir dann die Dunkelheit verwenden, wenn ich die
einzig wertvolle Information erhalten
möchte, zum Beispiel die Meilen
pro Gallone aus dem Datensatz. Ich kann diesen
Dollarzeichen-Datensatznamen und dann das
Dollarzeichen MPG verwenden . Ich hole mir die
MPG-Variablenwerte. Okay? Auf diese Weise können wir also
die Werte einer
bestimmten Variablen erhalten . Also für den Fall hier, Wert von mpg, kann ich, ich erhalte die
Werte von mpg, wenn ich EM hier
verwende und Sie
0,1 erhalten , weil das
automatisch und manuell ist. Also schauen wir mal hier,
1000, so. Okay, also Null für
Automatik, eins für manuell. Auf diese Weise können wir hier
Variablennamen verwenden,
wenn ich MPG verwende und als Nächstes, wenn
ich das sortieren will, kommt
dieses MPG
so, okay? Wenn ich
diese der Reihe nach sortieren möchte, kann
ich dafür die
Sortierfunktion verwenden. Und ich kann den Datensatz und
den Scorecard-Dollar mpg sortieren. Und es sortiert die Werte
dieser MPG-Variablen c, ein Künstler kommt jetzt, sortierte Form, aufsteigend. Okay? So können
wir sie also sortieren. Ich verliere einen Wertvollen. Als Nächstes
möchte ich den Datensatz analysieren. Also kann ich jemanden benutzen
und ich kann
den Variablennamen für
den Datensatz angeben den Variablennamen für und ich erhalte
die Zusammenfassung der Daten. Sehen Sie sich hier diese schöne
Zusammenfassung der Daten wie Meilen pro Gallone an.
Was ist das Mittel? Was sind die ersten
Quartilwerte? Was ist der Median? Was ist das Mittel? Was
ist das dritte Quartil? Was ist der
Höchstwert für jede Variable? Wir bekommen diese
sechs Werte, oder? Zuerst der Median, wie Min, erstes Quartil, Medianmittelwert und dann Minimalmittelwert,
Median und Maximalwerte. Und das erste Quartil
und das dritte Quartil für jede dieser Variablen, wir erhalten diese Informationen. So erhalten Sie
diese Zusammenfassung der Daten. Und das sind die Dinge, die wir in den kommenden Vorlesungen
lernen werden . Wie wird der Mittelwert berechnet, was ist der Median, was ist das erste Quartil und das
dritte Quartil? So können wir also
Informationen erhalten und
den Datensatz in R analysieren . Wir können unseren Datensatznamen verwenden,
um den Datensatz zu erhalten. Wir können das Dollarzeichen verwenden, um
die Informationen über den
Datensatz zu erhalten , und wir werden den Datensatz erstellen. Wir können die Funktion lm verwenden , um die Dimension
des Datensatzes zu ermitteln. Wir können names,
function verwenden , um den
Namen der Variablen zu erhalten. Wir können Zeilennamen verwenden,
um eine Zeile, die
erste Spalte, jede Zeile in
der ersten Spalte zu löschen , okay? Werte jeder Zeile in
der ersten Spalte, dann können wir dieses
Dollarzeichen verwenden, um
die Variablenwerte
für den Datensatz zu erhalten . Und dann können wir
die Sortierfunktion verwenden , um
die Variablenwerte zu sortieren, und dann können wir die Zusammenfassung verwenden , um die Zusammenfassung der Daten zu erhalten. Okay, so können wir diesen Datensatz in R
analysieren.
61. Datenmanipulation mit dplyr-Paket: Hallo und willkommen zurück. In dieser Vorlesung werden
wir etwas über
Datenmanipulation in R lernen Datenmanipulation in R Wir werden
also etwas
über Datenmanipulation lernen. Und dafür werden
wir das ggplot-Paket verwenden. Ein doppeltes Paket ist also sehr wichtig, wenn
Sie Daten manipulieren möchten. Und ich verwende diese RMD-Datei. Ich habe
den Code bereits geschrieben,
sodass wir einfach weitermachen und etwas über die grundlegenden Dinge
des Spielers lernen und einige Daten manipulieren können
. Als Erstes müssen Sie das Paket installieren
, wenn
Sie den Player verwenden
möchten , oder? In unserem, wann immer Sie das eingebaute verwenden möchten
, möchten
wir einige
Funktionen verwenden. Wir müssen das
Paket auf
unserem R installieren und dann
können wir weitermachen. Wenn Sie
mit dem Plan arbeiten möchten, den Sie haben,
müssen Sie ihn installieren. Du kannst entweder
die Deep-Ebene selbst installieren ,
eine Spielerin, oder wenn du das Ganze installieren möchtest ,
das
mit der Tidyverse geliefert wird, kannst
du das Tidyverse verwenden. Wenn Sie also Tidy
Verse installieren, wird
standardmäßig eine
tiefe Ebene hinzugefügt, sodass sich der Plan
innerhalb dieses Tidyverse befindet. Und wenn du
das Ganze nicht in
diesen Tidyversen installieren möchtest , kannst
du
mit dem d plus alleine gehen. Sie können also
entweder dies oder das ausführen. Irgendein von denen. Du kannst weglaufen. Also kannst du damit weitermachen. Du kannst mit der ordentlichen Strophe oder mit
der tiefen Ebene gehen, okay? Sie bauen also auf
Ihrer Anforderung auf. Damit kannst du gehen. Ich schlage vor, dass Sie
das Tidyverse installiert haben. Also ich habe
diese beiden Pakete installiert, also werde ich diesen
P-Untercode,
diesen Teil des Codes, nicht ausführen , ich
werde ihn nicht ausführen weil ich sie bereits
installiert habe. Also, was ich tun werde, ich werde dir das nächste Ding zeigen. Okay, lass mich das klären. Das Erste, was wir mit der
Datenmanipulation in der Kunst machen können, indem wir diesen Spieler
verwenden, ist, dass wir den Filter verwenden
können, den
wir verwenden können, auswählen. Wir können Group by
all die Dinge verwenden, die wir mit dem Plot in R
machen können . Okay, also was ich tun werde, werde ich verwenden,
ich werde Ihnen auch zeigen, wie
wir den Filter
in R verwenden können , indem wir die Weichzeichnungsbibliotheken verwenden. Für dieses, was
ich verwenden werde, werde
ich
den eingebauten Datensatz verwenden Star Wars
heißt. Star Wars ist ein integrierter
Datensatz, der in der Kunst verfügbar ist. Also was ich verwenden werde, ich verwende Star Wars und dann werde
ich diesen Pipe-Operator verwenden. Und was ich tun werde, ich verwende die
Filterfunktion und
gebe Filterarten an,
das nennt man zwei Triaden. Was es also
tun wird, es wird
alle Arten holen , die gleichwertig
sind, um es zu ziehen. Es wird also in den
Star Wars-Datensatz gehen. Es wird dem
Star Wars-Datensatz gegenüberstehen. Und darin
wird es
den Filter anwenden und es wird scheitern. Es wird den Datensatz
anhand dieser Spezies filtern. Okay? So wird es also funktionieren. Wenn die Arten ziehen,
wird der Filter angewendet. Also lass mich, ich führe einfach diesen Code aus. Also ich
klicke einfach hier und sehe. Jetzt bekommen wir die Aufladung. Okay. Also sieh dir deinen Namen an, hochgezogene,
sumpfige Haarfarbe, Hautfarbe, Augenfarbe, repariere all die
Dinge, die wir bekommen. Okay. Das bekommen wir also
für die Spezies. Probiere es aus. Okay. Schau hier, wenn du
die Spalte Arten siehst , ist
alles trocken. Es ist nur, oder? Es werden also nur
Daten für getrocknet angezeigt , da wir
den getrockneten Filter hier angewendet haben. Es zeigt uns also dritte Daten nur für Arten,
sodass
wir auf diese Weise den Filter anwenden können,
wir können den Datensatznamen Via und
dann den Pipe-Operator und
dann die Filterfunktion
und ihre Spezies verwenden dann den Pipe-Operator und . Der Spaltenname ist
artspezifisch und entspricht der Zeichnung. Also wird es, also alle Arten, die gelöschten Daten an uns, okay. So
funktioniert der Filter in der Anlage. Okay, als Nächstes
werden wir Select verwenden. Wählen Sie also aus, wie es funktionieren soll. Nochmals das Gleiche. Wir werden benutzen. Dieser Stern war
Datensatz und dann Pipe-Operator, und dann verwenden wir
Select, select , und dann müssen wir
die Namensendungen mit Farbe beibehalten , damit alle
Namen abgerufen werden, die mit Farbe enden. Also lass mich das ausführen. Sehen Sie hier. Nun, was es tut. Es ruft alle Spalten ab. Alle Spalten
enden mit Farbe, Haarfarbe,
Hautfarbe und Augenfarbe. Es werden also
nur die Spalten angezeigt , die
mit Farbe enden, oder? Also wählt Star Wars
den Namen und endet mit der Farbe. Es zeigt Ihnen also die Wanli George-Säulen
, die mit Farbe enden. Also unterstreiche, unterstreiche Klasse. Es werden also
nur diese Daten angezeigt. Wenn du dir das
vorherige Ding ansiehst. Hier. Es gibt viele Spalten
wie Höhe, Masse. Und dann haben wir
Notaufnahme, Sex, Geschlecht. Aber es zeigt
uns nicht alle diese Spalten, sondern nur
die Spalten,
die mit Carlos enden, die mit Farbe enden. Okay? Das ist also die Art
, den Select zu verwenden. Im. Als Nächstes
werden wir etwas über Mutaten lernen. Was werden Mutaten also bewirken? Es wird erstellt, wenn
Sie dem Datensatz neue
Variablen oder
Variablenwerte hinzufügen möchten , können
Sie die
Mutate-Funktion verwenden, okay? Also mutiere, um etwas Neues hinzuzufügen, okay? Füge etwas Neues hinzu,
eine neue Variable. Wenn Sie hinzufügen möchten, können
Sie die Mutate-Funktion verwenden. Also, wie wir das machen können, können
wir einfach Star Wars,
dann
den Pipe-Operator und
dann die Funktion mutate geben , und dann müssen wir einen Namen geben. Und dann können Sie hier
die neue Variable oder
den neuen Wert definieren die neue Variable oder , den
Sie angeben möchten. Also hier, was uns gegeben wird, bekommen
wir Namen und Namen. Hier führen wir die
neue Variable BMI ein und v hier geben wir ihnen, wie der
BMI berechnet werden sollte. Wenn Sie also nicht angeben möchten, können
Sie den Wert fest codieren. Aber hier, was wir tun, verwenden
wir die Masse geteilt durch Höhe durch 100 Potenz, um, okay? Das ist also die Formel, die
wir für die
Berechnung des BMI
Body-Mass-Index verwenden , okay? Also Größe und Gewicht, das wir zur
Berechnung des BMI verwenden. Und dann geben wir diesen
BMI an die Funktionsauswahl weiter. Also verwenden wir hier zweimal den
Pipe-Operator. Also was es tun wird, es wird zuerst
diesen BMI hier berechnen und dann wird dieser BMI sein, dieser BMI wird
an diese
Auswahlfunktion hier übergeben . Sehen Sie, Ihr BMI kommt von
dort her. Also, was auch immer hier gesammelt wird, es wird so weit kommen. Also dieser BMI wird
hierher kommen, oder? Das ist es also, was die
Rohrbetreiber und der Bediener tun, oder? Es wird den Ausgang
an die nächste Funktion weiterleiten, Ausgang
an die nächste Funktion weiterleiten den
Ausgang aus der Stummschaltung. Es wird zum ausgewählten Mutation gehen. Mutieren, wir werden mutieren, wir werden den BMI erstellen, wir
werden den BMI und dann gehen wir
zur Auswahlfunktion über. Okay? Also, wenn ich eine
bildliche Darstellung geben würde, was, wie wird es funktionieren, IT-Unterstützung, wir werden mutate verwenden. Die Mutate-Funktion
liefert eine gewisse Ausgabe. Und diese
Ausgabe der Mutationsfunktion geht an den Select. Okay? Nehmen wir an, wir haben hier die Masse und Höhe.
Masse und Höhe. Masse und Höhe
gehen an den Mutation, und dann gehen die Mutationsausgänge
an den, gehen Sie zum Select. Also so funktioniert der Pipe
Operator, oder? Die Ausgabe wird
an diese Funktion übergeben. Okay? So rockt der
Pfeifenbetreiber also. Hier erstellen wir die
neue Variable BMI, den
neuen Wert BMI , und
wir gehen zur Auswahlfunktion über, um die Funktion
auszuwählen was wir mit
dem Namen Masse und BMI tun. Also wählt es die Maske aus
und es wird der BMI sortiert. Lassen Sie mich also diesen Code ausführen. Also klicken Sie hier und sehen Sie sich hier
Name, Größe und BMI an. Basierend auf Masse und Größe,
Gewicht und Größe
zeigt es uns also bald den BMI. Diese BMI- und BMI-Spalte war in den
früheren Daten nicht enthalten, oder? Lass es mich dir zeigen. Hier. Wir haben nicht den BMI, BMI-Reha wurde mit
dem BMI geschaffen, den wir mit
dieser Mutationsfunktion geschaffen haben, oder? Mit der Mutation haben
wir also den
BMI erstellt und
unseren Datensatz erweitert. Okay, auf diese Weise können Sie
eine neue Variable oder einen neuen Wert erstellen eine neue Variable oder einen neuen Wert und diesen
mit der
Mutate-Funktion im Spiel
zu Ihrem Datensatz hinzufügen . Als nächstes beschreiben wir die Massenquelle. Wir sind das, was wir können. Wir können die Messe arrangieren. Lassen Sie uns das ausführen und sehen. Siehst du, jetzt
bekommen wir die Größe, Masse und Haarfarbe, Hautfarbe, Augenfarbe, all die Daten, alle
Spalten, die wir bekommen, richtig? Und es gibt den
Massenwert an, oder? Hier. Ist es. Es ist wie eine abnehmende Reihenfolge. Es gibt uns die Masse, Größe, Haarfarbe
und all diese Dinge. Okay. Wenn du es ändern
möchtest, kannst
du es in
ein anderes Ding ändern und sehen, wie es kommt. Als Nächstes. Zum einen können wir
die Gruppe auch hier benutzen. Also, welche Gruppe von, Gruppe BY wird das tun? Es wird sich nach Arten gruppieren. Wir machen also sehr schlanken Starbucks-Datensatz und das ist der Pipe-Operator. Und dann gruppieren Sie nach
dem, was auch immer die Gruppe nach Spezies
postuliert, was sie tun wird. Es wird eine der Arten
gruppieren und dann wird es uns den Willen
geben. Also als Zusammenfassung in einem
einzigen Datensatz, okay? Es gibt an, was die
Zusammenfassungsfunktion tun wird. Sie erhalten die einzige
Zusammenfassung des Datensatzes. Hier verwenden wir also
n ist gleich n, Masse ist gleich Mittelwert,
mittlere Masse ist gleich Masse. Und eine na.rm bedeutet, dass
jeder Wert, der nicht verfügbar ist,
entfernt, was
an unserer Nabelschnur endet. Sehen Sie, wenn Sie hier nachschauen, einige der Werte sind
nicht verfügbar, oder? Es werden also die
Werte entfernt, die nicht waagerecht sind. Okay, also am Ende bin ich es nicht. Was ich tun werde. Es entfernt die Datenzeilen , die
keine Werte haben. Okay? Was es also tun wird, es wird das
maskierte Mittel der Masse erzeugen. Okay? Das wird es auch, da wir
nach Arten gruppieren. Für jeden SPC wird Ihnen also die
mittlere Masse, die durchschnittliche Masse, angezeigt. Und dafür verwenden wir
die Mittelwertfunktion,
um den Durchschnitt
dieser Masse oder den Durchschnitt
der dieser Masse oder den Durchschnitt
der Gesamtmasse für eine
bestimmte Spezies zu ermitteln. Und wir gruppieren
nach Arten. Okay? Als Nächstes, Was wir tun, verwenden
wir den Filter. Wir verwenden hier Filter. Und größer als eins, Masse, größer als 50, wir
wenden den Filter hier an. Welcher Filter? Also größer als eins
sein und muss größer als 50 sein. Das ist also unser Filter, diesen Filter wenden wir an. Okay? Also, welche anderen
Schritte unternehmen wir? Zuerst? Wir gruppieren
nach Arten und dann erhalten wir
die einzige Zusammenfassung. Und wir erhalten den Mittelwert
der Masse für diese
bestimmte Spezies. Und dann wenden wir einen Filter an, bei dem n größer
als eins und Masse gleich ist. Lassen Sie uns das ausführen und sehen,
welche Ausgabe wir erhalten. Lassen Sie uns das ausführen und die Ausgabe hier
sehen. Sehen Sie die Ausgabe C. Jetzt bekommen
wir nicht den Namen, die Art,
weil wir eine Gruppe haben. Wir haben verwendet, wir haben
die Gruppe für Art verwendet, wir haben Gruppe für Art verwendet. Und wir haben
den Mittelwert der Masse
für die Art berechnet. Deshalb zeigt es
das n.
Größer als eins. Für
niemanden wird es nicht angezeigt, es ist Nähen und Werte
, die mehr als eins sind. Okay. Und die andere Spezies,
trockener, abgestorbener Kaugummi, Mensch. Kannst du MATLAB,
Tweak, Rookie Jab Rack besitzen Tweak, Rookie Jab Rack Also alle Arten, es ist Swing und es
zeigt für die Werte 1250 an,
denn was wir gegeben haben,
was ich Ihnen gegeben habe, ist denn was wir gegeben haben, die
Antwort größer als eins. Deshalb zeigt es uns die n Werte, die größer
als 123630 Byte sind. Jetzt werden die Werte
kleiner als eins angezeigt, okay? Und dann Masse, es wird
mehr als richtig angezeigt. Also welchen Filter haben wir angewendet einen Filter, den wir als
masturbieren über 50 angewendet haben. Es zeigt uns also die
Maske, die größer ist als die Pubertät. Diese Massen bedeuten, dass diese Arten
massenhaft werden. Also dafür zu unserem Display gibt es vielleicht viele Dinge, oder? Aber wir haben den
Durchschnitt oder Mittelwert
all dieser Teile genommen und
den Durchschnitt der getrockneten Teile weggegeben . Okay, lass es mich
dir im Datensatz zeigen. Siehst du hier als ob all diese Arten zur Dürre gehören und
sie die Masse haben, oder? Sie haben die Mathematik, oder? Und sie haben uns
das ermöglicht, was wir getan haben. Wir haben diesen
Arm jahrelang beendet, um diese Reihen zu entfernen. Und all diese Namen
gehören zur Spezies. Zeichne es, zeichne es und sie haben Masse. Was wir also getan haben, wir
haben die gesamte Masse genommen, die gesamte Masse dividiert
durch die Anzahl der Arten zusammengefasst, Namen im Trockenen
nummeriert. Für diese Genauigkeit
haben wir
den Mittelwert berechnet, indem wir hier die
Mittelwertfunktion verwendet haben. Lass es mich dir
hier zeigen, richtig, ich meine, deshalb ist es bei einem
Stern-Mosfet
so , jede Artengruppe. Also für den Menschen die Hauptbotschaft, dass
T2 für Trockner Massen bedeutet. Das, okay, also
auf diese Weise können wir
den Plot für die Datenmanipulation verwenden . Okay, was sind die
Dinge, die wir gelernt haben? Wir haben gelernt, dass wir unser Tidy Verse-Paket
installieren müssen, um das Duplikat verwenden zu können. Und wir haben verwendet, wie filtern und wie wir
Filter auf unseren Datensatz anwenden können. Und wie wir
Select in unserem Datensatz verwenden können. Und dann, wie wir
mutieren und unserem Datensatz eine neue
Variable hinzufügen, mutieren oder hinzufügen können. Und dann haben wir gesehen, wie
wir unseren Datensatz anordnen können. Und schließlich
haben wir GroupBy gesehen und zusammen mit dem
Filter in unserem letzten Beispiel
zusammengefasst. Ich hoffe also,
Sie wissen, was wir mit
der tiefen Schicht machen können und wie wir die
Datenmanipulation in der Kunst durchführen.
62. Einführung in Shiny interaktive Dashboards in R: Hallo und willkommen zurück. In dieser Vorlesung
lernen
wir, wie man mit RStudio signiert. Also, was ist das für ein Zeichen? Von unserer Gesamtzahl? Dieses winzige Gerät ist also eine Möglichkeit, mit den Daten zu
kommunizieren. Es ist im Grunde eine
Dashpot-Lösung oder ein
Visualisierungsvisualisierungstool für uns, okay. Wenn Sie also Daten in R
visualisieren möchten, können
Sie dieses winzige RStudio verwenden. Dies ist Interaktion, Analyse und Kommunikation
mit dem Anmelder. Wir können interaktive
Dashboards erstellen, in denen die Daten nicht nur im grafischen Format
oder in einem Dashboard angezeigt
werden , sondern wir können auch
mit den Daten interagieren , die
sich im Dashboard befinden. Das ist also das Schöne
an der Anmeldung von RStudio, mit der nicht nur ein Dashboard
erstellt wird , das auf den Datensätzen
basiert, sondern
wir interagieren auch mit
dem Dashboard selbst. Es heißt also, nehmen Sie einen interaktiven Ansatz, um
Ihre Datengeschichte mit Signierung zu erzählen , lassen Sie die Benutzer
mit Ihren Daten und
Ihrer Analyse interagieren und erledigen Sie
alles mit unseren. So
sehen sie die Daten nicht nur im grafischen Format und in
den Grafiken und im Dashboard, sondern sie können auch
mit den Daten interagieren und sie können wirklich sehen, welche Auswirkungen unsere
Analysen auf die Daten haben. Lassen Sie mich also einfach nach unten scrollen, um zu sehen, was
die anderen Optionen bedeuten. Also are in arsine ist ein R-Paket, mit
dem Sie ganz einfach interaktive
Web-Apps direkt von uns aus
erstellen können. Wir werden also keine anderen Dinge
verwenden, sondern die
R-Programmierung selbst verwenden. Und wir können interaktive, auf
Web-Apps basierende Dashboards erstellen. Sie können eigenständige
Apps webbasiert hosten oder in R
einbetten.
Markdown-Dokumente wurden als Sport erstellt. Also seht, das muss Flexibilität sein. Vorausgesetzt, wir können, wir können nicht nur
eigenständige Webseiten und Apps erstellen, sondern wir können sie auch in die RMarkdown-Datei einbetten. Dokumente befinden sich in einem Dashboard, das ist das Schöne
am Signieren in R.
Sie können Ihre
Signier-Apps auch um CSS-Teams,
HTML, Widgets und
JavaScript erweitern,
so Sie können Ihre
Signier-Apps auch um CSS-Teams,
HTML, Widgets und
JavaScript erweitern Exxons CEO. Das ist also die
Schönheit, die du nutzen kannst. CSS, Teams, HTML, Widgets und Exzellenz, damit es interaktiver
wird. Nach der Erstellung können wir also auf
verschiedene Arten mit dem mit der Signatur
erstellten Dashboard arbeiten . Was kann das
Signieren sonst noch bewirken? Assignee kombiniert die
Rechenleistung von R mit der Interaktivität
der modernen Welle. Wir alle wissen also, dass R
Pakete hat , mit denen wir
gerne an den Daten arbeiten können. Wir können die Erkenntnisse bekommen. Wir können direkt über unsere
Pakete Erkenntnisse aus
den Daten gewinnen und die Programmierung hinzufügen. Und nicht nur diese Erkenntnisse, sondern auch was auch immer wir bekommen. Berechnen Sie aus den Daten. Wir können sie auf
den neuesten Stand bringen und mit
den Dashboards und
Daten oder Grafiken interagieren . Das wird uns also mehr
Erkenntnisse aus den Daten geben, oder? Sehen Sie sich also ein einfaches
Beispiel für die Zuweisung einer App an. Du kannst dich sehen. Okay, lassen Sie mich den
Google-Index sehen, den Trendindex. Dies ist eine einfache
Shiny-App, die sie erstellt haben. Und hier können Sie
eine sehr schöne Grafik sehen ,
die wir sehen können. Jetzt können
wir mit dem Beauftragten hören, Sie können den Index, den
Trend und den Indexverlauf
auswählen. Oder wenn Sie etwas ändern möchten, können
Sie es auf Werbung, Marketing
und SEO umstellen. Die Grafik ändert sich. Ich kann von hier aus
etwas auswählen. Und diese Grafik bauen
wir einfach auf
dem Trendindex Arbeitslosigkeit auf. Ich will sehen, Siehst du. Dies zeigt nun den Trend der
Arbeitslosigkeit. Ich kann
Kleinunternehmen auswählen und
das wird den
Trend für Kleinunternehmen in Bezug auf diese Daten,
Mieten, diesen neuen Trend lösen . Okay, also, so können
wir den Selektor hinzufügen. Wir können mithilfe von Signieren ein interaktives
Dashboard erstellen. Okay? Und sehen Sie, ja, das wird ausschließlich
mit unseren
Programmen erstellt , mit unserem Code. Jetzt werden wir
in der nächsten Vorlesung auch
eine solche Shiny-App erstellen . Und sehen Sie hier, das sind
die App-Daten, das
ist das Programm, das in R4 geschrieben ist, diese Art von verzweifeltem
interaktivem Dashboard. Hier verwenden sie also ein
Signage-Paket, Deep-Layer-Reader,
Si110-Teams und einen Deep Layer. Und das ist die Beschreibung. Wenn du willst,
kannst du es durchgehen. Dies ist die offizielle Website
von signing.rstudio.com. Wenn Sie
mehr über das Schild erfahren möchten, können
Sie sich die
Galerie ansehen und
mehr Informationen
über die Signierung erhalten . Okay, Arsin, du kannst dir
ansehen, wie ein Detektiv die lineare
Regression modelliert. Und dann unser winziges Paket zum Erlernen der Modellierung der Immunantwort. Es gibt verschiedene
Projekte, die Sie selbst lesen können . Ich werde die
Beschilderung zur Website beschriften. Okay. In der nächsten Vorlesung werden
wir also auch
eine Shiny-App erstellen. Und wir werden sehen, wie
wir
mit dem Dashboard interagieren können , okay.
63. ShinyApp Interaktives Dashboard mit Shiny erstellen: Hallo und willkommen zurück. In dieser Vorlesung werden
wir also unsere eigene Shiny-App
erstellen, in der wir eine Shiny-App
erstellen werden. Also, was wir erstellen
werden, und dann werden wir sehen,
wie wir es schaffen. Okay? Also sieh hier, das
ist unsere Shiny App. Und hier werden wir das tun. Wir werden
eine Diaspora erstellen,
die auf dem Videospiel Mario Kart Eight
basiert und auf den
Videospielcharakteren die
wir analysieren werden. Wir gehen zum Designer. Wir werden ein Dashboard
erstellen in dem Sie
mit dem Dashboard interagieren können. Klicken Sie auf die Visualisierung
und sehen Sie hier, standardmäßig ist Split da. Und hier werden die anderen
Variablen da sein, okay? Die Y-Achse und die X-Achse, okay? Sie erhalten also, dass die X-Achse
die Y-Variable ist, hier die Geschwindigkeit und hier auf der Y-Achse
wird der Charakter genäht. Also hier haben wir die Charaktere, die Charaktere und die Namen der Charaktere
sind hier, okay? Und wir werden
ihre Geschwindigkeit und andere
Variablen wie die Geschwindigkeit im Wasser
analysieren . Und wir können auch die
Beschleunigung auswählen und Sie können sehen, welche
Beta-Beschleunigung. Also sieh hier, das ist das
Dashboard, in dem wir, wir können
mit dem Dashboard interagieren. Wir können die
Variable hier auswählen, Handling. Und das lösen
wir
für das Handling und sagen, ja, ich setze die Handhabung in Wasser
und es wird generiert. Auf diese Weise können wir mehr als genug erstellen
, was interaktiv sein wird. Und Sie können die
Variable hier auswählen und
den Effekt im
Dashboard sehen , okay? Grafik. Und sehen Sie sich hier die verschiedenen Farben
Wurfglas an, schwer, leicht und mittel. Okay, so können wir die Signier-App für uns
verwenden, das interaktive Dashboard, wir haben das Mario
Kart 8-Spiel abgeschlossen. Okay, jetzt haben wir
gesehen, was das ist? Also seht euch hier die Klassen an, die verschiedenen Farben stehen für die Klassen Heavy,
Light und Radium. Und hier können wir die Geschwindigkeit auswählen und es wird die
Variablenbehandlung ändern, dann ändert sich das Diagramm. Okay, das ist also die App, signiere die App, die
wir erstellen werden, okay? Und das können wir im Browser öffnen,
das liegt
auch daran, dass es auf unserem lokalen Host geöffnet wird. Okay, wir können
das auch im Browser öffnen , um
auf Im Browser öffnen zu klicken, und es wird auf die gleiche Weise in Ihrem
Standardprojekt geöffnet. Okay, wenn wir heutzutage
im Browserhockey arbeiten, verlieren wir die
Datenquellenebene auf der Kaggle-Website. Sie können also auf die
Kaggle-Website gehen und die Daten und
Ihre Visualisierung ansehen. Du kannst „Ändern“ wählen, okay? Je nachdem, was
Sie auswählen, wird
es in Ordnung sein Also dieses interaktive, das ist es,
was wir erstellen werden. Lassen Sie mich
Sie also schnell zum Code führen. Es ist ein ziemlich einfacher Code. Was wir hier also
tun müssen, ist, dass
diese Signier-App im Grunde aus drei Komponenten besteht. Drei Komponenten x
wirklich drei Komponenten, oder drei Webseiten, drei Seiten, die
wir brauchen
, können Sie bekommen , die
erste ist der App-Punkt und dann ist die zweite
der Server. Und der dritte
wird der UI-Teil sein. Okay? Also eine Reihe von Wörtern und dann UA. Also app.all server und ui.R. Das sind
also die drei Dateien, die
wir schreiben werden, okay? Und abgesehen davon haben
wir einen Ordner erstellt. Sie müssen
eine für Leucin in der App erstellen Namen Sie
auch immer geben
möchten, Sie können ihn geben. Und dann wurde eine
Datenordner-App aktualisiert, wobei die CSV-Datei beibehalten wurde, die jeweils
den Datensatz enthielt. Okay. Also lass mich öffnen und Boden erden. Dies ist der Datensatz
und er enthält alle Zeichen, Glasperlen, die anderen Details, und
das sind die Namen und das sind die
Geschwindigkeit und all diese Dinge. Okay? Das ist also der
Datensatz, den ich aufbewahrt habe. Bring uns Character Dot CSV lade es vom Kaggle herunter. Okay. Das nächste Ding ist da, das Bild, das wir auf der Vorderseite
sehen. Diese Bilder hier. W, W, W-Ordner. Und das sind sowieso die drei Dateien der
App Gitarrensolo-Daten,
Daten, die ich erstellt habe. Okay, lass mich zum Code gehen. Die erste Sache ist app.all. Was wir brauchen. Wir brauchen wir brauchen wir brauchen
die Bibliothek des Beauftragten, okay, also musst du den
Download herunterladen und die Shiny-Bibliothek
installieren. Sie können hier die installierten
Pakete sex und year finden. Und Sie müssen
klicken, klicken Sie einfach auf Installieren und damit auf einen
kleinen Namen, und schon ist es erledigt. Also lass es mich dir zeigen, klicke
einfach hier. Und hier müssen Sie
das Zeichen S, I, N, Y, angeben. Und dann müssen wir auf Installieren
klicken. Und das Sami-Paket
wird installiert. Ich habe es also bereits installiert, also werde ich es nicht noch einmal tun. Sie müssen also
das Shiny platzieren und dann auf Installieren
klicken und
es wird installiert. Abgesehen davon können Sie
auch install.packages verwenden. Du kannst ein Problem
mit dem Stift gebrauchen, okay? Und Sie können
das Namensschild hier anbringen. Sei wortwörtlich fertig, okay? Sie können also
install.packages verwenden und den
Paketnamen eingeben und mir zuweisen. Und hier geben wir diesen
Quell-Add-UI.r-Quellen, ui.R und anderen
Quellservern diese Option. Das sind also die beiden Dinge wir in der App verwenden werden. Punkt Punkt, Punkt, Punkt ist unsere
Haupthauptdatei , in der wir
UI.r und Mobilfunkdaten aufrufen. Dann erstellen wir
die Shiny-App, indem wir die
benannte Shiny-App angeben. Und hier, äh, entspricht UA
und serologisch dem Server. Okay, also welchen
Namen Sie auch geben, den Dateinamen, den Sie hier angeben
können, okay. Das ist also der einfache App-Punkt unserer Datei, in der wir gerade die Bibliothek
laden und
die Quelle angeben, als würden
wir
E-Y-E Punkt r und Server verwenden , die
sich in diesem nachträglichen Gedanken befinden. Okay, und dann erstellen wir eine
Zuweisungs-App, in der wir den
UID-Dateinamen und die Sulfidgrenze
angeben. Okay. Das ist also die App, die ausfüllt. Dann ist das nächste Wort Punkt sind das
dritte Wort. Das ist so traurig. Ich gehe zu den Mobilfunkdaten. Und hier können Sie sehen dass
wir das
GG-Plot in die Bibliothek geladen haben. Weil wir das tun werden, erstellen
wir ein Dashboard oder wir erstellen ein
Diagramm für das Diagramm. Wir sehen, dass
wir
mit Hilfe von GG Handlung zwei erstellen . Und dann haben wir hier eine
Spezifizierung dieses Datensatzes. Von hier aus werden
wir den Datensatz abrufen. Daten haben weniger Zeichen,
keine CSV-Datei-App. Also weiter, Sie und wir verwenden read dot csv total,
diese CSV-Datei. Und wie man eine
CSV-Datei liest, die wir
bereits in den
vorherigen Vorlesungen gesehen haben. Okay, dann
erstellen wir den Server hier. Um einen Server zu erstellen, führen
wir einen Server bei dem der Wert meiner
Variablennamen gut ist, und dann verlieren wir Funktion, Eingabe und Ausgabe und Ausgabe. Wir lesen bei Plot. Und wir verwenden die
RenderPlot-Funktion , um den Plot zu rendern. Und wir verwenden
Charakter, Charakter und dann verwenden wir Faktoren um Daten,
Bezeichnungen und Ordnung zu erstellen. Wir verwenden die
Charakter-Dollar-Klasse, okay? Und dann verwenden wir das
GG-Plot, um dieses Diagramm zu zeichnen. Und hier lesen wir Daten, die wir
lesen, Punkt CSV und die X-Achse,
X-Wert , WM-Zeichen,
Stat-Identität. Und die Y-Eingabe. Der Y-Wert in Dollar
bedeutet die Eingabe, die wir für das Y
auswählen, das ausgewählt
werden soll. Dass dies der
Teil ist, in dem wir
die Interaktion oder das Drop-down-Menü haben ,
das wir auswählen, es wird dort erscheinen, okay? Und dann
lesen wir Karten Flip. Die Koordinaten werden also umgedreht. Okay? Das nächste Ding ist Ui.R. Wenn Sie
also sehen, warum das seltsam ist, ist
es auch ziemlich vereinfacht. Wir verwenden das
Zeichenmerkmal Punkt CSV und wiederholen
die Zeichenpunkt-CSV-Datei. Und dann verwenden wir die Einführung
auf Seite eins, da wir zwei Seiten
und Produkte haben und n, Visualisierungen und
Produktionsphase, befindet sich im Zeichnen, um
das Panel für die Einführung zu erstellen. Und wir verwenden die Überschrift
Einführungstitel für das Finale. Und dann verwenden wir
die Bildquelle. Und wir machen hier
die Pause. Und das ist das Schreiben von
Absätzen. Und dann
geben wir hier den Link, den Kaggle-Link
, den wir gesehen haben, dass wir Protein haben,
das dann von Seite zu Seite einfach ist. Die Interaktion und das Panel, wir entwickeln das beste
Tool für die Visualisierung. Was wir tun, wir verwenden ausgewählte Werte, den Spaltennamen. Die Spaltennamen der Zeichen
werden die Werte sein. Und was verwenden wir dann? Wählen Sie Werte aus, wählen Sie aus, wo Zeichen
verloren gehen. Okay? Wir sind also Teil
der Klasse, okay? Hier verwenden wir die
Auswahlabfrage, also gut. Nicht im Select-Value-Job. Im Gegensatz zum Grunde
entfernen wir hier die unerwünschten
Spalten. Und wir entscheiden uns für den
Charakter in dieser Klasse. Hier erhalten wir die Seitenleiste
über das Seitenleistenfeld. Und hier wählen wir
die Eingabe für y aus, wobei y unterstreicht, wo und level
die Y-Variable sein wird. Sie können es, wenn
Sie möchten,
in alles ändern ,
wählen Sie Werte aus. Und schon
wird
der Ladewert der für die
gewählte Geschwindigkeit gleich der Geschwindigkeit sein. Die Geschwindigkeit wird also
standardmäßig für unsere Verzweifelten ausgewählt sein. Okay. Als nächstes kommt der Hauptinhalt. Wir verwenden das Hauptpanel und das
Plotausgabediagramm, okay? Und das wird
vom Southern Blot kommen. Und die zweiten Diskussionsteilnehmer, das Tab-Panel, in dem wir uns befinden, also Individualisierung,
Titelpanel
, der Titel, den wir geben
, der Absatz, den
wir schreiben. Und dann das Seitenleisten-Layout, welche Seitenleiste den Inhalt
unterstreicht, der Hauptinhalt kommt hierher. Okay? So haben wir
diese drei Dateien erstellt. Und diese beiden Punkte, Server und Typ,
rufen
innerhalb der App-Daten jüdisch an. Okay, jetzt
werden wir die App ausführen. Klicken Sie also auf App ausführen, und sie wird ausgeführt und
das RStudio-Fenster wird geöffnet. Und jetzt sehen wir die Seite, unsere Hand hier, Sie können
die Einführungsseite sehen und zwei Seiten
visualisieren und einfügen. Und die Einführung zahlt sich aus. Nichts ging einfach so. Und das Bild, das
wir aufgenommen haben, und das ist der Absatz
und das ist der Link , den wir Ihnen gegeben haben, wo
wir das angegeben haben. Wenn ihr in UI.R herkommt, seht euch hier den Titel an, den
wir gegeben haben, und dann das Bild, das wir haben,
noch besser Kalabrien, wir gewinnen. Und doch, obwohl wir den Kaggle-Link
angegeben haben, okay, das ist es, was
wir
im Einführungsbereich
und im zweiten Bereich sehen , wenn Sie die Visualisierung öffnen. Hier siehst du, warum du die Geschwindigkeit standardmäßig
aktivierst, denn hier haben wir als Geschwindigkeit
ausgewählt und das Level ist der Grund, warum
du dazu in der Lage bist, okay? Und wir geben ihm die Handlung
als Ausgabe und sehen uns den Titel an. Und das ist ein Absatz
, den wir geben. Okay. Lassen Sie mich Ihnen
zeigen wie es sich
anhand der Auswahl ändert. Wenn ich Speed Ground auswähle, wird
das Diagramm kettenförmig angezeigt. Wenn ich Handling auswähle, ändert sich
das Diagramm, wenn ich Tracks in
der zugehörigen Grafik
auswähle. Das ist also das interaktive
Dashboard, das wir mit der Shiny-App
erstellt haben . Okay? Sehen Sie hier die verschiedenen Farben
, die das schwere,
leichte und mittlere Glas zeigen . Und hier kannst du auswählen und du kannst den Unterschied
zwischen diesen Dingen sehen. Okay, so funktioniert das
Schild, die App.
64. Einige Beispiele für Shiny Apps in R: In dieser Vorlesung werden
wir uns einige
der bereits geschriebenen
Beispiele für
Signier-Apps ansehen der bereits geschriebenen
Beispiele für
Signier-Apps , die es bereits
auf der Website von Signing gibt. Dies ist also das
Beispiel einer
Shiny-App , die Sie sich ansehen können. Sie können sie sehen und den Code ändern. Und du kannst
deine eigene Shiny-App erstellen ,
indem du dich bei Esports anmeldest. Lassen Sie mich Ihnen sagen, wie
Sie das auch ausführen können. Sie müssen nur
die Shiny-Bibliothek aufrufen. Also müssen wir eine
Bibliothek schreiben und dann signieren, und wir müssen das ausführen. Und wenn das erledigt ist, können
Sie anfangen, die Beispiele zu verwenden als wäre das erste
was, ein Histogramm. Ein Beispiel ist die Funktion
, mit der Sie
dieses bereits geschriebene
Programm Signing App aufrufen können. Okay, also 01 underscore
Hallo ist dieser. Und lassen Sie uns das ausführen und
sehen, was wir bekommen. Wenn Sie das also ausführen, öffnen
Sie die App für den Beauftragten. Und sieh hier, es
heißt Hallo signieren. Und hier kannst du sehen, wie
viele Behälter kommen und hier ein Histogramm der
Wartezeiten, okay? Wenn Sie also
die Anzahl der Behälter erhöhen, sehen Sie hier, die Anzahl der Behälter
wird erhöht. Und jetzt gibt es Peptidmittel. Wenn du es schaffst, gibt es nur einen Gewinner, oder? Wenn Sie sechs setzen, gibt es 6,12 3456 Fächer. Wie Sie hier sehen, ist
es interaktiv, sodass Sie die Anzahl der
Pins in diesem Taskboard
erhöhen oder verringern können. Das ist also die Spezialität
der Shiny-App, dass wir mit dem von uns erstellten Dashboard
spielen
können, interaktiven Dashboards
von Shiny App Create. Also hier kannst du sehen, wenn du hierher kommst, wird
es dir
die Beschreibung geben. Dies ist eine kleine, winzige
Anwendungsdemonstration, signieren Sie diese automatischen UI-Updates. Okay? Also hier die Region
RenderPlot und Input Bins. Und siehe hier entführen, unsere Akte ist bereits hier angegeben. Sie können
den Code also einfach von hier kopieren. Und du kannst reinlaufen, diesen Code
verwenden, apple.tar. Sehen Sie sich Ihr Labor an, indem Sie
library shiny und uy und dann Titel und dann
Seitenleistenlayout verwenden. Und hier die Eingabe-ID in der Seitenleiste,
die wir Beans geben, Anzahl der Bins und
Minimum ist eins, Maximum ist Eigenschaft und
Wert gestartet, sodass
es standardmäßig ausgewählt wird. Und dann hier die
Plotausgabe des Hauptfensters , die wir erhalten, die Ausgabe oder das Hauptpanel. Das ist also die
Ausgangsidee der Handlung. Wenn Sie also zum Server kommen, können
Sie Ihre
Serverfunktionseingaben sehen oder wir übernehmen die Funktion. F-Funktion
nimmt die Eingabe als Eingabe und
gibt die Ausgabe aus. Okay? Und hier geben Sie diese Handlung aus. Und dann rufen wir
den RenderPlot auf. Und hier
geben wir den x-Wert an. Und der X-Wert ist treues Warten. Und Vinci ist hier, du kannst Debatten als Reihenfolge von
min bis max
angeben und dann die Eingangspins plus eins
ausstreichen. Okay, hier
zeichnen wir das Histogramm. Also ein Histogramm, das wir
mit dem X-Wert versuchen , und wir geben dem Brexit gleich
Farbe und Farbe. Du kannst geben, was du willst Hand Xlab und Hauptüberschrift, du kannst geben, was sie wollen. Und dann erstellen wir
die App, indem wir die
Shiny-App verwenden und dann UY entspricht ui und server, bei jedem
Serveraufruf. Also ist jemand auf dem Server
gestorben. Und hey, wir definieren hier. Also, wenn du willst, kannst
du das in
die Benutzeroberfläche eintragen. Bis hier. Sie können die UI.R
und den Serverteil eingeben. Sie können den
Server mit dem R eingeben,
und das sind Ihre App-Daten und dort rufen wir
die Benutzeroberfläche und den Server auf. Auf diese Weise können Sie diese App Punkt r,
die eine einzelne Datei ist,
nehmen und diese in drei
Dateien
konvertieren, wenn Sie möchten, und wenn Sie weitere Dinge
hinzufügen möchten, wenn Sie hinzufügen möchten, wenn wir hier ein anderes
Diagramm hochladen möchten , Giardia, können
Sie das tun. Sie können dies also ändern,
da der Code bereits mit
Duck Sign die
App-Website von dort aus angegeben
ist . Das ist also beim Aufbau des Anmeldepakets, oder? Also lass mich das schließen. Sehen wir uns das zweite Beispiel an. zweite Beispiel ist das Ausführen Beispiel Null, um Texte zu
unterstreichen. Mal sehen, was da ist. Das ist Table send DataFrame. Lassen Sie uns also diese
Shiny-App ausführen und wir sehen uns. Wenn Sie darauf klicken, werden
die Anmeldetexte geöffnet. Er sieht hier. Hier können wir die Datensätze Rock, Fraser und Car Support
auswählen. Ich wähle eine Karte aus. Es zeigt uns also die Geschwindigkeit und diese tendiert zu
Geschwindigkeit und Entfernung. Und hier können Sie
die Anzahl der Zeilen und die
Anzahl der anzuzeigenden Beobachtungen definieren . Jetzt ist es also 1012. Also sieh es dir heute hier an. Also im Kies. Und wenn ich das
auf 1 reduziere, zeigt
es nur eins, ich kann es erhöhen,
weiter erhöhen. 123. Schau hier, interagiere damit und hier kann
ich den Druck wählen, damit er dir die
Temperatur und den Druck anzeigt. Und hier können wir einfach die
Temperatur und den Druck erhöhen, auch
diese Tabelle. Auf diese Weise können wir
herumspielen und daraus lernen, und dieser Code ist auch hier, app.all, den Sie nehmen und Ihren Anforderungen entsprechend ändern
können. Gehen wir also zum
dritten Beispiel über. Das ist die Reactive
Expression App. 03 unterstreicht also die Reaktivität. Und lassen Sie uns das ausführen und sehen was unsere si110-App
bereit ist, hierher zu kommen. Sehen Sie sich hier also die Lücken und Bedürfnisse bei der
Datenzusammenstellung an. Die Datensammlung und der Datensatz sind felsenkonserviert
und wieder Autos. Wir können also
geschweifte Klammern auswählen und hier das Gleiche wie
Zeilen und Spalten. Sie können dafür auch n wählen. Das Outfile ist angegeben, der Assignee, unsere
Datei ist hier angegeben. Du kannst es nehmen, um es dir anzusehen und du kannst seltsam lernen,
wenn wir es ändern wollen, du kannst es modifizieren. Es ist Open Source,
Sie können es also selbst ändern
und verwenden. Und als nächstes schauen wir uns
Judo-Ausländer namens MPG an. Und klicken Sie auf Ausführen. Eröffnung des Apogäums
fiel also die Schwungzahl
der Zylinder, des
Getriebes und der Gänge auf. Es zeigt also
Meilen pro Gallone. Die Beziehung zwischen
MPT und Ausrüstung. Und wenn du
Getriebe wählst, entspricht Toyoda, Unterricht zwischen
dem automatischen, manuellen Auto mit
dem Majlis, okay? Und wenn Sie Gänge mit
dem Zahnradzylinder mit dem
Zylinder und für diesen auswählen , so können Sie
die Tar-Datei abrufen und eine Nische für sich selbst
modifizieren. Als nächstes sind die Schieberegler. Also lass uns das ausführen und sehen was. Dies ist also das ziemlich
gute Beispiel, um mehr
über das Beschilderungspaket zu erfahren , und Sie können es modifizieren und
rasen. Schau hier. Das sind die Slider. Es gibt also so viele
Slider zu diesem Sport. Und für dieses Quartal
ist es schon da. Sie können hier sehen, dass ich einen ganzzahligen Wert eingeben
kann. Ich kann 1.000 oder 172 Dezimalzahlen machen, 0,8 oder so. Und dann die Reichweite, ich kann sie von hier aus ändern. Und sobald Sie es hier
ändern können
Sie die Änderungen dort sehen. Benutzerdefinierter Formatierer, den wir als Looping-Animation
definieren können, können
wir hier definieren. Auf diese Weise können wir hier Anti-A
hinzufügen. Das ist die Option, um in diesen benutzerdefinierten Formaten zu spielen
. Sie können hier klicken und Syria 0-500500 ändert
sich automatisch. Es spielt wie okay, also sieh hier, jetzt ändert es sich
langsam hier. Und sieh zu, dass
diese
Zahlenanimation auch tendiert. So wie sich das ändert, ändert sich auch
der Slider. Das wird auch
geändert und hinzugefügt. Die anderen Zahlen werden sich
ebenfalls ändern. Das ist also das Magic of si110-Paket
in R, mit dem Sie diese
interaktiven Dashboards
erstellen können . Schau hier, das ändert sich und das ändert sich auch. Okay, lassen Sie uns mit
dem nächsten Beispiel fortfahren , das Zellen eingibt. Also einfach auf Run klicken
und schauen, was wir in
der Tiefe bekommen , es ist normalerweise einheitlich, lang, normal und exponentiell. Wir können also einfach hier klicken
und wir können die Zusammenfassung sehen, wir können die Tabelle sehen und
sehen, wie sie sich ändert. Mit einem Klick
können Sie das Normale sehen. Wenn wir die Uniform sehen wollen, kannst
du die Uniform sehen. Und wenn wir die Langform
sehen wollen, können
Sie das lange Gedicht sehen. Sie können die ältere Behandlung, die Zusammenfassung der
Handlung und die Tabellen sehen . Und alle drei
verändern sich zusammen. Klicken Sie hier auf alle Daten, Anzahl der Beobachtungen können
Sie erhöhen. Und sofort sieht man, dass
dies ein sehr gutes Tool für Analyse von Daten und
Datenanalysten oder Datenwissenschaftlern ist. Oder wenn Sie Ihre Daten
vergrößern möchten, können
Sie das Arsin
und diese Art von
interaktivem Dashboard verwenden , das Sie
erstellen und mit Ihrem
Team oder Ihrem Manager besprechen können erstellen und mit Ihrem
Team oder Ihrem Manager Sie sind mit Ihrem
Kunden unterwegs und er kann sofort
einen Einblick in die Daten erhalten. Auf ähnliche Weise
können Sie also die andere Sache sehen. Sehen Sie sich hier ein Beispiel an, Arginin-Upload, das uns die Möglichkeit gibt, die Dateien und alles andere
hochzuladen. Lass uns sehen. Sie können hier klicken und
Sie können einfach
eine beliebige Datei auswählen und hochladen. Nehmen wir an, ich möchte hochladen, jetzt ist
es hochgeladen und weil es nicht unsere CSV-Datei ist, wir
damit, also wenn Sie eine CSV-Datei
hochladen möchten, können
Sie weitermachen und Sie
können eine CSV-Datei hochladen. Lassen Sie mich also zu unserem 2020 vor
das Gericht gehen , und ich werde versuchen, eine CSV-Datei zu öffnen. Lassen Sie mich die Nato-Punkt-CSV-Daten öffnen , die
wir in einem unserer
Beispiele geheilt haben. Öffnen wir das. Lass uns hier Daten hochladen. Jetzt können wir sehen, dass die
Datenpunkt-CSV-Datei
hochgeladen wurde , und wir können die
Daten in der Datenpunkt-CSV sehen. Wir können das Handzettel entfernen. Du kannst den
Header so platzieren. Wir können all die Dinge tun. Wir können ein Semikolon setzen. Wir können ein
Trennkomma-Semikolon verwenden, oder wir können sogar Klebeband verwenden
und ohne doppelte Anführungszeichen zitieren. All die Dinge, die
du hier tun kannst. Ich zeige bereits
alle Daten, die in der
Datenpunkt-CSV enthalten sind, oder? Also dein Karma und
schau, ob ich Kopf reinlege, es wird dir zeigen, dass du nur
getankt hast, dass der Hund
wie jemand ist und den vollen Einzelhandel
bekommt. Beachten Sie das Werfen von Daten. Das ist also eine ziemlich
wichtige Sache. Und hier kannst du das erstellen. Dies geschieht in unserem si110 und Sie können
Ihrem Kunden mitteilen, wo er die CSV-Datei hochladen und die
CSV-Datei sehen
kann ohne XL T-TIP zu haben. Sie haben keinen
fairen Verbündeten. Sie können einfach den CSV-Pylon
auswählen. Ich schaue mir
das CSP am Freitag an, okay? Und dafür
ist hier auch schon Code angegeben. Das ist also eine ziemlich coole
Sache, Gemüse, die Dinge, die man
als Aufgabe analysieren
kann und aus diesen Dingen lernen
kann, die man ändern und für sich selbst verwenden
kann. Sieh dir den Timer an. Du kannst hier
klicken und der Timer wird ab der aktuellen
Uhrzeit
kommen ist dieses Ding. Auf diese Weise können wir die Signatur nutzen.
65. 2 File Shiny App in RStudio: Hallo und willkommen zurück. In dieser Vorlesung werden wir eine zweiseitige Signier-App erstellen. Also zwei Dateien, die
wir registrieren, werden wir erstellen. Wir haben also gesehen, wie
wir dreiseitige Seiten erstellen können, wie wir es bei apple.tar,
ui.R und Teradata getan haben. Ein anderes Beispiel. Hier. Was wir
tun werden, wir werden ein Lead
, zwei Dateien erstellen. Eines ist Ui.R, und das
zweite wird Serverdaten sein. Als Erstes
müssen wir also zu unserem Arbeitsverzeichnis kommen und einen
Ordner mit dem Akronym erstellen. Also hier gebe ich den App-Namen beim Signieren der App
als wahr an. Okay? Und darin
erstelle ich zwei Dateien, UI.r und Solver Dot Art, sodass ich den
Code für die Art und Weise, wie er sich im Ordner der App zur
Dateisignatur befindet
,
bereits erstellt und geschrieben
habe . Okay. Der App-Name
wird also der Ordnername sein. Und in dem Ordner speichern
wir diese UI.r
und den Serverpunkt r. Was dieser Punkt also hat, wird dieselbe Benutzeroberfläche
haben, was einem flüssigen Seiten- und
Seitenleistenlayout und der Seitenleisteneingabe in der Seitenleiste, dem
Panel und der Seitenleiste entspricht. Also hier geben wir OBS
und Anzahl der Beobachtungen,
Beobachtungen und Anzahl der
Besucher an. Das Minimum ist zehn, das
Maximum ist 500 und der Wert
ist Hundert. Okay? Dann rufen wir das
Hauptpanel auf und plotten die Ausgabe. Dieser Plot und dieser
Plot werden
von dem Server kommen , den
unsere Quellen sind was wir Funktion nennen Eingabe und Ausgabe und Ausgabe
wird das Dish-Plot sein. Und dieses Diagramm wird in das Histogramm
gerendert, wobei die Daten die Eingabe von OBS als Eingabe
für unsere Normen und
die Farbe, die ich
uns gebe, Rot und Grün sein werden . Okay, also nur diese beiden
Dateien und die Notwendigkeit,
die App zu schreiben , sind und wie
man diese Datei ausführt. Wir können einfach hier
zur Konsole kommen. Also lass mich die Konsole leeren. Und hier musst du nur eine Run-App
schreiben. Lass das laufen. Jetzt müssen wir run app aufrufen
und in der RunApp-Einheit Ordnernamen oder den App-Namen
angeben,
um die von uns erstellte App
mit Datei zu signieren. Also diese vier, die wir
erstellt haben, um die App zu signieren. Also geben wir dem
hier einen Namen und wir müssen das ausführen. Drücken Sie also die Eingabetaste und Ihre Simon-App findet die
CEO-Nummer der Beobachtung. Und hier ist ein Histogramm. Also habe ich grün,
rot gegeben und der Rand
wird grün sein. Und wenn ich diese
Zahl von Generation zu Generation ändere, wird
sie sich weiter ändern. Auf diese Weise können wir also eine App zum Signieren von
Dateien erstellen , bei der
UI.r für diese Daten antworten, werden wir sie beenden? Wenn Sie die Farbe ändern möchten, können
Sie
Gelb und Grün verwenden. Und hier müssen wir das einfach schließen und wir
müssen es erneut ausführen. Ich habe App zu Dateien einer beliebigen
App ausgeführt und die Eingabetaste gedrückt. Mal sehen, jetzt wird es gelb und sauber
kommen. Ceo, das Gelb und
der Rand ist grün. Also kannst du das machen. Und Sie können sehen, dass sich eine Reihe von unterschiedlichen und abnormalen
Apoptosen unterscheidet, und Sie können sehen, dass
sich das Histogramm ändert. Okay? Auf diese Weise können wir zwei Dateien
erstellen. Melde mich an.
66. Herunterladbare Berichte in Shiny erstellen: In dieser Vorlesung lernen
wir, wie man herunterladbare Berichte
generiert. Wie können wir
die Berichte erstellen, aus denen wir unsere
herunterladbare Scheidung herunterladen
können. Okay. Wenn du also auf die Website
assignee.rstudio.com kommst, kannst
du sehen, dass es
bereits eine Substanz gibt und bereite Dinge vor, die du von unserem Studio über das
Signieren lernen kannst. Also das interaktive
Dashboard hier zu erstellen, das ist Opsin. Sie können sehen, wie es
herunterladbare Berichte generiert. Also hier siehst du das Beispiel wie app.all und das, was
sie gegeben haben. Und hier kannst du das
ausprobieren und Punkt RMD melden. Und er glaubte, dass
die Berichte leer sind und eine Verschwörung auslösen
würden. Und den
Bericht, den Sie herunterladen können. Und es gibt noch ein
Vertex-Beispiel, das ich Ihnen zeigen werde, wo wir den Bericht
in Form von PDF
oder HTML und Balken herunterladen können . Also sehen Sie hier, das ist der erste Datensatz
für leere Autos, Datensatz
für leere Autos der mit dem R ohne weiteres
verfügbar ist Hier können Sie anhand
der Anzahl der Zylinder das Regressionsmodell sehen. Dies ist das Regressionsmodell. Zylinder und Anzahl
der Zylinder, MPG, wie sich die Anzahl der Zylinder auf die
Laufleistung auswirkt, Meilen pro Gallone,
wie sich der Hotspot auf die MPG
auswirkt, wie das Gewicht des Autos
die Meilen pro Gallone beeinflusst,
die Beweise oder den Kilometerstand des Autos oder
den Radius,
wie diese Faktoren die Anzahl
der Gänge beeinflussen, wirkt
sich auf die Beweise oder den Kilometerstand des Autos oder
den Radius, wie diese Faktoren die Anzahl
der Gänge beeinflussen das Myelin aus, dass dies die Dinge, mit denen
wir Ihre Schulden analysieren haben
wir im Rahmen
unserer Programmierung getan. Und das sind die Dinge, die uns gefallen
können, wenn sie
intern
generiert wurden , als sie
ein Regressionsmodell entwickelt haben,
bei dem versucht wird, die am besten passende Linie zu
finden. Und dafür ist
dies nun der Bericht und die
Unterstützung Ihrer Vertreibung. kann es so formulieren und es
gibt die Option Dokumentenformat, PDF oder HTML oder ich unterstütze sie, indem ich auf PDF klicke und
ich auf Herunterladen klicke. Dieser gesamte Bericht wird im
PDF-Format
heruntergeladen, wenn ich ihn öffne. Und wie Sie hier sehen, zeigt
es, dass
es so funktioniert hat. Hier ist das Regressionsmodell. Und woher wir diese Dinge
beziehen, stammt dieses Ding aus
der RMD-Datei mit dem Berichtspunkt. Wir sind dabei,
das lineare Regressionsmodell zu erstellen das lineare Regressionsmodell das auf den
Datenquellen, leeren Autos,
basiert. Und dann verwenden sie
den Koeffizienten dafür. Und dann fügen sie das in das Diagramm ein, um die am besten passende Linie zu
finden, und dann bekommen sie die am besten passende Linie,
unsere Regressionslinie. Dieser Bericht
kommt also so. Wenn Sie hier sehen,
werden uns die Datenpunkte angezeigt, aber wenn Sie ihn herunterladen, erhalten
wir den
vollständigen Bericht. Und das ist der Dateisatz
von r dot r und c hier. Die Mittelwertbildung der Formel, der Tipp und die MPG-Eingabe,
dann die Ausgabe, anderer Plots und dann den Bericht
hier herunterladen, ein großer Teil, das Dateinamenformat ist
das PDF und dann der Inhalt,
sie werden normalisiert. Aber lassen Sie uns die leeren importieren. Das ist wichtig, weil alle Berechnungen und alles
, was wir in
diesem Bericht hier gesehen haben, die Dinge
sind, die
aus den Assembly-Dateien stammen. Okay, das ist also
ziemlich wichtig. Und dann sind sie hier, setzen
einfach das
Arbeitsverzeichnis auf temporäre Verzeichnis,
damit es nicht nach dem Admin-Zugriff fragt. Und danach werde ich suchen.
Sie benutzen das und finden
dann viele Kopien
, melden das bei MD, oder? Dann archivieren Sie den ursprünglichen
Markdown und damit wird die RMD-Datei in das PDF
gerendert. Okay? Also, und dann finde heraus,
benenne die Ausgabedatei um. Okay. Also diese Dinge, lassen Sie
mich Ihnen auch
die RMD-Datei zeigen , die intern verwendet
wurde. Sie können also auf
Code abrufen klicken und Sie werden zum GitHub-Repository weitergeleitet
, das signiert. Hier sehen Sie einen Bericht, dass unsere Mitarbeiter
Wörter sind, die sowieso,
Punkt, Punkt, Punkt alle Dateien sind . Wenn Sie also auf
den Berichtspunkt RMD klicken, können
Sie hier die Durchschnittsbildung
des Regressionsmodells sehen und das ist der Code hier
ist mein Regressionsmodell. Und dann mit unserem
Modell kollabieren, stimmt. Und er hatte Opsine. Diese anderen Dinge sehen
wir großartig. Und dann das fruchtende
Original MPG und dieses Ding. Okay, sie erstellen ein
Streudiagramm und dann finden sie mit der Abline die am besten passende
Linie. Und sie setzen
die Farbe richtig? So
erhalten wir diesen Bericht ich die
Assemblerdatei gelesen und die Berichte
vorbereitet habe. Auf diese Weise können Sie einen Bericht
erhalten, der heruntergeladen werden
kann. Wenn Sie diesen
Bericht im Word-Format herunterladen möchten, können
Sie darauf klicken und er wird
in einem Dokument X4 heruntergeladen, oder? Okay. Und wenn Sie dies in HTML
herunterladen möchten, können
Sie auf HTML klicken und herunterladen. Und es wird
im HTML-Format heruntergeladen. Öffnen
wir das und die CSIA-Daten, meine Berichtspunkt-HTML-Datei. Wenn
Sie also
einen Bericht oder ein Dashboard erstellen möchten ,
das heruntergeladen werden kann, können
Sie den Discord verwenden und
Ihren eigenen schreiben. Unterschreibe die App.
67. Analyse der Kovarianz: Hallo und willkommen zurück. In dieser Vorlesung werden
wir also
etwas über die Kovarianzanalyse
lernen. Und es wird auch Cola genannt. Also ENCO Reais. Das heißt
Kovarianzanalyse und verdeckt
und sortiert nennen wir das. Also, was ist diese
Kovarianzanalyse? Sie wissen also, was wir in den
Algorithmen für maschinelles Lernen oder in einem linearen Regressionsmodell tun. Was wir bei der Regression tun, wir versuchen, einen realen Wert zu finden, einen kontinuierlichen Wert, oder? Anders als bei den kategorialen Daten versuchen
wir immer, die
Bogenlänge ja oder nein,
wahr oder falsch, Null oder
Eins so zu finden , oder? Bei der Regression haben wir also
versucht, einen kontinuierlichen Wert zu finden. Also erstellen wir eine
Regressionsanalyse für Lake. Wir verwenden Regressionsmodelle. Regressionsanalyse zur
Erstellung von Modellen, die
den Effekt der Varianz auf die
Prädiktorvariablen beschreiben , oder? Zu den Antwortvariablen. Wie wirkt sich also die Varianz
der Vorhersagevariablen auf das Antwortmodell aus? Welchen Effekt die
Prädiktorvariablen auf
die Antwortvariable haben
werden. Das versuchen wir mit der Regressionsanalyse zu tun. Und mit welchen Modellen
wir auch immer erstellen , wir werden
das auf eine Weise tun. Aber was passiert manchmal? Wir haben einen kategorialen Datensatz. Wenn Sie also
diesen leeren
Datensatz für Autos sehen ,
der im R eingebaut ist und den wir
verwenden werden, wenn wir diesen
Code ausführen, werden
Sie sehen, dass verwenden werden, wenn wir diesen
Code ausführen, werden
Sie sehen, wir eine Spalte E m
haben. Was ist das M ist automatisch oder manuell. Sehen Sie sich seinen Wert an, sein
Wert ist Null oder 10 bedeutet automatisch
und bedeutet manuell, also so etwas in der Art. Okay? D steht also für
Automatik und Manuell, okay? Das sind also kategoriale Daten, entweder Null oder Eins. Es hat keinen
kontinuierlichen Wert wie Meilen pro Gallone, 2.122,8, 21,14, 0,7, oder? Daher ist es
schwierig, den Effekt
dieser kategorialen
Variablen auf dieses MPG zu ermitteln. Sehen Sie hier die Pferdestärke,
HP ist auch da, aber es ist ein kontinuierlicher
Wert, der kein kategorischer Wert ist. Hallo. Was passiert also? Wir müssen, wir haben eine kategoriale Variable
mit Werten wie Nein oder Null oder Eins,
männlich oder weiblich. In einigen Fällen. Alles,
es könnte Gewinnverlust sein, was auch immer, also welche
kategorischen Werte wir haben können. Die einfache
Regressionsanalyse liefert also mehrere Ergebnisse für jeden Wert der kategorialen Variablen. Für diese G-Zeile
und eine für Null erhalten
wir also 21 Punkte
für diese 018,7. Also bekommen wir einen anderen, anderen Wert für MPG, für dieselbe Null, oder? Null steht für die Hornet
und diese repräsentieren den Sport, um den es bei den Hornets geht, oder? Diese Werte sind also unterschiedlich. Wie werden wir also herausfinden welchen Effekt es
auf die Meilen pro Gallone hat. Das kommt also ins Spiel
, die Varianzanalyse. Lassen Sie mich Ihnen eine
kleine Erklärung geben. Kovarianzanalyse
wird verwendet, um
den Haupt- und Wechselwirkungseffekt
der kategorialen Variablen zu testen . Das heißt, das Ziel ist eine
kontinuierliche abhängige Variable, d.
h. mpg, die
den Effekt der Auswahl
anderer kontinuierlicher Variablen kontrolliert . Wenn wir also wissen, wie sich das auf
diesen Effekt auswirkt, hätten
wir sogar entscheiden können, welche
HP sich auf
die MPG auswirkt oder welche Auswirkungen
dieses m auf die HP oder mpg hat, die mit
den abhängigen Personen kovariieren. Die Kontrollvariablen
werden Kovariaten genannt. Immer noch kontrollierte Variablen
werden als Kovariaten bezeichnet. Manchmal, wenn wir eine kategoriale Variable mit Werten wie ja oder nein
oder männlich oder weiblich oder Gewinn oder Verlust haben. Einfache Regression und Lanzen liefern
mehrere Ergebnisse für jeden Wert der kategorialen Variablen
, die ich hier besprochen habe. Für Null gibt es viele Werte, aber MPG und für eins
gibt es auch viele Werte. Die einfache Regressionsanalyse
liefert mehrere Ergebnisse für jeden Wert der
kategorialen Variablen. In einem solchen Szenario können wir
die Wirkung einer
kategorialen Variablen untersuchen , indem sie zusammen mit der dunklen
Prädiktorvariablen
verwenden und die
Regressionslinien für
jede Stufe einer
kategorialen Variablen
vergleichen . Was es also sagt, bedeutet, dass wir
in einem solchen Szenario die Wirkung einer
kategorialen
Variablen untersuchen
können , indem wir sie
zusammen mit dem Prädiktor verwenden. Also zusammen mit dem
Prädiktor wie HP. Also verwenden wir ein m zusammen mit
der HP, um den MPG vorherzusagen. Und wir finden die
Regressionslinie für jede Stufe der kategorialen
Variablen
für jeweils 0,41, aber jede Stufe
findet die
kategoriale Variable. Okay? Und das nennt man die
Kovarianzanalyse. Betrachten wir also
diesen leeren
Fahrzeugdatensatz , wobei m für
das automatische Getriebe steht. Es ist eine kategoriale
Variable mit Werten 0,1, wie ich bereits erwähnt habe Meilen pro Gallone oder
MPG eines Autos
können davon abhängen. Außerdem kann der Wert
der Pferdestärke, mpg, davon
abhängen , ob das Auto
automatisch oder manuell ist, und er kann auch von
der Pferdestärke abhängen. Deshalb haben wir die Wirkung
von EM auf die Regression
zwischen MPG und HP untersucht . Und das geschieht
mit einer oder V-Funktion. Aov-Funktion ist eine Analyse der Varianzfunktion,
gefolgt von der NOR-Funktion. Also werden wir die Bot-Funktionen verwenden. Wir verwenden zuerst die AOV-Funktion,
um die Regression zu finden. Durch die Verwendung dieser beiden Variablen sind andere HP vorhersehbar
und versuchen, die MPG zu finden. Und dann verwenden wir
den Nahuatl und entscheiden, welches Modell uns was
gibt und wie diese kategoriale Variable oder eine kategoriale Prädiktorvariable auf die
abhängige Variable MPG auswirkt. Was wir also zuerst tun, wir erhalten die Eingabedaten
, also leere Autos. Also speichern wir das
in den Daten der leeren Autos. Und dann erstellen wir ein Regressionsmodell
und ein Umkehrmodell. Für das Regressionsmodell verwenden
wir eine AOV-Funktion oder mit
Varianzanalyse die
AOV-Funktion, die wir verwenden,
und wir erstellen zusammen mit am
ein Regressionsmodell zwischen
MPG und HP. Und wir nutzen
Datenquellen, leere Autos,
Daten, die wir
von den leeren Autos erhalten. Und dann werden wir, wir
werden zwei davon drucken. Wir werden die Zusammenfassung
des ersten Modells erhalten. Lassen Sie mich das ausführen und
lassen Sie mich das erste Modell ausführen. Also erstellen wir hier ein
Regressionsmodell. Welche Erkenntnisse gewinnen wir
also aus diesem Regressionsmodell hier, dieser ursprünglichen Quelle,
dass sowohl die Pferdestärke als auch der
Getriebetyp von HP und M einen signifikanten Einfluss auf die Meilen pro Gallone
als p-Wert oder beides haben. Der P-Wert
liegt in beiden Fällen unter 0,5, oder? Es hat also beide P-Werte, die weniger als 0,5
haben. Aber wenn wir
HP und m zusammen nehmen, ist
der p-Wert größer als
0,5 und das bedeutet, dass SPN am zusammen
keinen signifikanten
Effekt auf den MPG haben wird . Wechselwirkung zwischen dem,
diesem AM und SB ist also nicht signifikant da sie keine
Auswirkungen auf die, auf die MPG haben wird. Dieses Modell gibt uns
also die Einsicht, dass HP und AM, wenn Sie
sie alleine nehmen, Auswirkungen auf die MPG haben werden. Aber wenn wir sie zusammen nehmen, werden
sie
keinen signifikanten Einfluss
auf den MPG haben , da der p-Wert über 0,5
liegt. Als Nächstes werde ich tun, ich werde
ein weiteres Regressionsmodell erstellen. Wo wirst du, was werden wir tun? Wir werden den
kategorischen Wert nicht angeben. Wert, okay? Wir modellieren ohne den
kategorialen Wert, also am. Also ich meine das ohne die Interaktion
zwischen HP und m, und wir werden
ein weiteres
Regressionsmodell erstellen , die AOV-Funktion. Und wir werden sehen, welche Auswirkungen
sie auf die MPG haben. Also lass mich das ausführen. Dennoch verwende ich den leeren Einkaufswagen als wertvoll und er wird
dieselben Daten wie leere Autos haben. Also sieh hier. Nun unser Modell damit, es gibt keine Wechselwirkung
zwischen HP und m. Welche Erkenntnisse bekommen
wir dann. Das ist eure Seele, dass sowohl Pferdestärken als auch
deren Übertragung einen erheblichen Einfluss auf Meilen pro Gallone haben, da der
P-Wert unter 0,5 liegt. Okay, was ich jetzt mache,
ich vergleiche diese beiden Modelle,
Modell 11, mit dem
kategorialen Wert. Interaktion zwischen HP
und m. Und ein anderes Modell ist ohne die Interaktion
zwischen dem PNM. Okay? Lassen Sie mich nun
diese beiden Modelle vergleichen, Modell zwei und Modell eins. Also, was ich verwende, ich verwende die NOR-Funktion, NOR-Funktion um diese
beiden Regressionsmodelle zu vergleichen. Also lass mich das ausführen. Sehen Sie jetzt, welche Erkenntnisse wir aus dieser Region
erhalten. Wir gehen davon aus, dass der
p-Wert größer als 0,5 ist. Wir können also zu dem Schluss kommen
, dass die Wechselwirkung zwischen Pferdestärke und Getriebetyp nicht signifikant
ist. Die Meilen pro
Gallone
hängen also davon ab,
ähnlich wie bei HP und AM. Okay? HP und m
werden also beide beeinflussen, beide werden das MPG ausreichend
beeinflussen. Auf die gleiche Weise. Es ist nicht so,
dass sich beide unterschiedlich auswirken werden. Beide werden sich auf die gleiche Weise
auswirken. Der MPG wird also
in ähnlicher Weise von
der Pferdestärke des Autos sowohl im Auto als auch
im manuellen Modus abhängen . Also, ob die Pferdestärken die Pferdestärken eines Autos
unterstützen, was automatisch ist, und
er mehr Kilometer fährt. Und wenn wir nicht
mit demselben Hotspot manuell arbeiten, wird weniger Myelin produziert. Das gilt nicht für die
Laufleistung des Autos, egal ob mit der gleichen
Unterstützung, die Hälfte. Nehmen wir an, 1 PS, ein Auto ist da
und es ist manuell. Und eine andere Karte ist dieselbe, 1 PS und sie ist automatisch. Beide geben das gleiche MPG aus. Der Durchschnitt wird sich nicht
ändern, ob
das Auto automatisch oder manuell fährt . Okay. Es hängt also von
der Pferdestärke ab und manuell oder automatisch hat keinen großen
Einfluss auf die Laufleistung des
Autos. So können wir also
die Kovarianzanalyse durchführen. Kovarianz bedeutet die
anderen Prädiktorvariablen , die gehen werden, Eddie, ich werde mich auf
die abhängige Variable auswirken. In diesem Fall sind b
und m die kovariante und mpg die
abhängige Variable. Wir haben also festgestellt, dass unabhängig davon, ob
das Auto automatisch oder manuell mit derselben
Kugel fährt, die gleiche Art von Sinnlosigkeit
haben wird.
68. Handson mit dplyr library: Hallo und willkommen zurück. In dieser Vorlesung werden wir uns noch einmal der Datenmanipulation befassen. Und
Datenmanipulationsaktivitäten werden mit
dem Deep-Layer-Paket auskommen dem Deep-Layer-Paket auskommen , das relativ
auf dem Niveau der Seltenheit liegt. Der Player ist also ein
Paket, das
Ägypten Tools für die häufigsten
Datenmanipulationsaufgaben bereitstellt . Also werden wir
heute alles
über den Plan erfahren und wir werden sehen welche
Manipulationsaufgaben wir ausführen können. Und wir werden diese lange
Datei machen, die ich geschrieben habe. Wir werden all die Dinge tun
und wir werden sehen, was wir tun können und wie
wir mit den Daten spielen können,
wie wir die Datenmanipulationsaufgaben manipulieren können. Wie wir die
Datenmanipulationsaufgabe mithilfe des Plans verwenden können. Also lasst uns anfangen. Deep Layer bietet also die
Grammatik der Datenmanipulation bietet einen konsistenten Satz
von Warps, mit denen Sie die häufigsten Herausforderungen bei der
Datenmanipulation
lösen konnten . Die allererste Funktion
, die wir besprechen werden, ist also die Mutationsfunktion. Und es fügt neue Variablen hinzu, die Zellen
vorhandener Variablen sind. Was es also tun wird, es wird
neue Variablen hinzufügen , die
Funktionen vorhandener Variablen sind, werden herausfinden, was das bedeutet, wenn wir
es praktisch machen. Okay, das nächste ist auswählen,
auswählen, es spuckt Zelle aus.
Was wählt aus? Wählt es Variablen
anhand ihres Namens aus, ist das Gleiche wie eine Auswahlabfrage in SQL, wenn Sie SQL oder MySQL
oder eine relationale Datenbank kennen, verwenden
wir die Auswahl, um den Wert
auszuwählen, um
anhand
des Spaltennamens etwas aus den Daten aus der Tabelle
auszuwählen . Okay, das macht
Select auch hier, fest oder variabel,
basierend auf ihren Namen. Dann haben wir den Filter, den
schmaleren Filter. Es wählt die
Fälle anhand ihrer Werte aus. Also, wenn du deine Daten auf der
Grundlage einiger Werte
herausfiltern
willst, zum deine Daten auf der
Grundlage einiger Werte
herausfiltern
willst, Beispiel auf dem Ohr oder
auf irgendwas, irgendein Kleid, und du
kannst zuschauen, okay? Zusammenfassend reduziert
die Funktion die mehreren Werte auf eine einzige Zusammenfassung. Zusammenfassen bedeutet also, dass die
verschiedenen Werte
auf eine einzige Zusammenfassung reduziert werden . Das werden wir auch sehen, dann
haben wir die orange Funktion. Was ich nicht getan habe, es ändert die
Reihenfolge der Regeln, also werden die
Daten einfach in einer anderen Reihenfolge angeordnet. Die Reihenfolge von Rose,
Twilight, alles okay. Darüber hinaus
unterstützt es auch den Rohrbetreiber. Das sind also die Prozentwerte, die der Pipe
Operator testet und dann größer als das
Vorzeichen und dann präsentiert wird, das nennt man Pipe-Operator. Okay. Lassen Sie mich Ihnen jetzt sagen,
wie Sie
das Paket in Ihren Artists
to do oder sogar in Art installieren können . Du kannst also einfach hier zu
den Paketen gehen und
auf Installieren klicken und dich
hier bewerben. Okay. Abgesehen davon können Sie auch das Tidyverse-Paket verwenden
.
Der einfachste Weg, den Plot zu installieren , besteht darin,
das gesamte Tidyverse zu installieren. Wenn Sie also
das tidyverse-Paket installiert haben, wird
es den D-Plan enthalten. Und wenn Sie dieses Tidyverse nicht
installieren möchten weil Tidyverse viele Pakete
enthalten wird. Okay? Also, wenn du die Pakete, die
du nicht verwendest, willst, nicht willst, kannst
du den D-Plan
install.packages installieren, okay? Es wird also ein
Leader-Duplikatpaket installieren. Abgesehen davon
können Sie auch diesen Weg gehen. Jetzt. Sie können zum
Installationspaket kommen und diesen Paketnamen eingeben und
Sie können es installieren. Und um die Bibliothek aufzurufen, müssen
wir beginnen,
die Bibliothek und dann den von uns
angegebenen Paketnamen zu verwenden . Also die anderen Dinge, die
du schon weißt, aber nur um die
Dinge, die ich dir sage, zu unterteilen. Das nächste Ding ist weniger erforscht. Die grundlegenden Manipulationen der Ehefrauen
des Spielers werden
den Datensatz Star Wars verwenden. Wir werden also
den Star Wars-Datensatz verwenden , der mit dem Arc verfügbar
ist und der in R vorinstalliert ist. Okay? Wenn wir also Kopf,
Kopf, Star Wars zusammenzählen,
was es geben wird, dann gibt
es die ersten fünf. Beim ersten Typ der Datensatz angezeigt, den wir bereits kennen und den wir mehrfach
verwendet haben, oder? Aber dieses
Deep-Layer-Paket bietet Ihnen eine weitere Funktion namens Glimpse, die ich bis dahin
nicht benutzt habe. Ich benutze es zum ersten Mal. Wenn Sie also einen
Blick auf Star Wars werfen
, erhalten Sie alle Informationen zu
den Regeln. Und so, siehe hier heißt
es Zeile, 87 Zeilen und 14 Spalten. Und es gibt, gibt uns den Namen
der Spalte, den
Namen, die Höhe, die Masse, die Farbe und was sind die
Werte dafür? Okay. Die ersten drei für den Zusammenbruch. Es gibt uns die, also das ist der Einblick, Punks und es wird euch nur
einen Einblick in die Daten geben. Wenn Sie sich also einen
kurzen Überblick über die Daten verschaffen möchten, können
Sie die Clean-Funktion verwenden. Ansonsten kannst du auch den Kopf
benutzen. Okay. Wenn Sie also einen kurzen Kommentar abgeben
und die Haupteinheit ausgeführt haben, gibt Ihnen
Head
ein Ergebnis wie dieses. Und ein Blick wird Ihnen
das Ergebnis wie dieses geben. Okay? Das ist also der Kopf
und das sind die Gliedmaßen. Okay? Also gehen wir jetzt
zu diesem Pipe-Operator über. Lass mich das schließen. So und ähnlich haben wir
auch die Aussicht gesehen. Sie können Ihnen also
einen Star Wars geben und er wird Ihnen den
Blick auf den Data Lake geben. Es gibt Ihnen die
vollständige Ansicht des Datensatzes wie eine normale Person, die Sie sehen. Das wird dir also den
gesamten Datensatz geben, okay? Jetzt verwenden der Pipe-Operator alle Deep-Layer-Funktionen DataFrame als erstes Argument. Dataframe wird
das erste Argument
für alles sein , was die Plattform angeht,
anstatt den Benutzer zu zwingen, entweder
Zwischenobjekte zu speichern oder Funktionen zu verschachteln Das Plaid stellt den Filterzeilen
des
Pipe-Operators die Filterfunktion zur Verfügung. Mit dem Filter können Sie also die Teilmenge der
Straßen in einem DataFrame
auswählen. Das erste Argument
ist der DataFrame. Das zweite und die folgenden
Dokumente melden sich an das Wertvolle
innerhalb des Datenrahmens und
wählen Zeilen aus, in denen
der Ausdruck wahr ist. Also sieh hier nach, um den Charakter
mit heller Hautfarbe
und braunen Augen
auszuwählen . Was wir also tun
können , ist der
Datensatzname Star Wars. Und dann können wir
den Pipe-Operator benutzen. Und dann können wir den Filter verwenden und Ihnen den
Parameter für die Filterung geben. Die Hautfarben
wären hell und Augenfarbe. Also sei braun. Okay? Und du kannst es auch
anders machen wie Star Wars. Dann kannst du die Star
Wars verwenden und dann die Klammer, Star Wars, Klammer, Star
Wars Dollars können ausmalen. Das bedeutet, dass
wir
die Datenbank zur Hautfarbe
aus dem Star Wars-Datensatz beeinflussen die Datenbank zur Hautfarbe
aus dem werden. Und es ist skaliert, die
Hautfarbe wird hell sein, und dann war der Stern größer. Augenfarbe bedeutet, dass
wir uns
die Datenbank mit der Augenfarbe ansehen und die Augenfarbe sollte braun sein. Sie können den
Pipe-Operator wie folgt verwenden. Alternativ können Sie
den Dollar verwenden. Und Star Wars. Das bedeutet, dass die Star
Wars-Dollar-Hautfarbe bedeutet ,
dass
wir
den Datensatz anhand
ihrer Hautfarbe aus diesem Star Wars-Datensatz anpassen den Datensatz anhand werden. Das bedeutet, dass die Hautfarbe
eine einzige Spalte im
Star Wars-Datensatz ist. Okay? Und dann können wir
einfach das verwenden oder Sie können den Pipe-Operator verwenden und das Filterbett unter
Hautfarbe und Augenfarbe verwenden. Beide werden zu
einem ähnlichen Ergebnis führen. Schau hier. Beide geben Ihnen
das gleiche Ergebnis. Es gibt keinen Unterschied. Sie können es also entweder
mit dem Pipe-Operator
oder mit seinen Dollars verwenden . Okay? Dies sind also die beiden Möglichkeiten, wie
Sie die Daten filtern können. Arrangierte Zeilen mit
orangefarbener Funktion. Unser kleiner Sohn arbeitet also ähnlich wie das
Gefilterte, außer dass Zeilen neu anordnet,
anstatt sie zu filtern oder
auszuwählen. Was hat es gemacht? Es ordnet den gesamten Datensatz neu. Es braucht den DataFrame
und ein Setup. Die
Spaltennamen sind ein
komplizierterer Ausdruck, um
nach zu sortieren, okay, und
absteigend. Wenn Sie also diese
DESC-Funktion verwenden, wird die Spalte
in absteigender Reihenfolge sortiert. Wenn wir EEOC verwenden,
wird es versendet. Okay, hier also Elemente
in absteigender
Reihenfolge der Höhe hinzufügen . Um das zu erreichen, können
wir Star Wars verwenden, dann den Pipe-Operator und dann Funktion und Höhe von Desc
anordnen. Und Sie geben
dies einfach an und
die Daten werden in
absteigender Reihenfolge angeordnet . Sehen Sie hier, jetzt sind die Daten von oben und
sie nehmen ab. Dies ist die absteigende Reihenfolge. Auf diese Weise können wir die Daten
hinzufügen oder die Daten anhand der
Höhe in absteigender Reihenfolge
filtern. Okay, als Nächstes ist Slice. Was bedeutet, dass Sie mit einem Schrägstrich auf zwei
Folien gerollt nach ihrer
ganzzahligen Position
indexieren können. Es ermöglicht Ihnen, Zeilen auszuwählen, zu entfernen und zu duplizieren. Also etwas anderer Meinung, schneide
die Daten aus unserem Datensatz. Unterstreichen Sie den Kopf und
gleiten Sie auf diesem sogenannten Schwanz. Wählen Sie die erste und
letzte Zeile der Daten aus. Unterstrichstichprobe unterteilen und diese Zeilen
nach dem Zufallsprinzip auswählen. Folien unter dem
Unterstrichbeispiel erhalten Sie also den zufällig ausgewählten Raj aus dem Datensatz, wenn Sie
möchten, dass Ihre Schrift dies tut. Wenn Sie also keine Stichprobe aus dem
Datensatz erhalten , großer Datensatz, können
Sie Folien zu
diesem Codebeispiel verwenden und dann nach dem Zufallsprinzip einige Straßen auswählen
und sie Ihnen verkaufen, oft
als Requisite verwendet,
um bestimmte auszuwählen. Anteil der Fälle. Slice underscore mean
und slice underscore max wählen die Zeilen mit dem
höchsten oder niedrigsten Wert unserer Variablen aus. Es gibt Ihnen also einfach,
wenn Sie den Unterstrich angeben Mittelwert und hier geben
Sie die Höhe an. Es gibt Ihnen das Minimum
der Höhe und die Folien
unterstreichen Mathe, Max, Höhe. Es gibt Ihnen
das Maximum der Höhe. Also lasst uns das Praktische machen. Um das Zeichen 5-10 zu erhalten, können
wir den Star
Wars-Pipe-Operator Slice Five Doppelpunkt Zehn verwenden. Lassen Sie mich das einfach ausführen. Okay? Wir geben dir
fünf bis zehn, okay? Wenn wir n gleich drei verwenden
, erhalten wir, siehst du, nur drei Zeilen, okay? Und wenn wir n
gleich 512345 Zeilen verwenden gleich 512345 Zeilen Sie
hier den Unterschied fünf zu zehn sehen, erhalten
Sie den Zeilenstatus
56789106, einschließlich fünf n hier, n entspricht 5 min nur 512345. Okay? Um nun zehn
Prozent der Zeilen abzutasten, können
wir dies verwenden. Wir können die
fünf Operatoren von Star Wars verwenden, die
Folien unterstreichen das
Beispiel. Requisite 0,1%. 0,1 bedeutet zehn Prozent. Und das gibt Ihnen die zehn Prozent
der Daten. Okay? Es wird
die 10% der Daten herausschneiden. Verwenden Sie nun Folien, um den
niedrigsten oder höchsten Wert zu ermitteln. Wir können den
Star Wars-Filter also
nicht verwenden , um uns nicht zu verstecken. Und dann können wir Slice benutzen. Als Nächstes
wählen Sie Spalten aus und wählen Sie die Option
aus, wenn Sie mit einem großen
Datensatz mit vielen Spalten arbeiten,
aber nur wenige sind
tatsächlich von Interesse. Mit wenigen Auswahlen können
Sie
mithilfe von Beurteilungen,
die normalerweise
One Leave an der Position numerischer
Variablen arbeiten, schnell in eine nützliche Teilmenge
hineinzoomen. Als Nächstes wählen Sie Spalten aus und wählen Sie die Option aus, wenn Sie mit einem großen
Datensatz mit vielen Spalten arbeiten, aber nur wenige sind
tatsächlich von Interesse. Mit wenigen Auswahlen können
Sie
mithilfe von Beurteilungen, die normalerweise
One Leave an der Position numerischer
Variablen arbeiten, schnell in eine nützliche Teilmenge
hineinzoomen die normalerweise
One Leave an der Position numerischer
Variablen arbeiten, . Also Spalten nach Namen auswählen. Sie können also
Star Wars-Pipe-Operatoren verwenden Haar- und Augenfarbe
auszuwählen. Das gibt dir also
Haar- und Augenfarbe. Die Königin und nur diese Zeile. Und wenn Sie die
Spalten durch Schneiden auswählen, können
wir die Haarfarbe
und die Augenfarbe verwenden ,
beide sind nicht identisch. Dann wollen wir das auswählen. An diesem Ergebnis können Sie sehen, dass die Haarfarbe und die
Augenfarbe nicht da ist. Alle anderen Spalten sind da, aber die Haar- und Augenfarbe sind gesperrt und nicht enthalten. Auswahl von Spalten mit
den spezifischen Kriterien endet mit der Farbe. Also wollen wir
die Daten füreinander auswählen ,
alles mit dieser Farbe. Lassen Sie mich also diese Haarfarbe, Hautfarbe und Augenfarbe überprüfen. Drei Spalten, die
mit der Farbe enden. Mutation, mutate from
Sun ermöglicht es Ihnen, ermöglicht die Erstellung
neuer Variablen. Dies ist äußerst nützlich
für die statistische Analyse. Also hier
mutieren die
Star Wars-Pfeifenbetreiber Höhe zu Höhe um 100. Also, was fügen wir hinzu? Hier? Wir beziehen
die Höhe aus Star Wars und teilen sie durch 100 und erstellen einen neuen Unterstrich für die Höhe der
Spalte. Und dann wähle die Höhe, Höhe und alles andere aus. Lassen Sie mich das ausführen und sehen,
was wir hier C bekommen, wir bekommen hier den
Höhenunterstrich m neue Spalte, und das ist 172
geteilt durch Hundert, also 1,72 und dann alle anderen Spalten aus
Star Wars, das ist enthalten. Auf diese Weise können wir also bei einer
neuen Spaltenhöhe den Unterstrich
m zum Datensatz mutieren . Und wir können die
neue Spalte mutieren und wir können den neuen Wert
für diese Spalte
mit der Mutate-Funktion
abrufen . Okay? Nun
zeigt das angepasste Regressionsmodell
mit der Körpergröße als Prüfung, Prüfung drei als wertvoll und Mars, eine der Antwortvariablen
einschließlich des Ausreißers, Prüfung drei als wertvoll und Mars,
eine der Antwortvariablen
einschließlich des Ausreißers, die zusammenfassenden Statistiken für die bestehende Kooperation an. Also hier verwenden wir ein
Regressionsmodell. Wir verwenden die LM-Funktion,
Höhe und Masse und dann Datenwerte, Star Wars und Zusammenfassung. Ich werde das benutzen. Also lass mich das ausführen. Sehen Sie hier, das ist die
Zusammenfassung, die wir bekommen. Wir können dieses
Regressionsmodell auch grafisch darstellen. Schauen wir mal, wir holen uns
diesen Restbetrag als Hebelwirkung. Okay? Wenn Sie also
ins Detail gehen wollen, können
Sie das Wasser sehen, den Koeffizienten, den wir
erhalten, den ReLU-p-Wert, all diese Dinge, Sie können sehen,
was der minimale Median ist. Erstes Quartil, drittes
Quartil, Maximalwert. All diese Dinge, die
Sie analysieren können, Sie können hier normale Q-Q
- und Standardresiduen sowie die
theoretische Position der
Quadrantenkacheln sehen . All diese Dinge. Sie
können Ihre Agenda analysieren, jemanden finden und
Sie plotten das Regressionsmodell
auf der Grundlage von Höhe und Masse aus den Daten. Mir wurde gesagt, dass dies
die
schnelle praktische Anwendung der Plotfunktion ist , einer D-Flat-Bibliothek im R.
Ich hoffe, Sie wissen was D flat ist und wie wir die verschiedenen
Funktionen wie Mutex
verwenden können , Filter
auswählen,
zusammenfassen und sind das nicht alles Dinge.
Die nächste Vorlesung.
69. Einfache lineare Regression mit Airquality-Datensatz: Hallo und willkommen zurück. In dieser Vorlesung werden
wir eigentlich
ein weiteres einfaches Projekt durchführen , bei dem wir die
lineare Regression verwenden
werden. Und was wir mit
der linearen Regression machen werden, um zu versuchen, die am besten passende
Linie für unseren Datensatz zu finden. Das heißt, ein
Datensatz zur Luftqualität, der
mit dem R leicht verfügbar
ist. Dieser Datensatz zur
Luftqualität ist also mit dem R
verfügbar. Und dies ist der Datensatz über die Messung der
Luftqualität in Newark. Okay? Lassen Sie uns also verstehen, worum es bei
diesen Daten
geht
und was wir dann es bei
diesen Daten
geht
und was wir dann mit diesem Datensatz machen und was wir mit der
linearen Regression
erreichen werden . Also tägliche
Messungen der Luftqualität im Irak von Mai bis September 1973. Das ist also der
Datensatz, um den es geht. Es misst die
Luftqualität in New York City von Mai 1973 bis
September 1973. Der Datensatz ist Luftqualität. Und ich formatiere das Datenformat mit den 153 Beobachtungen
für sechs Variablen. Und was sind diese Variablen? Ozonschicht, wie hoch sind
die Ordinalwerte? Punkt r ist also eine
numerische Zahl und
befindet sich in der Lunge. Und das wird die PPB sein. Die Windgeschwindigkeit wird in MPH angegeben, und dann
wird die Temperatur in Fahrenheit angegeben und die Monate eins bis 12
von Januar bis Dezember. Okay. Ozon bedeutet also tägliche Messwerte der folgenden
Luftqualitätswerte. Der 1. bis 30. September 1973
wurde gelöscht und im Datensatz
aufgeführt. Ich meine nicht oder nicht
in Teilen pro Milliarde. 1300-1500 Uhr auf Roosevelt Island. Okay. So laut,
was das für Störung der
Sonnenstrahlung im Pachtgebiet im
Frequenzband 4000-7700 ist, Armstrong Angström, von 08:00 Uhr morgens
bis 1.200 Uhr im Central Park. Wind. Dies ist der Durchschnitt, wenn die
Geschwindigkeit in Meilen pro Stunde, 7-10 h am Flughafen Land Gorilla bedeutet, dass dies die maximale
Tagestemperatur in
Grad Fahrenheit
an diesem Flughafen ist . Okay, hier dreht sich alles
um den Datensatz. Gehen wir zum Code über. Also habe ich den Code bereits
geschrieben. Ich erkläre dir, was
wir tun werden. Als Erstes
müssen wir
den Datensatz verwenden , der mit der Kunst
verfügbar ist, nämlich
die Luftqualität. Wir können also Daten verwenden und
wir können Ungleichheit nutzen. Okay? Und hier können wir
die Daten mit Ansicht,
Funktion, Ansicht und
dann Menge betrachten. Und wir werden die Daten sehen. Das ist also der Datensatz. Wir haben die sechs Spalten
oder John-Solardaten. Dies ist die Sonneneinstrahlung,
Windgeschwindigkeit, Temperatur, höchste Temperatur des Tages und dann Monat, welcher
Monat? Und das ist der Tag. Sie haben also den
Monat, die Monatstemperatur, in der
er Sonne,
Sonnenstrahlung und Herkunft aufgeteilt hat . Okay? Hier dreht sich also alles um den Datensatz und er enthält
eins von drei Daten, okay, eine lila, drei
Zeilen in diesem Datensatz. Nun, was ich tun möchte, ich möchte einfach das oder Joan und die Sonnenstrahlung in einem Diagramm darstellen und sehen,
was wir bekommen. Lassen Sie mich also einfach diese Daten plotten. der X-Achse geht es um Sonnenstrahlung und die Ozonschicht wird
auf der Y-Achse dargestellt. An einem bestimmten Tag wird also die Sonnenstrahlung dies
sein und der Ursprung, die Menge, sei dies. Das ist also die Grafik, die
wir bekommen. Was ich nun mit
der linearen Regression machen möchte, ich möchte eine
am besten geeignete Linie
finden, die diesen
Datensatz korrekt darstellt. Also, was wird diese
Best-Fit-Linie sein? So etwas. Etwas, das
die Daten fast gleichmäßig aufteilt. Und damit können wir erraten, wie hoch die
Sonneneinstrahlung an einem bestimmten Tag sein wird. Wenn Sie also dieser Linie folgen, als ob y gleich mx ist plus c die
Geradengleichung ist. Also, wenn wir
diese Grenze an einem bestimmten
Tag ziehen , können wir es erraten. Okay, also was ich tun werde, ich werde herausfinden,
was der Mittelwert
der Ozonschicht ist . Was ist der Mittelwert zu dem
, was ich verliere, ich verliere das, was
von dieser Luftqualität herrührt. Luftqualitätsdollar oder John
geben uns die Herkunft, den Wert nach oben oder unten
im Datensatz zur Luftqualität. Und hier, was ich
mache, alle Daten aus jedem Quartal sind wahr, wenn
die Werte nicht verfügbar sind, wir haben es gerade gesehen, berücksichtigen Sie das nicht. Okay? Damit werden wir also den Mittelwert des Ursprungs
finden. Der Mittelwert
des Ursprungs ist also 42. Also wird es so
etwas wie hier sein. Was ich tun werde, ich zeichne eine gerade Linie, die den
Mittelwert des Ursprungs
darstellt. Also lass mich das Ding hier laufen lassen. Diese gerade Linie
stellt
den Mittelwert des Ursprungs dar . Okay? Was ich nun tun werde, ich verwende die lineare Regression,
um die bestmögliche Linie zu finden. Okay, wie wir das machen können, wir können die LM-Funktion, die lineare Modellfunktion,
und wir können hier
den Ursprung und die
Sonnenempfindlichkeit verwenden . Und dann verwende ich die
Luftqualitätsdaten. Okay, also
verwenden Sie anhand der
Luftqualitätsdaten diese beiden
Parameter oder geben Sie nicht viele
Antworten, bei denen es sich um
Sonneneinstrahlung handelt. Und ich werde versuchen, unser
lineares Regressionsmodell zu erstellen. Also habe ich erstellt, jetzt werde ich sehen,
was unser Modell bietet. Also lass mich das einfach
auf die richtige Seite legen. Also sieh hier, wir
bekommen diese Koeffizienten. Y-Abfangwert ist das und so laut auf
Künstler, okay? Was ich nun tun werde, ich werde versuchen, mit diesem Modell zu finden die am besten geeignete Linie zu finden, die unsere Daten vollständig korrekt
darstellt. Was ich also verliere, AB-Linie und ich gebe dieses Modell weiter
, das wir mit
der LM-Funktion und
unserem Begleitspiel erstellt haben . Ich möchte der Best-Fit-Linie die andere
Farbe geben. Also verwende ich hier die
Farbcodierung Orange. Also lass mich das ausführen. CEO. Nun, diese orange Linie ist die am besten geeignete Linie, die
wir für dieses Ding bekommen. Dies entspricht also
dem Wert
des regulierten Werts der durch die Sonnenstrahlung vergrabenen
Ozonschicht. Dies ist die am besten
geeignete Linie, die wir aus der
linearen Regression
erhalten. Basierend auf dieser Unterstützung von Daten für einen
PIP3-Tag, die wir haben, wollen
wir das vorhersagen. Wir können also sehen,
welche Unterstützung ich hier vorhersagen
möchte? Also diese Sonnenstrahlung,
nehmen wir hier an, und das wird uns den Wert
eines Delta-Yards geben , der etwa 60 oder 75 sein
wird. Okay? Auf diese Weise können wir
mithilfe der LM-Funktion
oder der linearen Regression die am besten passende Linie
finden . Okay? So können wir also lineare Regression
verwenden, um die am besten passende Linie zu
finden.
70. Mit fehlenden Werten umgehen: Hallo und willkommen zurück. In dieser Vorlesung und
den kommenden Vorlesungen werden
wir uns mit
den fehlenden Werten in R befassen.
Wir werden also sehen, wie wir mit
den fehlenden Werten
in unserer Programmierung umgehen können . Denn wann immer Sie
ein Data-Science-Projekt oder ein
Machine-Learning-Projekt starten
und mit der
Arbeit an den Daten beginnen. Der allererste Schritt ist
die Erkundung der Daten. Man muss die Daten lesen und man muss die Daten
verstehen. Was sind die Werte dort? Worum geht es bei diesen Daten , die Sie wirklich verstehen
müssen? Sofern Sie die Daten nicht
verstehen, können
Sie
nichts erstellen oder
Erkenntnisse aus diesen Daten gewinnen. Es ist also der allererste Schritt
, um die Daten zu verstehen. Und wenn Sie einmal
ein Verständnis von Daten haben, welche Spalten enthalten die Daten? Was sind die Werte dort? Und worüber sprechen diese Daten
, wofür sind diese Daten? Sobald Sie also
dieses Verständnis haben, wenn Sie die Beta-Version
verstanden haben, worüber die Daten sprechen, wofür die Daten da sind. Sie können diese Daten interpretieren, und wenn Sie das verstanden haben, können
Sie auf diesen Daten aufbauen. ersten Schritt müssen
Sie also
bedenken , dass Sie die Daten
verstehen müssen. Sie müssen verstehen,
welche Spalten
es gibt und wofür sind
diese Spalten? Welche Art von
Daten werden dazu in
diesen Spalten gespeichert . Sobald wir dieses Verständnis haben, können
Sie mit der
Arbeit an den Daten beginnen. Sie können mit der Arbeit an
Ihrem Lebenszyklus für maschinelles Lernen oder
Data Science beginnen . Und der eine sehr wichtige
Schritt bei der Arbeit an den Daten und der Schaffung von maschinellem Lernen oder
künstlicher Intelligenz. Datenwissenschaftliche Modelle beschäftigen sich mit
den fehlenden Werten. Wann immer Sie Datensätze sehen, können
Sie sehen, dass es viele Spalten und
viele Zeilen
gibt, in denen
die Daten nicht verfügbar sind. Und was das bedeutet. Das bedeutet, dass wir die
Daten immer dann, wenn
wir sie verwenden, über Formulare, durch Umfragen und durch das
Sammeln von Benutzereingaben erheben. Wann immer wir also
Daten von den Benutzern sammeln ist das nur eine große
Benutzergruppe. Manchmal hassten sie es,
ihre Daten zu teilen, oder manchmal haben
sie kein
gewisses Protolevel mit ihnen. Also überspringen sie die
Dojo-Eingabepunkte. Und wenn wir diese
Daten sammeln und unseren Datensatz erstellen, wir möglicherweise fest, dass
es
viele, viele Spalten, viele Werte gibt,
die fehlen. Und damit unser Datensatz für unser Modell für
maschinelles Lernen
oder künstliche
Intelligenz
ordnungsgemäß funktioniert unser Modell für
maschinelles Lernen
oder künstliche
Intelligenz
ordnungsgemäß , müssen
Sie
die fehlenden Werte korrigieren. Es ist also eine sehr häufige Aufgabe in der Datenanalyse,
mit den fehlenden Werten umzugehen. In unserer Programmierung. Fehlende Werte werden durch
ein a
dargestellt und es bedeutet nicht
zutreffend oder was auch immer. Sie können verstehen, wie
fehlende Werte durch ein a
dargestellt werden , und auf andere
Weise wird
es auch durch 99 dargestellt. Okay? Der sehr, sehr
wichtige Schritt ist also der Umgang
mit den fehlenden Werten. Während wir uns also mit
den fehlenden Werten befassen, müssen
wir
die drei Schritte befolgen. Die erste ist
die Suche nach den fehlenden Werten.
Was heißt das? Das bedeutet, dass wir in den Datensatz
schauen und auf
den fehlenden Wert testen müssen. Wir müssen sehen, wie viele
fehlende Werte es gibt. Wo sind die fehlenden Werte? Also müssen wir
die fehlenden Werte finden. Sobald Sie die fehlenden
Werte im Datensatz
getestet haben , müssen
wir
den fehlenden Wert aufzeichnen. Der zweite Schritt besteht darin,
die fehlenden Werte
zu dekodieren , was das Dekodieren fehlender Werte bedeutet, dass
wir einige,
sind andere Werte an die
Stelle fehlender Werte setzen müssen. Angenommen, wir haben unsere Altersdaten bei denen einige von Ihnen einfach
keine Altersangaben gemacht haben . Also, was wir dort füllen können, können
wir den Mittelwert daraus nehmen. Du hast gerade
den ganzen
mittleren oder durchschnittlichen Wert von Jugendgerechtigkeit gegessen , den wir auf den fehlenden Wert
legen können. Also egal, welche Schriftart Sie gerade haben, wem auch immer das Alter fehlt, wir können den
Durchschnittsalterswert der Gruppe da reinschreiben. Auf diese Weise können wir
die fehlenden Werte aufzeichnen. Also müssen wir die
fehlenden Werte auf
der Grundlage eines Algorithmus wie dem
Mittelwert aufzeichnen , all diese Dinge. Okay? Dann
ist der dritte Schritt, wir können oder denken, oder der andere Weg wäre, den fehlenden Wert
auszuschließen. Auf andere Weise können wir also, anstatt aufzuzeichnen, die Zeilen mit
fehlenden Werten ausschließen. Wir können also einfach
die Eingaben entfernen , die
nicht unterstützt werden , um Sie zu
unterstützen. Wir haben einen Namen, Sie nur Stadt und Alter und
Beschäftigungsdetails. Und wenn ein Benutzer in seinem Alter
nicht angegeben wird, können
wir
diesen Benutzer einfach aus
dem Datensatz entfernen, sodass wir die fehlenden Werte
ausschließen können. Das sind also die drei Schritte im Umgang mit den
fehlenden Werten. Und in der nächsten Übung,
in der nächsten Vorlesung, werden
wir eine einfache
praktische Übung machen in der wir sehen, wie wir
nach den fehlenden Werten suchen, wie wir
den fehlenden Wert aufzeichnen und wie wir
die fehlenden Werte ausschließen können. nächsten Vorlesung geht es also
ganz praktisch um das Thema, das sich mit den fehlenden Werten befasst. Wir sehen uns also in
der nächsten Vorlesung.
71. Die fehlenden Werte testen: Hallo und willkommen zurück. In der vorherigen Vorlesung haben
wir also gesehen, wie wir
mit fehlenden Werten in R arbeiten können oder wie wir mit den
fehlenden Werten in R umgehen Wir haben gesehen, welche Schritte
wir befolgen müssen. Wir müssen
diese drei Schritte befolgen. Oder du kannst zwei Schritte sagen. Entweder können Sie
die fehlenden Werte aufzeichnen oder Sie können den fehlenden Wert
ausschließen. Der allererste Schritt ist also das
Gespür für fehlende Werte. Wir müssen testen und wir
müssen die fehlenden
Werte im Datensatz finden. Und dann ist der zweite
Schritt erforderlich, die fehlenden Werte oder das
Ausschließen der fehlenden
Werte im Datensatz. Beginnen wir also mit dem
allerersten Schritt, dem Testen auf fehlende Werte. Also, wie wir
auf fehlende Werte testen können. Also habe ich diesen Code geschrieben und wir machen die praktische Arbeit. Also lass mich dir sagen
, was ich hier mache. Ich erstelle einen Vektor
mit einigen fehlenden Werten. Also erstelle ich einen Vektor 1-6
und füge dann einen NA-Wert hinzu, bei dem ein
Wert fehlt, und dann acht bis
zehn und dann fehlt. Nun, wenn wir diesen
Vektor ausführen, schauen wir, was wir bekommen. Die Ausgabe ist 123456
, weil eins bis sechs. Und dann wenn irgendein Wert, dann 89108 bis zehn und dann jeder. Wir haben hier also zwei
fehlende Werte. Diesen Datensatz
erstellen wir selbst. Okay, um Ihnen zu sagen,
welcher Wert fehlt, füge ich nur den
fehlenden Wert in den Vektor ein. Okay? Nehmen wir nun an, wir haben diesen
x-Vektor
, der zwei
fehlende Werte hat. Und wir wissen nicht,
wo wir es sehen können, also wissen wir, dass
zwei Werte fehlen. Aber nehmen wir an, wir wissen es nicht, wir sind es nicht, wir sehen nicht, wir sehen nicht, wie wir es können. Es ist ein großer Datensatz,
der nicht nur aus einer Zeile besteht. Möglicherweise gibt es einen Datensatz,
der mehrere Zeilen hat, Tausende von Zeilen, wie wir dort die fehlenden Werte
finden. Wir können also einfach
einen Test durchführen, der heißt, ob Annie eine ist, und dann müssen wir den Datensatznamen
übergeben. Okay, hier geben wir an, dass
der Extraktor aktiviert ist, suchen wir den fehlenden Wert. Es wird sagen, wenn
dort Werte fehlen, wird es wahr sagen. Okay? Also jede NA und jeder fehlende Wert, es durchläuft diesen Vektor,
den x-Vektor, und es wird den fehlenden Wert
finden. Und wenn ein Wert fehlt, wird der Wert wahr zurückgegeben. Also lass mich das ausführen. Hier. Wir bekommen falsch, falsch, falsch, falsch,
falsch und wahr. Das ist also für 1234566. Falsch bedeutet, dass bis sechs kein Wert
fehlt. Dann gibt es für den siebten
Platz welche, und dafür gibt es uns die Wahrheit
zurück. Dann 8910, falsch, falsch, falsch. Und für bis zu zehn gibt es welche, also
wird es wieder wahr. Es wird Ihnen also den
wahren Wert für die fehlenden Werte zurückgeben. Auf diese Weise können wir
feststellen, dass für
diese beiden Werte ein Wert fehlt. Okay? Lassen Sie uns nun einen DataFrame
mit fehlenden Daten erstellen. Also erstelle ich einen DataFrame. Df data.frame ist der Weg
, um DataFrame zu erstellen. Und hier erstelle ich
vier Spalten, Spalte eins, Spalte zwei,
Spalte drei, Spalte vier. Und in Spalte eins gebe
ich 123 und eine
Spalte für diese NA ist, also das ist der Wert, den ich
in den DataFrame einfüge. Okay? Lassen Sie mich also diesen DataFrame ausführen
und sehen Sie sich die Ausgabe an. Also sieh hier, der
DataFrame sieht so aus. Spalte eins, Spalte zwei, Spalte drei Spalte für
Spalte eins hat 123,1 und Spalte zwei
hat dies ist ein Text. Spalte drei, wahr,
falsch, wahr, wahr. Okay. Also und Spalte vier
wird 3,55, 0,26, 0,2 sein. Das ist also der DataFrame
, den ich erstellt habe. Jetzt möchte ich herausfinden, ob
n im vollständigen DataFrame ist. In diesem Datenrahmen
möchte ich welche finden. Also ich kann
den Test einfach als A ausführen und ich kann
zuerst den DataFrame V0. Jeder eingegebene Datenrahmen
gibt also wahr oder falsch zurück. Also dieses NA, das ist genau hier, Spalte eins, vierte Zeile, wir kommen durch,
dann noch ein Eintrag hier. Also kommen wir hier durch. Und das sind noch ein
und zwei weitere hier. Das heißt in diesem, okay? Auf diese Weise können wir
unseren Test auf einer beliebigen Via ausführen. Angenommen, Sie möchten
eine bestimmte DataFrame-Spalte identifizieren . Also möchte ich überprüfen, ob
dieser DataFrame
irgendwelche Werte in Spalte zwei hat, damit
ich den Test als beliebig ausführen kann. Und dann der
DataFrame-Name df dollar Spalte zwei. Was es also zurückgibt,
es gibt für die Spalte den Wert „Wahr“
und „Falsch“ zurück. Lassen Sie uns das ausführen
und sehen, was falsch, wahr, falsch, falsch ist.
Warum ist es falsch? Weil in Spalte zwei Wert steht,
wird also falsch zurückgegeben. Für N8 läuft true für is und text ist es
Dunning, false, false. Das bedeutet, dass in Spalte zwei ein Wert
fehlt. Auf diese Weise können wir
herausfinden, dass bei den NA-Werten Werte in einer
bestimmten Spalte fehlen. Jetzt können wir
die Summenfunktion ausführen und die Anzahl
von NINR DataFrame
identifizieren. Wir können also some
off verwenden, wenn any df ist N A, und wir müssen
den Datensatznamen übergeben. Also lassen Sie uns das ausführen und sehen
, jetzt bekommen wir drei. Es gibt also drei. N ist im Datenrahmen. Jetzt ist die Spaltensumme df, sie gibt Ihnen die Summe der
fehlenden Werte in den Spalten. Okay? Lassen Sie uns das also ausführen und
sehen, dass es in Spalte eins, Zeile, eins, Spalte
21, Spalte drei erledigt ist. Es fehlen keine Daten. Und Kolumne für einen. Also C, Spalte drei, alles ist da wahr, falsch, wahr, falsch, und wir haben keine fehlenden Werte
in Spalte drei. Spalte drei unterstützt,
wenn ich etwas
eingebe, einige andere Werte,
statt True-False gebe ich etwas Braun ein. Bei einigen Werten
müssen wir 20 angeben, okay? Und jetzt starte das DF. Okay? Jetzt führe das aus. In Spalte drei fehlen keine Werte
, weil alle verfügbaren
Daten auf 905123 abgerundet wurden, oder? Deshalb wird es in der
Regel für die dritte Spalte gemacht, Summe der Zahl, die Anzahl der fehlenden Werte
in Spalte drei ist Null. In Spalte eins
fehlt ein Wert, und zwar dieser. In Spalte vier gibt es einen
Grund, naja, das ist dieser. Und in Spalte zwei gibt es einen. Auf diese Weise können wir
die fehlenden Werte
in R testen , indem wir
is any verwenden , is any wird
true zurückgeben, wenn im DataFrame
ein Wert fehlt. So können wir also diesen ersten Schritt
erreichen. In der nächsten Vorlesung werden
wir sehen, wie wir eine Erfassung
fehlender Werte
erreichen können . Wir sehen uns in der nächsten Vorlesung.
72. Die fehlenden Werte neu kodieren: Hallo und willkommen zurück. In der vorherigen Vorlesung haben
wir also gesehen, wie wir mit den fehlenden Daten
arbeiten können. Und wir haben gesehen,
wie wir
die fehlenden Werte in einem
Datensatz mit einem Punkt identifizieren können , oder? Also jeder Punkt und es gibt
dir die fehlenden Werte. Und jetzt, wenn Sie wissen, dass die fehlenden Werte im Datensatz
vorhanden sind, können wir
sie entweder mit einem Wert aufzeichnen oder wir können sie entfernen. Schauen wir uns also an, wie wir den fehlenden
Wert in einem
Datensatz aufzeichnen können . Als Erstes können wir den fehlenden Wert
aufzeichnen. Wenn es sich um numerische Daten handelt, können
wir mit dem
Mittelwert des Datensatzes, dem
Mittelwert der Werte,
okay, dem Durchschnitt des Werts aufzeichnen Mittelwert der Werte,
okay, . Wir können zwei portieren, können wir sagen. Also hier erstelle ich
einen Vektor X, okay? Und schauen wir uns an, was
in dem Vektor S enthalten ist. Es ist 123456, dann eins, dann
8910 und dann irgendein. Okay, hier geht es also
alles um numerische Daten. Was wir also tun können, wir können weitermachen und den
Mittelwert der vorhandenen Daten ermitteln, indem wir unsere numerischen
Zahlen und Zahlen anpassen
und den Mittelwert
anstelle der Werte auffüllen, bei denen
keine Werte fehlen. Was wir also tun können, wir können das x verwenden, das ist der Datensatz oder Vektor und wir können ein a von x finden. Wir können alle NA-Werte finden. Und hier können wir
den Mittelwert von x angeben. So können wir den
Mittelwert von x mit
der Mittelwertfunktion finden und wo, wo immer welche, die
nicht gleich wahr sind. Also können wir den
Mittelwert verschieben. Wir entfernen die Werte und setzen den Mittelwert an die
Stelle des Umschlags. Also lass mich das ausführen. Und jetzt, in Ordnung, also das Z hier, jetzt haben wir die 123456
und anstelle von allen haben
wir 5,33 und dann 8910. Und stattdessen haben
alle dieses 5.3. Lassen Sie mich das noch einmal ausführen. Also hier haben wir statt
eines A 5,33. Also, wie kommen wir auf diese 5,33? Wir erhalten den Durchschnitt von 1234561 plus zwei plus
drei plus fünf plus sechs, plus acht
plus neun plus zehn, und dividieren ihn durch die Anzahl der
Werte, wenn Sie 5,3 erhalten. Anstelle von Antikörpern setzen
wir also die 5,33 ein. Das ist also die einzige Möglichkeit mit den
fehlenden Werten umzugehen, indem wir den
fehlenden Wert mit
diesem Durchschnittswert, also 5,33
, aufzeichnen . Als Nächstes wird DataFrame den fehlenden
Wert mit Stickstoff überziehen In einigen Teilen des Datensatzes steht
die 99 für
den fehlenden Wert. Nehmen wir an, das ist der
DataFrame, den ich erstelle der zwei Spalten hat. Und lassen Sie uns das ausführen und lassen Sie
mich Ihnen den DataFrame zeigen. Die erste
DataFrame-Spalte, Spalte 2123. Und hier sind
es statt fünf 99. Und Spalte zwei
enthält alle Brunnen. Diese 99 ist also fehl am Platz. Es ist wie ein fehlender Wert. Es wird also als
fehlender Wert behandelt. Also, was wir jetzt
tun können, eine Sache, wir können diese 99
durch eine Eins ersetzen, damit sie an Ort und Stelle ist. Wenn wir also dieses
d F gleich 99 innerhalb von a ersetzen wollen, können
wir DFT verwenden und
in Klammern df gleich, gleich, gleich 99 verwenden. Und wenn es 99 ist, müssen
wir es durch DNA ersetzen. Also lass mich das ausführen. sehen uns jetzt in gerader Linie 99, diese 299, wir haben die
N A-Werte, oder? Sie können es also durch das Unvermeidliche
ersetzen. Wenn Sie durch keinen Wert
ersetzen möchten, können
Sie sich von
mir einfach den DataFrame
noch einmal mit der 99 zeigen lassen . Jetzt können wir hier beliebige Werte eingeben. Wenn du fünf setzen willst, weißt
du, dass es fünf geben
sollte und du kannst einfach fünf und C eingeben. Jetzt haben die Werte
beide Stellen durch fünf ersetzt. Auf diese Weise können Sie
mit den fehlenden Werten umgehen. Wir können einfach DNA hineinlegen, okay, auf diese
Weise können wir
die fehlenden Werte in uns aufzeichnen.
73. Entscheidungsbaum: Hallo und willkommen zurück. In dieser Vorlesung werden
wir also etwas über den Entscheidungsbaum lernen
, der
beim maschinellen Lernen sehr wichtig ist. Also werden wir alles
über den Entscheidungsbaum lernen und das Ganze
von vorne beginnen. Was ist ein Entscheidungsbaum? Lassen Sie mich Ihnen zunächst sagen, was unsere Entscheidung ist. Eine Entscheidung treffen wir jeden Tag. Nehmen wir an, wir wollen irgendwohin gehen und nehmen wir an, ich möchte
zu einer Veranstaltung gehen. Und das zu unterstützen bin ich. Und ich muss, ich brauche es, um etwas
Wasser zu trinken, irgendein Ereignis. Also was ich sagen werde, ob
das Wetter gut ist oder nicht, und je nachdem, ob das Wetter gut
ist, gehe ich hinauf. Wenn das Wetter nicht
gut ist, gehe ich nicht. Das ist also abhängig von
den Wetterbedingungen. Also hier unterscheide ich
sie so, wie sie sind. Das ist also eine Art
Entscheidungsbaum, den ich treffe. Ich treffe, ich treffe
Entscheidungen
auf der Grundlage des Wetters und der Unterstützung. Ich kann noch eine
Sache hinzufügen, wenn das gut ist. Und wieder möchte ich etwas
hinzufügen, mir gut geht und
ob es mir
nicht gut geht, oder? Also wenn es mir gut geht, gehe
ich, es wird ja sein. Und das wird nein sein. Das Ganze wird also zu
einem großen Entscheidungsbaum werden , bei dem es
als Erstes um das
Wetter geht, das Wetter ist gut, ich gehe, das
Wetter ist nicht gut,
ich gehe nicht. Und ob es gut ist Auch App, um zu sehen, ob es
mir gut geht oder nicht. Und dann sage
ich, besser als
mein Gesundheitszustand, ja oder nein. Das ist also ein großer
Entscheidungsbaum, okay? Also, so
treffen wir die Entscheidung, oder? Wenn wir ein Auto fahren, wir uns das an,
schauen uns die
Verkehrslage an, und dann fahren
wir los, oder? Wenn die Falle, wenn die Ampel grün
ist, bewegt sie sich. Wenn es gelb ist, warten wir. Und wenn es rot ist, hören
wir auf, oder? Das wird also auch eine Art von Entscheidung sein, die wir treffen. Was ist also ein Entscheidungsbaum? Wenn Sie das verstehen wollen, müssen
wir zu einem Beispiel gehen. Nehmen wir an, nehmen wir an,
das bin ich, das bin ich. Und ich möchte zu einem Imbiss
gehen und ein paar Früchte kaufen. Und ich erkenne keine Früchte. Okay. Also hat mir jemand in meiner
Familie
erzählt, dass der Apfel, der
Apfel , der Apfel
zwei Eigenschaften hat. Es hat eine rote Farbe und wird
gerundet, oder? Und dann sagte er, dass Banane, Banane eine gelbe Farbe haben
und das ist nicht falsch, oder? Nicht rund. Es ist eigentlich lang. Okay. Und dann sagte er
, wir haben es. Ich verstehe, es hat eine orange Farbe. Und es ist nicht falsch. Okay. Nicht falsch. Also gehe ich jetzt zum
Entenfruchtmarkt. Und da sah ich eine Softtastatur. Ich habe einen Ladenbesitzer gesehen,
der Obst verkauft. Und er hat viele Früchte, tut mir leid. Er hat
Bananenunterstützung gebündelt. Das ist die Banane. Er hat also viele Bananen, ich weiß nicht, dass es Bananen sind. Okay, also etwas
in Bananensafe, ich machen werde, tut mir leid für meine schlechte Zeichnung. Und er hat ein paar Früchte. Ein Schlagzeug beweist, dass er es hat. Und dann hatte er ein
orangefarbenes Ding. Ich hab's. Okay. Unterstützung, die ich dort
nur wenige gesammelt habe. Also jetzt
höre ich auf
und denke darüber nach,
wie ich aufgrund der Beschreibung, die ich von meinem Familienmitglied
bekommen habe, Wasser zu verlieren , gehe
ich und frage den Softkey
für die Frage, die ich stellen werde. Ich werde das fragen, was
ist die Farbe, oder? Also frage ich als Erstes, wie Ägypten oder Rot
oder Orange, oder? Ich habe dich verloren, Gita. Farbe Orange. Also die orangefarbene
Protease. Und wenn ja, werde ich
direkt antworten ,
entweder ja oder so. In Ordnung. Also wenn es ja ist. Verstanden, es wird hier klassifiziert. Die S, die Karotten
werden hierher kommen, oder? Deshalb werden alle Kandidaten
hierher kommen, die orange Farbe und
all die Bananen, weil sie
nicht orange sind. Also
werden alle Bananen Bananen sein, sie werden hierher kommen. Und älter. Äpfel auch auf dieser Seite, oder? Weil sie auch nicht
orange sind. Also habe ich jetzt eine Entscheidung getroffen. Die Früchte habe ich in zwei
Kategorien eingeteilt , orange oder nicht. Also orange, ich habe die, alle Karotten und nicht Orange. Ich habe die gelbe
Banane und die roten Äpfel. Nun, das nächste, was ich
fragen werde, oder nicht, oder? Rund. Also verstehe ich ja
und ich verstehe nein. Richtig? Bisher werden
alle Äpfel hierher
kommen, oder? Alle Äpfel werden
korrekt klassifiziert, oder? Und für nein, um zu wissen,
was passieren wird. Alle Bananen
werden hierher kommen, oder? Weil Bananen nicht rund sind. Also hole ich alle
Bananen her. Also sehen Sie, wenn Sie
sich dieses Ding ansehen, können
wir sehen, dass das diese ganze Sache
ist. Diese ganze Sache ist ein Entscheidungsbaum, weil sie wie ein Baum
aussieht, oder? Der Baum hat Zweige
und Blätter, oder? Also dieser, der Hauptknoten, dieser wird als Wurzelknoten bezeichnet. Der Wurzelknoten und untergeordneten Knoten, die wir bekommen,
und digitale Lippen, oder? Okay. Das ist also ein
Entscheidungsbaum, bei dem
ich zuerst alle Früchte sehe und entscheide, ob
sie orange sind oder nicht, dann klassifiziere ich Daten , die richtig
klassifiziert werden. Dann sind Banane unipolar hier
und dann ihre eigenen, dann
sind die Äpfel und Bananen zu Recht klassifiziert. Klassifizieren Sie die Früchte
nach ihrer Farbe und speichern Sie sie. Im Grunde
werden Entscheidungsbäume also für
Klassifizierungsprobleme verwendet. Die Jahrhunderte werden also für
Klassifizierungsprobleme verwendet , oder? Und der Mittelwert dieses Knotens, dieses Knotens, des Wurzelknotens hier. Das nennt man Entropie. Also, was unsere Entropie bedeutet,
wie, je größer die Anzahl
der Elemente
in diesem Wurzelknoten sein wird , desto dichter wird Ihr
Entscheidungsbaum sein. Okay? Also was ich tun muss, ich muss jede Entscheidung
mit jedem Knoten treffen. Jeder Knoten, den ich brauche, um die Entropie zu
reduzieren. Also hier ist die Entropie da, dann wird das Trapez am höchsten
sein. Und dann muss ich bei jeder
Entscheidung
den Entropiewert reduzieren , damit wir diese Elemente klassifizieren
können. Okay? Das nennt man also Entropie. Also jede Augenspur
und wir werden sein, wir werden
die Entropie reduzieren, richtig? Wir werden in der
nächsten Vorlesung sehen, wie
wir die Entropie reduzieren werden. Also hier können wir, wir werden sehen, wie wir das
nutzen können und es
auch mit der Titration fallen lassen und den Child-Node erreichen, wie wir
in der nächsten Vorlesung die Entropie reduzieren. Aber im Inneren befindet sich der
Entscheidungsbaum und so
klassifizieren wir die Dinge beim
maschinellen Lernen anhand des Entscheidungsbaums. Und so treffen wir
den Entscheidungsbaum, werden auch
in den kommenden Vorlesungen unser Hands-on tun. Zuerst werden wir den
gesamten theoretischen Teil durchgehen und
dann zum
praktischen Teil übergehen, in dem
wir Ihr Problem des maschinellen Lernens
anhand des Entscheidungsbaums
in unserer Programmierung klassifizieren Ihr Problem des maschinellen Lernens . Wir sehen uns in der nächsten Vorlesung.
74. Entropie und Informationsgewinn: In dieser Vorlesung werden
wir uns also
ansehen, wie ein Entscheidungsbaum funktioniert, wie funktioniert ein Entscheidungsbaum? Okay? Weniger als drei. Arbeit. Okay. Lassen Sie mich Ihnen dafür ein paar
Grundlagen erklären, bevor wir weitermachen. Also als Erstes, diese
Entscheidung, dieser Entscheidungsbaum, wir
treffen verschiedene Entscheidungen. Also dieser ist, dieser ist bekannt
als der Wurzelknoten, oder dieser ist als
der Wurzelknoten bekannt, oder? Das ist also ein Wurzelknoten. Und diese werden dann Blattknoten
genannt. Das ist also ein Blattknoten. Dies ist ein weiterer Blattknoten. Sie werden Blattknoten genannt, okay? Wurzelknoten und Blattknoten. Okay? Jetzt wissen wir also, was ein
Blattknoten und ein Wurzelknoten sind. Lassen Sie mich Sie zu
einem anderen Konzept führen, das Entropie heißt , und ich habe gesehen, dass es
sehr, sehr wichtig ist. Also lass mich dir sagen
, was ich sage. Ich sage Entropie. Also, was ist Entropie? Entropie ist eine sehr wichtige Sache. Denn sieh hier, jetzt
dieser, das hat
mehr Artikel, oder? Das ist also
High-End-Dropping. Es tut uns leid. Das hat eine hohe Entropie. Hohe Entropie, okay? Und dieser
hat eine niedrige Entropie. Es ist eine Art Population. Wenn Sie also mehr
Elemente in einem Knoten haben, hat
er eine hohe Entropie. Und wenn es eine
geringe Anzahl von Elementen hat, wird
es als niedrige Entropie bezeichnet. Okay? Entropie ist also ein Maß für die Unzulänglichkeit
Ihrer Datensammlung. Wie eine größere Anzahl von
Artikeln, wie hier. Auf dem Stammknoten befinden
sich die Elemente mit drei Farben Orange, Gelb und Rot und aus, um sie zu speichern. Das ist also
chaotischer und richtig. Das ist also eine hohe Entropie. Und im Vergleich
dazu hat dieser Wurzelknoten eine niedrige Entropie und dieser hat eine
sehr niedrige Entropie. Okay? Lassen Sie mich Sie also zu einem anderen Konzept
mit diesem und jenem führen, das heißt Informationsgewinn. Was ist es? Es heißt, es heißt Informationsgewinn. Was ist also Informationsgewinn? Wenn wir uns zu
diesem Entscheidungsbaum vom
Wurzelknoten zum Blattknoten bewegen , gewinnen
wir Informationen. Und wenn
Informationen gewonnen werden, was sie reduzieren, ist die Entropie ein Straßenrennen. Nehmen wir diese Entropien an,
denn diese Entropie ist E2, für diese Entropien E3. Und dafür
unterstützen Entropien die Entropien E3. Also für jeden, den ich
tracke, kannst du sagen , dass E2 weniger
als eins sein wird, oder? y1-Wert ist also E1, E1 ist mehr und E2 reduziert sich. E2 ist kleiner als Y1. Und ähnlich
wird e3 hier kleiner sein als E2. Okay? Was ist also Informationsgewinn? Informationsgewinn ist
Informationsgewinn Wenn wir rechnen wollen, ist der Informationsgewinn
gleich y1 minus y2. Y1 minus y2 ergibt
den Informationsgewinn. Informationsgewinn ist die
Verringerung der Entropie durch die
Aufteilung des Datensatzes unter bestimmten Bedingungen. Also sieh hier. Jetzt haben wir 1234567 Daten hier. Und wir stellen
eine Bedingung, Agent, Orange in der orangen Farbe der Protisten
. Und basierend auf dieser
Bedingung, die
wir erhalten, reduzieren wir die
Anzahl der
Datensätze genau hier, zwei und hier 345. Also teilen wir den Datensatz auf. Also hier reduziert sich die Entropie. Informationsgewinn
ist die Verringerung der Entropie durch die Aufteilung des Datensatzes auf der
Grundlage einer bestimmten Bedingung. Wir werden sehen, wie wir die Entropie
berechnen können. Das ist eine weitere mathematische
Sache, die ich Sie wissen lasse. Aber nehmen wir vorerst an, dass die Entropie abnimmt, wenn wir den Entscheidungsbaum
hinuntergehen . Früher war es E eins, jetzt ist es E2, und weiter unten kommt es auf E drei
runter. Und e eins ist größer als E2
und E2 ist größer als E3. Informationsgewinn dafür, von diesem Knoten zu diesem Knoten kommt
es auf y1 minus y2. Okay, das ist also der
Informationsgewinn. Was ist also unser Ziel
des Entscheidungsbaums? Wenn wir den Datensatz unter
bestimmten Bedingungen aufteilen, wollen
wir die Entropie
verringern, die Entropie
verringern, um
die Informationen zu gewinnen, oder? Also stirbt das Haupttelefon, um mehr Informationen zu
erhalten. Okay, in der nächsten Vorlesung werden
wir also sehen, wie wir
den Informationsgewinn berechnen können und wie
wir mit dem Datensatz umgehen können, wie wir
die Daten aufteilen und wie wir den
Informationsgewinn berechnen können. Und wir werden sehen, was
die mathematische Gleichung für
den Informationsgewinn ist , okay, wir sehen uns in
der nächsten Vorlesung.
75. Entropy im Entscheidungsbaum berechnen: Hallo und willkommen zurück. In dieser Vorlesung lernen
wir also etwas über Entropie und wie
wir Entropie berechnen. In der vorherigen Vorlesung haben
wir also gesehen, wie sich
unsere verschiedenen Spaziergänge entwickeln. Und doch möchte ich das klarstellen. Der Blattknoten wird sein, dies wird der eine Blattknoten sein. Das wird ein
Blattknoten sein, oder? Und das wird ein weiterer
anderer Blattknoten sein, okay? Lymphknoten, der Endknoten. Okay, das wird Talkie. Und wir haben gesehen, wie es uns geht, wenn wir tief in
den Entscheidungsbaum gehen Die Entropie wird
abnehmen. Das Hauptziel
ist es , zum Datenknoten
zu gelangen, zum Blattknoten, wo die Entropie geringer sein wird als
die vorherige Knotenentropie. Und Entropie und
Informationsgewinn. Wir haben gelernt, dass y1 minus y2 der
Informationsgewinn sein wird. Jetzt werden wir sehen, was
Entropie ist und wie wir
die Entropie berechnen. Das Thema dieser
Vorlesung ist also Entropie. Okay? Wir werden also ausführlich
besprechen, was Entropie
ist und wie wir die Entropie
berechnen können. Entropie. Nehmen wir an,
das ist die Unterstützung, das ist unser einziger Entscheidungsbaum. Nehmen wir an, das ist unsere eine, diese Entität, in der sie F1, F2, F3
sagen, okay? Und dann, okay, das
sind also unsere Blätter nach Norden, oder? Das sind unsere Lymphknoten. Und das wird der Blattknoten sein. Kann der Sport oder der Lymphknoten. Und das ist der
Wurzelknoten, oder? Wie berechnen wir also die Entropie? Nehmen wir noch eine Sache an. Nur um mich zu erinnern. Dieser Entscheidungsbaum. Entscheidungsbäume werden
für
Klassifizierungsprobleme verwendet , oder? Klassifizierungsprobleme, oder? Im Grunde wird es also
die binäre
Kreuzklassifikation sein , ja oder nein. Okay? Nehmen wir also an, wenn wir hier
vom Stammknoten aus hinzufügen, kommen
wir zu diesem F2. Nehmen wir an, wir haben drei Jahre und wir
bekommen zwei Knoten, okay? Und hier haben wir
vier Jahre und drei Knoten. Und dann haben wir
hier fünf Jahre. Wir haben zwei Jahre und hier haben wir
drei Knoten. Wir gehen einfach von
diesen Werten aus, okay, und hier für Knoten und Support bekommen wir drei. Ja, und er hatte ein gutes
Faible für Knoten und unterstützte diesen, indem er die Eisenbahn
etwa zehn Jahre,
sieben Knoten hat . Okay? Wie wir nun die Entropie
berechnen, ist
Entropie die
Parität der Teilung. Das ist also unser Datensatz und wir teilen uns
in zwei Knoten auf, oder? F2 und F3. Also, wie rein und wie
gut ist dieser Split? Das werden wir auf der Grundlage der Entropie
entscheiden. Also, Entropie. Entropie ist im Grunde
wie gut ist, wie gut ist der Split, wie gut ist dein Split? Das
wird uns die Entropie sagen und wie man die Entropie berechnet. Dass es eine
einfache Formel gibt, die
unterstützt, wir wollen die
Entropie von S berechnen, also wird es minus
Wahrscheinlichkeit von ja sein. Und dann protokollieren Sie
die Nachricht mit der Wahrscheinlichkeit von Ja. Sie können
auch
die Wahrscheinlichkeit positiv plus minus Alpha angeben. Wahrscheinlichkeit von no log
base two, Wahrscheinlichkeit von Nein, lass mich das
richtig schreiben. Das geht runter. Nehmen wir an, es unterstützt die
Entropie, die wir
mit E bezeichnen. Die Entropieformel
ist sehr einfach. Minus der Wahrscheinlichkeit von Ja in die zweite Logarithmusbasis der
Wahrscheinlichkeit von Ja. Minus. Sie können in den Logarithmus des
Paschtu-Logs die Wahrscheinlichkeit von Norden plus ,
minus die
Wahrscheinlichkeit des Knotens eintragen. Das ist also die Formel
zur Berechnung der Entropie. Nehmen wir an, wir wollen
die Entropie dieses Knotens berechnen. Also, wie können wir das machen? Also hier wird das E die
Wahrscheinlichkeit von ja sein, ja wird drei sein. Also drei nach Gesamtzähler,
drei plus zu finden. Also Wahrscheinlichkeit von Ja
drei mal fünf Jahre. Und dann machen wir
Log Base 23 mal fünf. Und das Minuszeichen minus die
Wahrscheinlichkeit eines Negativs
ist zwei mal fünf. Um fünf. Loggen Sie die
Wahrscheinlichkeit eines Negativs zur Basis zwei mal fünf ein. Das wird also die Entropie von sein, das wird die Entropie
der Note F zwei sein. Das ist also die Formel. Sie werden hier etwas Wertvolles bekommen. Bei der Berechnung
wird der Wert durch einen Wert ermittelt. Das wird also dunkel sein und dich von dieser F2
absetzen. Beachten Sie die Entropie von F2, das können
Sie, oder? Okay? Die Entropie von F2 Null wird also das
minus drei mal fünf sein. Armut erscheint
abzüglich der Wahrscheinlichkeit negativ und es muss
die logarithmische Basis zwei dieser Werte verwendet werden, die positive Wahrscheinlichkeit und die
negative Wahrscheinlichkeit. Also das, ja, man kann Wahrscheinlichkeit der
Positivität, Wahrscheinlichkeit
der Positivität
sagen . Und das wird die Wahrscheinlichkeit negativer, negativer Werte sein. Okay? Auf diese Weise können wir den Entropiewert
berechnen. Wir können also auch dafür den
Entropiewert berechnen, auch
dafür , auch
dafür hier, wenn Sie den
Wahrscheinlichkeitswert berechnen, das ist der einzige, es gibt
kein negatives, oder? Weil das das
N Nichts ist, oder? Nehmen wir also an machen den Split und wir
bekommen, nehmen wir an, wir sind hier ,
statt 4,3 Knoten bekommen
wir drei
Jahre und drei Knoten. Das ist also eine sehr, das ist nicht nützlich, das ist, das ist keine nützliche
Sache, oder? Weil wir
beides bekommen, drei Jahre und drei Knoten. Das wird also keinen Einblick
geben, oder? Das ist also sehr negativ. Das ist eine sehr, sehr schlechte
Art von Trennung, okay? Ihre Daten werden also nicht auf
diese Weise
in einem Entscheidungsbaum aufgeteilt. Das ist also Diskontinuität
oder Hockey, denn wenn Sie diesen Wert
berechnen, ergibt
sich drei mal sechs
minus drei mal sechs. Im Grunde sind die
negative Wahrscheinlichkeit und die
teilweise Wahrscheinlichkeit
des Bootes gleich, okay? Also müssen wir
es so aufteilen , dass wir dieses Ding nicht
bekommen sollten. Okay? So berechnen wir also die Entropie mit dieser Formel. Okay? Und wir müssen, und der
Informationsgewinn, wie besprochen, wird das sein, nehmen wir an, es ist E eins oder E F1. Und das ist hier EF2. Die von F1
bis F2 gesammelten Informationen lauten E F1 minus F2. Das sind also die
Informationen, die
von Knoten zu Knoten gewonnen werden. Okay? So berechnen
wir also Entropie
und Informationsgewinn. Informationsgewinn.
76. Informationsgewinn für Entscheidungsbaum berechnen: Hallo und willkommen zurück. In der letzten Vorlesung
haben wir also etwas über Entropie gelernt. Und die Absätze sind in diesem
Entscheidungsbaum, den ich gezeichnet habe. Abdullah, kleiner
Fehler wie Yolanda. Insgesamt feuern Städte 17, 17 Gegenstände dann S. Und es gibt keine. Also, wenn Sie
diese beiden Knoten aufteilen, müssen Sie das in
drei Jahren wissen. Und für ja und
drei Knoten, oder? Vier plus 37,5, nur 12, also fünf sind nicht enthalten. Also kannst du, also
musst du dich darum kümmern. Ich mag es, wenn
ich versehentlich nicht die
richtigen Zahlen erhalten habe, aber das wird
nichts beeinflussen , was ich
in der vorherigen Vorlesung gelehrt habe. Also nur die Zahlen ergeben
insgesamt 17, wenn Sie teilen. Okay? Abgesehen davon ist also
alles
korrekt und die Art und Weise, wie wir die Entropie berechnen, diese Formel ist korrekt, alles andere ist korrekt. Und genau das wollte ich
klarstellen, damit das passiert. Ein paar andere Zahlen. Okay. Und ungefähr drei
oder acht Jahre , dann und dann okay. Darin wäre mein Fehler. Ich habe 38 ja geschrieben. Um 10.7, 17 zu wissen. Okay. Und dann soll es eine Unterstützung für acht Jahre geben. Und ja. Oder McDonald's gleich hier, dann wird es richtig sein. Okay. Okay. Gehen wir nun zum nächsten Konzept , das Informationsgewinn genannt wird. In der vorigen Vorlesung habe ich Ihnen also gesagt,
was
ich Ihnen gesagt habe, in Farmern
und Gewinn ist in Entropie
minus dieser Entropie so . Also dieses
Informationsspiel, das du
von diesem Feature bekommst, von F1 bis F2. Aber das ist nicht der
gesamte Informationsgewinn. Wenn wir also unseren
Entscheidungsbaum vollständig erstellt haben, müssen
wir den Informationsgewinn
des gesamten Entscheidungsbaums ermitteln. Welches Informationsspiel? Auch hier
kommen wir zur Totalität. Also lass mich einfach wie
Dawn werfen und was ich tun werde, ich werde einen Entscheidungsbaum erstellen. Nehmen wir an, wir haben
diesen Entscheidungsbaum. Also habe ich diese
Phase unterstützt, F1, F2, F3. Okay? Also nehme ich an, dieser
hat n, ja und sieben. Okay? Und wenn wir uns hier trennen, wird
es vermutlich ETS sein, Nase. Und hier schneiden wir. Lass es diese drei Knoten sein. Also Level und hier habe ich
drei und drei Jahre. Nee. Okay, das ist also einer, unser Entscheidungsbaum unterstützt einen Beispielentscheidungsbaum
, den wir hier erstellen. Nun, für diesen Knoten wird
Entropie angenommen, dass
E F1 Sie unterstützt. Wir berechnen also die
Entropie dafür. Ja, nein, sieben Knoten, wir bekommen E F1. Dafür bekommen
wir eine Immobilie als E F2. Und dafür
bekommen wir E F 30. Okay? Das basiert nun also
auf diesem Informationsgewinn. Und Entropie reicht aus. Entropie wird es dir nur
anhand des Entropiewerts sagen, wir können herausfinden,
wie unsere Aufteilung ist, oder? werde nicht wissen
, ob sich die gesamten Übergewichtigen für
diesen oder diesen entscheiden würden, oder? Diese Trennung, oder
diese Trennung, richtig? Nehmen wir also an, wir können eine weitere Aufteilung
vornehmen, z. B. mit F2
beginnen, mit F2 beginnen und dann zu F1 und F3
übergehen. Das könnte also eine weitere Trennung sein. Wir wissen also nicht,
welcher richtig ist, oder? Also, woher wissen wir das? Welche Strategie oder welchen Split wir
besuchen sollten, würde so aussehen, als ob F1, F2, F3 Wege sind, würden mit
F2, F1, F3 beginnen, oder? Also, wie können wir das entscheiden? Wir können das anhand des
Begriffs entscheiden, der mir einen gewissen Gewinn gebracht hat. Auf der Grundlage des
Informationsgewinns können wir also entscheiden. Welchen Weg wir einschlagen sollten, irgendwie diesen Weg oder diesen Weg gehen. Okay? Dies wird also durch die schrittweise Erhöhung
des gesamten Entscheidungsbaums entschieden. Also, wie wir den
gesamten Informationsgewinn berechnen , und das
werde ich Ihnen sagen. Informationsgewinn gibt an,
wie viele Informationen wir für diesen
gesamten Entscheidungsbaum erhalten. Also für dieses erste Ding, was wir brauchen, müssen wir die Entropie
für jeden Knoten,
jedes Merkmal finden, okay, soweit unterstützt, haben
wir auf
der Grundlage der in
der vorherigen Vorlesung erläuterten Formel berechnet . Wir haben berechnet und
wir haben diese Werte erhalten, E von einem Jahr, PUI von drei. Okay? Also, welche Informationen gewinnen Sie jetzt? Informationsgewinn. Welchen
Informationsgewinn bringt dieser Entscheidungsbaum? Es ist so, als würde
die Information den Wurzelknoten
hinaufsteigen , also E, f, f1, f1 abzüglich der Summe
all dieser Splits. Fassen Sie all diese
Splits wie diesen zusammen. Und dieser, die Informationen
sammeln und bringen Sie davon ab. Okay? Also was es sein wird, es wird diese Teilmenge
aller Sub-Splits sein, also
das ist ein
Split und das ist ein aufgeteilter
derselbe Knoten, oder? Also ein Teil dieser Teilmenge, der gewichteten Gesamtgewichtung, okay? Und dann E, F-Unterstützung. Dies geht von z gleich eins
zu n Unterstützung. Wir gehen von der N-Nummer
von Split zu E F1-Fan über, okay? Also E F1-Unterstützung, wir haben E, F eins berechnet. Also, wie
viele Untergruppen werden wir hier haben? Wir bekommen zwei Teilmengen. Eins ist das und eins
ist das, oder? Was wird also die Teilmenge dieser Acht plus 31111
und die Summe sein, ist 17, 11 mal 17 in E von f, zwei. Und dann plus drei
plus 36 mal 17. Insgesamt. Zähle 17 bis E F drei. Okay? Das wird also beim E F1 -11 um
17,
E F2 minus sechs um 73 kommen . Okay? Also diese Formel, dieser, dieser Ausdruck wird uns etwas geben, dieser Ausdruck wird uns
einen gewissen Wert geben. Nehmen wir an, ich berechne nicht den
tatsächlichen Wert, Sie können ihn berechnen. Nehmen wir also an, für diesen Wert erhalten
wir 0,53. Und auf ähnliche Weise
nehmen wir an, wir haben auch
für diesen Entscheidungsbaum berechnet . Okay? Was bedeutet dieser Eintrag? Und hier bekommen wir
den Informationsgewinn als Wind für einen. Also, nehmen wir
an, das ist wieder
eins und das ist wieder, um zu sehen, wie unser Algorithmus für
maschinelles Lernen, oder wie, entscheiden wird,
welchen Weg wir einschlagen sollten. Wir sollten uns für diese Aufteilung entscheiden. Diese Aufteilung basiert auf
dem Informationsgewinn. Also hier haben wir wieder, ich unterstütze 5,53 und hier
haben wir einen Gewinn von 0,41, der
Informationsgewinn ist größer als der
Informationsgewinn, zwei. Wir würden uns also für
den höheren Wert entscheiden. Je höher der Informationsgewinn, desto genauer wird der Entscheidungsbaum
sein. Also werden wir damit weitermachen, uns
an diesen Entscheidungsbaum halten. Also werden wir mit F1, F2 und F3 fahren. Informationsgewinn wird
darüber entscheiden, welchen
Entscheidungsbaum oder welchen Ansatz wir bei der Erstellung
dieses Entscheidungsbaums verfolgen
sollten. Und das werden wir nicht
manuell oder maschinell lernende
Algorithmen tun . Oder die Bibliothek wird das automatisch
für uns erledigen , aber wir sollten wissen,
wie es intern läuft. Was immer Sie
versuchen,
einen Entscheidungsbaum für ein
Problem oder maschinelles Lernen zu erstellen , Algorithmen für
maschinelles Lernen
erstellen diese Teilmengen,
diese Platten. Und sie werden das berechnen, das wird
den Informationsgewinn berechnen. Und welcher
Informationsgewinn auch immer höher ist, er wird mit dieser Strategie einhergehen. Auf diese Weise ist der
Informationsgewinn
nützlich, um zu entscheiden
, welcher Entscheidungsbaum oder welcher Entscheidungsbaum mit Folgemaßnahmen darauf
basiert, welches Merkmal
wir zuerst aufteilen sollten. Feature eins basiert ebenfalls
auf Feature. Das wird also genau das sein, denn Informationsgewinn ist eine
so wichtige Sache. Wir sollten die Mathematik
hinter dem Informationsgewinn kennen . Unterstütze diese drei, ja
und drei Knoten hier, der Entropiewert von
drei wird eins sein. Warum? Weil das eine völlig
unreine Untergruppe ist, oder? Weil das nicht ist,
das ist nicht gut. Weil drei S und drei darauf hinweisen , dass beide gleiche
Zahlen sind, oder? Das ist also eine unreine Aufteilung und für diese Entropie wird es 11 sein,
was ich vergessen habe, dir zu sagen. Der Entropiewert liegt
immer zwischen Null und Eins. Der Entropiewert liegt
immer im Wert von 0-1. Wenn du 10 bekommst, ist
dein Split gut. Und wir müssen
die Trennung dort beenden. Okay? Und wenn Split ist, kommt
dein Entropiewert
auf eins,
das heißt, es handelt sich um eine reine
oder eine unreine Aufteilung. Okay? Also bei Null hören wir
auf und bei eins wird es unreiner Split sein. Okay? Also das, was
du im Hinterkopf behältst.
77. Entscheidungsbaum in R: Hallo und willkommen zurück. In den vorherigen Vorlesungen haben
wir also etwas
über Entscheidungsbäume gelernt. Wir haben auch gesehen, wie wir einen Entscheidungsbaum
erstellen. Und wir haben Entropie gesehen. Was ist Entropie? Wie wir die Entropie berechnen und was
der Entropiewert sein wird. Und dann haben wir gesehen, wie wir Informationsgewinn
berechnen und wie Informationsgewinn des
Entscheidungsbaums
darüber entscheidet , welchen Ansatz
wir verfolgen sollten, welchen Ansatz wir wählen sollten. Book Creator, bester Entscheidungsbaum für unsere Problemstellung. Und wir wissen auch, dass
dieser Eintrag
für Bäume für
Klassifizierungsprobleme verwendet wird . Okay? Also im Grunde ein binäres
Klassifizierungsproblem, wir uns mit dem Entscheidungsbaum befassen. In dieser Vorlesung werden wir also lernen, wie
wir vorgehen werden.
Im Grunde werden wir
unseren Code schreiben, um einen
Entscheidungsbaum für unseren Datensatz zu erstellen. Also hier werden wir den eingebauten Datensatz
verwenden
, der mit R geliefert wird
, also Lesefähigkeiten. Also, was hat dieser
Datensatz für Lesefähigkeiten und was, wie erstellen wir dafür unseren
Entscheidungsbaum. Das werden wir in dieser Vorlesung sehen. Davor schreiben wir den
Code. Lassen Sie mich Ihnen einige
Anwendungen von Decision Tree vorstellen. Also Entscheidungsbaum, wenn Sie in einem echten Leben sehen
wollen, Sie, Entscheidungsbäume werden
verwendet, wenn wir
versuchen herauszufinden, welche E-Mail Spam ist, E-Mail, welche
E-Mail kein Spam ist. Da sind wir also
uneins, oder? Bei solchen
Machine-Learning-Projekten, bei denen wir uns befinden,
müssen wir entscheiden,
ob eine E-Mail von einer Quelle kommt, ob es sich um Spam handelt oder nicht, da
erstellen wir im Grunde einen Entscheidungsbaum. Wir machen diese
Reise, Spam hin oder her. Diese Art von binärem
Klassifizierungsproblem ist Spam oder kein Spam. dann im
Gesundheitsministerium oder im Gesundheitssektor Wenn Sie dann im
Gesundheitsministerium oder im Gesundheitssektor
einen App-Krebs erkennen, ob es sich um einen Tumor handeln
kann, äh, krebsartig sein kann oder nicht
, können wir mithilfe von maschinellem Lernen
und
dem Entscheidungsbaum entscheiden . Und im
Finanzsektor in Europa, Sie sehen, können wir, wie in den Bereichen
Bankfinanzierung der BFSI, es vielleicht verwenden, um entscheiden,
ob sie Kredite vergeben oder nicht. Und sie können auch anhand ihrer Kreditwürdigkeit entscheiden,
ob oder
was gut
an
unserem Wasser schlechten Kreditnehmer ist . Wie bei der Kreditrisikoanalyse können
Sie also den Entscheidungsbaum verwenden. Dies sind also einige reale Anwendungen unseres
Entscheidungsbaums und unseres maschinellen
Lernproblems, die Sie sich vorstellen können,
mit dem Entscheidungsbaum zu lösen. Also, wie würden wir das lösen? Im Grunde erstellen wir ein Modell und dann versuchen wir, das Modell zu
trainieren. Und dann haben wir auf der Grundlage des
trainierten Modells versucht die Testdaten
bereitzustellen und
all diese Dinge zu entscheiden. Kommen wir nun zu diesem
Problem, dieser Vorlesung. Zurück zu dieser Vorlesung Wir werden den Datensatz
für
Lesefähigkeiten verwenden , der im Paket
R, The R, enthalten ist. Sie sagen also,
nun, Datensatz und dieser Datensatz beschreiben tatsächlich
die Punktzahl einer Person, Lesefähigkeiten
einer
Person, die Lesefähigkeiten einer Person. Wenn wir die
Variablen wie Alter,
Selbstmordrate und ob
die Person
Muttersprachler ist oder nicht, kennen Selbstmordrate und ob . Wenn wir also diese Informationen haben, die Quelle, die ich bewerte und Muttersprachler
eine Null hat, können wir entscheiden. Wir können eine Punktzahl für
Lesefähigkeiten oder eine schwarze Person finden. Deshalb werden wir dafür
einen Entscheidungsbaum erstellen. Okay? Für unsere Programmierung haben
wir also die S3-Funktion. S3-Funktion, die wir zum
Erstellen eines Entscheidungsbaums verwenden. Und das erfordert zwei Eingaben. Eine ist Formel und andere schon. Also. C3 verwendet zwei Formeln
an der Eingabe und unsere Daten. Das werden wir im Code sehen. Okay, als Nächstes
schreiben wir den Code. Als Erstes
erstellen Sie also gerne einen Entscheidungsbaum. Wir brauchen ein Paket
namens Party. Wir müssen dieses Paket installieren. Wenn Sie dieses Paket also nicht
installiert haben, müssen
Sie
den Befehl install
dot packages,
installed packages schreiben . Und Sie müssen
den Paketnamen angeben. Und dann
musst du den Code ausführen. Und damit wird dieses
Party-Paket für unseren Gebrauch installiert. Also habe ich das kommentiert. Wenn Sie es nicht installiert haben, entkommentieren
Sie
es einfach und führen Sie es aus. Das Party-Paket
wird installiert. Sobald es installiert ist, kommentieren Sie es
einfach aus, damit dieser Befehl nicht
jedes Mal ausgeführt wird. Okay? Sobald wir also das
Party-Paket installiert haben, dient dies nicht unbedingt dazu, einen Entscheidungsbaum
zu erstellen da diese S3-Funktion
in diesem Paket enthalten ist. Wir müssen dieses Paket verwenden. Um ein Paket in R zu verwenden, müssen
wir die Bibliothek verwenden und dann den Paketnamen
angeben. Also, ich verpacke meine Partys, und deshalb
schreiben wir eine Bibliotheksparty. Jetzt
wird diese Bibliotheksparty diesen Datensatz mit
Lesefähigkeiten so
kultivieren lassen, dass wir sehen
können, was mit diesen Datensätzen los ist. Also können wir diesen Kopf einfach überprüfen. Die ersten paar Fähigkeiten im Kopfleesen werden
Ihnen helfen. Die ersten paar sind Daten aus
diesem Datensatz für Lesefähigkeiten. Also lass uns das ausführen und hier sehen. Jetzt erhalten wir die ersten
sechs Zeilen des Datensatzes. Es heißt, das Alter der Muttersprachler, Selbstmorde und dann das Ergebnis. Dies ist im Grunde
die Lesepartitur. Jetzt haben wir also einen
Einblick in diese Daten. Wir können weiter gehen und einen Entscheidungsbaum erstellen. Also hier verwenden wir den Eingabepunkt
, um die Eingabe zu übernehmen. Wir können einfach, wenn Sie diesen Namen nicht eingeben
möchten, Sie können einfach die Eingabe verwenden. Also hier verwende ich
Eingabepunktdaten und nehme die Daten
aus dieser Bewertungsskala. Und dann gehen wir weiter. Und hier verwende ich nur
ein Entscheidungsbaum-PNG mit Punkten. Und das wird
die Bilddatei sein, auf die wir unseren
Entscheidungsbaum drucken lassen. Und dann erstellen wir hier den
Baum, Output Dot Tree. Und wir verlieren hier und hier die
S3-Funktion, wir stellen die Formel für
formalisierte Muttersprachler zur Verfügung. Und das ist die,
das ist die, das ist
die abhängige Variable. Und anhand des Alters, Selbstmorde und des Kerns entscheiden
wir, ob der
Muttersprachler ist oder nicht, okay? Und Daten sind, sind
gleich Eingabepunktdaten. Und dann plotten wir das, plotten das Ausgabeverzeichnis. Also füge ich den Baum ein, den wir von dieser Funktion
erhalten. Und das ist die Formel, Muttersprache H plus
Punktzahl, basierend auf diesen drei Prädiktorvariablen, wir erhalten den Wert für
Muttersprachler, okay? Und dann entspricht Theta
den eingegebenen Punktdaten. Und wir planen das, oder Produktivität oder
was auch
immer wir aus diesem Unternehmen
herausholen, wir planen es. Lassen Sie uns das also ausführen und sehen, wie wir
diesen Entscheidungsbaum bekommen. Also sehen Sie hier, jetzt haben wir unsere
Entscheidungsbaumdatei erstellt. Sehen Sie hier, das ist der
Entscheidungsbaum, den wir bekommen. Okay? Wir haben uns also noch nicht entschieden, wie das ist ,
oh, wirklich, dieser
Blattknoten, oder? Das System hat
automatisch entschieden. Und T sind kleiner oder gleich 3813 Nullen
x es kommt her,
30, weniger als 38,306
Spannung kommen hierher. Und dann ist es gleich R7. Es sind weniger als sechs, die wegen des
kommenden Jahres mehr als c hierher kommen. Diese werden also aus
der Ferne gedruckt, werden
mit der S3-Funktion erstellt. Und hier der
Informationsgewinn und alles
wird von einem System erledigt, okay? Wir müssen das also nicht tun, wir müssen nur
die S3-Funktion und wahrscheinlich
die Formel und die Daten verwenden , und schon wird der
Entscheidungsbaum für uns erstellt. Okay? So einfach ist das. Aber warum wir
die Theorie in der
vorherigen Vorlesung besprochen haben , weil wir
hinter den Kulissen wissen sollten , was mit dieser S3-Funktion
passiert. Und wir sollten uns
dessen bewusst sein, okay? Nur dann können Sie
im Bereich maschinelles Lernen
und Datenwissenschaft erfolgreich sein . Sie müssen die
mathematischen Intuitionen kennen die
hinter dem Entscheidungsbaum oder jedem Algorithmus stehen, den
Sie lernen. Okay? Jeder kann hierher kommen und diese S3-Funktion verwenden
und einen Entscheidungsbaum erstellen. Sie wissen jedoch möglicherweise nicht,
wie der Entscheidungsbaum aufgebaut
wird. Was ist Entropie, was
ist Informationsgewinn? Und in Ordnung,
deshalb sollten Sie die wahren Intuitionen kennen ,
die hinter dem
Algorithmus für maschinelles Lernen stehen. Okay? wir mit diesem Entscheidungsbaum Zu
welchem Schluss kommen wir mit diesem Entscheidungsbaum? Wir kommen zu dem Schluss , dass wie jeder, der eine
Leseskala von 38,3, weniger als 38,3 und einem
Alter von mehr als sechs Jahren hat, kein Muttersprachler
ist, oder? Damit
bekommen wir Lake. Wenn das Alter kleiner als ist, Lesebewertung unter
38,3 liegt und das Alter höher als sechs ist, ist die Person
kein Muttersprachler. So können wir also
den Entscheidungsbaum in R erstellen.
78. Vor- und Nachteile des Entscheidungsbaums: In dieser Vorlesung lernen
wir die Vor- und
Nachteile
des Entscheidungsbaums kennen. Also zuerst werden wir die Vorteile sehen, und dann werden wir uns diese
Vorteile von Entscheidungsbäumen ansehen. Okay? Also der halbe
Entscheidungsbaum der Schätzungen, okay? Das ist also nicht wirklich, wie wir gelernt haben, ein sehr beliebter Algorithmus für
maschinelles Lernen. Und lösen Sie deutlich Probleme
des maschinellen Lernens, indem die Daten
in eine solche Präsentation
umwandeln . Okay? Behandeln Sie eine
Präsentation wie diese. Und jeder interne Knoten
des Baums so. Und sie präsentieren unsere
Bezeichnungen für ein Attribut und jeder Blattknoten bezeichnet
die Klassenebene. Und der Entscheidungsbaumalgorithmus
kann auch zur Lösung Klassifizierungsproblemen und
Regressionsproblemen verwendet werden. Es ist also nicht so das durchgesickerte
Klassifizierungsproblem
mit dem Entscheidungsbaum gelöst werden kann . Aber wir können auch die
Regulierungsprobleme lösen. Okay? Das
wurde also getan, okay? Dieser Eintrag
kann also sowohl für
Degradations- als auch für
Klassifizierungsprobleme verwendet werden . Lassen Sie mich Ihnen also sagen, was
die wenigen Vorteile
des Entscheidungsbaums sind . Der erste Vorteil von
Decision Tree besteht also darin
, dass
weniger Geld benötigt wird weniger wichtige
Vorverarbeitungsoperatoren
erforderlich sind. Lassen Sie uns über die Vorverarbeitung
der Daten sprechen, okay? Für den Entscheidungsbaum oder
im Vergleich zu anderen Algorithmen für
maschinelles Lernen müssen
Sie also im Vergleich zu anderen Algorithmen für
maschinelles Lernen etwas weniger
an der Vorverarbeitung der
Daten oder der Datenaufbereitung arbeiten . Sie können sagen, ich hätte gerne
eine Vorbereitung, oder Sie können hier
auch eine Datenaufbereitung angeben. Sie müssen also
weniger Aufwand für die
Datenaufbereitung und
Datenvorverarbeitung aufwenden, okay? Das ist also ein großer Vorteil
des maschinellen Lernens. Unser Produkt. Der zweite Vorteil
wäre , dass ein Entscheidungsbaum
keine Skalierung erfordert. Eine Skalierung der Daten ist nicht erforderlich. Eine Skalierung der Daten ist
nicht wirklich erforderlich. Okay? Das ist also auch nicht erforderlich und das ist ein großer
Vorteil, okay? Und dann der dritte Vorteil:
Wir können sagen, dass
dafür im Allgemeinen
keine Normalisierung von Beta erforderlich ist. Also, auch wenn Sie die Daten nicht
normalisiert
haben, können Sie mit
dem Entscheidungsbaum arbeiten. Normalisierung von Greta. Es ist fertig, nicht erforderlich. Okay? Das ist also auch
eine gute Sache beim maschinellen Lernen und wir werden diesen Entscheidungsbaum
sehen. Beim maschinellen Lernen sind also
die Jahrhunderte und der Algorithmus, bei dem die normalen
Adjacent und Gil die Daten
verknüpfen, nicht wirklich erforderlich. Wenn Sie möchten, können Sie das tun, aber nicht wirklich erforderlich. Es wird keine
großen Auswirkungen haben , ob die
Daten normalisiert sind oder nicht. Wenn wir
mit dem Entscheidungsbaum arbeiten. Der nächste Vorteil, ich könnte sein, dass
fehlende Werte in den Daten ebenfalls keinen großen Einfluss
auf den Entscheidungsbaum haben. Okay? Wenn Sie also
andere
Algorithmen für maschinelles Lernen verwenden , müssen Sie
intensiv arbeiten , um
mit dem fehlenden Wert umzugehen. Aber im Entscheidungsbaum wird
dies keinen Einfluss auf den Entscheidungsbaum
haben, nicht verloren
geht wenn er nicht verloren
geht. Keine Wirkung, okay, also
ich werde nicht viel bewirken. Selbst wenn
Daten fehlen, können
Sie einen Entscheidungsbaum erstellen, der
das nicht tut, Sie werden nichts
verpassen, was Ihre Entscheidung oder
Ihre Prognosen beeinflussen könnte. Okay? Das
Entscheidungsbaummodell der nächsten Vorteile ist sehr intuitiv und leicht
zu erklären für technische Teams, die im großen Maßstab
agil sind. Wenn Sie also
den Entscheidungsbaum sehen, ist
es sehr einfach, ihn
zu verstehen. Es ist sehr einfach
zu verstehen und jeder nichttechnische oder
technische Teil leicht zu verstehen. Das ist also der große Vorteil
eines Entscheidungsbaums. Also, selbst wenn Sie
Ihren Entscheidungsbaum einem
Ähm, Management-Mann präsentieren möchten , können Sie ihnen
den Entscheidungsbaum
leicht verständlich machen. Das ist also ein Vorteil
eines Entscheidungsbaums. Abgesehen von diesem Entscheidungsbaum. Oder wie sehr
menschenähnliche Intuitionen die man
mit dem Entscheidungsbaum bekommt. Es ist also dem menschlichen Verhalten sehr, sehr
ähnlich. Auch in unserem täglichen Leben nehmen
wir ähnliche
Unstimmigkeiten ein, ja oder nein, aufgrund einiger Merkmale oder
Bedingungen treffen wir Entscheidungen. Es ist also sehr menschenähnlich. Ich würde mich über einen
menschenähnlichen Algorithmus freuen. Okay, das sind also die
wenigen Vorteile, auf die wir beim
maschinellen Lernen zählen können. Schauen wir uns nun die Nachteile
des Entscheidungsbaums an. Der allererste Nachteil des
Entscheidungsbaums, den wir sehen
können, ist, dass dieser Teil sehr ,
nicht, zuverlässig ist,
wenn sich Ihre Daten ändern. Okay? Was wir also sagen können, als ob es eine Instabilität
wäre, wie in einem Stall. Und wenn sich die Daten ändern, wenn sich die Daten ändern. Also unterstütze Sie, Sie haben
einen Entscheidungsbaum erstellt und es
gibt eine kleine Änderung an den Daten. Kleine Datenänderungen können haben,
große Auswirkungen auf den Entscheidungsbaum. Das ist also ein großer Nachteil
des Entscheidungsbaums. Selbst die kleinen
Trainingsdaten können zu
großen Veränderungen in
ihrer Struktur führen . Entscheidungsbaumunterstützung Diese
Entscheidung sieht so aus. Wenn Sie die
Daten ein wenig ändern, könnte
es eine
völlig andere Struktur
des Entscheidungsbaums gewesen sein völlig andere Struktur
des , und
das wird, das ist eine Art
von großer Wirkung, oder? Der zweite Nachteil
ist, dass Entscheidungsbäume manchmal
komplexer im Vergleich zu
den anderen Algorithmen
manchmal
komplexer sind. Bei
den einfacheren Daten ist
Ihr Entscheidungsbaum
also manchmal komplex. Manchmal erhalten wir also einen sehr
komplexen Entscheidungsbaum. Und wenn Sie einen
anderen Algorithmus verwenden, erhalten
Sie möglicherweise die
einfachere Lösung. Sie müssen also schauen, ob Sie für unsere spezielle
Problemstellung wirklich einen
Entscheidungsbaum benötigen oder nicht. Und wenn Sie den
Entscheidungsbaum verwenden, ist er einfacher als der
andere Algorithmus oder nicht. Wenn es nicht einfacher ist als der andere Algorithmus
beim maschinellen Lernen, sollten
Sie den anderen
Algorithmus für maschinelles Lernen
verwenden und müssen nicht
mit dem Entscheidungsbaum fortfahren. Manchmal wird es also
wirklich komplex. Die Sache mit dem Hals ist so, als ob das Training
eines Modells für maschinelles Lernen mit Entscheidungsbaum riesig
ist, oder? Es braucht also Zeit, halten Sie sich Zeit, um
unser Modell für maschinelles Lernen
mithilfe von Entscheidungsbäumen zu trainieren . Es ist also zeitaufwändig. Der Prozess
zum Trainieren des Entscheidungsbaums nimmt viel Zeit in Anspruch. Die Zeit, die von der
Ferne benötigt wird, ist größer. Es ist also zeitaufwändig, oder? Es wird
im Vergleich zu anderen Algorithmen mehr Zeit in Anspruch nehmen. Und es ist auch so als würde die Komplexität des Entscheidungsbaums ebenfalls zunehmen
. Anderes können wir sagen , dass diese Lektion nicht
wirklich sehr wirkungsvoll ist. Es ist also gut, wenn Sie
einen Entscheidungsbaum für ein
Klassifizierungsproblem verwenden einen Entscheidungsbaum für ein
Klassifizierungsproblem ,
ein
Klassifizierungsproblem. Aber für Regressionsbäume ist das nicht so wirkungsvoll, oder? So wie ich es verstanden habe, aber es
kann für beide gemacht werden. Regressionsbäume
haben jedoch nicht diese Wirkung. Das sind also die wenigen
Nachteile
der Entscheidungsbäume
, auf die wir zählen können. Das war's für diese Vorlesung. Dies sind die Vor- und Nachteile
der Entscheidungsbäume.
79. Einführung von Projekten: Hallo und willkommen. In dieser Vorlesung werden
wir also etwas
über das Projekt erfahren , von dem wir ausgehen
werden. Also werden wir das tun, was
sehr wichtig ist. Es ist ein einfaches
Projekt für maschinelles Lernen, das Ihnen Klarheit darüber gibt, was ein
einfacher Algorithmus für maschinelles Lernen tun kann. In wenigen Zeilen. Wir werden
unsere Programmierung verwenden und wir werden unseren Datensatz
verwenden, die vorherigen
Daten innerhalb der Organisation enthalten wird. Und auf der Grundlage der Daten werden
wir
die zukünftigen Aktienkurse vorhersagen. Ja, du hast es erraten, richtig? Wir werden
ein Projekt durchführen, bei dem sie die vorherigen Daten verwendet haben, frühere StockData
historischer Daten der Aktienkurse. Wir werden
die zukünftigen
Aktienkurse wie ab sofort erraten . Was wird der
Aktienkurs an 100, 500 Tagen oder nach einem oder zwei
Jahren, nach 30 Tagen,
nach 40 Tagen sein, wie hoch wird der Aktienkurs
sein? Das wird also die
Aktienprognose sein. Projekt, er
maschinelles Lernen, okay? Und dafür werden wir
unsere Programmierung verwenden. Eine einfache XML-Datei
enthält also den Aktienkurs. Und dafür werden wir
Google-Aktienkursdaten für Google verwenden . Und wir brechen die
Google-Preise auf die 400 oder 100 Tage, die Tage sind Tage, okay? Also Aktienkurs für X und
Projekt, das wir machen werden. Und dafür haben wir diesen
Datensatz im Excel-Format, der
die historischen Daten
der
Google-Aktienkurse 2019-2020 enthält . Okay. Und siehst du, was
sind die Spalten hier? Die erste Spalte ist das Datum und beginnt
dann am
26., 19. September. Und wir haben Daten bis zum
25. September 2020, fast ein Jahr an
Daten, okay, und dann ist die zweite Spalte D, und dann ist die dritte
Spalte offen. Das bedeutet den Eröffnungspreis. der Kurs, als
die Börse morgens öffnet Was war der Kurs, als
die Börse morgens öffnet? Das ist also der
Eröffnungskurs am sechsten Tag, Septum Auto Toggle 19
, also am ersten Tag. Was tut und dann waren es an
diesem Tag 1.245, was der höchste Wert an einem Tag ist. Und Low wünschte, es ginge auf 1.232. Also an einem Tag
angefangen bei 1.241,95. Es ging nach dem Gesetz von
1.232 und es stieg
hoch auf 1.245 und
schloss am 1.241. Diese vier
beschreiben also, wie
wichtig und
angepasstes Schließen fast dasselbe ist. Und dann war das Volumen,
etwa 15 Lakh, 30.000 Volumen da. So haben wir alle
Daten für 365 Tage. Auf der Grundlage dieser Daten werden
wir also die zukünftigen
Aktienkurse bei Google vorhersagen . Wenn Sie diese
Daten in einem Diagramm darstellen, können
wir sehen, wie
sich die Preise auf und ab bewegen. Also kannst du es hier sehen. Also werden wir auch
diese Art von Grundstück planen und sehen, wie die Preise
steigen und fallen. 3 Tage, okay? Das ist also das
Projekt, das wir machen werden. Und mal sehen, in der
nächsten Vorlesung werden wir anfangen diese
Excel-Datei in unser Kunstatelier zu
importieren und dann werden wir einfachen
Code schreiben und in
der nächsten Vorlesung versuchen,
den zukünftigen Aktienkurs
der Google-Aktien vorherzusagen der nächsten Vorlesung versuchen,
den zukünftigen Aktienkurs .
80. Projekt - Aktienkurse vorhersagen: Hallo und willkommen zurück. In dieser Vorlesung
beginnen wir mit unserem Projekt, das Aktienkurswert der Google-Aktie an
einem bestimmten Tag auf der Grundlage
der uns zur Verfügung stehenden historischen Daten
vorhersagt einem bestimmten Tag auf der Grundlage . Wir haben also dieses Excel-Blatt, das zwar Daten über
ein Jahr enthält, wie 26, Nummer 20192, bis, glaube
ich, September 2020. Ja. Also bis zum 25.
September 20 Länder. Wir haben also fast
ein Jahr an Daten Google-Aktienkurs, der
an allen 365 Tagen geöffnet ist. Was war der hohe Wert der
Aktie an einem bestimmten Tag? Niedrigster Wert. Was war der Schlusskurs und wie hoch war das Volumen? All diese Daten, die wir haben, basierend auf diesen Daten, werden
wir versuchen, ein
Modell zu erstellen, mit dem wir
den Aktienwert an einem
bestimmten Datum vorhersagen können , okay? Nehmen wir an, in drei Tagen oder in 500, 500 Tagen, was wird die übliche Phrase sein? Ich würde sagen 100 Tage. Was wird die Schlaganfallphase sein? Also so. Okay, lasst uns den Code starten. Das allererste
ist, was wir tun können. Wir können den
Google-Aktienkurspunkt XLS,
die Excel-Datei, in unser Studio importieren . Und wie wir das machen können, können
wir zur Akte gehen. Und hier müssen wir
zum Import-Datensatz gehen. Also müssen wir
zum Importdatensatz gehen. Und hier sieht man aus Steuern, aus den drei NADH
aus dem Excel, aus verschiedenen Datenquellen
wurde hier aufgelistet. Also, was wir hier auswählen müssen, wir müssen
das Excel hier auswählen. In Excel
müssen wir nur klicken. Und dann müssen
wir hier
die Datei durchsuchen , in der wir unsere Daten aufbewahrt
haben. Wir haben also diese Excel-Datei. Also öffne ich es einfach und
schneide die Daten digital zu. Und sobald es fertig ist, gibt
es uns
die Importoption. Das ist also eine Möglichkeit, die Datendatei
in das schwierigste Studio zu
importieren. Das ist ein anderer Weg. Und das wird auch sehen und sehen, jetzt können wir die
Codevorschau dieses Imports sehen. Es kommt wie eine Bibliothek. Ich brauche kein Excel und Google-Aktienkurs
wird das Objekt sein. Und hier verwenden wir die Funktion
Excel lesen und stellen den Bot der
Excel-Datei mit dem Dateinamen zur Verfügung. Und dann können wir
die Ansicht verwenden, dieses Objekt. Okay? Und das wird so sein, dass wir diesen Code einfach kopieren
können. Und ich weiß nicht, warum
es so viel Zeit in Anspruch nimmt. Es könnte ein MRT geben, also lass mich das stornieren und importieren. Siehst du. Jetzt wurden die Daten in unsere Studiohand
importiert. Ja, wir können
dieselben Daten sehen , die wir in dieser Excel-Datei
sehen. Jetzt können wir in
dieses Kunstatelier hineinschauen. Okay, jetzt haben wir die, jetzt, wenn wir
diese Daten hier sehen wollen,
sehen Sie, es gibt noch keine Claudia. Aber da wir importiert haben, können
wir die echte Ansicht verwenden. Und hier können wir
den festen
Objektnamen Ihre Hand verwenden den festen . Wir können hierher rennen und sehen, dass
dasselbe passiert. Auch wenn Sie die
Zusammenfassung der Daten verwenden möchten. Jemand wir können
das ausführen und wir
besorgen jemandem diesen Datensatz hier. Mittelwert, erstes Quartil,
Medianmittelwert, drittes
Quartil-Höchstwert für die Menge von September 2020 Und es war
1.710, das Maximum ist 1.733. Das wird der höchste sein. Und das ist das Maximum
des Öffnungsmaximums. Und dies ist weder das höchste
Maximum noch das lokale Maximum und das Abschlussmaximum. Okay? Auf diese Weise können wir die Datenzusammenfassung
sehen, okay? Anstatt dies zu verwenden, können
wir jetzt auch
die verwenden , wir können die Bibliothek verwenden. Wir können die Codebibliothek verwenden. Ich weiß nicht, warum es kommt. Wenn Sie den Code nicht kennen, können
Sie einfach
zum Dateiimport-Dataset
und von Excel aus gehen . Und hier kannst du den Code hier
sehen. Kopiere das einfach und wir
müssen es nur hier einfügen. Und doch müssen
Sie das Read-Excel eingeben, und dennoch müssen
wir den Bot-Namen eingeben. Okay, was wird der Teil sein, den wir
hier platzieren werden? Ich kann das einfach sagen. Also ordnen wir die
Bibliothek Read Excel neu an
und verwenden dann den
Objektnamen, anstatt
die Excel-Funktion zu verwenden und den fehlerhaften Teil der XL-Datei
bereitzustellen. Und dann können wir
den echten Morgan-Aktienkurs verwenden den echten Morgan-Aktienkurs und das wird uns
das gleiche Ergebnis bringen. Das und sehen Sie, ja, wir
bekommen dasselbe. Okay? Auf diese Weise
haben wir die Daten gelesen und betrachtet. Als Nächstes
müssen wir die
Struktur der Daten verstehen. Wenn Sie also
die Struktur von Daten verstehen möchten, können
Sie die
Übersichtsfunktion verwenden, Zusammenfassung dieses
Google-Aktienkurses. Und Sie erhalten die Zusammenfassung
der Daten, wie wir
sie bereits gesehen haben. Auf diese Weise. Als Nächstes
müssen wir tun. Wir müssen die Daten visualisieren. Als Nächstes müssen wir also tun. Wir müssen die
Daten visualisieren, die Daten visualisieren. Also für das, was
ich verwenden werde, werde
ich sie oft benutzen. Also, was ich tun werde, ich weiß nicht, warum das eine große Verschwörung
bevorsteht. Und ich verwende die
Spalte Open und verwende d und dann sind die
Daten in Ordnung. Und dann führe das einfach aus. Den Ofen, wir lassen ihn laufen, wir sehen uns die Daten an. In deiner Lektion. Wir werden die Handlung hier sehen. Also hier ist der
Eröffnungskurs und das ist der Tag 1-2, lila. So können wir die Daten sehen, wie sich ihre
Aktienkurse am Wochenende entwickeln. Du visualisierst hier. Auf diese Weise können
wir später, später, weiterkommen. Als Nächstes müssen
wir tun. Wir müssen die lineare
Regression verwenden, um die Funktion vorherzusagen. Also, was wird verwendet? Ich verwende den prognostizierten Preis. Und für den prognostizierten Preis, was ich eine Hilum-Fung-Zelle
und diese LM-Funktion verwenden werde , werde ich auf dieselbe
Eingabe verwenden, die ich am Tag der offenen Tür geben werde. Und es wurde in diesem Datensatz gemacht,
okay, Excel-Datei,
ALU-Daten, Datensatz. Und dann komme ich einfach
zum prognostizierten Preis. Also werde ich hier einfach
den höheren Preis angeben. Also lass mich das ausführen. Seht hier, es sagt die
Kernpräsenz und das. Okay, was ich jetzt tun werde, ich werde die Übersichtsfunktion verwenden, um zu sehen, was wir
für diesen prognostizierten Preis bekommen. Bisher bekommen wir diese
Preisprognose, das Minimum, erste Quartil, den Median, das
dritte Quartil, das
erste Quartil, den Median, das
dritte Quartil,
all diese Dinge. Was ich jetzt tun werde, ich werde die Tür vorhersagen. Prädiktor-Aktienwert an einem bestimmten Tag. Okay? Also können wir das machen. Ich kann die Vorhersagefunktion verwenden. Und ich kann den Preis gebrauchen. Ja. Und was ich dann verwenden kann, Datenpunktrahmen. Hier. Ich kann angeben,
dass d gleich 350 ist, okay? Und das wird uns, das wird uns den prognostizierten
Aktienkurs am dritten Tag geben. Also lass mich das ausführen, siehe hier. Was die Sterblichkeitsrate pro
Zeitraum angeht, so wird der Aktienkurs dafür 1.620 Punkte betragen. Wenn ich das für 50 schaffe. Somit wird sich der Aktienkurs trennen. Der Aktienkurs wird 1.700 betragen. Stipendiat, wenn ich 150 gebe, sind
es 1.400. Wenn ich eine Eins gebe, lautet
sie 12.30.000. Sehen Sie, der Google-Aktienkurs
wird sich
vom ersten Tag an fast verdoppeln. Auf diese Weise können wir den
D-Wert hier angeben und vorhersagen, wie hoch
der Aktienkurs an
diesem bestimmten Tag sein wird . Es ist also ein ziemlich einfaches Projekt
, das Sie auch ausprobieren können. Sie können die Unterstützung vorhersagen. Ich möchte den Wert
von Eins vorhersagen, bitte. Zweiter Tag. Ein Zweck, zweitens,
dieser Weg, okay, also auf diese Weise können Sie auch Ihren eigenen Datensatz
ausprobieren oder Sie können den gleichen
Datensatz verwenden, den ich bereitstellen kann. Sie können den
Datensatz herunterladen
und versuchen ,
den Aktienkurs vorherzusagen. Sie können auch
ein eigenes Excel-Blatt erstellen und
einige zufällige Werte eingeben. Und Sie können Ihre eigenen Werte
hier eingeben und Sie können vorhersagen, Sie können jeden anderen
Datensatz nehmen,
der diese oder einige andere Werte hat , die Sie auch ausprobieren können, und Sie können in
denselben Code eingeben und versuchen, den prognostizierten Wert zu ermitteln. Okay? Dies ist also
ein einfaches Projekt, das die LM-Funktion verwendet, um
diesen Google-Aktienkurs vorherzusagen. Ich hoffe, Sie haben verstanden, wie wir das maschinelle Lernen und
all diese einfachen Funktionen in R
verwenden all diese einfachen Funktionen in R , um die
Aktienkurse vorherzusagen. Ich danke dir.
81. Projekt 2 Uber-Datenanalyse mit R: Hallo und willkommen. In dieser Vorlesung werden
wir also etwas
über Datenanalyse
durch Visualisierungen
in R lernen . Und dafür werden
wir
ein Projekt durchführen, in dem wir wo Daten,
was ist der Gap-Aggregator,
Dienstleister verwenden, um was ist der Gap-Aggregator,
Dienstleister verwenden, das Richtige in einer Cab
X evoking App zu finden. Du kannst es sehen. Sie sind also
entweder die Nummer eins in der Wand für einen
Taxidienstleister. Also werden wir die UPA-Daten
für die Datenanalyse
für dieses Produkt
verwenden . Die Motivation
für dieses Projekt besteht also
darin ,
Datenvisualisierung und Datenstorytelling durchzuführen
und herauszufinden, wie wir die Daten verwenden können, um sie zu analysieren und daraus
nützliche Informationen zu gewinnen. Dies ist ein wichtiger Bestandteil des
maschinellen Lernens
, durch den Unternehmen den Hintergrund
verschiedener Abläufe
verstehen können . Was heißt das? Das
heißt, nehmen wir an, was im Gap Aggregator Service gemacht wird,
und Mini-Cabi-Fahrer fügen ihrer Lücke
zwei verschiedene Over-App hinzu. Dann streame ich und nehme
an , dem Kunden das
Recht einzuräumen. So riesig, dass er sich bei der App
registriert und dann versucht er, die Lücke
anhand ihres Standorts zu schließen. Also, was machst du, sobald du dich
einloggst und deinen Standort
und dein Ziel auswählst ,
wohin du gehen möchtest. Basierend auf Ihrem Standort. Es listet alle Caps
in der Nähe auf, die dir diese in
der schnellsten Zeit anzeigen
können. Das wird es. Das wird es. Das wird es. Es speichert alle
Lücken in Ihrer Nähe und gibt dann Geschlecht, Ort
und Ihre Anforderung Es wird für Sie am besten aussehen
, sodass Sie am schnellsten
zum Ziel gelangen. Also, wie macht es das? Sie verwenden einfach jede Menge KI, maschinelles Lernen und
datenwissenschaftliche Konzepte um die Daten zu analysieren und
dies zu einer Rezession zu führen. In diesem Projekt werden
wir die Daten verwenden. Und wir werden
analysieren, wie viele an einem Tag passieren oder wie viele monatliche
Raten an einem Tag passieren. Wie viele Ihrer LEA
, dass ich anfange zu passieren leben
monatlich und DY ist zu welcher
Tageszeit die VGS, diese Art von Analyse
werden wir in diesem Projekt machen. Also all diese Operationen,
die wir mit dem **** Papa
machen
können, mit Hilfe von
maschinellem Lernen. Mithilfe von Visualize können
Unternehmen den Vorteil nutzen die
komplexen Daten zu
verstehen und Erkenntnisse zu
gewinnen, die ihnen helfen, dies zu korrigieren, was nicht der Fall ist. Der Visualisierungsteil ist also sehr wichtig, denn mit
der Wachsamkeit können wir die Daten
schnell analysieren und wirklich nützliche Erkenntnisse gewinnen, z. B. zu
welcher Tageszeit ist die BGN? Welche Orte haben
weniger Anforderungen an die Kabine an denen die Benutzer keine
Kabinenzeit haben, wenn es hinterherhinkt. All diese Analysen können wir mit der Visualisierung
machen. Dies sind eher Daten, die in einem Projekt
visualisiert werden
, das Sie dazu anleitet die
ggplot2-Bibliothek
zu verwenden um die Daten zu verstehen und
eine Intuition zu entwickeln, um die
Kunden zu
verstehen, die
in den Clips in welcher App zu sehen sind . Okay, das ist also,
das ist die Sache, die
wir tun werden. Und das Ziel dieses
Projekts ist es,
Visualisierungen in R zu lernen und die Daten zu analysieren. Also lasst uns anfangen. Bevor wir fortfahren, haben
wir die UVA-Daten
oder -Dateien bei uns. Und die sind so,
das sind
die Daten für einen fieberhaften Monat. Und das hat vier Spalten:
Datum, Uhrzeit, Breitengrad,
Längengrad und Basis. Das sind also die Informationen, die
ihr Kumpels sammelt. Okay, also Datum und Uhrzeit, Längengrad, Breitengrad
und Längengrad. Und Latitude
gibt den Ort der Lücke und
die Uhrzeit oder die Uhrzeit an sie
buchen, und die Basis aus der beste
Standort dafür ist. Okay? Das sind also die Daten, die wir haben. Und das ist genauso. Wir haben Mai, Juni, Juli, August und September, die Monatsdaten, die wir haben. Und wir werden das anhand
dieser Daten analysieren. Diese Daten sind ziemlich einfach. Datum und Uhrzeit,
Breitengrad, Längengrad Und so gehen wir zur Datei. Dennoch verwende ich R, um das
zu analysieren. Bevor wir fortfahren, werden
wir die Fruchtbibliothek
importieren, das ist GG-Plot zwei. Okay, dann schmieren Sie
und räumen Sie die DT-Kenntnisse auf. Also, was ist GG Plot
to GG Plot Twist. Die beliebteste
Datenvisualisierungsbibliothek, die am häufigsten für die Erstellung von Diagrammen zur
ästhetischen Regulierung verwendet wird. GG Plot ist also in unserer Programmierung sehr beliebt,
um sehr
ästhetisch
gut aussehende und sehr
abstoßende und sehr
ansprechende Visualisierungen und Handschuhe
und Plots zu erstellen ästhetisch
gut aussehende und sehr
abstoßende und sehr ansprechende Visualisierungen . Also werden wir das
zweite GG-Plot verwenden. Dann verwenden wir Lubridate. Es ist diese Hebelwirkung
für den Zeitrahmen. Verwendung der Zeitrahmen
im Datensatz. Dann haben wir die Deep Layer,
die Datenmanipulationsbibliothek
, die wir verwenden werden. Dres und wichtige Bibliothek, es wird Ihre
Daten sehr aufgeräumt machen. Bedeutet unsere aufgeräumten Daten winzig, bestimmt die Daten, mit denen
einfach zu arbeiten ist. Die Daten. Wenn es einfach ist, damit zu arbeiten, können
wir es so einfach in der anderen
Bibliothek verwenden. Also verwenden wir die Tidy
R-Bibliothek, um unsere Daten aufzuräumen. Und dann verwenden wir das Wesentliche, die Datentabellen in
der
JavaScript-Bibliothek, die wir verwenden werden. Dann wirklich
Fähigkeiten erwerben, Fertigkeiten. Früher konnten mit Hilfe der Grafik,
mit Hilfe der
grafischen Skala, die wir
mit Hilfe der Grafik,
mit Hilfe der
grafischen Skala, die Daten automatisch den richtigen Fähigkeiten
zuordnen ,
mit
dem ****,
wobei das X selbst gut platziert war. Das hilft uns also dabei, die Daten
automatisch dem richtigen Maßstab zuzuordnen. Dafür müssen
wir also diese Bibliothek verwenden. Also vorher, falls Sie diese Bibliotheken
nicht installiert haben , können
Sie
hier zu den Tools gehen und dann auf
die Installationspakete klicken. Und hier kannst du einfach
beliebte Pakete namens yuk verwenden, wie du GG Plot zwei platzieren kannst. Und wenn du dann alles zusammen haben
willst, kannst
du GG-Themen
und
Koma setzen und alle
Namen schreiben, wichtige Daten. Okay? So können Sie das tun, und Sie können auf
diese Bibliothek installieren klicken , das für Sie. So können Sie die Pakete
installieren. Also wiederhole ich es noch einmal. Sie müssen RStudio aufrufen
, um zum Hauptmenü zu gelangen. Hier finden Sie die Tools. Klicken Sie auf die Tools und hier sehen Sie
die verschiedenen Optionen. In Rhodopsin. Sie müssen
das erste auswählen, Pakete
installieren und
dann
den Paketnamen GG plot two angeben . Und wenn wir
mehrere Pakete gleichzeitig installieren möchten, können Sie ein Komma
setzen und
den Paketen Namen geben , indem ein Komma dazwischen
setzen
und dann auf die Aktie klicken. Ich habe dieses Paket bereits
installiert also überlasse ich es der Agitation. Und wenn Sie es nicht installiert haben, klicken
Sie einfach auf Installieren und es wird
im ländlichen Australien installiert. Gehen wir also weiter. Sobald wir also unser Labor haben, um
sie zu verwenden und sie zu verwenden, müssen
wir nur noch
das Schwierigste sagen, um das zu tun. Wir werden
diese Bibliothek aufbrauchen GG plot rho, g mal lubridate, tidy, tidy verse, dt und scale. Dafür müssen wir also die Bibliothek
importieren. Und dann müssen
wir in die kleine Klammer den
Bibliotheksnamen GG plot two setzen. Und all
die Bibliotheken, die wir
haben, müssen auf diese Weise schreiben. Okay, wenn Sie das geschrieben
haben, wählen Sie alle diese Bibliotheken aus
und klicken Sie auf Ausführen. Und es wird für
Juden in Europa bereit sein. Als Nächstes erstellen
wir die Farbvektoren, Farbvektoren für die Diagramme. In unseren Diagrammen verwenden wir die verschiedenen Farben
für die Diagramme. In unseren Diagrammen werden wir die
verschiedenen Farben verwenden, um sie
ansprechender und
ästhetischer zu gestalten . Und dafür erstellen wir
den Farbvektor. Also hier erstelle ich eine
Vektorfarbe und gebe C und dann gebe ich
den Farbnamen, den gleichen Typ ACCC 10166. Also all diese grauen ,
grünen, gelben, blauen, rosafarbenen, all diese Gelehrten
werden wir benutzen. Diese Vektoren werden das also
erstellen und ausführen. Okay? Und dann werden wir tun, als Nächstes werden wir die Daten aus
jedem Zeitrahmen
lesen und
essen. Was wir tun werden. Wir haben die Datendatei für jeden
Monat wie Mai, Juni, Juli und August. Also machen wir das
mit einer CSV mit gelesenen Punkten. Sie wissen, dass
wir zum
Lesen einer CSV-Datei in R die Punkt-CSV-Methodenfunktion lesen, also den Punkt CSV. Und dann geben wir hier
den Pfad für unsere Datendatei an. Wir haben also eine
Datendatei in diesem Teil gespeichert, also geben wir sie an und der
Dateiname steht am Ende. Okay, jetzt behandeln wir all
diese monatlichen Daten. Okay. Klicken Sie einfach darauf und sehen Sie. Es wird erfolgreich für August und
September
gelesen und wir sehen uns beim Laufen. Jetzt ist es also geschafft. Und als Nächstes machen wir, was wir tun werden. Wir werden die Daten miteinander kombinieren. Jetzt haben wir die Daten gelesen und
in diesen Variablen gespeichert. Ich meine Juni, Juli,
August, September. Was wir nun tun werden, verwenden wir die onBind-Methode, um die Daten miteinander zu
verbinden. Also jetzt all diese sechs
Monate zusammen mit einem. Okay, also verwenden wir
die Daten hier. Seltsame Bindungsmethode, und wir
geben diese Objekte einfach an Mai, Juni ,
Juli weiter und sie
werden miteinander verkettet. Okay, lassen Sie uns das ausführen. Jetzt haben wir also das
perfekte Gespür den Data Lake für Spalten
und die vielen Rollen. Okay, jetzt wollen wir
sehen, wie die kombinierten
Daten aussehen. Also verwenden wir den Kopf und stellen hier die
Objektdaten bereit. Es werden also die ersten
fünf Spalten der Daten gedruckt. Okay, kommen Sie, mein Senior, jetzt haben
wir diese Daten für die
Zeit, den Breitengrad, den Längengrad. Und als Nächstes verwenden
wir diese Daten, die Spalten
enthalten Datum und Uhrzeit, wobei diese
Daten Spalten,
Datum und Uhrzeit, was ein Faktor ist,
und Längengrad,
Breitengrad, die
doppelt sind, und im Grunde genommen Faktoren enthalten Datum und Uhrzeit, was ein Faktor ist,
und Längengrad, Breitengrad, die
doppelt sind, . Also werden wir die
Datetime mit Datetime,
Converge und Funktionen in ein
lesbares Format formatieren. Hier befinden wir uns also innerhalb der konvergenten
Datetime-Foxing-Funktion , um diese Datetime in eine besser lesbare
zu konvertieren. Dafür verwenden wir also Daten und
Datendatum, Datum, Uhrzeit und laden dann als Dark CD neu, Zeitformat, Jahr, Monatsdatum, Jahr und Stunden,
Minuten und Sekunden. Okay. Und wenn
Sie dann dieses Format lesen ist dieses und das
Reformgesetz im Krankenhausarzt. Hervorragend. Okay, und dann kombinieren
wir das. Okay, lass uns rennen. Das. Das Skript läuft immer noch. Wenn dies verschwindet,
können Sie mit dem nächsten fortfahren. Führe das einfach aus. Es läuft also. Als Nächstes erstellen
wir einzelne Spalten
pro Monat, Tag und Jahr. Und dafür erhalten wir Daten für Tag, Monat, Jahr und eineinhalb Wochen. Und wir werden den
Faktor hier vektoriell verwenden. Und nehmen Sie sich doch wirklich Zeit. Tatsächlich gleicht unsere monatliche
Vorlaufzeit die Wochentagszeit aus
und berücksichtigt
sie in den Daten. Okay. Okay. Und wir werden das auch
ausführen. Jetzt läuft es also. Ja. Was wir also tun werden, wir werden die neutralen
Spalten einen Monat lang erstellen. Als Nächstes, was wir tun werden, fügen
wir auch Zeitvariablen hinzu. Teilzeitbeschäftigte sind also in der Lage, die
zweite Minute INR zu absolvieren. Und hier der Faktor
Material als zweite Aspen eine Sekunde und frage sie nach
dem zweiten Rauschvektor. Der zweite Vektor mina kann das RN-Fenster
einnehmen. Das wird auch das ausführen. Es läuft also. Wenn es fertig ist, schauen
wir uns als Nächstes die Daten an. Daten. Wir werden die Methode verwenden , um die Daten so zu betrachten,
wie sie aussehen. Lassen Sie uns das also ausführen und sehen, dass
wir das Tagesland, den
Breitengrad und den Längengrad haben. Dies sind die vier Spalten, die es
bereits gibt. Macht es. Jetzt haben wir
neue Spalten wie Uhrzeit,
Tag, Monat, Jahr, Wochentag, zweite Minute erstellt . Das sind also die
Spalten 123-45-6788,
neue Spalten, die wir erstellt haben. Und diese Kolumnen geben dem Abschlussprüfer
mehr Einblick. Ich denke, es wird
sagen wie Gott, nur dass wir jetzt wissen, welcher Tag
des Monats, welcher Monat, und welchen Richie Rich de, Wochentag auch erfahren
wird. Und dann als zweites geschaffen. Jetzt. Jetzt sind wir damit fertig, dass die Nita auf den Daten
herumläuft
und hier Funktionen,
neue Funktionen, neue Spalten erstellt . Als Nächstes gehen
wir also zum
Datenvisualisierer über und
erstellen teilweise nach dem Zufallsprinzip die
Diagramme und Grafiken und wir werden versuchen
, mehr zu verwenden. Hier. Was wir als Erstes tun werden, ist
als Erstes
die Drips nach RT und RD zu plotten. Dafür verwenden wir Unterstriche, die wertvoll sind,
und was
wir tun
, sind
Daten , die nach
R gruppiert sind und die tiefe
Ebene verwenden, um sie zusammenzufassen. Und wenn wir das
jetzt ausführen, schauen Sie sich das an. Jetzt sieh dir das an. Jetzt erhalten wir diese Daten
Null oder ein oder zwei oder 3 h. Wir bekommen eine Datentabelle, die wir gegessen
haben. Sie können auswählen wie viele Bäume Sie gleichzeitig sehen
möchten. Okay. Als Nächstes sind die Quelldaten in
der Tabelle von gestern. Aber was wir jetzt tun werden, wir werden die Daten anhand unseres
GG-Diagramms und unseres GD-Diagramms hier grafisch darstellen. Die einzigen Daten, die wir hier erstellt
haben. Und als unsere Lüge. Und dann verwenden wir
geometrische Balkenidentitäten. Immer noch fühle ich mich mit diesem Blaugrün und die
Farbe wird sich ausbreiten. Dann betitelte Bewertungstypen nach
r und aggregierte Untertitel. Und Legendenposition keine Handlung, Titel des Textes und wie 4,5 und 0,5 und eine
Fähigkeit wie kontinuierlich. Okay, jetzt zeichnen wir die
Daten anhand unserer Sonne auf diesem C auf, und jetzt erhalten wir
den Plot anhand unserer Reisen. Jeder RM Here-Untertitel besteht heute aus
aggregierten Produkten. Sie können also
alle drei oder 24 Stunden sehen , die wir bekommen , die bei jedem Audit
dieses Spielzeugs, das ich angefangen habe, es waren diese vielen Bänder. Das zweite Drittel, dunkel
oder so dunkel. Sie schwimmen 24 Stunden lang
und wenn wir damit fertig sind, können
wir sehen, dass die 17.
in ihnen sind oder dass sie
mehr Ausflüge machen. Der Schnabel ist also kostenpflichtig, wenn
sie die Mitte
auftragen wollen , indem sie von den Philippinen aus unser Produkt
bilden. Mitternacht in der Sekunde
oder pro Liter. Also diese, diese,
diese vielen Dinge, diese Dinge, diese Zeiten
sind sehr Videorekorder und hier, wenn ihr abends
das Büro seht und endet, werden
sie beantragen, dass sie
die höheren Gebühren erheben und sie
werden die Kabine erhöhen. So machen sie es also. Dadurch finden wir heraus, erreichen die Rs sind bereit
VD und darauf basierend werden
wir uns mit Reis befassen. So macht Uber das also. Machen Sie nun die
Plottipps nach r und Monat
und aggregieren Sie unsere Daten und verwenden Sie hier wirklich die Funktion
gruppieren nach. Die
Monate sind dann deklariert, um sie zusammenzufassen. Also versuch das Dann machen wir den
GG-Plot, um es zu plotten. Also C und jetzt
bekommen wir die Handlung hier, die um n Monate gedrückt ist. Also seht hier, diese
, diese Farbe, das ist echt, das ist für mich. Dies ist das Modul im Juli,
August und September. Aber unsere
haben sie jeden Monat zerstört. Welcher Monat also mehr
oder weniger den pKa hat,
ist in allen Monaten ähnlich. Mehr oder weniger, nicht genau, aber mehr oder weniger können
Sie analysieren. Also offenbar auch September, ein
muslimischer Mann hier oben, kastilisches
Wasser und Seife jeden Monat. Das Becherglas
bleibt eine Synthese. Es ist mehr oder weniger so, wie es jeden Monat weitergeht. Also was hat einige Leute
als Gruppe nach Monaten zusammengefasst und du kannst diese
Pleite aushebeln. Was wir nun mit dem Plotten machen, ich werde Daten nach Fahrten an
jedem Tag des Monats plotten. Für die Ernährung werden
die Daten also als wertvolle Daten verwendet und nach Tagen gruppiert. Und wir verwenden den Deepak
, um Startups zusammenzufassen. Führe diesen und dann diesen
einfachen Plot aus, um das zu plotten. Damit werden Limonade und
Chips das Optimum sein. Wenn Sie sich das jetzt ansehen, erhalten
Sie eine ausreichende
Anzahl von Fahrten pro Tag. Es gibt viele Arten von
zweiten Tagen wie diesem, also Todesfälle pro Tag des Monats. Das können wir machen. Als Nächstes sammeln
wir
Daten nach
Wochentagen und Monaten. Also hier verwenden wir die Gruppe
nach Wochentag und Monat. Und wirklich die tiefste Ebene, um sie
zusammenzufassen, Blutthema. Führe das so oft aus. Und danach. Die DD-Handlung nahm von Tag zu Tag und Monat viel
Tiefe. Wenn wir das tun, werden
wir also täglich und monatlich Geschenke
bekommen. Und er musste mit
einem Farbschema zufrieden sein , das wir darin
haben und
zuerst hier, okay. Nun, mit dem, was wir bekommen können, können
wir das für solche Wochentage bekommen .
An Wochentagen. Sonntag, Montag. Für jeden Monat. Wie viele Leben
gibt es am Sonntag? Wie viele Tage
gibt es? Am Montag? Wie viele Tage bis zum
Tag? Wie viele Tage? Mittwoch, Donnerstag,
Freitag bis zu jedem Wochentag geben Sie die Anzahl der Rechte,
jedoch jeden Monat. Damit können wir es schnell für Sonntag
analysieren. Apple hat die niedrigste
Anzahl an Kämpfen und diesen Monat
haben sie festgelegt, was die
meisten Fahrten am Sonntag sind? Am Dienstag, September, haben wir
mehr Spaß, mehr Aufrechte. So können wir schnell
den beliebtesten Tag
des Monats finden . Jetzt machen wir eine Reihe von
Reisen, die einen Monat, einen Monat, Innenohr stattfinden. Dafür
verwenden wir also Gruppe für Monat. Wir haben keinen
Monat in einem Jahr verbracht. Dafür
verwenden wir also Gruppe für Monat. Und dann werden wir
mit GG Plot plotten. Führe das aus und sieh, dass du jetzt bist .
Wir kriegen diese
Reisen in einem Monat. So viele Reisen,
aber vielleicht, Juni, Juli, August. Es ist also so ET-Röhre. sich die Grafik ansehen, können
Sie sagen, dass es
im September mehr
Fahrten nach können
Sie sagen, dass es
im September oben gibt, wobei August und Juli
sowie Mai und Juni
fast keine ähnlichen Arten aufweisen. Obwohl Joni
etwas besser ist als ich, und dann offenbar Monate im Jahr
auftritt. Auf diese Weise. Was wir nun tun werden, eine
Heatmap, DR und Monat zu erstellen. Für Deckgruppen
nach Tagen gibt es also viele Ausflüge. Exzellent wie dieser. Jetzt werden wir die Heatmap
von R&D erneut von GG plotten. Ich werde diese
Batterie benutzen, kannst
du nur einen Bissen nehmen? Und doch, wenn sie
an einem bestimmten Tag, einer
bestimmten Klasse, mit dem Proton
gefüllt sind an einem bestimmten Tag, einer
bestimmten Klasse, mit dem Proton
gefüllt , wie viele
insgesamt, bleiben insgesamt weiß. Lass uns das einfach hier ausführen. Jetzt bekommen wir diese Heatmap.
Unsere Karte von Tag zu Tag und somit unser Tag. Und für diese Kunst
am achten Tag ist das heute 11 mal 11. Und dafür
können wir mehr analysieren. Nun, wenn die
Heatmap D und Monat darstellt. Und dann das, und dann werden
wir das mit GG Plot erledigen. Jetzt werden wir irgendwie meinen unterhaltsamen Monat
beibehalten. Und als Nächstes zeichnen wir die Heatmap
T der Woche und des Monats auf. Das, also das ist die Heatmap für Monat und Tag
und Monat, Monat. Und ich habe später heute Zugang zu etwas
Zitrone. Damit
können wir jetzt auch Verhältnis der Verstümmelung
für die Preisgestaltung in Europa
schaffen. Also die minimale, maximale, minimale und maximale Wahrscheinlichkeit wird NYC erreichen. Und hier, was wir tun werden, wir werden versuchen,
diese beiden Agenda zu planen. Gg, GG Handlung. Also hier GG-Plot, unser Wissen über
dramatische Beleuchtung, Gesamtwert innerhalb einer
Farbe und der Haut, Minlength Max und Min
Max-Wahrscheinlichkeit, die wir bereitstellen. Und dann sind wir zurück und
verwenden das GG-Plot, um diese Eigenwert- und
Lysinkarte auf der Grundlage von Sonntagen zu zeichnen. Es dauert einige Zeit. Es läuft immer noch.
Warten wir, bis es hier rauskommt. Es dauert nur lange. Also lass mich dir die Karte zeigen, diese Karte Vater NYC zum Tippen, aber in einem praktischen September. Hier dauert es also
einige Zeit bis wir
hier
alle meine Daten vor
September für 2014 aufgebraucht haben , um zu analysieren und welche später Uber je nach Uhrzeit
hochfährt. Auf dieser Grundlage werden wir
zu D kommen, welcher Monat besser ist. Also all diese Visualisierungen können
wir und verwenden die Daten. Ich hoffe, dieses
Projekt hilft Ihnen Visualisierung
und Datenanalyse zu verstehen
82. Projekt 3 Kundensegmentierung mit R: Hallo und willkommen zurück. In dieser Vorlesung
werden wir über
ein anderes Projekt sprechen , das
Projekt Nummer drei
für diese Klasse ist . Und das ist ein Kundensegmentierungsprojekt
mit unserer Programmierung. In diesem Projekt werden
wir also lernen, wie wir
Kundensegmentierungen
mithilfe unserer auf einem Datensatz
erstellten Programmierung durchführen können Kundensegmentierungen
mithilfe unserer auf einem Datensatz
erstellten Programmierung . Welche Daten wir auch haben, der Kundendatensatz, das ist eine riesige
Produktkundensegmentierung. Wir werden also versuchen, das
Kundensegment zu
finden , das vorerst nützlich
sein wird. Die Unternehmen, um
ihre besten Kunden und die leistungsstärksten unsere besten Kunden
für ihr Geschäft zu finden. Was ist also
Kundensegmentierung? Kundensegmentierung ist eine
der wichtigsten Anwendungen
des unüberwachten Lernens. Wie Sie wissen, gibt es zwei, Sie wissen schon, es gibt zwei Arten des Lernens. Eines ist beaufsichtigtes Lernen und ein anderes ist
unüberwachtes Lernen. Betreutes Lernen ist eine Art des Lernens, bei der der freie Wille, ich nehme an, das ist ein Kind
und wir wollen, dass es lernt. Es gibt zwei Möglichkeiten, wie wir
sein Lernen beaufsichtigen werden. Sag ihm, was zu tun ist, wie er es tun soll, und wir geben uns
Anweisungen zur Einrichtung, damit er es lernen kann. Und es gibt unbeaufsichtigtes
Lernen, bei dem wir das Team nicht beaufsichtigen. Es wird unbeaufsichtigt sein
und er wird
aus eigener Erfahrung lernen . Es gibt also zwei Arten von
beaufsichtigt und unbeaufsichtigt. Und Kundensegmentierung ist eine Art unbeaufsichtigtes Lernen. Du hast nicht teuer gemacht,
meine Güte, Clustering. Mithilfe von
Clustering-Techniken können Unternehmen die verschiedenen
Kundensegmente
identifizieren oder
die potenzielle Nutzerbasis
in diesem maschinellen
Lernprojekt verringern . In diesem
Kundensegmentierungsprojekt werden
wir
K-Means-Clustering verwenden. Werde lernen, was
K-Mean-Clustering ist. Und wir werden für
dieses Projekt diese
K-Mean-Clustering-Technologie verwenden, bei für
dieses Projekt diese
K-Mean-Clustering-Technologie verwenden, es
sich im Wesentlichen um
einen Algorithmus zum Clustern
unbeschrifteter Datensätze handelt. Also hier werden wir
den unbeschrifteten Datensatz verwenden ,
wann immer Sie Ihre besten
Kundenkunden in Mention
finden müssen Ihre besten
Kundenkunden in Mention
finden , entweder die
ideale Methode. Denn damit können Sie dieses Kundensegment
leicht finden. Und wenn Sie sich das
Kundensegment ansehen, können
Sie Ihren
besten Kundenstamm finden. Und Sie können Ladder Target haben
, um Ihre
Produkte oder Dienstleistungen zu verkaufen. Wir werden eine der
wichtigsten Anwendungen
des maschinellen Lernens durchführen , die
Kundensegmentierung. In diesem Projekt werden
wir die
Kundensegmentierung
in unsere Programmierung implementieren . Jetzt haben wir also die
Kundensegmentierungs
- und Clustering-Technologie für Rückerstattungen , die
wir verwenden werden. Lassen Sie uns also
im Detail verstehen, was Kundensegmentierung
ist,
etwas anders, etwas detaillierter. Kundensegmentierung ist also der Prozess oder die
Region, die den Kundenstamm
in mehrere Personengruppen aufteilt in mehrere Personengruppen denen Gemeinsamkeiten auf
unterschiedliche Weise bestehen , die für das Marketing
relevant sind, z. B. Geschlecht, Interesse und verschiedene
Ausgabegewohnheiten. Unternehmen, die
Kundensegmentierungen einsetzen befinden sich im Norden, in dem jeder Kunde
unterschiedliche Anforderungen hat und ein
bestimmtes Marketing benötigt,
leisten es sich, diese angemessen zu adressieren. Unternehmen streben
eine tiefere Herangehensweise an die
Kunden an, die sie ansprechen. Daher
muss es spezifische geben und auf
die Anforderungen jedes
Einzelnen zugeschnitten
sein . Jeder Einzelne hat die Anforderungen
jedes einzelnen
Kunden für sie alle. Durch die gesammelten Daten können
Unternehmen ein
tieferes Verständnis der
Kundenpräferenzen
sowie der Notwendigkeit gewinnen, sowie der Notwendigkeit wertvolle Segmente
zu entdecken, die den
maximalen Gewinn bedeuten. Auf diese Weise können
sie ihre
Marketingtechniken
effektiver und effizienter planen und das
Risiko für ihre Investition
minimieren. Die Technik der
Kundensegmentierung hängt von mehreren wichtigen Unterscheidungsmerkmalen ab
, die
Kunden in Zielgruppen
einteilen . Daten zu Demografie, Geografie, wirtschaftlichem
Status sowie zu den
tatsächlichen Mustern der Reha spielen eine entscheidende
Rolle bei
der Bestimmung der Ausrichtung des Unternehmens auf die
verschiedenen Segmente. Was wir also unter
Kundensegmentierung verstanden haben , ist dies UP, INDEM wir den Kundenstamm in mehrere Personengruppen
einteilen, basierend auf der Ähnlichkeit verschiedene Arten, die für das Marketing
relevant sind. Zum Beispiel können wir
den Kundenstamm nach Geschlecht aufteilen , wie Geschlecht, Mann, Frau, basierend auf den
Altersgruppen wie
Erwachsene im Teenageralter und Senioren
, in Gruppen, die wir bilden können, auf diesen Parametern,
basierend auf dem Interesse. Nehmen wir an, wir haben den Kunden, großen Kundenstamm, in den wir den Kundenstamm
nach seinen Interessen segmentieren
können. Als ob sich jemand für Musik und Tanz
interessiert, für Kunst und Titers für Drama. So können wir
die Kunden segmentieren und dann auf der
Grundlage ihrer Interessen Produkte und Dienstleistungen empfehlen. Wenn sich jemand dafür interessiert. Nehmen wir an, im Sport können wir ihnen die
Werbung zeigen, ihnen
die Produkte oder Dienstleistungen verkaufen , die sich auf diese
bestimmte Sportart
beziehen. Dies sind also sehr
wichtige Dinge um die besten
Zielkunden zu identifizieren. Mit dieser Segmentierung
werden
die Unternehmen ein tieferes Verständnis
ihres Kundenstamms erlangen. Und basierend auf dem Verständnis
und der Segmentierung können
sie die Kunden
gezielter ansprechen. Und das wird
ihre Rentabilität erhöhen. Denn wenn Sie nur Absender sind, dem Kunden Werbung
schicken
und Ihr Produkt und
Ihre
Dienstleistungen verkaufen, um und Ihr Produkt und
Ihre
Dienstleistungen verkaufen Senioren zu unterstützen , und
Sie
Ihre E-Mails an alle senden , dann
ist das für die Teenager nicht relevant, oder? Welcher Erwachsene? Es kann in gewisser Weise relevant sein , dass sie die
Ältesten zu Hause haben. Aber es ist eher so, aber es ist wahrscheinlicher
, dass es
für Menschen über 60
oder Senioren relevant ist. Es ist also besser,
nur Personen anzusprechen,
die 60 Jahre alt waren , und dann wird es
Ihnen den größten Gewinn bringen. Das ist also, was bedeutet
Kundensegmentierung? Bevor wir also mit unserem Projekt fortfahren
, wollen wir verstehen, was der
K-Means-Algorithmus ist. Bei der Verwendung des
K-Means-Clustering-Algorithmus besteht
der erste Schritt darin, die Anzahl der Cluster anzugeben , die wir in
der endgültigen Ausgabe produzieren
möchten. Okay, also zuerst müssen
wir uns für die Anzahl der
Cluster entscheiden
, die wir in der endgültigen Ausgabe
produzieren möchten.
Der Algorithmus wählt
zunächst k Objekte aus
Datensätzen nach dem Zufallsprinzip aus. Es wählt also zunächst dem Zufallsprinzip die
Anzahl k der Objekte aus dem Datensatz aus, die als anfängliche
Zentren für unsere Cluster
dienen. Die ausgewählten Sternhaufen
bedeuten auch zahlreiche Zentren. Das sind also, wie gesagt, es gibt k Objekte, die
wir ausgewählt haben. Diese ausgewählten Objekte
oder Cluster bedeuten also, und sie werden auch als Zentroide
bezeichnet. Dann wird den verbleibenden Objekten der
nächstgelegene Schwerpunkt zugewiesen. Der Schwerpunkt, der Schwerpunkt, wird durch den
euklidischen Abstand
definiert. Kleben Sie den euklidischen Abstand zwischen dem Objekt
und dem Cluster. Wir beziehen uns auf diese
Azure-Clusterzuweisung auf Band. Wenn die Zuweisung abgeschlossen
ist berechnet
der Algorithmus Neuberechnung des Clusters oder der Beobachtungen
den neuen Mittelwert für
jedes Clusterreagenz in nach der
Neuberechnung des Clusters oder der Beobachtungen
den neuen Mittelwert für
jedes Clusterreagenz in den Daten oder prüft anhand
der
aktualisierten Clusterzuweisung, ob sie zu
einem anderen Cluster gehören . Dies wiederholt sich über mehrere Iterationen, bis die
Clusterzuweisungen beendet sind. Verändern. Die Cluster, die in
den aktuellen Titrationen vorhanden sind , sind bei
der vorherigen Hydratation vorhanden sind. Zusammenfassung des
K-Means-Clusters. Das ist also, was
K-Means-Clustering bedeutet. Wir geben die Anzahl der
Cluster an, die wir erstellen müssen. Dann
wählt der Algorithmus Ihre Objekte nach
dem Zufallsprinzip aus unserem Datensatz aus. Dieses Objekt ist ein
anfängliches Cluster oder meinst die Risiken und probiere es aus. Unser Hauptobjekt oder Pin die Zuordnung
einer neuen Beobachtung. Diese Aufgabe wurde auf
die euklidische Entfernung zwischen
dem Objekt umgestellt die euklidische Entfernung zwischen
dem und liest
die k-Cluster in den Daten nicht. Sobald unser
Rechenzentrum die neuen
Mittelwerte in den, in allen Datenpunkten
vorhandenen, diesen Datenpunktpunkten, diesem Datenpunkt der Cluster berechnet hat, hat
der k-te Clusterzentroid
eine Länge von P, die
den Mittelwert aller Variablen
für Beobachtungen
im k-ten Cluster enthält den Mittelwert aller Variablen . Wir bezeichnen die Anzahl der
Variablen so, dass ich versuche, Jason innerhalb
der
Summe der Quadrate zu minimieren , dann durch das Hydrat die Minimierung der Gesamtsumme
der quadrierten Zuordnung
nicht mehr zu schwanken. Wann und wann wurde
das maximale Schiedsverfahren erreicht. Der Standardwert ist zehn,
den die Grafiksoftware für
den maximalen Betrieb verwendet ,
also maximale Adresse. Stattdessen berechnen wir
den Clustering-Algorithmus für mehrere Werte
von k. Dies kann
erreicht werden , indem Variationen
innerhalb von k, 1-10 Clustern erstellt werden. Wir können dann die Summe
der
Quadrate innerhalb des Clusters berechnen , die SS genannt wird. Dann haben wir auf diese
Zahl gewartet, k Cluster. Diese Handlung bedeutet. Dann würden wir die K-Cluster bekommen. Und auf dieser Grundlage werden wir sehen, also das ist der theoretische
Teil für dieses Projekt. In diesem Projekt werden
wir
in der nächsten Vorlesung mit dem
Projekt beginnen, wenn wir beginnen den Code
für dieses Projekt zu
besprechen ,
und wir werden das
eigentliche Projekt durchführen. Kundensegmentierung. Wir sehen uns in der nächsten Vorlesung.
83. Projekt 3 Teil 2 Kundensegmentierung mit R: Fangen wir also mit dem Projekt an. Hier benötigen wir also als allererstes
eine Datendatei , die alle
Kundeninformationen enthält. Hier verwenden wir also
Model, Model Underscore. Kunden beginnen mit der CSV-Datei
und diese CSV-Datei ist hier. Und wenn ich es hier öffne, können Sie die Kundennummer, das
Geschlecht, das Alter und das
Einkommen sowie die Ausgabenquote
sehen . All diese Informationen
wurden gegeben. Wir haben die fünf Spalten,
kundennummeriert, und die einzelnen jährlichen Einnahmen,
Ausgaben, Ausgabenpunkte. Das sind also die
Informationen, die wir haben. Und auf dieser Grundlage werden
wir wissen, welche
Kundensegmentierung verwendet Also lass uns anfangen. Also zuerst müssen
wir diese Datei lesen. Also ich verwende die App Daten sind wertvoll oder Kunden unterstreichen Daten und ich verwende die Funktion, Punkt CSV und Mazda Teil
lesen,
Teil des Kampfes lassen
CSV Datei und es wird das Jetzt
aus dieser CSV-Datei lesen Sie können also
die benutzerdefinierte ID, das
Geschlecht, das Alter, das Jahreseinkommen
und die Ausgaben für diesen Kurs sehen Geschlecht, das Alter, das Jahreseinkommen . Hier können Sie also
ihre eigenen Datentyp-,
Char-, Char-Spalten sehen ihre eigenen Datentyp-,
Char-, Char-Spalten Okay? Die nächste Sache ist, was wir tun. Wir haben
Kundendaten benannt und dann wirklich, hey, versuchen, die
ersten fünf Spalten zu drucken. Crushed Favorit oder
studiere die Kundennummer, Geschlecht, Alter und willige
Commodus-Dinge Okay, Sie können sehen
Als Nächstes müssen Sie das wirklich mit
dem Kunden
zusammenfassen,
also lassen Sie uns das ausführen und sehen Wenn wir jedoch die Zusammenfassung
Wong Sun Belt on the Edge verwenden, erhalten wir
damit das Mindestalter Quartal ich,
erstes Quartil,
Median, mittleres drittes
Quartil und Maximum Also das ist für die Altersdaten dazu und ich habe irgendwelche
Statistiken erstellt, okay? Dann werden das Alter des Kunden, das
Jahreseinkommen und die Ausgabenquote für all diese Dinge dasselbe
regeln. Wir erhalten also diese Informationen, Standardabweichung, Schätzung,
Geschlechtervisualisierung. Hier erstellen
wir
eine tabellarische
Kundendatenbank, die auf der Tagesordnung steht. Und dann werden wir
versuchen, ein Balkendiagramm zu erstellen. Und das wird die
X-Achse und das Geschlecht und die
Y-Achse als Zähl- und
Farbfunktion Und lassen Sie uns das ausführen. Und du wirst ein Balkendiagramm sehen, dem wir das Geschlecht
weiblich und männlich gesehen haben. Wenn wir mehr tun. Verwenden Sie also ein Balkendiagramm, um
den Geschlechtervergleich anzuzeigen. Okay? Als nächstes folgt diese Formel, geteilt
durch die Summe von a in 200 Pfund, männlich, weiblich und männlich, weiblich Und das wird
die Darstellung geben , dass du männlich und weiblich
hast Also C und jetzt das Ziel X
Prozent und männlich ist 44%. Das wollen
wir jetzt also nicht in unserem Datensatz haben. 56% der Frauen enden, 44% der Männer. Jetzt wollen wir das tun, wir werden versuchen, die
Altersverteilung zu visualisieren Versuchen Sie also,
ein Histogramm auf dem
Glas und der Frequenz zu zeichnen ein Histogramm auf dem
Glas und der Frequenz zu Also sieh dir hier an, dieses Histogramm zeigt
dir den Kontakt zu jeder Klasse Hier können Sie also die Frequenz
Null bis 20 sehen , die bei 20 bis 30
beginnt. All diese Dinge, die Sie sehen können, das ist das Histogramm Dies ist die Altersklasse 2030, 30 bis 40, 40 bis 70. All diese Dinge
können wir visualisieren und anhand des Alters ein Balkendiagramm
sehen Und das gibt uns die deskriptive
Analyse als Boxplot Hier können Sie also sehen, dass
es hauptsächlich zwischen
dem Ziel und dann
einem C-Sub-N1-Einkommen also, hier für die Registrierung eines Unternehmens Versuchen Sie also, hier für die Registrierung eines Unternehmens ein Histogramm
oder das Jahreseinkommen
und die Häufigkeit, die wir auf der Y-Achse
setzen, darzustellen und die Häufigkeit, die wir auf der Y-Achse
setzen Wir sehen uns also für das
Jahreseinkommen plus die Häufigkeit, Sie können sich Ihr Hockey ansehen. Dann legen wir das
Grundstück für unsere Kunden an, ein weiteres Grundstück hier, Dichtegrundstück für das jährliche Einkommen. Also all diese Dinge, die
Sie analysieren können, dann zeichnen
wir ein Boxplot
für die Ausgabenquote. Siehst du, das ist das Ende, das ist die Box Plot für
diesen Ausgabenscore. Dann nochmal unser Histogramm
für den Ausgabenscore. Und dann starten wir die Leiste unserer
K-Mean-Algorithmus-Bibliothek und setzen auf Seed Und dann verwenden wir eine Funktion, um die Gesamtsumme der
quadratischen ISS
innerhalb des Clusters zu
berechnen und
auf eins bis zehn zu setzen Okay? Als Nächstes bewerte ich den Wert,
berichte, unterstrichene AV kartografieren Und dann zeichnen wir die Anzahl
der
Cluster auf der X-Achse und Y-Achse auf, Gesamtsumme der
Quadrate innerhalb des Clusters plus die
Anzahl der Du wirst eins bis zehn sehen. Und hier können Sie
die gesamte Y-Achse sehen. Cluster, Summe
des gesamten Clusters, Summe der Quadrate, okay? Anzahl der Cluster
für diese, 4464814. Okay? Beweise, wähle
meine dritte Bibliothek aus. Sie werden Cluster extra verwenden. Diese drei Bibliotheken werden
Sie verwenden. Wenn es also nicht installiert ist, können
Sie hier nach Tools, installierten Paketen suchen und
den Namen des Pakets angeben, und es konnte nicht sein. Lass uns anfangen. Jetzt. Was ich tun werde, wir werden tun, wir erstellen die Cluster k2 Und k2 wird die
K-Means-Cluster verwenden. Und dann geben wir, dass ich mich
kleide und maximal Schauspielerin und 100 und fange an
und fange bei D
an, Algorithmus wie. Und dann zeichnen wir
diesen Cluster und die
Kundendatenwerte auf. Und das Euklidische meinte,
okay, so setzen
wir das Das ist weiter,
das ist für die A2. Jetzt machen wir die Sache für k3, k4, k5 Und wir sehen uns in
der Handlung wird gestrickt. Jetzt verwenden wir den Envy
Cluster und kein zusätzliches. Und wir machen Celebrity und Sie werden es eins bis fünf sehen
und Kundendaten, Sie werden es eins bis fünf sehen
und Kundendaten,
k-means. Und dann K6 Wisse, dass wir diese optimale Anzahl von Clustern und die optimale
Anzahl von Clustern haben. Cluster One hat jemals
damit um 3,4, 647 gekämpft. Und dann haben wir die
optimale Anzahl von Clustern. Wir werden dann, was wir tun werden, versuchen, die
wichtigsten Hauptkomponenten zu visualisieren Das PCC hat sich dafür mit der
PR-Funktion zusammengetan. Und lassen Sie uns das ausführen. Hier. Sie können den jährlichen Wert der
Einkommensausgaben sehen. Und dann verwenden wir den
GG-Plot, um das zu plotten. Jetzt können Sie sehen, wie die
Modellkunden anhand von
k-Mean-Clustering-Daten nach oben segmentiert werden,
die Cluster-Santa-Kunden die Das ist ein Cluster, das ist ein anderer Cluster. Das ist ein Plus,
das ist ein Cluster. Also die sanften Clustern, die der Kunde
anhand seines Verhaltens einnimmt. Jetzt. Versuchen Sie nun, Cluster eins, Cluster zwei, Cluster
drei, Wasserstoff hat mir gegeben. Jetzt können Sie also sechs Cluster sehen. Cluster eins, Cluster zwei, Cluster drei Cluster
für Cluster fünf. Das sind also die Punkte, das
sind die Cluster. Wir können die Daten sehen. Jetzt legen wir das ein und wir werden
versuchen, es erneut auszuführen. Und jetzt ist es ziemlich klar. Jetzt haben wir hier das
K-Means-Clustering. Hier können Sie also sehen, dass dieser
rote Cluster eins ist, gelb, eins, Cluster zwei, Cluster drei, der grüne. Dieser Cluster, Cluster
fünf, ist blau. Und das ist Cluster für. Was Sie nun sehen können, die anderen
Kundencluster,
die wir
auf der Grundlage des K-Mean-Clusterings erstellt haben Cluster 4 und Cluster One to Cluster bestehen aus Top-Kunden, mittleren und mittleren PC-Ergebnissen. Und Cluster sechs. Klassische Diskussion Ich drucke
den Cluster mit PCA, hohem PCO2 und niedrigem PC Erstens, Cluster fünf In diesem Cluster gibt es
Kunden mit mittlerem und niedrigem PCO2 Das ist also das Bett mit
den PCA One- und
PC2-Werten, die wir haben Wir können diese Glabella auf
die Cluster und Verhaltensweisen anwenden die Cluster und Verhaltensweisen Mit Hilfe von Clustering können wir die Kunden gezielt ansprechen. Wir können die
Variablen viel besser verstehen was uns zu sorgfältigen
Entscheidungen veranlasst Durch
die Identifizierung von Fragen können
Unternehmen Produkte
und Dienstleistungen herausbringen , die sich an Kunden
richten. Das sagen wir nicht, aber ich
würde mir nur wünschen, dass Einkommen, Alter, Ausgabenmuster usw. Darüber hinaus komplexere
Muster wie Produkteinführungen
für eine bessere Segmentierung berücksichtigt werden Das ist also die
einfache Erklärung. Sie können ins Detail gehen und
mehr über diese Dinge erfahren. Darüber hinaus hoffe ich, dass dieses
Projekt
Ihnen hilft zu verstehen, wie wir das Gaming-Clustering
durchführen
84. Projekt 4 - Einführung - Filmempfehlung: Hallo und willkommen zurück. In diesem Projekt werden wir also Projekt Nummer vier
durchführen Filmempfehlung,
Systemanmeldung und maschinelles Lernen. Jetzt haben wir das grundlegende Verständnis
von Programmierung und wir haben
auch in diesem Kurs einige Projekte durchgeführt. Dieses Projekt wird Ihnen also eine sehr breite Erfahrung Arbeit mit Algorithmen für
maschinelles Lernen unsere Programmierung darin
beurteilen, werden
wir das sehr beliebte
Filmempfehlungssystem verwenden Sie haben keine Programmierung
und keinen Algorithmus für maschinelles Lernen hinzugefügt . Worum geht es also bei diesem
Projekt? Dieses Projekt konzentrierte sich auf die Entwicklung einer
Filmempfehlung. Ich verwende R- und maschinelle
Lerntechniken sowie
Techniken des
maschinellen Lernens. Das Ziel dieses Projekts ist
das Empfehlungssystem. Diese
Empfehlungsmaschine, die Benutzern
Filme
auf der Grundlage ihrer Vorlieben vorschlägt . Also, was passiert eigentlich auf allen OTP-Plattformen
wie Netflix,
Hot Star, T5, Amazon
Prime Videos Wann immer Sie
Filme schauen oder Ihre, Sie haben
einen Comedy-Film gesehen. Du hast Mazda war ein romantischer
Film mit Schauspielern und Filmen. Basierend auf Ihren Präferenzen, was Sie in der Vergangenheit
gesehen haben, werden
all Ihre Einstellungen gespeichert. Und basierend auf Ihrem
früheren Verhalten, als ob Sie sich
eine Komödie ansehen, normalerweise Genre oder
Acts und Genre. Den nächsten Film werden wir dir
empfehlen. Also biegen sich alle und sie
verlieren die gleiche Metallurgie. Um dir
den nächsten Film vorzuschlagen. Unterstützung. Sie haben
das Komitee und
den X-Men-Film in den letzten Wochen gesehen den X-Men-Film in den letzten Wochen Was sie als Nächstes tun
werden, können sie tun. Sie können
Ihnen einen Film vorschlagen, der sowohl die Dinge
Comedy als auch Exzellenz
hat. So können sie
dir X vorschlagen und einen Film mit den darin enthaltenen Comic-Elementen machen. Sind sie, Sie werden
auf jeden Fall Duck den Comicfilm und den
Film zusammen mit dem Film vorschlagen, sie können Ihnen
die Filme vorschlagen, die sowohl Comedy als auch Exon zusammen
enthalten All diese Dinge tun wir also mit den Algorithmen für maschinelles Lernen Das ist heutzutage also sehr
beliebt. Durch die Implementierung von
objektbasierter Zusammenarbeit um zu filtern, was
wir erneut verwenden, werden wir
praktische Erfahrung
in der
Anwendung unserer Datenwissenschaft
und unseres maschinellen Lernens
auf reale Projekte wie das Empfehlungssystem für
Filme sammeln , werden wir
praktische Erfahrung
in der
Anwendung unserer Datenwissenschaft und unseres maschinellen Lernens
auf reale Projekte wie das Empfehlungssystem für
Filme Was wir hier verwenden, ist es der MovieLens-Datensatz, einem Lakh,
5.039 Bewertungen in der
Bewertungs-Punkt-CSV-Datei besteht 5.039 Bewertungen in der Und es enthält auch 10.329 Filme in der CSV-Datei mit
Filmpunkten Also diese beiden CSV-Dateien, Datendateien, die wir verwenden
werden, eine wird den
Film in Auftrag geben, mehr als 10.000 Filme. Und davon abgesehen denke
ich, dass CSP
den Platz für
bestimmte Filme
von den verschiedenen
Kritikern und Audits speichern wird den Platz für
bestimmte Filme
von den verschiedenen
Kritikern und Audits Jetzt haben
wir also ein grundlegendes Verständnis dafür,
was wir tun werden. Als Nächstes: Was
sind die Bibliotheken? Welche Bibliotheken
werden wir dafür benötigen? Wir benötigen also das GG-Plot Lab data.table und receptor, die anderen grundlegenden Bibliotheken, die
wir für dieses Projekt benötigen GG zeichnet diese also für den
Verdauungsteil data.table auf. Welcher Tisch und die Seitenansichten des
Kommandanten. Empfehlen Sie die Lektion. Was sind also die Schritte, die
wir in diesem Projekt unternehmen werden? Der erste Schritt wird die
Datenvorverarbeitung sein. Dann werden wir den
nächsten Schritt machen Um
zu filtern, werden die ähnlichen Daten
untersucht. Dann wird es eine Datenbank geben. Und dann gehen wir zur
Datenaufbereitung. Und die Datenvorbereitung
umfasst ein paar Schritte und dann wird
der Standard endlich nacheinander ausgeführt. Was werden
wir bei der Datenvorverarbeitung
tun Die Datenvorverarbeitung
wird unterstützt. Wir bekommen
Rohdaten in einer CSV-Datei mit
Filmpunkten oder
lesen Drogen, ja. Wir müssen diese Daten vorverarbeiten. Sobald wir also die
Daten aus der CSV-Datei der Filme
und den Bewertungen
oder CSV-Datensätzen extrahiert haben. Was ich beobachte, was
wir beobachten werden , diese Benutzer-ID- und
Film-ID-Spalten, Ganzzahlen Das sind also die
Dinge, die wir sehen werden, wenn wir uns auch den Code ansehen. Aber vorerst lasse ich es dich
einfach wissen. In dieser Datei werden wir sehen, was
wir tun können. Lass uns spülen. also Lassen Sie uns also zuerst verstehen was wir verlieren werden. Also die ID und die Benutzer-ID dieses Films. Es bestand aus den ganzen Zahlen. Und zusätzlich müssen wir das Filmgenre
in Form von Movie Underscore Data und
Dataframe in benutzerfreundlichere ****
umwandeln Dataframe in Ob Filme oder nicht, wir
müssen in
ein benutzerfreundlicheres
Format umwandeln , als Sie es tun. Und um das zu erreichen, habe ich eine
Hot Encoding-Metrik erstellt, eine
Hot Encoding-Metrik erstellt die das Genre repräsentiert, das jedem Bereich
zugeordnet Um diesen
benutzerfreundlichen Datenrahmen, das
Filmgenre, zu erreichen , was ich getan habe, habe
ich
eine One-Hot-Kodierungsmatrix erstellt ,
die Genres referendiert jedem Film wurden anschließend
solche Muster generiert um jede Suche auf der
Grundlage der John-Tagebücher zu erleichtern. Da Filme oft mehrere Genres
haben, wir alle wissen, dass
ein Film mehrere Genres haben kann, haben wir die Unterstützung in
mehrere Genres unterteilt. Ein Film kann X haben und er kann
auch Drama haben. Also kann es auch die Komödie haben. Ein Film kann auch
mehrere Genres haben. Also, was wir tun werden, wir werden diese metrische Klasse verwenden. Und für unsere Daten werden
wir, was wir tun werden, wir werden die Matrix, die Genre-Matrix, in
diese spärliche Matrix konvertieren die Genre-Matrix, in
diese spärliche Matrix um sie so tabellarisch für das
Filmempfehlungssystem zu machen Und dafür setzen wir die echten Verrückten auf die gelbe
Bewertungsmatrixklasse ein. Der nächste Schritt wird also das gemeinsame Filtern oder Erkunden ähnlicher Daten sein. Das kollaborative Filtern
beinhaltete also, Ihnen
Filme zu empfehlen , die nur auf
den Präferenzen anderer Benutzer beruhten den Präferenzen anderer Benutzer Also, was bedeutet das? Kollaboratives Filtern ist,
nehmen wir an, Sie
schauen sich einen Film an, bei dem es sich um eine Komödie handelt. Und Sie haben nicht
viele Filme auf
einem Plattform-Support gesehen . Sie schauen Netflix und haben gerade angefangen, Ihren Hals zu
benutzen. Und Sie haben
nur einen Film gesehen, der zum Comedy-Genre gehört. Nun, wie Netflix
Ihnen Filme empfehlen wird, da Netflix keine Daten angibt, akzeptieren
Sie, dass Sie einen Comedy-Film
gesehen haben. Also entweder es kann weitermachen, Neues
empfehlen, dir den Comedy-Film-Tarif empfehlen Und das wird eine sehr
seltsame Sache sein, weil eine Person nicht davon abhängig sein wird. Wir werden uns nur einen
Genrefilm ansehen, in dem
nur er vielleicht an X interessiert ist, und auch Drama. Also Spannung, Thriller
auch, oder? Dafür, was diese Split-Funktion tun
wird, verwenden sie kollaborative Filterung
, bei der sie Benutzern Filme
empfehlen die auf den Präferenzen
anderer Benutzer
basieren Es gibt also Millionen
von Benutzern,
die die Plattform nutzen , und sie beobachten das Komitee
auch x und auch. Also basierend auf unseren Benutzern
,
die denselben Film gesehen haben und was
sie als nächstes gesehen haben. Basierend auf ihren Daten. Netflix sagt voraus, dass Ihnen auch ein
bestimmter Film gefallen
könnte, und zwar in
der Reihenfolge, in der Sie
sich den Film gerade angesehen haben. Netflix kann Ihnen Film
X empfehlen , weil Sie den Film
gesehen haben. Okay? Wenn du also in X springst
und User B auch,
dann die Filme, die sich Huge eine Woche lang angesehen
hat . Und wir haben
eine große Auswahl empfohlen. Das Gleiche habe ich dir
erklärt und umgekehrt. Daher hängt die Empfehlung und
Empfehlung von Filmen davon
ab, hängt die Empfehlung und
Empfehlung von Filmen davon
ab unsere
Ähnlichkeitsbeziehung zwischen ihnen festzustellen Sie werden wissen, was wir hier tatsächlich tun, wir stellen eine
Beziehung zwischen
der Ertragsähnlichkeit her, eine
Beziehung zwischen die auf
der Ähnlichkeit ihres
Akzents oder ihres Interesses basiert der Ähnlichkeit ihres
Akzents oder ihres Interesses Verwendung der empfohlenen
Laborbibliothek. Was ich getan habe, ich habe die Ähnlichkeit mit
verschiedenen Operatoren wie
Kosinus, Pearson und Jakarta
berechnet verschiedenen Operatoren wie
Kosinus, Pearson Und dann konstruieren Sie eine Lektion
zur Datenvisualisierung. Wir werden auch die
Ähnlichkeit der Daten sehen. Hier habe ich also Ähnlichkeit zwischen den Benutzern visualisiert und
auch die Ähnlichkeiten
zwischen auch die Ähnlichkeiten den vorherigen Filmen untersucht Um zu bekommen. Datenbanken sind die meisten Aufrufe, die Filme sehen
werden, als das, was ich getan habe. Ich habe im Datensatz
mehr nachgeforscht. Vor dieser Analyse
habe ich die Anzahl der riesigen, riesigen für jedes Feld berechnet und
sie, die wir in die
Lage versetzt haben, in absteigender Reihenfolge angeordnet Gesamtzahl der Views
der Golf-Filme wird anhand des Balkendiagramms
und der Vigilanten
visualisiert Und es wurde geschrieben , dass Fixin der
meistgesehene Film war Das sind also die Daten, die
visualisiert werden, und die Dinge werden funktionieren. Und danach. Danach habe ich eine Heatmap
erstellt, die in jede Lektion aufgenommen wird, eine Heatmap mit Filmdaten, um einen
Einblick in
die Filmbewertungen zu Ich habe eine Heatmap erstellt,
die die Bewertungen der 25 besten Zeilen und fünf
Spalten im Datensatz
anzeigt die die Bewertungen der 25 besten Zeilen und fünf
Spalten im Datensatz Wählen Sie als Nächstes die Auswahl aus. Also, was ich getan habe, ich habe getan, ich
mag Golf wirklich. Du schickst Filme einfach
über eine Heatmap und schaust dir
auch die Verteilung der durchschnittlichen Bewertungen für die Zukunft an. Als Nächstes folgt die
Datennormalisierung. Wir verstecken potenzielle
Vorurteile, die durch Nutzer verursacht werden, die durchweg
hohe oder niedrige Bewertungen für alle Filme, die sie sich ansehen,
durchweg
hohe oder niedrige Bewertungen abgeben. Ich normalisiere die Daten. Normalerweise plötzlich das
Verfahren, um
numerische Werte in einer
Spalte auf eine gemeinsame Skala zu standardisieren , um
sicherzustellen, dass der Wert nicht
verzerrt wird In diesem Fall transformiere ich dann die durchschnittliche Bewertung durch
Normalisierung, wobei ich meine
Stimme drücke und sie grafisch wiedergebe Wir werden sehen, dass
Daten gebannt wurden, wenn wir im letzten Schritt die praktische Binärdatei im letzten Schritt die praktische Binärdatei machen, oder? Zuweisung diskreter Werte 1.0. Dieser Schritt verbessert die Effizienz
der Empfehlungen. Was ich getan habe, ich definiere
die Matrix mit einer Bewertung von drei
entspricht eins. Und ansonsten
heißt es nur, dass, wenn die
Filmbewertung bei etwa drei liegt, sie einer entspricht. Andernfalls wird
einem Wert von weniger als drei der Wert Null zugewiesen. Kollaboratives Filtersystem. In diesem Artikel habe ich ein kollaboratives
Filtersystem
entwickelt , das
anhand der großen Bewertungen die Ähnlichkeit von
Artikeln bestimmt anhand der großen Bewertungen die Der Algorithmus erstellt unsere Tabelle ähnlichen Artikeln, die
von Kunden gekauft wurden, und anhand mit
ähnlichen Artikeln, die
von Kunden gekauft wurden, und anhand
einer Empfehlung. Ein Teil davon
ist, dass die Schritte zur Bestimmung der Ähnlichkeit zwischen
den Artikeln wie folgt lauten Für jeden Tagesordnungspunkt im
von Kunden gekauften
Produktkatalog Punkt ID1 für Punkt
I bis j von Kunden als schuldig
angesehen, was ich getan habe Ich kreiere Jade nach Kundenwunsch und sehe mich schuldig für das, was ich getan
habe. Ich habe einen Datensatz erstellt, der angibt, dass
Kunden die gekauften Artikel I,
i1 und i2 sehen . Berechne die Ähnlichkeit zwischen
den Artikeln I1 und I2 Okay? Da der Kunde I1 und I2
gekauft hat, könnte
es sein, dass die
Artikel I1 und I2 in gewisser Weise ähnlich
sind Also diese Ähnlichkeit werden
wir berechnen. Und dann teilen wir
den Datensatz in 80% für den Trainingsdatensatz und 20% weitere Tests für
ein Empfehlungssystem auf. Die 80-20-Regel ist in Algorithmen für
maschinelles Lernen immer anwendbar. Der nächste und letzte Schritt
wird das direkte Modellsystem sein. Exportieren Sie dazu die verschiedenen Parameter, die auf Elementen
basieren, kollaborativer Filter Der Standardwert
des Parameters k, die Anzahl der
Elemente angibt, wird zur Berechnung verwendet 30. Der Algorithmus identifiziert die k ähnlichsten Elemente und speichert die
entsprechenden Zahlen. Das Empfehlungsmodell wurde
mithilfe der Funktion „Modell abrufen “
und der von uns
analysierten Ähnlichkeitsmatrix aus Glas oder Diamant oder Heatmap um
die knusprigsten Objekte
derselben Beleuchtung zu visualisieren abgerufen,
um
die knusprigsten Objekte
derselben Beleuchtung zu visualisieren. Als Nächstes nutzen wir
dieses Modell eines
Systems zur Entfernung von Menschen Indem ich die Zeilen und Spalten mit
Ähnlichkeit über Null summiere, erhalte
ich die Verteilung
einiger Diese Verteilung wurde visualisiert
, um weitere Erkenntnisse zu gewinnen. Um das
Empfehlungssystem zu erstellen. Auf dieser Folie gibt der von den senkrechten
Zehn
empfohlene obere Wert die Anzahl
der Filme an, die
von jedem Benutzer empfohlen werden. Und die
Vorhersagefunktion wurde dann verwendet, um ähnliche
Artikel entsprechend zu identifizieren. Jede Bewertung wurde als Gewicht
behandelt, das mit dem
entsprechenden Ähnlichkeitsgeschmack multipliziert wurde Schließlich wurden alle Gewichte hinzugefügt, um
die Empfehlungen zu generieren. Das sind also die
Dinge, die wir für
das Filmempfehlungssystem
mithilfe von R und maschinellem Lernen tun werden. Unser Ziel ist es,
den Nutzern Filme zu
empfehlen , die auf
ihren Vorlieben und
Abneigungen basieren und darauf, was sich
die Benutzer ansehen Der Abschlussball wurde aufgrund
der Ähnlichkeit unterschätzt. Okay? Und für die Bibliothek GG plot TO data.table wurde vom Labor
empfangen und empfohlen Wir machen Schritte, um wirklich
nach der Datenvorverarbeitung zu suchen und
dann werden wir das
kollaborative Herausfiltern durchführen und die ähnlichen Daten
untersuchen, die ähnlichen Daten
untersuchen die wir bereits besprochen haben Die AWT-Lektion. Als Nächstes werden wir sehen, wie wir die Daten überarbeiten
können. Für die Datenvorbereitung
gibt es drei
Schritte zur Datenauswahl
, gibt es drei
Schritte zur Datenauswahl Datennormalisierung und Datenbinarisierung
, die wir Und das kollaborative
Filtersystem , das wir
bereits anhand
dieses Beispiels verstanden haben und das ich zunächst
bereits besprochen habe. Also ich hoffe, das Projekt
habe ich erklärt. Nun, in der nächsten Vorlesung machen
wir das Projekt, indem wir das Drehbuch schreiben. Also, wir sehen uns im Projekt
85. Projekt 4 - Teil 1- Filmempfehlungssystem mit R: Hallo und willkommen zurück. In dieser Vorlesung werden
wir das
Projekt durchführen, eine Empfehlungsmaschine zu lesen , die Tech-Filme für Sie einfach
nach ihren Vorlieben richtet. Sie haben schon früher zugesehen. Und belasten Sie auch die anderen Benutzer auf der
Plattform oder beim Ansehen von Filmen. Oder sie haben ähnliche Filme,
über die Sie urteilen. Diese riesigen Schulden beobachten
unser Wachfenster. Wenn Sie dies tun, wenn Sie
die Streaming-Plattformen oder
TPU zum ersten Mal für den Herbst verwenden die Streaming-Plattformen oder , können
sie Ihnen immer noch ein höheres Risiko
empfehlen Weil sie
die übliche Datenbank haben, der Millionen von
Menschen,
die sich die
ähnliche Art von Gehorsam ansehen, die Sie nur aufgrund
ihrer Interessen und Ihres
Interesses, einen Film anzusehen, haben . Das ist die Ähnlichkeit
zwischen dir und anderen Leuten, also denke einfach auf
der Plattform dass ihre Präferenzen das sind,
was sie dort gearbeitet haben Je schwerer. Das ist es. Ich kann dir die Filme empfehlen. Also hier, was wir tun
werden,
wir werden
dort sein, wo es ein artikelbasiertes
kollaboratives
Filterempfehlungssystem ist kollaboratives
Filterempfehlungssystem Okay? Also was ist der Artikel im Grunde, ich kann mich
anhand bestimmter Artikel erreichen. Wir werden Dark
Collaborate in Betracht ziehen , um
unsere Ähnlichkeit zu drucken Soweit diese Realitätsregion, werden
wir die
empfohlene Laborbibliothek
GG-Plot für die Visualisierung von
data.table,
what tables und Receptor verwenden GG-Plot für die Visualisierung von
data.table, what tables und Also diese vier Bibliotheken. Okay, als Nächstes werden wir die Daten abrufen und
anzeigen. Filme und die Filmdaten. Mehr lesen Punkt csv. Am Freitag werden wir
Androgenquelle CSV sehen. Lassen Sie mich Ihnen also
den Aktienkurs zeigen. Das ist also mehr Vidar-CSV, das
die Film-ID enthält, die eins zu
10.000 ist. also mehr als 10.000
und mehr Risiken In diesem Datensatz wurden also mehr als 10.000
und mehr Risiken
hinzugefügt. Und dann liebe ich den
Film, Film-ID-Titel des Filmgenres, welche Tagebücher du für mich
abgewaschen hast. In diesem Datensatz gibt es also mehr als 10.000
Filme, ihren Titel und ihr Genre. Hier seht ihr also ein
Filmgenre, das Genre-Abenteuer. Vor diesem Genre
Edward Jeff-Animation standen Kinder bereits in Klammern Wir sind fertig mit den drei Abenden
mit Comedy und Drama. Das heißt, ich
liebe ab und zu
Kinder und Drama sehr. Drama, Fantasy,
Mysterium, sicherer Weg. Ein Film kann also zu
mehreren
Filmgenres gehören . Und dann haben wir die
Struktur Yes, CSP, die die Benutzer-ID hat, die Film-ID, für welchen Film, es diese Bewertung erhält Welches Rating dann? Leute, sogar zu dem Film, dass
es eins oder eins vor fünf ist. Und dazwischen hin zu hoher
Ablehnung porträtierte der Film. Und dann haben wir
die verschiedenen Typen. Kommen wir also zum Kern. Er hat also identifiziert, dass er
zum Pfad der Datei gehen wird. Dann erstellen wir eine
Datenvariable zum Unterstreichen von
Filmen und
stellen dann die Daten wieder her Also die CSV-Dateifunktion wird einen dummen Filmpunkt CSV
verwenden , der in
diesem Thiamin gespeichert wird, sei starr uns es und und Zeichenfolge als
Fruktose Und dendritische Unterstrich-Daten,
Punkt-CSV und Und dann werden wir sehen, dass es
sich bei den Daten um Dark CSP handelt. Sehen Sie hier. Jetzt haben wir die Film-ID, mit der der Lehrer springen kann, oder? Scott kümmert sich um den
Job und das Schreiben. Sie immer. Natürlich können Sie sich die Zusammenfassung
der Daten mithilfe der
Zusammenfassungsfunktion ansehen. Die Zusammenfassung der Daten, die
Sie sehen können, ja, Film, erstes Quartal,
zweites Quartal, drittes Quartal, ich meine Genre. Hier können sie also die sehen,
die ich im Film gesehen habe, als Kopf nach oben
die Partiturdatenentitäten geöffnet wurden, 123456. Okay. Jetzt können wir die Zusammenfassung der
Daten sehen und dann wirklich sehen, wie die Niere ein Herz herausschneidet. Und Codierung, um
die Matrix zu erstellen, die die Kosten für die
neue Kendra Roth
beinhaltet, jede aus Freiheit Das wird also der
Sache mit
der Datenverarbeitung entsprechen . Wir haben geschaffen. Der One-Hot-Encoding-Film
unterstreicht Gin Chandra und der Film
data
as.data.frame unterstreicht die Rivalität zwischen Daten und data
as.data.frame unterstreicht die Rivalität zwischen Daten Jordanien. Zeichenfolge als Strukturen, Zeichenketten als Faktoren
ist gleich falsch. Dann überprüfe die Bibliothek
data.table und ja, das Erstellen von Filmen
unterstreicht Und hier werden wir
dark data.frame hinzufügen. Und er hatte DST, die STR, Split Movie Genre und Type Dot Cardboard True
Strings als Faktordateien. Und dann nennen wir
ihren Namen Filmgenre. Und wir verwenden C, eins, um das zu sagen. Und sie beenden das Genre bei einigen Dingen
, bei denen es sich
um dein linkes Knie handelt. Hallo, ich komme von hier nach hier. Kein Spaltenname und
der Leinenkram. John, John Drop und
Fighted Index One Tool. Und ich bin gewandert, handgeschrieben. Ich führe diesen Code nicht aus. Und für den Anruf. Und du John, sie, meine beiden jüngeren, ich nenne sie gerne
und füge Argentinien hinzu. Chandra, kaputt. Was Dakota mit einer Saite macht. Dann klicken Sie mit der rechten Maustaste darauf. Und dann kannst du hören, wie ich meine Tricks
für solche Säuglingsbasis plus
Plan Chandra und
so fünf Tricks starten Plan Chandra und
so fünf Tricks In diesem Quartal
verwenden wir meine Tricks und meine Sicht auf diese Ansichten. Ein wichtiger
Parameter für innerhalb dieses Systems pro Mol
ist einfacher, wenn Sie das tun Aber wie eine Station,
modellieren Sie die Registrierung und rufen Sie Eingabedatentyp für die
L-Matrix ab, eine Matrix. Und er hat Sie eingegeben, ich habe meine Tics und
Empfehlung
erhalten Mark Moore, ich habe die
Bewertungsmatrix und unser Vertrauen unterstrichen Nesseltiere. Sie
können anhand
dieses Diagramms einfach Ähnlichkeit erkennen und uns leicht
dargestellt haben
, das ist zwischen den Feldern Okay, das war's
für diese Vorlesung, wir machen in
der nächsten Vorlesung weiter.
86. Projekt 4 - Teil 2 - Filmempfehlungssystem: In der vorherigen Vorlesung haben
wir mit
dem
Filmempfehlungssystem begonnen , das in diesem Projekt verwendet wird. Lassen Sie mich Ihnen
kurz zusammenfassen, was wir in der vorherigen Vorlesung, dem ersten
Teil dieses Projekts, getan
haben ersten
Teil dieses Projekts Also brauchen wir die für
Bibliotheken, Recommender Lab. Sie plotten zwei data.table. Also stehen wir einfach in diesen Bibliotheken
und dann müssen wir
die Daten von dem Ort holen , an dem
Sie die Daten aufbewahrt haben. Wir speichern das dann, um die CSV-Datei mit
der Funktion
read.csv zu lesen CSV-Datei mit
der und die Unterstrichdaten
in Filmen wiederherzustellen Unterstrichdaten
in Filmen In ähnlicher Weise
speichern wir die Bewertungsdaten Bewertungsunterstrich eta durch die Ähnlichkeit
zwischen den dunklen CSVs Und wir werden die endgültige
Nummerierung bestehen, zuerst CSV, dann STR, Lunge Und wir werden diesen
Schritt verabschieden, um die Daten zu unterstreichen. Und dann sehen wir uns
die Zusammenfassung
der Daten des Films an Und das gibt Ihnen den
Film-ID-Titel und das Genre. Und hier sehen Sie die
statistischen Details hier. Minimal-, erstes Quartil-, Median-,
Mittel-, drittes Quartil- und
Maximalwerte Dann werden wir sehen, wie der Kopf
des Films die Daten unterstreicht. Es gibt Ihnen die ersten
fünf Zeilen der Daten. Sehen Sie sich hier die
Flush-Film-ID und den Titel und dann das Genre des Films Und dann sehen wir den
Leiter der Ratings. Aber du kannst auch das
kleinste erste Quartil, den
Median oder alle Spalten sehen , okay Dann sehen wir uns den Leiter
der Bewertungsdaten an. jedoch Benutzer-ID,
Film-ID und ein
Bewertungs Es werden jedoch Benutzer-ID,
Film-ID und ein
Bewertungs - und Zeitstempel vergeben Jetzt haben wir also eine
Vorstellung davon, was
in der Idee steckt ,
was in der CSV-Datei oder
der
Datendatei, die wir
haben, enthalten ist und was in CSV-Datei oder
der
Datendatei, die wir diesen
Daten enthalten ist, auf denen wir weitergehen werden. Als Nächstes
werden wir also tun. Wir erstellen eine One-Hot-Kodierung,
indem wir eine Matrix erstellen, die für jeden Beweis
die entsprechenden allgemeinen Werte
enthält Für die Kodierung unserer Ernährung müssen
wir also eine Matrix erstellen Also werden wir hier
eine Variable erstellen mehr als das Genre unterstreicht
und hier als.data.frame, sie
wiederverwenden, Filme wiederverwenden Und dann verwenden wir
diese Genre-Spalte. Wenn Sie also hier nachschauen, ist das Genre-Spalte in den Filmdaten, Movies of Data File. Also verwenden wir das
und dann Zeichenketten als Falschfaktoren und dann die
Bibliothek, die sie später verwenden werden. Hier erstellen wir also eine Matrix, eine
Filmgenre-Matrix,
und verwenden dann einfach
data.frame und das Filmgenre und verwenden dann einfach
data.frame und das Filmgenre Und dann sind wir
fertig mit der Matrix hier, dann mit diesem und dann mit dem Spaltennamen. Und dann hören sie auf mit dem Genre. Genre. Was ist die Liste der Genres ist dein
X und Abenteuer. All diese Dinge
werden hier aufgelistet. Und dann sehen wir das Genre, Mach Eins und die Spaltennamen. Und für den Index in einem. Und Rho-Filmgenre
bis vier werden
die Kolumne lesen und für jedes Genre den Filmnamen
erhalten Und alles. Lassen Sie uns
das dann drehen, Genre Matte Zwei. Und dann das Gleiche hier. Dann geben wir es hier an STR weiter. Dann geben wir es an STR weiter. Und was wir jetzt tun werden, wir erstellen eine Suche von Patricks. Also ich denke, indem ich das Genre
spezifiziere. Also John, richtig? Lassen Sie uns das also
mit yes, C bind ausführen. Okay? Und dann machen wir weiter und sehen hier, jetzt
machen wir das wieder. Also CN-Film-ID-Titel, Exzellente Abenteueranimation,
Kinder, alle Genres Als Spalte in
dieser Matrix, okay? Als nächstes ist dies eine Matrix. Als nächstes folgt die Bewertungsmatrix. Und jetzt, was wir tun werden, wir konvertieren die
Bewertungsmatrix in eine Matrix mit
Empfehlungen für Labore mit geringer Dichte, diese Matrix und die gelbe
Bewertungsmatrix, okay? Und dann ist die Bewertungsmatrix C 668 in die zehnfache
Menge fünf oder n Spalten Die Bewertungsmatrix von plus eins
lag bei 5.003, 13 und Bewertungen. Okay? Als Nächstes verwenden wir das Modell Namen ,
Empfehlung und Empfehlungsmodell Und dann verwenden wir den
Spielempfehlungsmodus. Und hier verwenden wir
die Beschreibung. Durch die Implementierung eines einzigen Modells in unserer objektbasierten kollaborativen
Filterung haben wir 12. Und hier
verwenden wir AI VCF, okay? Beim kollaborativen
Filtern wurden dem Angreifer Filme
vorgeschlagen
, die auf den kollektiven
Präferenzen vieler anderer
basieren. Das sind Sie nur, mit
Hilfe von Recommenders Lab. Wir können die Ähnlichkeit
zwischen der Eucharistie berechnen. Jetzt
erstellen wir eine
Ähnlichkeitsmetrik und eine Methode, die
wir verwenden, ARCore Und weiter bist du einfach okay. Jetzt werden wir sehen, dass
Ihre bloße Ähnlichkeit das durcheinander
bringt. Nochmals. Es gab nicht genug Platz C. Jetzt siehst du
nur Ähnlichkeiten, du siehst nur deine
Ähnlichkeitsmatrix Ähnlich werden wir tun, wird so aussehen, als ob es mindestens mehrere zwischen den
Filmen gibt, die wir verwenden. Und wir werden das ausführen und
dann das Bild drucken. Nun, Sie können sehen, dass dies die Ähnlichkeit mit
dem Film ist. Nun bewerten wir Werte als Matrixdaten für die Bewertung von
Direktoren, wir werden sehen. Dann werden
die eindeutigen Bewertungen extrahiert. Sie verwenden ein Unikat und benötigen dann die Bewertungswerte. Tabelle der Bewertungen. Erstellen einer Filmbewertung. Und dann sehen wir uns die Tabelle an, um
Werte zu bewerten und zu bewerten. Nun, was wir tun werden. Wir machen die am häufigsten
angesehene Visualisierung. Und dafür werden wir
zwei Filme zeichnen, die Views unterstreichen und Qualcomms Bewertungsmatrix
namens Count verwendet und dann TableViews einen
data.frame-Film Wir nehmen die Namen
der Filmzuschauer und nehmen die Namen aus der
Filmansicht und gehen zu den Filmzuschauern. Hier Datenrahmen der Zukunft
durch diese Tabelle. In ähnlicher Weise wiederholt
sich der TableViews-Index über alle
325 Filme Und das werden wir. Und dann werden wir sehen
, wie die
Tabellenansichten Tabellenansichten laufen. Warten Sie, bis der Vorgang abgeschlossen ist. Also schau jetzt hier, komplette FC hier,
du kannst die
Filmkritiken und den Titel sehen . Als Nächstes stellen wir
fest, dass Sie das Balkendiagramm
oder die Gesamtzahl der
Ansichten der oberen Seite
verwenden . Bisher verwenden wir den GG-Plot, TableViews
und die Ästhetik Wir verwenden Titel und
Ansichten sowie Geom-Leiste,
Geom-Texte und Team und löschen Ich gebe dir den Titel hier. Also ich hoffe, du weißt
all diese Dinge. Ich werde nicht ins Detail gehen. Jetzt können Sie also sehen, dass der
Wald 331 ist. Ihr Klassiker zurück zu
94, Views und Bulk. Okay. Auf diese Weise können wir harte
Zuschauer auf die Rasenfelder bekommen. Total kurbelt die Top-Unternehmen an. Jetzt. Firmen. Okay, jetzt erstellen
wir eine
Heatmap für die Filme. Sehen Sie sich hier die Heatmap mit
den ersten 25,25-Dollar-Spalten an. Okay, als Nächstes werden wir tun. Wir werden mit der
Datenaufbereitung beginnen. Bewertungen von Filmen sind also höher als 50 und der aktuelle
Vertrag wurde verbessert. Dann. Sehen Sie sich die
Filmbewertung für 22 an, für 1.400 im Unterricht Okay? Also diese vielen sind
für mehr als drei da, okay? Jetzt, bei den
relevanten Metriken bewertest du nur 0,9. Also mindestens Filme und mindestens was
Sie sehen werden, wir werden den Inhalt dafür
verwenden. Und dann erstellen wir ein EMS, sehen eine Heatmap von oben, du fügst einfach die Filme hinzu. Als Nächstes müssen wir uns
die Verteilung der
Durchschnittsbewertungen vorstellen , die riesig sind Dafür verwenden wir also die
durchschnittliche Unterstrichbewertung. Und Form bedeutet, dass wir die Bewertung
und
das Testament des Films nicht geplant hatten. Jetzt zeichnen Sie C auf und jetzt erhalten
wir die Verteilung
der Durchschnittsbewertung, aber Sie sind einfach okay, also das ist die Verteilung
der Durchschnittsbewertung, aber Sie sind einfach dann, wir werden das für die
Datennormalisierung verwenden Dazu verwenden wir
unnormalisierte Bewertungen,
normalisierte Funktionsrezensionen
und Bewertungen anderer Filme Dann bedeutet ein Teil der Zeile normalisierte Bewertungen von
mehr als 0,001 Und dann sieh dir diese normalisierte
Bewertung an, die Top-Benutzer. Hier können Sie also sehen, dass
Sie eine Artikelspalte erhalten. Okay, als nächstes die Datenbinarisierung die wir
bereits im Enterotoxin besprochen haben Hier verwenden wir also
Quantile und Zeilenanzahl, Filmbewertung und
dann mehr Base Wash Und dann bewertete Filme, Binärfilme, mehr,
Mindestbewertung drei. Also Mindestbewertung a3. All diese Filme werden bekommen. Also lass uns das ausführen. Siehst du, das sind
die Filme , die eine
Mindestbewertung von drei haben. Jetzt gehen wir zur
kollaborativen Filterung und dabei wird
der Datensatz in
einen Trainingssatz und
20% des Testsatzes aufgeteilt einen Trainingssatz und
20% des Testsatzes Also Beispieldaten, wir haben hier
Ihre Beispielmethode. Und hier was wir gemacht haben, wir haben sogar 80% für
das Training und den Test. Teilen Sie die Daten auf. Jetzt werden wir diese
Trainingsdaten und Testdaten sehen. Und dann erstellen wir mithilfe
eines registrierten Registers für
Empfehlungsgeber eine Empfehlung Und hier werden wir, was wir tun werden, wir erhalten Einträge, Datentypen,
echte Bewertungsmatrix, die wir erstellt haben Und dann verwenden wir das Auge vcf, unterstreichen die reale Matrix
und die Parameter,
und dann
verwendet der Empfehlungsgeber die Empfehlungsanzeigen Und hier werden wir die
Trainingsdatenmethode weitergeben. Wir verwenden IV CF und legen los. Okay, lassen Sie uns
all diese Dinge erledigen. Jetzt haben wir das Empfehlungsmodell für
Empfehlungsgeber. Schon. Führen Sie diese Klasse
von Empfehlungsmodellen aus. Sie können sich das Empfehlungslabor ansehen und jetzt
die Datenwissenschaft und
die Koordinationsmodelle erkunden die Koordinationsmodelle Also lasst uns dieses
Klassenmodell abgeben, Modell und Modell
vergessen. Und für C, D, D, C traf sich danach, danach Klammern und
Patricks nächster ist weg. Diese Top-Artikel. Dies sind die Top-Artikel. Und dann sehen wir eine Heatmap in der ersten
Zeile und in den ersten Spalten von. Wenn Sie dann diese Summe der
Ziehungen ausführen und
einige dieser 30,47,
dann GG-Plot auflisten, sehen wir, dass dies der Qplot und
das Balkendiagramm Sie können die Verteilung der Anzahl der zu empfehlenden
Artikel in der
Spalte sehen . Sie haben gerade weniger als zehn angegeben und empfohlenen Tag
vorhergesagt einen empfohlenen Tag
vorhergesagt. Einige Empfehlungen für den ersten urogenitalen Film:
Ein Film von 1 Bar, einer von zehn Filmen Und dann Empfehlungsmatrix,
Matrix mit der
Empfehlung für einen easyJet-Flug, Freundlichkeitsartikel Und wir schätzen
die Spaltennamen
aus den gelesenen Filmen. Ich werde Artikel kaufen
und dann Dark Title,
Verteilung der Anzahl der IVC nach oben und qplot Anzahl
der Artikel seit t, Verteilung der
Artikelnummern,
Anzahl der Artikel nach BCF und da Vinci, die am besten und qplot Anzahl
der Artikel seit t,
Verteilung der
Artikelnummern,
Anzahl der Artikel
nach BCF und da Vinci,
die am
besten
empfohlenen Filme. Wallace und Gromit, Gott Vater, Sohn sind gestorben und die YuJa auch Auf diese Weise können wir
den empfohlenen
Film für den YuJa bekommen den empfohlenen
Film für den YuJa Ich hoffe, Sie haben
dieses Projekt verstanden. Wenn du irgendwelche Zweifel hast, kannst
du das tun, indem du sie kommentierst, indem du die Frage im Unterricht Danke.
87. Projekt 5 Einführung Erkennung von Kreditkartenbetrug: Hallo und willkommen zurück. Deshalb heiße ich Sie zu
einem weiteren Projekt willkommen , das Projekt Nummer fünf
für diesen Kurs ist. Und das ist die Erkennung von
Kreditkartenbetrug, wenn man nach unserer Programmierung urteilt Und hier werden wir auch einen
Algorithmus für maschinelles Lernen verwenden . Was ist also das Ziel
dieses Projekts? Möglicherweise sind Sie sich des
Online-Betrugs und der Tatsache bewusst, dass heutzutage Daten passieren, als ob der
Notenausweis von
jemandem verwendet wird. Ohne ihr Wissen die sozialen
Medien von
jemandem gehackt. Diese Art von Betrug wird
also online durchgeführt. Die Bankdaten
von jemandem werden gestohlen. Das Bankkonto einer Person
wurde gestohlen und sie haben das Geld
von ihrem Konto abgebucht. In Indien gibt es nur wenige
Vorfälle, bei denen Menschen, ohne zu wissen, dass sie die Erlaubnis
ihres Erziehungsberechtigten gegeben haben oder ihr OTP gerade angerufen wird Ah, der Betrüger sagt
, dass sie von
der Bank aus anrufen und
nach der Debitkartennummer fragen Und dann fragen sie
nach der CBP-Nummer. Und die Leute sagen unwissentlich, schicken alle Informationen und
denken, dass die
Person, die anruft,
von der betreffenden Bank stammt . Und sie legen
nur unsere Daten fest. Und nach diesem OTP ihr
gesamtes Geld von ihrem Bankkonto
abgezogen. Diese Art von Betrug ist also
im Gange und wir müssen
sehr, sehr vorsichtig sein Ein solcher Online-Betrug
ist Kreditkartenbetrug. Nun, die Leute benutzen ihre
Kinder zur Bewährung in Zeichentrickfilmen oder um etwas zu kaufen, oder sie speichern ihre
Kreditkarteninformationen, oder sie sagen, gibt es Kate-Kartennummern und einige sogar Nummern, ohne dass die Leute es wissen und
die Leute benutzen
sie ohne ihr Wissen Und es gibt mehrere Vorfälle , bei denen die Kate-Karte benutzt wird ohne dass
die Kate-Karte beim Impasto
physisch anwesend Dies dient der Erkennung von
Kreditkartenbetrug. Also müssen wir eine sortierte Front machen. Immer wenn eine Notenkarte von jemandem benutzt
wird, weiß
das Unternehmen, dass es sich bei
dieser Transaktion um
eine betrügerische Transaktion handeln könnte ,
und es kann den Kunden
, den Inhaber der Gradekarte,
sofort darüber informieren, dass Sie
diese Art von Tangenten ausführen Und gerade jetzt sagt
der Kunde oder der Inhaber des
Notenausweises:
Nein, nein, das bin nicht ich. Jemand anderes führt
diese Transaktion durch, dann wird sie diese Transaktion sofort
ablehnen. Und auf diese Weise werden wir
die Klassenkarte mehr benutzen und es wird nicht
viel Geld gespart. Ziel dieses Projekts
ist es daher, unseren Klassifikator zu entwickeln, identifiziert werden
können betrügerische
Kreditkartentransaktionen Dafür, was ich getan habe, habe ich Sie, werde
ich
verschiedene Algorithmen für
maschinelles Lernen verwenden ,
wie z. B. einen Entscheidungsbaum, logistische Regression, künstliche neuronale Netzwerke und
letztendlich einen
Gradienten-Boosting-Klassifikator letztendlich einen
Gradienten-Boosting-Klassifikator Also werden wir sehen, welche
Algorithmen wir verwenden können. Und damit können wir klassifizieren, was betrügerisch und
nicht produktiv oder Jacksons Dazu verwenden wir
einen Datensatz, der die Informationen über die Kuchenkarte
und die Art
der
Kreditkartentransaktionen enthält, die bei vorherrschen oder
nicht problematisch Männern mit Training und
moderatem
Levelaufstieg Dann sehen wir uns Datenexploration,
Manipulation, Datenmodellierung, Anpassung des logistischen
Regressionsmodells, Entscheidungsbaum, künstliche neuronale Netze an,
all diese Dinge werden ausreichen Aber vorher müssen wir Betrug und seine Art im Detail
verstehen. Wenn Sie sich also des DOM oder
des
Problems in Ihrer Hand nicht bewusst sind , werden
Sie nicht in der Lage sein, die
richtige Lösung zu finden. Bevor wir also
mit dem Projekt
beginnen, sollten wir wissen, welches Problem wir
zeigen werden. Dafür müssen wir also ein sehr klares Verständnis
davon haben , was jeder Betrug
ist und welche Art von Betrug heutzutage im digitalen
Zeitalter
begangen wird . Okay, also als Erstes, als das Internet noch nicht da war, waren viele unserer digitalen
Transaktionen nicht da. Dann gingen die Leute zur
Bank und nahmen
das Geld, indem sie ein Formular ausfüllten,
und dann das Bankomatkartensystem. Dann fingen die Leute an, die
Geldautomaten zu benutzen, um das Geld abzuheben. Und dann fingen die Leute an, die ATM-Betrügereien zu
begehen, indem sie
einfach den Inhaber der
Bankomatkarte vernarbt manipulierten und einfach das Passwort
von jemandem sahen und die Karte
stahlen und die Karte bei
IPM
mit IPM Also diese Art von
Betrugs-Pullover ist schon früher passiert. Und mit der Zunahme von Davison und Digital Banking werden heutzutage
Online-Betrügereien begangen. Sehr selten stapeln. Was ist also Betrug? Betrug ist definiert als
jede vorsätzliche
Täuschung zum persönlichen
und finanziellen Vorteil Betrug ist definiert als die vorsätzliche
Befolgung von Vorschriften und zum persönlichen
und finanziellen Vorteil Wenn Sie also etwas tun, wenn Sie
dieses Epsilon mit
jemandem zu Ihrem persönlichen oder finanziellen
Vorteil tun , dann wird es als Betrug
eingestuft Es geht darum,
Fett nicht zu präsentieren, zu
verbergen oder zu manipulieren, um
andere zu täuschen Und welche Arten von
Upgrade-Kartenbetrügern passieren heutzutage Also Arten von Kreditkartenbetrug, Identitäts-, Konto-,
Übernahmekarte, nicht anwesend, Betrug und
gefälschte Und dann kommt das Skimming. Also werden wir es eins nach dem anderen verstehen. Was sind diese Arten
von Kartenbetrug? Das allererste
ist also Identitätsdiebstahl. Was ist also Identitätsdiebstahl? Betrug bedeutet einfach,
für Betrüger zu
stehlen, persönliche Informationen
wie Sozialversicherungsnummern oder Anmeldeinformationen zu stehlen, um sich als das Opfer
auszugeben In dieser Situation also diese Tilde, abgesehen von
Informationen wie Quelle, einigen Sicherheitsnummern
oder anderen, unserer Kartennummer oder
gesperrten Kartennummer oder den Anmeldeinformationen
Ihrer Bank Und die Kcat Dunbar geben sich
in einigen Fällen so aus
, als ob sie der wahre Kunde
sind Und dann melden sie sich mit
den Daten an und
verwenden Ihre Bankdaten
, um die Transaktionen durchzuführen. Sie verwenden die gestohlenen
Informationen, um ein
betrügerisches Konto zu eröffnen und
unbefugte Wege einzuschlagen. Mit solchen wie Ihrer
anderen Cardio- oder PAN-Karte können
sie in
Ihrem Namen ein Bankkonto eröffnen und
dann beginnen sie sich für Sie auszugeben und sie werden
die Transaktionen durchführen,
die auf Ihren Namen laufen,
aber Sie sind Das nennt man also
Identitätsdiebstahl. Dann kommt die Kontoübernahme. Die Kontoübernahme
ist eine weitere Art von Betrug, bei der Kriminelle
unbefugten Zugriff auf
ein legitimes Meet-Konto erlangen , indem sie Kontodaten
wie Passwörter oder persönliche
Identifikationsnummern
stehlen wie Passwörter oder persönliche
Identifikationsnummern In diesem Fall hacken sie
einfach Ihr Konto, stehlen Ihr Passwort, Ihren Benutzernamen und Ihr
Passwort und
lassen Ihr Konto übernehmen. Und dann werden sie mit Ihrem Konto
machen, was sie wollen. Sie übernehmen die Kontrolle über Ihr
Konto und verwenden es für betrügerische Aktivitäten
wie
Einkäufe , Kunst und das
Übertragen von Schriftarten. Sobald sie also die
Kontrolle über Ihr Konto haben, können
sie alles tun. Sie können das Geld
von Ihrem Konto auf ein
anderes Konto überweisen von Ihrem Konto auf ein
anderes Konto oder sie können
Dinge online und offline kaufen. Und Sie werden keinen
Zugriff auf Ihr Konto
haben , weil Ihr
Konto übernommen wurde Sie können
auch Ihr Passwort ändern, sodass
Sie sich selbst nicht in Ihr Konto
einloggen können. der dritten Betrugsart handelt es sich Betrug, bei
dem die
Karte nicht anwesend ist. Dieser Betrug tritt auf, wenn betrügerische
Transaktionen getätigt werden ohne dass die Grade-Karte physisch
anwesend ist. Und am häufigsten
sind Online- oder Telefontransaktionen,
bei denen Kartendetails oder manuell eingegebene Betrüger
riesige
Kreditkarteninformationen gestohlen haben, riesige
Kreditkarteninformationen gestohlen haben unbefugte
Einkäufe zu tätigen In diesem Fall
wird die Klassenkarte also nicht physisch anwesend sein, aber was sie tun werden, sie werden dich anrufen und
dich bitten,
einen bestimmten Jackson zu machen und sie werden dich während des Anrufs
nach den Informationen
der Kinderkarte fragen und dann werden
sie nach dem OTP fragen Und sobald Sie
das OTP oder die Tangenten angegeben haben und es abgeschlossen ist und Ihr
Geld weg ist, oder sie kaufen etwas in Ihrem Namen und Ihre Kreditkarte
wird belastet Die nächste Stufe,
gefälschte Karten,
Betrug als einfach gefälschte Grade-Karten erstellen , die einmal
getroffen Also,
was Betrüger bei dieser Art von Betrug tun werden, sie werden ein Fasten erstellen, sie werden einige Informationen
über Ihre Käfigkartennummern erhalten über Ihre Käfigkartennummern Sie werden
all diese Dinge nummerieren. Und sie werden eine
ähnlich aussehende Karte mit
einer ähnlichen Käfigkartennummer
und der CBP-Nummer erstellen , was wir dem Original sehr
legitim erscheinen lassen dem Original sehr
legitim Und dann können sie
die gestohlenen
Kreditkarteninformationen
auf der gefälschten Karte verschlüsseln die gestohlenen
Kreditkarteninformationen auf der gefälschten Und
dann werden gefälschte Karten verwendet, um Einkäufe zu tätigen Oft wissen
Sie ohne das Wissen des
Carter-Karteninhabers möglicherweise nicht, dass Ihre Klassenkarte
gefälscht wurde und dass jemand anderes eine
doppelte Kreditkarte
mit derselben Nummer hat,
die Ihnen zugewiesen
wurde, und diese für betrügerische Transaktionen
verwendet wird für betrügerische Transaktionen
verwendet wird Dies ist also eine andere Art von Kreditkartenbetrug, der heutzutage
stattfindet. Die nächste ist Intrige, ist Skimming beinhaltet,
rechtlich gesehen, tut mir leid, Skimming beinhaltet die
illegale Erfassung von Kreditkarteninformationen ohne Wissen des
Karteninhabers.
Nehmen wir an, Sie geben Ihrem Einkaufswagen und ohne Ihr Wissen,
was sie tun,
notieren sie nur Ihre Kreditkartennummern Wenn wir alle
guten Informationen, das
Ablaufdatum und all diese
Informationen nummerieren Ablaufdatum und all diese
Informationen , wann
sie betrügerische Transaktionen
speichern können . Also, wann immer Sie Ihr Auto über
den Schalter für dy
dx
stellen und
sicherstellen , dass niemand ohne Ihr Wissen Informationen von Ihrer
KD-Karte liest. Und dann haben die Demonstranten,
was wir tun werden, diese Kachel installierte die
betrügerischen Geräte oder Zahlungsterminals oder Geldautomaten um die Kreditkartendaten zu erfassen Kürzlich wurde in Indien im
letzten Monat eine Art
von Betrug festgestellt, dass sie die Lieblingskohle für
die Geldautomaten
verwendeten. Und damit verwendeten sie einige
Techniken, bei
denen Informationen
irgendwie erfasst werden, wenn Sie die Käfigkarte oder
Ihre Kreditkarte
einstecken die Käfigkarte oder
Ihre Kreditkarte
einstecken. Und dann später, wenn Sie von
den Geldautomaten weggehen und sie werden die tragischen Zellen auf Ihrem APM
erledigen Und Sie
wissen vielleicht nicht, dass dies ein Plan für das Servieren war ,
das heutzutage passiert Anschließend verwenden sie die erfassten
Informationen, um gefälschte Karten zu erstellen und die Wahrscheinlichkeit eines Zuges zu
ermitteln Das ist also die Art von Identitätsdiebstahl,
Kontoübernahmekarte, die nicht vorhanden ist, gefälschte Karten
und Skimming oder betrügerische Aktivitäten
werden online durchgeführt Es gibt auch mehr Arten von Betrügereien, zum
Beispiel am Telefon, sie werden so tun, als wären sie
ein Bankangestellter und sie werden Sie nach der Summe fragen,
zum Glück Ihre Kreditkarteninformationen, sind
Ihre Kreditkarteninformationen,
Sozialversicherungsnummern und
Bankkartennummern dunkler Und dann
tun sie so, als würden sie
dir einen Preis oder so geben Sie überweisen etwas
Geld, um dein Konto zu
verwalten, aber tatsächlich werden sie das Geld von
dir
verlangen und dir einen Link
schicken. Und sie wurden gebeten
, auf den Link zu klicken. Wenn Sie auf
den Link klicken, schwieriger, werden
Sie nicht bemerken,
dass Sie aufgestanden sind , um das
Geld zu überweisen. Sie ziehen das Geld
von Ihrem Konto ab und Sie geben einfach
das OTP ein und Ihr Geld
von Ihrem Konto wird
auf das aktuelle Konto überwiesen. Diese Art von
Betrug passiert also und wir
müssen wissen, wie wir sie stoppen können. Und genau das werden wir in diesem Projekt
tun indem wir den
Wachmann Jackson untersuchen. Und damit werden wir
ein Modell entwickeln, das die Art
der Transaktionen erkennt Art
der Transaktionen und die
betrügerischen Aktivitäten unterbindet
88. Bedeutung der Online-Betrugserkennung: Jetzt haben wir einen kurzen
Überblick darüber, was
Betrug ist und welche Art von
Betrug heutzutage stattfindet Jetzt müssen wir auch
verstehen, warum Plot erkennt
und das ist wichtig. Betrugserkennung ist also wichtig, das heißt natürlich , um
finanzielle Verluste zu verhindern. Aber es gibt auch eine andere
Region, es gibt noch ein paar andere Gründe, warum sie
ebenfalls angegriffen wurden , und das
werden wir verstehen Die Bedeutung der
Betrugserkennung. Es gibt drei wichtige wichtige Betrugserkennung
, die nach eigenen Angaben vorhanden sind. Und das eine ist die Vermeidung von finanziellen
Verlusten. Die zweite betrifft
Produkte und Kunden. Und drittens ist die
Aufrechterhaltung des Vertrauens. Und diese drei
Parameter sind für jedes Bank-
oder Finanzinstitut
sehr, sehr wichtig. Denn wenn Sie den finanziellen
Verlust pro Taxon nicht ausgleichen, wird der Kunde
Ihres Kunden
nicht bei Ihnen bleiben Wenn Sie
die Kundeninteressen nicht schützen, dann sind
Sie wahrscheinlich auch nicht länger bei Ihnen. Und wenn Sie dies versäumen, bereiten Sie vor, verhindern Sie finanzielle Verluste und beenden Sie die Produkte Und unsere Frage
war Information, dann verlieren Sie offensichtlich
das Vertrauen des Kunden. Daher
ist es auch wichtig, das Vertrauen aufrechtzuerhalten. Diese drei Dinge
sind also sehr wichtig. Als Erstes verstehen wir also, wir diese Vermeidung von
finanziellen Verlusten verstehen werden. Der Betrug kann zu
erheblichen finanziellen
Verlusten für Einzelpersonen, Unternehmen und auch für
Finanzinstitute führen. Betrugserkennung hilft dabei,
betrügerische Aktivitäten zu
erkennen und zu verhindern , wodurch
diese Schwangerschaftsverluste minimiert Das allererste Ziel
für das Produkt Axon
ist es also , ihn zu verhindern, den finanziellen Verlust, den das Individuum Leute wie Sie und ich,
für die Unternehmen, die Menschen, die Geschäfte
machen, und die
Finanzinstitute selbst. Zum Beispiel, wenn jemand
kommt und er
die Bank hat , das Bankkonto selbst. Und dann
kann er, der Vollstrecker, das tun, der Hacker kann jede Transaktion mit
jedem
Bankkunden durchführen, oder? jedem
Bankkunden durchführen, Also, um auch ihr
Konto zu schützen, ist
es wichtig, okay? Ausgefallene Verlustprävention ist also
eine so wichtige Sache. Die zweite ist der Schutz,
schützt genügend Kunden. Betrug kann zu
Identitätsdiebstahl,
unbefugten Transaktionen
und anderen
finanziellen Schäden für Kunden führen Identitätsdiebstahl,
unbefugten Transaktionen . Betrug
wird aufgedeckt und verhindert und der Schutz der finanziellen Vermögenswerte
und der persönlichen Zustimmung
der Kunden wird versiegelt finanziellen Vermögenswerte
und der persönlichen Zustimmung
der Kunden Also schützt und ein
Fragezeichen hier. Das bedeutet, dass wir
entweder ein Bankinstitut haben müssen, wenn es eine Bank gibt, sind
andere
Finanzinstitute da. Ihre
Hauptverantwortung besteht darin, die Kundeninformationen
sicher und vertraulich zu behandeln. Um sicherzustellen, dass sie die wichtigsten Maßnahmen zur
Betrugserkennung implementieren
müssen ,
damit Kunden, finanzielle Vermögenswerte und
persönliche Daten sicher sind Die dritte ist die Aufrechterhaltung des Vertrauens. Vertrauen ist auch sehr
wichtig, wenn Ihre Bank, Ihr Bankinstitut und ständig
betrügerische Aktivitäten auf den Kegeln betrieben
werden. Dann
verlieren die Kunden das Vertrauen in Sie und
suchen dann nach einer anderen Bank. Betrug untergräbt das Vertrauen in das
Finanzsystem durch Aktivitäten,
Aktivitäten, die Aufdeckung
und Bekämpfung von Betrug Finanzinstitute
und Venus
können das Vertrauen aufrechterhalten, das ihre Kunden und
Stakeholder unterstützen. Einmalig. Nehmen wir an, Sie
sind eine Bank, X, Y ,
J und einer Ihrer
Notenkarteninhaber.
Der Kunde erhält eine
Benachrichtigung, wenn jemand versucht, etwas
Unbefugtes zu tun, was Exelon,
seine oder ihre Notenkarte, angreift seine oder ihre Notenkarte Und bevor Sie
diese Transaktion bestätigen, rufen
Sie einfach den Kunden an
und sagen: Hey, das gibt es, es gibt eine Arc-Tangenten und 99$ werden
auf Ihrer KD-Karte Ägypten, das du auf
dieser speziellen Website machst. Und wenn der Kunde
sofort Nein, nein,
nein ,
das mache ich nicht, hören Sie bitte auf. Und wenn Sie
diese Transaktion blockiert
haben, lehnen Sie diese Transaktion ab. Und auf diese Weise haben Sie 99$ für Ihren Kunden
gespart. Und das wird
sicherlich das Vertrauen erhöhen
, das diese sicherlich das Vertrauen erhöhen Person dem
Kunden entgegenbringt, in Ihre Institution, und er wird
Ihr Lehrmittel mit Sicherheit weiterempfehlen Andere auch, weil
er weiß, dass Sie gerade 99$ gespart
haben. Auf diese Weise werden
die Gehälter
zur Betrugserkennung über die Unternehmen an die Finanzinstitute weitergegeben. Das wird den Absturz
auch für Ihre Kunden verbessern. Lassen Sie uns nun verstehen, welche statistischen
Daten über den Betrug
vorliegen, welche Art von Betrug stattfindet
und wie viel
der Betrug die Unternehmen
und Kunden kostet globale Laut einem Bericht der Association of
Certified Fraud Examiners ist
ECF Free also eine Globale Unternehmen
verlieren schätzungsweise 5% des
Jahresumsatzes durch Betrug. Sehen Sie, globale Organisationen
und die
großen multinationalen Unternehmen verlieren 5%
ihres Jahresumsatzes,
was für die breit angelegten Aktivitäten ein sehr,
sehr großer Betrag sein
könnte breit angelegten Aktivitäten ein sehr,
sehr großer Betrag sein Und das bedeutet, dass jedes Jahr
Billionen von Dollar
verloren gehen Wenn Sie also
die wichtigsten Methoden zur Betrugserkennung
mithilfe von künstlicher Intelligenz
und maschinellem Lernen implementieren die wichtigsten Methoden zur Betrugserkennung , können
Sie
diese Billionen von Dollar
für Ihre Kunden sparen diese Billionen von Dollar
für Ihre Der zweite ist
Arcade-Kartenbetrug. diesem Bericht von Nielsen heißt es, dass weltweiten Verluste aufgrund des
Kreditkartenbetrugs im
Jahr 2020
27.000.000.000 USD überstiegen haben, was ein riesiger, riesiger Betrag ist, und dieser
Grad Kartenbetrug,
eine der häufigsten Betrugsarten, ist nichts
wert eine Angesichts der weit verbreiteten
riesigen Upgrade-Karte. Das ist eine Sicherung. Die Anschlüsse für Handelskarten sind
sehr gut verschlossen. Und Sie können die Statistik C0 sehen, 27 Milliarden $ im Jahr 2020
Und jetzt sind wir im Es hätte also mit der zunehmenden Digitalisierung
verdoppelt werden können, wie in
Indien in
den letzten 34 Jahren,
wo alles digital wurde und
Gase nur noch sehr wenig verbraucht wurden. In diesem Fall hätte
es also auch um eine Erhöhung des
Fußabdrucks oder um eine Milliarde Dollar gehen Daher ist die Implementierung der
Kreditkartenerkennung
sehr, sehr wichtig. Der nächste ist Identitätsdiebstahl. Allein in den Vereinigten Staaten erhielt die
Federal Trade Commission und die
FTC im Jahr 2020 über 1,4 Millionen Berichte über den
Identitätstyp Dies unterstreicht
die Prävalenz
der Auswirkungen von Identitätsdiebstahl
, der häufig
zu Finanzbetrug führt Dann Online-Betrug,
mit der zunehmenden zunehmenden Akzeptanz von E-Commerce und
Online-Transaktionen, Online-Betrug zu einem
erheblichen Problem geworden. Der LexisNexis, diese
Lösung enthält 20 wahre
Produktkosten, hat ergeben dass jeder 1$ betrügerischer
Transaktionen Zeugen
3,36$ kostet , weil es zu
Rückbuchungen kommt und Mark und
Würfel verloren gehen Das ist also die Wirkung. Unternehmen verlieren 1$. Es ist nicht so, dass
sie 1$ verlieren, aber laut diesem Bericht
wird es sie indirekt 3,3,
6$ kosten laut diesem Bericht
wird es sie indirekt 3,3,
6$ Und sie sagten, dass
diese Statistiken aufgrund
der Rückbuchungen, Gebühren und der verlorenen Waren die Dringlichkeit und Bedeutung der Umsetzung
wirksamer
Maßnahmen zur Betrugserkennung
unterstreichen , um
die finanziellen
und möglichen Risiken im Zusammenhang mit Betrug zu mindern möglichen Risiken im Und damit ist das Wissen über den Betrug Art und Sterne, welche Auswirkungen es je nach
Finanzinstituten hat, auf die Kunden, einzelne Kunden und Finanzinstitute
und Schwächen. Jetzt sind wir bereit, mit unseren Projekten
fortzufahren. In der nächsten Vorlesung werden
wir also mit der Erstellung
der
Excel-Projektseite für Datumskartenprodukte beginnen . Die nächste Vorlesung
89. Umgang mit unausgeglichenem Datensatz: Bevor wir also mit dem Schreiben
des Codes für das Projekt beginnen, lassen Sie uns einige weitere Dinge
über die Betrugserkennung verstehen . Und das ist wichtig, um das Projekt als Versuch durchzuführen, bevor das Projekt
gestartet wird. Einschließlich des theoretischen Teils , der sehr wichtig ist, um Ihr Lernen zu
verbessern. In dieser Vorlesung werden
wir also verstehen, welche Herausforderungen mit den von uns möglicherweise erstellten Modellen
zur Betrugserkennung
verbunden
sind mit den von uns möglicherweise erstellten Modellen
zur Betrugserkennung
verbunden und
wie diese bewältigt werden können. Also lass uns anfangen. Herausforderungen im Zusammenhang mit
den Modellen zur Betrugserkennung. Es gibt also einige Herausforderungen wenn wir unsere Modelle zur Table Up oder Betrugserkennung ausarbeiten. Und eines der sehr
wichtigen sind sehr, das kommt sehr häufig vor. Das heißt, unausgeglichene Datensätze. Also unausgewogener Datensatz
oder die Datensätze. Nehmen wir an,
Sie Betrugserkennung für
Kd-Karten durch und wissen, dass Betrugsaktivitäten bei
Arcade-Karten sehr
gering sind,
um 0,1% oder 0,001% Es besteht die Möglichkeit, dass eine Kreditkartenaktivität oder Transaktion
betrügerisch ist. Also, wenn wir den Datensatz haben, der
die meisten Transaktionen für unsere vier Autos
auf der ganzen Welt enthält. Lassen wir ihn Teamkollege eines der wenigen
Seen in einem Lakh, 1 Million Patronen
x und es wird einige hundert Transaktionen
geben,
die betrügerisch sein werden Wenn wir also den Datensatz sammeln, werden die meisten der 99% des Datensatzes
die
legitimen Transaktionszellen enthalten, nur wenige davon
werden Betrug sein Wenn wir also ein Modell erstellen, werden unsere Modelle immer von der Mehrheit
bevorzugt. In diesem Fall wird es also, es wird immer, welche
Transaktion auch immer stattfinden wird, als legitim auslösen weil die betrügerischen
Transaktionen sehr gering sind, unsere Modelle werden nicht
viel über das Produkt lernen. Jacksons und weil der
Datensatz zu 99% die
legitimen Transaktionen enthält, wird
er immer der
legitimen Transaktion den Vorzug geben. Es wird also nicht sehr selten ausgelöst
, sondern es
löst betrügerische Aktivitäten aus. Daher ist
ein unausgewogener Datensatz eine der Herausforderungen im Zusammenhang mit unserem Modell zur
Betrugserkennung Betrügerische Transaktionen
sind
im Vergleich zu legitimen
Transaktionen relativ selten . Also der erschütternde,
unausgewogene Datensatz,
die Mehrheit, die Jackson
angeblich erreicht hat, obwohl nur ein kleiner Teil der Transaktionen betrügerisch Dieses Klassenungleichgewicht
stellt die Klassenkameraden betrügerische und
legitime Transaktion Dieses Klassenungleichgewicht
stellt die
Schulungsmodelle also vor Herausforderungen , da sie möglicherweise gegenüber
der Mehrheitsschicht voreingenommen werden,
was zu schlechter Arbeit bei der Erkennung
eingerichteter Produktinstanzen führen Jetzt haben wir verstanden,
was dieses E ist, also dieses zwei bezieht sich darauf der Großteil des
Datensatzes
die legitimen
Transaktionen enthalten wird , da betrügerische Transaktionen sehr selten
sind. Also. Dies wird dazu führen, dass nach
unserem Modell genügend betrügerische
Fälle erforderlich sind. Ein weiteres Problem sind adaptive
Betrugstechniken, mit denen wir ihre Techniken
ständig weiterentwickeln können, um die
Erkennungssysteme zu bisphosphat Was auch immer das Erkennungssystem sein mag, die Art und
Weise, wie wir die Betrüger sind einen Schritt voraus und sie werden entwickeln,
sind einen Schritt voraus und sie werden
ihre Techniken weiterentwickeln , um
dieses Erkennungssystem zu umgehen Sie übernehmen ihre Methoden, wodurch sie schwerer zu identifizieren sind. Verwendung traditioneller regelbasierter Regeln. Unsere musterbasierten Ansätze. Gemäß den geltenden Vorschriften müssen
Betrugsbekämpfungsmodelle regelmäßig angewendet werden , um mit
der zunehmenden Unterstützung von
Betrugsmustern Schritt zu halten . Sie haben Deb Love mit einem
regelbasierten Ansatz oder einem musterbasierten Und wir haben eines
für das Erkennungssystem entwickelt. Und du aktualisierst es nicht. Aber im Laufe der Zeit die Demonstranten studieren, sie werden Techniken entwickeln und
sie
werden einfach falsche
Erkennungssysteme einrichten und sie werden anfangen,
betrügerische Aktivitäten durchzuführen Deshalb ist es sehr wichtig,
die Techniken anzuwenden und
Ihre Modelle alle paar
Monate zu verbessern , damit Sie,
ich, der Leiter der Demonstranten sein werden ich, der Leiter der Demonstranten Das nächste Problem ist das
sich entwickelnde Betrugsmuster. Betrugsmuster
sind also nicht begrenzt. Unterstützung. Sie haben
einen Datensatz, in dem Sie ein
Modell entwickeln, und es gibt nur wenige Muster, die
Sie erkannt
haben und es hat einen Mechanismus
entwickelt,
um
einen betrügerischen Schlagstock zu identifizieren und auszulösen , während
Nixon weitermacht Aber was wird passieren
, das Betrüger neu erfinden oder sie werden immer neue Muster erfinden, die nicht
im Datensatz enthalten sind Und aus diesem Grund sind
unsere Models nicht
darauf geschult. Wenn unser Modell also nicht
aktiviert ist , erkennt es dieses Muster nicht und es
wird dazu führen
, dass legale , legitime
und betrügerische Aktivitäten
von
Azure nicht erkannt werden Also sich entwickelndes Spannungsmuster. Eine weitere Herausforderung
bei der Betrugserkennung. Betrugsmuster ändern sich im Laufe der Zeit, was es für
Betrugserkennungsmodelle schwierig macht , neue und neue
Betrugstechniken zu erkennen. Modelle müssen in der Lage sein,
unbekannte oder bisher
unbekannte Betrugsmuster zu erkennen unbekannte oder bisher
unbekannte Betrugsmuster ohne sich ausschließlich
auf historische Daten verlassen zu müssen Wir müssen unser Modell also so gestalten , dass es
eine betrügerische Transaktion erkennen kann, auch wenn sie
nicht an
diesem Fuß stattgefunden hat und noch nie zuvor stattgefunden hat oder es sich nicht um historische Daten handelt Es sollte also auch
das neue Muster erkennen. Das ist also eine weitere
Problemherausforderung , die von den Systemen zur
Betrugserkennung genutzt wird. Skalierbarkeit und Verarbeitung
in Echtzeit sind eine weitere große Herausforderung
bei der Betrugserkennung groß angelegte
Finanzsystem verarbeitet die gesamte Anzahl von
Transaktionen in Echtzeit. Modelle zur Betrugserkennung müssen
große Datenmengen
effizient verarbeiten und
Echtzeitanalysen bereitstellen , um
betrügerische Aktivitäten
wirklich schnell zu erkennen . Dies erfordert eine robuste
Infrastruktur und optimierte Algorithmen, um
Skalierbarkeit und
Echtzeitverarbeitung zu gewährleisten Skalierbarkeit und
Echtzeitverarbeitung Dies ist also eine weitere sehr wichtige
und sehr große Herausforderung, Skalierbarkeit und
Echtzeitverarbeitung Dort werden die Daten abgefragt. Wenn wir
eine betrügerische Transaktion erkennen möchten und Sie möchten , dass Sie
nur wenige Sekunden Zeit haben, stehen
sechs bis 8 s Zeit zur Verfügung, um die betrügerische Transaktion
zu erkennen, auszulösen und zu identifizieren. Wenn Sie diesen Zeitrahmen, also
sechs bis 8 s, verpassen ,
vergeht er. Die zeitgesteuerte
Echtzeitverarbeitung ist also sehr, sehr wichtig und dies
sollte sehr schnell erfolgen Das ist also eine andere Sache. Dann
erfordert Feature Engineering, das bei
der Entwicklung eines effektiven Systemmodells
zur Betrugserkennung effektiven Systemmodells
zur Betrugserkennung eine wichtige Rolle spielt, Fachwissen und
Feature-Engineering Identifizierung relevanter Funktionen zur Erkennung von Betrug. Betrug oder elektrische Muster sind für eine genaue Erkennung von
entscheidender Bedeutung. Die Auswahl der richtigen Funktionen und
die Erstellung
aussagekräftiger Darstellungen
von Daten können jedoch eine
Herausforderung sein und erfordern Fachkenntnisse
und sind sehr aktiv. Ich habe versucht,
Datenschutz, ständige Betrugsbekämpfung,
Aufdeckung, die Verarbeitung
sensibler Kundendaten Lesen von Datenschutzbedenken Es ist wichtig, die
Einhaltung der Vorschriften
sicherzustellen und die
Datensicherheit während
des gesamten
Betrugserkennungsprozesses zu gewährleisten Datensicherheit während
des gesamten . In der nächsten Zelle dieser falsch positiven
und falsch-negativen Felder finden Sie das richtige Gleichgewicht zwischen der Minimierung falsch positiver Ergebnisse, der Kennzeichnung legitimer Transaktionen, betrügerischen
und falsch negativen betrügerischen Transaktionen
, die miteinander verknüpft und Und die als
legitime Transaktion ausgelöste Transaktion
ist eine Herausforderung. Eine hohe Falsch-Positiv-Rate
kann dem Kunden Unannehmlichkeiten bereiten, während eine hohe Falsch-Negativ-Rate zu finanziellen Verlusten führen
kann Feinabstimmung der
Modellparameter. Und es ist immer notwendig, die Leistung zu
optimieren. Was ist also falsch positiv? Falsch positiv bedeutet, dass
legitime Transaktionen als betrügerisch gekennzeichnet
werden Was wird also
in diesem Fall passieren? Unterstützung für Benutzer, die seine eigene Kreditkarte verwendet
und eine Transaktion durchgeführt haben Was Ihr Modell
auslösen wird, ist ein betrügerischer Azure-Betrug. Und Sie rufen sofort
diesen Kunden an und sagen, dass Sie auf
Ihrer Kreditkarte
einige Vaterlandsprojekte durchführen und dass sie durchgeführt werden Was passiert also
, wenn dieser Kunde, er
selbst, das tut,
Transaktionen tätigt und er
irritiert wird , weil er
Tangenten hat und gestoppt In diesem Fall führen falsch positive Ergebnisse zu erheblichen Unannehmlichkeiten
für den Kunden Und wenn es
immer wieder passiert, wird
es den Kunden sehr
irritieren In ähnlicher Weise können die positiven und
falschen negativen Fehler auch
zur Finanzierung führen Wenn eine betrügerische
Transaktion übersehen wird und sie das System
durchläuft, führt Gordon
zu finanziellen Verlusten. Der Vorstand, wir
müssen
falsch negativ und
falsch positiv
abwägen falsch negativ und
falsch positiv , sodass
diese beiden Fälle nur sehr selten
vorkommen. Inter, intermittiertes
Können und Erklärbarkeit. Moderne
Techniken des maschinellen Lernens wie Deep Learning können
hochgenaue Modelle zur
Betrugserkennung liefern . Sie sind jedoch oft
nicht interpretierbar,
was es schwierig macht, die Gründe für die Entscheidungen des
Modells zu erklären die Gründe für die Entscheidungen des
Modells Die Fähigkeit, Modellergebnisse zu interpretieren
und zu erklären,
ist entscheidend, um
Vertrauen und Akzeptanz bei den
Stakeholdern zu gewinnen . diese
Herausforderungen zu bewältigen, ist
eine Kombination aus fortschrittlichen
Modellierungstechniken,
kontinuierlicher Überwachung,
Fachwissen und
der
Zusammenarbeit zwischen Datenwissenschaftlern,
Unleashed und
Fachexperten erforderlich eine Kombination aus fortschrittlichen
Modellierungstechniken, kontinuierlicher Überwachung,
Fachwissen und
der
Zusammenarbeit zwischen Datenwissenschaftlern, , um
eine robuste und anpassungsfähige
Betrugserkennung von Sonnenfischhalden zu entwickeln eine robuste und anpassungsfähige
Betrugserkennung Okay, jetzt werden wir
einige Techniken besprechen , mit denen wir mit dem
unausgewogenen Datensatz umgehen Denn in unserem Projekt werden
wir einen Datensatz oder eine
Kreditkartentransaktion
verwenden,
die ihrer Natur nach einen Datensatz oder eine
Kreditkartentransaktion
verwenden unausgewogen sind, weil die
meisten Transaktionen
bei etwa 98,
99%
liegen. Tange-Exzellenz ist die
meisten Transaktionen
bei etwa 98,
99%
liegen . Tange-Exzellenz genauso legitim und ein Blatt
1% und die Exons sind da,
was
den betrügerischen Umgang mit
unausgewogenen Datensätzen auslösen wird betrügerischen Umgang mit Der Umgang mit unausgewogenen
Datensätzen ist ein entscheidender Schritt bei der Entwicklung effektiver Modelle zur
Betrugserkennung. Hier sind einige Techniken, die
häufig verwendet werden, um die Herausforderungen
zu
bewältigen, die sich aus unausgewogenen Datensätzen Die erste Technik ist diese Probenahmetechnik, die
erneute Probenahme mit Wasser Wir nehmen Stichproben, wir
haben, wir haben zwei. Wir müssen das neu berechnen, damit
das Ungleichgewicht im
Datensatz behoben werden kann Und beim
Resampling gibt es auch
einige Techniken , die wir anwenden können Die erste ist die Unterabtastung. Bei der Unterstichprobe werden nach dem Zufallsprinzip Instanzen
aus der Mehrheitsklasse
entfernt , um den Datensatz auszugleichen Dies verringert die Dominanz
der Mehrheitsklasse, kann
jedoch zum Verlust
wertvoller Informationen führen Wenn wir also weiterhin nach dem
Zufallsprinzip die Mehrheitsklasse entfernen, kann
dies auch zum Verlust
wertvoller Informationen führen, aber das
wird auch getan. Okay? nächste Schritt besteht darin,
diese Checklisten zu überlisten,
indem synthetische Instanzen
von Minderheitenklassen
erstellt werden , um den Datensatz auszubalancieren Der nächste Schritt besteht darin,
diese Checklisten zu überlisten,
indem synthetische Instanzen
von Minderheitenklassen
erstellt werden, um den Datensatz auszubalancieren. In diesem Fall füllen
wir den Datensatz mit
der Minderheitenklasse. Dies kann
durch Techniken wie Random Oversampling oder das
Minority-Oversampling-Verfahren mit
intelligenten synthetischen Modellen Intelligentes Oversampling erhöht
die Repräsentanz
der Minderheitenklasse, kann
aber zu einer Überanpassung führen Das führte also zum
Problem der Überanpassung. Hybrid-Modell. Diese Modelle kombinierten
sowohl Oversampling- Undersampling-Techniken, um den Datensatz effektiv auszugleichen Als nächstes folgen algorithmische
Techniken. Die erste ist
kostensensitives Lernen als n. Dann beide Methoden, Anomalieerkennung ist
eine weitere Technik, Bewertungsmetriken und
die Einbeziehung aller dieser Techniken, mit denen wir uns mit dem unausgewogenen Datensatz befassen werden In unserem Projekt werden
wir uns also
mit diesem unausgewogenen Datensatz befassen , bei dem wir eine Überstichprobe
unseres Datensatzes
mit einer
dopaminergen Wolke
durchführen, bei unseres Datensatzes
mit einer
dopaminergen Wolke der es sich um betrügerische Aktivitäten handelt. Wir sehen uns also in
der nächsten Vorlesung.
90. Betrugserkennung ohne Model: Hallo und willkommen zurück. Also lasst uns
mit dem Projekt beginnen. Hier verwende ich also eine
Kreditkarten-Punkt-CSV-Datei, die die Details zu
Kreditkartentransaktionen enthält. Okay, also wir, der erste Schritt besteht
darin, diese CSV-Datei zu lesen. zu tun,
also um das zu tun, was ich verliere, verliere ich die
CSV-Funktion vor der Tür und übergebe den Pfad für die
CSV-Datei und den TSV-Dateinamen. Also den dreckigsten rotieren
wir
und dann
speichere ich ihn darin und dann
speichere ich Notenblatt variabel. Es ist so wichtig, dass es so ist, denn
weißt du es? Sehr gut. Bisher
besteht der Schritt darin, dies auszuführen. Jetzt haben wir die
Notenkartendetails in dieser Notenkarte, okay, in dieser Variablen. Also wenn du darauf klickst, siehst du hier,
dass es
hier ein paar Spalten
mal V1, V2, V3 Und diese V1, V2, V3 werden 20. sein Und dann ist die Spalte Menge, und dann ist eine weitere Spalte Glas. Sie möchten also 28 Jahre alt sein und dann Zeitstempel und dann Betrag und
Klassenspalte Also, was sind diese Kolumnen? , Zeitstempel und diese V1,
V2 bis V 28, Arthur
Jackson-Kartentransaktionsdetails der Benutzer Und warum ist das so,
weil dies nicht die eigentlichen Transaktionen
für die Säkularitätsregion Und um die Informationen
der riesigen
Arcade-Karteninformationen sicher zu verwahren . Mit dem PCM. haben wir. Diese Spalten sind die reduzierte Version
der tatsächlichen Daten, um den
Benutzerinformationssektor beizubehalten. Und dafür
verwenden wir BCM und wir verwenden
Diamantenmodalität, um es auf dieses Formular zu
reduzieren
, sodass der Richter
Informationen
Ihr ablehnen wird Es gibt einen Betrag und dann
gibt es eine Klasse Klassen sind für
Euro die präsentierten
Hauptbuchtransaktionen und
eine für betrügerische Transaktionen präsentierten
Hauptbuchtransaktionen und
eine Das ist also die Datensatz-Reha, und wir werden uns an
diesem Datensatz orientieren Als Nächstes sehen
wir uns die Struktur
des Datensatzes an. Und dafür verwenden wir die STR-Funktion und
übergeben diese Kartenvariable. Und wenn wir das ausführen, werden
wir, wir werden ihnen geben, das wird das Ergebnis liefern. Läuft immer noch. Beginnen Sie mit der
Struktur der Daten. Okay? Als Nächstes ist
dies die Struktur
des Dataset-Zeitstempels Hier können Sie also sehen, dass alle
Spalten numerisch sind. Und unter diesen Zahlen
und dem Glas hier, das hier ist
, ist es
numerisch GTO eins Aber eigentlich sind das
keine numerischen Daten, sondern so sei es, es sind
kategorische Daten, oder? Weil es so ist, ist der
entscheidende Faktor für den Euro das
Legitime und 1 "weiter Eine davon ist für betrügerische
Transaktionen also das wäre im
kategorischen Format Was wir also tun müssen, wir müssen das
zum Faktor machen. Wir müssen diese
Ganzzahl in den Faktor umrechnen. Und dafür werde ich den Kreditkartendollar verwenden,
Dollar, Klassenkameraden, wir
werden diesen Kurs verwenden Okay? Diese Kolumne. Okay, kannst du lesen, dass der
Dollar-Call
Kurs uns zu dieser Farbe führt. Und dann verwenden wir
die Faktorfunktion , um dies in den Faktor umzuwandeln. Und dann geben
wir hier wieder Kreditkarten-Dollar-Klassen und dann Kommastufen Du kannst 01 sehen. Wir weisen also G21-Faktoren zu. Dies zu diesem. Auf diese Weise
wird es in die umgewandelt, konvertieren Sie es in die Faktoren. Also früher war es Integer Nun, wenn wir die
Struktur des Datensatzes sehen, wenn ich das noch einmal durchführe, können Sie hier sehen, dass alle
anderen Spalten nomadisch sind und das Glas kein Faktor
mit zwei Ebenen ist. 01. Okay? Nun haben wir
die Glassäule
erfolgreich in zwei wertvolle
Faktoren umgewandelt . Okay? Jetzt
sehen wir uns noch einmal die Struktur des Datensatzes an und
beachten den Brillenfaktor. Als Nächstes wird
nach dem fehlenden Wert gesucht. Wann immer wir unseren Datensatz erhalten, überprüfen wir als Erstes, ob Nullwerte vorliegen. Wenn es keine Werte gibt, müssen
wir sie angehen. Wir müssen mit den
Nullwerten umgehen, indem wir einige Verlierer die Säulen und Stockwerke
entfernen, die mehr
Nullwerte enthalten Es gibt also einige Techniken , die wir anwenden, um mit fehlenden Werten
umzugehen. Und hier, um die
fehlenden Werte zu überprüfen, die wir verwenden, ist Dark any und
den Datensatz zu analysieren Und Daumen weg ist
ein A gibt uns die Gesamtzahl der fehlenden
Werte im Datensatz. Ein Teil von ist dunkles NA, und dann wird die
Datensatzvariable hier übergeben. Also lass uns, lass mich das erledigen. Jetzt geht es auf Null. Das bedeutet, dass unser
Datensatz
keine fehlenden Werte enthält , sodass fehlende Werte
ignoriert werden. Darüber müssen wir uns also
keine Sorgen machen. Dafür müssen wir
nichts tun. Als Nächstes wird
die Verteilung von Betrug und legitimen Transaktionen
im Datensatz ermittelt Dafür verwenden
wir nun die
Tabellenfunktion und übergeben die Glasspalte, verwenden
wir nun die
Tabellenfunktion und übergeben die weil
die
Klassenspalte der
Verteilungsfaktor ist, der zeigt
, welche Transaktion
betrügerisch und welche legitim
ist Also Kreditkarte, Dollar,
Unterricht und Tische. Dies gibt uns also die Anzahl
der Transaktionen und die Anzahl
der betrügerischen Transaktionen. Null ist also 28.004, also
84 mal Drei, die wir erhalten ist die
Hauptbuchtransaktion, ein Lift
492 oder die betrügerischen 492 oder die Also hier mit dieser Woche,
Glücksspiel, wissen, dass dies
der unausgeglichene Datensatz ist ,
weil der Großteil des Datensatzes, jeder hat seine Tangenten und
agile legit Transaktion
und einsame zweibeinige 34.300.492 als
betrügerische Transaktion, was sehr weniger ist im Vergleich zur Hauptbuchtransaktion jeder hat seine Tangenten und
agile legit Transaktion
und einsame zweibeinige
34.300.492 als
betrügerische Transaktion, was sehr weniger ist im Vergleich zur Hauptbuchtransaktion. Das ist also eine Art von
unausgewogenem Datensatz. Jetzt werden wir sehen, wie
hoch
der Prozentsatz legitimer und für den Berliner Datensatz betrügerischer Transaktionen
im Datensatz Um das zu tun, verwenden
wir die Funktion prop dot
table Und wir werden diese Tabelle bestehen und wir werden
diesen Spaltenkurs bestehen. Okay? Also lass mich sehen. Deine 99,8% sind die betrügerische, sorry, später Angie, Hervorragend 0,017% sind betrügerische
Transaktionen. Also als Nächstes,
lassen Sie mich das
in die Kreisdiagramme eintragen. Um also ein Kreisdiagramm zu
erstellen, erstellen wir
zuerst eine Logik und produzieren hier
zwei Vektoren. Und dann
weisen wir es Ebenen zu, und dann erstellen wir
ein weiteres Level. Und wir verwenden die
Einfügefunktion, die auf diesen Labels basiert. Also nehmen wir die Level,
das ist echt, und dann
verwenden wir die runden hundert
in die Requisitentabelle. Dies gibt uns
den Prozentsatz des Prozentsatzes der legitimen
und betrügerischen Transaktionen Und hier Komma zwei und wir sind gegangen,
weil ich das hier haben will, es sind viele Ziffern
nach dem Dezimalzeichen Ich möchte
es auf die Ziffer und
dann auf Stufen, Stufen
und Prozentsätze beschränken . Und dann verwenden wir die
Pipe-Funktion. Hier. Sie geben die Tabelle K plus diesen Spaltennamen weiter, auf dem ich die ICE-Tabelle aufzeichnen
möchte , und kennzeichnen das
dann als
legitim und betrügerisch Und dann Spalte A Collapse oder jede Farbe
hat ein grünes Android. Der grünliche Teil, die Leptonen
ausgezeichnet weiter lesen,
betrügerisch und
schaffen gleich Pi betrügerisch und
schaffen gleich Dies wird die Überschrift
für unser Kreisdiagramm sein. Lassen Sie mich das alles zusammen erledigen. Und er hatte hier wirklich nach Diagramm
gemacht, legitime Transaktion in 99,83
und betrügerisch und Wein 17. Lass uns das noch einmal ausführen. Hier. Das Kreisdiagramm ist Ihr Hauptbuch und seine
99,83 und das sind drei, alles wird grün. Und der rote ist für
nur 0,17% weniger bereit. Dies ist also ein wirklich
unausgewogener Datensatz. Nun, was ich tun werde, ich werde einfach versuchen,
mit einem normalen Modell vorherzusagen werde keinen Algorithmus für
maschinelles Lernen verwenden und religiöse versuchen,
ohne Flasche vorherzusagen. Für das X- und Y-Label und trotzdem für eine riesige Wiederholung
oder Funktion werden sie in GTO integriert Also was mache ich und
rudere mit Kreditkarte. In unserem Datensatz für
alle Zeilen ergibt der ROI also alle Zeilen ergibt der ROI diese Zahl, die sich dem Kate-Kartendatensatz nähert
. Und für alle wiederholt
die Rakete Null, sie füllt Nullen aus Das gesamte Projekt
wird also zu einer
Hauptbuchtransaktion werden Und dann verwenden wir den Faktor
Vorhersagesinn und die
Stufen G, Zeile eins. Und dann lass mich das erledigen. Okay? Und wenn ich
Vorhersagensinn eingebe, Okay ,
und Vorhersagen ,
okay, und dann verwende ich die
Charakterbibliothek hier. Weil ich die
Konfusionsmatrix verwenden werde. Die
Konfusionsmatrix und ein Chef, diese Daten, wie Sie es
nennen, eine Vorhersage, diese und beziehen sich auf den
Klassenkarten-Dollarkurs. Und wenn ich diese
Konfusionskennzahlen durchführe, stelle dass es sich
um eine
aufgeladene Prognose handelt. Sehen Sie, die Genauigkeit
dieses Modells beträgt 99,83. Alle Transaktionen
wurden also korrekt als legitim eingestuft Alle Hauptbuchtransaktionen werden korrekt als legitim eingestuft Und diese Krankheit, die Zusatzstoffe und
das ist negativ. Also das für 92 oder die
betrügerischen Transaktionen , die nicht als
betrügerische Transaktionen eingestuft werden. Alle Transaktionen
im Datensatz wurden also als Leggett und Exons eingestuft,
selbst diese für 92 tan x
und selbst diese für 92 tan x
und Unser Prognosemodell
wurde nicht
als betrügerische Transaktion die
Hauptbuchtransaktion aufgenommen wurde Da es sich also um einen wirklich
unausgewogenen Datensatz handelt, sagt
unser
Vorhersagemodell alles
als legitim voraus , weil es nicht anhand
der betrügerischen Daten trainiert wird,
weil es sehr
wenige sind und
deshalb alles in
die wahre positive Rate übergeht Dies ist also die Vorhersage, die
auf der normalen Modellprognose basiert . Wir haben keine
Modelle und Algorithmen für
maschinelles Lernen verwendet . In der nächsten Vorlesung werden
wir also einen Algorithmus für
maschinelles Lernen verwenden um mit diesem
unausgewogenen Datensatz umzugehen Und wir werden versuchen, besser vorherzusagen
. Wir sehen uns in der nächsten Vorlesung.
91. Erstellen von Trainings- und Testdatensätzen Sampling: Hallo und willkommen zurück. In dieser Vorlesung werden wir also näher
auf unser Projekt eingehen. Und was ich hier machen werde, ich nehme das Ding. Was wir tun werden, wir nehmen die Beispieldaten aus den
aktuellen Gate-Daten, die wir haben. Was wir also tun werden, wir nehmen die zehn
Prozent der Daten aus dem vorhandenen
Datensatz der Stichprobe. Und darauf werden wir versuchen, ein Modell
zu erstellen. Und wenn es dann
korrekte Vorhersagen gibt, werden
wir dieses
Modell auf den Datensatz anwenden. also tun, um Was können wir also tun, um das zu tun? Ich werde
eine D-Flat-Bibliothek benutzen. Also lädst du es einfach herunter. Wenn es nicht ist, laden Sie es herunter. Und dann hast du die Bibliothek gemacht, wir werden sie benutzen
und dann den Startschuss setzen. Erstens, dieser Bericht, denn wenn ich 10% aus diesem
Kreditkarten-Datensatz nehme. Wenn Sie also keinen Startpool
anlegen, was jedes Mal
passiert, werden nach dem Zufallsprinzip
die zehn Prozent aus dem gesamten Datensatz entnommen und jedes Mal sind es
andere, zehn Prozent. Aus diesem Grund
wollen wir dasselbe Setup,
10% jedes Mal, wenn wir diesen Code ausführen. So weit, dass ich einen verliere. Okay, lassen Sie uns das ausführen. Und dann Cape Cod. Okay, ich habe es aktualisiert. Lassen Sie mich versuchen, den
gesamten Code erneut auszuführen. Okay, sehen Sie, jetzt haben wir
die zehn Prozent von dieser Karte abgezogen . Das ist der gesamte
Datensatz daraus, ich nehme eine Probe,
unterstrich Frack, diese Funktion verwende ich
und ich gebe 0,1,
0,1 Minuten, 10%
des gesamten Also nehme ich den Flux
der 10% Klammer aus dem Datensatz und weise
ihn diesem Torwächter zu Wertvoll. Okay? Und wenn ich das dann ausführe, können
Sie jetzt sehen, dass wir das gleiche Setup, die gleichen
Zeilen und Spalten,
durchgeführt haben . Okay? Dann verwende ich Table und ich benutze diese Klasse. Also lass mich das erledigen. Jetzt. Wir lassen den Stipendiaten hier hin und her
schalten oder so Also 10% davon. Okay, und hier sind die echten 28.000 und kein
Protestant und verkaufe 44. Okay, jetzt haben wir
die zehn Prozent aus
dem gesamten Datensatz genommen . Was sind die Dinge? Jetzt verwende ich GG-Plot
, um das einfach zu benutzen. Und wenn nicht heruntergeladen, laden
Sie es herunter und installieren
es und verwenden es dann. Okay? Und hier, was ich tun werde, ich werde versuchen, die Handlung hier zu streuen Und für dieses Jahr kann
diese tote Person, die wir gerade geschaffen
haben, Anästhetikum
die X- und Y-Achse verwenden Wir machen Spalten und
Farben und wieder, im Unterricht in
letzter Minute Null oder Eins
gemacht Ein echter Punkt vorne in
der Länge, okay? Geom punktet, nicht,
nicht schwarz auf weiß. Kombiniere deine Grafik. Das wird also
schwarz und weiß aussehen. Und das skalierte Farbhandbuch
hier in Blau und Schwarz. Blau und Rot, tut mir leid, nicht schwarz, blau und rot. Bläuliche Farbe. Der Euro und der Krieg um
jeweils ein rotes und blaues Hauptbuch und Rot die betrügerischen Transaktionen Lassen Sie mich dieses Tool ausführen Okay, also sehen Sie hier, jetzt haben wir dieses Streudiagramm Die Klasse, die
0,1 repräsentiert, ist
aber immer noch unausgewogen Es gibt so viele Jackson, von denen nur wenige
auf die Betrüger gehen. Okay, jetzt haben wir die 10%
der Daten und wir haben sie erfolgreich
geplottet Als Nächstes müssen wir das Schulungs- und
Testset für die
Erstellung des Modells zur
Betrugserkennung erstellen. Okay, dafür
werde ich mir Tools ansehen. Wenn Sie dies nicht installiert haben, können
Sie es
mithilfe von install.packages installieren Und Sie können
im Backend sehen, dass Sie die Bibliothek installieren möchten Sie alle benutzen die Bibliothek. Und ein kauft diesen Namen Seattle's. Und ich habe das gemacht, dann verwende ich das, um 123 zu säen. Und dann nehme ich
die Datenprobe. Und was ich tun werde, ich teile diese Beispieldaten,
die wir entnommen haben, zu 10% auf. Nun, dieser
10-prozentige Datensatz und aufgeteilt in 80, 2080 für das Training
und Bronte für den Test Aber ich gebe die Kreditkartenklasse auf
der
Grundlage dieser Punkte, weißt du,
und einen
den Klassifikator
und dann teile ich dir das Rennen auf,
ich gebe punktuell Kreditkartenklasse auf
der
Grundlage dieser Punkte, weißt du,
und einen
den Klassifikator
und dann teile ich dir , punktuell 80% für
das Training und 20%
kauften das gestrichelte Okay, und als Nächstes kommen
trainierte Daten. Und nehmen Sie die Teilmenge dieser Datenprobe und die Teilmenge der
Datenprobe, funktionale Verwendung und die Notenkarte Und ob eine Probe als Tos 2 min
bezeichnet wird. Lassen Sie mich das zuerst überprüfen und dann werde
ich Ihnen sagen, warum Sie
nicht wahr und falsch verstanden haben. Okay? Wenn wir also diese Datenprobe ausführen
, wird nicht überprüft, ob sie wahr falsch,
wahr, falsch, wahr, falsch
enthält . Wahr ist für
Hauptbuchtransaktionen und falsch für die Impulse für
betrügerische Okay, jetzt haben wir
das Beispiel hier. Also was ich tun werde, ich
nehme die beiden ALU und erhalte hier die
falschen Werte. Lassen Sie mich also
diese Trenddaten ausführen und dies
werden die Testdaten sein. Also Trainingsdatensatz
und dieser Datensatz. Nun, wenn wir wissen
wollen Sinn
dieser Zug- und
Trainingsdatensatz und der Datensatz haben, können Sie
einen Dim-Funktionsnamen verwenden ,
trainieren Sie Unterstrichdaten 22.007, 85 Zeilen und 31 Spalten. Und für Theta 5.696,31 Spalten,
die Zeilen und die Auf diese Weise können wir den
Zug- und Testdatensatz abrufen. In der nächsten Vorlesung werden wir uns
weiter der Erstellung des
Vorhersagemodells befassen.
92. Zufällige Sampling-Methoden über und unter dem Sampling: Jetzt haben wir also die
Testdaten und Trainingsdaten. Kümmern wir uns um den
unausgewogenen Datensatz. Es gibt also zwei, es gibt drei Ansätze
, die wir in diesem Projekt
sehen werden. Das erste ist
zufälliges Oversampling. Und dann sehen wir die
zufällige Unterstichprobe und dann sehen wir
beide zusammen. Okay? Lassen Sie mich also mit
dem zufälligen Oversampling beginnen Was ist also Random Oversampling? Zufällige Überstichproben bedeuten, dass
wir 50,
50 Prozent der legitimen
Fälle und Betrugsfälle angeben müssen . Okay. Also dafür, was ich tun werde, verwende
ich die Zugdaten
und über diesen Glastisch. Und lass mich das regeln. Also seht hier, jetzt
haben wir die echte Rose,
22.007, 50 und für unseren
wegweisenden 35-Jahres-Leck Okay, das ist also unausgewogen,
also müssen wir diesen Datensatz nach dem Zufallsprinzip
überlisten. Zufällige Stichprobenerhebung
bedeutet, dass wir beide
gemäß den Vereinbarungen der Schüler angeben müssen beide
gemäß den Vereinbarungen der Schüler angeben Wir müssen
beide gleich machen. Für diese analytische Anzahl
von Transaktionen wird also Kollagen genannt, Ashley 22.007, 50. Und was ich machen will, ist, dass
neuer Fracsand oft legitim ist,
naja, wie, was ich will 50% Okay, jetzt sammle ich
die neuen und die Gesamtzahl der Zeilen, die in unserem
neuen Datensatz
benötigt werden,
über den Stichprobendatensatz. Also hier, was ich tun werde, ich werde neue legitime Allergie gegen
diese eine, geteilt
durch den Bruchteil der Logikgatter, wie wir
wollen, so dass wir machen und wir bekommen eine neue Zahl. Okay, lassen Sie mich das erledigen. Das sind also 45.500 Zeilen. Das brauchen wir als Bus, okay? Also jetzt werde ich hier das Roche-Paket
verwenden. Wenn Sie es also nicht installiert haben, installieren
Sie es einfach.
Sonst. Einfach riesig. Es ist ziemlich solide hier
installiert und erzeugt ein wertvolles Oversampling
und das nennt man Und er hatte eine riesige
Boon-Punkt-Probenmethode. Und hier gebe ich die Klasse
als variable,
unabhängige Variable an. Und dieser Zeichenpunkt
gibt alle anderen Variablen an, die in den Datensätzen
verfügbar sind Und dann Komma und
dann sind Daten gleich, wir verwenden diese Zugdaten,
Zugunterstrichdaten, die wir erstellt haben Und dann ist die Methode Oversampling. Und n Anzahl der Rosen, neu und insgesamt werden
es 45.500 sein Und Saatgut, das ich hier verwende, damit jedes Mal das
gleiche Ergebnis erzielt wird. Also lass mich das erledigen. Also jetzt wird es ausgeführt. Nun, wenn wir uns
das ansehen oder uns das
zufällige Oversampling ansehen, berechnen
sie, Sie können hier 45.000 Raj
sehen. Klicken Sie hier und Sie können sehen,
das nächste Ding ist jetzt Wenn Sie die Daten sehen möchten, müssen
wir das Oversampling verwenden und das nennt man Ergebnis-Dollarzeichendaten Es wird uns also den Datensatz geben. Okay? Wenn wir uns nun diese
Datensatztabelle
ansehen, werden Oversampling, Credit dort
45.500 Zeilen und langwierige
Fälle bei 22.017 sehen ,
50 und betrügerische Fälle 50 Richtig? Nun, was ich tun werde, ich werde
das einfach mit Hilfe von GG-Plot planen. Also hier ist Theta gleich,
ich übernehme das Oversampling
großartiger Warum? Wir machen Class Color, Class, Class und Geom Point
und Thin Blue,
dasselbe, was
wir zuvor gemacht haben Lassen Sie mich das grafisch darstellen und sehen,
wie unsere Daten aussehen. Jetzt habe ich Oversampling. Okay, weil ich auf Preis klicke. Sehen Sie hier, wie unser neuer
oder Word-Beispieldatensatz so aussah. Dies ist das Streudiagramm und der Grund,
warum wir immer noch sehen, wir sehen eine sehr geringere Anzahl
von Fällen von Ackerland als gelesen Die meisten von ihnen schauen nur
blau, weil für jeden Betrugsfall.
Wir haben
beim Oversampling doppelte Einträge erstellt beim Oversampling doppelte Einträge Und aus diesem Grund wird jeder von ihnen
eine größere Anzahl doppelter Werte enthalten. Deshalb stecken dahinter mehr Punkte. Okay? Um es uns anzusehen, um es besser zu plotten,
können wir den t-Test verwenden Der t-Test gibt Ihnen
diesbezüglich mehr Transparenz. Also lass es mich dir hier sagen. Geom-Punkt für Giussani
ist die Position des Vierbeiners,
die Unterstriche im Der Geom-Punkt für Giussani
ist die Position des Vierbeiners,
die Unterstriche im Detail und die Breite. Wir können 0,2 oder ich
kann sogar 0,5 setzen. Und lass mich das regeln. Diese Punkte werden nun
etwas ausführlicher sein. Das wird also wissen,
dass es mehr Punkte gibt. Nicht nur dieser Punkt,
denn beim Oversampling, nicht beim Duplizieren, wird das Duplikat
der vorhandenen Daten
erstellt der Könnte hier sehen.
Jetzt können Sie sehen, dass es mehr Punkte
gibt, größere Punkte. Also das ist, das liegt
an den doppelten Dingen. Okay? Jetzt haben wir verstanden, was Oversampling
ist und
wie wir das tun können Okay, beim Oversampling
gibt es ein Problem mit etwas, sodass wir die doppelten Punkte
erzeugen können Jetzt sehen wir uns die
zufällige Unterstichprobe an. Verwenden Sie dasselbe
auch für Undersampling. Unterstreichen Sie dann die Daten. Und dann
gibt es hier eine
Reihe betrügerischer Zeilen. Fangen Sie einfach an, wenn ich N schreibe, ist
Betrug 35. Wusste, was ich will. Ich will 50 Prozent
des gesamten Datensatzes. Und neu und insgesamt wird kein
Betrug geteilt durch 0,5 sein. Das gibt uns also die
Gesamtzahl der Straßen, die
für die zufällige Unterstichprobe erforderlich sind .
Wir sind jetzt dabei. Neu und insgesamt werden es 70 sein Es wird
also eine
Liste geben, 70 Rollen sind erforderlich. Wenn wir zu wenig
Sampling durchführen, ist das ziemlich gering und das führt
zum Verlust von Beta. Okay, nochmal, für
andere Bewerber, also werde ich das Paket verwenden. Also hier erstelle ich
Undersampling, Underscore, Adult und eigenes Sample.
Das Gleiche, was ich benutzen werde. Alles wird
gleich sein, außer dass bei dieser metallurgischen bis untersten Methode
die Probenahme erfolgt Und hier geben wir die
neue Gesamtzahl und den neuen Sitzplatz weiter. Und lass mich das regeln. Jetzt haben wir es
unter Beispieldaten gemacht. Jetzt wollen Sie sehen, wie
der Datensatz, USDA, Daten
unterstichprobt
und der großartige
Writer alkyliert Wir führen das durch. Jetzt haben wir
diese Unterstichprobe Was Lisa Monday
da rausbringt. Und die Hälfte von
ihnen ist legitim und die Hälfte von ihnen ist betrügerisch Dies führt jedoch zum
Verlust von Daten, wenn Sie dasselbe
plotten . Lass uns sehen. Hier. Legged und die
Betrugsfälle sind fast identisch Aber hier haben wir
fast 22.700 Reihen verloren. Das ist nicht gut für
Analysen oder Prognosedaten. In der nächsten Vorlesung werden
wir also diese beiden Untersamplungen und
Oversampling miteinander kombinieren und versuchen, dies
vorherzusagen
93. ROS und RUS zusammen für den Datenausgleich verwenden: Hallo und willkommen zurück. Jetzt haben wir gesehen, wie wir mit dem zufälligen
Oversampling-ROS arbeiten
können Und dann haben wir gesehen, wie wir mit dieser
zufälligen Unterstichprobe,
Oversampling und
Unterstichprobe umgehen
können, Oversampling und
Unterstichprobe Beides hat jedoch einige Nachteile, da eine
Überabtastung auch
zu Wunden führt und eine
Unterstichprobe
dazu führt, dass die meisten Zeilen gefällig oder gelöscht
werden,
was sich auf die
Entscheidungsfindung bei
der Vorhersage auswirken kann und unsere
Modelle nicht genau zu Wunden führt und eine
Unterstichprobe
dazu führt, dass die meisten Zeilen gefällig oder gelöscht
werden ,
was sich auf die Entscheidungsfindung bei
der Vorhersage auswirken kann und unsere Okay? Also Ansätze, die
beide zusammen verwenden, das
bedeutet, dass zufälliges
Oversampling und Undersampling, beide zusammen funktionieren Diese Methode wird also Board genannt. Also wird hier alles beim Alten sein. Was wir tun werden, verwende ich
und neu und Andrew, die Anzahl der Zeilen
im Trainingsdatensatz. Das wird also sein, es wird das Tutorium 785 für 12.000
Studienstipendiaten sein Okay. Also hier können wir das Kommando
und den neuen Geheimdienst 785 einsetzen und den neuen Geheimdienst 785 Nun, Frac-Sand-Betrug, neu, was wir tun wollen,
ist 5% zu finden, 0,5 Hälfte davon wären betrügerische Transaktionen und
die Hälfte der Transaktionen im
Datenquellenbuch Jetzt nehmen wir die Stichprobe, also verwende ich die Punktstichprobe und dasselbe, was wir mit dem Unterklassenparameter verwendet
haben Und dann werden sich alle anderen diesen Punkt
einfallen lassen, lösen andere Spalten kommen wirklich dann Datenzug
unterstreichen Datenmethode Hier. Früher haben wir
die Methode immer wieder angewendet. Jetzt verwenden wir beide. Dies führt also sowohl zu einer
Unter- als auch zu einer Überprobenahme. Und Sie können einen
neuen Unterstrich setzen und gleich flexibel sein und Betrug
oder Fehlverhalten unterstreichen , kannte
den Dann sind wir immer noch gesät. Das wird also
das gleiche Retarget erreichen. Lassen Sie uns das als Nächstes ausführen. Und wenn Sie
die Datensatzstichprobe
von Kindern sehen wollen , wo sie
alkylieren und Proben nehmen, unterstreichen die
Stichproben die Dollardaten Das ergibt also deine
Probe, weil sie gesprungen sind. Das sind also die Daten. Okay? Jetzt erstellen wir unsere Tabelle. Also wir sehen uns jetzt. 11.004, 31 ist weniger
als oder gleich fünf. Also fast die gleiche Anzahl
legitimer und betrügerischer Fälle. Das ist also
ein bisschen ausgewogen. Richtig? Jetzt erstellen wir die Requisitentabelle. Und hier siehst du
den Prozentsatz der,
so legitimen, tragischen, sie sind fast nicht die
richtige Person Und 49% sind die Transaktionen im
Vaterland. Wenn wir nun
diese Verteilung grafisch darstellen, verwenden
wir denselben Prüfungsteil, diesen oder diesen Datensatz. Und wir wollen und wiederholen X und Y.
Und kalte Farben werden auf dem Glas und
den
Geom-Punkten G und 0,3 gemacht Glas und
den
Geom-Punkten G und Okay, lassen Sie uns das ausführen. Also C, aber das ist
das Streudiagramm. Und wir sehen Sie auf den
blauen Punkten sind immer noch, Sie können sehen, dass es mehr von
kommt,
aber eigentlich ist es nicht das Ding, weil wir eine robuste Probe haben und eine weitere Probe oder Probe davon. Also die langwierigen Fälle mit
weniger im Datensatz, also es sind Duplikate von denen, die der Administrator erstellt, und da überschneidet es
sich Rot und Blau sind also fast gleich, aber die Raten überschneiden sich. Einer auf der rechten Seite
sieht aus wie weniger, aber Sie können ihn sehen. Ich habe das Detail hier verwendet. Das Merkmal ist also
etwas nervös. Okay? Jetzt haben wir also gesehen, wie wir Oversampling und
Undersampling durchführen und beide zusammen verwenden
können Undersampling durchführen und beide zusammen verwenden Als Nächstes werden wir die Technik
des synthetischen
Minderheiten-Oversamplings verwenden Technik
des synthetischen
Minderheiten-Oversamplings um die Daten auszugleichen Das nennt man
intelligente Technik. Und dafür werden wir auch die
Smart-Familienbibliothek verwenden. Und in der nächsten Vorlesung werden wir mehr über
Sport
lernen und dann werden wir den Code für
die intelligente Technik für
synthetisches Minderheiten-Oversampling
schreiben die intelligente Technik für
synthetisches Minderheiten-Oversampling Okay, wir sehen uns in
der nächsten Vorlesung.
94. Vor- und Nachteile von SMOTE: In dieser Vorlesung
werden wir etwas über die
Oversampling-Technik
kleiner synthetischer Minderheiten lernen. Dabei handelt es sich um eine sehr beliebte
Übersampling-Technik, die
verwendet wird, um das Problem des
Klassenungleichgewichts beim maschinellen Lernen anzugehen Klassenungleichgewichts Es funktioniert, indem synthetische
Minderheitenklassenstichproben erstellt
werden, die den vorhandenen
Minderheitenklassenstichproben ähneln. Dies trägt dazu bei, die
Klassenverteilung auszugleichen und
die Leistung von Modellen für
maschinelles Lernen
bei unausgewogenen Datensätzen zu verbessern die Leistung von Modellen für
maschinelles Lernen
bei unausgewogenen Datensätzen Das wird also tatsächlich
das Problem lösen, mit dem wir bei Oversampling- und
Undersampling-Methoden
konfrontiert waren diesem Grund wird es als
synthetische
Minority-Oversampling-Techniken bezeichnet synthetische
Minority-Oversampling-Techniken Diese Transaktion,
die in der Minderheit ist, wird diese Minderheitenklasse
überschätzen,
aber das wird in einer sehr synthetischen Woche geschehen handelt sich also immer noch
nur um eine
Oversampling-Technik , die sich aber kaum unterscheidet Also werden wir sehen, wie es gemacht wird. Hier sind einige
der Vorteile intelligenter, intelligenter Technik. Es ist wirklich einfach und leicht
zu implementierende Technik. Es kann in einer Vielzahl von Algorithmen für
maschinelles Lernen verwendet werden. Es kann wirksam sein,
um die Leistung von Modellen für
maschinelles Lernen
bei unausgewogenen Datensätzen zu verbessern Modellen für
maschinelles Lernen
bei unausgewogenen Datensätzen Das erste ist also, dass es
sehr einfach und
leicht zu implementieren ist . Und es kann auch
mit einer Vielzahl von
Algorithmen für maschinelles Lernen verwendet werden mit einer Vielzahl von
Algorithmen für maschinelles Lernen Und es wird
die Leistung von Modellen für
maschinelles Lernen verbessern . Bei einem unausgewogenen Datensatz. Smart hat auch
einige Nachteile. Es kann synthetische Proben erzeugen , die
den vorhandenen Proben der
Magnetklasse zu ähnlich sind , was zu einer Überanpassung führen kann Dies kann also zu einer
Überanpassung führen, da dadurch die Datenbank anhand der vorhandenen
obligatorischen Klassenstichproben
zu stark gesampelt
wird vorhandenen
obligatorischen Klassenstichproben
zu stark gesampelt Es kann also
dazu führen , dass der Datensatz
so aufgesogen wird, dass er das Modell übertrifft
und unser Modell nicht das richtige Ergebnis vorhersagt Dies kann das
Rauschen im Datensatz erhöhen, was auch
zu einer Überanpassung führen kann Dies kann
rechenaufwändig sein, insbesondere bei großen Datensätzen,
da wir Und wenn der Datensatz bereits groß
ist
, was er tut, wird er größer sein und
mehr
Rechenzeit benötigen. Und die Ausgaben werden
sehr hoch sein , weil es mehr Zeit
in Anspruch nehmen
wird Berechnungen durchzuführen, um irgendwelche Methoden darauf
anzuwenden Insgesamt ist die Technik des
synthetischeren
Minderheiten-Oversamplings also eine leistungsstarke Technik, mit
der die Leistung von Modellen
für
maschinelles Lernen bei unausgewogenen Datensätzen effektiv verbessert
werden kann der die Leistung von Modellen
für
maschinelles Lernen leistungsstarke Technik, mit
der die Leistung von Modellen
für
maschinelles Lernen bei unausgewogenen Datensätzen effektiv verbessert
werden kann. Es ist jedoch wichtig,
sich
seiner Grenzen bewusst zu sein und es vorsichtig
zu verwenden. Jetzt werden wir zunächst sehen, was die Nachteile und Vorteile die Nachteile und Vorteile
sind, intelligente Technik. Auch hier können die Vorteile des
EEG und die einfache Implementierung und die
Nachteile, EEG und die einfache Implementierung und die die es mit sich bringen kann, oder Überanpassung auf
einer Vielzahl von Algorithmen für
maschinelles Lernen genutzt werden einer Vielzahl von Algorithmen für
maschinelles Lernen kann, größer sein als bei Reis Sie sagten einen Test. Und
können wir
die Verbesserung der
Leistung der Pumpenleistungsmodelle für maschinelles Lernen berücksichtigen die Verbesserung der
Leistung der Pumpenleistungsmodelle für maschinelles Lernen und rechnerisch wird
das Jetzt haben wir also das grundlegende
Verständnis von smart und wie und welche
Vor- und Nachteile durchgesetzt werden In der nächsten Vorlesung werden
wir
die intelligente Technik
in unserem Projekt implementieren die intelligente Technik
in unserem Projekt
95. SMOTE-Technik auf dem Trainingsdatensatz anwenden: Hallo und willkommen zurück. In dieser Vorlesung werden
wir unseren Code weiter schreiben. Intelligente Technik, synthetische
Minderheiten-Oversampling-Technik zur Ausgewogenheit des Datensatzes oder die
im GitHub-Datensatz
verwendete
Technik im GitHub-Datensatz Hier müssen wir also
das Backend
install.packages multifamily installieren das Backend
install.packages Also werde ich die
Smart-Familie wieder hier verwenden. Wenn es also nicht installiert ist, installieren
Sie es einfach, indem Sie
diesen Befehl ausführen und dann
Libraries Spot Family verwenden. Okay. Also als Erstes
müssen wir das ausführen. Okay, als Nächstes verwenden wir die
Zugdaten auf dem Glas. Also sieh dir jetzt an, das sind unsere Oriental-Daten,
unsere Trainingsdaten. Also 22.007, 50 ist die
Zahl der Fälle, 35 sind die landesweiten Fälle Jetzt legen wir die Anzahl der Betrugsfälle fest und lassen ihn raten. Die gewünschte Person
disziplinierte medizinische Gase. Okay. Also die Anzahl der Vermutungen
ist so viel in der Kunst, originale Trainingsdaten und
die häufigsten Fälle bei 35. Und was wir wollen, unser
Gyro, habe ich 0,6 gegeben. Was bedeutet das?
Es bedeutet, dass ich den, unseren neuen Datensatz
will. Nach dieser intelligenten Technik. Ich möchte, dass es etwa 60 Prozent
der legitimen Vermutungen und 40 Prozent der betrügerischen
Fälle sind, okay, also 60, 40 dieses Jahr möchte ich Aschenbecher nehmen, ich gebe doch Arg2
entspricht 0,6 Minuten, 60% der Fälle
und 40% der Vermutungen an vorderster Front werden Wie berechnet man also Top-Sites? wir also, wenn Sie diese
Modusfunktion auf synthetische Weise ansehen, F1 setzen und
Sie können sich
diese Technik des synthetischen
Minderheitenübersamplings hier ansehen diese Technik des synthetischen
Minderheitenübersamplings hier Das geht also über Dendriten, synthetische Pinsel bis hin zu Instanzen,
Instanzen, die einen intelligenten Algorithmus verwenden Und was sind die Parameter? Tx, dx, dx, das ist unser Datensatz. Ziel ist, dass die Säule,
auf die wir zielen wollen, wie in unserem Fall, das Glas ist. Und dann k. Und dann haben wir
die Größen Dub, Dub, Dub. Häufigkeit, mit der c von x der DataFrame
des
numerisch attributierten Datensatzes ist DataFrame
des
numerisch attributierten Datensatzes Ziel ist ein Vektor
der Zielklasse, der dem
entspricht, was er tut, wenn dx k die Anzahl der nächsten Nachbarn
während des Abtastvorgangs ist
und dann die doppelte
Unterstrichgröße die Zahl
oder der Vektor ist, und dann die doppelte
Unterstrichgröße die Zahl
oder der Vektor ist der die Ziffer darstellt,
die synthetische
Minderheitsinstanzen gegenüber der ursprünglichen Anzahl der
Mehrheitsinstanzen Okay? Also, wie oft willst du wir
diese intelligente Technik ausführen dass wir
diese intelligente Technik ausführen, die wir entscheiden müssen
und wie wir entscheiden können. Wir können entscheiden, indem wir diese Formel
verwenden. Hier verwende ich Formel eins
-0/0 in n geteilt durch n,
n1, und das ergibt minus eins. Okay? Das ist also die Formel. Diese Formel ergibt
die n-fache Anzahl der Mülldeponien, die der Dub-Stufe entsprechen Also lasst uns das berechnen. Lass uns das durchgehen und
lass mich sehen, wie viel. 422 mal muss es laufen. Okay, 432 offen, 334433. Okay, jetzt haben wir auch
die Dub-Bühne. Jetzt verwenden wir die
Smart-Underscore-Ausgabevariable , um die
Daten zu speichern, die wir von hier erhalten Also eine reibungslose Funktion verwenden
wir und dann wird x, x unser
Trainingsdatensatz, Zug und
damit Koordinator sein . Und dann
verwende ich hier ein leeres Komma und dann mache ich
minus c ein Komma eins Warum mache ich das?
Denn in unserem Datensatz, in unserem Trainingsdatensatz, in unserem Trainingsdatensatz. Wenn du es dir hier ansiehst. Also v1 zur ersten Spalte für jeden
Zeitstempel, den wir nicht benötigen. Deshalb verschiebe ich
diese erste Spalte, den
Zeitstempel, und dann haben wir eine
weitere. Die Klasse. Also klasse, auch ich
entferne Chrome. Ja, das stimmt, 1.31 erste und letzte Spalte, ich bin Level Wir zielen dann auf
Unterstrichdaten ab. Die Zielspalte ist eine
Klasse, die als Klasse bekannt Ich gebe fünf und Upsized
ist gleich n-Zeit. Also lass mich das erledigen. Okay, wenn wir
das ausführen und Sie die Daten sehen
wollen, dann auf den Daten, die
sie wollen, oder auf Dollardaten. Und wir werden das ausführen, um uns die Daten
anzusehen, die Sie hier sehen können. Jetzt hat der intelligente neue Datensatz
V1, V2, V3, bis zu 28 und dann
Betrag und dann die Klasse,
okay, also jetzt ist die Klasse hier klein geschrieben. Früher haben wir sie
verwendet, war sie in der Hauptstadt Um Verwirrung zu vermeiden, ändern
wir das einfach in
Großbuchstaben C. Um das zu tun, müssen
wir die Längenfunktion verwenden,
die den Namen des Datensatzes und dann die Spaltennummer annimmt Namen des Datensatzes und dann die Spaltennummer Und dann kannst du der Spalte, die
ich deiner Klasse gebe, einen
beliebigen Namen geben. Und wenn ich das durchführe, wird
es geändert. Und wenn ich noch einmal draufklicke, wird die Klasse
jetzt
in Großbuchstaben geschrieben, okay? Nun, wenn Sie
sehen möchten, wie viel
Prozent es gestört hat Die Oversampling oder Probenahme wurde von
S2 zwei Tage lang durchgeführt bist du nicht. Wir verwenden also die Requisitentabelle, die
wir zuvor verwendet haben Und hier geben wir die kleinen Datensätze mit dem
Credit-Unterstrich, die Klassenspalte,
und wir führen Siehst du, jetzt liegt d rho bei 60%
und eins bei fast 40%. Jetzt verteilt
sich unser Datensatz auf etwa 60% der Fälle,
und nur wenige Prozent sind
die betrügerischen Fälle. Jetzt vergleichen wir es mit
dem ursprünglichen Streudiagramm. Dies ist
das ursprüngliche Streudiagramm, das wir für den
Trainingsdatensatz erstellt haben Lassen Sie mich Ihnen zeigen,
wie es aussah. Sieh dir an, wie es so aussieht. Ich kannte die
Verteilung der Daten nicht. Die Betrugsfälle
waren wirklich gering. Und jetzt werde ich den
neuen planen, richtig. Und das liegt daran, dass wir eine
intelligente, intelligente Technik angewendet haben. Jetzt können Sie sehen, dass unser
Datensatz ausgewogener ist. Und dieses eher technische
Gasfeld macht es allerdings mit dem mit der mehr Anzahl
betrügerischer Vermutungen hier. Und das sind nicht die
überlappenden oder doppelten Werte. Dies sind die synthetischen
Punkte, die mit der
intelligenten Technik gefüllt
wurden. Jetzt haben wir also den Datensatz, den
Ungleichgewichtsdatensatz. Als Nächstes müssen wir einen Entscheidungsbaum erstellen
und die Betrugsfälle vorhersagen ,
die
wir in der nächsten Vorlesung durchführen werden.
96. Fälle von Kreditkartentransaktionen mit dem Modell vorhersagen: Hallo und willkommen zurück. Jetzt können wir Betrugsfälle anhand
des Datensatzes, den wir in diesem Modus erstellt
haben,
vorhersagen . Lassen Sie uns den
Wert also anhand unseres Modells vorhersagen. Dafür werden wir
die Pakete rpart und rpart
plot verwenden die Pakete rpart und rpart
plot Sie müssen es also nicht
installieren, wenn Sie es nicht installiert haben, wenn Sie es nicht installiert haben, indem Sie
diese beiden Befehle ausführen. Und dann Library rpart
und library our dotplot. Okay? Und dann bin
ich hier normalerweise
das Wachmodell als Variable. Und hier, was ich tun werde, ich verwende die Funktion rpart Wenn wir wissen wollen, was
eine rpart-Funktion ist, können
Sie rpart F1 verwenden und es gibt
Ihnen die rekursive,
unsere Partner rekursive
Partitionierung und den unsere Partner rekursive
Partitionierung Wenn wir also
mehr darüber wissen wollen, können
Sie die Dokumentation lesen und welche Dinge es braucht
, die Formel
mit
dem tiefgestellten X und
unseren Teil- und Modellfehlern
und all diesen Dingen Okay? Wenn Sie also im Detail lesen
möchten, können
Sie es lesen. Okay? Als Nächstes bellen wir also, und dann geben wir ihnen die Spalten oder die
abhängige Variable. In unserem Fall ist also jede Klasse und dann Zeichen und dann Punkt bedeuten alle
unabhängigen Variablen. Punkt nimmt also alle, alle anderen unabhängigen Variablen. Und dann
verwenden wir hier den Datensatz. Toller Ehrenkurs. Mehr Daten. Wir haben, wir haben durch
die Anwendung des Intelligenten den Markt geschaffen. Also lass uns das ausführen. Jetzt können Sie sehen, dass das
GARCH-Modell da ist. Und okay, als Nächstes müssen
wir das R verwenden. Jetzt erstelle
ich den
Entscheidungsbaum dafür. Schauen wir uns also an, wie
unser Modell Dinge vorhersagt und einordnet. Legitime Fälle und
das Problem sagt, also nimmt es die Läsion. Also unser Plot, unser Teil Dotplot
und dann werden wir das bestehen. Und dann ist Extra gleich dem Faserintegral vom Typ
Null. Und schnell 1.2. Okay, lassen Sie uns das ausführen und sehen, ja, das ist der Entscheidungsbaum. Dieses 1.1, 0.2, es
wird das Ding zum Kochen bringen. Okay? Das ist also der Entscheidungsbaum, und so
wird unser Modell entscheiden, welcher es ist. Nehmen wir an, das ist früher. Wenn der Wert
größer oder gleich -2,5 ist, wird
dies klassisch
als legitimer Fall angesehen
und er ergibt
weniger als 0,5 -2,5, und er ergibt
weniger als 0,5 -2,5, dann
handelt es sich um einen
betrügerischen Gast Das ist also der
Entscheidungsbaum, dem er folgen wird, okay? Und wenn Sie dann die vorhergesagten Werte
sehen möchten, können
wir die Vorhersage verwenden und dann
das GARCH-Modell bestehen Dann Daesh-Daten zu Daten, die Ihre Typklasse vorhersagen Es wird Null oder Eins klassifizieren. Also werden wir
dieses Modell mit unseren Testdaten ausführen und sehen, wie es vorhersagt Also lass uns das ausführen. Okay? Also, wenn wir uns das ansehen, können wir hier sehen, für ein Spiel, es hat für die vierte Reihe vorhergesagt , also 0,1, es
wurde klassifiziert. Wenn wir nun sehen wollen, wie hoch der bisherige
Genauigkeitsgrad ist,
können wir mithilfe der Keras-Bibliothek eine Konfusionsmatrix erstellen Also eine große Karotte und dann kannte er entweder die
konvergenten Metriken Und ich werde diesen prognostizierten
Wert hier und hier weitergeben. Daten zur glasabhängigen,
abhängigen Variablen. Okay? Lassen Sie uns das ausführen und sehen wir uns hier die
Konfusionsmatrix an. unseren insgesamt
neun Betrugsfällen,
in denen es
97 gab, wurden sieben häufig
auftretende Fälle also in denen es
97 gab, wurden sieben häufig
auftretende Fälle korrekt und zu tragen nicht richtig
eingestuft. In ähnlicher Weise wurden bei den Fällen mit der
Legende Rot fast alle Fälle korrekt
klassifiziert. Die Genauigkeit dieses
Modells beträgt also 98, fast 99%. Auf diese Weise haben wir
mithilfe unserer Programmierung
das Modell
zur Erkennung von Kartenbetrug implementiert Programmierung
das Modell
zur Erkennung von Kartenbetrug . Und wir haben so viele
Dinge gelernt, wie zum Beispiel
den Umgang mit unausgewogenen Daten und
welche Algorithmen können wir anwenden Was sind die Techniken, mit denen Wassermelonen
den Datensatz ausgleichen? Ich hoffe, Sie haben verstanden,
falls wir irgendwelche Zweifel haben, können
Sie im Unterricht kommentieren oder
eine Frage stellen. Danke.
97. Einführung in ggplot2: Hallo und willkommen zurück. In dieser Vorlesungsreihe. In den kommenden Vorlesungen werden
wir etwas über den GG-Plot lernen. Wir haben GG-Plot in unseren Vorlesungen zu
oft verwendet . Aber wofür ich mich entscheide, ist
, dass viele von uns Diagramme wie
Balkendiagramm, Kreisdiagramm
wiederverwenden. Und es gibt viele Gläser oder die
Büchereien der rechten Hand sind riesig Wie GG Plot Tours, GG Plot. Aber wir haben es verpasst,
die Grundlagen dahinter zu kennen. Und das sollten wir wissen. Ich behalte das im Hinterkopf. Ich erstelle ein paar Vorlesungen
über die Grundlagen von GG Plot Two. In ähnlicher Weise werde ich
mehr Vorlesungen zu
allen anderen Themen erstellen , den Grundlagen all dieser
Dinge, damit wir ein klares
Verständnis der Dinge
haben. DJ ggplot2 ist also ein R-Paket zum Erstellen von
Datenvisualisierungen Es wurde
von Hadley Wickham entwickelt und enthält eine Implementierung
der Grafikgrammatik Ich werde sehen, was die
Grammatik von Grafiken ist, die einen
strukturierten Ansatz
zum Erstellen und
Anpassen von Plots bietet zum Erstellen und
Anpassen von Plots Das Paket basiert auf
dem Prinzip, Ästhetik und
Mappings
zu ermöglichen und es
Benutzern zu ermöglichen, hochgradig
anpassbare Grafiken in
Publikationsqualität zu erstellen anpassbare Grafiken in
Publikationsqualität GG Plot to Deb
liebte es also , öffentliche
Schlüssel und 3D-Grafiken zu erstellen. Vorher erstellen wir also Grafiken, aber wir sind noch nicht bereit für die
Veröffentlichung. Wenn Sie also eine
öffentliche 3D-Grafikeinheit
erstellen möchten Tools
wie Power BI oder Tableau,
irgendein anderes Grafikwerkzeug, verwenden . GG Plot Two bietet jedoch die Möglichkeit, Grafiken in
Publikationsqualität zu erstellen. Und es ist sehr anpassbar. Welche Ebenen
Sie auch immer hinzufügen möchten, die Benutzer können sie
je nach Anforderung hinzufügen. Es folgt dem Ansatz der Grammatik der
Grafik, der
sehr, sehr wichtig ist.
Deshalb bietet es
so viele Funktionen, um Grafiken und Diagramme
fantastisch aussehen zu lassen. Okay, lassen Sie uns einige
der
Merkmale und Eigenschaften von GG Plot
to Plot Two
verstehen . GG Plot Two folgt der Grammatik
der Grafik GG Plot Two. Wie ich bereits sagte, Probleme mit
der Grammatik von Grafiken, was bedeutet, dass Diagramme erstellt
werden, indem
verschiedene Komponenten von
Ebenen wie Daten,
Ästhetik, geometrische Objekte
und statistische Transformationen kombiniert verschiedene Komponenten von
Ebenen wie Daten,
Ästhetik, geometrische Objekte und statistische Transformationen Es zeichnet also nicht nur
die Daten auf, sondern kümmert sich auch um
die Daten, Ästhetik, geometrische Objekte geometrische Objekte
und statistische
Transformationen Statistik, Ästhetik
und Mappings. Gg-Diagramm, mit dem Sie
Variablen in Ihren Daten
verschiedenen Ästhetiken,
Attributen wie X
- und Y-Koordinaten,
Farbe, Form, Größe
und vielem mehr zuordnen können Variablen in Ihren Daten
verschiedenen Ästhetiken, Attributen wie X
- und Y-Koordinaten,
Farbe, . Haben Mappings definiert, wie die Daten im Diagramm visuell
dargestellt
werden? Das nächste Feature ist das Layering. Die erste ist die
Grammatik von Grafiken, und dann haben wir die
Ästhetik und das Mapping. Und dann haben wir den dritten Schlüssel, Merkmale und Eigenschaften.
Das ist Schichtung. Lose im zweiten GG-Plot werden durch
Hinzufügen von Ebenen
grafischer Elemente
erstellt Hinzufügen von Ebenen
grafischer Elemente sodass jede Ebene
eine andere Komponente von
Flüssigkeiten wie Punkte,
Linien, Balken oder Text darstellt eine andere Komponente von
Flüssigkeiten wie Punkte,
Linien, . Es wird also aufgebaut,
indem übereinander liegende Ebenen hinzugefügt werden. Und die Ebenen haben verschiedene
Komponenten wie Plot, Komponenten der
Plots wie Punkte,
wie Geom-Punkte, um sie zu verwenden, oder? Wiederverwendung von Geom-Linien. Dann werden auch Balken, die wir auf unserer
Textebene verwenden, vorhanden sein. Ebenen können unabhängig voneinander hinzugefügt und
angepasst werden, was eine komplexe und
mehrschichtige Visualisierung ermöglicht Statistische Transformatoren
und GG-Plots bieten ein so breites Spektrum an statistischen Transformationen, die auf
die Daten
angewendet werden können ,
bevor sie visualisiert diesen Transformationen
gehören das Aggregieren von Daten, die
Berechnung einer Zusammenfassung der
Statistiken, das Glätten der Daten und ein minimales, hochgradig anpassbares GG-Plot 2 bietet ein hohes
Maß an Anpassungsoptionen, sodass Sie fast
jeden Aspekt der Handlung ändern können,
einschließlich Zugriff, Beschriftungen, Titel,
Legionen, Legionen Es bietet
Ihnen also nicht nur die Möglichkeit, Teams mit „Gefällt mir“
zu markieren, sondern auch sondern auch Dinge wie Achsen,
Beschriftungen, Titel, Legenden und Farben anzupassen , und es gibt viele Themen,
die Sie anwenden können Diese Flexibilität ermöglicht es Ihnen, Diagramme
zu erstellen, die bestimmten Anforderungen entsprechen Ihrem bevorzugten visuellen Stil entsprechen. Unterstützung für Facettierung, GG
Plot Two unterstützt Facettierung
, sodass Sie
mehrere Diagramme oder Panels erstellen, auf eine oder mehrere
Variablen in Ihren Dies ist nützlich, um
verschiedene Teilmengen oder Kategorien
innerhalb Ihres Datensatzes zu
untersuchen und zu vergleichen verschiedene Teilmengen oder Kategorien
innerhalb Ihres Datensatzes Integration mit unserem
GG-Plot zur nahtlosen Integration in unsere Pakete
und Datenmanipulationstools. Sie können GG Plot
Two problemlos mit
Datenmanipulationsbibliotheken
wie Playa und Tidy R kombinieren , um
Ihre Daten vor der Visualisierung vorzuverarbeiten und zu transformieren Ihre Daten vor Insgesamt bietet der GG-Plot also ein leistungsstarkes und
intuitives Framework für die Erstellung einer Vielzahl
von Medulla Jasons, das von einfachen
Streudiagrammen
bis hin zu
komplexen facettierten Diagrammen mit mehreren
Feldern Es hat sich aufgrund seiner Flexibilität,
Ästhetik und Betonung guter Designprinzipien zu einem der beliebtesten häufigsten verwendeten
Datenvisualisierungspakete und
am
häufigsten verwendeten
Datenvisualisierungspakete
in R entwickelt. Jetzt haben wir also auch das grundlegende
Verständnis von GG Plot. Lassen Sie uns in diese
Aufnahme eintauchen und einige grundlegende Plots
mit GG-Plot zwei
erstellen. Also habe ich eine GG-Plot-R-Skriptdatei mit
zwei Punkten erstellt. Und hier werden wir versuchen,
das GG-Plot zu verwenden , um ein
einfaches Diagramm und eine grafische Darstellung zu erstellen, und wir werden versuchen,
die verschiedenen
Ebenen zu verstehen , die dazu hinzugefügt wurden. Als erstes
müssen wir das ggplot2-Paket installieren Wenn es also nicht
in Ihrem RStudio installiert ist, können
Sie das tun, indem Sie
das Skript install.packages ausführen, und Sie können den
Paketnamen GG plot two geben Sobald die Pakete installiert sind, können
Sie sie verwenden indem Sie die Bibliothek schreiben und dann
hier den Paketnamen angeben. Dadurch können Sie das GG-Plot-Paket
verwenden. Der erste Schritt besteht also darin, das Paket zu
laden, installieren und zu laden. Der zweite Schritt besteht darin,
ein einfaches Streudiagramm zu erstellen. Was ich dafür tun werde, erstelle
ich zuerst einen DataFrame Um also einen DataFrame zu erstellen, erstelle
ich hier eine
Variable Und dann verwende ich data.frame, um einen DataFrame
zu erstellen. Und hier gebe ich die
X-Punkte, den X-Vektor, c12, 345 und den
Y-Vektor sowie die Y-Achse für Y-Achse und Geschenke an, 12.243.648,5 zehn werden also
die Koordinaten für unsere sein. Auf diese Weise
erstelle ich einen DataFrame. Jetzt. Ich erstelle ein Streudiagramm mit GG. Plot Two
ist ziemlich einfach Wir verwenden hier die
GG-Plot-Funktion, GG-Plot. Und dann stellen wir die Daten bereit, den DataFrame
, den
wir erstellt haben Die Daten, auf denen Sie das Diagramm erstellen
möchten. Daten geben Ihnen also, dann
ist das nächste Ding die Ästhetik. Die Ästhetik gibt die X- und Y-Achse an, auf der
Sie die Punkte zeichnen möchten. Also x ist gleich x
und y ist gleich Y. Von hier aus wird es dauern, und dann geben wir die Handlung,
sorry, plus Geom-Punkt Also Geom Point, wir werden die Punkte
plotten. Es werden die Punkte
aus dem Urindiagramm übernommen. Also lass mich das erledigen. Also sieh hier, jetzt ist unser
Scatterplot fertig. Sehen Sie, der erste Punkt ist eins bis zwei, X-Achse und die Y-Achse Dann werden hier 242,4 bis vier
aufgetragen, dann 36 und dann 4,5 Diese Punkte
wurden also mit GG-Plot zwei
korrekt geplottet mit GG-Plot zwei
korrekt Lassen Sie mich Ihnen etwas
mehr über diese Dinge erklären. Also erstellen wir einen DataFrame
namens data mit zwei Spalten, x und Y. Die
Gg-Plot-Funktion initialisiert
ein GG-Plotobjekt , das
dem DataFrame in seinem ersten Argument eine Textnachricht gibt Und dann gibt die ästhetische Funktion wir
hier verwendet haben
, um die Funktion zu übernehmen , die Ästhetik an, die X zur X-Achse und Y zur Y-Achse abbildet. Hier ordnen wir also die
X-Achse der X- und Y-Achse zu. Warum? Und dann schreibt der
Geom-Punkt und fügt die Punkte zum Plot Also die Geom-Punkt-Funktion,
was
sie tun wird , sie nimmt die Punkte
daraus und zeichnet die
Punkte auf dem Diagramm auf Als Nächstes werden wir
versuchen, die Handlung anzupassen. Was wir also tun werden, wir werden versuchen,
die Handlung nach Aussehen anzupassen. Passen Sie also das Erscheinungsbild der
Handlung an. Hier verwenden wir also die GG-Plot-Funktion. Die
Datenästhetik wird dieselbe sein. Und dann plus Geom Point. Und dann, nach dem Geom-Punkt, was wir tun,
geben wir Sickerstand gleich 21 und die Füllfarbe ist blau
und die Farbe wird schwarz sein Und Websites, ich gebe dir drei. Dann verwenden wir die
Labs-Funktion, um einen Titel zu erstellen. Der Titel der Handlung wird also das Streudiagramm
sein. Und welcher X-Achse geben
wir dann den Namen X-Achse und die Y-Achse gibt ihnen
Y-Achse Dann wieder plus. Und dann verwenden wir, wir werden das Thema
hier verwenden und wir werden
Theme-Unterstrich verwenden,
minimalistisch, minimalistisch, was
wir verwenden werden, ja Lassen Sie mich das zuerst
ausführen und Ihnen dann dem Benutzer
verschiedene Punkte
erklären. Jetzt
ist unser Scatterplot fertig und ihr könnt sehen: Einmal habe ich hier geplottet, aber das ist der, da wir hier in Blau haben, sind
die Punkte mit dem Blau gefüllt und
der
äußere Teil Also hier haben wir Schwarz gegeben. Wenn ich es orange mache
und wenn ich es laufen lasse. Jetzt, Alter Partys orange. Lassen Sie mich also
etwas größer auf neun machen. Die IP und der Port-Empfänger und die Größe
und 31, tut mir leid. Jetzt können Sie hier sehen, dass die
Größe erhöht wurde. Okay. Also das ist die YuJa,
siehe Hose, die ich blau halte, wenn du sie gelb machst Das wird also gelb. Okay? Auf diese Weise können wir anpassen und Sie
können es zum Laufen bringen. Und sehen Sie, das ist das
Streudiagramm, das hier unten steht, und X-Achse, Y-Achse
kommen nächstes Jahr Und das Team, das wir verwenden, ist minimal. Lassen Sie mich das noch einmal ausführen. Die Größe wird also in Ordnung sein. Als nächstes kommt die Geom-Punkt-Schrift, einige Texte, die keine Argumente , um das
Aussehen der Punkte anzupassen Hier haben wir gesagt, der Stipendiat hat einen
vollen Kreis und eine
Füllfarbe bis Blau, die
Umrissfarbe ist vollen Kreis und eine
Füllfarbe bis Blau, schwarz und Größe drei Das war also der frühere.
Jetzt haben wir die Ebene auf
zwei Seiten geändert, die
Außenfarbe ist orange, Füllfarbe ist gelb. Okay. Sie können F1 setzen, indem Sie den
Geom-Punkt auswählen . Daraufhin erhalten Sie
die Beschreibung des Geom-Punkts,
des Algoms und die Beschreibung des Geom-Punkts,
des der Datenzuordnung Okay? Wenn du mehr erfahren möchtest, kannst
du bei dir mehr
über den Geom Point erfahren Speichern. Sie können hier nachsehen, ob Sie mehr
über die CEP erfahren
möchten Sie können hierher kommen und mehr über diese Tresore erfahren Die sichere Ästhetik
kann mit
einer Ganzzahl von 0225 oder einem
einzelnen Zeichen angegeben werden . Dabei werden
die Zeichen am Plotsymbol verwendet, um
das
kleinste Rechteck, das etwa ein Pixel
sichtbar ist, zu trocknen kleinste Rechteck, das etwa ein Pixel
sichtbar ist, Und es wird nichts zeichnen, was einer diskreten Variablen
zugeordnet wird. Wenn wir hier also 25 angeben, schauen wir uns an, was hier
geplottet wird Das andere Dreieck wurde
gezeichnet, wenn wir zwei setzen. Also wie du siehst, das Dreieck ohne Füllung, okay, dann wird eins das Rechteck
sein Eins ist Kreis fünf. Wenn Sie fünf verschiedene Zahlen setzen, sagen Sie das Rechteck noch einmal. Dann schauen wir uns für acht an,
was hier gezeichnet wird. Okay, Zeilen 11. Damit du sehen kannst, also erkunden und du
kannst andere Dinge benutzen, okay? Dann haben wir die Labs,
die der X-Achse
, der
Y-Achse und dem Namen den Titel hinzufügen Y-Achse und dem Namen den Dann ist Tim Minimal die
Funktion, die auf das
minimalistische Thema der Handlung angewendet minimalistische Thema der Handlung Wir können ein anderes Thema verwenden
, das schwarz und weiß ist. Als Nächstes werden wir lernen, wie
wir mehrere Ebenen und
Anmerkungen zu unserem Diagramm
hinzufügen Also hier wird alles derselbe Geom-Punkt
sein. Auf diesen Dingen
wird dieselbe Geom-Linie stehen. Wir fügen eine Geomlinie hinzu,
sodass eine Linie gezeichnet
wird , und dann
schreiben wir hier etwas Text. EnodeB-Decks x sind also gleich
drei, y gleich Null, und Labore der Stufe
999 geben dasselbe und das
Team verwendet sie nur Also lass uns das ausführen. Sehen Sie sich jetzt hier an, eine Genomlinie wurde
gezogen, indem die Punkte zusammengefügt wurden. Und hier finden Sie 3,6, 3,6 Punkte, wir haben Texte
geschrieben, also Text ausrichten steht
hier, beschriftet mit Zeile Du kannst es in alles ändern. Nehmen wir an, Sie
möchten hier irgendwas schreiben
und das einfach ausführen. Jetzt steht irgendwas geschrieben. Du kannst hier also alles hinstellen. Also Linie. Also werden wir das noch einmal ausführen. Was auch immer du schreibst, es
wird hierher kommen. Also hier bei 3,6 die X-Achse drei
und Wellen sind sechs Wir haben
es ohne Texte annotiert und die Texte und den Levelnamen als Zeile angegeben Okay, und das Team, das
wir verwenden, ist minimal. Okay, als Nächstes ist, also geom-Zeile von Sonaten-Zeile zu den Plots einmal annotieren und
wiederverwenden, um zusätzliche Notation Hier der angegebene
Text zur Anzeige sowie die X- und Y-Koordinate Und Sie können die
X- und Y-Ebenen ändern , erweitert
um die Annotate-Funktion Okay, als nächstes die schnelle
Einstellung und die Themen. Wir können also Facetten verwenden, um einem Grundstück
mehrere Diagramme hinzuzufügen. Dazu
verwenden wir data.frame, um eine variable
Datenunterstrich-Facette,
data.frame und eine X-Achse zu erstellen data.frame X- und Y-Punkte
ergeben und gruppieren dann. Hier erstelle ich eine Gruppe, indem jeder Punkt einer Gruppe E,
a, B und C
zugeordnet wird . Jetzt haben
wir hier Gruppen. Lassen Sie uns das jetzt ausführen. Und dann erstelle jetzt unser
facettiertes Streudiagramm. Lassen Sie mich also zuerst
die Streudiagramme erstellen. Jetzt haben wir die Punkte. Und dann gibt es noch andere ABC-Kategorien
oder -Gruppen. Also Geom Point, alles
außer Rap. Und hier geben wir
die Gruppe an, okay, dieses Schild und die Gruppe werden
die Gruppe von hier aus mitnehmen und es wird facettiert Jetzt haben wir ABC-Gruppen und alles andere
ist dasselbe. Wir verwenden die Minimalfunktion, auch hier wird die
Facettenunterstrich-Wrapper-Funktion verwendet, um ein facettiertes Diagramm
auf der Grundlage der Gruppenspalte zu erstellen,
jede Gruppe Harris Jetzt ändern wir das
Thema auf Schwarzweiß. Themenunterstrich
v, w. Wir verwenden, und wir werden sehen, was es hier zu sehen
bekommt Jetzt wurde das Thema geändert und jetzt
zeigt es klar, Hoppla, ABC Es muss Punkt B bis
Punkt C einen Punkt haben. Okay. Ein Punksong zum Thema ändert also die Handlung,
er wechselt zu Schwarz-Weiß. Und dieser zweite GG-Plot hat verschiedene integrierte Themen
wie unterstrichenes
Minimaldesign, Theme Underscore Classic
und Theme Underscore Lassen Sie mich das kopieren und
versuchen, den grauen T-Unterstrich zu verwenden. Jetzt ist es grau. Und dann
unterstrich das Team den Klassiker. Classic ist wie zwei Gruppen
hier und dann Punkte. Okay, machen wir
es es heute. Okay? Das ist also die Grundlage von
GG Plot für mich. Ich nehme an du lernst und ich
ermutige dich,
mehr zu üben, indem du einige Punkte erstellst und darauf
verschiedene Plots planst Und wenn ich mit
den Geom-Punkten spiele und die Labore
hinzufüge, denke ich, dasselbe, wenn man mit
den gleichen Beinsegmenten spielt Fragte mich 25. Du kannst also verschiedene Formen setzen und trocknen was Zahlen
für dasselbe bedeuten, okay? Das sind also die
Dinge, die du tun kannst
98. Streusplott und zitterte Handlung: Hallo und willkommen zurück. In dieser Vorlesung werden
wir etwas über
eine weitere wichtige Sache beim Plotten lernen , nämlich das Streudiagramm
und das Punktdiagramm Lassen Sie mich Ihnen sagen, dass
wir uns ein Beispiel ansehen werden. Und dafür
verwende ich den eingebauten Datensatz,
das ist der Iris-Datensatz, der mit
dem R verfügbar ist. Okay? Lassen Sie mich Ihnen kurz sagen was für ein Streudiagramm Sie wissen
müssen, was
ein Streudiagramm Aber um Ihr Gedächtnis aufzufrischen, sage
ich Ihnen, dass Streudiagramme Liniendiagrammen
ähneln,
die normalerweise zum Plotten
verwendet werden Das Streudiagramm speichert,
wie stark eine Variable mit einer anderen verwandt
ist Die Beziehung
zwischen den Variablen wird als Korrelation bezeichnet, die üblicherweise
in statistischen Methoden verwendet wird. Okay? Das ist also die Definition
von Scatterplot. Und für dieses Glücksspiel, für diesen Vortrag, bin ich
ein handgeschriebenes Und hier verwende ich
den Iris-Datensatz, sehr bekannten Datensatz
, der Messungen Ihres Drucks, der
Irisblüten, der
Kelchblattlänge und der
Blütenblattlänge sowie des gesamten Inhalts enthält Irisblüten, Kelchblattlänge und der
Blütenblattlänge sowie des gesamten Inhalts Dafür benötigen wir also
den Iris-Datensatz
, der mit
den Daten unseres Pakets ausgestattet ist , und dann benötigen wir GG-Plot, das wir
bereits heruntergeladen haben Und wenn nicht heruntergeladen, können
Sie install.packages
und den
Paketnamen GG plot two verwenden und den
Paketnamen GG plot Und es wird neu
installiert,
heruntergeladen und auf Ihrem RStudio Und um dann den zweiten GG-Plot zu verwenden, müssen
wir die Bibliothek verwenden und dann müssen wir den Backend-Namen
übergeben Also Bibliothek GG-Plot
, damit wir
die GG-Plot-Funktionen wirklich nutzen können. Und um dann
den Iris-Datensatz zu laden, müssen
wir nur Daten schreiben. Und dann müssen wir
den Datensatznamen übergeben . Datentyp
ist die Daten-Iris Es wird den Iris-Datensatz laden. Und wenn Sie auf
diesen Iris-Datensatz klicken, können
Sie hier sehen,
dass er das Auge
enthält, diesen Florida-Schwanz, der Kelchblattlänge,
Blütenblattlänge ,
Blütenblattbreite Blütenblattbreite Es gibt also Arten. Okay? In diesem Datensatz
gibt es also die eine
Eigenschaftsobjekte und private Labels, eine pro p-Zeile und eine pro p-Zeile und
fünf Spalten. Okay, lassen Sie mich
zurück zum Code gehen. Also, was wir jetzt tun, wir machen das, wir
erstellen ein Streudiagramm Um also ein Streudiagramm zu erstellen, verwenden
wir die GG-Plot-Funktion und verwenden hier den Namen des
Datensatzes Das ist Datensatz für Iris-Datensatz. Dann zeichnen
wir aus ästhetischen Gründen für die X-Achse die
Kelchblattlänge und die Y-Achse Wir zeichnen die Breite der Kelchblätter auf. Und dann verwenden wir die
Genom-Underscore-Point-Funktion , um diese Punkte darzustellen Es ist ziemlich einfach. Gg Plotfunktion, dann
Name des Datensatzes als Ästhetik. Wir müssen die
X- und Y-Koordinaten übergeben. X-Balken, X-Koordinate verwenden also
die Länge des Kelchblatts. Und für die Y-Koordinate verwende ich die Funktionen Kelchblattbreite und
Geom-Punkt um diese Punkte,
geometrische Punkte, darzustellen Wenn wir das also ausführen, erhalten
wir hier dieses Streudiagramm. Jetzt
wurden hier alle Punkte
zur Kelchblattlänge und Kelchblattbreite aufgetragen Jetzt verwenden wir die GG-Plot-Funktion für jedes Slider-GG-Plotobjekt
und spezifizieren den Datensatz Das ist es, was wir hier gemacht haben. Dann die ästhetische
Funktion hier, wir verlieren die
ästhetische Funktion. Innerhalb des GG-Diagramms definieren Sie die ästhetischen Abbildungen
mit der Länge der Kelchblätter Was wir
hier machen, wir kartieren die Kelchblattlänge und die Kelchblattbreite Kelchblattlänge wird der X-Achse
zugeordnet,
und die Kelchblattbreite wird der Y-Achse
zugeordnet Und die Geom-Punkt-Funktion
fügt dem Diagramm Punkte hinzu. Und so bekommen wir das
Streudiagramm, damit du es verzerrst. Wir verwenden also die GG-Plot-Funktion , in der wir den Datensatznamen
übergeben. Dann allergen wir die
ästhetische Funktion , um die Koordinaten zuzuweisen Ordnen Sie jedoch den
Spaltennamen oder den Xs zu. X entspricht also den sogenannten Auslässen und der
Y-Achsen-Punktbreite des Kelchblatts Und dann verwenden wir die
Jin-Geom-Punktfunktion , um die Punkte
im Streudiagramm Also bekommen wir diese Handlung. Als Nächstes
passen wir jetzt das Streudiagramm an. Das Anpassen wird also wieder passieren. Wir werden den GG-Plot verwenden. Zuerst zeichnen wir die Handlung. Also für diesen GG-Plot, dann nenne den Datensatz
diese Ästhetik. Hier, ästhetisch,
dasselbe, was wir lesen. Und was wir anpassen. Wir passen es an,
indem wir eine Farbe hinzufügen. Farbe entspricht also Spezies. also Alle Arten
werden also einer bestimmten Art angehören, eine
bestimmte Länge und
Kelchblattlänge und
Kelchblattbreite werden farbig sein Für jede Art
wird also eine Farbe zugewiesen. Farbe wird also Spezies genannt. Dann verwenden wir Geom Point. Und hier und hier haben wir
gerade Geom-Point-Schriften geplottet. Ich verwende hier die
Geom-Punkt-Funktion, die wir anpassen, indem wir
Argumente hinzufügen, zum
Beispiel ist psi gleich drei
und Alpha gleich 0,7 Dann Labore hier mit
der Labs-Funktion, wir vergeben den Titel, also Titel des Streudiagramms,
wir geben ein Streudiagramm für Kelchblattbreite für die X-Achse
gibt den Namen Kelchblattlänge an, und die Y-Achse
gibt die Kelchblattbreite an Und dann das Thema hier verwenden
wir das, wir verwenden
das T-Match-Theme, Minimal-Theme, und das
heißt Minimalfunktion. Wir müssen das minimalistische,
minimalistische Thema verwenden. Lassen Sie uns das planen und dann werden
wir es weiter besprechen. Nun könnt ihr das hier sehen, da wir die
ökologischen Arten angegeben haben. Also all diesen Arten, es gibt drei Arten und drei Farben wurden zugewiesen. Wenn wir uns das ansehen, können
wir sagen, dass das
Grün für Versicolor steht, das Rosa für Setosa Virginica ist dunkelblau. Okay, lassen Sie uns jetzt ein
bisschen mehr verstehen. Also fügen wir Farben hinzu, die Sie innerhalb der
ästhetischen Funktion
zwei Leerzeichen nennen , um
die Punkte auf der Grundlage dieser
Präzision des Auges einzufärben . diesen Diagrammen, die wir bereits besprochen
haben, das Seitenargument im bestimmt
das Seitenargument im Geom-Unterstrich die Größe des Punktes Jetzt sind es also drei. Wenn ich es schaffe, unsere 15 zu unterstützen, was passiert
dann? Das, die Punkte
werden größere Erkenntnisse sein. Wenn du sehen willst,
sieh dir hier jetzt den
Rückenbereich größer an Je nach Anforderung können Sie also, wenn Sie eins oder fünf angeben, wird
es so aussehen, okay? Jetzt gibt es noch etwas anderes, Alpha entspricht 0,7. Was ist also dieses
Alpha-Alpha-Argument, das diese Transparenz steuert. Also, wenn ich sage, wenn ich es auf
eins erhöhe, was passiert dann? Lass uns sehen. Siehst du, es ist dunkler, oder? Wenn ich Wind einstelle, sieh, dass es nicht so dunkel ist. Und wenn ich 0,8 gebe, wird
es dunkler. Martin, dunkler. Okay? Also werde ich das Amperemeter
abfeuern das die
Transparenz der Punkte kontrolliert Okay. Als Nächstes wird die
linke Funktion verwendet, um den Titel der
Titel- und Achsenbeschriftungen festzulegen. Also für die Zugangsebenen haben wir auf
der X-Achse die Kelchblattlänge, Y-Achse haben wir die Kelchblattbreite
angegeben Und der Titel
des Streudiagramms,
wir haben ein gegebenes
Streudiagramm von Probe versus Kelchblattlänge
versus Kelchblattbreite Und das Thema unterstreicht die
Mindestpunktzahl und das
Minimalistische Aber die Handlung. Wenn wir das hier reinstellen können, wenn ich das wiederhole und wenn ich das Thema unterstrichene
schwarz-weiße VW einmal
verwende und was passiert dann? Lass uns sehen. Es wurde nicht
viel geändert. Jetzt kommen wir
zum Jitter-Plot. Also was für ein Jitter-Plot? Datendiagramme enthalten
Spezialeffekte mit den
darstellbaren Streudiagrammen Ein Spezialeffekt
, mit dem Streudiagramme dargestellt werden
können. Es wird also dem Streudiagramm den
Spezialeffekt hinzufügen. Detail ist nichts anderes als
ein zufälliger Wert, den
Punkten zugewiesen
wird, um sie zu trennen. Okay? So können Sie sehen, ob
Ihr Datensatz doppelte Werte
enthält und wenn Sie
das Streudiagramm zeichnen, überlappen sich
die Punkte also in diesen Fällen wissen möchten, Wenn Sie also in diesen Fällen wissen möchten, bei welchen Punkten es
sich um Duplikate handelt, können
Sie diese Jitterfunktion verwenden , um die Punkte
hervorzuheben, die
die Duplikate enthalten Okay? Jitter ist nichts anderes als
ein zufälliger Wert, den wir den Punkten
zugewiesen haben , um sie voneinander
zu trennen. Okay? Also jetzt GG-Plotfunktion, Ästhetik des
Datensatznamens,
dann Geom-Unterstrich, Jitter und Breite ergeben 0,2, Höhe ergibt Null Alpha 0,7, und alle anderen Dinge sind fast gleich und Ihr Team
verwendet Schwarz Okay? Also lass uns das ausführen. Sehen Sie hier. Jetzt
wurden die Punkte getrennt. Okay? Das ist also die dritte Handlung. Also modifizieren wir die X-Achse, eine Art und schreiben
Zugriff, um Länge
der Blütenblätter und die Rückkehr des Genoms von einem unruhigen
Punkt zur Handlung abzubilden Das Argument Breite. Steuert die Breite der Argumente
Jitter und Höhe und setzt die Höhe der
Höhe auf Null Diese regionale Sache, das
vertikale Zittern des Geldes. Und ich werde
die Transparenz vom Parlament kontrollieren, wie bei dieser Sekte und allen anderen, die
wir bereits besprochen haben. Okay? So können wir ein normales Streudiagramm
erstellen
und wir können ein Jitterdiagramm verwenden, um ein Jitterdiagramm
zu erstellen
99. Bar-Plot und Hostogramm: Hallo und willkommen zurück. In dieser Vorlesung
werden wir uns also mit zwei weiteren
wichtigen Plotten befassen. Die Dinge sind wie ein
Balkendiagramm und dann sehen
wir das Histogramm Dies sind also zwei
wichtige
Routing-Techniken , die Art der Diagramme. Lassen Sie mich
Ihnen zunächst sagen, was Barplot ist. Das Balkendiagramm wird auch als Balkendiagramm
bezeichnet und es wird auch als
Säulendiagramm bezeichnet , da
es für keine der beiden Spalten gilt Okay? Und es ist eine Art der Visualisierung, die kategorische Daten
darstellt Du machst rechteckige Balken. Jeder Balken
entspricht einer bestimmten Kategorie. Und die Höhe oder Länge
des Balkens steht für
die Häufigkeit, Anzahl oder den
Anteil dieser Kategorie. Balkendiagramme werden häufig
verwendet, um
verschiedene Kategorien zu vergleichen oder veranschaulichen, wie Saudi-Arabien diese Gruppendaten
dargestellt hat. wird also grundsätzlich ein Balkendiagramm verwendet Für die kategorischen Daten Okay, lassen Sie mich Ihnen sagen, wie wir das
GD-Plotpaket machen können, das wir verwenden werden. Wir haben es bereits installiert. Falls Sie es nicht installiert haben, installieren Sie es mithilfe von
install.packages. Und dann hat es das nicht getan. Und dann war es eine riesige
IT-Bibliothek, ggplot2. Und wir werden das einfach ausführen. Es tut uns leid. Okay, dann ist es soweit, für diese Übung verwenden wir
den Diamantendatensatz. Okay? Dies ist also ein integrierter Datensatz
im GG-Plot zum Laden von Daten. Um diese Daten
in diesen Datensatz zu laden, müssen
wir Daten und dann den
Datensatznamen verwenden , also Diamanten. Wenn Sie also auf
diesen Diamantendatensatz klicken, können
Sie die Karotte
des Diamanten sehen und dann den Schliff, dann Farbe, Reinheit, Tiefe ,
Tabellenpreis, x, y, z. Das
sind die Spalten
im Datensatz. Es gibt 53.009, 40 Einträge in diesem Datensatz und insgesamt
zehn Spalten sind Das ist also ein großer
Gott, er tut es. Und jetzt besteht Schritt zwei darin, ein Balkendiagramm zu
erstellen und zu zeichnen. Um ein Balkendiagramm zu erstellen, verwenden
wir einfach die GG-Plot-Funktion
und hier geben wir ihnen,
was geben wir Diamant
den Datensatznamen, dann ist
ästhetisches X gleich Cut-Will-Spalte. Sie können hier sehen, dass die Spalte die Spalte auf der X-Achse
ist. Und dann
werden Genom und
Escobar-Funktion verwendet, um ein Balkendiagramm zu erstellen Lassen Sie uns das ausführen
und das Ergebnis sehen. Jetzt können Sie hier auf
der X-Achse das Band da oben sehen, und auf der Y-Achse automatisch die Anzahl der Zahlen wird
automatisch die Anzahl der Zahlen
für diesen Schnitt angezeigt. So fair, gut, sehr gut. Erstklassige und ideale Warentypen, die in unserem Datensatz
verfügbar sind. Sie können hier im Datensatz sehen, gut ideal Premium, gute Prämie, sehr Weltausstellung, sehr gut. Ideale Prämie.
Das hat mir nicht gefallen. Okay, jetzt können wir sehen, dass
unser Balkendiagramm fertig ist. Um ein Balkendiagramm zu erstellen, beschäftigen
wir uns mit dieser
Funktion Genom-Atlasgruppe, Balken im GG-Plot und Ästhetik, Religion x ist gleich Cut, also wird es das
Säulen- oder Balkendiagramm verwenden. Wir verwenden das GG-Plot aus
dem zentralen
Bildslider-GG-Plotobjekt und
spezifizieren den Datensatz Hat diese Diamanten nicht. Und ästhetische Funktion. Inside GG Plot definierte die ästhetische Abbildung
mit gut-Map
zur X-Achse und Geom Underscore Balkenfunktionen als
Balken zum Plot,
wodurch das wodurch das Okay, als Nächstes können
wir
dieses Balkendiagramm oder
Balkendiagramm anpassen , indem wir
die Funktion Geom-Balken im Inneren verwenden die Funktion Geom-Balken im Inneren , damit wir die vier Diesel
gleich füllen können ,
sodass es nachgefüllt wird Und hier ist x gleich
ausschneiden und füllen wird
mit der Klarheit gefüllt. Also verwenden wir die X-Achse, um
den geschnittenen Typ von Gott darzustellen, und wir füllen die
Flasche mit der Klarheit. Also je mehr diese Klarheit, es wird Freunde
mit ihnen oder Farbe entfernen. Okay? Und dann Geom Underscore Bar
für abweichende Meinungen. Und dann Labore. Dies ergibt den Titel
für das gesamte Balkendiagramm, das
Balkendiagramm der
Diamantschlifffrequenz und der X-Achse, wir geben den Namen Schnitt und für die Y-Achse geben Und dann Team, du verlierst minimal. Okay, lassen Sie uns das ausführen. Jetzt können Sie hier sehen, dass es
voller Entenklarheit ist. Klarheit ist so. Die Klarheit wurde mit
dunklen Farben,
Gelb, Grün,
Hellgrün, Blau und Blau erreicht. Okay. Also so Wir fügen innerhalb
der ästhetischen Funktion ein
Argument für die Feldklarheit hinzu, um
die Balken zu füllen , die auf der
Reinheit des Diamanten angebracht sind. Das schlechte, ordentliche
Verlängerte ging in die Geom-Leiste, tippt auf den Boden,
wodurch es einfacher ist, die Proportionen zu
vergleichen Das ist also einer von oben, das ist der riesige neben dem Spielfeld. Okay. Du schickst Leute, um zu
besetzen. Und dann funktionieren die Labore. Wir fügen den Titel des Balkendiagramms und
die
Zugriffsebenen hinzu und Tim Minimal,
erstellen ein düsteres, minimalistisches
Team für die Handlung Jetzt kommt das Histogramm. Histogramm ist also eine
grafische Darstellung der Verteilung
kontinuierlicher numerischer Daten Jetzt haben wir also, wir haben das Balkendiagramm
mit den einzelnen
kategorischen Daten gesehen mit den einzelnen
kategorischen Daten Und das Histogramm ist für
kontinuierliche oder numerische Daten. Es besteht aus Topsy Regia-Balken,
wobei jeder Balken für einen bestimmten Wertebereich oder
ein bestimmtes
Wertewesen steht Wertebereich oder
ein bestimmtes
Wertewesen Und die Höhe
des Balkens gibt an , mit welcher Frequenz oder viele Datenpunkte Pauling in diesen Bereich
fallen Histogramm gibt einen Einblick in die zentrale Tendenz
und verteilt die Daten, sodass die visuelle Analyse
der Verteilung aufeinander Hier dreht sich also alles um das Histogramm. Lass uns einen erstellen. Um ein Histogramm zu erstellen, verwenden
wir ein GG-Plot aus
Sin- und Datensatzdiamanten Aesthetic x entspricht dem Preis. Also auf der X-Achse zeichnen wir
den Preis und dann die Funktion Geom Underscore
Histogramm In der GG-Handlung. Das Histogramm. Histogramm für die
Feldbreite ergibt 500, und dann Labore für die Angabe der
Beschriftungen und der Titelleiste,
der Balken, unseres Titels weiter,
aber Und dann
verwendet das Team Schwarz und Weiß. Okay, lassen Sie uns das ausführen. Das ist das Histogramm. Sie können den Preis auf der
X-Achse und die Frequenz hier sehen, Preise
für zusätzliche Rohdiamanten. Also hier modifizieren wir die
X-Achse für diesen Preis. Und Yom unterstreicht die
Histogramm-Funktion, füge die Charge dem Blut hinzu und
erstelle
das Histogramm ohne
Wundkontrolle der breiten
Datenablagen im Wenn wir das also auf 100 setzen, schauen wir uns die Änderungen an. Die Breite wird reduziert. Wenn ich ein Tao Qian mache, wird das Rot erhöht Also 400 gemeldet. Okay. So
erstellen wir ein Balkendiagramm und Histogramme, um
ein wenig mehr über
Balkendiagramme und Instagram zu erfahren ein wenig mehr über
Balkendiagramme und Die wichtigsten Unterschiede
zwischen den Balkendiagrammen und Histogrammen werde ich in
Bezug auf das von mir gekaufte Blut, die
Platzierung, das Modell, die
Präsentation und die Anwendungsfälle erkennen ich in
Bezug auf das von mir gekaufte Blut, die
Platzierung, das Modell, die
Präsentation und die Anwendungsfälle In Bezug auf den Datentyp eignen sich
Balkendiagramme also für kategorische Daten, wobei jeder Balken
die Kategorie oder Gruppe darstellt, wohingegen Histogramme
für kontinuierliche numerische Daten zugelassen sind für kontinuierliche Das ist also schon ein entscheidender
Unterschied, denn Datentyp, die Datentyp-Balkendiagramme für
kategorische Daten und für numerische Daten oder
kontinuierliche Daten, wir Histogrammbalken stellen diese
Wertebereiche oder Intervalle dar. Während in Bar, Plot, Balken die
Kategorie oder Gruppe darstellt. In Bezug auf die
Platzierung der Balken im Balkendiagramm sind
die Balken in der Regel
sogar gleichmäßig entlang X-Achse angeordnet, wobei zwischen den
einzelnen Balken eine Lücke besteht, um
verschiedene Kategorien darzustellen Im Histogramm sind die Balken,
die für Jugendliche unterschiedlich sind und
sich
berühren , da sie
kontinuierliche Bereiche oder
Intervalle von Beta-Werten
entlang der X-Achse darstellen Intervalle von Beta-Werten
entlang der X-Achse Das ist also ein weiterer
sehr klarer Unterschied. Wenn Sie den Balken sehen können, Diagramme, die Balken, die sich
entlang der X-Achse
befinden und zwischen den
einzelnen Balken eine Lücke besteht und die
verschiedene Kategorien repräsentieren Okay, und er verwaltete Programme,
Indizes, die auf kontinuierlichen
Daten aufgezeichnet wurden, numerische Daten Es wird keine Lücke zwischen
den Balken geben und sie
werden nebeneinander liegen. Weil der andere brillante, dass kontinuierliche Bereiche in Dumps der Datendarstellung
in einem Balkendiagramm, die Höhe oder Länge jedes Balkens eine proportionale
spezifische Kategorie
des
Frequenzzählers darstellt proportionale
spezifische Kategorie
des
Frequenzzählers Im Histogramm gibt die
Höhe jedes Balkens an, dass die Häufigkeit oder
der Countup-Wert von Datenpunkten, die in den bestimmten Bereich fallen, grün sind Das ist also, hier
geht es um ein Histogramm, es geht
um die Anzahl
der Zählungen, die
in einem bestimmten Bereich fallen Wohingegen das Barplot von
der Anzahl der Zählungen in
einer bestimmten Kategorie spricht der Anzahl der Zählungen in
einer bestimmten Kategorie Und die große Vermutung,
die
jetzt sehr klar ist , dass Balkendiagramme
häufig verwendet werden , um
verschiedene Kategorien zu vergleichen, konkrete, diskrete, tut mir leid, diskrete
Daten
anzuzeigen oder
die Beziehung zwischen
kategorischen
Variablen, Variablen, zu veranschaulichen die Beziehung zwischen kategorischen
Variablen, Variablen, Histogramme werden dagegen
häufig verwendet, um die Verteilung zu visualisieren
oder Muster,
zentrale Tendenzen und Streuungen kontinuierlicher
numerischer Daten zu identifizieren zentrale Tendenzen und Streuungen kontinuierlicher
numerischer Dies sind also die Hauptunterschiede zwischen dem Balkendiagramm
und einem Histogramm Ich hoffe, es hilft
Ihnen beim Verständnis und Sie werden
wissen, dass wir das Balkendiagramm
verwenden sollen und wo das
Histogramm zu verwenden ist
100. Kreisdiagramm mit ggplot2: Hallo und willkommen. In dieser Vorlesung werden
wir also etwas Ungewöhnliches tun, was wir nicht tun. Gg plant zu viel, das wäre ziemlich
interessant. Also, was ich hier machen werde, ich werde ein
Kreisdiagramm mit GG-Plot erstellen. Und bevor ich das tue,
lass es mich dir sagen. Gg Plot Two ist
in erster Linie für die
Erstellung von Schichten und Grammatik
von Grafiken konzipiert Erstellung von Schichten und Grammatik . Bitbasierte Plots haben
kein integriertes
Geom für Kreisdiagramme GG Plot
unterstützt also kein Bikarb. Wir können jedoch immer noch ein Kreisdiagramm mit
g, g-Diagramm zwei
erstellen, indem wir
die Daten manipulieren und
andere Geome verwenden Schauen wir uns also das Beispiel an. Also Schritt eins, lade die Pakete
und erstelle Beispieldaten. Also hier verwenden wir den
blockierten Download, den wir nicht gemacht haben. Und dann benutzen wir die Bibliothek. Hast du zwei geplündert? Und dann erstellen
wir Beispieldaten. Dazu verwenden wir die Kategorie
data.frame und die ReLU-Kategorien ABCD
und der Wert ist dieser Vektor C,
13., 20., 20, sei 35 Okay, lassen Sie uns
die Beispieldaten berechnen. Das sind kategorische
Daten, okay? Spielen Sie jetzt mit Spielzeugen und
manipulieren Sie die Daten für die Erstellung eines Kreisdiagramms Also hier, was wir
tun werden, wir berechnen den Anteil für
jede Kategorie. Also Daten, wenn Sie
eine Variable erstellen, wird dieser Dialog gelb angezeigt und dann die Daten
transformiert. Und die Daten werden erneut für
die Transformation übergeben, wir berechnen
den Anteil ok, Wert geteilt durch die Summe. Nun, okay, also lass uns das machen. Und jetzt können Sie hier sehen, dass
die Daten so sind. Nun, Kategorie Wertversprechen,
wir haben eine Proportion geschaffen, wir haben eine
richtige Proportion geschaffen Wir haben geschaffen, okay? Sortiere nun die Daten in absteigender Reihenfolge nach
oben Dafür
verwenden wir Data Order, Data. Der Dollargewinn wird. Wir möchten nach der
YouTube-Requisite sortieren , da dies die
einzigen numerischen Daten sind Also zu diesem Zweck ist es wahr
, abzunehmen. Okay? Es wird in
absteigender Reihenfolge sein. Also lass uns das machen. Nun, wenn wir uns die Daten ansehen, okay, das ist eine neue Bestellung. Schritt drei ist nun
das Erstellen des Kreisdiagramms, des
gestapelten Balkendiagramms Okay? Also GG plant zwei, dann geben wir die Daten weiter. Dann
verwenden wir Ästhetik x, verwenden nichts. Warum? Wir verwenden Requisiten
und füllen die Kategorie aus, okay? Nach Kategorie. Und dann gibt die Geom-Bar, menschliche Escobar-Funktion,
die Statistik
entspricht der Identität und die
Breite gibt eine Welcher Polar
ergibt dann Y, beginnend bei Null. Und dann musst du diesen Titel
wirklich behalten. Mein Diagramm und fülle
mit der Kategorie. Das Team wird das Theme
Underscore Wide verwenden. Also lass uns sehen. Weißt du, wir haben ein Balkendiagramm das die Kategorie
zeigt und das
sind die Leads. Dieses Kreisdiagramm, der Kuchen ist dieser. Diese werden anhand der Proportionen gezeichnet , die
wir erstellt haben. Okay? Lassen Sie uns, lassen Sie mich Ihnen das ein bisschen
näher erklären, damit ich Ihnen mehr Klarheit gebe. Bei diesem Ansatz wird also eine Woche und das Kreisdiagramm
in ein gestapeltes Balkendiagramm umgewandelt Durch Manipulation der Daten berechnen
wir den
Anteil, indem wir
jeden Wert durch die Summe aller Werte dividieren jeden Wert durch die Summe aller Werte Die Funktion „Geom-Unterstriche mit den Statistiken
entspricht Erstellen Sie die gestapelten
Balken
mit dem höchsten entsprechenden
Produktanteil Okay? Und dann unterstrich Quad die
polare Funktion. Funktion Was es tun wird,
wandelt das Balkendiagramm in eine kreisförmige Form um, um ein Kreisdiagramm
nachzuahmen Okay, und dann
geben die Labore den Titel und die Legende
und das Thema unterstreichen Wortschriftarten und entfernen den unnötigen Hintergrund und Mensch sorgt für ein
sauberes Erscheinungsbild So erstellen wir mit diesen beiden ein
Kreisdiagramm. Und ich gebe Ihnen hier
einen Haftungsausschluss. Wie ich bereits sagte, wird
das GG-Plot nicht pro Kreisdiagramm unterstützt,
da es vor Ort selbst erstellte Grafiken erstellt wurden. Sie müssen also beachten, dass Kreisdiagramme generell
nicht für Daten empfohlen werden. Wir haben einiges gelernt
, weil es schwierig war genau wahrzunehmen Unterschiede
in den Winkeln
in den Bereichen der Scheiben Oder dass Diagrammtypen wie Balkendiagramme oder gestapelte
Balkendiagramme oft
effektiver für
die Darstellung der vertikalen Daten sind effektiver für
die Darstellung der vertikalen Daten Wenn also kategorische
Daten vorhanden sind, können
wir sie nicht verwenden, obwohl wir das Bus-Kreisdiagramm
nicht verwendet haben Stattdessen können wir die Bug-Jars
oder die gestapelten Balkendiagramme verwenden oder die gestapelten Balkendiagramme Okay? Ich hoffe also, dass dies ihrem Lernen
einen gewissen Mehrwert verleiht
101. Linienplots mit ggplot2: Hallo und willkommen zurück. In dieser Vorlesung werden
wir untersuchen, wie man
Liniendiagramme mit GG-Plot
in unserer Programmierung erstellt . Liniendiagramme eignen sich daher zur Visualisierung von Trends und zur
Strukturierung kontinuierlicher Daten,
kontinuierlicher Anfügung von
Zeitreihendaten kontinuierlicher Anfügung von
Zeitreihendaten Und wir werden lernen, einfache Liniendiagramme zu
erstellen, mehrere Linien
auf derselben Zeichnung zu zeichnen und das
Aussehen der Linien anzupassen. Also, worüber wir im Grunde lernen
werden, etwas über die Liniendiagramme zu lernen. Liniendiagramme, weshalb wir sie verwenden, um Trends und
Muster in kontinuierlichen Daten zu visualisieren Liniendiagramme, wir können uns nicht einmal die kategorischen Daten
leisten. Wir können es weiter verwenden. Kontinuierliche Daten, numerische Daten oder was für ein kontinuierlicher Bereich. Die Reichweite sollte
ebenfalls kontinuierlich sein. Und das beste Beispiel
sind Zeitreihendaten. Und wir werden auch lernen
, wie man einfache Liniendiagramme erstellt. Und wir werden sehen, wir werden auch sehen, wie wir ein einfaches Liniendiagramm erstellen. Wie wir mehrere
Linien auf demselben Grundstück zeichnen können. Und wie können wir
das Aussehen von Daumenlichtern anpassen . Es gibt drei Linien
auf derselben Handlung, wie wir jetzt in einigen Linien wie Farben
oder Geschlecht direkt nach
oben gehen können , okay, also lass uns anfangen. Als Erstes
erstellen Sie also ein grundlegendes Liniendiagramm. Um einfache Liniendiagramme zu erstellen, haben
wir also einen Datensatz mit
zwei kontinuierlichen Variablen. In der Regel bieten sie Ausgänge. Das werden die unabhängige
Variable und die Y-Achse sein, das werden die
abhängigen Variablen sein Okay? Also, was sind die beiden
Dinge, die wir brauchen? Wir brauchen diesen Datensatz. Offensichtlich benötigen wir einen Datensatz. Und Datensätze hätten mindestens zwei
kontinuierliche Variablen Und in der Regel ist die
X-Achse
die unabhängige Variable und Y-Achse stellt
die abhängigen Variablen dar Okay? Unser Datensatz mit zwei
kontinuierlichen Variablen,
einer für Geschlecht,
unabhängigen Daten,
wertvollen und einer anderen,
wird also einer für Geschlecht,
unabhängigen Daten, davon abhängen. So unabhängig,
brillant auf der Y-Achse. Also, was
ich dafür verwenden werde, werde
ich
ein einfaches Diagramm
einer Linie erstellen ein einfaches Diagramm
einer , die die Sinuskurve
darstellt. Okay, bis dahin lassen Sie uns
Stichproben für die von mir
erstellten Leitfäden nehmen, die von der X-Achse
abhängig sind, jeden Fall von der
unabhängigen Variablen Also hier, was ich
tun werde, ich erkläre es. Nun, ich erstelle mit
unserer Sequenz Fontan. Und er hatte eine Sequenz, ich gebe Null Komma zwei in Pi
und links oder Tochter, ich gebe hundert Hockey Das erzeugt also die
Staub-Zufallsvariable X, die Pop-Sequenz und dann Y, die abhängige Variable, die von der X-Achse abhängt Und da Sie nicht nach Kanada
wollen, gleiche Bordsteinkante, die Sinusfunktion Sie und beide die
X-Variable hier. Also für jedes Ausatmen, also für jedes Excel, wird
eine Kurve zugewiesen, diese Algebra und auf
der Y-Achse Also X, ich verwende die
Sequenzfunktion, und hier übergebe ich
das Nullkomma 2,2 Pi und verlängere oder bezweifle,
dass ich hundert und diesen X-Wert gebe , wenn ich zwei Sinusfunktionen
übergebe Das führte also zur Sünde, Gott. Und dieses Mal, was auch immer, es wird auf dem X basieren. X ist
also die unabhängige Variable und abhängige Variablen, denn warum hängt die Wertschöpfung von
dem X ab, das wir
an die Sinusfunktion übergeben Warum ist also die abhängige Variable und X eine unabhängige Variable? Auf diese Weise bekommen wir die X und Y.
Nun, die Basic Line
Plots ggplot2-Bibliothek, also haben wir sie bereits installiert Also lass mich
dir zuerst diese Linie geben, zwei Zeilen, damit Okay. Okay. Also siehe schreien, wenn wir versuchen, die X-Werte
zu drucken, also sieh dir den X-Wert der Daten an, den
wir mit Hilfe
der
Sequenzfunktion versuchen Hilfe
der
Sequenzfunktion Und wenn ich Y drucke, dann wird es der Y-Wert sein, der vom X-Wert
abhängt. Mit Hilfe dieses Sinus
von X wird also der Y-Wert ermittelt
, der am nächsten Freitag der ist Nun, jetzt haben wir die Und wir haben die Wegpunkte Okay, als Nächstes verwenden wir
die Bibliothek GG Plot Two. Und dann werde ich versuchen, Liniendiagramme zu konfigurieren. Kann jede Zeile, geschweige denn die GG-Plotfunktion. Beide Daten. Du gehst zu data.frame. Und er hatte übergeben, dass die X- und
Y-Koordinaten X- und Y-Werte sind. Annuli sind die
ästhetische Funktion. Und exit ist gleich X
und Y ist gleich Y. Und außerdem verwende ich hier das
Allyl, das versucht wurde, eine Linie zu zeichnen, also verwende ich den
Geom-Unterstrich Lassen Sie mich das zu C.
C. bringen, und jetzt wird mir Golf
zugewiesen. Also auf der X-Achse
hundert Verschmelzung, nun, die Darstellung der
Exploits und Y und Y. Auf diese Weise erreichen wir
dieselbe Kurve, die auf X und Y gemacht wurde.
Also X ist der unabhängige
glaubwürdige und Y der abhängige. Also X ist der unabhängige
glaubwürdige und Y der abhängige Für jedes X gibt es einen Y-Wert. Das ist also dieselbe
Kurve, die wir bekommen. Die Art und Weise, wie wir
Liniendiagramme einfach auflisten können. Einfache, einfache Liniendiagramme, um sie in den Kosinus zu
bringen, gehen wie. Also. Wenn Sie möchten, können Sie noch einmal
zur Erklärung gehen. X-Komma
Y von data.frame erstellt also einen DataFrame Also X- und Y-Variablen, die wir hier erstellt
haben, indem die Sequenz Lungen verwendet
und sie dann erneut geöffnet haben, und X-Werte und mein Passagier
zusätzlich die Sinusfunktion Wir haben die Y
- und X- und Y-Werte. Wir haben gesehen, wie ich Wasser hinzugefügt habe. Und dann haben wir
die DD-Bauteilbibliothek verwendet und Sie haben Plot und Data ist
gleich dem
Datenpunktrahmen X Komma Y nicht erhalten .
Dadurch wird ein DataFrame mit X- und Y-Variablen erstellt Und dann die ästhetische
Funktion, X ist gleich XY. Mach einfach so,
was das bewirken wird, dieses echte ästhetische Mapping. X wird also die X als Makro darstellen
und Y wird die Y-Achse abbilden. Überprüfen Sie dann die Funktion „Geom
Underscore Line , um die Linie zu den Diagrammen hinzuzufügen Okay? Also das wird erledigt, Zeile. Okay, das ist also die Erklärung für die Erstellung dieser
einfachen Liniendiagramme UG, X und Y, das Beispiel, das wir
später erstellt haben. Jetzt werden wir sehen, wie wir
mehrere Linien
auf demselben Block zeichnen können . Okay? Also für diese Vorlesung, okay. Okay, jetzt können wir dem Diagramm
mehrere Linien hinzufügen indem wir dafür sorgen, dass verschiedene
Datensätze die Daten mithilfe
einer Gruppierungsvariablen
gruppieren Lassen Sie uns nun sowohl die Sinus- als auch die
Kosinuskurve auf demselben Diagramm darstellen Also hier werde ich Sinus- und
Kosinuskurve auf demselben Diagramm darstellen X wird also dieselbe und doch
dieselbe Sequenzfunktion sein, Doodle, ich werde kein
Land kaufen, dieser Ausfall heißt 100 Der X-Wert wird hier also derselbe
sein. Warum Sinus und Weiß
diese beiden Variablen häkeln, Alkyd hier und hier, ich übergebe das Ich hole mir das
Y-Unterstrichzeichen Values. Und Y unterstreicht
Kosten wird an
die Kostenfunktion weitergegeben .
cos von X gibt uns die Möglichkeit,
Kostenwerte zu unterstreichen. Okay? Auf diese Weise mache ich While-Schleifen
für jedes X. Also hat jeder X-Punkt einen Sinus von X und Maniok einen
X-Wert, oder Sudbury für X haben wir zwei
Y-Werte, Sinus und Kosinus. Und diese beiden Punkte, ich werde
auf der gleichen Handlung aufbauen. Um das Liniendiagramm
mit den mehreren Linien zu erstellen,
verwende ich also die GG-Plot-Funktion. Und hier kannst du dir das Reha-GG-Grundstück ansehen
. Und wir haben bei den Daten, data.frame X Komma
Y, weil er hatte, warum es nur eins war Also haben wir gemappt, dass VX
gleich X und Y im Quadrat Y ist. Hier, wenn Sie die Und wir verwenden hier den
Plus-Operator. Und dann verwenden wir die Funktion Geom
Underscore Line. Und in der Zeilenfunktion übergeben
wir die Daten. Rahmen. Daten entsprechen dem X-Komma Y von
data.frame.
Hier ist Y ein Y-Unterstrich, oder Hier haben wir also sogar das
X-Komma Y, einfach weil nur ein Weg der einzige
war Warum war es da? Da gibt es zwei Y-Werte. Also hier gebe ich das X-Komma Y, X wird dasselbe sein Also Gamma, warum jedes Quartal, warum unterstreichen Zeichen und dann wird die ästhetische
Funktion X ist gleich X und
Y ist gleich Y. Und Seitliche Gaben, Zeichen Und dann machen wir
dasselbe mit der Warum-Frage. Daten sind also gleich data.frame X wird der X- und Y-Leser sein Warum kostet ein Endoskop? Und ästhetisches X heißt
Reaktionen OH, oder das Warum. Und Farbe Es heißt Rekursion. Hier wird der Titel
Azure-Sinus- und Kosinuskurven angegeben. Und X ist gleich dem Großbuchstaben
X und Y ist gleich großen Y-Farbfunktion und
Tim wird das Minimum sein. Lassen Sie mich das noch einmal durchgehen
und das Äußere sehen. Sehen Sie hier, jetzt haben wir die
Sinus- und Kosinuskurve. Das ist die Temp1 hier. Und dann haben wir die Sinus- und Kosinuslinien im Themenplot Wir sehen uns, es gibt jetzt
zwei Grundstücke. Zwei Zeilen. Einer repräsentiert unsere Scham
und ein anderer ist brillant
darin. Auf diese Weise können wir
mehrere Linien auf
demselben Block zeichnen. Also wiederhole ich es einfach noch einmal. Nun, hier, was wir getan haben, wir haben ein X erstellt,
indem wir eine Sequenz verwendet haben, die
wir bereits verwendet haben. Indem Sie das grundlegende Liniendiagramm erstellen. Folge und Nullkomma zwei in Pi und dann
Punkt, Punkt Hundert Und warum hier Unterstreichungen in? Weil wir
die Sinus- und Kosinuslinien in derselben Grafik darstellen werden. Ich brauche also zwei Punkte, Y-Punkte, um zu erklären, warum Unterstrich Sünde der
Sinus von X und Y Unterstrich ist Kosinus ist Y unterstriche Kosten sind die
Kosten von ZR Cosinus von X.
Also diese, diese, diese könnten diese drei Punkte betreffen
. X-Komma Y mit Vorzeichen und
X-Komma Y ist gleich. Und jetzt muss ich diese
Punkte aufzeichnen. Also für den Datenwert
die GG-Plot-Funktion. Und hier bist du aufgestanden und hast
den Datenrahmen an die
GG-Plot-Funktion übergeben,
den Plus-Operator, um alles zu
übergeben Und ich verwende die Funktion „Geom
Underscore Line“. Und doch sind Beraterdaten
gleich data.frame X Komma Y entspricht
Weckzeichen und Das Wachs ist gleich X, Y ist gleich weiß und farbig. Aber die allergische Farbe ist
gleich, okay? Und die Farbe entspricht unserem Glanz. Und hier das Gleiche. Nur YOLO wird Nicaea schwächen. Und dann gibt der Titel den Laboren die
Funktion, die Zeit anzugeben. Und X ist gleich X
und Y ist gleich der
Gewichtung einer
Seitensichtfunktion und eines Minimums. Und wenn wir rennen, bekommen wir diese Anmeldung oder beschämt
los, wenn die gleiche Handlung Ich habe also bereits erklärt wir zwei separate
Datensätze für Sinus
- und Kosinuskurve erstellen , indem wir
data.frame X-Komma Y, X-Komma Hawaii,
Hawaii-Zeichen und X-Komma Y verwenden.
Y ist gleich X Komma Y. Warum kostet das, okay? , dass
wir zwei separate
Datensätze für Sinus
- und Kosinuskurve erstellen, indem wir
data.frame X-Komma Y,
X-Komma Hawaii,
Hawaii-Zeichen und X-Komma Y verwenden.
Y ist gleich X Komma Y. Warum kostet das, okay? Und dann ist jeder eine Yom-Line-Ebene. Hier
erstellen wir im Grunde zwei Ebenen von Ebenen mit getrennten Linien. Okay? Jede Funktion „Geom-Linie,
Geom-Unterstrich erzeugt also eine Ebene,
die einer separaten Linie
entspricht.
Okay, ein Parkzeichen
und eines Wir verwenden die Farbästhetik
, um sie zu unterscheiden. Und dann verwenden
wir die Laborfunktion, die wir verwenden um den Titel und die
Achse der überschüssigen Werte festzulegen, okay? Und Team unterstreicht minimalistisches, gepflegtes Gesamtbild
der Handlung auf eine Minimalität Als Nächstes werden
wir versuchen, die Linieneigenschaften anzupassen. Jetzt können wir
die verschiedenen Eigenschaften von
Linien wie Farbe,
Linie, Typ und Größe anpassen die verschiedenen Eigenschaften von
Linien wie Farbe, . Hier werden die Beispieldaten also dieselbe Sequenz aus
San Values haben und
die X-Where-Schleife
neu erstellen Und dann werden wir herausfinden,
warum Vorzeichen und Y die Kosten unterstreichen indem wir
hier Sinus- und
Kosinusfunktionen verwenden und den
zusätzlichen illusorischen Ausgang an
den unabhängigen weitergeben, wo
sie sowieso, Vorzeichen
unterstreichen und drahtlos gehen unterstreichen Häkeln wird die
abhängige Variable sein da diese
Werte vom X abhängen. Und hier erstellen wir ein
Liniendiagramm mit Anpassungen Sie fügen hier Plot plus
Geomline hinzu, DataFrames, dasselbe,
was wir Und hier verwenden wir Farben. Es wird ein Zeichen für einen
Linientyp sein, der
hier als
Ganzkörper bezeichnet wird und eine Größe von 1,5 ergibt. Geben Sie also durchgezogene Linie ein und
sagen Sie es, aber ich verwende Größe, um die
Dicke der Linie zu bestimmen. Okay? Also lasse ich 1,5 hier stehen. Und das Gleiche
gilt für eine weiße Wäsche. Und dann wird
alles andere gleich sein. Titel des Labors. X ist gleich XY ist
gleich I Farbe. Also geben wir dir
das, führen wir das und jetzt bekommen wir sie. Das ist gepunktet und das
ist diese Dicke. Okay. Zusammen haben wir den
Linientyp als Dashboard fertig, es kommt als gestrichelte Linie Und hier haben wir deinen soliden, also
als solide Unterstützung. Sie schaffen es auf 111,5. Und wenn ich das noch einmal durchführe. Schauen wir uns also an, was Sie hier sehen. Jetzt. Die gestrichelte Linie kommt. Hier entlang. Wir können die Dicke
der Linie erhöhen oder verringern. Okay, also ich hoffe es,
ich hoffe, dieser Teil ist klar,
wie man ein Liniendiagramm
in ein GG-Plot erstellt , bis
zur nächsten Vorlesung.
102. Datenvisualisierung mit ggplot2: Hallo und willkommen zurück. In der vorherigen Vorlesung haben
wir gesehen, wie Liniendiagramme
erstellt werden. Und wir haben auch
gesehen, wie wir
mehrere Liniendiagramme zeichnen und wie wir die Liniendiagramme anpassen
können. In dieser Vorlesung werden
wir einige weitere Daten erstellen,
GG-Plot hinzufügen, um die Programmierung hinzuzufügen. Also, was das ist, ich werde
unseren Datensatz aufwärmen, einen Namen,
ein paar Namen und das Geschlecht,
männlich, weiblich, und dann ihr
Alter und das Testergebnis enthalten wird ein paar Namen und das Geschlecht,
männlich, . Das Ergebnis wird
100 Mal wiederholt und natürlich, okay, und darauf basierend versuchen
wir, diese Daten zu visualisieren, die Name,
Alter, Geschlecht und Testergebnis enthalten Und wir werden versuchen,
diesen Datensatz mit Hilfe
von Radiusdiagrammen oder
Live-in-GG-Plots zu visualisieren diesen Datensatz mit Hilfe , und wir werden versuchen,
Anpassungen daran vorzunehmen,
wie zum Beispiel wirklich facettierte Und wir werden versuchen,
mehrere Dinge für
diese einfachen Datensätze zu verwenden mehrere Dinge für
diese einfachen Datensätze Also verwende ich den
einfachen Datensatz
, damit jeder ihn verstehen kann. Lassen Sie mich das vorher klären. Starten wir also die
Datenvisualisierung mit ggplot2. Und mit diesem einfachen Datensatz werden
wir versuchen, besser zu
verstehen, was wir bisher beim ggplot2-Hogging
in Guinea gelernt haben Dadurch werden offensichtlich die notwendigen Bibliotheken
geladen, das ist GG-Plot zwei. Also library und wir geben die
Bucket-Namenbibliothek namens GG-Plot weiter. Als Nächstes dendritieren wir den Beispieldatensatz
, den wir normalerweise für diese
Übung verwenden Okay, also hier verwende ich
Set Seed Eins-Zwei-Drei. Und das dient der
Reproduzierbarkeit. Reproduzierbarkeit des Saatguts.
Denn sehen Sie, wir werden sample verwenden, indem wir die Beispielfunktion
verwenden. Und es wird 18
bis 25 Jahre alt sein. Es wird sich um 18-25 bewegen. Das wird also der
Zufallsgenerator sein. Was ich also tun möchte, wann immer ich diese Beispieldaten verwenden
möchte, wenn ich set.seed verwende, wird es funktionieren, die Daten
werden nicht regeneriert Es wird so sein, sobald es für diese Übung
generiert ist, wird
es wirklich dasselbe bedeuten. Es wird also
dieselben
Setup-Zufallswerte reproduzieren . Okay, soweit. set.seed reproduziert also dieselben Werte,
obwohl wir die
Beispielfunktion
erreichen, okay? Andernfalls werden, wenn Sie set.seed nicht jedes Mal
verwenden
, zufällige
neue Werte, neue Werte erstellt Okay? Also verwenden wir als erstes set.seed und dann erstellen wir
unsere Variablen students Und hier benutzt du data.frame. Und hier erstellt frame die Namensvariable
und dort wird
dieser Vektor gespeichert , der die Namen Alice,
Bob, Charlie, David, Eva, Rank,
Frank, Grace, Hannah,
Yan und Jack
enthält Bob, Charlie, David, Eva, Rank,
Frank, Grace, Hannah,
Yan und Jack Okay. Und dann erstellen wir einen weiteren Faktor, der das Geschlecht
speichert und das Geschlecht verwendet den
Vektor ja, männlich und weiblich. Okay, und Teil zehn mal zehn, okay? Zehn vor zehn und ersetze true. Verwenden Sie dann für Angel
die Stichprobe 18 bis 25. Und wie viele ich will, ich möchte Endwerte,
bis zu denen ich gelesen habe, um sie zu quantifizieren und testen, 210 Discord, möchte
ich
mit der Beispielfunktion generieren Damit erhalten wir die
Datenbeispieldatensätze. Also lass mich das erledigen. Jetzt haben wir den
Beispieldatensatz erstellt. Okay? Also sieh mal hier, wenn wir den Schüler drucken, können
wir deinen Namen,
Geschlecht und Tesco sehen Geschlecht und Tesco Also hatte er den Namen, wir haben Namen gegeben. Und das Geschlecht
wurde mithilfe
der Stichprobenfunktion
zufällig generiert . Okay? Männliche, weibliche, männliche
Zahlungen direkt vor Ort, okay? Männlich, weiblich, männlich, weiblich. Also Zufallsgenerator, die Ehemänner im Alter von 18-25 Jahren, die zufällig diesen Namen
zugewiesen wurden, und Testergebnisse wurden auch dann nämlich
generiert Auf diese Weise können wir einen
Beispieldatensatz erstellen . Als Nächstes, was ich, was ich tun möchte, möchte
ich ein Streudiagramm
zwischen diesem Zeitalter und Tesco erstellen zwischen diesem Zeitalter und Tesco Ich möchte sehen, wie
sich das Testergebnis entwickelt, je
nachdem, was ich jeweils oder
streuen
möchte, um das Ergebnis für das
entsprechende Alter Also, was ich
verwirrt bin, Streudiagramm, Alter versus Testergebnis Für diese Anspielungen
erstelle ich also ein variables Streudiagramm. Und hier verwende ich die
Funktion und übergebe den Schülerdatensatz
hier. Okay, Schüler. Und dann werde ich
eine riesige X-Achse ästhetisch gestalten und X ist
gleich H- und Ergebnis. Und Neodympunkt, ich verwende die
Geom-Punkt-Funktion, um die Punkte auf
der X - Punkte auf
der X Und dein Labor, X ist gleich und deshalb heißt es r2. Ergebnis. Und der Titel der Handlung wird der
Scatterplot sein, Alter versus Discord Und dann drucke ich
dieses Streudiagramm indem ich die Randfunktion verwende,
um es hier unten anzuzeigen Also lass es mich einfach hier behalten. Und okay. Also sehen Sie hier, jetzt haben wir hier
ein Streudiagramm, das sich auf Seite 18 bis 25 befindet, und die Y-Achse und das Zerstören
der Punktzahl, das Testergebnis Für 18 sind es also
irgendwo um die 85. Also für 18, wenn du hier gut
aussiehst. Welche Identität mit vier? Also sieh dir hier Thymidin oder bei
400 an und zeichne es auf. Hier entlang. Wir können ein Streudiagramm erstellen,
indem wir ggplot2 verwenden. Hier, auf der ästhetischen Ebene, haben
wir die X- und Y-Achse angegeben, wir haben das Testergebnis bestanden. Und wir verwenden die
Geom-Punkt-Funktion um diese Punkte auf dem Diagramm darzustellen, und Ihre Laborfunktion, wir haben X ist gleich H. Und warum es zum Testergebnis
aufgerufen wird Und enger, Streudiagramm
gegen Streudiagramm, Alter gegen Auf diese Weise können wir das
Diagramm oder das Streudiagramm erstellen. Okay, als Nächstes möchte ich
tun. Ich möchte die gleiche Erklärung geben die
ich hier geschrieben habe, und
Daten ablegen lassen , Sie können sie
durchgehen. Und wenn du willst, erkläre
ich es dir noch einmal. Hier beginnen wir also damit,
die GG-Plot-Pull-Bibliothek zu laden. Als Nächstes erstellen wir den
Beispieldatensatz, indem data.frame, den wir hier erstellt
haben, data.frame und den generierten Namen, Alter,
Geschlecht und ,
Geschlecht Und dann verwenden wir die
GG-Plot-Funktion, um das Los zu initiieren und die Daten
bereitzustellen. Studierende und Ästhetik. ästhetische Funktion X
entspricht einem Graduate von Tesco, die Variable der
X-Achse zuordnet X-Achse wird also auf der X-Achse
abgebildet
und die Score-Variable
wird der Y-Achse zugeordnet Die Funktion Geom Point wird verwendet, um dem Diagramm Punkte hinzuzufügen Diese Punkte werden dem Diagramm
hinzugefügt,
indem für
jeden Datenpunkt die Funktion Geom-Punkt, Geom-Unterstrichpunkt verwendet wird, um ein Streudiagramm zu
erstellen Und schließlich
passen wir die Beschriftungen und den Titel der Handlung
mithilfe der Labs-Funktion an. Hier
wird also die Lab-Funktion verwendet, um die Beschriftungen und
den Titel des Plots
anzupassen. Und dann verwenden wir
die Druckfunktion. Henry, unterbreche das Scatterplot, den Namen, den wir diesem Plot
zugewiesen haben, und wir geben ihn
an den Druck weiter und
der Scatterplot wird auf unserem
Un-Solo gedruckt Auf diese Weise können wir jeden von uns generierten Beispieldatensatz
im Vergleich zum Score-Wert erstellen . Als Nächstes möchte ich
die facettierte Facettierung hinzufügen die facettierte Facettierung hinzufügen Scatterplot gibt
das Testergebnis für jedes Geschlecht Okay, das wird also der erste Block
sein. Dafür erstelle ich für den ersten Schritt
ein variables
Plot-Handle, Sie fügen Plot hinzu. Und er hatte einen Benutzer.
Derselbe DataFrame Datensatz für Schüler. Ästhetisch gesehen ist You'd X gleich
X und Y gleich Tesco. Und das wird er, da ich
das viel auf der Grundlage des
jeweiligen Versa-Testergebnisses machen möchte jeweiligen Versa-Testergebnisses das für jedes Geschlecht separat. Also hier ist die Farbe riesig. Farbe wird zum Geschlecht, sodass das Geschlecht anhand der Farbe
spezifiziert wird. Und dann Geom Point. Ich habe die Punkte- und Laborfunktionen gezeichnet, die wir früher vergeben haben. Als nächstes folgen das Testergebnis und der
Titel des Herrn. Und hier, und verwende die
Facettenunterstrich-Wrap-Funktion. Und hier packe ich das ein. X1 von Mao war in der Ausschreibung enthalten. Du verwendest immer noch Geschlecht
vier, wenn ich subtrahiere, okay, also lass mich das durchgehen
und das Ergebnis sehen Okay? Also, jetzt male ich die Farbe und sehe hier, jetzt haben wir
die facettierte Handlung, Alter im Vergleich zum Testergebnis nach Geschlecht Also die X-Achse ist es wieder, und die Y-Achse ist der Todescode Aber hier
wurde unser Lord-Scatterplot in zwei Teile aufgeteilt, weiblichen und einen männlichen.
Weiblich oder weiblich. Das weibliche Geschlecht
wurde hier dargestellt. Und das für das männliche Geschlecht wurde
es hier dargestellt. Es ist also ein klarer Schnitt. Wir können das
digitale paar Minuten oder den
weiblichen Schreibtisch namens
Values und auf mir sehen . Okay. diese Weise können wir das festere Diagramm
verwenden , um nach Geschlecht
klassifizierte Daten zu verwenden. Okay? Und wir wollen wissen,
was ist mit der Erklärung? Ich wiederhole es noch einmal. Lassen Sie mich das hier kurz skizzieren. Was wir gemacht haben, so wie
wir das schon einmal gemacht haben. Wir haben die
GG-Plot-Funktion verwendet um das Diagramm zu speichern und die Daten
bereitzustellen, Studentendaten, die wir mit
der Beispielfunktion erstellt
haben. Und dann die Ästhetik. Die ästhetischen Schriften und
X entsprechen SY Squared, genannt score und Gartler Wir haben Ihre Agenda zur Zuordnung
der Altersvariablen,
die sogenannte Agenda, um die
Altersvariable der X-Achse zuzuordnen Tesco wertvoll für die Y-Achse, und speichern Sie die Farbe
der Windgeschwindigkeit auf Geschlecht Die Farbe der Punkte richtet
sich also nach der Tagesordnung. Und es gibt zwei Geschlechter. Natürlich verwendet der zweifarbige
Ehemann Rot und Blau. Okay? Das Ergebnis wird also sein, das Ergebnis in unterschiedlichen Farben für männliche und weibliche Schüler. Also wurde Cl für männlich und weiblich in den verschiedenen
Farben verwendet. Und das liegt daran, dass wir riesige Farben
haben,
die zum Geschlecht gehören, okay? Der Geom-Punkt von
Sandy bildet
den Streupunkt für
jeden Datenpunkt , den
wir bereits gesehen haben Und wir passen die Level, den Titel
und die Handlung an. Du hattest nicht die letzte Funktion
, die wir bereits kennen. Dann unterstreicht die Facette Lab. Und hier werden wir
die geschlechtsspezifische Dysfunktion durchgehen ,
um separate Panels zu erstellen, Facetten auf diesen beiden
Panels, männlich und weiblich Sie können hier sehen,
dass dies Besuche genannt werden. Facette,
Unterstrichumschlag erstellt zwei separate Felder, die
zunächst für jedes Geschlecht festgelegt werden Hier haben wir also das Geschlecht überschritten. Aufgrund des Geschlechts
eskalierte es also zu zwei Facetten,
zwei Panels zur
Darstellung der Punkte Okay? Das bedeutet, dass die Handlung in zwei Unterhandlungen aufgeteilt
wird Okay? Wenn es drei
Geschlechter wie männlich, weiblich und neutral gibt, wird
es
in drei Teile aufgeteilt , okay Nebenhandlungen. Eine Firma
Mileage to Runtime, eine weitere Studentinnen Und die Druckfunktion wird verwendet , um das
Display-Streudiagramm auf dem Bildschirm Okay, das ist also die Erklärung
für das Erstellen eines Streudiagramms
und der Facility-Blockierung Als Nächstes erstellen
wir ein Balkendiagramm. Und hier verwenden wir Gender. Was wir grafisch darstellen wollen, wir wollen Geschlecht und
Testcode grafisch darstellen, indem wir den
Mittelwert in der Zusammenfassung verwenden. Also hier werden wir
ein Balkendiagramm erstellen. Und das Balkendiagramm wird auf der Grundlage dieser
beiden Variablen
erstellt , Geschlecht
im Vergleich zu Tesco Wir werden planen. Und was wir hier verwenden, verwenden
Sie den
Mittelwert, die Zusammenfassung. Sehen wir uns hier also an wo immer Bar
alkyliert ist
und als Plot bezeichnet wird Und ich werde die
GG-Plot-Funktion als Datensätze verwenden. ästhetische X des
Schülers entspricht dem Testergebnis der geschlechtsspezifischen
Quadratwurzel. Und ich verwende den Plus-Operator. Und hier verwende ich den
Geom-Unterstrichbalken, um
das Balkendiagramm oder Balkendiagramm zu erstellen das Balkendiagramm oder Balkendiagramm Und hier gebe ich Ihnen,
Statik ist gleich Zusammenfassung. Und die Funktion
wird
hier die Hauptfunktion sein und jeweils
gleich stabil füllen. Also wird es
mit dem Stahlblau wieder aufgebaut. Und die Funktion
wird auf dem MDA
ausgeführt, basierend auf dem
Mittel- oder Durchschnittswert von Jemand und der Stapel ist
die Zusammenfassung Also Zusammenfassung, ich werde es mit den
Mittelwerten
zusammenfassen und lachen funktionell,
riesig, ökologisch,
X-Achse, Geschlecht und Y, X, X ist wirklich mit einem mittleren Testergebnis im
durchschnittlichen Testergebnis Und der Titel wird
mit einem Balkendiagramm, Geschlecht war das durchschnittliche
Testergebnis und einem Balkendiagramm drucken. Lassen Sie mich das ausführen und das Ergebnis
sehen, das Sie sehen. Und jetzt haben wir Bar Plot
für Männer und Frauen. Und hier auf der Y-Achse zeigen
wir das
durchschnittliche Testergebnis, ein Mann und eine Frau Bisher liegt das durchschnittliche
Testergebnis von Frauen bei diesem. Für mich? Das ist nur das Testergebnis. Auf diese Weise können wir das Balkendiagramm
erstellen. Also hier, wenn du die
Erklärung wöchentlich siehst, dann sagen wir es dir. Wir werden also die
GG-Plot-Funktion verwenden, um den Plot zu starten. Ästhetik. X ist
gleich Geschlecht oder Y-Quadrat-Testergebnis
ordnen Sie die Geschlechtsvariable der X-Achse und
die
Testergebnisvariable der Y-Achse zu Und die Escobar-Funktion besteht darin, ein
Balkendiagramm zu erstellen. Und wir sitzen. Stat heißt zwei
Zusammenfassung und phon ist gleich dem Mittelwert, dass zwei Hauptfunktionen berechnet und angezeigt
werden. Die Punktzahl für jede Kuppel. Der Durchschnitt der Punkte, die sie erzielen,
wird angezeigt und das Feld, in
dem der Klebstoff eingeschränkt
wird, entspricht der Fellfarbe
im Barstow Blau, die Farbe der Balken. Und wir haben
die Level angepasst,
indem wir die letzte Funktion verwendet haben
, die wir bereits kennen. Und dann machen wir die
Druckfunktion, um
die Handlung auf dem Bildschirm zu drucken . Als Nächstes
erstellen wir ein Boxplot. Geschlecht versus
Diskurs, dasselbe. Also hier GG Plot,
Function, Stranded Asset, Aesthetic X ist gleich
dem Geschlecht weg auf der Y-Achse Testergebnis und frei nach Geschlecht
ausfüllen Und wir verwenden die
Boxplot-Funktion
geom underscore , um den Boxplot zu erstellen und
die
Latch-Funktion
gewöhnt sich daran, den Titel des Balkens
und die X-Achse- und Y-Achsennamen anzugeben und druckt ihn , und
die
Latch-Funktion
gewöhnt sich daran, den
Titel des Balkens
und die X-Achse- und Y-Achsennamen anzugeben und druckt ihn einfach aus. Also lass uns das ausführen. Jetzt haben wir einen Boxplot, Geschlecht versus Testergebnis Die X-Achse ist das Geschlecht
und das Y-Achsen-Testergebnis. Und das ist der Boxplot
für Männer und Frauen. Damit du sehen kannst, okay. Auf dieser Grundlage können Sie
die weitere Analyse durchführen, okay? Was auch immer Sie
mit ihnen machen, Boxplot, erstes Quartil und all diese
Dinge können Sie entspannen Dieselbe Erklärung Gorgias, DG Plot für die Initiierung der Plot-Ästhetik für
die Kartierung der Winde und die junge Boxplot-Funktion, die verwendet wurde, um das Boxplot
zu erstellen Und wir personalisieren, indem wir
den letzten Funktionsdruck verwenden. Okay? Und hier
seht ihr die beiden Boxen, eine für jedes Geschlecht,
männlich und weiblich. Die Boxen Entropie im
Interquartilbereich, das gesagt Die Linie innerhalb des Feldes, die den Mittelwert, den
Medianwert und die Whisker
außerhalb der Minimal- und
Maximalwerte innerhalb
eines Quartils für das Geschäftsjahr 15,
zwischen den Quartilen oder IQR
darstellt Medianwert und die Whisker
außerhalb der Minimal- und
Maximalwerte innerhalb
eines Quartils für das Geschäftsjahr 15,
zwischen den Quartilen . Und weist darauf hin, dass die
Schnurrhaare als
letzten Punkt außerhalb dieses Risikos betrachtet werden letzten Punkt außerhalb dieses Risikos denn als wir weniger genannt haben, das sind die
Analysen, die Sie
durchführen können , um Ausreißer zu finden,
und wenn sie es sind, reicht mir
dieser Datensatz
nicht aus Da. Dieser Datensatz reicht nicht aus, um die
Hundeklasse zu analysieren. Und alles. Dies ist der Beispieldatensatz
, den wir erstellt haben, indem einfach die verschiedenen Diagramme erstellt haben. Okay, als Nächstes erstellen
wir ein Histogramm Und hier verwenden wir die
Altersverteilung der Schüler. Hier. Ich verwende das Histogramm Ich erstelle ein Histogramm in dem sie Year
GG plotten Ich verwende denselben Datensatz und dennoch einen ästhetischen Ausgang
gleich H plus die Funktion geom histogram
geom underscore Hostogram geom Und hier, binwidth,
ich gebe einen. Ich fülle mit diesem Tableu, der Farbe auf Weiß, und gebe mit der linken Funktion
den Namen des
Diagramms sowie der X- und Y-Achse an und drucke dann einfach das Hier, das ist das Histogramm. Wir haben sie
so erstellt,
dass wir sagen, okay, das ist das Histogramm für die Altersverteilung
der Schüler Okay. Ich werde
die Erklärung schnell noch einmal wiederholen. Hier haben wir also wieder die GG-Plot-Funktion
zum Speichern des Diagramms und dann das Dashboard und die
Dehnungsdaten im GG-Plot. Und wir verwenden die
Ästhetikfunktion und das Alter,
weil wir Altersverteilung der Schüler mithilfe
des Histogramms rückgängig machen X ist also gleich H und
die wertvolle Historie wird der X-Achse zugeordnet Geom unterstreicht die Werte der
Histogrammfunktion, um das Histogramm zu erstellen steht jeder Balken für
die Häufigkeit.
Zählen Sie die spezifische Altersgruppe des Schülers auf Also hier, was ich versuche zu sagen, dass jeder Balken
die Häufigkeit darstellt , mit der Fische in einem bestimmten Alter
gemietet werden. Okay? Also bei dieser Dehnungsfrequenz
von 20
ist die Frequenz
dieser Miete, wie viele Stränge
gibt es, die Sie sehen können? Sie sehen hier Probleme
für das Alter. Mit 24 Jahren gibt es keine Schüler, es gab
also
keine Barriere. Und weiß, wenn das
Argument vollfarbig ist, ein Balken,
der weiß ist, die Lücke zwischen diesen weißen
Punkten, sodass diese zusätzliche
Gewichtung nicht
erkennen kann , wird es nicht geben Passen Sie es dann mit
der linken Funktion an. Und der Drucker, der die
Druckfunktion verwendet, ist eine X-Achse. Und der Präsident,
die verschiedenen
Altersgruppen und zufällig Marken , die Frequenz nicht, aber ich
fischte Miete in jeder Gruppe Also was 181 ist für
20 zu laufen, es gibt Schüler, also ich bin Kritik oder
zum Datensatz CF1 18, nur einer ist 20 Und für 2.012,3
Stränge ist das in Ordnung. Wenn Sie sich das hier ansehen, für 23 Schüler, welche 25? Das ist Nostradamus. Also, wenn wir, wenn Sie sich die Daten ansehen, Teil D dafür ist für sie
nach 24
völlig in Ordnung, dann Nostradamus Okay? Auf diese Weise können wir mit GG-Plot verschiedene
Nettodurchschnittslizenzen erstellen
103. Verleihe den Parzellen Farbästhetik: Hallo und willkommen zurück. In der vorherigen Vorlesung haben
wir gesehen, wie wir mit ggplot2 in
unserer Handrehabilitation
verschiedene Plots erstellen können mit ggplot2 in
unserer Handrehabilitation
verschiedene Plots erstellen diesen einfachen Datensatz Name,
Geschlecht und Discord
enthält Und damit
haben wir gesehen, wie wir Scatterplot erstellen
können, das für
jedes Wort steht, sagt Tesco Und dann haben wir gesehen, wie
wir Geom-Point-Schriften verwenden können und wie wir
die Labs-Funktion verwenden können Und wir haben alle
Erklärungen gesehen. Wir haben gesehen, wie wir
ein facettenreiches Grundstück erstellen können, das wird. Die Logins bestehen also aus zwei Teilen
wie Alter und Testergebnis. Basierend auf dem Geschlecht. Es wird nach dem Geschlecht sortiert. Es wird auch in den beiden
Teilen, männlich und weiblich, sein. Okay? Also all die Dinge, die wir so gesehen
haben, es wäre nicht, wie schnell
der Übergang zwischen Mann und Frau ist. Also diese
faszinierende Handlung, auch
Streudiagramm, wir haben
gesehen, wie wir das machen können Dann haben wir gesehen
, wie man Bar Plot aufstellt. Und zwischen Alter und
Geschlecht und Zwietracht. Discord, den wir auch gesehen haben. Und dann haben wir
gesehen, wie wir
ihren Chef, ihre Moschee, ihr Grundstück,
Boxplot und zwischen Geschlecht und Testcode setzen können ihren Chef, ihre Moschee, ihr Grundstück, und wie wir das können,
wir haben auch
die Erklärung gesehen,
wie wir die Ausreißer analysieren können,
aber das ist auf den
Interquartilbereich Also nicht alle unterschiedlich, dann
haben wir das Histogramm gesehen. Viele weitere Dinge können Sie
je nach Ihren Anforderungen tun. Als Nächstes
werde ich Ihnen
sagen, wie ich den Handlungen Ästhetik
verleihen kann. Lassen Sie mich also annehmen, dass Sie zugesehen haben, wir haben diesen
Plot erstellt, ein Streudiagramm hier. Wenn wir also das Streudiagramm sehen, ist das ein
Streudiagramm wie
dieses Okay? Nun, was ich tun möchte, ich möchte dieser Handlung später
Farbe verleihen. Also das Gleiche wird die
U-Dub-Bibliothek und ggplot2 hinzufügen. Und hier sind die Gründe
, warum ich diese
Ästhetik dieser Handlung modifizieren wollte . Denn wenn ich mir diese ansehe, weiß
ich nicht, welcher
Punkt männlich oder weiblich ist. Darauf gemacht. Wir haben auf jedem Agentenpult gemacht, hätten wir planen können, aber
wir wissen nicht, das bin ich Diese Punktzahl ist männlich
oder weiblich. Okay. Ich möchte die Punkte in
eine Farbe setzen , damit wir
uns die Handlung ansehen. Ich kann das wissen, okay, dieses Wesen gehört den Frauen
und das Blau ist für mich. So
etwas können wir mit
der ästhetischen Veränderung machen ,
indem wir die Farbe hinzufügen. Was wir also tun werden, wir werden den Plots
farbliche Ästhetik hinzufügen, um
zwischen männlichen und
weiblichen Schülern zu unterscheiden . Okay, hier also das gleiche
Setup-Beispiel, das Data erstellen wird. Also müssen wir zuerst die Bibliothek
ausführen und dann habe ich diesen Datensatz benutzt, den wir bereits erstellt
haben. Und dann erstellen wir hier
einen Vektor, der
das Männchen enthält,
der eine blaue Farbe
zuweisen Erinnerung
die rosa Farbe zuweisen. Und dieser Rektor wird die Farbvariable
zuweisen. Okay, jetzt dieselbe Woche, was wir hier erstellt haben, Streudiagramm,
genauso wird es dunkel sein Das Streudiagramm hier gibt Ihnen eine Variable mit dem Namen Streudiagramm um Ihnen die
GG-Plot-Funktion Wir werden den Datensatz
als Schüler weitergeben. Dieses haben wir kreiert, dann verwenden wir die
ästhetische Funktion. Aber X ist gleich H und Y ist gleich dem
Testergebnis wird dasselbe sein. Die einzige Sache ist, dass wir hier
einen anderen Parameter zuweisen und jeden Aufruf nach Geschlecht
färben. Also werden wir die
Farbe auf der Grundlage der Agenda zuweisen. Und diese Farbe wird aus
diesem Farbvektor stammen , den wir
hier erstellt haben. Und dann verwenden wir den
Geom-Unterstrich,
um den Punkt auf dem Plot Und dann verwenden wir in der Sekunde die
Farbe für den Skalenunterstrich Diese Funktion wird also verwendet , um die Punkte
auf der Tagesordnung einzufärben Also Farbe wird Geschlecht. Und hier sind wir aber am Ende, diese Schriftarten und die Farbskala unterstreichen die Farbe,
unterstreichen die manuellen Werte sind gleich der Dieser Wert wird also von diesem Vektor
stammen. Männlich und weiblich. Das Männchen wird blau und
grün sein. Wenn wir Looping Von hier aus
wählt es die Farbe aus und es wird geplottet
und funktioniert im Labor Jetzt wissen wir es schon. Also lass mich einfach
das Ding machen und hier nachsehen. Jetzt haben wir das
Streudiagramm, das wir erstellt haben. Lassen Sie uns nun einfach in
das Streudiagramm hier drucken. Jetzt ist das Streudiagramm
pink und blau. Die Punkte, die
zuvor ein Leap waren, sind schwarz. Es wird in Blau und Rosa dargestellt
. Rosafarbene Winde gehörten zu den Weibchen und die
blauen zu den Männchen. Auf diese Weise können wir
das Streudiagramm anpassen , indem wir Farbästhetik
hinzufügen Lassen Sie mich das noch einmal erklären. Wir haben diesen
Beispieldatensatz erstellt. Personen, die diesen
Tabellenrabatt-Datensatz haben, sind Erics Name ,
Geschlecht, Alter und Testergebnis. Und hier wollen wir
eine Farbästhetik hinzufügen. Also haben wir
unsere Farbe erstellt, wir
vektorisieren, wobei wir
der männlichen und weiblichen Farbe ein Blau zugewiesen haben . Diese Farbe tippen wir auf Balken, um die Skala zu unterstreichen, die manuelle Funktion zu
unterstreichen Diese Funktion gibt Werte
aus diesem Farbvektor zurück. Und das wird es tatsächlich, es wird
auf der Grundlage der Agenda zugewiesen wenn es
blaue Farbe zuweist und wenn es sich um
freie Milliäquivalente NDA handelt, denke
ich, okay, dann haben
wir Ähnliches können wir mit
dem Balkenplot und
Boxplot und dem Histogramm Also lass uns das auch machen. Hier erstelle ich also einen wertvollen Balkenknopf,
macht ein Streudiagramm, eine
GG-Plot-Funktion , ich verwende die Ästhetik von Datensatz-Schülern,
X ist gleich Geschlecht Warum heißt es Score. Und ich gebe das Geschlecht an. Und dann verwende ich die
Geom-Unterstrichleiste
, zeichne auf Statistikzusammenfassung
und zeichne mit der Zusammenfassung
mit dem Mittelwert Und dann verwende ich das Handbuch Scale, Scale Underscore,
Underscore Hier haben wir also eine
Skalenunterstrichfarbe, und das nennt man Handbuch
für das Balkendiagramm Handbuch, Unterstrich,
Unterstrich. Und wir geben die
Mehrwertfarbe weiter. Und dann
wird Lab Swanson Hedges nehmen. Also lass mich das erledigen. Und jetzt drucke ich das Balkendiagramm. Schau jetzt hier, das
Weibchen ist gezeichnet. Boxplot, PMM in Boxen
mitbringen und Postfächer. Mail blau. Auf diese Weise können wir Ästhetik
färben. Bach, Strandbar, Handlung, tut mir leid. Dann Boxplot. Ich werde den gleichen
Datensatz verwenden , ästhetisches X ist
gleich Geschlecht, weshalb es Schreibtisch
- oder weibliches Geschlecht genannt wird. Und dann Geom Bar, Geom Underscore Boxplot, um
die Punkte zu zeichnen , und dann
Skala, Unterstrich, Manuell und
Ihre Werte, wenn wir
färben und färben und Warum liebt Gott die Tabelle
mit den Testergebnissen von Boxplot, geschlechtsspezifischen
Widerstandstests Und lassen Sie uns das ausführen. Und dann zufälliger
Boxplot. Der Boxplot Das Boxplot
hat auch die Farben pink oder weiblich und blau für das Essen Okay. Als Nächstes
machen wir das Histogramm. Also dieselbe
GG-Plot-Funktion für Schüler Die Datensatzästhetik X
entspricht dem H-Feld. Es heißt Agenda und dann Geom Underscore Und er hatte die Bandbreite
einem Mann bei jedem Anruf
an einen
geben einem Mann bei jedem Anruf
an und
jede Farbe weiß färben. Und dann skalieren. Feld „Skalieren Sie den Unterstrich“
und den zugehörigen Befehl. Wir geben die Werte
als Farben weiter. Dieses Weiß wird also
die Randfarbe sein , und
das wird erledigt. Histogrammfarben
basierend auf dem Geschlecht. Okay? Und dann die letzte Funktion als Israel-Histogramm und
Verteilung der Schüler. Dies, und drucken Sie dann
das Histogramm aus. Das Histogramm ist, habe ich nicht. Rosa und Blau und die
dunkle Randfarbe ist weiß. Die angrenzenden Linien sind weiß. Wenn du
es machen willst, mach es grün. Lassen Sie uns dieses Programm ausführen. Die Nauta, mehr
oder weniger stark. Okay? Diese Farbe ist also für die Grenzlinie und dieser Wert
für die Farben, die wir aus diesem
Spaltenvektor
auswählen, den wir
erstellt haben, weil wir weiblich sind aus diesem
Spaltenvektor
auswählen, den wir
erstellt haben, weil wir und Formyl anbauen.
Sie können eine beliebige
Farbe angeben, um Ihrer freien Lauf
zu lassen Okay? Auf diese Weise können wir den Plots in ggplot2 die Ästhetik
hinzufügen Plots in ggplot2 die Also ich hoffe, ich habe es klar
erklärt. Und du kannst darauf laufen. Sie können anfangen, mit den Daten
der Radius-Funktion herumzuspielen. Du kannst einen anderen
Datensatz ausgraben und
anfangen, die Dinge auszunutzen
und zu erweitern, die Dinge
explodieren zu lassen anfangen, die Dinge auszunutzen
und zu erweitern, und Dinge
zu experimentieren Die unterschiedliche Farbe,
unterschiedliche Ästhetik. Okay, wir sehen uns in
der nächsten Vorlesung.
104. Feinabstimmung der Handlungästhetik: Hallo und willkommen zurück. In der vorherigen Vorlesung haben
wir also gesehen, wie wir Farbästhetik
hinzufügen können. Wir haben gesehen, wie wir den Plots, dem
Scatterplot, dem Balken, dem Plot und dem
Boxplot Farben
hinzufügen und sie speichern können Scatterplot, dem Balken, dem Plot und dem
Boxplot Farben
hinzufügen und sie speichern Nun, was ich versuche, die Diagramme mithilfe von Funktionen zu optimieren
und zu skalieren. Also Feinabstimmung dessen
, was auch in Ordnung ist. Die Ergebnisse versuchen wirklich,
es etwas ansprechender zu machen, all diese Dinge okay,
um Plot,
Ästhetik und ggplot2 zu optimieren, können wir die ästhetische Funktion und die
AES-Funktion verwenden, um
Variablen der Ästhetik zuzuordnen und die Funktion skalieren Scale Underscore hat mit angefangen, darunter
befinden sich mehrere
Funktionen Wir können also die
Skill-Funktionen verwenden, um
das Aussehen von
Radius-Plot-Elementen anzupassen . Einfachheit, sie können die
Ästhetik verbessern, Funktionen skalieren, um die Ästhetik
der Handlung zu optimieren. Als letztes
laden wir die Bibliothek. Dann erstellen wir
denselben Beispieldatensatz , den wir in
den vorherigen Vorlesungen erstellt haben. Und dann nehmen wir die
Feinabstimmung eines Streudiagramms vor. Also das Gleiche, was wir tun werden, Alter im Vergleich zum Testergebnis. Das Gleiche. Hier. Wir werden das Los mithilfe von
Ästhetik- und Geschicklichkeitsfunktionen fein abstimmen . Das wertvolle Streudiagramm, das die Plotfunktion verwenden
wird, übergibt den Datensatz Dann entspricht die ästhetische Funktion, wenn
X gleich H von Y ist dem Testergebnis und der Farbe, die auf dem Gel
hergestellt wurde. Und hier verwenden wir einen anderen
Parameter namens Save. Und spare. Welchen Save wir assoziieren können
, entscheidet je nach Geschlecht. Und hier verwenden wir Geom-Punkt-Funktion, um die Punkte
zu plotten Aber hier spezifizieren sich die
Punktseiten wirklich. Wir haben also zuvor
keine Punktgröße angegeben , hier geben
wir drei an. Geom zeigt also Seiten
gleich drei. Dieser Parameter wird übergeben. Und dann verwenden wir
das Handbuch „Skala, Unterstrich, Unterstrich Und er hatte Werte für
die Farbe, die
C. Rector hier blau und pink geben wird C. Rector hier blau und pink Und dann
wird CEP auch Unterstriche verwenden. Der unterstrichene Manuel gibt hier
die Werte an. Es hat 16, 17. Dadurch werden sichere,
verschiedene Tipps erstellt , die wir erstellen können, und dann verwenden wir
die Laborfunktion. Und lassen Sie mich das einfach ausführen. Wenn ich das ausführe, wird das
Streudiagramm erstellt. Bringen wir das Scatterplot mit. Also jetzt kannst du hier sehen, jetzt Scatter Plot
hatte es erstellt, aber sieh, das Thema
der Punkte für Männer und
Frauen sind gleichgültig Sehen Sie, die Punkte sind
etwas größer, da wir die
Größe nicht angegeben haben, die gleich drei ist. Was passiert, wenn ich es mit Schottenmuster mache? Lass uns sehen. Die Größe wird größer und
es bewegt sich, drucken Sie es erneut. Jetzt sind die
Punkte größer weil wir eine angegebene
Größe von 13 haben. Und die Farbe, die wir hier
angegeben haben, Blau und Rosa. Also blaue und rosafarbene Farben, bläulicher Teil, weiblich und männlich Wir haben Rosa gegeben. Also hier ist es. Appoggiatura Wir können das jetzt einfach korrigieren. Okay. Das ist also nicht genau oder so
, dass Sie den Buchstaben C berechnen
können Jetzt sind die Punkte größer. Basierend auf dieser Seite ist das also gleich
30 und die Farbe kommt von hier und schau, ob sie von diesem Haufen
kommt Welche Werte
wir hier auch weitergeben. Wenn ich 117 schaffe, schauen wir mal. Du kannst einfach mit
den Zahlen herumspielen und
jetzt diese gerade Zahl sehen. Es ist also nur ein Kreis. Und wenn ich einen Text einfüge, der Prozess des Annealing-Prozesses,
Teamunterstützung, werde ich 88 angeben Und schauen wir mal, um welches
Geheimnis es sich jetzt handelt. Bemerke, dass es so kommt. Auf der Grundlage dieser Dinge können
Sie also sehen,
wenn ich 18 gebe, was wären
das auch dieselben Daten, Sie können sehen, Sie
lassen mich das kopieren. Geteilt. Bitte sehen Sie sich das an, und jetzt kommt es in dieses Laminatband
und das ist ein Dreieck. Wenn ich es schaffe. Das auch bei dem, was noch kommen wird, sagen wir, wenn ich 28 mache, 28 ist nichts dergleichen. Wir können es wiedergutmachen. Okay. Basierend auf den Zahlen auf dem
Tresor wird sich das also ändern. Auf diese Weise
können wir die Plots verfeinern. Als Nächstes werden wir den Balken-Plot
feintunen. Und doch hat der
Geschlechter-umge-Test in
der Regel auch den Mittelwert
der Zusammenfassung ergeben. Wir werden planen, was wir hier
bereits geplottet haben. Derselbe Datensatz. Ästhetik der Schüler, Geschlecht, Warum Testergebnis und
Besetzung nach Geschlecht. Und dann die Funktion Geom Underscore
Bar. Geom-Unterstrich
“ zeigt eine Zusammenfassung der Statistiken an, und die Funktion „Telefon reagiert empfindlich
auf Mittelwert
und Skalenunterstrich Das Underscore-Handbuch wird blau und pink
angezeigt. Und das ist eine einfache Sache, werde einfach das sein
und es hier einfügen. In ähnlicher Weise können wir
dasselbe mit dem Boxplot machen. Das für Boxplot. Okay? Also CEO, jetzt kommt hier
eine Punktlinie
rein, sodass wir ein nicht-binäres
Gender-Fluid haben. Und hier. In ähnlicher Weise können
wir dieses Histogramm erstellen. diese Weise können wir die Plots
mithilfe von ästhetischen Funktionen und
Skalenfunktionen
verfeinern . Den Studierenden gefällt die nächste Vorlesung
105. Ändern von Themen, Etiketten, Titeln und Achsen mit der Theme-Funktion: Hallo und willkommen zurück. In dieser Vorlesung werden wir Themen,
Beschriftungen, Titel
und Achsen mithilfe der
Themenfunktion ändern, um Themen,
Beschriftungen, Titel und Achsen In GG Plot Two können
wir die
Themenfunktion zusammen mit
verschiedenen Themenelementen verwenden , um das Erscheinungsbild
unserer Plots
anzupassen. Lassen Sie uns also mit
einem Beispiel beginnen und sehen wie wir die
Theme-Funktion verwenden können, um Themen,
Beschriftungen, Titel und Achsen zu ändern . ist also sehr schnell, dass wir die Bibliothek
laden, so wie es in
der Handlung ist. Als Nächstes erstellen
wir diesen Beispieldatensatz, den
wir bereits erstellt haben. Lassen Sie mich das vorerst ausführen. Als Nächstes müssen wir Themen,
Labels, Titel
ändern ,
eine große Sache, Banza Also für uns, um den Barplot neu
zu erstellen. Also erstellen wir zuerst das Streudiagramm zwischen Alter und zusätzlichem Code, das
wir bereits erstellt haben. Aber hier werden wir versuchen,
die Themenebenen,
Titel und Achsen mithilfe der
Themenfunktion zu ändern die Themenebenen,
Titel und . Fasten ist also gut, wenn die Variablen wie
üblich streuen, dann verwenden wir die
GG-Plot-Funktion Wir übergeben den Datensatz und verwenden
dann die
ästhetische Funktion. Und hier ist X gleich H, Y ist das Testergebnis Farbe, die auf der Agenda
erwähnt wird , und
sagen, auf der Agenda aufbauen. Das haben wir schon getan. Als nächstes
unterstreichen Geom die Punktfunktionen
Sij gleich drei Dadurch werden die
Punkte auf dem Grundstück dargestellt. Die Größe wird angepasst, Seiten des Punktes werden aus drei Seiten bestehen. Dann verwenden wir hier die Funktionen scaled underscore
color und dashCon Und hier geben wir die Werte für die Farben Blau und Rosa an und Beispiel geben
wir diese Vektoren 16, 17, wir haben bereits auf der vorherigen Folie gesehen,
in der vorherigen Vorlesung,
wie sich
die Formen der Punkte oder Punkte vorherigen Vorlesung,
wie sich
die Formen der Punkte oder Punkte aufgrund der
Werte
ändern, die wir hier weitergeben Okay? Dann ist das Labor, das Swanson verwenden wird,
um den Titel
der Handlung und den Namen
für die X-Achse und Y-Achse anzugeben Und dann verwenden wir das Theme
Underscore Minimal Function. Und dann ist das die Hauptsache, die wir in dieser Vorlesung
lernen werden. Das ist Thema Function. Also innerhalb des Themas Funktion, was wir viel verlieren werden, Punkttitel, geben wir. Und hier das Element mit dem Unterstrich X, das wird sein, diese
Funktion wird verwendet um die Seiten des Titels anzugeben Okay? Ergreifen Sie Partei für den Titel. Wie ein Streudiagramm
mit dem Alter war ein Tesco. Dieser Titel wird
aus den Diagrammen stammen, Textgröße wir von hier aus
ändern können, indem die Parameter Element underscore tax und size verwenden, die
wir hier Und dann geben wir
das Gesicht gleich
fett, hier können wir
den Stil der Schrift ändern. Schriftstil können wir ändern,
indem Sie das Gesicht nicht ändern, haben Sie
Zweivolt-Kursiv genannt, was Sie wollen, und handeln Sie nur 0,5 und es gibt
einen Punkttitel für X-Achse
und Y-Achsen-Titel, wir werden dieselbe Funktion verwenden Textseiten mit Elementunterstrich geben dir, was du hören
willst, ich gebe 12. Und dann Face Bowl. Und dann geben
Ihnen
Texte für den Zugriff das Element unterstrichene
Geschlechtsfunktion und die
Größe gibt zehn Und dann Legend Dot
Title, wir verwenden Element. Und das nennt man
Blank-Funktion. Und LoginData-Texte. Wir verwenden das Element unter
bestimmten Texten und die Seiten geben zehn und die Position der
Legende wird unten angezeigt. Also geben wir hier den Tiefpunkt an. Lassen Sie uns also dieses Streudiagramm ausführen. Lassen Sie mich vorher
dieses Druckstreudiagramm
kopieren dieses Druckstreudiagramm Und ich sage es so, sehen Sie uns
einfach auf der
bepflanzten Streufläche und gleichzeitig. Also lass mich das erledigen. Wir sehen uns jetzt, wir bekommen
das Scatterplot hier. Und sieh, das ist unser Tech-Plot-Titel, den wir hier in einer Schüssel gegeben
haben. Wenn ich
das zum Beispiel auf 14 bis 24 ändere , wird
das, je größer, desto
größer werden die Texte. Also lass mich das erledigen. Jetzt ist es Omega, oder? Das Gleiche gilt für den
Achsentitel, wenn ich ihn 22 gebe. Wenn ich das durchführe. Sehen Sie sich jetzt die
Testergebnisse auf NAs oder in einer größeren Größe an. Okay? Also die Art und Weise, wie wir die Titel, Ebenen und Achsen ändern können. Okay, also lass es mich machen
und 14, die nach Materie
aussehen, jeder Kurs ist ein Streudiagramm Okay, als Nächstes machen wir
dasselbe für die Bar Plot. Für Balkendiagramm wird also auch derselbe Datensatz
verwendet. Und wir erstellen hier eine
Balkenplot-Variable und dann einen DD-Datensatz der
Plotfunktion. X ist gleich Geschlecht. Warum es Schreibtisch oder Geschlecht heißt. Das Gleiche, was wir zuvor beim Lifting
gemacht haben, ist wir dieses Thema verwenden werden Funktion, zusätzlicher
Plotpunkttitel für ein zusätzliches Jahr. Das Gleiche verwenden wir auch
für den Bar Plot. Ich werde mir also nicht die
Zeit nehmen , immer wieder
dasselbe zu erklären . Ich kopiere das einfach. Und ich
reiß das am besten einem Erwachsenen auf. Okay? Okay. Also sieh hier, das
ist die schlechte Handlung. In ähnlicher Weise werden wir auch
den Boxplot machen. Das sind also die Dinge, die
wir bereits getan haben. Die einzige zusätzliche Sache, die wir hier
machen, ist das Thema. Das Gleiche, Elemente und
Diskurs. Ich habe das Gleiche. Wir machen auch weiteren
Boxplot. Und ich gehe einfach
dazu und füge es hier ein. Und führe das für Boxplot aus. Um den Boxplot zu sehen. Der Boxplot, alles
wurde entsprechend geändert. Okay, was ist als Nächstes
wirklich zu tun? Histogramm ist,
Verteilungshindernisse auch hier, wir hatten dieses Anpassung der Deckgröße an
die Größe des Plottakes. Also lass mich das erledigen. Auf diese Weise können wir diese Themen,
Beschriftungen, Titel und Achsen
ändern . Viel Verwendung in ggplot2. In jedem Plotthema wird die
Funktion verwendet, um
die verschiedenen Themenelemente
wie den Titel des Plotpunkts, den vorhandenen
Achsenpunkttitel oder die
Textlegende, den Punkttitel, die Legende, den Punkttext
und die Position des Ligandenpunkts zu ändern die verschiedenen Themenelemente
wie den Titel des Plotpunkts, den vorhandenen
Achsenpunkttitel oder die
Textlegende, den Punkttitel , die Legende, den Punkttext und die Position des Ligandenpunkts Die Textfunktion „Thema“ oder „Element
unterstreichen wird verwendet, um die Website, die
Schrift und die Begründung
auf das nächste Element festzulegen Schrift und die Begründung
auf das Wir verwenden ein Thema Minimalfunktion
unterstreicht, um mit dem
minimalistischen Thema zu beginnen, in dem alle Handlungen dargestellt werden, und passen dann das Erscheinungsbild
mit dem Thema Function
weiter an Diese Beispiele zeigen,
wie Sie Themen,
Beschriftungen, Titel und Achsen mit
der Themenfunktion in ggplot2 ändern Beschriftungen, Titel und Achsen mit der Themenfunktion in ggplot2 Jetzt können Sie
zusätzliche Themenelemente erkunden und das Erscheinungsbild Ihrer Plots
weiter an
Ihre spezifischen
Visualisierungen und Bedürfnisse
anpassen Plots
weiter an
Ihre spezifischen
Visualisierungen und Bedürfnisse jedes Projekt muss eine eigene Visualisierung
durchgeführt werden, damit Sie
diese Funktionen verwenden können , und Sie
können weiter erkunden
106. Projekt 6: Hallo und willkommen zurück. In diesem Fall werden wir
ein einfaches Projekt durchführen. Und damit wird
ein Datensatz aus der realen Welt verwendet, um
Erkenntnisse zu regionalisieren Deshalb arbeiten wir mit
realen Datensätzen, um
aufschlussreiche Lizenzen und
wichtige Aspekte
der Datenanalyse,
Datenwissenschaft und des Storytelling
unserer Projekte zu erstellen aufschlussreiche Lizenzen und wichtige Aspekte
der Datenanalyse,
Datenwissenschaft und des Storytelling
unserer Projekte Sehen wir uns
ein Beispiel an, bei dem ein Datensatz
aus der realen Welt verwendet wird, um mit ggplot2
aufschlussreiche Visualisierungen
zu erstellen aufschlussreiche Visualisierungen In diesem Beispiel verwenden wir
den berühmten Iris-Datensatz, mit
dem R-Paket leicht
verfügbar ist standardmäßig mit
dem R-Paket leicht
verfügbar ist.
Die IDT enthält
die Informationen über verschiedene Arten
von Irisblüten,
einschließlich ihrer
Kelchlänge, Kelchblattbreite,
Blütenblattlänge einschließlich ihrer
Kelchlänge, Kelchblattbreite, und Blütenblattbreite der Okay, das ist also das einfache
Projekt, bei dem Relu versucht einige Visualisierungen
zu erstellen,
Visualisierungen Also als Erstes verlieren wir
diese Bibliothek, ggplot2. Dann laden wir den Iris-Datensatz indem wir die Datenfunktion schreiben, Datenfunktion, die
den Datensatznamen weitergibt. Diese beiden Schritte sind also der entscheidende Schritt, um
die Necess-Bibliothek laden
und den irischen Datensatz und die Struktur
des Datensatzes zu untersuchen. Wir verwenden die STR-Funktion
und übergeben den Datensatznamen. Sehen wir uns also die
Struktur des Datensatzes an. Sie können hier also sehen, es gibt ein
Objekt pro Mitarbeiter oder fünf Variablen. Fünf Variablen sind Kelchblattlänge, Kelchblattbreite, Blütenblattlänge,
Blütenblattbreite und Okay? Und dann werden hier Werte angegeben. Okay, als Nächstes sehen wir uns die Zusammenfassung des Datensatzes an, die uns
die Statistiken gibt. Die fünf Spalten, Kelchblattlänge, Kelchblattbreite, Länge,
Blütenblattbreite und Und ihre Minimalwerte, zerkleinertes Quartil,
Median, Mittelwerte Drittens, Quartil- und Maximalwerte
für jede der Variablen. Okay? So können
wir sehen, analysieren, okay, als Nächstes laden wir neu Dies ist die statistische
Sache, die wir erhalten wenn wir die Zusammenfassung
des Datensatzes erhalten. Was ich nun tun möchte, ist, ein
Streudiagramm für diesen Datensatz zu erstellen Was ich dafür tun werde, erstelle ich hier eine
unterstrichene Plotvariable mit Streuung Und ich verwende die
GG-Plot-Funktion, um das Diagramm zu erstellen, und ich weise es dieser
Variablen zu und drucke sie dann aus. Also GG-Plot-Funktion, ich übergebe den Datensatz, den
Iris-Datensatz. Ähnlich wie in
den früheren Vorlesungen haben
wir die ästhetische
Funktion verwendet, auch hier verlässt die ästhetische Funktion die
ästhetische Funktion. Und er hatte XXS für die
Kelchblattlänge und die Y-Achsenausgabe. Einfache Punktbreite und Farbe. Setzen Sie die auf der Art und dem
Geom aufbauende Unterstrichpunkt-Funktion, die ich verwenden werde, um die Punkte auf dem Plot zu plotten,
und Large Functional,
huge, um den
Titel für die X-Achse,
Y-Achse und den
Titel der Handlung beizubehalten Y-Achse und den
Titel der Und dann verwende ich hier die vom Team unterstrichene
Minimalfunktion Und dann drucke ich
diese Streudiagramme. Lassen Sie uns das durchgehen und sehen, wie das Blutbild nach
oben streut. Also lass es uns einfach größer machen. Dies ist das Streudiagramm, das wir erhalten,
nachdem wir das ausgeführt Sehen Sie sich hier also die
Länge der Kelchblätter auf der X-Achse, einfache Breite auf der Y-Achse und die Farbe auf der Grundlage Es gibt also zwei Dosa,
Versicolor und Virginica. Sehen Sie, alle Arten sind hier anhand der Kelchblattlänge und der
Kelchblattbreite
dargestellt Das ist also dasselbe Streudiagramm aus der
Vergangenheit , das wir erstellt haben Als Nächstes der Iris-Datensatz vier enthält der Iris-Datensatz vier numerische Variablen: Kelchblattlänge, Kelchblattbreite, Blütenblattlänge,
Blütenblattbreite und
eine kategorische Variable, nämlich eine kategorische Diese Art ist also die
kategorische Variable. Lassen Sie uns nun eine
aufschlussreiche Visualisierung erstellen Sie
plötzlich blockiert haben Das erste
ist also ein Streudiagramm, unsere Daten haben wir
bereits erstellt Lassen Sie mich das
noch einmal ausführen. Du bekommst dasselbe. Jetzt erstellen wir ein Boxplot. Also Boxplot, dasselbe, Boxplot GG Plot nach Belieben ,
dann
ästhetische Funktion Und hier ist X, X, ich setze diese Teile
und die Y-Achse setze ich das Hotel, ich gebe die Länge
der Blütenblätter Also Arten und
ihre Blütenblattlänge und wir füllen sie
mit dunklen Arten Und dann Geom
Underscore Boxplot. Ich benutze zum Zeichnen den Boxplot und dann die
Laugh-Funktion namens title and all Und dann drucke ich.
Also lass mich das erledigen. Sehen Sie hier das Boxplot,
Blütenblattlänge nach Arten Also das jeweils für Setosa, das ist für diesen Boxplot
ist für Versicolor, das ist zum Ansehen Ähnlich möchte ich ein Histogramm
erstellen Und ein Histogramm, das ich auf
der Grundlage der Verteilung
der Blütenblattbreite zwischen den Arten
erstellen werde der Grundlage der Verteilung
der Blütenblattbreite zwischen den Für dieses
Histogramm unterstrich
das Gramm die Plotvariable DG, die Funktion
ggplot2
tut das, sie passiert die
Iris, dass wir eine ästhetische Breite von X-Blütenblättern verwenden Und ich fülle
dieses Stück mit ihrer Spezies und
dann Histogramm,
Histogramm, funktionale
Verwendung und Binwidth,
ich gebe 0,1 Farbe an, ich gebe weiße Farbe ihrer Spezies und
dann Histogramm,
Histogramm, funktionale
Verwendung und Binwidth,
ich gebe 0,1 Farbe an, ich gebe weiße Farbe. Dies ist die
Unterdrückungsfarbe zwischen den Bins. Und ich gebe 0.7 und labore funktionale Verwendung, um die Titel und so weiter zu
geben. Und dann Theme Minimal, das
ich hier verwende. Lassen Sie uns das ausführen und sehen, ja, das ist die Blütenblattbreite
, bestehend aus X-Achse und Y-Achse Wir haben die Frequenz. Und dies ist der erste
Satz von Teilen in Größe. Grünlich für die
Versicolor und Virginica. Virginica. Blau
für die Virginica Okay. Auf diese Weise können wir dieses Histogramm
erstellen Als Nächstes erstelle ich
ein facettiertes Streudiagramm. Und dort möchte ich die Blütenblattlänge gegenüber
der
Blütenblattbreite für jede Art anzeigen Blütenblattlänge gegenüber
der
Blütenblattbreite für jede Dafür verwende ich also die X-Achse, ich
verwende die Blütenblattlänge, die Y-Achse,
ich verwende die Blütenblattbreite und die Farbe, die ich gebe, besser
als die Geschwindigkeit für die Art und die
Geom-Punktgröße Art und die
Geom-Punktgröße Ich habe drei und alle
anderen Dinge im gleichen Jahr bekommen,
Freundschaft, um die
Wickelfunktion zu unterstreichen ich werde auf dieser Spezies aufbauen Okay, diese voreingestellte
Unterstrich-Wrapper-Funktion gibt
Ihnen das Streudiagramm, das der Professor
gemacht hat Lassen Sie uns das ausführen und die Ausgabe
sehen. Jetzt sehen wir das
Facettenstreudiagramm. Hier das Größenset. Dies ist möglicherweise besser, wenn Sie auf
der X-Achse landen und die
Blütenblattbreite auf der Das ist für die Setosa, dieses Grün für die Versicolor und Blau für die Das ist also das
facettierte Streudiagramm. Und hier kann man auch die Blockade für
Setosa, Versicolor
und Virginica
sehen Setosa, Versicolor Dies ist eine klare
Kategorisierung. Okay? Als Nächstes planen wir, dass wir mithilfe dieser Datensätze aus der
realen Welt
wie dem Iris-Datensatz Einblicke in
die Beziehungen und die
Verteilung von Variablen gewinnen, die Muster
identifizieren und
aufschlussreiche Interpretationen vornehmen können die Beziehungen und die
Verteilung von Variablen gewinnen, die Muster
identifizieren und die Muster
identifizieren aufschlussreiche Interpretationen vornehmen Okay, jetzt steht es Ihnen frei, mehr Plots
zu entdecken, zu schreiben und
die Ästhetik anzupassen, als wir es zuvor getan haben. Sie können zum Beispiel die
Themenbeschriftungen, Titel und
all die Dinge, die wir in der
vorherigen Lektion
gelernt haben und die
Sie darauf anwenden, ändern all die Dinge, die wir in der
vorherigen Lektion
gelernt haben und die
Sie darauf und Ihr eigenes Projekt
erstellen. Und dann experimentiere für
die verschiedenen Datensätze. Abgesehen davon, um
Ihre eigenen DWT-Unterrichtsfähigkeiten zu
üben und zu entwickeln Ihre eigenen DWT-Unterrichtsfähigkeiten Dies ist also das
einfache Projekt, das
auf dem Iris-Datensatz basiert , um ein
Histogramm, ein Fester Scatterplot, ein
Boxplot und all diese Dinge zu
erstellen Boxplot Ich hoffe, Sie haben eine Vorstellung
davon , wie Sie auf dem Datensatz
der realen Welt laufen können. Sie können auf dem Datensatz der
realen Welt laufen. Danke
107. Umgang mit Datums- und Zeitdaten in ggplot2: Hallo und willkommen zurück. In dieser Vorlesung lernen wir
den Umgang mit Datums- und Uhrzeitdaten in ggplot2 also Datum und Uhrzeit behandelt werden,
wenn T2-Diagramm aufgerufen werden soll, das
Einfügen dieser Daten wird korrekt als Datums
- und Uhrzeitobjekt
erkannt , das GG-Plot kann
die Achsenbeschriftungen richtig formatieren und
entsprechende Fähigkeiten entwickeln Was heißt das? Das heißt, wenn Sie die Daten,
Datum und Uhrzeit
in einem korrekten Format weitergeben , dann zeichnen Sie zwei, kümmern
sich um Gemüse,
Dinge, indem Sie plotten, und
sie haben keine Steuern erhoben April also
klinisch anerkannte
Datums- und Uhrzeitobjekte beibringen klinisch anerkannte
Datums- und Uhrzeitobjekte Gg plot kann
die Achsenbeschriftungen richtig formatieren und
entsprechende Fähigkeiten erstellen. In unserer Zeit können Datum und Uhrzeit anhand
verschiedener Klassen
dargestellt werden ,
wie z. B. Logiken für Stadt und
Audits und LD-Funktionen Okay, wir werden uns das Projekt
City und die Projekte LTE später ansehen. Vorerst reicht es zu
wissen, dass Daten mit
verschiedenen Klassen
wie Logic City und
Projects
dargestellt werden können mit
verschiedenen Klassen
wie Logic City und
Projects
dargestellt . Okay, lassen Sie uns zu einem einfachen
Beispiel gehen,
bei dem ein Datensatz mit
Datums- und
Uhrzeitdaten verwendet wird, um zu demonstrieren wie mit Datum
und Uhrzeit in ggplot2 umgegangen Also als erstes brauchen wir die ggplot2-Bibliothek und die Bibliothek, wie weit diese Beispiele diese beiden Bibliotheken
laden werden Und was ich dann tun möchte, ich möchte einen
Beispieldatensatz mit Zeitwert erstellen. Hier wird also unser
Datensatz erstellt, der das Datum und
die Werte enthält, die jedem Tag
entsprechen. Also dafür mit set.seed 123, damit ich jedes Mal dieselben
Setup-Beispieldaten erhalte Wenn ich das Programm starte. Dann werde ich für Data wertvolle Daten erstellen
und
ich werde vier Tage, ich werde, ich werde, ich werde, ich werde eine Sequenzfunktion verlieren, um die Decks für mich zu erstellen Insights
Sequenzfunktionen von add dark for six city, add dark four DX DT. Und hier gebe ich das
Datum als 23. Januar an, zuerst, erster Januar 2023. Das ist also der
Ursprung des Datums. Also von diesem Rückgang
und wir beginnen,
okay, hier, ich
verwende es bis zu einem Tag. Ein Tag
wird also der Unterschied zwischen jedem Datum und dem
Lynda-Punktpunkt 30 sein 30. Ich wollte 30 Tage erstellen. In diesen 34, 30 Tagen
möchte ich etwas erschaffen, okay. Ich verwende die Sequenz Ronson und für Werte mit der ungeraden
Pnorm-Funktion die Pnorm-Funktion Hier lasse ich die Anzahl
der Werte stehen, die ich erstellen möchte. Also möchte ich 30 Werte bekommen. Was sind diese 30 Tage? Und dann möchte ich
den Mittelwert von 50 und die
Standardabweichung
entweder zehn verwenden , okay? Und vier Tage habe ich Sequenzfunktion vereinigt und die
interne Sequenzfunktion, die ich
verwende , ist gleich
dem Ag-Punkt Cp. Ich gebe das Startdatum an. Und nach einem, an jedem
Tag, an dem ich lebe. In Titeln werden ab 30 Tagen
erstellt, ab der ersten Generation erstellt,
gedruckt werden drei Und dann erstelle ich einen
DataFrame, data.frame. Jeder Anruf bis heute oder Datum. Ich verwende diese
Testwerte und für Werte verwende
ich diesen Wert. Okay? Lassen Sie uns das ausführen und
sehen, was passiert. Jetzt laufen lassen, zum
Datenrahmen df8 bringen , Also sieh hier. Jetzt ist es, ich habe zwei
Spalten, Datum und Werte. Die Daten beginnen mit der
ersten Generation 2023 und
werden an jedem dritten Tag von der ersten Generation zur
Zeit Und für jeden Tag
sind damit andere, unterschiedliche Werte
verbunden. Jetzt haben wir einfache Daten, Beispieldatensatz, ein Datum
und die entsprechenden Daten. Was war der Wert? Es könnten
so etwas wie die Kosten
des bestimmten
Artikels oder so sein. Wir haben also Datum
und Bewertungsspalte. Jetzt können wir versuchen,
sie mit ggplot2 zu plotten. In diesem Beispiel
haben wir also einen Datensatz
mit zwei Spalten erstellt, wobei
Daten
ihn in Zeitdaten darstellen
und Werte
einige numerische Werte darstellen. Okay, also als Erstes, was möchte ich, um ein
einfaches Liniendiagramm mit Datum auf der
X-Achse für diese
alkylierten wertvollen
Linien zu erstellen X-Achse für diese
alkylierten wertvollen , die das Diagramm unterstreichen
und auf das GG-Plot anspielen, um das Liniendiagramm zu erstellen Also ggplot2 und Datensatz, ich übergebe dF, das
wir erstellt haben Ich weiß nur, dass es Anästhetikum X gibt. Ich wollte das Datum und die
Y-Achse angeben, ich möchte Werte eingeben, also ist X gleich Datum
und warum ist Wert? Und dann verwende ich die
geomische Unterstrichlinie Human, die sogenannte
Linienfunktion, um diese Punkte in der Grafik darzustellen Und dann verwende ich die letzte Funktion, um Namen wie für
den
X-Achsenstatus, Y-Achsenwert
und Datalab zu geben Namen wie für
den .
Plot ist Linie, Plots, Wert im
Zeitverlauf, und Thema, minimal Also T minus vier Millimol, und dann drucke ich
das Lassen Sie uns das also ausführen und sehen, was die Ausgabe
ist, die hier herauskommt. Dies ist der Befehl zum Zeichnen von Linien. Liniendiagramme des Werts im Zeitverlauf. Also für den 1. Januar, Tag und Werte Wie
wir hier
zum Beispiel dargestellt haben, gibt es neun
Dichten wie diese, okay? Damit können
Sie den Wert im Zeitverlauf einfach visualisieren
, dass Teil zwei
des Diagramms zu dieser können
Sie den Wert im Zeitverlauf einfach visualisieren Zeit erstellt wird Ggplot2 ist das Einfache. Auf der X-Achse befinden sich Daten Y-Achsenwerte und der Rest
der Dinge, wenn wir in
diesem breiten GG-Plot ggplot2 um zu erkennen, dass der Inhalt der
Datumsspalte,
Datums - und Uhrzeitdaten
und automatisch Landwirte entsprechend auf diese Ebenen zugreifen Okay. Also Labels hier.
Nun, als wir das erstellt haben, haben wir keine angegeben, das Format
ist hier 01012323, wir haben es nicht so angegeben, aber GG Plot hat
es als Datum und Uhrzeit erkannt
und automatisch die Labels
gegeben, die Jan bis Gemini im
Genesis-Team Okay, das wurde automatisch
gemacht,
per DG-Plot, um zu wissen, was wir
als Nächstes tun werden, wir versuchen, das Flächendiagramm mit Datum und Uhrzeit auf der X-Achse Also Flächendiagramm, GG-Plot, die X-Achse Alport-Datum Y-Achse über ALU und
gefüllt mit dem Wert Mit der Funktion „
Fläche unterstreichen“ werde ich ein
Flächendiagramm erstellen und die Labore
verlassen, Y-Achsenwert und
Titelfläche Plotwert im
Zeitverlauf, Theme minimal darstellen und die Flächendiagramme drucken, drucken Also lassen Sie uns das ausführen und sehen. Nun kann man hier sehen Arial Black im Laufe der
Zeit Wert gelegt hat und hier auch Dummheit und hier auch die Dinge, für die
gesorgt wurde Und das ist der Bereich Plot, der von did you ggplot2
erstellt wurde. Auf der X-Achse werden nur
die Daten Januar
bis 9. Januar angezeigt , also Männer
, die einen Zuschuss
erhalten, und dann 30. Und für jedes Datum und Werte im Laufe der Zeit mit verzweifelt und
so weiter nach dem abgedeckten Bereich. In diesem Grundstück haben wir
Ihre unterstrichene Fläche, um ein Flächengrundstück zu erstellen Und GG-Plot
polymerisiert die X-Achsenebenen automatisch polymerisiert die X-Achsenebenen mit den Datumsinformationen. Sie können es also hier sehen.
Als Nächstes erstellen wir
ein Balkendiagramm, Datum auf der X-Achse Also aggregieren Sie die Daten nach meinem Tag und erstellen Sie ein Balkendiagramm. Also hier, was ich tun möchte, ich möchte ein
Balkendiagramm mit dem Schwung lesen, den Daten für jeden Tag. Für ductile do LLC
einen DataFrame erstellen und unser täglicher
Unterstrich DF und er hat LDF , den Pipe Operator hier. Und ich habe nach Datum gruppiert, Punkt und Datum
hinzugefügt, und sie geben
das Datum weiter und fassen es nach Durchschnittswert Das wird der
Mittelwert des Werts sein. Auf diese Weise erhalten wir den
täglichen Unterstrich DF, okay? Also wenn ich das hier
sehe, ist das die tägliche DF. Datum und Durchschnittswert. Beschreibe sie so, okay. Diese Drohne zwei weitere Reihen. Okay? Also jetzt werde ich es in die Bar Plot holen. Also bar Plot, Anti-D ggplot2 bar. Dieses Mal liebe ich Knot Past the DF und übergebe
das an die SQL DB, die wir gerade erstellt
haben Und was den ästhetischen
Funktionspass anbelangt, so
ist
X gleich Datum und Y gleich Durchschnittswert. Datum wird also von diesem Datum ausgehen und der Durchschnittswert, der
sich aus Angst ergibt. Und sieh dir dein Date an. Typ ist
Datum und Durchschnittswert W. Okay? Also und dann verwende ich die
Funktion Geom Underscore Column, um ein Balkendiagramm zu erstellen Und bei der Verriegelungsfunktion gebe
ich X gleich Datum, Y ist gleich Durchschnittswert und engerer Balken Plot
Durchschnittswert Teil D und T Kilometerstand minimal und Thema existiert Punkt X Punkt X Element unterstreichen Steuerwinkel
45 Drehen Sie den Zugriff auf die Ebenen,
um eine bessere Sichtbarkeit zu gewährleisten. Okay. Also drehe ich die überhöhten Werte um 45 Grad, um die Sichtbarkeit über D
zu verbessern. Okay, und
drucke dann das Balkendiagramm Also lass mich das erledigen. Also sieh mal,
so haben wir uns geneigt. Sees Ajahn nach Jenae
wurde um 45 Grad geneigt. Wir haben es also nicht geschafft, die
Steuerfunktion
des Elements Unterstrich zu verwenden Steuerfunktion
des Elements Unterstrich und den Winkel zu übergeben, der gleich 45
ist Wenn ich bei jedem
Anruf den Winkel auf unsere 75 setze. Und wenn ich versuche, das laufen zu lassen, dann wird das regelmäßig auf
der 75 sein. Wenn ich Albert unterstütze, 90, 30 Grad, dann wird es um 30 Grad C
und 45 Grad
geneigt sein und 45 Das sieht besser aus. Okay? Jetzt haben wir den
Durchschnittswert pro Tag. Also, obwohl es
gerade der 1. Januar ist, Geschlecht mir Dreien und
Vierer für 30 Tage gesagt hat,
Durchschnittswert Teil D, Durchschnittswert Teil D, wir können in diesem Balkendiagramm sehen, was wir
gemacht haben Wir haben die Daten von Tag zu Tag aggregiert und mithilfe der Spalte „Geom-Unterstrich“ ein
Balkendiagramm erstellt Wir haben auch die X-Achse um die Ebene gedreht um die Sichtbarkeit zu verbessern, was wir hier mit dem verwirrten 45-stelligen
Winkel gemacht
haben Demonstrieren Sie den
Umgang mit Datums- und Uhrzeitdaten in
ggplot2, indem Sie
die
DateTime-Retires in das entsprechende
GG-Plot einfügen, um die
übermäßige Nivellierung und Skalierung
automatisch zu handhaben,
sodass es einfacher wird, im Laufe der Zeit in das entsprechende
GG-Plot einfügen, um die
übermäßige Nivellierung und Skalierung
automatisch zu aufschlussreiche, praktisch gleiche Vorschriften zu
erstellen . Wir müssen also nur
den richtigen DateTime-Wert an ggplot2 unter stop
the thing GG plot übergeben ,
um zu verstehen, wie mit Datum und Uhrzeit in ggplot2 umgegangen
108. POSIXct- und POSIXlt-Funktionen mit Beispiel: Hallo und willkommen zurück. In dieser Vorlesung
werden wir
sowohl über die
LT-Funktionen der Stadt als auch über Projekte lernen , die heute sehr verbreitet sind, wie Programmierung für
den Umgang mit den Datums- und Uhrzeitdaten. Sie sehen also nicht die
Endpunkt-LTE-Klassen für die Gegenwart, Datum und Uhrzeit. Beide Klassen sind
Teil unseres Pakets. Sie möchten mit
Datums- und Uhrzeitwerten umgehen. Sie unterscheiden sich jedoch in ihrer internen
Repräsentation und ihrem Verhalten. Wenn es
zwei Objektklassen gibt,
muss es natürlich Unterschiede in ihrem Verhalten geben. Also weiter. Lassen Sie uns verstehen, wie LTE für die
Stadt und Projekte funktioniert. Also zuerst werden wir
verstehen, wie arm City Walks Project City für
Forensik steht, Kalenderzeit CT-Kalenderzeit,
C4-Kalender T für
Zeitprojekte ist also 4,6, 0,6 und stellt Datum und Uhrzeit als Anzahl der Sekunden seit Beginn
des Unikats Das ist der 1. Januar 1970. Projektkalender soll also am einundneunten Januar
beginnen
und ist unter Souveränität Aber Sie kennen das Unix-System nicht. Okay? Also, und ab diesem Zeitpunkt wird die
Anzahl der Sekunden seit Beginn
der Zeit Beginn
des Zeitspiels für
das Projekt City's 1971 gezählt. Okay,
so funktioniert es also. Und es ist die gebräuchlichste
Klasse für den Umgang mit Datums- und Uhrzeitdaten in unserer kastrierten Einfachheit
und Effizienz Das Vorangegangene hat angefangen zu sprechen Es ist also wirklich effizient und
gleichzeitig stark, dass Rita und Israeli Simple auch Projekte
mit jeder Jump Box
verstehen. Nehmen wir an, ich möchte
unser Stadtobjekt erstellen. Dafür gebe ich einen Namen und Datum und Uhrzeit durchqueren die
Stadt und
du fügst das Punktprojekt Stadt hinzu. Und er hatte ein Alken-Date. Und es wird Licht ins Dunkle
bringen Grundy 3722. Das bedeutet 20 Sekunden
, um drei anzulügen. Und hier, Algol, kaum
echte Bar 30 Minuten, 45 s. Und das ist das Datum und die Uhrzeit Und er und ich werden uns die
Zeit nehmen, John. Danke. Und ich kann alles geben
, was ich wollte. Okay. Also ich mache es weniger genau, UPC und dann
versuche ich es vorherzusagen Okay, sehen wir uns
hier an, es ist der 22.
Juli 2023, Dynavox tut weh, als ich 45 s nach
der UTC-Zeit gefragt Okay. Jetzt haben wir den
Typ, der zeitlich gezeichnet ist. Jetzt möchte ich darauf zugreifen, die einzelnen Komponenten
funktionieren und zu
welcher Uhrzeit das Jahr, Monat, Tag sind. Unser Minutenzeiger, Sekundenzeiger
, den wir sehr einfach machen können. Wenn ich will. Das
Ohr sondiert das Datum, ich kann das Format verwenden und
dann gebe ich das Datum weiter. Die Zeit unterstreicht die Stadt, das
ist das Objekt des Tages. Und dann gebe ich den Prozentsatz zurück und
das gibt mir ein Jahr. Es wird
von diesem Objekt hierher passen. Also wir sehen uns, Künstler. Okay. Ähnliche Monate hatte
er erlebt. Sie können Datum, Uhrzeit,
Unterstrich, Stadt,
Moderatoren verwenden, was sie getan haben, Uhrzeit ZT und Sie können ein D oder eine Zusammenfassung einer
seltsamen Person erreichen ein D oder eine Zusammenfassung einer
seltsamen Person War es nicht? M für eine
Minute und S4 Sekunde M und S, ungerade Minute und zweiter Sohn waren auch
die Kapitalzinsen. Okay, lassen Sie mich
das ausführen und nun zu all diesen Komponenten kommen. Also werde ich eine riesige Basis haben. Ja. Er und unterstreichen CPD pro Monat,
Monat und Verlust Kapazität
für Datum und eine Und für den seltsamen
Mann, der eine Sekunde draußen verwende
ich dasselbe, okay? Und dann werde ich versuchen, das zu drucken. Wenn ich also ein Jahr drucke, ist
dieses Produkt, das 23
Monate verkauft werden soll, sieben Quadratkilometer groß Die zweite ungerade Zahl sind 20 Künstler , die keine Minuten gemacht haben, und 45
s von Projekten, Stadtobjekt. nächste ist für
LT-Toxin oder LD Stanford für sechs Ortszeit und stellt
Datums- und Uhrzeitdaten dar und fügt
eine Liste von Hier war es also ins Stocken geraten als sich die Zeit um
einige Sekunden verging Und hier wird es als Liste
gespeichert. Okay? Projekte LT werden also in Stanford oder Ortszeit und
stellen Datums- und
Uhrzeitdaten als Nischenkomponenten dar.
Jahr, Monat, Tag, ungerade Minute und Sekunde werden
als Liste in der lokalen Zeitzone gespeichert als Liste in der lokalen Zeitzone Standardmäßig wird also
zum lokalen Typ gewechselt. Es ist flexibler als
Project City, da es
direkten Zugang zu neuen
Ertragskomponenten
der Macht ermöglicht direkten Zugang zu neuen
Ertragskomponenten , um die ich John kümmere. Okay, hier ist ein
Beispiel für Politik. Lt. I will create a
date time object,
pia, add dot projects,
LTE, MLK, Martin,
20-Sekunden, Juli 2023 Callbacks sind unterschiedlich, 45 s, und ich werde versuchen, es auszudrucken Also, weißt du, hier
haben wir den Tango nicht spezifiziert. Und wenn ich drucke,
sehe ich 20-Sekunden-Kollisionen, Ozon, Grundy drei, naja,
30 Meilen 45 s mit der
indischen Die Zeit John, meine lokale Gefahr, das ist indische Standardzeit. Es wird gewaschen, fest
an diesem Objekt befestigt, giftig. Jetzt ist es üblich
mit dem lokalen Timed You Only-Fenster oder
Lias in Project City, wir haben den Zeitplan spezifiziert, Martin Projects LT. brauchen
diesen Zeitpunkt hier nicht zu spezifizieren. Es wird automatisch
die lokale Zeit verwendet,
John, weil es für die lokale Zeit des
Projekts steht. Okay. Und wenn wir auf die
monatliche Minute und Sekunde zugreifen wollen, können
wir einfach nach Eugene
Datum, Uhrzeit, Unterstrich LT, dem Objekt, das wir für
diesen Dollar erstellt
haben , plus Was wird es also tun, wenn Sie LTE als Jahr seit
1.904 Monaten, Datum, Uhrzeit,
Unterstrich LT-Dollar, M1
Monat plus ein Projekt LT, speichern 1.904 Monaten, Datum, Uhrzeit , den Monat
mit Null beginnen Also Daten plus 1€ für
Januar um 11:47. In ähnlicher Standardeinstellung
verwenden sie den MD Monat, Tag. Und für ungerade Werte
gibt es eine
Minute, einen Minutenmittelwert und 4 s. Also lassen Sie uns das ausführen
und mit
echten Objekten darauf zugreifen und dann drucke
ich es aus. Kommt total her und
Randy, drei Monate,
sieben Tage, 20 Sekunden oder so Das Gleiche bekommen wir und
projiziert LTL real einen Liter Die Präsentation ist ein Unterschied aber projiziert Ortszeit und speichert die Komponente
hat entfesselt wo die Projektstadt sie ist Kalenderzeit steht für
Datum und Uhrzeit, wohingegen die Anzahl der Sekunden
seit
dem Beginn von Unix der Zeit
ab Januar 197 entspricht Okay, das sind Dinge, mit denen
wir mit Daten umgehen können, Datums- und Uhrzeitdaten oder so. Und es gibt zwei Möglichkeiten Project City und Projects Empty. Und wir haben
beide verstanden
109. Projekt 7 Datentransformation und Zusammenfassung: Hallo und willkommen zurück. In diesem Projekt werden wir also
ein weiteres einfaches Projekt durchführen, in dem wir Techniken zur Datentransformation und
-zusammenfassung
auf Daten aus der realen Welt
anwenden Datentransformation und
-zusammenfassung
auf Daten aus der realen Welt
anwenden werden Um die Technik der
Datentransformation und -zusammenfassung
auf reale Daten anzuwenden, verwenden
wir also Technik der
Datentransformation und -zusammenfassung
auf reale Daten anzuwenden, den MPG-Datensatz
, der standardmäßig auch
in unserem verfügbar ist Dieser MPG-Datensatz ist also in unserem Paket sofort
verfügbar. Wir müssen
den Datensatz also nicht separat herunterladen. Es ist bereits
im R-Paket verfügbar. Der MPG-Datensatz
enthält Informationen über verschiedene Automodelle
und deren Kraftstoffeffizienz Lassen Sie uns also das GG-Plot verwenden, wenn wir die Datentransformation
anwenden und einige
Techniken zusammenfassen, um
Erkenntnisse aus dem MPG-Datensatz zu gewinnen , der der Datensatz über
die verschiedenen Card-Modelle ist , und
sie fühlen sich effizient Als erstes
laden wir die ggplot2-Bibliothek. Herr, der Datensatz
, der ein MPG-Datensatz ist. Also verlassen wir die Datenfunktion und übergeben den Datensatznamen, bereits
im R-Paket verfügbar
ist. Also Daten und übergeben Sie
den Datensatznamen. Okay, dieser Datensatz
wird also geladen. Und um dann die
Struktur des Datensatzes zu untersuchen, verwenden
wir die Funktion
STR-Funktion und übergeben
den Datensatznamen. Wenn wir das also ausführen, erhalten
wir die Struktur von
Dataset, diesen MPG-Datensatz Hier sehen Sie also Herstellermodelle,
Hubraum, Baujahre, Anzahl Epsilon Dot Transmission, Dr. City, Highway und Klassen All diese
Variablen sind also da. Okay? Als Nächstes sehen Sie
die Zusammenfassung des Datensatzes. Lassen Sie uns also die Zusammenfassung ausführen und
dann den Namen des Datensatzes übergeben. Ja,
das gibt Ihnen ein besseres Verständnis dafür, wie,
wie alt es dort ist, welche Art von Lesen entweder
Hersteller, Modell,
Hubraum, Jahr, Zylindergetriebe und Stadtautobahn, und die Füllung und dann Klasse. Für alles wird der Mindestwert
angegeben. Erstes Quartil, Median,
drittes Quartil, all diese statistischen Okay? Wenn wir uns
das
als Nächstes ansehen enthält der MPG-Datensatz mehrere Variablen,
darunter Hersteller, Modellverdrängung und
Hubraum in Litern Und dann Anzahl der Zylinder und dann
Übergänge für irgendeinen Typ Dre ist der Typ Dr. und BYU City
MPG und WY ist Highway MPG. Das ist also der
durchschnittliche Kilometerstand der Stadt, und das ist ein hoher BMI abzüglich
des jeweiligen Autos Wenden wir nun diese Techniken
zur Datentransformation und -zusammenfassung
mithilfe des GG-Plots Also verwenden wir
als erstes den Gruppenbalken-Plot. Und in diesem, was wir tun werden, werden
wir die Komprimierung jeder
Stadt vornehmen. Auf der
Mpg-Kilometerzahl basierender Zylinder. Also verwenden wir den MPG-Datensatz
und den Pipe-Operator. Und hier gruppieren Sie nach Zylindern. Und dann diese
Gruppierung nach Zylindern. Dann übergeben wir es an die
Zusammenfassungsfunktion. Jeder Stadtdurchschnitt, der die Stadt
unterstreicht,
wird also als Mittelwert
des Stadtdurchschnitts bezeichnet Und dann geben wir das an die GG-Plot-Funktion weiter, die
ästhetische Funktion. Wir verwenden das X
als Faktor und wir faktorisieren den Ausweiszylinder
und warum tun wir es um des
Rezepts willen und geben
die Anzahl der Zylinder ein, den
IJ-Faktor des Zylinders , okay Und dann wird Jamboard verwenden um den Start
gleich der Identität zu bestehen Und dann berechnet er die Anzahl der
Zylinder auf der X-Achse. X-Achse gibt die Zahl Epsilon an, die Y-Achse jede Stadt, Meile, BD und siehe Titel geben Ihnen jede Stadt und VD nach Und das Team wird das Minimum verwenden. Und dann drucken wir das Diagramm
der Gruppenleiste. Lassen Sie uns das ausführen und sehen, lassen Sie mich einfach
den Platz maximieren, damit
wir das Diagramm sehen können. Okay? Ja, wenn du
welche kaufst, siehst du rauchen. Malis, aber das,
okay, das heißt, weil wir Nykturie-Dplyr-Bibliothek
haben Also lass mich wissen, dass die Plots Okay, wenn wir jetzt laufen, sehen wir dich heutzutage
richtig , dass entweder,
was
die by-Funktion angeht , aus
dem dplyr-Paket stammt , das
du nicht geladen hast Natürlich war es das
Werfen, also jetzt können
Sie den DMB
D anhand der Anzahl der Zylinder nachweisen Also Anzahl der Zylinder
auf der X-Achse. Und bei jeder Stadt steht der Kilometerstand
auf der Y-Achse, also die Nummer des Zylinders, das Datum und das Myelin Aber geben Sie tatsächlich vier ein und
diversifizieren Sie die
Mileage-Dinge hier für tatsächlich
Mileage-Dinge Auf diese Weise können wir analysieren,
wie sich die Anzahl der Zylinder in einem Automodell auf die Kilometerleistung
jeder Stadt auswirkt Dann zeichnen wir den Boxplot und Color Box Director sind
wirklich
dasselbe und Schönheit,
ästhetischer Ausgang, Dry, Highway,
MPG nach Typ, Typ, Typ, Typ und Y-Achse werden wir uns
verhalten und den Typtyp bevorzugen und wie
diese Dinge,
die wir wissen,
bereits diesen Boxplot-Highway MPG von Dr. gemacht Also kommen wir her. Der nächste ist drei. Wir stellen ein Streudiagramm auf und wird
die MPG
der Stadt im Vergleich zum Hubraum des
Motors nach
Getriebetypen ermittelt, was daraus ein Streudiagramm wird GG-Plot-Funktion, die Ästhetik des
MPG-Datensatzes, die
X-Verschiebung und die
Y-Achse werden also Ästhetik des
MPG-Datensatzes, die
X-Verschiebung und Stadt sein Und dann ist Farbe
Transmission und Geom-Punkt , um die Punkte zu Und dann X-Achse, Y-Achse,
X-Achse, dann
Verschiebungs-Y-Achse,
ein Dämpfer, ein Dämpfer Und lassen Sie uns das ausführen
und die Ausgabe sehen. Das Streudiagramm nach MPG in der Stadt im Vergleich zum
Hubraum nach Klassenkameraden Dies gilt für automatisch,
automatisch und manuell. All diese Dinge können wir sehen. Als Nächstes füge ich sogar das facettierte Histogramm der MPG-Verteilung der
Stadt für Hier also dasselbe, XXS-Stadt und der abgeleitete Typ
und das geom unterstreichen das Histogramm in dem dem Titel Weiß,
Augenfarbe Weiß und Thema minimal und eitert gegeben
werden Augenfarbe Weiß und Thema minimal und Und hier wird der Typtyp gemeldet, und dann werden wir die I'm Time ausführen und
drucken. Es wird so kommen. Das ist also ein festliches Histogramm, MPG-Distribution
in der Stadt, MPG-Distribution
in der Stadt Trockenes Rohr. Das ist der City Mileage und
das ist die Frequenz Und deshalb die trockene
Pfeife, das ist das richtig? Okay. Was wir also lange in
diesem kleinen Projekt haben ,
in diesen Beispielen wenden
wir die
Datensteinbildung und fassen einige Techniken zusammen,
wie die Berechnung der
Beweisstadt MPG nach Anzahl der
Zylinder und die Verwendung von Gruppierungen, um aufschlussreiche Realize zu erstellen Und wir haben auch beantragt
, die Distribution
Absolut MPG für
jeden Typ zusammenzufassen und
mit Boxplot und Medulla
zu verwenden Distribution
Absolut MPG für und
mit Boxplot und Medulla
zu verwenden. Indem man anwendet, dass
es sich nicht bildet. Jemanden übel zu nehmen ist technisch gesehen
nicht. Sie können Muster, Trends
und Jugendliche aufdecken , wenn sie in den
Daten enthalten sind, und es einfacher machen, aussagekräftige Erkenntnisse
aus realen Datensätzen zu ziehen Aus einem Datensatz aus der realen Welt. Denken Sie daran, dass ggplot2
verschiedene Funktionen und
Flexibilität bietet , um in jeder
Lektion eine
weitere, zielgerichtete Lektion durchzuführen jeder
Lektion eine
weitere, zielgerichtete Lektion Ihnen also frei, das Plasmid zu erkunden und
an Ihre Analyseanforderungen anzupassen. Das ist also ein einfaches Projekt
von Klempnern und dann von jemandem einige Techniken mit realen
Daten, die ein MPG-Datensatz Damit wir gesehen haben
110. Projekt 7 Teil 2 Datenfilterung und Farbskala: Hallo und willkommen zurück. In dieser Vorlesung werden
wir
Bedingungsanweisungen und
Datenfilterung im GD-Diagramm verwenden . Okay, also ggplot2, wir können
Bedingungsaussagen und
unseren ersten Link zu unseren Daten verwenden , um unsere Diagramme auf der
Grundlage dieser spezifischen
Bedingung oder Teilmengen von Daten
anzupassen auf der
Grundlage dieser spezifischen
Bedingung oder Teilmengen von Welche Anforderung auch immer darauf
basieren wird , das können Sie tun. Auf diese Weise können Sie
dynamischere und
aufschlussreichere Visualisierungen erstellen dynamischere und
aufschlussreichere Visualisierungen Deshalb werden
wir auch in dieser Vorlesung mit dem MPG-Datensatz fortfahren, also
dem Datensatz, der Karten, Modelle und deren Kilometerstand
und verschiedene andere Okay, ich predige also nicht, um zu demonstrieren,
wie man
bedingte Anweisungen und
Datenfilterung ggplot2 verwendet bedingte Anweisungen und
Datenfilterung ggplot2 Also haben wir als erstes den ggplot2
geschrieben. Okay? Und dann
laden wir diesen Datensatz, das ist der MPG-Datensatz Hat MPG-Datensatz gemacht. Und dann erstellen wir
unser Streudiagramm, Stadt-MPG versus
Autobahn-MPG wobei die Fahrzeit farbig dargestellt wird Also ja, das wird unsere Variable
erstellen. Das ist ein Scatter Underscore-Plot. Und hier verwende ich
die Ziffer ggplot2. Und hier ist der Datensatz MPD, es Ästhetik, Schriften, und ich gebe CD und
warum Highway und Color unter Dr.
Greg gemacht wurden Okay. Und dann geom
Point funktionell oder um den Punkt auf dem Plot zu zeichnen Und dann geben die
Labore die Namen existierender
Projekte, MPD, Y-Achse, Autobahn, MPG,
NBA, Titel des Streudiagramms Wir verwenden
Streudiagramme für TMP im Vergleich zu Autobahn-MPG mit der Farbe
Rot auf dem Und dann verwenden
wir das Thema mit dem Minimalwert und drucken
das Streudiagramm Lassen Sie mich das erklären. Jetzt erhalten wir ein
Streudiagramm, das uns
den CT im Vergleich zum MPG auf der Autobahn auf der
Grundlage des Trockentyps zeigt den CT im Vergleich zum MPG auf der Autobahn auf der
Grundlage des Trockentyps Das sind also die
X-Achsenreal mit Stadt-MPG, Y-Achse ist Und die Laufleistung beim Nähen
anhand der Trockenpfeife. Also diese Farbe, Farben
schwanken das trockene Rohr. Okay, das ist also das
Streudiagramm, das wir gezeichnet haben. Nun, was wir als Nächstes in
diesem einfachen Streudiagramm machen, alle Datenpunkte oder wir sehen jemanden mit verschiedenen
Farben, aber unter trockenem Papier Fügen wir nun einige
bedingte Anweisungen und
Datenfilterung hinzu, um
das Diagramm weiter anzupassen. Dieses Diagramm besteht also Datenpunkten, bei denen die verschiedenen Farben unter der Fahrzeit vergraben sind. Jetzt verwenden wir unsere
Bedingungsanweisungen und die Datenfilterung, um das Diagramm
anzupassen. Als erstes wir erstellen
wir
ein Streudiagramm mit bedingt farbigen
Punkten innerhalb des MPG-Schwellenwerts der Stadt Hier definieren wir also den
Schwellenwert für die Geschwindigkeit und den Kilometerstand. Diese Stadt unterstreicht die
Embryogenese, die als Schwellenwert bezeichnet wird. Das ist das oder was auch immer
Lemma ANA testet alle Werte, die ich uns gebe 20. Nun also Streudiagramm mit
bedingt farbigem Punkt. Wenn unsere Stadt MPG
all das berührt , was wir hier als 20
definieren Also GG-Plot, die ästhetische Funktion des
Datensatzes. Das Gleiche. Zugriff auf DY ist hi Rick
and Color, hier ist eine CD. Und echte,
die den Test oder weniger gegeben haben, mehr als
die erhaltenen Punkte, wollten nur Punkt D größere
Dichte und Dichte Und das wird vorhersagen,
da alles, was derzeit
Quellgebiet ist, größer ist als Menge. Okay? Und dann die
Geom-Punkt-Funktion, und dann lesen wir die Skalierung Doppelpunkt,
Unterstrich, manuelle Und hier geben wir
die Werte für die Farben Rot und Blau sowie die Beschriftungen an, die uns unter
und über dem Schwellenwert
gegeben werden . Je nachdem, ob es
größer als ist, relativ zu, es über dem Schwellenwert
und unter 20, es wird unter dem Schwellenwert liegen. Und dann die
Lachfunktion, die wir benutzen , um Done
nach der Handlung und allem anderen Namen zu geben. Okay, lassen Sie mich das erledigen. Okay, wir bekommen
ein paar Briefe. Hier. Wir bekommen einen Fehler. Problem bei der
Berechnung der Ästhetik. Fügen Sie eine erste Gartenebene namens YLL Objects
City hinzu und verkaufen August will ich nicht, tut mir leid, ich habe diese Variable nicht ausgeführt. Also jetzt haben wir. Also lass mich nochmal. Sehen Sie sich hier also dieses Streudiagramm mit bedingt gefärbtem
Wind an, das auf dem MPG der
Stadt basiert Stadt Diese blauen Punkte
liegen also über dem Schwellenwert
, der derzeit der Fall ist. Und die roten Punkte
liegen unter dem Test auf dieser Stadt
MPG, weniger als 20. Großartig. Jetzt ist die X-Achsenstadt MPG,
Y-Achse energiereicher. Blaue Punkte stehen für den oben genannten
Schwellenwert, der
derzeit MPG-Stipendiaten der Stadt ist derzeit MPG-Stipendiaten der Stadt Also über dem Schwellenwert, Schleife abwischen und
unseren Schwung als,
okay, das ist also eine Bedingung, die wir gestellt haben Als Nächstes, was wir mit
diesem Band machen werden , habe ich etwas
weiter erklärt In diesem Diagramm verwenden wir
die ästhetische Funktion,
um die Geschwindigkeit der
Farbästhetik größer als die
MPG-Geschwindigkeit der Stadt, die
größer als Bronte ist, abzubilden . Eine
starre logische Bedingung,
dass die Entwicklung
wahr oder falsch ist, basierend darauf, ob
der MPG-Wert . Eine
starre logische Bedingung, dass die Entwicklung wahr oder falsch ist, basierend darauf, ob der Stadt über oder unter
diesem Schwellenwert liegt diesem Schwellenwert Die Farbe, die Skala oder Schreibtisch oder die Darmspiegelung
funktionieren hier nicht, um
die benutzerdefinierten Farben an die Punkte
über und unter dem Flugsaurier
zusammen mit den über und unter dem Flugsaurier Als Nächstes verwenden
wir, dass die Datenfilterung
ein Streudiagramm erstellt, wobei die
Datenfilterung die Lebensdauer respektiert Die Filterdaten für einen
bestimmten Dr. Fred-Typ. Zum Beispiel F4,
Frontantrieb. Okay, also hier brauche ich eine
Variable und weise ihr F zu, das funktioniert bei einem weit nach
vorne gerichteten Antrieb Damit ich
frontantrieb und frei Gott spiele, verstreute Handlung auf diesem
wertvollen Alkylat Und ich verwende die
GG-Plot-Funktion und einen Ratgeberdatensatz, MPG Und hier gebe ich MPG und Dipol-Dipol an, definiert
als Trockenrohr Dipol-Dipol an, definiert
als Trockenrohr
mit Frontantrieb. Hier übergeben wir den Datensatz
an die GG-Plot-Funktion. Ich spezifiziere das aus diesem eingebetteten Datensatz,
als
ob ich einen Dipol-Dipol nehmen möchte Sie machen es Daten
, die
die trockene Leitung als
Frontantrieb zur MPG haben die trockene Leitung als
Frontantrieb zur MPG Dollar DRE
entspricht der Antriebsart, das wird der
Frontantrieb sein Und dann wird die ästhetische
Funktion bestehen X ist gleich CT. Und warum habe
ich die Farbe anhand der Fahrzeit und
all anderen Dingen angezeigt. Geom unterstreicht den Punkt
von irgendwo locker auf Plot und Grundstück und Labor funktionieren Und dann werden wir versuchen, das zu
testen und zu sehen, wie die Diagramme
entweder dieses Streudiagramm sehen können, Stadt-MPG war diese Autobahn, MPG für Das ist also das
Streudiagramm für die CD. Und ich lege mein kleines Auto ab , das
Frontantrieb hat. Okay, jetzt
kannst du vergleichen, okay. In diesem Diagramm, um die Datendatei im
Stack-Scatterplot von
Procreate nur für
einen bestimmten Typ zu
verwenden Stack-Scatterplot von
Procreate nur für , nämlich Frontantrieb, indem wir den MPG-Datensatz
ersetzen,
wo wir hier das Substituieren durchgeführt haben, sind
Daten gleich MPG , MPG Dollar, dr Frontantrieb, indem wir den MPG-Datensatz
ersetzen,
wo wir hier das Substituieren durchgeführt haben, sind
Daten gleich MPG, MPG Dollar, dr.
V ist
gleich Dry Prep Hier haben wir also die Teilmenge des Datensatzes aus
dem MPG-Datensatz
entnommen Datensatzes aus
dem MPG-Datensatz Und das ist eine
Projektsubvention,
die auf dem trockenen Typ basiert , der
Frontantrieb Also haben wir zuerst die Daten
für Dodge Vehicle
Damage Vehicle Damage Vehicles,
die über
Frontantrieb verfügen, und dann für
Dolt-Automodelle mit
Frontantrieb genommen für Dodge Vehicle
Damage Vehicle Damage Vehicles, die über
Frontantrieb verfügen, und dann für , wir haben den
Kilometerstand von
City my Ligand Hybrid anhand des
Zustands MPG-Dollar verglichen Kilometerstand von
City my Ligand Hybrid anhand des
Zustands wir haben den
Kilometerstand von
City my Ligand Hybrid anhand des
Zustands MPG-Dollar verglichen, Dr.
V ist gleich
Dive Type Jumper. Demonstrieren Sie, wie Sie
bedingte Anweisungen
und Datenfilter in
ggplot2 verwenden bedingte Anweisungen
und Datenfilter in , um individuellere und
aufschlussreichere Visualisierungen zu erstellen individuellere und
aufschlussreichere Visualisierungen Als Nächstes verwenden
wir die Farbe und
passen
Farbskalen und Legenden Durch das Anpassen von Farbskalen und Legenden in ggplot2
können Sie
die visuelle Darstellung
von Daten verbessern und Ihr Diagramm informativer
und visuell ansprechender
gestalten Sie können
Farben, Beschriftungen, Brüche und andere Aspekte der Farbe, des Maßstabs und der Legende an
Ihre spezifische
Visualisierung und Liste anpassen Ihre spezifische
Visualisierung und Liste Lassen Sie uns GG-Plot weiter verwenden. So passen Sie Farbskalen und Legenden sowie die unruhige Handlung an Also verwenden wir hier die
GG-Plot-Bibliothek. Also lass uns das ausführen. Wir verwenden die Datendaten,
MPG-Datensätze, um den Datensatz zu laden, der ein
MPG-Datensatz ist Dann erstellen wir eine
Scatterplot-Stadt, MPG, Autobahn. Mpg. Mpg bedeutet MPG. Okay. Ich hoffe du weißt es, ich habe es vorhin
auch mit Farbe
erklärt ,
basierend auf Typ, Typ. Okay. Ihr GG-Plot zu MPG
ist also, dass es
Ästhetik nicht entschuldigt , wenn jemand direkt Autobahn
und Farbe und Fahrt
projiziert und Farbe und Und das Gleiche
haben wir schon früher gemacht. Also lass uns das ausführen. Das ist das
Streudiagramm, das wir bekommen Okay. Also Allradantrieb Freund von Driven Real Drape für
Allradantrieb ist rot, blau ist Heckantrieb
und grün ist für Frontantrieb und grün ist Okay. In diesem einfachen Streudiagramm werden nun alle Datenpunkte
anhand des
Trockentyps mit unterschiedlichen Farben gekennzeichnet Im GG-Plot werden automatisch Farben
zugewiesen und eine Legende
erstellt Jetzt werden benutzerdefinierte Farben
und Legenden
versuchen, benutzerdefinierte Farben zu erzeugen, sodass eine Variable erstellt
wird. Der Kunde unterstreicht Farben
und erstellt einen Vektor. Hier. Erzeugt einen Vektor
und Gelb
ergibt das, was F ergibt. Blau steht für unseren Willen Lesen und für vier
für Tun. Queens Waterfront wird
fahren, es wird blau sein, Heckantrieb, es wird rot sein und Arme werden umleiten,
es wird Und dann erstellen wir das
Streudiagramm mit Gott. Lassen Sie uns die Galen-Legende nennen, also hier
benutzerdefinierter Unterstrich genannt, Farbe unterstreicht Streuung
und das In diesem Streudiagramm erstellen
wir ein GG-Plot, Ihr Datensatz ist derselbe,
und verlassen die Autobahn Und hier die Farbe
basiert auf dem Laufwerk. Und dann
wird die Geom-Punkt-Funktion riesig, um die Punkte darzustellen Und dann verwenden wir die
Gayle-Unterstrichfarbe und es kommt manuell, um die Farbe zuzuweisen
, die wir hier erstellt haben Und wir geben Values ist
gleich benutzerdefinierten Farben. Und dann erstellen wir
das Streudiagramm. Also lass uns das ausführen. Jetzt. Unser Streudiagramm mit den benutzerdefinierten Farben, die wir definiert
haben, funktioniert hier nicht mehr. Grün steht also für den
Allradantrieb, bläulich für den Frontantrieb und Radius für den
echten, echten Als Nächstes, oder was wir
gemacht haben, lassen Sie mich zusammenfassen. In diesem Diagramm verwenden wir
die
Befehlsfunktion „Farbskala, Unterstrich, Doppelpunkt “, um
die benutzerdefinierte Farbe
für jeden Typtyp festzulegen die benutzerdefinierte Farbe
für jeden Typtyp Wir definieren benutzerdefinierte
Unterstrichfarben
als benannten Vektor, wobei die Namen, die für
die dortigen Antriebstypen stehen, Forefront wird
RPA in der realen Welt reifen lassen
und 444-Radantrieb und 444-Radantrieb Und die Werte stehen für
die entsprechenden Farben. Die Skala und der Maßstab. Die Unterstrichfarbe kommt. manuelle Funktion ermöglicht es uns, die benutzerdefinierten Farben der
Farbästhetik im Diagramm zuzuordnen. Als Nächstes werden
wir versuchen, benutzerdefinierte
Legenden und Beschriftungen hinzuzufügen. Benutzerdefinierte
Legendenstufen können verboten werden. Also streuen Sie das Diagramm mit der benutzerdefinierten Legende und dem Level
, das wir erstellen werden Also hier GG Plot Function, MPD, Aesthetic Exit TY, CD Warum sollten Sie den Typ, den Typ, den
Geompunkt markieren und den Punkt
ausarbeiten, um
den Punkt zu zeichnen, zu skalieren, Farbe zu
unterstreichen, manuell
zu
unterstreichen, um die benutzerdefinierten Farben zu verwenden Also rufen Allergologen an, um nachzusehen. Jetzt, wo wir es schon getan haben. Dann fügen wir hier
Labels hinzu und er oder C wird Frontantrieb,
Ellbogenantrieb und
erschwinglich, reif entwickeln Ellbogenantrieb und
erschwinglich, Also hier sind wir gegeben. F wird
durch Vorderrad ersetzt, wird echt sein und
vier werden 4-fach sein Und dann geben wir Dr. Type. Und dann und dann wird die
Lachfunktion
verwendet, um die Namen zu behalten. Okay, lassen Sie mich das erledigen. Wir sehen uns heute, der Swing
folgte auf das F, ungerade und 40 zerstörte
uns die direkte Arbeit da das Vorderrad
wirklich enden wird Auf diese Weise können wir
die Legenden anpassen, okay? In dieser Handlung verwenden wir also das gelernte
Levelargument. Eine Punktzahl ist eine Skalierung, Unterstrich Farbe und Rus pro
Minute um die Kostümebenen zu speichern, denn der Landry verwendet
das Namensargument auch, um unseren benutzerdefinierten
Titel für die Legende
anzugeben Dies ist also das Namensargument, das
wir verwendet haben, um
der Legende den benutzerdefinierten Namen zu geben . Also hier
kommt es, richtiger Typ. Okay. Ich hoffe, Sie haben
verstanden, wie wir die bedingten
Aussagen und die
Datenfilterung
verwenden und wie wir die
Farbfähigkeiten und Legenden anpassen
können
111. Erstelle interaktive Plots mit plotly und ggplotly: Hallo und willkommen zurück. In dieser Vorlesung
werden wir
interaktive Plots mit
plotly und ggplotly erstellen interaktive Plots mit
plotly und ggplotly Also die
Bibliotheken plotly und ggplotly werden wir verwenden, um interaktive Plots zu erstellen Okay, also was ist ggplotly? Ggplotly ermöglicht es uns,
ggplotly zu verwenden, eine Funktion
, mit der wir das von
uns
erstellte GG-Plot in zwei umwandeln können wir das von
uns
erstellte GG-Plot in zwei umwandeln Wir haben
interaktive Weise benannt. So kann jedes
mit ggplot2 erstellte Diagramm mithilfe
von plotly und ggplotly in interaktive Plots
umgewandelt werden interaktive Plots
umgewandelt mithilfe
von plotly und ggplotly Glotzig. Okay? Wenn Sie also
interaktive Diagramme mit
plotly und ggplotly in our erstellen interaktive Diagramme mit
plotly und ggplotly in our können Sie
Ihre Visualisierungen mit interaktiver Planung verbessern Ihre Visualisierungen Und viele weitere Funktionen. Plotly ist ein R-Paket
, das ggplotly in
Grafiken in interaktive
webbasierte Visualisierungen umwandelt Grafiken in interaktive Okay? Plotly ist also ein weiteres Paket
, das wir Ihnen schicken werden. Sie können also Plot installieren. Okay, zur Installation können
Sie zu
den Tools gehen und
auf Pakete installieren klicken. Und dann
suchen Sie hier einfach nach Plotly, klicken Sie darauf, wählen Sie es aus und klicken Sie
dann auf Installieren, und es wird installiert Ich habe es bereits installiert, also werde ich es nicht noch einmal tun. Und um dies zu überprüfen, installieren Sie
verschiedene Dichten. Okay? Also sage ich es ab. Sie können auf Installieren klicken, falls
es noch nicht installiert ist. Okay. Also gehen wir zu UGG ggplot2 und der Plotly-Bibliothek in diesem,
okay, Paketen darin Also, was ich tun werde,
was ich tun werde. Ich werde
Ihnen eine schrittweise
Anleitung zum Erstellen
interaktiver Plots mit plotly und ggplotly geben Okay, also gleich als allererstes bei
gemäßigter
Temperatur die
notwendigen Bibliotheken installieren und laden. Wie wir bereits wissen, haben
wir gesehen, wie wir es installieren können. Lassen Sie mich diese also laden, um das zuerst zu
nutzen. Sobald diese beiden
Bibliotheken geladen sind, ist der
nächste Schritt ein gutes
GG-Plot für Daten, Sie ein GGPlot2-Plot Okay, lassen Sie uns damit beginnen,
ein einfaches GG-Plot zu erstellen , um es mit dem MPG-Datensatz zu plotten , den wir bereits gesehen
haben Okay, also lade den MPG-Datensatz, aber du hast keine Funktion
bekommen. Laden. Und dann erstellen wir ein Streudiagramm,
ein
einfaches Streudiagramm, um
eine variable GG-Plot-Unterstrichstreuung zu erstellen eine variable GG-Plot-Unterstrichstreuung Und ich werde das ggplotly benutzen. Wong Sun hat
den Datensatz MPG verwendet. Und dann verwenden wir die
ästhetische Funktion, X-Achse, Sprint und Y-Achse und zeichnen
die Autobahnkilometer auf und färben
dann
die Klasse der
Reagan-Geom-Punktfunktion rot , mit der
wir die Punkte und
Laborteiche plotten, und wir verwenden, um den Namen für
die X-Achse in ihnen
zu geben ,
Auszahlung L und Y existieren
Autobahn MPG und Autobahn MPG und Sprint und Y-Achse und zeichnen
die Autobahnkilometer auf und färben
dann
die Klasse der
Reagan-Geom-Punktfunktion rot, mit der
wir die Punkte und
Laborteiche plotten, und wir verwenden, um den Namen für
die X-Achse in ihnen
zu geben,
Auszahlung L und Y existieren
Autobahn MPG und Titel des Streudiagramms wird Streudiagramm sein. Und dann Theme Yet, wir
werden Theme Minimal verwenden. Und dann drucken wir
das Streudiagramm. Lassen Sie uns also dieses
einfache Streudiagramm, das
Sie nicht gemacht haben, mit ggplot2 drucken Sie nicht gemacht haben, mit ggplot2 Siehst du, hier siehst du
das einfache Schwindeldiagramm,
diese Streudiagramme, die
zwischen einem
Hubraum eines Motors und dem MPG auf der Autobahn gezogen wurden . Warum Fahrzeugklasse? Also radikale Klassen hier,
Zweisitzer Kompakt,
Mittelklasse, ich, Minivan,
Pick-up, Kleinwagen, ein SUV Das sind also die verschiedenen, unterschiedlichen Farben für jede Klasse. Und hier auf der X-Achse geben wir
die Verschiebung an, okay? Und dann
sehen wir auf der Y-Achse die Autobahn MPG. Das ist also das
einfache Streudiagramm. Das ist nicht interaktiv, oder? Jetzt. Ich möchte dieses Diagramm erstellen, dieses Streudiagramm interaktiv
machen,
wenn ich den Mauszeiger Also etwas, okay.
Also die Werte, was für jeden Punkt und all die
Dinge, auf die ich im Juni klicken kann, ich kann
all die Dinge verwalten, die ich
zu unserem Scatter hinzufügen möchte . Sie
werden
interaktiver, sodass wir mit dem Streudiagramm
interagieren können mit dem Streudiagramm
interagieren Dazu verwenden wir diesen GG-Plotplot
und konvertieren ihn in interaktive Plotly-Plots Und um das zu tun, werden
wir den
ggplotly interaktiv machen , indem wir die Funktion ggplotly
verwenden.
Diese Funktion ist sehr wichtig,
um jeden GG-Plot,
DG-Plot zu Function, sorry, Plot in die interaktiven
Plots umzuwandeln DG-Plot zu Function, sorry, Plot in die interaktiven
Plots Also werden Sie ggplotly
aus dem Plotly-Paket heraus funktionieren,
okay, und dann den
digitalen Plot in den interaktiven
Plotly-Plot konvertieren in den interaktiven
Plotly-Plot konvertieren Was ich tun werde, ich
erstelle hier eine Variable,
einfache Interaktion, um die Handlung zu
unterstreichen Einfach irgendeinen Namen, den du hier geben kannst, und dann entlade die
ggplotly-Funktion Hier haben wir UGG-Plot. Jetzt wirst du dich geirrt haben. Und ich werde einfach
das Streudiagramm hinter mir lassen, die Daten, die wir
mit GG-Plot erstellt haben Also es sei denn, es ist passiv gegenüber
der ggplotly-Funktion. Und dann drucke ich einfach
diese interaktiven Plots aus. Wenn Sie also einfach
zu diesem ggplotly übergehen, wird
dieses einfache
Streudiagramm konvertiert Es funktioniert, in
eine interaktive Handlung umgewandelt. Schauen wir uns also an, ob
das passiert oder nicht. Nun können Sie hier
dieses Streudiagramm in
den Verdrängung versus
Autobahn-MPG von Vagal sehen dieses Streudiagramm in den Verdrängung versus
Autobahn-MPG von Die Handlung ist ein Thema, aber wenn ich den
Mauszeiger über einen Punkt bewege
, werden die Werte angezeigt, die diesem Punkt
entsprechen In diesem Punkt ist der
Hubraum 1,8 Autobahn, MPG ist 36. Und Klasse der
Liste, unterkompakt. Wenn ich hierher komme, Hubraum
1.837 Klasse Kompakt. Und wenn ich zu den pinken komme, diese Hubraum 2,5 Hybrid 27 und Klassen SUV dafür. Okay, sehen Sie hier,
es ist ziemlich cool, dass jetzt das einfache Scatterplot,
bei
dem die es
in eine wunderschöne interaktive Handlung ggplotly-Fonds
und
zur Altersvorsorge umgangen wird, umwandelt.
Hier. Hier können wir das
C auswählen. Wenn ich auf C klicke, macht es keinen Sinn,
Sonya zu sein, weil ich alles ausgewählt,
nicht ausgewählt Also wähle ich Zweisitzer. Es werden zwar zweisitzige Eisenbahnen sein, wenn ich auch Kompaktwagen hinzufügen
möchte Also ich komme zurück, klicke auf kompakt und kompakt. Gelöschte Punkte
werden erreichbar sein. Wenn ich nun auf
Midsize und Missing
Card Scheme Minivan klicke , wussten
wir, dass ich gelaufen bin, kann das
werden, was
auch immer
Sie analysieren möchten Sie können hinzufügen, wenn Sie das entfernen
möchten, .
Sie können hinzufügen, wenn Sie das entfernen
möchten, einfach die Auswahl abwählen
und fertig Das ist also das interaktive
mit, das
hinzugefügt wurde, indem einfach das
Streudiagramm an das ggplotly übergeben Und es ist, es ist ziemlich
einfach und ziemlich kalt hier kannst
du dir
den Plot als PNG ansehen. Diese Option gibt es auch hier. Dann haben wir die Duma. Oft können wir klicken
und das können wir tun. Sie sehen hier, dass hier verschiedene
Optionen angeboten werden, um auf diese Weise zu
verbieten, zu verbieten. Und du kannst analysieren, das
ist das Band Punctum. Dann haben wir das Kästchen ausgewählt. Wir können hier einen bestimmten
Wind auswählen und Sie können analysieren, welche Punkte gesammelt
werden, um hervorgehoben
zu werden. Als Nächstes
können wir Lasso Select auswählen Sie können so
auswählen, wie Sie es auswählen
möchten , und auswählen ob Sie
nur eine bestimmte Sache auswählen möchten können
Sie hier auswählen. Diese interaktiven
Dinge wurden also hinzugefügt,
glaube ich, sie wurden hinzugefügt, indem
einfach
die Funktion „Farbdiagramm“ für Streudiagramme übergeben wurde. Das können wir rausbringen. Und wir können Jermaine reinbringen. Und dann sagten sie Texas. Und dann haben wir
die Nebenhandlung. Okay? Also so, okay, jetzt haben wir einen Abriss,
aber wenn Sie einfach
das Streudiagramm an die
ggplotly-Funktion übergeben ,
wird ein interaktives Objekt erstellt wird Jetzt wurde das GG-Plot zum
Streudiagramm in ein interaktives Diagramm mit
Plotly
umgewandelt Und Sie können mit der
Maus und Dutch Bet damit interagieren . Sie können den Mauszeiger über den
Datenpunkt bewegen, den wir
bereits gesehen haben , und den Sie sehen,
sowie Stimmungs- oder
Ton-Tipps und Jermaine und Ihr
Mundband Plot und viele weitere Dinge
, die wir bereits getan haben Jetzt fügen wir dieser Handlung etwas mehr
zwischengespeichertes Myosin hinzu. Also das nochmal, okay, das ist
also die Handlung, die interaktive Handlung, die
wir erstellt haben. Jetzt nehmen wir die
zusätzlichen Anpassungen vor. Jetzt können wir
interaktive Diagramme
mithilfe der Plotly-Funktion weiter anpassen interaktive Diagramme
mithilfe der Plotly-Funktion Zum Beispiel können wir die Harvard-Steuer
nur für die Farbe
ändern und
weitere Anmerkungen hinzufügen . Also lass uns das machen. Also, was wir tun werden, wir werden
die interaktive Handlung anpassen. Bisher wird dadurch
eine Variable erstellt . Interaktives
Unterstrichdiagramm, Unterstrich benutzerdefiniert Dies ist der Name des interaktiven
Kundendiagramms, den Sie angeben können. Und hier verwende ich das
Interaktive, um zu planen
, was wir hier haben. Und wir verwenden das Layout Sonne. Und innerhalb des Layouts, was wir geben können, können
wir den Titel anpassen. wird interaktiver Plot sein, der Titel X-Achse gibt den Hubraum
in Klammern an. Ja. Es tut uns leid. Und auf der Y-Achse wird die
MPG-Legendenausgabeliste der Autobahn Und es wird die Fahrzeugklasse sein und der Flur und der
Modus werden die besten sein. Lassen Sie mich das ausführen
und das wird die interaktive Handlung
des Untergangs erstellen , und lassen Sie uns das drucken Jetzt kannst du hier
die X-Achse sehen , sie kann meinen interaktiven Plot zum
Absturz Und hier kannst du sehen, wie
die Punkte gesungen sind. Wir können so eine Band spielen. Sie können ein Kästchen auswählen. Du meinst deinen Mund. All diese Dinge können wir gehen. In diesem Beispiel haben wir die Titelachsen und
Ebenen sowie den Legendentitel
aufgeteilt . Okay? also plotly und
ggplotly Function, Plotly Package und
ggplotly
funds verwenden ,
können Sie ganz einfach Deckungen erstellen und löschen Von Diagramm zu Diagramm, sodass Sie Ihre Daten leichter untersuchen
und verstehen können. Ich hoffe, Sie haben die
Studierenden in der nächsten Vorlesung verstanden.
112. Einführung in Plotly und die wichtigsten Funktionen: Hallo und willkommen zurück. In dieser Vorlesung werden
wir etwas
über Plotly lernen , und es ist kostenlos Nur. Plotly ist also eine
Open-Source-Bibliothek , die es Benutzern ermöglicht,
interaktive, hochwertige,
kostenpflichtige und
ritualisierte Programmiersprachen zu erstellen , nicht nur in meinem Fall ist Plotly in Python,
R und Telescope
verfügbar Also Python und sag uns Control,
damit du Plotly benutzen kannst. Und hier. Außerdem werden
wir etwas über Plotly lernen Plotly bietet eine breite Palette von
Diagrammtypen, von
einfachen Streudiagrammen bis hin zu komplexen 3D-Essenzen. Sehen Sie,
wie wir Anna jetzt
regionalisieren und Anna in 3D kartieren können, wie wir Schauen wir uns also die Interrupts und
Plotly und die wichtigsten Das erste ist die interaktive
Traktorvisualisierung. Ermöglichen Sie
uns also Plotly, es fortzusetzen. Interaktiver Unterricht, interaktive Funktionen für Nichteisenmetalle
. Es ermöglicht Benutzern die Interaktion. Lassen Sie uns zwei,
in- und ausgehende Lüfterhalle
oder Datenpunkte grafisch darstellen, um die Details zu sehen und
Datenreihen ein- und auszuschalten Das sind also die wichtigsten Funktionen und das gibt Ihnen einen Zeiger Interaktivität mit den
Plots und dergleichen Interaktion mit den Charts. Zeig mir deinen Mund. Banning kostenpflichtig, bewegt den Mauszeiger über den Datenpunkt, um
das Detailproblem zu sehen, Daten-CDJ Diese Interaktionen machen
es einfach, Daten auf
intuitive Weise zu untersuchen und zu analysieren. ist also das
Beste an der Handlung, sie
hat es , es macht das
Chart-Leben auf Kurs mit Deal Also, und als Nächstes
ist es einfach zu bedienen. Apa oder CLI bietet eine einfache UCR. Verwenden Sie APA, um Ihre
Lizenz zu erstellen Mit ein paar Codezeilen. Sie können einen komplexen
und interaktiven Josh generieren, was ihn zu einem Favoriten unter
Datenwissenschaftlern und Analysten macht. Da es also ziemlich einfach
zu verwenden ist, ist es bei den Taktiken im
Data-Science-Unterricht sehr
beliebt . Da Plotlaser in
unserem Teleskop und von Thomas,
sehr beliebt, mehrere
Programmiersprachen sind, ist
das ein weiteres wichtiges
Merkmal von Plotly Plotly unterstützt mehrere
Programmiersprachen, darunter Python und JavaScript Dies ermöglicht es, mit
ihrer Berichtssprache zu arbeiten und
nahtlos zwischen ihnen zu wechseln. Für verschiedene Aufgaben. Chart Plotly unterstützt
eine Vielzahl von Diagrammtypen wie
Liniendiagramme, Streudiagramme, Balkendiagramme,
Histogramme von Josh, wahrscheinlich Diagramme, 3D-Diagramme,
Choroplethen, Karten und viele Es bietet Flexibilität und Vielseitigkeit bei der Ritualisierung von
Radiusarten von Radon Dann bietet Plotly auch
webbasierte Visualisierungen an. Plotly, webbasiert, was bedeutet, dass Sie
interaktive Diagramme
und Dashboards ganz einfach online erstellen und in Webanwendungen
einbetten Praktische Poren. Plotly bietet
Ihnen also tatsächlich die Möglichkeit Ihre
Plotly-Diagramme und Dashboards
zu integrieren Jetzt betten wir das
in die Berichte ein. Das ist mehr als eine
Webanwendung mit Plotly Dash, Sie können einfach
interaktive Webanwendungen erstellen und das ist für Daten Klicken Sie auf die Datenvisualisierung. Das macht es zu einem leistungsstarken Tool für die Erstellung datengesteuerter Anwendungen
für jedermann Bezug auf die Kosten gibt es tatsächlich nur wenige
Substanzen , die teilweise,
teilweise, teilweise eine breite
Palette von Kundenoptionen bieten , um das Erscheinungsbild von
Charged an eine
bestimmte Anforderung anzupassen Charged an eine
bestimmte Anforderung Sie können nur Farben, Beschriftungen,
Schriftarten, Stile und
Regression und vieles mehr
anpassen Schriftarten, Stile und
Regression und vieles mehr Animation und ggplotly unterstützen Animationen und
reibungslose Übergänge Wechat ist sehr nützlich, um eingefärbte Daten
im Laufe der Zeit zu
visualisieren Bei der Erkundung verschiedener Staaten
des größeren Exports stellt der Landwirt ggplotly fest, dass es in
verschiedene Formate wie PNG,
JPEG, SVG, PDF exportiert
und sogar animierte GIFs erstellt werden
kann verschiedene Formate wie PNG,
JPEG, SVG, PDF exportiert
und sogar animierte GIFs erstellt und sogar animierte Sie könnten keine großartigen
Präsentationen und Dokumente erstellen. Integration mit anderen
Bibliotheken ist teilweise auch durchaus möglich. Plotly kann
problemlos in andere Unterrichtsbibliotheken für Datenanalyse und
Theorie integriert andere Unterrichtsbibliotheken für Datenanalyse und
Theorie wie Pandas in my tongue, RTT ggplot2 in R. Dadurch können Sie einfach die
Stärken verschiedener Tools kombinieren Dies sind also die Hauptmerkmale von Plotly interactive
religious NADPH, APA Mehrere
Programmiersprachen unterstützen jeden Datentyp und unterstützen
webbasierte Anwendungen Unterstütze sie am besten. Diese Sport- und
Webanwendungen. Meine Animationen und Übergänge. Plotly wird häufig
in den Bereichen Datenwissenschaft, Business Intelligence und wissenschaftliche Ressourcen
sowie in verschiedenen anderen Bereichen Trochlear, intuitiv
ansprechend und interagieren Okay, also in der nächsten Vorlesung beginnen
wir mit
den praktischen Übungen mit
dem Blockieren. Die nächste Vorlesung.
113. Arbeiten mit Plotly: Hallo und willkommen zurück. In dieser Vorlesung
werden wir also auf Plotly gehen Plots mit Plotly erstellen In der vorherigen
Vorlesung haben wir
die Einführung zu Plotly gesehen die Einführung zu Plotly wir gesehen, welche Funktionen,
welche Plots
können wir mit Plotly erstellen? welche Plots
können wir mit Plotly erstellen In dieser Vorlesung werden
wir also die praktischen Übungen machen. Also habe ich etwas Code für
dich geschrieben und ich werde es erklären
und werde sterben den Code
ausführen
und dann werden wir sehen was wir mit dem Plotly machen
können Einige Dinge
wie werden
diese 3D-Plots mit Plotly erstellen diese 3D-Plots mit Plotly Das Ding ist also ziemlich
interessant und ich sage Ihnen, wie wir diese drei
3D-Streudiagramme zeichnen
können. Okay,
das sind also die wenigen Dinge, die wir
in dieser Vorlesung tun werden. Okay,
fangen wir mit dieser Vorlesung an. Und die Dinge wurden der
RStudio-Website rpubs.com
und Verweisen darauf entnommen RStudio-Website rpubs.com
und Also lass uns anfangen. Plotly ist ein großartiges
Tool, um einfach wunderschöne
interaktive Plots zu erstellen Dies kann sowohl mit dem Paket
Plotly
als auch mit TD ggplot2 geplottet werden Wir können also Dinge verwenden, die wir nur mit dem Plotly plotten können, oder wir können den
GG-Plot zusammen mit Plotly verwenden Dafür benötigen wir die Bibliotheken
Plotly und DD ggplot2. Also ich habe es schon installiert, also führst du es einfach aus. Und dann verwende ich hier den Midwest-Datensatz, der
mit dem RStudio-Are-Paket sofort verfügbar
ist mit dem RStudio-Are-Paket Lassen Sie mich Ihnen zeigen,
wie das aussieht. Lassen Sie
mich also Control Enter eingeben. Siehst du, ja, das ist
der Datensatz, wir in den
riesigen Mittleren Westen schicken werden, okay Es gibt also eine PID,
dann Land, Bundesstaat, Gebiet, Bevölkerung,
Gesamtbevölkerung, Bevölkerungsdichte,
bevölkerungsweite Bevölkerung, Schwarz, Popmeridian, Pop,
Urzeit, Sonstiges Aber warum schwarz? Also, obwohl jede Spalte
zusammen mit D da ist, jede Spalte dann
weitere Variablen hinzu und sie sind
alle in englischen Variablen. Wir werden
die Verschwörer sein, okay? Das ist also der Datensatz. Also wie ein Land, ein Bundesland, Gesamtbevölkerung, sind all diese
Variablen so okay? Leute gesagt. Okay. Jetzt verwenden wir
diese Daten zum Plotten wieder. Als erstes verwende
ich die
Funktion Plotly, Plot Underscore Und warum Plotly funktioniert um ein Diagramm für dieses LPA zu erstellen, diesen Datensatz
Midwest und die X-Achse zu
übergeben, ich werde einen großen Teil Klasse verwenden,
aber Klasse ist ein Datensatz,
Datenspalte hier, Variable Aber Clark College, okay? Und färbe und verwende das Feld für den
versteckten Status und die Typen. Ich erstelle hier ein Boxplot. Handlung Prozent
Hochschulabschluss, Eile Prozent Hochschulbildung durch Um das zu planen. Also sieh hier, das ist der Boxplot , weil wir den Typ hier als Box
angegeben haben. Wenn Sie hier klicken, können
Sie das
kleinste erste Quartil, den
Median, das dritte
Quartil und den oberen Zaun sehen Median, das dritte
Quartil Und du kannst den
Maximalwert sehen, diese Dinge. Auf diese Weise können wir
schnell ein Boxplot erstellen, 4% der College-Ausbildung Schritt für Schritt durchgeführt werden Durch wie viele
Menschen werden ausgebildet? Hochschule? Sag, das ist
der Boxplot, okay? Jetzt werden wir versuchen, einige
grundlegende Plots mit Plotly zu erstellen. Dafür. Was ich machen möchte, was ich
möchte, um einen einfachen Plot
direkt mit Plotly zu erstellen , oder wir
können auch UGG-Plot zwei Also hier auch UGG ggplot2. Also hier verwende ich den irischen Datensatz, den
wir bereits gesehen haben. Wenn Sie also sehen möchten,
wie das in diesem Datensatz aussieht können
Sie eine Kopf-Iris hinzufügen. Also lass mich das zuerst laden. Das ist also Datensatz, in dem Sie die Kelchblattlänge,
Kelchblattbreite, Blütenblattlänge,
Blütenblattbreite und eine Art
sehen können Kelchblattbreite, Blütenblattlänge,
Blütenblattbreite Blütenblattbreite Dies sind die Spalten oder Variablen, die
in diesem irischen Datensatz eine Ebene haben. Okay? Also, wenn du das ausführen willst, kannst
du sehen, ja, okay. Als Nächstes verwende ich wieder die Funktion Plot Underscore
LY, und der Datensatz wird es sein. Die Daten entsprechen also Iris, Xe, X-Achse und der Kelchblattlänge und der
Y-Achsen-Blattlänge Okay? Also lasst uns diese bessere Handlung zeichnen , dass sie so abläuft. Okay? Also auf der X-Achse die einfache Punktlänge und auf der Y-Achse die Blütenblattlänge, die
Kelchblattlänge und die Blütenblattlänge Und diese Punkte
wurden gezogen. Also für diese Kelchblattlänge
und Blütenblattlänge hat der
Ehemann hier gezeichnet Jetzt kann mit ggplot2
derselbe Plot auch in ggplot2 erstellt
und als Objekt verwendet werden Dann kann die Handlung erstellt werden,
kann interaktive Version ggplotly, Beachten Sie, dass nicht alle
Funktionen
funktionieren , wenn Sie ggplotly verwenden Also muss ich manchmal
etwas ausprobieren. Okay? Also hier, das gleiche
Streudiagramm, das ich versuchen werde, mit GG-Plot und
Plot zu zeichnen, dass ich
eine Figur erstelle, an der der Speicher
in der Abbildung gespeichert wird , um in Abbildung zwei zu speichern Lassen Sie uns das jetzt ausführen. Und ich habe grotesk darauf angespielt, das zu planen.
Abbildung zwei. Okay, lassen Sie mich das erledigen. Also sieh mal hier, wie es so
kommt, okay? Das Gleiche mit
Hilfe von und ggplotly. Wir haben geplündert. Indem du in der Lage bist,
dich zu plotten. Sie können den
Plot genauso
anpassen mit ggplotly Schauen Sie sich die gebräuchlichen Spaltennamen an. Wenn Sie also
den Spaltennamen für
den Iris-Datensatz heraufstufen möchten , können
Sie dies einfach ausführen. Sehen Sie sich die Spaltennamen an, die wir bereits gesehen
haben, oder? Es gibt fünf
Spaltenpunkte nach Arten. Also hier gebt ihr
Daten, Iris, Ästhetik, Schriften,
und wir verwenden X, Kelchblattlänge, Blütenblattlänge
und Also werden wir die
Punkte nach Arten färben. Und dann verwende ich
die Funktion Geom Underscore Point, um diese Punkte zu
plotten Und dann diese Zahl, die wir vom TG Plot bekommen, werde
ich versuchen, mit dem ggplotly zu plotten Okay, also drucke
das einfach aus und sieh hier, jetzt haben wir das bunte
Streudiagramm und wo dieses Rosa, das grünlich
ist, für
Versicolor Auf diese Weise können wir die Farbe bestimmen. Jetzt können Sie also auch sehen, dass die Art im Textfeld erscheint , wenn Sie
den
Mauszeiger über sie Jetzt zeigt es, dass
Sie den Mauszeiger über sie bewegen. Jetzt näht es Kelchblattlänge, Blütenblattlänge, und ihm geht
Anika voraus. Genau wie und ggplotly können
Sie
die Achse, den Titel
und die Farbe anpassen, einen Sektor auch hier. Er hat also GG-Plot. Was auch immer wir im
GG-Plot tun können, das tun wir hier. Und dann geben wir die Zahl, wie
wertvoll
die Plotvariable ist, an die ggplotly Dieses Objekt wird in Abbildung zwei dargestellt und es wird geplottet, okay, also hier die X-Achse des Tagebüchers
und dann die Geom-Punkte Innerhalb der
Geom-Unterstreichpunktfunktion, realer Ästhetik und
Farbe steht jedes Quartal für Preise und Sparberichte ebenfalls auf der
Grundlage der Arten Okay. Und dann ergeben sich
Kelchblattlänge, Blütenblattlänge und GG-Titel als
Kelchblattlänge, Blütenblattlänge.
Okay? Also lass uns das ausführen. Jetzt. Das kannst du hier sehen. Jetzt sind auch die Punkte verloren. Und für diesen Versicolor
gibt es ein Dreieck,
und für diesen Kerl kommen die
Punkte genauso im und für diesen Kerl Quadrat Das liegt also daran, dass wir
innerhalb dieser menschlichen
Netskope-Punktefunktion
separate Arten verwendet haben separate Arten dass wir
innerhalb dieser menschlichen
Netskope-Punktefunktion Auf diese Weise können wir auch die Achse, den
Titel und die Farbe
anpassen . Jetzt erstellen wir ein
einfaches Balkendiagramm. Um ein einfaches Balkendiagramm zu erstellen, verwenden
wir data.frame. Und hier erstelle ich hier einen
Beispieldatensatz. Für diesen Datensatz gibt es beim nächsten Mal drei Spalten und die Gesamtrechnung.
Also männlich, weiblich wird das Geschlecht für
diesen Alcatel-Faktor-Vektor sein, und dann wird die Zeit
das Mittag- und Abendessen sein Keiner, der nicht okay sein sollte. Die Stufen werden Mittag- und Abendessen sein, und insgesamt wird es
einige zufällige Rechnungen für hier geben. Lassen Sie mich also diese Daten erstellen, aktivieren Sie zuerst diesen DataFrame Jetzt erstelle ich ein Balkendiagramm. Zeit auf der X-Achse Color Fill, Gruppierung nach Geschlecht und riesige produzierende
Unterstrich-Ausweichfunktion hier GG plant also riesige
Datenmengen, während ihr zu diesem einen Objekt geht, das wir haben, paar Trainingsdaten,
die wir erstellt haben. Und dann die X-Achse der ästhetischen
Funktion, wir setzen die Y-Achse der Zeit, ich setze Crotonville und ich
fülle den Unterstrich mit Geschlecht und
Geom Ich werde Stacked and put
Identity and Policing,
die Polizei verwenden und die niederländische Funktion unterstreichen Und dann erstelle ich
ein weiteres Objekt, Abbildung vier, und ich mache das
Boston-Balkendiagramm G, ggplotly, ggplotly a, B und drucke dann die Abbildung für C. Abbildung vier, und ich mache das
Boston-Balkendiagramm G,
ggplotly, ggplotly a, B
und drucke dann die Abbildung für C.
Sie sehen hier. Nun, das ist das
einfache Balkendiagramm. Okay, er hat zu
Mittag und zu Abend gegessen. Zwei Dinge gibt es dann dieses System für
Frauen und das ist für die
Gesamtrechnung von Männern oder Frauen pro Mahlzeit für das Mittagessen. Und das
Gleiche gilt für das Abendessen. Wenn Sie also analysieren möchten,
wie beim Mittagessen von Frauen, wird die gesamte Oberfläche abstrahieren. Insgesamt. Wir lieben nachhaltige
Rupien und zum Abendessen, Frauen, die wir lieben Cystein
und MATLAB, rs17.17, 0.0 Wir können also
analysieren, dass beim Mittagessen Männer und Frauen die
Ausgaben für das Mittagessen sehr unterschiedlich sind Männlich, gib mehr für das
Mittagessen zum Abendessen aus. Sogar männlich und weiblich. Daraus können wir schließen, dass die Kosten
für das Abendessen,
das sie gekauft haben , fast gleich sind. Männlicher und weiblicher Tag. Gut ausgegeben bei fast dem gleichen
Geldbetrag für das Abendessen. Aber wenn
Frauen zu diesem Mittagessen kommen, geben sie
weniger für das Mittagessen aus. Und werden sie
mehr für das Mittagessen ausgeben? Dies können wir
anhand dieses Balkendiagramms schlussfolgern. Als Nächstes
verwenden wir das grundlegende SF. Dafür verwenden wir
die Bibliothek selbst. Und dafür verwenden wir das
NCDs-Objekt, SF, Doppelpunkt,
Unterstrich, Lesen der
Systempunktdateifunktion für Sie und überprüfen
dennoch SIP Slash
NC-Punkt SHP und Paket wird SF und SHP und Paket wird SF und Paket wird SF
und ziemlich gleich wahr Und dann erstellen wir
ein Objekt (Abbildung drei). Und ggplotly, wirklich
riesig und ggplotly. Und wir werden diesen Unteroffizier überholen. Objekt für ggplotly plus
geom unterstreichen sicher. Unterstreichst du
SF-Fonts und überprüfst du? Und er hatte ästhetische Formen
und Religionen wie diese. Und wir füllen es nach Gebieten auf. Lassen Sie uns dieses einfache
Oberflächendiagramm hier zeichnen. Jetzt bekommen wir
diese Oberfläche. Sie können hier auf der
X-Achse und Y-Achse sehen. Also gewissermaßen. Und Sie können Etikette
im Ruhezustand auf verschiedene Arten sehen. Auf diese Weise können wir das Ganze
nutzen, um zu planen. Als Nächstes können wir auch die Karten dafür
platzieren. Ich bin dein Zynga. Das war's für
Februar, uns und den Verkehr. Okay. von
dieser Website übernommenen Daten werden also direkt übernommen.
Wir erstellen
auf dieser Website Und diese Daten sind
Teil der Punkt-CSV-Datei für den
US-Flugverkehr vom 21. Februar . Also speichern wir das
in diesem DataFrame. Und dann werden wir versuchen, diesen
Flugverkehr auf die Karte
hochzuladen. Soweit der Wert
, den du gerade stylst. Also erstelle ich ein Objekt
G. G und der Geltungsbereich ist die USA Der Geltungsbereich dieser Map
sind US-Projekte und diese Listen geben Projekte
und sind Listentyp. Alberts USA. Land für Land
wird unser Sohn sein. Die Landfarbe wird RGB sein
und wir verwenden Grau 95. Und die Farbe der Untereinheiten wird
sehr wichtig sein, die Farbe
der fünf Länder toll für fünf Länder mit 0,5 und die Farbe der
Untereinheit mit Blau 0,5. Auf diese Weise können wir das nutzen. Okay? Und dann verwenden wir
die
GO-Funktion Plot Underscore , um
dies auf der Karte zu plotten Bisher haben diese den
Datensatz als dF hinter sich, diesen, den Airport Traffic Notch
CSV-Datensatz, den wir hier platzieren werden. Dann wird Breitengrad zu Breitengrad und Längengrad
wird all das in die Hose nehmen, das
sind die beiden Dinge die aus
diesem kniehohen Datensatz hervorgehen werden Ist es wirklich dick? Fügen Sie Markierungen und
Texte hinzu, die Flughafen, Stadt, Bundesland und Ankunft angeben. Und dann wirklich satte Farbe,
Symbol, quadratische Größe. Ich bewege den Mauszeiger für Texte. Okay, lassen Sie mich
dieses Tool ausführen und dann Farbwert bei
riesigen ankommenden Flügen
vergessen. Und für das Layout und
verwende den Titel, die Layoutfunktion,
um es zu gestalten. Und dann versuche, der
meiste Verkehr zu sein, den die USA blockiert sind. Und dann lesen Sie gemeinsam weiter. Dann versuche wirklich, etwas
zu platzieren. Jetzt kommt es also, da meiste Verkehr
Port Hauer als Flughafen hinzufügt. Also hier, wenn wir
das Glas sehen , aber Buck
International kommt um 90,
dann kriegt man Ankünfte oder 100 für dieses Stück von Freunden,
das werde ich tun, 379. Sie können also mit der Maus über
die Karte fahren und Sie können Zentralaustralien
finden Remington ist für die 26. Ankunft dieser Eagle Country-Region 292648 im Jahr 1998 am Salt Lake
City International Airport Auf diese Weise können Sie
den geschäftigsten Flughafen finden. Verändern Sie uns. Als Nächstes können wir eine Handlung erstellen,
die der rationale Akteur kreiert. Als Nächstes
können wir das Raster plotten,
Trash Talk erstellt die farbige Heatmap mit zwei Variablen,
die als X- und Y-Koordinate fungieren Und dritte
Variablenzuordnung zur Farbe. Dazu verwenden wir
Schritt zwei und Plotly. Dafür verwenden wir die magische Funktion und wir werden sie
benutzen, solange wir es nicht können. Okay, also jetzt GG plottet zu diesem Datensatz und
ästhetischem Wert1,
Wert2 und geom Rushton, zu diesem Datensatz und
ästhetischem Wert1,
Wert2 und geom Rushton, ästhetischer Füllwert können Werte füllen. Distiller wird diese
Funktionsskala und das Oscar-Feeling verwenden. Das Pellet wird
Spektralrichtung eins haben. Und diese Lag-Funktion
gibt die X-Achse von West nach Ost und die Y-Achse von Nord nach
Süd, Titel und Sand Und dann werden wir versuchen, das zu planen. Also lass uns das laufen und sehen
, dass nach der Geburt der Tochter
eine
Krankheitshöhenkarte für Mongo während Und das wird auf dieser
Grundlage erstellt. Okay. Als Nächstes werden wir versuchen,
ein 3D-Streudiagramm der
Nierenkanäle zu Also 3D-Streudiagramm dafür, ich werde die leeren Autos machen Okay? Also leere Autos, ein leeres Auto, M gleich Null und
M gleich eins. Das nennt man automatisch. Manuell. Und dann hier leere Autos, Edge-Faktor, leere Karten am, und dann versuchen Sie,
mit Plot zu plotten, unterstreichen nur den Datensatz mit leeren Autos, der in das Gebiet integriert
ist Verwenden Sie wirklich X Bar, WT, Wi-Fi-Hotspot-Edge-Projekt für Ihr krankes
Wi-Fi-Hotspot-Edge-Projekt für Sie, kranke Farbe basierend auf
AM und Wir werden auch hier definieren. Das ist für Farbe und die Farben geben dem
Gespräch Farbe. Und dann
werden für das Layout Exit,
Tie Await und
Y-Achsen-Cross Horsepower verwendet und Get-Achsen werden 141 mal
vier Meilen Lassen Sie uns also dieses 3D-Diagramm zeichnen. KANN also wissen, dass dies das 3D-Diagramm ist, das Streudiagramm
, das wir erstellt haben Dafür können Sie
dann unsere X-Achse, Y-Achse sehen. Die Y-Achse steht für die Bruttoleistung. Und das dritte Exon, meine Zeit. Wenn du also mit der Maus
über den Punkt fährst, siehst
du 3,78 Y
ist eins bei und Auf diese Weise können wir
die 3D-Plots plotten und so
nett und so weiter. Das ist also X-Achse, Y-Achse, und diese Karte überschreitet ihre Achsen
. Plotly packt also
andere größere, um
hochgradig anpassbare
interaktive Plots und
Karten zu erstellen , um
hochgradig anpassbare
interaktive Plots , weil es bereits bereit ist, in GG-Plot zu integrieren, die Möglichkeit und weniger Okay, du kannst mehr
Übungen dazu machen und du kannst
üben und du kannst viel mehr interaktive
3D-Diagramme, Karten und so weiter erstellen . 3D-Diagramme, Karten und alles, okay. Das ist also auf einem Boot, Plotly
114. Erstelle 3D-Plots in R: Hallo und willkommen zurück. In dieser Vorlesung werden wir
3D-Plots in der Kunst erstellen. Deshalb gebe ich euch allen
ein paar verschiedene,
unterschiedliche Beispiele, mit denen
wir 3D-Plots erstellen können. Okay, also zuerst werde ich Plotly und für diese
Benutzerbibliothek richtig verwenden Plotly und für diese
Benutzerbibliothek richtig Sie haben es also nicht installiert,
Sie können es installieren. Also zuerst habe ich
die Plotly-Bibliothek geliebt und dann werde ich
Beispieldaten erstellen, indem ich eine Nichtfunktion verwende Also x, y, z, du weißt schon, 100,
100 und das Projekt existieren und ich
verwende squared plus y squared Okay? Also, aber das wird die drei
bekommen. Macht es später? Jetzt möchte ich diese drei Punkte mit
einem 3D-Punktdiagramm darstellen Mit Plotly. Dafür verwende ich
eine Wellenfunktion, die Ganzen nicht in Anspruch genommen wird
, die Funktion x
unterstreicht .
Ich erhalte x zum Quadrat, Y-Achse x und y und
dann wird x gefeiert Typ ist der
3D-Streumodus, dann die Markierungen und Harmonikas
und die riesige Listengröße,
ich gebe drei Farben, ich werde auf der Y-Achse
und der Farbskala bezahlt und Dann das Layout, ich verwende die
Szene und für die Liste stelle
ich eine Liste zur Verfügung, die die X-Achse,
die
Y-Achse und die Jet-Achse enthält Y-Achse Und dafür gebe ich
den Titel X, Y endet. Wenn du willst, kannst
du Existenz als X-Achse Y-Achse angeben, und das X ist okay Also diese drei Titel gebe ich und ich werde versuchen,
lass mich das ausführen Also sieh mal, das ist
das gesperrte 3D-Diagramm. Wir haben ein 3D-Scatterdiagramm, wir haben ein 3D-Scatterdiagramm Wir kommen hierher, okay? Jetzt können Sie
Ihre X-Achse und Y-Achse sehen, und das ist die Jet-Achse, wie
auch immer Sie wollen Also C und jetzt X-Achse, Y-Achse und das X ist, sind die Punkte, die
wir mit
unserer Zahl erstellt haben , die
in einem 3D-Streudiagramm dargestellt wurde. Also X-Achse, Y-Achse und diese Achse. Was auch immer wir analysieren wollen, diese Weise können wir mit Plotly ein
3D-Punktdiagramm erstellen Also lass mich das nochmal überarbeiten. Ich habe
Beispieldaten mit
unserer normalen Funktion, dem
X-Achsenpunkt, erstellt unserer normalen Funktion, dem
X-Achsenpunkt, Ich habe unsere Norm von 100 erstellt. Die Y-Achse beträgt nicht mehr 400 und das
tote X entspricht den X- und Y-Werten. Und diese Formel, um die Punkte für ein
3D-Punktdiagramm zu
erhalten , habe ich
Plotly und die
Rechteckwellenfunktion
für die Indexierung von X-Achsen-AB-Produkten,
X-Punkt, Y-Achse und Y-Achse verwendet Plotly und die
Rechteckwellenfunktion
für die Indexierung von X-Achsen-AB-Produkten,
X-Punkt, Y-Achse und Y-Achse Und dann haben wir diese
Dinge, das Layout und die Markierungen. Und wenn wir das ausführen, erhalten
wir dieses 3D-Scatterdiagramm Als Nächstes gibt es nur
SP, SP-Funktion plus B-Bindungen Und Sie können es in
unserer Programmierung sehen, also in der Syntax BER SP, ist ein
Funktionsname und wir müssen
diese das ist ein
Funktionsname und wir müssen
diese 3,4 X-Achse,
Y-Achse und tot an dieser Stelle
schreiben , wir müssen als
wichtigen Parameter
dieser Funktion als separate
verschiedene Parameter schreiben wichtigen Parameter
dieser Funktion als separate
verschiedene Parameter , x, y und z mit x und
y sind Vektoren, die die Position
entlang der X
- und Y-Achse definieren Und die tote Achse entspricht der
Höhe der Oberfläche in der Oberfläche im
Matrixjet Diese Höhe wird also schon
die Matrix sein, okay? Rückgabewert für diese
SP-Funktion ist also die geflügelte Transformation von Metriken für das Projekt
in den 3D-Koordinaten X, Y in die Ebene mit
homogenen Koordinaten, X, Y, Z und T. Sehen wir uns
also das
Beispiel an, in dem diese Perspektive
außer der SP-Funktion verwendet wird. Sehen wir uns
also das
Beispiel an, in dem diese Perspektive
außer der SP-Funktion verwendet Perspektive
außer der SP-Funktion Du kannst Sponsor sagen. Also, was auch immer Sie wollen, Sie können es, ich nenne
es SP, Sponsor nennen. Okay, also hier
möchte ich unseren einfachen
rechten kreisförmigen Kegel zeichnen. Um einen einfachen rechteckigen
kreisförmigen Kegel zu veranschaulichen, erstelle
ich hier ein Objekt
namens und für diese Funktion. Und dann übergebe ich die Funktion, Funktion in Boston, dass ich diese
Quadratwurzelfunktion verwenden werde, X-Quadrat plus Y-Quadrat. Okay? Also das ist die Funktion für X-Werte, x und y sind lose Folge von minus eins
zu eins, geistig behindert Und Jet wird das
äußere X, Y und die Kälte sein. Das ist also die nächste Achse und dann die 3D-Oberfläche, ich verwende die Analysefunktion x, y, und diese drei Punkte übergebe
ich an diese Okay, also lass uns
wie geht es voran Sehen wir uns? Nun, das ist der
rechte kreisförmige 3D-Kegel , den wir damit erzeugen können. Reihenfolge der
Endeavour-Code-Funktionen
besteht also darin, den Vektor aus Zahlen mit
gleichem Abstand
und der äußeren Funktion vorab zu generieren Zahlen mit
gleichem Abstand
und der äußeren Funktion vorab zu die Funktion corn auf
jede Kombination von x und y
anzuwenden. Das ist
also der rechte kreisförmige
Kegel, den wir Jetzt. Sehen Sie sich hier noch ein Beispiel an. Was ich tun möchte, ich möchte die
Titel hinzufügen und den
Zugang zur Handlung so weit verbessern,
dass dieses Konferenzthema, dann wird das auch dasselbe sein Jetzt
plotte ich die 3D-Oberfläche
und jetzt spielen wir, wie wir die 3D-Oberfläche zeichnen , während wir die Funktion
verwenden
und dabei den X-,
Y-, Z-Punkt übergeben Y-, Z-Punkt Danach
verwende ich Managed CTO, das
perspektivische Diagramm eines Kegels Okay? Okay, also perspektivische
Darstellung eines Kegels. Und dann Git Lab, ich gebe Höhe für Jet-Achse, ich gebe einen Namen
als Höhe und Theta Party ALX1, was ist Und dann ist Phi Propylen
und die Farbe ist Orange.
Und sehen Sie, welche 0,4. Okay, lassen Sie uns
das ausführen und sehen, welche
Ausgabe wir erhalten. Wir erhalten dieses
perspektivische Diagramm der aktiven Darstellung eines Kegels. Hier
kann der X Lab 11 Kreuzlift also bis zur Ebene benutzt werden, die Ebene, um
die drei Achsen zu nivellieren. Und Theta und Phi sind
die Blickrichtung. Theta und Phi sind andere Windex
und das, was wir sehen. Wir haben Sie also am Donnerstag
und Freitag, 1245,15 Uhr. Mal sehen, was sich ändert.
Sehen Sie sich heutzutage an. Der Siegeswinkel
wurde geändert, oder? Du schaffst es. Mal sehen, wie es sich entwickelt. Der Betrachtungswinkel ändert
sich, okay? Welchen Blickwinkel du auch haben
willst, du kannst ihn in Theta und Phi angeben, wenn ich ihn auf 4.560,45 drehe, lass uns sehen, wie es kommt und das Ganze so sehen,
okay? Das ist T. Dann wird es so kommen.
Okay? Triff eine Entscheidung. Okay. Nun verwende ich sie, ich würde
sagen, um
das einfache digitale
Höhenmodell zu visualisieren . Okay, bis jetzt sind es
zwei bis zum Vulkan und ein echtes Exemplar mit zehn in einer Spalte und Reihe von 10 m Richtung Süden nach Norden. Und warum wirst du dann zu einem
zu Alkohol und Kälte gemacht werden . Und es wird
den Jet nehmen und Danton wird sich von Ost nach
West zerstreuen Okay? Nun, ein großer
Teil wird die Funktion des
Abschlusses und der Perspektive sein. Ich werde X, Y, w1,
35 verwenden und all
diese anderen Winkel bekämpfen Farbe braun, Haut fällt, Theta eins minus eins Das ist für Einstellung und
Rahmen und dann falsch. Also schauen wir mal, wie das kommt. Sehen Sie hier, das ist nur ein digitales
Alpha-Höhenmodell. Okay? So können
wir 3D-Plots in R erstellen. Also haben wir gesehen,
wie wir mit
der
unbeschriebenen Wellenfunktion Plotly-Plot umgehen können unbeschriebenen Dann haben wir gesehen,
wie wir die funktionale
Perspektivenfunktion to function plus b verwenden können , wie
auch immer Sie wollen, Sie können sie nennen So können wir Fernsehen kreieren
115. Erstelle interaktive Plots mit Highcharts: Hallo und willkommen zurück. In dieser Vorlesung werden
wir
interaktive Plots
mit Highcharts erstellen interaktive Plots
mit Highcharts Wir haben also gesehen, wie wir
das mit den anderen Bibliotheken machen können . Und jetzt machen wir die
Highcharts. Back ist da. Und dafür haben wir die Highcharts
heruntergeladen. Du gehst also einfach
die installierten Pakete durch und so hatte er für hohe Grafik macht wie kann das
im Staub und lädst es herunter. Okay. Die Highcharts-Bibliothek
wird also der Ursprung dafür sein Okay, unsere
Programmiersprache
wird also häufig für Statistiken,
Datenvisualisierung und
Datenanalyse verwendet Datenvisualisierung und
Datenanalyse , die wir bereits kennen. Verwenden der Highcharts-Bibliothek. Daten der Highcharts-Bibliothek werden in der
Software grafisch dargestellt nicht nur bedeutungsvolle, sondern auch
interaktive Diagramme erstellt. Okay, lassen Sie uns sehen, welche Art
von Diagrammen wir erstellen können. Interaktive Diagramme können wir mit Highcharts,
Säulendiagrammen, Balkendiagrammen,
Kreisdiagrammen und
Streudiagrammen
erstellen Säulendiagrammen, Balkendiagrammen, Kreisdiagrammen und
Streudiagrammen Dies sind die vier Arten von Diagrammen, die Sie
mit den Highcharts erstellen können Also Highcharts in
Texas, ziemlich einfach. Wir verwenden X-Diagramm und übergeben
dann das
Datenobjekt, geben dann ein, dann geben wir bei Cases die Punkte
X und Y und dann Farbe ein. Objekt,
das den Datenobjekttyp darstellt, ist also der
Diagrammtyp, den Sie
erstellen möchten . Es besteht aus X und Y, wobei die Xs
zur Darstellung der Daten erfasst werden Was ist wichtig und Farbe für das
Plotten von Farben, aber Sie haben keinen
Wert, den Sie angeben Diagramm erstellt also das
interaktive Diagramm, okay? Und dieses
Vier-Säulen-Diagramm für
Balken, Balkendiagramm,
Kreisdiagramm und Punktdiagramm werden wir
bekommen, nicht Dies ist eine ziemlich einfache
Syntax von Highchart. Ich zeichne, sein Diagramm
ist die Funktion. Und wir übergeben den
Datenobjekttyp der Charta, die Sie erstellen
möchten , und Fälle, es werden die X- und
Y-Achse und Farbe sein, aber was auch immer Sie Farbe geben
möchten. Okay, also zuerst erstellen wir
mit dem Dokument ein Säulendiagramm,
oder ein Säulendiagramm zeigt Daten mit Kategorien an, die
durch ein Rechteck dargestellt werden, manchmal auch als vertikales
Balkendiagramm bezeichnet wird Und Kategorien sind
normalerweise entlang der horizontalen Achse und Werte entlang der uns
bekannten vertikalen Achse angeordnet. Also zuerst importieren wir die Bibliothek,
die ich
chartere, Also Lamport Dann werde ich hier, was
ich tun werde, einfache Daten,
Beispieldaten für unsere Übung erstellen . Also hier erstelle ich
einen Vektor, der den Ländernamen
Amerika, Indien,
Indonesien, Japan,
Kanada, China und Brasilien enthält Amerika, Indien,
Indonesien, Japan, . Und ihr BIP. Der
BIP-Vektor erstellt also das dem Land
entsprechende BIP und gibt es an. Und dann
geben wir Ihnen die Daten, data.frame und
Land und Lieferung Das wird also der DataFrame sein. Okay? Als Nächstes wird das Säulenbalkendiagramm oder
das Säulendiagramm geplottet. Dafür. Speichern Sie das im P1-Objekt und verwenden Sie
die Funktion
Kantendiagramm.
Verwenden Sie ein Objekt, in Kantendiagramm.
Verwenden Sie ein Objekt, Ordnung, Punktdaten, die das Land und
das BIP enthalten Und dann tippe, ich
möchte ein Säulendiagramm erstellen. Also werde ich hier eine Kolumne geben. Bei Cases gebe ich
X als Land an und die
Y-Achse heißt BIP und Farbe Ich möchte dir einen Steuersatz auferlegen. Wenn du es zu etwas
anderem machen möchtest , kannst du auch Grün geben. Okay, lassen Sie mich
das überprüfen und es mir hier ansehen. Schau dir an, wie das Hello Interactive, dieses Säulendiagramm aussieht. Lassen Sie mich
diese also einfach entfernen und erneut, wenn ich darauf klicke, sehen Sie, wie sie sehr interaktive
Weise
erscheinen und verschwinden So können wir ein
Balkendiagramm erstellen, sorry, ein Säulendiagramm. Mithilfe des interaktiven
Säulendiagramms können Sie kapern. Als Nächstes erstellen wir ein Balken- oder
Säulendiagramm und
zeigen Daten mit Kategorien an, zeigen Daten mit Kategorien die durch das Rechteck
dargestellt werden, das manchmal als
horizontales Balkendiagramm bezeichnet wird Okay? Okay, lassen Sie uns hier ein Balkendiagramm
erstellen. Also derselbe Datensatz, den ich bei dir sein
werde. Sehen Sie sich dann die View-Daten an. Wenn Sie Ihre Daten sehen möchten, können
Sie das Land und das BIP sehen. Okay? Als Nächstes
möchte ich hier ein Balkendiagramm zeichnen. Also verwende ich das
S-Diagrammobjekt, den Datentyp Bar, Randfälle, Land, X-Achse, Land und Y-Achsen-BIP Und ich hatte nicht gelesen. Okay, lassen Sie uns das ausführen. Jetzt. Dies ist das Balkendiagramm
, das wir erstellen. Das ist also ein interaktives
Balkendiagramm mit Highcharts, okay, also sieh dir an, wie
es aussieht, okay? Und wenn Sie sehen, wie es drüber geht, werden
Sie das entsprechende
Land und das BIP sehen, okay? Als Nächstes wird jedes Kreisdiagramm, Kreisdiagramm oder jede Art von Grafik
, in der der Kreis in Gruppen
unterteilt ist die den Anteil
der
Kategoriewerte
darstellen , auf die verschiedenen
Konferenzen im Kreis aufgeteilt. Sie segmentieren die Marken in
diese Kategorie. Also verwende ich den
gleichen Datensatz, okay? Und ich werde versuchen, ein Kreisdiagramm zu
erstellen. Also hier gebe ich
Webseite gleich Pi. Alles andere ist derselbe einzige Typ, den wir
hier ändern. Und die Farbe, wenn du eine andere
Farbe
geben willst , die du geben kannst, gebe
ich dir das Kreisdiagramm. Sehen Sie sich hier an, wie das interaktive
Kreisdiagramm entstanden ist. Also werde ich es noch einmal ansprechen und
sehen, wie es aussieht. Und für jedes Land
wird es hervorgehoben, wenn Sie den Mauszeiger darüber bewegen China, Japan,
Indonesien, Amerika. So wie das hier. Ja.
So können wir by Chart erstellen. Als Nächstes wollte ich mich
mit dem Scatter Plot befassen. Punktdiagramm, auch
bekannt als Punktdiagramm. Du bist gerade zu den
aktuellen Werten gekommen. Was machen verschiedene Dinge medizinische
Variablen-Scatterplots zu sehen, habe zwischen
den Variablen abgehört, wie eine Variable
von einer anderen Variablen beeinflusst wird Können wir leicht visualisieren? Also werde ich den
gleichen Weg verwenden, tut es, und das wirklich eigensinnige
Land und das Und er hatte das
S-Diagramm und die Windel benutzt, ich gebe Streuung.
Das ist alles. Okay. Carla, nehme an, ich
wollte uns Gelb geben. Okay, lassen Sie uns hier
in das Streudiagramm eintauchen
und sehen, wie es ist Du siehst die Punkte. Also lass es mich noch einmal durchgehen, CIA Boxer kommt her. Lassen Sie mich das
auf eine andere Farbe übertragen. Mach es pink. Rosa. Pink ist auch nicht so viel
machbar und macht es sichtbar. Okay? Siehst du, weißt du, das ist die
Quadratwurzel eines Blocks, okay? Auf diese Weise können wir die High Charter,
High Highcharts-Bibliothek
verwenden und
Ihnen die
interaktiven Charts Ihnen die
interaktiven
116. Project 8 Visualisierung von Airbnb-Daten in New York City: Hallo und willkommen zurück. In dieser Vorlesung werden
wir also ein weiteres kleines,
sehr kleines Projekt
durchführen. Und in dieser Studie werden
wir eine
Fallstudie zur Visualisierung von Airbnb-Daten für New York
City mithilfe von GG Plot Also Airbnb,
Leute bei dir zu Hause aufnehmen. Also werden wir sehen, wie
die Leute nisten und was
das kostet oder was die Trends in der
Nachbarschaft Im Grunde werden wir uns also innerhalb der Daten von New York City bewegen Die Daten werden also hier bereitgestellt. Also Inserat oder CSP, das ich von Airbnb
heruntergeladen habe. Es wird also
die Daten für New York City und
Airbnb-Daten für New York City enthalten Airbnb-Daten für New York City Das Ziel dieses kleinen Projekts
ist es also,
das Spiel zu visualisieren,
zu
visualisieren und Erkenntnisse
aus den Airbnb-Daten
der gelben Kugel A und B in New York City zu gewinnen Airbnb-Daten
der gelben Kugel A und B in New York City riesiges Unternehmen wird das GG-Plot
nutzen . Ein
riesiges Unternehmen wird das GG-Plot
nutzen und versuchen, sie
zu visualisieren, die Erkenntnisse aus den
realen Daten von Airbnb zu
gewinnen. Okay, wir werden
verschiedene Aspekte
der Daten untersuchen , wie zum Beispiel die
vorherige Verteilung. Sie waren Sektor, okay? Also, der Datensatz für diese Studie
oder für dieses Projekt, wir verwenden die
CSV-Datei mit Listenpunkten von hier als wir eine Sitzung für
New York City gemacht haben. Der Datensatz enthält Informationen
über verschiedene Angebote, darunter Reis, Verfügbarkeit in der
Nachbarschaft
und andere relevante Details. Der erste Schritt ist also die
Datenaufbereitung. Dafür wird die
notwendige Bibliothek geladen. Also werde ich
die tiefe Schicht verwenden. Wenn du den Plan noch nicht
gestartet
hast, kannst du zu den von den Tools
installierten Paketen gehen, wo ich die Zange hinlege
und auf Installieren klicken, es wird installiert und dann kannst
du die Haftung nutzen Okay? Also, GG plant das durch
und wendet es auf unsere Bibliothek
an, wir werden es für dieses Projekt notieren. Und wir werden die
Struktur des Datensatzes sehen. Und wir nehmen einen
Begriff, bei dem Werte fehlen und konvertieren bei Bedarf die
DateTime Okay, also lass mich wissen, welche Bibliotheken
live notwendig sind. Und als Nächstes listen wir eine große CSV-Datei auf, die wir auf meinem lokalen Computer
haben.
Also habe ich das geschrieben. Also verwende ich jede
Punkt-CSV-Funktion und übergebe den Pfad der
CSV-Datei mit dem Dateinamen. Und ich werde
diese Daten in den
Unterstrich-Datenvariablen A
und B und B speichern diese Daten in den
Unterstrich-Datenvariablen A und B und B Lassen Sie uns das also ausführen. Okay, diese Daten haben
also 48.008,
95, 95 Objekte
und 16 Variablen Okay? Lassen Sie mich also die
Struktur des Datensatzes untersuchen. Ich verwende die STR-Funktion und wir übergeben diese AirBnB
- und Discord-Daten Lass es uns. Lassen Sie mich Ihnen die
Struktur dafür zeigen. Lass uns sehen. Also 48.008 95 Objekte
und sagt zwei Variablen. Macht das mit meinem
Namen und ID-Namen. Religion für die Bearbeitung der Kosten ID, Hostname, Nachbarschaft,
Gruppe, Nachbarschaft. Lass es laut raus. Der
kurzfristige Preis Das Minimum ist jetzt die
Anzahl der Bewertungen. Größer, leucinreich, monatlicher Berechnung der Gastgeberlisten,
Anzahl, Verfügbarkeit,
Recherche Also all diese Variablen sind da und ihr
Datentyp ist es auch Also nehmen wir jetzt alle fehlenden
Werte. Wir können also die
fehlenden Werte überprüfen, indem Es ist keine F-Funktion verwenden. Und wir übergeben diesen
Datensatz und die Anzahl
der fehlenden Werte und ein paar Monks und um die Summe
der fehlenden Werte zu erhalten,
okay, die Protonenzahl
der fehlenden Werte Also das, dann drucken wir die Anzahl der fehlenden Werte und Datensatz aus, indem wir diesen
einfachen Wert drucken. Okay? Also gibt es zehn fehlende pentatonische
Vorbereitungswerte von 48, 95. Okay? Als Nächstes können Sie die Daten konvertieren, falls Ihr Datensatz
nicht viel Zeit falls Ihr Datensatz
nicht viel Zeit hat. Hey, Airbnb-Daten,
letzte Bewertung, Datum, das Datum, das du aus irgendeinem Sinn nicht
wieder hinzugefügt hast. Ich werde sehen, dass dein Inhalt nicht da
ist. Okay? Als Nächstes wollen wir Daten oder Lizenzen
visualisieren. Dazu verwenden wir den
GG-Plot, um aufschlussreiche, in das Alien eingebettete
Visualisierungen zu erstellen Alien eingebettete
Visualisierungen Als Erstes werden wir also eine
überstürzte Verteilung sehen. So weit hier. Ich erstelle ein Histogramm
für Autoren, um den
D-Block und die Pasta
persönlich zu D-Block und die Pasta
persönlich Er ließ ein B & B Daten unterstreichen,
das ist der Datensatz, den wir gespeichert
haben, indem wir auf die
CSV-Datei zugegriffen haben CSV-Datei Okay, dann verwenden wir für die ästhetische
Funktion X-Achse, unsere X-Achse, den Preis Und dann verwenden wir das
Geom-Underscore-Histogramm,
um das Histogramm darzustellen. Die Breite des Blocks ergibt
50. Und Phil wird das Gefühl haben, dass mit der Skype-Schleife und dem Rand die
Farbe Und Labs, die X-Achse wird
Preisgestaltung, Preisgestaltung, Vielfalt und die Y-Achse Frequenz
und Titel die Preisverteilung von Airbnb
sein Das Inserat und das Team
werden nur minimal verbrauchen. Und dann drucken wir das
Preisunterstrich-Programm , das wir
hier erstellen. Lassen Sie mich das ausführen Sehen Sie hier. Das ist eine Grafik. Auf der X-Achse ist der Preis in US-Dollar und auf der Y-Achse die Frequenz Zuhören. Okay? Also das ist Fresh Tissue Vision, das Airbnb-Angebote
anbietet. Okay. Dann schauen wir uns die Nachbarschaft an. Dafür
erstellen wir ein Balkendiagramm der
Anzahl der Angebote in
jeder Nachbarschaft. Dafür
erstellen wir eine Variable namens Neighborhood
Underscore. Unterstrich-Diagramm. Dieselben Daten. Daten unterstreichen. Wir verwenden den
Pipe-Operator, um
der Gruppe nach Unterstrichgruppe zu folgen . Dies ist die eine Variable
im Datensatz. Und dann summieren nach
Anzahl ist gleich n. Und dann verlassen wir das GG-Plot und auf der X-Achse ordnen wir
die Nachbarschaftsgruppe an
und verwenden die Spalte
Anzahl minus Auf diese Weise wird Ihr Zugriff
aufgerufen und wir füllen ihn von innen
mit einer Geom-Bar
, die die Identität weitergibt Und die letzten Punks und die
X-Achse, Nachbarschaft, Y-Achse, Anzahl der Hautfarbe,
Titel, Nummer hier oben sind in jeder Nachbarschaft unrealistisch Y-Achse, Anzahl der Hautfarbe,
Titel, Nummer hier oben sind in jeder Nachbarschaft unrealistisch
. Abschlussjahr, das Minimum und das Team. Xis-Punkt-Textelement. Sie können ein Element
unter dem Schutzwinkel 45 erstellen. Das wird also der
Name auf der X-Achse sein. Ich will es bis 45 Uhr mit Treibstoff versorgen. Und dann machen wir das Ganze
fertig. Darüber. So ist Manhattan
und Brooklyn, Queens, das Delta-Viertel und
es ist um 45 Grad geneigt Und das ist das
Viertel und das ist die Anzahl der Tests
für New York City, du zerstörst
die Anzahl der Inserate. Nachbar in der Gruppe, Bronx,
Brooklyn, Manhattan,
Queens, Staten Island. Okay. So
können wir also ein Balkendiagramm verwenden. Wie zahlenmäßig steigt das
Gewichtheben. Und was wir dann
verstanden haben, ist, dass wir die folgende IR ziehen können, die leiseste Antwort oder
das Inserat,
das am meisten unter unserem Ziel-Dollar-Wert liegt und mit einer
alten Klasse für diesen Preis Das, was wir anhand dieses Histogramms sehen
können, ist, meisten der 10.000 Werte und
einige der Werte in der Produktion
steigen, sodass wir entweder
als Eau Claire betrachten können entweder
als Eau Claire betrachten Also nur die meisten von ihnen. Und dann Barplot der Anzahl der
Angebote in jeder Gruppe. Ich füge die Verteilung zwischen
den Eltern hinzu und ich habe sie mir ausgeliehen, sodass einen
Einblick in die
beliebtesten Wohngegenden erhalte Auf diese Weise können wir es uns
ansehen, wenn du willst. Sie können eine regulärere
Lizenz verwenden und Sie können einfach die Daten
analysieren und Sie können eine wachsamere
Instanz erstellen, die ein Paragon darstellt, andere, andere
spezifische Ware Ich danke dir.
117. Project 9 COVID 19-Datenanalyse und Visualisierung: Hallo und willkommen zurück. In diesem Projekt werden
wir also die COVID-19-Daten analysieren. Also COVID-19, eines
der sehr schlimmen Dinge, die der Menschheit, der
Menschheit
widerfahren sind, oder das tödliche
Virus, das viele
Tierärzte und Menschen auf
der ganzen Welt verursachte Tierärzte und Menschen auf
der ganzen Welt Deshalb werden wir heute
die COVID-19-Daten analysieren und versuchen,
die explorative Datenanalyse
anhand des COVID-19-Datensatzes durchzuführen die explorative Datenanalyse und bereitzustellen Wenn wir ADA machen, erhalten
wir wertvolle Erkenntnisse. Lassen Sie uns also zunächst
die Daten laden und dann
mit der Analyse fortfahren,
um die zehn wichtigsten Länder mit
der maximalen Anzahl
von COVID-19-Fällen zu ermitteln. Wir werden auch noch ein paar Dinge tun, aber fangen wir
mit dem Minimalen an. Also habe ich den Datensatz,
den Datensatz, den
länderspezifischen Gitterdatensatz heruntergeladen
, diese CSV-Datei, die
ich Ihnen zur Verfügung stellen werde Also, wenn Sie auf die Toilette
gehen möchten und diese App
von der WHO-Website heruntergeladen haben. Dafür brauchen wir die Bibliothek. Wenn wir also nicht installiert nehmen, kannst
du zu den Tools und
installierten Paketen gehen und
du kannst den Plan einstellen. Okay. Und dann kannst du es
herunterladen und installieren. Es konnte nicht heruntergeladen
und auf Ihrem Hot installiert werden. Okay, also als Nächstes
möchte ich tun. Also diesen Teil musst du
ersetzen, was auch immer dein Ding ist. Ich sage, dass Sie Ihren lokalen
Verzeichnispfad
haben . Okay? Also lass mich in Ruhe. Wird diese CSV-Datei nun landesweit neuesten Daten speichern und sie
in einer COVID-Unterstreichungsdatei speichern. Okay? Also werde ich den Punkt
CSV verwenden, um diese CSV-Datei zu lesen. Und dann schauen wir uns die
Zusammenfassung dieses Codes an, oder? Also habe ich die Zusammenfassung zusammengestellt. Das kannst du hier sehen. Jetzt haben wir die Länderregion,
prompt, diesen Rekord. Küsst du neue Daten,
neue zur Deckung von Schulden,
hundert Vermutungen, und dann genesene oder ungerichtete Fälle, dass sie farbige
bestätigte Wie viele Fälle haben Schema und Exonretention die WHO-Region
erhöht Okay. Also so, da sind diese Kolumnen drin. Es verarbeitet
diese Spalten in diesem Datensatz oder gibt
Mindestmedianwerte für das erste Quartil an Mindestmedianwerte für das erste Quartil Also die nächste Sache ist, jetzt möchte ich die finden, wenn du willst, kannst du noch eine Sache
tun. Sie können die Struktur
des Datensatzes
mithilfe der STR-Funktion überprüfen . Und jetzt haben wir diese
vielen Spalten hier, 197 Objekte und Variablen. Variables Land,
Region bestätigen das. Das sind also die Art von, Sie können Spalten und den
Datentyp sehen, das tun Sie auch hier. Lassen Sie mich also herausfinden, dass die
obere Ebene
die maximale Anzahl
von COVID-Fällen enthält die maximale Anzahl
von COVID-Fällen Dadurch wird ein variabler
oberer Unterstreichungswert für
Länder geschaffen oberer Unterstreichungswert für
Länder Und sie verwenden die
Datensatz-CSV-Datei und speichern all diese
COVID-Unterstrichdaten. Deshalb verwende ich die Unterstrichdaten und
den Pipe-Operator Und ich füge in absteigender
Reihenfolge nach bestätigten,
bestätigten Fällen und Kopf Ich möchte die Top Ten sehen. Also gebe ich Heptan hinzu. Es werden also die
zehn zufälligen Ungleichheiten ermittelt. Wir sind dann von dort,
sie haben mir noch einen geschickt. Dies sind also die Länder mit der maximalen
Anzahl von COVID-Fällen Also, in welcher Region befinden sich diese
Länder eigentlich? Also Amerika. Und das ist unser Job In den Aufzeichnungen laden wir zuerst die benötigte Bibliothek und lesen
dann das COVID-19. Geht es ins
Koordinatenquadrat, Theta. Dann DataFrame, wir zeigen dann die grundlegende Zusammenfassung des
Datensatzes an, um
einen Überblick über die Daten zu erhalten Schließlich finden wir, dass der obere Pin die maximale Anzahl von
COVID-19-Fällen
enthält und dass die
Pumpe, die als fehlerhaft angesehen
wurde, die
zehn Länder mit
der höchsten
Anzahl bestätigter COVID-19-Fälle enthält der höchsten
Anzahl bestätigter COVID-19-Fälle Und jedes Ziel steht für
das Land und
jede Spalte enthält den Virus
für jedes Land. Jetzt möchte ich dazu
Datenvisualisierung durchführen. Um die zehn Länder
mit den
höchsten Kohlenstoffzahlen zu visualisieren , verwenden
Sie das Kreisdiagramm, und wir verwenden dafür das
Paket ggplot2 Also das Kreisdiagramm und
mach dir das GG-Plot, die zehn besten Länder von
hier aus, die wir von dir bekommen haben. Okay? Und dann zieht sich die
ästhetische Funktion X, Y-Achse zusammen und pumpt gefüllt mit
der Länderregion Geom Bar, Yeoman Escobar
Funktion werden nutzen und Status gleich
Identität wird bieten und Wir beginnen mit Jira Labs. Ich gebe den Titel Topper
und Länder, X-Naught,
Y-Naught und das Gegenteil
und das Team wird so
verkabelt, dass das Kreisdiagramm dafür erstellt wird so
verkabelt, dass Also sieh hier. Jetzt
haben wir das Kreisdiagramm, das die
zehn wichtigsten Länder mit
dem COVID-19-Kosinusmaximalsystem Sie können die meisten
COVID-Fälle und die meisten
COVID-Fälle sehen COVID-Fälle und die meisten
COVID-Fälle Dann Großbritannien. Dann ist es nach und nach zuerst
Königreich, dann Brasilien. Und dann haben wir ein
Mittel, das ist Indien. Dann dieser, dann dieser
blaue, das ist der CR. Daraus können wir also erfahren, dass die USA,
Brasilien, Indien und Russland,
wo die vier wichtigsten Länder, die
USA und Brasilien im Endost, die ärmsten Länder,
die meisten
COVID-19-Fälle haben und
wir an der Spitze
stehen Brasilien, Indien und Russland, wo die vier wichtigsten Länder, USA und Brasilien im Endost, die ärmsten Länder, die meisten
COVID-19-Fälle haben und
wir an der Spitze an der meisten
COVID-19-Fälle haben und
wir Okay, dieser Code wird also die
Byte-Gebühr berechnen. Also im Anteil der bestätigten
COVID-19-Fälle für jedes Land. Jetzt können wir
dichtere Texte hinzufügen und
die Farben des Kreisdiagramms anpassen ,
um es interaktiver, informativer und
optisch ansprechender zu gestalten. Okay, dieser Code
erstellt das Kreisdiagramm. Jetzt wollen wir weitere Dinge hinzufügen. Also erstelle ich ein Kreisdiagramm
mit den Stufen „Farben anpassen“. Also tu bitte dasselbe. Hier sind die Polar und
die wir bereits benutzt haben. Und Jahre später
wird diese
teamweite Funktion wieder dieselbe Funktion erfüllen Und er hatte nicht Legend
Dot Partisan Bottom gesetzt, mehr Schwarz in den Und der Lotpunkttitel wird
Seiten geben, aber wir werden ihn geben. Gerechtigkeit. Frank Pipe, Größe ist 16, und Frankreich wird Text fett drucken. Das Element „
Textfunktion und
Größe unterstreichen “ erhält eine Legende Die Textgröße wird 12 sein. Und für diesen Titel
werden Seiten für Titel 1 oder 14 sein. Und wäre es die Einpunktkraft von Board
und Box. Okay, also und dann
verwenden wir das Kreisdiagramm. Und dafür verwende ich Skala, Unterstrichfeld
und macht manuell Und hier
werden die Werte manuell abgerufen. Fühlen sich die vielen Farben wie ein Spiel an, okay, also welchen Farbcode Sie geben möchten, können Sie bekommen. Und dann erstellen wir
ein Kreisdiagramm mit Ebenen. Also nehme ich dieses
Kreisdiagramm und dann
nenne ich X und ästhetische
Funktionalität,
womit ich zu
einer Country-Punkt-Region komme und aus der Punk kommt, oder? Wann bist du Sohn? Stapel. Und dann werde ich die
ganze Sache zusammen regeln. Und C, und jetzt bekommen wir besseres Kreisdiagramm mit Liganden
und verschiedenen Farben Okay? Jetzt heißt es also die Legenden. Du sagtest, dass es sein
Königreich nach und nach gegeben hat. Und auch hier
kannst du dieses Board sehen,
okay, auf diese Weise können wir also
ein individuelles Bike und einen Legendentext erstellen . Jetzt möchte ich aus dem Teil
des COVID-19-Datensatzes die zehn Länder
mit den meisten
hinzugefügten Fällen und das
Land mit
einer aufgezeichneten Höchstzahl von Fällen ermitteln des COVID-19-Datensatzes die zehn Länder
mit den meisten
hinzugefügten Fällen und das
Land einer den meisten
hinzugefügten Fällen und das aufgezeichneten Höchstzahl Teil
des COVID-19-Datensatzes die zehn Länder
mit den meisten
hinzugefügten Fällen und das
Land mit
einer aufgezeichneten Höchstzahl von Fällen Wir können einen ähnlichen
Ansatz wie zuvor verwenden Wir sortieren den
Datensatz anhand der Deckspalte und
wählen dann die zehn besten Länder aus. Okay, soweit dieser Wert. Und dann verwenden wir das COVID. Ich werde diesen Datensatz lesen und zehn
wichtigsten Länder verwenden,
geordnet nach dieser Spalte. Und dann nehmen wir die Top Ten Okay, diesen haben wir schon. Also CFTC, die zehn Länder mit den meisten
Bits. Okay? Als Nächstes
möchte ich ein Balkendiagramm erstellen, aber die höchsten Todesfälle der zehn Länder mit den
höchsten Todeszahlen weil Sie das
Balkendiagramm und der Geom-Balken sind, Dinge haben ihre eckigen Fünf, Strich eins nur darauf Jetzt haben wir das Balkendiagramm nach
oben und die Länder für das Maximum über Nacht und all
diese Dinge stehen bevor. Dies ist das Kreisdiagramm. Das ist Sunda. Wir bellen. Okay. Also dieses 1-Balkendiagramm und ein Kreisdiagramm. Nun, das Gleiche. Okay? Jetzt möchte ich
den Prozentsatz der Erholung
für jedes Land berechnen . Also Teil dieser
COVID-19-Erholung, wenn Sie die
Graduiertenabteilung 200 behandelt haben. Und ich weiß, dass wir
uns erholen und in die Erholung
übergehen. Okay. Länderdaten. So deckten
ein Land und das die
prozentuale Erholung ab. Also diese Zotten haben wir als letzte
berechnet, okay. Berechnen Sie nun die
Perzentile, die Sie für jedes Land im
oberen Teil angeben
können ,
und erstellen Sie dann ein Dies ist das Bias-Diagramm, die prozentuale Erholung
und die adoptierten Länder. Okay? Also Erholung in den USA,
Ivana ist das Maximum. Mexiko. Indien hat auch so etwas wie
Comedy, und dann Mexiko. Und dann möchte ich, dass die zehn
wichtigsten Länder mit Kreide
bedeckt sind Kreide
bedeckt Dies ist die Person, die im ersten Satz die Charaktere
der
Gegenlehre im ersten Satz die Charaktere
der
Gegenlehre Von Chuck. Die meisten aktiven Fälle kommen
aus welchem Land, das uns
finden wird , ist das Land mit
den meisten aktiven Fällen. Die zehn Länder mit
den aktivsten Fällen, so schwer, dass er sterben wird. Aktive Fälle bestätigter
geringfügiger Schulden abzüglich der aktiven Fälle ergeben sich aus
minus dem, abzüglich
zurückgezogener Forderungen, erhalten wir die meisten aktiven Fälle, und dann
fügen wir diese beiden Pluspunkte hinzu. Okay? Sie können also die USA,
Brasilien und Indien auf dem
Scheinzahlenvektor sehen . Dies ist der Prozentsatz der Länder
mit aktiver
Kursdoktrin Erstellen Sie ein Kreisdiagramm. Dies zeigt uns die
meisten aktiven Fälle. Prozentsatz der
Vektor-Kosinusdoktrin, die Länder hier verwenden, das
werden 7,73% davon Das verringert die maximale
Häufigkeit der Vermutungen. schätze, ich werde
die Frequenz verwenden , weil es sich summieren
wird Dann drehen wir uns um und sehen uns als
die Frequenz des Landes an, in
dem
die maximale Frequenz
der Kavität herrscht, weil dieses Produkt diese zum
Teil wiedergewonnen hat. Daher
hat Brasilien die
meisten Gerichtsverfahren. Okay? Auf diese Weise, wenn wir mehr analysieren wollen, können
Sie Ihre Konditionskombination, Ihre Denkweise und
Sie können die Daten aufschlüsseln Okay. Hier dreht sich also alles um die
COVID-19-Datenanalyse
118. Projekt 10 Blumen zeichnen mit Mathematik in R: Hallo und willkommen zurück. In diesem Vortrag werden
wir also über das Projekt sprechen. Und in diesem Projekt werden
wir
umfangreiche Mathematik
- und Kunstprogramme , um ein paar Blumen zu zeichnen. Also das Trocknen von Blumen mithilfe von
Mathematik in unserer Programmierung. Das ist es, was beide
Ziele für dieses Projekt anstreben. Wir alle wissen, dass,
wenn man
die Natur in allem
, was die Natur erschafft, betrachtet , man Schlagstock darin finden kann,
auch wenn man einen Schmetterling sieht, der sich abgesperrt hat
,
wieder in Dawn, unsere Schnur,
und zu falsch hinüberschaut Die Natur hat also viel Kreativität. Und es kann eine Menge Schlagstock unter den Schöpfern sein, auf den Blumen, auf den Bäumen, sogar bei Menschen sind wir also, wir sind alle Menschen und haben dieselben
Merkmale wie Augen, Nase, Mund, hier Hände, Beine Aber jede einzelne Person
sieht anders aus. Richtig? Abgesehen von den Zwillingen. Sogar die der Königin haben
ein anderes CSS. Und das ist die Macht der Natur. Was wir also
in dieser Vorlesung,
in diesem Projekt tun werden , wir werden versuchen, einige Schlagstöcke zu ziehen,
die uns weiterbringen werden Also werden wir versuchen,
ein Blumenmuster zu zeichnen. Du machst Mathematik
mit unserer Programmierung. Also lass uns anfangen. Also das Nachladen hier, das Mandat wird versuchen all
diese Dinge
zu verstehen, okay? Der Punkt sind Muster in der Natur, das sind zu viele
Beispiele natürlicher Fakten und Schlagstöcke, die sich mathematisch beschreiben
lassen Schöne Beispiele,
sagen wir Bob, Schneeflocken, die fraktale Geometrie der Schule, Brokkoli oder wie
Selbstähnlichkeit Beim Wachstum von Grundstücken. Odd ist ein Werkzeug für
seriöse Analysen, aber nicht alles im
Leben ist es. Wie wir wissen. Das Leben ist auch lustig und Kunst kann genutzt
werden, um Spaß zu haben und schöne Dinge
zu tun. Wir können auch viele kreative
Dinge tun, Eugene Das ist das Ziel
dieses Projekts. Troy, wir machen dieses Projekt,
diese Aktivität, Newton, Kunst
und Mathematik in diesem Kurs grafische Leistungsfähigkeit kann also genutzt
werden, um
künstlerische Bilder zu Wir werden zum Beispiel sehen, wie wir all diese Illustrationen
zeichnen können , die wir beim Zeichnen sehen, wenn wir den Code ausführen, davon inspiriert ist, dass
Pflanzen tote Blätter sind. Diese Tatsache wird
Phylotoxizität genannt und wir werden sie als
Grundlage für dieses Projekt lösen Okay? Also werden wir den
GG-Plot für zwei Pakete verwenden. Wie bei der ganzen Existenz von
Mahnwachen in der Kunst üblich, verwenden
wir meistens
GG-Plot für Paket Deshalb verwenden wir auch hier
GG-Plot zum Verpacken. Und
wir werden nicht nur Spaß haben, sondern auch viele
wichtige Funktionen lernen. Und das wird
nicht nur für die Kunst nützlich sein, sondern auch für aktuelle Daten
und Probleme im wirklichen Leben. Lassen Sie uns die Probleme also nicht
weiter hinauszögern. Lassen Sie uns nicht länger zögern. Lassen Sie uns damit beginnen, die Bibliothek zu
laden. Also der erste Code hier, ich verwende das AAD-Notizbuch Der Vorteil der Verwendung
unseres Notebooks sind also Daten. Wir können einen Code schreiben indem wir einfach Alt Control drücken. Strg, Alt, Strg Alt I. Wenn Sie eingeben, können Sie Code
in diesen Abschnitt schreiben , okay, Sie können
also die
Erklärungen schreiben und dann können
Sie Ihren Code schreiben,
wie wir es jetzt tun. Google Colab. Also das, was wir im Erwachsenenalter
machen können, also musst du zur
Akte, New und zum Abendessen gehen Wir haben
gerade unser Skript erstellt und dann
kannst du mit dem Tracking beginnen. Ich ermutige Sie daher, den Code
selbst
zu schreiben, indem Sie
der Vorlesung folgen, da Sie
so praktische Erfahrungen Wenn du die
Datei einfach herunterlädst und sie einfach
ausführst, wirst du von der Vorlesung nicht viel
profitieren Okay? Also schlage ich vor,
mit dem Schreiben anzufangen, okay? Ich schreibe hier nicht. Ich habe es schon geschrieben. Denn wenn ich anfange,
all diese Syntaxen zu tippen, wird
es viel Zeit in Anspruch nehmen Und das wird nicht
vorteilhaft sein , weil es Stunden dauern
wird. Wenn ich anfange zu tippen und Dinge
zu erklären. Um uns Zeit für
den Lernzweck zu sparen, möchte
ich es dir gleich erklären. Okay? Also als Erstes werden wir die GG-Plotbibliothek
entladen Und hier sagen wir
die Plotbilder nach Geschmack, damit ich funktionieren kann
und zu
einem brillanten Punktdiagramm
werden
Punkt, Breite und Höhe vier sein. Okay? Und dann neu laden.
Also lass uns das ausführen Also hier seht ihr die
zwei Optionen, drei Optionen. Einer ist modifizierter Chunk Opsin, der nächste wird
alle obigen Chunks ausgeführt Darüber werden alle
Begriffe R1, R2 stehen. Sie können diese Option hier sehen es
sich um einen zufälligen aktuellen Block handelt. Also werden wir vorerst diesen
Run-Junk verwenden. Okay, lassen Sie uns das ausführen. Also jetzt fertig, also wurde die
GG-Plotbibliothek geladen. Als Nächstes ist der zweite
Schritt für dieses Projekt
das Verwässern und Austrocknen von
Punkten auf einem Kreis. In dieser Aktivität werden
wir also versuchen, die Punkte
des Kreises zu zeichnen. Zeichne die Punkte um
den Kreis herum, okay? Also mythisch werde ich versuchen, hier mit
Hilfe von Punkten
einen Kreis zu zeichnen hier mit
Hilfe von Punkten
einen Kreis Es gibt also viele Möglichkeiten
, Daten im zweiten
GG-Diagramm darzustellen , sowohl für
einfache Streudiagramme als auch für komplexere
Diagramme, komplexere
Diagramme wie
z. B. Violindiagramme Die Funktionen, die mit geom
underscore
beginnen , definieren, dass
das Diagramm aus Also geom underscore definiert, wir werden bald zeigen, wie
die Handlung In diesem Notizbuch wollen wir nur mit dem
Geom-Unterstrichpunkt
arbeiten
, der Punkte zweidimensional verzerrt. Wir benötigen nur einen Datensatz
mit zwei Variablen. Nennen wir sie x und y. Wir benötigen
also zwei Variablen, x und y für die X-Achse und die Y-Achse. Jetzt möchte ich zwei
Punkte auf einem Kreis mit Radius zeichnen,
einen an jedem X- und Y-Punkt. An jedem X- und Y-Punkt. B im Einheitskreis, daraus folgt, dass das Quadrat x plus das Quadrat
Y gleich eins ist Wir können dies mithilfe der berühmten
trigonometrischen Identität des Pythagoras ermitteln, die besagt, dass
das Quadrat des Sinus von
Theta plus das Quadrat von Cos Theta für jede reelle Zahl Null gleich eins
ist der berühmten
trigonometrischen Identität des Pythagoras ermitteln, die besagt, dass
das Quadrat des Sinus von
Theta plus das Quadrat von Cos Theta für jede reelle Zahl Null gleich eins
ist. Das sind also die grundlegenden mathematischen Grundlagen, die wir bereits kennen. Also gut, lass mich diesen Code
öffnen. Also hier, was ich mache, ich erstelle eine
Zahlenfolge Reihenfolge von Zahlen.
Deshalb verwende
ich t als Variable, um diese Punkte
zu speichern. Und ich werde sagen, benutze die
Sequenzfunktion zum Generieren. Und ich fange mit 0,2 an, bis die
Länge 52 sein wird. Die Gesamtpunktzahl wird generiert. Hier. X für X-Punkt
sind X-Achsenpunkte. Ich verwende Sinus t. Sinus von T. Das sind eigentlich
die Winkel, okay? D ist also der Winkel, den diese
Sequenz regeneriert. Die Winkel, die wir verwenden,
um unsere x- und y-x-Werte zu ermitteln, sind
Sinus Theta und Cos Theta Also hier Sinus t und dann Y oder Y, wir verwenden die Kosten, okay? Dann geben Sie einen DataFrame an, data.frame B wird
der Winkel sein und dann x,
y, x Komma y, x wird der Sinus von t sein und y
ist der Sinus cos von t,
Sinus von t cos Sinus Mit diesen beiden Punkten
werde ich dann versuchen, ein Streudiagramm
mit GG-Plot zwei zu erstellen mit GG-Plot Das ist dieser,
dieser DataFrame, der DataFrame, den wir gerade erstellt haben Und dann werde ich die
ästhetische Funktion der Ästhetik der
Handlung zuordnen Die Punkte x Komma Y. Dann verwende ich den Punkt
p plus Geom-Punkt Dadurch werden sie blockiert. Okay, lassen wir das mal laufen
und schauen, sehen, und jetzt werden wir auf einem Kreis
geplottet, okay, Punkte
auf einem Als Nächstes geht es darum, es
harmonisch zu gestalten Okay, lassen Sie uns den Code einblenden. Mach es harmonisch
mit Colin Angle. Also, Blondinen fügen die
Blätter in dieser Spirale hinzu. Wenn Sie sich die, irgendwelche Pflanzenblätter ansehen, wird
es reichen Endgültige Form,
ich habe es mit dem Rückenmark versucht, das beginnt am Ursprung und bewegt sich von seinem Punkt weg. Wenn Sie sich also eine Spirale ansehen, beginnt
sie mit
einem bestimmten Punkt und sie wird so verlaufen. Okay? Also wird es
so laufen, den Punkt zu formulieren, und dann wird
es so weitergehen Okay? Wir werden uns
stärken, okay Es beginnt also mit dem Ursprung, entfernt
sich von diesem Punkt, Zusatz dreht sich um ihn. In der Handlung. Oben sind alle
unsere Punkte gleich. Entfernung vom Ursprung. Oder eine einfache Möglichkeit, sie
spiralförmig anzuordnen, besteht darin,
x und y mit einem Faktor zu multiplizieren . Eine Routine
erreicht jeden Punkt. Wir könnten das Azure
AD verwenden, das berücksichtigt, Azure als diesen Vektor verwenden , wenn es diese Bedingung
erfüllt. Aber wir werden
etwas Harmonischeres tun, werden den goldenen Winkel verwenden. Golden, wie lautet die
Formel für Goldener Winkel? Es ist Phi zu drei
minus unter der Wurzel fünf. Und diese Zahl ist
vom Goldenen Schnitt inspiriert. Eine der bekanntesten Zahlen in der Geschichte der Mathematik. Sowohl der Goldene Schnitt als auch der
Gordon-Winkel tauchten an unerwarteten Stellen in der Natur auf, abgesehen von Blüten,
Blütenblättern und Pflanzenblättern. Samenköpfe, binden Gold, Sonnenblumenkerne, Samen, Spiralgalaxien,
Wirbelstürme usw. Okay, es ist also an der Zeit, es fertig zu stellen
. Okay, schauen wir uns den Code an. Hier. Wir definieren die
Anzahl der Punkte, die ihr miteinander verbindet. Wir definieren als Torte drei minus Quadratwurzel aus fünf Und dann sind wir,
wir werden derjenige sein, bei Wind in Wut,
der den Winkel mit
0,500 Punkten multipliziert und dann Exponent der Sinus
von t und y Preis von T. Und dann verwenden
wir
den DataFrame, um einen DataFrame
zu erstellen Und dann erstellen wir das Streudiagramm mit dem GG-Plot
. Und wir fügen den Geom-Punkt hinzu. Okay, lassen Sie uns
das ausführen, die Ausgabe. Jetzt können Sie sehen, wie wir
anhand der einzelnen Punkte eine Spirale
erstellt haben . Als Nächstes entfernen wir
alles Unnötige. Abgesehen von Daten
enthält Applaud viele andere
Komponenten, die das tun Diese Handlung enthält einen Freund
im Hintergrund mit einem grauen Farbraster aus horizontalen und vertikalen
Linien im Hintergrund Tricks entlang der Achse, Titel auf der X-Achse, das Extra entlang der
Achse und Ebenen All diese Dinge, die
wir tun werden indem wir diesen Code ausführen,
definieren den DataFrame Ich übergehe diese Seite,
das X und das Y, an die
DataFrame-Funktion und
mache das Streudiagramm zu mache das Streudiagramm Also der RDD-Plot. Und das nennen wir 100 A-Frame. Und dann ästhetische Werte, x zu Boo, tut mir leid, x zu d, y zu d. Okay? Und dann
weisen wir diesen Punkt zu. Und dann verwenden wir die
Team-Schriften hier und in der
Theme-Funktionsgruppe „
Punktrasterelement-Fonts “. Und hier und in der Konsole unterstreichen
Panel-Punktrasterelemente das Leerzeichen, Xis-Punkt-TXT-Element
ist leer und das Titelelement
unterstreicht Sie gehen eigentlich nicht, große
Kühe können einen Spielplatz vorbereiten. Das Panel
wird ein solider Hintergrund sein. Das Hintergrundelement und Unterstrich sind kaputt und
fühlen sich wirklich riesig an, weiß Schauen wir uns also die Ausgabe
an. Das ist das, was wir bekommen. Wenn wir das auch können, weiß ich. Lass uns sehen, was passiert. Okay? Jetzt ist der
Hintergrund rot. Damit können wir also
einen Hintergrund erstellen. Und wenn ich das ausführen würde, wäre
der Hintergrund das Publikum. Okay? Also hatte er sauber. Also sieh dir jetzt an, wie diese Spirale zeigt und wie ein Muster
aussieht. Okay? Als Nächstes ein bisschen höher, Makeup. Make-up wird versuchen, es zu dekorieren. Farbe und Transparenz Trocknen beginnen, wie eine Pflanze
auszusehen, können wir es nicht viel
besser machen , wenn wir die
Farbtransparenz ändern, auch Alpha-Transparenz genannt dunklere Alpha-Größe
des Bildes wird
ansprechender Schauen wir uns also den Code an. Hier. Ein neues GG-Plot, Wong Sun und die Daten ergeben
x-Enthalpie und Entropie Und dann gibt Dionne Point
aus Zentral-USA und Größe eine bestimmte Farbe,
Dunkelgrün und ein Thema
und das Thema, das wir im vorherigen Block haben, das wir Lassen Sie uns das mal ausführen und in der aktuellen Kolumne
nachschauen, ob ich dafür sorge, dass sie Grau unterstützt Und sieh dir an, wie Hintergründe und Meereswinde plötzlich grün werden, aber der Hintergrund grau
wird. Als Nächstes geht es darum,
mit der Ästhetik zu spielen. Bis jetzt bei Dalian, alles rund um das Thema
deiner Erkenntnisse, Farbe, Form und Alpha Manchmal möchten Sie den Mittelpunkt in Ihrem Datensatz als vom Mittelpunkt abhängige
Variable Jetzt machen wir die Größe variabel. Wir werden auch
das Thema der Punkte ändern, obwohl wir nicht in der
Lage sein werden, es zu übertreiben, sie glauben nicht, dass der Investor Sie
daran erinnert,
was Dan Dalian Lassen Sie mich Ihnen also den Kern bis zum
D-Block-Geom-Punkt mit ästhetischen
Funktionen zeigen D-Block-Geom-Punkt , der gleich dem T Alpha 0,5 sein
wird, sagen wir für mich für acht
und Spalte
gebe ich Ihnen einen schwarzen Hintergrund
, während ich weiß Lass uns das ausführen. Jetzt. Das kommt so. Okay? Also, wenn ich das
CFE ändere oder das Meer unterstütze, aber der Punkt, an dem es nicht mehr so sein
kann, okay? Also, was auch immer du willst, du kannst den Tresor hier hinstellen und er wird auf
dem Band erstellt, okay? Auf dem Band, okay. Jetzt werden wir alles zusammenstellen,
was wir bis jetzt gemacht haben und versuchen, diese Handlung zu erstellen. Die erste Zeile ist also dieselbe. Dann Wind hier, die ästhetische
Größe entspricht 4,5. Und sippe auf die Realitätsregion 17 und das Dokument mit dem grünen oder blauen Nachthemd Okay, lass uns sehen. Code bereitstellen. Sauber. Und sieh mal,
das sieht gut aus. Dieses dunkle Manometer, magentafarbener
Hintergrund. Das nächste Ding Was ist, wenn wir den Winkel ändern? Mal sehen, ob wir
den Winkel ändern, was wird passieren? Drainagemuster
stehen
im Mittelpunkt des Winkels zwischen
den Punkten auf der Wirbelsäule. Kleine Veränderungen des Winkels
können dabei sehr schwierig sein Religion
, sagen wir 1.704,5 und Winkel, wir
erhalten zwei Punkte, wir gehen Perioden Schauen wir uns jetzt an, wie
schön es aussieht. Von hier aus sind wir
zu dieser Erkenntnis gekommen. Die nächste Sache ist insgesamt. Jetzt. Und jetzt entwickeln wir die imaginären Blumentechniken Sie gesehen haben. Mit Token können Sie in einer endlichen Anzahl von
Mustern kreieren , die von der Natur
inspiriert sind. Die einzige Grenze ist Ihr von der Natur
inspiriertes Muster , dass die einzige Grenze Ihre Vorstellungskraft
ist Aber Kunst zu machen war auch eine lustige Ausrede, um GG-Plot
zu lernen, oder? Wir haben so viele Dinge gelernt. Und das ist ziemlich interessant. Ich hoffe euch allen gefällt das
Projekt. Und dieser Vortrag. Und all die Texte, die wir in einem langen Jahr
gesehen haben ,
um die realen Daten darzustellen Also lasst uns dieses
Bild auf der linken Seite finden. Etwas Rot, das
von der vorherigen Blüte nicht lesbar
ist, ist etwas
zu sehen, das den ersten beiden sehr ähnlich ist. Drehen
wir das um, sehen wie schön dieses
Muster aussieht Von hier aus, wie wir
in den Westen gekommen sind, haben
wir mit
dem Kreiswind angefangen, dann haben wir es mit
dem goldenen Winkel klein gemacht Dann wurde uns
die Hintergrundfarbe gegeben, dann haben wir
in letzter Zeit Farbe,
Größe und Transparenz gekauft und dann das SIP. Und dann das, und
dann sind wir endlich zu diesem und diesem schönen
Blumenmuster
gekommen , das
wir hier gezeichnet haben. Wenn ich den
Staat ändere, um das zu tun, um zu sehen, was passiert. Siehst du, das ist eine dreieckige Basis. Unterrichten Sie eine Spalte. Das sagt voraus, dass D
wie ein anderes Muster kommt. Komm im Spätsommer, auf die Toilette. Okay. Ich habe eine 17 gesetzt. Es kommt so. Okay. Also werde ich es auch schaffen. Dann. Das ist das schönste Fett, das
wir je kreiert haben. Sie können also auch
mit verschiedenen Alphawinkeln,
unterschiedlichen Größen und
Farbkombinationen spielen Alphawinkeln,
unterschiedlichen Größen und versuchen, Ihr eigenes
Blumenmuster
zu kreieren. Blume mit
mathematischen Methoden und heiß. Ich hoffe dir gefällt
dieses lustige Projekt. Und du machst auch
das Projekt und lädst deine Florida in
the Florida Judge im Projektbereich
dieses Kurses hoch. Und wir alle können es sehen
119. Projekt 11 Analyse und Visualisierung der Nobelpreisträger mit R: Hallo und willkommen zurück. In dieser Vorlesung
werden wir
weitere Grundlagen der Analyse und
Visualisierung behandeln. Und das ist auch
eine Art Projekt. Und in diesem, was
ich tun werde, werde
ich die Daten von
Nobelpreisträgern analysieren. Also jedes Jahr unsere
Nobelpreisträger. Jemand wird den Nobelpreis
in einer bestimmten Kategorie erhalten. Welche Kategorie
bezieht sich auf Kunstwissenschaft, Sozialarbeit an diesen
Dingen, oder? Also werden wir versuchen, es an
einem anderen Bitter zu analysieren und wir werden es lösen Wir werden die Daten auch visualisieren. Also dann ein paar Dinge habe ich Nika analysiert und ich zeige dir, wie
du das machen kannst Also die meisten Nobelpreise, und dann konzentrieren wir uns auf
den Nobelpreis. Dies sind die Kriterien
, die wir besprechen werden. Dann. Jetzt werden wir sehen, wie er
abschneidet und wie oder wie viele Nobelpreise USS I das
Nobelpreis-Szenario dominiert. Dann visualisieren wir die Dominanz
der USA. Dann werden wir den Schaden sehen und Frauen und Männer
bekommen den Nobelpreis. Und dann werden wir sehen, wer
die erste Frau ist , die den Nobelpreis
gewonnen hat. All diese Dinge und noch
viel mehr sind da wir werden versuchen, das zu tun. Schlecht, wir machen weiter. Lassen Sie mich Sie
durch den Datensatz führen. Wir verwenden also diese
Nobel-Punkt-CSV-Datei, die das Ohr hat,
in dem der
Nobelpreis verliehen wurde. Die Kategorien,
verschiedene Kategorien in denen der Nobelpreis den Preisnamen erhalten
hat, der Nobelpreis selbst. Dann wird am Freitag der
Nobelpreis für Chemie verliehen, Nobelpreis für Literatur Physiologie. All diese Dinge. Okay, das ist also der Name. Die Kategorie wird Chemie sein. Die Polizei von Rachel Madison sagt all diese Dinge
voraus. Okay, es gibt also verschiedene
Kategorien, in denen sie den
Nobelpreis vergeben, okay? Und dann die Motivation, was ist die Motivation dahinter? Geben sie den Nobelpreis für
einen bestimmten Teil und den Preis
, den
sie eins nach einen bestimmten Teil und den Preis
, den dem anderen
oder eins nach zwei hip sind, gibt es mehr als
eine die den
Nobelpreis für dieselbe Person
erhält Schnitte sind irgendwo eins nach dem anderen. Es werden zwei Personen sein. Da. Es waren jeweils zwei Personen
derselben Kategorie. Der Nobelpreis
wird also zur Hälfte geteilt. Okay? Das ist also ein Tablett nach dem anderen. Dann
kannst du irgendwo eins nach vier sehen. Okay, das ist also
der Preis dort. Also, wie viele Leute werden
in derselben Kategorie gefangen , zum
gleichen Preis. Dann Laura Tidy,
jeder,
der den Nobelpreis erhalten hat , den
er bekommen wird, bekommt
viel davon Und dann die Art der Lotterie, es wird individuell
oder organisatorisch sein. Es wird so sein, wenn die
Organisation den ganzen Kuchen bekommt, dann wird
es die Organisation sein. Und wenn es sich um einen einzelnen Teil
handelt, wird es individuell sein. Im Grunde gibt es also
zwei Arten von
Menschen , die eine Einzelperson
und eine Organisation gründen. Dann der vollständige Name des
Teils der Organisation, wohingegen der
Nobelpreis als der Barrenpreis heute höher als der Barren bis heute. Dann die Stadt dieses
bestimmten Teils, das Geburtsland
und dann das Geschlecht,
männlich, weiblich oder was auch immer. Und dann der Name der Organisation. Es, Parson waschen oder verkaufen ist der Name der Organisation als
er ist. Du hast es rausgebracht. Madison ist hervorragend
, nett gemacht und die Stadt
des majestätischen Landes benannt und organisiert. Das Datum, an dem diese Person abgelaufen ist, und diese
Stadt und dieses Land. All diese Spalten sind also in dieser neuartigen Punkt-CSV-Datei enthalten. Wir werden analysieren. Okay, also lass uns anfangen. Lassen Sie mich Ihnen also etwas über Obst erzählen,
Dinge über den Nobelpreis. Also die Nobelpreise, haben
aber die weltweit
bekannteste wissenschaftliche Auszeichnung,
mit Ausnahme der Ehre, des Prestiges und des
beachtlichen Preisgeldes. Der Empfänger unter 33 bis 896 Jahren, der den
Aktienkurs festlegte. Jedes Jahr. Er wird
Wissenschaftlern und
Gelehrten in den
Kategorien Chemie,
Literatur, Physik,
Physiologie oder
Medizin, Wirtschaftswissenschaften und Frieden verliehen Gelehrten in den
Kategorien Chemie,
Literatur, Physik,
Physiologie oder Medizin, Wirtschaftswissenschaften und Frieden Dies sind die Kategorien,
in denen der Nobelpreis den letzten Jahrzehnten verliehen
wird und verliehen wird. Der Post-Nobelpreis wurde 1.901
verliehen. Der Nobelpreis wurde also 1.901 ins Leben
gerufen. Und zu dieser Zeit war der Preis wirklich eurozentrisch
und männlich ausgerichtet, aber heute ist er
in keiner Weise voreingenommen Das ist also die Geschichte
hinter dem Nobelpreis. Und jetzt werden wir herausfinden, die Nobelpreisstiftung Datensätze
für alle Preisträger zur Verfügung stellt. Das ist also der Nobel-Datensatz allen Preisträgern
zur Verfügung steht. Das ist also der Nobel
Notch CSP, 1901-2016. Als erstes müssen
wir den Datensatz laden. Der Name des Datensatzes ist also Novel oder CSP. Also verwenden wir Read
Underscore CSP und wir lesen das und dann
kommen wir, der Kopf wird passieren Dies sind Datensätze für die Kopffunktion der
neuartigen Schriftarten. Und wir werden sehen,
wie viele , wie diese Daten aussehen. Dafür gehen wir zur Bibliothek mit
aufgeräumten Versen, also notieren wir uns auch diese Bibliothek Wenn wir das ausführen, können wir den Clip-Up-Datensatz
abrufen. Also wir sehen uns überhaupt. Wir haben in
der CSV-Datei hier
bereits die
Kategorie Preis und
dann die Spalte Motivation gesehen . Dann der Preis hier, Laura Tidy Laura-Typ, FullName, Geburtsrecht, aber Datum, aber
Stadt, Sexuelle Organisation. Also all diese Informationen
sind da drin. Nach dem Laden können wir also auch
über unsere auf
diese Informationen zugreifen . Als Nächstes werden wir
herausfinden, wer alle Gebete erledigt hat. Wenn wir uns nur die
ersten paar bestätigten
Preisträger unter den Nobelpreisträgern
ansehen,
wie die auch genannt werden, sehen
wir bereits, eine
Berühmtheit wird
Conrad Rontgen haben , der die Röntgenstrahlung entdeckte Und tatsächlich
sehen wir, dass alle ausgestorben sind. Alle Gewinner
von In Nitrogen Leute, die aus Europa
kamen, seit es in Europa gegründet wurde. Also der ganze Amino-Schweiß
, der aus den, aus den USA, aber das war schon 1.901 Betrachtet man alle Gewinner, ist der Datensatz 1.901 bis 1966 und die reichen Länder am
häufigsten vertreten Das
werden wir beenden. Das Land des Gewinners
als kleines Land gilt nicht für alle
angegebenen Preise bei uns. Okay? zählen wird also ziemlich einfach sein, die Anzahl der verliehenen
Nobelpreise von
1901-2016 zu Wir verwenden den
Datensatz Nobel und verwenden den Pipe-Operator und wir zählen mit
der Zählfunktion. Okay? Und dann wird
die Anzahl der Preise gezählt, einer nach den männlichen und
weiblichen Empfängern. Also verwenden wir Roman und
zählen dann auf der Grundlage dieser
sechs, sodass wir die Geschlechterzahl für Männer und Frauen getrennt voneinander
erhalten. Wenn wir dann die Anzahl
der Preise
zählen, die verschiedenen
Nationalitäten gehören ,
wird das Land berechnet, das der
Helfer gekauft hat Und dann fügen wir die Verletzten in
absteigender Reihenfolge hinzu. Und wir werden uns das
erste Term T ansehen.
Okay, lassen Sie uns das durchgehen. Sieh dir das Land an. Vereinigte Staaten weiter zu Personen neun, Großbritannien, 85, Frankreich,
Deutschland, wie T1, Frankreich
für P13, dass 29. Und dieses Land
keine spezifizierten 26, Japan Grundy für Kanada bei, in der Linse sind es normalerweise 17. Und dann können wir hier das Verhältnis von
Männern und Frauen sehen. Also hat man
bis jetzt 49 Frauen angehoben, bis 2.016,8. 39 haben möglicherweise
den Nobelpreis gewonnen und
26, Geschlecht ist unbekannt. Okay? Als Nächstes können
Sie sehen, dass insgesamt
911 Personen den Nobelpreis erhalten haben. Darin waren 36, der Mann und 49 oder das Weibchen, und 2067 oder gaben ihr Geschlecht an Okay. Wir bei der Preisgestaltung, vielleicht die
häufigste Warnung. Sie machen 1.901 bis zweimal 15 war ein Mann, der in
den Vereinigten Staaten von Amerika geboren Aber alles in allem, wo das europäische
Brot lachte, fingen die USA an. Also, bevor wir
mit dem Nobelpreis begannen, waren
alle Gewinner aus Europa,
aber langsam, sagen Sie, hat
Amerika das Ruder übernommen. Sie dominierten die
Nobelpreis-Charts. Also lass uns sehen. Hier berechnen wir also
den Anteil der US
One-Gewinner pro Jahrzehnt. Bisher wird das
diese Requisite mit uns unterstreichen,
unterstreichen Und wir verwenden den Datensatz Nobel, sogar den Pipe-Operator
und werden mutieren den USA geborener Gewinner ist
gleich Geburtsland Und hier werden wir den Stolz der Vereinigten
Staaten von Amerika auf
Geburtenkontrolle legen. Und sie werden sie benutzen, geteilt
durch zehn in hundert. Und wir verwenden die
bodengeschrumpfte Zelle. also 200 besuchen, verwenden wir die Etage, funktionale Gruppe nach Jahrzehnt, verwenden wird, um
die zu bekommen, dann fassen Der Anteil, der der
durchschnittlichen US-Anleihe entspricht, wird dies nicht tun. Und eine Information, die wahr ist. Also lass uns das ausführen. Sehen Sie Ihren Wert in 19091900, der
Anteil von uns sagt, dass der Gewinn bei
0,07 von 19 liegt und dann ist er um 2,078
gestiegen 1920, 0,70, 741.932,25%
Daten und 40,32, 92,299, 290,14 plus Zahnärzte. Und insgesamt unterrichtest du vor
4321 EGN 1030. Jetzt. Und dann
verwenden wir das GG-Plot
, um den Anteil aufzuzeigen
, der uns gerettet hat. Und dafür verwenden wir das Zwerchfell und übergeben
es an das DD Plot und Ästhetik
für Ästhetik überprüft, X-Achse wird nicht sterben Jahrzehnt und Y-Achse wird das
Verhältnis zwischen Frauen angeben Und wir verlieren die Funktion „Geom-Unterstrich neun Linien“, um die Punkte
zu zeichnen Menschen könnten zeigen
, um die Punkte zu ziehen. Skalenunterstrich durch
fortlaufende Stufen entspricht Skalen Spalte, Spalte
Prozentgrenze X1, X1 Null, weniger als diese. Und sieh hier, jetzt
kannst du ein Partikel sehen. Wie es läuft. Als Nächstes stellt sich die Frage, welches Geschlecht hat ein
typischer Nobelpreis? Als Nächstes stellt sich die Frage, welches Geschlecht hat ein
typischer Nobelpreisträger? Dazu berechnen
wir den Anteil
weiblicher Preisträger
pro Dekadenprodukt Wir verwenden eine Requisite, um den Gewinner
aus der Variablen hier
und dem Nobel-Datensatz zu entschlüsseln und zu unterstreichen aus der Variablen hier Und wir werden die
Mutationsfunktion verwenden. Weiblicher Underscore-Gewinner. Du nennst zwei Geschlechter
gleich weiblich. Und take it floor wird durch zehn durch zehn
geteilt. Und wir schließen den Pipe
Operator und dann gehen wir nach Jahrzehnt und Kategorie
nach oben und fassen zusammen Bei Bestehen entspricht der
Anteil
dem durchschnittlichen Premiersieger
und den Daten von zwei. Und dann zeichnen wir das Verhältnis auf,
das Freeman Lauric
dafür vorhergesagt hat, wird dieses Verhältnis übertreffen D, D Unterstrich fallen lassen. Underscore wird die einfache Handlung
aus einiger Ästhetik nicht
machen , ich verwende X,
X Quadrat von Y. X ist vier. Anzahl der Gewinner und Farbe werden die Kategorie sein, die auf der Kategorie
basiert. Also lass uns das ausprobieren und sehen. Jetzt siehst du
hier auf der X-Achse, die Katzen wurden geplottet
und auf der Y-Achse wurden
Chemie, Wirtschaftswissenschaften oder die
Kategorie durcheinander gebracht Und jetzt werden wir sehen, wie
viele andere Wiederholungen oder Gewinner das bisher gemacht haben,
lass mich dir das zeigen. Hier verwenden wir den
Roman über Data Frame. Und es tut es und
wir verwenden count gleich Fullname und Filter Wenn N größer als eins ist,
gerade Anzahl der Vorkommnisse
mehr als eins, dann zählen wir, zählen Verstehe das. Es gibt mindestens
sechs Personen, die Nobelpreis
erhalten haben mehr als zwei oder zwei
oder mehr als zweimal den Nobelpreis
erhalten haben. Also okay. Maddie fragt die Zeit ab und Lena hat zweimal Blütenstaub
verloren. Ausschuss für internationales Recht, internationale Gemeinschaft des
Roten Kreuzes oder dreimal. Nun, wie alt sind Sie, wenn Sie
den Nobelpreis erhalten und die wiederholten Gewinner
in einigen Abbildungen,
Name, wir treffen wieder Marty Query Madame Curie, die
den Nobelpreis für
Physik für die Entdeckung von
Strahlung und Chemie für die
Isolierung von Medium und Polonium erhalten hat den Nobelpreis für
Physik für die Entdeckung von
Strahlung und Chemie für die
Isolierung von Medium und Isolierung John hat zweimal Exporttransistoren
und Supraleitfähigkeit im Kühlschrank .
Frederick Sanger Sanger hat es zweimal
in der Chemie erwischt. Linus Pauling hat es als Erster in Sachen Chemie und Schriftzug für jedes Werk
in der Werbung für dieses Kleidungsstück, Mann und
diesen
aktuellen Moment Und wir lernen auch diese
Organisation, dass auch Preise untergeordnet sind und
man es immer noch nicht
verstanden hat, Preis Also lass es mich dir zeigen. Benutze das Schmiermittel. Schmieren. Sorry, hier ist das Lubridate-Paket nicht geschmiert Und hier berechnen wir das E, das die
Nobelpreisträger hatten. Also neu und dann mutieren
ist gleich minus Ära. Aber dann zeichnen wir
das Parsing dieses DataFrame und Aesthetic wird jahrelang Export As
und Ehefrau verwenden Und mit dem
Handfall-Geom-Punkt und den Geometern zeichnen wir
diese Lektion, bekommen, sogar
klein diese Lektion wir Als nächstes gibt es einen Unterschied
zwischen den Preiskategorien. Plot hat das also oft gesehen. Wir sehen, dass
Menschen, die früher etwa vier bis fünf Jahre
dort waren, am Tag aufrecht sitzen Heutzutage
liegt der Durchschnitt deutlich bei 65,
aber in den Theatern gibt es eine große Streuung
in den Theatern die am besten geeignet sind,
plus jemanden, der sehr jung ist. Und Sie sehen auch, dass die Preise von City ernennen heute
viel höher sind als in
den frühen 90ern, heute viele höher als in
den frühen 90ern,
heute sind viel mehr Preise festgelegt, sodass es viel mehr Gewinner gibt Wir sehen auch, dass die
Preisveränderung um den zweiten Waschgang herum, Zweiten Weltkrieg 1939 bis 1943, erfolgte. Der Nobelroman unterstreicht das
Alter und die Ästhetik X, Y. Und lassen Sie uns das ändern. Sehen Sie, wie unterschiedliche Kategorien, wie sich das Alter auf
Chemie, Wirtschaft und Recht auswirkt. Sie versuchen, Kind kann Geld,
Gebühren und Vorhersagen, Medizin,
Frieden und Vorhersagen oder weniger
als und jüngster Gewinner
erhalten Gebühren und Vorhersagen, Medizin, Frieden und Vorhersagen oder weniger
als und jüngster Also versuchen wir herauszufinden, dass
das Loch das
älteste und gleichzeitig das
jüngste war . Lassen Sie uns
hier das Büro
als Kategorie für Kategorie
Bauchpreis verwenden . Sie können das also für
Chemie sehen und das
ist für Wirtschaftswissenschaften, für Literatur, für
Medizin und Physik. Dann sind weniger als die von Angular in beiden Diagrammen mit vielen
Cyclinen im Gange Wir sehen, dass die
Boltzmann-Pflege, Chemie und Medizin im Laufe der Zeit älter
geworden sind Der Trend ist am stärksten,
obwohl prognostiziert wird, dass
Diabetes bei Ihnen im Alter von 50 Jahren Und jetzt die Literatur und
Wirtschaft oder besser gesagt Tabelle. Und wir sehen auch, dass
Wirtschaftswissenschaften in eine neuere Kategorie
fallen, aber auf der Grundlage eines Projekts werden
zehn erfahrene Krankenschwestern jünger. Die Kategorie Adipositas, wir auch diese Kategorie
waren wir auch nicht um 2010 herum, die scheint fast jung zu
sein Das wirft die Frage
bei etwa zwei und dann die gleiche Frage auf,
außer stinkend jung,
das wirft die Frage auf, wer sind die oder weniger
als die jüngsten Personen
, die je dann die gleiche Frage auf,
außer stinkend jung,
das wirft die Frage auf,
wer sind die oder weniger
als die jüngsten Personen
, die je einen Nobelpreis erhalten haben. Dafür verwenden wir also die neuartige
Altersvariable Unterstrich, aber über dem oberen Unterstrich ergibt N
eins und dann wird es Und dann für den oberen Unterstrich
N1, absteigend. Okay, lassen Sie uns das ausführen. Wir sehen uns. In der Kategorie „
Stücke“ 2014. Der Nobelpreis wurde an Sie verliehen Der
Nobelpreis wurde Ihnen verliehen. Also Malala. Malala ist zwei J und C waren erst
17 Jahre alt, als ihm gesagt wurde, dass er erst sieben Jahre alt
war. Unterdrückung von Kindern
und Jugendlichen für das Recht aller
Kinder auf Bildung Und CSIA, der Preis
bei ihnen, eins. Sehen Sie, wie Data Partition im Juli
1997 war und 17 Jahre alt war. C ist also der jüngste, und hier ist unsere Liste 1
insgesamt und sieben Wirtschaftswissenschaften Der Sparkassenpreis für
Wirtschaftswissenschaften zeichnet insgesamt sieben ,
weil sie den
Grundstein für einen Mechanismus gelegt
haben , der theoretisch, und er sagte die drei anderen Gruppen
zu anderen Leuten. Und ihr Name war Leonardo
Harvest und er erhielt vorerst den Nobelpreis. Und im Alter von 90 Jahren erhielt er Dahmer-Nobelpreis und
er kam aus Amerika Und Malala Yousafzai
kam aus Pakistan. Dieser Weg hat uns nicht gefallen
oder weniger als aus Pakistan. Auf diese Weise
haben wir den jüngsten
Nobelpreisträger nicht oder
weniger gemocht . Sie können den
Nobelpreisträger anbieten. Sie können einige weitere Punkte finden
und diese analysieren. Ich hoffe, du hast verstanden, wie wir visualisieren können und später Später. Danke.
120. Projekt 12: Passwortstärke mit R finden: Hallo und willkommen zurück. In dieser Vorlesung werden
wir
ein weiteres Projekt durchführen , in dem
wir die Passwortstärke mithilfe von odd ermitteln werden. Wie wir wissen, ziemlich beliebtes
Programmiersprachenprojekt und das ist seltsam. Manchmal müssen wir auch
die Passwortstärke messen. In diesem Fall können Sie diese Übung
verwenden. Also lass uns sehen. In diesem Projekt werden
wir also die Rollen der NIST-Sonderveröffentlichung
863 erreichen Was tritt der Prüfer
sekundäre Partei , der
für die Speicherung verantwortlich ist und richtig
getrunken hat Passwort viel
bekannt als Körperfett Es dient dazu, sicherzustellen, dass Sie kein
schlechtes Passwort wählen. Wir werden die
Passwörter der Benutzer durchgehen. Was sind repariert ein
kleines Unternehmen und verwenden unsere, um zu kennzeichnen, dass Sie
nur mit einem schlechten Passwort. Aber da dies bereits möglich ist, bedeutet
dies, dass das Festnetzunternehmen 800 US-Dollar
abgibt. Ich konsequent. Aber wenn ich den auswendig gespeicherten,
heiligen
Zellspeicher hinzufüge , sind das
zehn zu Offline-Angriffen Merken Sie sich die Christelle, die mit der Tabelle
gestartet wurde und hatte, eine Einwegfunktion
zur Schlüsselableitung Das heißt nie, Sie speichern nur
das Passwort in Klartexten, verschlüsseln Sie die Passwörter
immer Wenn wir dies
für das nächste Mal berücksichtigen sind
wir bereit, ein
Passwort-Management-System zu verwenden. Laden wir diese Daten. Die Liste der Passwörter und die
feste oder eingeschränkte Datenbank. Beide Inhalte, echter
Passwort-Link von einer echten Website. Dieses Passwort wurde in keiner Weise
gefiltert und
nicht in CloudWatch-Daten
exfiltriert Das ist also nur zum Wollen. Okay, laden wir
die CSV-Datei hier. Wir werden hier die Bibliothek mit
aufgeräumten Versen verwenden. Also lass mich einfach, okay. Also laden wir zuerst die Bibliothek,
die Bibliothek, und dann müssen wir die CSV-Datei lesen , in
der all Ihre
Jut-Daten gespeichert wurden. Wir verwenden Sie, um
einfach die CSV-Datei zu starten. Ja. Und wir bewahren
Sie nur als Wertvolles auf. zählen, wie viele du
gerade in der Reha bekommen hast verwenden
wir die Endrew-Funktion
und geben dir das Und dann drucken wir
den ersten Vorabdruck. Sehen wir uns die Daten an. Das ist also die Jahres-ID, der
Benutzername und das Passwort. Das ist also die
Ding-Dateidatenbank , die die
Benutzer-ID, den Benutzernamen und das Passwort enthält. Okay? Es gibt also 982 Raj, okay, unbearbeitete zwei
Zeilen oder das Jetzt werden wir überprüfen, ob das
Passwort nicht sein sollte. Zu lösen. Das ist eine Regel. Wenn wir uns also
die ersten Preprint-Benutzer ansehen, sehen
wir bereits
einige schlechte Passwörter Dieses Passwort ist schlecht, dieses Passwort ist schlecht. Dieses Passwort ist auch zurück. Fast alle Passwörter in
diesen Rollen sind schlecht, oder? Aber lassen Sie uns nicht
voreilig sein. Kann anfangen, das
Passwort manuell zu kennzeichnen. Was ist das Erste, was wir nach
der Sonderveröffentlichung des NIST,
800 C3b,
sortieren der Sonderveröffentlichung des NIST,
800 C3b, , wenn die ersten
Mobilfunkanfragen Suzanne, präge dir Secret mit einer Länge von
mindestens acht
Zeichen ein Okay, das Passwort der
Benutzer sollte also nicht zu sortieren sein. Lassen Sie uns damit beginnen, das zu überprüfen. Also, was wir tun werden, wir überprüfen die Länge
des Passworts. Das Erste. Dafür erstelle
ich eine riesige Länge, eine Variable, und hier
verwende ich die STR-Unterstrichlänge Überprüfe die Länge des Passworts hier. Ich überprüfe den
Längenteil, du gehst
einfach zur Gebärmutter und Datensatz und zum Passwort und überprüfe, wie
lang das Passwort ist. Okay. Okay. Also und das hat
Alice in der gesagt, du leihst einfach und
dann erstelle ich eine weitere Variable, die du
einfach sortierst, um zu sortieren. Er hat es sortiert, wann
es beginnen soll, wenn Sie diese Länge gerade verlängern. Die Länge, die wir
aus dem Passwort-Feld berechnet haben. Wenn das weniger als acht
sind, markieren wir das
zur Sortierung, okay? Und dann drucken wir
die Summe bis zur Quelle. Wie viele gibt es? Werde es zusammenfassen und drucken. Okay, lassen Sie uns das ausführen. Wir sehen uns also, es gibt 376 Passwörter in dieser
Datenbank, diesem Datensatz
, der
weniger als acht Zeichen sortieren muss und sieht, dass Sie falsch sortieren. Das sind mehr als acht
Zeichen, 3368. Das ist auch, das ist wahr. Das sind also sieben
Zeichen, sechs Zeichen. Diese WeChat-Passwörter mit
weniger als acht Zeichen
sind also als Tool zum Sortieren nach L2 gekennzeichnet Okay, jetzt haben wir
die Möglichkeit,
das Passwort mit
weniger als acht Zeichen zu markieren das Passwort mit
weniger als acht Zeichen Als nächstes überprüfen wir gängige Passwörter. Die Leute unterstützen das sehr. Wir werden die Liste mit
10 Millionen Passwörtern verwenden Okay, also überprüfen wir anhand dieser Liste, ob das Passwort
aus dieser Liste stammt oder nicht. Okay. Also schon
diese Musterregel, ein paar Straftäter unter
den ersten 12
Sonderveröffentlichungen am nächsten Tag,
es ist eine SSD drei V's die Rolle, dass, wenn Sie feuern, verkaufen, die potenziellen
Geheimnisse mit der Liste
vergleichen, die
Inhalte von Werten, von denen bekannt
ist, dass sie häufig verwendet werden,
erwartet oder kompromittiert
wurden, bevor sie von den vorherigen Okay. Das ist also
der Teil Deja, das übliche Passwort,
das die
Leute benutzen, das durchgesickert Wörterbuchwörter
wiederholten sich also über Sekunden. Wir werden Charaktere haben
Zugriff auf bestimmte Wörter, wie Name des Dienstes,
Nutzername, Ableitung Okay, all diese, denk darüber nach. Für ein allgemeines Passwort. Wir werden die
Zeilen dieser Datei lesen, das ist eine TXT-Datei mit 10 Millionen
Passwortlisten. Und dann sehen wir uns die
allgemeine Passwortliste an. Okay, also nur in dieser Liste. Das sind also die üblichen
Passwörter wie 123456 oder jemand könnte Passwort ist
gleich Passwort I 1234530 Okay, also all diese Superman, alle Jada und Jennifer,
Jolly Das ist also das übliche Passwort , das die Leute verwenden. Also
haben wir breit verkauft. Sie speichern Passwörter, die
nicht das übliche Passwort sein sollten. Wie überprüfen wir das? Wir müssen also alle
Passwörter in unserer Benutzerdatenbank kennzeichnen , die zu den
besten, intelligentesten gehören. Das bereits verwendete Passwort
ist das übliche Passwort, okay. Dafür verwende ich,
ich erstelle eine Variable namens
Dollar Common Passwords. Also erstelle ich ein Feld namens allgemeines Passwort
in der Benutzerdatenbank. Und das ist der Fall, wenn das Passwort in
diesem allgemeinen Passwort, das Passwort in
diesem allgemeinen Passwort enthalten ist. Okay? Wenn Sie das Passwort
innerhalb des allgemeinen Passworts angeben, wird
es als
allgemeines Passwort gekennzeichnet und dann werden wir sehen, wie
viele gängige Passwörter es gibt. Also lass uns sehen. Sehen Sie sich also Ihre 129 Passwörter in unserer Datenbank oder die häufig verwendeten Passwörter
an. Sehen Sie hier. Dies sind die gängigen
Password March Tom Murphy Okay, jetzt haben wir ein gemeinsames Passwort
gefunden. Als Nächstes werden wir sehen, wie wir das
als Passwort annehmen
können oder nicht, denn Passwörter sind kein
sehr verbreitetes Passwort, oder? Soweit werden wir eine Variable
schlechter
erstellen und Zeilen aus den 10.000 englischen Texten von
Google lesen . Es ist also das
Google-Premium-Wodka-Korpus wert ,
das Google uns gegeben hat, okay, diese Datei, und dann werden
wir sehen, ob die Leute in ihrem Passwort gängige Wörter
verwenden Okay? Also verwenden wir den STR-Unterstrich, um die
Funktion zu senken, um sie zu senken Und dann überprüfen wir darin ob es da
ist oder nicht. Und dann schauen wir auf die Registerkarte „Zusammenfassung“ und finden heraus, wie
viele Personen häufig verwendete Wörter verwenden. Passwort. CR1 37-Passwörter enthalten
also gemeinsame Wörter. Okay. Als Nächstes würde das Passwort für das Predicting nicht wiederholt
werden Also wie überprüft man das? Also teilen wir uns zuerst das Schlimmste auf. Wir verwenden den
STR-Unterstrich
und teilen das
Passwort auf, okay,
und dann wählen wir die maximale Anzahl operativer
Wiederholungszeichen für jedes Passwort aus die maximale Anzahl operativer
Wiederholungszeichen für jedes Passwort Also erstelle ich maximale Wiederholungen für
Unterstriche. Und ich verwende
hier die Apply Funktion und gebe das
Listen-Passwort hier weiter. Und dann funktioniere, du würdest das Passwort mit einem
Unterstrich teilen und Max ist gleich RLE, geteiltes Und dann finden wir die Länge. Und wenn sich zu viele wiederholen, oops, speichere
ich darin
zu viele Wiederholungen Wenn es mehr als, für, mehr als oder gleich vier ist, entspricht es Mehr, Mehr
als oder gleich vier. Okay, dann schließen wir
es an. Also sieh hier. Max. Wiederhole bis zum Maximum, wiederhole eins, max. Grad 31. Okay, also was wir jetzt tun werden, ich werde das alles zusammenfügen. Und wir haben alle grundlegenden
Geschmäcker pro schlechtem Passwort ausprobiert. Jetzt haben wir ein schlechtes Passwort. Jetzt werden wir sehen, wir werden
alles zusammenstellen. Ich erstelle ein wertvolles schlechtes
Passwort und prüfe ob es dazu dient, unser gängiges
Passwort oder unser gebräuchliches Wort zu sortieren, oder ob zu viele Wiederholungen zu viele Wiederholungen
sind Viele Wiederholungen habe ich zweimal
hinzugefügt. Okay? Und falls eine
dieser Bedingungen zutrifft,
kennzeichnen Sie, dass das Passwort ein schlechtes Passwort
hat und dann werden wir sehen, wie viele
schlechte Passwörter wir erhalten. Mal sehen, Sie sehen, jetzt sehen wir dieses
schlechte Passwort und hier
wurden nur wenige Passwörter als wahr markiert Falsches Passwort, stimmt. Also dieser Co, das ist das Normale, das ist
das gebräuchliche
Wort, Commonwealth Diese werden also als
Flag Data (schlechtes Passwort) gekennzeichnet. Auf diese Weise können wir mithilfe von odd
einen Code schreiben , um
das schlechte Passwort oder die
Passwortstärke zu finden , um
das schlechte Passwort oder die
Passwortstärke
121. Einführung in das maschinelle Lernen: Hallo und willkommen zurück. In dieser Vorlesung werden
wir etwas über
maschinelles Lernen lernen. Jetzt haben wir gesehen, wie wir
unsere Programmierung für die
Datenvisualisierung und Datenanalyse verwenden können . Jetzt, von nun an, werden
wir etwas über
maschinelles Lernen lernen. Wir beginnen mit den Grundlagen
des maschinellen Lernens. Wir werden sehen, wie
maschinelles Lernen funktioniert. Was sind die Arten
von maschinellem Lernen, was sind die Anwendungen
von maschinellem Lernen? Okay, dann werden wir sehen, was der Prozess des
maschinellen Lernens ist, wie wir Algorithmen anwenden, wie wir kreieren, modellieren,
wie wir bewerten. Okay, lassen Sie uns
mit einer Einführung in
maschinelles Lernen beginnen und das
Potenzial von Daten nutzen Lassen Sie uns mit der Definition von
maschinellem Lernen beginnen. datengesteuerten Welt spielen
Maschinen eine
immer größere Rolle
dabei, spielen
Maschinen eine
immer größere Rolle
dabei die riesige Menge an
Informationen, die uns zur Verfügung stehen, zu verstehen . Wie Sie wissen, erhalten
wir in
diesem digitalen Zeitalter jede Sekunde
Daten, jede Sekunde
Daten, sei es in der Luftfahrtindustrie, sei es in den sozialen
Medien überall, in den Unternehmen,
im E-Commerce, im Lernen,
in der Apotheke, im medizinischen
Bereich, überall. Jede Sekunde
erhalten wir eine Menge Daten. Diese Daten sind nicht die
normalen Daten, die Sie früher in Adim-Tabellen
gespeichert haben, sondern es sind große Datenmengen Sie haben kein
sehr statisches Format. Sie haben ein sehr
dynamisches Format. Es werden Bilder sein,
es werden Bilder sein. All diese Dinge, diese
dynamischen Daten sind auf herkömmliche
Weise sehr schwierig. Maschinelles Lernen ist eine Untergruppe der künstlichen Intelligenz, die sich zu einer transitiven Kraft
entwickelt hat , die es Computern
ermöglicht, anhand von Daten zu
lernen und sich anzupassen und Aufgaben ohne
explizite Programmierung auszuführen Da wir nun über eine
Menge Daten verfügen, ist
es nutzlos,
wenn wir nicht in der Lage sind,
Informationen aus den Daten zu gewinnen, wenn Sie Tausende von Rückmeldungen
von Kunden, Verbrauchern
oder Endnutzern wenn wir nicht in der Lage sind,
Informationen aus den Daten zu gewinnen, erhalten Rückmeldungen
von Kunden oder Und wenn Sie nicht
daran arbeiten, wenn Sie nicht wissen,
wie man daran arbeitet, dann nützt es nichts, nicht verbessern Mit dem Aufkommen der künstlichen intelligenten
Datenwissenschaft,
des
maschinellen Lernens und der Datenanalyse werden wir
unsere
Prozesse, unsere Produkte und unsere Dienstleistungen künstlichen intelligenten
Datenwissenschaft,
des
maschinellen Lernens und der Datenanalyse werden wir
unsere
Prozesse, . Was wir tun können, wir können aus den Daten
lernen, wir können die Daten untersuchen und wir können
aus den Daten
relativ gute Informationen gewinnen. Und wir können uns an die Daten
anpassen. Wir können analysieren, wir können anhand der Daten
Entscheidungen treffen. In diesem Fall haben wir
es früher selbst gemacht, aber dank maschinellem Lernen
und künstlicher Intelligenz können wir die
Computer
jetzt in die Lage versetzen, aus den Daten zu lernen und Aufgaben ohne
beschleunigte Programmierung
auszuführen Wir müssen das Programm nicht einmal
schreiben. Es funktioniert vor dem Verkauf und
wir können die Modelle trainieren. Und es wird dazu führen
, dass wir weniger verstehen, dass wir maschinelles Lernen
etwas detaillierter verstehen. Im Kern geht es beim maschinellen Lernen
darum, einen
Algorithmus zu entwickeln, der es
Computern ermöglicht, aus Daten zu lernen und
Entscheidungen oder Vorhersagen auf der
Grundlage von technischem Wissen zu treffen. Im Gegensatz zur herkömmlichen
Programmierung, bei Menschen
Computer explizit anweisen, was zu tun ist, ermöglicht
maschinelles Lernen
Systemen,
ihre Leistung zu verbessern , und zwar
unabhängig von Erfahrung. Dies wird durch die
folgenden Schlüsselkomponenten erreicht. Die Datenalgorithmen,
das Training, die
Evaluierung und das Testen des Modells und dann die Bereitstellung. Das sind die Dinge, die wir beim maschinellen Lernen
tun. Zuerst erhalten wir die Daten, dann
wenden wir auf diese Daten Algorithmen an, dann trainieren wir und dann
evaluieren und testen wir das Modell. Und wenn dem Modell dann
die erforderlichen Ergebnisse und Ergebnisse gegeben werden, setzen wir es auf der Grundlage der Daten in einwandfreier
Produktion ein. Daten sind der Lebensnerv des maschinellen
Lernens. Wenn es keine Daten gibt, gibt es kein maschinelles Lernen,
es gibt Denn maschinelles Lernen,
KI-Datenwissenschaft, alles
hängt von den Daten ab. Jede Menge Daten. Die Daten dort werden noch nützlicher
sein, es wird effizientes
maschinelles Lernen,
künstliche Intelligenz,
tiefes Lernen sein . All diese Dinge
hängen alle von den Daten ab. Daten sind das Blut des
maschinellen Lernens. Wenn sie nicht vorhanden sind, wird
maschinelles Lernen nicht funktionieren, Algorithmen werden nicht laufen. Algorithmen lernen Muster und Beziehungen aus historischen
oder Echtzeitdaten, was als Trainingsgrundlage für
diese Systeme dient,
Algorithmen, die wir
lernen und anwenden. Sie lernen aus dem
Algorithmusmuster und der Beziehung zu
den Daten, die wir zum Trainieren von Modellen für
maschinelles Lernen verwenden. Wenn die neuen Daten verfügbar
sind, werden sie also auf der Grundlage
der historischen Daten, auf denen wir das System trainiert
haben, Vorhersagen treffen . Die Qualität und
Quantität der Daten sind entscheidende Faktoren für den Erfolg des Modells
des maschinellen Lernens. Die Daten, die wir erhalten,
sollten aussagekräftig sein. Wenn Daten nicht aussagekräftig sind, Daten nicht verbessert werden, Daten sehr klar sind, dann
werden Modelle für maschinelles Lernen nicht sehr vage sein Zuerst müssen wir an den Daten
arbeiten. Die Daten sollten sehr sauber und
präzise sein, damit
Modelle für maschinelles Lernen effektiv funktionieren. Algorithmusalgorithmus und Algorithmen für
maschinelles Lernen sind mathematische Engines
, die Daten verarbeiten. Algorithmen stecken tatsächlich
hinter der Mathematik. Sie arbeiten an den Daten
und verarbeiten die Daten, identifizieren die Muster
in den Daten und treffen dann auf der Grundlage dieser Muster die Vorhersagen
oder Entscheidungen. Diese Algorithmen
können
in verschiedene Typen eingeteilt werden ,
darunter überwachtes, unbeaufsichtigtes Lernen und
verstärkendes Lernen, jeweils für unterschiedliche Aufgaben geeignet Algorithmen und wie
sie aus den Daten lernen, wie sie aus den Daten lernen,
sie lesen, sind
verschiedene Typen, die wir
lernen werden, während wir uns die verschiedenen
Arten des Lernens ansehen werden die verschiedenen
Arten des Lernens ansehen Okay. Was ist das
Modelltraining? Während des Trainings wird das
Modell des
maschinellen Lernens mit
Daten konfrontiert und lernt, Muster zu
erkennen. Alle Daten werden ein
bestimmtes Muster aufweisen. Wenn Sie sich die
Lern-Websites ansehen sie die Daten sammeln, werden
sie
feststellen, dass der Benutzer auf die Website
kommt. Sie klicken dann auf
etwas, je nachdem ob sie ein
Brot kaufen, das sie kaufen, aber sie kaufen Zucker, sie kaufen das E, die Algorithmen oder
das Modell des maschinellen Lernens. Wenn es die Daten erreicht hat, hat
es die Daten erreicht, es
wird dieses Muster erkennen. Wenn eine Person ein Brot kauft, kauft
die Person auch die Butter Beim Kauf von
Brot und Butter ist es auch, wenn er den Tee kauft, kauft er
auch den Milchzucker Dies ist das Muster, das vom Modell
erkannt wird. Und dann passt das Modell
seinen Parameter an, um den Fehler oder die
Abweichung vom
erwarteten Ergebnis zu
minimieren . Evaluierung und Testen. Evaluierung und Prüfung.
Nach dem Training wird
das Modell evaluiert. Wenn das Modell trainiert ist, wird
das Modell
anhand des separaten Datensatzes bewertet. Angenommen, wir haben einen Datensatz, dann trainieren
wir unser Modell anhand
dieses bestimmten Datensatzes. Und wir sagen, dass sie das Muster
erkennen, wie Brad, wenn jemand Brad
kauft, kauft er Aber wir müssen vorhersagen,
was der Nutzer als Nächstes kaufen kann. Was wird Verhalten sein, welches Produkt können wir ihm nähen. Wir trainieren an einem Datensatz und
dann probieren und bewerten wir das Modell anhand eines anderen
Datensatzes, sodass wir
seine Leistung und
Generalisierungsfähigkeit kennenlernen können seine Leistung und
Generalisierungsfähigkeit sind
häufig Feinabstimmungen und Optimierungen Zur
Verbesserung der Genauigkeit sind
häufig Feinabstimmungen und Optimierungen erforderlich Danach optimieren wir das Modell und
optimieren das Modell und die Algorithmen, um die Genauigkeit
der
Modellbereitstellung für maschinelles Lernen zu verbessern . Sobald das Modell zuverlässig ist, kann
es in
realen Anwendungen eingesetzt werden ,
um Vorhersagen zu treffen, Entscheidungen zu
automatisieren und Empfehlungen
abzugeben. Sie wären auf
all diese Dinge gestoßen , wie
bei Amazon Flip Card Way. Wenn Sie sehen, wann
Sie ein Produkt kaufen, das System
automatisch
neue empfiehlt Ihnen
das System
automatisch
neue Produkte, die
auf Ihrem bisherigen Verhalten oder dem
vorherigen Produkt, das
Sie gekauft haben, basieren auf Ihrem bisherigen Verhalten oder dem
vorherigen Produkt, das
Sie gekauft haben Es empfiehlt Ihnen neue Produkte
, wenn Sie Netflix schauen. Wenn Sie sich einen Comedy-Film ansehen, wenn Sie das
nächste Mal zu Netflix
gehen. Fangen Sie an, Ihnen die
neuen Comedy-Filme zu empfehlen, oder? Es hat dein
Muster erkannt,
es auf
Modellen des maschinellen Lernens anzusehen , hinter Netflix, Amazon, all diesen Dingen, fangen
sie an,
dir die neuen Produkte,
Filme und all diese Dinge zu empfehlen , okay? Was sind die Anwendungen
des maschinellen Lernens? Maschinelles Lernen hat in
einer Vielzahl von
Branchen und Bereichen Anwendung
gefunden und die Art und Weise, wie wir verschiedene Aufgaben
angehen, revolutioniert Hier sind einige bemerkenswerte Sprünge. Wir setzen maschinelles Lernen
im Gesundheitswesen ein. Maschinelles Lernen, Diagnoseplanung,
Wirkstoffforschung und personalisierte Medizin
durch Analyse von medizinischen Daten, Bildern und Genomsequenzen Im Finanzbereich unterstützt es Algorithmen zur
Betrugserkennung,
algorithmischen Handel, Kreditbewertung und Risikobewertung
und unterstützt
Finanzinstitute dabei, datengestützte Entscheidungen
im E-Commerce zu datengestützte Entscheidungen
im Empfehlungssysteme
, über die ich bereits gesprochen habe, nutzen
maschinelles Lernen, um Produkte und ein
personalisiertes Einkaufserlebnis vorzuschlagen und die Preisstrategie zu optimieren Autonome Fahrzeuge,
maschinelles Lernen ist ein integraler Bestandteil
selbstfahrender ermöglicht es
ihnen, Informationen
und Momente wahrzunehmen, Entscheidungen zu treffen und
sicher zu navigieren Ein Beispiel ermöglicht es
ihnen, Informationen
und Momente wahrzunehmen, Entscheidungen zu treffen und
sicher zu navigieren. Zu den Anwendungen in den Bereichen natürliche
Sprachverarbeitung, NLP und LP gehören Sprachübersetzung,
Stimmungsanalyse, Chatboards und Sprachkommunikation, wodurch die Interaktion zwischen Mensch und
Computer reibungsloser wird und L of
Create heutzutage genutzt Fertigung, vorausschauende
Wartung und Qualitätskontrolle werden
durch maschinelles Lernen verbessert Reduzierung von Ausfallzeiten und Defekten
in Produktionsprozessen. Umweltwissenschaften und
maschinelles Lernen werden zur Klimamodellierung, Vorhersage von Umwelttrends und zur Analyse ökologischer Daten Die Bedeutung des
maschinellen Lernens geht über
seine Erläuterungen hinaus Es hat das Potenzial, die
Entscheidungsfindung zu beschleunigen ,
die Effizienz zu steigern, Erkenntnisse zu
gewinnen, Ihre
Erfahrung und Innovation zu personalisieren Maschinelles Lernen
fördert Innovationen indem es neue Möglichkeiten
in Bereichen wie Robotik,
virtuelle Realität und
erweiterte Realität eröffnet in Bereichen wie Robotik, virtuelle Realität und
erweiterte Realität können
wir die neuen Erkenntnisse Mithilfe
von maschinellem Lernen können
wir die neuen Erkenntnisse
aus den Daten Wir kommen zu dem Schluss,
dass maschinelles Lernen einen vermeintlichen
technologischen Fortschritt
darstellt.
Das bedeutet, Branchen umzugestalten, Innovationen zu
fördern und
Entscheidungsprozesse
zu verbessern , wenn Daten immer umfangreicher und komplexer werden Maschinelles Lernen wird
eine immer zentralere Rolle
bei der Gewinnung von Mehrwert und
Intelligenz aus
dieser datenreichen Welt spielen bei der Gewinnung von Mehrwert und Intelligenz aus
dieser datenreichen Je tiefer wir
in dieses Gebiet eintauchen, werden
wir die
verschiedenen Techniken,
Algorithmen und Anwendungen
untersuchen detaillierter werden
wir die
verschiedenen Techniken,
Algorithmen und Anwendungen
untersuchen, das volle Potenzial
des
maschinellen Lernens auszuschöpfen Am Ende dieser Vorlesung werden
wir in den
kommenden Vorlesungen mehr über maschinelles Lernen erfahren. Danke.
122. Die Rolle des maschinellen Lernens: Hallo und willkommen zurück. In dieser Vorlesung werden wir etwas über
die Rolle des maschinellen Lernens in der Datenwissenschaft und der künstlichen Intelligenz lernen, Daten in Erkenntnisse
umgewandelt werden. Wir haben bereits etwas
über die Grundlagen der
Datenwissenschaft und des
maschinellen Lernens gelernt , aber wir werden kaum
verstehen, wie wir die Daten
mithilfe von maschinellem Lernen und
künstlicher Intelligenz visualisieren
können . Und welche Bedeutung haben
Daten in diesen Bereichen? Datenwissenschaft und
künstliche Intelligenz, zwei der
transformativsten Bereiche in der modernen
Technologielandschaft In diesen Bereichen spielt
maschinelles Lernen eine entscheidende Rolle
bei der Gewinnung
zugänglicher Erkenntnisse, Automatisierung von Prozessen und der Bereitstellung von Daten als Grundlage für die Entscheidungsfindung
. In dieser Vorlesung werden wir die komplizierte,
komplizierte Beziehung
zwischen
maschinellem Lernen, Datenwissenschaft
und KI
untersuchen komplizierte Beziehung zwischen
maschinellem Lernen, Datenwissenschaft und untersuchen, wie
sie zusammen
zur
technologischen Entwicklung beitragen Datenwissenschaft ist ein
interdisziplinäres Gebiet , das verschiedene
Techniken und
Prozesse kombiniert, um
Wissensstandorte
aus strukturierten und
unstrukturierten Daten zu extrahieren aus strukturierten und
unstrukturierten Lassen Sie mich Ihnen ein wenig Klarheit über strukturierte,
unstrukturierte Daten Strukturierte Daten sind
Daten, die so
strukturiert sind, dass wir die vordefinierten Dinge
zum Speichern
der Daten haben ,
wie wir es in der Eiszapfendatenbank
oder der traditionellen
relationalen Datenbank tun oder der traditionellen
relationalen Dinge, bei denen wir Dinge
definiert haben , wie
es einen Namen geben wird, es wird einen geben, es
wird eine Adresse geben Es wird das
Produkt geben, das er gekauft hat. Das Datum, es wird definiert
und in tabellarischer Form. Okay? Und es wird ein
Datensatz sein, der definiert wird. Es wird ein Text oder ein Bild sein
oder was auch immer es ist, oder? Aber wenn wir uns dieses
Ding ansehen, unstrukturierte Daten. Unstrukturierte Daten sind heutzutage
aufgrund des Aufkommens der sozialen Medien,
des Internets, des elektronischen Handels und
der
Luftfahrtindustrie
sehr verbreitet aufgrund des Aufkommens der sozialen Medien,
des Internets, des elektronischen Handels und
der
Luftfahrtindustrie Überall erhalten wir viele
unstrukturierte Daten. Unstrukturierte
Datendaten sind nicht definiert. Daten kommen auf
verschiedene Arten. Mir gefällt es, manchmal
kommen sie in einer Chat-Form. Im Chat
teilen wir den Text, wir teilen die Bilder, wir teilen die Bilder. Wir verkaufen die Dateien, wir teilen die Videos, wir teilen die Animationen.
Es könnte alles sein. Die Daten sind nicht definiert. Daten sind strukturierter,
unstrukturierter Natur. Bei den herkömmlichen Dingen ist
es sehr schwierig, Informationen aus den Daten
herauszuholen, die Daten zu
speichern oder die Daten zu
speichern oder aussagekräftige Erkenntnisse
aus dem Datenteil Mit Big Data, Datenwissenschaft und maschinellem Lernen mit
KI ist
es sehr einfach, diese unstrukturierten Daten, die wir
aus sozialen Medien, E-Commerce
, Websites und unserem Unternehmen erhalten, zu analysieren ,
zu
speichern und Erkenntnisse diese unstrukturierten Daten, die wir
aus , aus ihnen Das ist heutzutage ziemlich einfach, Wissen
und Erkenntnisse aus
den unstrukturierten Daten zu
extrahieren , was
wir mit der Datenwissenschaft tun Es umfasst eine
Vielzahl von Aktivitäten,
darunter die Datenerfassung, die Art und
Weise, wie wir die Daten sammeln, Datenvorverarbeitung, die Art und Weise, wie wir die Daten
vor der Bearbeitung vorverarbeiten, und
dann, wie wir die Daten
analysieren Das ist der
Teil der Datenanalyse, den wir
sehen werden , und mit der Datenvisualisierung
können die Daten visualisiert Das Hauptziel der
Datenwissenschaft besteht darin, Rohdaten
in leicht zugängliche Erkenntnisse umzuwandeln und strategische
Geschäftsentscheidungen zu dienen. Jedes Unternehmen, das über viele historische Daten
verfügt, wenn es nicht
aus historischen Daten lernt, wie wir beispielsweise
ein Bekleidungsgeschäft betreiben, E-Commerce-Website, auf der
wir die Stoffe verkaufen, wissen
wir nicht, was wir haben. Die Daten, dass ein Teil des Vorstands, die Produkte, sich nicht verkaufen, einige der Produkte am meisten verkauft
werden. Wenn wir
diese Informationen nicht aus den vorherigen Daten beziehen, können wir den Kunden das neue Produkt, die
neuen Designs, nicht
empfehlen . Mithilfe
historischer Daten treffen
wir die Entscheidungen
und können
unsere strategischen Strategien sowohl
robust als auch leichter zugänglich machen . Okay, die entscheidende Rolle des maschinellen Lernens
in der Datenwissenschaft Maschinelles Lernen
ist der Teilbereich der
KI, der sich auf die
Entwicklung von Algorithmen und
Modellen konzentriert , die es Computern ermöglichen,
zu lernen und Vorhersagen oder Entscheidungen ohne
explizit programmiert zu werden So
verbessert maschinelles Lernen die Datenwissenschaft, Datenanalyse und Vorhersage Algorithmen für maschinelles Lernen
können große Datensätze analysieren, um versteckte Muster, Trends
und zentrale Beziehungen
zwischen den Daten zu
entdecken und zentrale Beziehungen
zwischen den Daten Diese Fähigkeit ist entscheidend
für die Erstellung von Prognosen, sei es bei Verkaufsprognosen, Prognosen zur
Kundenabwanderung oder sogar bei der Zifferndiagnose.
In medizinischen Bereichen kann
maschinelles Lernen mit
automatisierter Datenvorverarbeitung die
Datenvorverarbeitungsaufgaben
wie fehlende Werte,
Imputation,
Ausreißererkennung und Merkmalsskalierung
automatisieren wie fehlende Werte,
Imputation, ,
wodurch Datenwissenschaftler
an Bedeutung, Zeit und Mühe sparen Feature Engineering
kann bei Feature-Auswahl und dem
Engineering helfen die
relevantesten Variablen
für produktive Modellierung, Klassifizierung und Clusterbildung zu
identifizieren für produktive Modellierung Modelle des maschinellen Lernens wie Dissidenten unterstützen
Vektormaschinen Clustering-Algorithmen werden in der
Datenwissenschaft
häufig für Aufgaben wie
Kundensegmentierung und
Bildklassifizierung als Empfehlungssystem verwendet in der
Datenwissenschaft
häufig für Aufgaben wie
Kundensegmentierung und
Bildklassifizierung als .
Wir haben bereits über das System für
Filmempfehlungen und .
Wir haben bereits über das System für
Filmempfehlungen das Produktempfehlungssystem gesprochen das Produktempfehlungssystem Diese Empfehlungssysteme können mit
maschinellem Lernen sehr einfach verbessert
werden Kollaborative Filter- und inhaltsbasierte
Empfehlungssysteme basieren auf maschinellem Lernen bieten
Empfehlungen für Personen im E-Commerce und auf
Inhaltsplattformen wie Netflix,
natürliche Sprache, natürliche Sprache, natürliche
Sprachverarbeitung und NLP-Techniken Ein Teil des maschinellen Lernens
ermöglicht Stimmungsanalysen, Textklassifizierung und
Entwicklung von Chatboards Verbesserung der Daten, um Erkenntnisse aus Textdaten und Datenvisualisierung Maschinelles Lernen kann
dabei helfen,
interaktive und informative
Datenvisualisierungen zu generieren ,
interaktive und informative
Datenvisualisierungen komplexe Erkenntnisse
leichter zugänglich
zu machen Die Synergie von KI und
maschinellem Lernen. Während sich die Datenwissenschaft in erster Linie darauf konzentriert,
Erkenntnisse aus Daten zu gewinnen, erweitert
KI die Fähigkeiten des
maschinellen Lernens, um
Aufgaben auszuführen, für die in der Regel
menschliche Intelligenz erforderlich Maschinelles Lernen ist die
treibende Kraft hinter vielen
KI-Anwendungen und
ermöglicht es maschinellem Lernen, menschliche kognitive Funktionen
nachzuahmen menschliche kognitive Funktionen
nachzuahmen So schließt maschinelles Lernen die
Lücke zwischen Datenwissenschaft und
KI-gestützter Automatisierung Algorithmen für maschinelles Lernen
automatisieren verschiedene Statistiken, verschiedene Aufgaben, von der
Bilderkennung in autonomen Fahrzeugen bis hin zur Sprachübersetzung
in Chatboards. machen KI-Anwendungen mit Hilfe von
maschinellem Lernen
effizienter und zugänglicher , was die vermeintlichen
autonomen Fahrzeuge angeht , was die vermeintlichen
autonomen Fahrzeuge Wenn wir das Modell trainieren können, Beispiel wenn es das Signal sieht, können
wir das Signalbild einspeisen, egal ob es rot,
grün oder gelb ist. Auf der Grundlage des Signals kann
das automatisierte Auto anhalten, wenn es das rote Signal sieht. Es kann sich bewegen, wenn es das grüne Signal
sieht. All diese Dinge können
wir mit Hilfe
der KI-Personalisierung trainieren Hilfe
der KI-Personalisierung Maschinelles Lernen ermöglicht es
KI-Systemen, personalisierte Erlebnisse
wie
personalisierte
Inhalte, Inhaltsempfehlungen, Inhalte, Inhaltsempfehlungen, maßgeschneiderte Marketingkampagnen und
-kampagnen
und sogar
Behandlungspläne für das Gesundheitswesen Prädiktive Analyse, ich habe
produktive Analysen vorangetrieben , die auf maschinellem Lernen basieren Gesundheitsorganisation Antizipate
trainiert das Kundenverhalten und Ausfall von
Geräten und ermöglicht so eine proaktive
Entscheidungsfindung Wir können die vorausschauende
Analyse durchführen und erraten, wie unsere
Züge fahren, welches
Kundenverhalten sie haben und wie den Kunden das neue Produkt
gefallen wird dabei, Algorithmen für
maschinelles Lernen verbessern die Entscheidungsfindung und
unterstützen KI-Systeme fundierte Entscheidungen
zu treffen, indem sie
riesige Datenmengen in Echtzeit analysieren und so menschliche Fehler, die Verarbeitung und das
Verständnis
natürlicher Sprache sowie LP-Modelle
reduzieren Verarbeitung und das
Verständnis
natürlicher Sprache sowie LP-Modelle Ein Teil des maschinellen Lernens ermöglicht es KI-Systemen, menschliche Sprache zu
verstehen und darauf
zu reagieren , was Anwendungen
wie virtuelle Katzentöpfe
antreibt wie virtuelle Katzentöpfe Zusammenfassend können wir sagen,
dass maschinelles Lernen der Dreh- und Angelpunkt ist ,
der Datensätze und mich
miteinander verbindet und Rohdaten in
umsetzbare Erkenntnisse umwandelt Und Systeme mit künstlicher
Intelligenz in die Lage zu versetzen,
Aufgaben auszuführen, von denen bisher angenommen wurde, Traum von menschlicher Intelligenz
sind Das bedeutet, dass maschinelles Lernen die entscheidende Rolle
dabei spielen
wird die
menschliche Intelligenz früher
in die Maschinen zu integrieren, Dinge, die nur dem Menschen vorbehalten waren. Jetzt ist es mit
maschinellem Lernen,
Datenwissenschaft und mir möglich , unsere Maschinen die Arbeit erledigen können dass
unsere Maschinen die Arbeit erledigen können,
die Menschen mit sehr präzisen Dingen erledigen können. Da die Technologie
weiter voranschreitet, die symbiotische Beziehung
zwischen Datenwissenschaft, maschinellem Lernen und KI
weiterhin
unsere digitale Landschaft retten und
Innovationen in
verschiedenen Branchen vorantreiben Innovationen in
verschiedenen Branchen vorantreiben Nach wie vor
ist die Rolle
des maschinellen Lernens für
jeden, der sich für eine dynamische und sich ständig
weiterentwickelnde Welt
der Daten und künstlicher Intelligenz
interessiert
, von entscheidender Bedeutung dynamische und sich ständig
weiterentwickelnde Welt
der Daten und künstlicher Intelligenz
interessiert
, von Aus diesem Grund muss die Beziehung zwischen diesen
Datenwissenschaften, maschinellem Lernen
und KI verstanden werden, zwischen diesen
Datenwissenschaften, maschinellem Lernen
und KI verstanden werden, um Wissen auf diesem Gebiet zu erlangen. Ich hoffe, Sie haben verstanden, was die Synergie von KI und Lernen ist, welche Rolle
maschinelles Lernen und Datenwissenschaft Wir werden uns in der nächsten Vorlesung treffen und
einige weitere Dinge
über
maschinelles Lernen besprechen . Danke.
123. Arten des maschinellen Lernens: Hallo und willkommen zurück. In dieser Vorlesung werden wir maschinellen Lernens,
Arten des maschinellen Lernens,
kennenlernen . Wir werden es als einen sehr
umfassenden Überblick betrachten. Lass uns jetzt anfangen. Wir haben ein grundlegendes
Verständnis dafür , was maschinelles Lernen ist, wie es mit künstlicher Intelligenz und
Datenwissenschaft zusammenhängt künstlicher Intelligenz und , den
allgemeinen Dingen. Richtig, lassen Sie uns noch einmal ein
bisschen überarbeiten. Maschinelles Lernen, ein Teilbereich der künstlichen Intelligenz,
hat
die Art und Weise, wie Computer
Informationen verarbeiten und Entscheidungen treffen können, verändert die Art und Weise, wie Computer
Informationen verarbeiten und Entscheidungen treffen können Informationen verarbeiten und Entscheidungen treffen Was wir verstanden haben, oder? Es ist ein Teil der
künstlichen Intelligenz. Wenn Sie das
Gesamtbild betrachten, ist
Datenwissenschaft das Gesamtbild. Darunter fällt die
künstliche Intelligenz und darunter
das maschinelle Lernen. Deep Learning, all diese Dinge. Okay, Szenenlernen ist ein Teilbereich der künstlichen
Intelligenz Es hat die Leistungsfähigkeit von
Computern verändert, sodass ein Mensch die Ergebnisse
vorhersagen kann wie ein
Mensch und schneller als ein Mensch Das ist die Transformation, die
maschinelles Lernen mit sich gebracht
hat. Es ist sehr einfach,
Entscheidungen für
Unternehmen zu treffen, indem sie ihre Daten
verarbeiten. Äh, Algorithmen für maschinelles Lernen Modelle
erstellen und dann das Modell
auswerten. Und dann Vorhersagen, und
manchmal sagen sie
hundertprozentig korrekte Informationen voraus hundertprozentig korrekte Informationen Okay,
Algorithmen für maschinelles Lernen ermöglichen es System, aus den
Daten zu lernen. Daten sind der Schlüssel. In den letzten Vorlesungen haben
wir verstanden, dass Daten
das Herzblut des
maschinellen Lernens, der künstlichen Intelligenz und des gesamten Ökosystems
der Alles hängt von den Daten ab. Alles beginnt mit
dem Datendatenalgorithmus. Algorithmen für maschinelles Lernen ermöglichen es Systemen
oder Computern oder
Maschinen, aus Daten zu lernen und ihre
Leistung im Laufe der Zeit zu verbessern. Ohne explizite Programmierung müssen
Sie jedes Mal programmieren. Sie müssen nur das Modell
trainieren. Und es wird anfangen,
aus den Daten zu lernen, und es wird aufgrund
des Lernprozesses, den
es durchlaufen hat,
verbessern . Es gibt verschiedene Arten
von maschinellem Lernen, jeweils für bestimmte
Aufgaben und Anwendungen geeignet sind. In dieser Vorlesung werden wir die Hauptkategorien
des maschinellen Lernens und
seine Eigenschaften
untersuchen . Okay, lass uns anfangen. Es gibt grundsätzlich sieben
Arten von maschinellem Lernen. Das erste ist
überwachtes Lernen, dann unbeaufsichtigtes Lernen, dann kommt das
halbüberwachte Lernen, dann Reinforcement
Deep Learning, dann kommt das
selbstüberwachte Lernen und dann kommt das
Transferlernen Das sind also die sieben Arten von maschinellem Lernen, die
wir lernen werden Als Erstes beginnen wir mit
dem überwachten Lernen. Betreutes Lernen ist ein
Lernen, das wir mit dem Lernen im blauen Raum
der Klasse in Verbindung bringen können blauen Raum
der Klasse bei dem ein Lehrer unser Lernen
beaufsichtigt hat. Und er unterrichtet uns
mit den Bildern, mit dem Video, mit dem Audio, mit den verschiedenen
Lernmitteln, richtig, die beaufsichtigtes Lernen vermitteln. Überwachtes Lernen ist eine
der häufigsten Arten
des maschinellen Lernens. Es beinhaltet das Trainieren eines Modells auf einem beschrifteten Datensatz, bei dem jeder Datenpunkt mit
dem richtigen Ausgabeziel gepaart wird. Das Modell lernt
, Eingabedaten der richtigen Ausgabe
zuzuordnen , indem
es Muster und Beziehungen findet. Zu den wichtigsten Merkmalen des
überwachten Lernens gehören. Bevor wir auf die
wichtigsten Merkmale eingehen, möchte ich Ihnen sagen,
was das bedeutet. Überwachtes Lernen ist die häufigste Art
des maschinellen Lernens. wir an, Nehmen wir an, wir wollen
unser System darauf trainieren , menschliche Gesichter zu erkennen
. In diesem Fall werden
wir gut darin sein, die Daten an den Algorithmus
oder das
Modell des
maschinellen Lernens weiterzugeben , mit Bildern wie bei Menschen. Wenn es eine menschliche Phase ist, werden
wir sagen, dass es sich um einen Menschen handelt. Wenn es etwas anderes ist, setzen
wir das in die Tierphase, das ist eine Zeichentrickphase, okay? Wir werden so viele Bilder füttern und jedes Bild
wird mit einem Namen versehen. Es wird beschriftet werden, okay, wenn es ein menschliches Gesicht ist, werden
alle menschlichen Gesichter
beschriftet, werden mit Menschen beschriftet. Alle Katzen, Hunde, Tiere und Elefantengesichter werden entsprechend
ihrer Spezifikation
markiert. Okay, wenn wir
die Daten jetzt durch das Modell des
maschinellen Lernens einspeisen die Daten jetzt durch das Modell des
maschinellen Lernens , wird es sehen, okay, das ist menschliches Gesicht, das ist menschliches Gesicht, das ist menschliches Tempo. Es wird das
Muster menschlicher Gesichter erkennen
und anhand der Muster
, die es in den menschlichen Gesichtern sieht, lernen, dass,
wenn dieses Gesicht kommt, es ein menschliches Gesicht ist. Es erkennt auch das Muster
anderer Bilder, die kein ähnliches Muster wie
die menschlichen Gesichter
haben , erkennt, okay, dieses Muster gehört zu einer Katze. Dieses Muster gehört
dem Elefanten. Dieses Muster gehört
den Affen. So fängt es nach dem Training an zu
lernen, wenn wir ein neues
Bild, das nicht
Teil dieses Datensatzes ist,
ohne Label einspeisen Teil dieses Datensatzes ist,
ohne Label einspeisen Es wird die Muster ausführen und es wird dem
Muster entsprechen, das es gelernt hat. Welches Muster auch immer passt,
es wird sagen, okay, das ist das menschliche Gesicht Oder wenn es eine Katze ist, wird es
sagen, es ist ein Katzengesicht. anhand der vorherigen
Trainingsdaten Erkennen Sie anhand der vorherigen
Trainingsdaten das Muster
eines neuen Bildes und Sie erhalten das Ergebnis,
unabhängig davon, ob es sich um ein
menschliches Gesicht handelt oder nicht. So funktioniert das überwachte
Lernen. Es hat Schlüsselmerkmale,
nämlich Klassifikation
und Regression Dies sind die beiden sehr
wichtigen Begriffe, an die wir uns erinnern
sollten und die wir kennen
sollten Der erste ist die Klassifizierung. Klassifikation Bei der
Klassifikationsaufgabe das Modell einzelne
Bezeichnungen oder Kategorien voraus Zum Beispiel die Klassifizierung von
E-Mails als Spam oder nicht als Spam. Wenn Sie sich das ansehen, können
Sie E-Mails sehen. Immer wenn eine E-Mail eingeht, wird sie automatisch als Spam
eingestuft. Das wird in den
Spam-Ordner verschoben. Wie funktioniert es? Es hat einen Muster-Feed der künstlichen
Intelligenz oder des
maschinellen Lernens
trainiert Modelle der künstlichen
Intelligenz oder des
maschinellen Lernens
trainiert hat, um E-Mails zu versenden. Wenn die E-Mail von Domains mit
diesem Schlüsselwort stammt, wird
sie als Spam eingestuft. Wenn sie nicht in der
Kontaktliste des Empfängers steht, wird
sie als Spam markiert. Es gibt viele E-Mails
, die von
dieser bestimmten E-Mail-ID
in großen Mengen an unbekannte Personen gesendet wurden dieser bestimmten E-Mail-ID . Dann wird es als Spam
eingestuft. So funktioniert die
Klassifizierungsaufgabe. Okay, es wird bestimmte Kategorien geben , die
als Spam oder
Nord-Spam oder Nord-Spam
bezeichnet werden . Wohingegen die Region die anderen Merkmale
Region in Region Aufgabe. Das Modell sagt
kontinuierliche Werte voraus. Zum Beispiel die Vorhersage von
Immobilienpreisen auf
der Grundlage von Merkmalen wie
Quadratfuß und Standort Basierend auf dem
Quadratfuß und dem Standort wird der Hauspreis vorhergesagt Wenn wir die Daten einspeisen, wir trainieren, werden
die Daten für
diesen bestimmten Bereich verwendet. Das ist die
Premium-Standort-Rate , die auf dieser Grundlage hoch sein wird. Wann immer Sie einen
neuen Standort mit den neuen Abmessungen
des Hauses (Quadratfuß und
allem) angeben, wird es
voraussagen, dass dieses Haus diesen Preis
haben sollte. Das ist die Region der die kontinuierlichen
numerischen Daten stammen, wo wir die Regression verwenden, wo die
Klassifikationsdaten nach Kategorien kommen, dann verwenden wir die Klassifikation Das sind die beiden.
Überlegen Sie. Die nächste Art des maschinellen Lernens ist
unbeaufsichtigtes Lernen Beim unbeaufsichtigten Lernen wird
es sich mit
den unbeschrifteten Daten befassen Unüberwachtes Lernen
befasst sich mit unbeschrifteten Daten, wobei Algorithmen darauf abzielen, Musterstrukturen und
Gruppierungen innerhalb der Daten zu
finden Gruppierungen Es wird für Aufgaben wie
Clustering und Dimensionsreduzierung verwendet Clustering einzelnen Merkmalen des unbeaufsichtigten Lernens
gehören Clustering, Clustering-Algorithmus und
seine Funktionsweise,
nämlich die Gruppierung ähnlicher Datenpunkte
auf der Zu den einzelnen Merkmalen des
unbeaufsichtigten Lernens
gehören Clustering,
Clustering-Algorithmus und
seine Funktionsweise,
nämlich die Gruppierung ähnlicher Datenpunkte
auf der Grundlage der Merkmale. beispielsweise Kunden
mit ähnlichem
Kaufverhalten für ein
gezieltes
Marketing-Clustering gruppieren mit ähnlichem
Kaufverhalten für gezieltes
Marketing-Clustering Sie haben eine
Lernwebsite Nehmen wir an, Sie haben eine
E-Learning-Website, auf
der die meisten Kunden Kurse und Marketing kaufen, während
nur wenige Kunden
Kurse
im Technologiebereich kaufen im Technologiebereich Was dann durch Clustering erreicht wird,
ist, dass alle
Kunden, die die Kurse
zum Thema Marketing gekauft
haben , einer bestimmten Gruppe Es wird
sie zusammenfassen und die Technologie daraus wird ein weiterer Cluster
bilden Wir werden zwei
Kundencluster haben Einer interessiert sich für Marketingkurse und ein anderer für interessante
Technologiekurse. Das ist die Art und Weise, dass der neue Kunde
, wenn er ein bestimmtes Verhalten
zeigt, ihn klassifiziert einer
bestimmten Gruppe zusammenfasst Dann kommt die Reduzierung der
Dimensionalität. Diese Algorithmen reduzieren
die Anzahl der Merkmale in den Daten und behalten gleichzeitig
wichtige Informationen Analyse der Hauptkomponenten. Pca ist eine gängige Technik zur Reduzierung der
Dimensionalität. Nehmen wir an, Sie haben so
viele Merkmale in unserem Datensatz und das führt zu
unnötigen Datenpunkten Dadurch wird die Anzahl der im Datensatz verfügbaren
Merkmale reduziert ,
der Schwerpunkt liegt auf den wichtigsten Schlüsselwörtern und Funktionen und es wird
das Lernen übernehmen, okay? Dies wird als
Hauptkomponentenanalyse bezeichnet ist
das
Hauptmerkmal Ihres Datensatzes. Welches ist das Hauptmerkmal
, das sich auf das Ziel auswirkt und das
Ergebnis
beeinflusst, das wir in der
Hauptkomponentenanalyse (PCA)
finden werden in der
Hauptkomponentenanalyse (PCA)
finden Das nächste ist
teilüberwachtes Lernen. Teilüberwachtes
Lernen kombiniert Elemente des überwachten
und des unbeaufsichtigten Lernens Es nutzt den Datensatz
mit einer kleinen Menge beschrifteter Datensätze und einer großen
Menge unbeschrifteter Dieser Ansatz wird häufig
verwendet, wenn die Beschaffung von beschrifteten Daten kostspielig
und zeitaufwändig ist Okay, dann kommt das
Reinforcement-Learning. Beim
Reinforcement-Learning geht es darum, Agenten darin zu schulen Entscheidungssequenzen
in einer Umgebung zu
treffen. Maximierung, in einer Umgebung, Maximierung der kumulativen Belohnung Es wird häufig in
Anwendungen wie Spielen, Robotik und
autonomen Systemen den Hauptmerkmalen
von Verstärkungen und
Reinforcement-Learning gehören
Agenten und Umgebung Der Mitarbeiter interagiert mit einer Umgebung und
lernt, indem er
Feedback in Form von
Belohnungs- oder Bestrafungsmaßnahmen erhält Feedback in Form von
Belohnungs- oder Bestrafungsmaßnahmen Diese Richtlinie ist die
Strategie oder das Regelwerk
, nach dem der Agent Entscheidungen trifft Ziel ist es, eine
optionale Richtlinie zu erlernen, die die langfristigen
Vorteile maximiert. Tiefes Lernen Deep Learning ist eine Untergruppe des basalen Lernens, die sich auf
neuronale Netze mit vielen
Schichten, tiefen neuronalen Netzwerken konzentriert neuronale Netze mit vielen
Schichten, tiefen neuronalen Es hat in
den letzten Jahren aufgrund
seiner außergewöhnlichen
Leistung bei Aufgaben
wie Bild- und
Spracherkennung erhebliche
Aufmerksamkeit und Popularität erlangt den letzten Jahren aufgrund seiner außergewöhnlichen
Leistung bei Aufgaben
wie Bild- und
Spracherkennung erhebliche
Aufmerksamkeit und wichtigsten Merkmalen von Deep
Learning gehören neuronale Netze, künstliche neuronale Netze
mit mehreren Schichten miteinander
verbundener
Knoten oder Neuronen. Neuronale Netzwerke mit tiefen Faltungsnetzwerken (CNNs). Dies sind die häufig für
Bilderkennungsaufgaben
verwendeten RNNs für rekurrente Diese werden für
sequenzielle Datenaufgaben
wie die Verarbeitung natürlicher Sprache
und Das werden wir im Detail sehen, wenn wir
Deep Learning, also selbstüberwachtes Lernen, Selbstüberwachtes Lernen ist
eine Technik, bei der ein Modell aus Daten ohne von
Menschen bereitgestellte Kennzeichnungen
lernt. Stattdessen generiert es Labels
aus den Daten selbst. Überwachtes Lernen, es
erkennt ein Muster. Es wird die Daten
als menschliche Phase oder Caha kennzeichnen. All diese Dinge
wird es von selbst kennzeichnen, oft indem es eine
Ersatzaufgabe erstellt Es hat sich bei
verschiedenen Aufgaben zur Verarbeitung natürlicher
Sprache,
Computerverarbeitung und
Computersion als vielversprechend erwiesen verschiedenen Aufgaben zur Verarbeitung natürlicher
Sprache,
Computerverarbeitung und Computersion Dann kommt das
Transferlernen. Beim Transferlernen wird
ein Modell anhand einer Aufgabe trainiert und anschließend
das gewonnene Wissen genutzt, um die
Ausführung einer verwandten Aufgabe zu verbessern . Dies ist ein praktischer Ansatz, wenn Sie nur über begrenzte Daten
für eine bestimmte Aufgabe verfügen. Heute umfasst
maschinelles Lernen eine Vielzahl von
Typen und Techniken, von jede ihre Stärken
und Anwendungsmöglichkeiten Das Verständnis der Datentypen ist für die
Wahl
des richtigen Ansatzes
bei der Bewältigung verschiedener
realer Probleme unerlässlich die
Wahl
des richtigen Ansatzes
bei der Bewältigung verschiedener
realer Probleme Da maschinelles Lernen
immer weiter voranschreitet , dass
seine Auswirkungen auf Branchen
wie das Gesundheitswesen erwartet, dass
seine Auswirkungen auf Branchen
wie das Gesundheitswesen und das
Finanzwesen zunehmen werden,
was es zu einem faszinierenden
und dynamischen Bereich macht, den es
zu erforschen und zu beherrschen
gilt was es zu einem faszinierenden
und dynamischen Bereich macht . bietet viele
Möglichkeiten Der Markt bietet viele
Möglichkeiten für maschinelles Lernen,
Ingenieure, Datenwissenschaftler,
KI-Ingenieure und Datenanalysten. All diese Dinge gehören zu diesen Dingen und wir
können viel schneller lernen. Du sagtest, die nächste
Vorlesung.
124. Workflow für maschinelles Lernen: Und willkommen zurück.
In dieser Vorlesung lernen
wir den Arbeitsablauf beim
maschinellen Lernen kennen, wie wir mit den Daten umgehen, wie wir von den Daten ausgehen und wie wir zu
Datenerkenntnissen übergehen. Lass uns anfangen. Der Workflow für
maschinelles Lernen ist ein leistungsstarkes Tool zur
Visualisierung von Daten. Eigentlich, hallo
und willkommen zurück. In dieser Vorlesung
werden wir etwas über den Workflow des maschinellen Lernens lernen. Workflow für maschinelles Lernen geht es
darum, die Daten
abzurufen, die Daten zu verarbeiten,
die Modelle des maschinellen Lernens anzuwenden die Modelle des maschinellen Lernens und die
Erkenntnisse aus den Daten zu gewinnen. Das ist es, was maschinelles
Lernen in Seeked bedeutet. In dieser Vorlesung werden wir Arbeitsablauf des
maschinellen Lernens im Detail
kennenlernen. Fangen wir damit an,
maschinelles Lernen ist ein leistungsstarkes Werkzeug. Maschinelles Lernen ist ein
leistungsstarkes Werkzeug, das die Art und Weise, wie wir mit
Daten umgehen und Vorhersagen
und Entscheidungen treffen,
revolutioniert hat wie wir mit
Daten umgehen und Vorhersagen
und Entscheidungen treffen,
revolutioniert . Das haben wir in den
letzten Vorlesungen gelernt sein Potenzial auszuschöpfen, ist jedoch
ein strukturierter Ansatz erforderlich , der
als Workflow für maschinelles Lernen bezeichnet wird In diesem Artikel oder
in dieser Vorlesung werden
wir die wichtigsten
Phasen dieses Workflows untersuchen und dabei die wesentlichen
Schritte
hervorheben, die bei
der Umwandlung von Rohdaten in
variable wertvolle Erkenntnisse erforderlich Rohdaten in
variable wertvolle Erkenntnisse Der erste Schritt ist die
Datenerfassung. Datenerfassung
ist die Grundlage für maschinelles Lernen oder
Datenwissenschaft , da alles
von der Datenreise abhängt. Beginnt mit der Datenerfassung. Der Schritt beinhaltet
das Sammeln der relevanten Daten aus verschiedenen Quellen wie
Datenbanken, APIs oder Sensoren. Dies sind die Datenpunkte
, an denen wir die Daten sammeln. Daten wirken sich erheblich auf den Erfolg Ihres
Machine-Learning-Projekts aus. Machen Sie die Datenerfassung einer wichtigen und oft
zeitaufwändigen Aufgabe. Wie Sie wissen, arbeiten
die meisten Datenwissenschaftler
und
Datenanalysten, Ingenieure für
maschinelles Lernen, die meiste Zeit etwa 60% der Zeit
an den Daten, 40% der Zeit arbeiten sie am Code und erstellen Modelle, wenden Algorithmen an, bewerten das Modell,
all diese Dinge, okay? Aber zu 60% dreht sich bei der Aufgabe alles darum, an Daten zu arbeiten
und sie praktikabel zu machen Dann kommt die
Datenerfassung. Der nächste Schritt ist die
Datenvorverarbeitung. Datenvorverarbeitung
bedeutet,
die Rohdaten zu verfeinern und nutzbar
zu machen Rohdaten
sind selten bereit, maschinell
geladen zu werden, denn wenn Sie die
Daten aus den Quellen gesammelt
haben, kann
es viele
Probleme mit Es wird ein
Problem mit den Daten
geben, es werden Werte fehlen, es wird doppelte Werte geben, es wird falsche Werte geben, es werden Werte fehlen Die Rohdaten
werden so viele Verunreinigungen enthalten. Es wird niemals fertig sein. Wenn Sie an diesen Daten arbeiten, werden
Sie aufgrund
fehlender Informationen, die
falsch in die Daten eingegeben wurden, nicht das
gewünschte Ergebnis erzielen Informationen, die
falsch in die fehlender Informationen, die
falsch in die Daten eingegeben wurden, nicht das Bei der Datenverarbeitung werden die Daten
gereinigt, transformiert und strukturiert,
damit sie
für die Analyse geeignet wichtigsten Aufgaben in dieser Phase gehören der
Umgang mit fehlenden Werten, Entfernen von Ausreißern und
die Kodierung der kategorialen Variablen Die nächsten Schritte sind die
explorative Datenanalyse. Kurz gesagt, wir nennen es EDA. Dies ist eine sehr kritische Phase , da wir in EDA die Daten
verstehen. Bevor Sie sich mit der Modellierung befassen, ist
es wichtig, Ihre Daten zu
verstehen und Ihre Daten gründlich zu verstehen. Das Verständnis der
Daten ist sehr wichtig. Da beinhaltet die Visualisierung von Daten, Berechnung deskriptiver
Statistiken Identifizierung von Mustern
und Korrelationen Dieser Schritt bietet Einblicke, die als
Leitfaden für die Auswahl von Funktionen
und Der nächste Schritt kommt, und er wird
Feature-Engineering genannt. Das bedeutet, dass die Erstellung der
informativen Funktionen bedeutet wenn einige der
Dinge vorhanden sind und Sie sie auf
diesen Informationen aufbauen können, ein neues Feature erstellen können Feature-Engineering ist das denn Feature-Engineering ist der Prozess der
Auswahl, Erstellung und Transformation von
Features, d. h.
Eingabevariablen, die das Modell
des
maschinellen Lernens für Vorhersagen verwendet Es wird im Grunde
an den Eingabedaten gearbeitet. Geschicktes Feature-Engineering
kann die
Modellleistung erheblich verbessern , je besser
das Modell ist. Der nächste Typ ist die
Modellauswahl. Den richtigen Algorithmus auswählen. Die Auswahl des geeigneten Algorithmus für
maschinelles Lernen hängt vom Problemtyp ab. Es ist Klassifikation
oder Regression. Als Erstes müssen Sie entscheiden, welche Art von Problem
Sie in der Hand haben Und dann können Sie den Algorithmus
festlegen. Sie müssen sich zunächst anhand
Ihrer Daten und der
Eigenschaften der Daten
überlegen, ob es ein klassisches Replikationsproblem oder sich um
ein klassisches Replikationsproblem oder ein Regressionsproblem Ihrer Daten und der
Eigenschaften der Daten den gängigen Algorithmen gehören Entscheidungsbaumunterstützung,
Vektormaschinen und neuronale Netze Sie
können sich
auf der Grundlage Ihrer Daten und
Ihrer Klassifizierung
des Problems für die Verwendung all dieser Algorithmen entscheiden auf der Grundlage Ihrer Daten und
Ihrer . Okay, der nächste kommt nach
der Modellauswahl. Der nächste Schritt ist das Modelltraining. Aus den
Daten in diesem Bereich lernen. Das ausgewählte Modell wird anhand des
Teils der Daten
trainiert. Angenommen, Sie haben die
tausenden Zeilen der Daten. Was machen Sie, Daten, was nehmen Sie? 60, 40% der Daten für das Training und die restlichen 60%
behalten Sie für die Tests, den Teil der
Daten, den wir nehmen und unser Modell anhand dieser Daten
trainieren. Dann testen wir
das Modell mit den restlichen
60 oder 40% der Daten, die
wir für die Tests gespeichert haben . Das Modell lernt,
Muster, Beziehungen
und Freunde zu erkennen Muster, Beziehungen
und Freunde die im Trainingsdatensatz
vorhanden sind. Anschließend beinhaltet das Training
die Anpassung der Modellparameter, um Fehler oder Abweichungen
von den erwarteten Ergebnissen zu
minimieren. Basierend auf dem Training, das wir
mit dem ausgewählten Modell durchführen, werden
wir den Parameter fein abstimmen,
um die Fehler
oder Abweichungen vom erwarteten
Ergebnis zu minimieren oder Abweichungen vom erwarteten , was sehr wichtig ist. Dann fahren wir mit der
Modellbewertung fort. Wir werden sehen, welche Leistung oder
welches Ergebnis wir erzielen, was wir erhalten, und dann werden
wir unser Modell bewerten. Nach dem Training ist es wichtig, die
Leistung des Modells zu bewerten. Dazu wird ein
separater Datensatz verwendet, d. h. der Validierungs
- oder Testdatensatz, um herauszufinden, wie gut das Modell die beiden unsichtbaren Daten
generalisiert gängigen Bewertungsmetriken
gehören Genauigkeit, Begründung, Erinnerung und eine Punktzahl Dabei handelt es sich um die
Bewertungsmetriken, Genauigkeit, Präzision,
Erinnerungsgenauigkeit und den F-Score. Der nächste Schritt ist das
Hyperparameter-Tuning oder die Optimierung der
Modellparameter Modelle für maschinelles Lernen
verfügen häufig über Hyperparameter, die
nicht während des Trainings gelernt werden ,
sondern manuell eingestellt werden müssen Beim Hyperparameter-Tuning wird nach
der besten Kombination von
Hyperparametern gesucht der besten Kombination von , um
die Leistung des Modells zu optimieren Dann kommt der letzte Schritt, nämlich die Implementierung des Modells
in der Produktion,
Produktion oder in der realen Welt Sobald das Modell
nach dem Testen als
zuverlässig und genau eingestuft wurde, kann
es in einer
realen Umgebung eingesetzt werden Vorhersagen
zu treffen oder Entscheidungen zu
automatisieren. Diese Phase kann die
Integration des Modells in bestehende Systeme
oder Anwendungen beinhalten. Nehmen wir an, Sie haben ein
Bankensystem eingerichtet, in dem Sie entscheiden, welchen Kandidaten den Kredit geben und
welchen Sie ablehnen. Und Sie haben ein Modell für
maschinelles Lernen entwickelt , mit
dem Sie entscheiden können , ob der Kredit geeignet ist oder
nicht. Ihr Modell bietet eine Genauigkeit von bis zu 97, 98, 99%. Während des Testens
können Sie es in
der Produktionsumgebung einsetzen und dort die
Benutzerdaten eingeben. Und auf der Grundlage der
Benutzerdatenanalyse, die
das während des Trainings des Modells durchlaufen hat, kann
es die Daten,
finanziellen Kriterien und
all diese Dinge analysieren . Und es kann entscheiden, ob
wir einen Kredit vergeben können oder nicht. Das sind die
Dinge, die wir bei
der Modellbereitstellung tun können . Nach der
Bereitstellung des Modells ist
die Arbeit dann nicht 0, wir müssen das Modell überwachen und
warten. Wartung ist auch
sehr wichtig für den langfristigen Erfolg, da sie zu falsch
negativen oder falsch positiven Ergebnissen führen kann . All diese Dinge
müssen wir genau überwachen, damit unser Systemmodell unsere Algorithmen
einwandfrei funktionieren und
genaue Ergebnisse liefern. Modelle für maschinelles Lernen erfordern eine kontinuierliche Überwachung
und Wartung, Datenverteilung ändert sich im Laufe der
Zeit. Denn
manchmal haben wir
das Modell, wenn wir an dem Modell gearbeitet haben,
das Modell, den Datensatz oder die Unterstützungskriterien
im
Bankensektor
erstellt das Modell, den Datensatz oder die Unterstützungskriterien . Von Zeit zu Zeit erhalten Sie die
Richtlinien von der Regierung. Auf der Grundlage dieser Richtlinien können sich
die Kriterien ändern. Also müssen wir weiter
beobachten, äh, und wir müssen uns die Daten und die Ergebnisse weiter
ansehen. Datenverteilungen
ändern sich im Laufe der Zeit. Modellleistung kann sich verschlechtern , weil die Kriterien
geändert wurden Es kann die falschen Ergebnisse liefern, also müssen wir es überwachen Regelmäßige Updates und Umschulungen. Wenn
sich etwas ändert, müssen wir das Modell
anhand
der neuen Daten neu trainieren, damit es mit den neuen
geänderten Kriterien funktionieren kann Regelmäßige Aktualisierungen und Umschulungen
können erforderlich sein, um die kontinuierliche
Genauigkeit des Modells
sicherzustellen Jetzt haben wir verstanden,
wie der Arbeitsablauf funktioniert. Der Workflow für maschinelles Lernen ist ein systematischer Ansatz zur Lösung realer Probleme indem das Potenzial von Daten genutzt wird Es wandelt Rohdaten in
umsetzbare Erkenntnisse und
intelligente Systeme um, die in der Lage sind, Vorhersagen und intelligente Systeme um, die in der Lage sind Entscheidungen zu treffen Verständnis und die
Beherrschung dieses Workflows sind für
Datenwissenschaftler, Analysten und
Ingenieure unerlässlich, die das volle Potenzial von
Maine nutzen möchten, um das volle Potenzial des maschinellen Lernens in der heutigen datengesteuerten Da die Technologie
weiter voranschreitet, wird
der
Workflow für maschinelles Lernen in
verschiedenen Branchen
eine immer zentralere Rolle spielen in
verschiedenen Branchen
eine immer zentralere Rolle und Innovationen
vorantreiben und fundierte Entscheidungen treffen Ich hoffe, wir haben verstanden, wie der
Arbeitsablauf des maschinellen Lernens von der Datenerfassung
über die Datenverarbeitung, explorative Datenanalyse, Feature-Entwicklung, Modellauswahl,
das Modelltraining, Modellbewertung, die
Hyperparameteroptimierung, die Modellbereitstellung
bis hin zur
Überwachung und All diese Schritte sind
sehr wichtig für die erfolgreiche Implementierung
eines Modells für maschinelles Lernen Ich hoffe du hast verstanden, wir treffen uns in der nächsten
Vorlesung. Ich danke dir.
125. GIGO-Prinzip: Willkommen zurück. In diesem
Vortrag werden wir das sehr wichtige Konzept
und Prinzip verstehen, das beim maschinellen Lernen in hohem Maße anwendbar ist und das sehr alte Konzept von
Müll in Müll raus ist ein Prinzip
, das in
der IQ-Branche und in der
Software seit vielen Jahren verwendet wird . Es ist auch beim
maschinellen Lernen anwendbar. Dadurch wird sichergestellt, dass
die Datenqualität
gut ist , und
das wird zur Stärke der Datenqualität. Lass uns anfangen. Müll rein, Müll raus, los Im
Bereich des maschinellen Lernens gilt
ein grundlegendes
Prinzip, denn wir alle wissen, dass Müll, Müll raus, ein sehr
grundlegendes Konzept ist. Das heißt, seit vielen
Jahren Müll raus. Dieser prägnante Satz verkörpert
ein tiefgründiges Konzept. Die Qualität der Eingaben hat einen tiefgreifenden
Einfluss auf die Qualität der Ergebnisse, die durch Modelle für maschinelles Lernen erzeugt werden für maschinelles Lernen erzeugt werden.
Was bedeutet das? Das bedeutet, dass die Daten, die Sie in
die resultierenden Modelle des maschinellen Lernens eingeben, wenn Sie die Qualität
der bereinigten, präzisen Daten eingeben, Sie das genaue Ergebnis erhalten. Wenn Sie die Daten mit
Müll, fehlenden Werten,
falschen Informationen, anderen Dingen,
falschen fehlenden Werten, hineinwerfen falschen Informationen, anderen Dingen, , dann erhalten Sie nicht die
erforderliche gute Ausgabe. Die Ergebnisse, die Sie erzielen werden, die Pausen, die Sie bekommen
werden, werden sehr, sehr falsch sein. Weil alles
von den Daten abhängt Sie in das System eingeben und zu
denen das Ergebnis führt. Sie werden in ein Zeitalter kommen, in
dem Daten herrschen. Gig-Prinzip auf höchstem Niveau zu verstehen und
zu schätzen, ist grundlegende
Essenz von Einfache, tiefgründige
Idee im Kern. Das Gig-Prinzip erinnert daran, dass
unabhängig davon, wie ausgeklügelt die
Algorithmen, wie leistungsfähig die
Computerinfrastruktur oder wie kompetent die
Datenwissenschaftler sind, der Wert des
maschinellen Lernens von der Qualität der in das System eingespeisten
Daten abhängt. Was bedeutet das? Es bedeutet,
dass unabhängig vom Algorithmus starker Algorithmus,
wie viel Sie programmieren, wie Sie ihn ausgeklügelt und
leistungsfähig machen, die
Computerinfrastruktur heutzutage und wie viele qualifizierte
Datenwissenschaftler, maschinelles Lernen
und KI-Ingenieure sind. Wenn die Daten nicht gut sind, werden sie
alle verwendet, denn
wenn die Daten nicht gut sind, Ihr erfahrener Datenwissenschaftler, werden
Ihr erfahrener Datenwissenschaftler,
Ihre Infrastruktur und Ihre Algorithmen nicht richtig funktionieren. Weil alles
von den Daten abhängt. Die Basis sollte stark sein, Basis sollte sehr gut sein, dann kannst du sie anbauen. Wenn das
Saatgut nicht gut ist, gute Qualität. Eine Pflanze kann nicht
auf die gleiche Weise wachsen. Die Daten sind der Grundstein für alle Aktivitäten des
maschinellen Lernens. Gute Daten, Sie werden
ein gutes Ergebnis erzielen. Sie werden eine gute
Idee daraus ziehen. Sie werden die guten Ergebnisse erzielen. Sie werden die
Vorhersagen daraus ziehen. Daten sollten gut sein, dann
funktioniert der Algorithmus einwandfrei, die Komfortinfrastruktur
wird sie unterstützen, und der Datenwissenschaftler
wird in der Lage sein, Ihnen
die besten Ergebnisse
und Prognosen zu die besten Ergebnisse
und Prognosen , auf deren
Grundlage Sie
gute Geschäftsentscheidungen treffen können. Die Qualität der Daten ist
sehr wichtig. Sinn für den Schlüssel. Stellen Sie sich
ein selbstfahrendes Auto das durch die Straße
navigiert Die Stadt im Fahrzeug
ist auf Sensoren und
Kameras angewiesen, um sie wahrzunehmen Umgebung, wie wir alle
wissen, funktionieren
selbstfahrende Autos ohne Fahrer
grundsätzlich an den Dingen. Wie arbeite ich? Ich arbeite aber an der Kamera, Kamera, den Kameraaugen
des Menschen für das
selbstfahrende Auto. Und Sensoren sind
die Sinnesorgane für selbstfahrende Autos. Die Sensoren, was es empfangen hat, die Signale und die Kamera, was es sieht und was es übersetzt und miteinander kombiniert. Und es wird eine Umgebung
schaffen der sich die
Mobilfunkkarte weiterentwickeln kann. Wenn es ein rotes
Signal sieht, sollte es aufhören. Wenn es im
Voraus Hindernisse sieht, sollte es aufhören. Stimmt das? Das machen das Signal Sensoren
und die
Kameras, richtig? Wenn das A defekt ist. Angenommen,
Sie setzen die defekten Sensoren ein oder die
Kamera***se sind verschmutzt oder die
Kameraqualität ist nicht gut Wenn es ein rotes Signal gibt
und die Kameraqualität oder die Kamera***s
verschmutzt sind und sie nicht
richtig sichtbar sind, stoppt sie nicht, sie prallt mit dem Signal zusammen
und es kann zu einem
tödlichen
Unfall kommen, und es kann zu einem
tödlichen
Unfall kommen Also, die defekten Sensoren und die Kamera***sieht,
wenn sie verschmutzt sind, werden
die Daten, die sie
über die Sensoren
und die Kamera sammelt , ungenau
oder unvollständig,
inkonsistent sein , und diesbezüglich wird
sie schlechte Entscheidungen treffen. Folglich wird der
Entscheidungsprozess des Autos, wie das Erkennen von Fußgängern und das Erkennen von
Verkehrsschildern, das Erkennen von
Verkehrsschildern In diesem Szenario können selbst die
fortschrittlichsten Algorithmen die
Situation nicht lösen Es ist ein klassisches Beispiel dafür, wie man
Müll rein und Müll raus nimmt. Wenn du Müll
hineinlegst, bekommst du den Müll. Wenn Sie die richtigen
Sensoren einsetzen, werden
Sie keine guten Kameras einsetzen
. Wenn das System durch die
Kamera und die Sensoren keinen
guten Input erhält , die Algorithmen und
Modelle für
maschinelles Lernen können
die Algorithmen und
Modelle für
maschinelles Lernen nichts Gutes
vorhersagen. Und es wird zu
selbstfahrenden Autos führen, es wird zu Unfällen führen. Richtige Branchen. Lassen Sie uns nun verstehen, wie sich
die Tatsache, dass die unnützen Daten in das System übertragen werden, auf
die Branchen auswirken
wird,
in denen KI und
maschinelles Lernen im Gesundheitswesen und bei der medizinischen Diagnose eingesetzt werden , die Genauigkeit und Integrität der
Patientendaten von größter Bedeutung sind. Das Wichtigste ist, dass falsch beschriftete oder unvollständige
Anamnese
zu falschen Diagnosen und
Behandlungsempfehlungen führen kann zu falschen Diagnosen und
Behandlungsempfehlungen Im Finanzbereich verlassen sich
Finanzinstitute auf Daten, um Anlageentscheidungen zu
treffen, und gehen auch Risiken ein. Eine schlechte Datenqualität kann zu
finanziellen Verlusten und
falsch informierten Strategien führen finanziellen Verlusten und
falsch informierten Im Marketingbereich
hängen
Marketingkampagnen von datengestützten Erkenntnissen für die
Zielgruppe ab Tatsächlich
können ungenaue
Kundenprofile oder veraltete Informationen zu oder veraltete Informationen zu
ineffektiven Kampagnen
und investierten Ressourcen führen ineffektiven Kampagnen
und investierten Ressourcen Sie müssen die richtigen Kundenprofile und die Daten in das
Kundenprofil aufnehmen Die
Kundenprofildaten sollten sehr,
sehr aktuell sein ,
damit sie leicht
zielgerichtet werden können , wenn eine Person
Interesse am Kauf von Fernsehgeräten hat und dieses Interesse vor sechs Monaten geweckt
wurde. Und wenn Sie
diesen Kunden anrufen, okay, Sie wollen einen Fernseher kaufen, kaufen. Dann könnte er sagen, dass
ich vor sechs Monaten nach einem
Fernseher gesucht habe, jetzt habe ich schon einen Fernseher gekauft. Ihre
Marketingkampagne geht rein, Sie rufen an, der
Kunde wird reingehen. Und wenn Sie einen Kunden ansprechen, der gerade erst mit der
Suche nach dem Fernseher begonnen
hat und Sie die
Daten innerhalb von 23 Tagen erhalten haben, sucht
er möglicherweise immer noch nach dem richtigen Fernseher. Und wenn Sie
diesen Kunden anrufen und ihm
bei der Kaufentscheidung helfen, ein neues Fernsehgerät
zu kaufen, könnte es sein, dass
er am Ende ein Fernsehgerät bei Ihnen
kauft. Das ist die Art und Weise, wie sich Müll
rein, Müll raus auswirkt. Daten sollten aktuell und
nicht veraltet sein, und sie sollten den
E-Commerce-Empfehlungen entsprechen. Plattformen, die auf Nutzerverhalten basieren sind nur so gut wie
Daten, die zu ihnen passen. Daten von geringer Qualität können zu
schlechten
Produktempfehlungen und zum Verlust von Zellen führen schlechten
Produktempfehlungen . Bei der Verarbeitung natürlicher
Sprache, NLP-Anwendungen wie
Chat-Boards oder Stimmungsanalysen, die Qualität der
Trainingsdaten erheblich wirkt sich
die Qualität der
Trainingsdaten erheblich auf die Fähigkeit der Modelle menschliche Sprache
zu verstehen und darauf
zu reagieren die
Rolle der Datenqualität
zu mindern, die Auswirkungen von Gig zu mildern und die Integrität
der Ergebnisse des
maschinellen Lernens zu gewährleisten Integrität
der Ergebnisse des
maschinellen Lernens müssen Unternehmen der Datenqualität
und der Art
und Weise, wie sie
Prioritäten setzen können , Priorität einräumen, indem sie die
Schritte wie die Datenerfassung befolgen, muss ein
strenger
Datenerfassungsprozess eingerichtet werden, einschließlich Datenvalidierungs
- und Bereinigungsverfahren. Bei der Erfassung der Daten sollten
Sie die Daten nicht einfach so sammeln Es sollte einen Prozess zum Sammeln
der Daten geben. Nach
der Datenerhebung sollten die Daten
validiert und die
Reinigungsverfahren eingehalten werden. Bei der Datenvorverarbeitung der Daten
aus der Datenerhebung sollten verschiedene Techniken wie die Behandlung fehlender Werte
und die Suche nach Ausreißern Sehr wichtig für unsere
Datenverarbeitung. Dann ist die Datenverwaltung, die
Schaffung eines
Datenverwaltungsrahmens zur Aufrechterhaltung der Datenqualität während des gesamten Lebenszyklus
sehr wichtig. Datenvalidierung ist ein weiterer
sehr wichtiger Schritt zur Minimierung des Aufwands
, der darin besteht, die
Richtigkeit der Daten und die
Konsistenz der Daten regelmäßig zu
validieren und zu verifizieren , denn das ist sehr wichtig Wie wir bereits
über den verlorenen TV-Verkauf gesprochen haben
, wurden diese Daten nicht verifiziert, es ist
67 Monate her , dass der Kunde Interesse gezeigt
hat Das sollte sehr wichtig sein. Wir müssen Ihre Daten überprüfen, wie aktuell sie sind,
wie veraltet sie sind, wie sie sind, wie konsistent all diese
Dinge sind. Dann implementieren die
Feedbackschleifen Mechanismen zur kontinuierlichen Überwachung und Verbesserung der Datenqualität, Gigs
auch
weiterhin relevant sind, wenn wir
im Bereich Big Data
und maschinelles Lernen voranschreiten . Beispiel sind wir schon viel weiter vorangekommen und müssen
jetzt viel
Wert auf das Go-Prinzip legen. Das Gig-Prinzip
ist nach
wie vor relevant , da die Qualität der Daten auch
weiterhin
der Dreh- und Angelpunkt für
den Erfolg und die
Zuverlässigkeit von IT-Systemen
in einer Welt sein der Dreh- und Angelpunkt für
den Erfolg und die Zuverlässigkeit von IT-Systemen wird, in der
Daten zwar reichlich vorhanden, aber nicht immer Die Anwendung des
Guigo-Prinzips ist unerlässlich volle Potenzial des
maschinellen Lernens auszuschöpfen und gleichzeitig maschinellen Lernens , um das
volle Potenzial des
maschinellen Lernens auszuschöpfen und gleichzeitig kostspielige Fehler und Folgefehler zu vermeiden. Wenn man sich um den Auftritt kümmert, muss
man sehr muss
man Und wenn du dich um den Auftritt kümmerst, vermeidest du kostspielige und kostspielige Fehler
und Folgeschäden Zusammenfassend lässt sich sagen, dass das
Guigo-Prinzip von Systemen für maschinelles Lernen erinnert symbiotische Beziehung
zwischen Datenqualität und Wirksamkeit Durch die Priorisierung der
Datenqualität
können Unternehmen den Wert ihrer
Investitionen in maschinelles Lernen nutzen fundierte Entscheidungen treffen und in Bezug auf Daten und Landschaft die
Nase vorn In der Welt des
maschinellen Lernens hochwertige Daten
nicht nur eine Bereicherung Es ist die Grundlage, auf der Intelligenzsysteme aufgebaut sind. Es ist sehr wichtig
, das zu verstehen. Hochwertige Daten sind
nicht nur ein Vorteil. Hochwertige Daten sind erforderlich. Bei den Qualitätsdaten handelt es sich nicht nur
um eine Reihe oder eine andere Anforderung. Auf dieser Grundlage entwickeln wir all diese KI-Systeme, Modelle für
maschinelles Lernen, Deep-Learning-Modelle,
Empfehlungssysteme, all
die Dinge, an denen wir
arbeiten werden und die wir verwenden werden Alles
hängt von der Datenqualität ab. Daten sind die Grundlage und das Wichtigste für
das datenwissenschaftliche Ökosystem. Ich hoffe, Sie wissen, wie
wir das Problem eindämmen können und
wie wir die Datenqualitätsdaten für unsere Modelle des maschinellen Lernens, Daten
für unsere Modelle des maschinellen
Lernens,
erhalten können für unsere Modelle des maschinellen
Lernens, Lernens Vielen Dank für
die nächste Vorlesung.
126. Überwachte Lernalgorithmen: Hallo und willkommen zurück. In dieser Vorlesung
werden wir etwas
über den Algorithmus für überwachtes
Lernen lernen. Dies wird der Weg zu intelligenten Vorhersagen
durch maschinelles Lernen sein. Wir machen intelligente
Vorhersagen, oder? Lass uns anfangen. Wir haben das grundlegende Verständnis
von überwachtem Lernen. Aber bevor wir
zu den Algorithmen übergehen, wollen wir verstehen, was
das grundlegende Konzept
des überwachten Lernens ist . Überwachtes Lernen ist
ein grundlegendes Konzept in der Welt des
maschinellen Lernens. Es ist das REM, bei dem Computer aus beschrifteten Daten
lernen
, um Vorhersagen zu treffen. Oder es ist der Ausgangspunkt
von Vorhersagen, oder? Eine sehr grundlegende Sache ist
überwachtes Lernen. Das heißt, wir werden
die Modelle für maschinelles Lernen mit
den gekennzeichneten Daten und diese Daten mit den
Algorithmen für
maschinelles Lernen versehen, indem
wir beispielsweise angeben die Modelle für maschinelles Lernen mit den gekennzeichneten Daten und diese Daten Algorithmen für
maschinelles Lernen versehen, indem , welche Art von
Bezeichnung die Daten haben. Auf dieser Grundlage analysiert
es dann, wenn
die neuen Daten vorliegen, das
Muster, das
während des Trainings gelernt wurde, und trifft
dann die Entscheidung. Okay? Und es untermauert zahlreiche Anwendungen
in unserem täglichen Leben. In dieser Vorlesung werden wir
uns Algorithmen für überwachtes
Lernen genauer ansehen Wir untersuchen, was sie
sind und wie sie funktionieren, und einige der häufigsten
Beispiele für überwachtes Lernen. Was ist überwachtes Lernen? Überwachtes Lernen
ist die Art des maschinellen Lernens, die wir
bereits in
der vorherigen Vorlesung behandelt haben. Dabei wird der Algorithmus
anhand unseres markierten Datensatzes trainiert. Mit anderen Worten, die
Eingabedaten werden mit der richtigen Ausgabe oder
dem richtigen
Ziel, dem Algorithmus, gepaart richtigen Ausgabe oder
dem richtigen
Ziel, dem Algorithmus, Der Algorithmus lernt, Eingabedaten
der richtigen Ausgabe zuzuordnen lernt so
effektiv
aus den Beispielen Dieser Lernprozess ermöglicht es
dem Algorithmus,
Vorhersagen oder Entscheidungen zu treffen, wenn er mit
neuen, bisher unbekannten Daten
konfrontiert Die Mechanik des
überwachten Lernens. Überwachtes Lernen
kann in wenige Schlüsselkomponenten
unterteilt werden . Das erste sind Daten, da die Daten die Grundlage all
dieser
Ökosystemdaten aus den Bereichen Datenwissenschaft, KI und maschinelles Lernen bilden. Der Label-Datensatz dient als
Übungsplatz für Algorithmen. Er enthält beide Eingabefunktionen, zum Beispiel Attribute,
Variablen und all diese Dinge. Und entsprechende Zielwerte, zum Beispiel Labels
und Kategorien. Okay, Daten sind der
Ausgangspunkt. Dann kommt die Modellauswahl, ein spezifischer Algorithmus für überwachtes
Lernen der auf
der Art Ihres Problems
basiert. gängigen Algorithmen gehören
Decision Three, lineare Region, logistische Regression, Support-Vector-Maschinen
und neuronale Netzwerke All dies sind
Algorithmen für
maschinelles Lernen , die wir auf ein Modellmodell
anwenden Wir werden auf
der Grundlage der Art des Problems auswählen , das
wir lösen werden. Schulung. Während
der Trainingsphase analysiert
der Algorithmus
die Eingabedaten und
lernt, das in den
Daten verfügbare Muster
, die Beziehung, zu erkennen . Außerdem werden Grenzen analysiert
oder entschieden. Und welche Grenzen für die
Entscheidungsfindung
definiert sind ,
die zum richtigen Ergebnis führen. Es passt
seine internen Parameter iterativ an Vorhersagefehler zu minimieren Dann folgt das Testen
und Auswerten. Nach dem Training wird das Modell anhand eines separaten Datensatzes
ausgewertet ,
der während des Trainings nicht verwendet wird. Aus diesem Grund teilen wir den gesamten Datensatz in
zwei Teile auf, bevor wir mit dem Training fortfahren , bei dem es sich
um
Trainingsdatensatz , bei dem es sich
um
Trainingsdatensatz und
Testdatensatz für Trainingsdatensatz Wir testen das Modell am
Testdatensatz. Wir testen es auf
seine Fähigkeit, auf neue unsichtbare Daten
zu verallgemeinern Verschiedene Leistungskennzahlen
wie Genauigkeit, Präzision und Erinnerungsvermögen werden für das
Bewertungsmodell nach dem Training verwendet Testen und
Evaluieren ist einer der sehr,
sehr wichtigen Schritte beim
überwachten Lernen Was sind nun die
gängigen Arten von
Algorithmen für überwachtes Lernen, die wir beim
überwachten Lernen verwenden? Wenn wir Lernen auswählen, wenn wir Daten auswählen, wählen
wir das Modell, wir
wählen den Algorithmus aus. Welche
Algorithmen verwenden wir? Es gibt eine Vielzahl von Algorithmen für
überwachtes Lernen, jeweils für unterschiedliche
Arten von Problemen geeignet sind. Jeder Algorithmus wird
an jedem einzelnen
Problem arbeiten , an jedem Problem. Wir werden einen spezifischen Ansatz benötigen , um ein Problem
im täglichen Leben zu lösen. Außerdem können Sie nicht
alle Probleme auf
dieselbe Weise lösen . Auf die gleiche Weise können wir
beim maschinellen Lernen nicht das gesamte Problem mit einem einzigen Algorithmusproblem
lösen, wenn
wir das
überwachte Lernen nicht das gesamte Problem mit einem einzigen Algorithmusproblem
lösen, wenn
wir das verwenden. Für jedes spezifische
Problem brauchen wir eine bestimmte Methode, um es
anzugehen, oder? diesem Zusammenhang gibt es
viele Algorithmen, und
je nach unseren Anforderungen können
wir die für unser Problem am besten
geeignete auswählen. Und manchmal sind wir uns vielleicht nicht sicher, welcher
Algorithmus funktionieren wird. In diesen Fällen
würden sich Datenwissenschaftler auf drei Algorithmen bewerben. Und sie werden das
Ergebnis und die Prognosen analysieren. Und wer auch immer die
richtigeren Vorhersagen gibt, sie werden sich an den
Algorithmus halten, der bei der Erprobung
die gängigste Methode ist , um herauszufinden , welche Art von Algorithmus wir in unserem Modell verwenden
sollten Hier sind einige bemerkenswerte Beispiele,
wie die lineare Regression, einer der beliebtesten Algorithmen für
überwachtes Lernen Dann ist die logistische Regression, Entscheidungsbaum, sehr wichtig Random Forest Support Vector VMs sind sehr wichtige Und die K nächsten Nachbarn. Dies sind die sehr
beliebten Algorithmen für maschinelles Lernen, überwachtes
maschinelles Lernen , die wir bei der Problemlösung verwenden. Welche
Regulierung wird mithilfe von überwachtem
Lernen zur Vorhersage
kontinuierlicher Werte verwendet , die wir ebenfalls bereits
besprochen haben Stimmt das? Es gibt zwei
Arten von Werten. Kontinuierliche Werte, das die numerischen Werte und
die kategorialen Werte, wobei wir die Kategorien
der Daten klar
definiert haben Kategorien
der Daten klar
definiert Die lineare Regelung wird
zur Vorhersage
kontinuierlicher Werte verwendet zur Vorhersage
kontinuierlicher Werte Hier. Jetzt ist uns ganz klar, dass wir
immer dann, wenn
wir die
kontinuierlichen Werte haben, einige
Kurse einer Aktie vorhersagen müssen, den
Kurs eines Hauses der
Dinge, bei denen es um Kurs eines Hauses der Zahlen geht. Wir können die
lineare Regelung verwenden. Wir können uns die lineare
Regulation als einen der Algorithmen
zur Problemlösung für
maschinelles Lernen unter Verwendung von
überwachtem Lernen vorstellen Algorithmen
zur Problemlösung für . Lineare Regulierung, die
zur Vorhersage kontinuierlicher Werte
wie Immobilienpreise auf der
Grundlage von Merkmalen wie der
Quadratfuß-Lage Dabei wird von einer linearen Beziehung
zwischen dem Eingabe-Feature
und dem Ziel-Feature ausgegangen zwischen dem Eingabe-Feature
und dem Ziel-Feature Im Fall der
Immobilienpreisprognose
handelt es sich um eine ziemlich lineare Beziehung. Wann immer Sie
an einen Premium-Standort fahren, werden
Ihre Preise hoch sein. Wenn wir zu den Standorten mit dem geringsten
Budget gehen, wird der
Preis hoch sein. Wenn Sie sich
für einen Quadratfuß der Baufläche
entscheiden, wird Ihr
Hauspreis
steigen , abzüglich des Preises. Es handelt sich um eine lineare Beziehung zwischen dem Eingabe-Feature und
dem Ziel-Eingabe-Feature. In diesem Fall
handelt es sich bei einer
Hausvorhersage um Quadratfuß des
Standorts des Hauses, richtig? Ob es ein Reifen ist,
von Stadt zu Stadt. All dies sind das
Eingabe-Feature und das Eingabe-Feature. Unsere Preise werden steigen und fallen. Dies ist ein Ansatz
, den wir verwenden können, die lineare Regelung
für kontinuierliche Werte. Die logistische und logistische Regelung ist
in erster Linie auf
Probleme zurückzuführen, bei denen wir ganz klar spezifiziert haben, Probleme zurückzuführen, bei denen wir ganz klar spezifiziert haben dass es
ein Ja- oder Nein-Situation gibt, bei dem Sie Ja oder Nein
sagen oder nach E-Mail-Spam oder Nicht-Spam klassifizieren können . Es gibt eine sehr spezifische Klassifizierung,
die wir vornehmen wollen. eine sehr spezifische Klassifizierung,
die wir Entweder möchten wir die E-Mail
, die von
einer unbekannten Person stammt, als Spam oder nicht
als Spam einstufen E-Mail
, die von
einer unbekannten Person stammt , als Spam oder nicht
als Spam Das nennt man binäre
Klassifikation, die zwei Arten der
Klassifizierung, die wir vornehmen, nämlich Spam oder Nicht-Spam Binär ist eine sehr klare Definition
, die wir eingeben müssen , um sie in eine der
Kategorien einzuordnen, okay? In diesem Fall ist es
Spam oder kein Spam, okay? Im Falle einer Kreditgenehmigung Darlehen genehmigt oder nicht genehmigt,
genehmigt oder abgelehnt. Bei der Kreditantragsproblematik ist
es binär Einstufung
nach Kredit genehmigt, Kredit abgelehnt,
genehmigt und abgelehnt. Das wird die
binäre Klassifizierung sein. logistische Regulierung
modelliert die
Wahrscheinlichkeit , dass ein Input
zu einer bestimmten Klasse gehört Klasse ist Spam. Spam, okay,
Entscheidung. Die Entscheidung. Der vielseitige Algorithmus. Diese sind sehr
vielseitig
und werden
sowohl für die Klassifizierung als auch für die Regrationasketil verwendet und werden
sowohl für die Klassifizierung als auch für die Regrationasketil Wir sind lineare Region und logistische Region. die lineare Region, wir für
die
logistische Regression kontinuierlicher Werte verwenden können , können
wir für
die kategorialen Probleme oder Klassifikationsprobleme verwenden die kategorialen Aber manchmal sind lineare Regions
- und Logistikansätze nicht aussagekräftig genug, um das Problem zu lösen. Wir brauchen einen besseren Ansatz. In diesem Fall
kommt die Entscheidung Rich ins Spiel. Sie sind ein sehr vielseitiger
Algorithmus und
können sowohl für Klassifizierungs
- als auch für Regionsaufgaben verwendet werden. Decision erstellt eine
baumähnliche Struktur für Entscheidungen und Ergebnisse auf der
Grundlage der Eingabefunktion. Basierend auf dem Eingabe-Feature erhalten
Sie eine
baumähnliche Struktur. Auf dieser Grundlage können Sie die Ausgabe
vorhersagen. Random Forest, Random Forest Gimble-Laufmethode, die
mehrere
Entscheidungsbäume kombiniert, um die
Genauigkeit zu verbessern und die Anzahl der
Vektormaschinen zu reduzieren, unterstützt Vektormaschinen SVMs eignen sich sehr gut
für Klassifizierungsaufgaben. Sbm findet die optimale
Hyperspur, die Datenpunkte
verschiedener Klassen am besten voneinander trennt Datenpunkte
verschiedener Klassen am besten voneinander trennt. In diesem Fall
werden wir den,
äh, gesamten Datensatz
in verschiedene Klassen einteilen Und SBM wird die
optimale
Hyperplane-Optimallinie finden , die die Datenpunkte, die zu verschiedenen
Klassen
gehören,
voneinander trennt zu verschiedenen
Klassen
gehören, Neuronale Netzwerke, tiefes Lernen neuronale Netze
fördern insbesondere
neuronale Netze und
konventionelle neuronale CNNs sind leistungsstarke Tools für
Aufgaben wie Bild- und
Spracherkennung und werden
ein Problem der Bild - und Spracherkennung lösen ein Problem der Bild Wir müssen uns mit
diesen neuronalen Netzwerken in einem tiefen neuronalen Netzwerk
befassen . Wir haben auch die beiden Ansätze. Zwei Ansätze fördern das
neuronale Netzwerk und das
konvolutionelle Das ist N. Dann kommen die K
nächsten Nachbarn, die für die Klassifikation
und
Regression verwendet werden Beide Probleme können gelöst werden, indem Vorhersagen
trifft,
die auf der Mehrheitsklasse oder dem Mittelwert
des K nächstgelegenen
Datenpunkts im Trainingsdatensatz basieren die auf der Mehrheitsklasse oder dem Mittelwert des K nächstgelegenen
Datenpunkts im Trainingsdatensatz Es prognostiziert die Werte auf der
Grundlage der Mehrheitsklasse oder des Mittelwerts
des K nächstgelegenen Datenpunkts
im Trainingssatz Einige Beispiele aus der Praxis, Anwendungen des
überwachten Lernens bei medizinischen Diagnosen, die
Vorhersage des G-Ergebnisses auf der Grundlage Patientendaten wie die
Erkennung von Krebs sind eines der Beispiele für
die
medizinische Diagnose
, bei der wir
überwachtes Lernen verwenden Basierend auf den Patientendaten sagen
wir voraus, dass, ob
es sich um Krebs handelt oder nicht, natürliche
Sprachverarbeitung, NLP,
für die Verarbeitung natürlicher Sprache verwendet wird für die Verarbeitung natürlicher Sprache Wir verwenden Stimmungsanalyse, Textklassifizierung und
maschinelle Übersetzung Dies ist auch ein Beispiel für
überwachtes Lernen. Bilderkennung,
Identifizierung von Objekten, Gesichtern und Anomalien in
Bildern und Videos
, also Bilderkennung Ein weiteres Beispiel für überwachtes
Lernen ist das Kredit-Scoring, bei dem die
Kreditwürdigkeit von
Personen anhand von
finanziellen und persönlichen Daten bewertet Personen anhand von
finanziellen und persönlichen Daten Dies ist auch ein Beispiel beaufsichtigtes Lernen, das im
Finanzsektor häufig
genutzt wird indem auf persönliche
Finanzdaten und persönliche Daten zugegriffen wird,
um
anhand des Finanzdaten und persönliche Daten Kredit-Scores seine Kreditwürdigkeit zu definieren .
Sie entscheiden dann, ob die Person
für ein Wohnungsbaudarlehen,
Privatdarlehen oder ein
Geschäftsdarlehen in Frage kommt oder nicht Dann gibt es
Empfehlungssysteme, die
Produktfilme empfehlen , je nach Benutzerpräferenz Das ist heutzutage das am häufigsten verwendete
überwachte Lernen. Überall sehen wir das Empfehlungssystem,
seien es die E-Commerce-Websites, Amazon, Ebay, all diese. Sie empfehlen Produkte,
die auf dem Empfehlungssystem basieren , und geben an, dass sie
intern das
überwachte Lernen nutzen. Dann die Filme,
Netflix, Hot Star, all diese Dinge, sie
verwenden Empfehlungssysteme. Dann die Inhalte, die auf dem
Zaun basieren, wie Facebook-Werbung,
Youtube, Youtube-Videos, die auf Ihren Referenzen
basieren. Dies sind die
realen Anwendungen des überwachten Lernens. Was wir nun
aus dieser Vorlesung zitieren können, ist, dass es sich Algorithmen für
überwachtes Lernen um stundenlanges maschinelles Lernen handelt , Computerlernen
ermöglicht und
es Computern ermöglicht, aus
beschrifteten Daten zu lernen und
Vorhersagen mit
bemerkenswerter Genauigkeit zu treffen . Die Anwendungen sind branchen-, branchen- und domänenübergreifend, was sie zu einem unverzichtbaren Werkzeug
macht, um Erkenntnisse zu gewinnen, Aufgaben
zu
automatisieren und datengestützte Entscheidungen
in unserer datenreichen Da maschinelles Lernen
weiter voranschreitet, werden
Algorithmen für
überwachtes Lernen auch weiterhin ein Eckpfeiler Innovation und
Problemlösung in den Bereichen künstliche
Intelligenz und Ich hoffe, Sie haben die von uns verwendeten
Super-Wide-Learning-Algorithmen für maschinelles Lernen Und das werden wir in der nächsten
Vorlesung sehen, in der nächsten.
127. Lineare Regression: Hallo und willkommen zurück. In dieser Vorlesung werden wir
etwas über die lineare Regression lernen, die die Grundlage der
prädiktiven Modellierung darstellt Lass uns anfangen. Was
ist lineare Regression Vorher werden wir nur
verstehen, dass die lineare Regression ein Eckpfeiler der
statistischen Analyse
und prädiktiven Modellierung
ist und prädiktiven Modellierung spielt eine zentrale
Rolle beim Verständnis der
Beziehung zwischen den Variablen und bei der In dieser Vorlesung werden wir uns mit der Welt der linearen Regression befassen Wir untersuchen ihre wichtigsten
Anwendungsmöglichkeiten und wie sie es
Datenwissenschaftlern ermöglicht , wertvolle
Erkenntnisse aus den Daten zu oder sogar für Ingenieure des
maschinellen Lernens sehr wichtig Die lineare Region ist
für Datenwissenschaftler , da wir mit der
linearen Region, die wir verstehen und
vorhersagen können, ein besseres
produktives Modell entwickeln können Okay, fangen wir noch einmal an, die lineare Region
zu verstehen. Wie gesagt, die lineare Region ist statische Methode, mit
der die Beziehung zwischen
einer abhängigen Variablen
namens x,
der abhängigen Variablen, die oft mit y bezeichnet
wird,
und einer weiteren unabhängigen
Variablen, typischerweise mit x bezeichnet, modelliert der die Beziehung zwischen einer abhängigen Variablen
namens x,
der abhängigen Variablen, die oft mit y bezeichnet
wird,
und einer weiteren unabhängigen
Variablen, wird.
X. Y die abhängige Variable und
x ist die unabhängige Variable x Okay, Lineares Arion ist
die statistische Methode um die
Beziehung zwischen
der abhängigen Variablen x
und der unabhängigen Variablen Y zu definieren . Was bedeutet es,
wenn wir das x ändern? Wie verändert das Y
diese Beziehung? Wir versuchen herauszufinden,
dass diese
Modellierungstechniken darauf abzielen, die am besten passende
lineare Regelung zu finden , die die
verwandten Variablen beschreibt. Mit der linearen Regelung versuchen
wir, die am besten
passende lineare Gleichung zu finden , die
die Beziehung
zwischen x und y definieren kann ,
wenn x sich ändert wie Y
diese Beziehung verändert. Sie versuchen, mit
dieser Gleichung die lineare
Gleichung zu definieren . Die Regelungsgleichung wie es sich auf der
Grundlage von wird mit y bezeichnet.
Wir wollen herausfinden, x verändert.
Die lineare
Regulationsgleichung lautet Beta 0 plus Beta auf e
in x plus Fehler Okay, wir werden sehen,
was Beta
0 und Beta 1 und
was das Epsilon sind. Das ist tatsächlich ein Fehler . Nun, diese Gleichung gibt uns den Y-Wert, wenn wir
X Beta Null und Beta
Eins plus Fehler eingeben X Beta Null und Beta
Eins plus Okay? Hier ist die unabhängige, Y ist die abhängige, unabhängige Y ist die
abhängige Variable oder die Zielvariable, okay? Der Wert, den wir auf der Grundlage von X
vorhersagen wollen, okay, ist die abhängige Variable oder Zielvariable, die
wir ihn nennen, oder? Und dann
ist Beta Null der Achsenabschnitt der den Wert
von Y
repräsentiert, wenn X Null ist. In der nächsten Vorlesung, auf der nächsten Folie, ist Beta Eins die Steigung, die angibt wie viel sich Y bei einer Änderung
von x um eine Einheit ändert, und Epsilon
steht
für den Fehlerterm Dies ist der Fehlerterm, der die Variabilität y berücksichtigt, die nicht durch
lineare Regulierung mit X erklärt wird. Sehen Sie hier,
das ist der lineare Bereich,
das ist die das ist Dies ist das X, das die
unabhängige Variable auf dem X ist,
X, das ist auf dem Y. X verändert die Art und Weise, wie Y sich
ändert Das
wollen wir hier vorhersagen, das
wollen wir hier definieren. Das ist eine abhängige Variable, das ist eine X-unabhängige
Variable in dieser Gleichung, Beta Null plus Beta Eins in x. Sehen Sie hier, die Beta-Null ist
der unabhängige Achsenabschnitt Dies ist der Achsenabschnitt, an dem
er die Y-X-Achse abfängt. Das ist Beta Zero. Wenn Sie diesen Punkt hier berücksichtigen, wird
es das Beta Zero sein, das wird das Beta Zero sein. Und Beta eins wird der Hang sein. Was ist die Steigung?
Für die X-Achse? Okay? Wie stark sich x, y ändert,
wenn sich x1x ändert. Wenn x sich ändert, wie stark ändert sich Y?
Das ist was? Beta eins. Okay? Hier, das ist der eigentliche Punkt und das
ist die Degradationslinie Unsere Prognose ist diese. Da X zu Eins aufgerufen wird, bekommen
wir hier Y. Aber der tatsächliche Punkt in unserem
Datensatz, der hier liegt, dieser Abstand zwischen
diesem vorhergesagten Wert und dem tatsächlichen Wert, wird als
Fehlerterm oder Fehler bezeichnet
und mit diesem
Epsilon bezeichnet, wenn wir Beta
Null plus Beta eins zu x plus addieren Null plus Beta eins zu x plus Ein Begriff, wir, wir haben
den Regrationspunkt , okay?
Du hast es richtig verstanden Das ist die Regrationslinie und diese Entfernung zum Bildschirm
heißt Epsilon Und die Geschwindigkeitspunkte sind die
Datenpunkte, die wir haben, diese Datenpunkte, wir versuchen, die am besten passende Linie
zu finden,
das ist die
Regrationslinie, um
die Beziehungen zwischen X und Y zu definieren , okay
? Anwendungen der linearen Region. lineare Regression
hat ein breites
Anwendungsspektrum in
verschiedenen Bereichen Wie in den Wirtschaftswissenschaften
verwenden Ökonomen die lineare Regression, um die Auswirkungen von Variablen
wie Inflationsraten,
Zinssätzen und
Konsumausgaben auf
Wirtschaftsindikatoren
wie die BIP-Finanzierung zu
analysieren Zinssätzen und
Konsumausgaben auf Wirtschaftsindikatoren
wie die BIP-Finanzierung Im Finanzwesen
hilft die lineare Regression dabei, Aktienkurse zu modellieren, Vermögensrenditen
vorherzusagen und Risikofaktoren für
Vermögenswerte, die Investitionen
beeinflussen Anlageportfolios
für medizinische und
medizinische Ressourcen nutzen
die lineare Regression, um den Behandlungserfolg des Patienten
anhand von Faktoren wie Alter,
Genetik und
Behandlungsprotokoll
vorherzusagen anhand von Faktoren wie Alter, Genetik und
Behandlungsprotokoll Im Marketing
verwenden Marketer die lineare Regression, um die Effektivität
von Werbekampagnen zu beurteilen, Kundenverhalten, Verkäufe und Sozialwissenschaften
zu analysieren Sozialwissenschaftler wenden
lineare Regulierung an, um Phänomene
wie Kriminalitätsraten,
Bildungsergebnisse
und protische Trends zu untersuchen Bildungsergebnisse
und protische Trends In der Technik verwenden Ingenieure
lineare Regulation, um
physikalische Eigenschaften
wie die Beziehung
zwischen Temperatur
und Materialfestigkeit zu modellieren physikalische Eigenschaften
wie die Beziehung zwischen Temperatur
und Materialfestigkeit Aufbau und Evaluierung eines
linearen Regelungsmodells. Der Aufbau eines linearen
Regelungsmodells umfasst die folgenden Schritte. Datenerfassung,
das Erste ist Datenerhebung.
Der Datensatz wurde gesammelt, der die
unabhängige Variable y und
eine weitere unabhängige Variable X, die
unabhängigen Variablen X und y enthält unabhängige Variable y und eine weitere unabhängige Variable X, unabhängigen Variablen X und y Wir benötigen dies ist die
Datenerfassung. Dann die
Datenexploration, die Untersuchung der Daten, Verwendung deskriptiver Statistiken und Visualisierungen, um
Einblicke in die Beziehung
zwischen den Variablen zu gewinnen Einblicke in die Beziehung
zwischen den Variablen Dann kommt das Biegen des Modells. Verwenden Sie Statistiksoftware. Verwenden Sie statistische Software
oder Programmiersprachen wie Python oder R, um
lineare Regreationdel-Software zu erstellen den Wert
von Beta Null und
Beta Eins zu
schätzen , der am besten zu den Daten passt Modellevaluierung
ist der nächste Schritt , bei dem mithilfe von Matrizen auf die
Leistung des Modells zugegriffen Metriken wie
der Bestimmtheitskoeffizient, quadratische Mittelwert des Fehlers im
R-Quadrat
oder der quadratische Mittelwertfehler (RMSC Diese Metriken quantifizieren, wie
gut das Modell zu den Daten passt. Interpretation: Interpretieren Sie
die Koeffizienten Beta Null und Beta Eins Um
die Stärke und Richtung der Beziehung zwischen
den vorhergesagten Variablen zu verstehen die Stärke und Richtung der , verwenden Sie das Trendmodell, um
Vorhersagen für die
neuen Datenpunkte zu treffen Vorhersagen für die
neuen Datenpunkte Was sind die Herausforderungen
für diese lineare Region? lineare Region ist zwar ein vielseitiges und leistungsstarkes
Instrument, weist jedoch Einschränkungen auf. Es wird von einem linearen Verlauf ausgegangen, obwohl dies
in realen Szenarien möglicherweise nicht immer zutrifft. Darüber hinaus erfasst es möglicherweise keine komplexen oder nicht zusammenhängenden Zusammenhänge. Zusammenfassend lässt sich sagen, dass die
lineare Regulierung eine grundlegende
Technik in der Welt der Statik und
der
prädiktiven Modellierung Aufgrund ihrer Einfachheit, Interpretierbarkeit
und ihres breiten
Anwendungsspektrums ist sie ein unverzichtbares
Werkzeug, um wertvolle
Erkenntnisse aus Daten zu gewinnen Und fundierte
Entscheidungen in verschiedenen
Bereichen und Branchen zu Es dient zwar dem, dient als
Sprungbrett für weitere
Fortschritte, aber auch für die Weiterentwicklung der fortgeschrittenen
Modellierungstechniken Beherrschung der linearen Regulierung ist eine grundlegende Fähigkeit für jeden
Datenwissenschaftler oder Analysten Wir haben die Grundlagen der
linearen Regression verstanden und verstanden,
welche Anwendungen
die lineare Region bietet, wie wir ein lineares
Regressionsmodell erstellen und welche Herausforderungen damit verbunden sind In der nächsten Vorlesung werden wir versuchen, die Region mithilfe
unserer Programmierung
zu Weitere Informationen finden Sie in der nächsten
128. Lineare Regression in R: Hallo und willkommen zurück. In der vorherigen Vorlesung haben
wir uns ausführlich mit der linearen
Regulation befasst Wir haben das
Konzept theoretisch verstanden. Jetzt machen wir ein einfaches Beispiel lineare Regression und
wir werden sehen, wie wir die lineare Region
mithilfe der R-Programmierung
implementieren können die lineare Region
mithilfe der R-Programmierung
implementieren R bietet eine breite
Palette von Paketen und Funktionen für die lineare
Regreationsanalyse. Hier gebe ich Ihnen eine
Anleitung zur
schrittweisen Durchführung linearer Regionen
mithilfe der R-Programmierung Der allererste Schritt
sollte die Datenaufbereitung sein. Denn Daten sind die Grundlage für
alle Datenzeichen,
maschinelles Lernen, Datenvisualisierungen,
Deep Learning, was auch immer
mit der Datenwissenschaft zu tun Der erste Schritt ist die
Datenaufbereitung. Daten sind sehr wichtig. Dafür werden wir eine
CSV-Datei verwenden , die
einen sehr einfachen Datensatz enthält. Okay? Der erste Schritt ist
, Ihr Band vorzubereiten,
Ihre Daten vorzubereiten, Ihre Daten in
R zu
laden . Dann sollte es
sehr formatiert sein, es sollte
die abhängigen und
unabhängigen Variablen enthalten Okay, hier verwenden wir Daten,
CSP, die ich geladen habe Wenn wir die Datei re
in R verwenden, laden wir alle. Das ist eine Funktion, die
es uns ermöglicht, die Daten zu lesen, okay, aus einer CSV-Datei
erstelle ich hier eine Variable, Daten. Und ich verwende die CSV-Datei , um die Daten aus dieser Datei zu lesen, und ich speichere das
Ergebnis in den Daten. Okay, lassen Sie uns das ausführen. Okay? Ich stelle Ihnen die
Daten-CSV-Datei zur Verfügung. Du kannst es aus
dem Kurs herunterladen und benutzen, okay? Sie müssen den Daten-CSP in Ihrem
Projektverzeichnis ablegen, damit er ihn korrekt
liest und den vollständigen Pfad zu diesem Verzeichnis angibt Und es wird gelesen, okay. Andernfalls wird es den falschen Pfad
angeben. Es wird dir den Fehler geben. Okay, Datei, keine, nur all diese
Fehler, die du bekommen wirst. Als Nächstes werden wir sehen,
was in diesen Daten enthalten ist. Wir werden die
Head-Funktion head verwenden und diese Objektdaten übergeben. Und wenn wir das dann ausführen, können
wir sehen, dass
es sich in unserem Datensatz einen ziemlich einfachen Datensatz handelt
, der x und y enthält. X ist die unabhängige
Variable und Y ist die abhängige Variable, die
auf x basiert. Y ändert sich hier. Okay, für jedes X zeichnen
wir Y auf und versuchen
, eine lineare Region zu finden. Regresslinie wird darstellen, welche
Beziehung zwischen X und Y repräsentiert. Sie passt am besten zu all
diesen Punkten, Punkten, okay? Wenn Sie auf dieser Grundlage einen anderen
X-Wert angeben , der nicht in der enthalten
ist,
wird
der Y-Wert vorhergesagt, okay? Als Nächstes folgt der Modellbau. Dafür werden wir
die LM-Funktion verwenden. L-Funktion für
lineares Modell. Okay? Lm bedeutet lineares Modell. Es gibt die Funktion Lm, die
wir für
die lineare Regression oder die
Erstellung des linearen Modells verwenden die lineare Regression oder die
Erstellung des linearen Modells Okay? Es ist als L M LM-Funktion geschrieben, mit der wir ein
lineares
Regressionsmodell erstellt In diesem Beispiel werden wir
die abhängige
Variable y auf der Grundlage
der unabhängigen Variablen x vorhersagen die abhängige
Variable y auf der Grundlage . Okay, um ein lineares
Regressionsmodell zu erstellen, erstellen
wir hier ein
Modellobjekt Und dann verwenden wir die
Funktion L M und sagen, dass X, Y von X abhängt. Daten werden als
Daten zurückgegeben,
Datenobjekt, das wir hier erstellt
haben Okay? Daten sind gleich
Daten und Y ist von x abhängig. Lassen Sie uns das
jetzt ausführen. Es wird unser Modell erstellen. Jetzt möchte ich die
Zusammenfassung unseres Modells sehen. Okay? Dafür können wir die Zusammenfassungsfunktion verwenden und
dieses Modellobjekt
hier übergeben . Lass uns das ausführen. Dies ist die Zusammenfassung
für unser Modell. Hier sehen Sie
den Restmittelwert, Median und das erste Quartil Drittes Quartil und
Maximalwerte, okay? Der Höchstwert ist 24,469 Okay. Dann können wir den Koeffizienten für den
geschätzten
Standardfehler und den Wert R sehen . Okay? Das ganze Abhören, alles, was Sie sehen können, das
sind die Dinge Wir werden sehen, wie Sie sich die Dinge
ansehen, und wir werden
sehen, wie wir anhand des Buchstabens, der das
erste Quartil erfüllt, das
dritte Quartil und die Maximalwerte bestimmen können anhand des Buchstabens, der das
erste Quartil erfüllt, das
dritte Quartil dritte Quartil Okay, der nächste Schritt ist die Modellevaluierung. Jetzt können Sie die
Leistung des Modells bewerten, indem Sie
die zusammenfassende Statistik einschließlich der quadratischen Werte des
Koeffizienten
R untersuchen die zusammenfassende Statistik einschließlich quadratischen Werte des
Koeffizienten
R Der nächste Schritt sind Prognosen. Wir werden die Vorhersagefunktion verwenden
, um Vorhersagen zu treffen. Mit Ihrem Modell können Sie einen
neuen X-Wert angeben, der in dem Datensatz,
für den wir dies wünschen, nicht
vorhanden ist . Sagen Sie hier den Y-Wert voraus. Wir erstellen hier ein, ein
neues Objekt, hier neue Unterstrichdaten. Ich verwende hier den Datenrahmen,
x. Ich gebe uns
102030 x-Werte Ich gebe hier drei Werte an. Ich gebe 1.020,30 Für
diese drei Werte möchte
ich für
zehn vorhersagen, was das Y sein wird? Für 20, was wird, und für 30. Dann werde ich die Vorhersagen verwenden. Okay, ich werde die Vorhersage verwenden. Ich werde die neuen Werte
in den Vorhersagen speichern. Und ich verwende das
Vorhersagemodell, Vorhersagefunktion zwei, wobei
die Y-Werte
auf dem X-Wert basieren. Dafür verwende ich unser Modell
, das wir hier erstellt haben. Okay, in der Alaun-Funktion haben
wir dieses Modell erstellt. Ich werde dieses Modell verwenden, um die Werte
vorherzusagen. Ich übergebe das Modell
, um die Funktion vorherzusagen. Und neue Daten entsprechen
neuen Underscore-Daten. Die neuen Unterstrichdaten, denen
wir den X-Vektor übergeben. Okay? Dieser Vektor wird diese neuen Daten
durchdringen. Das gibt uns jetzt die
neuen vorhergesagten Werte. Okay, jetzt haben wir
die Vorhersagen. Lassen Sie uns die Vorhersagen
hier ausdrucken. Lass uns das machen. Lassen Sie uns
jetzt hier sehen , dass wir den
Prognosewert 22,8 für
102.035,5 und 48,5 30 sehen können 102.035,5 und 48,5 Lassen Sie mich das
in den Block packen, damit wir
das Ergebnis gleich hier sehen können Sehen Sie hier. Jetzt erhalten wir
die drei Werte für y x. Wenn x zehn ist, erhalten
wir den Y-Wert 22,78. Wenn Sie sich die Daten hier
ansehen, gibt es keine Zehn, oder? Nein 2030. Aber du siehst eine 38. Für 38 sind es 56. Bei 30 ist es richtig, oder? Für 20 bekommen wir 35,65
Für zehn bekommen wir 22. Jetzt visualisieren
wir das, indem wir es zeichnen. Wir verwenden die Plotfunktion
und wir X und Y und geben die Überschrift
als lineare Region und Xlab und Ylab Alta Versuchen Sie, die
lineare Regionslinie
mithilfe der Funktion Able zu zeichnen mithilfe der Funktion Able Für die Funktion Able zur
Darstellung der Alec-Regressionslinie verwenden
wir das von uns
erstellte Modell und geben die Farbe als
Regrlineilllottdlt'seeeow'etlegrelinere an, unsere linearen Regressionsmodelle verwenden
wir das von uns
erstellte Modell und geben die Farbe als
Regrlineilllottdlt'seeeow'etlegrelinere an, unsere linearen Regressionsmodelle. Wenn Sie hier einen beliebigen Wert von x für 30 vorhersagen können, ist dies der Wert von y für 35. Das wird der Achsenabschnitt sein. Wenn Sie eine Linie von hier nach
hier ziehen und wo sie sich kreuzt, wird
das der
vorhergesagte Wert sein, 50 für all diese Dinge Einige Werte sind
weit von hier entfernt, von dieser roten Linie zu der
Entfernung, die bis zu diesem Punkt liegen wird. Das nennt man Fehler, oder? Epsilon, das wir
in unserem Theorieteil gesehen haben, oder? Der Abstand zwischen dem Punkt
und der Regressionsgeraden,
Epsilon oder Fehler, Epsilon oder Fehler So können wir linearen Bereich
verwenden, um den Wert
vorherzusagen Wenn Sie nun irgendwelche
X-Werte nehmen und hier alles durchgehen, finden
Sie den Y-Wert auf dieser Regresse, die
vorhergesagten Werte Okay, jetzt ist die lineare Region ein leistungsstarkes Tool
für die Datenanalyse und Vorhersage sowie für die
prädiktive Modellierung Mit R können Sie ganz einfach lineare
Berechnungen durchführen, die Beziehung zwischen
den Variablen
beurteilen und auf der Grundlage Ihres
Modells Vorhersagen treffen Hier haben wir
die grundlegenden Informationen zur
Einführung in die lineare Region gesehen ,
aber es gibt noch viel mehr zu
entdecken, darunter die Handhabung Monte-Kolinearitäts-Modelldiagnostik und
fortgeschrittene Regressionstechniken fortgeschrittene lineare Regression
ist nur eine Facette vielfältigen Landschaft
der
statistischen Analyse
und des maschinellen Lernens , sodass wir noch viel mehr dieser Dinge tun können Wir werden noch einige
weitere Beispiele für lineare Regression sehen. Ich hoffe, Sie haben erfahren,
wie wir
das lineare Regionalmodell erstellen und wie wir die Werte vorhersagen können Wie wir
hier eine
Regressionslinie zeichnen können , um die Werte vorherzusagen erfahren Sie in der nächsten Vorlesung
129. Vorhersage der Körpergröße einer Person mit linearer Regression: Hallo und willkommen zurück. In der vorherigen Vorlesung haben
wir gesehen, wie wir ein lineares Grabmodell
erstellen können, okay, um
Y-Werte anhand des X vorherzusagen. Okay, hier war X die unabhängige Variable und Y die abhängige Variable. Jetzt gehen wir einen Schritt weiter, einen kleinen Schritt auf den Sohn zu. In dieser Übung werden wir versuchen, die Körpergröße
einer Person anhand einer linearen Gradzahl vorherzusagen. Natürlich mit unserer Programmierung. Okay, das allererste ist,
wenn Sie an einem Projekt arbeiten, erhalten
Sie den echten Datensatz. Hier. Was ich mache, ich
verwende keine Daten aus der realen Welt. Stattdessen generiere ich
einen synthetischen Datensatz. Die meiste Zeit erhalten wir
die Echtzeitdaten. Aber aus praktischen Gründen können
wir nicht jedes Mal mit einem sehr
großen Datensatz arbeiten, oder? In diesem Fall erstellen
wir unseren eigenen Datensatz,
okay, mit den Zufallswerten,
und wir versuchen, Modelle zu erstellen und daran zu arbeiten. Okay, später implementieren wir dasselbe mit den Daten aus
der realen Welt. Für dieses Beispiel verwende
ich synthetischen Datensatz mit
Alterswerten zwischen 18 und 65 Jahren. Wir werden
die Alterswerte für
Personen zwischen 18
und 65 Jahren haben Personen zwischen 18
und 65 Jahren Okay? Und dann werden wir entsprechenden
Höhenwerte
mithilfe einer linearen Beziehung erstellen . Okay, zuerst
erstellen wir Alterswerte, 18-65 Für jeden Wert werden
wir versuchen,
eine entsprechende
Größenunterstützung für 18 Jahre zu erstellen , Person wird die Größe,
19 Jahre, Seite wie diese haben 19 Jahre, Seite wie diese Okay. Wir erstellen für die Person
eines anhand einer
linearen Beziehung eine zufällige
entsprechende Größe
für die Person
eines bestimmten Alters. Dann fügen wir zufälliges Rauschen hinzu. Alle Daten werden niemals perfekt
sein,
richtig, ein gewisses Rauschen in den Daten. Wir werden einige
Unregelmäßigkeiten bei den Daten haben. Wir werden zufälliges Rauschen hinzufügen, um es mit dem Datensatz aus der
realen Welt zu simulieren Denn im Datensatz der realen
Welt werden
wir nie
die richtigen Werte haben, wir werden das Rauschen
in den Datensatz aufnehmen. Wir müssen die
Mehrdeutigkeit in unserem Datensatz haben. Okay, wir erzeugen
diese Mehrdeutigkeit, indem wir das zufällige Rauschen verwenden , um
die Daten aus
der realen Welt zu simulieren Wir erstellen einen Datenrahmen namens Data aus den Variablen H Dann führen wir eine lineare
Gration mit der Funktion LM durch, wobei wir die Höhe H
anhand des Datenrahmens vorhersagen Wir fassen das Regionalmodell mithilfe des Zusammenfassungsmodells zusammen. All dies haben wir
in der vorherigen Übung genauso gemacht ,
wie wir es
hier tun werden , aber aus einer anderen
Perspektive, oder? Die Zusammenfassung. Anhand
der Zusammenfassung fassen wir unser Regrationsmodell Und wir werden dieses Modell weitergeben
, das wir während
der Lm-Funktion erstellt haben , und wir werden uns mit der Polizei und
den Statistiken befassen Wir sagen die Höhe
für einen neuen H-Wert voraus. Sobald wir ein Modell erstellt haben, übergeben wir einen neuen Alterswert, 30
oder 35 Jahre alt
sein soll,
und wir werden versuchen, die Körpergröße für das Alter vorherzusagen. Dafür verwenden wir
die Vorhersagefunktion. Schließlich
drucken und visualisieren wir die lineare Regression, okay? Sagen Sie die Höhe voraus und visualisieren Sie diese auch die Regressionslinie Okay, fangen wir damit an, dass
wir als Erstes einen synthetischen Datensatz
generieren werden einen synthetischen Datensatz
generieren Dafür verwende ich Set 123. Was es tun wird, es wird
das Set für die
Reproduzierbarkeit Jedes Mal werden dieselben Setup-Daten erzeugt
. Okay? Hier geht es um
den Bereich 18 bis 65. Hier wird er dann 18 bis 65 alaun. Für die Höhe werde ich dann 15150 angeben. Das ist ein
Grundlinienminimum Die Leute werden 150 haben, okay. Höhe, 150 Zentimeter. Dann haben wir hier das
Plus 0,5 in H. Wir werden hier die
Normfunktion verwenden. Wir geben die Länge von H an, dann verwenden wir den Mittelwert Null
und die Standardabweichung fünf. Dadurch wird die synthetische
Körpergröße für jedes Alter berechnet. Okay, hier sind wir, wir
passieren das H hier. Okay, lassen Sie uns das erledigen. Jetzt haben wir
den synthetischen Datensatz erstellt. Was ich jetzt tun werde, ich werde einen Datenrahmen
erstellen. Ich werde im Datenrahmen speichern, dass der
Datenrahmen gleich h ist
und die Höhe gleich der Höhe ist Diese Höhe, okay, ist
gleich h ist gleich dieser. Okay, lassen Sie uns das auch ausführen. Jetzt sehen wir den Datensatz, wir erstellt haben. Führen Sie das aus, sehen Sie sich jetzt hier für 18 an. Die zufällige Höhe. Wir haben das seit 1920 Jahren
generiert. Das ist okay. Jetzt haben wir
den Datensatz in unseren Händen. Als Nächstes werden wir
dafür
ein lineares
Regationsmodell erstellen ein lineares
Regationsmodell Ich verwende
hier ein Variablenmodell und ich verwende die LM-Funktion, um
unser lineares Aktionsmodell zu erstellen Hier gebe ich Höhe und
Höhe als den Wert an, den
Sie vorhersagen
möchten abhängige Variable und
als unabhängige Variable. Und Daten sind gleich Daten. Lassen Sie uns dieses Modell erstellen, indem wir diesen Code
ausführen. Nun, das ist erstellt,
lassen Sie mich das entfernen. Okay. Das habe ich schon früher gemacht. Okay, jetzt ist unser Modell fertig. Jetzt ist unser Modell fertig. Sehen wir uns nun die
Zusammenfassung unseres Modells an. Hier können Sie all
diese Werte, Koeffizienten
und den Wert der Standardära sehen ,
all diese Dinge, okay? Unsere quadratischen Werte. Okay, was ich jetzt machen werde, wir haben das Modell jetzt
fertig bei uns Ich möchte das Alter
für eine 30-jährige Person vorhersagen. Dafür werde ich
ein variables neues Zeitalter erstellen. Und ich werde hier die
Datenrahmen-Datenrahmenfunktion verwenden. Ich werde eine Höhe von 30 überschreiten und
dann die vorhergesagte Größe vorhersagen. Ich möchte die Größe
dieser 30-jährigen Person vorhersagen. Ich werde die Vorhersagefunktion verwenden. Auf welcher Grundlage werde ich vorhersagen. Ich werde das Modell verwenden, um die Höhe
vorherzusagen. Ich übergebe dieses
Modell, das wir hier mit der LM-Funktion
erstellt haben . Okay? Und neue Daten sind hier
gleichbedeutend mit New Age. Ich werde das neue Zeitalter als 30 bestehen. Ich übergebe diese Variable,
die den Wert enthält. Okay, lass uns das ausführen. Was ich jetzt tun werde, ich werde versuchen, die
vorhergesagte Höhe auszudrucken. Wir haben die vorhergesagte Höhe. Wenn Sie hier sehen,
ist die
vorhergesagte Höhe in Ordnung. Lass mich rennen. Diese vorhergesagte Größe für eine 30-jährige Person ist 165,29 Auf diese Weise
haben wir die Größe der
30-jährigen Person vorhergesagt Wenn Sie über Echtzeitdaten verfügen, können
Sie diese Daten hier verwenden Okay? Richtig. Und dann können Sie vorhersagen, lassen Sie mich
jetzt einen anderen
Wert angeben, wie ich es
als 49 Jahre alte Personendaten angeben möchte . Jetzt sind es 165. Mal sehen, was der Wert für 49 sein
wird, für eine 49-jährige Person wird
die Körpergröße
174,84 8.174,47 sein Das ist also die vorhergesagte Größe. Auf diese Weise können wir die Höhe
vorhersagen. Lassen Sie uns nun hier die
regulatorische Grenze ziehen. Ich habe einen Code geschrieben in dem Sie diesen Code schreiben können, wenn
Sie den zweiten GG-Plot nicht
installiert haben . Was das machen wird, wenn GG-Plot benötigt wird, es wird das Paket installieren
und die Bibliothek benutzen, okay? Und wenn es schon da ist, dann ist es okay, es
wird es benutzen. Okay. Dann verwenden wir hier die G GG-Plotfunktion.
Ich werde die Daten weitergeben. X ist das H und Y, x ist die Höhe
und der Startpunkt, Gomo-Methode LM, Farbe Blau für die Regressorlinie
und all diese Überschriften, weißt
du, oder und all diese Überschriften, weißt
du, Das Minimum, das wir im Abschnitt
GG-Plot gesehen haben. Neu ist ein Datenrahmen, der
30 und der vorhergesagten Höhe entspricht .
Ich werde das Modell verwenden. Okay, dann drucken wir es aus. Okay, lassen Sie uns das ausführen. Lass uns hier nachsehen. Hier
messen wir auch die Größe einer 30, 30 Jahre alten Person. Und sehen Sie hier, wir bekommen
die Regressionslinie. Auch hier sagt die Regression die Körpergröße anhand des Alters
voraus. Dies ist das Alter auf der X-Achse
und dies ist die Körpergröße Für jedes Alter erhalten Sie einen
Punkt auf der Regressionsgeraden Das ist die prognostizierte
Höhe für eine Unterstützung von 52 Jahren. Es wird hierher kommen, das
wird die Größe sein, 52 Jahre alt, Person 62 Jahre. Es wird
so hierher kommen, okay? Wird so herkommen, okay? So können wir
hier vorhersagen, wenn du willst, du kannst irgendwas angeben und
es wird vorhersagen. Ich hoffe, Sie haben
die lineare Regression verstanden und wir
sehen uns in der nächsten Etappe
130. Logistische Regression: Hallo und willkommen zurück. In dieser Vorlesung werden wir etwas über
die Logistikregion lernen Wir werden verstehen, welche Mathematik hinter dieser mathematischen die Klassifizierung
anhand der logistischen Region
steckt Okay, also lass uns anfangen. logistische Regulierung ist eine
leistungsstarke statistische Methode, die
für binäre
Klassifizierungsaufgaben wie die Spam-Erkennung verwendet wird für binäre
Klassifizierungsaufgaben wie die Spam-Erkennung Wie wir sehen können, verwendet
sie diese
Klassifizierung von E-Mails . Wenn Sie
also eine E-Mail erhalten, wird
sie
als authentisch oder als Spam eingestuft Also werden alle
Spam-E-Mails in
die Spam-Ordner verschoben, oder? Das ist also ein Beispiel für logistische Vorschriften oder eine
binäre Klassifizierung Medizinische Diagnose,
unabhängig davon, ob es sich um eine
oder eine bestimmte Ziffer oder
diese Art von Klassifizierung Außerdem können wir dann die
Bandbreitenklassifizierung als auch die Risikobeurteilung
bei der Kreditvergabe oder Kreditvergabe vornehmen. Die Banken und
Finanzinstitute, sie machen die
Kreditrisikobeurteilung passend, passen oder genehmigen oder
lehnen die Sache ab, okay,
um herauszufinden, ob der Kreditgeber Lage sein
wird,
das Geld zurückzuzahlen oder Trotz seines Namens handelt es sich nicht um eine Regression im
herkömmlichen Sinne, sondern um einen Obwohl der Name logistische
Regression lautet,
handelt es sich eigentlich nicht um eine Regression
im herkömmlichen Sinne, sondern um einen Klassifizierungsalgorithmus In dieser Vorlesung werden wir die Grundlagen der
logistischen Regression,
Mathematik, Grundlagen
und reale Anwendungen
untersuchen , bei
denen wir die logistische Regression so gut wie möglich nutzen
können, um die binäre Klassifikation zu verstehen und reale Anwendungen denen wir die logistische Regression so gut wie möglich nutzen
können, um die binäre Klassifikation . In der binären
Klassifikation befassen wir uns
mit Problemen, bei denen das Ziel darin
besteht , Beobachtungen
einer oder zwei Klassen oder Kategorien zuzuordnen . Zum Beispiel die Klassifizierung von E-Mails
als Spam oder nicht als Spam, die
Vorhersage, ob ein
Kunde abwandert oder
das Telekommunikationsunternehmen bleibt , und bestimmt ob ein medizinisches Testergebnis positiv oder negativ
ist Logistikregion hilft uns bei der
Lösung solcher Probleme, indem sie die Wahrscheinlichkeit
modellieren, dass eine Beobachtung zu einer
bestimmten Klasse gehört Dinge wie
Spam oder kein Spam. Medizinischer Test, Bluttest eine bestimmte Krankheit positiv
ist oder nicht, wie im Fall von Covid, sie war Covid-positiv
oder Covid-negativ Diese binäre Klassifikation
und die logistische Regression helfen uns,
solche Probleme zu lösen, indem wir
die Wahrscheinlichkeit modellieren , dass eine Beobachtung
zu einer bestimmten Klasse gehört Funktion der logistischen Region ist das Herzstück der logistischen Und der Schlüssel zur logistischen Regression liegt
in der logistischen Funktion,
auch Sigmoidfunktion genannt auch Diese Sigmoidfunktion ist in der logistischen Region sehr wichtig, jede Eingabe einem Wert von 0-1
zuordnet. 0,1 In 0-1 da sie jede Eingabe einem Wert von 0-1
zuordnet. 0,1 In 0-1
wird sie abgebildet, okay? Die
Funktion der logistischen Region ist definiert als p von y, gleich eins
gleich eins nach eins plus e mit der Potenz minus Beta
Null plus Beta eins in x. Sie erinnern sich an dieses Beta
Null plus Beta Eins in x.
Wir verwenden das in der
linearen Gleichung,
aber hier hat die aber hier Es ist eins, y plus e zur Potenz minus Beta Null
plus Beta Eins x P von y. Gleich eins ist die Wahrscheinlichkeit, dass Beobachtung zu plus eins gehört. Das bedeutet, dass
dies
die Wahrscheinlichkeit angibt , mit der die
Beobachtung zur Klasse E
gehört.
Diese Formel gibt die Wahrscheinlichkeit an, dass zur Klasse E
gehört.
Diese Formel gibt die Wahrscheinlichkeit an Beta Null ein
Achsenabschnitt ist,
die wir bereits
in der linearen Regression gesehen Beta Eins in X steht für die lineare Kombination
von Eingabe-Features Sept-Kurve der logistischen Funktion beginnt nahe Null und nimmt
allmählich zu und nähert sich
symptomatisch der Eins Es wird wie diese
Sinuskurve verlaufen, oder? Dann trainieren Sie ein logistisches
Regressionsmodell. Um das logistische
Freizeitmodell zu trainieren, verwenden
wir einen Datensatz mit Für jedes Beispiel
berechnen wir anhand einer
logistischen Funktion die
Wahrscheinlichkeit , zur ersten Klasse zu gehören Dann haben wir eine Verlustfunktion definiert
, also einen Kreuzentropieverlust Um die Leistung des
Modells zu messen, besteht
das Ziel darin,
den Wert von Beta
Null und Beta Eins zu ermitteln , der die
Verlustfunktion minimiert Diese Optimierung wird
in der Regel mit
numerischen Methoden oder
Optimierungsalgorithmen
wie Gradient Descent durchgeführt numerischen Methoden oder Optimierungsalgorithmen
wie Gradient Descent Dies ist ein weiterer sehr
wichtiger Begriff. Wir werden Anwendungen in
der Logistikregion sehen. logistische Regression
ist in
verschiedenen Bereichen weit verbreitet , wie wir
bereits in
der medizinischen
Diagnostik zur Unterstützung des Krankheitsverlaufs erörtert der medizinischen
Diagnostik zur Unterstützung des haben,
beispielsweise Auf der Grundlage von Patientendaten wie Testergebnissen oder Anamnese geben
wir die Daten weiter
und sie geben uns Aufschluss darüber, ob es sich Durchgängigkeitsdiabetes handelt,
ob es sich um einen Marketing und
Kundenanalysen identifizieren
potenzielle Gefahren im Hinblick auf Werbung und All diese Dinge können wir logistische
Regulierung
nutzen Wir haben bereits über die
Bewertung des Kreditrisikos, die Aufdeckung von
Betrug
und Kreditausfällen, die Verarbeitung
natürlicher Sprache,
NLP und Textklassifizierung gesprochen Aufdeckung von
Betrug
und Kreditausfällen, Verarbeitung
natürlicher Sprache,
NLP und Textklassifizierung Beispielsweise eine
Stimmungsanalyse, Spam-Erkennung
ist eine gängige Anwendung von NLP, bei der die Bildanalyse der logistischen
Region in einer Bildverarbeitung verwendet .
Beispielsweise eine
Stimmungsanalyse, Spam-Erkennung
ist eine gängige Anwendung
von NLP, bei der die Bildanalyse der logistischen
Region in einer Bildverarbeitung verwendet wird. Die logistische Regulierung kann zur binären Klassifizierung von Aufgaben verwendet
werden . Wenn Sie Bilder
von Mensch und Tier auf der
Grundlage eines bestimmten Ca-Werts unterstützen , wird bestimmt, ob dieses Bild
zur Kategorie Mensch
oder Tier gehört zur Kategorie Mensch
oder Tier So wie das. Interpretation der logistischen
Erholungskoeffizienten Beta Null
und Beta Eins im logistischen Zusammenhang haben eine Die Interpretation von
logistischen Koeffizienten, die
Interpretation der logistischen
Erholungskoeffizienten, der Effizienz von Beta Null
und Beta Eins im logistischen Zusammenhang haben eine aussagekräftige Interpretation. In einem Modell zur Bewertung des
Kreditrisikos könnte
Beta Eins beispielsweise die Auswirkung des Einkommens auf die Wahrscheinlichkeit eines Zahlungsausfalls
darstellen . Ein positiver Beta-Wert weist darauf hin , dass höhere Erträge
das Ausfallrisiko verringern. Was ist die Schlussfolgerung? Das logistische Kation ist ein volatiles und interpretierbares Instrument für binäre
Klassifikationsprobleme Wir sollten immer
daran denken, dass dies
für das Problem der binären
Klassifikation gilt für das Problem der binären
Klassifikation Es ist eine mathematische Grundlage und in der Lage,
Wahrscheinlichkeiten abzuschätzen, es
zu einem wesentlichen
Bestandteil der Prognosemodellierung in der was es
zu einem wesentlichen
Bestandteil der Prognosemodellierung in der
Datenwissenschaft und im maschinellen Lernen Obwohl es sich um einen
grundlegenden Algorithmus handelt, sind
seine Anwendungen weitreichend tragen zu einer besseren
Entscheidungsfindung in allen
Branchen und Bereichen Während wir
unseren datengesteuerten Lösungen weiterhin entkommen. Die logistische Regression
ist nach wie vor ein wertvolles Instrument zur Bewältigung realer
Klassifizierungsherausforderungen Hier dreht sich alles um eine Theorie, einen Teil der logistischen Beziehung In der nächsten Vorlesung werden
wir
R einfach praktisch anwenden und versuchen,
eine logistische Regression zu implementieren Sieht in der nächsten Vorlesung.
131. Vorhersage der Kundenabwanderung mit logistischer Regression: Hallo und willkommen. In dieser Vorlesung
werden wir
unser Programm Logistic Regression schreiben unser Programm Logistic Regression Und wir werden versuchen, vorherzusagen, ob ein Kunde
abwandern wird oder nicht Mal sehen, das ist unsere
Zeit, während das Projekt einen Kundenrückgang
vorhersagt Okay, was wir tun,
wir erstellen einen Beispieldatensatz mit zwei Variablen, wobei John
ein binäres Ergebnis ist
, das Null oder Eins ist und ein binäres Ergebnis ist
, das Null oder Eins ist angibt, ob ein
Kunde abgewandert ist oder nicht Okay, das ist es also, was
wir versuchen zu tun. Okay? Wir verwenden GLM, GL, GL ist ein allgemeines Rationsmodell. Okay? Wir verwenden hier GLM, GLM-Funktion, um ein
logistisches Rationsmodell anzupassen, bei dem
das Familienargument auf Binomial gesetzt
wird Um die logistische Regression zu spezifizieren. Das Argument, das auf
Logik gesetzt ist, gibt die Funktion der
logistischen Verbindung an Okay, wir zeigen eine Zusammenfassung des logistischen Regressionsmodells mithilfe Zusammenfassungsfunktion an und übergeben das logistische Modell an
diese Zusammenfassungsfunktion, um Koeffizientenwerte
und andere
Statistiken zu sehen Wir treffen Vorhersagen
für neue Daten. Und wir verwenden die Daten 38,62 und sehen, ob die
beiden ein Kunde mit der
38,62 sind, wie hoch die Wahrscheinlichkeit ist, indem wir die Vorhersagefunktion mit
dem Argumenttyp als Antwort
verwenden dem Argumenttyp als Antwort Okay, das gibt die
prognostizierte Wahrscheinlichkeit von
John für diese beiden Kunden zurück John für diese beiden Kunden Und dann drucken wir,
okay, schauen wir uns das mal an. Ich erstelle
hier auch Beispieldaten für die Klassifizierung der
Bandfarben. Wir verwenden Set Seed
123 und Data und ich
verwende Data Frame und
ich erstelle hier diese beiden Vektoren und die Churn-Vektoren. Als Alter gebe ich hier das H an, ich gebe den John-Wert
01 für die Altersgruppen In Ordnung? Kundenabwanderung ist ein binäres Ergebnis,
wie wir bereits besprochen Und dann lassen Sie uns das ausführen. Okay? Jetzt haben wir einen
Beispieldatensatz erstellt. Okay? Jetzt erstellt Lex
ein Logistikmodell dafür Wir werden die GLM-Funktion verwenden
und
auf welcher Grundlage werden wir in der GLM-Funktion
dieses Ding erstellen, eine logistische Kreation auf der Grundlage des
H Hier sind Daten die
Daten und Familie die binomiale Verknüpfung ,
die der Logik entspricht Das bedeutet, dass wir zur logistischen Regression
übergehen. Okay, lassen Sie uns das jetzt ausführen. Unser logistisches
Regressionsmodell ist fertig. Was wir nun tun werden, wir werden dieses logistische Modell an die
Zusammenfassungsfunktion
übergeben, um die Zusammenfassung dieses
Regressionsmodells zu sehen die Zusammenfassung dieses Hier sehen Sie
die Copic-Werte, die
Intercept-Fehler, den
Jet-Wert und die R-Werte Okay, hier siehst du den
Personenparameter für die Sperre, wobei er als Werte für eine
interne Abweichung
und als C-Werte für die Restabweichung
genommen und als C-Werte für die Restabweichung All diese Dinge,
Dinge, die du sehen kannst. Als Nächstes möchte ich wissen, dass unser
Logistikmodell fertig ist. Ich möchte vorhersagen, ob der Kunde
abwandern wird oder nicht Ich bestehe die beiden H 38.62 und schaue mir die
Wahrscheinlichkeit für die Daten Ich werde neue Daten erstellen. Ich übergebe die beiden
Vektoren an H,
um sie in den neuen Daten zu speichern. Dann übergebe ich diese neuen Daten
an die Vorhersagefunktion. Ich übergebe die beiden Dinge, Logistikmodell, das wir
erstellt haben , und die neuen
Daten, die hier sind, den Pass und gebe eine
Antwort ein. Dann führen wir das aus Jetzt haben wir die
vorhergesagten Werte in diesen vorhergesagten Requisiten, sodass wir versuchen
werden,
sie zu drucken. Lassen Sie uns das ausführen Sehen Sie sich die Wahrscheinlichkeit an, dass der Kunde
H 38 bei einem Wetter von 0,077 kommt, wohingegen der Kunde im Alter von 6022
Jahren bei etwa 97% liegt.
Hier können wir leicht sagen, etwa 97% liegt dass
der Kunde mit H 62 abwandern
wird, denn 100% 97% sind hier fast
98% 97,75%,
die Wahrscheinlichkeit, den Kunden mit 62 zu schicken
, ist
fast 98%. Der Kunde mit 38 ist fast 98% Okay. Hier stellen wir fest,
dass bei den beiden Daten die Wahrscheinlichkeit sehr gering ist 38. Wenn ich auf 18 ändere und
nehme an, dass ich auf 52 ändere. Jetzt führe ich es noch einmal aus und wir werden sehen, dass die Wahrscheinlichkeit
für 18 sogar reduziert ist. Für die 0,004 6% hier sind es 76%. Was wir
daraus schließen,
desto größer
ist die Wahrscheinlichkeit, dass
Kunden hier desto größer
ist die Wahrscheinlichkeit abwandern, für 28,72 Selbst im Alter von 72 Jahren haben wir eine Wahrscheinlichkeit von fast
99%
, dass ein Kunde mit 72 Jahren für 28
abwandert . Die Wahrscheinlichkeit ist fast gleich Null
, bei Kunden mit
geringerem Alter ist die Wahrscheinlichkeit Je älter, desto wahrscheinlicher wird es sein, dass
Kunden abwandern. Auf diese Weise können wir anhand Logistikregion vorhersagen, ob ein Kunde abwandern
wird oder nicht. Ich hoffe, Sie haben verstanden
, wie man die GLM-Funktion für
Los für die Logistikregion verwendet , siehe
in
132. KNN-Algorithmus: Hallo und willkommen zurück. In dieser Vorlesung werden
wir etwas über
k nächste Nachbarn erfahren . Wir nennen es den einfachen effektiven Algorithmus für Klassifikation und
Regulierung. Okay, wir haben die
Region gesehen und dann haben wir Etikett mit den logistischen Vorschriften für die Klassifizierung
gesehen Jetzt sehen wir uns das Wort an,
das sowohl für die Klassifizierung
als auch für die
Region verwendet werden kann , beides Probleme Okay, lass uns anfangen. Nächster Nachbar oder einfacher
effektiver Algorithmus für Klassifizierungs
- und Regionalprobleme. In der Welt des
maschinellen Lernens und der Datenwissenschaft gilt der Nearest Navas oder Inalgorithmus als
eine der einfachsten und
außerordentlich leistungsfähigsten
Techniken zur Lösung von außerordentlich leistungsfähigsten
Techniken zur Lösung Klassifikations- und
Regressionsproblemen Sowohl bei Klassifizierungs
- als auch bei Regressionsproblemen können wir
beide verwenden, da es sich um einen instanzbasierten,
nicht parametrischen Algorithmus handelt , der
sich auf Nähe stützt, sich auf Nähe stützt Es geht nur um die Nähe. Wir werden sehen, wie es funktioniert. In dieser Vorlesung werden wir
die Grundlagen von
Canon und seine Funktionsweise,
seine Variationen und die
realen Anwendungen untersuchen die Grundlagen von
Canon und seine Funktionsweise, seine Variationen und die
realen Anwendungen Wie der Name schon sagt, handelt es sich im Kern um einen
einfachen Algorithmus Er trifft Vorhersagen auf
der Grundlage der Mehrheitsklasse
für die Klassifizierung. Und der Mittelwert für die Regression sorgt
im Wesentlichen für zwei Dinge Bei Klassifikationsproblemen basieren
Vorhersagen auf der Mehrheitsklasse
der Regressionsprobleme, also dem Mittelwert als Basis der k nächstgelegenen
Datenpunkte einer bestimmten Abfrage Das k in k NN steht für die Anzahl der nächsten Nachbarn, die bei der Erstellung von
Vorhersagen
berücksichtigt werden. In diesem
nächsten Nachbarn steht
k für die Anzahl der
nächsten Nachbarn, die
bei Vorhersagen
für die Klassifizierung berücksichtigt wurden.
Dies sind die Schritte, die wir befolgen Die erste ist die
Datendarstellung. Beginnen Sie mit einem beschrifteten Datensatz
, bei dem jeder Datenpunkt
eine Klassenbezeichnung hat , und dann mit einer
Entfernungsmetrik. Wählen Sie eine
Entfernungsmetrik aus, z. B. Entfernung oder
die Entfernung nach dem Mannschaftsmuster , um die
Ähnlichkeit zwischen
Datenpunkten in der Vorhersage zu messen . Die nächste ist die Vorhersage. Um einen neuen Datenpunkt zu klassifizieren, berechnen Sie die Entfernung zwischen dem Datenpunkt und allen anderen
Punkten im Datensatz Wählen Sie die K nächstgelegenen
Nachbarn auf der Grundlage der geringsten Entfernung aus. Die
Mehrheit der Stimmen stimmt Ermitteln Sie die Klasse
eines neuen Datenpunkts indem Sie die Mehrheit der Klassen
abstimmen, wobei die nächstgelegenen
Nachbarn K für die Darstellung von
Regressionsdaten verwendet werden Fangen Sie wieder mit
dem Label-Datensatz an, aber dieses Mal
sind Beschriftungen kontinuierliche Werte
, also numerische Werte, okay? Entfernungsmetriken werden
dieselben Bei Entfernungsmetriken werden
dieselben
Entfernungsmetriken symmetrisch verwendet, wie wir in
der Klassifizierung gesehen haben Das ist die Ec-Entfernung
oder Manhattan-Entfernung, um die Ähnlichkeit
zwischen den Datenpunkten zu messen Okay, dann kommt die Vorhersage. Um einen neuen
Datenpunktwert vorherzusagen. Berechnet die Entfernung
zwischen diesem Punkt und allen anderen Punkten im Datensatz. Wählen Sie die K nächsten Nachbarn auf der
Grundlage der kleinsten Entfernung und
dann den Mittelwert aus, um den Mittelwert
der Beschriftungen der K
nächsten Nachbarn zu ermitteln. werden also alle nächsten Nachbarn genommen und dann Mittelwert berechnet. Dann bedeutet das, dass
dieser Mittelwert,
unabhängig davon, welcher
Mittelwert sich ergibt, zur Vorhersage
für den neuen Datenpunkt wird. Okay? Variationen von, Es
gibt drei Varianten von nicht. der ersten Variante handelt es sich um gewichtete Canon, der
zweiten um die Entfernungsmetrik und bei der dritten Variante um Fit
Scaling. Im gewichteten Canon nach Entfernung unterschiedliche Gewichtungen
zugewiesen dem Nachbarn
je nach Entfernung unterschiedliche Gewichtungen
zugewiesen. Die
Nachbarländer Entfernung und Schließung können einen größeren
Einfluss auf die Vorhersage haben. Dann sind die Entfernungsmetriken die zweite. Experimentieren Sie mit den verschiedenen
Entfernungsmetriken, um den Algorithmus so
anzupassen,
dass er Datentypen,
Datentypen oder Domänen spezifiziert . Feature-Skalierung normalisiert
oder standardisiert die Merkmale um sicherzustellen, dass kein einzelnes Merkmal die
Entfernungsberechnung dominiert Reale Anwendungen
von Nichtfunden, Anwendungen in einer
Vielzahl von Bereichen, wie Empfehlungssysteme
wie Netflix oder Facebook
oder sogar Amazon- und Flip-Karten All diese E-Commerce-Websites, die Ott-Plattformen im
Empfehlungssystem, die Produkte und
Filme
empfehlen, basieren auf dem üblichen Verhalten
oder den üblichen Präferenzen Dort können wir auch die
Bild- und Spracherkennung verwenden. Dann die medizinische Diagnose. Anomalien,
Erkennung von Anomalien bei Finanztransaktionen,
Netzwerkverkehr oder Die
NLP-Probleme bei der Verarbeitung natürlicher Sprache können Dieser Kanon zur Klassifizierung von
Textdokumenten, Stimmungsanalysen und
Sprachübersetzungen Ein weiteres echtes Beispiel ist die
Umweltüberwachung, Vorhersage der Luftqualität,
Wettervorhersagen und die Überwachung der Umweltverschmutzung Bei all diesen Problemen
können wir die Kanone benutzen. Okay, die Herausforderungen. Canon ist zwar ein
Stilalgorithmus, hat aber einige Einschränkungen. Es kann
rechenintensiv sein, besonders bei einem
großen Datensatz,
da die
Entfernung aller
Datenpunkte berechnet werden muss , okay? Die Berechnung wird ziemlich kostspielig
sein, oder? Denn für jeden
Datenpunkt müssen wir
den Verlauf der Dimensionalität berechnen den Verlauf der Dimensionalität Wie das
Merkmal „Anzahl der Dimensionen“ fördert, kann
die Effektivität von Non-Dimensionen aufgrund des
Verlaufs der Dimensionalität Die Wahl von k und die Wahl eines
geeigneten Werts für K ist entscheidend und kann sich auf
die Leistung des Modells auswirken Okay, der Umgang mit unausgewogenen
Daten kann bei unausgewogenen Datensätzen, bei
denen eine Klasse
der anderen
deutlich
überlegen ist, Probleme unausgewogenen Datensätzen, bei
denen eine Klasse
der bereiten. Okay? All dies sind die
Herausforderungen für Nicht-Canon. eine wertvolle Ergänzung zum Werkzeugkasten für
maschinelles Lernen Aufgrund seiner Einfachheit
und Vielseitigkeit ist Canon
eine wertvolle Ergänzung zum Werkzeugkasten für
maschinelles Lernen. Es gibt jedoch einige Einschränkungen , die wir bereits verstanden haben. Es ist besonders
nützlich, wenn es
sich um einen kleinen bis
mittelgroßen Datensatz handelt sich um einen kleinen bis
mittelgroßen Datensatz Kleine und mittelgroße
Datensätze können sehr nützlich sein.
Wenn Sie einen Datensatz
haben, der klein oder
mäßig mittelgroß
oder nicht so groß ist , dann kann kein Datensatz bei der Wiederherstellung
und Klassifizierung wirklich
hilfreich sein bei der Wiederherstellung
und Klassifizierung wirklich
hilfreich das
Prinzip hinter
on und seinen verschiedenen Daten verstehen , Wissenschaftler und Praktiker des
maschinellen Lernens können sie ihre Leistungsfähigkeit nutzen, um genaue Vorhersagen zu treffen
und Daten in
verschiedenen Anwendungen
effektiv zu klassifizieren in
verschiedenen Anwendungen
effektiv Hier dreht sich alles um Nicht-Theorie. Wir werden versuchen, es mit unserer Programmierung auch praktisch zu machen. Sehen Sie in der nächsten Vorlesung nach.
133. Implementierung von kNN: Und willkommen zurück. In
der vorherigen Vorlesung haben
wir über Algorithmen gesprochen. In dieser Vorlesung werden wir den Algorithmus
für
die Klassifikation implementieren, der nicht mit Hilfe unserer Programmierung K zum nächsten
Nachbarn verwendet wird. Okay? Die Schritte, ich werde dir sagen welchen Schritten du in diesem Beispiel folgen wirst . Als Erstes laden wir das
Klassenpaket, das
die in-Funktion für die
Klassifizierung bereitstellt . Wir verwenden den beliebten irischen
Datensatz, den wir
bereits in unseren
Vorlesungen in diesem Kurs verwendet haben. Zu Beginn
müssen Sie sich des
Iris-Datensatzes bewusst sein, der in R
verfügbar ist und Messungen von
Irisblüten zusammen mit
ihren Artenbezeichnungen
enthält . Wir haben den Datensatz in
Trainings- und Testsätze aufgeteilt, wobei 70% der Daten
für das Training des Datensatzes verwendet wurden. Wir werden in
Trainings- und Testsätze aufgeteilt, wobei 70% der Daten für das Training und
30% der Daten für
Testzwecke
verwendet werden. In der Regel verwenden wir in der Praxis 80% der Daten für
Schulungen und 20% für Tests, aber 70 30 sind auch okay. Abhängig
von den Anforderungen Ihres Projekts oder Ihrer Daten können
Sie entscheiden, ob Sie 60% für Schulungen,
70% für Schulungen und 80%
für Schulungen verwenden
möchten . Damit Sie auf der Grundlage
Ihrer Anforderungen und
der Geschäftsanforderungen entscheiden können . Hier definieren wir die Anzahl
der Nachbarn, d. h. k, was bestimmt, wie
viele nächste Nachbarn bei
Prognosen berücksichtigt werden
müssen. die Anzahl der
Nachbarn von Uber Es ist sehr
wichtig, die Anzahl der
Nachbarn von Uber zu bestimmen, während die Nonce bestimmt, wie
viele Nachbarn in der Nähe berücksichtigt werden
müssen, da sich dies
auf die Vorhersagen auswirkt Stimmt das? Dann führen wir
die Neun-Klassifikation mit der Funktion Neun durch. Dabei geben
wir die
Trainingsdaten, Tests , Daten, Klassenstufen und den
Wert von K an. In diesem Beispiel nehmen
wir k fünf, nächste Nachbar
wird die Fünf sein. Danach bewerten wir
die Genauigkeit des
Modells, indem wir die vorhergesagten Arten mit
den
tatsächlich im Testsatz
enthaltenen Arten vergleichen vorhergesagten Arten mit
den . Dann erstellen wir eine
Konfusionsmetrik, um die
Leistung des Modells weiter zu beurteilen. Okay. Wenn Sie diesen Code ausführen, erhalten
Sie die Genauigkeit des Klassifikators für Hunde
und
die Konfusionsmatrix , die zeigt, wie gut
das Modell
die verschiedenen Arten von
Irisblüten im Testset klassifiziert die verschiedenen Arten von
Irisblüten im Testset Fangen wir jetzt hier an. Die erste Sache ist, wenn die
Klasse nicht installiert ist, wird
sie installiert
und dann wird sie installiert. Okay? Lass uns das ausführen
und die Daten laden. Die Datendatenfunktion
verwendet Daten und wir übergeben den
Namen des Datensatzes, also Iris. Lassen Sie uns das auch ausführen. Dann werden wir
den Datensatz in
Trainings- und Testsätze aufteilen den Datensatz in
Trainings- und Testsätze Als erstes
müssen wir Set 123 setzen. Okay, das sind ziemlich
wichtige Schritte. Dann erstellen wir ein Variablen - oder Objektbeispiel für
Unterstrichindizes Hier nehmen wir die erste Probe, um
Iris zu registrieren. Und für die Größe werden
0,7 benötigt. Das bedeutet, dass 70%
des Iris-Datensatzes für Trainingszugdaten
die Iris der Stichprobenindizes sein werden Diese Indizes werden
in die Iris übertragen und 70% der Daten werden zu Trainingsdaten .
Die Daten
werden als Iris abzüglich
der Stichprobenindizes berechnet. Okay? Deshalb
verwenden wir hier das Minuszeichen. Okay? Der Rest wird 30% sein. Lassen Sie uns
das als Anzahl der Nachbarn berechnen, das ist k, hier
definiere ich gleich fünf. Okay, lassen Sie uns das auch ausführen. Jetzt führen wir die
Neun-Klassifizierung durch. Hier erstelle ich eine für
Variablen oder Objekte vorhergesagte Unterstrich-Arten Hier verwende ich hier die Funktion
Neun. Train bedeutet, die
Unterstrichdaten eins bis vier zu trainieren. Test zum Testen von Unterstrich-Daten Klassen
eins bis vier sind
die Unterstrich-Datenarten Basierend auf den Arten, die wir
klassifizieren werden. Okay? Dann gleich zwei k, daraus werden fünf Okay? Lass uns das jetzt ausführen. Und jetzt werden wir die Genauigkeit
des Modells
mithilfe einer Funktion
bewerten . vorhergesagte Spezies entspricht den Testdaten (Dollararten)
geteilt durch N höhere Testdaten. Okay, mal sehen, dann
drucken wir es mit einer Genauigkeit von 200. Okay, sehen Sie hier, jetzt
bekommen wir, dass die Genauigkeit für dieses Modell 97,78 ist.
Das ist ziemlich gut Jetzt drucken wir die
Konfusionsmatrix indem wir eine
Tabellenfunktion verwenden, die tatsächlich
den Testdaten der Spezies P entspricht . Okay, lassen Sie uns die
Konfusionsmatrix hier erstellen, siehe hier Nun, die
Konfusionsmatrix, die Sie hier
für Setosa 14 sehen können , wurde
die Art fast korrekt kategorisiert Nur einer hat falsch klassifiziert. Ansonsten ist alles richtig
klassifiziert. Auf diese Weise können wir das Non
implementieren.
134. Entscheidungsbaum und Random Forests: Hallo und willkommen zurück. In dieser Vorlesung
werden wir etwas
über Entscheidungsbäume
und Random Forest lernen . Diese beiden sind beste Freunde, sie arbeiten zusammen und sie eignen sich einfach hervorragend für
maschinelles Lernen. Ihre Anwendungen werden
verwendet und sie sind sehr nützlich und praktisch, wenn Sie
an maschinellem Lernen arbeiten, insbesondere im Bereich des
überwachten Lernens. Okay, fangen wir an,
etwas über diese beiden leistungsstarken
Methoden des maschinellen Lernens zu lernen. Zunächst werden wir verstehen, was Ruhr und Random Forest im Ring des maschinellen Lernens Dysentery und Random Forest
sind zwei hervorragende Tools, die die Entscheidungsfindung im Datenbereich
revolutioniert haben Diese Algorithmen werden häufig für Klassifikation und
Regression verwendet Aufgabe, wir haben verstanden,
was ist Aufgabe, oder? Klassifikation bedeutet
, dass wir in zwei
oder mehr Segmenten
klassifizieren müssen ,
wie etwa „richtig“ oder „falsch“, „
Antrag“, „akzeptiert“
oder Es ist eine Bedrohung, Spam-Dinge, oder?
Regressionsaufgabe Wir machen es für kontinuierliche, für numerische Dinge, richtig Diese Algorithmen
werden häufig für
Klassifikations- und
Regressionsaufgaben verwendet , weshalb sie
für verschiedene Anwendungen unverzichtbar In diesem Artikel
werden wir in dieser Vorlesung die
Arbeitsprinzipien und praktischen Anwendungen
von
Dissented Forest untersuchen Anwendungen
von
Dissented Forest Wir werden untersuchen, welches Konzept hinter
Degrees und Random Forest Welche
Arbeitsprinzipien stehen
hinter den
Entscheidungsbäumen und Random Forest? Und was sind die
realen Anwendungen von Entscheidungsbäumen
und Random Forest? Fangen wir also mit
den Entscheidungsbäumen an. Entscheidungsbaum ist eine
baumartige Struktur, wie Sie hier sehen
können, okay? Der übergeordnete Knoten,
dann der untergeordnete Knoten und dann der untergeordnete Knoten, okay? Es wird so wachsen, oder? Ein Entscheidungsbaum ist eine baumartige Struktur, die
zur Entscheidungsunterstützung verwendet wird. Okay. Hier ein einfaches Beispiel. Wenn Sie etwas kaufen
wollen, egal ob Sie etwas verwirrt haben, möchten
Sie kaufen, kaufen, kaufen. Nun,
die Entscheidung ist zweierlei per E-Mail oder nicht, Spam, Spam wie dieser, okay? Es unterteilt einen
komplexen
Entscheidungsprozess in eine
Reihenfolge von Simulationen. Jeder Knoten im Baum steht für eine Entscheidung oder einen Vorgeschmack
auf ein Attribut, jeder Zweig steht für
ein Ergebnis, jeder Zweig ist
ein Ergebnis. Okay? Hier sind die
Ergebnisse, richtig? Der Entscheidungstest für das Attribut, Jeder Zweig steht für
ein Ergebnis und jeder Blattknoten steht für eine Klassenebene oder
eine Entscheidung, okay? Das sind die Knoten. Das
sind die Blätter, okay? Wie Desiree Gebäude und Bäume mit einem
rekursiven Top-Down-Ansatz
konstruiert werden, der als
rekursive Partitionierung bezeichnet wird, wie Sie hier sehen
können, ist eine Art
Top-Down-Ansatz Es ist ein rekursiver Vorgang, der sich immer wieder wiederholen würde,
oder? Entscheidungsbäume werden konstruiert,
sie basieren rekursiven Ansatz von oben
nach unten, der als rekursive
Partitionierung bezeichnet wird Wir partitionieren
jeden Knoten rekursiv für die Knoten. Der richtige Algorithmus wählt
bei jedem Schritt
das beste Attribut aus, um
die Daten in Teilmengen aufzuteilen Bei jedem Schritt der Entscheidungsalgorithmus wählt
der Entscheidungsalgorithmus
bei jedem Schritt das beste Attribut aus. Um die Daten aufzuteilen, teilt
er die auf dem Attribut
basierenden Daten in Daten auf, die in Bezug
auf die Zielvariable so homogen wie möglich Unter Berücksichtigung der
Zielvariablen werden
die
Daten in eine Teilmenge aufgeteilt Es wird auch sicherstellen, dass
die Teilmenge homogen ist, okay Es wird dazu beitragen,
die Zielvariable zu erreichen. Auswahl von Attributen. Verschiedene Kriterien
wie Gini, Verunreinigung, Entropie und Informationsgewinn
werden verwendet, um das
beste Attribut für die Aufteilung zu bestimmen Ziel ist es, Verunreinigungen zu
minimieren minimieren Drittens ist das Beschneiden. Der Entscheidungsbaum kann zu
komplex werden und
zu einer Überanpassung Beim Beschneiden werden
Äste entfernt, die nicht wesentlich
zur Verbesserung der Genauigkeit beitragen, was zu einem einfacheren oder
allgemeineren Zweig führt Das Beschneiden ist einfach: Wenn Sie einen Baum
weiter wachsen lassen, kann
er in jede Richtung wachsen Aber wenn Sie einen
Baum in einem sehr guten Tresor halten wollen, müssen
wir
die überschüssigen Äste auf die
gleiche Weise abschneiden wie bei Entscheidungsbäumen. Wenn wir ihn weiter wachsen lassen, wird
er außerdem übermäßig komplex
und neigt dazu, übermäßig gut zu passen Dann
kommt das Beschneiden. Beschneiden bedeutet, die Äste zu
entfernen , die nicht
wesentlich dazu beitragen. Einige Zweige sind möglicherweise nicht nützlich. Später werden wir
diese Zweige beschneiden, was zu
einfacheren und
allgemeineren
Modellanwendungen
von Dysenterie-Dissidenten führen wird allgemeineren
Modellanwendungen von Dysenterie-Dissidenten In vielen Bereichen
finden Sie Anwendungen
verschiedener Wissenschaftler in vielen
Bereichen wie Medizin,
Diagnose der Krankheit
anhand von Patientensymptomen
und Krankengeschichte im
Finanzbereich, Krankheit
anhand von Patientensymptomen Kreditkarten-Scoring,
Betrugserkennung, Investitionstätigkeit — ein Beispiel für Andersdenkende . In all diesen Bereichen können wir Ruhrmarketing,
Kundensegmentierung,
Targeting und
Abwanderungsprognosen mithilfe von Dysenterie
einsetzen Kundensegmentierung,
Targeting und
Abwanderungsprognosen . Herstellung,
Qualitätskontrolle und Optimierung des
Produktionsprozesses können,
können anhand von Serien,
Umweltzeichen, Artenklassifizierung
und Umweltüberwachung mit Hilfe von Ruhr durchgeführt
werden durchgeführt
werden Dies sind die Anwendungen von Decision Tree, das jetzt
den Random Forest abdeckt Random Forest ist wie Gimble. Entscheidungsbäume sind zwar leistungsfähig, können aber empfindlich auf
kleine Änderungen in den Daten Random Forest behebt diese
Einschränkung, indem es
mehrere Entscheidungsbäume kombiniert , um
ein robustes und genaues
Ensemble-Modell zu erstellen . Sehen Sie hier, dies ist
ein Entscheidungsbaum, aber eine zufällige Kombination
aus vielen Entscheidungsbäumen. Stimmt das? Was es tut, der Entscheidungsbaum
ist dafür eine sehr kleine Sache. Er wird seine Ergebnisse, die
Verarbeitung der Knoten und alles andere drastisch
verändern . Alles wird
sich ändern. Wenn Sie Datensatz ändern, wird sich
alles ändern. Um diese Einschränkung zu überwinden, behebt
Random Forest diese
Einschränkung, indem
mehrere
Entscheidungsbäume kombiniert werden , um
ein robustes und genaues
Jumble-Modell zu erstellen ein robustes und genaues
Jumble-Modell Es wird ähnliche
Entscheidungsbäume erstellen und ein robustes
Random-Forest-Ding ergeben Es wird viele Bäume geben, und deshalb wird er Random Forest
genannt , weil viele
Baumgruppen ihn zum Wald machen, richtig. Wie funktioniert Random Forest? Bootstrap-Sampling. Random Forest beginnt mit Erstellung mehrerer
Bootstrap-Stichproben, Zufallsstichproben, die
aus den Trainingsdaten ersetzt Es beginnt mit
der Erstellung der Bootstrap-Stichproben aus
dem Trainingsdatensatz Zufällige Auswahl von Merkmalen
für jeden Baum im Wald. eine zufällige Teilmenge von
Merkmalen berücksichtigt Auswahl
des besten Baums wird an
jedem Knoten Erstellung mehrerer
Entscheidungsbäume erfolgt
unabhängig voneinander mit einer
eigenen Bootstrap-Stichprobe und einer zufälligen Feature-Auswahl Dann die Abstimmung und die Mittelwertbildung. Für Klassifizierungsaufgaben verwenden die Wälder nach
dem Zufallsprinzip
Mehrheitsabstimmungen unter den Bäumen für
die Regration nach Himmelsgewalt. Es verwendet die Abstimmung für die Regreationag-Mittelwertbildung, um Vorhersagen zu treffen. Was sind die Vorteile
von Random Forest? Dadurch wird die Überausstattung, also
die Einschränkung
bei der Wache, verringert die Einschränkung
bei der Wache Die Random Forest
neigen weniger zu Überanpassungen als
die einzelnen Disses Verbesserte Generalisierungen
und Robustheit in Bezug auf die Bedeutung von Datenmerkmalen. Random Forests bieten
Einblicke in die Bedeutung von Merkmalen und helfen so bei der
Merkmalsauswahl. Anwendungen von Random Forest. Random Forests sind in
vielen Bereichen wie
Bildanalyse,
Finanzen, Ökologie,
Marketing und Gesundheitswesen
weit verbreitet vielen Bereichen wie
Bildanalyse, . Bei der Analyse
können Objekterkennung, Bildklassifizierung Bildklassifizierung
und Merkmalsextraktion im Finanzwesen eingesetzt werden. Auch hier können Aktienkurse vorhergesagt
und Betrug mit
Kreditrisiken
aufgedeckt werden. Ökologie, wir mögen die Modellierung der
Artenverteilung und Bewertungen können im Marketing durchgeführt werden, im Gesundheitswesen können
Kundenprognosen und
-empfehlungen durchgeführt werden, um den
Behandlungserfolg vorherzusagen und G-Diagnosen Okay, was ist die Schlussfolgerung? Diese beiden dynamischen Wachposten
und der Random Forest sind in der Welt
des maschinellen Lernens dynamisch Gentry bietet
zwar eine
höhere Genauigkeit
und Robustheit, aber das
Verständnis des
Baumalgorithmus und
seiner Anwendung bietet
Datenwissenschaftlern und Praktikern des
maschinellen Lernens leistungsstarke Tools
zur Lösung realer
Probleme in verschiedenen Bereichen. höhere Genauigkeit
und Robustheit, aber das
Verständnis des
Baumalgorithmus und seiner Anwendung bietet
Datenwissenschaftlern und seiner Anwendung bietet
Datenwissenschaftlern und Praktikern des
maschinellen Lernens leistungsstarke Tools
zur Lösung realer
Probleme eine
höhere Genauigkeit
und Robustheit, aber das
Verständnis des
Baumalgorithmus und
seiner Anwendung bietet
Datenwissenschaftlern und Praktikern des
maschinellen Lernens leistungsstarke Tools
zur Lösung realer
Probleme in verschiedenen Bereichen. Da datengestützte Entscheidungsfindung weiterhin Strom spart, sorgen
die Vielseitigkeit und Effektivität
von Entscheidungsbäumen und
Random Forest dafür, dass
sie im Bereich des dass
sie weiterhin Strom spart, sorgen
die Vielseitigkeit und Effektivität
von Entscheidungsbäumen und
Random Forest dafür, dass
sie im Bereich des maschinellen Lernens weiterhin relevant sind. Bei diesen beiden Algorithmen handelt es sich um die
sehr, sehr wichtigen Algorithmen für maschinelles Lernen
Decente und Random Forest Ich hoffe, wir haben die Grundlagen
dieser beiden Themen behandelt, siehe Vorlesung.
135. Support-Vektor-Maschinen-Algorithmus: Hallo und willkommen zurück. In dieser Vorlesung
werden wir etwas
über Support Vector Machine lernen . Okay, lass mich okay,
ignoriere diesen. Okay? Wir werden etwas über den Algorithmus zur Unterstützung von
Vektormaschinen lernen. Unterstützt Vector Machine oder SPM. In, so nennen wir es, ist einer der beliebtesten
Algorithmen für
überwachtes Lernen, der sowohl für Klassifikations- als
auch für Regressionsprobleme
verwendet wird für Klassifikations- als
auch für Regressionsprobleme
verwendet erster Linie wird
er jedoch für
Klassifikationsprobleme beim maschinellen Lernen verwendet In erster Linie wird
er jedoch für
Klassifikationsprobleme beim maschinellen Lernen verwendet, er kann sowohl für
Regression als auch für Klassifikation verwendet werden, aber in erster Linie verwenden wir ihn nur zur
Klassifizierung, okay? In den meisten Fällen, die Sie für
Klassifikationsprobleme
verwenden werden, kann
SPM also für
die Klassifizierung verwendet werden den meisten Fällen werden in 99%
der Fälle
ein oder 2% von 5% verwendet . Es gibt Fälle , in denen Sie es weiter verwenden
können,
es gibt Fälle, in denen Sie es weiter verwenden
können Regressionsprobleme auch, aber das ist
in der realen Welt sehr selten, okay? Das Ziel des
SBM-Algorithmus besteht darin,
die beste Entscheidungslinie zu erstellen ,
die dimensionalen Raum in
Klassen unterteilen kann, sodass wir den neuen Datenpunkt
in Zukunft
problemlos in die richtige Kategorie Diese Grenze für die beste Entscheidung
wird Hyperlane genannt. Es ist, als würde man eine
Hyperle erstellen, eine Linie erzeugen. Nehmen wir an, Sie zeichnen
die Datenpunkte im X- und
Y-U-Raum und zeichnen, wir es bei der
linearen Regression gesehen haben Wir haben eine Linie gezogen, die die Datenpunkte
auf die gleiche Weise
teilt Außerdem wird es versuchen, eine Linie zu
finden, die den Datensatz teilen
kann. Das ist okay Das ist das Ziel des SPM. Die Grenze der Diktion wird Hyperlinie
genannt. Spm wählt die
extremen Datenpunkte oder Vektoren aus, die bei der
Erstellung der Hyperlinie helfen Extremfälle werden
als Unterstützungsvektoren bezeichnet. Sbm. Der
Maschinenalgorithmus von Support Vector wählt die extremen Datenpunkte oder Vektoren aus, die
bei der Erzeugung der Hypo helfen Diese Extremfälle werden
als Support Vector bezeichnet. Es werden zuerst
die Extrempunkte
oder Vektoren gefunden , und diese Vektoren
werden als Stützvektoren bezeichnet. Für die Erstellung des
Hyperline-Algorithmus wird der Begriff Support Vector Machine Okay, die
Stützvektoren zu finden, das ist der Grund, warum dieser Algorithmus als Support
Vector Machine bekannt
ist Sehen Sie sich das folgende
Diagramm an, in dem es zwei verschiedene
Kategorien
gibt , die anhand der
Abstammungsgrenze oder des Hypes
klassifiziert werden . Siehe hier. Jetzt haben wir X eins und X zwei. Und hier können Sie dort sehen, dass dies die maximale Margenlinie ist. Diese Linie ist die maximale
Randlinie und dies ist der
positive Hyperlinie-Hyperlink mit maximalem Rand Dies sind die Unterstützungsvektoren. Dies sind die Unterstützungsvektoren. Diese Punkte, die
wir gefunden haben. Dies sind die Unterstützungsvektoren. Okay? Diese Seite,
das ist negativ. Hypolositiveypolineximumrgin
wird die Hyperspur sein, maximaler Rand, hyperlinear, siehe hier. Nun, diese Hyperspur teilt diese beiden Sollwerte, richtig? Diese Punkte werden
als Unterstützungsvektoren bezeichnet. Okay, zuerst finden wir
den Unterstützungsvektor und mit den Unterstützungsvektoren werden wir
versuchen, den Hyperlink zu finden Bm kann anhand des
Beispiels verstanden werden , das wir im
Canine Classifier verwendet haben Nehmen wir an, wir sehen eine seltsame Katze , die auch einige
Merkmale eines Hundes aufweist Nehmen wir an, wir haben
ein Bild von einer Katze, die einige zystische
Merkmale des Hundes aufweist Wenn wir außerdem ein Modell benötigen
, das genau erkennen
kann, ob es sich um einen Katzenhund handelt, kann ein
solches Modell mithilfe eines Algorithmus
erstellt werden Wir werden
unser Modell zunächst mit vielen Bildern
von Katzen und
Hunden trainieren unser Modell zunächst mit vielen Bildern
von Katzen und , sodass es mehr über die
verschiedenen Eigenschaften
von Katzen und Hunden lernen kann . Und dann testen wir es mit
dieser seltsamen Kreatur, die sowohl
mit Katze als auch mit Hund vergleichbar ist, aber in Wirklichkeit ist es eine Katze. Da der Unterstützungsvektor
eine klare Grenze
zwischen diesen beiden Daten schafft , wählen
Katze und Hund
Extremfälle, also Unterstützungsvektoren. Es wird den Extremfall von Katze und Hund auf der Grundlage
von Unterstützungsvektoren untersuchen. Es wird sie als Katze klassifizieren. Betrachten Sie das folgende Diagramm. Sehen Sie sich diese früheren Etikettendaten an. Das sind die schnellsten Daten wie das ist Hund
und das ist eine Katze. Hier erstellen wir ein Modell
und schulen es darin
, dass es sich bei dieser Kreatur um einen Hund
und bei dieser Kreatur um eine Katze handelt. Es liest alle
Merkmale
dieser beiden Bilder und unser Modell
wird gerade trainiert. Unser
Vorhersagemodell wird vorhersagen , dass es sich um eine Katze handelt. Wie es funktionieren wird. Nehmen wir an, wir geben
ein Bild, das sowohl der
Katze als auch dem Hund
sehr ähnlich ist. Es hat einige Merkmale eines Hundes. Außerdem wird
es die extremen
Merkmale einer Katze erkennen. Es wird die
Merkmale einer Katze klassifizieren. Es wird klassifizieren, es wird
anhand
der Merkmale, der extremen Merkmale,
die Hyperspur finden Hyperspur anhand
der Merkmale, der extremen Merkmale,
die Es wird entscheiden, ob
es eine Katze oder ein Hund ist. Das Extrem wird mit der Katze
übereinstimmen. Es wird diese extremen Merkmale kategorisieren, als ob sie nicht mit der
Katze übereinstimmen Dann wird es
das als Hund mit dem Premierminister kategorisieren, sogar mit dieser seltsamen Katze, die dem Hund B
sehr
ähnlich ist. Mit Hilfe der
Hilfsvektoren und dem Hyperlink, dass
es sich um eine Katze und nicht um einen Lassen Sie uns das Beispiel verstehen:
Unterstützende Vektormaschinen, wie Anwendungen von
Support Vector Machine, können
SBM für
die Bildklassifizierung verwendet werden Wie wir gerade gesehen haben, wurden
SBM zur
Bildklassifizierung verwendet Aufgaben wie
Handschrifterkennung und
Objekterkennung, wie Stimmungsanalyse, Spam-Erkennung und
Dokumentkategorisierung Bio, Poetik und PMs werden Erkennung von
Proteinfalten, zur
Genklassifizierung und G-Diagnose
eingesetzt Genklassifizierung Im Finanzsektor werden PMs
zur Kreditkodierung, zur Börsenprognose und zur Erkennung von Krediten im Gesundheitswesen Sie wurden bei
der Diagnose und Prognose der GD auf der
Grundlage der medizinischen Daten verwendet . Die Verarbeitung
natürlicher Sprache
und LP SPM spielen eine Rolle bei Erkennung
benannter Entitäten
und Lassen Sie uns verstehen, welche Arten von
SPM es gibt. Es gibt zwei Arten von Spm. Die erste ist die
lineare Regression. Das nichtlineare SPM kann in zwei Typen
eingeteilt werden:
lineares SPM, ich sagte Regression,
es ist SBM, lineares SPM und nichtlineares SPM . Lineares SBM wird für linear trennbare Daten verwendet. Das heißt, wenn ein Datensatz
mithilfe einer einzigen geraden Linie in zwei Klassen
eingeteilt werden kann in zwei Klassen
eingeteilt , dann wird der hier verwendete
Klassifikator als linearer
SPM-Klassifikator
bezeichnet verwendete
Klassifikator als linearer
SPM-Klassifikator dann wird der hier verwendete
Klassifikator als linearer
SPM-Klassifikator
bezeichnet. Wenn es sich bei den Daten um einen
linearen Klassenkampf handelt, können
wir die Daten anhand einer
linear trennbaren Hyperspur, einer geraden Linie,
klassifizieren. Dann spricht man von ziemlich linear trennbaren geraden Daten. Und der hier verwendete Klassifikator wird als linearer SBM-Klassifikator bezeichnet . Lineare nichtlineare SVM wird für nichtlinear
getrennte Daten verwendet Wenn der
Datensatz also nicht anhand
einer geraden Linie
klassifiziert werden kann , solche Daten als nichtlineare Daten bezeichnet Der in diesem Fall verwendete Klassifikator wird als
nichtlineares SPM bezeichnet. Wir werden sehen, wie sich diese beiden unterscheiden. Okay, Hyperlane und
unterstütze Vektoren. Im SPM-Algorithmus wissen
wir, was
Hyperlinie ist , und wir
zeichnen Hyperlane Es kann mehrere Linien
oder Entscheidungsgrenzen geben, um Klassen im
n-dimensionalen Raum zu
trennen, aber wir müssen die
beste Entscheidungsgrenze herausfinden, die uns
hilft, den Datenpunkt zu Diese beste Grenze wird
als Hyperlane von SPM bezeichnet. Die Abmessungen der Hyperebene hängen von den im Datensatz
vorhandenen Merkmalen Das heißt, wenn es
zwei Merkmale gibt , wie im Bild
gezeigt, ist
die Hyperlinie eine gerade Wenn es drei Merkmale gibt, Hyperlinie die
zweidimensionale Ebene Okay? Wir erstellen immer, dass eine
Hyperlinie einen maximalen Rand hat,
was den
maximalen Abstand
zwischen den Datenpunkten bedeutet zwischen den Datenpunkten Okay? Okay. Vektor unterstützen. den Datenpunkten handelt es sich um Vektordaten, die der Hyperlinie am nächsten beeinflussen
die Position
der Hyperlinie, die sich sehr
nahe an der Hyperlinie
befinden, wirken sich sehr effektiv auf die
hyaline Position
der der Bei diesen Datenpunkten handelt es sich um Vektoren, die als Stützvektoren bezeichnet
werden,
da diese Vektoren den Hyperleupportvektor unterstützen da Okay, wie funktioniert SPM? Zuerst sehen wir uns die lineare SVM an. Die Funktionsweise des SPM-Algorithmus
kann anhand eines Beispiels verstanden werden Nehmen wir an, wir haben einen
Datensatz zwei Feldern, grün und blau Hier haben wir
diese beiden Farben Braun
und Hellbraun genommen diese beiden Farben Braun
und Hellbraun Okay? Der Datensatz
hat zwei Merkmale, X eins und t. Ich möchte das Paar x den Mais
klassifizieren , entweder grün oder blau Angenommen, das ist grün
und blau, okay? Die Farben habe ich hier
etwas falsch geschrieben, Grau und helleres Grau, okay? Okay, nehme an, das ist
blau und grün, okay? Nun, im Zwei-D-Raum, mit
nur einer geraden Linie, können
wir
diese beiden Klassen leicht trennen, oder? Wir können hier eine Linie ziehen. Wir können eine solche Linie ziehen. Und diese beiden grünen und
blauen Farben können wir trennen, aber es kann mehrere Linien die die einzelnen
Klassen voneinander trennen können. Betrachte sie. Wir können dieses Bild zeichnen, ein
rotes, das sind auch die beiden. Ich kann eine solche Linie ziehen. Ich kann
auch hier eine andere Linie ziehen , die das klassifizieren
kann Ich kann
hier auch eine weitere Linie ziehen, die klassifiziert, es kann mehrere Linien die diese Klassen trennen können Daher
hilft der Pm-Algorithmus dabei, die beste Linie zu finden, oder wurde diese beste Grenze
hier Hyperlinie genannt Jetzt können wir mehrere Linien haben, so wie das Ziel
darin besteht, die
beste Linie für die Herstellung zu finden beste Linie für die Herstellung zu Okay? Diese Region wird
Hyperled-Supportvektoren genannt Dies sind die blauen
und grünen Punkte sind die Unterstützungsvektoren Okay? Der Abstand zwischen Vektoren und dem Rand mit
Hyperlinks, siehe hier die Stütze, dieser Abstand wird Rand genannt Okay? Dieser
Abstand zwischen dem Stützvektor und der
Hypospur wird als Rand bezeichnet diesen Spielraum zu maximieren, hypolimrginlledptimhyplaneeowf, versuchen Sie, hier eine Linie zu setzen, Um diesen Spielraum zu maximieren,
hypolimrginlledptimhyplaneeowf, versuchen Sie, hier eine Linie zu setzen,
der Abstand wird geringer sein. Wenn Sie hier eine Linie setzen, wird der Rand hier geringer sein. Wenn wir diese Linie betrachten, der Abstand von
hier und von hier aus maximal. Von jedem Punkt aus ist
der Abstand zwischen den Stützvektoren und der
Ebene maximal. Das ist die optimale
Hyperliniensuche,
richtig, die Entfernung dieser Punkte zwischen den Vektoren und dem Rand
der Hyperlinie Und das Ziel von SPM ist es, diesen Spielraum
zu maximieren. Die Hyperlinie mit
maximalem Spielraum wird als
optimale optimale Hyperlinie bezeichnet optimale optimale Hyperlinie Dies ist das optimale
Hypollene, das wir finden. Jetzt kommt nichtlineares SPM. Wenn die Daten
linear angeordnet sind, können wir sie
mithilfe einer geraden Linie trennen Bei nichtlinearen Daten können
wir keine
einzige gerade Linie zeichnen Bedenken Sie dasselbe, die
blauen Punkte sind auch hier. Auch hier
und grüner hier. Nun, wir können keine
gerade Linie ziehen, die
blaue und grüne Punkte in
eine separate Region einteilt, oder? Einige Punkte werden sich in
jeder der Regionen befinden. Eine geradlinige Klassifizierung
ist hier nicht möglich, oder? In diesem Fall müssen
wir, um
diese Datenpunkte zu trennen, eine
weitere Dimension hinzufügen. Für lineare Daten haben wir
zwei Dimensionen verwendet, x und y. Für die nichtlinearen Daten fügen
wir eine dritte Dimension hinzu, mit dieser Formel berechnet
wird, egal ob x zum Quadrat plus q. Wir werden hier eine weitere
Dimension hinzufügen, weil es in den beiden Dimensionen nicht möglich ist, dies zu
klassifizieren, zu trennen, eine Linie mit getrennten
grünen und blauen Punkten
zu zeichnen, wir werden Eine weitere Dimension hinzufügen , nämlich die Jet-Dimension Und diese Jetpoints werden bei dieser Formel
berücksichtigt. Jetcall zu X zum Quadrat
plus Y zum Quadrat. Okay? Also gibt es für jedes X und Y einen Jet-Punkt, und der wird
durch X zum Quadrat plus Y zum Quadrat berechnet Okay? Durch das Hinzufügen der
dritten Dimension wird
der Probenraum
wie dieses Bild hier aussehen. Jetzt sind x y und tiefblau
hier und grün jetzt. Wir können hier sehen, wir können sehen, dass es derzeit
zwei Regionen gibt. Sbm wird den
Datensatz in Klassen einteilen. Im Satz auf folgende Weise
in Klassen. Das wird die beste
Hyperspur sein, die wir zeichnen können, und das wird
die Datenpunkte trennen, Blip Lane auf dieser Seite
der Hyperlane, da wir uns im Raum befinden, also sieht es aus wie eine Ebene parallel zur
X-Achse Wenn wir es in einen
Raum umwandeln und Gal in eins, dann wird es so werden Okay? Wenn wir
davon ausgehen, dass es im Raum ist, wenn wir einen anrufen, dann wird es
so werden, okay? Somit erhalten wir einen
Umfang mit Radius eins. Bei nichtlinearen Daten können wir auf
diese Weise
die beste Hyperspur in einem
kreisförmigen Objekt finden , oder? Umfang eines
Umfangs mit Radius eins. Sehen Sie auf diese Weise innerhalb des Kreises grün und außerhalb des
Kreises blau, diese kreisförmige Hyperlinie, die
wir für diese Daten erhalten können Okay, ich hoffe, wir haben
verstanden, wie SPM funktioniert. Schauen Sie in der nächsten Vorlesung nach.
136. Regressionsanalyse verstehen: Hallo und willkommen zurück. Also, ich bin Sohn und ich bin zurück mit dem neuen
Update für diesen Kurs. Also in dieser
Vorlesungsreihe , die ich jetzt hochladen
werde, werden
wir die
Regressionsanalyse im Detail behandeln Als Erstes werden wir mit den Grundlagen
beginnen und diese Vorlesungsreihe
wird in den kommenden Wochen erscheinen Möglicherweise werden Sie in
diesem Kurs über den Austausch von Fähigkeiten regelmäßig
Neuigkeiten erfahren. Lassen Sie uns also anfangen. Das erste ist also ein
Überblick über die Regressionsanalyse. Was ist also Regressionsanalyse. Regressionsanalyse ist
eine statische Technik verwendet wird, um
die Beziehung
zwischen einer abhängigen Variablen und
einer oder mehreren
unabhängigen Variablen zu verstehen zwischen einer abhängigen Variablen und einer oder mehreren Es handelt sich also einfach um eine Analyse
der Beziehung zwischen der abhängigen und einer oder mehreren
unabhängigen Variablen Sie können also verstehen
, dass der Herzinfarkt
für einen Patienten von mehreren
Variablen
abhängt . Hier ist ein
Herzinfarkt eine
abhängige Variable. Das hängt von einer oder mehreren unabhängigen
Variablen wie Ihrem Alter, Ihrem Lebensstil, Ihrer Bewertungsgewohnheit
und anderen Faktoren ab, z. B.
wenn Sie Diabetiker sind oder Sie irgendwelche genetischen
Probleme in
der Vorgeschichte des Herzinfarkts
in Ihrer Familie
haben der Vorgeschichte des Herzinfarkts
in Ihrer Familie Es gibt mehrere
unabhängige Variablen , die sich auf
die Wahrscheinlichkeit
eines
Herzinfarkts bei einem Patienten auswirken Wahrscheinlichkeit
eines
Herzinfarkts bei einem Patienten Hier sind Herzinfarkt und
Herzinfarkt
abhängige Variablen, und alle anderen Gesundheitssymptome oder Ihr Lebensstil oder
die bestehenden Krankheiten
sind die sind Regressionsanalyse ist also ein
statistisches Verfahren, das verwendet wird , um die
Beziehung zwischen
diesen abhängigen und unabhängigen Variablen zu verstehen diesen abhängigen und unabhängigen Variablen Ich hoffe, ich habe es sehr deutlich gemacht. Jetzt haben Sie
verstanden, wie wir das machen. Daher ist es in
verschiedenen Bereichen
wie Wirtschaft,
Finanzen, Sozialwissenschaften
und Gesundheitswesen weit verbreitet verschiedenen Bereichen
wie Wirtschaft,
Finanzen, . Also, das Gesundheitswesen habe
ich dir schon, äh, gegeben. In der Wirtschaft, auch
im Finanzwesen, können
Sie sehen, ob Sie
in einige Aktien investieren und
so, Ihr Gewinn und Verlust
werden von den abhängigen Variablen
und der Marktstimmung
und all den anderen Dingen abhängen, wie die Nachrichten und alles, was
die Aktienkurse beeinflusst, die eine oder mehrere
unabhängige Variablen
sein werden die eine oder mehrere
unabhängige Variablen
sein Gesundheitswesen, um Ergebnisse
auf der Grundlage der Eingabevariablen zu modellieren und vorherzusagen In diesem Abschnitt werden wir uns mit
den Grundlagen der
Regressionsanalyse sowie mit Typen,
Sprüngen und Anwendungen befassen . Jetzt werden wir es auf mathematische
Weise verstehen. Was ist Regressionsanalyse? Im Kern zielt die
Regressionsanalyse also darauf ab, zielt die
Regressionsanalyse also darauf die Beziehung
zwischen abhängigen Variablen,
oft mit y bezeichnet, und einer oder
mehreren unabhängigen Variablen, die mit x eins, x zwei usw.
bezeichnet werden,
abzuschätzen oft mit y bezeichnet, und einer oder
mehreren unabhängigen Variablen, die mit x eins, x zwei usw.
bezeichnet werden, Okay. Die Beziehung wird typischerweise durch
eine Gleichung der Form dargestellt. Es ist eine lineare Gleichung, bei der y gleich Beta
Null plus Beta eins zu x
eins plus Beta zwei zu x t
plus Beta drei zu x drei ist, und so weiter bis Beta n
zu x plus Epsilon Okay. Beta Null ist Interzeptor, wobei x eins, x und y sich abschneiden und
Beta eins,
Beta zwei und B
der Koeffizient sind , der die Anstrengungen
der unabhängigen Variablen
darstellt , wie sich unabhängige Variablen auswirken
werden Dies ist ein Fehlerterm, der die
Differenz zwischen dem Objekt und den
vorhergesagten Werten
darstellt Objekt und den
vorhergesagten Also was wir beobachten
und was wir vorhersagen. Was ist der vorhergesagte Wert
und was ist der Objektwert? Der Unterschied wird darin bestehen, dass wir den Fehlerterm nennen. Fehlerterm ist das, was wir
vorhergesagt haben und welches Ergebnis
genau erzielt wurde. Nehmen wir an, wir
sagen voraus, dass wir einen Gewinn von sechs 50 haben, aber wir stellen fest, dass wir einen Gewinn von 500 erzielt
haben Also sechs 50 -501 50
wäre der Fehlerbegriff, ganz einfach, wenn ich das
erkläre Okay? Also Art der
Regressionsanalyse, einfache lineare Regression, von der wir alle wissen
, dass sie
eine einzige unabhängige
Variable und
eine lineare Beziehung zu
der abhängigen Variablen beinhaltet eine einzige unabhängige
Variable und eine lineare Beziehung zu
der abhängigen Wenn Sie es sich also ansehen,
wird es sehr einfach sein, X, Y zu
grafieren, und es wird eine Linie geben, die durch das Diagramm verläuft, oder
? Und dann kommt die multiple
lineare Regression, die sich mit
mehreren unabhängigen
Variablen und
einer linearen Beziehung
zur abhängigen Variablen befasst mehreren unabhängigen
Variablen und einer linearen Beziehung
zur abhängigen Variablen Dann kommt die polynomielle
Regression, die eine Kurve an
die Daten anpasst , indem
Polynomterme der unabhängigen Variablen eingeführt werden Polynomterme der unabhängigen Variablen Und dann ist die letzte
die logistische Regression, die
sehr beliebt ist und bei
binären
Klassifikationsproblemen verwendet wird, bei denen die binären
Klassifikationsproblemen abhängige Variable kategorial ist. Wir werden sehen, wie wir
all das erreichen können und wie wir das gesamte logistische
Ponmialmultiple und die einfache
Regression
verstehen und entschlüsseln
können logistische
Ponmialmultiple und die einfache
Regression Nun zu den Anpassungen der Regressionsanalyse. Damit die Regressionsanalyse genaue Ergebnisse
liefert, müssen bestimmte Die erste ist Linearität. Linearität. Die
einfache Beziehung zwischen den abhängigen und unabhängigen Variablen
sollte linear sein Die erste Ausnahme ist also, dass
die Beziehung zwischen den abhängigen und unabhängigen
Variablen linear sein sollte. Dann
ist das zweite As Unabhängigkeit. Beobachtungen sollten
unabhängig voneinander sein. Die nächste ist Homosesticity Die Varianz des
Fehlerterms sollte
auf allen Ebenen der unabhängigen Variablen konstant sein auf allen Ebenen Dann kommt die Normalität. Der Fehlerterm sollte
einer Normalverteilung folgen. Der Fehlerterm
, den wir
hier E gesehen haben, sollte also der
Normalverteilung folgen. Dann kommt die Multikolinearität. Die unabhängigen
Variablen sollten nicht
stark miteinander korreliert
sein stark miteinander korreliert Also, was ich in
der nächsten Vorlesung tun werde, werde
ich kurz erklären, was Normalität
und Multikolinearität und Homocd ,
damit Sie Vorerst musst du nur der Vorlesung folgen. Keine Multikolinearität bedeutet also, dass die unabhängigen
Variablen nicht stark miteinander
korreliert wären . Anwendungen der Regressionsanalyse. Also, wie ich schon sagte, Ökonomie zur Kalkulation der Nachfrage und Analyse der
Preiselastizität, dann können
wir sie im Finanzwesen verwenden, um die Aktienkurse
vorherzusagen
und die Risikofaktoren zu bewerten In den Sozialwissenschaften können
wir damit die Auswirkungen
von Interventionen
untersuchen und die Umfragedaten analysieren Umfragedaten für die
Sozialfürsorge, dass die Regierung
all diese Dinge durchführt können
wir mit der
Regress-Analyse tun Und dann können
wir im Gesundheitswesen die
Behandlungsergebnisse vorhersagen, können
wir im Gesundheitswesen die
Behandlungsergebnisse vorhersagen den Risikofaktor für
eine bestimmte Erkrankung
einschätzen , wie wir es bereits beim Herz
besprochen haben Ausgrabungen, welche Ausgrabungen Sie auch immer anhand der
Daten vorhersagen können. Das Fazit dieser Vorlesung lautet:
Die
Regressionsanalyse ist ein
leistungsstarkes statistisches Verfahren, Regressionsanalyse ist ein
leistungsstarkes statistisches Verfahren Beziehungen zwischen
Variablen
zu modellieren und Durch das Verständnis
ihrer Grundlagen, Erweiterungen und Typen nutzen, können
Analysten wie
Geschäftsanalysten und Datenwissenschaftler sowie Ressourcen die
Regressionsanalyse effektiv um
Erkenntnisse aus den Daten zu gewinnen und
fundierte Entscheidungen in verschiedenen Bereichen zu treffen fundierte Entscheidungen Sobald Sie also das Konzept
der
Regressionsanalyse verstanden haben , können
Sie es für jeden Bereich verwenden, können
Sie es für jeden Bereich verwenden Erkenntnisse aus
den Daten
zu gewinnen den Daten Das ist also ein sehr mächtiges Werkzeug
, das wir lernen werden. In der nächsten Vorlesung werden
wir also mehr
über die Regressionsanalyse lernen über die Regressionsanalyse Also in der nächsten Vorlesung.
137. Verständnis für lineares Regressionsmodell: Hallo und willkommen zurück. In dieser Vorlesung werden
wir also
etwas über das lineare
Regressionsmodell lernen lineare Regression ist also eine
der grundlegenden Techniken, die Statistik
und im maschinellen Lernen
verwendet werden Und dies wird verwendet, um
die Beziehung zwischen
der abhängigen Variablen und
einer oder mehreren
unabhängigen Variablen zu modellieren der abhängigen Variablen und einer oder mehreren
unabhängigen Variablen Das haben wir in
der vorherigen Vorlesung
gelernt die
Regressionsanalyse verstanden lineare Regression ist also eines der Modelle der Regressionsanalyse In diesem Artikel werden wir uns mit
der Mechanik der linearen Regression befassen der Mechanik der linearen Regression Es ist eine Ausnahme und
wie man
die Modellparameter interpretiert und wie man
praktische Lass uns anfangen.
Die lineare Regression verstehen lineare Regression zielt darauf ab, eine lineare Beziehung
zwischen der unabhängigen Variablen
x und der abhängigen Variablen y
anzupassen . Die Beziehung wird typischerweise durch die Gleichung
dargestellt y ist gleich Beta Null
plus Eins in x plus e,
wobei y eine abhängige Variable ist, x eine unabhängige Variable ist Beta Null ist der Interzem das ist der Wert von
y, wenn Und Beta Eins ist der
Steigungskoeffizient, wobei die Änderung von Y
bei einer Änderung von x um eine Einheit das Eratom ist, von dem wir bereits wissen,
dass Diskrepanz zwischen dem
Zielwert und den vorhergesagten Werten
darstellt .
Jetzt ist es klar Wenn ich zeichnen kann, okay. Hier gibt es kein Zeichenwerkzeug. Lass mich überprüfen, ob ich hier zeichnen kann. Okay. Lass mich hier eine Stecknadel öffnen. Also, wenn ich Ihnen das sagen kann, das ist die X-Achse, und das wird die Y-Achse sein. Das heißt, das ist Y, und lineare Regression bedeutet eine
Regressionslinie wie diese
zu
finden, wobei x gleich y ist Diese Linie
wird y gleich sein, lass mich. Wir setzen B Null plus B eins, x plus. Sie können es also so verstehen, y gleich Beta
Null plus P1x plus ist Hier, wo wir hier
verstehen werden, ist
Beta Null der
Achsenabschnitt, wobei y der Wert von y ist, wenn
x gleich Null ist Wenn du also hierher gehst, ist x Null, und wenn du
von hier aus abfängst, so. Hier ist x Null und y,
von hier nach hier, Die Site B Null oder B t
Null. Was auch immer du kannst. Das ist B Null und Beta Eins ist
die Änderung von Y für eine Einheit
der Änderung der x-Steigung. Wenn du also hier siehst, wie du dich von hier nach hier bewegst, und dann von hier, so
wird das die Steigung sein, wird diese Steigung die B sein. Ist der Fehler Tom, wird der Fehlerbegriff
sein. Nehmen wir an, wir sagen hier einen Wert voraus und wir widersprechen hier etwas, sodass der Unterschied
der Wert ist. Das ist die Regressionsgerade. Lassen Sie mich
Ihnen sagen , dass diese Linie die
Regressionslinie ist Diese Linie ist die Regresslinie. Okay. Das ist die
Geradengleichung, y ist gleich x plus c
, das kannst du auch verstehen. Ich hoffe, das ist klar. Die nächsten Amptons für die
Redia-Regression für die
lineare Regression,
um eine zuverlässige Zahl zu liefern,
müssen mehrere Ampton Redia-Regression für die
lineare Regression reichen . Die erste ist Linearität,
Unabhängigkeit, sadistische Normalität, keine perfekte Y-Kollinearität . Linearität, wir haben
bereits verstanden, wo zwischen Denn wenn wir x und y zeichnen, sollten
wir eine gerade Linie erhalten Das ist also Linearität. Unabhängigkeit, die Beobachtungen
sollten unabhängig voneinander sein und Homo Sadizität ist die Varianz des
Fehlerterms, die auf allen
Ebenen der x-Normalität
konstant sein sollte auf allen
Ebenen der x-Normalität
konstant Die Fehlerterme sollten
einer Normalverteilung folgen und keine perfekte Multikonearität Die unabhängigen
Variablen sollten nicht
perfekt
miteinander korreliert sein , okay Dann und keine perfekte Multikonearität aufweisen.
Die unabhängigen
Variablen sollten nicht
perfekt
miteinander korreliert sein, okay Dann die Modellparameter interpretieren. Fangen Sie hier Beta-Null Der Achsenabschnitt Beta Null, Beta Null, steht für Y,
wenn x gleich Null ist, was nur dann von Bedeutung ist, wenn
es in
den Bereich der
Daten fällt Steigung Beta eins,
die Steigung, die wir hier beobachtet haben, Beta eins, gibt die Änderung Y für eine Änderungseinheit von x an. Wenn wir
also bei der Bewegung sehen können,
ob wir dieses X sehen können, dann ist dies Lass mich die Farbe ändern. Für dieses x, für dieses
x wird das y sein. Das ist es, was es aussagt,
oder Änderung von y,
für eine Änderung der Einheit von x deutet eine positive Steigung darauf hin,
dass oder Änderung von y,
für eine Änderung der Einheit von x deutet eine positive Steigung darauf hin, die positive rec-negative Steigung den negativen Relevanz-Wirkungsgrad der
Bestimmung r zum Quadrat der Bestimmung
angibt ,
gemessen für den Anteil der Varianz in der abhängigen Variablen, der anhand der unabhängigen Variablen
vorhersagbar ist . Ein höherer Wert für das R-Quadrat weist auf eine bessere
Anpassung an das Modell Praktische Überlegungen zur
Modellevaluierung ermitteln von Matrizen
wie
dem quadratischen Mittelwert (MSC), dem quadratischen Mittelwert (RMS) und dem quadratischen R-Wert (
R) die Güte anhand von Matrizen
wie
dem quadratischen Mittelwert (MSC), dem quadratischen Mittelwert (RMS) und dem quadratischen R-Wert (
R) die Güte der
Anpassung R Ausreißer und
Einflussfaktoren ermitteln und identifizieren und
behandeln die Ausreißer, die das Regressionsergebnis überproportional beeinflussen könnten . Prüfen Sie die Kolinarität zwischen unabhängigen Variablen mit mehreren Kololitäten und ziehen Sie eine
Korrektur in Betracht, falls sie verhindert ist. ist. Kreuzvalidierung: Validieren Sie
die Leistungsfähigkeit des Modells mithilfe von
Techniken wie der K-fachen Kreuzvalidierung, um die allgemeine Lesbarkeit sicherzustellen. Okay. Das lineare Regressionsmodell bietet auf einfache Weise einen
leistungsfähigen Rahmen für Verständnis und
die Modellierung der Beziehung zwischen den Variablen, indem es sich
an seine Annahmen hält, Modellparameter effektiv
interpretiert und
praktische Überlegungen berücksichtigt.
Analysten und Ressourcen können die lineare
Regression
nutzen, Analysten und Ressourcen können um
Erkenntnisse aus den Daten zu gewinnen Erkenntnisse aus den fundierte Entscheidungen
in verschiedenen Bereichen. Das sollten wir also über lineare Regression
wissen. Wir werden das Praktische auch mit
dem Kern unserer Programmierung machen , aber das wäre letzteres Zunächst werden wir die Grundlagen
verschiedener
Regressionsanalysemodelle
wie der linearen Regression
verstehen verschiedener
Regressionsanalysemodelle
wie der linearen Regression , dann werden wir uns auch mit der
multiplen Regression befassen Sehen Sie in der nächsten Vorlesung nach.
138. Heim-Skedastizität verstehen: Hallo und willkommen zurück. In diesem Vortrag werden
wir also etwas
über Mo Cdesticdy erfahren Homostatizität, auch
bekannt als Homogenität
der Varianz, ist also eine Summe linearer
Regression, die sich auf den Zustand bezieht
, bei
dem die Varianz des Fehlers oder eine Summe linearer
Regression, die sich auf den Zustand bezieht
, bei
dem die Varianz des der Residuen auf allen Ebenen der unabhängigen Variablen konstant ist. ist. Einfacher ausgedrückt bedeutet dies,
dass die Streuung der Residuen unabhängig vom Wert der unabhängigen Variablen gleich bleiben sollte . . Was ist also Homodastie Es ist die Homogenität
der Varianz,
und es ist ein Amson, das wir bei der linearen Regression
annehmen, und es bezieht sich auf die
Bedingung, dass die Fehler, diese Residuen, die wir berechnen, auf allen Ebenen der unabhängigen ?
Es ist die Homogenität
der Varianz,
und es ist ein Amson, das wir bei der linearen Regression
annehmen,
und es bezieht sich auf die
Bedingung, dass die Fehler, diese Residuen, die wir berechnen, auf allen Ebenen der
unabhängigen Variablen konstant bleiben. ?
Es ist die Homogenität
der Varianz,
und es ist ein Amson, das wir bei der linearen Regression
annehmen,
und es bezieht sich auf die
Bedingung, dass die Fehler, diese Residuen, die wir berechnen, auf allen Ebenen der
unabhängigen Variablen konstant bleiben. Unabhängig davon, welchen Wert Sie für die
unabhängigen Variablen
wählen, bleibt die Varianz der Fehler bzw. der Residuen konstant für die
unabhängigen Variablen
wählen, bleibt die Varianz der Fehler bzw. der Residuen konstant
. für die
unabhängigen Variablen
wählen, bleibt die Varianz der Fehler bzw. der Residuen konstant
. Ich hoffe, du hast das
erfahren, oder? Also, was ist die Bedeutung
von Homodatie? Homosestizität ist ein wichtiges Ajumton bei der linearen Regression,
da ein Verstoß gegen
diese
Ajumption da ein Verstoß gegen ist ein wichtiges Ajumton bei der linearen Regression,
da ein Verstoß gegen
diese
Ajumption zu einer verzerrten Parameterschätzung führen kann. Was passiert also, wenn wir diesen Homokaten einfach ignorieren? Wir erhalten die Schätzung, aber das wird die
Verzerrung der Unterparameter sein,
und das bringt Sie zu dem Test, der Ihnen falsche Standardfehler
und irreführende Hypothesen gibt .
Wenn
das Projekt der Homo Sadizität heterod vorliegt, kann das Modell
zu viel Wert auf
bestimmte Beobachtungen mit großen Residuen legen, kann das Modell
zu viel Wert auf
bestimmte Beobachtungen mit großen Residuen legen was zu aber das wird die
Verzerrung der Unterparameter sein,
und das bringt Sie zu dem Test,
der Ihnen falsche Standardfehler
und irreführende Hypothesen gibt.
Wenn
das Projekt der Homo Sadizität heterod vorliegt, kann das Modell
zu viel Wert auf
bestimmte Beobachtungen mit großen Residuen legen,
was zu unzureichenden Ergebnissen führt und unzuverlässige Schätzungen. Wenn wir also
diese Homodität ignorieren , werden wir uns der Heterodatität
zuwenden, die der Homodatie entgegengesetzt ist,
wenn diese
Heldentum in unserem Modell auftauchen wird,
was werden wir dann haben? Heterodatität
zuwenden, die der Homodatie entgegengesetzt ist,
wenn diese
Heldentum in unserem Modell auftauchen wird,
was wenn diese
Heldentum , werden wir uns der Heterodatität
zuwenden, die der Homodatie entgegengesetzt ist,
wenn diese
Heldentum in unserem Modell auftauchen wird,
was werden wir dann haben? Wir werden
mehr Wert auf die Beobachtung
mit den großen Residuen legen, was dazu führen wird mehr Wert auf die Beobachtung
mit den großen Residuen legen, was dazu führen , dass die effizienten Schätzungen unzuverlässig sind. sind. Schätzungen, und das
wird unser Modell
sehr inkonsistent und
wenig nützlich machen sehr inkonsistent und
wenig nützlich Um also
die Homosexualität zu identifizieren , gibt es zwei Dinge. erste ist ein Residuendiagramm und das zweite ist
ein Wir werden also verstehen,
was ein Residuendiagramm ist. Eine gängige Methode zur Diagnose der
Homo-Sadstizität besteht darin, die Residuen gegen
den
vorhergesagten Wert grafisch Unabhängig davon, welchen vorhergesagten
Wert wir erhalten stellen wir die Residuen
gegen die vorhergesagten Werte oder die unabhängigen Variablen
in einem Residuendiagramm dar.
Wenn
die Streuung der Residuen über den
gesamten Bereich, die vorhergesagten Werte oder unabhängigen Variablen grob
eingeengt zu sein scheint,
ist Homosexualität ,
stellen wir die Residuen
gegen die vorhergesagten Werte oder die unabhängigen Variablen
in einem Residuendiagramm dar.
Wenn
die Streuung der Residuen über den
gesamten Bereich, die vorhergesagten Werte oder unabhängigen Variablen grob
eingeengt zu sein scheint,
ist Homosexualität wahrscheinlich ausgeschlossen. ,
stellen wir die Residuen
gegen die vorhergesagten Werte oder die unabhängigen Variablen
in einem Residuendiagramm dar.
Wenn
die Streuung der Residuen über den
gesamten Bereich, die vorhergesagten Werte oder unabhängigen Variablen grob
eingeengt zu sein scheint,
ist Homosexualität wahrscheinlich ausgeschlossen. Wenn sich die Streuung der Residuen jedoch wie bei den vorhergesagten Werten vergrößert oder
verengt, kann
die Änderung der Heterodizität verhindert werden. Bei der zweiten Methode handelt es sich um den heidnischen Geschmack von Zahnspangen. Dies ist der statistische
Geschmack, der verwendet wird, um in der
Regressionsanalyse formal nach Homosdaität zu suchen Die Nullhypothese
des Brace Pagan Tests besagt, dass die
Varianz der Residuen konstant ist Varianz Bei der
Alternativhypothese handelt es sich bei der Varianz
der Residuen jedoch nicht um eine konstante Heterodiversität . Ein signifikantes Ergebnis deutet auf Hinweise auf Herosdiät hin. Okay. Was wird passieren? Was werden die Folgen einer Verletzung der Homosexualität Es wird zu einer voreingenommenen Schätzung kommen. Die Koeffizientenschätzungen können verzerrt
sein, wenn die Streuung
der Residuen
systematisch mit
den Werten der unabhängigen Variablen variiert den Werten der unabhängigen Variablen Falsche
Standardfehler: Es kann sein, dass die
Standardfehler
zu niedrig oder zu hoch
geschätzt sind, was zu
einem falschen
Konfidenzintervall und einem falschen Hypothesentest führt falschen
Konfidenzintervall und einem falschen Hypothesentest Bei effizienten Schätzungen
kann
die Effizienz
der Parameterschätzungen beeinträchtigt werden, Schätzungen
kann
die Effizienz
der Parameterschätzungen beeinträchtigt werden Aussagekraft der
Regressionsanalyse
zur Erkennung der wahren Beziehung
zwischen den Variablen
verringert zur Erkennung der wahren Beziehung
zwischen den Wenn die Homo-Sadastizität verletzt wird, können mehrere Lösungsansätze in Betracht gezogen werden . Transformation von
Variablen, die Transformation abhängigen oder
unabhängigen Variablen kann
dazu beitragen,
die Varianz der Residuen zu stabilisieren, gewichtetes Listenquadrat Die Transformation von
Variablen, die Transformation der abhängigen oder
unabhängigen Variablen kann
dazu beitragen,
die Varianz der Residuen zu stabilisieren, gewichtetes Listenquadrat. wird die gewichtete Litch
Square-Regression verwendet bei der die Beobachtungen auf der Grundlage
ihrer Varianz
gewichtet werden auf der Grundlage
ihrer Varianz
gewichtet Es wird die gewichtete Litch
Square-Regression verwendet,
bei der die Beobachtungen auf der Grundlage
ihrer Varianz
gewichtet werden und somit die sedierende Wirkung von Helden berücksichtigt werden kann. Zuverlässige Standardfehler und Methoden mit
Standardfehlern
können verwendet werden, um Standardfehler bei
Heldensedaten zu
korrigieren, ohne dass die spezifischen Fehler angenommen Heldensedaten Form der Varianzstruktur. Homosexualität ist also eine wichtige Ausnahme bei der
linearen Regression, die die Gültigkeit und
Zuverlässigkeit des Schätzmodells
gewährleistet Zuverlässigkeit Erkennung und Bekämpfung von
Verstößen gegen die Homosexualität ist unerlässlich, um genaue und vertrauenswürdige Regressionsergebnisse zu erzielen Die Erkennung und Bekämpfung von
Verstößen gegen die Homosexualität ist unerlässlich, um genaue und vertrauenswürdige Regressionsergebnisse zu erzielen
. Die Erkennung und Bekämpfung von
Verstößen gegen die Homosexualität ist unerlässlich, um genaue und vertrauenswürdige Regressionsergebnisse zu erzielen
. Das ist also Homodalität und wie wichtig es
ist , zu
verstehen, wie man sie identifiziert.
Es gibt zwei Möglichkeiten, und dann haben wir gesehen, welche Folgen eine Verletzung der Und dann haben wir gesehen , wie man mit der Homo-Sadastik umgehen kann. Es gibt drei Möglichkeiten der
Transformation von Variablen:
gewichtete Shed-Quadrate und
robuste Standardfehler Okay? In der nächsten Vorlesung werden
wir also sehen, was Normalität ist Also ist sie in
der nächsten Vorlesung.
139. Normalität verstehen: Hallo und willkommen zurück. In diesem Vortrag werden
wir also
verstehen, was Normalität ist Normalität ist eine Abkürzung
der linearen Regression, die sich auf
den Zustand bezieht
, bei dem die
Residuen oder Fehler des Wenn also die Fehler oder
die Residuen Residuen normalverteilt sind, spricht man von Normalverteilung. Mit anderen Worten
bedeutet dies, dass die Verteilung
der Residuen einer glockenförmigen
oder glockenförmigen
Kurve folgt einer glockenförmigen
oder glockenförmigen
Kurve folgt, die um Null zentriert ist. Die meisten Residuen befinden sich in der Nähe
des
Mittelwerts und weniger
Residuen in den Was bedeutet das eigentlich? Das heißt, wenn die
Fehler in unserem Modell oder die Residuen in unserem
Regressionsmodell normalverteilt sind.
Was bedeutet das? Normalverteilt
bedeutet, dass die Verteilung der Residuen
der Glockenschlupskurve folgt , wo sie
zentriert ist Sie ist zentriert. Alle
Pfeile sind um den Nullpunkt zentriert, wobei die meisten Residuen in der Nähe des Mittelwerts
gruppiert Also das meiste, wenn Sie auf die Glocke
schauen, wenn Sie auf die
Glocke schauen, wie sieht sie Es sieht so aus, oder? Okay. Lass mich einen Stift benutzen. Wenn du dir eine Glocke ansiehst, wird
sie so sein, oder? Nehmen wir an, sie wird
um diese Null herum zentriert sein. Und die meisten Werte bewegen sich in Richtung dieses
Mittelwerts, des Mittelwerts. Okay, das ist es also, was es bedeutet. Es sollte wie bei Glocken sein, wo sich die
meisten Werte befinden. Quer durch den Mittelwert der Werte. Gut geformte Kurve in der Mitte Nullpunkts, wobei sich
die meisten Pflanzen in der Nähe des Mittelwerts und weniger
Reste im Schwanz befinden. Nun also die Bedeutung von Normalität. Normalität ist eine wichtige
Ajumption-Regression, da
viele statistische Geschmacks
- und Schätzmethoden, die in der Regressionsanalyse
verwendet werden, auf der Ajumption viele statistische Geschmacks
- und Schätzmethoden in der Regressionsanalyse
verwendet werden der Normalität beruhen. Wenn die Residuen
normalverteilt sind, deutet
dies darauf hin, dass die Fehler zufällig und unabhängig sind und die Regressionskozentrierung effizient geschätzt wird . . Wie lässt sich Normalität
anhand des Residuendiagramms ermitteln Eine gängige Methode zur Bewertung
der Ausnahme von Normalwerten ist die Untersuchung eines Histogramms
oder eines Q Q-Diagramms,
eines Quantil-Quantil-Diagramms ?
Eine gängige Methode zur Bewertung
der Ausnahme von Normalwerten ist die
Untersuchung eines Histogramms
oder eines Q Q-Diagramms,
eines Quantil-Quantil-Diagramms der Residuen. in einem Q Q-Diagramm die Punkte ungefähr
entlang der diagonalen Linie liegen, Wenn in einem Q Q-Diagramm die Punkte ungefähr
entlang der diagonalen Linie liegen, deutet dies darauf hin, dass die Residuen
normalverteilt Alternativ
würde ein
Histogramm des Residuums einem B-Sep-Diagramm wie
diesem ähneln. Okay. Die nächste Methode
ist Sapiro K Taste. Dies ist der
statistische Geschmack, der verwendet wird , um die
Normalität der Residuen formal zu testen Die Nullhypothese
des Sapiro-Milchgeschmacks ist der Test,
dass die Residuen normalverteilt dass Ein signifikantes Ergebnis deutet auf Beweise hin, die gegen die Normalität sprechen.
Okay. Folgen einer
Verletzung der Normalität
bei der
Regressionsanalyse
sind dieselben wie die, die wir bei der Homosexualität bei der
Regressionsanalyse
sind dieselben wie die ,
der verzerrten Schätzung und der falschen Schlussfolgerung
gesehen haben Die Folgen einer
Verletzung der Normalität
bei der
Regressionsanalyse
sind dieselben wie die, die wir bei der Homosexualität,
der verzerrten Schätzung und der falschen Schlussfolgerung
gesehen haben. Was ist die verzerrte Schätzung? Komplizierte Schätzungen können
verzerrt sein , wenn die Residuen Falsche Folgerungen bedeuten, dass
das Konfidenzintervall und der
auf T-Verteilungen basierende Hypothesentest möglicherweise ungültig sind, wenn und der
auf T-Verteilungen basierende Hypothesentest
möglicherweise ungültig sind, wenn
die Residuen nicht normalverteilt sind. treten ungenaue Vorhersagen Wenn wir gegen die Normalität verstoßen,
treten ungenaue Vorhersagen auf.
Prognoseintervalle können
unzuverlässig sein, wenn die Ausnahme von der Normalität Prognoseintervalle können
unzuverlässig sein , wenn Wie also mit der Normalität umgegangen werden kann,
wenn die Normalität verletzt wird, können
verschiedene Lösungsansätze Die erste ist die
Datentransformation, die die Daten transformiert Die Transformation der abhängigen und unabhängigen Variablen kann normaleren Verteilung der Residuen
beitragen. Zu den
gängigen Transformationen gehören die
logarithmische Transformation, die
Quadratwurzeltransformation oder und unabhängigen Variablen kann zu einer
normaleren Verteilung der Residuen
beitragen. Zu den
gängigen Transformationen gehören die
logarithmische Transformation, die
Quadratwurzeltransformation oder die Boxcox-Transformation. Robuste Regression, robuste
Regressionstechniken
wie robuste Standardfehler oder Schätzungen können verwendet werden, um den
Regressionskoeffizienten in Fällen
zu schätzen, robuste
Regressionstechniken
wie robuste Standardfehler oder
Schätzungen können verwendet werden, um den
Regressionskoeffizienten in Fällen
zu schätzen, in denen nicht normale Fehler auftreten. Und dann ist der dritte Boostrapping. Beim Boost-Strapping handelt es sich um ein Verfahren zur
Neuabtastung , das bei der
Regressionsanalyse
robuste Rückschlüsse ziehen kann , ohne dass die Normalität Regressionsanalyse Wir können also den Schluss ziehen, dass
Normalität eine Ausnahme von der linearen Regression darstellt, die
sicherstellt, dass Validität, Effizienz und Zuverlässigkeit des Regressionsmodells korrekt und ohne Rückschlüsse
geschätzt von der linearen Regression darstellt, die
sicherstellt, dass Validität,
Effizienz und Zuverlässigkeit des Regressionsmodells korrekt und ohne Rückschlüsse
geschätzt werden. Auch wenn Verstöße gegen
die Normalität nicht immer zu
erheblichen Problemen führen, ist
es von entscheidender Bedeutung, Abweichungen
von der Normalität
zu bewerten und zu beheben, ist
es von entscheidender um ein genaues und vertrauenswürdiges Regressionsergebnis zu erhalten nicht immer zu
erheblichen Problemen führen, ist
es von entscheidender Bedeutung, Abweichungen
von der Normalität
zu bewerten und zu beheben, um ein genaues und vertrauenswürdiges Regressionsergebnis zu erhalten. Okay. Also ich hoffe, du hast auch erfahren,
was Normalität ist. In der nächsten Vorlesung werden
wir verstehen, keine perfekte Multikolinearität gibt. Also bleib in der nächsten Vorlesung drinnen.
140. Keine perfekte Multicollinearity verstehen: A und willkommen zurück.
In dieser Vorlesung werden
wir lernen, wie es keine
perfekte Multikolinearität Keine perfekte Multikolinearität
ist also eine Ausnahme, die wir bei der
linearen Regression annehmen , die
besagt, dass es
keine exakte lineare Beziehung zwischen den unabhängigen Variablen geben sollte keine . Okay. Unabhängige Variablen
sind die Variablen auch als Prädiktoren bezeichnet
werden Unabhängige Variablen
sind die Prädiktoren, und der Wert, den wir vorhersagen,
wird als abhängige Variablen bezeichnet Mit anderen Worten bedeutet dies, dass die eine unabhängige
Variable keine
perfekte
Linearkombination anderer Variablen sein sollte perfekte
Linearkombination anderer Eine unabhängige
Variable sollte also keine perfekte
Linearkombination der anderen
sein. Es sollte also keine
Kombination von Linearität geben. ist wichtig, dass es keine perfekte
Multikolinarität gibt.
Multikolinarität liegt vor, wenn
zwei oder mehr unabhängige
Variablen in einem Regressionsmodell Es ist wichtig, dass es keine perfekte
Multikolinarität gibt.
Multikolinarität liegt vor, wenn
zwei oder mehr unabhängige
Variablen in
einem Regressionsmodell stark miteinander korrelieren. Zwei oder mehr
unabhängige Variablen
sollten also nicht korreliert, sondern stark miteinander korreliert sein. miteinander korreliert sein. Multikolinearität selbst ist
zwar nicht unbedingt ein Problem. Eine perfekte Multikolinearität
kann
zu Problemen bei der Schätzung des
Regressionskoeffizienten
führen und die Interpretation des Modells untergraben . Identifizierung einer perfekten Multikorrelationsmatrix. Eine gängige Methode zum
Nachweis
von Multikolinearität ist die Untersuchung der
Korrelationsmatrix
unabhängiger Variablen . Korrelationskoeffizient
nahe plus eins oder minus eins weist auf eine starke Die zweite Methode ist der
Varianzinflationsfaktor VF.
VF ist ein Maß dafür, inwieweit die Varianz des geschätzten
Regressionskoeffizienten
aufgrund
der Multikolinearität erhöht ist. Ein hoher F F steht für einen
Varianzinflationsfaktor. Ein Wert, der typischerweise erreicht wird, weist auf ein problematisches Maß an Multilinearität hin. weist auf ein problematisches Maß an Multilinearität hin. Was passiert, wenn wir die perfekte multikolare
Kollinearität verletzen perfekte multikolare
Kollinearität Dies wird zu
unzuverlässigen Koeffizientenschätzungen führen. Wenn die perfekte
Multikollinearität vorliegt, kann das Regressionsmodell
den eindeutigen Koeffizienten nicht für jede unabhängige Variable schätzen. Infolgedessen werden die Koeffizientenschätzungen instabil und unzuverlässig . Unendliche Lösungen. Bei perfekter
Multikolinearität gibt es unendlich viele Kombinationen von Koeffizientenschätzungen, die
perfekt Daher kann das
Regressionsmodell die Probleme bei der Interpretation der Koeffizienten nicht eindeutig bestimmen Die perfekte Multikolinarität erschwert die Interpretation
einzelner Koeffizienten und
Schätzungen, da es
unmöglich wird,
den Effekt unabhängiger
Variablen von den anderen zu isolieren den Effekt unabhängiger
Variablen von den anderen Wie geht man mit der perfekten Variablenauswahl für
mehrere Kolinearitäten um, entfernt eine oder mehrere stark korrelierte
Variablen aus dem Modell,
priorisiert Variablen, die
theoretisch relevanter sind oder eine stärkere Assoziation mit der abhängigen Variablen theoretisch Variablenauswahl für
mehrere Kolinearitäten um,
entfernt eine oder mehrere
stark korrelierte
Variablen aus dem Modell,
priorisiert Variablen,
die
theoretisch relevanter sind oder eine stärkere Assoziation mit der abhängigen Variablen haben? Datentransformation werden
eine oder mehrere Variablen transformiert Bei der Datentransformation werden
eine oder mehrere Variablen transformiert, um die Multikololarität zu reduzieren. Erstellung von
Wechselwirkungstermen
oder Polynombegriffen
kann beispielsweise dazu beitragen,
komplexe Beziehungen
zu erfassen komplexe Beziehungen Die Erstellung von
Wechselwirkungstermen
oder Polynombegriffen
kann beispielsweise dazu beitragen,
komplexe Beziehungen
zu erfassen, ohne dass eine perfekte Polarität entsteht.
Ridge-Regression. Ridge-Regression handelt es sich eine
Regularisierungstechnik, mit der mehrere Polaritäten behandelt
werden können, indem der Zielfunktion der Regression
ein Strafterm hinzugefügt wird ein Strafterm Dieser Strafterm trägt zur Stabilisierung der
Koeffizientenschätzungen bei und mildert den Effekt der Multikolinearität Koeffizientenschätzungen . Dies sind die drei sehr
effektiven Techniken, mit denen wir die perfekte Multikolinearität erreichen
können. Die perfekte Multikolinearität erreichen
können. Die eine ist die Variablenselektion. Wir können
weitere Variablen entfernen oder hinzufügen , um eine oder
mehrere stark korrelierte
Variablen Dann die Datentransformation, wir können eine oder
mehrere Variablen transformieren, um
die Multikolität zu reduzieren , und die
Ridge-Regression ist eine Regelungstechnik, um die Multikolität durch Hinzufügen eines Strafterms zu handhaben Okay. Um Regressionsanalyse zu erzielen,
ist es also unerlässlich, sicherzustellen, dass
keine perfekte Multkolität zuverlässige und
interpretierbare Ergebnisse linearen Regressionsanalyse zu erzielen,
ist es also unerlässlich, sicherzustellen, dass
keine perfekte Multkolität
vorliegt Erkennung und Behandlung
der Multkollarität in einem frühen Stadium des Modellierungsprozesses
kann dazu beitragen,
die Genauigkeit und Stabilität
der Regressionsschätzungen zu verbessern Genauigkeit und Stabilität
der Jetzt haben wir also
die Homosadistik, Normalität und perfekte Multikolinarität verstanden . Mit diesem Verständnis werden
wir nun mit unserer Regressionsanalyse, dem Verstehen, weitermachen . Okay, sehen Sie sich
das in der nächsten Vorlesung an.
141. Einfache lineare Regressionskonzepte und Formulierung: Und willkommen zurück.
In dieser Vorlesung werden
wir uns einfacher linearer Regression,
Konzepten und Formulierungen vertraut machen einfache lineare Regression ist also, wie
bereits erwähnt, auch ein grundlegendes statistisches
Verfahren, das verwendet wird um die Beziehung
zwischen zwei Variablen,
einer abhängigen Variablen
und einer abhängigen Variablen, zu modellieren einer abhängigen Variablen
und einer abhängigen Variablen, . Sie wird auch als
Antwortvariable und als unabhängige Variable,
die als
Prädiktorvariable bezeichnet wird, bezeichnet vorhergesagte Variable wird also Vorhersage einer
abhängigen Variablen
sein Hier werden wir uns
eingehend mit dem Konzept der
Formulierung der einfachen
linearen Regression befassen die grundlegenden
Prinzipien und
praktischen Anwendungen der einfachen Das Konzept der einfachen linearen Regression verstehen wir zunächst In ihrem Code zielt die einfache lineare
Regression darauf ab,
die lineare Beziehung zwischen
einer einzelnen unabhängigen Variablen
x und einer abhängigen Variablen y zu erfassen die lineare Beziehung zwischen einer einzelnen unabhängigen Variablen . Die Beziehung basiert auf
einer geraden Gleichung y, die x plus
c plus B t Null entspricht B Null ist Null, wir bereits in
der vorherigen Vorlesung gesehen haben, ist der
Schnittpunkt oder der Achsenabschnitt x und y ist
die unabhängige Variable, y ist die abhängige Variable
und B eins, Beta eins ist
ein Steigungskoeffizient. Wir haben das hier bereits
besprochen. Das ist Beta Null,
das ist B eins, das und das ist x. Okay. Also, der Achsenabschnitt steht für
den Wert von y, wenn x
Null ist , was wir bereits gesehen haben, und der Steigungskoeffizient eta eins gibt die Änderung von y
an, die
mit der Änderung von x
um eine Einheit verbunden ist. Wenn Sie sich das hier ansehen, wird sich
dieser Eta-Wert ändern Nun zur Formulierung einer
einfachen linearen Regression. Schätzung zur Schätzung der
Steigung, die Beta eins umfasst. Der Neigungskopizent Beta eins wird mit der Methode der
kleinsten
Quadrate
geschätzt, die Summe der Differenz
zwischen dem Ziel und den vorhergesagten Werten von y minimiert bei der
die Summe der Differenz
zwischen dem Ziel und den vorhergesagten Werten von y minimiert wird.
Die Formel für die Schätzung von Beta eins lautet
Beta eins
und entspricht Sigma von x
i minus x
bis y minus y.
Dies ist vorhergesagt minus
Objekt minus vorhergesagtes Objekt, geteilt wird.
Die Formel für die Schätzung von Beta eins lautet
Beta eins
und entspricht Sigma von x
i minus x
bis y minus y.
Dies ist Sigma von x
i minus x
bis vorhergesagt minus
Objekt minus durch Sigma aus, und hier ist mit der Methode der
kleinsten
Quadrate
geschätzt, bei der
die Summe der Differenz
zwischen dem Ziel und den vorhergesagten Werten von y minimiert wird.
Die Formel für die Schätzung von Beta eins lautet
Beta eins
und entspricht Sigma von x
i minus x
bis y minus y.
Dies ist vorhergesagt minus
Objekt minus vorhergesagtes Objekt, geteilt durch Sigma aus, und hier ist I variierend
von gleich eins zwei und xi minus x. Ganzes Quadrat Wo ist die Anzahl
der Beobachtungen, x und y sind die
Einzelwerte von x und y und x und y, das
sind der Stichprobenmittelwert
des X-Mittelwerts und der Y-Mittelwert ist
der Mittelwert von x und y.
Schätzung der Beta-Null Sobald der Steigungskoeffizient
Beta eins geschätzt ist, kann
der Achsenabschnitt
Beta Null mit der
Formel Beta Null,
Balken gleich Y bar
minus Beta 1 bar
berechnet werden,
wobei x bar x bar beta eins der Neigungskoeffizient
ist und
x bar y bar die
Stichprobenmittelwerte mit der
Formel Beta Null,
Balken gleich Y bar
minus Beta 1 bar
berechnet werden,
wobei x bar x bar beta eins Neigungskoeffizient
ist und von x und y sind. Das ist
also die Formel Formulierung
der
einfachen linearen Regression. Anwendung der einfachen
linearen Regression kennen
wir bereits in den Wirtschaftswissenschaften zur Modellierung des
Verhältnisses zwischen Einnahmen und
Ausgaben im Finanzwesen, Vorhersage von Aktienkursen
auf der Grundlage historischer
Daten, im Gesundheitswesen und bei Ling den Zusammenhang
zwischen dem Alter des Patienten und den
Krankheitskosten
und im Bildungswesen zur Vorhersage
der Leistung von Schülern auf der Grundlage Zur Studie s. Die
einfache lineare Regression ist also ein leistungsstarkes
statistisches Instrument zur
Modellierung und zum Verständnis
der Beziehungen zwischen den beiden Variablen, indem sie
den Steigungs- und
Schnittkoeffizienten stimuliert den Steigungs- und Analysten können
die Stärke und
Richtung der Beziehung quantifizieren und auf der Grundlage der
beobachteten Daten Vorhersagen treffen Das Verständnis des Konzepts
und der Formulierung der einfachen linearen Regression
ist für die
Durchführung genauer und
aussagekräftiger Analysen unerlässlich Durchführung genauer und
aussagekräftiger Analysen In verschiedenen Bereichen. Das ist also ein Schritt weiter, wir sind gegangen und
haben verstanden, wie die einfache lineare
Regressionsformulierung funktioniert. Und wir haben
das Konzept auch verstanden. Wir werden also in der nächsten Vorlesung mehr über diese,
äh, einfache lineare Regression
erfahren nächsten Vorlesung mehr über diese,
äh, einfache lineare Regression
142. Die Theorie der Methode der kleinsten Quadrate erklärt: Und willkommen zurück.
In dieser Vorlesung werden
wir also verstehen, was die Methode
der kleinsten Quadrate ist. Methode der kleinsten Quadrate ist also ein gängiger Ansatz, der
in der linearen Regression verwendet wird Um den Koeffizienten
der Regreationsgleichung zu schätzen. Ziel ist es, die Linie zu finden , die am besten zu den
Objektdaten passt, indem
die Summe der quadrierten
Differenzen zwischen dem Objekt und
den vorhergesagten
Werten der
abhängigen Variablen minimiert die Summe der quadrierten
Differenzen zwischen dem Objekt und
den vorhergesagten Werten der So funktioniert die
List-Square-Methode. Definieren Sie zunächst
die Regressionsgleichung. Die Regressionsgleichung für ein einfaches lineares Regressionsmodell wird typischerweise als
Y dargestellt , das gleich Beta Null plus Beta eins und zwei x
plus oder Epsilon ist, wobei Wir nennen sie auch
Antwortvariable,
x ist eine unabhängige Variable, wir nennen sie Prädiktorvariable wir nennen Beta Null ist der Intercept-Term, Beta eins ist Slow
und Epsilon ist der Fehlerterm, der durch unerklärliche Variation repräsentiert wird Beta eins ist Slow
und Epsilon ist der Fehlerterm, der durch unerklärliche Variation repräsentiert wird. Der zweite Schritt besteht darin,
den vorhergesagten Wert anhand der
angegebenen Regressionsgleichung zu berechnen und den vorhergesagten Wert zu
berechnen, d.
h. für Anschließend wird der vorhergesagte Wert y
für die Beobachtung y y y bar plus Beta Null plus Beta eins
zu xi berechnet, wobei Beta Null und Beta eins mit der
Methode
der kleinsten Quadrate geschätzt werden Methode
der kleinsten Quadrate Im dritten Schritt
wird nun das Residuum berechnet. Das Residuum von für
jede Beobachtung ist die Differenz zwischen
dem Objektwert von y und dem vorhergesagten Wert,
y, dass der Doppelpunkt i
gleich zwei ist, yi hat. Um die Summe
der quadrierten Residuen zu minimieren. Das Ziel der List-Squa-Methode
besteht darin, die Summe der quadrierten Residuen
zu minimieren Mathematisch kann dies als diese Gleichung ausgedrückt werden. Sigma zwei n, Sigma F ist gleich eins bis
n i quadriert ist gleich
Sigma F y minus yi hat Quadrat,
wobei I von eins bis Sigma F y minus yi hat Quadrat n variiert. Indem wir diese Summe minimieren, erhalten
wir die am besten
passende Linie, die durch die
Datenpunkte
verläuft, da sie die allgemeine Diskrepanz
zwischen den beobachteten und
vorhergesagten Werten von y
verringert . Schätzt den Sigma F ist gleich eins bis
n i quadriert ist gleich
Sigma F y minus yi hat Quadrat,
wobei I von eins bis
n variiert. Indem wir diese Summe minimieren, erhalten
wir die am besten
passende Linie, die durch die
Datenpunkte
verläuft, da sie die allgemeine Diskrepanz
zwischen den beobachteten und
vorhergesagten Werten von y
verringert. Schätzt den Koeffizienten, Seite mit dem fünften Schritt. Um den Wert von Beta
Null und Beta Eins zu ermitteln, der die Summe der quadratischen
Restkalkül
minimiert, werden
insbesondere partielle
Ableitungen verwendet. Die Formeln für die Schätzung des Koeffizienten sind wie folgt angegeben: x bar, wobei x bar, wobei x bar
und ar die Mittelwerte
von x Nachdem Sie den
Wert von hier aus ermittelt haben, interpretieren Sie im
nächsten Schritt
den Koeffizienten Sobald der
Beta-Null-Balken und Beta-1-Balken geschätzt sind, können
sie wie folgt
interpretiert werden Beta-Null-Balken ist ein Achsenabschnitt der das Y
darstellt, der den Wert von Y darstellt, wobei x Null ist und
Beta 1-Balken der
Steigungskoeffizient ist ,
der die Änderung von Y angibt mit einer Änderung von x um eine
Einheit
einhergeht. Durch Anwendung dieser
Listenquadratmethode erhalten
wir Schätzungen des Koeffizienten, die die am besten passende
Linie für die gegebenen Daten
definieren, sodass wir die quantifizieren können
Beziehung zwischen den unabhängigen und
abhängigen Variablen in einem einfachen linearen
Regressionsmodell So funktioniert die
Shed-Square-Methode, und das ist die Theorie
hinter der Methode der Listenquadrate
143. Beispiel der LEST-QUADRAT-Methode in der linearen Regression: Hallo und willkommen zurück.
In der vorherigen Vorlesung haben
wir uns mit der Theorie befasst, die hinter
der List-Square-Methode steckt. In dieser Vorlesung werden wir dieses einfache
Programm
ausführen, das ich
geschrieben habe , um die
List-Squared-Methode bei der
linearen Regression zu erklären List-Squared-Methode bei der
linearen Regression Was ich hier mache, ich generiere
synthetische Daten. Dafür verwende ich
Set Dot Set 123. Dadurch wird das Set auf
Reproduzierbarkeit eingestellt. Hier nehme ich X
als einen Wert von 1 bis 200. Das ist eine unabhängige Variable, also ist x eine unabhängige Variable Die abhängige Variable
wird y sein, und wir kennen die
Rekonstruktion, tut mir leid, die einfache
Linienformel lautet, y ist gleich x plus c. Also hier die zwei von x, ich
nehme zwei und zwei x, zwei x plus etwas zufälliges Rauschen, das ich hier
nehme, indem
ich die Formel
verwende, die Funktion norm, 100 und meine, ich nehme Null und
Standarddivation nehme ich zehn Das gibt uns also die abhängige Variable
mit zufälligem Rauschen Nun, was ich tun werde, werde
ich das lineare
Regressionsmodell
anpassen indem ich die Liste quadratweise weise. Hier erstelle ich das
lineare Regressionsmodell mithilfe
von LM-Funktionen,
ich erstelle das Modell und verwende die
Funktion m, und hier y die
abhängige Variable und x die
unabhängige Ich erstelle hier das lineare
Regressionsmodell. Jetzt drucke ich das
lineare Regressionsmodell aus. Lass mich bis hierher rennen. Sehen Sie hier, jetzt können wir es hier sehen. Minimale Rückstände. Median des ersten Quartils ist
das dritte Quartil.
Max und Max Reststandard 9,1 bei
90 Freiheitsgraden,
Vielfaches R-Quadrat 0,0 978 angepasstes R-Quadrat 0,0
9763 Jetzt zeichne ich die Daten und
passe sie an und finde die Anpassungslinie. Zum Zeichnen verwende ich die Plotfunktion x und behalte die Überschrift
als Titel für das Diagramm ist die kleinste quadratische lineare Regression
und x x sage ich x und y,
x p y, mit der Ab-Linie versuche
ich, die angepasste Regressionslinie zu finden Ich werde das Modell hier verwenden. Dieses lineare Regressionsmodell, ich für die Linie verwenden werde, werde
ich die rote Farbe verwenden Lassen Sie mich das jetzt ausführen. Lass es mich machen. Lass es mich machen. Siehst du, für jedes X bekommen
wir Y und C
erhalte ich eine lineare Regression Das ist die Regressionslinie, die rote Linie, ich komme hierher Das ist die lineare
Regressionslinie nach der Methode der kleinsten Quadrate Damit erhalten wir hier
diese Regressionslinie. Hier haben wir die Methode
der kleinsten Quadrate verwendet , um die Regressionslinie zu
finden Sehen Sie in der nächsten Vorlesung nach.
144. Fazit und Projektarbeit: Hallo Leute, wir haben also
das Kunstprogrammieren gelernt und können mit
unseren Programmierkenntnissen gut umgehen. Und wir können
dieses Kunstprogrammierwissen jetzt
in Datenwissenschaft und
maschinellem Lernen umsetzen dieses Kunstprogrammierwissen . Okay, ab jetzt sind
Sie bereit, Algorithmen für Datenwissenschaft
und maschinelles Lernen
mithilfe unserer Programmierung zu implementieren . Unsere Programmierung ist also klar. Jetzt hast du geladen. Ihr nächster Schritt besteht nun
darin, Algorithmen aus den Bereichen
Datenwissenschaft und
maschinelles Lernen
in unsere Programmierung zu implementieren Algorithmen aus den Bereichen
Datenwissenschaft und
maschinelles Lernen und zu versuchen, sie zu erforschen. Das ist also der nächste Schritt. Und jetzt können Sie weiter gehen und der Analyse der Daten mithilfe von
R
beginnen und
ML-Algorithmen
wie lineare Regression
mithilfe der R-Programmierung implementieren . Dies sind also die
Dinge, die Sie nach
Abschluss dieses Kurses
weiter untersuchen können . Als Nächstes, was ist dein Projekt
für diesen Kurs? Jetzt können Sie
Ihre eigenen Daten erstellen, so wie ich
Mitarbeiterdaten in einer CSV-Datei erstellt habe. Sie können für diesen
Kurs, die Projektarbeit, auch
Ihre eigenen Daten in
einer CSV-Datei erstellen . Und versuche, diese
CSV-Datei durch Kunst zu lesen. Versuchen Sie dann, einige
Datenanalysen an diesen Daten,
an diesen CSV-Dateidaten durchzuführen , indem Sie
Kunst verwenden , wie wir es in unserer Klasse
gemacht haben. Und versuchen Sie, einige
Diagramme und Grafiken zu erstellen die auf Daten wie der
Reha für unsere Mitarbeiterdaten
basieren. In ähnlicher Weise können Sie sich
ein Problem
vorstellen, an Daten denken und
all diese Dinge ausführen. Und nachdem Sie damit fertig sind, sagen wir, Ihr abschließender
Analysebericht. Was sind zum Beispiel die Dinge Sie
aus den Daten herausgefunden haben werden? Und versuchen Sie, einen Bericht zu erstellen und versuchen Sie, Grafiken und Diagramme zu erstellen. Und versuche, das in
den Projektabschnitt dieses Kurses aufzunehmen, damit wir es
alle durchgehen können. Lernen Sie aus Ihrem Experiment, lernen Sie aus Ihrem Projekt und scheitern Sie an konstruktivem
Feedback miteinander. Also, wenn Sie Ihr
Projekt speichern, alle anderen Schüler. Und selbst ich kann das durchmachen und sogar ich kann sagen
, dass Feedback und andere sich das auch ansehen und das Feedback
miteinander sagen. Und damit
können wir lernen und wachsen. Fangen Sie also an, Ihr Projekt einzurichten und zu
veröffentlichen. Das war's für diesen Kurs. Und ich hoffe, Ihnen hat
dieser Kurs gefallen und Sie haben
unsere Programmierung für Ihre
zukünftigen Projekte in den Bereichen Datenwissenschaft
und maschinelles Lernen gelernt unsere Programmierung für Ihre
zukünftigen Projekte in den Bereichen Datenwissenschaft . Tschüss, Mach's gut.