R-Programmierung Bootcamp für Data Science und Machine Learning

Sunil Kumar Gupta

Erhalte unbegrenzten Zugang zu allen Kursen

Lerne von Branchenführern, Ikonen und erfahrenen Experten

Wähle aus einer Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Erhalte unbegrenzten Zugang zu allen Kursen

Lerne von Branchenführern, Ikonen und erfahrenen Experten

Wähle aus einer Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Einheiten dieses Kurses

- 1.
  
  Einführung
  
  1:15
- 2.
  
  R-Installation
  
  7:15
- 3.
  
  Installieren und Erkunden von RStudio
  
  11:34
- 4.
  
  Warum R lernen
  
  5:15
- 5.
  
  Erstes R-Programm und Operatoren in R
  
  11:06
- 6.
  
  Datentypen in R
  
  8:33
- 7.
  
  Erstellen von Vektoren in R
  
  5:49
- 8.
  
  Sequenz in R
  
  14:59
- 9.
  
  Replizierungsfunktion
  
  5:09
- 10.
  
  Zugriff auf Vektorelemente
  
  8:04
- 11.
  
  Vektormanipulation in R
  
  5:39
- 12.
  
  Recycling von Vektorelementen
  
  5:22
- 13.
  
  Sortieren von Vektorelementen
  
  5:35
- 14.
  
  Entscheidungsfindung in R
  
  9:55
- 15.
  
  Loop-Steuerung mit Repeat- und Whir-Loop
  
  6:18
- 16.
  
  Für Loop und nächste Anweisung
  
  5:10
- 17.
  
  Funktionen in R
  
  13:01
- 18.
  
  Matrizen in R
  
  13:04
- 19.
  
  Faktoren in R
  
  7:53
- 20.
  
  Datenrahmen in R
  
  16:14
- 21.
  
  Datenrahmen kombinieren
  
  9:03
- 22.
  
  Daten in R aus einer CSV-Datei analysieren
  
  18:44
- 23.
  
  Erstellen eines Kreisdiagramms in R
  
  8:30
- 24.
  
  Mitarbeiterdaten analysieren
  
  13:30
- 25.
  
  Excel-Datei in R lesen
  
  7:05
- 26.
  
  XML-Datei in R lesen
  
  13:45
- 27.
  
  JSON-Datei in R lesen
  
  9:30
- 28.
  
  Erstellen eines Bar-Plots
  
  14:06
- 29.
  
  Gestapeltes Balkendiagramm in R
  
  5:33
- 30.
  
  Boxplot in R
  
  9:04
- 31.
  
  Boxlot mit mtcars-Datensatz (n)
  
  10:37
- 32.
  
  Boxplot mit Kerbe
  
  7:04
- 33.
  
  Histogramm und Verteilung von Histogramm
  
  11:12
- 34.
  
  Histogramm mit his-Funktion zeichnen
  
  12:53
- 35.
  
  Verwenden von Breaks xlim ylim im Histogramm
  
  14:19
- 36.
  
  Einfaches Liniendiagramm für Zeitreihen mit ggplot2
  
  19:56
- 37.
  
  Scatter-Plot und Plot-Matrizen in R
  
  16:24
- 38.
  
  Mittelwert in R finden
  
  19:00
- 39.
  
  Median und Modus in R finden
  
  18:33
- 40.
  
  Was ist lineare Regression
  
  16:51
- 41.
  
  Vorhersage mit Hilfe eines linearen Regressionsmodells
  
  15:11
- 42.
  
  CSV-Erstellung und LR-Modell lesen und Vorhersagen
  
  11:11
- 43.
  
  Multiple Regression
  
  10:18
- 44.
  
  Vorhersage von Autokilometerstand mit mehrfacher Regression in R
  
  9:36
- 45.
  
  Logistische Regression
  
  14:18
- 46.
  
  Normalverteilung
  
  5:58
- 47.
  
  Normalverteilung mit dnorm- und pnorm-Funktion
  
  8:08
- 48.
  
  Normalverteilung mit qnorm und rnorm-Funktion
  
  4:54
- 49.
  
  Rekursion in R
  
  7:24
- 50.
  
  Finden einer Zahl in Factorial mit Rekursion in R
  
  5:42
- 51.
  
  Beispieldaten einer Bevölkerung
  
  9:41
- 52.
  
  Programm zum Überprüfen von Prime-Zahlen
  
  14:52
- 53.
  
  Programm zum Überprüfen von GERADE oder ODD
  
  5:09
- 54.
  
  Programm zur Überprüfung von positiv negativen oder ZERO
  
  3:32
- 55.
  
  Programm zur Überprüfung des Schaltjahres oder NICHT
  
  6:20
- 56.
  
  Programm für die Multiplikationstabelle
  
  3:07
- 57.
  
  Was sind fehlende Werte und Arten von fehlenden Werten
  
  12:40
- 58.
  
  Imputing von fehlenden Werten im Datensatz
  
  7:18
- 59.
  
  Imputing von fehlenden Werten mit der PMM-Methode
  
  16:40
- 60.
  
  Datensätze mit R-Funktionen analysieren
  
  13:25
- 61.
  
  Datenmanipulation mit dem dplyr-Paket
  
  18:43
- 62.
  
  Einführung in glänzende interaktive Dashboards in R
  
  7:01
- 63.
  
  ShinyApp Erstellen eines interaktiven Dashboards mit Shiny
  
  15:02
- 64.
  
  Einige Beispiele für glänzende Apps in R
  
  15:08
- 65.
  
  2 File Shiny App in RStudio
  
  4:16
- 66.
  
  Generieren von herunterladbaren Berichten in Shiny
  
  6:54
- 67.
  
  Analyse der Kovarianz
  
  13:31
- 68.
  
  Handson mit dplyr-Bibliothek
  
  17:46
- 69.
  
  Einfache lineare Regression mit Luftqualitäts-Datensatz (n)
  
  7:59
- 70.
  
  Umgang mit fehlenden Werten
  
  5:44
- 71.
  
  Die fehlenden Werte testen
  
  7:50
- 72.
  
  Die fehlenden Werte neu kodieren
  
  4:39
- 73.
  
  Entscheidungsbaum
  
  10:13
- 74.
  
  Entropie und Informationsgewinn
  
  6:29
- 75.
  
  Entropy im Entscheidungsbaum berechnen
  
  9:36
- 76.
  
  Berechnung des Informationsgewinns für den Entscheidungsbaum
  
  12:18
- 77.
  
  Hände am Entscheidungsbaum in R
  
  11:57
- 78.
  
  Vor- und Nachteile des Entscheidungsbaums
  
  10:01
- 79.
  
  Projekt 1 Einführung
  
  4:14
- 80.
  
  Projekt 1 – Vorhersage von Aktienkursen
  
  13:52
- 81.
  
  Projekt 2 Uber-Datenanalyse mit R
  
  30:04
- 82.
  
  Projekt 3 Kundensegmentierung mit R
  
  11:35
- 83.
  
  Projekt 3 Teil 2 Kundensegmentierung mit R
  
  12:02
- 84.
  
  Projekt 4 – Einführung – Filme-Empfehlung
  
  20:02
- 85.
  
  Projekt 4 – Teil 1 – Filmempfehlungssystem mit R
  
  12:53
- 86.
  
  Projekt 4 – Teil 2 – Film-Empfehlungssystem
  
  19:11
- 87.
  
  Projekt 5 Einführung in die Erkennung von Kreditkartenbetrug
  
  16:20
- 88.
  
  Bedeutung der Erkennung von Online-Betrug
  
  10:12
- 89.
  
  Umgang mit unausgeglichenen Datensätzen
  
  16:22
- 90.
  
  Betrugserkennung ohne Model
  
  15:25
- 91.
  
  Erstellen von Trainings- und Testdatensätzen Sampling
  
  9:01
- 92.
  
  Zufallsstichprobenverfahren über und unter dem Stichprobenverfahren
  
  9:33
- 93.
  
  ROS und RUS gemeinsam für den Datenausgleich verwenden
  
  6:26
- 94.
  
  Vor- und Nachteile von SMOTE
  
  4:13
- 95.
  
  Anwenden der SMOTE-Technik auf den Trainingsdatensatz
  
  9:00
- 96.
  
  Mit dem Modell Kreditkarten-Transaktionsfälle vorhersagen
  
  6:22
- 97.
  
  Einführung in ggplot2
  
  22:24
- 98.
  
  Streuhandlung und verwirrende Handlung
  
  11:41
- 99.
  
  Bar-Plot und Hostogram
  
  11:39
- 100.
  
  Kreisdiagramm mit ggplot2
  
  5:56
- 101.
  
  Linienplots mit ggplot2
  
  17:21
- 102.
  
  Datenvisualisierung mit ggplot2
  
  24:21
- 103.
  
  Den Plots Farbästhetik hinzufügen
  
  11:44
- 104.
  
  Feinabstimmung der Plots-Ästhetik
  
  8:10
- 105.
  
  Themes, Labels, Titel und Achsen mit Theme-Funktion ändern
  
  8:17
- 106.
  
  Projekt 6
  
  9:01
- 107.
  
  Umgang mit Datums- und Zeitdaten in ggplot2
  
  13:21
- 108.
  
  POSIXct- und POSIXlt-Funktionen mit Beispiel
  
  9:00
- 109.
  
  Projekt 7 Datentransformation und Zusammenfassung
  
  9:22
- 110.
  
  Projekt 7 Teil 2 Datenfilterung und Farbskalen
  
  15:00
- 111.
  
  Interaktive Plots mit plotly und ggplotly erstellen
  
  13:56
- 112.
  
  Einführung in Plotly und die wichtigsten Funktionen
  
  6:52
- 113.
  
  Arbeiten mit Plotly
  
  23:04
- 114.
  
  Erstellen von 3D-Plots in R
  
  10:09
- 115.
  
  Interaktive Plots mit Highcharts erstellen
  
  8:25
- 116.
  
  Projekt 8 Visualisierung von Airbnb-Daten in New York City
  
  9:35
- 117.
  
  Projekt 9 COVID 19-Datenanalyse und Visualisierung
  
  16:40
- 118.
  
  Projekt 10 Blumen mit Mathematik in R zeichnen
  
  24:06
- 119.
  
  Projekt 11 Analyse und Visualisierung der Nobelpreisträger mit R
  
  22:22
- 120.
  
  Projekt 12 Passwortstärke mit R finden
  
  11:17
- 121.
  
  Einführung in maschinelles Lernen
  
  14:27
- 122.
  
  Die Rolle von Machine Learning
  
  11:33
- 123.
  
  Typen für Machine Learning
  
  14:37
- 124.
  
  Workflow für Machine Learning
  
  11:54
- 125.
  
  GIGO-Prinzip
  
  14:08
- 126.
  
  Algorithmen für überwachtes Lernen
  
  16:53
- 127.
  
  Lineare Regression
  
  10:15
- 128.
  
  Durchführen linearer Regression in R
  
  11:03
- 129.
  
  Die Größe einer Person mit linearer Regression vorhersagen
  
  10:34
- 130.
  
  Logistische Regression
  
  8:30
- 131.
  
  Vorhersage der Kundenabwanderung mit logistischer Regression
  
  7:11
- 132.
  
  KNN-Algorithmus
  
  7:51
- 133.
  
  Implementierung von kNN
  
  5:52
- 134.
  
  Entscheidungsbaum und zufällige Wälder
  
  11:56
- 135.
  
  Algorithmus für Unterstützungsvektormaschinen
  
  17:21
- 136.
  
  Regressionsanalyse verstehen
  
  10:06
- 137.
  
  Verständnis für lineares Regressionsmodell
  
  9:48
- 138.
  
  Heim-Skedastizität verstehen
  
  7:40
- 139.
  
  Normalität verstehen
  
  6:11
- 140.
  
  Keine perfekte Multicollinearity verstehen
  
  6:12
- 141.
  
  Einfache lineare Regressionskonzepte und Formulierung
  
  4:59
- 142.
  
  Die Theorie der Methode der kleinsten Quadrate erklärt
  
  4:19
- 143.
  
  Beispiel der LEST-QUADRAT-Methode in der linearen Regression
  
  3:42
- 144.
  
  Fazit und Projektarbeit
  
  2:54

Anfänger-Niveau

Fortgeschrittenes Niveau

Jedes Niveau

276

Teilnehmer:innen

Projekte

Über diesen Kurs

Der „R Programming Bootcamp for Data Science and Machine Learning“ ist ein intensiver Kurs, der Studenten mit den wesentlichen Kenntnissen und Fähigkeiten ausstattet, die für die Analyse von Daten und den Aufbau von Machine-Learning-Modellen mit der Programmiersprache R erforderlich sind.

Während des Kurses lernen die Teilnehmer:innen, wie man R für Datenmanipulation, Visualisierung und statistische Analysen einsetzen kann. Sie lernen auch, wie man verschiedene Algorithmen des maschinellen Lernens wie lineare Regression und Entscheidungsbäume anwendet, um reale Probleme zu lösen.

Der Kurs behandelt die folgenden Themen:

Einführung in die Programmiersprache R
Datenmanipulation mit R
Datenvisualisierung mit R
Statistische Analyse mit R
Lineare Regression
Entscheidungsbäume
Aufbau und Bewertung von Machine-Learning-Modellen mit R
Anwendungen von R in Data Science und maschinellem Lernen
Projekt – Aktienkurse mit R vorhersagen

Die Studierenden haben die Möglichkeit, an praktischen Übungen und Projekten zu arbeiten, um ihr Wissen in realen Szenarien anzuwenden. Am Ende des Kurses verfügen sie über eine starke Grundlage für R-Programmierung und Techniken des maschinellen Lernens, die es ihnen ermöglichen, Vorhersagemodelle zu erstellen und Erkenntnisse aus Daten zu extrahieren.

Triff deine:n Kursleiter:in

Sunil Kumar Gupta

Kursleiter:in

I have 12+ years of experience working in IT industry working for companies like HCL and Infosys.

He has done his Machine Learning and Artificial Intelligence course from IIM- Kozhikode.

He has done B.Tech(CSE) from SRM University, Chennai.

I have worked and trained students on various technologies including Data Science, AI, ML, Python, Java, Software Development etc.

Vollständiges Profil ansehen

Skills dieses Kurses

Entwicklung Sonstiges zur Entwicklung Data Science

Level: Beginner

Praxisnahes Kursprojekt

Das Projekt „Predicting Stock Prices using R“ zielt auf den Aufbau eines Machine-Learning-Modells ab, das zukünftige Aktienkurse eines Unternehmens auf der Grundlage historischer Aktienkursdaten vorhersagen kann.

Nach Abschluss des Kurses müssen die Teilnehmer:innen den Schritten folgen, die in der Projektvorlesung gezeigt werden, und das in der Vorlesung diskutierte Projekt abschließen. Studierende können die angehängte Datendatei "googlestockprice.xlsx" herunterladen und verwenden und das gleiche R-Skript zur Ausführung des Projekts verwenden.

Nach Abschluss des Projekts müssen die Teilnehmer:innen den Screenshot der Endausgabe hochladen, indem sie ein Projekt im Projektabschnitt dieses Kurses für Feedback und Überprüfung erstellen.

Kursbewertung

Warum lohnt sich eine Mitgliedschaft bei Skillshare?

Nimm an prämierten Skillshare Original-Kursen teil

Jeder Kurs setzt sich aus kurzen Einheiten und praktischen Übungsprojekten zusammen

Mit deiner Mitgliedschaft unterstützt du die Kursleiter:innen auf Skillshare

Lerne von überall aus

Ob auf dem Weg zur Arbeit, zur Uni oder im Flieger - streame oder lade Kurse herunter mit der Skillshare-App und lerne, wo auch immer du möchtest.

Transkripte

1. Einführung: Hallo und willkommen zum Class R-Programmier-Bootcamp für Datenwissenschaft und maschinelles Lernen. In diesem Kurs werde ich Ihnen Add Programming beibringen, die zweitbeliebteste Programmiersprache, die im Bereich maschinelles Lernen und Datenwissenschaft verwendet wird . Der erste Bin, Python. Wenn Sie also R-Programmierung lernen möchten und in Ihrer Karriere in den Bereichen Datenwissenschaft und maschinelles Lernen auszeichnen möchten, dann ist dies der richtige Kurs für Sie. Ich bin Sunil, dein Lehrer für diese Klasse. Ich habe in den letzten 12 Jahren jahrelange Erfahrung Softwareentwicklungsunternehmen und Technologieanalysten in Softwareentwicklungsunternehmen und Technologieanalysten gesammelt. In den letzten sechs Jahren habe ich Menschen zu Themen der Datenwissenschaft und des maschinellen Lernens unterrichtet . Deshalb werde ich Ihnen das Programmieren von den Grundlagen bis hin zum sehr fortgeschrittenen Thema beibringen . Und wir werden sehen, wie wir unsere Programmierung gesetzlos nutzen können , um die Daten zu analysieren, Daten zu visualisieren und wie wir die R-Programmierung verwenden können, um unsere datenwissenschaftlichen und maschinellen Lernmodelle so zu gestalten , dass sie im Bereich maschinelles Lernen und Datenwissenschaft verwendet werden. Wenn Sie also daran interessiert sind, für Datenwissenschaft und maschinelles Lernen zu lernen und zu programmieren, dann ist dies der richtige Kurs für Sie. Wenn Sie also Interesse haben, melden Sie sich für diesen Kurs an, und wir sehen uns in der nächsten Vorlesung. Danke. 2. R Installation: Hallo und willkommen. In dieser Vorlesung werden wir uns also den Prozess der Kunstinstallation ansehen. Und am Ende dieser Vorlesung werden wir unsere Programme in unserer Konsole ausführen können. Also lasst uns anfangen, R auf unserem Computer zu installieren. Wir müssen auf die Website gehen. Die Kanäle der Kranzdrüsen sind ein Bindestrichprojekt. Dunkles Beobachten. CNN Dot stehen für hyphen project oder towards you, was die offizielle Website unserer Programmierung ist. Und Sie können ein umfassendes R-Archiv sehen. Wenn Sie hierher kommen, sehen Sie möglicherweise ein anderes Tempo, wenn wir nach ein paar Monaten zu einer anderen Zeit kommen. Aber mehr oder weniger werden Sie hier das Comprehensive R Archive Network sehen . Und dann sehen Sie hier, wie Sie R herunterladen und installieren. Und hier sehen Sie die verschiedenen Betriebssystemoptionen , mit denen Sie R4 herunterladen können. Also hier sind wir auf dem Windows-Computer. Also nehme ich diesen Download R für Windows. Wenn Sie Linux verwenden oder macOS verwenden, können Sie zu den entsprechenden Betriebssystemen wechseln. Also müssen wir auf den Download R für das jeweilige Betriebssystem von meinen Kindern klicken . Ich klicke auf die Fenster. Hier. Sie können R zum ersten Mal installieren auswählen. Okay? Und los geht's mit dem Download R für Punkt oder Punkt für Windows. Klicke darauf oder nicht. Oder Bindestrich vier Punkt 0, n2 Bindestrich grüner Punkt. Die EXE-Datei wird heruntergeladen. Es ist die 83,6 MB große Datei. Und mein Internet ist heute, seit Morgen, etwas langsam. Es dauert also einige Zeit. Wenn Sie in einem Highspeed-Internet sind, kann es einige Minuten dauern und die EXE-Datei wird heruntergeladen. Warte einfach, bis es heruntergeladen ist. Und wenn es fertig ist, beginnen wir mit dem Styling und der Verarbeitung. Jetzt wurde die Punkt-EXE-Datei heruntergeladen. Darauf müssen wir doppelklicken. Und Sie werden aufgefordert, die Kunst zu installieren. Wir müssen nur auf Ja klicken, um dem Administrator Zugriff auf den Installationsvorgang zu gewähren. Und sobald Sie das getan haben, erscheint die Histon-Abhöraufforderung wie folgt. Und hier müssen wir die Sprache auswählen, damit Sie Ihre Sprache auswählen und auf klicken können. Okay. Jetzt müssen wir die Thompson-Bedingung wie das GNU General Public License Agreement kennen Thompson-Bedingung wie das . Also musst du es lesen und dann müssen wir auf Weiter klicken. Jetzt können Sie das Verzeichnis auswählen. Ich behalte es standardmäßig in der C-Datei. Und wir müssen auf Weiter klicken. Das Ding existiert schon, weil es schon da war. Also klicke ich einfach, um es auf irgendeine Weise zu installieren. Klicken Sie darauf und Sie können es unverändert lassen und auf Weiter klicken. Klicken Sie auf Weiter. Hier können Sie, wenn Sie möchten, auswählen, ob der Startmenü-Ordner nicht erstellt werden soll, okay? Wenn du willst, möchte ich erschaffen werden. Also klicke ich auf Weiter. Und hier müssen Sie auswählen, Sie wählen einfach die Daten aus. Bei den nächsten Drops handelt es sich um Abkürzungen, mit denen Sie die Grafik einfach starten können . Wann immer Sie ein Programm schreiben möchten, können Sie einfach auf den zusätzlichen Plotbauch klicken und schon kann es losgehen. Klicken Sie auf Weiter. Und jetzt wird das Seltsame auf unserem System installiert. Es kann ein paar Minuten dauern. Kaum. Es dauert höchstens zwei bis 3 Minuten. C hier. Nun zum Teil, wir sind drinnen, um Punkt oder Punkt zu starr zu machen. Und es heißt, es ist vorbei. Klicken Sie also einfach auf Fertig und R ist auf Ihrem Computer installiert. Um zu überprüfen, ob seltsam installiert ist oder nicht, müssen Sie auf den Windows-Start klicken und Sie müssen nur nach unten scrollen, um zu überprüfen, ob Künstler es nicht sind. Schau hier. Da ist der Kunstordner. Und wenn Sie darauf klicken auf den Kunstordner klicken, werden Sie sehen, dass die beiden Optionen I1, I3, ein T6 sind , und fügen Sie ein solches T4 hinzu. Wenn Sie also ein Windows 7 - oder Windows 10-Betriebssystem oder höher verwenden, können Sie sich für die Vier-Bit-Version entscheiden. Ansonsten kannst du den 386 nehmen. Okay, ich habe weniger als 64-Bit-Maschinen, also klicke ich darauf und r wird verloren gehen. Das ist also die R Do Re und das ist die R-Konsole. Und hier können wir anfangen, das Herzprogramm zu schreiben. Nehmen wir an, ich liebe vier plus fünf und es ergibt neun. Wenn Sie das einfache Hello World-Programm für Kunst schreiben. Also müssen wir in gedruckter Form schreiben. Und dann in dem einfachen Anführungszeichen Hallo Welt, und es wird Hallo Welt gedruckt. Also wir sehen uns jetzt. Dies ist das einfache Hello World-Programm in R. So können unsere Programme also in der Konsole ausgeführt werden. Für diesen Kurs werden wir jedoch nicht unsere Konsolen-GUI verwenden. Stattdessen werden wir RStudio verwenden, IDE für R. Und das ist die vorzuziehende und bessere Option um mit der R-Programmierung fortzufahren. In der nächsten Vorlesung werden wir also damit beginnen, RStudio herunterzuladen und zu installieren. Du siehst mich in der nächsten Vorlesung. 3. Installieren und Erkunden von RStudio: In der vorherigen Vorlesung haben wir es heruntergeladen und auf unserem Computer installiert. Und wir haben gesehen, wie man mit der Art Console arbeitet, oder? Ja. Aber wir werden damit nicht fortfahren. Also werden wir RStudio für diesen Kurs herunterladen. Und während dieses Kurses werden wir RStudio verwenden. Rstudio ist eine integrierte Entwicklungsumgebungs-IDE für R-Programmierung. Und damit können wir die Dinge einfach erledigen und wir können die Dinge auf organisierte Weise verwalten, und AD hilft sehr beim Programmieren. So können wir problemlos beschichten und die Ergebnisse damit sehen. Also nächste Woche fahren wir mit dem RStudio. Also zuerst müssen wir RStudio herunterladen. Um RStudio herunterzuladen, müssen wir also zu art studio.com gehen. Dies ist die offizielle Website von RStudio. Und wenn wir die RStudio-Website erreichen, werden Sie die verschiedenen Optionen wie Produkte, Lösungen, Kunden, Ressourcen und vieles mehr sehen . Und oben können Sie sehen dass der Download nicht darauf klickt. Vorher schauen wir uns einfach an, welche Produkte Level bei RStudio bietet. Da ist also unser Studio, die erste IDE für R. Dann ist der RStudio-Server schon da. Und RStudio-Pakete sind auch da. Also werden wir RStudio verwenden, die ID, und dann werden wir R-Pakete für verschiedene Zwecke verwenden , wenn wir das datenwissenschaftliche maschinelle Lernen exportieren , all diese Dinge werden dann R-Pakete verwenden. Okay, also RStudio- und R-Pakete werden wir verwenden. Also klicken Sie bitte auf RStudio. RStudio ist also eine integrierte Entwicklungsumgebung für Kunst. Es enthält einen Syntaxhervorhebungseditor für die Konsole , der die direkte Codeausführung unterstützt, sowie Tools für Plotten, Historie, Debugging und What-Management. Okay, also all diese Dinge, die wir mit dem RStudio machen können, wir werden die neueste Version bis RStudio verwenden , eins bis drei. Und es gibt zwei Versionen von RStudio auf Level, nämlich RStudio Desktop und RStudio Server. Also werden wir den RStudio-Server nicht verwenden. Wir werden RStudio an unseren Deckstopps verwenden, also klicken wir darauf. Und wenn Sie anderen zusätzlichen Speicherplatz sehen, werden Sie die beiden Optionen sehen, Open Source Reason, was im Grunde eine kostenlose Sache ist, und RStudio Desktop Pro, das für den kommerziellen Gebrauch ist und für diesen Künstler, um zusätzliche Pro zu lesen, müssen wir 995$ zahlen. Wir werden diesen Werbespot nicht verwenden. Wir werden für diesen Kurs die kostenlose Open-Source-Version von RStudio verwenden , das ist eine GPL-Version drei, kostenlose Lizenz. Also klicke ich darauf. Herunterladen, RStudio extra. Klicke darauf. Und wenn Sie darauf klicken, gelangen Sie in die schwierige Download-Phase. Und hier können wir diese kostenlose Version wählen und auf Herunterladen klicken. Und wenn Sie auf Herunterladen klicken , gelangen Sie zu Ihrem jeweiligen Betriebssystem. Wir sind fertig. Also hier werde ich RStudio für Windows herunterladen. Wenn Sie ein anderes Betriebssystem verwenden, können Sie darauf klicken. Wie Coben für macOS, Fedora, BBN, egal welches Betriebssystem Sie haben, wählen Sie einfach diese Datei aus und klicken Sie auf Herunterladen. Also werde ich RStudio für Windows herunterladen und darauf klicken. Und Künstler, die EXE-Datei des Künstlerstudios wird heruntergeladen. Der Download beginnt hier. Also werde ich darauf warten. Also diese RStudio Dot EXE-Datei wurde heruntergeladen, also muss ich nur darauf doppelklicken. Der Artists Reduce Setup Wizard wurde also gestartet. Warum müssen Sie also einfach auf Weiter klicken? Sie müssen nur auf Weiter Weiter klicken und es ist erledigt. Sie müssen nichts extra tun. Klicken Sie also auf Weiter, Weiter, Weiter. Und es wird in ein paar Minuten erledigt sein. Die Einrichtung des Künstlerstudios ist also abgeschlossen. Sie klicken einfach auf Fertig stellen und RStudio ist auf Ihren Maschinen komplett ins Stocken geraten oder To-Do-App ist jetzt da, klicken Sie einfach auf Ausführen. Ein Künstlerstudio wird eröffnet. Also sind die von Cel geladen. Rstudio, nun, sieht so aus, du dieses Jahr die Option sehen wirst, dein Drehbuch zu schreiben. Und das ist die Konsole, auf der wir die Ergebnisse dieser Skripte sehen können . Und dann können Sie in dieser rechten oberen Ecke die Umgebung und die Geschichte sehen. Was auch immer das Kommando und Verschrottung sein mögen, wir laufen auf dem Rücken. Sie können dann diese Verbindung und dann das Tutorial sehen. Wenn Sie also etwas über ein bestimmtes Paket oder etwas anderes erfahren möchten , können Sie hier mehr darüber erfahren. Und dann können Sie hier die Dateien im Arbeitsverzeichnis sehen die Dateien im , die Dateien werden hier angezeigt. Dann die Plots, wenn wir Diagramme und alle Grafiken verwenden und wenn wir etwas Landschaft verwenden, um etwas als grafische Dinge zu plotten, all diese Plots und all diese Diagramme werden bald hier sein. Die Pakete, die wir in unserem Skript verwenden. Diese Pakete werden unser Level hier sein. Also alle Pakete, die hier installiert sind. Und Sie können einfach auswählen, und wenn Sie das Paket entfernen möchten, können Sie es von hier aus entfernen. Wenn Sie mehr über das Paket erfahren möchten, können Sie auf diesen Link klicken und Sie können mehr über das Paket erfahren. Hier können Sie also den Paketnamen und dann die Sortierbeschreibung des Pakets und den Wortlaut des Pakets sehen dann die Sortierbeschreibung des Pakets und den Wortlaut des Pakets und dann den Mob erkunden und dann löschen. Die Paketoption ist da. Wenn Sie ein neues Paket installieren möchten, müssen Sie nur auf Installieren klicken und einen neuen Paketnamen angeben und es wird heruntergeladen. Okay, und dann gibt es hier eine Hilfe, und du willst etwas über R und RStudio lernen, oder willst du zu den Handbüchern gehen , die umfangreich sind, du kannst hier gehen und Hilfe zu jedem Thema bekommen, okay, dann haben wir diese Dinge gesehen Connexins und Tutorials und alles wird hier sein. Und von hier aus die drei Punkte. Sie können sehen, wenn Sie darauf klicken, können Sie das Arbeitsverzeichnis auswählen , das Sie für Ihr RStudio festlegen möchten. Nehmen wir an, wir wählen unser 2020 als Arbeitsverzeichnis aus. Also wähle ich das einfach aus. Und dann müssen wir auf dieses weitere Opsin klicken und Option Als Arbeitsverzeichnis festlegen die Option Als Arbeitsverzeichnis festlegen müssen Sie nur darauf klicken. Also senior set, WD sagte, WE ist der Befehl, um unser Arbeitsverzeichnis festzulegen. Also C- oder D-Doppelpunkt gedruckter Stipendiat. Dieser Baum wurde auf das Arbeitsverzeichnis gesetzt. Also, wenn du das nicht von hier aus tun willst, kannst du diesen Befehl verwenden um das Arbeitsverzeichnis festzulegen, okay? Und dann kannst du hier einen neuen Ordner erstellen, du kannst löschen, du kannst all diese Optionen auf unserer Ebene hier umbenennen und hier können wir unser Skript einfach um plus fünf schreiben. Und dieser Lauf, du kannst diese Zeile auswählen und du wirst auf Run klicken und dieses Skript oder diese Anweisung wird ausgeführt und du wirst das Ergebnis hier sehen, phi plus Pipe dann kannst du einfach, wenn du etwas drucken willst, hallo, RStudio und du auf Run klicken willst, wirst du sehen, dass da LTL hallo, RStudio ist. Okay? Und in der Historie werden Sie alle Befehle sehen , die berechnet werden. Okay? Also das sind die Dinge und diese Datei kannst du speichern. Wenn Sie diese Datei speichern möchten, können Sie auf Speichern klicken und sie wird in Ihrem aktuellen Arbeitsverzeichnis gespeichert. Sie können also jeden beliebigen Namen rot angeben. Es wird in unserer Datei gespeichert. Okay, ähnlich, wenn wir eine neue Datei erstellen wollen, musst du nur hier klicken und schon siehst du die Gruppe des Künstlers. Sie werden unsere Skriptdatei oder unser Notizbuch oder unsere R-Markdown-Datei erstellen . Wir werden sehen, was eine R-Markdown-Datei ist. Wir werden etwas über dieses Agile lernen. Okay? Und wenn Sie dann klicken, können Sie ein neues Projekt oder ein neues Verzeichnis erstellen, oder Sie können zum vorhandenen Verzeichnis wechseln. Und hier können Sie die Versionskontrolle sehen. Okay? Das sind also die verschiedenen Level-Optionen. Wenn Sie erneut auf Datei klicken, wird das New File R Script angezeigt. McDonald's, diese Dinge können Sie hier sehen. Und Goldgrundstücke, die wir hier gesehen haben. Das Gleiche. Tools zum Erstellen und Debuggen von Profilen sind es nicht. Wir werden also alle Optionen untersuchen wann und wo sie benötigt werden. Und wir werden all diese Dinge vorerst untersuchen. Das ist der Teil mit dem Schreiben von Drehbüchern, und hier sehen wir einen Richter, und hier können wir das Arbeitsverzeichnis von Dark Current und die Plots und all das sehen . Wenn wir es verwenden, können Sie sehen, dass Ihre Pakete von hier aus installiert werden können und riesig sind. Und hier können Sie die Geschichte und alles sehen. Okay, hier dreht sich alles um RStudio. Und jetzt sind wir bereit, mit der R-Programmierung mit diesem RStudio Ib zu beginnen . Ab der nächsten Vorlesung werden wir also unser Programmieren lernen. Also tippt Steven die nächste Vorlesung ein. 4. Warum R lernen: Hallo und willkommen. In dieser Vorlesung werden wir lernen, warum sind, warum wir die Programmiersprache R lernen sollten? Um diese Frage zu beantworten, müssen wir also zwei Dinge durchgehen. erste Sache ist, was ist R und warum sollten wir herausfinden , ob Ihre Regionen hinter dem Erlernen unserer Programmierung stehen ? Fangen wir also mit dem an, was ist R? R ist also die beliebteste Sprache in der Welt der Datenwissenschaft. Datenanalyse ist Statik. Daher wird es häufig bei der Analyse strukturierter und unstrukturierter Daten verwendet. Heutzutage erhalten wir riesige Datenmengen , die als Big Data bezeichnet werden und größtenteils unstrukturiert sind. Und wenn Sie diese großen Datenmengen analysieren möchten, können Sie dies problemlos mit der R-Programmierung oder Odd tun. Seltsam. Seltsam. Odd ist eine Programmiersprache und Software und Warming für statistische Analysen und Grafiken. Die Präsentation und Berichterstattung darüber, was von Eros Yamaka und Robert Jackson Man und der University of Auckland, Neuseeland, geschaffen wurde Eros Yamaka und Robert Jackson Man . Und derzeit werden sie von unserem Entwicklungs-Kernteam blockiert . R wurde also von Yamaka und Robert Gentleman erfunden. Und deshalb ist der Name seltsam weil der Name im Winter mit unserem Roth und Robert beginnt mit unserem Roth und und sie ihn nach ihrem Namen benannt haben. Und es heißt von ihnen unsere Programmierung. Regions to learn R. R ist Open-Source-und frei verfügbare Open-Source-Software, die Sie einstecken und abspielen können. Und wenn wir zur Kunst beitragen wollen , können Sie das auch tun. Und es ist die GNU General Public License. Es ist also kein Level, dass Sie selbst etwas kostenlos bezahlen müssen. Und das ist der beste Grund , unsere Programmierung zu verwenden. Plattformübergreifend kompatibel. Ob Sie unser Programm also unter Windows oder Linux oder macOS ausführen , spielt keine Rolle. Es läuft nahtlos und liefert Ihnen auf jeder dieser Plattformen das gleiche Ergebnis. Sind diese hochflexiblen und sich weiterentwickelnden Künstler Natur aus flexibel? Und es entwickelt sich sehr. Und derzeit sind es mehr als 2 Millionen weit mehr als 2 Millionen Benutzer nutzen unsere Programmierbranchen und -domänen. Weit verbreitet ist unsere Programmierung. Wenn Sie die Branche nennen werden Sie die Verwendung unserer Programme in einem ähnlichen Finanzbereich finden, mit dem sie betrügerische Transaktionen im Telekommunikationsbereich aufdecken. Sie werden in der Kunstprogrammierung verwendet. Zu. Weit weg von Abonnentenprofilen. Im Bereich Biologie finden Sie das Tool für Computerbiologie zur Durchführung der Genomanalyse. Viele, viele Domains. Sie verwenden R. Und es ist eine riesige Community, wie ich Ihnen schon sagte, 2 Millionen Benutzer und eine Nutzer-Entwickler-Community. Und seltsam ist, mehr als 10.000 zu haben. Die letzten Pakete und das Fehlen integrierter Funktionen erfüllen vielfältige Bedürfnisse. Egal, ob Sie eine einfache Summenoperation durchführen möchten oder ob Sie den Mittelwert einiger Funktionen ermitteln möchten, es sind einige Zahlen. Oder Sie möchten Ihre Daten grafischer darstellen. Mit den Audit-Paketen und den integrierten Funktionen können Sie dies problemlos tun . Und unsere Pakete eignen sich hervorragend für Datenmanipulation, Datenvisualisierung, maschinelles Lernen, Datenwissenschaft und statistische Modellierung, Imputation und viele andere Pakete, die zum Herumspielen beschriftet sind. R eignet sich hervorragend zur Visualisierung. Und R-Pakete wie GG plot to Gibbs erstellen Sie Visualisierungen, sodass Sie Daten mit unserer Programmierung einfach visualisieren können . Und viele große Unternehmen wie Facebook und Google nutzen Kunst für ihre verschiedenen Bedürfnisse. Odd ist gleich sprachlicher Teil, dass statistische Analyse und Data Science to od in den Bereichen Datenwissenschaft, maschinelles Lernen, Datenanalyse, Data Mining und all diesen Dingen weit verbreitet maschinelles Lernen, Datenanalyse, Data sind. Gott ist also die Sprache der Wahl für all diese Dinge. Und wenn wir lernen wollen, wenn Sie sich mit Datenwissenschaft und maschinellem Lernen befassen wollen , beginnen Sie meiner Meinung nach mit der Programmierung. Denn wenn Sie die Grundlagen der Programmierung kennen, können Sie leicht Konzepte der Datenwissenschaft und des maschinellen Lernens erlernen , und Sie können diese Konzepte, diese Algorithmen, leicht mit seltsamer Programmierung implementieren . 5. Erstes R und Operatoren in R: Hallo und willkommen zurück. In dieser Vorlesung werden wir also unsere erste R-Skriptdatei oder zuerst unser Programm schreiben oder zuerst unser Programm und uns mit der Syntax unserer Programmierung vertraut machen. Okay, also zuerst müssen wir unsere Datei erstellen. Also habe ich in der vorherigen Vorlesung erste Daten erstellt, ich schließe sie einfach. Und wir müssen nur hier klicken. Und wir wählen unser Drehbuch aus. Oder Sie können alternativ Control Shift verwenden und unsere Skriptdatei erstellen. Und hier, was ich tun werde, ich werde versuchen, das zu speichern, indem ich hier klicke. Sie können Controller setzen und diesen Namen an die erste Stelle setzen. Ist kaputt gegangen. Okay. Punkt. Punkt, Punkt ist warum Wahlen und welche Programme. Okay, füge ein Drehbuch hinzu. Also klicke ich einfach auf Speichern. Jetzt ist unsere erste Skriptdatei für Kunstprogramme fertig. Was ich jetzt tun werde, ich fange einfach mit einigen Variablen an. Nehmen wir X, X 0s und wertvolles Ohr an. Und ich möchte den Wert sieben oder acht zuweisen. Hier können wir also einen Wert mit einem Kleiner-und-Zeichen zuweisen , also x. Und wenn wir weniger als acht verwenden, bedeutet das, dass dieses x-Objekt in unserer Programmierung alles ein Objekt ist. Also können wir x als n Variable aufrufen, oder wir können es als Objekt nennen. Als Objekt oder Variable. Also ist x ein Objekt und wir weisen ihm den Wert Acht zu. Wie können wir das überprüfen? Es hat jetzt keinen Wert acht? Wenn Sie also hier auf „Ausführen“ klicken, sehen und sehen Sie hier auf der Registerkarte „globale Umgebung“, hier können Sie x-Werte x sehen. x-Objekt erhält also eine While-Schleife. Es. Wir können einfach den Befehl print verwenden. Und wir können x hineinlegen. Und wenn wir das dann ausführen, erhalten wir den Wert Acht. Okay, wir sind auf dem Weg dorthin. Was ich jetzt tun werde, ich schreibe einfach ein Programm, um zwei Zahlen zu addieren. Also verwende ich x gleich acht und weise y gleich neun zu. Und dann, also sieh hier, was ich gemacht habe. Ich habe x, y zugewiesen und dann habe ich noch eine andere Variable oder ein anderes Objekt verwendet . Und ich habe x plus y gleich Jet zugewiesen. Und was ich getan habe, ich drucke Details aus, damit wir das x plus y tot reinbekommen. Also werden wir X plus Y, X plus Y plus 917 tragen . Also bekommen wir Wert I, nur 17. In ähnlicher Weise können wir, was ich tun werde , auch eine Zeichenfolge verwenden. Die Veranda, ich verliere meinen Frühling. Und ich weise ihm einen Zeichenkettenwert zu. Nehmen wir an, ich verlasse mein Zuhause. Irgendetwas, okay? Dies ist die Zeichenfolge ich meinem Zeichenkettenwert zuweise. Jetzt bekommt das MyString-Objekt also das , was mein Zuhause ist, oder? Also was ich tun werde, ich werde einfach versuchen, meinen Zeichenkettenwert zu drucken , und ich werde versuchen, das auszuführen. Warum werden wir trauriger? Weil ich diese Zeile und unsere Ausführung dieser Druckanweisung nicht ausgeführt habe. Also müssen wir Zeile für Zeile ausführen, okay? Und wenn wir sofort ausführen wollen, müssen Sie nur auf die Quelle klicken. Also klicken Sie auf Quelle und alles wird 17 für diesen Druck und dann für meine Homepage für diesen Zeichenkettenwert gleich diesen Druck und dann für meine Homepage 17 sein. Okay? So willst du es also. Noch einmal. Angenommen, ich verwende x. Entspricht 910. Drucke x hier aus. Und wenn ich das mache, kriege ich acht. Also weil diese Aussage ich habe und du zuvor erstellt hast, also erhalte ich X4 Acht. Der neue Wert, x gleich neun, x gleich zehn, wird nicht ausgeführt. Also um das auszuführen, was ich tun muss, und es wird diese Zeile ausführen. Und wenn ich diese Anweisung erneut ausführe, erhalte ich den Wert n, richtig. Wenn ich diese ganze Quelle starte, was ich zuerst bekomme, erhalte ich x plus y 17, weil hier, bis hier, der x-Wert acht ist. Aber wenn wir mit dem Programm fortfahren, wird der X-Wert auf zehn umgestellt. Und deshalb erhalten wir den X-Wert hier als Zehn. Okay? Der MyString-Wert ist also eine Zeichenkettenvariable, U und X, Y, j, die anderen Zahlen, okay? Und stell dir etwas vor, wenn du es unterstützen willst, möchte ich nicht, dass x gleich zehn ist. Ich kann es mit Hess kommentieren. Okay, jetzt wird diese Anweisung nicht ausgeführt. Also, wenn ich jetzt dieses ganze Programm, das ganze Skript, was ich bekomme, starte ich, dass x gleich acht ist. Okay? Ich verstehe nicht die Sonne, der CEO. Jetzt erhalte ich den x-Wert als x-Wert bei 818910. Wenn ich diesen Kommentar wieder entferne , erhalte ich zehn. Der C x -Wert sinkt. Wenn Sie also etwas runterkommen möchten, können Sie Hess verwenden , diese Aussage wird kommentiert. In ähnlicher Weise können wir alle mathematischen Operatoren für die Variablen ausführen . Nehmen wir an, ich möchte vier von fünf verwenden. Ich nehme 25, 20. Wenn ich will, benutze 25/5 und wir bekommen fünf. Also all diese Dinge, die wir tun können, wir können alle mathematischen Operatoren hier ausführen. Angenommen, ich möchte 25/2 verwenden, ich erhalte 12,5. All diese Dinge, die wir hier tun können, können wir auch unsere exponentiellen Dinge verwenden. Angenommen, ich möchte drei Exponentialwerte für die Exponentenregel verwenden . Wir kriegen neun, oder? Also mach das und sieh mal, hier kriegt man neun. Ähnlich, wenn ich 25 exponentiell 25 verwende, wie viel bekommen wir? Lass uns sehen. Okay. Das ist also der große Wert. Ich hätte es nicht benutzen sollen. 25 exponentielle zwei ergeben 625, schätze ich. Ja, es ist x 25. Also all diese mathematischen Operatoren können wir hier verwenden. Wenn du sechs exponentielle Eins verwenden willst, bekommst du trotzdem sechs, oder? Wenn wir zwei machen, bekommen wir 36. Also all diese mathematischen Operatoren und Berechnungen können wir wie gewohnt in R verwenden, okay? In ähnlicher Weise können wir auch eine Subtraktion durchführen. 78 minus drei plus sechs ergibt 22. Wir haben also, wie Edison, Subtraktion, Multiplikation, Exponential gesehen , und wir haben einen speziellen Operator , der Modulus ist. Ebenfalls. Nehmen wir an, ich verwende 45 und modelliere . Lassen Sie uns zweimal verwenden. Also 45 Modellierer. Nehmen wir an, ich verwende fünf. 45 Modulus Phi ergibt also Null, oder? Ja. Und wenn ich 45 Modul vier verwende, erhalte ich eins, z. Wenn ich also 25, randlos drei verwende , erhalte ich 41. Okay? Modulus behält also den Rest. Also 3/20, 5/3 geben uns 13 in 824 und dann bekommen wir die Eins als Erinnerung. Okay, wenn wir also eine Division durchführen, wird der Rest als Modul angegeben. Das sind also die Operatoren, die wir im Sinne des Jackson-Multiplikationsexponentials und dann des Moduls gesehen haben im Sinne des Jackson-Multiplikationsexponentials und dann des Moduls gesehen . 6. Datentypen in R: Hallo und willkommen zurück. In dieser Vorlesung lernen wir Datentypen in der R-Programmierung kennen. Also anders als in anderen Programmiersprachen wie Java oder C oder C plus plus, wo wir eine Variable deklarieren, deklarieren wir die Variable ohne Datentyp, oder? Nehmen wir an, wenn wir eine Ganzzahlvariable verwenden wollen, deklarieren wir diese Ganzzahl x. Richtig? Nun, Float, warum unser Charakter das X ist, oder? Schnur. Warum String A, String es so, richtig? Aber in unserer Programmierung deklarieren wir keine Variablen mit Datentyp, oder? Nehmen wir an, ich habe meine gelöscht, wahrscheinlich, wie hier, habe ich x oder zehn zugewiesen, oder? Ich habe dem x zehn zugewiesen. Diesem Objekt wird also ein ermittelter Wert zugewiesen. Der Datentyp dieses Objekts wird also Datentyp, Datentyp dieser Zahl Zehn, oder? Also diese oder jene Variable, nehmen wir an, das ist zehn als Ganzzahl. Aus diesem Objektdatentyp wird also eine Zahl. Wenn ich x einer Zeichenfolge zugewiesen habe, wird dies zur Zeichenkettenvariable. Wir entscheiden also nicht im Voraus was wir der Variablen oder dem Objekt zugewiesen haben, dieses Objekt wird zum Objekttyp. Es ist also vier oder weniger hell wie unser dynamisches Spiegellicht. Wir stellen den Datentyp also nicht in den Vordergrund. Es wird entschieden welcher Wert dieses Objekt haben wird. Und dieses Objekt wird zu einem solchen wertvollen Objekt werden, oder? Lassen Sie mich also eine weitere Datei erstellen , in der wir die Datentypen sehen werden. Lassen Sie mich also diesen Rand freimachen. Nun, es gibt also im Grunde sechs Typen unserer Objekte. Und sie sagen: Oh, rectus, inferior. Rektus. Dann Listen. Und dann haben wir Alice. Und dann haben wir Matrizen. Und dann haben wir Faktoren. Faktoren und dann studieren. Okay? Und dann haben wir Datenrahmen. Okay? Das sind also die sechs anderen Objekttypen , die wir in unserer Programmierung haben. Lassen Sie mich das erklären. Datentypen einzeln oder Objekttypen nacheinander. Okay? Als Erstes sehen wir also den Vektor, also das Vektorobjekt mit dem einfachsten Objekt in unserer Programmierung. Und der Tod hat wohl sechs Datentypen. Also werden wir sehen, nehmen wir an, ich verwende x gleich wahr. Und wenn ich drucke x drucke, was uns gefällt, kann ich das schreiben und unterstützen. Wenn ich wissen will was für Daten das X sind, was ich tun kann, kann ich Druck verwenden und dann Glas innerhalb der Druckaltersklasse X. Okay? Und wenn ich das ausführe, erhalte ich die Klasse von x ist logisch, also ist das der logische Exit-Datentyp. Okay? Ebenso haben wir numerische Unterstützung. Wenn ich x gleich 90 zuweise und das einfach nach y kopieren lasse gebe ich hier das Plus von y ein. Und wenn ich den ganzen Quellcode verwende, die Klasse, warum Swing Nomadic, oder? Jetzt weisen wir also nicht Otorrhö zu, deklarieren nicht den Datentyp von Y. Welchen Wert wir auch immer auf dieser Grundlage zuweisen. Die Variablen sind, der Datentyp wird festgelegt. Okay? Also musste er aufgrund einer Logik rehabilitieren. Es ist also logisch. Und hier haben wir nomadisch gegeben, also ist es noetisch. Das nächste Ding ist Indien, oder? Nehmen wir an, 90,9. Also, was wird das C sein? Es ist kein Nomadentempo. Jetzt ist das nächste Ding wirklich Thin Integer. Nehmen wir also D an, und ich weise einige Werte zu, natürlich 34. Okay? Und dann verwende ich Print Gloss Plaza de. Wenn ich die Druckklasse bis zu dir benutze, welche Heckklappe? Siehst du, ich werde nomadisch. Tut mir leid, ich gehe ins Innere. Nein, class up this integer d ist up integer datatype, oder? In ähnlicher Weise haben wir eine komplexe Zahl angenommen und deklariert, drei bis plus fünf hoch. Richtig? Und wenn ich Cluster V setze, was uns gefällt, sehe ich, dass die Klasse von I komplex ist, also dieses V, jede komplexe Zahl zwei plus Phi. Nehmen wir in ähnlicher Weise Sinus C als ReLU-Programm an. Wenn ich das Glas hochziehe, sehe ich, was es hier wäre, Charakter zu sein, oder? Lassen Sie mich also den gesamten Quellcode C ausführen. Jetzt hole ich mir den Charakter Glass Up Sis. Als Nächstes, was überhaupt unterstützt wird, verwende ich Blau und weise ihm ein neues Zeichen zu, um zu zeichnen und Java zu verwenden. Und wenn ich Klasse von Problem B ausdrucke , wäre es, mal sehen. Es ist das Rohmaterial. Okay? Als Nächstes werden die seltsamen Objekte Vektoren genannt, okay? Das sind also die Vektortypen wie Glas und w ist ein Stab in der Nähe. C ist die Zeichenklasse von v ist eine komplexe Zahl plus oder p ist eine Ganzzahl, Klasse von y ist numerisch und x in der Nahaufnahme ist logisch. Das sind also die Datentypen oder Objekttypen, kann man in unserer Programmierung sagen. Lassen Sie mich diese Datei also auch speichern. Datentypen. In der nächsten Vorlesung werden wir sehen, wie wir unseren Vektor erstellen können, okay? 7. Vektoren in R erstellen: Hallo und willkommen zurück. In der vorherigen Vorlesung haben wir also die verschiedenen Datentypen der R-Programmierung gesehen . In dieser Vorlesung werden wir etwas über Vektoren lernen. Wie wir einen Vektor mit den meisten Personen-Elementen, mehr als einem Element oder Control N erstellen können mehr als einem Element oder Control N Ich erstelle eine neue R-Skriptdatei. Und hier werden wir unsere Schritte zum Erstellen eines Vektors mit mehreren Elementen, mehr als einem Element, aufschreiben Erstellen eines Vektors mit mehreren Elementen, mehr als einem Element, . Okay? Also was ich tun werde, ich werde versuchen, Hockey zu kreieren und zu rektieren. Also unterstütze. Ich möchte einen Vektor namens g erstellen. Und ich möchte ihn mehreren Werten zuweisen. also in unserer Programmierung Wenn wir also in unserer Programmierung einen Vektor mit mehreren Elementen erstellen wollen, müssen wir eine Funktion namens C-Funktion verwenden, oder? Diese C-Funktion ermöglicht es uns also, mehrere Elemente zu erstellen und mit ihnen zu korrigieren. Okay? Wenn Sie also die Klammer sehen und dann schließen, und dann in diese Klammer legen, können wir unsere Elementsunterstützung schreiben. Ich möchte den Namen eines Landes erstellen. Nehmen wir an, Alport, Australien, Großbritannien. Okay. Südafrika. Unterstützen Sie digitale Elemente. Ich erstelle innerhalb dieses Vektors. Okay, also können wir die Funktion verwenden, um einen Vektor mit mehreren Elementen zu erstellen. Stimmt es? Jetzt verwende ich einfach Print und gebe Ci ein. Dadurch werden also die Werte innerhalb des Directors gedruckt. Also lass mich das ausführen. Lassen Sie mich diese Datei speichern. Und ich speichere diese Datei als Rektor Punkt. Okay? Und all diese Dateien werden unser Level in diesem aktuellen Arbeitsverzeichnis sein , das wir gezippt haben. Und ich werde diese Akten beglaubigen. Also schon kannst du es herunterladen und weitermachen. Okay, lassen Sie mich diese Quelldatei ausführen. Jetzt sind wir dran, lassen Sie mich diese Konsole leeren und sie erneut ausführen. Also sehen Sie hier, jetzt erhalten wir den Wert für den t-Vektor als Australien, Großbritannien, Südamerika und Russland, oder? Das heißt also, ein Vektor mit mehreren Elementen darin. Wir können, wir haben gesehen, wie das Sortieren funktioniert. Wir haben gesehen, wie wir unseren Vektor mit einem einzigen Element wie Indien erstellen können . Und es wird uns den Wert im Gehirn geben. Es wird uns beim Audit geben. Auf diese Weise können wir also einen Vektor und ein Objekt mit einem einzigen Element erstellen und wir können Funktion c verwenden, um einen Vektor mit mehreren Elementen zu erstellen. Und nehmen wir an, wenn Sie Glas von G drucken möchten , was wird das Ergebnis sein? Kannst du es erraten? Lass uns sehen. Zeichen C, die Nullzeichen. Es gibt uns also das S-Zeichen des Cluster-T-Vektors. Nehmen wir an, wenn ich das auf 0 ändere, tut mir leid, lass mich zuerst diese Klasse von t ausdrucken . Also das Cluster-Zeichen bitte hier. Was ich jetzt mache, ich ändere es einfach auf 200, einen numerischen Wert, okay? Und ich werde versuchen zu rennen, habe versucht, das auszuführen. Und dann versuche ich, diese letzte Aussage C zu wiederholen. Und jetzt stellen wir das Glas auf. B hat einen Nomaden. Ähnlich, wenn ich hier 120367900 ändere. Und wenn ich diese Quelldatei ausführe, was wir bekommen, bekommen wir die 12367900. Und die Klasse von G wird jetzt auf numerisch umgestellt. Welche Daten Sie also auf der Grundlage dieses Datentyps des Vektors verwenden werden, wird nicht im Voraus entschieden , wie bei C- oder Java-Programmierung, okay? Das ist also der Unterschied zwischen C und Java n, oder? Was auch immer Sie auf dieser Grundlage verwenden, es wird entschieden. 8. Sequenz in R: In dieser Vorlesung werden wir etwas über Sequenz lernen. Wir werden etwas über die Sequenzfunktion in r lernen . Was machen wir also mit der Sequenzfunktion , die wir sehen werden? Aber vorher möchte ich Ihnen noch eine wichtige Sache sagen, die ich in der vorherigen Vorlesung vergessen habe, und das ist Unterstützung. Ich erstelle einen Vektor und verwende die C-Funktion. Und wenn wie hier, habe ich eine Funktion erstellt, die nur numerische Werte verwendet. Die Klasse dafür wird also numerisch sein , da alle Elemente numerisch sind. Was wäre, wenn ich ein Zeichen gebe und dann eine Zahl gebe und dann eine logische Zahl durchgehe und dann eine Ganzzahl gebe. Und wenn ich das durchführe und wenn ich zuerst diese Recta bringen lasse , sehen Sie, hallo, 67 durch alles bis zu einem Zitat. Warum? Denn wenn wir, wenn wir eine Vektor-Z-Funktion erstellen und wenn eines der Elemente Zeichen hat, alle anderen Elemente mit einer numerischen Ganzzahl oder einem logischen Element , wird es in eine Zeichenfolge umgewandelt . Also, wenn ich, lass mich das einfach kopieren und wenn ich ein Glas Wasser hineinlege, wird es zum Charakter. Also werden alle anderen Elemente in das Zeichen umgewandelt. Wenn ein Element ein Zeichen ist, alle anderen numerischen, göttlichen, logischen oder ganzzahligen Elemente werden alle anderen Elemente das Zeichen umgewandelt und die Klasse dieses Vektors ist Zeichen. Denken Sie also daran, wenn alles numerisch ist, wird es numerisch sein. Wenn alle Integer-Klassen Ganzzahlen sind, aber wenn sie aus Ganzzahl und Zeichen gemischt sind, wird die Ganzzahl in das Zeichen umgewandelt. Wenn jemand, ein beliebiges Element, ein Zeichen ist, wird alles in das Zeichen umgewandelt. Okay, das ist zur Klarstellung. Als Nächstes erstelle ich eine neue Skriptdatei. Ich weiß nicht, warum das nicht steigt. Okay. Das ist eine Art von Fehlern. Ich weiß nicht warum. Also werden wir jetzt etwas über die Reihenfolge lernen. In R können wir also eine Zahlenfolge erstellen , wie angenommen, ich möchte eins bis zehn erstellen. Ich möchte die Zahlen eins bis zehn drucken. Das kann ich in zwei Schritten machen. Auf zweierlei Weise. Ich kann das in zwei Schritten tun, aber auf zwei Arten kann ich das tun. Ich kann einen Doppelpunktoperator oder die Sequenzfunktion verwenden. Also werde ich als Erstes versuchen, eine Zahlenfolge zu erstellen. Ich weise ihm einen Wert zu. Nehmen wir an, ich möchte die Sequenz haben. Nehmen wir an, ich sage, sehen Sie, ich erstelle eine fertige, wir werden sehen, dass wir einen Mehrwert haben werden. Ich möchte ihm einen Wert von eins bis sieben oder eins, um es zu erhalten, oder eins zu einhundert zuweisen . Also, wie kann ich das machen? Ein Doppelpunkt, 100. Wenn ich eine Farbe bei 100 mache und wenn ich sie ausführe, was sie tun wird, wird eine Sequenz von 1 bis 100 erstellt. Lass mich sehen. Sehen Sie hier. 1200 Zahlen waren Generatoren, also wird eine Zahlenfolge von 1 bis 100 erstellt. Also lass mich die Konsole auf die rechte Seite stellen. Jetzt wird es einfach sein, den Code hier zu verstehen und zu schreiben und die Ausgabe wird hier sein. Und lass mich, okay. Was wir nun tun müssen, um eine Sequenz zu erstellen, wir müssen die erste Zahl angeben von der aus wir beginnen möchten. Und dann müssen wir die Endnummer angeben. Angenommen, ich erhalte zehn und es schlägt bei diesem Tool fehl, es wird eine Sequenz 1-10 erstellt. Wenn wir also eine Sequenz erstellen möchten, können Sie diesen Doppelpunktoperator verwenden und Sie können eine Zahlenfolge erstellen. Angenommen, ich möchte die Zahlen 1-20 erstellen, oder ich möchte zwei bis 20 erstellen. Wie können wir das machen? Wenn ich das durchführe, was wir sehen werden, werden wir 2468 auf 20 erhöhen. Also jedes einzelne Element. Eine Sequenznummer wie eins wird mit 22 multipliziert und mit zwei multipliziert. So. Wir werden es schaffen, richtig. Ebenso kann ich die Reihenfolge der Punkte erstellen. Ich wollte eine Sequenz von 2,5 bis vier erstellen. Das schaffe ich. Wenn ich f c Hier drucke, erhalte ich 2,53, 0,5, weil das nächste für Valley sein wird. Es wird also die Sequenz ab 2.52 drucken. Und wenn ich hier 40 verwende, gibt es dem Ecto 0,53, 0,5 bis 39 Punkte , oder? Nehmen wir auf die gleiche Weise an, ich möchte eine Sequenz aus zwei Doppelpunkten erstellen , 20 minus eins. Und wenn ich D drucke, können Sie sich vorstellen, was die Antwort sein wird? Lass uns sehen. Jetzt kommen wir von eins zu 19. Warum es eins zu 19 kommt, weil niemand von diesen 1,20 minus sein wird. Es wird also tatsächlich die Zahl Von eins bis 19, bis minus 11 und minus 119 generieren die Zahl Von eins bis 19, . Die Boards werden uns also genau hier das gleiche Ergebnis geben. Okay? Die nächste Sache ist, wir es auch auf andere Weise machen können. Ich kann es gebrauchen, tut mir leid. Ich kann eine Variable a verwenden, ich kann einen Wert Acht zuweisen. Und was ich dann tun kann, das kann ich, ich will die Zahlen 1-8 generieren. Also ich kann, wenn ich dieses Tool starte, was ich bekomme, werde ich in die Reihenfolge der Zahlen 1-8 kommen, oder? Also auch auf diese Weise können wir der Variablen oder dem Objekt e einen Wert zuweisen, und dann können wir ein ist darauf setzen, anstatt es zu schlagen, wir können eins zu a setzen. Und das wird uns auch dieselbe Ziffer geben. Ein bis acht Zahlen, die ich generiert habe. Ich kann auch eins minus a setzen und sehen, was das Ergebnis von Null bis Sieben ergibt, denn es wird eine minus 172027-Sequenz generiert. Wenn ich ein Minus Eins in die Klammer setze. Und wenn ich versuche, das auszuführen, erhalte ich jetzt eins bis sieben weil das zuerst ausgeführt wird, okay? Es wird also 7.1 sein , weil wir diesen hier nicht abziehen. Denn wenn es in der Klammer rein und rein ist, bekommt die Klammer die höheren Preprints. Das wird also zuerst ausgeführt. Eins ist vor sieben, heißt. Es werden die Zahlen 1-7 generiert. Abgesehen davon können wir Sequenz verwenden, um eine Folge von Zahlen zu erstellen , um zu unterstützen, dass Sie eine endliche SEQ erhalten und ich gebe ein Komma, ein Komma fünf. Welches Ergebnis werde ich bekommen? Ich nehme die Reihenfolge der Zahlen 1-5, oder? Ähnlich, wenn ich eine Folge von Neun und welche digitale Zielfolge der Zahlen 1-9 angebe . Hier gebe ich eins bis fünf, das heißt 1-5. Und wenn ich die vierte Ziffer nicht gebe, was wird benötigt, es wird standardmäßig 1-9 generiert, okay? Das, das ist der Standardcharakter der Sequenz. Okay? Als Nächstes können wir diese Funktion auch auf andere Weise verwenden . Ich kann von wässrig annehmen, um 8,2 bis 32 anzunehmen. Und wenn ich es starte, was wird es tun, es generiert Zahlen aus 32, 32, okay? In ähnlicher Weise können wir auch die Reihenfolge verwenden , da ich die erste Nummer behalten kann. Dann kann ich die beiden Zahlen angeben, nehmen wir acht an. Und dann kann ich dem geben, was die beiden hier machen werden. Das wird es. Dies wird als Schritt bezeichnet. Also lass es mich hier schreiben. Sequenz Koma zuordnen, Schotterkomma unterstützen, Schritt bis. Dieses Argument ist ein Schritt. Lassen Sie mich das zuerst ausführen und dann erkläre ich es. Sehen Sie hier, was wir bekommen. Wir bekommen. 24681012. Was es tut, anstatt eine Sequenz von 234 bis 12 zu erstellen, was es tut, es erzeugt, es gibt uns, es gibt uns, zwei bis vier zu addieren. rechts gibt es eine Lücke, weil wir den Schrittwert mit zwei angegeben haben. Also zwei plus 244 plus 266 plus 28, dann unterscheiden wir bis zu zwischen diesen beiden Sequenzen. Das ist also das Step-Argument des Benutzers, das ist das Step-Out, wenn dies das Step-Argument ist , oder? Wir können auch ein anderes Beispiel sehen. Angenommen, ich möchte eine Sequenz von zehn, 10-25 erstellen. Und ich möchte die Reihenfolge um Wine, Seven Flame erhöhen. Also lass mich das ausführen. Saudi Cl, was wir bekommen, bekommen, die Zahlenfolge fängt bei zehn an , weil du zehn gegeben hast und es geht bis 25. Und was es tut, es fügt 0,75 zu jedem Wert oder zehn hinzu , es wird beginnen, dann wird es 0,75 hinzufügen, dann 10,75, was es tun wird, es wird weitere 0,75, 0,5, 12,25 hinzufügen. Also dieses Byte, sieben, fünf Minuten, es wird den Wert um 0,75 erhöhen. Nehmen wir an, wenn ich das mit drei mache, wird das Ergebnis 101-316-1920, 2,25 ergeben. Wenn ich den Wert auf fünf erhöhe, was passiert, dann wird es 1015, 2025 so. Okay? Auf diese Weise können wir die Sequenz generieren. Es gibt noch eine andere Sache , die Länge genannt wird. Nehmen wir an, ich möchte die Zahlen 25-50 erstellen und die Länge gleich sechs halten. Was es hier tun wird, ist, dass wir mit 25 beginnen, dann 630, dann 35,40, 45 und dann 50. Es wird also eine Folge von sechs Zahlen zwischen 25 generiert. Und wenn ich es schaffe, nehme ich an , dann wird es die Zahlen 25, 27 erzeugen. Also was es tun wird, 25-50, es wird zehn Zahlen mit der Gleichheit erzeugen, Beispiel 205-20-7303 Punkte, ungefähr so. Okay? Wenn ich 100 gebe, generiert es Hunderte von Sequenzen, oder? Wenn ich es einem geben würde, was es tun würde, es würde nur eine Zahl 25-50 generieren. Wenn ich zwei gebe , werden zwei Zahlen generiert. 25,50. Wenn ich drei behalte, wird es durch drei geteilt, siehe 2.537,5 und 50, okay? So wie das. Es wird also versuchen, drei Sequenzen zu generieren, 25-50. 9. Funktion replizieren: In dieser Vorlesung werden wir etwas über die Replikationsfunktion lernen. Also, welche Replikationsfunktion wird das tun. Also werden wir diese App rep verwenden, die repliziert und wann wir etwas replizieren wollen. Also, lassen Sie mich es Ihnen anhand eines Beispiels zeigen. Nehmen wir an, ich möchte eine Sequenz erstellen , in der ich 58 Mal wiederholen möchte. Ich verwende diese Funktion und gebe fünf an, die ich wiederholen möchte. Und hier gebe ich mal dreimal 28. Was diese Replicate-Funktion also tun wird, wird fünfmal wiederholt. Also, was du hier siehst, 5558 mal. Okay? Diese Replicate-Funktion repliziert also dieselbe Zahl. Replizieren heißt wiederholen, es wird achtmal wiederholt. In ähnlicher Weise können wir auch Charaktere verwenden. Unterstützung, die uns geben wird. Und dann gebe ich Zeiten an, die drei oder zwei entsprechen. Es werden drei ds, ds, ds, ds gedruckt. Es wird dreimal eine Sequenz von BSD SDS erstellen. Okay? Denkt also daran, was auch immer wir hier geben, es wird mehrfach aufgebraucht werden, okay? Auf die gleiche Weise, wie wir even verwenden können, können wir das Objekt an die andere Anwendungsfunktion übergeben. Nehmen wir an, ich wollte, ich habe es geschaffen, um die Funktion „ Kunst replizieren“ zu unterstützen. Ich möchte eine Variable R erstellen. Nun, ich möchte die Sequenz 3-6 generieren. Also, was diese drei bis drei bis sechs sind, werden wir seltsam machen. Wenn ich es ausdrucke, wird 34568-Support erstellt. Ich verwende hier die Funktion Replizieren. Und was ich tun werde, werde ich bestehen, diese Kunst könnte sich replizieren. Und hier bekommst du zweimal. Was es tun wird, wird diese Sequenz wiederholen , 3-6 zweimal. Okay? Wenn wir das also ausführen, was es ergibt, wird es 3456 und dann wieder 32562 mal bekommen . Wenn ich drei schaffe, wird diese Sequenz dreimal wiederholt. Also 3456, wieder 3456 und wieder 3456. Also, wie oft es wiederholt wird, wird die gesamte Sequenz so oft wiederholt, oder? Genauso wie wir, tut mir leid, haben wir hier ein anderes Argument. In dieser Anwendungsfunktion. Das heißt, nehmen wir an, ich verwende denselben Objektbereich und möchte jedes Objekt darauf anwenden. Wenn ich mich jedes Jahr bewerbe, habe ich mich dreimal beworben. Jetzt wende ich jeweils gleich zwei an. Also, was es tun wird, mal sehen. Ich nehme an, ich führe das aus. Was es tut. Es ist das, jedes Element 3-6 wird zweimal wiederholt, und dann geht es zur nächsten Anzahl von Monaten, also drei, zweimal 33, dann 44, dann 55, dann 663-344-5566. Also wird jedes Element wiederholt und dann wird mit dem nächsten Element fortgefahren. Und früher wird jedes Element wiederholt. Hier? Jedes Element wird wiederholt, und dann geht es zum nächsten Element. Und hier wurde die ganze Sequenz wiederholt. 3456, dann wieder 3456. Und doch hat 3344 unser Porträt unterstützt. Drittens, was es tun wird, es wird, jedes Element wird der Beschützer sein, Zeit 333444, dann 555666. Das ist also der Unterschied zwischen den Zeiten und den einzelnen in der Replikationsfunktion. In der Replikationsfunktion gibt es zwei Argumente, dann wiederholt sich jedes Mal die gesamte Sequenz so oft. Und jedes Testament, jedes Element wird dafür viele Male wiederholt. Und dann wird die Sequenz wie 333444 erstellt, so. 10. Vektorelemente zugreifen: Hallo und willkommen zurück. In dieser Vorlesung lernen wir, wie man auf Vektorelemente zugreift. Wir haben gesehen, wie wir Vektoren in R erstellen können . Was ich nun tun werde, dass Vektor Henry versucht, auf das Element der Vektoren zuzugreifen. Wir werden sehen, wie wir auf die Vektorelemente in R zugreifen können Dafür muss ich eine Datei erstellen und ihr einen Namen geben. Ric dot R. Okay? Was ich nun mache, ich erstelle ein Rechteck mit einem Namen, Monat. Und für den Monatsvektor, was Alice groß und klein ist. Monate. Januar, Februar, März, April so. Okay? Die C-Funktion, und ich werde versuchen, die Werte Jan zu speichern. Was ich hier mache, ich erstelle einen Vektor und installiere diesen Vektor in den Objektmonat, okay? Und wie viele speichern dann die Werte? Januar, Februar, bis Dezember. Okay. Jetzt haben wir erstellt und festgelegt, wie wir auf die Elemente des Vektors zugreifen werden. Was ich dafür tun werde, lassen Sie mich die Konsole hier löschen , damit wir das Ergebnis hier sehen können. Also, wenn ich das mache und die Monate Januar bis Dezember laufe , okay? Was ist jetzt, wenn ich auf das App Play zugreifen möchte? August oder September so, okay, dafür , was wir tun müssen, kann ich erstellen, ich kann ein weiteres Tool für den Vektorunterstützungsmonat erstellen. Und dafür, was ich tun werde, werde ich einen riesigen Monat brauchen. Und es war die Großbuchstabe und man sieht nur die Funktion. Und innerhalb der C-Funktion behalte ich den Index für die Unterstützung am 1. Januar 2344. Komma sieben. Komma neun. Okay. Also, ähm, ich möchte auf den Monat für 7,9 zugreifen und ein Tool zum Ausdrucken des Monats. Also, wenn ich diese beiden durchführe, was wir jetzt bekommen, bekomme ich April, Juli und September, denn was der Index ist vier, dann 567 für Juli und für September sind es neun. Auf diese Weise können wir unseren Zugriff die Elemente einer Vektorfunktion nennen . Ein Vektor. Also ein Vektorobjekt, auf das wir wie auf das X zugreifen können, wenn Sie auf ein bestimmtes Element zugreifen möchten. Das kannst du machen. Wenn ich es auf drei ändere, lege eins und zweimal. Und wenn ich diese beiden Aussagen durchführe, bekommen wir, ja, wir bekommen März und dann normal und drehen sie um wir bekommen März und dann normal und , ist Montag, Mai. So können wir auf die Vektorelemente zugreifen. Wir können auch x die Vektorelemente verwenden logische Indizierung verwenden. Wie macht man das. Nehmen wir an, ich erstelle ein weiteres Objekt, Monat drei und unterstütze welchen Monat ich jeden Monat zugreifen möchte. Und die große Klammer und innerhalb der C-Funktion, was ich tun werde , zuerst unterstütze ich true und dann gebe ich false. Und dann werde ich falsch. Dann werde ich wahr. Nehmen wir an, ich übergebe diese vier Werte, wahr, falsch, wahr. Und wenn ich Monat drei drucke, was passiert dann? Lassen Sie mich das ausführen und das Ergebnis sehen. Was wir bekommen, wir bekommen Januar. Der erste Monat stimmt. Es wird also hier gedruckt. Dann das nächste Falsch, Falsch. Februar, März wird also falsch sein, das heißt, es wird nicht sein, wir greifen nicht auf Februar und März zu, oder? Diese beiden Werte werden also auch nicht da sein. Es ist Februar, März ist hier nicht gedruckt. Dann stimmt das für den vierten . Wir kommen also auf vier. Und dann das restliche Element, das wir nicht gegeben haben. Es kommt also entweder im Mai, August und September. Es wiederholt sich. Also stell dir vor, was es tut. Es ist wieder der gleiche Kampf in dieser Sache. Janet, britische Bürgermeisterin, Gas im September und Dezember. Also wiederholt es die Sache. Okay. Als Nächstes können wir tun. Wir können eine negative Indexierung verwenden. Nehmen wir an, ich erstelle ein anderes Objekt, Monat für und was ich tun werde, weisen wir dem Monat Alkohol Monat zu, und sehen uns zumindest die Funktion an. Und hier ist ein Projektil, gib minus zwei Komma minus fünf. Also, was wird das bewirken und den vierten Druckmonat unterstützen. Und wenn ich diese beiden starte, was passiert dann? Ich erhalte Januar, März und dann vielleicht auch nicht Da sind Februar und Mai nicht gedruckt, weil minus zwei bedeutet, dass die zweite Indexierung minus zwei bedeutet, dass wir jeden Februar, Februar nicht sein , auf minus zwei und -5 Minuten im zweiten Monat und dem Monat, auf den wir nicht zugreifen möchten , außer dass alles andere gedruckt wird. Okay. Februar und Mai werden also nicht gedruckt. Siehe hier, Februar und darf nicht gedruckt werden. Akzeptiere, dass alle anderen gedruckt sind. Wenn ich -12 eingebe, wird der Dezember nicht mitgedruckt. Also jetzt ist die Norm, dass sie jemand sind, nicht da. Wenn Sie also auf Elemente zugreifen möchten und wir einige Elemente belassen möchten, können Sie Dopamin für diesen Index verwenden und er wird nicht gedruckt. 11. Vector in R: Hallo und willkommen zurück. In dieser Vorlesung werden wir also etwas über Vektormanipulation lernen. Also werden wir sehen, wie wir eine Läsion innerhalb der Vektorelemente bilden können . Wie wir zwei Vektoren addieren können, wie wir zwei Vektoren subtrahieren können, wie wir eine Division innerhalb von zwei Aktoren durchführen können. Und wir werden sehen, wie wir die Vektoren multiplizieren können. Also lasst uns anfangen. Also erstelle ich eine R-Skriptdatei und gebe ihr einen Namen. Viele törichte Manipulationen. Okay. Lassen Sie mich also die Konsole hier leeren, damit wir richtig sehen können. Okay, also als Erstes, was ich mache, ich führe automatisch aus, oft nicht innerhalb von zwei mit zwei Vektoren. Also als Erstes, was wir tun werden, wir zwei Vektoren erstellen, werden unseren Vektor F1 erstellen, unterstützen. Und ich erstelle einen Vektor, den Vektor F1. Und was ich tun werde, ich weise einige Werte zu. Ich nehme an, sie sind es noch nicht, 95 oder so. Okay, also erstelle ich einen Vektor, F1, und kopiere und füge ihn ein. Und ich erstelle einen weiteren Vektor, F2. Und wir werden irgendwo hinkommen, wo viele D und 20 tippen. Okay? Das wird reichen, okay. Jetzt haben wir also zwei Vektoren, F1 und F2. Ich möchte eine Addition durchführen. Okay? Was ich tun werde, ich erstelle weiteren Vektor, ein weiteres Objekt a. Und was ich mache, ich F1 zu, die Formel F1 plus F2. Also, was ich hier mache, ich füge diese beiden Vektoren F1 und F2 hinzu und weise sie Objekt a zu. Okay, was ich jetzt mache, ich drucke a. Also lass mich dieses n ausführen. Also bist du digital fertig. Siehst du, weißt du, was ich kriege? Ich erhalte das Ergebnis 24, 24, y plus 212. Das erste Element dieser beiden Vektoren wird hinzugefügt, 12 plus 214. Dann ist 78 plus acht 690 plus 31, 25 plus 25, 30. Auf diese Weise können wir also eine Region aufführen. Nehmen wir an, ich möchte ein paar Tracks spielen und was ich tun werde, kopiere ich einfach. Ich habe an diesem Tag wirklich mit den Mietern gespendet. Ja. Und ich bringe Tränen mit und was ich tun werde, ich mache F1 minus F2. Also F1 minus F2. Wenn ich welche Heckklappe mache? Siehst du, ich erhalte wieder 107060 und -20 y, 12 minus 21078 -70, 90 -30, 65 -25, 20. Auf diese Weise können wir die Subtraktion auf die gleiche Weise durchführen. Wenn y Deine Multiplikation, ich schaffe über m und was für ein niedriges F1 und F2. Und ich drucke, wenn ich das ausführe, bekommen wir 12, wenn zwei zu 24, 78 zu 862490 zu 3027005205125. In ähnlicher Weise können wir eine Division durchführen. Nehmen wir an, ich erstelle einen Vektor d und mache F1 geteilt durch zwei. Und ich werde den Deal ausdrucken. Und wenn ich das durchführe, werde ich dich um zwei krank machen auf 678/9, 0,759, 0,7, 5,90, 233 5/25 ist 0,2. Okay? Auf diese Weise können wir eine ordentliche Subtraktion, Multiplikation und Division durchführen . Also lass mich hier schreiben, das ist eine Mehrfachanwendung. Und dann ist das die Region. Auf diese Weise können wir Addition, Subtraktion, Multiplikation und Division am Rectus durchführen . Und das nennt man Vektormanipulation. 12. Recycling von Vektorelementen: Hallo und willkommen zurück. In dieser Vorlesung werde ich Ihnen also etwas sagen , das ich Ihnen in der vorherigen Vorlesung nicht vollständig beigebracht habe. Und das ist eine sehr einzigartige Frage, die Sie sich vielleicht gestellt haben ob es sich um einen physischen oder einen Offline-Kurs handelt. Und Sie müssen gekommen sein, diese Frage ist Ihnen vielleicht auch in den Sinn gekommen. Nehmen wir an, ich habe zwei Vektoren, F1 und F2. Und F1 hat vier Elemente und F2 hat nur zwei Elemente. Und was ist, wenn ich diese beiden Vektoren hinzufüge? Nehmen wir an, ich führe die Anfangsbedingungen für F1 plus F2 durch. Also hier vier Elemente und hier zwei Elemente, eine Liste. Also, wie wird es funktionieren. Wenn wir also in R versuchen, F1 plus F2 auszuführen, wenn wir versuchen, zwei ungleiche Vektoren zu addieren, dann bedeutet das, dass der zweite Vektor , der von kürzerer Länge ist , Elemente recycelt werden, Elemente recycelt werden ihn zu einer dunklen Länge des ersten Vektors zu machen. Also, was wird in diesem Fall passieren? Vector wird so werden. Intern. Was? F2 wird wie zwei Kommas Acht sein. Komma zwei, Komma acht. Okay? Also wenn aus zwei so etwas wird, okay? Du auch, es wird wiederholt, bis die Anzahl der Elemente in der Formel 1 erreicht ist. Es gibt also vier Elemente, also wird es sich wiederholen. Das wird also so etwas werden. Und dann wird es den automatischen Betrieb durchführen. Lassen Sie mich diese Handerde, mit der ich mich befasst habe , bearbeiten, damit Sie eine bessere Vorstellung bekommen. Lass mich das klären und das ausführen. Schau hier. Jetzt ist das Ergebnis 14, 86, 90 bis 13. Wie man vier plus, tut mir leid, zwei plus zwei. Entschuldigung, 12 plus 214. Und dann 78 plus 886 und dann 90 plus zwei. Weil die beiden, es wird wiederholt werden. Also 90 plus 292,5 plus 813. Das wird also so werden. Wenn ich hier noch ein Element hinzufüge, nehme ich an 80. Und wenn ich das starte, was passiert dann? Mal sehen. Schau hier, wir bekommen hier eine Fehlermeldung. längere Objektlänge ist kein Vielfaches der Länge des Starterobjekts. Es heißt, jetzt sehen Sie es noch. Dieses Element ist ein Viertel bis es aus zwei Elementen besteht . Zwei Elemente. Und F1 hat Spaß daran, Phi-Variablen zu haben, oder? Wir verschulden uns. Das zweite, das erste Element hat zwei Elemente und dieses hat fünf. Fünf ist also kein Vielfaches von zwei, oder? Deshalb kommen wir zu dem Schluss, denn zwei, wenn Sie fünf durch zwei teilen, erhalten Sie den Rest eins. In diesem Fall wird dieser Ruf nicht funktionieren. Aber wenn ich noch ein Element hinzufüge, nehme ich sieben an. Und wenn ich versuchen würde, das auszuführen, wird das diesmal funktionieren. Jetzt bekommen wir das Diagramm , weil die Anzahl der Elemente hier sechs ist. Und der zweite ist 22268/2, oder? Sechs ist Multiple bis zum ersten L. Längere Elemente, längere Vektoren hätten die Markierung. So viele Zahlen. Die Anzahl der Elemente wäre mehrere App mögen bestimmte Elemente sechs, oder? Sechs ist also das Multipolare zu dieser Funktion, dieser Multiplikation oder Division oder Addition, die Sie durchführen können. Aber wenn es fünf ist, dann ist zwei nicht das Phi, es ist nicht das Vielfache von zwei und es wird ein Fehler wie dieser ausgelöst. Okay? Also ich hoffe du hast es verstanden. In ähnlicher Weise können Sie dies auch tun , wenn Sie eine Multiplikation durchführen möchten. Hier bekommen wir die Multiplikationsdivision, alles wird erledigt sein. Recycling der Elemente erfolgt also nur, wenn das Vielfache der Elemente im sortierten Vektor dem Vielfachen der Elemente im sortierten Vektor entspricht, je weicher die Elemente im längeren Vektor sind. Also längere Vektoren, die Anzahl der Elemente wäre das Vielfache dieser Elemente, okay? Nummerieren Sie Sorta-Elemente. Okay. Ich hoffe, es ist für dich klar. 13. Vektorelemente sortieren: Hallo und willkommen zurück. In dieser Vorlesung werden wir also lernen, wer Vektorsortierung ist. Schauen wir uns also an, wie wir Vektoren sortieren können. Okay? Was wir also lernen werden, das Sortieren von Recta. Okay? Dafür haben wir also eine Funktion namens sort. Also werden wir die Sortierfunktion verwenden. also als Erstes Lassen Sie mich also als Erstes ein Vektor-0-Wrack erstellen. Und dafür gebe ich eine Zufallszahl, 349-082-7543, einige Zufallszahlen. Okay? Und nehmen wir an, ich möchte diese Vektorelemente sortieren. Was ich also tun kann, ich kann einfach weitere Objekte erstellen, die kaputt sind. Und was ich tun werde, ich nenne die Sortierfunktionsleisten so, was ein Nullvektor für die Sortierfunktion ist. Und was diese Sortierfunktion bewirken wird. Es wird diesen Vektor starten. Und was ich dann mache, ich drucke einfach den Start aus. Also hier drucke ich den sortierten Vektor und das ist das zusätzliche Recto. Und ich übergebe diesen Vektor an die Sortierfunktion und drucke dann den sortierten Vektorwert. Lassen Sie uns das ausführen und sehen, dass dieses Terminal definitiv gelöscht ist , und führen Sie es erneut aus. Siehst du, wir bekommen einen sortierten Vektor. Also 349, 273-043-6408. Es ist also in aufsteigender Reihenfolge sortiert. Standardmäßig wird es also in aufsteigender Reihenfolge sortiert. Die niedrigsten Elemente bewegen sich also zuerst und dann nimmt sie weiter zu. Okay? Auf diese Weise können wir in R sortieren und vektorisieren . Was ist, wenn ich diese Rinde sortieren möchte? Ich will in absteigender Reihenfolge. Also, was ich dafür tun kann, kann ich dieselbe Sortierfunktion verwenden. Und hier, was ich tun werde, ich werde einfach weiter abnehmen, abnehmen. Das ist logisch. Und ja, ich gebe es wahr. ich also abnehme, behalte ich den Nachteil bei , weil er standardmäßig falsch ist. Und das wird es tun. Zunehmende Reihenfolge, oder? Aufsteigende Reihenfolge. Standardmäßig wird es in aufsteigender Reihenfolge sortiert. Was ich also tun werde, ich werde tun, dass sie kulturelle Wahrheitswerte erstellen die den Vektor in absteigender Reihenfolge sortieren. Lassen Sie uns das also ausführen und schauen wir uns nun diese Sortierung in die Reinigung oder eine 98 an, dann 463-06-3420, 79.4. Auf diese Weise können wir in absteigender Reihenfolge sortieren. Als Nächstes sehen wir uns die Sortierung von Charakter, Charakter und Zeichengerüst an. Damit wir auch annehmen können, dass ich ein Rechteck habe, eines, das einige Werte hat wie für einige zufällige Dinge. Und das rote, blaue Land. Alles in einer Charakterform. Okay, das ist also der Zeichenvektor. Es hat Werte im Charakter. Und nehmen wir an, ich möchte das sortieren und den sortierten Vektorwert im Tierarzt speichern, damit er funktioniert. Ich rufe die Sortierfunktion auf und übergebe dieses eine Recta an die Sortierfunktion. Und wenn ich diese beiden Zeilen ausführe, welcher Algorithmus? Was magst du? Lassen Sie mich zu diesem Drucktool kommen. Also, wenn ich diese Linie übernehme, was wir mögen und du bekommst Blau, dann Land statt vier, dann ertrinken, dendrite. Warum es so ist, weil B, dann C, dann F, dann r. Okay, es wird also in alphabetischer Reihenfolge sein. Und was ist, wenn ich das einordnen möchte? Aber er war schwieriger. Ich kann Sie immer weniger zum Zeichnen aufrufen und jetzt sehe ich, dass das verdient ist. Als wir mit der Spülung angefangen haben, sind dann f, dann C und dann B. Also muss D die Armut lösen, Baumwolle, auf diese Weise können wir die Vektoren sortieren, sowohl Zeichen als auch Zahlen, okay? 14. Entscheidungsfindung in R: Hallo und willkommen zurück. In dieser Vorlesung werden wir also etwas über die Entscheidungsfindung in unseren, in unseren anderen Programmiersprachen lernen . Wir haben die if-Anweisung, wir haben die if-Anweisung, wir haben die Anweisung if else und wir haben die Switch-Anweisung. Damit können wir Entscheidungen treffen. Wenn eine Anweisung bedeutet , dass etwas wahr ist, dann wird die folgende Anweisung ausgeführt. Und es bedeutet gefühlt, wenn etwas wahr ist und wenn Sie eine Bedingung stellen und diese Bedingung nicht erfüllt ist, dann wird die Else-Anweisung ausgeführt. Switch wird sehen, wie die Variable auf Gleichheit getestet wird. Hier ist die Liste der Werte, also werden wir sehen, ob es sonst noch so ist. Und dann werden wir den Schalter sehen. Lassen Sie mich also hier unsere Skriptdatei erstellen. Und ich gebe dem einen Namen. Entscheidungsfindung, dunkle Kunst. Seetang. Lass mich die Konsole leeren , damit wir das Gel sehen können. Also zuerst, was wir sehen werden, wir werden sehen, ob es leid tut, ich muss hier zuerst tippen. Wir werden sehen, ob Aussage. Okay. Also zuerst Realität, wenn Aussage. Und wenn es Regenwasser ist, ist es konsistent, konsistent. Jetzt Boolescher Ausdruck und folgende Aussage. Wenn also der boolesche Ausdruck wahr ist, wird die folgende Anweisung ausgeführt. Unterstützen Sie, was ich hier tun werde. Ich erstelle ein Objekt a und weise einen Wert 67 zu. Du kannst alles schreiben, okay? Und was ich tun werde, ich schreibe, wenn die Aussage weniger als 70 ist, dann werde ich versuchen, dann werde ich versuchen, weniger als 17 zu drucken. Okay? Nehmen wir an, das ist das, was ich aufführen möchte. Also, wenn ich das starte, was kriege ich? Sehen Sie, das Ergebnis, das ich erhalte, ist weniger als 70. Angenommen, ich ändere diesen Wert auf 75, 75. Und wenn ich versuchen würde, das auszuführen, was passiert? Ich werde keine Ausgabe bekommen, weil E 75 ist. Und wenn ich in diese Wenn-Aussage eingehe, dann ist das Nähen von weniger als 70 größer als 70. Es wird also nicht in diese Erklärung eingehen. Es erfüllt die Hundebedingung nicht und diese Erklärung wird nicht gedruckt, oder? Das nennt man also IF-Anweisung, oder? Ebenso kann ich wie eine Ganzzahl mit einem Punkt schreiben . Also der andere Teil ist Integer, und dann übergebe ich E und ein Licht ist. Lassen Sie mich das ausführen, weil es hier eine Zahl ist. Und was ich noch teste, wenn es eine Ganzzahl ist, dann muss ich eine Ganzzahl drucken , oder? Wenn ich sage, mache daraus eine Ganzzahl, die 75 L entspricht. Und wenn ich das ausführe, sehen Sie, jetzt ist a eine Ganzzahl. Es wird Malerei sein. Auf diese Weise. Wenn diese Bedingung erfüllt ist, wird diese nachfolgende Anweisung gedruckt. Okay? In ähnlicher Weise können wir hier eine weitere Aussage platzieren. Wenn jede Ganzzahl, dann wird diese gedruckt. Ich kann etwas anderes drucken. Der See ist nomadisch. Okay, also wenn ich renne, ist das eine Ganzzahl. Wenn ich das auf numerisch ändere und das erneut ausführe , erhalten wir numerisch. Lass es mich versuchen. Wenn ich schon angefasst habe , ist das numerisch. Und wenn ich das starte, was ist passiert? Okay, ich muss das ablegen. Und wenn ich das ausführe, ist die Zeichenfolge eine Ganzzahl. Ich muss die Aussage hier ändern, New Relic und hier Integer, oder? Jetzt. Da a nomadisch ist, wird diese Bedingung wahr. Drucken ist also nomadisch, Rate ist numerisch, ist nomadisch. Und diese Aussage ist es nicht, sie geht nicht zum anderen Teil über. Auf diese Weise können wir eine Switch-Anweisung eingeben , für den Moment sehen wir sie. Die Switch-Anweisung. Also lasst uns die Switch-Anweisung annehmen, ich habe einen Vektor D und verwende switch. Und dann Einblicke in das, was ich tun werde. Ich unterstütze vier Kommas eins. Und ich gebe 2345. Und dann schließe ich den Schalter. Wenn ich dann in d eingebe, welchen Wert bekommen wir. Lass uns sehen. Wenn du vier hast, weil ich überlasse, was die Switch-Anweisung tun wird. Es geht zum vierten Wert und es wird diesen Wert drucken. Also ein Jahr für gibt es 1234, also wird es vier drucken. Nehmen wir an, ich schreibe hier etwas anderes. hallo. Dieses Hallo wird also gedruckt. Okay? Lassen Sie mich Ihnen diesen Druck zeigen, hallo. Und nehmen wir an, wenn ich eins oder zwei mache, dann wird es gedruckt, dann geht es bitte zum entsprechenden. Okay. Bisher zwei, es wird auf den 12. gehen. Es wird diese drucken. Für drei wird es zum Hallo gehen, für vier wird es zum Hallo gehen. Fünf, es wird 55 drucken. Was es also tun wird, eine Switch-Anweisung ermöglicht es, einen Wert auf Gleichheit mit der Werteliste zu testen. Das ist also die Liste der Werte. Und für sie beträgt die Indexierung 1.234,5. Welchen Index Sie Ihnen auch geben , dieser Indexwert wird gedruckt. Ich nehme an, ich habe drei gegeben. Also wird der Indexwert drei gedruckt. 3 Minuten, 1233. Wirst du ein Geschenk für kaufen? Dann wird Hallo gedruckt. C. Auf diese Weise können wir die Switch-Anweisung in Heart verwenden. 15. Loop mit Repeat- und while: Hallo und willkommen zurück. In dieser Vorlesung lernen wir also etwas über die Loop-Aussage in unserer, was ist ein Loop? Eine Schleife ist eine Funktion. Du kannst eine Schleife sagen. Mit einer Schleife können wir eine Anweisung oder Gruppe von Anweisungen mehrfach ausführen. Wenn wir also eine Schleife einfügen, wenn wir eine Anweisung in die Schleife einfügen, wird sie mehrmals ausgeführt bis die Bedingung erfüllt ist, oder? Solange die Bedingung nicht erfüllt ist, wird dieselbe Aussage immer wieder wiederholt. Eine Loop-Anweisung ermöglicht es uns also, eine Anweisung oder eine Gruppe von Anweisungen mehrmals auszuführen. Und es gibt drei Typen. gibt es drei Arten von Loop-Statements In R gibt es drei Arten von Loop-Statements: Die erste ist Repute-Anweisung, die zweite ist eine While-Schleife. Und dann haben wir den sehr beliebten One Loop. Also was ich tun werde, ich fange zuerst mit einer Wiederholungsschleife an. Schauen wir uns also an, was Wiederholungsschleife in R ist Nehmen wir an, wir haben ein Recto dem die Eisenbahn Indien unterstützt, Burton, okay? So wie das hier. Also werde ich es etwas später sagen. Wir haben also einen Vektor mit den Werten Indien, USA und Großbritannien. Und nehmen wir an, ich nehme eine andere Route, wir an, ich habe ihr einen Namen gegeben. Und ich unterstütze Kant genauso wie vier. Und was ich dann machen werde, hier funktionierten dreckige Füße. Und ich möchte den Vektor einer bestimmten Anzahl von Malen drucken . Okay? Was ich also tun werde, ist Bericht, den ich gegeben habe, auszudrucken. Wenn du hier zählst, wenn die Zählung weniger als zehn ist weniger als zehn , dann möchte ich Rec drucken. Okay? Also werden sie sagen Welcher Brief. Also, wenn ich das starte, was passiert dann? Lass uns sehen. Wir sehen uns. Es wird das weiter drucken weil die Zählung dafür ist und welche Bedingung ich gegeben habe. Mir wird angezeigt, wenn die Zählung weniger als zehn ist, also wird dieser Ford immer weniger als zehn sein, oder? Also was ich tun werde, verwende ich hier zählen, zählen plus eins. Also jedes Kleid und ich erhöhen den Zählwert auf eins. Lassen Sie mich jetzt damit aufhören. Und lassen Sie mich diesen Code erneut ausführen. Jetzt schau, was passiert. Es druckt es 123456 mal y ist das Extrem. Das erste Mal wird es kommen. Die Anzahl ist gleich vier. Es wird also gedruckt, wann immer Sie wieder gehen. Aus der Zählung werden also fünf. Dann werden wieder vier gedruckt. Dann 54678 bis neun. Dann Extranet, die Zählung wird zehn. Es wird nicht gedruckt, es wird 45 drucken. Es wird 445.678,9 drucken. Der Nettostrom wird also zehn werden, er wird aus dieser Schleife kommen. Das ist also die übliche Schleife. Okay? Auf diese Weise können wir die Wiederholungsschleife verwenden, okay? Auf die gleiche Weise werden wir versuchen, die while-Schleife zu verwenden. Also, was ich tun werde, ich werde wild drauflos. Und wieder ist die Anzahl Waterloo geringer als angenommen. Solange der Zähler weniger als acht ist, werde ich die höheren Landkreise ausdrucken und für das, höheren Landkreise ausdrucken was ich Ihnen gebe, eine Zählung unter acht, dann wird Wake gedruckt und es wird die Anzahl während der Schleife deutlich um eins erhöhen. Also, wenn wir das machen, bekommen wir Indien-USA. viermal, oder? Weil 44 gedruckt wird, wird das Profil gedruckt. Es wird für sechs drucken, es wird 47 drucken. Und sobald die Zählung acht wird. Es wird aus dieser währenden Schleife herauskommen. Okay? Auf diese Weise können wir also die While-Schleife verwenden. 16. Für Loop und nächstes Statement: In dieser Vorlesung lernen wir die For-Schleife in R kennen Nehmen wir an, ich erstelle rektal einen Vektor d , der etwa zwei bis 20 enthält, okay? Bretter, wenn ich es mitbringe , gebe ich mir die Zahlen 2-20. Okay? Was ich jetzt tun werde, schreibe ich hier, ich werde es tun. Ich verwende eine Variable i in D. Also für jeden Wert von I in dem, für jeden Wert in diesem Vektor d, was ich tun möchte, möchte ich drucken, oder? Und dann will ich I plus eins machen. Ich bin gleich I plus eins. Lass mich, okay. Ich werde es mit einem Brief sagen. Lassen Sie mich das ausführen und sehen, was wir bekommen. Was ich kriege, ich kriege 234 auf 20. Was es also tut, es prüft, ob dieses Ich, in dem, für i, es wird 11 sein, nicht da ist, dann wird es um eins erhöht. Also wird es kommen und auch hier nachschauen, ist das in D zwei, dann wird es wieder, ich gleich drei, dann wird es drei drucken. So. Es wird 20 drucken und dann wird es aus der Schleife kommen. Auf diese Weise können wir also den For-Loop verwenden, oder? Auf die gleiche Weise, was ich tun kann. Wenn ich hier eine einfache Sache nenne. Ich werde das entfernen. Und ja, was sonst tun? Ich kann hier eine Menge Kondition reinstellen. Wenn ich auch den Support 15 anrufe , dann werde ich, was ich tun werde, ich drucke, ich schreibe. Wenn ich 15 habe, drucke ich. Ich habe mich hier umgezogen, ich nehme als Nächstes. Und dann drucke ich. Drucken, richtig. Also wir sehen uns, was wird passieren? Lassen Sie mich erklären , warum wir zu denen kommen. warum wir zu denen kommen. Wir haben das wieder gemacht. Was, was passiert hier? Ich will jeden Wert und ich, es druckt das, aber es überprüft den Wert. Wenn ich zwei Flugzeuge rufe, tut es das. Was mache ich als Nächstes. Also hier siehst du 2345678 bis 13, 14, es druckt richtig und dann ist es denke, okay, ich bin gleich 15. Als Nächstes bedeutet Weiter, dass diese Titration übersprungen wird. 15 werden hier also nicht gedruckt weil im nächsten Monat dieser Tracer übersprungen wird. Also habe ich ein Preprint gerufen, das heißt, diese Adresse und wir werden entkommen und der Fußabdruck wird nicht gedruckt. Und dann geht es zum Cystein und dann 161-718-1920, nachgedruckt. Also nächsten Monat werde ich überspringen, dass ich mich anziehe. Wenn ich also hier 17 verwende, dann werden die 17. Titrationen übersprungen. Druck 16, 17 wird nicht gedruckt, und 18, okay, wenn Sie also einen Stickstoff weglassen möchten, können Sie den nächsten verwenden. Ich hoffe, Sie haben eine Idee , wie Sie es als Nächstes verwenden können. Wir sehen uns in der nächsten Vorlesung. 17. Funktionen in R: Hallo und willkommen zurück. In dieser Vorlesung lernen wir Funktionen in In R gibt es zwei Arten von Funktionen. Also die eine sind eingebaute Funktionen, eingebaute Funktionen und die andere sind benutzerdefinierte Funktionen. Definiert. Okay? Es gibt also zwei Arten von Funktionen, eingebaute Funktionen und benutzerdefinierte Funktionen. Lassen Sie mich Ihnen zunächst sagen, was eine Funktion ist. Funktion ist eigentlich so, wenn wir eine Gruppe von Anweisungen ausführen und einige Berechnungen durchführen wollen Gruppe von , wollen wir etwas tun. Es ist also im Grunde so, als wäre eine Funktion ein Schlüsselwort. Und in funktionalem V hauptsächlich für eine lustige Gruppe von Aussagen, okay? Unsere Gruppe von Funktionen für Gruppenberechnungen. Wir werden eine Berechnung durchführen oder wir machen etwas , das eine Funktion ist. Okay? Lassen Sie mich Ihnen also die Grundstruktur einer Funktion erklären. Nehmen wir also an, unsere Funktion benötigt, nehmen wir an, dass dies ein Funktionsschlüsselwort in R ist Und was es braucht, sind Argumente, oder? Es braucht also Argumente, also kann es eine beliebige Anzahl von erweiterten Erweiterungen annehmen , eins, Komma zwei. Das wird also eine Funktion sein, okay? Und in dieser Funktion können wir mit diesen Argumenten alles anfangen, oder? Nehmen wir an, diese Argumente können einige Werte haben, also kann ich das unterstützen, ich kann einige davon verwenden, um zu erweitern, sodass ich Augment eins plus zwei ausführen kann. Und ich kann gerne einige dieser 12 Monate drei ausdrucken. Das ist also eine Funktion, bei der ich einige dieser Funktionen ausführe , um sie zu erweitern, zu erweitern und zu erweitern, und ich finde einige davon um ein Plus Segment Tool zu erweitern. Das ist also eine Funktion und ich kann diese Funktion aufrufen , indem ich das Argument übergebe. Nehmen wir an, ich gebe dieser Funktion, einer Funktion, einen Namen und weise dieser ganzen Funktion zu. Und ich gebe ihm einen Namen, eine Funktion. Okay? Was kann ich jetzt tun? Ich kann diese Funktion aufrufen, oder? Die beiden Argumente beherrschen, Argument eins, Argument zwei. Damit ich Spaß haben kann. Und hier kann ich drei Kommas sechs ausführen. Ich kann bestehen. Wenn ich das starte, lass mich das erste unter etwas Spaß das ausführen. Und dann lasse ich das laufen , okay, ja, Hawks One, das ist es. Also lass es mich noch einmal ausführen. Und wenn ich die Funktion per Vorbeigehen aufrufe, okay, das ist auch falsch Saudi für diesen Fehler. Und wenn ich diese Funktion aufrufe , indem ich diese beiden Argumente 3.6 übergebe , erhalte ich das Ergebnis als neun, weil drei plus sechs bis neun. Das ist also eine benutzerdefinierte Funktion, rechts, wir haben bereits eine eingebaute Funktion gesehen. Was sind also die eingebauten Funktionen, die wir gesehen haben, wir haben eine Sequenz wie die Sequenz eins, Komma, Acht gesehen. Und das gibt uns die Reihenfolge der Zahlen 1-8. Diese Sequenzfunktion ist also eine eingebaute Funktion , die wir in unserer haben, also ist dies eine eingebaute Funktion, die sie ausführt. Wir müssen kein Programm schreiben, um die Zahlen 1-8 zu drucken. Das geht automatisch, weil in dieser Sequenz eine Funktion hinterschrieben wurde, wie es in der Coda soweit ist, wurde definiert, dass, wenn wir Sequenz verwenden und zwei Argumente angeben. Eine ist zu helfen, es wird die Zahlen 1-8 generieren. Das ist also schon definiert und deshalb werden sie auch als, sorry, riesige, eingebaute Funktionen bezeichnet, oder? Das sind also eingebaute Funktionen, ähnlich wie wir sie in einigen Sommern gesehen haben. Einer ist 28. Und das gibt uns die Summe der Zahlen von eins bis eins. Es wird uns die Ergebnisstatistiken auf die gleiche Weise geben. Wir haben die Hauptfunktion. Also tippe ich, ja, ich meine, nehmen wir an, ich komme zu Nummer 23, Komma 90, 87. Und wenn ich mich nicht gesehen habe und wir lesen 23 kann auch zwei Kommas Neun bedeuten. Und für den kostenlosen Zahnarztbesuch kriege ich 5,5. Wir können also doc mean verwenden all diese eingebauten Funktionen zu sequenzieren. Wir haben also gesehen, dass diese Anzeigen eine benutzerdefinierte Funktion haben, benutzerdefiniert. Und diese Sequenz und etwas Wasser. Eingebaute Funktionen. Okay? Was ich nun tun werde, wir können sehen, wie wir diese Summenfunktion aufrufen können. Okay? Lassen Sie mich also diese Summe kopieren. Wir können diese Funktion also aufrufen indem wir die Argumente hier angeben. Und wir können das auch als x bezeichnen, eins bis vier, Komma zwei bis neun. Jetzt komme ich auch auf 13, wir können, das Y-Position und das ist das Argument, den Namen, das Argument, das Argument, dem eins entspricht, variieren . Für ein Argument , das gleich neun ist, können wir Folgendes angeben. Das ist also eine andere Art, die Funktion aufzurufen, okay? Was ich nun tun werde, ich werde unsere Funktion schreiben, um herauszufinden , Quadrate Städte haben Niemanden aus Zahlenreihen. Also, was ich hier tun werde, ich werde dich töten. Ruhige Funktion. Und was ich darauf übergebe und eine Zahl pro Hand weitergebe. Was ich tun werde, ich erstelle eine Zahlenfolge, also verwende ich hier die For-Schleife. Und was ich für mich in eins bis zehn mache, okay, also welche Zahl das auch sein mag, es wird von dieser Zahl bis zehn sein. Ich möchte eine Zahlenfolge erstellen. Und dann kündige ich, was ich tun möchte , was ich zuweisen möchte. Ich möchte den I-Wert quadrieren und ihn b zuweisen. Und dann möchte ich auf den B-Wert bringen , okay? Das ist also die Quadratwurzelfunktion der Funktion , die ich hier definiere. Und jetzt werde ich diese quadratische Funktion nennen, indem ich eine Zahlenunterstützung für ihre Funktion übergebe. Es erstellt zuerst die Zahlen 4-10 und dann werden 45678 bis zehn benötigt, und es druckt die Zahlen. Okay, lass mich das ausführen. Schau hier, wir bekommen Cystein. Die erste Zahl ist 44 Quadrat 16, dann wird Cystein gedruckt. Dann wird die nächste Zahl fünf sein. Es druckt 2055 quadriert 25 und dann 630-67-4097 kariert. 409849 ist quadratisch 1,10 Quadrathundert. Auf diese Weise können wir also eine einfache Funktion erstellen , die diese ruhige Abfolge von Zahlen findet . Also die Zahl von Syriza ist vier bis zehn und wir kommen hier auf ein Quadrat von vier bis zehn. Jede Zahl wird quadriert und wir bekommen das nächste, was ich tun werde. Ich werde die Summe der geraden Zahl finden. Also werde ich ein Programm schreiben, um einige gerade Zahlen zwischen zwei Zahlen zu finden . Okay? Also, was ich tun werde, nehmen wir an, eins bis zehn. Zuerst möchte ich die Summe der geraden Zahlen von eins bis zehn finden , okay? Keine quadratische Summe der geraden Zahlen. Okay? Also was ich tun werde, ich schreibe eine Funktionssumme einer geraden Funktion. Und was ich tun werde, schreibe ich hier, zuerst generiere ich die gerade Zahl. Und wie man gerade Zahlen generiert. Und Sie sehen eine gerade Zahl von Alginat von eins bis zehn. Also was ich tun werde, ich multipliziere die Zahl mit zwei. Es wird also die Zahlen 1-10 zusammenfassen. Und was ich dann mache, ich und drucke in Druck, was ich mache, die Summe dieser geraden Zahlen, also und fördere gerade Zahlen, diese Folge von Zahlen zu summieren, Summenfunktion und dann dreht es sich. Lassen Sie mich also vorher auf die angegebene Zahl eingehen. Okay? Und dann komme ich raus und rufe die Even-Funktion auf. Okay? Also lass mich das ausführen. Okay, das ist das Kleinbuchstabe c. Du bekommst zum ersten Mal 246810, Summe der geraden Zahlen 1-10. Also das sind manchmal sogar die Zahlen 1-20, okay? Weil ich mit zwei multipliziere. Wenn ich fünf draus mache, wird es das frühere sein, was wir geschrieben haben. Das wäre es nicht, okay. 246810. Okay. Auf diese Weise können wir also die Summe gerader Zahlen, die Summe der Zahlen angeben. Und wenn Sie mit dieser Funktion fertig sind, einige von geraden Zahlen. Es wird also alles zusammenfassen und uns das Ergebnis geben. Okay? Wenn Sie diese Zahlen also summieren, erhalten Sie 110. Auf diese Weise erhalten wir also einige der geraden Zahlen 2-2001 bis 20. Okay? Also auf diese Weise können wir es machen. Als Nächstes rufe ich die Funktion ohne Dokument auf. Das ist sehr einfach, eine Funktion ohne Argumente aufzurufen. Also was ich hier machen werde, ich werde hier einfach ein Funktionsschlüsselwort function, hello, h erstellen . Und innerhalb des Schlüsselworts function, was ich auch hier sehe , haben wir uns teilweise sogar, teilweise sogar function genannt , ohne ein Argument zu übergeben. Okay? Das Gleiche werden wir auch hier tun. Was ich hier machen werde, ich verwende einfach einen Aufdruck und sage Hallo. Wie geht's dir? Dann? Oh, Mietverhältnis. Sag hallo. Ich nenne es einfach. Okay. Vorher muss ich das ausführen. Also lass mich das ausführen und sehen, ja, wir werden Hallo bekommen und wie geht es dir auf diese Weise können wir eine Funktion ohne Augment aufrufen. 18. Matrizen in R: Hallo und willkommen zurück. In dieser Vorlesung werden wir etwas über Metriken in unserer Matrixanalyse lernen , sehr wichtiges Konzept, und wir müssen es verstehen. Denn wenn wir weiter über diesen Kurs hinausgehen, wenn Sie versuchen das Kunstkonzept der Datenanalyse umzusetzen, wenn Sie versuchen, die R4-Datenmanipulation, Datenvisualisierung oder sogar das Data Mining, die Datenanalyse und in datenwissenschaftlichen Projekten im maschinellen Lernen zu verwenden die R4-Datenmanipulation, Datenvisualisierung oder sogar das Data Mining, die Datenanalyse und in . Matrizen werden also sehr voll sein und wir werden sie an vielen Stellen verwenden. In unserer Matrix. Ist ein Objekt oder ein Objekt. In der Kunst ist alles ein Objekt. Und auf diese Weise sind Matrizen auch unsere Objekte, oder? Matrizen sind also die Kunstobjekte , in denen sich Elemente desselben Atomtyps anordnen. In Matrix, Matrix fügen wir also derselben Art von Elementen dieselben atomaren Elementtypen in einem zweidimensionalen rechteckigen Layout hinzu. Es werden also rechteckige Matrizen aus Diamantstein sein. Matrix ist eine Funktion. Also, wie werden wir die Matrix erstellen? Wir werden die Matrixfunktion verwenden, die in R eingebaut ist . Erstellen Sie Metriken und Grafiken. Die Syntax wäre Matrix. Und dann stellen wir die Daten bereit und bestimmen die Matrixelemente, bestimmen die Matrixelemente die wir hier bereitstellen werden. Und dann geben wir die Anzahl der Zeilen an und rho ist die Anzahl der Zeilen in der Matrix und dann n Spalten, Anzahl der Spalten in der Matrix. Und dann sagen wir zeilenweise, wir wollen die Elemente zeilenweise, spaltenweise hinzufügen , die wir mit diesem Argument definieren werden. Und dann geben wir den Diamantensöhnen den Namen Means. Wir werden den Namen der Dimensionen beibehalten. Okay? Daten sind also Eingabevektoren, die zu den Datenelementen der Matrix werden, die Sie zeichnen können. Dies ist die Anzahl der zu erstellenden Zeilen und die College-Anzahl der von Rho zu erstellenden Spalten ist ein logischer Hinweis, falls dies zutrifft, sind die Eingabevektorelemente nach Zeilen angeordnet. Wenn Sie also eine Matrix erstellen möchten indem Sie die Elemente zeilenweise zuweisen, müssen wir von rho gleich wahr geben. Andernfalls wird es standardmäßig spaltenweise sein, okay? Spaltenwerte, z. B. wenn uns die Elemente eins bis zehn gegeben werden, sind es 12 oder drei. Kolumnenmäßig wird es so sein, wenn du wahr gibst, dann wird es Viral Hockey heißen. Und Dim Name ist der Name , der den Zeilen und Spalten zugewiesen wurde. Okay? Das ist also das Grundlegende, das wir kennen sollten. Und was ich jetzt tun werde, ich werde von der Matrix abweichen. Okay? Dafür habe ich bereits unsere Datei erstellt, in der ich einige Programme geschrieben habe, einige Funktionen zum Erstellen von Metriken, damit wir unsere Zeit nicht damit verschwenden den Code immer wieder zu schreiben. Und beim Schreiben nimmt es viel Zeit in Anspruch. Also habe ich bereits diese beiden Matrizen in unseren Dateien erstellt . Erklären Sie, was ich in jedem einzelnen Schritt tun werde. Okay? Als Erstes erstellen wir eine Matrix, in der Elemente standardmäßig sequentiell nach Spalten angeordnet sind . Okay? Nehmen wir an, ich erstelle eine Matrix und gebe ihr den Namen M1. Man wird also ein Objekt in NADH sein, das diese Matrix enthalten wird. Also werde ich die Matrixfunktion verwenden. Und hier, was ich weitergebe, das sind die Daten , die ich weitergebe. 12 bis 35 bedeutet, dass die Zahlen 12-351213, 14 bis 35 erstellt werden. Also das werden Daten gemacht und dann, was ich als Nächstes gebe, Andrew, die Anzahl der Zeilen sechs. Also übergebe ich nur die Daten und gebe die Zeilennummer der Zeilen an. Ich möchte eine Matrix mit der Anzahl von Rogers sechs erstellen . Das war's. Ich gebe keinen Spaltenwert oder so. Ich gebe das Datenlaufwerk nur an 35 Nummern und an Rogers sechs weiter. Ich gebe dieses Argument nicht zeilenweise oder spaltenweise an. Ich komme hier nicht vorbei. Also erstelle ich einfach eine Matrix, die hat, die mit den sechs Zeilen erstellt wird und sie wird mit den Daten bis 35 aufgefüllt. Also lass es mich erstellen. Wenn ich das mache. Wir sehen uns, M1 ist eins zu sechs, also eins ist zu 412 bis 36 Daten werden bereitgestellt. Und wenn ich diese M1-Matrix C hier drucke, haben wir jetzt sechs Zeilen, 123456 Zeilen insgesamt sechs Straßen. Und in diesen sechs Zeilen befinden sich die Daten 12, 13, 14. Sehen Sie sich hier zuerst die erste Spalte an, die die Jahresspalte 112, 131-415-1617 auffüllt . Dann geht es in die Spalte bis dann 24 bis 29 und dann 30 bis 35. Auf diese Weise werden die Daten spaltenweise gefüllt, oder? Um die erste Spalte, die zweite Spalte und dann die dritte Spalte zu waschen . Okay? Weil ich nichts gegeben habe, ja, ich habe hier von rho nichts gleich etwas angegeben. Okay? Die nächste Sache ist, wenn ich by rho gleich false verwende, was es tun wird, es wird dasselbe tun. Wenn ich das also auch noch einmal ausführe, erhalte ich dieselbe Ausgabe, dieselbe Matrix wird erneut gedruckt. Aber wenn ich hier den gleichen Code mit rho gleich true angebe, wird die Matrix jetzt erstellt, indem zuerst die Zeilen gefüllt werden. Also 12131415 geleert, die erste Zeile wird fehlschlagen. Dann 16, 17, 18, zweite Reihe, dann 2021, 22, 24. Reihe, so. Okay, so schnell, die Regeln werden wieder aufgefüllt. Und dann die zweite Reihe, dann die dritte Reihe so. Und hier war es erste Zeile, dann zweite Zeile, erste Spalte, zweite Spalte, dritte Spalte, so als ob es sich hier füllte. Erste Zeile, zweite Zeile, dritte Zeile zeilenweise oder spaltenweise oder zeilenweise. Wenn Sie also die Daten zeilenweise füllen möchten, müssen Sie by rho gleich wahr angeben. Okay? Verstanden. Als Nächstes geben Sie den Spalten- und Zeilennamen. Angenommen, ich möchte hier den Spaltennamen und diesen Zeilennamen auch angeben. Wie kann ich das machen. Ich kann die C-Funktion verwenden und den Spaltenzeilen einen Namen geben. Also nehmen wir an, ich möchte dann sechs Reihen haben. Ich möchte jeder Zeile den Namen Zeile eins, Zeile zwei Zeile, Zeile sechs geben . Also verwende ich die Funktion c und erstelle ein Objekt mit Zeilennamen, und ich erstelle ein anderes Objekt mit Spaltennamen, anstatt Spalte eins, Spalte zwei, Spalte drei, Spalte vier zu behalten , welchen Namen Sie auch immer geben möchten, Sie können es Ihnen geben. Dann werde ich beim Erstellen der Matrix, was ich tun werde, zuerst die Datenmatrix innerhalb des Matrix-Funktionswalds weitergeben Datenmatrix innerhalb des , um die Daten zu speichern. Und dann gebe ich die Anzahl der Reihen an, sechs. Dann werde ich das nacheinander durchgehen, du kannst wahr oder falsch angeben, was du willst, okay? Und hier wird das nächste Argument als benannter Dimensionsname betrachtet. Und hier, was ich tun werde, ich erstelle eine Liste. Und in der Liste übergebe ich, was ich tun werde, die Zeilennamen und Zeilenspalten als zwei Argumente. Dadurch werden also die Dimensionen für die Matrix erstellt. Zeilen- und Spaltennamen werden von hier abgerufen und an die Liste weitergegeben. Und es erstellt die Zeile und Spalte, die nach der Matrix benannt sind. Lassen Sie mich also diese beiden Linien ausführen. Okay, tut mir leid, ich muss die ganze Sache regeln. Schau hier. Jetzt erhalten wir eine Matrix mit dem Spaltennamen, Spalte eins, Spalte zwei, Spalte drei, Spalte vier. Und Zeilennamen wie Zeile eins, Zeile zwei, Zeile drei, Zeile vier, Zeile fünf, Zeilen sechs. Auf diese Weise müssen wir zuerst eine Spaltenliste mit Spaltennamen und Spaltenzeilennamen und Spaltennamen erstellen eine Spaltenliste mit Spaltennamen . Und wir müssen diese Argumente für düstere Namen angeben, okay, über unsere Liste, okay? Und dann wird eine Zeile erstellt und in dieser Matrix werden Spaltennamen angegeben. Als Nächstes greifen Sie auf die Elemente aus der Matrix zu. Nehmen wir an, ich möchte von der M5 aus auf das Element zugreifen, diese Matrix, die erste Spalte und die dritte Zeile. Also, wie kann ich das machen? Die dritte Zeile, drei Kommas eins, m phi, und dann die Klammer und drei Kommas eins. Das bedeutet, dass ich die dritte Spalte, die dritte Zeile und die erste Spalte abrufen möchte . Das erste Argument ist für die Zeile und das zweite für welche Spalte? Dritte Zeile, das erste Element wird gedruckt. dritte Zeile bedeutet diese und die Spalte einen Monat, viel. Also, wenn ich das mache, sollte ich 20, 32 Jahre bekommen. Ich sehe mal, wir kriegen 20. Also ist m5 die Matrix. Und ich möchte die dritte Spalte beenden, dritte Zeile, erste Spalte, dritte Zeile, erste Spalte. In ähnlicher Weise möchte ich zuerst den Wert der fünften Zeile und zweite Spalte durchblättern. Dies ist der umgekehrte Vorläufer der zweiten Spalte, also würde hier die 29. gedruckt werden. Ja, wir werden 29. Nehmen wir in ähnlicher Weise an, dass ich die erste Reihe sechs haben möchte. Okay? Also kann ich m phi und rho sechs und den Spaltenwert geben. Ich lasse es. Also, wenn du so gibst, was bekommst du dann? Sie erhalten hier den Wert c für Zeile sechs, 323-033-4305. Das ist also die sechste Zeile. Das wirst du bekommen. Okay? Ebenso kann ich, wenn ich auf die zweite Spalte zugreifen möchte, geben, ich kann die Zeile verlassen und ich kann den Spaltenwert von einem Liter angeben. Und wenn ich das mache, lasse ich die Kolumne zu dir kommen. 13, 17. Dies ist die Spalte 213-17-2120, 5.20, 9.33, 29, 30. Auf diese Weise können wir den Spaltenwert angeben. Als nächstes folgt die Addition und Subtraktion der Matrix. Wir können Multiplikation, Addition, Subtraktion und Division mit der Entenmatrix durchführen. Nehmen wir an, ich habe eine M1-Matrix, lassen Sie mich das ausdrucken. Sehen Sie, das ist die M1 und ich habe eine andere Matrix, die M2 ist. Also beide sind dieselbe Matrix, aber was sind die verschiedenen, unterschiedliche Metriken, aber die Werte sind gleich. Okay? Also Unterstützung, ich möchte m1 und m2 hinzufügen, damit ich einfach m1 plus m2 machen kann. Und ich weise diesen Wert einem Objekt zu. Wenn ich das also ausführe und den Summenwert c hier ausdrucke, erhalte ich die Garantie für 36, als wären sie gespeichert 2012 +12, 241-313-2614 plus 14, 20. so. Okay, ähnlich können wir m1 minus m2 machen und wir erhalten 000, weil beide Metriken gleich sind, oder? Aus M1 mach m2. Wir können multiplizieren, tut mir leid. 12 mach 12, 24, 30 und unterhalte, wenn es so wird. Okay? Und auf die gleiche Weise können wir die Matrixmultiplikation durchführen, bei der jedes Element durch jedes Element geteilt wird, okay? Nun, mit 121, so. Okay? Auf diese Weise können wir die Matrix verwenden und wir können sie durchführen, indem wir keine Subtraktion durchführen und auf die Matrixelemente zugreifen. 19. Faktoren in R: Hallo und willkommen. In dieser Vorlesung werden wir etwas über Dustin R lernen . Was spielt also eine Rolle? Faktoren sind die Datenobjekte , da wir bisher gelernt haben , dass alles ein Objekt ist. Faktoren sind also auch Datenobjekte in R, die zur Kategorisierung der Daten verwendet werden. Im Grunde werden also Faktoren verwendet, um die Daten zu kategorisieren und diese dann zu speichern Daten in die Ebenen zu kategorisieren. Also zuerst werden die Daten kategorisiert und dann werden die beschrifteten Daten Spot, Dodge Categorize Data erstellt . Und dann wird es diese Etiketten speichern, okay? Es wird diese Daten auf diesen Ebenen speichern, oder? Und Faktoren werden verwendet, um die kategorialen Daten darzustellen. Und sie können sowohl Zeichenketten als auch Ganzzahlen speichern. Und sie haben einen Integer-Vektor mit einer Ebene erstellt. Nehmen wir an, ein Integer-Vektor hat eine Ebene, etwa so. Okay? Nehmen wir also im Grunde an, wir haben Daten, nehmen wir an, ein Mann oder eine Frau. Also können wir das speichern. Es ist besser, das als 0,1 zu speichern, oder? Was es also tun wird, ist anzunehmen, dass wir Daten mit männlichen und weiblichen Daten haben , einige Datenpopulationen, bei denen wir unsere Daten für Männer und Frauen haben, beide. Welche Faktoren werden dazu führen, dass eine Datenkategorie mit Männern und Frauen erstellt wird, und diese Daten werden in der Kategorie männlich und weiblich gespeichert . Und dann kann man leicht herausfinden wie viele Männer es gibt und wie viele Frauen es gibt, so etwas. Okay. Lassen Sie mich die Datei öffnen, in der ich vier Vektoren erstellt habe. Ich habe also bereits einen Dateifaktor in R Punkt R erstellt . Und hier werde ich auch, wie man einen Faktor in R Der erste Schritt zum Erstellen eines Faktors in R ist das Erstellen eines Vektors. Also hier, was ich mache, ich erstelle einen Vektor für die Gesichtsbehandlung. Und hier in der Berufsgruppe wird es Dr. Ingenieur Zimmermann, Dr. Mechaniker, Pilot, Dr. Zimmermann in Kenia geben. Okay. Es gibt also ein paar Berufe, die ich hier geschaffen habe. Das ist also der Professor-Vektor , in dem ich den Professor der Personen aufbewahrt habe. Okay? Also, wenn ich diese beiden Linien laufen lasse, was es tun wird, es wird ein Vektor für Frankreich erstellt und richtig. Und es wird Dr. Engineer Carpenter haben , Dr. also siehe Adopter wird wiederholt, das Recht. Dr. Es gibt so viele Ärzte, oder? Nehmen wir an, das ist ein Vektor, den ich erstellt habe. Wenn ich überprüfen möchte, ob dieser Vektor unser Faktor ist oder nicht, kann ich hier eine Funktion namens each factor verwenden. Also egal, wenn wir überprüfen wollen, ob es sich um einen Faktor handelt oder nicht, können Sie jede Faktorfunktion verwenden und diesen Vektor oder das Objekt an die einzelnen Faktorfunktionen übergeben können Sie jede Faktorfunktion verwenden und diesen Vektor oder das Objekt an die einzelnen Faktorfunktionen übergeben und Sie erhalten , ob es sich um einen Faktor handelt oder nicht. Okay, lassen Sie uns das ausführen. Sehen Sie hier, es zeigt uns falsch. Das bedeutet, dass dieser Vektor kein Faktor ist. Dies ist ein Vektor, kein Faktor. Also, wie wandelt man diesen Professor und Vektor in einen Faktor um? Das werden wir tun. Der nächste Schritt. Im nächsten Schritt wenden Sie die Faktorfunktion an. Also unterstütze. Jetzt möchte ich dieses Niveau mit einem Faktor umrechnen. Also erstelle ich ein anderes, erstelle ein weiteres Objekt, dessen Unterstrich faktorisiert ist. Professor. Okay, jetzt verwende ich die Faktorfunktion und übergebe diesen Berufsvektor an die Faktorfunktion, sodass dieser Berufsvektor in den Faktor umgewandelt wird. Okay? Nun, ob ich das ausführe und wenn ich das starte, welche Zuweisung, sehen Sie hier. In diesem Schritt erstellen wir nun den Faktor aus diesem Professor-Vektor. Also jetzt dieser Faktor, Professor nasaler Faktor, damit ich hier überprüfen kann, ist der Faktor. Hier führt es uns durch. Und wenn ich diesen Faktor professionell drucke, was ein Faktor ist, was ich bekomme, erhalte ich das gleiche Ergebnis. Dr. Innenschreiner, Dr. So, dieselben Daten. Aber hier erhalte ich eine weitere Ausgabe, bei der es sich um Labels handelt. Und Labels sind Zimmermann, Lehrer, Dr., also all diese Dinge werden keine Etiketten sein, oder? Die anderen Stufen sind Schreiner, Dr. Junior Driver, Mechaniker, Pilot und Lehrer. Wenn ich die Tabellenfunktion verwende und diesen Faktor, die Tabellenfunktion, übergebe , was sie tun wird, gibt sie uns dasselbe, Labels, okay? Und wenn ich eine Zusammenfassung verwende, was uns gefällt. Wenn Sie jemanden einsetzen, erhalten Sie, wie viele Schreiner sind in diesen Daten enthalten? Also für den Schreiner, drei Ärzte, einen Fahrer, für den Ingenieur, für den Mechaniker, für den Piloten und für Lehrer. Okay? Auf diese Weise können wir also einen Vektor in den Faktor erstellen . Factor wird sehen, dass es einen Faktor geschaffen hat, Zimmermann Dr. und es gibt uns die Daten, dass es zwei Ärzte gibt. Es gibt zwei Schreiner, drei Ärzte, so einen Fahrer. Also wird es die Daten kategorisieren. Nun, der Faktor, welcher Faktor hat getan? Es hat diese Daten, diese Daten in die Kategorie von Berufen wie Schreiner, Dr. eingeordnet diese Daten in die Kategorie von Berufen wie Schreiner, und es gibt uns Zahlen wie diese vielen Zimmerleute oder diese vielen Zimmerleute oder ihre Hauptärzte, wenn Ingenieure in unseren Daten vorkommen. Der Faktor wird also bei der Analyse der Daten, bei denen es sich um kategoriale Daten handelt, nützlich sein Analyse der Daten, bei denen , oder? Wir werden also sehen, wie wir eine kategoriale Analyse mit Faktoren in R durchführen können kategoriale Analyse mit Faktoren in R Vorerst reicht es also aus zu verstehen, wie man aus dem Vektor einen Faktor in R erzeugt , okay? Wir können also die Faktorfunktion auf den Vektor anwenden und dieser Vektor wird in den Faktor umgewandelt. Und die Bedingung ist, dass diese Professor-Vektoren einige kategorische Daten haben. Okay? Und dann können wir jede Faktorfunktion überprüfen. Mit der, jeder Faktorfunktion können wir überprüfen, ob ein Vektor ein Faktor ist oder nicht, okay? Und wir können die Tabelle verwenden, um die Stufen des Faktors zu sehen, und wir können die Zusammenfassungsfunktion verwenden , um zu überprüfen, wie Zahlen es gibt, z. B. wie viele Dr., wie viele Ingenieure gibt es? Also jemand, der den Faktor hoch ist, wird mit der Zusammenfassungsfunktion erkannt, okay? 20. Datenrahmen in R: Hallo und willkommen zurück. In dieser Vorlesung lernen wir also etwas über DataFrames in unserer Programmierung und wie wir DataFrames verwenden können. Das ist das Thema dieser Vorlesung. Lassen Sie mich Ihnen zunächst sagen, was DataFrame ist. Dataframe ist eine Tabelle oder eine zweidimensionale Array-ähnliche Struktur, in der jede Spalte Werte einer Variablen enthält und jede Zeile einen Satz von Werten aus jeder Spalte enthält. Du verstehst, was ich gesagt habe. Dataframe ist eine tabellenähnliche Struktur oder ein zweidimensionales Array, in dem jede Spalte Werte einer Variablen enthält. Jede Spalte enthält Werte aus Werten einer Variablen, und jede Zeile enthält den Satz von Werten aus jeder Spalte. Okay? Und es ist ein Sonderfall einer Liste , in der jede Komponente jeder Komponente die gleiche Länge hat und jede Komponente die Spalte und den Inhalt der Komponenten auf der Straße bildet . Verstanden. Jede Komponente bildet die Spalte. Jede Komponente bildet die Spalte und der Inhalt der Komponente bildet die Straßen. Du wirst es verstehen, wenn wir das Praktische machen, du wirst es besser verstehen. Ein DataFrame in R wird also folgende Funktionen haben. Die erste Sache ist, dass Zeilennamen eindeutig sein müssen. Der Zeilenname sollte also immer eindeutig sein. Also Zeilennamen, also wäre es einzigartig. Sie können nicht dieselben Zeilennamen in einem DataFrame haben, okay? Also muss jeder Zeilenname eindeutig sein und dann Spaltenname nicht leer sein. Also Spaltenname, also nicht leer sein. Es sollte nicht leer sein. Also würden alle Spaltennamen Einträge enthalten, okay? Und Daten, die in einem DataFrame gespeichert sind, können vom numerischen Faktor abweichen, sind Zeichentypen. Sie können also alle Daten dieser Art in DataFrame, numerischer Faktor oder Zeichentyp speichern . Und jede Spalte enthält also die gleiche Anzahl von Datenelementen. Jede Spalte enthält also die gleiche Anzahl von Datenelementen. DataFrame also als Tabelle oder zweidimensionale Array-ähnliche Struktur in R, in der jede Spalte den Wert einer Variablen enthält und jede Zeile den Satz von Werten aus jeder Spalte enthält. Okay? Fangen wir also mit dem Praktischen an. Okay, was ich getan habe, ich habe bereits ein Programm geschrieben und der Dateiname ist DataFrame Punkt r. Was ich hier mache, ich erstelle einen DataFrame. DataFrame kann also wie folgt erstellt werden, um was, wie wir einen DataFrame erstellen. Wir benutzen. Datenrahmen. Die Data.frame-Funktion wird verwendet, um einen Datenrahmen zu erstellen. Und das ist Student ist ein Objekt, dem ich diesen DataFrame zuweisen werde. Okay? Also data.frame. Und dann, was ich hier mache, erstelle ich als Erstes eine Seriennummer. Okay? Also Seriennummer, ich erstelle 1-5. Und dann acht, ich gebe, ich verwende die Funktion c, um das Alter zu erstellen, okay? Ich erstelle hier einen Vektor, siehe 201-15-1030, 5.45. A's werden also diese Einträge haben. Dann erstelle ich einen Namen. Der Name wird die vielen Einträge haben. Okay. Also fünf Einträge, zottelig, Ronnie ist John und Tom von heute, und dann schließe ich das. Okay? Auf diese Weise können wir einen DataFrame erstellen. Lassen Sie mich diese Zeile zuerst ausführen, damit Sie einen DataFrame erhalten. Schau hier. Dann lass mich das ausdrucken. Studentischer CEO. Nun, der Student ist ein DataFrame, oder? Und was es enthält, es enthält eine Zeile oder Spalte mit Seriennummer, Alter und Namen, weil wir die Seriennummer angegeben haben, dann die Acht und dann den Namen. Und jede Spalte. Seriennummer und Name werden die Werte enthalten. Welche Seriennummer wird den Wert eins bis fünf enthalten, also 12345 Seriennummern und dann Alter 201-15-1030, 5,40. Und der Name wird diese Werte haben, okay? Jede Spalte wird also die Werte aus Name, Name, Variable haben . Das haben wir im Theorieteil gelernt. Auf diese Weise können wir unseren DataFrame-Schüler erstellen, der die Seriennummer der Spalte als Name und die Zeilenwerte enthält. Ab der Seriennummer 1-5, 21 Jahre. Und diese fünf sind, wir haben einen Namen gegeben, wir haben einen in der Namensvariablen angegeben. Diese Variablenwerte werden also der Eintrag in diese Tabelle, oder? Es ist also eine tabellarische Struktur. Okay? Das ist also das, was in R als DataFrame bekannt ist. Und wir können die Struktur in unserem DataFrame sehen , indem wir die STR-Funktion verwenden. Wir können STR verwenden und dann können wir den DataFrame übergeben. Es wird uns die Struktur des DataFrame geben. Der DataFrame hatte Struktur und wir sagen Dataframe. Und es hat fünf von drei wertvollen Zeilen. Sehen Sie hier 12345. Also fünf Objekte oder fünf Zeilen und drei Variablen. Drei Variablen sind seriell, Zahl ist ein Name. Dies sind die drei Variablen. Die Spaltennamen werden als Variablen bezeichnet. Also drei Variablen und fünf Zeilen, fünf Objekte mit drei Variablen. Und diese Variablen sind Seriennummer, ist und Name. Die Seriennummer ist also ganzzahlig, sie ist numerisch, und für Schiffe mit Charakter, Typ und Vorgesetzten wird jede Variable oder jede Spalte dieselbe Anzahl von Elementen haben wie die Seriennummer eins bis fünf ist. Das Alter hat auch fünf Einträge und der Name hat auch fünf Einträge, oder? Also sollten alle die gleiche Anzahl von Einträgen haben, oder? Okay. Nehmen wir an, wenn ich sechs Jahre gebe, was passiert dann? Lassen Sie mich diesen DataFrame bearbeiten. Weil die Seriennummer eins bis 6.8 nur fünf Einträge und der Name auch fünf Einträge hat, oder? Also hier, welcher Fehler wir bekommen einen Fehler im Dataframe und es verwendet Argumente , impliziert eine unterschiedliche Anzahl von Zeilen sechs und 6,5. Eine Variable hat also sechs Zeilen, sechs Elemente und alle anderen haben 51 Blätter. Deshalb zeigt es uns den Fehler. Es sollten also jeweils 55 sein. Okay, hier kannst du also fünf eingeben und wenn wir es dann ausführen, bekommen wir keine Fehlermeldung. Und es wird erfolgreich laufen. Mit dem STR. Wir können die Struktur des DataFrame abrufen. Als Nächstes werden wir lernen, dass auf DataFrame-Komponenten wie auf eine Liste oder wie eine Matrix zugegriffen werden kann . Also schauen wir uns zuerst den Zugriff auf die Leica-Liste an. Wir können also, wenn Sie auf ähnliche Listen zugreifen möchten, dieser drei verwenden. Wir können unseren Dollar-Operator verwenden oder wir können die doppelte Klammer verwenden, oder wir können die einzelne Klammer verwenden, okay? Um auf die Daten aus dem DataFrame zuzugreifen. Okay, nehmen wir an, ich möchte auf den Namen aus dem DataFrame zugreifen , ist Student, einer der Namen. Also, wenn ich das mit diesem Schüler und dann innerhalb der Spalte machen kann , kann ich den Variablennamen oder den Spaltennamen übergeben. Okay? Und wenn ich das starte, erhalte ich alle Namen aus dem DataFrame. In ähnlicher Weise kann ich dasselbe mit diesem Dollarsymbol machen, oder? Dollar-Operatoren Student, das ist der DataFrame-Name, dann Dollar und dann der Spaltenname oder ein Variablenname. Also hier, wenn ich das durchführe, erhalte ich das gleiche Ergebnis, Senior Student Dollar Name. Es wird dir die Namen aller Schüler geben. Okay? Und in ähnlicher Weise können wir das auch tun, ist zu mieten. Und in der Klammer. Auch hier können wir in der Klammer den Namen weitergeben. Diese drei Dinge führen zum gleichen Ergebnis. Okay? Jetzt können wir so machen, wie wir hier den Namen gegeben haben. Der Name ist die dritte Spalte direkt in diesem DataFrame. Wir können also auch die Spaltennummer übergeben, Schüler drei, sodass Sie die dritte Spalte erhalten. Der Name. Name ist die dritte, dritte Spalte in diesem DataFrame. Siehst du, wenn ich es schaffe, gibt es uns das Alter. Ca, es wird uns die Is geben. Auf diese Weise können wir die Spaltennummer übergeben und die Daten aus dem DataFrame abrufen. Als Nächstes ändern Sie die DataFrame-Elemente. Wir können den DataFrame auch so ändern wie C Sie diesem Schüler geben, das ist ein DataFrame-Namen. Und dann behalten wir hier die 11, bedeutet die erste Zeile, und dann gebe ich H. Und ich möchte modifizieren, dass die erste Zeile 291 ist. Okay? Lassen Sie mich das ausführen und lassen Sie mich den Schüler ausdrucken. Schau hier. Jetzt ist die erste Zeile, wird auf 91 geändert. Früher waren es 21, jetzt sind es 91. Also auf diese Weise können wir. Ändern Sie die DataFrame-Elemente des Rahmens. Wir können der Roche-Komponente Zeilen zum DataFrame hinzufügen. Angenommen, ich möchte eine weitere Zeile hinzufügen. Nehmen wir an, hier sind fünf Reihen da, oder? Ich möchte dem DataFrame Halloween noch eine Zeile hinzufügen, ich kann das tun, ich kann die Funktion rbind verwenden. Unsere Funktion wird verwendet, um dem DataFrame eine Zeile hinzuzufügen. Innerhalb des Rbinds muss ich den DataFrame-Namen übergeben und dann eine Liste verwenden. Und in der Liste muss ich die Seriennummer sechs angeben, dann ein-zwanzig Jahre alt werden, und dann wären die Namen, es gibt eine Vielzahl von Namen, also muss nichts leer sein. Alles, was wir geben müssen, drei Spalten, also müssen wir hier drei Spalten angeben. Die Seriennummer ist n, Name. Und wenn ich das ausführe , wird eine weitere Zeile hinzugefügt. Das Mittel gegen Anfälle sechs, eins und zwanzig wurde dem Student DataFrame hinzugefügt . In ähnlicher Weise können wir auch eine Spaltenkomponente zur Spaltenkomponente zum DataFrame hinzufügen . Und wie wir das machen können, können wir mit dem C1 machen. C1 bedeutet, dass Columbine Vitamine sind, die reihengebunden sind. Okay, also cbind-Funktion, wir haben dem DataFrame früher eine Spalte hinzugefügt. In derselben Sache müssen wir also den DataFrame-Namen übergeben. Und dann müssen wir eine Spalte, die ich hinzufügen möchte, als Land annehmen. Also muss ich den Spaltennamen Land angeben und danach die C-Funktion verwenden und die Ländernummer der Länder übergeben . Also hier muss ich die sechs Länder in ihnen bestehen, oder? 12345, okay? Und wenn ich das ausführe, weil der sechste Wert, haben wir uns nicht verpflichtet. Es kommt also nicht im kommenden Jahr. Oder in einem DataFrame, der nur fünf Zeilen hat, er die Phi-Zeile hinzu, okay? Auf diese Weise können wir also eine weitere Spalte hinzufügen, wie im Gegensatz zu unserem DataFrame. Als Nächstes können wir das Land listenartig zuweisen, wie Listen wie Aufgaben, wir können das Land der Schüler in Listen wie Aufgaben, Dollar verwenden. Das bedeutet, dass wir im DataFrame eine weitere Spalte hinzufügen werden. Das heißt, das wird ein Namensland sein. Und wir werden die Einträge wie diese Länder hinzufügen , okay? Sechs in Indien, neutral und in den USA, Japan und China. Okay? Und wenn ich diese beiden Anweisungen ausführe, erhalte ich, dass das Land hier hinzugefügt wurde und die Ländernamen hier stehen. Auf diese Weise können wir einer Liste eine Spalte wie eine Aufgabe hinzufügen. Okay? Als Nächstes können wir eine Komponente aus DataFrame löschen. Wir können also eine ganze Spalte löschen, indem wir dieses Ding verwenden. Okay, Student, das ist DataFrame-Name, Dollar hier, Spaltenname, Name, und ich kann Null zuweisen. Wenn ich also Null zuweise, wird die gesamte Spalte gelöscht. Also lass mich das machen und wir sehen uns. Jetzt. Seriennummer ist und Länder, deren Namensspalte wurde gelöscht, da wir die Namensspalte auf Null gesetzt haben. Okay, auf diese Weise können wir die gesamte Spalte löschen. Auf die gleiche Weise können wir eine ganze Zeile löschen. Um also die gesamte Zeile zu löschen, was wir tun können, können wir Student und minus zwei verwenden, und dann können wir die gesamte Zeile löschen. Also lass mich das ausführen. Hier. Die zweite Zeile wurde gelöscht. Zwei ist zwei Fußabdrücke in Neuseeland, die gelöscht wurden. Wenn Sie also eine bestimmte Zeile löschen möchten, können Sie hier minus zwei Mittel angeben, dass die zweite Zeile aus dem Student DataFrame gelöscht wird. Auf diese Weise können wir eine ganze Zeile aus einem DataFrame löschen. So können wir mit data.frame einen DataFrame erstellen. Und wir können die Anzahl der Spalten oder die Anzahl der Variablen angeben . Und dann müssen wir die Anzahl der Werte für diese Variablen angeben , die als Anzahl der Elemente hier fünf bezeichnet werden sollen. Also wären alle Einsen und Namen 55, dann wird nur dadurch ein DataFrame erstellt. Dann können wir die Struktur eines DataFrame mithilfe der STR-Funktion abrufen . Dann können wir die jeweilige Spalte nach Belieben phasen indem wir den Spaltennamen mit dieser Klammer oder dem Dollarsymbol angeben. Und wir können die Spaltennummer kaufen. Wir können DataFrame so modifizieren, DataFrame-Elemente wie dieses und all diese Dinge, cbind, Irvine, all die Dinge, die wir gesehen haben, oder? Ich hoffe, Sie haben DataFrames in R besser verstanden. Und ich hoffe, ich vermittle Ihnen ein Verständnis dafür, was DataFrame ist und wie wir mit den DataFrames umgehen können. Wir sehen uns in der nächsten Vorlesung. 21. Datenrahmen kombinieren: Hallo und willkommen zurück. In dieser Vorlesung werden wir lernen, wie wir Vektoren zu DataFrames kombinieren können. Das heißt, wir nehmen an, dass wir drei oder vier Vektoren haben. Und ich möchte aus diesen Vektoren einen DataFrame erstellen. Also, wie können wir das machen? Und zweitens, was wir versuchen werden, werden wir versuchen, auch die DataFrames zu kombinieren. Okay, lass uns anfangen. zuerst die Vektoren zu kombinieren, müssen wir zuerst den Vektor erstellen. Also hier, was ich mache, erstelle ich für Vektoren, Namen, Stadt, Postleitzahl und Gehalt. Diese vier werden also die vier Vektoren sein , die ich erstelle, sind vier Objekte, die ich erstelle. Und ich werde, was ich tun werde, ich werde diese vier kombinieren, um einen DataFrame zu erstellen. Diese vier Vektoren werden also einen DataFrame für mich erstellen. Okay, der erste Rektor heißt Namen. Und im Namensvektor, was ich gebe, im Namensvektor, was ich gebe, verwende ich die C-Funktion und gebe die Namen der Parsons-Laktamase, Rockies, Henry und Monkey an. Und dann ist der zweite Vektor ein Stadtvektor. Und darin nenne ich speziell ihre jeweiligen Städte mit Namen wie Bangalore, London, New York und Mumbai. Okay, und dann gebe ich den Geschenkcode für diese Städte im dritten Vektor. Und dann ist der vierte Vektor das Gehalt, in das ich ihr entsprechendes Gehalt einrechne. Das wird also das Dermis-Gehalt, Schlägergehalt und seit Kurzem und Mantissa haben. Mantissa-Gehalt. Diese vier Vektoren können wir damit erzeugen, die wir im Vektorkapitel in der Vorlesung Vektoren gelernt haben . Also lass mich das ausführen. Das wird also diese vier Vektoren erzeugen, okay? Jetzt möchte ich diese vier Vektoren kombinieren und einen DataFrame erstellen. Ich möchte einen DataFrame erstellen, indem ich diese vier Vektoren verwende. Also möchte ich diese vier Vektoren kombinieren und einen DataFrame erstellen. Also, was ich mache, gebe ich hier einen DataFrame-Namen, impliziert Details. Die EMP-Punktdetails werden also der DataFrame-Name sein. Was ich tun werde, ich werde die Funktion cbind verwenden , um diese Vektoren zu kombinieren. Okay? Da dieser Name City Deep Code sein wird, wird das Columns Team sein. Also verwende ich hier natürlich C bind, um die Spaltennamen, die Stadt und die Postleitzahl zu kombinieren . Und leider sind das die vier, das werden die vier Spalten im DataFrame sein. Also verwende ich C Wine und gebe die Namen der Spalten an, wie Namen, Vektor, Stadtvektor, Postleitzahl und Gehalt. Okay? Also lass mich das ausführen. Okay. Lassen Sie mich nun die Mitarbeiterdaten ausdrucken. Okay. Lassen Sie mich also die Einzelheiten der Arbeitgeber sehen. Schau hier. Jetzt ist das Mitarbeiterdetail DataFrame. Und wir können die Spalten Name, Stadt und Postleitzahl sowie Gehalt sehen . Und die Einträge sind Dummies, Bankdaten und PLZ und Gehalt, Rockies City, London, du hast das und das Gehalt. Dann Henry. Sehen Sie hier, aus diesen vier Vektoren, für die wir erstellt haben, ausgehend von diesen vier Vektoren haben wir einen DataFrames erstellt, oder? Nehmen wir an, ich gebe die Namen ein und wenn ich diesen Namen verwende, dann erhalte ich einen Anführer, der ähnlich benannt ist, City und The Current Alley. Also habe ich die Vektoren zu einem Datenrahmen kombiniert. Jetzt haben wir hier eine tabellenähnliche Struktur , die ein DataFrame ist. Jetzt haben wir also einen DataFrame. Was werde ich in ähnlicher Weise tun? Ich werde lesen, Sie können die C-A-T-Cat-Funktion verwenden , um etwas zu drucken. Okay, hier drucke ich nur die Datei DataFrame aus vier Vektoren. Und das, dann wird es so kommen. Okay, der erste DataFrame aus vier Vektoren besteht also aus implizierten Details, EMP-Punktdetails. Okay? Wenn du also eine Überschrift drucken möchtest, kannst du die Chat-Funktion verwenden, okay? Und drucken Sie dann die Mitarbeiterdaten ich hier bereits gedruckt habe. Und du kannst es auch hier ausdrucken. Und dann, was ich jetzt mache, ist die nächste Aufgabe, zwei DataFrames zu einem zu kombinieren. Wir haben also einen DataFrame impliziert Details, die wir aus den vier Vektoren erstellt haben. Was ich jetzt tun werde. Erstellen Sie einen weiteren Vektor, tut mir leid, ich erstelle einen weiteren DataFrame, Mitarbeiterdetails auch zu EMP-Punktdetails, mit der Hale-Bopp DataFrame-Funktion. Und hier manuell. Im DataFrame gebe ich den Namen Vector C T Vector, Postleitzahl, Gehalt an. Okay? So können wir auch im ersten Schritt das schaffen, was wir gemacht haben. Wir haben den Namen Stadt, Postleitzahl und Gehaltsvektor separat erstellt und dann die Funktion cbind angehalten , um einen DataFrame zu erstellen. Und was wir jetzt tun, wir geben diese Vektoren direkt weiter. Wir erstellen die Vektoren innerhalb der DataFrame-Funktion. Wir altern C Y nicht, und hier verwenden wir die Funktion data.frame, DataFrame, um einen DataFrame zu erstellen. Und innerhalb der DataFrame-Funktion, die wir übergeben, erstellen wir Namen. Vektor, Dichtevektor, dann PLZ-Vektor und auch Einträge geben wir hier nur an, okay? Gehalt und Nebenfaktor falsch. Okay? Und wenn wir das dann ausführen, erstellen wir einen DataFrame. Das sind auch Mitarbeiterdetails. Okay? Und wenn ich dieses Tool starte, was bekommen wir, wir bekommen den zweiten DataFrame , der verwendet wird. Es benennt tendenziell strategischen Code und es gibt 3,2 Kleinbuchstaben RAM und Push-Pop. Und ihre Postleitzahl und jeweiligen Gehälter sind hier abgedruckt. Jetzt haben wir die beiden DataFrames, Mitarbeiterdetails und implizite Details zu dem, was ich tun wollte. Ich möchte die Zeilen aus den beiden DataFrames kombinieren und einen weiteren DataFrame erstellen , der alle Mitarbeiterdetails enthält , der alle impliziten Details von One bis DataFrame enthält. Also erstelle ich ein anderes Objekt, alles Punkt-Mitarbeiter-Punktdetails. Okay, das wird der DataFrame sein der die Zeilen von Employee DataFrame und DataFrame kombiniert und Details zu DataFrame impliziert. Also, was ich dafür verwenden werde, Out-of-Band zu kaufen weil wir die Straßen hier, drei Reihen und hier vier Reihen, zu diesen vier Reihen kombinieren wollen . Und diese drei Zeilen möchte ich kombinieren und einen weiteren DataFrame erstellen. Deshalb verwende ich Out-of-Band , um die Zeilen zu kombinieren. Und dann stelle ich im Audubon den ersten DataFrame und dann den zweiten DataFrame bereit . Und dann können wir die Chat-Funktion verwenden um die Überschriften zu drucken, die zusammen Details implizieren. Und dann kann ich drucken. Okay, lass mich das ausführen. Wir sehen uns. Jetzt haben wir alle impliziten Details DataFrame , der alle sieben Zeilen enthalten wird, die vier aus dem ersten DataFrame und das letzte Drittel aus dem zweiten DataFrame. Auf diese Weise können wir also zwei DataFrames kombinieren. Okay? Also, was sind die Dinge, die wir gelernt haben? Zunächst haben wir gelernt, wie man einen DataFrame aus Vektoren erstellt . Und dann haben wir gesehen, wie wir die beiden DataFrames zu einem Datenrahmen kombinieren können . Okay, auf diese Weise können wir die DataFrames kombinieren und wir können auch einen DataFrame aus den Vektoren erstellen. Wir sehen uns in der nächsten Vorlesung. 22. Daten in R aus einer CSV-Datei analysieren: Hallo und willkommen zurück. In dieser Vorlesung lernen wir also das sehr wichtige Konzept kennen, und das ist die Datenanalyse in R. Was wir also in dieser Vorlesung tun werden, werden wir zuerst versuchen, eine CSV-Datei zu lesen, CSV-Datei, kommagetrennte CSV-Dateien. Und es ist wie ein echter Sitz, den Sie sich vorstellen können. Und es wird die Summe der implizierten Details enthalten. Und was wir dann tun werden, wir werden versuchen, diese CSV-Datei mit unserer Programmierung zu lesen. Nachdem wir die Daten gelesen haben, werden wir versuchen, die Daten zu analysieren , die sich in der CSV-Datei mit den Mitarbeiterdetails befinden. Und wir werden versuchen, aus diesen Daten einige Erkenntnisse zu gewinnen. Okay, lassen Sie mich Ihnen zuerst die CSV-Datei zeigen. Das ist also die CSV-Datei , die ich erstellt habe. Und wir werden hier sehen, dass dies die CSV-Datei mit den Mitarbeiterdetails mit Punkten ist und es sich um eine durch Kommas getrennte Datei handelt. Also die erste Mitarbeiter-ID, Name des Mitarbeiters, das Gehalt, die Daten zum Zeitpunkt des Beitritts und die Abteilung. Dies sind die vier Spalten. Das wird die Spalte des Tisches oder der Excel-Sitz sein, wie Sie sehen können. Und dann wird das die erste Reihe sein. Die durch Kommas getrennten Werte. Die eine ist die Mitarbeiter-ID, dann ist die Dienstliste der Name des Mitarbeiters. Das Gehalt wird 3.000 betragen. Sie haben darauf getippt, sich dem anzuschließen. Und dann wird die Abteilung CSE oder so sein. Okay. Das sind also einige Daten, die ich in dieser CSV-Datei aufbewahrt habe. Und was ich jetzt tun werde, ich werde versuchen, diese Daten, diese Spalten und Zeilenwerte durch unsere Programmierung abzurufen . Und dann werden wir versuchen , die Daten zu analysieren. erste Typ ist das Lesen einer CSV-Datei durch unsere, okay, also lass mich zum Code gehen. Als erstes müssen wir unser Arbeitsverzeichnis einrichten. Um das Arbeitsverzeichnis festzulegen, müssen Sie also zu den Dateien hier, diesem Abschnitt, gehen und sehen, wenn Sie auf diese drei Punkte hier klicken, gelangen Sie zu dem Punkt, an dem Sie die Dateien auf Ihrem Computer durchsuchen können. Und hier was ich tun werde, ich gehe zur Art 2020, weil das mein Arbeitsverzeichnis ist und ich diesen Ort als unser Arbeitsverzeichnis festlegen möchte . Das wähle ich aus. Und jetzt befinden wir uns in diesem Kunstverzeichnis für 2020. Jetzt möchte ich dafür sorgen, dass dieser Steuersatz ein Arbeitsverzeichnis hat, damit ich das tun kann. Da kann ich öfter hingehen. Und das Jahr der Fähigkeiten, Als Arbeitsverzeichnis festlegen, also klicke ich auf Als Arbeitsverzeichnis festlegen. Okay, auf diese Weise können wir dies zu unserem Verzeichnis für 2020 als unser Arbeitsverzeichnis machen . Alternativ können Sie einfach den Befehlssatz WD verwenden. Set WD ist eine Funktion, die das Arbeitsverzeichnis festlegt. Wd bedeutet Arbeitsverzeichnis und Segmente, die das Arbeitsverzeichnis einrichten. Also set work set, WD ist die darin enthaltene Funktion, mit der Sie den Pfad für Ihr Verzeichnis angeben können. Und dieser Pfad wird Ihr Arbeitsverzeichnis sein , wenn Sie ihn ausführen. Okay? Jetzt haben wir das Arbeitsverzeichnis festgelegt. Was ich getan habe, ich habe die CSV-Datei mit den Mitarbeiterdetails hier aufbewahrt , damit wir leicht erkennen können, wer das liest. Wir müssen hier nicht den kompletten Pfad angeben, da wir ihn haben, wir befinden uns im Arbeitsverzeichnis und unsere Tilde-Punkt-CSV-Datei für Mitarbeiter befindet sich auch im selben Verzeichnis, okay? Und wenn es nicht da ist, müssen wir hier den kompletten Pfad und den kompletten Teil für diese Datei angeben . Okay? Der erste Schritt ist also, dass wir die CSV-Datei durchlesen wollen. Also was ich tun werde, ich erstelle zuerst eine Variable, die du sagen oder als Objekt in unseren Employ-Daten angeben kannst , EMP-Punktdaten. Dies ist eine Unvariable, in der ich alles speichern möchte , was ich aus dieser CSV-Datei lesen werde. Um eine CSV-Datei zu lesen, was wir benötigen, benötigen wir eine Funktion namens read.csv. read.csv wird also verwendet , um die CSV-Datei zu lesen. Und in dieser Funktion, read.csv, müssen wir den Punkt CSV-Dateinamen angeben , sodass unser Dateiname Personaldetails Punkt CSV ist. Das war's. Wenn wir diese Funktion ausführen, liest sie die Daten aus dieser Mitarbeiter-Punkt-CSV und speichert sie in diesen Mitarbeiterdaten. Lassen Sie mich das zuerst ausführen. Schau hier. Wenn Sie nun hier sehen, zeigt es uns, dass es uns EMP-Punktdaten von Mitarbeitern zeigt , acht Objekte mit fünf Variablen. Das bedeutet, dass die CSV-Datei acht Zeilen und fünf Spalten enthält. Mitarbeiter-ID, eins bis acht, impliziert Name. Dies sind der implizite Name, Gehaltssatz bis zum Beitritt. Und das hat es, die Details können Sie hier sehen. Jetzt haben wir die CSV-Datei gelesen und die Daten in diesen EMP-Punktdaten gespeichert. Jetzt kann ich diese EMP-Punktdaten ausdrucken und sehen, welche Details sie enthalten. Lass es einfach laufen und wir sehen uns. Lassen Sie mich das noch einmal ausführen. Jetzt bekommen wir die Tabelle, die mir gefällt, Struktur, oder? Personalausweis, Mitarbeitername, Gehalt, Beitrittsdatum und Abteilung. Das sind die Spaltennamen und das sind die Werte, oder? Reihen. Für die entsprechenden Spalten, oder? Es gibt acht Zeilen und fünf Spalten. Fünf Variablen bedeuten fünf Spalten. Kannst du dir also vorstellen, um welche Art von Datentyp es sich in der Kunst handelt? Dies wird DataFrame genannt. Dataframe wird die tabellenähnliche Struktur haben, oder? Was auch immer wir aus der CSV-Datei lesen, es wird als Datenrahmen in R gespeichert Und wir können anhand der einzelnen Daten überprüfen, ob es sich um einen DataFrame handelt oder nicht. Jede Dot Data.Frame-Funktion, rechts, ist eine Punktdata.Frame-Funktion. Und wir können dieses Mitarbeiterdatenobjekt übergeben. Also lass mich das ausführen. Sehen Sie hier, es gibt das Ergebnis als wahr an. Das bedeutet, dass diese EMP-Punktdaten unserer Mitarbeiter unser DataFrame sind. Was auch immer wir hier lesen, read.csv erhält einen Datenrahmen. Jetzt haben wir hier einen DataFrame. Als Nächstes haben wir hier unsere tabellenähnliche DataFrame-Struktur. Jetzt kann ich die Anzahl der Spalten mithilfe einer aufgerufenen Funktion ermitteln. Also kann ich eine Kohle verwenden und dann kann ich den DataFrame-Namen hier übergeben. Und es gibt uns die Anzahl der Spalten im DataFrame. Diese CSV-Datei hat also fünf Spalten. In ähnlicher Weise können wir und Rho verwenden, und Rho ist die Anzahl der Zeilen. Wenn wir das ausführen, erhalten wir die Anzahl der Zeilen, acht Zeilen in diesem DataFrame. Sehen Sie hier, wie einfach wir die CSV-Datei gelesen und eine Tabelle oder einen DataFrame in R erstellt haben . Und jetzt finden wir mit n Doppelpunkt und Zeile die Anzahl der Spalten und die Anzahl der Zeilen in diesem DataFrame. Jetzt werden wir einige interessante Informationen mit R bekommen einige interessante Informationen mit R Jetzt möchte ich das Höchstgehalt herausfinden. Was ist das Höchstgehalt eines Mitarbeiters? Also kann ich die Max-Funktion verwenden und die Mitarbeiterdaten weitergeben. Dollargehalt. Das bedeutet, dass ich die Gehaltsspalte, diese Gehaltsspalte an die Max-Funktion, die Gehaltsspalte und die EMP-Punktdaten übergeben möchte diese Gehaltsspalte an die Max-Funktion, die . Dollargehalt bedeutet, dass diese Spalte ich hole, und ich übergebe sie an die Max-Funktion. Diese maximale Funktion wird also intern funktionieren und das Maximum aus diesen Gehältern finden. Es wird uns also geben, es gibt uns das Ergebnis 95.200. Lassen Sie mich das Höchstgehalt ausdrucken. Sehen Sie hier, wir bekommen das Höchstgehalt eines Mitarbeiters von 95.200. Okay? Auf diese Weise können wir das Höchstgehalt ermitteln. Wir können das Durchschnittsgehalt auch mithilfe der Mittelwertfunktion ermitteln. In der Hauptfunktion werden wir also diese Gehaltsspalte bereitstellen. Und es wird uns das Durchschnittsgehalt der Mitarbeiter geben. Ihr Durchschnittsgehalt auf dem Platz. Jedes Gehalt von ihm ergibt 53.009, 24. Und wenn wir die Summe der Gehälter aller Mitarbeiter verwenden und durch acht dividieren, weil es acht Mitarbeiter gibt erhalten wir den gleichen Satz wie der CEO. Auf diese Weise können wir das Durchschnittsgehalt der Mitarbeiter ermitteln. Auf die gleiche Weise können wir das Maximum finden. Wir können die Mitarbeiterdetails mit dem Höchstgehalt finden. Wir haben festgestellt, dass 95.200 das Höchstgehalt sind. Eins impliziert das Bekommen. Jetzt können wir den Mitarbeiter mit diesem Detail finden. Wir können also die Teilmengenfunktion verwenden und diese impliziten Daten übergeben. Und dann können wir hier ein weiteres Argument vorbringen, Gehalt entspricht dem Höchstgehalt. Was wir also tun werden, wir werden den Mitarbeiter finden , der das Höchstgehalt hat. Es gibt uns also die Information des Mitarbeiters, wer das maximale Gehalt aus dem Angebot bezieht. Lass mich das ausführen. Sehen Sie hier, dass dieser Mitarbeiter das Höchstgehalt erhält und dies sind seine Daten. Auf diese Weise können wir das sonnigste Gehalt eines Mitarbeiters angeben, der das Höchstgehalt erhält. Auf diese Weise können wir den Mitarbeiter finden , der das maximale Gehalt und das höchste Gehalt erhält . Auf die gleiche Weise. Wir können das auch ausführen. Sorgen Sie dafür, dass alle Mitarbeiter im Finanzwesen arbeiten, in der Finanzabteilung und ein Gehalt von mehr als 85.000€ erhalten. Sehen Sie hier, das ist die Abteilung, also das ist die Finanzabteilung. Es gibt zwei Mitarbeiter und beide erzielen mehr als 85.000 Verkäufe. Also, welche Bedingung stellen wir? Wir geben den Aufruf der Teilmenge und die Bereitstellung der Mitarbeiterdaten an. Und dann geben wir eine Bedingung Abteilung der Finanzen entspricht und die Gehälter über 85.000 liegen würden. So erhalten wir alle Mitarbeiter detailliert, deren Abteilung für Finanzen und Gehälter zuständig ist, mehr als 85.000. Lass mich das ausdrucken. Lass mich das ausführen. Hier. Wir werden implizit. Lass es mich noch einmal ausführen. Also hier bekommen wir die Mitarbeiter-ID 3.8, was bedeutet, dass es losgeht. Dies sind die beiden Mitarbeiter, die der Finanzabteilung angehören und deren Gehalt mehr als 85.000 beträgt. Also diese beiden Mitarbeiter, die die Personalabteilung, Finanzen und die Finanzabteilung einstellen, und ihre Gehälter betragen mehr als 85.000. Als Nächstes möchte ich herausfinden , wer am oder nach 2000 dazugekommen ist. Also haben wir hier auch ein Datum für den Beitritt, oder? Also möchte ich alle Mitarbeiter finden , die nach 2000 dazugekommen sind. Ehre, nach 2000. Und so kann ich die Mitarbeiterdaten angeben und das Datum von Ashdod angeben. Und darin gebe ich das Datum des Beitritts an. Also Daten zum Ertrinken stelle ich dieser Datumsfunktion zur Verfügung. Und das sollte größer sein als das hinzugefügte Anmeldedatum. Erster Januar 2000. Okay. Also alle Mitarbeiter , deren Daten über Joanne größer sind als dieses Tutorial, First Gen to Tarjan erhalten die Details zu diesen Mitarbeitern hier. Also lass mich das ausführen. Warte noch einmal, sieh es dir hier an. Jetzt bekommen wir also die Implikationen Priyanka Mahesh. Sie treffen uns also, wenn diese fünf andeuten, dass sie im Jahr 2000 beigetreten sind, und danach oder nicht nach 2000, sind sie dem Unternehmen beigetreten und wir erhalten die Mitarbeiterdaten. Wer mitgemacht hat, ähm, am sind oft 2000er. Auf diese Weise können wir die CSV-Datei und die Daten, die wir in der CSV-Datei haben, in Excel analysieren . Das ist also eine ziemlich coole Analyse, die wir mit den einfachen Funktionen durchführen können . Stimmt es? Was ich jetzt tun möchte, wir haben eine CSV-Datei gelesen, oder? Wir haben die CSV-Datei gelesen und all diese Analysen durchgeführt. Was ich jetzt tun möchte, ich möchte eine CSV-Datei schreiben. Ich möchte ein paar Daten haben. Ich möchte einige Daten generieren und möchte, dass diese Daten in einer CSV-Datei veröffentlicht werden. Wie kann ich das machen? Das kann ich damit machen. Write.csv. Read.csv liest die CSV-Datei. Und write.csv bedeutet Lesen oder Schreiben einer CSV-Datei. Wir wollen eine CSV-Datei schreiben. Welche Daten auch immer, diese Daten, die ich gefunden habe deuten darauf hin, wer nach 2000 dazugekommen ist, oder? Also möchte ich diese Tabelle oder diese Daten in eine CSV-Datei schreiben . Also werde ich dieses Objekt, das nach 2000 hinzugefügt wurde, an diese write.csv übergeben . Und hier gebe ich den Namen der CSV-Datei. Also ich erhalte den CSV-Dateinamen als Mitarbeiter Punkt zwindig nach dem Zahnursprungpunkt csv. All diese Daten werden also in diese CSV-Datei geschrieben. Eine neue CSP-Datei wird erstellt. Okay, also lass mich, lass mich sehen, ob diese Datei schon ist, siehe hier, diese Datei ist schon da. Also was ich tun werde, ich lösche das. Okay? Und dann gehe ich zurück und führe das aus. Okay, lassen Sie mich das ausführen. Und lass mich zum Ordner hier gehen. Sehen Sie hier, jetzt haben wir eine neue Datei erstellt. Lassen Sie mich Ihnen die Daten zeigen. Hier. Wir haben 12345 Zeilen. Hat mir durch Eddie erzählt, dass die Daten bis n 2000, 2018, 2.914.2018 sind. All diese Implikationen sind nach dem Jahr 2000 hinzugekommen. Also ähnliche Daten gibt es hier. Und jetzt, wo die Daten in diese neue CSP-Datei eingefügt wurden, im Nachhinein Punktverbindungen verwendet wurden und sehen, wie einfach es ist, das Ergebnis hier zu erhalten und dieses Ergebnis in eine CSV-Datei zu schreiben die wir gerade durch unser Throughing erstellt haben, können wir die Ergebnisse auch in eine CSV-Datei schreiben. Und jetzt kann ich lesen, benutze den Lesepunkt csv, um diese CSV-Datei erneut zu lesen und zu drucken. Also lass mich das ausführen. Hier. Wir erzielen auch hier das gleiche Ergebnis. Auf diese Weise können wir uns per CSV-Datei schreiben und wir können eine CSV-Datei lesen. Und wir können all diese Analysen durchführen , z. B. das Höchstgehalt ermitteln, den Mitarbeiter finden, der das höchste Gehalt hat, wer das höchste Gehalt erhält. Wir können die Mitarbeiter finden nach einem bestimmten Datum beitreten. Wir können das Durchschnittsgehalt der Mitarbeiter ermitteln. Wir können den Mittelwert des Gehalts ermitteln. Wir können viele andere Dinge finden, was auch immer für Ihr Unternehmen erforderlich ist. Wenn du willst. Kommen Sie zu einem bestimmten Ergebnis, indem Sie die Daten vergrößern, können Sie mit den, mit den seltsamen Funktionen machen und Sie können Ihre Daten analysieren. Ich hoffe, Sie haben die Stärken unserer Programmierung kennengelernt und erfahren , wie man Daten in der R-Programmierung und beim Lesen und Lesen und Schreiben, Lesen und Schreiben einer CSV-Datei verarbeitet. Wir sehen uns in der nächsten Vorlesung. 23. Kreisdiagramm in R erstellen: Hallo und willkommen zurück. In dieser Vorlesung werden wir also etwas über Kreisdiagramme lernen. Lassen Sie mich also zuerst diese Konsolen und Objekte testen und lassen Sie mich diese Datei schließen. Und ich habe eine Datei erstellt , die Byte Char Tatar heißt. Also habe ich das Programm geschrieben, ich habe die Funktionen geschrieben, um ein Kreisdiagramm mit Daten zu erstellen . Wir nehmen also an, dass wir einige Daten haben und diese Daten in einem Kreisdiagramm darstellen möchten. Und wir wollen die Daten analysieren, damit wir in unserer, sehr einfach, auch für diese Funktion beliebten Anzeige machen können , weil wir die Daten anhand verschiedener Diagramme visualisieren können. Also eine Gitarre ist Kreisdiagramm und das werden wir in dieser Vorlesung lernen. Also müssen wir als Erstes, als Erstes die Daten für das Diagramm erstellen. Also erstelle ich einen Vektor n und gebe Werte wie 307-82-3309, so etwas. Du kannst geben, was du willst. Und dann erstelle ich die Bezeichnungen a, B, C, D für diesen Wert. Der Wert wird also 30, 78, c, 23 und D 39 sein, so. Okay? Jetzt kann ich den Datendateinamen für den Chat abrufen, egal welches Diagramm ich gerade erstelle, ich kann ihm einen Namen wie ABC-Punkt-PNG oder ein Kreisdiagramm-Punkt-PNG geben . Nehmen wir an, ich gebe ihm einen Namen von Jarred dot PNG. Alles, was du geben kannst. Okay. Also gebe ich ihm einen Namen. Ich kann die PMT-Funktion verwenden und eine Datei angeben, die dem Dateinamen entspricht. Also möchte ich eine PNG-Bilddatei mit Kreisdiagramm-Punkten erstellen. Was auch immer das gepackt hat , es wird in einem PNG-Datei-Bildformat gespeichert. Okay, das kann also auch mit dieser Zeile anfangen. Das ist also optional, wenn Sie eine PNG-Datei auf einer Bilddatei haben möchten, können Sie damit erstellen. Andernfalls können Sie direkt hierher kommen und die Kreisfunktion verwenden und die Daten übergeben. Das geht also in die Daten und dann können Sie die Labels weitergeben. Das sind die Levels. Wenn also ein Kreisdiagramm mit diesen Daten erstellt wird und diese Daten mit a, B, C, D beschriftet werden . Okay, also und dann bedeutet dev.off, dass diese Datei auf dem, auf dem System abgeschrieben wird . Okay? Lassen Sie mich diesen Code hier ausführen. Also lass mich rennen. Okay. Also CEO, jetzt haben wir, aber wir sehen diese Grafik hier nicht. Ich weiß nicht warum. Lassen Sie mich diesen Teil noch einmal ausführen. Schau hier. Jetzt haben wir ein Kreisdiagramm mit den Bezeichnungen a, B, C, D. E ist also verspätet. V ist am ähnlichsten 78. Das ist richtig, der größere Bereich für b und dann d und C. Auf diese Weise haben wir mit diesen einfachen Daten diese grafische Darstellung erstellt. Und lassen Sie mich zum Kunststipendiaten und CEO gehen, es muss eine Datei erstellt werden. Sehen Sie hier das Kreisdiagramm. Diese PNG-Datei wurde mit dieser grafischen Darstellung erstellt . Also sieh hier, diese Bilddatei wurde auch erstellt und sieh hier die a, B, C, D. Das sind die Bezeichnungen und das ist der Datenwert ist 78, das haben wir angegeben. Ein Wert ist 30 und C10 ist 23, 29 so. Okay, sehen Sie, wir glauben, dass wir eine grafische Darstellung unserer Daten erstellt haben eine grafische Darstellung unserer und dass wir unsere Daten so präsentieren können. Okay, lassen Sie mich zurück zum Kern gehen. Das ist also der Befehl, das ist die Funktion PNG, um eine PNG-Datei aus unserem Diagramm zu erstellen . Okay, das ist unser Diagramm und das ist unsere PNG-Datei für dieses Diagramm. Okay? Wenn Sie also das Diagramm versenden möchten, können Sie eine PNG-Datei erstellen und diese per E-Mail senden. Okay? Auf diese Weise können wir ein Kreisdiagramm erstellen. Okay, als Nächstes möchte ich ein weiteres Kreisdiagramm erstellen. Und dafür kreiere ich quasi implizit und ihr Gehalt. Also erstelle ich einen Gehaltsvektor und gebe ihm diese Gehälter impulsiv und er unterstützt nur unser Gehalt und die Namen der Mitarbeiter, bis auf ein Datum und all diese Dinge. Okay? Das sind also die beiden Vektoren, die ich für das Gehalt und die Namen erstelle. Also offensichtlich wird es diese Elite wundern, aber es waren 800 so. Okay? Und das Gleiche gilt für B und D. Ich versuche eine PNG-Datei zu erstellen, Gehaltspunkt-PNG für das Diagramm, das gezogen wird, und dann nach Gehalt und Namen, die ich übergebe und übergebe das Gehalt als Daten und Namen wie Labels. Das nächste Kreisdiagramm, das wir erstellen werden, wird auf der Grundlage des Gehalts erstellt und die Namen werden Bezeichnungen sein, wie hier, ABCD hat es der Grundlage des Gehalts erstellt und die Namen werden Bezeichnungen sein, wie hier, in diesen Stufen getan, wird da sein und gespeichert werden. Aber BUN und diese Dinge. Okay, lassen Sie mich diesen Deal hier erstellen. Lass mich das ausführen. Okay? Das nochmal. Schau hier. Jetzt haben wir ein Kreisdiagramm mit den Namen wie offensichtlich Park J Tan. Und was ist die Verwendung grafischer Daten beim Plotten. Denn damit können wir sehen, dass, okay, ist Aaron, weniger Gehalt für Musik hat weniger Gehalt, aber ein N Far Oak hat ein ziemlich gutes Gehalt. Das Geld und Ellen ist Erin jedes Gehalt. Mit dieser Grafik können wir die Daten also leicht analysieren, können wir die Daten also leicht analysieren ohne uns die Daten genauer anzusehen . Wir können das sehen und wir können zu dem Schluss kommen, dass Musik danach weniger Gehalt hat, Satan kaum mehr als jeder Kranke. Und dann der Buck und Ellen, und dann Spule und Stoff und Stoff haben die meisten, die meisten zellulären Elemente unserer Lucas, die Fotokopien haben , bekommen das höchste Gehalt, 1.000 Rupien Nachlass. Wir können diese Analyse also durchführen , indem wir uns das Kreisdiagramm ansehen und hier sehen, dass hier eine Gehaltsdatei erstellt wurde, siehe hier. Also das kannst du über die E-Mail schicken und du kannst es so formulieren. Okay. Das ist also das riesige Kreisdiagramm. Und mit dieser einfachen Pipe-Funktion können wir ein Kreisdiagramm erstellen, indem wir die Daten schreiben und die Beschriftungen angeben müssen. Dieser Name ist ein Etikett dafür, dass wir gut sind. Danke. Okay. In der nächsten Vorlesung werden wir uns die restlichen Dinge ansehen, z. B. wie wir die CSV-Dateidetails analysieren können. Also sehe ich dich im nächsten. 24. Mitarbeiterdaten analysieren: Hallo und willkommen zurück. In dieser Vorlesung werden wir also die Punkt-CSV-Datei mit den Mitarbeiterdetails analysieren Punkt-CSV-Datei mit den Mitarbeiterdetails , die wir in den vorherigen Vorlesungen gesehen haben. Und wir werden die Daten aus dieser CSV-Datei abrufen. Lesen Sie die Daten aus der CSV-Datei und wir erstellen ein Kreisdiagramm. Und wir werden sehen, was wir mit dem Kreisdiagramm machen können. Welche grafischen Dinge können wir mit dem Kreisdiagramm analysieren? Wie wir die Mitarbeiterdetails aufklären können. Aus dem Kreisdiagramm. Um eine CSV-Datei zu lesen, verwenden wir die read.csv und übergeben die CSV-Datei hier. Und das werde ich in den EMP-Punktdaten speichern. Das haben wir schon gesehen. Also führe ich das aus und wir bekommen die Daten in das EMP-Punktdatenobjekt. Dies wird nun eine DataFrame-Rate sein. Erinnerst du dich, oder? Wenn ich also diese Mitarbeiterdaten ausdrucke, EMP-Punktdaten, wird auch ein Datenrahmen angezeigt. Sie werden die Struktur hier mögen. Diese Daten erhalten wir aus dieser CSV-Datei. Jetzt möchte ich zeichnen, ich möchte ein Kreisdiagramm wie dieses bekommen , weil das impliziert, okay? Dazu kann ich die Pipe-Funktion verwenden und ein Kreisdiagramm erstellen. Deshalb möchte ich ein Kreisdiagramm erstellen, das auf dem Gehalt basiert. Also was ich tun werde, ich verwende EMP-Punktdaten, Dollars Salad, all diese Elemente. Holen Sie sich die Gehaltsspalte in diesem DataFrame. Und es wird ein Kreisdiagramm erstellen und das, was ich gebe, beschriften Ich gebe das Etikett als Mitarbeiternamen an. Also EMP-Punktdaten, Dollar, E&P-Unterstrichname, Mitarbeitername. Es wird also ein Kreisdiagramm wie dieses erstellt, und das wird das Gehalt des Mitarbeiters sein und die Stufen werden so sein, dass der Name impliziert wird. Lassen Sie mich das ausführen und sehen, hier erhalten wir ein Kreisdiagramm, in dem diese Blöcke das Thema Gehalt und die Höhe der Implikationen darstellen . Mit diesem Kreisdiagramm können wir das also deutlich sehen. Sieh dir das an. D trocknet also das Gehalt dieses Monats. Randolph hat dieses Most-Gehalt bezogen, oder? Also hohe Gehälter, Höchstsatz. Und wir sehen hier, so hohe Gehälter, maximal 95.200. Und mein Haar trocknet, je weniger Gehalt, oder? Also, wenn wir das Gehalt sehen, 7.800, okay. Auf diese Weise können wir Kreisdiagramm erstellen, das auf dem Gehalt und dem Namen des Mitarbeiters sowie den Bezeichnungen basiert . Okay, als Nächstes möchte ich das Diagramm, den Titel und die Regenbogen-Farbpalette plotten , also möchte ich sie bunter machen. Also hier, was ich tun werde, ich verwende die Pipe-Funktion. Geben Sie das Gehalt weiter und geben Sie dann den Namen an. Das sind also die Daten, dann ist dies die Bezeichnung und der Mittelwert, der dem Gehalt des Mitarbeiters entspricht. Dies wird die Überschrift für dieses Diagramm sein. Okay? Das wird also die Überschrift für dieses Diagramm sein. Und was ich dann benutze, nenne ich gleich regenbogenfarben, heißt Regenbogen. Und dafür gebe ich Mitarbeitern die Länge der Punktdaten, okay? Tippen Sie anschließend auf die Mitarbeiterdaten. Okay, lass mich das ausführen. Jetzt. Wir erhalten ein sehr farbenfrohes Diagramm oder ein Kreisdiagramm, in dem die Überschrift das Gehalt des Mitarbeiters und die Namen die Bezeichnungen und das Gehalt sind. Diese Blöcke repräsentieren die. Impliziert Gehalt. Okay? Auf diese Weise können wir ein farbenfrohes Kreisdiagramm erstellen, das viel besser aussieht als das vorherige, sodass Sie es auch verwenden können. Als Nächstes möchte ich die Labels erstellen. Was ich also tun werde, sehen Sie, ja, wir geben die Stufen an, sie zu beschäftigen, die bereits in diesem DataFrame enthalten sind, oder? Jetzt möchte ich meine eigenen Level erstellen. Also, was ich hier mache, ich werde einen Prozentsatz des Gehalts festlegen, andere Labels, okay? Also, was ich hier mache, ich erstelle ein Objekt zu fünf Prozent und verwende die runde Funktion. Und was ich hier mache, Hundert in das Gehalt eines Mitarbeiters geteilt durch einen Teil des Gehalts aller Angestellten. Okay. Was ich also mache, ist, den Prozentsatz der Geburten- und Sterbegehälter jedes Mitarbeiters auf der Grundlage des Gesamtgehalts zu ermitteln. Das Gesamtgehalt ergibt die Summe aller Gehälter. Und dann werden wir versuchen herauszufinden, wie viel Susanna rauskriegt. Wie hoch ist das prozentuale Gehalt von Susanna? Das Gesamtgehalt. Okay. Wir erhalten also diesen prozentualen Wert für Rohre. Und was ich dann tun werde, ich werde das Zahnarztgehalt in einem Kreisdiagramm darstellen. Also verwende ich dafür die Pipe-Funktion. Und hier werden die Daten das gleiche Gehalt der Mitarbeiter sein, diese Spalte, Gehaltsspalte. Und dann sind die Kennzeichnungen das prozentuale Verhältnis. Also das Label statt des Namens gebe ich jetzt fünf Prozent an, okay? Es werden also 1% sein, 2% so. Okay? Und dann die Hauptüberschrift, ich gebe, dieses Gehalt per Chat zu analysieren, okay? Und dann die Collette, ich behalte das gleiche Schema, Rainbow. Und hier gebe ich die Linsen und Daten, Mitarbeiterdaten, Gehalt, Gehalt und Bereitstellung als Länge. Okay. Lassen Sie mich also, und dann noch etwas, das ich gebe, ich gebe die Liganden, Liganden oder etwas wird hier gedruckt , um zu spezifizieren, was das bedeutet, R, welche Farbe wird OXO, was impliziert. Es wird also in der oberen rechten Ecke veröffentlicht. Und dann gebe ich hier Mitarbeiterdaten. Dollar, Mitarbeitername bedeutet den Namen des Mitarbeiters. Und dann gebe ich das Cex-Mittel an, dass es sich um den Wert der Länge oder Breite des Dings handelt. Sobald ich das gezeichnet habe, wirst du verstanden werden. Also lass mich, du wirst verstehen hier ein Sterndiagramm C kommt. Okay? Lassen Sie mich das auch ausführen. Und jetzt lass mich sehen. Ja, jetzt haben wir den Namen aufgegriffen. Wir erhalten die prozentualen Zahlen wie die Summe der Gesamtgehälter aller Mitarbeiter. Diese Person, die grüne , die so viel Geld hat, die 22,1% des Gesamtgehalts erhält. Und dann lassen wir unsere Augen laufen und sehen 19 Punkte. Also das, diese Legion, das nennt man Läsionen. Das, das ist die Loyalität. Und anhand der grünen Farbblöcke sind das die Brote, die dem Prion gehören. Anhand dieser Grafik können Sie also verstehen, dass die Gehälter von Priyanka 0,6 Prozent des Gesamtgehalts ausmachen, oder? Auf die gleiche Weise gehört auch diese Zelle Michael, Michael ist 25,6. Und das niedrigste Gehalt dieser Person, die Riba ist, wie Sie sehen, ist ein geringeres Gehalt, 0,2 Prozent. Auf diese Weise können wir unsere eigenen Labels erstellen und die Legenden für jedes Level platzieren. Und das ist genauer gesagt, wie viel 1% als prozentuales, prozentuales Gehalt erhalten. Als Nächstes können wir das 3D-Kreisdiagramm zeichnen. Und dafür müssen wir diese Bibliotheks-Plotmatrix herunterladen. Okay? Also wenn wir es nicht sind, wenn es nicht für dein RStudio da ist, kannst du zur Datei kommen. Sie können zu den Paketen gehen und auf die Installationspakete klicken. Hier kannst du deinen Namen, den Namen der gestarteten Bibliothek, die du herunterladen möchtest, angeben gestarteten Bibliothek, die du herunterladen möchtest und auf Installieren klicken. Eine Party ist nicht da. Sie können auf Installieren klicken und diese Bibliothek wird auf Ihrem Computer installiert, RStudio in Data Studio und Sie können sie verwenden. Also brauchen wir diese Bibliothek, Plottricks, um ein 3D-Kreisdiagramm zu erstellen. Und in dieser Bibliothek haben wir die Pie 3D-Funktion. Und damit können wir die Daten weitergeben, das ist das Gehalt des Mitarbeiters. Auf den Etiketten wird der Name des Mitarbeiters angegeben. Und dann untersucht Punkt und Haupt ist das Gehalt der Plazenta in 3D. Okay, lassen Sie mich das ausführen, um zu sehen, und jetzt erhalten wir ein 3D-Kreisdiagramm. Genau hier. Wir bekommen ein 3D-Kreisdiagramm so wie dies die Zusammenfassung des Sudan ist. Das ist sicherlich ein Anstieg des Fleischantikörpers Michael, der C durchquert, sehr weniger Gehalt für weniger Dinge oder die Masse wie diese. Das ist also die 3D-Darstellung der Mitarbeitergehälter. Also können wir hier sehen, und das wird viel besser aussehen als das 2D-Kreisdiagramm. Auf diese Weise können wir ein Kreisdiagramm erstellen und die Daten in der Kunst analysieren. Okay? Sie können es also auch mit Ihren eigenen Daten versuchen. Sie versuchen, Ihre eigenen Vektoren zu erstellen und versuchen dann, das Kreisdiagramm zu zeichnen. Sie können die Daten aus einer CSV-Datei analysieren, Ihre eigene CSV-Datei erstellen und all diese Dinge tun. Ich möchte, dass ihr euer eigenes Projekt wie dieses erstellt und sowohl diese Grafiken und sowohl diese Kreisdiagramme in den Projektabschnitt dieser Klasse einfügt. Und wir werden sehen, dass wir unser Feedback geben können und so. Es wird also zwischen uns, allen Schülern und auch mit mir geteilt . Sie versuchen also, Ihre eigenen Daten wie diese zu erstellen oder zu erstellen, und versuchen, Ihre Datenbank zu visualisieren, indem Sie das Kreisdiagramm oder ein 3D-Kreisdiagramm erstellen das Kreisdiagramm oder ein 3D-Kreisdiagramm wie das Finden des Mittelwerts, das Finden des Durchschnittsgehalts, all diese Dinge. Okay. Also und in die Projekte hervorragend eingedrungen. 25. Excel-Datei in R lesen: Hallo und willkommen zurück. In dieser Vorlesung werden wir also lernen, wie wir eine Excel-Datei durch Kunst lesen können. Es ist ziemlich einfach und wir müssen ein Paket installieren und dann müssen wir dieses Paket laden. Und dann müssen wir die Excel-Datei durch einen einfachen einzeiligen Code lesen , und dann können wir die Daten drucken. Schauen wir uns an, wie wir das machen können. Also, was ich getan habe, ich habe dieselbe Excel-Datei erstellt, dieselben Details , die ich in dieser Excel-Datei beibehalten habe , die wir in unserer CSV-Datei hatten. Es sind also dieselben Daten, aber ich habe über diese CSV-Datei eine Excel-Datei erstellt. Und was ich dafür getan habe, ist, dass Apps einfach diese CSV-Datei öffnen. Was ich tun werde, ist, dass ich das Microsoft Excel hier nicht habe. Also was ich tun werde, ich gehe einfach zur und hier haben wir die CSV-Datei mit den Mitarbeiterdetails, oder? Ich öffne das einfach hier im Google-Sitz. Und wir werden sehen, dass es bei x erstellt wird. Und wenn ich ja sehe, haben wir jetzt die Spalte Namensschild, Mitarbeiter-ID, Mitarbeitername, Gehalt, Beitrittsdatum und Abteilung und alle Details im Excel-Format. Was ich jetzt tun werde, ich lade einfach diese Datei im Excel-Ethikformat herunter. Klicken Sie also auf das Microsoft Excel-Format und laden Sie es herunter. Jetzt wurde es heruntergeladen und ich habe das behalten. Ich habe diese Datei hier in unserem Arbeitsverzeichnis aufbewahrt. Als Nächstes haben wir jetzt diese Mitarbeiterdetails mit Excel-Punkt x, y = Null. Das bedeutet, dass die Microsoft Excel-Datei hier in unserem Arbeitsverzeichnis unser 2020 ist. Also was ich tun muss, als erstes müssen wir dieses Paket installieren. Und der Paketname ist XLSX. Um also ein Paket in R zu installieren, können wir diese Syntax install.packages verwenden und den Paketnamen angeben , den wir installieren möchten. Wenn Sie diesen Befehl ausführen, wird die Excel-Ethikklammer installiert. Alternativ können wir hier auch zu diesem Paket-Tab gehen. Und wir müssen auf Installieren klicken. Und hier müssen wir X als X angeben, okay? Und Sie können hier auf Installieren klicken und es wird installiert. Wir können also beides tun, und die XLSX-Packer werden installiert. Dieses Paket ist erforderlich , da wir diese Excel-Datei während unserer Programmierung lesen müssen . Und wir benötigen die Bibliotheken, die in das Excel-Paket integriert sind . Also einfach auf Ausführen klicken und das ist erledigt. Okay. Also was ich tun werde, ich storniere es einfach, weil ich dieses Paket bereits installiert habe . Du klickst einfach darauf und es wird installiert, okay? Und du kannst hierher gehen und das kannst du auch tun. wird kaum eine Minute in Anspruch nehmen Ihre Zeit wird kaum eine Minute in Anspruch nehmen und dieses Paket wird installiert. Das nächste Ding ist eine Oper , bei der wir dieses Ding verschieben müssen , weil es immer noch nicht in unserer Skriptdatei enthalten ist. Nachdem Sie die Bibliothek oder das Backend installiert haben, müssen Sie diese Zeile löschen. Es geht immer noch nicht zum Liquor Other Script-Kampf. Als Nächstes wollen wir unsere Excel-Ethikdateien lesen. Und in dieser Bibliothek gibt es eine Funktion. Also müssen wir die Bibliothek laden, wir müssen das Paket laden, also werden wir die Bibliothek verwenden und dann behalten wir den Bibliotheksnamen XLSX. Und dann muss ich die Funktion v dot XLSX verwenden. Das bedeutet, dass wir eine Excel-Datei, eine Microsoft Excel-Datei, lesen wollen . Und hier, das erste Argument, wir müssen Geld geben, um den Dateinamen zu geben. Also das endgültige Bild, Mitarbeiterdetails Punkt XLSX. Okay? Und dann müssen wir den Sitzindex angeben, Index entspricht eins. Okay? Und das, was auch immer wir hier in diesem roten Punkt in Excel lesen, wir speichern es in Sichtweite oder Objekt in einem Objekt. Mitarbeiter unterstreichen Daten, E&P unterstreicht Daten. Das enthält also alle Daten, die wir aus dieser Excel-Datei lesen. Und dann drucken wir das einfach aus. Lassen Sie mich also diese Datei ausführen und sehen, dass wir hier das Ergebnis erhalten, Mitarbeiter-ID, Mitarbeitername, Gehalt, am Ende treten sie bei und Abteilung. Dieser Weg ist also ziemlich einfach. Wir können das durchlesen, wir können die Älteren darauf zugreifen, können wir lesen, oder? So ziemlich einfach. Laden Sie die Bibliothek. Installieren Sie zuerst das Paket und laden Sie dann die Bibliothek. Dann müssen wir die Excel-Datei lesen , indem wir einfach den Excel-Dateinamen angeben. Und wir müssen diese Daten in einem Objekt in einem Objekt speichern. Und dann drucken wir dieses Objekt einfach um zu sehen, was dieses Objekt speichert. Es speichert im Grunde alle Details aus dem Excel-Blatt. Okay, ich hoffe, du hast erfahren, wie wir eine Excel-Datei lesen können. Wir können also eine Excel-Datei lesen, indem XLSX-Funktion read dot verwenden. Und wir müssen den Excel-Dateinamen angeben. Und dann bekommen wir einfach alle Daten in der Excel-Datei. Das Paket ist also XLSX , das wir installieren müssen. Und wir müssen die Bibliothek XLSX laden bevor wir die XLSX-Funktion verwenden. diese Weise können wir also eine Excel-Datei, eine Microsoft Excel-Datei durch unsere Programmierung lesen . Du bist in der nächsten Vorlesung. 26. xml-Datei in R lesen: Hallo und willkommen zurück. In dieser Vorlesung werden wir also lernen, wie wir eine XML-Datei durch unsere Programmierung lesen können. Also werden wir einen Code schreiben und durch den wir die XML-Datei lesen. als Erstes sagen, Lassen Sie mich Ihnen als Erstes sagen, welches Stück. Xml-Datei. Eine XML-Datei ist also eine XML-Datei. Xml bedeutet XML Extensible Markup Language und einfügen nennen wir es XML Extensive Markup Language. Und es ist ähnlich wie Rewrite HTML, Hypertext Markup Language, wissen Sie, zum Schreiben von Webseiten und alles auf die gleiche Weise, XML Extensible Markup Language. Es ist eine Datendatei. Und in dieser Datei speichern wir Daten wie in einer Datenbank, so wie wir Daten auch in der Excel speichern. Wir speichern Daten auch in einer Textdatei und wir haben sie auch in der Datenbank gespeichert. Auf die gleiche Weise speichern wir Daten in XML-Dateien, das ist Extensible Markup Language. Es ist wie ein HTML-Dokument formatiert, wie in einem HTML-Dokument, wir verwenden die Markups und alles, um das Dokument auf die gleiche Weise zu speichern. Xml, außerdem verwenden wir das Markup, um die Daten in der Datei zu behalten. Aber hier verwenden wir benutzerdefinierte Tags. In HTML ist alles vordefiniert. Aber in XML können wir unsere eigenen Tags wie HTML erstellen. Wir müssen die ältere vordefinierte Sprachsteuer verwenden die ältere vordefinierte Sprachsteuer , die spezifisch für das HTML ist, aber in XML können wir unsere eigene Steuer schreiben, was auch immer wir wollen. Dafür können wir ein Tag erstellen. Und deshalb wählst du benutzerdefinierte, tagbasierte Sprache Wochenende eine benutzerdefinierte, tagbasierte Sprache oder eine Dateierweiterung aus. Ich werde die Markup-Sprache einreichen, damit wir hier benutzerdefinierte Tags verwenden können hier benutzerdefinierte Tags verwenden , um Objekte und die Daten in den einzelnen Objekten zu definieren. Wir können also das benutzerdefinierte Objekt definieren und die Daten entsprechend platzieren, unabhängig davon, welche Daten wir für die Tags portieren möchten, können wir tun. Xml-Dateien können als textbasierte Datenbank wie MySQL betrachtet werden. Wir verwenden die Jugend, um die Daten in einem Tabellen- und Rohformat zu speichern , und wir entscheiden welche Art von Spalte wir einfügen möchten , genauso wie es sich um eine textbasierte Datenbank handelt. Also was ich jetzt tun werde, ich möchte keine XML-Datei von Grund auf neu erstellen. Und ich möchte dieselben unsere Daten verwenden, dieselben Details, die wir in unserer CSV-Datei hatten, Mitarbeiterdetails als Punkt CSV, und dann haben wir die Excel-Datei mit den Mitarbeiterdetails mit Punkten löschen . Ich möchte also dieselbe Art von Daten haben, dieselben Daten in XML Agile. Dafür können wir also manuell eine XML-Datei erstellen. Andernfalls können wir auch dieses Konvertierungstools auf der IO-Website verwenden , auf wir einfach die Excel-Datei durchsuchen und sie in eine XML-Datei konvertieren können. Also lass es mich dir zeigen. Also, wenn Sie auf diese Website kommen Konvertierungstools Punkt Edu Slash konvertieren Slash Excel in XML. Also diese Phase, wenn Sie hierher kommen und wir, wenn Sie stöbern und einfach Ihre Excel-Datei mit den Mitarbeiterdetails hier eingeben. Jetzt verwende ich diese XLSX-Datei mit Mitarbeiterdetails , um eine XML-Datei auf der Grundlage dieser Dateidaten zu erstellen. Sie müssen also nur die Datei auswählen. Und dann müssen wir auf Run Converge klicken diese Excel-Datei in eine XML-Datei konvertiert wird. Und es dauert ein paar Sekunden und Ihre XML-Datei wird automatisch bereit sein. Also, was ich getan habe, ich habe diese XML-Datei hier bereits heruntergeladen, XML-Datei mit den Mitarbeiterdetails. Und wir werden versuchen, diese XML-Datei zu lesen. Es enthält dieselben Daten wie Mitarbeiterdaten, oder? Also okay, also was ich getan habe, habe ich geändert und ich habe es hier nur zur Aufzeichnung aufbewahrt. Und wenn Sie die Datei, die ich gerade erstellt habe, in Downloads und dieser XML-Datei sehen , werden Sie Daten sehen. Acht Mitarbeiter haben es bis dahin identifiziert. Ist das okay? Also so, das können wir machen. Lassen Sie mich diese zwei Stunden kopieren und einfügen. Ja. Okay. Also habe ich auf Lake Rehab das Paket XL XX zum Lesen der Excel-Datei installiert. Auf die gleiche Weise müssen wir das Paket XML installieren, um die XML-Datei zu lesen . Und dafür müssen wir install.packages verwenden und den Paketnamen XML angeben. Alternativ können wir zum Installationspaket gehen und hier den Paketnamen XML angeben. Und wir müssen auf Installieren klicken und es wird installiert. Ich werde es also nicht neu installieren weil ich das bereits installiert habe. Und wenn Sie es nicht installiert haben, führen Sie einfach diese Zeile aus oder Sie können hierher kommen und das XML hier angeben, und Sie können auf Installieren klicken, und es wird ein paar Sekunden dauern, das Paket zu installieren, oder kaum eine Minute, um das Paket zu installieren. Sobald das Paket installiert ist, müssen wir diese Zeile entfernen da das Paket bereits installiert ist. Als Nächstes müssen wir das XML-Paket oder die XML-Bibliothek laden. Also müssen wir den Befehl verwenden oder wir müssen die Skriptbibliothek verwenden. Und wir müssen den Paketnamen angeben. Also müssen wir das Paket laden, okay, also Bibliothek. Und wir müssen den Paketnamen XML angeben. Alle Funktionen und die zum Lesen der XML-Datei erforderlichen Funktionen werden also in diese XML-Bibliothek geschrieben. Und dass alle eingebauten Funktionen für uns unser Level sein werden. Als Nächstes müssen wir auch die Bibliotheksmethoden hinzufügen. Dies ist für dieses XML-Paket erforderlich. Okay, und als Nächstes, was wir tun müssen, müssen wir die Funktion XML parse verwenden. Xml-Dateien sind eine Funktion, die zum Lesen und Lesen einer XML-Datei erforderlich ist . Also verwenden wir XML Parse und müssen den Dateinamen für die XML-Datei angeben. Also Datei, die dem Dateinamen entspricht. Also unser letztes Bild, Mitarbeiterdetails Punkt XML. Und wir müssen, was auch immer es aus dieser XML-Datei abrufen wird, wir müssen es in diesem Mitarbeiterdetails-Objekt speichern . Denn in R müssen wir alles in einem Objekt speichern , wie man sagen kann, Variablen. Implizite Details, Variablen oder Objekte behalten also , was auch immer wir sind. Wir erhalten aus dieser Datei eine XML-Datei durch diese XML-Parse-Funktion. Jetzt werden alle Details aus dieser implizierten Detail-Punkt-XML-Datei in diesem Objekt gespeichert. Jetzt müssen wir das Objekt drucken. Also lass mich bis hier rennen. Okay, lass mich das hier sehen. Es druckt die XML-Datei wie ein Akkordeon einfach ID1 und das Glassdoor-Gehaltsdatum des Beitritts in die Abteilung an. Okay, hier sind also die benutzerdefinierten Tags, die wir für unsere XML-Datei erstellt haben. Okay, wir sehen uns alle Details an, die wir bekommen, damit wir die XML-Datei so lesen können. Xml analysiert die Funktion, um die XML-Datei in C zu lesen die XML-Datei . Oder wir können die Funktion XML food node verwenden, den Stammknoten der XML-Datei. Wir drängen also auf den Stammknoten und übergeben die Mitarbeiterdetails, E&P unterstreicht das Detailobjekt an den Stammknoten und dann drucken wir diesen Stammknoten. Lassen Sie mich also diese beiden Linien ausführen. Wenn ich den ersten Stammknoten einfüge , werden mir die ersten Knotendetails angezeigt, das Gitter impliziert ID1. Wenn ich eins von zwei gebe, gibt es mir den Namen. Die erste Zeile, in der Sie arbeiten, heißt Priyanka Rostow vom ersten Knoten aus. Wenn ich zwei zu dem hinzurechne, was ich bekommen werde, erhalte ich den Namen, der zweite impliziert , dass es sich um die Mitarbeiter-ID handelt. Der Name des Mitarbeiters ist. So können wir auf jeden Knoten zugreifen. Ich kann drei von eins nehmen. Nehmen wir an, drei von dreien bekommen das Gehalt des geteerten Spiels, richtig. Und auf die gleiche Weise können wir herausfinden, wie viele Knoten es dafür gibt, wie viele Norths es in unserer XML-Datei gibt, wir können die XML-Größe verwenden und das Stammknotenobjekt bereitstellen , das wir vom XML-Stamm erhalten haben. Also, wenn wir das machen, werden wir die Nummer nördlich erledigen. Lassen Sie mich das ausdrucken. Nummer vier, weil diese Excel-Datei die ich nur für den Arbeitgeber aufbewahrt habe, ist es. Es zeigt uns also, dass es vier Nordländer gibt. Wir haben vier Knoten, wenn impliziert, einen in Bright, für den D3 und die Mitarbeiter-ID verwendet werden. Es gibt uns also das, was oben im Norden in der XML-Datei steht. Jetzt ist die Hauptsache, wenn wir diese Daten haben, XML-Daten, können wir R lesen . Wir müssen sie in den DataFrame konvertieren , weil es sehr einfach ist, Daten zu lesen oder zu manipulieren wenn sie im DataFrame-Format vorliegen, oder? In Are gibt es also eine Funktion namens XML to DataFrame. Das bedeutet, was auch immer wir in dieser Punkt-XML-Datei mit den Mitarbeiterdetails haben , wir können das direkt in einen funktionierenden DataFrame konvertieren, indem wir die XML-to-DataFrame-Funktion und alle Details verwenden. Wir speichern es im DataFrame mit dem Unterstrich des Mitarbeiters und können es dann ausdrucken und wir werden sehen, dass es wie DataFrame aussieht. Lassen Sie mich das ausführen und sehen, dass alle Details in einem tabellarischen Format oder in einem DataFrame-Format in unserer leitenden Mitarbeiter-ID, dem Mitarbeiternamen und den Gehaltsdaten für Planung und Abteilung vorliegen. Damit, mit dieser einzigen Codezeile, können wir in der R-Programmierung eine XML-Datei in DataFrame konvertieren . Und das ist ziemlich praktisch, wenn wir unsere explorative Datenanalyse maschinelles Lernen und Datenwissenschaft durchführen. So können wir eine XML-Datei einfach in einen DataFrame konvertieren und dann weiter analysieren, um die Daten zu analysieren oder die Art und Weise, wie wir Grafiken erstellen möchten, und all das Plotten und so weiter. All diese Arten von Analysen können wir also mit diesem DataFrame durchführen. Es ist also ziemlich einfach, all diese Dinge in unserer Programmierung zu tun . Ich hoffe, Sie haben verstanden, wie wir eine XML-Datei lesen können. Woher wissen wir, wie, wie viele Knoten es mit dieser XML-Größe gibt? Und wie können wir dann eine XML-Datei in R in unseren DataFrame konvertieren , indem wir XML in DataFrame verwenden, oder? Das war's für diese Vorlesung. Wir sehen uns im nächsten. 27. JSON-Datei in R lesen: Hallo und willkommen zurück. In dieser Vorlesung werden wir also lernen, wie man JSON-Dateien in unserer Programmierung liest. Also, was wir tun werden, wir werden lernen, was eine JSON-Datei ist, dann werden wir eine JSON-Datei erstellen. Und dann werden wir endlich versuchen, diese JSON-Datei durch unsere Programmierung zu lesen. Also lasst uns anfangen. Als Erstes sollten wir also wissen, was ein Sulfit ist. Jason steht also für JavaScript Object Notation und es ist ein Open-Source-Standarddateiformat. Es handelt sich also um ein offenes Standarddateiformat und ein Datenaustauschformat. Also im Grunde auch das Osterdateiformat und auch das Datenaustauschformat. Das heißt, wir können die Daten speichern und wir verwenden sie für den Austausch der Daten. Außerdem, dass du nur menschenlesbarer Text bist. Darin schreiben wir menschenlesbaren Text, um Datenobjekte zu speichern und zu übertragen aus Attributwertpaaren bestehen. Das heißt, es wird so sein, als würden wir zuerst Schlüsselwertepaare verwenden, all diese Dinge, Seite. Wenn Sie die MongoDB oder andere Datenbanken ohne Sequel kennen, müssen Sie wissen, dass es eine Dokumentendatenbank gibt , in der wir Daten in Form von Schlüsselwertpaaren speichern. Es wird also einen Schlüssel geben, und für diesen Schlüssel wird es auf die gleiche Weise einen entsprechenden Wert geben, nur Sie nur die Attributwertpaare. Das bedeutet, dass es ein Attribut geben wird und dieses Attribut, es wird ein Attribut, Wertepaare und hinzugefügte Datentypen geben. Im Grunde auch alle anderen Werte, und dieser Typ wurde im Grunde bearbeitet. Also, ich hoffe, Sie haben herausgefunden, was Jason theoretisch ist, lassen Sie mich wissen, wie wir eine JSON-Datei erstellen können. Also bis bald. Die Datei ist sehr einfach. Wir müssen Daten in diese geschweiften Klammern einfügen. Und innerhalb der geschweiften Klammern, was wir tun werden, werden wir dieses Schlüsselwertepaar verwenden, um Daten zu speichern. Nehmen wir an, was ich tun werde, ich werde dieselben Mitarbeiterdaten nur speichern. Wir haben gesehen, wie wir das in einer CSV-Datei wie hier speichern. Und dann haben wir gesehen, wie wir es in einer Excel-Datei speichern können . Und dann haben wir gesehen, wie wir das in einer XML-Datei speichern können . Und jetzt werden wir sehen, wie wir dieselben Mitarbeiterdetails in einer JSON-Datei speichern können . Also dafür haben Sie, wie gesagt, den besten Dateiformat-Trick gesehen. Hier, Mitarbeiter-ID. Alle Mitarbeiter-IDs speichere ich in einem Array eins bis acht. Also alle Mitarbeiter-IDs von eins bis eins, als ob wir acht Mitarbeiter-IDs haben. Also haben wir, wir haben all die wiederhergestellt. Und wir haben den Attributnamen als Mitarbeiter-ID angegeben, und die Werte liegen zwischen eins und acht, oder? Und dieser Doppelpunkt ist die linke Seite des Dickdarms. Diese Kolonisten, die den Schlüssel und den Wert trennen , sind Attribut und Wert. Also die linke Seite der Kolonien, Mitarbeiter-ID und auf der rechten Seite der entsprechende Wert. So wie wir den Namen der Mitarbeiter unterstreichen, das ist ein Attribut und alle Namen der Mitarbeiter, diese Priyanka wird dem entsprechen, jemanden implizieren oder um die letzten beiden zu setzen sind ich wie React es gibt immer noch die Teile eins bis vier zu meiner Eile für das, was Sie so sehen. Okay, dann speichern wir die Gehaltsliste, dann speichern wir die Trainingsdaten darin und dann die Abteilung darin. Auf diese Weise können wir in der Abteilung Daten in die JSON-Datei einfügen, können wir in der Abteilung Daten in die JSON-Datei einfügen und ich habe diesen Punkt mit den Azure-Mitarbeiterdetails im JSON-Punkt gespeichert . Jetzt wissen wir, wie wir Daten in einer JSON-Datei speichern. Als Nächstes werden wir versuchen, das zu lesen, durch unsere Programmierung auf Dateidaten zugreifen. Also lass es uns machen. Also öffne ich, ich habe den Code bereits geschrieben. Also öffne ich die lesende JSON-Datei, die ich geschrieben habe. Und dafür müssen wir das Paket installieren. Unsere Gäste haben dazu, auf diesem Backend Minister installiert. Oder Sie können es installieren, indem Sie diese Codezeile ausführen. Und du kannst zum Installationspaket kommen. Und du kannst hier oder diesen hinstellen. Und Sie können auf Installieren klicken und es wird installiert. Sie können also auch dieses Befehlsskript verwenden. Dann müssen wir die Bibliothek oder das Axon benutzen. Und dann müssen wir den JSON-Dateinamen angeben. Und der JSON-Dateiname sind Mitarbeiterdetails gegenüber der Sonne. Und hier verwenden wir eine Funktion aus dieser Bibliothek sind Jason, Das ist von Jason. Das bedeutet, dass wir die Objekte aus unseren Daten lesen werden , aus dem Punkt js mit den Mitarbeiterdetails in dieser JSON-Datei, einer Datei, die dem endgültigen Namen entspricht, den Sie angeben müssen. Und diese Funktion von JSON liest die Daten aus dieser JSON-Datei und was auch immer sie liest, gespeichert in diesem Objekt E&P unterstreicht Details. Dann drucken wir es einfach aus. Also lass es mich dir hier zeigen. Lassen Sie mich das ausführen und sehen , wie es die Daten wie die Mitarbeiter-ID liest, ein bis acht Mitarbeiternamen. Dies sind der benannte Mitarbeiter, dann das Gehalt, und dann kommt das Datum des Beitritts und dann die Abteilungen. Sehen Sie sich hier an, wie wir mit einer Codezeile aus nur einer einfachen Funktion leben . Und nur wir geben den Dateinamen und er liest alle JSON-Dateidaten. Das nächste Ding ist jetzt mit diesem Wochenende. Drucken Sie die Daten aus. Wir können also hier sehen, dass die Daten aus der JSON-Datei gedruckt werden. Wie wir in unserem wissen, ist es ziemlich einfach und es wird dringend empfohlen die Daten in einem DataFrame-Format zu erhalten. Wir können also einfach jetzt sich die JSON-Dateidaten in diesem Objekt in E&P Underscore Details befinden, wir können das in den DataFrame konvertieren, indem agilen dunklen Datenpunktrahmen verwenden. Also wenn wir diese Funktion als.data.frame verwenden und dieses Objekt mit gerade älteren Dateidokumenten oder den Daten übergeben . Dieses Objekt erhält alle Details aus dieser JSON-Datei. Und wenn wir dieses Employee-Retail-Objekt an den as.data.frame übergeben , werden diese Daten konvertiert. Jetzt ist das Format so. Es nimmt diese Daten und wandelt sie in einen DataFrame in R um. Und wir stellen diese Details wieder her, unseren DataFrame in E&P Underscore Data Understrich Frame. Und wenn wir drucken, werden die Daten in einem DataFrame-Format angezeigt. Also lass mich das ausführen. Sehen Sie hier, jetzt erhalten wir Daten in unserem DataFrame-Format in R. Es ist also ziemlich einfach, dass wir diese JSON-Datei mit der Funktion from JSON lesen können . Und dann übergeben wir einfach dieses Objekt, das alle Details aus den Mitarbeiterdetails oder der Sonne erhält , und konvertieren es in den DataFrame, indem wir diese einfache Funktion als.data.frame verwenden diese einfache Funktion als.data.frame und dieses Objekt übergeben. Was für ein JSON-Objekt, oder ein Python-Objekt das die Daten aus der JSON-Datei trägt, ein DataFrame in R. Und einfach können wir diese Hand ausdrucken CEO, wie schön es ist, sich in einen DataFrame zu verwandeln. Auf diese Weise können wir unsere JSON-Datei lesen und diese JSON-Dateidaten in einen DataFrame in der R-Programmierung konvertieren . Und dafür können wir diesen DataFrame verwenden, um die Daten zu analysieren und weiterzuverarbeiten, Diagramme zu erstellen und alles, was Sie tun möchten , können Sie mit diesem DataFrame machen. So können wir JSON-Datei mit unserer Programmierung lesen. Wir sehen uns in der nächsten Vorlesung. 28. Bar-Plot erstellen: Hallo und willkommen zurück. In dieser Vorlesung lernen wir also ein anderes Visualisierungsdiagramm oder eine Grafik kennen ein anderes Visualisierungsdiagramm oder , die wir mit R erstellen können Und das ist ein Balkendiagramm oder ein Balkendiagramm, wie Sie sehen können, ein Balkendiagramm. Balkendiagramm oder ein Balkendiagramm oder ein Balkendiagramm ist eine der häufigsten Arten der grafischen Visualisierung , die Sie in Ihrem Büro oder in Ihren Projekten gesehen haben müssen . Wann immer wir versuchen, eine Prognose zu visualisieren, verwenden wir ein Balkendiagramm. Und wenn Sie dieses Diagramm sehen, ist dies ein Balkendiagramm. Und Sie werden feststellen , dass Sie es viele, viele Male benutzt haben müssen , oder? Wir könnten dieselbe Art von Balkendiagramm auch in unserem Microsoft Excel bekommen . Und wenn wir versuchen, etwas zu visualisieren, auch wenn wir etwas auf Stift und Papier zeichnen. Um etwas zu visualisieren, zeichnen wir höchstwahrscheinlich ein Balkendiagramm. Barplot ist also eine der häufigsten Arten der grafischen Visualisierung. Und es geht um die Beziehung zwischen einer numerischen und einer kategorialen Variablen. Also, was heißt das? Das bedeutet, dass der CEO, die A, B, C, D, diese X-Achse etwas sein wird , das sehr kategorisch sein wird. Also, was sind Wochen oder Tage in einer Woche? Wie Sonntag, Montag, Dienstag, unser Januar, Februar, März, April, Mai, Juni, so. Und diese Y-Achse wird die numerische Darstellung für diese Monate sein , z. B. der Umsatz einer Organisation oder das Gehalt der Mitarbeiter. Also diese X-Achse, ABC, werden die Mitarbeiter sein, und das wird ihr entsprechendes Gehalt sein. Dieser Überschuss wird also den numerischen Teil lesen und dies wird der kategoriale Teil sein , oder? Jede Entität der Kategorievariablen wird also als Balken dargestellt. Das ist also die Bar. Und deshalb heißt es Balkendiagramm, weil der numerische Wert als Balken angezeigt wird. Also das ist super, ist bekannt als das Balkendiagramm und Größe der Batterie stellen den numerischen Wert dar. Diese Größe wird also so dargestellt, als wäre das irgendwo umgedreht. Das ist irgendwo um 13, das ist irgendwo um sieben, und das ist irgendwo allein, neun, und das ist eine Entscheidung. Der E-Wert ist also 15, B-Wert ist sieben, C-Wert ist neun, der Wert ist acht. Und dieser e-Wert ist 13. Also so. Diese Körpergröße entspricht diesem numerischen Wert. Ob ABC oder Angestellter, das sind ihre jeweiligen Gehälter, oder? Auf diese Weise können wir das Balkendiagramm verwenden und in R können wir ein Balkendiagramm zeichnen, indem wir einfach die Balkendiagrammfunktion verwenden. Also Balkendiagrammfunktion. Und innerhalb der Funktion stellen wir nur einige bereit, aber Amateure und unsere Daten. Und es wird das Balkendiagramm erstellen, dieses Funktionsbalkendiagramm zum Erstellen von Balkendiagrammen. Es können sowohl vertikale als auch horizontale Balken sein. Und die Syntax ist Barplot und es wird das Argument th verwenden. Diese Kanten werden der Vektor, der Datenvektor, sein. Der Vektor, der alle Daten enthalten wird. Und dieses Xlab ist die X-Achse, Y ist die Y-Achse, so ist a, B , a, B, C, D die X-Achse, xlab und y ist die Y-Achse, diese Hauptachse. Und dann wird der Name Ochse der sein, mal sehen, was das ist? Das ist, das wird so eine Benennung wie diese sein. 123, lass mich dir das sagen. Diese Null bis 14, wie das Gehalt des Mitarbeiters, werden die Daten sein. Und diese Namen werden die Namen der Implikationen sein. Okay? Diese Kante und der Name beginnen also damit, dass beide Vektoren dieselbe Anzahl von Daten haben , oder? Dieselbe Anzahl von Datennummernoperatoren wäre in der Kante mit dem Namen start dieselbe. Okay, okay. Wir werden sehen, dass HE, der Vektor oder die Matrix, die den numerischen Wert des Balkendiagramms enthält . Wie gesagt, xlab ist die Ebene der X-Achse. Warum ist Liebe die Ebene der Y-Achse? Und hauptsächlich der Titel des Busses. Hier wird also der Titel des Balkendiagramms angezeigt, z. B. das Gehalt des Mitarbeiters. Und dann benannter Start argumentiert, dass ein Vektor nach oben benennt und jeder Teil erscheint , wie ich schon sagte, für diesen Balken, diesen Balken b so. Okay? Und der Ruf wird verwendet, um die Farben an den Balken zu halten die Farben an den Balken zu wie hier bekommen wir verschiedene Farben. Wenn Sie also ein Diagramm bunt gestalten möchten, nutzen wir den Aufruf. Argument, okay, Henry, darüber hinaus. Okay. Also hier ist ein einfaches Beispiel. Was ich hier mache. Ich erstelle einen neuen Vektor und er wird diese, diese vielen Zahlen enthalten. Okay? Dieser Vektor wird also so viele Zahlen enthalten, okay? Und dafür möchte ich ein Diagramm erstellen. Also was ich tun werde, ich erstelle einfach diesen Q-Vektor und übergebe diese Q-Vektor-Plot-Funktion mit zwei Balken. Und es wird das Balkendiagramm für uns erstellen. Und diese ist eine PNG-Datei, die einem b entspricht, kein PNG, das dem Dateinamen entspricht. Sie können eine Bilddatei neben dem Diagramm oder Balkendiagramm erstellen und sie auf Ihrem System speichern. Und dafür verwenden wir die PNG-Funktion. Und darin verwenden wir die Datei Col2 und Namen der Datei, den Sie angeben möchten, den Sie hier angeben können. Auf der Grundlage dieser Daten wird also eine Charta erstellt und die Diagrammdaten werden in dieser Bilddatei gespeichert. Und dann verwenden wir die Balkendiagrammfunktion, um das Balkendiagramm für uns zu zeichnen. Und dann bedeutet dev.off, dass wir die Datei speichern und sie wird auf unseren lokalen Computer geschrieben. Gehen wir also zum RStudio und führen diesen Code aus. Also hier erstelle ich einen Vektor für die Dateneingabe. Basierend auf diesen Daten wird also das Balkendiagramm erstellt. Jetzt erstelle ich eine Datei, um das Balkendiagramm darauf zu schreiben. Ich gebe PNG-Datei gleich und hier können Sie einen beliebigen Namen angeben. Du kannst abc, abcd, nicht PNG angeben , welchen Namen du willst, du kannst, okay? Also gebe ich ein, b, c, d-Balkendiagramm, okay? Und dann verwenden wir das Balkendiagramm, um ein Balkendiagramm zu erstellen, und dann speichern wir es, richtig, dev.off, speichern Sie die Datei. Jetzt werde ich das Ganze überprüfen und schauen, ob das Grundstück aus irgendeinem seltsamen Grund hier nicht verkauft wird. Aber wie Sie hier sehen, wurde unser Balkendiagramm erstellt. Die Datei wurde hier erstellt. Wir sehen uns. Also okay, 12345678 Einträge, oder? Und hier haben wir 12345678. Die längste ist 9.001,99 Tausend. Auf diese Weise können wir Ihnen ein doppeltes Balkendiagramm geben. Das ist also ein einfaches Balkendiagramm, das wir auf der Grundlage dieser Daten erstellt haben , oder? Als Nächstes können wir etwas weiter gehen und versuchen, etwas Interessanteres zu kreieren. Ich werde haben, also was ich hier gemacht habe, ich habe Daten wie B erstellt, einen Vektor oder Daten, die die in jedem Monat geborenen Babys enthalten, wie B enthält einen in jedem Monat geborenen Babys enthalten, wie V-Vektor , der die Babys enthält, die in Monaten wie Januar 5.600, Februar bis März geboren wurden, 7.800 Babys, die bis zum Sommer auf diese Weise geboren wurden. Okay. Das sind also die 12-Monats-Daten für die Babys, die in einem bestimmten Monat geboren wurden. Und dann, das ist also der numerische Wert. Und was ich gerade mache, ich erstelle einen weiteren Vektor M, der den Monatsnamen enthält, richtig, für jeden Wert den entsprechenden Monatsnamenvektor, den ich erstelle, also Januar, Februar, Dezember, er wird enthalten, okay, das ist also klar. Ich erstelle den numerischen Wert hier und den Namen für jeden Balken, den ich hier für den Januar-Faktor 600 erstelle, so. Okay? Dann erstelle ich eine Datei, Babies Born Dot PNG. Und ich übergebe dieses endgültige Ziel an die PNG-Funktion mit Punkten. Okay, Kanaldiagramm sammeln, Name der Bilddatei. Und was ich dann mache, ich zeichne einfach das Balkendiagramm auf der Grundlage dieser Daten. Okay? Also was ich mache, ich bin gezwungen, den V-Wert zu verwenden. Also gebe ich die Daten ein, basierend auf diesen Daten, ich möchte ein Balkendiagramm erstellen, okay? Und dann heißt names.org für Benennung der einzelnen Balken, an die ich diesen M-Vektor übergebe. Der M-Vektor streut die Monate Januar und Februar. Die X-Achse ist also Januar, Februar und die Y-Achse die Anzahl der Babys, die in einem bestimmten Monat geboren wurden. Dann xlab, ich gebe ihnen einen Monat. Und mein Labor, ich gebe Babys in diesem Monat Bond. Dann gebe ich Farbe Grün. Und hauptsächlich bedeutet das Erreichen des Charts. Ich gebe Babys ein Bond-Diagramm. Und dann für jeden Balken. Ich gebe einen Tiefschlag, okay, und dann speichere ich die Datei. Also lass mich das ausführen. Okay, ich habe es richtig gemacht. Lassen Sie uns das sehen, der Senior, jetzt haben wir eine weitere Akte. Baby wird Punkt PNG geboren. Jetzt. Wir haben diesen Januar, Februar, März, April, Mai, Juni, Juli. Es war so. Und dann haben wir hier vielleicht den Bond Data Lake Januar, irgendwo um die 5.000 Babys, die im Februar irgendwo zur Verdünnung geboren wurden , so etwas. Okay. Also die meisten Babys, die im November und dann im Juli geboren wurden. Das ist die, wenn wir uns dieses Balkendiagramm ansehen, können wir diese Norm kennenlernen. In welchem Monat die meisten Babys geboren und danach? Juli. Also Juli und Nummer, erste Zahl und dann zweite ist Juli. Sehen Sie hier für den 7. Juli 304. Jetzt bei Kumpel 9.800. Ich habe am 9. Juli angefangen und die Nummer 9.800. Auf diese Weise können wir mich unterstützen. Ich möchte diese Farbe auf Rot ändern. Und wenn ich das starte, sehe ich, dass unser Diagramm in Lesen umgewandelt wurde, oder? Sie können sehen, dass es einen kleinen Rand mit gelber Farbe gibt. Lassen Sie mich es auf grün ändern, damit wir sehen können , dass das früh sein kann, oder es sauber machen und erneut ausführen. Diese Datei, seht ihr, jetzt wird sie bereinigt. Der Barnard ist grün. Auf diese Weise können wir mit Odd ein Balkendiagramm oder ein Balkendiagramm erstellen . Ich hoffe also, es ist klar für die Zahl und für den Namen name.org. Ich übergebe diesen M-Vektor, diesen M-Vektor und B und übergebe den anderen Haupteingabevektor. Und dann xlab, Monat. Und warum Laborbabys, die geboren werden und rot gefärbt sind, möglicherweise nicht aufgeladen werden. Schlagen ist die Geburtsurkunde und die Flasche ist grün. Dann speichert dev.off die Datei auf unserem lokalen Computer. Ich hoffe, es ist klar, wie wir ein einfaches Balkendiagramm erstellen können und wie wir diese Art von Balkendiagrammen erstellen können. Wir haben also gesehen, wie wir das geschaffen haben. Und dann haben wir James's zum Lesen und Schreiben, und wir haben auch dieses einfache Balkendiagramm erstellt. Auf diese Weise können wir also ein Balkendiagramm erstellen, oder? Wir sehen uns in der nächsten Vorlesung. 29. Gestapeltes Balkendiagramm in R: Hallo und willkommen zurück. In dieser Vorlesung werden wir also ein sehr interessantes Balkendiagramm visualisieren, visualisieren das uns ein sehr gutes reales Vermögen bescheren wird. Was passiert in einer Organisation wie vierteljährlich, regional abgerechnet wird? Wie wir mit einem Balkendiagramm plotten können. Das werden wir sehen. Um das zu tun, was ich getan habe, das Vierteljahr, das Kind, was eigentlich jeden Monat, was ich getan habe, habe ich eine Matrix erstellt, okay? Ich habe also all diese Einnahmen ich nicht in der Matrix gespeichert habe. Also habe ich eine Matrix mit den Einnahmen für vier Monate erstellt . Quartal eins, Quartal, zwei, Quartal drei Viertelviertes, Quartal, ein Quartal, ein Quartal, zwei, Quartal, drei, Quartal vier. Also diese Nischen jedes Quartal und jedes vierte Quartal gibt, oder? Für jedes Quartal sind dies also die Einnahmen. Okay? Also habe ich eine Matrix erstellt und was ich tun werde, ich werde diese Matrix als Eingabedaten an unser Balkendiagramm übergeben. Also übergebe ich hier das M und dann den Hauptgesamtumsatz. Und dann Start für Quartal genannt, ich beende Quartal. Quartal. Quarter ist ein Vektor , der den Wert Q1, Q2, Q3, Q4 enthält . Okay? Also auch diese L-Balken, names.org, und dann wird xlab das Viertel sein, der Name und die weißen Beine. Wildtiere werden die Einnahmen sein. Und dann farbig. Ich werde bestehen. Ein weiterer Vektor. Farben, für die ich zeichnen möchte. Der Boden wird bunt sein. Sobald es gezeichnet ist, erkläre ich Ihnen vier Farben. Ich habe einen Vektor erstellt und er hat einen fortlaufenden Wert, blau, pink, gelb und grün. Und dann das Quartal. Und dann habe ich die Regionen erstellt, Regionen wie Ost, West, Süd, Nord. Okay? Damit habe ich auch okay, und die Matrix, welcher Typ vier Zeilen und vier Spalten erzeugt hat. Und ich arrangiere Developed by Rock und finde heraus, was ich für Legion mache. Ich füge die Legende auch oben links hinzu. Und was ich ihrer Region ziemlich nachsichtig gebe , sind satte Farben. Region sieht diese Region im Süden, Osten, Westen, Süden, Norden. Okay. Und ich fühle mich mit den Farben, jeder Farbe auch. Ja. Okay. Lassen Sie mich das zuerst ausführen. Also sehen Sie hier, das ist die Matrix und sehen Sie, welcher Quartalsumsatz. Also diese Art von Balkendiagramm oder Balkendiagramm bekommen wir hier für das erste Quartal. Das ist das Quartal TO, das ist das Ergebnis oder der Treiber neues Quadrat drei und Quartal vier, dieses Ding hier, dieses Blau, Rosa, Gelb und Grün für diese Farben, ich habe ein Legendentheorem erstellt und sage dass Blau für die Südregion steht, gelblich für jede Region. Und Grün steht für die westliche Region und nicht für die rosafarbene Region. Und der Süden ist blau, ist das gelb so? Okay, wenn wir uns diese Grafik oder das Balkendiagramm ansehen, können wir die digitalen Quartalsergebnisse für jede Region leicht finden . Süden. Das ist der Umsatz für das erste Quartal , genauso für den Norden, das ist der Umsatz für den Osten. Das ist der Umsatz für das zweite Quartal, das dritte Quartal, das vierte Quartal. Es ist also ziemlich einfach, Dinge mithilfe eines Balkendiagramms zu finden und zu visualisieren, oder? Und wie wir dann, dass wir zuerst unseren Farbvektor erstellt haben, dann den Viertelvektor und dann die Regionsvektoren und dann die Reagenzien, die ich in der Legende verwendet habe. Und die Kennzahlen wurden vier mal vier verbessert. Okay. Und hier erstelle ich eine vierteljährliche Umsatzpunkt-PNG-Datei. Und hier übergebe ich das Quartal, dieses Quartal als benanntes und dann Neues, und ich fülle die Farben unter Umgehung des Farbvektors. Auf diese Weise können wir die Ebenen plattieren und unser Balkendiagramm verwenden. Okay? Sie können also auch mit Ihren Daten herumspielen und versuchen, ein schönes, gut aussehendes, farbenfrohes Barplot zu erstellen. Stevens zitierte den nächsten Vortrag. 30. Boxplot in R: Hallo und willkommen zurück. In dieser Vorlesung werden wir also etwas über Boxplot lernen. Boxplot ist eine Methode zur grafischen Darstellung von Gruppen numerischer Daten anhand ihrer stillen Kacheln. Ich sage dir, was sind diese Quartile? Es ist also im Grunde ein grafischer Sohn numerischer Daten. Gruppieren Sie numerische Daten wie in einem Balkendiagramm und das alles auf die gleiche Weise. Boxplot ist auch da. In diesem Fall stellen wir jedoch eine Gruppe von Daten in einer Box dar. Es wird also tropisch sein, aber es wird ein Kästchen sein, solange Sie das Balkendiagramm mögen. Wir haben Balken mit den Daten und gruppieren eine Beta. Hier. Wir haben das Labor, die Box mit den Grubhub-Daten und Boxplots sind ein Maß dafür, wie gut die Daten im Datensatz verteilt sind. Also, es wird wie ein Major Four sein. Die Sache ist, wie werden die Daten in diesem Datensatz verteilt, oder? Also werden wir sehen, wenn wir den Boxplot zeichnen. Lass mich dir noch eine Sache sagen. Boxplots sind ein Maß dafür, wie gut die Daten im Datensatz verteilt Sie unterteilen die Daten in drei Quartile. Also, was sind diese Quartile? Wie Sie auf diesem Bild sehen können , gibt es drei Quartile. Eins ist Quartil eins und Quartil zwei, und das ist Quartil drei. Und das ist der Bereich zwischen den Quartilen. Dieses Diagramm soll den minimalen, maximalen Median, das erste Quartil und das dritte Quartil darstellen . Also dieser Teil C, das sind die Box-SAP-Daten, okay? Und diese Winde sind an diesem Punkt Ausreißer, und dieser Punkt ist ihre Klasse, das ist der minimale Ausreißer. Und das ist das Maximum an Blendung, oder? Und zwischen diesem Feld und der blauen Linie befindet sich hier der Median. Dies ist der Median des gesamten Datensatzes. Das ist also der Median, Medianwert des gesamten Datensatzes. Und das sind der Minimalwert und der Maximalwert der alten Klasse . Und diese blaue Linie ist der Median. Und das sind die maximalen Daten , die nahe am Median liegen. Das sind also eigentlich andere nützliche Daten. Das ist also das Minimum, das ist das Maximum. Und das sind die, dieser Bereich von Jahr zu Jahr, diese Interquartildaten, und diese werden als Q1 bezeichnet. Q1-Quartil, erstes Quartil, und dieses wird als drittes Quartil bezeichnet. Das erste Quartil und das dritte Quartil und das erste Quartil, ich Stipendiat, Perzentil und drittes Quartil oder 75. Quartil. Und in R verwenden wir die Boxplot-Funktion, um unseren Boxplot zu zeichnen oder zu zeichnen. Und auf diese Weise bieten Sie ähnliche Augments wie X-Daten, nicht was mit Namen und Maine. Also sage ich dir, was sind diese Dinge? X ist also ein Vektor oder eine Formel. Also hier ist x ein Vektor von Formeln. Wir werden also sehen, dass wir im Grunde Bu behalten, Dinge, die veröffentlicht werden müssen, die eine relationale Formel sind, auf der das Boxplot gezeichnet wird. Und dann die Daten, natürlich die Daten, aus denen wir diese Beziehung ziehen, edX, schreiben die Formel x. Das ist also die Formel oder Beziehung, für die wir die Daten zeichnen werden , und diese zeichnen den Graphen. Und das sind die Daten, tatsächlichen Daten, aus denen wir diese Formel oder einen Vektor erhalten. Und Notch ist ein logischer Wert. Wenn Sie auf true setzen, um nichts zu zeichnen, wird sofort angezeigt, was nicht angezeigt wird. Lassen Sie mich Ihnen zunächst erklären, was das bedeutet. Augmentierungen. Was es ist. Logische Werte legen S2 so fest, dass die Breite des Felds proportional zur Stichprobengröße gezeichnet wird. Also Wasser mit, wenn es durch dieses Feld gesetzt wird, wird die Größe proportional zum gesamten Datensatz sein, die Größe des gesamten Datensatzes, okay? Wenn es also nicht stimmt, wird es nicht proportional zum gesamten Datensatz sein. Okay? Als nächstes kommt der Name. Namen ist die Gruppe von Labels , die unter jedem Boxplot gedruckt werden. Das ist also ein Boxplot. Und wenn Sie dafür einen Namen angeben möchten, können Sie ihn über das Argument names angeben. Und Maine ist offensichtlich der Name des Graphen. Okay, also den Titel der Grafik können wir mit dem Mittelwert angeben. Jetzt kommt das Was ist nicht. Die Einkerbungen an den Seiten des Boxplots können so interpretiert werden, als ob sich ein Unternehmensabstand um den Medianwert bewegt. Und die Höhe des dummen Medians der Nazis plus oder -1,7 in IQR geteilt durch die Quadratwurzel von n, wobei IQR der Bereich zwischen den Quartilen ist. Wir haben gesehen, was der Bereich zwischen den Quartilen ist. Das ist also der Interquartilbereich zwischen dem 25. und 75. Perzentil. Dies ist der Interquartilbereich. Also im Grunde ist das der, das ist der n-Wert, okay? Wobei IQR der Interquartilbereich ist der durch das 25. und 75. Perzentil definiert ist. Und Yan ist die Anzahl der Datenpunkte im Datensatz. Gesamtzahl der Datenpunkte im Datensatz ist N. Und Sie können hier sehen dies das Boxplot und das ist der Ausreißer, der maximale Output. Das ist der minimale Ausreißer und das ist der Medianwert, oder? Und das ist das 25. Perzentil oder Q1, und das ist das 75. Perzentil, das ist Q3. Und dieser Wert, dieses Ding, das Neunte und das nicht, das nennt man Notch. Dieser Wert von hier bis hier wird Notch genannt. Notch ist das 795-Konfidenzintervall des Medians. Okay? Ausgehend vom Median ist dies der Median und dieser, und dieser Wert wird als Notch bezeichnet. Okay? Wenn Sie also nicht gleich wahr setzen, können Sie diese Kurve an diesem Ding sehen. Wenn Sie die Kerbe ungleich zwei setzen, sehen Sie hier eine gerade Linie. Das nicht, wird nicht da sein. Okay? Also auf diese Weise, siehe hier in dieser Kerbe, ist falsch. Sie werden es also wie in diesem Boxplot sehen, und wenn Sie nicht gleich wahr setzen, erhalten Sie diese Kerbe. Nun, das bedeutet, dass die meisten Daten hier nahe am Median liegen werden und es wird ein sehr sicheres Intervall der Daten sein, wie zum Beispiel der Medianwert ist dies und dieses Plus und Minus von ihnen, wie hier. Die konzentrierten Datenpunkte werden in der Nähe des Medians liegen und es werden die wahren Daten darstellen, oder? Jetzt haben wir also grundlegendes Verständnis dafür, was Boxplot ist, was Quiet Title, was Ausreißer sind? Und was ist das minimale Quartil und was ist das maximale Quartil? Was ist Interquartilbereich? Und was ist Q1? 25. Perzentil und Q3 ist das 75. Quartil, okay? Und das ist der Medianwert. Wir werden also in der nächsten Vorlesung sehen, wie wir ein Boxplot auf der Grundlage der Daten, die wir in unserer Estelle Blake haben, zeichnen können ein Boxplot auf der Grundlage der Daten, die wir in unserer Estelle Blake haben, Wir werden MT-Autos verwenden, einen echten Datensatz , der im Autopaket verfügbar ist , oder den ADA in der Art Dish, um sich selbst zurückzusetzen. Und wir verwenden diesen Datensatz mit leeren Autos, um das Boxplot auf der Grundlage der MPT und der Anzahl der Zylinder zu zeichnen das Boxplot auf der Grundlage . Wir sehen uns also in der nächsten Vorlesung. 31. Boxlot mit mtcars Dataset (n): Hallo und willkommen zurück. In dieser Vorlesung werden wir ein Boxplot zeichnen, okay? Und wir werden einen leeren Fahrzeugdatensatz verwenden , bereits in unserer Distribution verfügbar ist. Wir wissen also, dass wir diesen Datensatz herunterladen müssen. Es ist bereits in unsere Umgebung oder unseren Vertrieb integriert . Wir können das also direkt verwenden und haben versucht , die leeren Fahrzeugdaten in einem Boxplot darzustellen. Okay, schauen wir uns an, wie wir das machen können. Lassen Sie mich Ihnen zunächst zeigen, was sich in dieser Box befindet. Was ist das in den leeren Autos. Lassen Sie mich also zuerst bezahlen, um auf das zugreifen zu können. Ich erstelle eine Dateneingabe und leere Autos, die jedoch bereits im Inneren verfügbar sind. Seltsam und eins gemeint. Und was ich tun werde, ich werde versuchen, das auszuführen und zu sehen, was da ist. Lass mich es ausdrucken. Hier. Das leere Auto, unser Datensatz und Krankheit, die wie ein Laptop schützt, dass Martha den Strich 1017 für Dr. Riley und das Desktop-Forschungsteam exportiert Dr. Riley und das Desktop-Forschungsteam müssen Städte und all diese Karten, Details sind da wie Meilen pro Gallone. Was ist das Myelin? Jedes Auto Meilen pro Gallone. Und dann die Anzahl der Zylinder, die Motoren haben dann die Anzahl der Zylinder, also 2468, die Anzahl der Zylinder im Motor. Und dann Hubraum, HP. Was ist der Hotspot und der Luftwiderstand der Autos? All diese Parameter sind hier in diesen Daten angegeben , bei denen es sich um leere Autos handelt. Was ich also verwenden werde, ich werde nicht den gesamten Datensatz verwenden. Ich werde C, D und E verwenden . Ich erhalte eine Lee Miles pro Gallone und Anzahl der Zylinder. Okay. Also dafür, was ich tun werde. Okay, also lassen Sie uns diese Anzahl von Zylindern von 2 mi pro Gallone verwenden . Okay? Und was ich mache, ich drucke und dann werde ich den Kopf riesig machen. Und dann gebe ich diese Dateneingaben weiter, damit wir sehen können, was kommt. Lassen Sie mich diese beiden Linien laufen lassen und sehen. Jetzt geben wir die Autos und ihren Kilometerstand, Meilen pro Gallone und die Anzahl der Zylinder hinein. Sie sind im Gefängnis. Also diese beiden Details, die ich damit kriege, okay, also werde ich jetzt diese Dateneingabe verwenden, die die Meilen pro Gallone anzeigt und die Zylinder nummeriert. Und ich werde versuchen, unser Boxplot zu zeichnen. Okay, also als Erstes, was ich tun werde, erstelle ich eine PNG-Datei, um das Diagramm in einer Datei zu speichern , und habe eine riesige Datei, die Allen entspricht, einen Namen gegeben , wie leere Autos, Boxplot Punkt PNG. Okay. Also gebe ich den Dateinamen als leere Autos Box Plot Dot PNG an. Und dann, was ich jetzt tun werde, werde ich versuchen, den Boxplot und für Diät und Verlust den Boxplot zu zeichnen . Und hier, was ich tun werde, ich gebe zwei MPG-Meilen pro Gallone mit der Anzahl der Zylinder an. Okay. Also werde ich zeichnen, ich werde ein Boxplot zwischen diesen MPG und der Anzahl der Zylinder erstellen . Okay? Und was ich dann gebe, gebe ich Daten entsprechend dieser Dateneingabe, unsere leeren Autos. Also werde ich die Daten den leeren Autos gleichstellen. Stimmt es? Dann. Was wir behalten müssen Als nächstes brauchen wir das XLab. Was wird getan? Was wollen wir schreiben? Schreibt die Anzahl der Zylinder von X Lab. Und warum wird das Labor weiß sein? Im Labor werden MPG-Meilen pro Gallone berechnet. Okay. Als Nächstes, was wir behalten, werden wir die Hauptdaten meinen kleinen Daten gleichstellen. Daten. Harder wird Karten myelinisiert geben. Okay. Dann speichern wir die Datei. Okay, dev.off. Okay. Also, was wir hier machen, wir erstellen ein Boxplot, mpg und Nummer Epsilon n für das Auto, und wir verwenden den Datensatz leere Autos und die X-Achse werden vom Zylinder nach oben nummeriert und die Y-Achse ist Meilen pro Gallone. Und der Name der Grafik wird Autos sein, Kilometerdaten. Okay? Und lassen Sie mich das ausführen. Okay. Okay. Das ist also unsere Handlung, das Boxplot, das wir gezeichnet haben. Es wird hierher kommen. Jetzt ist die Überschrift der Name des Diagramms mit den Kilometerdaten des Autos. Und das ist die Zahl der schlanken 468, und das sind Meilen pro Gallone. Und das Datenboxdiagramm. Okay? Auf diese Weise können wir jedoch zeichnen, wir können Boxplots erstellen. Wenn du es noch einmal verstehen willst, sage ich es dir. Was wir getan haben, ist einfach. Wir haben, wir verwenden leere Fahrzeugdaten, die bereits in unserer Distribution verfügbar sind, sodass wir sie nicht erstellen oder herunterladen müssen. Es ist bereits in die Umgebung integriert. Wir verwenden das, sie nehmen ein oder zwei leere Autos, was bedeutet, dass wir diesen Datensatz mit leeren Autos verwenden werden , der all diese Informationen über die Autos enthält, verschiedene Autos. Und dann, was ich mache, verwende ich ein Boxplot und ich zeichne das Boxplot zwischen dieser Zylinderzahl und Kilometerstand pro Gallone für jedes Auto. Okay? Und ich verwende Daten und Pre-Comps. Und für x, x ist, verwende ich dort die Zahl Epsilon und die Y-Achse mpg, okay? Und dann der Name des Diagramms, das ich meinen Live-Daten gebe und dann schreibe ich diese Datei, weil ich bei meinen Audits einige Probleme habe. Ich kann die Grundstücke hier nicht sehen. Und das ist der Grund, warum ich das getan habe. Ich habe es in die Datei empty car, boxplot dot PNG geschrieben. Und wir können die Datei hier sehen. Das ist also der Boxplot und das ist der Median. Das ist der Median, oder? Und das ist die Mindestverkaufsmenge. Und das ist das Maximum oder Minimum. Und es ist Adam. Kein Durchschnittswert für die Anzahl der Verkäufer. Also Vierzylindermotor. Meine Objektive hier und die durchschnittliche Laufleistung beträgt etwa 26, 27 Meilen pro Gallone oder die Anzahl der Zylinder sechs. Es kommt um 20, 20 Meilen pro Gallone und Anzahl der Zylinder, wenn es acht ist, das Myelin um 15 Gallonen pro 15 Meilen pro Gallone, oder? Auf diese Weise können wir aus den leeren Autos ein Boxplot zeichnen. Wir sehen uns in der nächsten Vorlesung. 32. Boxplot mit Notch: Hallo und willkommen zurück. In der vorherigen Vorlesung haben wir also gesehen, wie wir unser Boxplot mithilfe eines leeren Fahrzeugdatensatzes zeichnen können . Und basierend auf dieser Zylinderzahl und dem Kilometerstand pro Gallone. Basierend auf diesen beiden Parametern gibt es also keine zwei Merkmale dieses Datensatzes. Wir haben den Boxplot gezeichnet und gesehen, wie der Boxplot aussieht. Also Autos, Kilometerdaten hier, mpg und Nummerierung des Zylinders 46 8 mi pro Gallone. Ja, 15. 2025. Und diese schwarze Linie ist der Median jeder Gruppe. Okay? Also Vierzylinder-Autos, Sechszylinder-Autos und ein Zylinder-Auto. Jetzt können wir tatsächlich dasselbe Boxplot ohne zeichnen. Wir haben also gesehen, was nicht ist. Jetzt. Wir werden sehen, wie nicht. Wenn wir Notch als wahr bezeichnen, wie wird sich dieses Boxplot ändern und NADH wird zum Zeichnen verwendet, als würde es Ihnen sagen, wie die Mediane jeder Gruppe miteinander in Beziehung stehen, oder? Wie die Mediane verschiedener Gruppen miteinander übereinstimmen. Okay, also lass uns das machen. Und wir werden auch sehen, wir werden auch versuchen , ein paar Farben in dieses Diagramm-Boxplot einzufügen, damit es gut aussieht, okay? Und wir werden auch versuchen, diese X-Achse zu benennen. Okay, also lass uns das machen. Also zuerst, was ich tun werde, ich werde diesen Namen in Boxplot-Breite ändern. Nicht. Okay. Und was ich dann tun werde, sage ich einfach nicht gleich, tut mir leid, nicht gleich wahr. Und jetzt lass mich das ausführen. Lass mich jetzt hierher gehen. Siehst du, das haben wir, also sah unsere Grafik so aus. Wenn ich nun nicht gleich wahr setze, hat sich unsere Grafik so geändert. Und sieh, weißt du, das ist der Median jedes Graphen, oder? Jeder Datensatz für jede der Gruppen, wie Vierzylinder, Sechszylinder. Und wie diese Mediane Beziehung stehen, unterscheidet sich voneinander, wie sie zueinander passen. Aber sieh dir den Median an. Wie würden diese Dinge kommen, die Nazis für jede dieser Gruppen kommen würden. Lassen Sie mich jetzt etwas Farbe in die Schulden bringen. Also, was ich tun werde, ich werde riesig. Und dann setze ich den Rektor ein und höre, welchen Algorithmus du gibst. Rot, Grün, Gelb Jetzt gebe ich drei Farben. Rot, Grün, Gelb, Gelb Und lassen Sie mich das ausführen. Lassen Sie mich einen Namen nennen: Maria Callas Hockey. Das wird also die verschiedenen, unterschiedlichen Grafiken, Bilder haben . Können wir jetzt verschiedene Farben für verschiedene Gruppen oder Boxen haben . Und früher war es so, ohne Farbe und ohne Kerbbreite, Kerbe, Kerbbreitenfarben. Okay. Lassen Sie mich nun einige Namen nennen. Okay. Also hier, die Kilometerstände. Hohe Rate für Vierzylinderfahrzeuge, hohe Laufleistung für Sechszylinder, Medium, und für Zylinder gibt dieses Gesetz die Namen hoch, mittel und niedrig. Wenn wir uns also Boxplot ansehen, haben wir verstanden, dass wir verstehen werden, dass dies ein Auto mit hohem Durchschnittswert ist und ein mittelgroßes und um Benzin mit geringem Kilometerverbrauch handelt. Okay? Das ist also cool. Hotelnamen geben hoch, mittel, niedrig an. Okay. Lass mich das ausführen. sehen uns also und jetzt haben wir statt 46,8 Hoch, Mittel und Niedrig. Auf diese Weise können wir das, oder? Und wenn du es genauer wissen willst, kannst du Porzellan so hoch legen, so etwas in der Art, damit es klarer wird. Hervorragend, mittel, niedrig, so. Okay. Okay. Also kannst du es auch so ausdrücken. Ich hoffe, du hast verstanden, wie du Boxplots platzieren kannst. Also versuchst du auch, dich in der nächsten Vorlesung zu sehen. 33. Histogramm und Verteilung von Histogramm: Hallo und willkommen zurück. In dieser Vorlesung werden wir etwas über Histogramme lernen. Also werden wir sehen, was unser Histogramm ist. Und wir werden uns auch ansehen, welche Arten von Histogrammen es gibt und wie wir in unserer taktischen Saison darauf zurückgreifen können , wie wir Histogramme auf der Grundlage unserer Daten platzieren können . Okay, hier sehen wir uns den theoretischen Teil an und lernen, was Histogramm ist. Also lass es mich dir sagen. Ein Histogramm ist keine angemessene Darstellung der Verteilung numerischer Daten. Es ist also im Grunde ein Diagramm wie ein Balkendiagramm oder ein Balkendiagramm, das wir gesehen haben. Es schien einfach so, als ob die Art der Verteilung diese Verteilung numerischer Daten repräsentiert . Wenn Sie also numerische Daten haben, können Sie im Grunde ein Diagramm oder eine Grafik zeichnen, oder Brad und Histogramm eine sehr geeignete Darstellung der Verteilung numerischer Daten. Also wird es im Grunde genommen was benutzt? Numerische Daten, und dass numerische Daten in den meisten Fällen kontinuierlich sein sollten , wurden erstmals von Karl Pearson eingeführt. Also hat Karl Pearson das Histogramm eingeführt. Eine andere Art, Histogramm zu sagen, wie eine andere Definition von Histogramm, ist eine grafische Darstellung von Brita der Teile unterschiedlicher Höhe verwendet werden. In einem Balkendiagramm haben wir gesehen, wie der Bus auf die gleiche Weise gestorben ist. Histogramm ist auch eine grafische Darstellung von Daten mithilfe von Balken unter verschiedenen Höhen. Es ähnelt einem Balkendiagramm oder einem Histogramm, das Zahlen in Bereiche gruppiert. Wenn Sie also ein Balkendiagramm sehen , sind die Daten nicht in den Bereich von zehn bis 2020 bis 30 gruppiert . Es wird nicht arrangieren. Die Daten werden nicht gruppiert, aber im Histogramm werden die Daten in die Bereiche gruppiert. Und dann wird das Balkendiagramm, das Balkendiagramm mit Zahlen, in die Bereiche eingefügt. Zahlen in die Bereiche gruppieren , erhalten Sie ein Histogramm. Ich hoffe also, dass das Bild klar wird. Wir werden die Bilder auch sehen. Wir werden die tatsächliche Darstellung sehen wie sich das Balkendiagramm vom Histogramm unterscheidet. Hier ist es also gut, das Balkendiagramm und die Gruppierung numerischer Daten in Bereiche zu beachten , als ob Sie Daten von 10 bis 100 haben. Es wird also die Balken erstellen. Und damit wird es auch die Daten 10-2020 bis 30 in den Gruppen anordnen . Und es wird Wege schaffen. Es wird also ein Histogramm sein, die Höhe jedes verkauften Balkens, wie viele in diesen Bereich fallen. Es wird Ihnen also im Grunde eine Vorstellung davon geben, dass 10-20, wie viele Zahlen es gibt? Wie viele Unterstützer? Wenn Sie sich das Gehalt der Leute ansehen. Es wird dir also sagen, etwa zehn bis 20, wie viele Leute sind da? Wie viele Leute gibt es so? Okay. Die Erstellung eines historischen Sonnenlichts und die Erstellung eines Histogramms bieten eine visuelle Darstellung der Datenverteilung. Histogramm kann große Datenmengen und die Häufigkeit von Datenwerten anzeigen . Wie bei dem, was es tut, gruppiert es die Daten in die Bereiche. Es wird dir also eine Frequenz von zehn bis 20 geben. Wie viele? Es gibt Ihnen also auch die Frequenz unterstützt einen bestimmten Datenwert. Es zeigt Ihnen, wie oft es auftritt Die Häufigkeit der Datenwerte, der Median und die Verteilung der Daten können durch Ihr Histogramm bestimmt werden. So können der Median und die Verteilung der Daten auch per Histogramm bestimmt werden. Darüber hinaus kann es alle Ausreißer oder Lücken in den Datenstützen lösen . Wir haben die Daten 10-140 bis 50. Wir haben keine Werte. Es wird dir also sagen, dass 40 bis 50, es wird dir die Bar nicht zeigen. Also mit der grafischen Darstellung kannst du es finden, okay, 40 bis 50, wir haben keine Mitarbeiter. Es zeigt Ihnen also die Lücke in den Daten und es zeigt Ihnen auch den Ausreißer. Nehmen wir an, Sie haben etwa zehn bis 100 und dann haben Sie einen weiteren Balken aus dem Jahr 17180. Alle Datenblöcke werden also gegen 100 tendieren und ein weiteres Diagramm ist weit weg. Es zeigt Bereiche von 171 bis 81 bis 7180 und einen Ausreißer, den wir anhand des Histogramms leicht identifizieren können. Histogramm, oder eine gute Möglichkeit, dies zu lösen, bringt also kontinuierliche, kontinuierliche Daten, die ich Ihnen zuvor gesagt habe, wie Größe und Gewicht, wenn Sie möchten. Das Histogramm ist also am besten für diese Art von Radar geeignet. Also hier habe ich. Ich zeige Ihnen also nur wie Sie das Balkendiagramm und die Histogramme unterscheiden können. Wir sehen uns also im Histogramm, es gibt keine Lücke. Es ist ein sehr kontinuierlicher Wert, wie 468 bis 24. Die Bar kommt gleich rein. Hier sehen Sie den Unterschied zwischen Histogrammen und Balkendiagrammen. Also hier kannst du das Histogramm sehen, es ist so sehr kontinuierlich. Ignorieren Sie die Lücken zwischen den Balken hier, das Balkendiagramm, das Sie sehen können , zeigt Ihnen die Unterschiede wie Januar, Februar, März, und es gibt eine Lücke zwischen den Balken. Das ist also der Hauptunterschied zu einem Histogramm. den Balken wird es keine Lücke zwischen den Balken geben und das Balkendiagramm wird einige Lücken zwischen den Balken haben. Okay? Das ist also ein bildlicher Unterschied, den Sie zwischen den Histogrammen und Balkendiagrammen finden können. Jetzt kommt das Verteilungshistogramm oder wie viele Arten von Histogrammen gibt es? Normalverteilung, das sieht man so. In einer Normalverteilung sind also Punkte auf der einen Seite des Durchschnitts wahrscheinlich genauso wie auf der anderen Seite der Beweise, sodass Sie sehen , dass Ihre Daten auf dieser Seite, linken Seite und auf der rechten Seite fast gleich sind, oder? Das ist also die Normalverteilung. Und wenn wir zur bimodalen Verteilung übergehen, werden Sie in eine bimodale Verteilung geraten. Es gibt zwei Gipfel, C-O, es gibt einen Peak und es gibt einen weiteren Peak. Die Daten enthalten zwei Peaks. Das wird also in bimodalen Verteilungsdaten bimodal sein. Also haben wir getrennt und als separate Normalverteilung analysiert. Das ist also eine Normalverteilung und dies wird eine weitere Normalverteilung sein. Und wenn zwei Normalverteilungen zusammenkommen, entsteht eine bimodale Verteilung. Dies ist die Normalverteilung und dies ist die bimodale Verteilung. Die dritte Art der Verteilung oder Histogramms ist eine rechtsschiefe Verteilung. Was eine rechtsschiefe Verteilung oder ein Histogramm oder eine rechtsschiefe Verteilung ist, wird auch als positiv schiefe Verteilung bezeichnet. Warum heißt es positiv schiefe Verteilung weil ich sehe, dass die schiefen Werte auf der rechten Seite kommen, Null bis unendlich, oder? Das sind also die positiven Werte. Wenn es sich also auf der rechten Seite befindet, sind die Werte für Push Two schief. Das wird es, nennen wir eine rechtsschiefe Verteilung. Bei einer rechtsschiefen Verteilung eine große Anzahl von Datenwerten auf der linken Seite eine geringere Anzahl von Datenwerten auf der rechten Seite. Sehen Sie hier, auf der linken Seite gibt es mehr Datenwerte und auf der rechten Seite nimmt die Zahl ab, okay? Ordnung, es ist eine gleichmäßige Verteilung , wenn Daten eine Bereichsgrenze auf der linken Seite des Histogramms haben, z. B. Grenze von G und die nächste ist eine linksschiefe Verteilung. Hier. Eine linksschiefe Verteilung wird auch als negativ bezeichnet. Warum negativ? Denn auf der negativen Seite wird es verzerrt. In einer linksschiefen Verteilung sind groß. Die Anzahl der Datenwerte befindet sich auf der rechten Seite. Die Zahl steigt also von links nach rechts. Wenn wir uns also nach rechts bewegen, steigt die Zahl, oder? Und eine geringere Anzahl von Datenwerten unter linken Seite oder linken Seite ist ein geringerer Wert als die rechte Seite. Mehr Werte sind eine linksschiefe Verteilung. Und eine rechtsschiefe Verteilung tritt normalerweise auf, wenn die Daten eine Bereichsgrenze haben. Auf der rechten Seite dieses Diagramms, z. B. Grenze, z. B. Hunderte. Okay? Das sind also die vier Arten von Histogrammen. Eine ist eine linksschiefe Verteilung, dann haben wir eine rechtsschiefe Verteilung gesehen, dann die bimodale Verteilung und dann ist die erste Normalverteilung. Histogramm. Nun, sind Sie nur eine Hist-Funktion auf die JIST Hist Funktion , um ein Histogramm zu erstellen. Und es werden nur wenige Parameter oder Argumente benötigt , um ein Histogramm zu zeichnen. Okay, also eax ist, was ist X? X ist ein Vektor von Werten , für den das Histogramm ein Diagramm ist. Dieses x ist also ein Vektor, für den wir das Histogramm, das Main, Xlab und Ylab zeichnen wollen den wir das Histogramm, das Main, Xlab und Ylab zeichnen . Haupt. Haupt. Main ist der Titel für das Histogramm und xlab ist die Achsenbeschriftung, okay. Wie Frequenz oder etwas anderes, wenn Sie portieren möchten. Und dann sind x, lima und wildly die Bereiche der X- und Y-Werte. Okay? Und dann Brexit-Einmalvektor , der die Bruchpunkte zwischen den Histogrammzellen angibt, sind Funktionen von Computervektor-Breakpoints in einer einzigen Zahl, die den Umsatz eines Histogramms angeben. Okay, wir werden im Detail sehen , was es kaputt macht. Dann haben wir die farbige Kohle und dann haben wir die Grenze, die Sie kennen. In der nächsten Vorlesung sehen wir uns also das Beispiel an, wie wir die Hist-Funktion verwenden können , um unser Histogramm zu zeichnen. Also werden wir in der nächsten Vorlesung ein Histogramm mit der Hash-Funktion zeichnen . 34. Histogramm mit der hist-Funktion zeichnen: Hallo und willkommen zurück. In dieser Vorlesung werden wir also unser erstes Programm für Histogramme schreiben. Was wir also tun werden, wir werden einen Vektor erstellen , der unsere Daten enthält. Und dann werden wir mit diesem Vektor ein Histogramm erstellen. Wir werden grafisch darstellen, dass die Daten ein Histogramm haben. Also lasst uns damit anfangen. Also, was ich getan habe, ich habe bereits eine Punkt-R-Datei erstellt , die das Histogramm Punkt R ist . Und ich habe den Code geschrieben. Also zeige ich dir, was der Kurs ist. Ich habe den Code also schon geschrieben, damit wir beim Schreiben Zeit sparen können, okay, so weiter. Was ich mache, ich erstelle Vektordaten für das Diagramm. Also erstelle ich die Daten hier. Also erstelle ich, ich erstelle einen Vektor und weise diesen Vektor x zu. Also x ist ein Vektor, der Daten, Lake für Ausdrucke und 17.000, 3.006 plus externe Unterstützung enthält Lake für Ausdrucke und 17.000, . Die Gehaltszahl impliziert, dass ich in diesem Vektor x speichere. Dieser Vektor X ist also unsere Daten und der beinhaltet die Unterstützung, das Gehalt der Mitarbeiter. Okay? Das ist also das Gehalt der impliziten Propan Tao Qian, so. Okay, dann in einigen Bereichen wie Preppy bis 2050 bis 60, 20 bis 30, 40 P2P so. Okay, was nun als Nächstes, das wird das sehr einfache Histogramm-Beispiel sein . Okay, jetzt haben wir die Daten. Ich möchte ein Histogramm zeichnen. Also was ich tun werde, ich erstelle eine Foster-Histogramm-Bilddatei. Also verwende ich die PNG-Funktion und wir geben die Datei, die dem Histogramm-Punkt-PNG entspricht. Und was ich dann tun werde, verwende ich die Hist-Funktion, die ich Ihnen in der vorherigen Vorlesung erklärt habe. Also hier erstelle ich das Histogramm, okay? Also verwende ich die Funktion hist und übergebe dieses x. Was ist x? X sind die Daten, für die wir das Histogramm zeichnen werden. Okay, diese Werte passen hier zu X. Also ist X ein Datenvektor, Vektordaten. Dann entspricht das, was ich Xlab gebe, dem Gehalt und dann die Farbe gebe ich als Grün und den Rand gebe ich gelb. Ich gebe also noch nicht zu viele Parameter an. Ich übergebe nicht zu viele Parameter. Ja. Nur xlab, dass ich das Gehalt gebe, dann die Farbe hoch, ich gebe Grün und die Grenze, ich gebe die Slowakei. Und dann speichere ich diese Grafikdatei unserem System, das mit dem Tiefenpunkt nicht versehen ist. Okay, also bevor wir umziehen, lassen Sie mich unser Arbeitsverzeichnis festlegen. Um das zu tun, was ich tun werde, und doch, was ich tun werde, werde ich mir das sparen. Gehe in dieses Verzeichnis. Und als Nächstes, was ich tun werde, gehe ich zu mehr. Und doch, was ich tun werde, ich lege das Arbeitsverzeichnis fest. Okay, jetzt speichere ich diese Datei. Ich hoffe also, dass die Schritte ziemlich einfach sind. Ich erstelle einen Vektor X mit den Daten. Dann verwende ich die PNG-Funktion, um eine Bilddatei für unser gesamtes Diagramm zu erstellen , damit wir es sehen und verwenden können. Und dann speichere ich das in unserer lokalen Datei von Deborah Off. Okay. Und ich verwende die Hist-Funktion, um ein Histogramm mit den Daten zu erstellen und X-Vektor hier und dann das X-Labor zu übergeben, ich gebe den Namen Gehalt und Farbe grün und eingetauscht wird gelb. Also jetzt habe ich gespeichert, jetzt habe ich also diese ganze Quelldatei gemacht . Klicken Sie auf Quelle und das ist erledigt. Als Nächstes muss ich zum D Drive gehen, zu unserem 20 gehen und hier unsere Firewall mit dem Histon sehen. Lassen Sie mich den Dateinamen überprüfen. Das letzte Bild, dieser obere Grafikpunkt im PNG-Format. Und wenn er es auch ist, denke ich, das ist das Dateinamen-Histogramm-Diagramm PNG. Okay, auf diese Weise lösche ich alle anderen , die ich zuvor erstellt habe. Jetzt haben wir also das Histogramm von x. Und hier, was wir erstellen, gebe ich das, lass mich das entfernen, löschen. Lassen Sie mich das Programm erneut ausführen. Lass mich das auf Rot ändern. Und die Grenze wird gelbes Hockey sein. Lassen Sie mich das noch einmal ausführen. Lassen Sie mich sehen, ob die Datei generell Ihr Histogramm sehen soll. Das ist Gehalt und hier Frequenz. Und dann sind hier die Bereiche wie zehn bis 2020 bis 30.030 bis 40.040, 2050 bis 60.000. Jetzt können Sie also sehen, wie dunkel das Histogramm ist. Also zehn bis 20.000, wie viele Implikationen versuchen es mit einem Gehalt von 10-2123. Lassen Sie uns das anhand der Daten überprüfen. Okay. Gehen wir also hierher, gehen wir hierher. 22 tendieren zu 2010 bis 23, also zehn zu 2012. Und dann haben wir noch einen, du hast einen Vorsprung zwei. White macht es. Okay. Und dann haben wir 20 oder 2.000.017.000.15 Tausend $. Das sind also die drei Implikationen, die leider 10-20 ziehen. Es zeigt also eine Tendenz von 2310 bis 23 Mitarbeitern. Auf diese Weise werden die Daten in Bereiche aufgeteilt und sie zu unseren Gruppen oder zehn bis 23 Mitarbeitern . 20 bis 32 bedeuten auch weniger 25 Daten. 20 bis 31. Sie fingen an, 20 bis 30 zu sehen. Wir haben zwei Mitarbeiter. Okay. 25.020, 2000. Das ist auch wahr. Vollkommen. Dann 30 bis 42. Nochmals 30 bis 42, 34, t1 und t2 eins. Okay. 30 bis 40 , danach sind 40 bis 50, nur ein Mitarbeiter da. Schauen wir uns also T2, T4, T5 an. Und sieh, das ist mehr als vollkommen okay. Also 40 bis 50 impliziert nur eines, während das nächste das letzte ist, T2s t Wir haben vier Implikationen. Sehen wir uns das mehr als 5012 an, dann drei und dann vier. Wir haben also vier, oder? Siehst du, wenn du der Stadt vertrauen musst, haben wir vier Implikationen. Auf diese Weise werden die Daten gruppiert und die Frequenz angegeben. Wenn Sie sich das ansehen, können Sie leicht erkennen, dass das Kryptosystem mehr als 50.000 Gehalt für Mitarbeiter hat oder zehn bis 23 Mitarbeiter zieht, 20 bis 32 implizieren und 40 bis 50, was den Preis angeht, nur einer, der ein Gehalt für P2P bekommt. Auf diese Weise wird also ein Histogramm gezeichnet und die Daten werden anhand der Häufigkeit gruppiert. Okay? Es definiert einen Bereich oder Beta und teilt Ihnen dann die Häufigkeit des Auftretens der Daten in diesem Bereich mit. Also zehn bis 23 auftreten, 20 bis 32 Arbeiter, 30 bis 42 Arbeiter, 40 bis 52 Vorkommen und dann Petrischale t als Agonist setzen. Es wird also, was es tun wird, es wird die Daten in einige Bereiche gruppieren und dann wird es Ihnen mitteilen, wie Daten in diesem Trend vorkommen . Also zehn bis 20, es gibt drei Daten, 310 bis 20 und es ist dreimal Jacqueline. Okay? Also so, so können wir sagen, dass drei Mitarbeiter trocknen, leider 10-20. Das ist also die Bedeutung des Histogramms. Okay. Als Nächstes habe ich das getan. Ich habe unsere verschiedenen Daten hier genommen. Ich bin was ich benutze, 114-567-8910. Okay. Also dann das Gleiche, ich gebe ein anderes, mit einer Datei verschönertes Programmdiagramm, ein Punkt-PNG. Und hier, was ich benutze, x sin x, ich verbringe das Jahr. Nur die Datenpunkte unterscheiden sich. Die Datenwerte sind hier unterschiedlich. Okay. Und später ziemlich einfach, 114-567-8910. Okay. Und dann speichere ich es auf okay. Lassen Sie uns das ausführen und sehen, was wir bekommen. Lassen Sie mich hier das erste Histogramm finden. Jetzt. Es definiert die Daten. Ich mag Null bis Zwei. Wie es den Bereich definiert, ist Null bis 22 bis 44 bis 64.628,8 bis zehn. Also g rho 22, wie viele Vorkommnisse? Zwei Vorkommnisse, dass also G Reihe zwei bis 11 ist, diese beiden sind weniger als zwei, oder? Also Null vor zwei zur Korrektur. Als Nächstes gilt: Zwei für eins. Also zwei vor vier. Nur vier Gibt es einen. Dann vier bis sechs bis vier bis 65,6 um zu schreiben, dann wieder sechs bis 8782, und dann 9108 bis zehn bis 9,10. Auf diese Weise werden die Daten in zwei Bereiche unterteilt, Null bis zwei oder zwei bis 44 bis 66 bis 8,8 bis zehn. Und dann gibt es uns die Häufigkeit des Auftretens von Daten 0-22 zweimal zwei bis vier, einmal vier bis sechs. Wiederkehrender Preis, okay? Zum Vorkommen der Werte 4-6, richtig? Ja, 5.6. Auf diese Weise können Sie die Farbe auch von hier aus ändern. Du kannst es schwarz machen. Und wisse, dass die Grafik schwarz sein wird. Auf diese Weise können wir die Farbe im Histogramm ändern. Wir sehen uns in der nächsten Vorlesung. Wir werden einige andere Beispiele für Histogramme sehen. 35. Breaks xlim ylim in Histogramm verwenden: Hallo und willkommen zurück. In der vorherigen Vorlesung haben wir also gesehen, wie man ein Histogramm zeichnet. Wir haben zwei Beispiele gesehen, zwei verschiedene Daten. Also haben wir einen Vektor genommen. Und dann haben wir im zweiten Beispiel die sehr einfachen Daten genommen. Und jetzt, was wir tun werden, werden wir lernen, wie man Break benutzt, wie man Limit-, Y-, Limit- und Break-Bonds verwendet , diese drei Parameter der Hist-Funktion um ein Histogramm mit Pause und X-Grenze zu zeichnen. Okay, also habe ich den Code geschrieben. Also verwende ich als Erstes den gleichen Vektor, bei dem wir die subtile Anzeige Ihrer Blinds haben , die vom Ursprung des Druckvorabdrucks bis 60.000 lesen. Also erstelle ich einen X-Vektor , den wir in der vorherigen Vorlesung gemacht haben. Und dann erstelle ich eine Zieldatei, in der ich dieses Histogramm speichere. Ich verwende die P- und G-Funktionen und gebe endlich Mises zu Brex dot PNG To with Brex dot PNG. Das ist der endgültige Name , der im Namen der Datei erstellt wird, auf der unser Plot sein wird, unser Histogramm wird gezeichnet, okay, und dann erstelle ich hier mit der Hist-Funktion das Histogramm. Also übergebe ich den X-Vektor hier bei den Daten. Und dann gebe ich Xlab den Namen, fügt Gewicht und Farbe hinzu. Ich gebe Blau, gib die Grenze. Ich gebe das Grün. Und dann gebe ich das x-Limit. Hier verwende ich ein Argument , das ausgezeichnet ist. Die x-Grenzen. Für die X-Achse gebe ich den Grenzwert Null auf 40.000. Und siehe, unsere Daten enthalten die Werte 15-60-Toleranz sind abgedeckt. Die Daten gehen über t hinaus, aber hier mache ich eine Schleife beschränke die X-Achsenwerte auf Null bis 40.000. Okay? Und warum die Extremität GTO vor zehn ist. Okay, so gut, warum die Y-Achse die Häufigkeit des Auftretens der Daten ist, also Null bis Zehn oder Null bis 20, was auch immer wir erstellen. Unsere Eröffnung beinhaltet ein Ziehgehalt 0-2020 bis 30 oder 30 bis 40, so. Okay. Damit ich den Zeh hochhebe. Also und dann verwende ich hier einen anderen Parameter, Pausen sind gleich zwei. Also lass mich zuerst eins daraus machen. Okay? Also, was ich mache, ich gebe dem Brexit gleich eins. Wir werden sehen, welche Auswirkungen dieser Brexit gleich eins auf unser Histogramm hat. Und dann speichere ich die Datei. Das Histogramm, das generiert wird, speichert dabei seinen Zeh mit einer Brex-Punkt-PNG-Datei, um das auf unserer lokalen Datei zu speichern , wobei sie DB Punkt aus verwenden. Damit wird es auf unserer Maschine gespeichert. Also, das ist der Code, einfacher einzeiliger Code, dem wir einige Parameter mit Bricks übergeben. Schlank. Xlim, xlim begrenzt die Datenwerte auf der X-Achse, die Y-Grenzen für die Y-Achse und Break wird verstehen, wenn ich diesen Code ausführe. Sie werden es also besser verstehen, wenn Sie die Ausgabe sehen. Und mit dieser Visualisierung werden wir verstehen, was der Brexit tatsächlich bewirkt. Okay? Lassen Sie mich also diese Quelle ausführen, Quelle gedrückt halten, auf die Quelle klicken und das wird so lassen Sie mich die Ausgabedateien öffnen. Also hier sind zwei mit Brexit-Datei erstellt worden. Lass es öffnen. Jetzt die Akte, unsere historischen Zahlen. Sie werden also hier sehen, da ich Pausen von eins gegeben habe, sehen wir nur einen großen Balken, oder? Null bis 40, und es zeigt, dass 0248 Arbeitgeber versuchen, Gehälter zwischen 40 und 40 zu verdienen. Lassen Sie mich das überprüfen. Sehen Sie hier, wir haben insgesamt 10.12 3456, 1234, 5670, 2408. Aber wir haben eine Liste, 702, 40, ich schätze 123.456,7. Alle anderen sind mehr als 40, oder? 1234. Okay, jetzt können wir diese Grafik sehen. Lass mich die Steine durch zwei ersetzen. Jetzt werden Sie sehen, dass es zwei Partitionen geben wird. Okay? Also lassen Sie mich, wenn die Datei nochmal, hier sehen, jetzt haben wir Null bis 40. 40-Gehalt wurde in zwei Teile aufgeteilt, wobei der Status Null bis 20,22, 40 und dann 42 getrennt angezeigt wird, oder? Jetzt wurde der gesamte Datensatz in drei Teile aufgeteilt, aber seitdem von Null bis 40. Seitdem haben wir angefangen, wenn Null bis 40. Also Null bis 40 Daten, Null bis 40 Daten wurden in zwei Teile aufgeteilt. Cheeto auf 20,0 bis 60, c, Null auf 20,0 bis 22 400.220,02, 400.223,22, 44 Daten und 40 bis 65. Okay. Lassen Sie mich Ihnen den Unterschied zeigen. Wenn ich hier t Null auf t setze, was passiert dann? Die Daten von 0 bis 60 werden in zwei Teile aufgeteilt. Lass mich Also öffnest du die Datei erneut. Jetzt wurde G von Null bis 60 in drei Teile unterteilt , weil wir keine Daten haben, die über die Sicherheit hinausgehen. Es zeigt nicht die andere , sondern null bis 60% Internetverschuldung. Wir haben Daten. Daher wurden die Toxizitätsdaten von Quito in drei Teile unterteilt. Also in dieser Phase, was kaputt geht, so x lim Null auf 60. Was passiert, wenn ich 50 schaffe? Die Daten von 0 bis 50 werden in zwei Teile aufgeteilt. Okay, lass mich das ausführen. Sie haben also gesehen, dass Sie das können Lassen Sie mich auf Quelle klicken und lassen mich zu der Datei gehen und sie erneut öffnen. Nun wurden die wenigen Vordaten von J22 in drei Teile unterteilt. Okay. Ich hab's. Null bis 2020 bis 40, dann kommen 40 bis 60 zusammen, oder? Es werden also bis zu 50 angezeigt. Okay. Was passiert, wenn ich drei schaffe? Lass uns sehen. Lass mich es noch einmal öffnen. Wir sehen uns auf 2020 bis 40,40 bis 60. Lass mich weiter experimentieren. Was passiert, wenn ich vier draus mache? Siehst du, jetzt werden zehn bis 2020 bis 30, 30 bis 40, 40 bis 50 angezeigt , und dann werden 50 bis 60 getrennt angezeigt. 12340250-Daten wurden also in vier Teile aufgeteilt, oder? Das haben wir für R2P verlangt, also teilen wir es in vier auf. Wenn ich auf Null gehe, um 32 anzunehmen, werden 30.000 Daten in vier Teile aufgeteilt. Lassen Sie mich die Datei erneut öffnen. Zehn bis 20.20 bis 30, weil wir nicht so viele Daten haben, oder? Also wurden zehn bis 2020 bis 30 und dann 30 und darüber hinaus aufgeteilt. Weil wir, wenn ich es auch schaffe, schauen wir mal. 30 Daten wurden in zwei Teile aufgeteilt. Die erste ist 0220 und dann 20 bis 40 und darüber hinaus, oder? Also lass mich mein Portrait wie G Naught to T und lass es machen und sehen. Die Ausgabe. Die Sicherheit von Gate A2 wurde in 1234 Teile unterteilt. Lassen Sie mich die Datei erneut öffnen, um die Objektdatei C und G zu sehen , Null bis 6110 bis 2020 bis 30, 30 bis 40, 40 bis 50 bis 60. Okay, das machen wir also mit den Pausen. Okay? Also das ist es, was x Lim und wild, wild maulen. So können Sie unser CEO, während Sie sich das Bild machen , indem Sie die Frequenz der Y-Achse auf Null bis Zehn einschränken. Nehmen wir an, wenn ich das ändere, wenn ich das ändere, um Ihre einzigen sechs zu unterstützen , was passiert dann? Lassen Sie mich das ausführen und die aktuelle Datei öffnen. Sehen Sie hier, jetzt sehen wir die Frequenz Null bis Sechs. Okay? Auf diese Weise können wir die X-Achse und Y-Achse einschränken , wo das Xylem weit verbreitet ist. Wenn ich es schaffe Für was wird passieren. Es ist gut, mit dem Code zu experimentieren, um die Ausgabe zu sehen. Und wenn Sie die Ausgabe sehen, wissen Sie, wie der Parameter C tatsächlich verwendet wird . Sie erhalten eine Zwei für, eine kleine dafür ist okay. Wenn ich es unterstütze, mache ich es von Null bis Zwei. Was wird passieren? Jetzt ändere ich die Y-Achse, die Frequenz. Ich sehe, du wirst sehen, weißt du, es läuft wie dieser. Das Auftreten der Allelfrequenz von insgesamt bis zu ihm verläuft nach rechts. Auf diese Weise können wir mit dem Code in jeder Programmiersprache herumspielen , Bit R oder Python oder so. Wenn du lernen willst, musst du anfangen, mit dem Code zu spielen und mit den Parametern zu spielen. Und wenn Sie den Parameter ändern, sehen Sie die genaue Auswirkung dieses Parameters. Und in diesem Sinne werden Sie besser lernen und die Implikationen, die genauen Auswirkungen dieses bestimmten Arguments, eines bestimmten Parameters in einer bestimmten Funktion erhalten genauen Auswirkungen dieses bestimmten Arguments, eines bestimmten . Wie in seiner Funktion wissen wir, was x ist, was ist x Lab, was ist Farbe, was ist Grenze? Was ist x Lim. Wir haben gesehen, wie sich We Xlim auf das Histogramm auswirkt, wie sich der Wild-Limb-Parameter auf das Histogramm auswirkt und wie sich Bricks auf das Histogramm auswirken, also auf das Histogramm. Wenn Sie also experimentieren, wenn Sie mit dem Code und seinen Daten herumspielen, erhalten Sie bessere Einblicke und ein besseres Verständnis des Codes. Ich hoffe, Sie haben verstanden, was X-chromosomal, Y-chromosomal und Brüche sind und wie sie sich auf unser Histogramm auswirken. Damit sehen wir uns in der nächsten Vorlesung. 36. Grundlegendes Liniendiagramm für Zeitreihen mit ggplot2: Hallo und willkommen zurück. In der vorherigen Vorlesung haben wir also gesehen, wie man ein Histogramm zeichnet. Jetzt kommen wir zu einer sehr interessanten Grafik. Sie können unser einfaches Liniendiagramm sehen. Und das ist sehr wichtig , denn das wird wichtig sein wenn Sie mehr über Zeitreihen oder Probleme auf Ihrem Weg zur Datenwissenschaft erfahren . Und das ist, in dieser Vorlesung werden wir gerne sehen, wie wir ein einfaches Liniendiagramm für unsere Zeitreihen zeichnen können , indem wir das GG-Plot verwenden, das ein Paket in R ist. Also, was ist die Zeit seitdem? Zuerst müssen wir das verstehen. Lassen Sie mich Sie also zu den grundlegenden, sehr grundlegenden Definitionen von Wikipedia über Zeitreihen führen. Eine Zeitreihe ist eine Reihe von Datenpunkten. Im Grunde werden Ihre indexierten CD-Job-Datenpunkte aufgelistet oder abgerufen. Es kann sich also um eine Indexierung der Reihe von Datenpunkten handeln, oder es kann sich um eine Lift-Up-Serie von Datenpunkten handeln, oder es kann sich um eine grafische Darstellung einer Reihe von Datenpunkten in zeitlicher Reihenfolge handeln. Es kann also alles andere als unsere Zeitreihenfolge sein. Also eine Reihe von Datenpunkten, die in zeitlicher Reihenfolge indexiert sind. Das bedeutet, dass die Datenpunkte auf der Zeit basieren und daher im Laufe der Zeit erstellt werden sollten. Wenn wir also Daten haben, die auf der Zeit für einen bestimmten Zeitraum oder eine bestimmte Zeit in Teach basieren, basierend auf der Zeit, dann ist das eine Brita. Wir können, wenn wir plotten, ein Zeitreihendiagramm erhalten. Also am gebräuchlichsten Lee, oder Zeitreihen und Sequenzen, die zu einem aufeinanderfolgenden, gleichmäßig verteilten Zeitpunkt aufgenommen wurden. Was heißt das? Bedeutet, dass Zeitreihen eine Sequenz sind , die wir gesperrt haben, oder? Zeitreihe oder Abfolge von Datenpunkten , die in zeitlicher Reihenfolge indexiert sind. Und am häufigsten handelt es sich bei Zeitreihen eine Sequenz, die an aufeinanderfolgenden Terminen in gleichem Abstand zu einem Zeitpunkt durchgeführt wird. Nehmen wir an, wir nehmen auf unserer Zeitlinie aufeinanderfolgende, gleichmäßig verteilte Punkte zu Zeiten aller 0220 4 h, dann brauchen wir null bis 3 h, dann 3 bis 6 h 32, 9 h neun bis 12. Frühe Erfolge, zwei Punkte in gleichem Abstand wie drei, 3-Stunden-Intervall , das wir einlegen. Das wären also Daten von 0,326, 6299 bis 12, so. Okay. Also gebe ich ein Beispiel. Es ist nicht genau das Richtige. Aber du kannst verstehen , welche Zeitlinie, Null bis 24 Stunden und ein paar Dinge, die jeweils passieren, jeder Sekunde, in jeder Minute, oder? Wenn wir also diese Datenpunkte dokumentieren, etwa bei einem Vier-Sterne-Objekt, sind dies die Daten der zweiten Stunde. Das sind die Daten der Tada. Das sind die Daten. Wenn wir diese Daten also nacheinander mit gleichem Abstand definieren , erhalten Sie die Zeitreihe, die Abfolge der Zeitreihen. Es handelt sich also um eine Folge diskreter Zeitdaten. Es ist nicht kontinuierlich, es ist diskreter Natur, weil wir aus diesen Daten Zeitpunkte mit gleichem Abstand nehmen. Also machen wir eine diskrete. Das ist also die Definition. Was wir nun tun werden, wir werden versuchen, dies zu verstehen, indem wir es planen. Wenn wir planen, werden wir mehr darüber erfahren. Okay, also bevor wir plotten, haben wir darum gebeten, die Bibliothek GG plot two zu installieren, damit Sie zum Paket gehen und diesen GG-Plot zwei installieren können . Okay? Also dafür brauchen wir Library GG, Handlung zwei und den Spieler, okay? Diese beiden Bibliotheken sind also erforderlich. Und was wir dann tun, erstellen wir Dummy-Daten. Was ich also tun werde, ich werde einen DataFrame erstellen , der den Tag enthält. Sie werden wie ein Punkt aufgewühlt sein. Das bedeutet, dass Daten in diesem Format wie der ersten Generation insgesamt 15 verwendet werden. Und was ich dann mache, ich will auch von hier auf Null. Recherche bis 4 Minuten, 365 Tage. Also von hier bis 365 Tage, jeden Tag aufwärts wie ersten Generation und dann am 31. Dezember 2014, nehme ich mir drei bis fünf Tage Zeit. Und für ein bestimmtes Datum, an dem ich den Wert nehme, verwende ich die runif-Funktion. Weißt du, was ist, führe eine Funktion aus, die Fox ausführt und sie erstellt, was, was sie tun wird. Es wird eine Folge von geraden Zahlen erstellt, 4365. Es wird also eine Folge von Zahlen erstellt. Also, was wird die Running-Funktion tun? Es generiert die zufälligen Abweichungen einer Gleichverteilung und wird als runif geschrieben. Was es also tun wird, es wird auf einfache Weise die n Anzahl von Zufallszahlen generieren , die es rendern wird. Was wir hier also aus Wertgründen tun, Initiativforschung, um die Zufallszahlen für jeden Tag zu löschen. Also weisen wir die erste Zufallsgeneratornummer bis heute zu, eine, wie diese. Und dann wird die zweite zufällig generierte Zahl dem zweiten Datum zugewiesen. Okay? Wir verwenden also nicht nur, wir verwenden nur die zufällig generierten Zahlen aus dieser Standardfunktion. Okay? Aber wir fügen dem auch hinzu, indem wir auch eine genetische Sequenz von minus 142 bis 40 haben. Und in dieser Sequenz sind wir das, was wir tun. Davon nehmen wir eine Quadratwurzel und dividieren dann durch diese 10.000. Okay? Im Grunde wollen wir also das Ergebnis daraus ziehen. Wir werden das hinzufügen, was wir von dieser runif-Funktion erhalten. Okay? runif gibt also die zufälligen Abweichungen und die gleichmäßige Verteilung an. Okay? Also, was wir daraus bekommen, bis Datum, Tag und Wert, die wir in diesem DataFrame speichern werden, erstellen wir einen DataFrame, zwei Werte enthält, t und einen bestimmten Wert aus diesen beiden Funktionen, die wir erhalten, wir werden sehen, wie wir das haben, welche Werte wir bekommen, okay? Und was wir dann tun werden, ich drucke einfach die Daten aus, um Ihnen zu zeigen, welche Daten wir erhalten. Und dann werde ich mit diesen DataFrame-Daten, was ich tun werde, das GG-Plot verwenden, um diese Daten zu plotten. Also gebe ich diesen Datenrahmen weiter. Und was das dann tun wird, ich gebe die X-Achse als T- und die Y-Achse als Wert an. Plus. Ich verwende die Geom-Linie, Funktion zwei und dann die Xlab-Werte, okay? Und dann drucke ich den Druck, ich drucke das Produkt. Okay. Als Nächstes, was ich tun werde, was diese Geomline-Funktion hier machen wird. Sie können Ihre Zoom-Nine-Schriftarten darauf sehen, was sie tun werden. Es verbindet die Punkte in der Reihenfolge der Variablen auf der X-Achse und G. Und es wird tatsächlich ein staubiges Stufendiagramm wie ein Treppendiagramm erzeugen. Ok, also was es im Grunde tun wird, es wird die Punkte verbinden und es wird das Diagramm erstellen. Okay? Hier verwenden wir also einige Symbole wie Prozent, d ist d als Zahl Null bis 31. Der Prozentsatz wird als Wochentag erstellt. Der Prozentsatz entspricht in Großbuchstaben einem abgekürzten Wochentag, wie Montag. Und das wird Aufruhr und prozentuale Marmeladen sein. Monate Null bis 12 mit b und Großbuchstabe B werden abgekürzt und ein abgekürzter Monat wie Jan wird abgekürzt und der volle Januar wird nicht verschärft. Und dann sind der Prozentsatz Y und der prozentuale Großbuchstabe Y Tool, der Prozentsatz der Vitamine noch zweistellig und der prozentuale Buchstabe Y wird noch vierstellig sein. Okay? Das ist also die grundlegende Abkürzung , die wir verwenden werden. Gehen wir also zum RStudio und versuchen, diesen Code auszuführen. Also verwenden wir hier GG Plot und die Player-Bibliothek. Und dann, was ich hier mache, verwende ich Daten. Ich erstelle hier einen DataFrame, Dummy-Daten mit ähnlichem Acetat. Und dann erstellen wir einen zufälligen Wert mit dieser Runif und dieser Sequenz. Und dann drucke ich das, was auch immer wir von der Runif bekommen , das zeige ich dir, was wir von der runif Funktion bekommen und was wir als Daten bekommen. Okay? Lassen Sie mich diesen Code hier ausführen. Okay? Also lass mich diesen Schwanz hier laufen lassen. Also werde ich dir jetzt zeigen , was wir bekommen. Okay? Also sehen Sie hier, für die runif-Funktion erhalten wir diesen Wert, okay, 0,3, 44,4. So wird es 365 generieren. Winde. Okay, und dann für die Daten, die wir bekommen, d, wie der 1. Januar, John, insgesamt und weit dazwischen und wir erhalten diesen Wert. Okay. Und dann für das Protein vom 31., 3. und 4. Dezember, das wir bekommen, also bekommen wir diese Daten und den Wert in unseren Datenrahmen. Und was ich jetzt tun werde, übergebe ich den Datenrahmen an die GG-Plotdaten und beende dann den Anruf heute Y, was dem Wert entspricht. Und ich verwende die Geom-Linie, um die Daten zu plotten und dann, was da sein wird oder was ich hier verwende. Ich verwende die Skala für die durchschnittliche Abweichung, Unterstrich und das Datum des Unterstrichs. Und hier gebe ich den Schuldenstand von x v an. Okay? Lassen Sie mich also den gesamten Code ausführen. Klicken Sie auf die Quelle und sehen Sie sich die Handlung hier an. Lassen Sie mich also den Boden ausdrucken. Schau hier. Jetzt erhalten wir noch Zeitreihendaten für Januar 2014, 2014, Juli 2014, Oktober 2014 und Januar 2015. Okay. Und wenn ich das durchführe, bekommen wir die Abkürzungen Januar, Juli wie folgt. Dann läuft es so. Wenn ich das große Y, b, das kleine b und d verwende , was wir bekommen, bekommen wir das ganze Jahr, also 2014, dann tourt Jan One auf 14 Kleidungsstücken, eine wie diese. Okay. Und das ist die Woche, oder? Es zeigt dir also die Wochen, die späten. 13., Woche, 26., Woche 3093 und so weiter. Okay. Wenn es ein riesiger Berg ist, warum wird er uns den Monat geben, warum? Monat und YC. So ein düsterer Januar mit insgesamt 14 Zulassungen für solche Tunnelproteine. Das ist also der Punkt, an dem wir den Monat auf der X-Achse sehen. Hier sehen wir den Berg zusammen. Wir sehen den besonderen Wert zu diesem Zeitpunkt. Okay? Auf diese Weise können wir also eine einfache Zeitreihe zeichnen. Hier. Wir können das ein wenig ändern. Und hier verwende ich SLB, unsere Teambibliothek, in der Sie, falls Sie keine haben, zu den Paketen gehen können, auf Paket klicken, auf Installieren klicken und Sie können sie installieren und dann können Sie sie verwenden. Ich verwende also dieselben Daten , die wir in der vorherigen Version erstellt haben. Gerade eben. Und hier, was ich mache, alles, ich verwende das Thema in der Geom-Zeile. Ich gebe die Farbe als Grün an. Hesiod ist die schwarze Linie. Im Moment ändere ich das auf grün. Also hier geom line, ich gebe Farbe, die Farbe Grün. Es wird also so sein, dass das Diagramm in der grünen Farbe sein wird. Und dann das Thema unterstreicht Ipsum, ich verwende Blast für das Team. Was mir gegeben wird x dx t Punkt x Element Punkt TXT Unterstrich t Eigentlich Winkel. Ich gebe 45 und ich gebe nur einen. Was also dieser Winkel von 45 bewirkt, wird dieses Diagramm um 45 Grad drehen. Lassen Sie mich also den ganzen Code ausführen. Schau hier. Jetzt sieht die Grafik so aus. Und die 45 Grad, also wird sie auf 45 Grad umgerechnet. Auf diese Weise können wir einen Winkel von 45 verwenden, bevor ich t annehme. Schauen wir uns an, welchen Unterschied wir haben. Ein Künstler hat sich leicht verändert. Lassen Sie mich es ändern, um 160 zu unterstützen. Kannst du einen Unterschied sehen, wenn ich 45 gebe? Und jetzt ändere ich es. Tun Sie 145. Mal sehen, ob wir einen Unterschied machen. Jetzt kommt es wie Januar 2020, Oktober 2019. So. Die Grafik ändert sich mit der Geschwindigkeit. Wenn ich es mache 45. Es kommt so. Und wenn ich es mache, nehmen wir an, 90 Grad, wird es auf eine andere Art und Weise reinkommen. Ist es. Diese Darstellung ändert sich, oder? Januar. Dieses, dieses Ding ändert sich, oder? Wenn ich zehn Grad schaffe. Und wenn ich hier einen Plan mache und sehe, wie sich das, was auch immer wir hier schreiben, im Januar 2019, dieser Blickwinkel ändert, oder? Wenn ich es schaffe, nehmen wir an , er sieht TDD, dann schauen wir mal, wie sich das Geschlecht nicht ändert. Lassen Sie mich eine Einheit daraus machen. Wenn du mit den Daten spielst, mach weiter. Kannst du geben, um zu verstehen , was eigentlich anders ist? Du machst es richtig. Das Ohr. Es ist Mitte, Ende Januar 2019. Jetzt wird es als gespiegeltes Bild vom Januar 2019 angezeigt. Das ist also der Unterschied. Okay. Auf diese Weise können wir das Level erreichen, okay? Also Orientierung auf X-Achsenebene, Wochenendketten wie diese, okay? Wenn Sie 90 Grad angeben, entspricht dies einem IT-Abschluss. Ich hoffe, jetzt ist Ihnen klar welchen Unterschied dieser Blickwinkel macht, oder? Jetzt ist es bei 90 Grad. Auf diese Weise können wir also die Elementtexte verwenden und die Ausrichtung der Texte wie im Januar so ändern . Okay? Also auf diese Weise können wir das machen. 37. Scatter Plot und Plotmatrizen in R: Hallo und willkommen zurück. In dieser Vorlesung werden wir etwas über Scatterplot lernen. Also, was ist Scatterplot? Ein Streudiagramm ist eine Art von Diagramm. Unser mathematisches Diagramm verwendet kartesische Koordinaten zur Anzeige von Werten. Was sind normalerweise zwei Variablen besser? Es bedeutet also, dass es einfach ist. Wenn Sie unsere X, Y-Ebene nehmen, müssen wir Punkte auf die Ebene setzen, x und y, x komma y Punkt, die wir plotten müssen, damit wir keine sicheren Linien zeichnen oder so, sondern nur die Punkte, an denen wir portieren, um die Majlis und die Anzahl der Zylinder zu unterstützen , usw. Zylinder. Die Zahl Epsilon auf der X-Achse und meine Legende auf der Y-Achse. Es wird also wie ein Vierkomma sein. Die Anzahl der Zylinder beträgt vier und das Myelin verdreifacht sich immer noch vier. Lassen Sie uns einen Punkt auf der kartesischen Ebene abdrucken , die wir platzieren werden. Es ist also ziemlich einfach. Sind die Punkte codiert, kann einer, der immer noch wertvoll ist, angezeigt werden. Okay, was ich hier mache, ich werde einen Datensatz zeichnen, der aus leeren Autos besteht, das sind die Eingabedaten. Set. Unser Niveau damit haben wir bereits in unseren früheren Beispielen verwendet. Also werde ich einen leeren Fahrzeugdatensatz verwenden, unserer, unserer Umgebung leicht verfügbar ist. Also, was diese leeren Autos sind, das WHO-Labor wird es haben. Es wird Daten zu den Autos wie Nummer Epsilon, dunklem Myelin und Gewicht des Autos und andere Dinge enthalten. Okay, also aus diesem Datensatz, was ich mache, werde ich die Anzahl Zylinder und Myelin aufzählen, und das bedeutet die Anzahl der Zylinder und die Majlis der jeweiligen Kosten , die ich aus diesem Datensatz abrufen werde. Also verwende ich Recta. Siehe Zylindermyelin. Myelin, das heißt Zylindermyelin. Und das speichere ich in diesem Objekt. Okay? Also, wenn ich diese beiden laufen lasse, was kriege ich dann hier? Ich erhalte also Details für verschiedene Autos wie Mazda, Datsun und ich erhalte die Nummer Epsilon, das ist sechs, Formaldehyd-Export. Und der Kilometerstand ist eins zu eins. In ähnlicher Weise ist Lotus Europa, Nummer Epsilon, das ist Nahrung und Myelin ist 34 für Bandera. Es ist Zylinder und das Myelin steht für punktgenau, während Woof 142 e die Anzahl der Zylinder vier und das Myelin 21 beträgt. Auf diese Weise erhalten wir die Geschichten für viele Autos, verschiedene Autos und deren Kilometerstand. Okay. Also, was ich jetzt tun werde, ich werde ein Streudiagramm erstellen das die Götter zeigt, und dann meine Liste. Für das, was ich verwende, verwende ich eine PNG-Funktion und gebe den Namen der Scatterplot-Datei als mein List-Plot-Punkt-PNG an. Und dann verwende ich die Plot-Funktion. Streudiagramms wird eine einfache Plotfunktion Zeichnen dieses Streudiagramms wird eine einfache Plotfunktion verwendet. Und doch gebe ich an , dass x der Eingabe entspricht. Also ist x im Grunde der Eingabevektor. Sie erhalten also x, das dem entspricht, was ich zur Verfügung stelle. Ich gebe die Eingabe als Zylindernummer an. Die X-, X-Achse wird der Eingangszylinder sein. Das bedeutet, dass ich die Anzahl der Zylinder erhalte, okay? Und die Y-Achse wird wichtig sein. MPG-Eingabedollar mpg bedeutet, dass ich diese MPG-Daten erhalte, mpg. Das ist also meine Liste X-Achse ist die Zylindernummer des Zylinders und die Y-Achse ist die Laufleistung, Meilen pro Gallone. Okay. Und xlab Ich gebe das X-Achsen-Niveau der X-Achse an. Mir wird die Nummer des Zylinders gegeben, weil ich dort die Anzahl der Zylinder eingebe. Und für die Y-Achse gebe ich den Namen Myelin und die X-Grenze gebe ich vier bis acht, weil die Anzahl der Zylinder 4-8 oder zehn anzeigt. Okay? Also gebe ich vier bis acht für die X-Achsengrenze. Und das Y-Achsenlimit gebe ich zehn bis 35. Okay? Und der Name des Graphen oder des Streudiagramms, ich gebe die Zahl Zylinder auf, Zylinder gegen geistlos. Mein Laserpunkt hat gekostet, okay. Und dann verwende ich Keep Dark oder Off, um den Kampf zu retten. Es ist also ziemlich klar hier. Lassen Sie uns nun diese Datei speichern und diesen Namen als leere Autos verwenden. Ca wird Zylinder minus okay sein. Und dann speichere es. Okay, lassen Sie uns das jetzt ausführen. Lassen Sie uns also diese Quelldatei ausführen. Jetzt ist es also später erfolgreich. Sehen Sie nun, dass die Ausgabedatei verstreut werden soll, und zeichnen Sie mein Listenprodukt auf. Schauen Sie sich also an, welchen Namen wir gegeben haben. Wir erhalten den Kilometerpunkt PNG. Das ist also die Handlung. Okay? Also sehen Sie, der Name des Scatterplot-Teams ist die Anzahl der Zylinder für dieses Myelin und die X-Achse. Ich nähe die Zahl der Zylinder auf, sodass jeder 45678 und die Y-Achse Myelin ist, 10, 152-025-3035. Okay? Und hier bei jedem Punkt nehmen wir an, dass dies der Punkt ist. Dieser Punkt steht für die Zahl Epsilon, also vier, weil der X-Achsenwert vier ist und Y-Achsenwert irgendwo um 21 oder 22 liegt. Also vier Zylinder und myelogener Frontier 14-Zylinder, ein weiterer Punkt, 4,23 oder 2023, dann 2044 , Komma 24 und dann vier Komma 26, 27, so für etwa 30143034 Komma vier. Also Anzahl der Zylinder für, und das sind die Laufleistungen für die Vierzylinder-Autos. Und bis bald als Punkt, x Komma y Punkt auf dieser kartesischen Ebene in der zweidimensionalen x-y-Ebene. Und wir geben die Punkte wie die Nummer des Zylinders vier und meine religiöse 21 Punkte etwas an, okay? Ebenso bedeutet die X-Achse sechs die Anzahl der Zylinder, sechs Punkte diese Zahl sechs. Die Autos, die keine Zylinder wie sechs haben, hatten so viele Myelinscheiden. Dieser myelinähnliche Fußabdruck, Meilenstein 16171516 bis 2021. Somit können wir wissen, dass Sechszylinder-Schutzvorrichtungen im Vergleich zu den Vierzylinder-Autos weniger Laufleistung bieten und zu den Luftzylinder-Fahrzeugen kommen. Das sind meine Objektive für diesen Loop. Die Achtzylinder-Autos geben also den niedrigsten Myelinwert. Das beste Myelin ist also Garza die Anzahl der Zylinder zu geben, vier und dann sechs Grünpflanzen. Anhand dieses Streudiagramms können wir zu dem Schluss kommen, dass die Anzahl der Zylinder über die Laufleistung des Autos entscheidet, geringer als die Anzahl der Zylinder im Auto ist, desto größer wird das Myelin sein. Das heißt, wenn die Anzahl der Zylinder zunimmt, sinkt die Laufleistung. Der Anfall für die Laufleistung beträgt mehr als sechs Myelin und verringert sich. Die Anzahl der Zylinder steigt auf acht. Das Myelin nimmt weiter ab und ist unter den 46,8-Zylinder-Fahrzeugen am niedrigsten. Also Nummer eins, Myelinscheide. Umgekehrt proportional zur Anzahl der Zylinder ist der Zylinder, die Zylinderzahl der Zylinder im Automotor geringer, Laufleistung wird höher und die Anzahl der Zylinder im Auto wird höher sein, die Laufleistung wird geringer sein. Okay? Bei dieser Art von Streudiagramm können wir also leicht zu dem Schluss kommen, können wir also leicht zu dem Schluss kommen indem wir uns nur die Grafik ansehen, okay? Und es ist eines der einfachsten Grafiken, die Sie sehen können und es ist ziemlich einfach, es zu analysieren und die Details aus dem Diagramm selbst abzurufen. Als Nächstes gebe ich den Dateinamen als leere Autos an und bespreche das Streudiagramm, die Abenddämmerung oder die Matratze. Also, was ich hier machen werde, ich werde die Paarfunktion in R verwenden. Und mit dieser Paarfunktion in R verwenden. Und mit dieser Paarfunktion können wir Matratzen herstellen, die in der Tabelle ganz oben stehen. Und wie wir das machen können. Wir können die Datenpunkte aus dem Datensatz für leere Autos entnehmen. Und in jedem Tempo. Laufleistung pro Gallonen-Hubraumzylinder. Aus diesem Datensatz, leere Fahrzeugdaten, erhalte ich Daten, die m entsprechen. Precast bedeutet, dass wir diesen Datensatz für leere Autos verwenden. Davon ausgehend verwenden wir diese vier Variablen in vier Spalten, wie Wait, MPG, Meilen pro Gallone, Hubraum und Anzahl der Zylinder. Und F4-Säule. Diese vier Parameter werden verwendet, um Diagramme zu erstellen , z. B. wird das Gewicht genommen und das Punktdiagramm wird auf der Grundlage des Gewichts gezeichnet. Und meine Liste, Gewicht und Hubraum, Gewicht und Zahl Epsilon. Auf die gleiche Weise wird Myelin genommen und dann werden die Grafiken nicht wie Mileage Plus-Gewicht minus plus Hubraum, dann Mileage Plus-Zylinder sein . Also Laufleistung versus Zylinder, Laufleistung versus Hubraum, Laufleistung versus Gewicht. Auf diese Weise wird eine Variable genommen und das Diagramm wird Bezug auf die drei Variablen gezeichnet. Hier gebe ich die Scatterplot-Matrix für leere Autos als Namen. Lassen Sie mich zunächst den wichtigsten loben. Und zuerst benutze ich, ich fange mit dem einfachen an. Ich versuche einfach, den MP zu zeichnen. Meine Liste war dieses Epsilon-Zahlendiagramm, das wir hier ohne Paar gezeichnet haben. Also was ich mache, ich werde versuchen, ein dunkles Bier nur mit MPG und Zylinder zu zeichnen . Und mal sehen, was die Ausgabe sein wird. Okay? Also lass uns das ausführen. Und der Dateiname ist dieses C hier. Wir sehen uns. Also die gleiche Ausgabe. Aber hier sehen wir, was wir sehen, in einer Matrixform. Also hier wirft es MPG-Meilen pro Gallone und Schwimmnummer Epsilon Doc. Sie können hier also MPG-Meilen pro Gallone und hier die Anzahl der Zylinder sehen . Sie können also die Nummer Epsilon , die für alle Vierzylinder-Autos steht, Ihre 46,8 sein. Sie sind hier für die jeweilige Kilometerzahl zusammengefasst oder heilen das Vierzylinder-Myelin hier, dann die Sechs-Zylinder-Myelitis und jetzt ist es die Zylinder-Myelinliste. Wenn Sie also diese beiden kombinieren, erhalten Sie dieses Streudiagramm. Wenn wir diese beiden kombinieren, erhalten wir diesen. Ceo, wir bekommen das nicht früher, wir nehmen diese Anzahl von Zylindern in meine Liste auf. Bei dieser Grafik, die wir bekommen, gehe ich auf meiner Liste den Zylinder nach oben. Jetzt sehen wir die Abneigung gegen die Y-Achse. Das wird der erste Kilometer sein. Okay. Und die Anzahl der Zylinder, die Sonia und das Myelin sind , ist Sonya getrennt in einer Matrixform, oder? Das Gleiche, aber in einer anderen Darstellung. Okay. Lassen Sie mich nun zum Code gehen und diese Zeile kommentieren und dann diese Zeile entkommentieren. Jetzt verwende ich DUF für Variablen. Und lassen Sie mich das ausführen. Und jetzt sieh dir die Grafik an, wie das kommt. Also mach das auf. Sehen Sie sich nun die vier Variablen Gewicht, MPG, Hubraum und Zylinder an. Also dann hier das Gewicht, der Majlis Hubraum und der Zylinder, der Sonya hilft. In Ordnung. Also diese Verschwendung ist dünn. 123 456-789-1011, 12,4 Cystein wurde gezeichnet. Okay, lass mich tatsächlich planen. Und mit diesen vier Dingen, also vier mal vier Matrix-Ehemann, richtig? Auf diese Weise können wir diese Biere verwenden, um die Plotmatrix für diesen Datensatz zu erstellen . Dadurch wird also die Streudiagrammmatrix erstellt wir Blockmatrizen erstellen können. Okay. Wir sehen uns in der nächsten Vorlesung. 38. Mittel in R finden: Hallo und willkommen zurück. In den nächsten Vorlesungen werden wir etwas über Statistik in R lernen . Wir werden also sehen, welche Funktionen in unsere Programmierung eingebaut sind und die wir für die statistische Analyse in R verwenden können . Und das wird für unseren Körper sehr hilfreich sein. Das wird für maschinelles Lernen, künstliche Intelligenz, Deep Learning und all diese Dinge sehr nützlich künstliche Intelligenz, Deep Learning sein. Statistiken sind also die Hauptsache, wenn wir Informationen aus den Daten gewinnen wollen. Und die Artikelanalyse ist die Grundlage für die Algorithmen des maschinellen Lernens. Wir sollten also wissen, was die statistische Analyse und die Schlafsäle sind . In den kommenden Vorlesungen werden wir also etwas über diese Dinge lernen, statistische Analysen in unserer Programmierung. Also lasst uns anfangen. Es gibt viele eingebaute Funktionen, mit denen wir statistische Analysen durchführen können. Und diese Funktionen sind sehr nützliche Tools und nur eine Einheit, um den Funktionsnamen zu verwenden und Sie müssen den Datenvektor übergeben , ihn mit einigen Argumenten nehmen, und Ihre Arbeit ist erledigt. Es ist also ziemlich einfach, alle Analysen in unserer Programmierung durchzuführen. Jetzt werden wir sehen , was ein Mittelwert ist und wie wir den Mittelwert berechnen können. Dann werden wir auch sehen, was Median ist. Und dann werden wir mehr sehen. In dieser Vorlesung lernen wir also im Grunde den Mittelwert, den Median und den Modus. Okay, lass uns anfangen. Also als Erstes, was ist gemein? Mittelwert wird berechnet, indem die Summe aller Werte durch die Anzahl der Werte dividiert wird. Es ist also durchschnittlich. Sie wissen also, wie man den Durchschnitt berechnet. Ich unterstütze Sie haben die Zahlen 12345 und Sie möchten den Durchschnitt daraus ermitteln. Sie machen also eins plus zwei plus drei plus vier plus fünf geteilt durch die Anzahl der Werte. Also Anzahl der Pfeile, gelb, 5/5, also bekommst du den Durchschnitt. Durchschnittlich ist also gemein. Mittelwert ist auch Mittelwert entspricht dem Durchschnitt. Der Mittelwert ist also die Summe der Werte in einem Vektor, unsere Daten, einige Werte in den Daten geteilt durch die Anzahl der Daten. Okay, lassen Sie mich Ihnen zeigen, wie wir das in R machen können Und für die Berechnung des Mittelwerts gibt es in R eine Funktion namens Hauptfunktion. Okay? Lassen Sie mich dafür ein Programm schreiben. Lassen Sie mich Ihnen zuerst sagen, was der Syntaxteil bedeutet, und dann schreiben wir das. Für mich. Wir verwenden diese Funktion mean und was sind die Dinge , die wir nehmen, wir nehmen x und das wird der Datenvektor sein. Und dann wird ein weiteres Argument benötigt , das gleich Null ist. Und dann dunkel. Was das also bewirken wird und was der Stream ist, werden wir sehen, wenn wir unsere Praktika machen. Also ist es einfach und dann ist Punkt RM gleich falsch. Und das war's. Okay? Das ist also die grundlegende Hauptfunktion in Kunst, wobei x der Datavector-Trimm und dann ein Auto ist . Also, was ist X? X ist der Eingabevektor. Lassen Sie mich Ihnen hier sagen, x ist der Eingabevektor, der die Datumsdaten enthalten wird. Und dann wird unser Traum, hier verwenden wir die Trimmung dazu, einige Werte von beiden Enden wegzulassen. Wenn Sie also dream gleich Null geben , werden keine Werte verloren gehen. Aber wenn Sie einen angeben, wird von jeder Seite ein Wert verloren gehen. So ist es, wenn Sie Werte von beiden Enden löschen möchten , von beiden Enden dieses x-Vektors. Okay, wir werden sehen und wir werden es besser verstehen. Und der dunkle Adam wird es tun, was es tun wird. Es wird ihnen nur fehlende Werte entfernen. Es geht also darum, die fehlenden Werte zu entfernen. Also ist x der Eingabevektor, Datenvektor. Trimmen Sie die Dürrewerte sowohl der Ends als auch der NMDA-Armeen. Und entferne das. Fehlende Werte. Angenommen, Sie haben einen Datensatz und größere Werte fehlen. Wenn Sie also diese Werte entfernen möchten, können Sie alle Werte verwenden, die nicht wahr sind. Wenn unser Bild also als falsch bezeichnet wurde, bedeutet das, dass es die Ladungen, die keine haben, nicht entfernt . Die Indizes, die keine Werte haben , werden nicht entfernt . Wenn Sie dies als wahr verwenden, werden alle fehlenden Werte entfernt. Okay, ich hab's. Sie können es je nach Anforderung mit wahr oder falsch angeben. Lassen Sie mich das kommentieren. Also, was wir jetzt tun werden, wir werden einen einfachen Vektor erstellen. Also, was ich hier mache, ich werde ein Rechteck erstellen , das ein Eingabevektor ist. Okay? Also werde ich einen Eingabevektor erstellen. Also, was ich tun werde, nehme ich an, diese Daten. Nehmen wir an, ein riesiger Vektor ist der Eingabevektor oder einfach ein riesiger Vektor. Und ich werde, ich werde, ich werde hier einige zufällige Werte angeben. Okay? Nehmen wir an, ich habe 789, 671-250-6304 bis 405-80-9907, minus zwei , -34, 32 -21, all diese, alle Bewohner. Wir haben also unseren Eingabevektor , der die Werte enthält. Okay? Und jetzt nehmen wir an, ich möchte einen Mittelwert finden. Also, was ich tun kann, ich kann einfach annehmen , dass ich hier eine Variable erstelle. Gemeinsamer Unterstrich a, das bedeutet Mittelwert von a. Okay? Und ich verwende einfach die Mittelwertfunktion und übergebe diese als, ich übergebe das EBITDA hier. Also, was diese Mittelwertfunktion tun wird, sie nimmt diesen Vektor als Eingabe und berechnet den Mittelwert dieser Werte. Lassen Sie mich das also unterstreichen. Es wird uns also den Mittelwert dieser Werte geben. Okay? Lass mich das ausführen. Hier. Wir erhalten den Mittelwert als 33,7, 8571. Das ist also der Durchschnitt dieser Werte, die Mittelwerte dieser Werte sind. Okay? So können wir sie finden. Mittelwert des Eingabevektors aus dem Mittelwert der Eingabedaten. Dieser Mittelwert dieser Daten ist also 33,78. Okay? Als Nächstes werden wir lernen, wie man Atome anwendet und abzieht. Nehmen wir an, ich erstelle hier einen weiteren Vektor. Lassen Sie mich dieses Terminal oder diese Konsole auf die linke Seite stellen, das wird EG sein. Also gehe ich zu den Farben und lege das auf die rechte Seite , damit wir das hier sehen können. Okay. Also gemein ist hier, okay. Was ich jetzt tun werde, tut mir leid. Wir werden die fehlenden Werte entfernen. Okay? Nehmen wir an, ich habe den gleichen Vektor mit einigen fehlenden Werten, okay? Das sind also die fehlenden Werte. Nehmen wir an, einer ist hier. Okay? Für diese haben wir also keine Beta, ist NA nicht anwendbar. Okay? Wie entfernt man diese fehlenden Werte? Wir können also einfach, wenn ich „gemein“ verwende, a unterstreichen, tut mir leid. Und ich verwende „Mittelwert“ oder „was wir als Ergebnis bekommen“. Lass uns sehen. Also lass mich. Siehst du, wir sehen keine Ergebnisse, weil es die NA-Werte hat. Okay? nun, wenn ich den Mittelwert eines Kommas setze und Was passiert nun, wenn ich den Mittelwert eines Kommas setze und sie mit true verdunkle? Es wird uns geben, mal sehen. Entschuldigung, ich habe es benutzt und das ist falsch. Lassen Sie mich das noch einmal ausführen. Siehst du, wir verstehen jetzt den Wert. Okay? , wenn ich alle Änderungen von hier aus entferne Was passiert, wenn ich alle Änderungen von hier aus entferne und sie erneut starte? Um zu sehen? Siehst du, wir bekommen keine. Okay? Wenn Sie also den Mittelwert dieses Vektors ermitteln wollen , indem Sie den NA-Wert fallen lassen, müssen Sie einen beliebigen Wert verwenden , der den Herbst als wahr bezeichnet und das gibt Ihnen das Okay. Also, was ich als Nächstes tun werde, ich werde die Trimmfunktion verwenden, also verwende ich hier die Trim-Option, okay? Also habe ich einen Vektor C erstellt , der ReLu hat, einfache Werte, 1234567. Okay? Und wenn ich das ausführe und den Mittelwert finde erhalte ich einen Mittelwert. Das sind vier. Okay? Also und wie wir vier bekommen, denn eins +2, 361-015-2120 8/7 ist gleich vier. Das ist der einfache Durchschnitt. Okay? Also, was ich mache, ich werde einfach für sieben hier sein. Dann. Ich lege einen hier, ich lege vier hier und drei hier. Also einfach, ich gebe die Werte einfach an eine zufällige Stelle. Okay? Das ist also kein sortiertes Array, oder? Also, wenn ich nochmal den Mittelweg finde , nehme ich das Foto. Okay, wir haben den gleichen Wert, oder? Was passiert, wenn ich Trim gleich Null verliere? Lass uns sehen. Wir werden die vier richtig machen? Wenn ich nun 0,13 gleich 0,1 verwende, was es tun wird, wird es diesen Addie sortieren. Es sortiert das in aufsteigender Reihenfolge und dann wird das Feld einem Wert von jeder Seite gelöscht. Also schauen wir mal, was bedeutet, dass wir hier ankommen. Wir bekommen für Y weil es um 1,7 fällt und der Rest des Werts für zwei plus 244 plus 36 plus 399 plus 514, und dann plus 62020/5 ist vier, oder? Wenn ich Coulter davon träume, was es bewirken wird, werden die beiden Alice von seiner Seite fallen. Und wieder bekommen wir dafür. Also lassen Sie mich das Original nennen, das sortierte. Also werde ich hier einfach kommentieren und 123.456,7 angeben. Was also ein Wert von Null bis 0,2 bewirkt, wird 1,2 von dieser Seite und 67 von dieser Seite entfernen. Was wird also führen? 345. Es wird also rückfällig, wobei das C gleich drei Komma vier Komma fünf ist. Also sieben plus drei plus 47 plus 51212 geteilt durch drei Viertel. Da bekommen wir also wieder vier. Was passiert, wenn ich zehn setze? Wir rufen 2.3 auf und führen das aus. Es sortiert und entfernt drei Werte von jeder Seite. Und noch einmal, wir bekommen für y, wir rufen an, wenn wir 123 von dieser Seite und fünf Sechstel n von dieser Seite entfernen , wieder bekommen wir, dass 41 der vier links sind, oder? Es werden nur noch vier übrig sein und der Mittelwert von vier wird vier sein. Okay? So funktioniert es also. Lass mich, ich gebe hier noch ein paar Werte ein, 910910 hier. Und lassen Sie uns das ausführen. Sehen Sie, jetzt erhalten wir den Mittelwert als phi y, weil dadurch drei Werte, 1.234,78, 7910, aus dieser Suche entfernt werden . Also, was uns übrig bleibt, sind 45,6. Also 4561, was wird das bedeuten? Es wird 15 sein, oder? Einige davon für 5 s pro 15/3. Das heißt, Anzahl der Werte drei, also Fußabdruck geteilt durch drei, erhalten wir, wir erhalten fünf. So können wir also die Trimmfunktion verwenden. Also zuerst, was es tun wird, es wird das in einem Resort sortieren, diesen Vektor, und es wird so aussehen. Und dann werden drei , die ich verliere, von der Ostseite, von der, von den ersten drei und von den letzten drei entfernt . Und der Rest bringt dir den Mittelwert. Okay, so funktioniert dieser Traum. Okay? Wenn Sie also die Werte vom Anfang und vom Ende entfernen möchten , wollen sowohl das Ende als auch wir den Durchschnitt ermitteln, oder Sie können die Kürzung und den Wert nur Texas 0,1 verwenden. Du willst keinen, heißt einen Funksender von seiner Seite. 0,2 bedeutet zwei Buchstaben von mir, sagen wir 0,3 min, drei Werte von jeder Seite. Okay? So funktioniert es also. Und wenn Sie die fehlenden Werte entfernen möchten, können Sie einen beliebigen arabischen Punkt verwenden, der wahr entspricht. Es entfernt diese NA-Werte aus dem Datensatz und gibt Ihnen die verbleibenden Werte und ermittelt den Mittelwert dieser verbleibenden verbleibenden Werte. Okay? So funktioniert nn dot Autumn and Trim. sehen uns in der nächsten Vorlesung wir etwas über Median lernen werden in der wir etwas über Median lernen werden, wie man Median in der Kunst findet. 39. Median und Modus in R finden: Hallo und willkommen zurück. In dieser Vorlesung werden wir sehen, wie wir den Median der Daten berechnen können , okay? Wie können wir also den Medianwert finden? Als Erstes werden wir also wissen, was der Median ist. Der Median ist also der mittelste Wert in einer Datenreihe. Nehmen wir an, wir haben diese Datenreihe. Wir wollen also den mittleren Wert dieser Datenreihe finden. Also lasst uns anfangen. Okay, also medial, am relevantesten, der Wert, der in der Mitte steht, ist nicht wie ich, das ist nicht wie ich, der Durchschnittswert der Datenreihe. Aber das ist der Mittelwert Wenn wir diese Daten auf einigen X darstellen, welcher Wert wird also in der Mitte liegen? Das ist der Wert, wir finden werden, der Median. Der Median ist also der mittlere Wert in einem Datensatz, was in Ordnung ist. Und um den Median zu finden, verwenden wir die Funktion Median in r. Also verwenden wir die Funktion Median in der Kunst. Also nicht meine DNA, es ist Median. Also werden wir diese Funktion verwenden, Median, okay? Ich verwende den DIN-Median, um den Median zu finden. Der Datensatz. Das ist also der Datensatz, den ich erstellt habe , und das ist die Medianfunktion. Und was sind die Werte, die es braucht. Es werden das E und der Eingabevektor verwendet. Und dann wird es jeden dunklen Herbstruf als falsch oder wahr nehmen , was auch immer du willst, du kannst geben. Okay? Wenn wir Werte entfernen möchten, können Sie Adam dot eingeben. Wenn Sie die N A-Werte entfernen möchten, können Sie sie bei Aram gleich Falsch setzen. Wir haben in der vorherigen Vorlesung gesehen, in der wir über den Mittelwert gesprochen haben, wie NADH verwendet in der vorherigen Vorlesung gesehen, in der wir über den Mittelwert gesprochen haben wird. Also bei der gleichen Funktionalität und auch für jedes Datenelement. Falsch bedeutet, dass die fehlenden Werte nicht entfernt werden. Und wenn n nicht gleich wahr ist, werden die fehlenden Werte entfernt. Okay? Also, wenn ich das mache, was uns gefällt, dann kriege ich, ich hole den Median dieser Serie. Ich unterstreiche deinen Median mit einem und weise diesen Median diesem zu. Aber **** schwer so gut, diese Variable, das Durchschnittsalter der Unterstriche. Lassen Sie mich das ausdrucken. Wenn wir das also ausführen, erhalten wir den Median als einen Mittelwert dieser Daten. Seizes Serie ist neun, oder? Angenommen, ich verwende, ich gebe mehr zufällige Werte wie 6745, 2245, 4722, 9979 ein. Und wenn ich jetzt versuchen würde, es zu finden, bekommen wir 33. Okay? In ähnlicher Weise wird es versuchen, den mittleren Wert des Datensatzes zu finden. Ich mache es umsonst und das wird 44 bekommen, okay? Es wird also versuchen, den mittleren Wert des Datensatzes zu finden , der in Ordnung ist. So finden wir den Median einer Datenreihe, unseres Datensatzes. Als Nächstes werden wir lernen, dass es darum geht , den Modus zu finden. Okay? Also werden wir jetzt versuchen, den Modus zu finden. Was wir hier gelernt haben, haben wir nicht gefunden. Also werden wir jetzt lernen, wie wir mehr finden können. Also, was ist der Modus? Modus ist der Wert der höchsten Anzahl an Alkalien in der Innenstadt. Nehmen wir an, wir haben das. Lass mich das kopieren. Und lassen Sie mich den Datensatz für dieses weitere Problem erstellen , okay? Und dies ist unser Datensatz, in dem wir Unterstützung haben, 45 oft vorkommt, also 45 als Ihrer, ich entferne dieses Pseudo 45 und dann werde ich für diverse sprechen. Also t Here, 45 wiederholt sich 1234 mal, oder? Unterstützung. Dieser Findungsmodus bedeutet also Mod Easter. Nummer der Suche nach der maximalen Häufigkeit von Vorkommen oder nach Wert, richtig? Mode ist also der Wert mit der höchsten Anzahl von Dokumenten in unserem Datensatz. Im Gegensatz zu Mittelwert und Median kann der Modus sowohl Zahlen als auch Zeichen enthalten. Also werden wir zuerst sehen, wie man den Modus dieses numerischen Datensatzes findet. Und dann sagen wir, versuche auch nach dem Zeichendatensatz zu suchen. Also wenn ich Mod verwende, weil es keine eingebaute Funktion gibt, um mehr in R zu finden. Okay? Wir werden also unsere eigene benutzerdefinierte Funktion erstellen, um maximale Häufigkeit des Vorkommens von Datenwerten in einem Datensatz zu ermitteln. Okay, also dafür, was ich tun werde, werde ich eine Funktion erstellen. Also, was ich hier kann, bekommst du für die Summe, okay? Also erstelle ich den Regionsfunktionsmodus, okay? Und was ich tun werde, ich gebe diesen Namen, so wie sie es getan haben. Gehen wir weiter. Okay. Und dafür verwende ich die Funktion und übergebe sie dann. Okay, was ist der Datensatz? Okay? Und unter dem, was ich verwenden werde, finde ein einzigartiges, einzigartiges Unterstrich-Alter. Das, was ich finden möchte, ist ein einzigartiger Wert. Für dieses, was ich verwenden werde, verwende ich eine einzigartige Funktion, die es in der Kunst gibt. Und was ich tun werde, gebe ich hier weiter. Diese einzigartige Funktion gibt mir also den eindeutigen Wert in diesem Datensatz. Okay? Also lass mich das vielleicht einfach mit zur Schule bringen. Sie wissen, was ich tun werde. Ich verwende einfach mehr als das, was man a nennt. Und was ich tun werde, nenne ich einfach den Modus Fertig falsch und okay, also und ich gebe eine Flüssigkeit darauf. Okay? Lassen Sie mich das loben und ich muss in den Modus, Modus wechseln, und das heißt a. Okay, lassen Sie mich das noch einmal ausführen. Also sieh hier, was ich jetzt kriege. Ich bekomme den gleichen Datensatz, oder? Jetzt. Was ich tun muss, ich muss hier ein paar Berechnungen durchführen. Ich muss hier etwas Logik schreiben, um den eindeutigen Wert des Vorkommens eines bestimmten Werts zu finden . Wir werden es wie diese 45-Zahl herausfinden, die häufigste Zahl in dieser Reihe. Okay? Dafür verwende ich also den eindeutigen Unterstrich a. Und was ich hier anwende, ich liebe es, Rich, Dark Max zu spielen. Und dann benutze ich Tablet, Tablet, Tablet. Und dann, was ich benutze, die Match-Funktion. Und was ich tun werde, ich nehme Pasta, ein Koma, einzigartig und macht einen guten Tag. Okay. Und wenn ich jetzt den Return kriege, wenn ich das starte, kriege ich den Modus, okay? Ja, 45, ich bin damit fertig, 45 zu digitalisieren. So können wir es also. Um eine benutzerdefinierte Funktion für den Suchmodus zu erstellen. Also hier erstellen wir unsere eigene Funktion, return underscore more, die diesen Vektor als Eingabevektor verwendet oder die Eingabedaten wir den Daten hier geben. Das wird also, dieser Datensatz wird in diese Funktion aufgenommen. Und hier, was ich mache, erstelle ich einen weiteren wertvollen, eindeutigen Unterstrich j. Und hier verwende ich die eingebaute Funktion in R, die einzigartig, einzigartig ist. Es wird also dem Einzigartigen einen hohen Wert geben. Und dann, was ich für dieses Ergebnis verwende, diesen eindeutigen Unterstrich a, ähm, du hast ihn nicht dem Punkt Max gegeben , was das ist, was am häufigsten vorkommt . Ich gleiche also dieses e, ursprünglichen Datensatz mit diesem einzigartigen Datensatz ab und finde heraus, welche Zahl die meiste Zeit vorkommt, und ich erhalte das Ergebnis. Also hier erstelle ich einen weiteren Modus-Unterstrich j, und ich rufe einfach diese Funktion auf und sie gibt uns die am häufigsten vorkommende Zahl aus diesem Datensatz. Das ist 45. Wenn ich von guten 76 ausgehe, meistens. Und wenn ich versuchen würde, das auszuführen, was passiert? Lass uns sehen. Jetzt haben wir 76 als die Zahl, die am meisten zu kämpfen hat. Auf diese Weise können wir das nutzen, wir können dasselbe mit dem Text rückgängig machen wie Ihre MBA-Unterstützung. Ich möchte einen unterstrichenen Datensatz erstellen. Und hier, was ich tun werde, ich gebe ein paar Zeichenkettenwerte ein. Angenommen, ich gebe den Namen des Landes wie Indien, USA, Südafrika, Australien so ein. Und was ich tun werde, das werde ich unterstützen. Sie haben dieses Australien ein paar Mal geschlagen. Okay. Wiederhole das Australien zweimal, okay. Und wiederhole dieses Täuschungsmanöver zweimal. Okay. Also, das ist der, das ist der Datensatz, in den wir zweimal und Australien zweimal geschrieben haben. Okay? Und ich möchte den Modus ausschalten. Das nennt man spät. Was ich also tun kann, ich kann diesen Return-Underscore-Modus einfach nennen. Und ich kann diesen Datensatz hier einfach auf diesen geschriebenen Modus für die Funktion umstellen, okay? Und wenn ich das ausdrucke, erhalte ich als Ergebnis Australien. Also lass mich das ausführen. Okay, ich habe vergessen, C hier einzufügen, dummer Fehler, den ich gemacht habe. Also lass mich das hier reinstellen. Okay. Also lasst uns aufhören, die Sache ist okay. Es ging uns also besser , weil wir C hier nicht platziert haben. Das ist der Punkt, an dem du dich darauf einlässt. Und das habe ich so ignoriert, dass ich das nicht gesehen habe. Okay. Das tut mir so leid. Lass mich das nochmal machen und wir sehen uns. Jetzt bekommen wir Australien digital, sodass Feindseligkeiten zweimal gemeldet werden und Großbritannien zweimal. Also bekommen wir Australien. Lass mich etwas versuchen. Wie gesagt, Australien schickt wahrscheinlich auch alles zweimal. Beides wie zweimal. Lass mich sehen, was wir bekommen. Wir kriegen Großbritannien. Also, wenn du zuerst die ersten Aktienzuschüsse bekommst, okay, also tu so, als käme zuerst und dann Australien. Und nehmen wir an , dass , auch Indien produziert wird. Zweimal sehen wir, was wir bekommen. In C bekommen wir Indien, wie K. Und nehmen wir die Ausgabe an, tun Sie zuerst so, als ob, Curtis. Und ich habe es hier hingelegt. Und wenn ich das übernehme, schauen wir mal, wir kriegen Großbritannien. Also, was sind wir jemals, das erste Dokument, höchste Priorität eingeräumt wird. Also, obwohl Meridian, Indien und Australien alle zweimal vorkommen, gibt uns das Ergebnis, da Großbritannien, das wir nennen, so tut, als wäre es direkt vor dem Eishockey. Und wenn ich Australien nenne, lass mich wieder Australien angeben. Und wenn ich das jetzt mache, kommen wir nach Australien und fühlen uns irgendwie an sie gebunden. Auf diese Weise können wir den Modus unserer Daten besser anhand unserer Daten ermitteln. Der größte Marketingwert aus unserem Datensatz. Wir essen uns. Zeichendatensatz oder numerischer Datensatz. Okay, wir können also unsere eigene Funktion erstellen, die ich nicht modifiziert habe, bei der wir die einzigartige Funktion verlieren und dann angeben, welcher Punkt maximal ist. Und wir werden das auf dem Tablett abgleichen und die maximale Häufigkeit ermitteln, in der ein bestimmter Wert vorkommt. Okay, auf diese Weise können wir mehr gebrauchen. Wir haben also Treffen in der vorherigen Vorlesung und Median und Modus in dieser Vorlesung gesehen . Jetzt wissen wir also, wie man die grundlegenden Dinge, Mittelwert, Median und Modus, in unserer Programmierung macht, obwohl Morty keine eingebaute Funktion hat. Um mehr zu finden, haben wir unsere eigene Benutzerfunktion erstellt , um den Modus eines Datensatzes zu finden. Ich hoffe, du musst verstehen, wie das geht. Wir sehen uns in der nächsten Vorlesung. 40. Was ist lineare Regression: Hallo und willkommen zurück. In den vorherigen Vorlesungen haben wir also gesehen, wie wir statistische Analysen in R für maschinelles Lernen oder Datenwissenschaft durchführen können statistische Analysen in R . Das sind also die Dinge, die sehr nützlich sind, und wir sollten all diese Statistiken kennen , um mit maschinellem Lernen und künstlicher Intelligenz oder Deep Learning weiter voranzukommen maschinellem Lernen und künstlicher Intelligenz oder Deep Learning weiter , was auch immer Sie weiter lernen möchten. In diesem Kurs lernen wir Datenwissenschaft und maschinelles Lernen durch unsere Programmierung. Wir haben also den Mittelwert, den Median und den Modus von Rasen, wobei wir diese Umkehrfunktion gesehen haben , um Mittelwert und Median zu finden, wohingegen sie keine eingebaute Funktion zur Bestimmung des Modus hat. Was wir also getan haben, wir haben eine benutzerdefinierte Funktion erstellt , mit der wir benutzerdefinierte Schriftarten erstellt haben und um sie zu finden, um sie genauer zu berechnen. Und dann haben wir den Modus berechnet , den wir in der vorherigen Vorlesung gemacht haben. Du kannst es dir also ansehen, falls du es nicht gesehen hast. Also was weiter? Jetzt lernen wir ein sehr wichtiges Konzept , das als lineare Regression bezeichnet wird. lineare Regression ist sehr wichtig und wird häufig im maschinellen Lernen und in der künstlichen Intelligenz eingesetzt . Wenn Sie also weiter vorgehen möchten, müssen Sie wissen, was lineare Regression ist und wie Sie diese zur Vorhersage verwenden können. Die lineare Regression ist also ein Modell für maschinelles Lernen. Damit können wir die Werte vorhersagen, nehmen wir an, wir haben Daten, nehmen wir an, wir haben hier Daten, Größe und Gewicht, wobei wir das Gewicht der Proportionen haben . Und basierend auf dem Gewicht der Proportionen berechnen wir die Höhe oder Breite und die Höhe. Wir wollen das Gewicht der Proportionen berechnen. Also alles, was Sie wollen, um die Beziehung zwischen diesen beiden Variablen, Größe und Gewicht, herzustellen die Beziehung zwischen diesen beiden Variablen, . Wir können das tun und vorhersagen, nehmen wir an, dies sind die Beispieldaten, die wir haben die wir durch unsere Experimente gesammelt haben. Jetzt haben wir also die Datengröße und das Gewicht. Und basierend auf diesen Daten gehen wir davon aus, dass wir hier diese Diskrepanzen bis zu 19 Datensätze haben . Und basierend auf diesem Datensatz wollen wir unser Modell, das Modell des maschinellen Lernens, auf dem linearen Regressionsmodell trainieren . Und nehmen wir an, ich möchte eine neue Körpergröße einer Person angeben, ich gebe ein neues Hightech, das in dieser Spalte nicht präsent ist , und ich möchte das zu erwartende Gewicht dieser Person vorhersagen. Also was ich mache, ich trainiere mein Modell mit diesen Daten. Und wann immer ich die neue Größe einer Person angebe, wird das System das Gewicht der Person vorhersagen, das erwartete Gewicht der Person auf der Grundlage der Berechnung und es wird funktionieren. Auf diese Weise können wir unser Gewicht einer Person anhand ihrer Größe vorhersagen. Also werden wir mit diesen Daten und allen Daten trainieren, allen neuen Daten, die wir der Höhe geben können. Und es wird das erwartete Gewicht dieser Person vorhersagen. Okay, das werden wir also durch lineare Regression tun. Was ist also lineare Regression? lineare Regression ist eine taktische statistische Methode, die in den Bereichen Finanzen, Investitionen oder anderen Disziplinen verwendet wird Investitionen oder anderen Disziplinen versucht, die Stärke und den Charakter der Beziehung zwischen einer abhängigen Variablen, die normalerweise mit Y bezeichnet wird, und einer Reihe anderer Variablen, die als unabhängige Variable bekannt sind, zu bestimmen die Stärke und den Charakter der Beziehung zwischen einer abhängigen Variablen, normalerweise mit Y bezeichnet wird, und einer Reihe . Also, was haben Sie verstanden, was dieses Modell ist, wenn es eine Methode ist, um die Beziehung zwischen zwei Variablen zu finden , eine ist unabhängig, Hannah, die abhängig ist. Was hängt also davon ab, was unabhängig ist? Angenommen, ich möchte hier anhand der Körpergröße das Gewicht der Portion ermitteln. Die Höhe, die wir als Eingabe angeben, wird als unabhängige Variablen aufgerufen. Hier ist also die Größe unabhängige Variable und das Gewicht die abhängige Variable, da wir auf der Grundlage der Größe das Gewicht vorhersagen. Basierend auf der Höhe, der Eingabe, die wir haben, wie Höhe , wird dies auf dem Wert aufbauen , den wir vorhersagen möchten. Basierend auf der Höhe, die wir vorhersagen wollen. Höhe ist die unabhängige Variable und das Gewicht ist die abhängige Variable. Denn abhängig von der Größe, wir vorhersagen, wird das Gewicht, die Größe jedoch eine unabhängige Variable sein, und das Gewicht wird die abhängige Variable sein. Okay? Sie müssen also wissen, was eine abhängige und eine unabhängige Variable ist , oder? Eine abhängige Variable wird also mit Y bezeichnet. Und unabhängige Variablen sind die Reihe anderer Variablen. Es wird also ein Blatt geben. Angenommen, Sie haben ein Unternehmen und möchten den Umsatz des Unternehmens vorhersagen. Der Umsatz des Unternehmens kann also nur eine Variable sein. Damit wir auf der Grundlage der verschiedenen anderen Dinge vorhersagen können der Grundlage der verschiedenen anderen Dinge z. B. wie sich Ihr Unternehmen entwickelt, was ist angemessen, was ist der Verlust? Hey, wie viele Kunden hast du, wie viele Kunden hast du verloren und wie, wie du Salish unseren Implikationen gibst. All diese Gehaltskomponenten, Gewinn, Verlust, Marktlage, all dies sind die unabhängigen Variablen , die Ihren Umsatz definieren werden. Der Umsatz ist hier also eine abhängige Variable und alle anderen Dinge , die sich auf Ihren Umsatz auswirken, werden als abhängige Variablen bezeichnet. Dort kann es also viele abhängige Variablen geben und es wird nur eine unabhängige Variable , die wir vorhersagen werden. Okay? Die Regressionsanalyse ist also ein statistisches Standardverfahren zur Schätzung der Beziehung zwischen einer abhängigen Variablen, die oft als Ergebnisse bezeichnet werden. Welches Ergebnis wir also erzielen werden, wird als abhängige Variable bezeichnet. Und eine oder mehrere unabhängige Variablen. Eine oder mehrere unabhängige Variablen implizieren also Gehalt, Gewinn, Verlust, Marktlage, all diese Dinge, die oft als Prädiktoren, Kovariaten oder Merkmale bezeichnet werden. Diese werden also auch Funktionen genannt basierend auf den Funktionen, für die wir einen bestimmten Wert vorhersagen werden. Ich werde ein bestimmtes Ding platzen lassen, okay? Und diese werden auch Prädiktoren genannt, weil sie uns beim Umsatz oder beim Gewicht einer Person helfen werden. Die häufigste Form der Regressionsanalyse, die Analyse, ist die lineare Regression. Okay? Also hier gibt es multiple Regressionsanalysen wie multiple oder würden sie eine Analyse der einfachen linearen Regression, der linearen Regression, all dieser Dinge schicken eine Analyse der einfachen linearen Regression, der . Okay? Bei der linearen Regression, die wir tun, stellen wir fest, dass die Linie eine komplexere Linearkombination ist, die den Daten gemäß dem spezifischen mathematischen Kriterium am ehesten entspricht . Okay, was heißt Meer? Dies sind die Daten Nick-Gewicht auf der X-Achse und Höhe auf der Y-Achse. Okay? Basierend auf der Größe werden wir also das Gewicht der Proportionen vorhersagen. Also hier, wenn Sie sehen, das sind die Punkte. Diese Punkte sind 64, 64, R1, 77 KG, 177, Höhe. Das Gewicht beträgt etwa 64 Punkte , oder? Also dieser Punkt, das sind die Datenpunkte, die wir haben. Was wir also mit der linearen Regression machen, wir versuchen hier eine Linie zu finden. Versuche hier eine Zeile zu finden, die die Daten darstellt und sie aufbereitet. Ergebnisdaten wie Support, Sie finden hier jeden Punkt wie 65. Und wenn du hier eine Linie ziehst, wird sie sich dort kreuzen, du bekommst einen Punkt und baust auf diesem Gewicht auf. Sie werden feststellen, dass die Höhe besser ist als dieser Y-Wert für die Höhe, Sie erhalten den X-Wert, oder? Dieser Punkt gibt Ihnen also die X- und Y-Kombination oder Höhen- und Breitendaten, oder? Also, wenn du hier eine Linie ziehst, bekommst du die eine. Nehmen wir an, wir erhalten 65,8 oder wir geben 162 als höchste Zahl. Wenn wir also hierher kommen, erhalten wir hier den x-Wert. Das heißt, das wird das Gewicht der Person sein. Also werden wir versuchen, eine Linie zu finden, die die Linie korrekt darstellt, okay? Und Daten, oder? Daten nach den spezifischen mathematischen Kriterien. Okay? Also lineare Regression, diese beiden Variablen oder durch eine Gleichung. Bei der linearen Regression tragen diese beiden Variablen, abhängige und unabhängige Variablen, abhängige und unabhängige Variablen, die Exponentenpotenz beider digitaler Ebenen gleich Eins. Weil wir diese eine einfache Liniengleichung verwenden diese eine einfache Liniengleichung schreibe y ist gleich m x plus c. Y ist gleich m x plus c, wobei m die Steigung und der konstante Wert ist, okay? Also ist eine Konstante, oder? Also hier ist m x m Steigung. Auf dieser Grundlage können wir also jede Grenze ziehen, oder? Das ist also die einfache Liniengleichung, oder? Geradengleichung y ist gleich mx plus c. Auf der Grundlage dieser X- und Y-Werte versuchen wir also, diese Linie zu finden , die diese Daten, Größen- und Gewichtsdaten wirklich repräsentiert . Und da sie heißen, ist ihre Potenz eins, y quadriert m x plus c. Die Potenz von x und y ist eins. Es wird einfache Liniengleichung genannt. Und wenn ihre Leistung nicht eins entspricht, wird daraus ein Auto. Es wird keine gerade Linie sein. Es wird eine gekrümmte Linie sein, wie Sigmoidfunktion oder so, oder? Auf der Grundlage dieser Gleichung werde ich also versuchen herauszufinden, okay, also ist y die Antwortvariable, oder? Weil der Y-Wert, den wir auf der Grundlage des x-Werts vorhersagen werden. Und x ist der Prädiktorwert, Wert oder die unabhängige Variable. A und b werden Koeffizienten genannt. Wenn wir also eine lineare Regression durchführen, werden wir versuchen, das herauszufinden. A- und B-Werte, diese werden Koeffizienten genannt, sind Regressionskoeffizienten. Und basierend auf diesen beiden Werten, a und b, finden wir den Y-Wert, okay? Und damit bekommen wir diese Punkte, diese Punkte auf der Linie. Und wenn wir eine Linie ziehen, ergibt das Verbinden dieser Punkte eine gerade Linie oder eine Verringerung auf der Linie. Und diese Zeile gibt Ihnen die wahre Vorhersage der Daten. Okay? Wo wird es verwendet? Nun, wir verwenden die lineare Regression. Die Regressionsanalyse wird also hauptsächlich für zwei konzeptionell unterschiedliche Zwecke verwendet : Kräfte. Analysen werden häufig für Vorhersagen oder Prognosen verwendet. Angenommen, wir haben Größen - und Gewichtsdaten. Wir wollen auf der Höhe bauen. Wir wollen die Größe einer Person dort vorhersagen. Wir können unsere Prognosen verwenden. Nehmen wir an, morgen regnet es oder nicht, wahre oder falsche Fälle. Okay? Diese Art von Vorhersagen können wir also machen, wenn das Wetter wie ein sonniger Tag sein wird. Ich gehe an einem sonnigen Tag aus. Es wird nicht regnen. Prognose, das können wir in der Prognose- und Vorhersagesituation tun , wir verwenden die lineare Regression beim maschinellen Lernen. Und zweitens kann eine situationsstrenge Analyse verwendet werden, um zufällige Beziehungen zwischen den unabhängigen und abhängigen Variablen zu erhalten. Sie unterstützen Sie, wenn Sie zwei Variablen und abhängige und unabhängige Variablen haben , Sie herausfinden möchten, wie sie miteinander in Beziehung stehen. Sie sind, wir können diese lineare Regression verwenden, um die Beziehung zwischen der abhängigen und der unabhängigen Variablen zu finden die Beziehung zwischen . Nun, wie man die lineare Regression oder Regression festlegt. Einfaches Beispiel, das wir in unserer Hand machen werden, bei Sonnenuntergang, das Gewicht einer Person anhand der Körpergröße vorhersagen wird. Wenn wir also die Größe einer Person kennen, können wir mit dieser linearen Regressionsanalyse das Gewicht vorhersagen . Dazu benötigen wir also Verhältnis zwischen Größe und Gewicht einer Person und wie wir das machen, denn wir haben hier die Daten Höhe und Breite, die wir in unserem Beispiel verwenden werden. Was ich also zuerst mache, wir die Daten sammeln müssen, für die wir diese Beziehung herstellen wollen. Also werden wir diese Daten haben und dann werden wir, was wir tun werden, sobald wir die Daten haben werden. Die eigentliche Sache ist, sobald wir die Daten haben, werden wir eine explorative Datenanalyse durchführen explorative Datenanalyse um die Daten von einigen fehlenden Werten zu bereinigen, wie wir diese Daten entfernen können, was, wie können sie sich anfühlen. Also solche Dinge tun wir im wirklichen Leben. Aber hier, was wir tun werden, wir werden hier sehr charakteristische Daten sortiert haben. Wir wissen also, dass wir all die Dinge, die wir im letzten Teil des Kurses sehen werden, nicht dass wir all die Dinge, die wir im letzten Teil des Kurses sehen werden tun sollten. Aber im Moment haben wir hier die sehr sauberen Daten. Was wir also tun werden, das werden wir durchführen. Wir verwenden die LM-Funktion und versuchen, die Beziehung zwischen Größe und Gewicht herzustellen. Höhe und Breite, y und x, richtig? Größe und Gewicht werden versuchen, Leistung zu erbringen. Der Leasinggeber wird versuchen, mit der Funktion lm ein lineares Regressionsmodell zu erstellen . Die Lm-Funktion ist die Umkehrfunktion in R, die alle mathematischen Berechnungen im Hintergrund durchführt. Und es wird uns die Beziehung zwischen x und y geben. Schreiben Sie, y und x sind nass erhöht. Dadurch entsteht die eigentliche IF-Funktion. Und wenn wir eine Zusammenfassung dieser wahren Essenz verwenden, ob wir die Koeffizienten a und b finden können und wie sie miteinander in Beziehung stehen. Auf dieser Grundlage können wir also die reguläre Insulinlinie ziehen. Und wir können auch das Gewicht einer Person vorhersagen. Sie haben die Funktion nicht vorhergesagt. Es gibt eine weitere Funktion namens Predict, die wir diese Beziehung verwenden werden , nämlich die LM-Funktion. Okay, es wird also die lineare Regression verwenden, unsere Beziehung, die wir in diesem Schritt hergestellt haben. Und es wird diese X- und Y-Werte und diese Beziehung verwenden und versuchen, die Regressionslinie für uns zu ziehen. Wir werden die Regressionslinie hier zeichnen, aber hier mit der Vorhersagefunktion. Und die Vorhersagefunktion verwendet intern die Funktion oder Beziehung , die wir durch das lineare Regressionsmodell erhalten. Und es wird dieses Modell verwenden, um die Größe anhand des Gewichts vorherzusagen . Also werden wir in der nächsten Vorlesung sehen, wie wir das machen können. Ich hoffe, Sie müssen verstehen, was lineare Regression ist. Lineare Regression ist so etwas wie Unterstützung. Wir haben die Punkte hier und wollen auf der Grundlage der neuen Daten vorhersagen. Wir wollen das anhand der Körpergröße vorhersagen, ich möchte, nehmen wir an, basierend auf der Körpergröße 230, welches Gewicht ich ermitteln möchte? Also hier, wenn wir nur die Datenpunkte haben, können wir das nicht tun. Welches lineare Regressionsmodell wird also funktionieren? Es wird eine gerade Linie erstellt, die diese Datenpunkte wirklich darstellt. Es wird also bis 30 gemacht wenn du hier und hier eine Linie ziehst, den Schnittpunkt hier, dann bekommst du so etwas wie die Größe dieser Person. Es wird dir also eine Regressionslinie geben. Auf dieser Grundlage können Sie den Prädiktorwert von R vorhersagen und das Gewicht einer Person anhand der Größe vorhersagen. Okay? Wir sehen uns also in der nächsten Vorlesung. 41. Vorhersage mit linearem Regressionsmodell: Hallo und willkommen zurück. In der vorherigen Vorlesung haben wir also gelernt, was Regression ist und was wir gelernt haben, was die lineare Regression ist und wie wir sie verwenden können und wo sie ist. Du hast recht. Das ist also das praktische System. Und hier werden wir versuchen, unseren Code zu schreiben , um eine einfache lineare Regression zu implementieren, wobei wir einen von zwei Vektoren verwenden, x und y, wobei x das Gewicht der Portionen enthält. X enthält jeweils die Körpergröße des Patienten oder die teilweise Körpergröße einiger Personen, okay? Und dann wird y das Gewicht enthalten. Also ist x die Höhe und y enthält das Gewicht, das diesem x entspricht. Okay? Ausgehend von der Höhe, die nicht auf dem X basiert, wollen wir also das Y finden, oder? Das ist also unser Datensatz, oder? Auf der Grundlage von X, also der Körpergröße einer Person, wollen wir die Größe eines Teiles, das Saudi anhand der Körpergröße erstellt hat, vorhersagen . Wir wollen das Gewicht der Person vorhersagen, oder? Basierend auf x wollen wir also das Y vorhersagen, und hier überlegen wir , warum es anders gewichtet wird. Also ist x Größe und Gewicht. Und es ist ziemlich einfach, die Beziehung zwischen x und y in R herzustellen . Und weil R die Funktion oh, lm hat, ist die LM-Funktion eine lineare Regressionsfunktion oder ein lineares Modell. Die Lm-Funktion erzeugt diese Beziehung zwischen x und y. Also hier die erste Variable, die ersten Datenvektordaten, die wir hier definieren werden , das sind die abhängigen Variablen. Deshalb wollen wir auf der Grundlage des X vorhersagen. Wenn wir also so schreiben, heißt das, dass wir auf der Grundlage von x y vorhersagen werden. Y ist also kein Vorhersagewert und x ist der Prädiktor. X ist die unabhängige Variable und y ist die abhängige Variable. Y. Y ist abhängig, weil Y-Wert vom angegebenen X abhängt, oder? Welchen x-Wert auch immer auf dieser Grundlage ergeben wird, unser Modell sagt den Y-Wert voraus, das ist das Gewicht, oder? Also geben wir X an, das ist die Höhe der Proportionen. Auf dieser Grundlage wird die abhängige Variable Y vorhergesagt, nämlich Gewicht und Größe. Wir werden das Gewicht der Proportionen vorhersagen. Also diese lm-Funktion ist einfach, wir werden nicht im Hintergrund rechnen, weil die LM-Funktion sie implementiert, den Koeffizienten findet und alles, was sie benötigt , um diese Beziehung herzustellen. Aber in R wird, da wir In-vitro in erstellten Bibliotheken der LM-Funktion verwenden , automatisch die Beziehung zwischen x und y herstellen . Auf dieser Grundlage können wir Vorhersagen treffen. Der erste Schritt besteht also darin, die lineare Beziehung zwischen x und y herzustellen , okay? Also wird der Prädiktor hier sein oder die abhängige Variable wird hier sein. Und das ist die unabhängige Variable. Also anhand der Höhe wird x vorhergesagt. Warum das so ist, warte bis die Portion kommt. Also hier gebe ich einfach einen Dateinamen, W, Höhe, Gewicht, einen Punkt PNG, eine beliebige Datei. Lass mich, du kannst ihnen hier geben, was ich mache. Ich zeichne nur y-, x-, y-Werte, x-Werte auf der x-y-Ebene. Und ich gebe ihm eine Farbe Blau. Du kannst es grün geben. Und wir können hier die Größe, das Gewicht und die Lektionen schreiben. Wenn du die Lektionen ausdrucken kannst, die Regression, was auch immer du willst, kannst du das hier eintragen, okay, und dann verwende ich die AB-Linie. Jede Zeile erzeugt die Regressionslinie, und dennoch gebe ich die LM an. Okay? Und dann werden wir, wir werden sehen, wie wir uns ändern können und was ist das? Es ist wie haha, wie du die Datenpunkte in der Grafik platzieren willst. Und dann auf der X-Achse, Wartekäfig und Y-Achse, Höhe in Zentimetern. Okay? So werden wir es also planen. Und dann, was ich hier mache. Ich werde den High-Touch-170 Zentimeter zur Verfügung stellen. Also hier gebe ich X an, das 170 Zentimeter entspricht. Und basierend auf diesem x-Wert möchte ich das vorhergesagte Gewicht der Person Y vorhersagen. Also X gebe ich hier an. Also erstelle ich einen DataFrame und zeichne x gleich 170. Das wird sein, ich gebe dieser Variablen einen neuen Rand, eine neue Höhe. Okay? Und dann sage ich einfach ein Museum voraus, die Vorhersagefunktion, prognostiziere und ich verwende diese Beziehung, die wir hergestellt haben. Und ich sorge dafür. Die unabhängige Variable, die x ist. Also dieser x-Wert ist hier. Neu nass. Ich gebe ein neues an , das ist eine 70er-Zahl, eine, die angibt, was ich hier zeichne x und ich möchte das Y vorhersagen. Wenn wir das also ausführen, erhalten wir den Y-Wert. also für eine Körpergröße von 170 Zentimetern das Gewicht der Person, Was ist also für eine Körpergröße von 170 Zentimetern das Gewicht der Person, die auf der Grundlage der Beziehung, die wir im linearen Modell, dem linearen Regressionsmodell, festgelegt haben, vorhersagt die wir im linearen Modell, dem linearen Regressionsmodell, festgelegt haben . Lassen Sie mich das ausführen und die Ausgabe z sehen. Die Ausgabe, die wir erhalten, ist 67,33. Für 170 Zentimeter entspricht die Körpergröße einer Person also einer Körpergröße von 70 Zentimetern. Unser System prognostiziert , dass es das Hoch von 67,33 erreichen sollte . CEO. Wenn du 170 siehst, wird es ungefähr darum gehen. Okay, ich sehe 167. Ist es. Unser System sagt für eins, 70er, 67 voraus. Okay? Es wird also die mathematische Berechnung in der vorherigen Lektion und wir sind fertig damit, zuzuhören, basierend auf diesem Modell, linearen Regressionsmodell, das wir erstellt haben, es wird das Gewicht der Person vorhersagen , die ungefähr 67,33 wird. Lassen Sie mich Ihnen die Grafik zeigen. Nun, das ist also die Grafik , die wir hier gedruckt haben. Stellen Sie sicher, dass Sie hier diese Punkte sehen, die Datenpunkte sind grün , weil wir hier grün angegeben haben. Wenn ich es lesen lasse, werden die Datenpunkte in richtig, richtig umgewandelt. Okay, lassen Sie mich die Datei erneut öffnen. Die Datenpunkte sind rot markiert. Und noch eine Sache, die ich Ihnen sagen wollte, dieser CX-Wert bestimmt, ob ich dafür er 2,5 unterstützt, und wenn ich ihn ausführe, werden die Datenpunkte größer sein. Okay? Also, wir sehen uns, jetzt kommen die Datenpunkte in einer größeren Form. Okay? Auf diese Weise ist dies der X-Wert, um die Seiten der Datenpunkte zu vergrößern oder zu verringern. Okay? Und dieses Stück hier, Cystein und lassen Sie mich es auf 26 ändern und sehen, wie sich das auf die Abstimmung auswirkt. Jetzt kommt es so. So möchten Sie Ihre Daten also im Grunde platzieren. Also jetzt kommt es jetzt. Rechteckig, gerade. Wenn ich es in das Projekt einfüge, kommt es in Diamantenform. Das ist also im Grunde, wie du deine Nadel platzieren willst, wie du willst, dass sie einfarbig wird. Wert des PCs wird also im Grunde die Form der Datenpunkte verändern, oder? Cystein im Portraitformat, es wird mehr oder weniger kreisförmig in Kreisen erscheinen. Okay? Also jetzt und xlab ist das, was wir auf die X-Achse und den Namen auf die X-Achse und dann die Y-Achsenhöhe setzen . Das ist also Höhe und dieses Kantengewicht. Und das ist das Wichtigste, wenn wir es benutzt haben , um Größe und Gewicht und Reißverschluss zu verwalten. Das wird also hierher kommen und sehen, ja, das ist die Regressionslinie , die unser Modell gezogen hat. Das wird dir sie also geben. Wenn Sie einen Wert vorhersagen möchten, können Sie hier einfach 67 eingeben und es wird Ihnen dieses Wertesystem geben, das vorhersagt. Also sieh dir deinen Prozess T7 an, die Höhe ist, lass mich etwas tiefer in die Sache gehen. Also nach 67 gesucht, die Höhe ist eins. Solches T7. Ich wollte es nicht vorbereiten. Und lassen Sie uns sehen, was unser System für 150 vorhersagt, okay? Das ist mein Port 165. Sie können also nach einem solchen T7 suchen, auch nach diesem. Aber unser System sagt fünf voraus. Es ist also ähnlich wie 67,25, 1321 wie T7. Und unser System sagt einen voraus , der den Checkpoint und C setzt . Das ist also, als würde man mit dem Code herumspielen. Wenn ich das einschenke, schauen wir mal, was wir bekommen. C, wir bekommen 65,44. Was ist das in unserem Datensatz? Ich komme um die 67. prognostiziert unser System also. Es ist ziemlich genau, okay? Und das sagt die Regressionslinie aus, die es gezogen hat. Also hier sagen wir voraus, okay? Das nächste, was wir tun können, ist mein Idealzustand. Okay? Was ich dir noch sagen wollte, wir können jemanden vom Unterricht nehmen und wir werden sehen, was für jemanden es uns gibt. Wenn ich also allein darauf Wert lege, CEO, sollten wir alle Residuen wie Minimum, Median eines Quartils, Maximalwerte im dritten Quartil und dann die Kopienkoeffizienten m und c m und c m x plus c m- und c-Werte als Intercept hier herauskommen. Und das kommt dieser T-Wert und der P-Wert kommt so. Das sind also die Dinge, ist die Kooperation, die durch die LM-Funktion berechnet wird . Und auf dieser Grundlage sagt es das Wetter voraus. Und auf dieser Grundlage probiert es die bestimmte Zelllinie aus. Und mehrere R-Quadrat-Werte des CEO kommen wie folgt. Das angepasste R-Quadrat kommt so. Und F-Statistiken kommen dazu. Okay? Und die p-Werte hier, wir werden es so sehen, würden den Rahmen dieses Kurses sprengen. Wenn wir lernen, wenn Sie Algorithmen für maschinelles Lernen eingehend erlernen , werden Sie wissen, was diese Kopien sind werden Sie wissen, was diese Kopien sind und wofür sie verwendet werden. Das würde den Rahmen dieses Kurses sprengen, da wir gerade unseren Teil der Programmierung für maschinelles Lernen lernen. Sie sollten wissen , dass die LM-Funktion nun intern diese Kostenkoeffizienten der 3D-Welten verwendet und den Standardfehler, dass dieser Fehler auftritt, weil kein Modell die Schaltfläche „Verbinden“ vorhersagt, sodass es zu einem Fehler kommen wird . Der verbleibende Standardfehler liegt also bei diesem R-Quadrat-Wert von 17 Freiheitsgraden. Also was ich will die prognostizierten Werte und den erwarteten Wert, die prognostizierten Werte und was auch immer es sein würde. Das wird also der Fehler sein. Was auch immer wir suchen und welches System vorsieht, dass es eine Bearbeitung geben wird. Und wenn wir einen ziemlich schlechten Tag haben, werden wir die dort beschriebenen bekommen. Okay? Dies sind also die Werte, die vom linearen Regressionsmodell für maschinelles Lernen intern und zur Vorhersage der abhängigen Variablen verwendet vom linearen Regressionsmodell für maschinelles Lernen intern werden. Okay, ich hoffe, Sie haben ein wenig über ein lineares Regressionsmodell verstanden und wissen, wie Sie die LM-Funktion verwenden können , um Vorhersagen zu treffen und wie Sie diese lineare Regressionslinie zeichnen können. Okay, also Stephens Seite, die nächste Vorlesung. 42. CSV lesen, ein LR-Modell erstellen und Vorhersagen: Hallo Leute, willkommen zurück. In der vorherigen Vorlesung haben wir also gesehen, wie wir das lineare Regressionsmodell verwenden können und wie wir die Beziehung zwischen der abhängigen Variablen und der unabhängigen Variablen herstellen die Beziehung zwischen der abhängigen Variablen und der unabhängigen Variablen können und wie wir die lineare Regressionslinie vorhersagen und sogar plotten können. Regressionslinie meinte ich. Okay, und wir haben gesehen, was die Koeffizienten sind , wenn wir die Zusammenfassung und das lineare Modell für Pixel verwenden , und wir haben gesehen, wie wir die Daten vorhersagen können. Aber im vorherigen Beispiel, was wir getan haben, haben wir den Vektor r genommen, wir haben diesen Datenvektor für Größe und Gewicht genommen. Und dann haben wir das lineare Regressionsmodell für x und y erstellt . Und dann haben wir vorhergesagt, dass wir die Daten in der realen Welt nicht in diesem Format haben werden, im Vektorformat. Stattdessen befinden sich die Daten in unseren Datenbanken meistens in den Excel- oder CSV-Dateien. In den meisten Fällen handelt es sich um eine CSV-Datei mit Punkten oder um durch Kommas getrennte Dateien, oder? Du weißt es. In diesem Beispiel werde ich Ihnen sagen, was ich tun werde, als ob wir bereits in den vorherigen Vorlesungen gesehen haben, wie wir die CSV-Datei lesen können . Und dieses Wissen werden wir in dieser Vorlesung verwenden, um ein lineares Modell zu erstellen. Und wir werden die Daten aus der CSV-Datei lesen. Dafür habe ich mit den gleichen Daten für Höhe und Gewicht, die wir in der vorherigen Vorlesung verwendet haben, eine CSV-Datei mit Gewicht und Größe erstellt. Diese Spalte ist also das Gewicht und diese Spalte ist die Höhe. Okay? Das ist also die CSV-Datei Punkten für Höhe und Breite. Und was ich tun werde, der erste Schritt ist, dass wir die Daten aus der CSV-Datei lesen die CSV-Datei behandeln. Dafür verwende ich Metadaten und verwende die Funktion read.csv, um die CSV-Datei zu lesen. Mit dieser read.csv liest es also die CSV-Datei und überträgt die Daten in diesen Vektor, dieses Objekt, Datenobjekt. Wir können also anhand unserer Datei read.csv sehen , ob die Daten richtig gelesen werden oder nicht. Dafür können wir also die View-Funktion verwenden und das darin enthaltene Objekt bereitstellen. Also, wenn diese Ansicht Lungen hat und wir dieses Datenobjekt bekommen, wird es hierher gehen und es wird die CSV-Datei lesen. Und dann können wir uns mit BYU die Daten ansehen. Lassen Sie mich diese beiden Linien für Sie ausführen. Sehen Sie hier, wir erhalten die Ansicht der TO-Daten in unserem Gewicht und unserer Größe. Also das Gleiche, tut mir leid. Sehen Sie jetzt dieselben Daten, die wir im RStudio sehen können , mit der View-Funktion Wavefunction sieht die Daten auf diese Weise. Jetzt ist uns klar , dass unsere Datendatei Daten sind, wir aus der CSV-Datei gelesen haben. Im nächsten Schritt können wir nun das lineare Regressionsmodell für die Vorhersage erstellen. Also wollen wir das Gewicht und die Größe vorhersagen. Wir wollen das Gewicht der Person vorhersagen. Dafür erstellen wir also das lineare Regressionsmodell. Also verwenden wir hier die Funktion lm und w, Gewicht ist das Gewicht, das die abhängige Variable ist und Höhe ist die unabhängige Variable. Basierend auf der Größe wollen wir also das Gewicht vorhersagen. Hier werden Daten als Daten bezeichnet. Daten bedeuten, dass wir diese Daten verwenden. Sie können ihm einen beliebigen Namen geben. Du kannst. Jetzt können wir dies mit, sorry, Größengewicht, leider, eigentlich W-Daten, Größengewichtsdaten ändern sorry, Größengewicht, leider, eigentlich W-Daten, . Und so essen wir ihre CSP-Datei. Wir stellen das hier hin. Und dann bedeuten Daten, dass CO2 die Höhe erhöht, wenn Daten, okay? Auf diese Weise handelt es sich bei der Datenquelle um Größengewichtsdaten , die wir aus der CSV-Datei erhalten haben. Und hier erstellen wir das lineare Regressionsmodell mit der LM-Funktion. Und wir geben hier die abhängige oder unabhängige Variable an, warte, und die unabhängige Variable ist die Höhe und Daten die unserer Datenquelle entsprechen, sind diese ZWEI Daten. Und lassen Sie mich das nur kommentieren, damit es uns nicht stört. Und jetzt haben wir, jetzt dieses Modell. Ich habe einen Namen und ein Modell angegeben. Und wir werden die Zusammenfassung unseres Modells verwenden, um die Details zu erhalten. Lassen Sie mich also diese beiden Zeilen ausführen, lassen Sie mich bis hier laufen, weil wir sie geändert haben. Also lass mich das ausführen. Also sehen Sie hier, jetzt bekommen wir die Zusammenfassung unseres linearen Modells, lineares Regressionsmodell wie den Cholesterinspiegel oder dieses, den Quartilmedian. Maximaler Koeffizient des dritten Quartils, enger Achsenabschnitt, all diese Werte, die wir hier bekommen. Und dann bekommen wir den Standardfehler. Der Standardfehler ist 1,21, 0,789, 17 Freiheitsgrade mehrfacher R-Quadratwert angepasster R-Quadratwert, p-Wert. Und wir beschäftigen uns auch mit Statistiken, okay? Also, jetzt ist unser Modell, das heißt, ein lineares Regressionsmodell fertig. Jetzt sind wir bereit, auf der Grundlage der neuen Daten Vorhersagen zu treffen. Also, was ich hier mache, ich gebe eine neue Höhe an, die 152,21 ist. Okay, lassen Sie mich das auf 16485 ändern. Okay? Und für diese Größe möchte ich das Gewicht vorhersagen, was für diese 165,85 Zentimeter Höhe, ich möchte das Gewicht der Person vorhersagen. Also dieser amüsante DataFrame, denn was auch immer wir aus der CSV-Datei lesen, es wird als DataFrame kommen. Also erstelle ich hier einen DataFrame mit einer Höhe von 174,85 und gebe ihm einen Namen, von dem ich wusste, dass das neueste Objekt von gestern die Site Azure 164.85 enthalten wird . Jetzt prognostizieren die letzten Tage das Gewicht anhand eines Modells. Und dafür verwenden wir die Vorhersagefunktion. Und innerhalb der Vorhersagefunktion geben wir zwei Argumente an. Eines ist unser Modell, unser Modell, das wir hier geschaffen haben. Also dieses LM-Modell, das ich hier zur Verfügung stelle, damit es auf der Grundlage dieser Beziehung vorhersagt und was vorhersagt. Und wir stellen die Daten zur Höhe zur Verfügung. Wir geben also eine Höhe von 164,85 Jahren an. Also stellen wir hier das Datenobjekt als die neue Kante bereit. Also wird es das als Eingabe verwenden. Es wird zu diesem Modell gehen. Und basierend auf dieser wahren Essenz von Höhe und Breite wird die Höhe auf 174,85 gesetzt und das neue Gewicht, das Gewicht dieser Person, vorhergesagt . Okay, jetzt sagen wir einen gewissen Wert voraus. Ich halte es bei der Gewichtsprognose, weil wir die Gewichte sind. Also habe ich wet predicted als diesen Objektnamen angegeben. Als Nächstes haben wir das neue Gewicht in diesem wiederholten Gewicht in diesem Objekt. Das müssen wir ausdrucken. Sie können also hier drucken. Da ich aber mehrere Zeilen drucken wollte, verwende ich die Cat-Funktion. Okay? Da die Funktion printf also nur 11 Zeilen gleichzeitig druckt, wollte ich ein oder zwei Sätze verketten. Für die Höhe. Dieses prognostizierte Gewicht ist das. Okay? Das kann also nur mit der Cat-Funktion möglich sein. Wir können dies mit der Druckfunktion nicht tun , da die Druckfunktion darauf beschränkt ist, nur die Objekte, Objektwerte, zu drucken. Nur es kann drucken, es kann die Aussage nicht drucken. Dafür benutze ich Cat. Wenn Sie so etwas drucken möchten, können Sie die Cat-Funktion verwenden. Jetzt verwende ich Cat und verwende für Höhe gleich, um diese für den Wind zu modifizieren. Das vorhergesagte Gewicht von fünf ist, ich drucke jetzt aus, wo es hier vorhergesagt wurde. Lassen Sie mich also den gesamten Code hier ausführen, also klicke ich auf Quelle und CEO für die Größe 164,85 werden vorhergesagt, das Gewicht ist 661794. Damit können wir also vorhersagen, jetzt sagt unser Modell, dieses lineare Regressionsmodell das Gewicht als 66,79 voraus. Lassen Sie mich Ihnen dieses Modell zeigen und das frühere Modell liefert dasselbe Ergebnis oder nicht. Was ich also tun werde, statt eines PIP2 im vorherigen Beispiel gebe ich 164,85 ein und ich werde versuchen, auch dieses letzte Jahr durchzuführen Wir erhalten das gleiche Ergebnis, 66,7, 9465. Also in beide Richtungen, weil die Daten hier gleich sind, haben wir sie im Here-Vektorformular belassen und hier lesen wir sie aus der CSV-Datei, aber die Daten sind dieselben. Deshalb erzielen wir mit den beiden Modellen die gleichen Ergebnisse . Auf diese Weise können Sie aus der CSV-Datei lesen und ein lineares Regressionsmodell erstellen. Und auf dieser Grundlage können Sie den Wert vorhersagen, was auch immer Sie wollen. Das kannst du machen. Sie können dieses Problem mit allen anderen Datenpunkten versuchen , die Sie haben können. Zum Beispiel anhand des Alters können Sie das Gewicht oder anhand von kategorischen Daten ermitteln , Ihre Daten können Sie nehmen und in die CSV-Datei einfügen und Sie können einen Wert vorhersagen, aber den anderen, indem Sie das lineare Regressionsmodell erstellen. Ich hoffe also, dass wir mit diesem Beispiel ziemlich zuversichtlich sind, was die lineare Regression angeht, wie wir ein lineares Regressionsmodell erstellen können , um die Werte vorherzusagen. Und ich hoffe, du wirst mehr damit üben. Und du kannst das viel besser machen, oder? Wenn du also übst, wirst du besser mit unserer Programmierung und den Dingen des maschinellen Lernens umgehen. Ich hoffe, Sie haben das lineare Regressionsmodell verstanden. Und das war's für diese Vorlesung. Schauen wir uns also an, was wir weiter lernen können. 43. Multiple Regression: In der vorherigen Vorlesung haben wir gesehen, wie wir die lineare Regression verwenden können. Was wir als lineare Regression mit zwei Vektoren gesehen haben , sind zwei Datenobjekte wie Gewicht und Höhe. Und wir haben die Marke des Lizenznehmers geschaffen, dann haben wir Hockey. Und dann haben wir diese CSV-Datei landen lassen oder unser LM-Modell erstellt, die lineare Beziehung zwischen Gewicht und Höhe und dann Meta und Höhe. Wir haben das entsprechend weniger Produktive vorhergesagt. Großartig das Teilstück. Okay? Nun, das war die lineare oder die Kollision, oder? Nun, unsere einfache lineare Regression, jetzt haben wir ein anderes Problem, bei dem wir die Antwortvariable für unsere abhängige Variable sind oder der Wert, den wir vorhersagen werden, an sie geht. Es kann, wie bei der linearen Regression, das, was wir gesehen haben, die abhängige Variable und unabhängige Variablen. Abhängige Variable, abhängig von nur einer Variablen, einer unabhängigen variablen Rate. Aber in realen Situationen meistens die Leistung oder der Wert, den wir vorhersagen werden. Es wird nicht unbedingt nur von einer abhängigen Variablen abhängen. Aber es kann viele, viele unabhängige Variablen geben, die definiert werden, um die unabhängige Variable zu beeinflussen. Es ist also nicht so, dass wir immer die lineare, einfache lineare Regression bekommen werden. Wir können mehrere unabhängige Variablen haben , die sich auf die Ausgabe auswirken. Wie im Fall der Unterstützung dieser Vorhersage, des Wetters. Vorhersage kann von vielen Situationen abhängen , z. B. ob es ein Regentag ist, welche Region es sich handelt, welche Art von Wolken es gibt? Und viele weitere Dinge, oder? Angenommen, Sie haben ein Unternehmen und werden Ihren Umsatz anhand einiger Faktoren vorhersagen. Es muss also viele Faktoren geben, wie ich bereits sagte, wie ich bereits sagte, Sie müssen die Anzahl der Mitarbeiter haben, wie wir Ihre Mitarbeiter loben werden, das wird sich auch auf Ihren Umsatz auswirken. Wie ist Ihr Gewinn und Verlust? Wenn Sie Gewinne erzielen, wird Ihr Umsatz höher sein. Wenn Sie verloren sind, Ihre Einnahmen sinken. Und wenn Sie das nicht tun, nehmen wir an, Sie haben einige unserer Steuern, mehr Steuern, dann werden sich Ihre Einnahmen darauf auswirken. Es gibt also viele Faktoren, die Ihren Umsatz bestimmen oder definieren werden . Also hier, dieses, dieses Problem kann nicht mit der linearen Regression gelöst werden. Wir müssen die multiple lineare Regression verwenden, da der Produktionswert oder der Umsatz von vielen Faktoren abhängt. Hier sind also die Faktoren, dass die Funktionen unabhängig sein werden. Funktionen sind die Faktoren, die den Umsatz ausmachen werden . In diesem Fall haben wir also etwa a, B X1, X2 plus so weiter und so fort, bn XN. Das heißt, b1, b2, bn und E, all die Koeffizienten, die wir später bei uns gesehen haben, y ist gleich mx plus c genau hier, nur eine Achse dort. Aber bei der multiplen Regression werden bis Vn b1, b2, b3 vor uns liegen, oder? Dass es eine Reihe von Faktoren geben kann, die das beeinflussen werden. Okay ? Das ist also die einfache lineare Regression. Und diese Gleichung gilt für die multiple lineare Regression, weil Sie B1, B2 sind. Es kann eine Reihe von Faktoren geben, die das Ergebnis beeinflussen werden . multiple lineare Regression, auch einfach als multiple Regression bekannt, ist also auch einfach als multiple Regression bekannt, eine statistische Methode , bei der Sie nur mehrere erklärende Variablen verwenden, um das Ergebnis unserer Antwortvariablen vorherzusagen . Okay, also was ich tun werde, lassen Sie mich Ihnen einen Datensatz zeigen. Was ich also verwenden werde, werde ich in realen Daten verwenden , die mit dem R verfügbar sind , also leere Autos. Also empirische Daten, dieser Datensatz ist mit dem R-Paket selbst verfügbar. Wenn Sie also R herunterladen, wird es mit dem R-Paket geliefert. Okay? Also leere Autos, damit du View benutzen kannst. Ansicht. Die Trigger von I'm geben Ihnen die Ansicht des Datensatzes. Also seht, das ist der Datensatz verschiedener Götter wie Martha Jackson, Hornet. Das ist unübertroffen, ist okay. Es gibt also viele Autos und es ist wie Meilen pro Gallone, Hubraum, Pferdestärken, Gewicht. Okay. Es gibt also, es gibt viele wichtige Jahre Auto. Okay. All diese Faktoren werden also die Meilen pro Gallone definieren , oder nur wenige Faktoren haben möglicherweise keinen großen Einfluss. Und Feldvektoren werden mehr beeinflussen. Wenn Sie beispielsweise Meilen pro Gallone als die Leistung betrachten , die Sie erzielen möchten, möchten Sie die Meilen pro Gallone anhand des Hubraums, der Pferdestärke und des Gewichts des Autos vorhersagen Gallone anhand des Hubraums, der . Dann wird vielleicht auch die Anzahl der Zylinder keinen großen Einfluss auf die Meilen pro Gallone haben , oder in einigen Fällen kann es viel Lexi haben, ja, Vierzylinder haben noch -33, 30, 26. Und wenn Sie sehen, dass acht Zylinder weniger minus zwei haben, diese Anzahl von Zylindern im wirkt sich diese Anzahl von Zylindern im Motor auf das Myelin aus. Das ist also ein Faktor. Dann. Hubraum kann sich auch auf den Durchschnitt der Laufleistung des Autos auswirken. Und dann das Auto nachlesen wird sich auch auswirken. Sehen Sie hier, dass es verschiedene Merkmale gibt, nämlich die unabhängigen Variablen, die Anzahl des Zylinderhubraums, Gewicht und die Anzahl der Gänge. Das sind also die Dinge, die das Myelin beeinflussen werden . Hier müssen wir also eine multiple Regression verwenden , wenn Sie den Kilometerstand oder pro Auto anhand der Anzahl des Hubraums und des Gewichts vorhersagen möchten den Kilometerstand oder pro Auto anhand . Wenn Sie all diese Faktoren berücksichtigen wollen, müssen wir diese multiple Regression verwenden. Und wenn Sie, wenn Sie diese Gleichung der multiplen Regression sehen, diese b0, b1, b2, x2 und x1. Dieses X 1 kann also das Gewicht des Autos sein, zusätzlich kann es der Hubraum des Autos sein. Und X3 könnte der andere Faktor sein, wie die Anzahl der Zylinder im Auto. Also, bei all diesen Koeffizienten werden die Werte b1 , b2, b3 je nachdem, wie, wie sich X1 oder das Gewicht des Autos auf das gesamte Majlis auswirken, entscheiden X1 oder das Gewicht des Autos auf das gesamte Majlis auswirken oder den Durchschnitt des Autos erhöhen. Auf der Grundlage dieser Werte wird also entschieden, wie es sich auswirkt, ob a, b1 höher ist als diese Gewichtung des X1, oder? Auf diese Weise können wir also die multiple Regression verwenden. Was ich also in der nächsten Vorlesung machen werde, ist, dass wir diesen Datensatz, der leere Autos enthält, praktisch bearbeiten. Und wir werden versuchen, eine multiple lineare Regression oder eine multiple Regression zu verwenden multiple lineare Regression oder eine multiple Regression , um Meilen pro Gallone oder den Durchschnittswert eines Autos vorherzusagen , basierend auf den Merkmalen, die davon abhängen , also hier, Hubraum, Gewicht des Autos. All dies werden abhängige oder unabhängige Variablen sein. Und Meilen pro Gallone werden die abhängigen Variablen sein. Bedeutet, dass diese Werte Zylindergewicht des Autos, die Anzahl des Zylindergewichts des Autos, den Hubraum des Autos und die Anzahl der Jahre im Auto sind. Dies ist der Prädiktor und Meilen pro Gallone ist der prognostizierte Wert. Oder dies sind die Merkmale oder die unabhängigen Merkmale, unabhängige Variablen. Und das wird die Antwortvariable oder die Ausgangsvariable oder der Vorhersagewert sein. Das werden wir also der nächsten Vorlesung in einer praktischen Lektion tun. Wir sehen uns in der nächsten Vorlesung. 44. Vorhersage des PKW-Kilometerstandes mit Multiple Regression in R: Hallo und willkommen zurück. Also werden wir jetzt etwas mit der multiplen Regression machen. Das ist also ein praktisches System mit multipler Regression. Also werden wir einen leeren Fahrzeugdatensatz verwenden. Und dafür werden wir nicht alle Spalten verwenden, sondern all die Dinge, die es gibt. Aber wir verwenden MPG, Hubraum, SP und warten auf Gott, okay, Pferdestärken und Gewicht des Autos. Okay. Auf der Grundlage dieser drei Werte werden wir den Kilometerstand des Autos oder den Durchschnittswert des Autos, Meilen pro Gallone, vorhersagen Kilometerstand des Autos oder den Durchschnittswert des Autos, . Okay, wir werden diese drei Funktionen verwenden, diese vier Funktionen in unserem Datensatz. Und drei werden die sein, diese drei werden die unabhängigen Variablen sein, und diese NPD wird die abhängige Variable oder der prognostizierte Wert sein . Und diese drei werden der vorhergesagte Prädiktor sein. Okay? Als Erstes müssen wir also das Beziehungsmodell erstellen, das lineare Regressionsmodell, unser multiples Regressionsmodell. Also genauso, wir werden die lm-Funktion, die wir hier zwei haben, in eine einfache lineare Regression verwenden . Die Theme LM-Funktion werden wir verwenden, aber mit einer etwas anderen Formel. Also, was auch immer wir geben, hört diese sogenannte Formel. Und die zweite Eingabe ist, das zweite Argument sind die Daten. Okay? Also hier, lassen Sie mich diese Kostendaten eingeben. Das hat seinen Preis. Okay? Also das sind jetzt die, das sind unsere Daten. Das wird diese vier Funktionen enthalten, okay? Und ihre entsprechenden Werte. Okay? Also Daten, wir nutzen Kostendatenhockey, das wir von den leeren Autos bekommen. Okay? Wir werden das Modell erstellen. Okay? Lassen Sie mich daraus ein lineares Regressionsmodell, multiples lineares Regressionsmodell und ein MLR-Modell machen. Ich gebe ihm den Namen. Also lass mich, okay. Also hier, unser Layer, was machen wir? Wir hatten nur einen prognostizierten Wert und einen Prädiktor, oder? Also haben wir immer so gegeben, okay, verheiratet unter Vertreibung, finde den Majlis. Aber jetzt haben wir drei unabhängige Variablen, die das Myelin im Auto beeinflussen werden. Also müssen wir angeben, das wird der vorhergesagte Wert oder die abhängige Variable sein. Und hier bei diesen drei können wir Hubraum plus p plus Gewicht angeben. Bei diesen drei Variablen wird es sich unabhängige Variablen handeln, die das Myelin beeinflussen werden um unabhängige Variablen handeln, die das Myelin beeinflussen werden . Auf diese Weise können wir die LM-Funktion für multiple Regression und die multiple Regression verwenden, da wir mehrere Merkmale für die Vorhersage eines Werts verwenden. Ein vorhergesagter Wert wird auf der Grundlage der mehreren, einer oder mehreren unabhängigen Variablen ermittelt, okay? Und Daten entsprechen Cos Theta. Also lass mich bis hier rennen. Wir drucken das Modell. Okay, mal sehen, was die Koeffizienten sind und wir bekommen nur Natrium. Also sehen Sie hier, unser Modell gibt den Schnittpunkt als 37 an und Verschiebung als Windurogenital 97 bei einem B-Koeffizienten kommt wie folgt. Und unser Koeffizient ist da. Also hier ist der Intercept. Dieser Schnittwert ist 37. Das wird sein, das ist a. Wenn Sie sich diese Formel ansehen, ist y gleich a plus b1 x1 plus x2 plus beta drei x drei. Okay? Also hier haben wir drei, also werden es drei sein. X d. Hier ist 37. Dieser Schnittwert ist das a, und dann ist B1 die Verschiebung. B2 ist der HP, der HP-Koeffizient, und B3 ist das Gewicht der Kopien, also -3,8. Okay? Jetzt haben wir also die Koeffizientenwerte hier. Wir können einfach den Koeffizientenwert drucken. Wenn ich x gebe , erhalte ich den Verschiebungskoeffizienten. Der gleiche Wert, den ich hier bekomme, oder? Was ich jetzt tun kann, ich kann diese Koeffizientenwerte in diese Gleichung eintragen, um unseren vorhergesagten Wert y zu erhalten . Y wird der MPG sein. In diesem Fall, unsere Piloten in diesem Fall, haben wir diesen Intercept und wir haben den B1 als diesen, B2. Wir haben das und das wird der V3 sein. Nun, wenn wir ein Auto mit 324 Hubraum und 110 PS und einem Gewicht von 2,5 haben. Wir können den Durchschnitt vorhersagen, indem diese Werte mit dem Koeffizienten zusammensetzen und die Dinge trennen diese Formel. Also was ich tun werde, y ist gleich einem Plus, also wird a dieser Wert 37 sein, okay? Und x wird der Schnittpunkt der Verschiebung sein, dieser. Und dann multipliziere ich das mit dem Verschiebungswert 324. Dann ist x ist p der Koeffizient von HP, dieser. Und ich multipliziere das mit 110. Das wird der heißeste Teil des Autos sein. Und dann ist x t der Gewichtskoeffizient, den wir hier bekommen, -3,8. Und das multipliziere ich mit dem Gewicht des Autos. Also sehen wir uns, indem wir einfach diese Gleichung, diese Werte, können wir die Leistung vorhersagen, unabhängig von dieser Gleichung, die Leistung, es wird die prognostizierte Kilometerleistung des Autos sein. Lassen Sie mich das einfach ausführen, lassen Sie mich diese beiden Zeilen ausführen. Jetzt sind die vorausgesagten Meilen der Karte 23,87 Meilen. Also basierend auf der Frage hier, basierend auf dieser Gleichung, denn hier wird der E-Wert 37 -0,00, 0937 sein. Und all diese Werte. Und wenn wir das eingeben, erhalten wir den Y-Wert. Y ist die MPG-Meilen das Auto hinauf. Also das Auto mit 324 Hubraum, Hundert PS und 10,2, 0,5, unser System sagt das Myelin als 23,8 7247 voraus. 23,8 wird also der Durchschnitt dieses Autos sein. In ähnlicher Weise können Sie einen anderen Wert für den Hubraum bei B und das Gewicht des Autos angeben einen anderen Wert für den Hubraum . Basierend auf diesen drei unabhängigen Variablen prognostizieren wir also eine abhängige Variable, die y ist. Sehen Sie hier, wir haben die Koeffizienten und Schnittpunkt in dieser Gleichung, um den Kilometerstand des Autos zu ermitteln. Das ist ziemlich einfach und ziemlich real, oder? Wir bekommen den echten Output, wir bekommen den Output. Und das heißt, das ist durch ein multiples Regressionsmodell, das wir durch diese Beziehung, durch diese Formel erstellt haben . Hier lautet die Formel, dass Sie nur ändern, alle anderen Dinge sind der linearen Regression ziemlich ähnlich. Aber hier, wenn wir noch mehr Funktionen hinzufügen möchten , können Sie diese unabhängigere Variable hier einfügen. Und es wird eine abhängige Variable oder die Ausgangsvariable geben. Okay? Auf dieser Grundlage erhalten wir die Ausgabe als 23,87. Auf diese Weise können wir also die multiple lineare Regression und die multiple Regression verwenden die multiple lineare Regression , um den Wert vorherzusagen. Sagen Sie also einen Wert auf der Grundlage der vielen Merkmale voraus, die viele unabhängige Variablen enthalten. Wir müssen die multiple lineare Regression verwenden. 45. Logistische Regression: Hallo und willkommen zurück. In dieser Vorlesung lernen wir logistische Regression und sehen uns ein einfaches Beispiel logistische Regression an und wie wir diese verwenden können. Okay, lassen Sie uns zunächst verstehen, was logistische Regression ist. Logistisches Regressionsmodell. logistische Modell, auch Logikmodell genannt, wird verwendet, um die Wahrscheinlichkeit einer bestimmten Klasse zu modellieren. Nehmen wir an, wenn Sie wollen, Sie, wenn Sie einige Daten von Watson haben wo ich wie Diabetiker bin, beschriften Sie all diese Dinge. Und auf dieser Grundlage möchten Sie vorhersagen, ob die Sonne fit ist oder nicht, oder? Also hier ist die Person fit oder nicht fit. Also ja, die Daten sind genau das Ergebnis, dem wir vorhersagen wollen, dass es sich um eine Art von dem wir vorhersagen wollen, dass es sich um eine Art binärer Natur handelt. Es gibt zwei Dinge, die passen , nicht fit, fit oder nicht fit, oder? Das logistische Modell wird also verwendet, um die Wahrscheinlichkeit zu modellieren eine bestimmte Klasse oder das Ereignis existiert, wie zum Beispiel Boss-Pille, wenn Sie etwas Unordnung schreiben, werden Sie entweder bestehen oder nicht bestehen. Wenn Sie an Begleitprogrammen teilnehmen und diese gewinnen oder verlieren. Es gibt also binäre Outputs richtig, past pale, win-lose, live, tot, gesund oder krank. Dies kann erweitert werden, um verschiedene Klassen von Ereignissen zu modellieren , z. B. um festzustellen , ob ein Bild eine Katze oder einen Hund oder einen Löwen enthält, oder? Sie können also unsere E-Mails eingeben und ein System trainieren , dass es die findet, egal ob die Bilder von Katzen oder Hunden oder Linien, oder? Also Katze oder Hund, etwas wie ein Löwe, oder? Jedem Objekt, das im Bild erkannt wird, würde eine Wahrscheinlichkeit von 0-1 zugewiesen werden , oder? Es kann also eine Katze oder ein Hund sein, oder? Also Katze sein, eins ist Hund. Und wenn Sie irgendein Bild präsentieren, wird es entweder den Wert Null oder Eins oder eine Wahrscheinlichkeit zwischen Null oder Eins zuweisen . Es könnte 0,05 oder 1,65 sein, oder? Wahrscheinlichkeit wird also 0-1 sein und die gesamte Summe aller Wahrscheinlichkeiten wird gleich Eins sein, weil das Auftreten von Ereignissen, Wahrscheinlichkeit des Auftretens von Ereignissen immer eins wäre , oder? Auf diese Weise verwenden wir also unsere logistische Regression und logistische Regression, oder? Gleichung für die logistische Regression lautet, y ist gleich 1/1 plus e potenz a plus b 1X1 plus b2 x2 plus B3 X3 und so weiter. Das ist also die mathematische Gleichung der logistischen Regression. In Python verwenden wir die GLM-Funktion zur GLM-Funktion für die logistische Regression. GLM-Funktion dafür wird also auch als generalisiertes Logistikmodell bezeichnet, oder? Glamour. Und es wird die Formel enthalten wie wir es bei der linearen Regression getan haben. Also schreiben wir die When-Formel mit der abhängigen Variablen und der unabhängigen Variablen, oder? Und dann müssen wir die Daten angeben, für die wir die GLM-Funktion ausführen möchten. Und dann müssen wir die Schriftfamilie angeben. Wie eine Familie. Hier verwenden wir das Binomial in unseren Beispielen. Also was ich tun werde, ich werde das Thema Autodaten verwenden, leere Fahrzeugdaten, die wir zuvor verwendet haben, oder? Also Kostendaten, die wir auch im vorherigen Beispiel verwendet haben. Und ich werde AIM verwenden. Ziel ist wie ein automatisches oder manuelles Getriebesystem. Also PS, Pferdestärke, Gewicht und Anzahl der Zylinder im Motor, richtig? Und dieses EM ist automatisch oder manuell. Die Daten in den leeren Autos enthalten also Null oder Eins. Lassen Sie mich es Ihnen zeigen, lassen Sie mich diese beiden Zeilen ausführen und mir die Daten ansehen. Sehen Sie hier, für alle Fahrzeuge, PS, Gewicht und Zylinder ist m entweder Null oder Eins. Es ist ein binärer Wert, Null oder Eins. Entweder ist es automatisch oder manuell, oder? Okay. Für alle Fahrzeuge haben wir Daten für m, die Null oder Eins sind, dann ist es eins oder Null für die gesamte Kombination aus HP-Gewicht und Zylinder. Also, was ich hier in diesem Problem, in dieser Vorlesung, tun werde, was wir mit der GLM-Funktion oder der logistischen Regressionsfunktion machen werden. Basierend auf dem, was wir tun werden , gibt es vier Dinge. Vier Säulen, AM, HP, Gewicht und Zylinder. Also werden wir versuchen, das zu finden. Wir machen diese PS, Gewicht und den Zylinder als unabhängige Variablen. Und m wird die abhängige Variable sein. Bedeutet. Wir werden vorhersagen. Nein, mir geht es gut, alles klar, also was wir tun werden, wir werden sehen, dass wir Sie dabei unterstützen, ein Modell zu bauen. Wir sollten wissen, welche Faktoren oder welche Merkmale sich auf die prognostizierten Werte auswirken werden. Mehr Unterstützung. Wenn wir ein logistisches Regressionsmodell mit all diesen drei Antwortvariablen oder unabhängigen Variablen erstellen all diesen drei Antwortvariablen oder , ist unser Modell möglicherweise nicht korrekt , da sich bei diesen drei PS Gewicht und Zylinder nicht alle drei auf die gleiche Weise darauf auswirken , ob die Fahrzeuge manuell oder automatisch fahren, oder? Vielleicht entscheidet die Zylinderzahl des Zylinders, der Endocast entscheidet, mehr Einfluss auf das Carving als Dienstmädchen haben , da ein Automatikgetriebe oder ein manuelles Fahrzeug oder ein höheres Gewicht oder mehr PS haben. Die Pferdestärke entscheidet darüber , ob die Kosten automatisch oder manuell erfolgen. Was wir also mit der einfachen GLM-Funktion machen werden, wird versuchen herauszufinden, welche dieser drei abhängigen Variablen, tut mir leid, wir erreichen diese drei unabhängigen Variablen , Auswirkungen auf EM haben. Was es also tun wird, es wird uns helfen, das zu analysieren. Welche Merkmale sollten wir für die weitere Analyse in Welche Merkmale sollten wir für die Betracht ziehen. Und lassen Sie die andere IP-Unterstützung übrig. Wir stellen fest, dass das Gewicht weniger Einfluss auf Am hat als die anderen beiden. Wir können das Gewicht für die weitere Analyse weglassen und uns für den HB und den Zylinder entscheiden, oder? Wenn der Zylinder keinen Einfluss darauf hat, können wir uns für den SPN entscheiden. Diese Analyse hilft uns also, das irrelevante Merkmal, die irrelevante Spalte , bei der Entscheidung für den EM zu finden . Okay, das werden wir in dieser Vorlesung tun. Okay? Also, wie werden wir das machen? Wir verwenden die GLM-Funktion und schreiben die Formel so um, als würden wir das m als prognostizierten Wert oder als abhängige Variable verwenden. Und diese drei unabhängigen Variablen wir zu erstellen versuchen, werden versuchen, die GLM-Funktion zu generieren. Und dann werde ich mit der Zusammenfassung von GLM versuchen zu sehen, welchen Koeffizienten und welchen p-Wert wir erhalten. Der p-Wert entscheidet darüber , ob sich unsere Variable auf den vorhergesagten Wert auswirkt oder nicht. P-Wert. Der P-Wert bedeutet die Wahrscheinlichkeit des Auftretens dieses Dings, okay, die Wahrscheinlichkeit des Auftretens von Gewicht auf diesem HP-Gewicht und Zylinder. Wenn der p-Wert also größer als 0,5 ist, bedeutet das, dass, falls der HP-Wert als Teil unterstützt wird, größer als 05 ist, das bedeutet, dass P keinen Einfluss hat, keinen signifikanten Einfluss auf das Ziel. Und wir können den HP verlassen und mit dem p-Wert fortfahren. Fahren Sie mit den unabhängigen Variablen fort , deren p-Wert unter 0,05 liegt. Also lass mich, also haben wir das erledigt. Lassen Sie mich also, der nächste Schritt, nächste Schritt ist, dass wir die logistische Regression durchführen müssen. Also hier gebe ich einen Variablennamen für die Daten des Autos. Okay? Unser Datensatz ist also cos Theta. Und hier erstelle ich ein logistisches Regressionsmodell. Ich gebe Ihnen den Namen Kosten , die ich bin und ich verwende GLM-Funktion hier in der Formel, was mir gegeben wird, ich werde als unabhängige, abhängige Variable, e Omega, automatisch oder manuell gegeben . Es ist eine binäre Sache, oder? Null oder eins. Und gebe ich als abhängige Variable diesen Wert an, den wir auf der Grundlage dieser drei Zylinder, SP und Radar vorhersagen werden auf der Grundlage dieser drei Zylinder, SP und Radar vorhersagen , der unabhängigen Variablen oder Merkmale, die entscheiden werden , ob ich Recht habe. Und Daten, die ich verwende, Daten, die wir aus dem Binomial der leeren Autos und Familien erhalten . Okay, lassen Sie mich das jetzt ausführen und die Zusammenfassung der Daten ausdrucken, das datenlogistische Regressionsmodell eines Autos. Jetzt haben wir die GLM-Funktion verwendet und die Zusammenfassung davon gedruckt. Sie können diesen Ausdruck belassen und einfach die Zusammenfassung ausführen. Das wird dir auch dasselbe geben, okay? Also sieh mal, es gibt uns all die Dinge , von denen wir genug haben. Sogar die lineare Regression bezieht sich auch auf den Koeffizienten und auch hier nennen wir die GLM-Funktion mit der Formel so. Okay? Und wir verwenden die Datensatzklassendaten und das Familienbinom und sehen uns Ihre Dividende an. Mittelwert, Median im ersten Quartil, Maximum im dritten Quartil, all diese Werte, die wir erhalten. Und dann erhalten wir die Koeffizienten für jede unabhängige Variable. Also hier, sehen Sie hier abfangen, wir erhalten diesen Wert und das ist der PR-Wert, das ist der P-Wert, von dem ich gesprochen habe. Wenn der p-Wert größer als 050,05 ist, dann ist das, nun, diese wertvolle, diese Antwortvariable, die wir weglassen können, oder? Das hat keine großen Auswirkungen auf das Ziel. Für Zylinder. Siehst du dich? Der p-Wert ist 0,6 491. Es ist viel zu hoch im Vergleich zu 0,05, oder? Also Zylinder, das bedeutet, dass der p-Wert des Zylinders größer als 0,05 ist. Das bedeutet, dass diese Zylinderzahl keinen wesentlichen Einfluss auf die Entscheidung hat , ob die Kosten automatisch oder manuell anfallen, oder? Also können wir den Zylinder als nächstes verlassen, HP, HP, der p-Wert ist ein Wahrscheinlichkeitswerteschema 0,084, was wiederum größer als 0,05 ist, oder? Wir können den HP auch belassen, da dieser ebenfalls einen p-Wert von mehr als 0,05 hat. Als nächstes wird die dritte Antwortvariable gelesen. Und der p-Wert ist 0,0 276, was weniger als 0,05 ist. Das bedeutet, dass das Gewicht einen Einfluss auf das Gewicht des Autos hat und entscheiden wird, ob die Autos automatisch oder manuell fahren, oder? Gewicht der Karte hat also einen erheblichen Einfluss auf den m-Wert, da ihr Wahrscheinlichkeitswert 2,0, 276 liegt, oder? Korrigiert. Zu welchen Schlussfolgerungen können wir also kommen? Wir können zu dem Schluss kommen, dass wir bei der weiteren Analyse weiter sind. Wenn Sie unser logistisches Regressionsmodell weiter ausbauen wollen , können wir den Zylinder und die PS belassen und mit der Gewichtsantwortvariablen alleine weitermachen der Gewichtsantwortvariablen , weil das, das hat , das hat nur den signifikanten Einfluss auf den m-Wert im Vergleich zu Zylinder und HP. Nun, okay, wir haben herausgefunden, dass aufgrund dieses p-Werts ein p-Wert von mehr als 0,05 entscheidet, p-Wert von mehr als 0,05 ob die Antwortvariable signifikante Auswirkungen auf die abhängige Variable hat oder nicht. Okay, das ist also die einfache Verwendung der GLM-Funktion, die wir gelernt haben. Jetzt. Sie können also damit üben und Sie können einen beliebigen Datensatz nehmen und dies tun, um herauszufinden, welche Antworten sich wirklich gut auf die prognostizierten Werte auswirken. Und Sie können diejenigen weglassen , die aufgrund des p-Werts keine großen Auswirkungen haben. 46. Normalverteilung: Hallo und willkommen zurück. In dieser Vorlesung werden wir etwas über Normalverteilung lernen. Also was ist die Normalverteilung. Bevor wir also verstehen, was eine Normalverteilung ist, lassen Sie mich Ihnen das sagen. Im wirklichen Leben sind die meisten Daten, die meisten Daten, normal verteilt. Und warum erzähle ich das? Denn wenn Sie sich die Daten der Körpergröße in Fuß ansehen und annehmen, Sie haben Daten, Daten für Größe und Gewicht sowie Daten zu Größe und Gewicht, werden wir dann hoch, hoch normalverteilt sein? Warum sage ich hochgradig normalverteilt? Weil es sehr selten ist, die Person zu bekommen, die sehr wenig groß ist . Und es ist auch sehr selten, dass die Person mit einer sehr hohen Leerlaufhöhe, wie ein Paket mit weniger als 3 Fuß, eine sehr geringe Wahrscheinlichkeit hat, dass sie passiert. Eine Person mit der Größe Clifford ist sehr selten, oder? Ebenso Boston mit einer Höhe von 6,5 m bis 7 Fuß. Warum Triade, oder? In diesem Sinne sind also die meisten Daten normalerweise zwischen 4,5 und 6 Fuß verteilt , oder? Warum wird diese Art der Datenverteilung als Normalverteilung bezeichnet, okay? Diese Art der Betaverteilung wird als Normalverteilung bezeichnet bei der die meisten Daten verteilt werden, um den Mittelwert der Daten zu ermitteln. Nehmen wir also an, wenn wir dieses Diagramm, dieses Diagramm als die Größengewichtsverteilung von Parsons betrachten , dann können Sie sehen, dass dies diese Daten darstellt. Das, das, dieses Fest. Ich vertrete die Sattelhöhe, den Salzgeschmack Thailands. Dies ist der längste Typ C oder der Parsons mit der sehr kurzen Höhe. Es ist sehr selten, richtig zu werden. Die Person bei uns mit einer Sortierhöhe von weniger als drei Bit hat also sehr recht. Lass mich weniger als drei machen. Weniger als drei. Ähnlich, Parson-Breite, sehr lange Höhe, oder? Seine Größe. Das ist auch sehr selten, oder? Größer als 6,5, oder? Diese beiden Daten sortieren also weniger als 3 Fuß und eine Höhe von 6 Fuß ist sehr selten. Und deshalb können Sie sehen, dass es in der normalverteilten Kurve sehr niedrig ist. Eine Normalverteilung der Kurve ergibt als Glockenkurve, wenn wir sie verteilen , wenn wir die normalverteilten Daten grafisch darstellen. Warum wird es als Glockenkurve kommen? Denn siehe hier, das ist der sehr seltene Fall. Es verteilt sich in Richtung hier und die Höhe ist hier sehr hoch, 6,5 Fuß. Also diese beiden sind hier vertreten. Und die meisten Daten, wenn Sie hierher gehen, sind die meisten Daten verteilt. Die meisten Daten sind hier verteilt, oder? In diesem Teil. Korrigiert. Das ist also der Mittelwert der Daten, oder? Das ist also der Mittelwert. Dies ist die durchschnittliche Höhe von Paketen. Wenn Sie also richtig sehen können, die meisten Daten auf beiden Seiten des Mittelwerts verteilt, oder? Wenn Sie die Daten zur Hälfte dividieren, erhalten Sie den Mittelwert und den größten Teil der zurückgegebenen Daten geteilt in Richtung des Mittelwerts. Die Höhe des Pfarrers nimmt also zu und wir werden den Mittelwert beobachten. Und dann, nach dem Durchschnittswert, steigt er und erreicht eine sehr hohe Höhe von 6,5. Die meisten Daten sind also normalerweise in dieser Region verteilt. Und diese Region ist die Region, oder? den meisten Menschen können wir also leicht sagen, dass sie unter die Höhe von 526,5 Fuß fallen . danach wird der Fund einer Person mit der Größe 6,57 sehr sein, sie haben danach gefragt, dass es so kommt. Auf diese Weise erhalten wir also eine Glockenkurve, eine Normalverteilungskurve ist immer BellKor Und das ist der Mittelwert. Und das nennt man Standardabweichung. Also Standardabweichung vom Mittelwert. Je mehr Sie also vom Mittelwert abweichen, desto gehen Sie entweder auf diese oder auf diese Seite. Dies wird also als Normalverteilung bezeichnet. normale Verteilungskurve kann so sehr kohlenhydratreich sein, oder sie kann wie diese lila sein, oder sie kann wie diese aussehen. Dies hängt auch von ihren Daten ab, aber dies wird der Mittelwert der Daten sein. Okay? Das wird der Mittelwert dieser Daten sein und das wird der Mittelwert dieser Daten sein, oder? Das nennt man Normalverteilung. Die meisten Dinge in unserem Leben sind normal verteilt, oder? In der nächsten Vorlesung werden wir also sehen, was die Eigenschaft der Normalverteilung ist und wie wir normalverteilte Daten plotten können. 47. Normalverteilung mit dnorm und pnorm-Funktion: Hallo und willkommen zurück. In der vorherigen Vorlesung haben wir also verstanden, was Normalverteilung ist und wie sie funktioniert. In dieser Vorlesung werden wir uns mit der Normalverteilung beschäftigen und wir werden sehen, welche eingebauten Funktionen wir in unserer Programmierung für die Normalverteilung haben. Es gibt also grundsätzlich vier Arten von Normalverteilungen. Funktionen sind in unserer Programmierung eben und sie sind Denom. Diese Funktion d norm, die drei Argumente oder drei Wertwerte als Eingabe verwendet , also x Mittelwert und sd, das ist Standardabweichung. Also, was ist X hier? X ist die Vektorzahl. Was zum Beispiel? Zahlenvektor der Zahl. Nehmen wir an, Sie haben einen Datensatz, wir haben eine Reihe von Unterstützungen, die Sie benötigen um die Wahrscheinlichkeit und alles zu ermitteln. Also dafür ist der Ausgangszahlvektor Arbeit erledigt Zahl Vektor aus Zahlen und Zahl Vektor aus Zahlen und Mittelwert der Mittelwert , den Sie wollen, Sie müssen entscheiden, welcher Pin an welchem Mittelwert liegt. Sie möchten die Normalverteilung grafisch darstellen. Und dann ist das der Mittelwert des Datensatzes, okay? Und dann Standardabweichung, müssen Sie die Standardabweichung angeben. Der maximale Standardwert ist eins für die Standardabweichung. Und wir können einen beliebigen Wert für das Diagramm angeben, aber der Standardwert ist eins. Wenn Sie einer Sache die Farbe nicht geben, wird sie standardmäßig als Standardabweichung als Eins angesehen. D-Norm ist also eine Funktion. Und dann müssen wir die P-Norm enorm sein. Textet auch die oberen Zahlen, dann den Mittelwert und die Standardabweichung. Dann haben wir die Q-Norm, die p annimmt. P ist ein Vektor von Wahrscheinlichkeiten. Hier ist X ein Vektor von Zahlen. In der Qnorm ist die Eingabe p ein Vektor von Wahrscheinlichkeiten, dann Mittelwert und Standardabweichung wie sie sind, dann haben wir eine weitere Funktion namens sind Nichtbanken und eine unbekannte Funktion nimmt als Eingabe und Mittelwert und auch die Standardabweichung. Okay, also was ist n Here? N ist die Anzahl der Beobachtungen. Das bedeutet , dass die Stichprobengröße die Gesamtzahl der Stichproben erhöht, in die wir gehen und das nehmen, okay? Und Mittelwert ist der Mittelwert der Stichprobendaten. Sein Standardwert ist Null. Okay? Hier, was wir machen und wir geben die Standardabweichung an, der Standardstandardwert ist eins. Okay? Fangen wir also mit der verdammten Normalverteilung an. Also, was ich zuerst mache, wir werden sehen, was die Normalverteilung für X und d ist. Was ist nun die Normfunktion? Also das Nullgeschenk, die Höhe der Wahrscheinlichkeitsverteilung an jedem Punkt für einen bestimmten Mittelwert und eine gegebene Standardabweichung. Es gibt Ihnen also die Höhe der Wahrscheinlichkeitsverteilung an jedem Punkt des Datensatzes. Und für den angegebenen Mittelwert, weil der Mittelwert die Eingabe ist , die wir zusammen mit der Standardabweichung und dem Vektor der Zahlen angeben . Okay? Nehmen wir an, wir verstehen das Beispiel, wir nehmen ein X als eine Anzahl von Akteuren , die korrupte Zahlen sind. Okay? Was auch immer wir hier tun, wir generieren eine Zahlenfolge von minus fünf bis 20. Und dann, was uns gegeben wird, die Standardabweichung , wenn wir minus fünf bis 20 erhöhen, indem wir 0,15 erhöhen. Okay? Also -0,15, -5,15, -5,3, so. Okay. Es wird also inkrementiert. Die generierte Zahl wird um 0,5 erhöht worden sein , okay? X hat also kostenlose Mautspuren. Siehst du, so werden die Zahlen generiert. Okay? Und dann, was wir hier machen, nehmen wir unsere Vektor-Y- und Region-D-Normfunktion und zeichnen x als wichtig auf, das X, das wir von dieser Sequenzfunktion erhalten. Dann meine ich nehme an, ich gebe 7,5 an und die Standardabweichung gebe ich mit einem Punkt an. Und dann zeichne ich den Graphen mit X und Y. Also ist x dieser Wert und y wird von dieser Dnorm-Funktion abgeleitet. Okay? Lassen Sie mich also dieses x kommentieren und diesen Code ausführen. Also klicken Sie hier, c hier. Jetzt erhalten wir dieses Normalverteilungsdiagramm. Also hier ist der Mittelwert 7,5. Und 7,5 Daten werden normalerweise mit einer Standardabweichung von 0,1 verteilt. Standardabweichung des Punktes. Wenn ich Likes 0,5 gebe, sehen Sie, dann werden unsere Daten zu diesem Zeitpunkt kommen , sie werden so kommen. Wenn ich eine angebe, was die Standardstandardabweichung ist, wird unser Diagramm ungefähr so aussehen. Wenn ich 1,5 gebe, unsere Grafik so aussehen. Wenn ich es als Werkzeug geben würde, würde unsere Handlung so aussehen. Okay, Sie können also die Standardabweichung wie für den anderen Quadranten angeben und x und y plotten, wir werden, wir zeichnen die X- und Y-Werte auf. Okay? Das ist also 13 Alltoxin, was die Höhe der Wahrscheinlichkeitsverteilung an jedem Punkt ergibt . Der nächste ist also P naught p norm. Was es bedeutet, ist die Wahrscheinlichkeit normalverteilte Zufallszahl kleiner als, kleiner als der Wert einer bestimmten Zahl ist, okay? Und es wird auch als kumulative Verteilungsfunktion bezeichnet. Also hier nehmen wir dasselbe Beispiel und hier erhöhen wir um 0,4. Und dann generieren wir y mit der p-Norm x. Wir übergeben x hier in die P-Norm-Funktion. Und dann gebe ich jemandem wieder fünf und Standardabweichung Lassen Sie uns zeigen. Und dann plotte ich x und y. Und wenn wir plotten, erhalten wir diese Art von Daten. Wenn ich die Standardabweichung der Unterstützung auf einen Punkt setze, sehen wir das so, okay, wenn ich das durch Wind erhöhe, Unterstützung 0,5. Okay? Auf diese Weise können wir also die P-Norm-Funktion erhalten , die wir verwenden können, und wir erhalten diese Art von Diagramm. Was es uns also geben wird, ist die Wahrscheinlichkeit, dass eine normalverteilte Zufallszahl kleiner als die angegebene Zahl ist. Okay? Und den Rest der beiden 2-Normen und unsere Nummer werden wir in der nächsten Vorlesung sehen. 48. Normalverteilung mit qnorm und rnorm-Funktion: In der vorherigen Vorlesung haben wir gesehen, wie wir die Dnorm-Funktion für die Normalverteilung implementieren können . Und wir haben p Now auch für die Normalverteilung gesehen. In dieser Vorlesung werden wir uns nun mit der Qnorm und unserem Don Funk-Sinn für Normalverteilung befassen. Was ist also eine QNormfunktion? Diese Funktion nimmt den Wahrscheinlichkeitswert und behält die Zahl bei, deren kumulierter Wert mit dem Wahrscheinlichkeitswert übereinstimmt. Das ist hier ziemlich einfach, wir verwenden hier das andere wichtige. Was wir tun werden, wir verwenden 0,1 und generieren die Folge der Zahlen 0-1 und drei Zahlen werden um 0,03 erhöht. Also generieren wir eine Folge von Zahlen 0-1, und jede Zahl wird durch OpenGL oder um drei erhöht. Und dann werden wir die Funktion qnorm verwenden und dennoch diese exogene Eingabe bereitstellen. Und was ich gebe, ich gebe den Mittelwert S2 und die Standardabweichung als zwei an. Du kannst alles geben, was du kannst, wenn du willst, gib, Mittelwert als 1,5, du kannst eine Standardabweichung geben , du kannst eins oder 1,5 geben und sehen, wie dein Graph für zwei und einen Standardmittelwert S2 und eine Standardabweichung zwei kommt für zwei und einen Standardmittelwert , wir bekommen dieses Diagramm. Und wenn ich das für 1.5 laufen lasse, bekommen wir so etwas. Okay? So verwenden wir also die Funktion qnorm für die Normalverteilung der Daten. Okay? Als Nächstes ist es normal, dass nicht anonym die Zufallszahlen für die Verteilung generiert werden dass nicht anonym die Zufallszahlen für die Verteilung generiert werden. Also, was braucht unsere Zahl und wie ich in der vorherigen Vorlesung sagte, es Dexter n als Eingabe, wobei n die Anzahl der Beobachtungen oder die Stichprobenstellen ist , oder? Welche andere Zahl wir auch haben, die Stichprobengröße gibt diese als Eingabe für die Funktion an. Also was es tun wird, es wird die Stichprobengröße als Eingabe verwenden, wie hier, ich gebe Knorpel und es werden zufällig generierte Zahlen für die Stichprobengröße generiert. Nehmen wir an, wir erhalten hier 30, Stichprobengröße. Es wird also die Zufallsgeneratorzahlen generieren. Und dann verwenden wir das Histogramm, um diese Normalverteilung mit einer unbekannten Konsole zu zeichnen . Dieser Y-Vektor ergibt also zufällig generierte Zahlen aus dieser Stichprobengröße 30. Okay? Sobald wir das ausgeführt haben, erhalten wir dieses Histogramm für diese generierten, zufällig generierten Zahlen. Okay, so verwenden wir also die unbekannte Funktion für die Normalverteilung. Lassen Sie mich einfach y ausdrucken, damit wir sehen können, welche Zahlen wir hier bekommen, c hier. Wenn Sie also auf Konsole klicken, sind dies die Zahlen, die mit der Zahl 30 generiert werden. Es wird also die Zufallszahlen wie folgt generieren. Und das Histogramm, das wir zeichnen werden sind zufällig generierte Zahlen in einem Histogramm. Das ist also das, das ist das Y zwischen minus eins und drei, es wird verkauft. Und dann auf dem Träger ist das die X-Achse, das ist die Y-Achse, das ist die Frequenz. Also g rho zwei, wie minus eins bis weniger als minus eins Zahlen , die viermal minus eins bis Null vorkommen. Dies ist die Häufigkeit von Zahlen und Null bis 1,122 wie folgt. Okay? Lassen Sie mich also einfach die Daten für den Support ändern , sodass es 100 werden. Und wenn ich das durchführe, sehen Sie, bekommen wir dieses Histogramm. Und wenn Sie die Konsole sehen, werden Sie sehen, dass wir die Funktion pnorm verwenden um das Diagramm mit unserer unbekannten Funktion für die Normalverteilung zu zeichnen . Okay? So verwenden wir also die Normalverteilung. Und wir haben die Nordvietnam-Qnorm und die Normalverteilung der Daten mit unbekannten Funktionen gesehen . Wie okay 49. Rekursion in R: Hallo und willkommen zurück. In dieser Vorlesung werden wir etwas über Rekursion in unserem Programm lernen. Also, was ist Dickerson oder was ist eine rekursive Funktion? rekursive Funktion ist also eine Funktion, die sich selbst mehrfach aufruft, oder? Unterstützen Sie Sie also, wenn Sie dieselbe Operation immer wieder ausführen möchten . Wir können den Dickerson benutzen, um nicht so zu tun , als hättest du eine etwas unnatürliche Zahl gelernt. Einige von Ihnen haben all diese Dinge wie diese Probleme nummeriert , wie zum Beispiel natürliche Zahlen zu finden , bei denen n von eins bis zu einer beliebigen Zahl variieren kann , oder? Bis zu einem bis 100.000, so etwas. Um diese Art von Problem zu lösen, müssen wir also den Dickerson verwenden und Ihr Cursor ist eine sehr wichtige Sache, wenn wir programmieren, oder? In unserem Also können wir die Dickerson-Funktion verwenden. rekursive Funktion kann sich selbst immer wieder aufrufen , um die Operationen auszuführen. Und schließlich wird es uns das Ergebnis geben. Um zu verstehen, wie Rekursion in unserer Programmierung funktioniert, sagen wir, wir machen ein einfaches Programm, um die Summe der natürlichen Zahlen bis n mithilfe der Rekursion zu ermitteln. Okay? Also werden wir versuchen zu finden, werden eine Zahl geben, eine beliebige Zahl. Und wir werden versuchen, die Summe der natürlichen Zahlen von eins zu dieser Zahl zu finden . Nehmen wir an, hier gebe ich 85. Also hier möchte ich die Summe der natürlichen Zahlen bis 85 min finden , eins plus zwei plus drei plus fünf plus sechs plus sieben plus acht, bis zu plus 85, oder? Um diese Art von Problem zu lösen, müssen wir also die Rekursion verwenden. Also was ich hier mache, ich schreibe hier einfach eine einfache Funktion und gebe ihr einen Namen unter dem Unterstrich n. Das bedeutet einige der natürlichen Zahlen, oder? Manche unterstreichen n. Und darin nehme ich die Eingabe als Argument, da n u n die Anzahl der natürlichen Zahlen sein wird , oder? Natürliche Zahl, bis zu der wir die Summe berechnen wollen. Stimmt es? Hier. Ich mache den einfachen Check. Was ich hier mache. Ich überprüfe einfach, ob n kleiner oder gleich eins ist, ich gebe das einfach zurück. Und warum überprüfe ich diesen Zustand hier? Denn wenn n eins ist, müssen wir eins zurückgeben, weil eins ein Monat ist. Die natürlichen Zahlen beginnen mit Eins. Und manchmal betrachten manche Menschen natürliche Zahlen mit Null als alle möglichen Arten. Im Fall von 0,1 müssen wir diese bestimmte Zahl selbst zurückgeben, müssen wir diese bestimmte Zahl selbst zurückgeben weil Sie Null produzieren, wir müssen Null zurückgeben und wenn es eins ist, müssen wir nur eins bestimmen, oder? Die rekursive Funktion muss nicht aufgerufen werden. Okay? Das ist also der Fall, sich um die 0,1 zu kümmern wenn Sie überhaupt die natürlichen Zahlen einschließlich Null berücksichtigen , und wenn sie bei Eins beginnen, wenn Sie dann Eins berücksichtigen, okay? Natürliche Zahlen beginnen also im Grunde mit Eins, aber manchmal denken die Leute auch an Agile, die bei Null beginnen. Okay? Und dann verwende ich das, ich gebe eine If-Bedingung und dann verwende ich eine andere Else-Bedingung. Und was ich sonst mache, gebe ich einfach Gan plus etwas Yan zurück plus bedeutet, nehmen wir an, eine Zahl ist zu, nehmen wir an, ich gebe dir zwei. Nehmen wir also an, diese Zahl ist zwei zu zwei plus Summe bis minus eins, Summe von eins. Was es also tun wird, es wird ungefähr zwei plus die Summe von zwei im Sommer zu minus eins machen . Wir werden eins zusammenzählen. Es wird hierher kommen und die Summe von eins wird eins zurückgeben. Diese Funktion gibt zwei plus eins zurück , bis plus eins drei ergibt. Wenn wir diese Funktion ausführen, erhalten wir die Ausgabe hier als Drei. Weil einige der natürlichen Zahlen bis zwei drei sind, oder? Ich nehme an, ich gebe hier drei. Was wird passieren? Es wird dauern, es wird zum anderen Teil kommen , weil drei diese Bedingung nicht erfüllt, oder? Größer als eins, oder? Es wird also in einen anderen Teil kommen und es wird einfach n plus Anklageschrift drei plus zurückgeben. Und dann wird es sie selbst wieder anrufen. Die Funktion nennt sich selbst die Funktion sum n in Excel. Und es wird dazu führen, dass einige von N drei minus zwei haben, manche haben zwei, manche haben zwei, werden hierher kommen. Dann ist n gleich zwei, es wird hierher kommen. Was es dann tun wird, zwei plus drei plus zwei plus Summe von zwei minus eins, Summe von eins. Es wird hier rein gehen und es wird eins zurückgeben. Also drei plus zwei plus eins. Wie viel? Sechs. Also dieser geschriebene Sex. Sehen Sie hier, die Produktion beträgt sechs Jahre. Also haben wir verstanden, wie es funktionieren wird. Lassen Sie mich das Kommando einfach in die Zeitform setzen. Bist du das erste Mal , wann es kommt? Es wird sein wie, es wird wie Hallo sein, fertig. Drei plus drei plus Summe Unterstrich N. Drei minus 13 minus eins bedeutet zwei. Also wird es einige bis, okay, dann nennt es sich von selbst. Dies wird Rekursion genannt. Dann wiederum, im nächsten Schritt, wird es, der nächste Schritt wird geschrieben, drei, zusammenfassen, wie es kommen wird. Es wird hierher kommen, um zu funktionieren, nimmt die Eingabe S2 und dann kommt es in den anderen Teil, aber plus. Also hier wird es so kommen wie drei plus zwei minus 12, minus 12 minus eins ist die Summe von eins, oder? Der nächste Schritt ist also drei plus zwei plus die Summe von einem Sommerspaß Wasser, es wird gehen, es wird die Funktion selbst aufrufen. Und es wird auf die Summe von eins gehen. Die Summe von Eins gibt n zurück, das heißt Eins. Das wird uns also das Ergebnis eins geben. Es wird also drei plus zwei plus eins kommen. Das wird also Ticarcillin genannt , die Endleistung beträgt nur sechs. Und hier auch drei plus 25 plus 16. Das heißt also Records Sun, oder? Unterstützung. Ich gebe dir eine große Zahl, 785. Es wird also in diese Funktion gehen und 75 minus eins aufrufen, dann 782-52-7875 minus 1784. Dann wird es hierher kommen, 74 minus 17823. Also wird es weiter anrufen. Dies wird Rekursion genannt. Wenn wir das also ausführen, erhalten wir die Ausgabe wie folgt. Okay, entspann dich etwas, okay? Auf diese Weise können wir die Rekursion in unserer Programmierung verwenden , um die Summe der natürlichen Zahlen zu ermitteln. 50. Factorial einer Zahl mit Rekursion in R finden: In dieser Vorlesung machen wir also noch einen Hansen. Und in dieser Vorlesung werden wir versuchen, das Faktorielle mit Hilfe der Rekursion zu finden. Also, weißt du, was die Faktorielle einer Zahl ist? Du musst nett sein, oder? Du musst das in deinem Mathematikunterricht gelernt haben und gestorben sein. Also Mathematik an der Highschool, du musst wissen, was faktoriell ist. Lassen Sie mich Ihnen sagen , was faktoriell ist. Faktoriell, unsere Telefonnummer ist das Produkt aller Ganzzahlen von eins bis zu dieser Zahl, die Zahl unterstützt Wenn ich Faktoriell von zwei sage, Faktor zwei das Produkt von eins zu zwei. Produkt der Zahlen 1-2. Das Produkt der Faktorzahl von zwei wird also eins zu zwei sein, oder? Wenn ich sage, Faktoriell von drei ist eins zu zwei zu drei. Ähnlich, wenn ich Faktoriell von sieben sage und wir den Faktor so bezeichnen. Sieben Faktorielle ergibt also eins aus einem Produkt der Zahlen 1-7. Es wird also eins zu zwei zu drei zu 45 und 6,7 sein, was als Produkt der Zahl etwa 5.040 ergibt. Faktoriell für Zahlen ist also, bei Eins zu beginnen , bis diese Zahl jede Zahl multipliziert und das Produkt aller Zahlen ergibt. Okay? Also 1287, wenn ich hier meine faktorielle Acht eingebe, wird es ein Produkt der Zahlen 1-8 sein. Und das wird etwas anderes sein, oder? Lassen Sie uns also herausfinden, was das Faktorielle davon ist. Lassen Sie mich also dieses Programm ausführen und lassen Sie mich das ausdrucken. Lass mich das ausführen. C-Faktorial von Acht ist 43 20, also das Faktorielle von Acht ist 43 20. So können wir also die Faktorielle einer Zahl mithilfe der Rekursion finden. Lassen Sie mich also diese Funktion erklären, die wir geschrieben haben, um die Faktorzahl einer Zahl zu finden. Also hier schreibe ich eine Funktion rekursiv faktoriell. Und das wird die Zahl als Eingabe verwenden. Und hier überprüfe ich, ob n kleiner oder gleich eins ist, ich gebe einfach die Zahl eins zurück, okay? Dann ist der Faktor Null auch eins, okay? Wenn es also eins oder Null ist, wird die Ausgabe als Eins zurückgegeben. Und wenn die Zahl größer als eins ist , geht es in den anderen Teil. Und hier, was ich mache, verwende ich, ich verwende N into, N into, und dann rufe ich die Funktion wieder auf, dieselbe Funktion. Das nennt man das Konzentrat, das sein soll. Die Funktion ruft sich innerhalb der Funktion selbst auf. Die Funktion ruft sich innerhalb der Funktion selbst auf, und das wird Rekursion genannt. In dieser Faktorfunktion des Datensatzes nennen wir das also die Faktorfunktion. Und du wirst n minus eins brauchen. Es bedeutet, dass die Unterstützung faktoriell davon abhängt. Also rein, dann geht es zu den Schriften und rekapituliert faktoriell. Und es wird die Eingabe als acht minus 17 annehmen. Es nimmt also die Eingabe als sieben an, und wir nennen diesen Datensatz faktoriell. Dann wird die Funktion wieder hierher kommen. Dann wird es wieder hierher kommen und es wird acht vor sieben sein, was einem Rekordfaktor von sechs entspricht. Und so wird es eine Wiederholung sein, oder? Das nennt man recurse on, es ruft sich innerhalb der Funktion Pill weiter auf. Die Zahl wird Null. In Ordnung? Es wird also 8-7 bis 6 Uhr beginnen. Und dann wird es so kommen, was eins minus 10 kommen wird. Und dann faktoriell von n minus eins. Faktorzahl Null wird also eins und wir bekommen das Produkt von acht zu sieben zu sechs zu fünf zu vier zu drei zu eins. Und so funktioniert das Factorial. Lassen Sie mich das auf fünf ändern und es werden ungefähr 120 sein. Siehst du, die Faktorzahl von fünf ist 120, okay? So läuft also die faktorielle Funktion in unserer Programmierung mit der Rekursion ab. Die Konstante wird also unterstützt und ich schreibe diese Funktion faktoriell. Und in dieser Funktion selbst rufe ich die Funktion selbst auf. Innerhalb der rekursiven Faktorfunktion nenne ich diesen Datensatz also faktoriell. Und das nennt man Rekursion , wenn sich die Funktion innerhalb von Carson aufruft . Wenn sich die Funktion selbst aufruft, ruft sie das Auto Sohn auf. Okay? So funktioniert Rekursion in unserer Programmierung. Wir haben zwei Beispiele gesehen. Eine besteht darin, das Faktorial einer Funktion mithilfe der Rekursion zu ermitteln. Und im vorherigen Beispiel haben wir gesehen, wie man die Summe der natürlichen Zahlen mithilfe der Rekursion ermittelt. Dabei bauen wir dieses Ökosystem auf, Dabei bauen wir dieses Ökosystem um die Summe der natürlichen Zahlen zu finden. Und hier haben wir das Faktorial einer Zahl mit Rekursion gefunden . 51. Beispieldaten aus einer Population: Hallo und willkommen zurück. In dieser Vorlesung lernen wir, wie eine Population aus einem Datensatz in der R-Programmierung entnommen wird. Das ist also sehr wichtig, denn wenn wir ein maschinelles Lernproblem oder datenwissenschaftliches Problem oder ein Überschwemmungsproblem haben, haben wir einen riesigen Datensatz , oder? Und wir wollen einen Einblick in die Daten gewinnen, oder wir wollen eine Stichprobe von Daten. Nehmen wir an, wir haben die meisten Stadtbewohner und möchten analysieren, wie viele Parsons an Diabetes erkrankt sind. Also nehmen wir eine Stichprobe von Daten, analysieren sie und auf dieser Grundlage können wir ein Modell erstellen und dieses Modell dann auf eine größere Population anwenden, oder? Entnahme einer kleinen Population oder einer Stichprobenpopulation aus einem großen Datensatz wird also einer Stichprobenpopulation aus als Stichprobenahme einer Population bezeichnet. Allgemein ausgedrückt Sampling einer Beta sehr wichtig. Und um das zu wissen, sollten wir wissen, was ist, unsere Funktionen sind einfach, wie man Vektoren erzeugt. Und so wissen wir all diese Dinge. Also, was wir tun, wir werden uns ein einfaches Beispiel ansehen, wie wir Stichproben machen können. Okay? Also, um die Probenahme zu handhaben und die Probenahme zu unterstützen, oder hat eine eingebaute Funktion namens Sample. Also unsere Beispielfunktion, diese einfache SAM-PLE-Stichprobe, diese Stichprobenfunktion, was sie tun wird, sie wird einfach die Population abtasten, wenn wir eine Stichprobe angeben und wir eine beliebige Ganzzahl als Eingabe angeben. Was es also tun wird, es wird ein bis 20 Zahlen abtasten, das heißt, es wird eine Population bilden, Stichprobenpopulation von eins bis 20. Wenn ich das also ausführe, siehe hier, lass mich das löschen , damit wir die Ausgabe korrekt sehen können. Also, wenn ich dieses Beispiel 20 ausführe, sehe ich, was es macht. Dadurch werden einige Zahlen von 1 bis 20 in unserer Population entstehen . Und es ist nicht dagegen, es hat keinen bestimmten Zufallsgenerator verdient, okay? Es ist also einfach nicht in aufsteigender oder absteigender Reihenfolge angeordnet. Nur die Zahlen 1-20, es wird generiert. Also 123, alle Zahlen 1-20. Okay? Auf diese Weise können wir ein Beispiel für die Zahlen 1-20 erstellen. Das ist ein einfaches Beispiel. Als Nächstes werde ich tun. Ich erstelle einen Vektor von 1—15 Zahlen. Nehmen wir an, das ist unser Datensatz, der hier die Zahlen 1-21 bis 15 enthält , ich bin z. B. also eins bis 20, das ist unser x-Vektor in dem wir die Zahlen 1-20 behalten. Das ist also die Bevölkerung. Dieses x wird als Population bezeichnet , da dies der gesamte Datensatz ist , den wir haben. Also ist X die Population. Und aus dieser Population von x möchte ich äußerlich fünf Elemente oder fünf auswählen. Ich möchte eine Beispieldatei haben. Ich will die fünf haben. Das sind die Markierungen. Sind das, das ist die Anzahl der Preprint-Leute. Ich will die Zahlen von nur fünf Personen. Ich möchte fünf Elemente probieren. Wie können wir das machen? Wir können die Beispielfunktion verwenden. Wir können hier die Grundgesamtheit angeben, x und dann Komma fünf, wie viele Elemente Sie aus dem Chargendatensatz von X entnehmen möchten dem Chargendatensatz von X Stichprobe x Komma fünf gibt uns also die fünf Zufallszahlen aus diesen großen Populationsdaten und es wird eine Stichprobe für uns erstellt. Lassen Sie mich das also eilig ausführen und dann Exon fünf testen. Schau hier. Jetzt erhalten wir 481.410,12 aus dem Bevölkerungsdatensatz, oder? Der Populismus-Datensatz ist dieser, okay? Eins bis 15. Daraus ergibt sich das Zufallsprinzip für 81.410,12. Dies ist unser Beispieldatensatz. Wenn ich es noch einmal starte, erhalten wir fünf verschiedene Zahlen. Sehen Sie hier, jetzt wird die Stichprobe geändert und es nach dem Zufallsprinzip fünf Zahlen aus diesem X-Vektor oder dieser X-Population ausgewählt, und es wird eine Stichprobe von Daten erstellt. So funktioniert unsere Beispielfunktion. Als Nächstes können wir replace gleich wahr geben. für diesen Wert also Ersetzen Sie für diesen Wert also gleich zwei. Es wird die gleichen Zahlen generieren. Wenn ich es noch einmal starte, gibt es uns die verschiedenen fünf Zahlen, die hier ersetzt wurden, gibt uns das nicht das, was es tut. wenn wir unsere Stichprobe verwenden und Acts als Grundgesamtheit angeben, verwenden wir einfach replace, was wahr ist. Was wird passieren? Lass uns sehen. Es wird das Element c ersetzen. Jetzt 51302, 74, 414-151-2312. Siehst du, nicht alle Zahlen sind richtig bis 15. Einige Zahlen wurden ersetzt, z. B. 131 mal, aber fünf ist auch ein Mal, 14 wird dreimal wiederholt, 12 wird zweimal wiederholt. Hallo, da. Auf ähnliche Weise werden einige der Zahlen durch andere Zahlen ersetzt, werden einige der Zahlen durch andere Zahlen ersetzt z. B. einige , die eine, Unterstützung, unterstützen. Darin ist niemand, aber unser ursprünglicher Datensatz hat eins bis 15. Aber hier nicht alle Zahlen, 1-15 hier, oder? Die meisten Zahlen werden ersetzt. Was also mit true ersetzt wird, bewirkt, es weiterhin die Zahlen aus dem Datensatz ersetzt. Von den ein-zwei-drei Prozent wird es also einige der Daten nehmen, es wird einige der Daten wiederholen und es wird einige der Zahlen ersetzen. Also wurden einige der Zahlen durch die Summe der anderen Zahlen wie eins ersetzt . Angenommen, eins wird wiederholt, eins wurde durch vier ersetzt, oder? In ähnlicher Weise hat 14 eine andere Zahl wie sechs oder so ersetzt . Weil Sex hier fehlt. Es fehlt hier. Also die fehlenden 6,8, die durch die anderen Zahlen im Bevölkerungsdatensatz ersetzt wurden . Das ist 14412, oder? Was es also tun wird, es wird die Zahl intern ersetzen und das Geschlecht in unsere Stichprobenpopulation für uns einbeziehen. Also wird es die Daten einfach weiter durch andere ersetzen. Okay? Dann nehmen wir an, wir haben ein Ereignis, bei dem Kopf und Schwanz eine Münze werfen. Wir haben also zwei Veranstaltungen, oder? Entweder wir kriegen Kopf, geht es uns gut? Nehmen wir an, wir haben diesen Beispieldatensatz und ein reziprokes Ereignis von H- und T-Kopf und -Schwänzen. Und wir wollen, dass es probiert wird. Es gibt die Größe des zu druckenden Musters an und ersetzt es mit zwei. Was es tun wird, es wird das einfach ausführen, sehen, was es tun wird. Es wird einfach ein Muster mit T und Kante, Kopf und Schwanz erstellt . Und es wird Kopf und Erzählung mehrmals wiederholen. Weil wir die Stichprobengrößen lila angegeben haben. Und so entsteht der Edge DHHS, eine Entität. Das ist ziemlich zufällig. Sie sequenzieren, dass Sie, wenn Sie es erneut ausführen, möglicherweise die andere Sequenz von H und T erhalten, und das ist Upside-Scripting. Auf diese Weise können wir ein Beispiel für Head and Tail-Events erstellen . Und wir können die Zahlen hier angeben. Wenn ich fünf gebe, ist es erledigt. Es wird uns das TTT geben. Sehen Sie hier, in diesen zeitlichen Trends haben wir nur fünf Schwänze angegeben. Schwänze, Schwänze kommen. Nein, es gibt keinen Kopf. Wenn ich es schaffe, nehme ich sechs an. Jetzt gehen wir zu Kopf, Schwanz, Schwanz, Schwanz und Kopf. Es ist also ziemlich zufällig. Auf diese Weise können wir die Stichprobenfunktion in der R-Programmierung verwenden , um die Stichprobe aus einer großen Population zu erhalten , wie wir es hier getan haben. Wir haben diese Population x genommen, die die Zahlen eins bis neun enthält, und wir haben nur eine Stichprobe von fünf Elementen aus diesem Datensatz entnommen . Und wir haben unser Beispiel mit fünf Elementen erstellt. So können wir die Stichprobenfunktion verwenden, um die Stichprobe aus einem Populationsdatensatz zu erhalten, okay? 52. Programm zum Überprüfen von Primzahlen: Hallo und willkommen zurück. In dieser Vorlesung lernen wir also, wie man überprüft, ob eine Zahl eine Primzahl ist oder nicht. Das sind also die Probleme , mit denen wir in unseren kompetitiven Codierungsinterviews konfrontiert werden könnten , denen der Interviewer Sie möglicherweise bittet, ein Programm zu schreiben , um die Summe von n Zahlen zu finden oder ob eine Zahl eine Primzahl ist oder nicht, oder einige gerade Zahlen oder gerade Zahlen zu finden. Wie überprüft man gerade Zahlen, wie nimmt man eine Primzahl? Das sind also die Probleme, nicht selten die umfassenden Prüfungen zu stellen und zu Programmiertests zu kommen. Es ist also besser zu wissen, wie man dies auch in unserer Programmierung implementiert. Wenn Sie ein angehender Datenwissenschaftler und Ingenieur für maschinelles Lernen und KI sind. Es ist also gut, die Grundlagen zu kennen, oder? In der Vorlesungsreihe nutzen wir also diese Dinge aus, wie wir in unserer Programmierung ein Programm schreiben können, um eine Primzahl zu finden, insbesondere in dieser Vorlesung. Okay? Dieses Programm soll also überprüfen, ob die Zahl eine Primzahl ist oder nicht. Und die Zahl, die wir als Klinkeneingänge verwenden werden. Also bitten wir den Benutzer , die Eingabe einzugeben, und sobald der Benutzer die eingegebene Nummer eingegeben hat, nehmen wir diese eingegebene Nummer und prüfen, ob diese Zahl eine Primzahl ist oder nicht. Und dafür verwenden wir die For-Schleife. Wenn Sie also wissen, wie man if und else und für Loop benutzt , werden Sie dieses Programm ziemlich gut machen können. Okay? Und lassen Sie mich Ihnen sagen, was ist eine Primzahl? Primzahl ist also eine positive Ganzzahl größer als eins, die außer einem und der Zahl selbst keine anderen Faktoren hat . Also, was heißt das? Angenommen, wir haben eine Zahl für Nummer vier, wir können in Form von zwei in zwei schreiben. Es hat also zwei Faktoren. Zwei zu, zwei zu zwei ist vier, oder? Das ist also keine Primzahl. Nehmen wir an, wir haben eine Nummer. Nehmen wir an, wir haben Nummer sechs. Nummer sechs, wir können in Form zwei in T3 schreiben. Es hat also zwei Faktoren, 2.3. Ebenso haben wir eine Nummer. Nehmen wir an, wir haben Nummer fünf. Nummer fünf, wir können keinen Faktor einschreiben, oder? Wir können nicht versuchen, aus einer Zahl zwei etwas wie zwei zu machen, wir können es kaum erwarten. Wir können zwei in 2,5 machen, aber das ist nicht richtig. Wir sollten die ganzzahligen Faktoren gerade haben. Auf diese Weise ist es nicht möglich, oder? Also die Zahlen wie fünf, die eins, den Faktor eins und sich selbst hat. Wir können also fünf in der Form von eins zu fünf schreiben. Ebenso mögen wir, wenn wir 77 haben , wir können auch in der Form schreiben , dass wir sieben Wanli wollen. Wir können es mit Hilfe einiger anderer Zahlen in ein bisschen schreiben , wie wir sechs bis drei geschrieben haben, wir können, wir können keine Zahl finden , die sich teilen lässt. 77 kann durch eins geteilt werden, nur 1,7 selbst. Deshalb sind die Primzahlen Zahlen, positive Ganzzahlen größer als eins, die durch eins geteilt werden können. Die Zahl selbst, die außer einem und der Zahl selbst keine anderen Faktoren hat . Also die Primzahlen oder zwei, dann drei, dann fünf, dann sieben, dann LeBron und dann 13, dann 17 und so weiter. Das sind also die Primzahlen, C7. Wir können es nicht durch eine andere Zahl teilen außer durch eins und sich selbst, auch durch 13, auch durch 11. Das sind also die Primzahlen. Jetzt haben wir also das Verständnis dafür, was die Primzahlen sind. Lassen Sie uns mit der Lösung dieses Problems fortfahren. Also zuerst, wie man Eingaben vom Benutzer in R entgegennimmt . Wir können also die Funktion Zeile lesen verwenden , um Eingaben vom Benutzer zu erhalten. sollten Sie auch sein, Sie sollten die Readline-Funktion kennen, die über ein Azure-Argument verfügt. Readline-Funktion nimmt also eine Eingabeaufforderung entgegen, sodass sie den Benutzer dazu auffordert. Und was auch immer Sie hier schreiben, es wird auf der Konsole angezeigt. Und es wird Sie bitten, alles zu tun, was Sie hier schreiben um Sie zu bitten, nehmen wir an, wir geben hier ein, wir schreiben, bitte geben Sie eine Zahl ein. Die Eingabeaufforderung nimmt also die vom Benutzer eingegebene Nummer an und wir übergeben sie an die Lesezeilenfunktion. Und hier können wir diese Benutzereingabe in zwei Ganzzahlen konvertieren. Was wir also sind, wir speichern die vom Benutzer eingegebene Nummer. Variablen 0 und n. Als Ganzzahl wird es also aus allem, was wir von dieser Baumzeilenfunktion über diese Eingabeaufforderung erhalten, in eine Ganzzahl umgewandelt . Okay? Also, wenn ich das hier starte, wenn ich das starte, werden wir gebeten, bitte eine Zahl einzugeben. Okay? Dann lass mich das klären. Okay? Und dann setzen wir eine Flagge. Es heißt auf Null. Anfänglich. Wir werden, wir werden sehen, warum wir diese Flagge verwenden , die gleich Null ist, und wir werden auch sehen, warum sie kommt. Das ist eine Summe, weil wir die Zahlen eingegeben haben. Es zeigt uns dieselbe Nummer. Das ist Summe, ah, bearbeiten wir, wir werden sehen. Okay, also setzen wir die Flagge auf Null. Und dann fügen wir Geben hinzu. Wie gesagt, die Primzahlen sind immer größer als eins, oder? Beginne mit zwei bis 357-11-1317 so. Es ist also immer größer als eins. Als Erstes überprüfen wir, ob die Zahl größer als eins ist. Dann gehen wir in den Kreis hinein. Und wenn Zahl nicht größer als eins ist, dann ist sie definitiv keine Primzahl, oder? Für diese Flagge wird also Null sein. Und für Flagge Null, was wir geben, für Flagge Null wird uns keine Primzahl gegeben. Wenn Sie also eine Zahl in minus, minus zwei, minus drei, minus fünf eingeben minus zwei, minus drei, , werden diese Zahlen hierher kommen. Pulsieren Sie und es wird nachgeben, es wird. Die Nachricht, dass Sie die eingegebene Zahl eingegeben haben, ist also keine Primzahl, okay? Und was ist, wenn die Zahl größer als eins ist? Unterstützt 235678, all diese Nummern. Was wir also tun werden, werden wir nach den Faktoren suchen. Und bevor wir nach den Faktoren suchen, was wir tun werden, setzen wir die Flagge auf eins. Okay? Eins bedeutet, dass Zahl Primzahl ist, okay? Also haben wir es zunächst auf Null gesetzt. nun Nudge angeht, wird in diese if-, if-Schleife, IF-Funktion, if-Anweisung eintragen , was wir tun, wenn die Zahl größer als eins ist, wird das Flag zunächst auf eins setzen. Und dann was für Blau, wir erstellen eine For-Schleife. Und was wird die For-Schleife sein? Schleife ist für I in zwei, weil die Primzahlen mit 22 bis n minus eins beginnen. Und minus eins heißt, nehmen wir an, wir geben fünf ein, also zwei bis vier. Also ich in zwei bis 4 Minuten, es dauert vier bis T für diese drei Zahlen. Und was für den Faktor benötigt wird, ob die Zahl eine Zahl ist, wird durch zwei oder drei oder vier geteilt, sie kann durch 23,4 geteilt werden oder nicht. Und wenn dann eine Person, diese Person, die ich vermisse, wird nach dem Faktor gesucht, ob die eingegebene Zahl geteilt wird durch, nehmen wir an, wir geben fünf ein. Es wird also geprüft , ob das Segment durch zwei geteilt wird oder nicht. Und dann wird geprüft, geteilt durch drei oder nicht. Dann dauert es entweder vier oder ungleich, gleich Null. Und dann setzen wir die Flagge auf Null. Und wenn es durch 234 geteilt wird, wird die Flagge auf Null gesetzt und es wird aus der For-Aussage herausgenommen. Es wird die For-Schleife unterbrechen und aus dieser herauskommen. Und okay, und wenn n gleich zwei ist, wird die Flagge gleich eins gesetzt. Also was es hier tun wird, es wird überprüfen, ob die Zahl, nehmen wir an, wir geben sechs ein. Sechs ist also durch zwei geteilt, oder? Es wird also gleich Null sein. Es wird also die Flagge auf Null setzen und es wird aus der Schleife kommen. Und es wird flagge. Die Null wird im anderen Teil erscheinen, und das wird sie auch, es ist also keine Primzahl. Nehmen wir an, wir geben fünf ein. Fünf wird also durch zwei geteilt. Nein, es wird herauskommen und die Flagge wird ein Jahr dauern. Flagge eins bedeutet also, dass fünf eine Primzahl ist, oder? Ähnlich unterstützt geben wir acht ein, also wird Acht geteilt durch. Es dauert zwei bis sieben, bis zuerst durch zwei geteilt wird. Die Aufteilung auf nur die Flagge ist Null. Es wird aus der Schleife kommen und Null markieren denn es ist keine solche Primzahl. Es wird überprüft und es wird uns das Ergebnis geben. Ich unterstütze Sie, wir geben 11 ein, also wird N geteilt durch 211/2 benötigt. Nein, es wird Out of the Loop unterstützt. Wir geben Cystein ein. Cystein geteilt durch 2/2. Ja, Zero Flag 016 geteilt durch so. Okay? Es wird also durch Speichern aus der Schleife herauskommen und die Flagge auf Null setzen. Und alle Zahlen werden keine Primzahl sein. Und nehmen wir an, wir geben 1717/2 ein. Nein. Was also zwei sind, wird passieren, es wird aus der Schleife herauskommen und es wird die Flagge auf eins setzen . Flagge gleich Eins bedeutet, dass es sich um eine Primzahl handelt. Und wenn die Zahl, die du eingegeben hast, dann direkt Primzahlen, oder? Und zum einen kommen wir in den anderen Teil, mehr als einer, wir kommen in den anderen Teil. Okay? Lassen Sie mich also diese ganze Quelle ausführen. Was ist das Problem hier? Okay, lass es mich noch einmal ausführen. Jetzt fordert uns die Konsole auf, eine Nummer einzugeben. Nehmen wir an, ich gebe eine Nummer eins ein. Es tut uns leid. Angenommen, ich gebe hier eine Nummer eins ein und drücke die Eingabetaste, was passiert? Eins ist keine Primzahl. Warum ist Eins keine Primzahl? Es wird hierher kommen und prüfen, ob n größer als 100 ist oder so. Yan ist größer als einer oder nicht. Das ist also ernsthaft nicht, es wird nicht in diese Schleife kommen und Flag wird für diese Null sein weil es nicht in diese If-Schleife kommt, weil F eins ist und es wird hierher kommen, Flag gleich Null. Also jetzt wird es hierher kommen. Und es wird die Flagge überprüfen, die einem Knoten entspricht. Also wird es in den anderen Teil kommen und es wird Saudi studieren. Es wird in diesen anderen Teil kommen. Und eins ist auch keine solche Primzahl. Okay? Lassen Sie mich das noch einmal ausführen. Und wenn ich zwei eingebe, tut mir leid, wenn ich hier zwei eingebe, was passiert dann? In c2 ist es eine Primzahl. Warum ist zwei eine Primzahl? Es wird hierher kommen und ist größer als eins, oder? Zwei ist größer als eins. Dann Flagge, es wird eins setzen, dann wird es hierher kommen, um es durch zu teilen, um es durch zwei zu eins zu teilen, oder? 2/2. C ist also 2/2, wenn gefeiert wird. Es wird also aus dieser Schleife herauskommen, oder? Und die Flagge wird eine sein. Zwei ist also eine Primzahl. Wenn ich drei draufsetze, tut mir leid. Wenn ich das noch einmal ausführe und Nummer drei eingebe, dann hat es erhalten, dass drei eine Primzahl ist. Warum? Weil es in dieses If-Statement-Flag aufgenommen wird. Es wird die Flagge auf 1.4 setzen. Markieren Sie eins, es wird eine Primzahl sein und dann wird sie in diese For-Schleife I in 222 kommen , oder? Also 3/2, nein. Es wird also diese Aussage brechen und die Flagge wird eine sein, oder? Also und wird die Primzahl sein. Also, wenn Sie Support the length oder 17 eingeben, saudische Unterstützungszelle hier 17 ein. 17 ist eine Primzahl, warum? Es wird hierher kommen und 17 ist größer als eins. Es wird hierher kommen, die Flagge auf Eins setzen, dann wird es in diese For-Schleife für i in 21617/2 gehen. Ja. 17 wird nicht durch zwei umgeleitet, also wird es aus dieser Schleife herauskommen und Flagge bleibt 1,4. Flagge eins, die Zahl ist eine Primzahl und deshalb sind diese 17 eine Primzahl. diese Weise können wir also ein einfaches Programm schreiben , um Primzahlen in unserer Programmierung zu finden. 53. Programm, um EVEN oder ODD zu überprüfen: In dieser Vorlesung werden wir in unserer Programmierung ein Programm schreiben, um herauszufinden, ob die eingegebene Zahl ungerade oder gerade ist. Also nehmen wir die Eingabe des Benutzers und bitten den Benutzer, eine Nummer einzugeben. Und basierend auf der Eingabe des Benutzers wird angezeigt, dass die vom Benutzer eingegebene Nummer eine ungerade oder eine gerade Zahl ist. Stimmt es? Was ist also eine ungerade oder gerade Zahl? Also Zahlen, die ohne den Rest durch 0/0 geteilt werden. Es heißt gerade Zahl. Nehmen wir an, wir haben eine Zahl x und wenn wir die Zahl durch zwei teilen und als Erinnerung Null erhalten, dann ist es eine gerade Zahl. Und wenn die Zahl durch zwei geteilt wird und wir einen Rest erhalten, dann eine gerade Zahl. Also einfach, wenn eine Zahl durch zwei geteilt wird und der Rest Null ist, also eine gerade Zahl und dividiere sie durch zwei. Und es gibt eine gewisse Nachfrage, es ist eine ungerade Zahl, oder? Nehmen wir also das Programm. Also hier habe ich ein Programm geschrieben , bei dem ich die Eingabe als Ganzzahl verwende. Also nehme ich die Eingabe von der Benutzer-ID als Ganzzahl und bitte den Benutzer , die Nummer einzugeben, bitte geben Sie eine Zahl ein. Readline-Funktion wird also verwendet, um die Benutzereingabe und die Aufforderung, die wir geben, entgegenzunehmen . Bitte geben Sie eine Zahl ein. Dann konvertieren wir in eine Yeoja, Ads Dot Integer. Okay? Also, was auch immer das ist, eine ganze Zahl, oder? Und dann prüfen wir einfach, ob diese Zahl n durch zwei geteilt wird. Und wenn der Rest Null ist, so n geteilt durch zwei. Wenn Amanda gleich Null ist, sagen wir, n ist eine gerade Zahl. Und wenn wir einen anderen Rest als Null oder Zahl bekommen, richtig? Es ist eine ungerade Zahl. So einfache Sache. Wenn n durch zwei geteilt wird und der Rest Null ist, dann ist es eine ungerade Zahl, wenn sie und wenn der Rest anders als Null ist, ist es eine ungerade Zahl, oder? Also ich hoffe du hast die Idee verstanden. Lassen Sie mich Ihnen also sagen, was die geraden und ungeraden Zahlen sind . Also 24681012. All diese Zahlen sind gerade Zahlen. Und unsere Zahlen sind wie 35791113. All diese Zahlen. Also nicht nur das, es geht weiter bis Okay. Also die Nummer, auf die eine Dame auch bei Gino lange gewartet hat. Gefragt wird als gerade Zahl bezeichnet. Eine ungerade Zahl, wenn diese Behauptung unter einer anderen Zahl als Null steht. Lassen Sie uns also dieses Programm ausführen und die Ausgabe sehen. Lassen Sie mich das zuerst klären. Geben Sie eine Zahl ein. Nehmen wir an, ich gebe Nummer 45 ein. Die Ausgangsspannung, die bei ihnen bei 45 liegt, oder Zahl durch 45, ist eine ungerade Zahl, denn wenn wir 45 teilen, erhalten wir eins, entweder Nachfrage oder zwei, in 20 bis 44,1, die wir als Erinnerung erhalten, also ist Erinnerung etwas anderes als Null. Es wird also zu diesem anderen Teil kommen. Und es war wirklich die Methode , dass 45 eine ungerade Zahl ist. Und nehmen wir an, ich führe es erneut aus, und wenn ich eine Zahl 12 eingebe , tut mir leid, gebe ich die Zahl 12 ein, dann ist 12 eine gerade Zahl. Nehmen wir an, ich lasse es noch einmal laufen. Und wenn ich hier eine Zahl eingebe, muss uns das eine gerade Zahl geben. Und wenn ich es noch einmal starte und wenn ich fünf bekomme und fünf ist eine ungerade Zahl. Auf diese Weise können wir also feststellen, ob eine Zahl ungerade oder gerade einfache Logik ist und durch zwei geteilt gleich Null ist. Wenn es von Null kommt. Zur Erinnerung, wir sagen welche Zahl, sonst sind es Sortiernummern. Ich hoffe, diese einfachen Programme helfen Ihnen zu verstehen, wie das Programmieren funktioniert und wie Ihre Logik aussieht. Und das sind auch in Interviews ziemlich beliebte Fragen , insbesondere für eine Gefriertruhe. Und wenn wir einen neuen Absolventen hätten und nach dem Job suchen würden, würden diese Fragen beim Campuspraktikum ziemlich häufig gestellt, okay. 54. Programm zum Überprüfen von Positiv Negativ oder NULL: In dieser Vorlesung werden wir ein Programm schreiben, in dem wir überprüfen, ob eine Zahl negativ, positiv oder Null ist. Es wird also ein einfacher Test sein, bei dem wir herausfinden , ob eine Zahl negativ, positiv oder Null ist. Dafür werden wir also dasselbe tun, was wir in der letzten Vorlesung gemacht haben, aber hier etwas anders. Die Nummer kann mit einer doppelten Lendenwirbelsäule versehen werden. Okay, also nimm die Eingabe als doppelt und wir verwenden die Funktion zum Lesen von Zeilen und dieselbe Aufforderung, bitte gib eine Zahl ein. Dann prüfen wir, ob die eingegebene Zahl größer als Null ist. Wenn es größer als Null ist, wird die Meldung ausgegeben. N ist eine positive Zahl. Und wenn es gleich Null ist, geben wir, als wäre es eine Null. Und zwar nur, wenn es anders als Null ist. Dann wird es das zuerst überprüfen. Wenn n größer als Null ist, dann postrenal, okay? Dann kommt es zu einem anderen Teil in L3, der ein verschachteltes Wenn-Else verwendet. Wenn Zahl nicht größer als Null ist, kommt es zu diesem anderen Teil. Und dann überprüfen wir in diesem anderen Teil, ob die Zahl gleich Null ist, was ergibt, dass Zahl Null ist. Andernfalls, wenn Zahl nicht Null und größer als Null, kleiner als Null ist , dann werden wir, was wir tun werden, diesen anderen Teil eingeben wollen. Das heißt, es wird eine negative Zahl sein, oder? Wenn die Zahl kleiner als Null ist. Wenn Zahl nicht größer als Null ist, wenn Zahl nicht größer als Null ist, oder? Mantissa, es kann Null oder weniger als Null sein, oder? Wenn es also Null ist, bekommen wir Null. Wenn es weniger als Null ist, kommen wir zum anderen Teil und geben die Nachricht so ein, als ob die Zahl eine negative Zahl ist , es einfach überprüfen. Lass uns das ausführen. Lass mich das klären. Okay? Okay, hier. Okay, lassen Sie uns das ausführen. Lassen Sie mich also eine Nummer eingeben, die Atlanta unterstützt. Oh, minus fünf. Minus fünf ist eine Zahl. Ich nehme an, ich führe es erneut aus und gebe 45 ein. Es tut uns leid. Ich trete 45 Jahre ein. Vier vor fünf ist eine Portion oder nehmen wir an, ich lasse es noch einmal laufen, praktisch, ich setze Null. J, die saudische Tito-Zahl ist Null. Okay? Und dann nehme ich an, ich führe es erneut und gebe eine doppelte Zahl wie -78,5. Also -7.578,5 ist eine negative Zahl, oder? Auf ähnliche Weise ergibt das Minus acht ein Minus. Dies ist also das einfache Programm, um herauszufinden, wo die Zahl positiv, negativ oder Null ist. 55. Programm zum Überprüfen des Schaltjahres oder NICHT: Hallo und willkommen zurück. In dieser Vorlesung werden wir ein Programm schreiben, um herauszufinden, wo dieses Ohr ist, Bolivien hin oder her. Also, was ist Leaf hier? Verschwinde von hier. Sie erhalten einen zusätzlichen Tag, etwa drei bis sechs Tage im Jahr. 376 Tage hier sind plötzlich aufgetaucht, oder? Wie entscheiden wir also , ob die Werft kein Schaltjahr ist oder nicht. Es gibt also eine einfache Formel. Wenn das Ohr durch vier geteilt wird und der Rest Null ist, könnte es sich um ein Libyen handeln, aber das ist nicht der Ein-Liter-Fall, oder? Wenn das Ohr durch vier geteilt wird, ist dies die Modulfunktion. Wenn Sie es durch vier teilen und jedem Anbieter Null geben, dann könnte das Libyen sein. Aber wir müssen eine andere Bedingung überprüfen, ob die Zahl auch zu gleichen Teilen durch Hundert geteilt wird. Wenn Sie den Bericht der United Way-Studie auch mit Null teilen , könnte es sich um ein Schaltjahr handeln, aber wir müssen überprüfen, ob das durch Hundert geteilt wird , und Ihnen eine Erinnerung als 0/100 geben. Auch die Angabe des Restes ist Null. Auch hier könnte es sich um ein Live handeln, aber auch hier müssen wir eine Bedingung überprüfen, müssen wir eine Bedingung überprüfen bei der die Daten noch durch 400 geteilt werden und eine Erinnerung als Null geben, wenn dieses Jahr ebenfalls gleichmäßig durch 400 geteilt wird, dann ist das also Ihr Schaltjahr. Und wenn nicht, dann wird es nicht wie Libyen sein. Die erste Bedingung, die wir überprüfen müssen ist, ob die Bearbeitung durch vier dividiert wird, dann müssen wir überprüfen, ob sie direkt geteilt werden und der Rest als Null vollständig geteilt ist, richtig, für Ihr Modell bedeutet das Modul 40. Dann haben wir das Projekt noch mehr oder weniger 100, es ist ungefähr, also kommen Null und Jahresmodul 400. Sie kommen also auch zu Null. Wenn das so ist, hat er seine, äh, Livia. Livia. Okay. Und wenn und auch hier, das nicht geteilt durch 100 ist, dann ist es noch nicht live. Wird auch aus diesem Panel herauskommen, gehe zum anderen Teil. Und wenn es nicht durch vier geteilt wird, dann ist es sicherlich kein Schaltjahr. Okay? Auch hier gilt Wenn das Jahr dafür nicht richtig ausgerichtet ist, ist es keine Olympiade. Okay? Lassen Sie uns also dieses Programm durchführen und das Jahr 2020 unterstützen und starten. 2020 ist der bevorzugte Weg , da es durch vier geteilt wird. Es ist auch durch Hundert geteilt. Und es wird aufgeteilt werden, oder? 400 auch, oder? Nun, es ist wirklich ungefähr 400 2020er Jahre. Ich wusste, dass ich für ja geschrieben habe. Und wenn es nicht durch Y geteilt wird, wenn es durch hundert geteilt wird und Sie nur an Null erinnert werden, dann haben wir Projekt 400. Aber hier ist es, es gibt uns den Nachfragern etwas, oder? Deshalb ist der Rest hier nicht Null. Es wird also zum anderen Teil kommen und Sie werden um 20:20 Uhr in Libyen sein. Wenn es also mehr oder weniger gleich Null ist, dann müssen wir überprüfen, ob es durch 400 geteilt wird oder nicht. Wenn der Modulus nicht gleich Null ist, wird es zu diesem Teil kommen und wir werden sehen, dass Libyen der 2020er Jahre wieder einen Rahmen dafür bildet. Und wenn ich 1520500 gebe, ja, ziemlich plötzlich für immer oder nicht. Also C noch 2051, das ist geteilt durch vier. Also wird es hierher kommen. Es wird genommen und durch 100 geteilt oder nicht. Es ist also vollständig durch 100 geteilt. Dann kommt es zur Divided This Loop und es wird geprüft, ob diese durch 400 geteilt wird oder nicht. Sehen Sie sich also 2500/400 an, was es uns für den Rest geben wird. Jemand rendert es nicht auf Null, also wird es hierher kommen und es wird zum anderen Teil kommen, weil der Rest nicht gleich Null ist. Und dieser Teil, der 2.500 drucken wird, ist kein Libyen. Also lasst uns reingehen und das Ergebnis sehen. C, 2.500 ist hier kein Blatt, oder? Ähnlich, wenn ich 19.1.900 ansetze, dann fürchte ich nicht nur 2.300.2300, noch nicht am Leben sind, oder? Warte, ich brauche wieder Tao Qian. 12. Wenn wir plötzlich herausfinden, warum es hier live ist, weil es durch vier geteilt wird, dann wird es zu diesem kommen und sehen, ob die jährliche Gesamtrate dieses Jahres durch 100 geteilt wird und wir einen Rest von Null haben. Nein, es gibt uns nicht den Rest Null. Also müssen wir noch einmal nachschauen. Und es wird eindeutig um den Gesundheitsteil gehen und es wird libysch gedruckt. Okay. Auf diese Weise können wir ein Programm schreiben, um herauszufinden ob eine bestimmte Gottheit noch schläft oder nicht. 56. Programm für Multiplikationstabelle: Hallo und willkommen zurück. In dieser Vorlesung werden wir also ein einfaches Programm zum Drucken von Multiplikationstabellen schreiben , oder? Eine Multiplikationstabelle zu mögen ist eine Tabelle für Gleichheit. Nehmen wir an, die Multiplikationstabelle bis zu ist zwei, dann zwei zu 24, dann zu 2,236 , also 2482 in eine Pipe. Okay? Also eine einfache Multiplikationstabelle die wir drucken werden. Und dafür werden wir ein Programm schreiben. Also habe ich das Programm bereits geschrieben, um unsere Zeit zu sparen. Nun, zuerst nehmen wir die Benutzereingabe als Ganzzahl und wir werden Sie auffordern, bitte geben Sie eine Zahl ein. Sobald Sie eine Zahl eingeben. Wir nehmen diese Nummer. Und was wir tun werden, wir werden eine For-Schleife laufen lassen. Was in eins bis zehn steht, weil das Einmaleins, wir wollen es beenden. 14, bis zu zehn Zahlen Valley, richtig? Also, und dann drucken wir die Multiplikation, tabellarisch die Zahl n. Und was wir tun werden, wir multiplizieren einfach N mit i. Also nehmen wir sie zuerst, oder jemand nimmt die Zahl drei bis drei zu eins. Wenn der Vorstand das nächste Mal kommt, werde ich einer sein. Also 3,22 und 3,23 bis zehn. So. Es wird die Multiplikationstabelle drucken und das ist nur für die Ausgabe. Es wird also drei zu eins sein, was 33 zu zwei entspricht. Sex wie dieser. Okay, lassen Sie uns das ausführen und nehmen wir an, ich gebe hier drei ein. Also, was wird das Ergebnis sein, um drei von 13 zu sehen und ich ist ein Jahr, okay, also drei zu eins entspricht 33 zu eins gleich drei, dann drei zu 26 bis zehn. Wenn Sie also diese Zahl erhöhen möchten, können Sie hier den Stützarm platzieren. Und wenn ich es noch einmal laufen lasse und für drei Jahre wette, also sieh mal hier, das geht bis zu den Preprints. Auf diese Weise können Sie also die Multiplikationstabelle oder für eine beliebige Zahl n, für eine beliebige Anzahl von Primzahlen bis zur richtigen Pain, ein Proton erzeugen die Multiplikationstabelle oder für eine beliebige Zahl n, für eine beliebige Anzahl von Primzahlen bis zur richtigen Pain, , was Sie wollen. Also nehmen wir an, ich lasse es noch einmal laufen und behalte die Nummer 20, lerne. Nummer 25, Jahr Atlanta 25. Lass mich das klären. Ich gebe eine Zahl 25 Jahre ein. Ich möchte die Multiplikationstabelle für 25 generieren. 25 eins zu eins. Wenn ich t wählen wollte, entspricht 25 zu drei bitte 75,25 zu zehn. Auf diese Weise können wir die Multiplikationstabelle in unserem Programm generieren . 57. Was sind fehlende Werte und Arten von fehlenden Werten: Hallo und willkommen zurück. In dieser Vorlesung lernen wir sehr wichtiges Konzept kennen, das als Imputation fehlender Daten bezeichnet wird . Also wann immer wir ein Datenanalyseprojekt, ein Projekt für maschinelles Lernen oder sogar ein Datenwissenschaftsprojekt, ein Projekt für künstliche Intelligenz oder ein Deep-Learning-Projekt durchführen maschinelles Lernen oder sogar ein Datenwissenschaftsprojekt, . Welches Projekt Sie auch im Zusammenhang mit den Daten durchführen, wir müssen an den Daten arbeiten. Und eines der herausfordernden oder größten Probleme ist jetzt das Fehlen von Werten in den Daten. Was meine ich also mit fehlenden Werten oder fehlenden Daten? Wenn es also die Art und Weise unterstützt, wie wir Daten sammeln, sammeln wir Daten mithilfe von Umfragen oder wir haben die Leute gebeten, die Formulare auszufüllen. Und während die Leute im Internet surfen, sammeln wir Daten, während die Leute surfen, sammeln wir Daten, die polarisiert sind, einkaufen gehen. Wir sammeln Daten durch Gedichte, indem Feedback bitten, all diese Dinge. Es gibt also verschiedene Möglichkeiten, Daten zu sammeln, oder? Und bei diesen verschiedenen Arten der Datenerfassung zögert manchmal die Person, manchmal die Person uns Daten gibt oder uns Daten zur Verfügung die uns Daten gibt oder uns Daten zur Verfügung stellt, all die Daten denen wir Bob fragen, nicht wahr? Und wenn er zögert und Gibbs falsche Daten gibt oder er für einige Formularwerte keine Daten speichert, dann werden die Daten fehlen, oder? Und das gilt auch für das Vervollständigen der Daten. Und wenn wir versuchen, diese Daten zu analysieren, können wir auf Probleme stoßen, da viele der Datenspalten oder -zeilen fehlen. Nehmen wir an, das einfache Beispiel ist, wenn Sie Einkaufszentrum gehen und sie sind. Die Leute bitten Sie, ein Feedback-Formular auszufüllen , in dem sie nach Ihren Familiendaten, Ihrer Handynummer, Ihrer E-Mail-ID und Ihrer Mutter namens Vatername, Ihrem Straßennamen fragen, wo verlassen Sie? Was sind deine Präferenzen? Wie viel lösen Sie? In einem Monat? Du bist wie dein Gehalt , all diese Daten. Die meisten von uns werden also nicht bereit sein all diese Daten wie unsere Gehaltsdaten oder sogar die Privatadresse oder die Handynummer anzugeben. Wir neigen also dazu, uns zu verstecken und diese sensiblen Daten oder unsere Familiendaten nicht bereitzustellen , z. B. ob wir verheiratet oder unverheiratet sind oder ob wir einen Käfig haben oder nicht. Diese Daten stellen wir nicht zur Verfügung. Wenn das Unternehmen also die Daten von Tausenden von Menschen im Einkaufszentrum sammelt und sie befragt, werden sie, wenn sie die Daten sammeln, wenn sie hineingehen, die Daten analysieren. Sie werden feststellen, dass die meisten Menschen nicht geantwortet haben, wie viel sie besitzen und was ihr Familienstand ist, wie viele Kinder sie haben, wenn sie nicht für diese Art von Trennung sorgen, sie werden sie nicht kategorisieren können . Nun, sie könnten einige Leute unterstützen. Sie haben geheiratet und sie haben die Spalte nicht ausgefüllt, verheiratet oder unverheiratet. Sie werden sie also entweder falsch kategorisieren oder sie werden sie nicht kategorisieren können. Und das ist das große Problem bei Datenanalyse und maschinellem Lernen oder Datenwissenschaftsprojekten. Um dieses Problem zu lösen, gibt es Möglichkeiten, die fehlenden Werte zu füllen. Also unterstütze dich. Wenn Sie numerische Daten haben, Unterstützung, Sie haben die Alters- und Gewichtsdaten, die Sie von Tausenden von Menschen und einigen Personen gesammelt haben von Tausenden von Menschen und einigen Personen , bei denen sie fehlen oder bei denen sie im Alter fehlen. Was wir also bei numerischen Daten tun können, können wir einfach den verfügbaren Datensatz verwenden. Und wir können den Mittelwert oder Durchschnittswert in die fehlenden Werte eintragen. Was auch immer die fehlenden Werte sind, wird mit dem Durchschnittswert oder Mittelwert gefüllt. Und das wird die Daten vervollständigen und wir können eine gute Analyse dazu durchführen. Das ist also eine einfache Möglichkeit, fehlende Daten in R oder einem anderen Data-Science-Projekt zuzuschreiben . Okay, also im Fall fehlender Werte, numerisch, was ist, wenn die fehlenden Werte nicht numerisch sind? Was wir tun werden. Was wir nun verstanden haben, haben wir verstanden, was die fehlenden Werte sind und welche anderen Regionen für sie gelten. Lassen Sie uns also die Typen fehlender Werte zu den Typen fehlender Werte verstehen . Wir haben sie in die drei Typen eingeteilt. Eins ist M, CAR, dann MAR, oder das letzte ist ein MAR. Also, was ist diese MC, AR, M-Katze. Also MCAR, Stanford fehlt völlig zufällig, fehlt C4, komplett A4 bei Arpa Random fehlt völlig zufällig. Und ist der rötliche Typ fehlender Werte, wenn das Fehlen keine Kosten verursacht. Mit anderen Worten, die fehlenden Werte haben nichts mit Funktionen zu tun wie der Name schon sagt. Dieser See. Sie sind nur ein sehr seltener Fall, in dem Sie die Daten beispielsweise beim Einfügen der Daten in die Excel-CDART-Datenbank verpasst haben. Oder wenn wir Daten sammeln oder einige Personen, manche Leute, nach dem Zufallsprinzip befragen , fehlen Ihnen einige Daten. Das ist also ein ziemlich seltener Fall, in dem wir das MCAR bekommen. Dann die nächste Spalte, die MAR-Daten, MAR bedeutet zufällig fehlen. Dies ist durchaus üblich und impliziert, dass die fehlenden Werte vollständig durch die Daten erklärt werden können , die wir bereits haben. Beispielsweise kann es vorkommen , dass Männer eine Umfrage im Zusammenhang mit Depressionen wahrscheinlich empfinden unabhängig davon, wie depressiv sie sind. Wie. Nehmen wir an, einige Menschen sind depressiv und wir dienen diesen Menschen. Die meisten Menschen verstecken also ihren mentalen Status, oder? Sie zögern sehr, ihre geistige und psychische Gesundheit mit anderen zu teilen, oder? Sie werden also verbergen, dass sie einige psychische Probleme haben. Und das wird dazu führen, dass die Leute die falschen Informationen bekommen. Diese fehlenden Werte oder MAR, richtig, die zufällig fehlen, sind also tatsächlich darauf zurückzuführen, tatsächlich darauf zurückzuführen dass eine Annahme über die Daten getroffen wurde. Und es gibt keine Möglichkeit zu beweisen, ob die fehlenden Datenwerte den MAR-Wert erhöhen. Immer wenn fehlende Werte als MAR oder MCA oder zwei größere Zahlen kategorisiert werden, können sie getrost ignoriert werden. Also MCAR, MAR, da sie quasi zufällig fehlen, können wir sie ignorieren. Wir können, wenn Sie Daten mit diesen, dieser Art von fehlenden Werten haben , diese Werte einfach ignorieren und Sie können komplett weitermachen , ohne diese fehlenden Werte zu füllen und Sie können sie aus dem Datensatz entfernen. Und das ist völlig in Ordnung. werden Sie nicht viel verpassen, da alle Zahlen zufällig fehlen. Das bezieht sich nicht auf ein Feature oder eine Variable, die sich stark auf Ihr gesamtes Datenergebnis auswirken wird . Okay? Der letzte ist ein AR, und M steht für not missing at random. Und das ist wichtig. Warum? Und CMR. Und wenn es sich bei den Daten nicht um MCAR, MAR handelt, werden sie Zufallsprinzip so kategorisiert, dass sie nicht fehlen. Und was nicht zufällig fehlt , bedeutet, dass, wie ich bereits sagte, wenn wir Leute im Einkaufszentrum befragen, sie ihren Ehepartner, den Namen ihres Kindes, ihre Adressdaten, ihre Kreditkartendaten oder ihre Gehaltsdaten verbergen können ihre Adressdaten, ihre Kreditkartendaten . Das ist also kein Zufall, oder? Die Leute verstecken bereitwillig Daten, die sie nicht bereitstellen. Und wenn Sie, wenn wir die Daten analysieren, feststellen, dass die Personen ihren Familienstand oder den Namen ihres Ehepartners nicht angegeben haben Familienstand oder den Namen ihres Ehepartners oder wie viele Kinder sie haben und wie viele nicht. Diese Daten fehlen also nicht zufällig. Das ist also wichtig. Und das ist kein Zufall, und wir wissen vielleicht nicht in welchem Fall die Paketlinien stehen. Wenn eine Person nichts über ihren Familienstand gesagt hat, ob sie verheiratet ist oder nicht, können wir sie nicht als verheirateten Mann oder unverheirateten Mann einordnen . Und das wird zu dem Problem führen , dass wir diese Person nicht in eine bestimmte Kategorie einordnen Person nicht in eine bestimmte Kategorie können und daher unsere Daten nicht korrekt analysieren können. Und wenn wir dieses NM AR Meeting ignorieren , bei dem keine zufälligen Daten fehlen, dann nehmen wir an, Analysten oder Datenwissenschaftler , die diese Daten ignorieren fehlen nicht zufällig. Er könnte am Ende zu falschen Berechnungen kommen, falsche Prognosen sind falsch und das wird zu einem enormen Verlust für das Geschäft führen. Wenn Sie Sie unterstützen, wenn Sie den Umsatz Ihres Unternehmens prognostizieren und wenn Sie keine zufälligen Daten in Ihrem Datensatz ignorieren, dann könnten Sie am Ende falsche Berechnungen und Prognosen erhalten, die, was zu enormen Verlusten führen kann, Ihre Kunden nicht richtig ansprechen. Und das wird zu vielen Problemen für Sie führen. Sie müssen sich also um diese drei Arten von fehlenden Werten kümmern . Und Sie müssen beim Vergrößern wissen, welche Werte, welche Art von fehlenden Werten in Ihrem Datensatz fehlen. Und wenn es nicht an einem zufälligen Datensatz fehlt. Und woher wissen Sie, dass nicht zufällige Daten fehlen, fehlende Werte nicht zufällig fehlen. Und dass Sie auf der Grundlage des Wie und wie sich dieser fehlende Wert auswirken würde, entscheiden können . Okay. Also, ob eine Person verheiratet ist oder nicht, es wirkt sich darauf aus, weil Sie die Person nicht richtig kategorisieren können . Auf diese Weise können Sie ermitteln welche Auswirkungen das hat und welche Auswirkungen dieser fehlende Wert auf die gesamten Daten und das Ergebnis haben wird , das Sie aus der Analyse der Daten erhalten werden . also keine numerischen Daten haben, können Sie neben dem Mittelwert Wenn wir also keine numerischen Daten haben, können Sie neben dem Mittelwert auch andere fehlende Werte angeben, indem Sie den Mittelwert, den Mittelwert des gesamten Datensatzes, verwenden . Davon abgesehen haben wir einige R-Pakete, mit denen wir die fehlenden Werte unterstellen können. Und das sind die Fiber aus den beliebten R-Paketen für die Imputation fehlender Werte. Und die erste und sehr beliebte Mäuse sind MIC. Dies ist das Paket, mit dem die fehlenden Werte unterstellt werden können . Dann ist Emilia ein weiteres Paket, Missed Forest ist ein anderes, und ich vermisse noch eins. Ein MI ist der fünfte. Das sind also die fünf Popplet-R-Pakete für fehlende Werte. Oder mit Hilfe dieser Pakete können wir sehr viel berechnen, die fehlenden Werte in unserem Datensatz zuschreiben und am Ende haben wir eine großartige Analyse unserer Daten. Ich hoffe, Sie haben verstanden, was fehlende Daten in R impliziert. Was sind die fehlenden Werte, Arten von fehlenden Werten und wie Sie den richtigen Typ fehlender Werte identifizieren können und wie wir mit den fehlenden Werten umgehen können. Okay, wir sehen uns in der nächsten Vorlesung. 58. Importieren von NAs aus fehlenden Werten in einem Datensatz: Willkommen zurück. In der vorherigen Vorlesung haben wir also behandelt, welche Werte uns fehlen und welche Arten von fehlenden Werten wir haben. Wir haben gelernt, dass MCAR, MAR und MAR nicht zufällig fehlen. Wir haben also gelernt, was fehlende Werte sind und welche anderen Arten von fehlenden Werten wir im wirklichen Leben sehen können , wenn wir unsere Fähigkeiten, unsere Data-Science-Projekte, durchführen . Und wir haben auch gesehen, welche Pakete in unserer Programmierung verfügbar sind Pakete in unserer Programmierung verfügbar , mit denen wir die fehlenden Werte unterstellen können. Wir haben also fünf beliebte R-Pakete, Mäuse, Emilia, Ms. Water, Act, haben einen MI verpasst. Okay. Das sind also die Dinge, die wir in der letzten Vorlesung behandelt haben . Jetzt machen wir unser echtes praktisches und unser Projekt, bei dem wir, was wir tun, den eingebauten Datensatz verwenden , der in unserem Paket verfügbar ist, nämlich den Iris-Datensatz. Und in diesen Iris-Datensatz, was wir tun, werden wir einige fehlende Werte aufnehmen. Deshalb haben wir bewusst einige fehlende Werte in den Iris-Datensatz aufgenommen. Dann werden wir versuchen, fehlende Werte mit einigen Daten zu unterstellen. Also werden wir das Paket verwenden, das Frau umgebracht hat und die Mäuse werden die Mäuse und Frau Perez dafür benutzen , okay? Implizieren Sie also die fehlenden Werte im Datensatz. Okay? Dafür verwenden wir also den Mittenwald und wir werden den Iris-Datensatz verwenden , der sich im Schweißbereich befindet. Der erste Schritt ist also, dass wir die Daten laden müssen. Um also den eingebauten Datensatz zu laden , der in R leicht verfügbar ist, müssen wir diese Daten einfach aufrufen. Daten sind ihnen also ebenbürtig. Und wenn wir jemanden Daten hochladen und wenn wir das ausführen, werden wir jemanden erledigen , der den Iris-Datensatz bearbeitet. Also sehen Sie hier, das sind die Daten, wir aus der Zusammenfassung dieser irischen Daten erhalten. Es gibt also viel mehr Daten, aber dies ist nur eine einfache Datenzusammenfassung aus den irischen Daten. Als Nächstes müssen wir tun. Das werden wir, da wir hier das Mäusepaket verwenden. Mäuse-Redewendungen fehlen also bei zufälligen Werten, oder? Sehen wir uns also die fehlenden Werte in unserem Datensatz da dieser Iris-Datensatz keine fehlenden Werte enthalten wird. Was wir also tun werden, wir fügen fehlende Werte ein und sehen uns die fehlenden Werte in unserem Datensatz an, indem wir die breite NA-Funktion verwenden , und diese Verbreiterungsfunktion können wir von der Miss Forester-Funktion abrufen. Okay, damit können wir Iris Dot Miss die fehlenden Werte verwenden und wir können die breite n-a-Funktion verwenden. Und wir verwenden den Datensatz, um hier den Datensatznamen zu geben, Iris und nicht 0,01. Okay? Und wenn wir das tun, wird es, was es tun wird, es wird die fehlenden Werte in unserem Datensatz sehen. Wenn wir also versuchen, diesen Chunk auszuführen, werden wir herausfinden, warum wir diesen Fehler bekommen, weil diese Erweiterungsfunktion nicht verfügbar ist , weil dies zu dem Luxus gehört, den das Paket verpasst hat. Also was wir tun werden, wir werden versuchen, MS Perished und Mäuse zu installieren . Lassen Sie mich also zuerst, da unsere Benachrichtigung hier wie ein Paket Mäuse kommt, die installiert werden sollen. Klicken Sie also einfach auf Installieren und überprüfen Sie die fehlenden Daten in RMD, die Paketmäuse werden installiert. Also wird es mit der Installation beginnen. Kann jetzt den Installationsvorgang sehen , der mit der Installation von Mäusen gestartet wurde. Also wird es heruntergeladen, es wird ein paar Sekunden dauern. Okay? Pakete wurden also erfolgreich installiert. Okay, als Nächstes müssen wir ein anderes Paket namens Miss Forester installieren. Also tippen wir einfach, dass du es verpasst. Okay? Also einfach auf Installieren klicken und das Hmisc-Paket wird installiert. Installiere das Paket. Sie können auch den Befehl installed packages verwenden und ihnen diesen Gesamtstrukturnamen geben und er wird installiert. Okay, jetzt der Miss Water Storage auch erfolgreich installiert. Lassen Sie uns versuchen, diesen auszuführen. Chunk hier oben. Ich habe gerade Mythos und Religion unterrichtet, eine Funktion und ein Jahresgehalt von 0,01 eingeführt. Okay, lassen Sie uns das ausführen. Ich weiß nicht, warum wir es wieder versuchen. Jetzt wurde dieses falsch gefaltete Paket korrekt installiert. Jetzt können wir einfach und dann lasse ich das laufen, von dem ich dachte, Miss hat es mitgebracht. Und dann lese ich die Zusammenfassung von Irish Dartmouth. Und wir werden es hier sehen. Wenn Sie also diese Zusammenfassung der irischen Daten sehen, werden Sie keine Werte sehen. Sie werden sehen, dass das keine Werte sind. Aber wenn wir diese breite NA verwenden und einige fehlende Werte in den Irisdaten verunreinigen. Und wir werden eine neue Kunst schaffen, bei der Werte fehlen. Nadar von IDs. Ids hat es mir beigebracht. Siehst du, ja, was es tut, es macht irgendeine Addition von Kelchblattlänge, Kelchblattlänge und Kelchbreite, Blütenblattlänge und Blütenblattbreite und ist 19 und die Proteine der Setosa-RNA. Also haben wir diese vielen 1.819,14 eingeführt. Alle Werte, die das verwenden, haben eine Funktion aus dem Hmisc-Paket übernommen. Als Nächstes müssen wir die kategorialen Variablen entfernen. Okay? Also lass uns das ausführen und hier sehen. Okay, wir haben diese Spezies entfernt. Arten wie die Farbe Virginica. All diese Dinge haben wir entfernt, die kategorischen Daten wurden daraus entfernt. Und als Nächstes werden wir mit der Implementierung von Mäusen fortfahren , was wir in der nächsten Vorlesung tun. 59. Fehlende Werte mit PMM-Methode implizieren: Was wir in der vorherigen Vorlesung gemacht haben, wir haben jede Funktion aus dem Myths Forest-Paket aufgebraucht , um 10%, 10% fehlende Werte in unseren Datensatz aufzunehmen. neuen Datensatz haben wir entweder einen Fehlstart, und wenn wir diesen ausführen , werden 10% fehlende Werte in unsere Daten aufgenommen. Und um das zu überprüfen, werden wir das ausführen und wir werden die Zusammenfassung hier abrufen. Und hier können Sie sehen, dass NA-Werte in unsere Daten aufgenommen wurden. Okay? Als Nächstes entferne ich die kategorialen Variablen sodass wir uns auf die kontinuierlichen Werte konzentrieren können. Okay? Wie sehen die kontinuierlichen Brunnen aus? Siehst du, wenn du hier siehst, das sind der kontinuierliche Garnwert und die Arten wie Siedler, welche Farbe hat Virginia? Es handelt sich nicht um kategorische Daten, also werden wir sie entfernen. Also, was wir entfernt haben, wir haben select entfernt, wir haben Irish Teached Miss verwendet, den Datensatz und was wir verbinden, wir erstellen die Teilmenge und wir geben das Auge ein, sie beginnen, Datensatz mit fehlenden Werten und wir sehen ausgewählt aus, ihr nennt zwei Arten minus C. Das bedeutet, dass die Art entfernt wird, bei der es sich um kategorische Daten in unserem Datensatz handelt. Und dann bekommen wir die Zusammenfassung. Wenn wir das also ausführen, erhalten wir diesen Datensatz, in dem die Spezies aus unserem Datensatz entfernt wird, sodass wir uns auf die kontinuierlichen Werte konzentrieren können. Okay, als Nächstes, was wir tun werden, werden wir die Mäusehalterungen installieren. Und warum wir dieses Mäusepaket brauchen, weil dieses Mäusepaket eine Funktion hat , die Md-Punktmuster genannt wird. Also die Md-Punktmusterfunktion, was sie tut, sie gibt eine tabellarische Form des fehlenden Werts zurück jede Variable in einem Datensatz darstellt. Okay, also für das, was wir tun, werden wir die install.packages installieren, mit denen das Paket installiert wird. Und dann benutzen wir die Bibliotheksmäuse. Und dann verwenden wir das Md-Punktmuster die fehlenden Werte, die in jedem Teil vorhanden Jede Variable sieht sind. Jede Variable sieht, welcher Wert vorhanden ist. Also zuerst installieren wir oder wir haben es bereits installiert. Dann können Sie das auch noch einmal ausführen, wenn Sie möchten . Wenn wir nicht installiert haben. Und danach, nachdem das Paket nicht installiert ist, können Sie zu diesem Code kommen und dieses Md-Punktmuster ausführen und Ihren Datensatz einfügen. Das ist also der Iris-Datensatz, der die die fehlenden Werte enthält. Okay, lassen Sie uns das ausführen. Und wenn wir das ausführen, sehen Sie hier, was wir bekommen. Wir bekommen hier die fehlenden Werte dafür. Jeder hier, aber wie Kelchbreite, Kelchpunktlänge, Blütenblattlänge und Blütenblattbreite. Also lasst uns diese Tabelle verstehen. Das bekommen wir in dieser tabellarischen Form. Lass uns das verstehen. Es gibt also 98 oder 96 Objekte und hier gibt es 96 Beobachtungen, bei denen in den fehlenden Werten keine Werte fehlen. Und dann, okay, also diese sechs. 96. Dieser Wert bedeutet, dass keine Werte fehlen und Null bedeutet, dass er fehlt. Nun, also 96 Variablen , bei denen keine Werte und die Breite der Kelchpunkte fehlen. Und hier geht es weiter. Sechs Runnables haben fehlenden Wert, während bei einer Variablen auch RelU fehlt. Damit können wir also verstehen, wie viele Werte fehlen. Null bedeutet, dass bei diesen Variablen Werte fehlen, okay? Und das sieht ziemlich schlecht aus. Und wenn du willst, kannst du dir das auch ansehen. Ziemlich überlappend. Also sieh hier. Okay, als Nächstes, was wir tun, stellen wir uns in die Warteschlange erstellen die visuelle Darstellung dessen, was wir in dieser tabellarischen Form sehen. Also, was wir dafür tun werden, werden wir das Paket installieren. Okay? Und danach verwenden wir die BIM-Bibliothek. Und was wir tun werden, das nutzen wir. Wir zeichnen das, was auch immer wir durch das Mäusepaket bekommen, ein leeres Punktmuster auf. Wir werden versuchen, das zu planen. Also werden wir diese Funktion und die EDR-Funktion verwenden, und wir werden diesen Datensatz verwenden, Iris Dartmouth. Und dann verwenden wir Farbe, Marineblau, Gelb, was auch immer du willst. Sie können angeben, nehmen wir an, ich gebe Rot und Gelb und Zahlen Wert zu sortieren, und dann den Namen der Bezeichnung. Ich gebe alle Namen die es in beiden verpassten Starts gibt. Und warum dem Labor wirklich das Datenmuster fehlt. Okay, lassen Sie uns das ausführen und sehen, was Visualize und wir bekommen. Jetzt bekommen wir diese Visualisierung. Sehen Sie hier also mit diesen Visualisierungen, was wir verstehen, sind 67% der Werte, 67% der Werte in der Wüste ohne fehlenden Wert, 67% der Daten haben keine fehlenden Werte. zehn Prozent von 13 Prozent fehlen Werte Bei zehn Prozent von 13 Prozent fehlen Werte für die Länge und Breite der Blütenblätter und außerhalb. Okay? Und wir können dieses Histogramm auch sehen. Histogramm. Okay, lassen Sie mich hier einfach ein Histogramm sehen, fehlende Daten und Leah, die Variablen Blütenblatt, Blütenblattbreite haben etwa prozentuale Prozentsätze vor dem Druck, wobei die Länge zehn Prozent beträgt etwa prozentuale Prozentsätze vor dem Druck, , Kelchblattlänge etwa 9% oder so. Bei der Kelchbreite fehlen Daten von etwa 8%. Und hier kannst du das auch verstehen, okay? Auf diese Weise können wir die grafische Darstellung der fehlenden Werte sehen. Als Nächstes folgt der Critical Stop. Was wir hier machen. Wir sind dabei, wir werden den fehlenden Werten einige Werte zuschreiben. Dafür verwenden wir also die Mausfunktion und wir verwenden die ID start missing data set with missing values. Und m phi m ist gleich fünf. Was es tun wird, es wird dem Bild gleich fünf melden , wenn Sie es angeben, es wird den Dateitypdatensatz mit fehlenden Werten erstellen. Es werden also fünf implizierte Datensätze und eine maximale Adresse erstellt , die dann 50 beträgt. Und Methode, wir werden PMM verwenden. Was ist das PMF? Pmm ist ein prädiktiver Mittelwertabgleich für numerische Werte. Wir werden die Methode PMM verwenden, bei der es sich um den prädiktiven Mittelwertvergleich handelt, okay? Und dann sehen wir es uns für 500 an. Und dann sehen wir uns die Zusammenfassung der Eingaben bei data an. Lassen Sie uns also diesen Junk-Code ausführen. Und hier bekommen wir eine Bearbeitung. Okay? Es findet die Funktion Mäuse nicht, warum? Dann müssen wir gewinnen. Okay, also sieh mal hier, wir geben die Daten mit ein. Fehlende Werte. Die fehlenden Werte werden also einigen Daten und den ablaufenden Prozessen zugeschrieben. Das kannst du hier sehen. Also, weil es 50 ist, kleide ich mich auf Sand, wir verkaufen für 500. Es kann also einige Zeit dauern. Jetzt. Es ist erledigt. Stimmt es? Das ist also die Zahl der multiplen Imputation fünf. Unsere Imputationsmethode ist PMM, die wir verwendet haben, prognostiziert und matrixiert. Sie können die Kelchblattlänge und die Kelchblattbreite 11 sehen. Das ist die Konfusionsmatrix, okay? Und wie groß ist die Breite der Blütenblätter? Das ist also die Konfusionsmatrix, die wir bekommen. Was wir nun tun, ist, dass wir die implizierten Werte anhand von imputierten Daten überprüfen können , und wir können dafür die Kelchblattbreite verwenden. Also lassen Sie uns das duplizieren. Wurden importierte Daten nicht gefunden. Warum wir es wieder so machen. Okay, also habe ich den Variablennamen als Datensatznamen als Zeitraum angegeben . Und wenn ich das ausführe, siehe hier, das sind die Werte, die wir für die Kelchbreite angegeben haben. Okay? Also können wir auf die gleiche Weise hierher kommen und Alt drücken. Ich kann wirklich Meter hinzufügen und sie werden reichen, ich werde etwas Länge angeben. Und wenn ich das ausführe, erhalten wir auch die unterstellten Werte für die Länge der Kelchblattpunkte. Okay, jetzt können wir sehen, welche Werte wir in unseren Datensatz eingefügt und in unseren Datensatz eingegeben haben . Jetzt können wir die vollständigen unterstellten Daten abrufen. Da wir die fünf Setup-Daten eingegeben haben, können wir das zweite Objekt abrufen, indem wir das implizierte Komma zwei verwenden. Das wird uns also das, okay, er musste irgendwie unterstrichen werden, unterstelltes Hockey geben und das leiten. Dann können wir die Zusammenfassung verwenden. Vollständige Daten. Dorsi. Dies ist die vollständige Petition zum Hochladen von Daten, okay, auf diese Weise können wir die fehlenden Werte zuschreiben. Nehmen wir an, Sie müssen ein Weltprojekt anschreien , in dem einige Werte fehlen. Sie können also dieses Programm oder diesen Mechanismus verwenden, um fehlende Werte zu unterstellen, indem Sie wie hier PMM verwenden. Sie können auch die andere Methode verwenden. Und es gibt auch nur wenige andere Methoden , die Sie verwenden können, wie zum Beispiel den prädiktiven Mittelwertvergleich von PMM für numerische Werte. Wenn Sie binäre Variablen mit zwei Stufen haben, können Sie die logistische Regression verwenden. Und dafür lautet die Funktion log reg. Und wenn wir die Bayessche Bali-Tom-Regression haben, können Sie Variablen des vierten Faktors mit zwei oder mehr Stufen verwenden . Sie können die polymere Methode verwenden. Und wenn Sie ein seltsames Modell haben, können Sie die proportionalen 4D-Modelle für Auftragsebene zwei oder mehr verwenden . Das sind also die Methoden dr. Dies sind die Methoden und Pakete, die Sie für die Eingabe der Daten verwenden können. Also hier dreht sich alles um dieses Projekt. Und in diesem Projekt haben wir gelernt, wie man Daten zuschreibt. Auf die gleiche Weise können wir also auch Ihr eigenes Projekt umsetzen. Und Sie können, Sie können diesen Datensatz nehmen oder Sie können beliebige andere Daten verwenden. Sagen wir, versuchen Sie, die fehlenden Werte zu unterstellen und versuchen Sie , die fehlenden Werte in die Daten aufzunehmen. Was wir hier getan haben, haben wir zunächst einige unserer Daten mit Variablen ohne Werte eingefügt , oder? Und dann haben wir, was wir getan haben, das PMM verwendet, um diese Werte einigen Daten zuzuordnen, einigen relevanten Daten, damit wir die richtige Ausgabe erhalten können. Ich hoffe also, Sie lernen, wie Sie Daten in der Programmierung für Ihre Projekte im Bereich maschinelles Lernen und Datenwissenschaft implizieren können. Ich hoffe, du hast etwas gelernt. 60. Datensätze mit R-Funktionen analysieren: In dieser Vorlesung werden wir den Datensatz analysieren. Also zuerst, wenn Sie planen, als Datenwissenschaftler oder Ingenieur für maschinelles Lernen oder sogar als Datenanalyst für Datenvisualisierung zu arbeiten Datenwissenschaftler oder Ingenieur für maschinelles Lernen oder . Du musst keine haben. Was ist Datenanalyse und wie können Sie die Daten analysieren. Der wichtigste Teil aller Data-Science-Projektdaten ist also , wie Sie die Daten analysieren. Datenanalyse ist also der wichtigste Teil jedes datenwissenschaftlichen Machine-Learning-Projekts oder sogar eines Datenanalyseprojekts. Was ich also tun werde, ich werde den integrierten Datensatz verwenden , der mit dem Paket oder dem Download sofort verfügbar ist . Es kommt mit dem R-Paket, okay? Sie müssen es also nicht separat herunterladen. Es wird so sein, dass es mit dem Herzen kommt, okay? Es ist also ein eingebauter Datensatz mit dem r. Also verwenden wir diese Hand. Ich werde Ihnen sagen, wie wir die eingebauten Funktionen verwenden können , um die Daten zu analysieren und Informationen über die Daten zu erhalten. Okay? Was ist also ein Datensatz? Datensatz ist im Grunde eine Sammlung von Daten. Und wir haben am häufigsten gesehen, dass Datensätze quasi kostenpflichtig sind. Wir verwenden in unseren Datenbanken. Datenbanken, was sie gegeben haben. Der häufigste Datensatz , den wir gesehen haben, ist der. Also in unseren Datenbanken wie meiner Fortsetzung, unserer MongoDB oder jeder anderen Datenbank, wenn Sie sehen, dass sie im Grunde genommen aus dem Kelch genug Daten sind , oder? Wenn Sie sehen, dass MongoDB eine Sammlung von Daten in Form eines Schlüssel- und Wertepaars ist. Wenn Sie meine Nachfolgedatenbank oder das relationale Datenbankmanagementsystem RDBMS sehen , werden sie die Daten in Form von Zeilen und Spalten speichern. Und Zeilen und Spalten werden die Daten speichern, oder? Die gebräuchlichste Datensammlung ist also eine Tabelle, okay? Und wir speichern Daten auch im XML-Format, auch im JSON-Format. Aber am häufigsten ist ein Tisch, okay? Sie können also, was auch immer Sie in der Walmart-Tabelle gesehen haben, das die Daten im Grunde genommen enthält, oder? Also werden wir leere Autos benutzen. Empty Cars ist ein eingebauter Datensatz in R. Und diesen werden wir analysieren. Also leere Autos ist der in R eingebaute Datensatz von Motor Trend Cars, der aus den 1970er Jahren für Motor Trend US Makin abgerufen wurde, okay? Diese Daten stammen also aus diesem Ford Motor Trend US-Matching von 1970, okay? Nehmen wir also als Erstes an, wir haben diesen eingebauten Datensatz, der aus leeren Autos besteht, und wir möchten diese Daten laden. Was wir also tun können, wir können einfach den Datensatznamen schreiben. Und wenn wir das ausführen, erhalten wir den Datensatz. Das ist also der Datensatz, den wir haben. Okay? Und wenn du dich draußen hältst, gibt es mehr Kolumnen, oder? Das sind also die Zeilen. Und das sind die Zeilen, die unterschiedlich sind. Gute Namen, okay? Und für jede Karte gibt es mehrere Variablen wie MPG, Zylinderhubraum, auf die wir warten. Okay? Also all diese Daten, die wir mit dem leeren Auto haben, oder? Es hat also 11 Kolonnen und 32 Straßen. Das heißt, es enthält die 32 Fahrzeugdetails mit 11 Spalten. 11 Spalten sind 11 verschiedene Variablen für jede Karte. Okay? So einfach geben Sie den Datensatznamen und Sie erhalten die älteren Informationen, obwohl Sie alle Zeilen und Spalten des Datensatzes erfassen. Okay? Als Nächstes nehmen wir an, wir haben das drin. Wir wollen die Informationen bekommen, mehr Informationen über den Datensatz. Also, wie sich dieser Datensatz in einem Winkel befindet, von dem aus wir diesen Datensatz erhalten. Wir können also einfach das Fragezeichen vor den Datensatznamen setzen . Und wenn wir das ausführen, erhalten wir die Informationen über den Datensatz. Und diese Datensatzinformationen kommen hierher. Also wenn wir fertig sind. Dieser. Fragezeichen, Fragezeichen: Leere Autos erhalten diese Information, der Datensatz für leere Autos. Und das ist der Straßentestdatensatz von Motor Trend Car. Und das stammt aus der R-Dokumentation. Okay. Und so gibt es Ihnen die vollständige Beschreibung. Und total verwendet eine Brita, wie diese Daten formatiert wurden. Okay, das ist also ein Protest gegen Trendautos , und die Daten wurden aus den 1970er Jahren für Motor Trend verwendet. Makin befasst sich mit Kraftstoffkonzepten und Antennenaspekten des Automobildesigns und der Leistung von 32 Automobilen, 32 Autos in den Modellen 1973-1974. Okay. Und dann gibt es das Format an, als ob mpg Meilen pro Gallone bedeutet. Zylinder bedeutet Anzahl der Zylinder Hubraum, PS, Pferdestärken, Tiefgang, axiales Verhältnis Gewicht als 141 mal vier Meilen Teilzeit. Beurteilen Sie den Motor wie VSEPR im Allgemeinen, gerader Motor. Wir sparen also nach wie vor und wenn es Null hat, wird es empfangen und ein Viertel gerade, dann bin für Getriebe automatisch, wenn ein automatischer Kaiser manuell oder automatisch und manuell. Und gute Anzahl von Jahren und geschnitzte Anzahl von Cadbury-Tests. Okay, also die anderen Informationen, die wir für diese Datenquelle erhalten , okay. Kommen Sie jetzt zurück zum Analyseteil. Sie setzen also einfach ein Fragezeichen vor den Datensatznamen und Sie erhalten alle Informationen zum Eingabedatensatz. Jetzt wollen wir die Diamantzellen und den Variablennamen erhalten . Nehmen wir an, wir haben die Diamanten und Schrägstriche, Zeilen und Spalten, und das ist der Name der Variablen. Stellen Sie sich also vor, wie ich die Variablennamen mit einer Schleife haben möchte. Also, wie kann ich das bekommen? Also kannst du benutzen. Als Erstes müssen wir diesen Datensatz einer Variablen zuweisen. Und dafür erstelle ich einen variablen Datensatz, der Autos unterstreicht, und ich weise leere Autos zu. Leere Autos, Datensatz-Autos werden also die leeren Autos repräsentieren. Alle Werte für unsere leeren Autos werden also hier in den Datensatzwagen stehen und diese können wir in unserem Programm weiter verwenden. Wenn ich also dim verwende und die Datensatzvariable übergebe, unterstreicht dieser eine Datensatz Autos. Ich werde die Diamantensumme des Datensatzes zusammenstellen. Also, wenn ich Namen und einen Teil des Datensatznamensatzes verwende, oder ich rufe die Variablennamen im Datensatz ab oder lasse mich diesen Chunk ausführen. Sehen Sie hier. Jetzt gibt es die Diamanten und 32 Rollen und 11 Spalten, die wir von hier aus überprüfen können, z. B. 32 Zeilen und n Spalten. Okay? Das sind also die Diamanten und höher der Datensatz. Und wenn wir dann Namen verwenden, erhalten wir die Variablennamen. Sie sehen also hier, wir bekommen die Variablennamen. Der MPG-Zylinder wird von SP mit all diesen Dingen mitgeschleppt. 32 mal 11, 32 Zeilen und 11 Spalten sind also 32 Zeilen und 11 Spalten sind die Dimensionen des Datensatzes und dies ist der Name der Variablen. Als Nächstes möchte ich den falschen Namen der ersten Spalte extrahieren . Also möchte ich die Zeilennamen der Spalten finden. Ich kann Zeilennamen verwenden. Und ich kann die Datensatzvariable übergeben. Also rho name und ich gebe den Datensatz und die Begleitkarten weiter. Damit erhalte ich zuerst die Namen aller Wachen, Spaltennamen sagen C oder D oder Delta T. Wie viele? Dies sind die 32 Datensatzvariablen. Entschuldigung, dies sind die 32, 32 Autos, die in dem Datensatz verwendet wurden und die in diesem Datensatz verfügbar sind. Also die Flush-Spalte, okay? Und wenn wir dann die Dunkelheit verwenden, wenn ich die einzig wertvolle Information erhalten möchte, zum Beispiel die Meilen pro Gallone aus dem Datensatz. Ich kann diesen Dollarzeichen-Datensatznamen und dann das Dollarzeichen MPG verwenden . Ich hole mir die MPG-Variablenwerte. Okay? Auf diese Weise können wir also die Werte einer bestimmten Variablen erhalten . Also für den Fall hier, Wert von mpg, kann ich, ich erhalte die Werte von mpg, wenn ich EM hier verwende und Sie 0,1 erhalten , weil das automatisch und manuell ist. Also schauen wir mal hier, 1000, so. Okay, also Null für Automatik, eins für manuell. Auf diese Weise können wir hier Variablennamen verwenden, wenn ich MPG verwende und als Nächstes, wenn ich das sortieren will, kommt dieses MPG so, okay? Wenn ich diese der Reihe nach sortieren möchte, kann ich dafür die Sortierfunktion verwenden. Und ich kann den Datensatz und den Scorecard-Dollar mpg sortieren. Und es sortiert die Werte dieser MPG-Variablen c, ein Künstler kommt jetzt, sortierte Form, aufsteigend. Okay? So können wir sie also sortieren. Ich verliere einen Wertvollen. Als Nächstes möchte ich den Datensatz analysieren. Also kann ich jemanden benutzen und ich kann den Variablennamen für den Datensatz angeben den Variablennamen für und ich erhalte die Zusammenfassung der Daten. Sehen Sie sich hier diese schöne Zusammenfassung der Daten wie Meilen pro Gallone an. Was ist das Mittel? Was sind die ersten Quartilwerte? Was ist der Median? Was ist das Mittel? Was ist das dritte Quartil? Was ist der Höchstwert für jede Variable? Wir bekommen diese sechs Werte, oder? Zuerst der Median, wie Min, erstes Quartil, Medianmittelwert und dann Minimalmittelwert, Median und Maximalwerte. Und das erste Quartil und das dritte Quartil für jede dieser Variablen, wir erhalten diese Informationen. So erhalten Sie diese Zusammenfassung der Daten. Und das sind die Dinge, die wir in den kommenden Vorlesungen lernen werden . Wie wird der Mittelwert berechnet, was ist der Median, was ist das erste Quartil und das dritte Quartil? So können wir also Informationen erhalten und den Datensatz in R analysieren . Wir können unseren Datensatznamen verwenden, um den Datensatz zu erhalten. Wir können das Dollarzeichen verwenden, um die Informationen über den Datensatz zu erhalten , und wir werden den Datensatz erstellen. Wir können die Funktion lm verwenden , um die Dimension des Datensatzes zu ermitteln. Wir können names, function verwenden , um den Namen der Variablen zu erhalten. Wir können Zeilennamen verwenden, um eine Zeile, die erste Spalte, jede Zeile in der ersten Spalte zu löschen , okay? Werte jeder Zeile in der ersten Spalte, dann können wir dieses Dollarzeichen verwenden, um die Variablenwerte für den Datensatz zu erhalten . Und dann können wir die Sortierfunktion verwenden , um die Variablenwerte zu sortieren, und dann können wir die Zusammenfassung verwenden , um die Zusammenfassung der Daten zu erhalten. Okay, so können wir diesen Datensatz in R analysieren. 61. Datenmanipulation mit dplyr-Paket: Hallo und willkommen zurück. In dieser Vorlesung werden wir etwas über Datenmanipulation in R lernen Datenmanipulation in R Wir werden also etwas über Datenmanipulation lernen. Und dafür werden wir das ggplot-Paket verwenden. Ein doppeltes Paket ist also sehr wichtig, wenn Sie Daten manipulieren möchten. Und ich verwende diese RMD-Datei. Ich habe den Code bereits geschrieben, sodass wir einfach weitermachen und etwas über die grundlegenden Dinge des Spielers lernen und einige Daten manipulieren können . Als Erstes müssen Sie das Paket installieren , wenn Sie den Player verwenden möchten , oder? In unserem, wann immer Sie das eingebaute verwenden möchten , möchten wir einige Funktionen verwenden. Wir müssen das Paket auf unserem R installieren und dann können wir weitermachen. Wenn Sie mit dem Plan arbeiten möchten, den Sie haben, müssen Sie ihn installieren. Du kannst entweder die Deep-Ebene selbst installieren , eine Spielerin, oder wenn du das Ganze installieren möchtest , das mit der Tidyverse geliefert wird, kannst du das Tidyverse verwenden. Wenn Sie also Tidy Verse installieren, wird standardmäßig eine tiefe Ebene hinzugefügt, sodass sich der Plan innerhalb dieses Tidyverse befindet. Und wenn du das Ganze nicht in diesen Tidyversen installieren möchtest , kannst du mit dem d plus alleine gehen. Sie können also entweder dies oder das ausführen. Irgendein von denen. Du kannst weglaufen. Also kannst du damit weitermachen. Du kannst mit der ordentlichen Strophe oder mit der tiefen Ebene gehen, okay? Sie bauen also auf Ihrer Anforderung auf. Damit kannst du gehen. Ich schlage vor, dass Sie das Tidyverse installiert haben. Also ich habe diese beiden Pakete installiert, also werde ich diesen P-Untercode, diesen Teil des Codes, nicht ausführen , ich werde ihn nicht ausführen weil ich sie bereits installiert habe. Also, was ich tun werde, ich werde dir das nächste Ding zeigen. Okay, lass mich das klären. Das Erste, was wir mit der Datenmanipulation in der Kunst machen können, indem wir diesen Spieler verwenden, ist, dass wir den Filter verwenden können, den wir verwenden können, auswählen. Wir können Group by all die Dinge verwenden, die wir mit dem Plot in R machen können . Okay, also was ich tun werde, werde ich verwenden, ich werde Ihnen auch zeigen, wie wir den Filter in R verwenden können , indem wir die Weichzeichnungsbibliotheken verwenden. Für dieses, was ich verwenden werde, werde ich den eingebauten Datensatz verwenden Star Wars heißt. Star Wars ist ein integrierter Datensatz, der in der Kunst verfügbar ist. Also was ich verwenden werde, ich verwende Star Wars und dann werde ich diesen Pipe-Operator verwenden. Und was ich tun werde, ich verwende die Filterfunktion und gebe Filterarten an, das nennt man zwei Triaden. Was es also tun wird, es wird alle Arten holen , die gleichwertig sind, um es zu ziehen. Es wird also in den Star Wars-Datensatz gehen. Es wird dem Star Wars-Datensatz gegenüberstehen. Und darin wird es den Filter anwenden und es wird scheitern. Es wird den Datensatz anhand dieser Spezies filtern. Okay? So wird es also funktionieren. Wenn die Arten ziehen, wird der Filter angewendet. Also lass mich, ich führe einfach diesen Code aus. Also ich klicke einfach hier und sehe. Jetzt bekommen wir die Aufladung. Okay. Also sieh dir deinen Namen an, hochgezogene, sumpfige Haarfarbe, Hautfarbe, Augenfarbe, repariere all die Dinge, die wir bekommen. Okay. Das bekommen wir also für die Spezies. Probiere es aus. Okay. Schau hier, wenn du die Spalte Arten siehst , ist alles trocken. Es ist nur, oder? Es werden also nur Daten für getrocknet angezeigt , da wir den getrockneten Filter hier angewendet haben. Es zeigt uns also dritte Daten nur für Arten, sodass wir auf diese Weise den Filter anwenden können, wir können den Datensatznamen Via und dann den Pipe-Operator und dann die Filterfunktion und ihre Spezies verwenden dann den Pipe-Operator und . Der Spaltenname ist artspezifisch und entspricht der Zeichnung. Also wird es, also alle Arten, die gelöschten Daten an uns, okay. So funktioniert der Filter in der Anlage. Okay, als Nächstes werden wir Select verwenden. Wählen Sie also aus, wie es funktionieren soll. Nochmals das Gleiche. Wir werden benutzen. Dieser Stern war Datensatz und dann Pipe-Operator, und dann verwenden wir Select, select , und dann müssen wir die Namensendungen mit Farbe beibehalten , damit alle Namen abgerufen werden, die mit Farbe enden. Also lass mich das ausführen. Sehen Sie hier. Nun, was es tut. Es ruft alle Spalten ab. Alle Spalten enden mit Farbe, Haarfarbe, Hautfarbe und Augenfarbe. Es werden also nur die Spalten angezeigt , die mit Farbe enden, oder? Also wählt Star Wars den Namen und endet mit der Farbe. Es zeigt Ihnen also die Wanli George-Säulen , die mit Farbe enden. Also unterstreiche, unterstreiche Klasse. Es werden also nur diese Daten angezeigt. Wenn du dir das vorherige Ding ansiehst. Hier. Es gibt viele Spalten wie Höhe, Masse. Und dann haben wir Notaufnahme, Sex, Geschlecht. Aber es zeigt uns nicht alle diese Spalten, sondern nur die Spalten, die mit Carlos enden, die mit Farbe enden. Okay? Das ist also die Art , den Select zu verwenden. Im. Als Nächstes werden wir etwas über Mutaten lernen. Was werden Mutaten also bewirken? Es wird erstellt, wenn Sie dem Datensatz neue Variablen oder Variablenwerte hinzufügen möchten , können Sie die Mutate-Funktion verwenden, okay? Also mutiere, um etwas Neues hinzuzufügen, okay? Füge etwas Neues hinzu, eine neue Variable. Wenn Sie hinzufügen möchten, können Sie die Mutate-Funktion verwenden. Also, wie wir das machen können, können wir einfach Star Wars, dann den Pipe-Operator und dann die Funktion mutate geben , und dann müssen wir einen Namen geben. Und dann können Sie hier die neue Variable oder den neuen Wert definieren die neue Variable oder , den Sie angeben möchten. Also hier, was uns gegeben wird, bekommen wir Namen und Namen. Hier führen wir die neue Variable BMI ein und v hier geben wir ihnen, wie der BMI berechnet werden sollte. Wenn Sie also nicht angeben möchten, können Sie den Wert fest codieren. Aber hier, was wir tun, verwenden wir die Masse geteilt durch Höhe durch 100 Potenz, um, okay? Das ist also die Formel, die wir für die Berechnung des BMI Body-Mass-Index verwenden , okay? Also Größe und Gewicht, das wir zur Berechnung des BMI verwenden. Und dann geben wir diesen BMI an die Funktionsauswahl weiter. Also verwenden wir hier zweimal den Pipe-Operator. Also was es tun wird, es wird zuerst diesen BMI hier berechnen und dann wird dieser BMI sein, dieser BMI wird an diese Auswahlfunktion hier übergeben . Sehen Sie, Ihr BMI kommt von dort her. Also, was auch immer hier gesammelt wird, es wird so weit kommen. Also dieser BMI wird hierher kommen, oder? Das ist es also, was die Rohrbetreiber und der Bediener tun, oder? Es wird den Ausgang an die nächste Funktion weiterleiten, Ausgang an die nächste Funktion weiterleiten den Ausgang aus der Stummschaltung. Es wird zum ausgewählten Mutation gehen. Mutieren, wir werden mutieren, wir werden den BMI erstellen, wir werden den BMI und dann gehen wir zur Auswahlfunktion über. Okay? Also, wenn ich eine bildliche Darstellung geben würde, was, wie wird es funktionieren, IT-Unterstützung, wir werden mutate verwenden. Die Mutate-Funktion liefert eine gewisse Ausgabe. Und diese Ausgabe der Mutationsfunktion geht an den Select. Okay? Nehmen wir an, wir haben hier die Masse und Höhe. Masse und Höhe. Masse und Höhe gehen an den Mutation, und dann gehen die Mutationsausgänge an den, gehen Sie zum Select. Also so funktioniert der Pipe Operator, oder? Die Ausgabe wird an diese Funktion übergeben. Okay? So rockt der Pfeifenbetreiber also. Hier erstellen wir die neue Variable BMI, den neuen Wert BMI , und wir gehen zur Auswahlfunktion über, um die Funktion auszuwählen was wir mit dem Namen Masse und BMI tun. Also wählt es die Maske aus und es wird der BMI sortiert. Lassen Sie mich also diesen Code ausführen. Also klicken Sie hier und sehen Sie sich hier Name, Größe und BMI an. Basierend auf Masse und Größe, Gewicht und Größe zeigt es uns also bald den BMI. Diese BMI- und BMI-Spalte war in den früheren Daten nicht enthalten, oder? Lass es mich dir zeigen. Hier. Wir haben nicht den BMI, BMI-Reha wurde mit dem BMI geschaffen, den wir mit dieser Mutationsfunktion geschaffen haben, oder? Mit der Mutation haben wir also den BMI erstellt und unseren Datensatz erweitert. Okay, auf diese Weise können Sie eine neue Variable oder einen neuen Wert erstellen eine neue Variable oder einen neuen Wert und diesen mit der Mutate-Funktion im Spiel zu Ihrem Datensatz hinzufügen . Als nächstes beschreiben wir die Massenquelle. Wir sind das, was wir können. Wir können die Messe arrangieren. Lassen Sie uns das ausführen und sehen. Siehst du, jetzt bekommen wir die Größe, Masse und Haarfarbe, Hautfarbe, Augenfarbe, all die Daten, alle Spalten, die wir bekommen, richtig? Und es gibt den Massenwert an, oder? Hier. Ist es. Es ist wie eine abnehmende Reihenfolge. Es gibt uns die Masse, Größe, Haarfarbe und all diese Dinge. Okay. Wenn du es ändern möchtest, kannst du es in ein anderes Ding ändern und sehen, wie es kommt. Als Nächstes. Zum einen können wir die Gruppe auch hier benutzen. Also, welche Gruppe von, Gruppe BY wird das tun? Es wird sich nach Arten gruppieren. Wir machen also sehr schlanken Starbucks-Datensatz und das ist der Pipe-Operator. Und dann gruppieren Sie nach dem, was auch immer die Gruppe nach Spezies postuliert, was sie tun wird. Es wird eine der Arten gruppieren und dann wird es uns den Willen geben. Also als Zusammenfassung in einem einzigen Datensatz, okay? Es gibt an, was die Zusammenfassungsfunktion tun wird. Sie erhalten die einzige Zusammenfassung des Datensatzes. Hier verwenden wir also n ist gleich n, Masse ist gleich Mittelwert, mittlere Masse ist gleich Masse. Und eine na.rm bedeutet, dass jeder Wert, der nicht verfügbar ist, entfernt, was an unserer Nabelschnur endet. Sehen Sie, wenn Sie hier nachschauen, einige der Werte sind nicht verfügbar, oder? Es werden also die Werte entfernt, die nicht waagerecht sind. Okay, also am Ende bin ich es nicht. Was ich tun werde. Es entfernt die Datenzeilen , die keine Werte haben. Okay? Was es also tun wird, es wird das maskierte Mittel der Masse erzeugen. Okay? Das wird es auch, da wir nach Arten gruppieren. Für jeden SPC wird Ihnen also die mittlere Masse, die durchschnittliche Masse, angezeigt. Und dafür verwenden wir die Mittelwertfunktion, um den Durchschnitt dieser Masse oder den Durchschnitt der dieser Masse oder den Durchschnitt der Gesamtmasse für eine bestimmte Spezies zu ermitteln. Und wir gruppieren nach Arten. Okay? Als Nächstes, Was wir tun, verwenden wir den Filter. Wir verwenden hier Filter. Und größer als eins, Masse, größer als 50, wir wenden den Filter hier an. Welcher Filter? Also größer als eins sein und muss größer als 50 sein. Das ist also unser Filter, diesen Filter wenden wir an. Okay? Also, welche anderen Schritte unternehmen wir? Zuerst? Wir gruppieren nach Arten und dann erhalten wir die einzige Zusammenfassung. Und wir erhalten den Mittelwert der Masse für diese bestimmte Spezies. Und dann wenden wir einen Filter an, bei dem n größer als eins und Masse gleich ist. Lassen Sie uns das ausführen und sehen, welche Ausgabe wir erhalten. Lassen Sie uns das ausführen und die Ausgabe hier sehen. Sehen Sie die Ausgabe C. Jetzt bekommen wir nicht den Namen, die Art, weil wir eine Gruppe haben. Wir haben verwendet, wir haben die Gruppe für Art verwendet, wir haben Gruppe für Art verwendet. Und wir haben den Mittelwert der Masse für die Art berechnet. Deshalb zeigt es das n. Größer als eins. Für niemanden wird es nicht angezeigt, es ist Nähen und Werte , die mehr als eins sind. Okay. Und die andere Spezies, trockener, abgestorbener Kaugummi, Mensch. Kannst du MATLAB, Tweak, Rookie Jab Rack besitzen Tweak, Rookie Jab Rack Also alle Arten, es ist Swing und es zeigt für die Werte 1250 an, denn was wir gegeben haben, was ich Ihnen gegeben habe, ist denn was wir gegeben haben, die Antwort größer als eins. Deshalb zeigt es uns die n Werte, die größer als 123630 Byte sind. Jetzt werden die Werte kleiner als eins angezeigt, okay? Und dann Masse, es wird mehr als richtig angezeigt. Also welchen Filter haben wir angewendet einen Filter, den wir als masturbieren über 50 angewendet haben. Es zeigt uns also die Maske, die größer ist als die Pubertät. Diese Massen bedeuten, dass diese Arten massenhaft werden. Also dafür zu unserem Display gibt es vielleicht viele Dinge, oder? Aber wir haben den Durchschnitt oder Mittelwert all dieser Teile genommen und den Durchschnitt der getrockneten Teile weggegeben . Okay, lass es mich dir im Datensatz zeigen. Siehst du hier als ob all diese Arten zur Dürre gehören und sie die Masse haben, oder? Sie haben die Mathematik, oder? Und sie haben uns das ermöglicht, was wir getan haben. Wir haben diesen Arm jahrelang beendet, um diese Reihen zu entfernen. Und all diese Namen gehören zur Spezies. Zeichne es, zeichne es und sie haben Masse. Was wir also getan haben, wir haben die gesamte Masse genommen, die gesamte Masse dividiert durch die Anzahl der Arten zusammengefasst, Namen im Trockenen nummeriert. Für diese Genauigkeit haben wir den Mittelwert berechnet, indem wir hier die Mittelwertfunktion verwendet haben. Lass es mich dir hier zeigen, richtig, ich meine, deshalb ist es bei einem Stern-Mosfet so , jede Artengruppe. Also für den Menschen die Hauptbotschaft, dass T2 für Trockner Massen bedeutet. Das, okay, also auf diese Weise können wir den Plot für die Datenmanipulation verwenden . Okay, was sind die Dinge, die wir gelernt haben? Wir haben gelernt, dass wir unser Tidy Verse-Paket installieren müssen, um das Duplikat verwenden zu können. Und wir haben verwendet, wie filtern und wie wir Filter auf unseren Datensatz anwenden können. Und wie wir Select in unserem Datensatz verwenden können. Und dann, wie wir mutieren und unserem Datensatz eine neue Variable hinzufügen, mutieren oder hinzufügen können. Und dann haben wir gesehen, wie wir unseren Datensatz anordnen können. Und schließlich haben wir GroupBy gesehen und zusammen mit dem Filter in unserem letzten Beispiel zusammengefasst. Ich hoffe also, Sie wissen, was wir mit der tiefen Schicht machen können und wie wir die Datenmanipulation in der Kunst durchführen. 62. Einführung in Shiny interaktive Dashboards in R: Hallo und willkommen zurück. In dieser Vorlesung lernen wir, wie man mit RStudio signiert. Also, was ist das für ein Zeichen? Von unserer Gesamtzahl? Dieses winzige Gerät ist also eine Möglichkeit, mit den Daten zu kommunizieren. Es ist im Grunde eine Dashpot-Lösung oder ein Visualisierungsvisualisierungstool für uns, okay. Wenn Sie also Daten in R visualisieren möchten, können Sie dieses winzige RStudio verwenden. Dies ist Interaktion, Analyse und Kommunikation mit dem Anmelder. Wir können interaktive Dashboards erstellen, in denen die Daten nicht nur im grafischen Format oder in einem Dashboard angezeigt werden , sondern wir können auch mit den Daten interagieren , die sich im Dashboard befinden. Das ist also das Schöne an der Anmeldung von RStudio, mit der nicht nur ein Dashboard erstellt wird , das auf den Datensätzen basiert, sondern wir interagieren auch mit dem Dashboard selbst. Es heißt also, nehmen Sie einen interaktiven Ansatz, um Ihre Datengeschichte mit Signierung zu erzählen , lassen Sie die Benutzer mit Ihren Daten und Ihrer Analyse interagieren und erledigen Sie alles mit unseren. So sehen sie die Daten nicht nur im grafischen Format und in den Grafiken und im Dashboard, sondern sie können auch mit den Daten interagieren und sie können wirklich sehen, welche Auswirkungen unsere Analysen auf die Daten haben. Lassen Sie mich also einfach nach unten scrollen, um zu sehen, was die anderen Optionen bedeuten. Also are in arsine ist ein R-Paket, mit dem Sie ganz einfach interaktive Web-Apps direkt von uns aus erstellen können. Wir werden also keine anderen Dinge verwenden, sondern die R-Programmierung selbst verwenden. Und wir können interaktive, auf Web-Apps basierende Dashboards erstellen. Sie können eigenständige Apps webbasiert hosten oder in R einbetten. Markdown-Dokumente wurden als Sport erstellt. Also seht, das muss Flexibilität sein. Vorausgesetzt, wir können, wir können nicht nur eigenständige Webseiten und Apps erstellen, sondern wir können sie auch in die RMarkdown-Datei einbetten. Dokumente befinden sich in einem Dashboard, das ist das Schöne am Signieren in R. Sie können Ihre Signier-Apps auch um CSS-Teams, HTML, Widgets und JavaScript erweitern, so Sie können Ihre Signier-Apps auch um CSS-Teams, HTML, Widgets und JavaScript erweitern Exxons CEO. Das ist also die Schönheit, die du nutzen kannst. CSS, Teams, HTML, Widgets und Exzellenz, damit es interaktiver wird. Nach der Erstellung können wir also auf verschiedene Arten mit dem mit der Signatur erstellten Dashboard arbeiten . Was kann das Signieren sonst noch bewirken? Assignee kombiniert die Rechenleistung von R mit der Interaktivität der modernen Welle. Wir alle wissen also, dass R Pakete hat , mit denen wir gerne an den Daten arbeiten können. Wir können die Erkenntnisse bekommen. Wir können direkt über unsere Pakete Erkenntnisse aus den Daten gewinnen und die Programmierung hinzufügen. Und nicht nur diese Erkenntnisse, sondern auch was auch immer wir bekommen. Berechnen Sie aus den Daten. Wir können sie auf den neuesten Stand bringen und mit den Dashboards und Daten oder Grafiken interagieren . Das wird uns also mehr Erkenntnisse aus den Daten geben, oder? Sehen Sie sich also ein einfaches Beispiel für die Zuweisung einer App an. Du kannst dich sehen. Okay, lassen Sie mich den Google-Index sehen, den Trendindex. Dies ist eine einfache Shiny-App, die sie erstellt haben. Und hier können Sie eine sehr schöne Grafik sehen , die wir sehen können. Jetzt können wir mit dem Beauftragten hören, Sie können den Index, den Trend und den Indexverlauf auswählen. Oder wenn Sie etwas ändern möchten, können Sie es auf Werbung, Marketing und SEO umstellen. Die Grafik ändert sich. Ich kann von hier aus etwas auswählen. Und diese Grafik bauen wir einfach auf dem Trendindex Arbeitslosigkeit auf. Ich will sehen, Siehst du. Dies zeigt nun den Trend der Arbeitslosigkeit. Ich kann Kleinunternehmen auswählen und das wird den Trend für Kleinunternehmen in Bezug auf diese Daten, Mieten, diesen neuen Trend lösen . Okay, also, so können wir den Selektor hinzufügen. Wir können mithilfe von Signieren ein interaktives Dashboard erstellen. Okay? Und sehen Sie, ja, das wird ausschließlich mit unseren Programmen erstellt , mit unserem Code. Jetzt werden wir in der nächsten Vorlesung auch eine solche Shiny-App erstellen . Und sehen Sie hier, das sind die App-Daten, das ist das Programm, das in R4 geschrieben ist, diese Art von verzweifeltem interaktivem Dashboard. Hier verwenden sie also ein Signage-Paket, Deep-Layer-Reader, Si110-Teams und einen Deep Layer. Und das ist die Beschreibung. Wenn du willst, kannst du es durchgehen. Dies ist die offizielle Website von signing.rstudio.com. Wenn Sie mehr über das Schild erfahren möchten, können Sie sich die Galerie ansehen und mehr Informationen über die Signierung erhalten . Okay, Arsin, du kannst dir ansehen, wie ein Detektiv die lineare Regression modelliert. Und dann unser winziges Paket zum Erlernen der Modellierung der Immunantwort. Es gibt verschiedene Projekte, die Sie selbst lesen können . Ich werde die Beschilderung zur Website beschriften. Okay. In der nächsten Vorlesung werden wir also auch eine Shiny-App erstellen. Und wir werden sehen, wie wir mit dem Dashboard interagieren können , okay. 63. ShinyApp Interaktives Dashboard mit Shiny erstellen: Hallo und willkommen zurück. In dieser Vorlesung werden wir also unsere eigene Shiny-App erstellen, in der wir eine Shiny-App erstellen werden. Also, was wir erstellen werden, und dann werden wir sehen, wie wir es schaffen. Okay? Also sieh hier, das ist unsere Shiny App. Und hier werden wir das tun. Wir werden eine Diaspora erstellen, die auf dem Videospiel Mario Kart Eight basiert und auf den Videospielcharakteren die wir analysieren werden. Wir gehen zum Designer. Wir werden ein Dashboard erstellen in dem Sie mit dem Dashboard interagieren können. Klicken Sie auf die Visualisierung und sehen Sie hier, standardmäßig ist Split da. Und hier werden die anderen Variablen da sein, okay? Die Y-Achse und die X-Achse, okay? Sie erhalten also, dass die X-Achse die Y-Variable ist, hier die Geschwindigkeit und hier auf der Y-Achse wird der Charakter genäht. Also hier haben wir die Charaktere, die Charaktere und die Namen der Charaktere sind hier, okay? Und wir werden ihre Geschwindigkeit und andere Variablen wie die Geschwindigkeit im Wasser analysieren . Und wir können auch die Beschleunigung auswählen und Sie können sehen, welche Beta-Beschleunigung. Also sieh hier, das ist das Dashboard, in dem wir, wir können mit dem Dashboard interagieren. Wir können die Variable hier auswählen, Handling. Und das lösen wir für das Handling und sagen, ja, ich setze die Handhabung in Wasser und es wird generiert. Auf diese Weise können wir mehr als genug erstellen , was interaktiv sein wird. Und Sie können die Variable hier auswählen und den Effekt im Dashboard sehen , okay? Grafik. Und sehen Sie sich hier die verschiedenen Farben Wurfglas an, schwer, leicht und mittel. Okay, so können wir die Signier-App für uns verwenden, das interaktive Dashboard, wir haben das Mario Kart 8-Spiel abgeschlossen. Okay, jetzt haben wir gesehen, was das ist? Also seht euch hier die Klassen an, die verschiedenen Farben stehen für die Klassen Heavy, Light und Radium. Und hier können wir die Geschwindigkeit auswählen und es wird die Variablenbehandlung ändern, dann ändert sich das Diagramm. Okay, das ist also die App, signiere die App, die wir erstellen werden, okay? Und das können wir im Browser öffnen, das liegt auch daran, dass es auf unserem lokalen Host geöffnet wird. Okay, wir können das auch im Browser öffnen , um auf Im Browser öffnen zu klicken, und es wird auf die gleiche Weise in Ihrem Standardprojekt geöffnet. Okay, wenn wir heutzutage im Browserhockey arbeiten, verlieren wir die Datenquellenebene auf der Kaggle-Website. Sie können also auf die Kaggle-Website gehen und die Daten und Ihre Visualisierung ansehen. Du kannst „Ändern“ wählen, okay? Je nachdem, was Sie auswählen, wird es in Ordnung sein Also dieses interaktive, das ist es, was wir erstellen werden. Lassen Sie mich Sie also schnell zum Code führen. Es ist ein ziemlich einfacher Code. Was wir hier also tun müssen, ist, dass diese Signier-App im Grunde aus drei Komponenten besteht. Drei Komponenten x wirklich drei Komponenten, oder drei Webseiten, drei Seiten, die wir brauchen , können Sie bekommen , die erste ist der App-Punkt und dann ist die zweite der Server. Und der dritte wird der UI-Teil sein. Okay? Also eine Reihe von Wörtern und dann UA. Also app.all server und ui.R. Das sind also die drei Dateien, die wir schreiben werden, okay? Und abgesehen davon haben wir einen Ordner erstellt. Sie müssen eine für Leucin in der App erstellen Namen Sie auch immer geben möchten, Sie können ihn geben. Und dann wurde eine Datenordner-App aktualisiert, wobei die CSV-Datei beibehalten wurde, die jeweils den Datensatz enthielt. Okay. Also lass mich öffnen und Boden erden. Dies ist der Datensatz und er enthält alle Zeichen, Glasperlen, die anderen Details, und das sind die Namen und das sind die Geschwindigkeit und all diese Dinge. Okay? Das ist also der Datensatz, den ich aufbewahrt habe. Bring uns Character Dot CSV lade es vom Kaggle herunter. Okay. Das nächste Ding ist da, das Bild, das wir auf der Vorderseite sehen. Diese Bilder hier. W, W, W-Ordner. Und das sind sowieso die drei Dateien der App Gitarrensolo-Daten, Daten, die ich erstellt habe. Okay, lass mich zum Code gehen. Die erste Sache ist app.all. Was wir brauchen. Wir brauchen wir brauchen wir brauchen die Bibliothek des Beauftragten, okay, also musst du den Download herunterladen und die Shiny-Bibliothek installieren. Sie können hier die installierten Pakete sex und year finden. Und Sie müssen klicken, klicken Sie einfach auf Installieren und damit auf einen kleinen Namen, und schon ist es erledigt. Also lass es mich dir zeigen, klicke einfach hier. Und hier müssen Sie das Zeichen S, I, N, Y, angeben. Und dann müssen wir auf Installieren klicken. Und das Sami-Paket wird installiert. Ich habe es also bereits installiert, also werde ich es nicht noch einmal tun. Sie müssen also das Shiny platzieren und dann auf Installieren klicken und es wird installiert. Abgesehen davon können Sie auch install.packages verwenden. Du kannst ein Problem mit dem Stift gebrauchen, okay? Und Sie können das Namensschild hier anbringen. Sei wortwörtlich fertig, okay? Sie können also install.packages verwenden und den Paketnamen eingeben und mir zuweisen. Und hier geben wir diesen Quell-Add-UI.r-Quellen, ui.R und anderen Quellservern diese Option. Das sind also die beiden Dinge wir in der App verwenden werden. Punkt Punkt, Punkt, Punkt ist unsere Haupthauptdatei , in der wir UI.r und Mobilfunkdaten aufrufen. Dann erstellen wir die Shiny-App, indem wir die benannte Shiny-App angeben. Und hier, äh, entspricht UA und serologisch dem Server. Okay, also welchen Namen Sie auch geben, den Dateinamen, den Sie hier angeben können, okay. Das ist also der einfache App-Punkt unserer Datei, in der wir gerade die Bibliothek laden und die Quelle angeben, als würden wir E-Y-E Punkt r und Server verwenden , die sich in diesem nachträglichen Gedanken befinden. Okay, und dann erstellen wir eine Zuweisungs-App, in der wir den UID-Dateinamen und die Sulfidgrenze angeben. Okay. Das ist also die App, die ausfüllt. Dann ist das nächste Wort Punkt sind das dritte Wort. Das ist so traurig. Ich gehe zu den Mobilfunkdaten. Und hier können Sie sehen dass wir das GG-Plot in die Bibliothek geladen haben. Weil wir das tun werden, erstellen wir ein Dashboard oder wir erstellen ein Diagramm für das Diagramm. Wir sehen, dass wir mit Hilfe von GG Handlung zwei erstellen . Und dann haben wir hier eine Spezifizierung dieses Datensatzes. Von hier aus werden wir den Datensatz abrufen. Daten haben weniger Zeichen, keine CSV-Datei-App. Also weiter, Sie und wir verwenden read dot csv total, diese CSV-Datei. Und wie man eine CSV-Datei liest, die wir bereits in den vorherigen Vorlesungen gesehen haben. Okay, dann erstellen wir den Server hier. Um einen Server zu erstellen, führen wir einen Server bei dem der Wert meiner Variablennamen gut ist, und dann verlieren wir Funktion, Eingabe und Ausgabe und Ausgabe. Wir lesen bei Plot. Und wir verwenden die RenderPlot-Funktion , um den Plot zu rendern. Und wir verwenden Charakter, Charakter und dann verwenden wir Faktoren um Daten, Bezeichnungen und Ordnung zu erstellen. Wir verwenden die Charakter-Dollar-Klasse, okay? Und dann verwenden wir das GG-Plot, um dieses Diagramm zu zeichnen. Und hier lesen wir Daten, die wir lesen, Punkt CSV und die X-Achse, X-Wert , WM-Zeichen, Stat-Identität. Und die Y-Eingabe. Der Y-Wert in Dollar bedeutet die Eingabe, die wir für das Y auswählen, das ausgewählt werden soll. Dass dies der Teil ist, in dem wir die Interaktion oder das Drop-down-Menü haben , das wir auswählen, es wird dort erscheinen, okay? Und dann lesen wir Karten Flip. Die Koordinaten werden also umgedreht. Okay? Das nächste Ding ist Ui.R. Wenn Sie also sehen, warum das seltsam ist, ist es auch ziemlich vereinfacht. Wir verwenden das Zeichenmerkmal Punkt CSV und wiederholen die Zeichenpunkt-CSV-Datei. Und dann verwenden wir die Einführung auf Seite eins, da wir zwei Seiten und Produkte haben und n, Visualisierungen und Produktionsphase, befindet sich im Zeichnen, um das Panel für die Einführung zu erstellen. Und wir verwenden die Überschrift Einführungstitel für das Finale. Und dann verwenden wir die Bildquelle. Und wir machen hier die Pause. Und das ist das Schreiben von Absätzen. Und dann geben wir hier den Link, den Kaggle-Link , den wir gesehen haben, dass wir Protein haben, das dann von Seite zu Seite einfach ist. Die Interaktion und das Panel, wir entwickeln das beste Tool für die Visualisierung. Was wir tun, wir verwenden ausgewählte Werte, den Spaltennamen. Die Spaltennamen der Zeichen werden die Werte sein. Und was verwenden wir dann? Wählen Sie Werte aus, wählen Sie aus, wo Zeichen verloren gehen. Okay? Wir sind also Teil der Klasse, okay? Hier verwenden wir die Auswahlabfrage, also gut. Nicht im Select-Value-Job. Im Gegensatz zum Grunde entfernen wir hier die unerwünschten Spalten. Und wir entscheiden uns für den Charakter in dieser Klasse. Hier erhalten wir die Seitenleiste über das Seitenleistenfeld. Und hier wählen wir die Eingabe für y aus, wobei y unterstreicht, wo und level die Y-Variable sein wird. Sie können es, wenn Sie möchten, in alles ändern , wählen Sie Werte aus. Und schon wird der Ladewert der für die gewählte Geschwindigkeit gleich der Geschwindigkeit sein. Die Geschwindigkeit wird also standardmäßig für unsere Verzweifelten ausgewählt sein. Okay. Als nächstes kommt der Hauptinhalt. Wir verwenden das Hauptpanel und das Plotausgabediagramm, okay? Und das wird vom Southern Blot kommen. Und die zweiten Diskussionsteilnehmer, das Tab-Panel, in dem wir uns befinden, also Individualisierung, Titelpanel , der Titel, den wir geben , der Absatz, den wir schreiben. Und dann das Seitenleisten-Layout, welche Seitenleiste den Inhalt unterstreicht, der Hauptinhalt kommt hierher. Okay? So haben wir diese drei Dateien erstellt. Und diese beiden Punkte, Server und Typ, rufen innerhalb der App-Daten jüdisch an. Okay, jetzt werden wir die App ausführen. Klicken Sie also auf App ausführen, und sie wird ausgeführt und das RStudio-Fenster wird geöffnet. Und jetzt sehen wir die Seite, unsere Hand hier, Sie können die Einführungsseite sehen und zwei Seiten visualisieren und einfügen. Und die Einführung zahlt sich aus. Nichts ging einfach so. Und das Bild, das wir aufgenommen haben, und das ist der Absatz und das ist der Link , den wir Ihnen gegeben haben, wo wir das angegeben haben. Wenn ihr in UI.R herkommt, seht euch hier den Titel an, den wir gegeben haben, und dann das Bild, das wir haben, noch besser Kalabrien, wir gewinnen. Und doch, obwohl wir den Kaggle-Link angegeben haben, okay, das ist es, was wir im Einführungsbereich und im zweiten Bereich sehen , wenn Sie die Visualisierung öffnen. Hier siehst du, warum du die Geschwindigkeit standardmäßig aktivierst, denn hier haben wir als Geschwindigkeit ausgewählt und das Level ist der Grund, warum du dazu in der Lage bist, okay? Und wir geben ihm die Handlung als Ausgabe und sehen uns den Titel an. Und das ist ein Absatz , den wir geben. Okay. Lassen Sie mich Ihnen zeigen wie es sich anhand der Auswahl ändert. Wenn ich Speed Ground auswähle, wird das Diagramm kettenförmig angezeigt. Wenn ich Handling auswähle, ändert sich das Diagramm, wenn ich Tracks in der zugehörigen Grafik auswähle. Das ist also das interaktive Dashboard, das wir mit der Shiny-App erstellt haben . Okay? Sehen Sie hier die verschiedenen Farben , die das schwere, leichte und mittlere Glas zeigen . Und hier kannst du auswählen und du kannst den Unterschied zwischen diesen Dingen sehen. Okay, so funktioniert das Schild, die App. 64. Einige Beispiele für Shiny Apps in R: In dieser Vorlesung werden wir uns einige der bereits geschriebenen Beispiele für Signier-Apps ansehen der bereits geschriebenen Beispiele für Signier-Apps , die es bereits auf der Website von Signing gibt. Dies ist also das Beispiel einer Shiny-App , die Sie sich ansehen können. Sie können sie sehen und den Code ändern. Und du kannst deine eigene Shiny-App erstellen , indem du dich bei Esports anmeldest. Lassen Sie mich Ihnen sagen, wie Sie das auch ausführen können. Sie müssen nur die Shiny-Bibliothek aufrufen. Also müssen wir eine Bibliothek schreiben und dann signieren, und wir müssen das ausführen. Und wenn das erledigt ist, können Sie anfangen, die Beispiele zu verwenden als wäre das erste was, ein Histogramm. Ein Beispiel ist die Funktion , mit der Sie dieses bereits geschriebene Programm Signing App aufrufen können. Okay, also 01 underscore Hallo ist dieser. Und lassen Sie uns das ausführen und sehen, was wir bekommen. Wenn Sie das also ausführen, öffnen Sie die App für den Beauftragten. Und sieh hier, es heißt Hallo signieren. Und hier kannst du sehen, wie viele Behälter kommen und hier ein Histogramm der Wartezeiten, okay? Wenn Sie also die Anzahl der Behälter erhöhen, sehen Sie hier, die Anzahl der Behälter wird erhöht. Und jetzt gibt es Peptidmittel. Wenn du es schaffst, gibt es nur einen Gewinner, oder? Wenn Sie sechs setzen, gibt es 6,12 3456 Fächer. Wie Sie hier sehen, ist es interaktiv, sodass Sie die Anzahl der Pins in diesem Taskboard erhöhen oder verringern können. Das ist also die Spezialität der Shiny-App, dass wir mit dem von uns erstellten Dashboard spielen können, interaktiven Dashboards von Shiny App Create. Also hier kannst du sehen, wenn du hierher kommst, wird es dir die Beschreibung geben. Dies ist eine kleine, winzige Anwendungsdemonstration, signieren Sie diese automatischen UI-Updates. Okay? Also hier die Region RenderPlot und Input Bins. Und siehe hier entführen, unsere Akte ist bereits hier angegeben. Sie können den Code also einfach von hier kopieren. Und du kannst reinlaufen, diesen Code verwenden, apple.tar. Sehen Sie sich Ihr Labor an, indem Sie library shiny und uy und dann Titel und dann Seitenleistenlayout verwenden. Und hier die Eingabe-ID in der Seitenleiste, die wir Beans geben, Anzahl der Bins und Minimum ist eins, Maximum ist Eigenschaft und Wert gestartet, sodass es standardmäßig ausgewählt wird. Und dann hier die Plotausgabe des Hauptfensters , die wir erhalten, die Ausgabe oder das Hauptpanel. Das ist also die Ausgangsidee der Handlung. Wenn Sie also zum Server kommen, können Sie Ihre Serverfunktionseingaben sehen oder wir übernehmen die Funktion. F-Funktion nimmt die Eingabe als Eingabe und gibt die Ausgabe aus. Okay? Und hier geben Sie diese Handlung aus. Und dann rufen wir den RenderPlot auf. Und hier geben wir den x-Wert an. Und der X-Wert ist treues Warten. Und Vinci ist hier, du kannst Debatten als Reihenfolge von min bis max angeben und dann die Eingangspins plus eins ausstreichen. Okay, hier zeichnen wir das Histogramm. Also ein Histogramm, das wir mit dem X-Wert versuchen , und wir geben dem Brexit gleich Farbe und Farbe. Du kannst geben, was du willst Hand Xlab und Hauptüberschrift, du kannst geben, was sie wollen. Und dann erstellen wir die App, indem wir die Shiny-App verwenden und dann UY entspricht ui und server, bei jedem Serveraufruf. Also ist jemand auf dem Server gestorben. Und hey, wir definieren hier. Also, wenn du willst, kannst du das in die Benutzeroberfläche eintragen. Bis hier. Sie können die UI.R und den Serverteil eingeben. Sie können den Server mit dem R eingeben, und das sind Ihre App-Daten und dort rufen wir die Benutzeroberfläche und den Server auf. Auf diese Weise können Sie diese App Punkt r, die eine einzelne Datei ist, nehmen und diese in drei Dateien konvertieren, wenn Sie möchten, und wenn Sie weitere Dinge hinzufügen möchten, wenn Sie hinzufügen möchten, wenn wir hier ein anderes Diagramm hochladen möchten , Giardia, können Sie das tun. Sie können dies also ändern, da der Code bereits mit Duck Sign die App-Website von dort aus angegeben ist . Das ist also beim Aufbau des Anmeldepakets, oder? Also lass mich das schließen. Sehen wir uns das zweite Beispiel an. zweite Beispiel ist das Ausführen Beispiel Null, um Texte zu unterstreichen. Mal sehen, was da ist. Das ist Table send DataFrame. Lassen Sie uns also diese Shiny-App ausführen und wir sehen uns. Wenn Sie darauf klicken, werden die Anmeldetexte geöffnet. Er sieht hier. Hier können wir die Datensätze Rock, Fraser und Car Support auswählen. Ich wähle eine Karte aus. Es zeigt uns also die Geschwindigkeit und diese tendiert zu Geschwindigkeit und Entfernung. Und hier können Sie die Anzahl der Zeilen und die Anzahl der anzuzeigenden Beobachtungen definieren . Jetzt ist es also 1012. Also sieh es dir heute hier an. Also im Kies. Und wenn ich das auf 1 reduziere, zeigt es nur eins, ich kann es erhöhen, weiter erhöhen. 123. Schau hier, interagiere damit und hier kann ich den Druck wählen, damit er dir die Temperatur und den Druck anzeigt. Und hier können wir einfach die Temperatur und den Druck erhöhen, auch diese Tabelle. Auf diese Weise können wir herumspielen und daraus lernen, und dieser Code ist auch hier, app.all, den Sie nehmen und Ihren Anforderungen entsprechend ändern können. Gehen wir also zum dritten Beispiel über. Das ist die Reactive Expression App. 03 unterstreicht also die Reaktivität. Und lassen Sie uns das ausführen und sehen was unsere si110-App bereit ist, hierher zu kommen. Sehen Sie sich hier also die Lücken und Bedürfnisse bei der Datenzusammenstellung an. Die Datensammlung und der Datensatz sind felsenkonserviert und wieder Autos. Wir können also geschweifte Klammern auswählen und hier das Gleiche wie Zeilen und Spalten. Sie können dafür auch n wählen. Das Outfile ist angegeben, der Assignee, unsere Datei ist hier angegeben. Du kannst es nehmen, um es dir anzusehen und du kannst seltsam lernen, wenn wir es ändern wollen, du kannst es modifizieren. Es ist Open Source, Sie können es also selbst ändern und verwenden. Und als nächstes schauen wir uns Judo-Ausländer namens MPG an. Und klicken Sie auf Ausführen. Eröffnung des Apogäums fiel also die Schwungzahl der Zylinder, des Getriebes und der Gänge auf. Es zeigt also Meilen pro Gallone. Die Beziehung zwischen MPT und Ausrüstung. Und wenn du Getriebe wählst, entspricht Toyoda, Unterricht zwischen dem automatischen, manuellen Auto mit dem Majlis, okay? Und wenn Sie Gänge mit dem Zahnradzylinder mit dem Zylinder und für diesen auswählen , so können Sie die Tar-Datei abrufen und eine Nische für sich selbst modifizieren. Als nächstes sind die Schieberegler. Also lass uns das ausführen und sehen was. Dies ist also das ziemlich gute Beispiel, um mehr über das Beschilderungspaket zu erfahren , und Sie können es modifizieren und rasen. Schau hier. Das sind die Slider. Es gibt also so viele Slider zu diesem Sport. Und für dieses Quartal ist es schon da. Sie können hier sehen, dass ich einen ganzzahligen Wert eingeben kann. Ich kann 1.000 oder 172 Dezimalzahlen machen, 0,8 oder so. Und dann die Reichweite, ich kann sie von hier aus ändern. Und sobald Sie es hier ändern können Sie die Änderungen dort sehen. Benutzerdefinierter Formatierer, den wir als Looping-Animation definieren können, können wir hier definieren. Auf diese Weise können wir hier Anti-A hinzufügen. Das ist die Option, um in diesen benutzerdefinierten Formaten zu spielen . Sie können hier klicken und Syria 0-500500 ändert sich automatisch. Es spielt wie okay, also sieh hier, jetzt ändert es sich langsam hier. Und sieh zu, dass diese Zahlenanimation auch tendiert. So wie sich das ändert, ändert sich auch der Slider. Das wird auch geändert und hinzugefügt. Die anderen Zahlen werden sich ebenfalls ändern. Das ist also das Magic of si110-Paket in R, mit dem Sie diese interaktiven Dashboards erstellen können . Schau hier, das ändert sich und das ändert sich auch. Okay, lassen Sie uns mit dem nächsten Beispiel fortfahren , das Zellen eingibt. Also einfach auf Run klicken und schauen, was wir in der Tiefe bekommen , es ist normalerweise einheitlich, lang, normal und exponentiell. Wir können also einfach hier klicken und wir können die Zusammenfassung sehen, wir können die Tabelle sehen und sehen, wie sie sich ändert. Mit einem Klick können Sie das Normale sehen. Wenn wir die Uniform sehen wollen, kannst du die Uniform sehen. Und wenn wir die Langform sehen wollen, können Sie das lange Gedicht sehen. Sie können die ältere Behandlung, die Zusammenfassung der Handlung und die Tabellen sehen . Und alle drei verändern sich zusammen. Klicken Sie hier auf alle Daten, Anzahl der Beobachtungen können Sie erhöhen. Und sofort sieht man, dass dies ein sehr gutes Tool für Analyse von Daten und Datenanalysten oder Datenwissenschaftlern ist. Oder wenn Sie Ihre Daten vergrößern möchten, können Sie das Arsin und diese Art von interaktivem Dashboard verwenden , das Sie erstellen und mit Ihrem Team oder Ihrem Manager besprechen können erstellen und mit Ihrem Team oder Ihrem Manager Sie sind mit Ihrem Kunden unterwegs und er kann sofort einen Einblick in die Daten erhalten. Auf ähnliche Weise können Sie also die andere Sache sehen. Sehen Sie sich hier ein Beispiel an, Arginin-Upload, das uns die Möglichkeit gibt, die Dateien und alles andere hochzuladen. Lass uns sehen. Sie können hier klicken und Sie können einfach eine beliebige Datei auswählen und hochladen. Nehmen wir an, ich möchte hochladen, jetzt ist es hochgeladen und weil es nicht unsere CSV-Datei ist, wir damit, also wenn Sie eine CSV-Datei hochladen möchten, können Sie weitermachen und Sie können eine CSV-Datei hochladen. Lassen Sie mich also zu unserem 2020 vor das Gericht gehen , und ich werde versuchen, eine CSV-Datei zu öffnen. Lassen Sie mich die Nato-Punkt-CSV-Daten öffnen , die wir in einem unserer Beispiele geheilt haben. Öffnen wir das. Lass uns hier Daten hochladen. Jetzt können wir sehen, dass die Datenpunkt-CSV-Datei hochgeladen wurde , und wir können die Daten in der Datenpunkt-CSV sehen. Wir können das Handzettel entfernen. Du kannst den Header so platzieren. Wir können all die Dinge tun. Wir können ein Semikolon setzen. Wir können ein Trennkomma-Semikolon verwenden, oder wir können sogar Klebeband verwenden und ohne doppelte Anführungszeichen zitieren. All die Dinge, die du hier tun kannst. Ich zeige bereits alle Daten, die in der Datenpunkt-CSV enthalten sind, oder? Also dein Karma und schau, ob ich Kopf reinlege, es wird dir zeigen, dass du nur getankt hast, dass der Hund wie jemand ist und den vollen Einzelhandel bekommt. Beachten Sie das Werfen von Daten. Das ist also eine ziemlich wichtige Sache. Und hier kannst du das erstellen. Dies geschieht in unserem si110 und Sie können Ihrem Kunden mitteilen, wo er die CSV-Datei hochladen und die CSV-Datei sehen kann ohne XL T-TIP zu haben. Sie haben keinen fairen Verbündeten. Sie können einfach den CSV-Pylon auswählen. Ich schaue mir das CSP am Freitag an, okay? Und dafür ist hier auch schon Code angegeben. Das ist also eine ziemlich coole Sache, Gemüse, die Dinge, die man als Aufgabe analysieren kann und aus diesen Dingen lernen kann, die man ändern und für sich selbst verwenden kann. Sieh dir den Timer an. Du kannst hier klicken und der Timer wird ab der aktuellen Uhrzeit kommen ist dieses Ding. Auf diese Weise können wir die Signatur nutzen. 65. 2 File Shiny App in RStudio: Hallo und willkommen zurück. In dieser Vorlesung werden wir eine zweiseitige Signier-App erstellen. Also zwei Dateien, die wir registrieren, werden wir erstellen. Wir haben also gesehen, wie wir dreiseitige Seiten erstellen können, wie wir es bei apple.tar, ui.R und Teradata getan haben. Ein anderes Beispiel. Hier. Was wir tun werden, wir werden ein Lead , zwei Dateien erstellen. Eines ist Ui.R, und das zweite wird Serverdaten sein. Als Erstes müssen wir also zu unserem Arbeitsverzeichnis kommen und einen Ordner mit dem Akronym erstellen. Also hier gebe ich den App-Namen beim Signieren der App als wahr an. Okay? Und darin erstelle ich zwei Dateien, UI.r und Solver Dot Art, sodass ich den Code für die Art und Weise, wie er sich im Ordner der App zur Dateisignatur befindet , bereits erstellt und geschrieben habe . Okay. Der App-Name wird also der Ordnername sein. Und in dem Ordner speichern wir diese UI.r und den Serverpunkt r. Was dieser Punkt also hat, wird dieselbe Benutzeroberfläche haben, was einem flüssigen Seiten- und Seitenleistenlayout und der Seitenleisteneingabe in der Seitenleiste, dem Panel und der Seitenleiste entspricht. Also hier geben wir OBS und Anzahl der Beobachtungen, Beobachtungen und Anzahl der Besucher an. Das Minimum ist zehn, das Maximum ist 500 und der Wert ist Hundert. Okay? Dann rufen wir das Hauptpanel auf und plotten die Ausgabe. Dieser Plot und dieser Plot werden von dem Server kommen , den unsere Quellen sind was wir Funktion nennen Eingabe und Ausgabe und Ausgabe wird das Dish-Plot sein. Und dieses Diagramm wird in das Histogramm gerendert, wobei die Daten die Eingabe von OBS als Eingabe für unsere Normen und die Farbe, die ich uns gebe, Rot und Grün sein werden . Okay, also nur diese beiden Dateien und die Notwendigkeit, die App zu schreiben , sind und wie man diese Datei ausführt. Wir können einfach hier zur Konsole kommen. Also lass mich die Konsole leeren. Und hier musst du nur eine Run-App schreiben. Lass das laufen. Jetzt müssen wir run app aufrufen und in der RunApp-Einheit Ordnernamen oder den App-Namen angeben, um die von uns erstellte App mit Datei zu signieren. Also diese vier, die wir erstellt haben, um die App zu signieren. Also geben wir dem hier einen Namen und wir müssen das ausführen. Drücken Sie also die Eingabetaste und Ihre Simon-App findet die CEO-Nummer der Beobachtung. Und hier ist ein Histogramm. Also habe ich grün, rot gegeben und der Rand wird grün sein. Und wenn ich diese Zahl von Generation zu Generation ändere, wird sie sich weiter ändern. Auf diese Weise können wir also eine App zum Signieren von Dateien erstellen , bei der UI.r für diese Daten antworten, werden wir sie beenden? Wenn Sie die Farbe ändern möchten, können Sie Gelb und Grün verwenden. Und hier müssen wir das einfach schließen und wir müssen es erneut ausführen. Ich habe App zu Dateien einer beliebigen App ausgeführt und die Eingabetaste gedrückt. Mal sehen, jetzt wird es gelb und sauber kommen. Ceo, das Gelb und der Rand ist grün. Also kannst du das machen. Und Sie können sehen, dass sich eine Reihe von unterschiedlichen und abnormalen Apoptosen unterscheidet, und Sie können sehen, dass sich das Histogramm ändert. Okay? Auf diese Weise können wir zwei Dateien erstellen. Melde mich an. 66. Herunterladbare Berichte in Shiny erstellen: In dieser Vorlesung lernen wir, wie man herunterladbare Berichte generiert. Wie können wir die Berichte erstellen, aus denen wir unsere herunterladbare Scheidung herunterladen können. Okay. Wenn du also auf die Website assignee.rstudio.com kommst, kannst du sehen, dass es bereits eine Substanz gibt und bereite Dinge vor, die du von unserem Studio über das Signieren lernen kannst. Also das interaktive Dashboard hier zu erstellen, das ist Opsin. Sie können sehen, wie es herunterladbare Berichte generiert. Also hier siehst du das Beispiel wie app.all und das, was sie gegeben haben. Und hier kannst du das ausprobieren und Punkt RMD melden. Und er glaubte, dass die Berichte leer sind und eine Verschwörung auslösen würden. Und den Bericht, den Sie herunterladen können. Und es gibt noch ein Vertex-Beispiel, das ich Ihnen zeigen werde, wo wir den Bericht in Form von PDF oder HTML und Balken herunterladen können . Also sehen Sie hier, das ist der erste Datensatz für leere Autos, Datensatz für leere Autos der mit dem R ohne weiteres verfügbar ist Hier können Sie anhand der Anzahl der Zylinder das Regressionsmodell sehen. Dies ist das Regressionsmodell. Zylinder und Anzahl der Zylinder, MPG, wie sich die Anzahl der Zylinder auf die Laufleistung auswirkt, Meilen pro Gallone, wie sich der Hotspot auf die MPG auswirkt, wie das Gewicht des Autos die Meilen pro Gallone beeinflusst, die Beweise oder den Kilometerstand des Autos oder den Radius, wie diese Faktoren die Anzahl der Gänge beeinflussen, wirkt sich auf die Beweise oder den Kilometerstand des Autos oder den Radius, wie diese Faktoren die Anzahl der Gänge beeinflussen das Myelin aus, dass dies die Dinge, mit denen wir Ihre Schulden analysieren haben wir im Rahmen unserer Programmierung getan. Und das sind die Dinge, die uns gefallen können, wenn sie intern generiert wurden , als sie ein Regressionsmodell entwickelt haben, bei dem versucht wird, die am besten passende Linie zu finden. Und dafür ist dies nun der Bericht und die Unterstützung Ihrer Vertreibung. kann es so formulieren und es gibt die Option Dokumentenformat, PDF oder HTML oder ich unterstütze sie, indem ich auf PDF klicke und ich auf Herunterladen klicke. Dieser gesamte Bericht wird im PDF-Format heruntergeladen, wenn ich ihn öffne. Und wie Sie hier sehen, zeigt es, dass es so funktioniert hat. Hier ist das Regressionsmodell. Und woher wir diese Dinge beziehen, stammt dieses Ding aus der RMD-Datei mit dem Berichtspunkt. Wir sind dabei, das lineare Regressionsmodell zu erstellen das lineare Regressionsmodell das auf den Datenquellen, leeren Autos, basiert. Und dann verwenden sie den Koeffizienten dafür. Und dann fügen sie das in das Diagramm ein, um die am besten passende Linie zu finden, und dann bekommen sie die am besten passende Linie, unsere Regressionslinie. Dieser Bericht kommt also so. Wenn Sie hier sehen, werden uns die Datenpunkte angezeigt, aber wenn Sie ihn herunterladen, erhalten wir den vollständigen Bericht. Und das ist der Dateisatz von r dot r und c hier. Die Mittelwertbildung der Formel, der Tipp und die MPG-Eingabe, dann die Ausgabe, anderer Plots und dann den Bericht hier herunterladen, ein großer Teil, das Dateinamenformat ist das PDF und dann der Inhalt, sie werden normalisiert. Aber lassen Sie uns die leeren importieren. Das ist wichtig, weil alle Berechnungen und alles , was wir in diesem Bericht hier gesehen haben, die Dinge sind, die aus den Assembly-Dateien stammen. Okay, das ist also ziemlich wichtig. Und dann sind sie hier, setzen einfach das Arbeitsverzeichnis auf temporäre Verzeichnis, damit es nicht nach dem Admin-Zugriff fragt. Und danach werde ich suchen. Sie benutzen das und finden dann viele Kopien , melden das bei MD, oder? Dann archivieren Sie den ursprünglichen Markdown und damit wird die RMD-Datei in das PDF gerendert. Okay? Also, und dann finde heraus, benenne die Ausgabedatei um. Okay. Also diese Dinge, lassen Sie mich Ihnen auch die RMD-Datei zeigen , die intern verwendet wurde. Sie können also auf Code abrufen klicken und Sie werden zum GitHub-Repository weitergeleitet , das signiert. Hier sehen Sie einen Bericht, dass unsere Mitarbeiter Wörter sind, die sowieso, Punkt, Punkt, Punkt alle Dateien sind . Wenn Sie also auf den Berichtspunkt RMD klicken, können Sie hier die Durchschnittsbildung des Regressionsmodells sehen und das ist der Code hier ist mein Regressionsmodell. Und dann mit unserem Modell kollabieren, stimmt. Und er hatte Opsine. Diese anderen Dinge sehen wir großartig. Und dann das fruchtende Original MPG und dieses Ding. Okay, sie erstellen ein Streudiagramm und dann finden sie mit der Abline die am besten passende Linie. Und sie setzen die Farbe richtig? So erhalten wir diesen Bericht ich die Assemblerdatei gelesen und die Berichte vorbereitet habe. Auf diese Weise können Sie einen Bericht erhalten, der heruntergeladen werden kann. Wenn Sie diesen Bericht im Word-Format herunterladen möchten, können Sie darauf klicken und er wird in einem Dokument X4 heruntergeladen, oder? Okay. Und wenn Sie dies in HTML herunterladen möchten, können Sie auf HTML klicken und herunterladen. Und es wird im HTML-Format heruntergeladen. Öffnen wir das und die CSIA-Daten, meine Berichtspunkt-HTML-Datei. Wenn Sie also einen Bericht oder ein Dashboard erstellen möchten , das heruntergeladen werden kann, können Sie den Discord verwenden und Ihren eigenen schreiben. Unterschreibe die App. 67. Analyse der Kovarianz: Hallo und willkommen zurück. In dieser Vorlesung werden wir also etwas über die Kovarianzanalyse lernen. Und es wird auch Cola genannt. Also ENCO Reais. Das heißt Kovarianzanalyse und verdeckt und sortiert nennen wir das. Also, was ist diese Kovarianzanalyse? Sie wissen also, was wir in den Algorithmen für maschinelles Lernen oder in einem linearen Regressionsmodell tun. Was wir bei der Regression tun, wir versuchen, einen realen Wert zu finden, einen kontinuierlichen Wert, oder? Anders als bei den kategorialen Daten versuchen wir immer, die Bogenlänge ja oder nein, wahr oder falsch, Null oder Eins so zu finden , oder? Bei der Regression haben wir also versucht, einen kontinuierlichen Wert zu finden. Also erstellen wir eine Regressionsanalyse für Lake. Wir verwenden Regressionsmodelle. Regressionsanalyse zur Erstellung von Modellen, die den Effekt der Varianz auf die Prädiktorvariablen beschreiben , oder? Zu den Antwortvariablen. Wie wirkt sich also die Varianz der Vorhersagevariablen auf das Antwortmodell aus? Welchen Effekt die Prädiktorvariablen auf die Antwortvariable haben werden. Das versuchen wir mit der Regressionsanalyse zu tun. Und mit welchen Modellen wir auch immer erstellen , wir werden das auf eine Weise tun. Aber was passiert manchmal? Wir haben einen kategorialen Datensatz. Wenn Sie also diesen leeren Datensatz für Autos sehen , der im R eingebaut ist und den wir verwenden werden, wenn wir diesen Code ausführen, werden Sie sehen, dass verwenden werden, wenn wir diesen Code ausführen, werden Sie sehen, wir eine Spalte E m haben. Was ist das M ist automatisch oder manuell. Sehen Sie sich seinen Wert an, sein Wert ist Null oder 10 bedeutet automatisch und bedeutet manuell, also so etwas in der Art. Okay? D steht also für Automatik und Manuell, okay? Das sind also kategoriale Daten, entweder Null oder Eins. Es hat keinen kontinuierlichen Wert wie Meilen pro Gallone, 2.122,8, 21,14, 0,7, oder? Daher ist es schwierig, den Effekt dieser kategorialen Variablen auf dieses MPG zu ermitteln. Sehen Sie hier die Pferdestärke, HP ist auch da, aber es ist ein kontinuierlicher Wert, der kein kategorischer Wert ist. Hallo. Was passiert also? Wir müssen, wir haben eine kategoriale Variable mit Werten wie Nein oder Null oder Eins, männlich oder weiblich. In einigen Fällen. Alles, es könnte Gewinnverlust sein, was auch immer, also welche kategorischen Werte wir haben können. Die einfache Regressionsanalyse liefert also mehrere Ergebnisse für jeden Wert der kategorialen Variablen. Für diese G-Zeile und eine für Null erhalten wir also 21 Punkte für diese 018,7. Also bekommen wir einen anderen, anderen Wert für MPG, für dieselbe Null, oder? Null steht für die Hornet und diese repräsentieren den Sport, um den es bei den Hornets geht, oder? Diese Werte sind also unterschiedlich. Wie werden wir also herausfinden welchen Effekt es auf die Meilen pro Gallone hat. Das kommt also ins Spiel , die Varianzanalyse. Lassen Sie mich Ihnen eine kleine Erklärung geben. Kovarianzanalyse wird verwendet, um den Haupt- und Wechselwirkungseffekt der kategorialen Variablen zu testen . Das heißt, das Ziel ist eine kontinuierliche abhängige Variable, d. h. mpg, die den Effekt der Auswahl anderer kontinuierlicher Variablen kontrolliert . Wenn wir also wissen, wie sich das auf diesen Effekt auswirkt, hätten wir sogar entscheiden können, welche HP sich auf die MPG auswirkt oder welche Auswirkungen dieses m auf die HP oder mpg hat, die mit den abhängigen Personen kovariieren. Die Kontrollvariablen werden Kovariaten genannt. Immer noch kontrollierte Variablen werden als Kovariaten bezeichnet. Manchmal, wenn wir eine kategoriale Variable mit Werten wie ja oder nein oder männlich oder weiblich oder Gewinn oder Verlust haben. Einfache Regression und Lanzen liefern mehrere Ergebnisse für jeden Wert der kategorialen Variablen , die ich hier besprochen habe. Für Null gibt es viele Werte, aber MPG und für eins gibt es auch viele Werte. Die einfache Regressionsanalyse liefert mehrere Ergebnisse für jeden Wert der kategorialen Variablen. In einem solchen Szenario können wir die Wirkung einer kategorialen Variablen untersuchen , indem sie zusammen mit der dunklen Prädiktorvariablen verwenden und die Regressionslinien für jede Stufe einer kategorialen Variablen vergleichen . Was es also sagt, bedeutet, dass wir in einem solchen Szenario die Wirkung einer kategorialen Variablen untersuchen können , indem wir sie zusammen mit dem Prädiktor verwenden. Also zusammen mit dem Prädiktor wie HP. Also verwenden wir ein m zusammen mit der HP, um den MPG vorherzusagen. Und wir finden die Regressionslinie für jede Stufe der kategorialen Variablen für jeweils 0,41, aber jede Stufe findet die kategoriale Variable. Okay? Und das nennt man die Kovarianzanalyse. Betrachten wir also diesen leeren Fahrzeugdatensatz , wobei m für das automatische Getriebe steht. Es ist eine kategoriale Variable mit Werten 0,1, wie ich bereits erwähnt habe Meilen pro Gallone oder MPG eines Autos können davon abhängen. Außerdem kann der Wert der Pferdestärke, mpg, davon abhängen , ob das Auto automatisch oder manuell ist, und er kann auch von der Pferdestärke abhängen. Deshalb haben wir die Wirkung von EM auf die Regression zwischen MPG und HP untersucht . Und das geschieht mit einer oder V-Funktion. Aov-Funktion ist eine Analyse der Varianzfunktion, gefolgt von der NOR-Funktion. Also werden wir die Bot-Funktionen verwenden. Wir verwenden zuerst die AOV-Funktion, um die Regression zu finden. Durch die Verwendung dieser beiden Variablen sind andere HP vorhersehbar und versuchen, die MPG zu finden. Und dann verwenden wir den Nahuatl und entscheiden, welches Modell uns was gibt und wie diese kategoriale Variable oder eine kategoriale Prädiktorvariable auf die abhängige Variable MPG auswirkt. Was wir also zuerst tun, wir erhalten die Eingabedaten , also leere Autos. Also speichern wir das in den Daten der leeren Autos. Und dann erstellen wir ein Regressionsmodell und ein Umkehrmodell. Für das Regressionsmodell verwenden wir eine AOV-Funktion oder mit Varianzanalyse die AOV-Funktion, die wir verwenden, und wir erstellen zusammen mit am ein Regressionsmodell zwischen MPG und HP. Und wir nutzen Datenquellen, leere Autos, Daten, die wir von den leeren Autos erhalten. Und dann werden wir, wir werden zwei davon drucken. Wir werden die Zusammenfassung des ersten Modells erhalten. Lassen Sie mich das ausführen und lassen Sie mich das erste Modell ausführen. Also erstellen wir hier ein Regressionsmodell. Welche Erkenntnisse gewinnen wir also aus diesem Regressionsmodell hier, dieser ursprünglichen Quelle, dass sowohl die Pferdestärke als auch der Getriebetyp von HP und M einen signifikanten Einfluss auf die Meilen pro Gallone als p-Wert oder beides haben. Der P-Wert liegt in beiden Fällen unter 0,5, oder? Es hat also beide P-Werte, die weniger als 0,5 haben. Aber wenn wir HP und m zusammen nehmen, ist der p-Wert größer als 0,5 und das bedeutet, dass SPN am zusammen keinen signifikanten Effekt auf den MPG haben wird . Wechselwirkung zwischen dem, diesem AM und SB ist also nicht signifikant da sie keine Auswirkungen auf die, auf die MPG haben wird. Dieses Modell gibt uns also die Einsicht, dass HP und AM, wenn Sie sie alleine nehmen, Auswirkungen auf die MPG haben werden. Aber wenn wir sie zusammen nehmen, werden sie keinen signifikanten Einfluss auf den MPG haben , da der p-Wert über 0,5 liegt. Als Nächstes werde ich tun, ich werde ein weiteres Regressionsmodell erstellen. Wo wirst du, was werden wir tun? Wir werden den kategorischen Wert nicht angeben. Wert, okay? Wir modellieren ohne den kategorialen Wert, also am. Also ich meine das ohne die Interaktion zwischen HP und m, und wir werden ein weiteres Regressionsmodell erstellen , die AOV-Funktion. Und wir werden sehen, welche Auswirkungen sie auf die MPG haben. Also lass mich das ausführen. Dennoch verwende ich den leeren Einkaufswagen als wertvoll und er wird dieselben Daten wie leere Autos haben. Also sieh hier. Nun unser Modell damit, es gibt keine Wechselwirkung zwischen HP und m. Welche Erkenntnisse bekommen wir dann. Das ist eure Seele, dass sowohl Pferdestärken als auch deren Übertragung einen erheblichen Einfluss auf Meilen pro Gallone haben, da der P-Wert unter 0,5 liegt. Okay, was ich jetzt mache, ich vergleiche diese beiden Modelle, Modell 11, mit dem kategorialen Wert. Interaktion zwischen HP und m. Und ein anderes Modell ist ohne die Interaktion zwischen dem PNM. Okay? Lassen Sie mich nun diese beiden Modelle vergleichen, Modell zwei und Modell eins. Also, was ich verwende, ich verwende die NOR-Funktion, NOR-Funktion um diese beiden Regressionsmodelle zu vergleichen. Also lass mich das ausführen. Sehen Sie jetzt, welche Erkenntnisse wir aus dieser Region erhalten. Wir gehen davon aus, dass der p-Wert größer als 0,5 ist. Wir können also zu dem Schluss kommen , dass die Wechselwirkung zwischen Pferdestärke und Getriebetyp nicht signifikant ist. Die Meilen pro Gallone hängen also davon ab, ähnlich wie bei HP und AM. Okay? HP und m werden also beide beeinflussen, beide werden das MPG ausreichend beeinflussen. Auf die gleiche Weise. Es ist nicht so, dass sich beide unterschiedlich auswirken werden. Beide werden sich auf die gleiche Weise auswirken. Der MPG wird also in ähnlicher Weise von der Pferdestärke des Autos sowohl im Auto als auch im manuellen Modus abhängen . Also, ob die Pferdestärken die Pferdestärken eines Autos unterstützen, was automatisch ist, und er mehr Kilometer fährt. Und wenn wir nicht mit demselben Hotspot manuell arbeiten, wird weniger Myelin produziert. Das gilt nicht für die Laufleistung des Autos, egal ob mit der gleichen Unterstützung, die Hälfte. Nehmen wir an, 1 PS, ein Auto ist da und es ist manuell. Und eine andere Karte ist dieselbe, 1 PS und sie ist automatisch. Beide geben das gleiche MPG aus. Der Durchschnitt wird sich nicht ändern, ob das Auto automatisch oder manuell fährt . Okay. Es hängt also von der Pferdestärke ab und manuell oder automatisch hat keinen großen Einfluss auf die Laufleistung des Autos. So können wir also die Kovarianzanalyse durchführen. Kovarianz bedeutet die anderen Prädiktorvariablen , die gehen werden, Eddie, ich werde mich auf die abhängige Variable auswirken. In diesem Fall sind b und m die kovariante und mpg die abhängige Variable. Wir haben also festgestellt, dass unabhängig davon, ob das Auto automatisch oder manuell mit derselben Kugel fährt, die gleiche Art von Sinnlosigkeit haben wird. 68. Handson mit dplyr library: Hallo und willkommen zurück. In dieser Vorlesung werden wir uns noch einmal der Datenmanipulation befassen. Und Datenmanipulationsaktivitäten werden mit dem Deep-Layer-Paket auskommen dem Deep-Layer-Paket auskommen , das relativ auf dem Niveau der Seltenheit liegt. Der Player ist also ein Paket, das Ägypten Tools für die häufigsten Datenmanipulationsaufgaben bereitstellt . Also werden wir heute alles über den Plan erfahren und wir werden sehen welche Manipulationsaufgaben wir ausführen können. Und wir werden diese lange Datei machen, die ich geschrieben habe. Wir werden all die Dinge tun und wir werden sehen, was wir tun können und wie wir mit den Daten spielen können, wie wir die Datenmanipulationsaufgaben manipulieren können. Wie wir die Datenmanipulationsaufgabe mithilfe des Plans verwenden können. Also lasst uns anfangen. Deep Layer bietet also die Grammatik der Datenmanipulation bietet einen konsistenten Satz von Warps, mit denen Sie die häufigsten Herausforderungen bei der Datenmanipulation lösen konnten . Die allererste Funktion , die wir besprechen werden, ist also die Mutationsfunktion. Und es fügt neue Variablen hinzu, die Zellen vorhandener Variablen sind. Was es also tun wird, es wird neue Variablen hinzufügen , die Funktionen vorhandener Variablen sind, werden herausfinden, was das bedeutet, wenn wir es praktisch machen. Okay, das nächste ist auswählen, auswählen, es spuckt Zelle aus. Was wählt aus? Wählt es Variablen anhand ihres Namens aus, ist das Gleiche wie eine Auswahlabfrage in SQL, wenn Sie SQL oder MySQL oder eine relationale Datenbank kennen, verwenden wir die Auswahl, um den Wert auszuwählen, um anhand des Spaltennamens etwas aus den Daten aus der Tabelle auszuwählen . Okay, das macht Select auch hier, fest oder variabel, basierend auf ihren Namen. Dann haben wir den Filter, den schmaleren Filter. Es wählt die Fälle anhand ihrer Werte aus. Also, wenn du deine Daten auf der Grundlage einiger Werte herausfiltern willst, zum deine Daten auf der Grundlage einiger Werte herausfiltern willst, Beispiel auf dem Ohr oder auf irgendwas, irgendein Kleid, und du kannst zuschauen, okay? Zusammenfassend reduziert die Funktion die mehreren Werte auf eine einzige Zusammenfassung. Zusammenfassen bedeutet also, dass die verschiedenen Werte auf eine einzige Zusammenfassung reduziert werden . Das werden wir auch sehen, dann haben wir die orange Funktion. Was ich nicht getan habe, es ändert die Reihenfolge der Regeln, also werden die Daten einfach in einer anderen Reihenfolge angeordnet. Die Reihenfolge von Rose, Twilight, alles okay. Darüber hinaus unterstützt es auch den Rohrbetreiber. Das sind also die Prozentwerte, die der Pipe Operator testet und dann größer als das Vorzeichen und dann präsentiert wird, das nennt man Pipe-Operator. Okay. Lassen Sie mich Ihnen jetzt sagen, wie Sie das Paket in Ihren Artists to do oder sogar in Art installieren können . Du kannst also einfach hier zu den Paketen gehen und auf Installieren klicken und dich hier bewerben. Okay. Abgesehen davon können Sie auch das Tidyverse-Paket verwenden . Der einfachste Weg, den Plot zu installieren , besteht darin, das gesamte Tidyverse zu installieren. Wenn Sie also das tidyverse-Paket installiert haben, wird es den D-Plan enthalten. Und wenn Sie dieses Tidyverse nicht installieren möchten weil Tidyverse viele Pakete enthalten wird. Okay? Also, wenn du die Pakete, die du nicht verwendest, willst, nicht willst, kannst du den D-Plan install.packages installieren, okay? Es wird also ein Leader-Duplikatpaket installieren. Abgesehen davon können Sie auch diesen Weg gehen. Jetzt. Sie können zum Installationspaket kommen und diesen Paketnamen eingeben und Sie können es installieren. Und um die Bibliothek aufzurufen, müssen wir beginnen, die Bibliothek und dann den von uns angegebenen Paketnamen zu verwenden . Also die anderen Dinge, die du schon weißt, aber nur um die Dinge, die ich dir sage, zu unterteilen. Das nächste Ding ist weniger erforscht. Die grundlegenden Manipulationen der Ehefrauen des Spielers werden den Datensatz Star Wars verwenden. Wir werden also den Star Wars-Datensatz verwenden , der mit dem Arc verfügbar ist und der in R vorinstalliert ist. Okay? Wenn wir also Kopf, Kopf, Star Wars zusammenzählen, was es geben wird, dann gibt es die ersten fünf. Beim ersten Typ der Datensatz angezeigt, den wir bereits kennen und den wir mehrfach verwendet haben, oder? Aber dieses Deep-Layer-Paket bietet Ihnen eine weitere Funktion namens Glimpse, die ich bis dahin nicht benutzt habe. Ich benutze es zum ersten Mal. Wenn Sie also einen Blick auf Star Wars werfen , erhalten Sie alle Informationen zu den Regeln. Und so, siehe hier heißt es Zeile, 87 Zeilen und 14 Spalten. Und es gibt, gibt uns den Namen der Spalte, den Namen, die Höhe, die Masse, die Farbe und was sind die Werte dafür? Okay. Die ersten drei für den Zusammenbruch. Es gibt uns die, also das ist der Einblick, Punks und es wird euch nur einen Einblick in die Daten geben. Wenn Sie sich also einen kurzen Überblick über die Daten verschaffen möchten, können Sie die Clean-Funktion verwenden. Ansonsten kannst du auch den Kopf benutzen. Okay. Wenn Sie also einen kurzen Kommentar abgeben und die Haupteinheit ausgeführt haben, gibt Ihnen Head ein Ergebnis wie dieses. Und ein Blick wird Ihnen das Ergebnis wie dieses geben. Okay? Das ist also der Kopf und das sind die Gliedmaßen. Okay? Also gehen wir jetzt zu diesem Pipe-Operator über. Lass mich das schließen. So und ähnlich haben wir auch die Aussicht gesehen. Sie können Ihnen also einen Star Wars geben und er wird Ihnen den Blick auf den Data Lake geben. Es gibt Ihnen die vollständige Ansicht des Datensatzes wie eine normale Person, die Sie sehen. Das wird dir also den gesamten Datensatz geben, okay? Jetzt verwenden der Pipe-Operator alle Deep-Layer-Funktionen DataFrame als erstes Argument. Dataframe wird das erste Argument für alles sein , was die Plattform angeht, anstatt den Benutzer zu zwingen, entweder Zwischenobjekte zu speichern oder Funktionen zu verschachteln Das Plaid stellt den Filterzeilen des Pipe-Operators die Filterfunktion zur Verfügung. Mit dem Filter können Sie also die Teilmenge der Straßen in einem DataFrame auswählen. Das erste Argument ist der DataFrame. Das zweite und die folgenden Dokumente melden sich an das Wertvolle innerhalb des Datenrahmens und wählen Zeilen aus, in denen der Ausdruck wahr ist. Also sieh hier nach, um den Charakter mit heller Hautfarbe und braunen Augen auszuwählen . Was wir also tun können , ist der Datensatzname Star Wars. Und dann können wir den Pipe-Operator benutzen. Und dann können wir den Filter verwenden und Ihnen den Parameter für die Filterung geben. Die Hautfarben wären hell und Augenfarbe. Also sei braun. Okay? Und du kannst es auch anders machen wie Star Wars. Dann kannst du die Star Wars verwenden und dann die Klammer, Star Wars, Klammer, Star Wars Dollars können ausmalen. Das bedeutet, dass wir die Datenbank zur Hautfarbe aus dem Star Wars-Datensatz beeinflussen die Datenbank zur Hautfarbe aus dem werden. Und es ist skaliert, die Hautfarbe wird hell sein, und dann war der Stern größer. Augenfarbe bedeutet, dass wir uns die Datenbank mit der Augenfarbe ansehen und die Augenfarbe sollte braun sein. Sie können den Pipe-Operator wie folgt verwenden. Alternativ können Sie den Dollar verwenden. Und Star Wars. Das bedeutet, dass die Star Wars-Dollar-Hautfarbe bedeutet , dass wir den Datensatz anhand ihrer Hautfarbe aus diesem Star Wars-Datensatz anpassen den Datensatz anhand werden. Das bedeutet, dass die Hautfarbe eine einzige Spalte im Star Wars-Datensatz ist. Okay? Und dann können wir einfach das verwenden oder Sie können den Pipe-Operator verwenden und das Filterbett unter Hautfarbe und Augenfarbe verwenden. Beide werden zu einem ähnlichen Ergebnis führen. Schau hier. Beide geben Ihnen das gleiche Ergebnis. Es gibt keinen Unterschied. Sie können es also entweder mit dem Pipe-Operator oder mit seinen Dollars verwenden . Okay? Dies sind also die beiden Möglichkeiten, wie Sie die Daten filtern können. Arrangierte Zeilen mit orangefarbener Funktion. Unser kleiner Sohn arbeitet also ähnlich wie das Gefilterte, außer dass Zeilen neu anordnet, anstatt sie zu filtern oder auszuwählen. Was hat es gemacht? Es ordnet den gesamten Datensatz neu. Es braucht den DataFrame und ein Setup. Die Spaltennamen sind ein komplizierterer Ausdruck, um nach zu sortieren, okay, und absteigend. Wenn Sie also diese DESC-Funktion verwenden, wird die Spalte in absteigender Reihenfolge sortiert. Wenn wir EEOC verwenden, wird es versendet. Okay, hier also Elemente in absteigender Reihenfolge der Höhe hinzufügen . Um das zu erreichen, können wir Star Wars verwenden, dann den Pipe-Operator und dann Funktion und Höhe von Desc anordnen. Und Sie geben dies einfach an und die Daten werden in absteigender Reihenfolge angeordnet . Sehen Sie hier, jetzt sind die Daten von oben und sie nehmen ab. Dies ist die absteigende Reihenfolge. Auf diese Weise können wir die Daten hinzufügen oder die Daten anhand der Höhe in absteigender Reihenfolge filtern. Okay, als Nächstes ist Slice. Was bedeutet, dass Sie mit einem Schrägstrich auf zwei Folien gerollt nach ihrer ganzzahligen Position indexieren können. Es ermöglicht Ihnen, Zeilen auszuwählen, zu entfernen und zu duplizieren. Also etwas anderer Meinung, schneide die Daten aus unserem Datensatz. Unterstreichen Sie den Kopf und gleiten Sie auf diesem sogenannten Schwanz. Wählen Sie die erste und letzte Zeile der Daten aus. Unterstrichstichprobe unterteilen und diese Zeilen nach dem Zufallsprinzip auswählen. Folien unter dem Unterstrichbeispiel erhalten Sie also den zufällig ausgewählten Raj aus dem Datensatz, wenn Sie möchten, dass Ihre Schrift dies tut. Wenn Sie also keine Stichprobe aus dem Datensatz erhalten , großer Datensatz, können Sie Folien zu diesem Codebeispiel verwenden und dann nach dem Zufallsprinzip einige Straßen auswählen und sie Ihnen verkaufen, oft als Requisite verwendet, um bestimmte auszuwählen. Anteil der Fälle. Slice underscore mean und slice underscore max wählen die Zeilen mit dem höchsten oder niedrigsten Wert unserer Variablen aus. Es gibt Ihnen also einfach, wenn Sie den Unterstrich angeben Mittelwert und hier geben Sie die Höhe an. Es gibt Ihnen das Minimum der Höhe und die Folien unterstreichen Mathe, Max, Höhe. Es gibt Ihnen das Maximum der Höhe. Also lasst uns das Praktische machen. Um das Zeichen 5-10 zu erhalten, können wir den Star Wars-Pipe-Operator Slice Five Doppelpunkt Zehn verwenden. Lassen Sie mich das einfach ausführen. Okay? Wir geben dir fünf bis zehn, okay? Wenn wir n gleich drei verwenden , erhalten wir, siehst du, nur drei Zeilen, okay? Und wenn wir n gleich 512345 Zeilen verwenden gleich 512345 Zeilen Sie hier den Unterschied fünf zu zehn sehen, erhalten Sie den Zeilenstatus 56789106, einschließlich fünf n hier, n entspricht 5 min nur 512345. Okay? Um nun zehn Prozent der Zeilen abzutasten, können wir dies verwenden. Wir können die fünf Operatoren von Star Wars verwenden, die Folien unterstreichen das Beispiel. Requisite 0,1%. 0,1 bedeutet zehn Prozent. Und das gibt Ihnen die zehn Prozent der Daten. Okay? Es wird die 10% der Daten herausschneiden. Verwenden Sie nun Folien, um den niedrigsten oder höchsten Wert zu ermitteln. Wir können den Star Wars-Filter also nicht verwenden , um uns nicht zu verstecken. Und dann können wir Slice benutzen. Als Nächstes wählen Sie Spalten aus und wählen Sie die Option aus, wenn Sie mit einem großen Datensatz mit vielen Spalten arbeiten, aber nur wenige sind tatsächlich von Interesse. Mit wenigen Auswahlen können Sie mithilfe von Beurteilungen, die normalerweise One Leave an der Position numerischer Variablen arbeiten, schnell in eine nützliche Teilmenge hineinzoomen. Als Nächstes wählen Sie Spalten aus und wählen Sie die Option aus, wenn Sie mit einem großen Datensatz mit vielen Spalten arbeiten, aber nur wenige sind tatsächlich von Interesse. Mit wenigen Auswahlen können Sie mithilfe von Beurteilungen, die normalerweise One Leave an der Position numerischer Variablen arbeiten, schnell in eine nützliche Teilmenge hineinzoomen die normalerweise One Leave an der Position numerischer Variablen arbeiten, . Also Spalten nach Namen auswählen. Sie können also Star Wars-Pipe-Operatoren verwenden Haar- und Augenfarbe auszuwählen. Das gibt dir also Haar- und Augenfarbe. Die Königin und nur diese Zeile. Und wenn Sie die Spalten durch Schneiden auswählen, können wir die Haarfarbe und die Augenfarbe verwenden , beide sind nicht identisch. Dann wollen wir das auswählen. An diesem Ergebnis können Sie sehen, dass die Haarfarbe und die Augenfarbe nicht da ist. Alle anderen Spalten sind da, aber die Haar- und Augenfarbe sind gesperrt und nicht enthalten. Auswahl von Spalten mit den spezifischen Kriterien endet mit der Farbe. Also wollen wir die Daten füreinander auswählen , alles mit dieser Farbe. Lassen Sie mich also diese Haarfarbe, Hautfarbe und Augenfarbe überprüfen. Drei Spalten, die mit der Farbe enden. Mutation, mutate from Sun ermöglicht es Ihnen, ermöglicht die Erstellung neuer Variablen. Dies ist äußerst nützlich für die statistische Analyse. Also hier mutieren die Star Wars-Pfeifenbetreiber Höhe zu Höhe um 100. Also, was fügen wir hinzu? Hier? Wir beziehen die Höhe aus Star Wars und teilen sie durch 100 und erstellen einen neuen Unterstrich für die Höhe der Spalte. Und dann wähle die Höhe, Höhe und alles andere aus. Lassen Sie mich das ausführen und sehen, was wir hier C bekommen, wir bekommen hier den Höhenunterstrich m neue Spalte, und das ist 172 geteilt durch Hundert, also 1,72 und dann alle anderen Spalten aus Star Wars, das ist enthalten. Auf diese Weise können wir also bei einer neuen Spaltenhöhe den Unterstrich m zum Datensatz mutieren . Und wir können die neue Spalte mutieren und wir können den neuen Wert für diese Spalte mit der Mutate-Funktion abrufen . Okay? Nun zeigt das angepasste Regressionsmodell mit der Körpergröße als Prüfung, Prüfung drei als wertvoll und Mars, eine der Antwortvariablen einschließlich des Ausreißers, Prüfung drei als wertvoll und Mars, eine der Antwortvariablen einschließlich des Ausreißers, die zusammenfassenden Statistiken für die bestehende Kooperation an. Also hier verwenden wir ein Regressionsmodell. Wir verwenden die LM-Funktion, Höhe und Masse und dann Datenwerte, Star Wars und Zusammenfassung. Ich werde das benutzen. Also lass mich das ausführen. Sehen Sie hier, das ist die Zusammenfassung, die wir bekommen. Wir können dieses Regressionsmodell auch grafisch darstellen. Schauen wir mal, wir holen uns diesen Restbetrag als Hebelwirkung. Okay? Wenn Sie also ins Detail gehen wollen, können Sie das Wasser sehen, den Koeffizienten, den wir erhalten, den ReLU-p-Wert, all diese Dinge, Sie können sehen, was der minimale Median ist. Erstes Quartil, drittes Quartil, Maximalwert. All diese Dinge, die Sie analysieren können, Sie können hier normale Q-Q - und Standardresiduen sowie die theoretische Position der Quadrantenkacheln sehen . All diese Dinge. Sie können Ihre Agenda analysieren, jemanden finden und Sie plotten das Regressionsmodell auf der Grundlage von Höhe und Masse aus den Daten. Mir wurde gesagt, dass dies die schnelle praktische Anwendung der Plotfunktion ist , einer D-Flat-Bibliothek im R. Ich hoffe, Sie wissen was D flat ist und wie wir die verschiedenen Funktionen wie Mutex verwenden können , Filter auswählen, zusammenfassen und sind das nicht alles Dinge. Die nächste Vorlesung. 69. Einfache lineare Regression mit Airquality-Datensatz: Hallo und willkommen zurück. In dieser Vorlesung werden wir eigentlich ein weiteres einfaches Projekt durchführen , bei dem wir die lineare Regression verwenden werden. Und was wir mit der linearen Regression machen werden, um zu versuchen, die am besten passende Linie für unseren Datensatz zu finden. Das heißt, ein Datensatz zur Luftqualität, der mit dem R leicht verfügbar ist. Dieser Datensatz zur Luftqualität ist also mit dem R verfügbar. Und dies ist der Datensatz über die Messung der Luftqualität in Newark. Okay? Lassen Sie uns also verstehen, worum es bei diesen Daten geht und was wir dann es bei diesen Daten geht und was wir dann mit diesem Datensatz machen und was wir mit der linearen Regression erreichen werden . Also tägliche Messungen der Luftqualität im Irak von Mai bis September 1973. Das ist also der Datensatz, um den es geht. Es misst die Luftqualität in New York City von Mai 1973 bis September 1973. Der Datensatz ist Luftqualität. Und ich formatiere das Datenformat mit den 153 Beobachtungen für sechs Variablen. Und was sind diese Variablen? Ozonschicht, wie hoch sind die Ordinalwerte? Punkt r ist also eine numerische Zahl und befindet sich in der Lunge. Und das wird die PPB sein. Die Windgeschwindigkeit wird in MPH angegeben, und dann wird die Temperatur in Fahrenheit angegeben und die Monate eins bis 12 von Januar bis Dezember. Okay. Ozon bedeutet also tägliche Messwerte der folgenden Luftqualitätswerte. Der 1. bis 30. September 1973 wurde gelöscht und im Datensatz aufgeführt. Ich meine nicht oder nicht in Teilen pro Milliarde. 1300-1500 Uhr auf Roosevelt Island. Okay. So laut, was das für Störung der Sonnenstrahlung im Pachtgebiet im Frequenzband 4000-7700 ist, Armstrong Angström, von 08:00 Uhr morgens bis 1.200 Uhr im Central Park. Wind. Dies ist der Durchschnitt, wenn die Geschwindigkeit in Meilen pro Stunde, 7-10 h am Flughafen Land Gorilla bedeutet, dass dies die maximale Tagestemperatur in Grad Fahrenheit an diesem Flughafen ist . Okay, hier dreht sich alles um den Datensatz. Gehen wir zum Code über. Also habe ich den Code bereits geschrieben. Ich erkläre dir, was wir tun werden. Als Erstes müssen wir den Datensatz verwenden , der mit der Kunst verfügbar ist, nämlich die Luftqualität. Wir können also Daten verwenden und wir können Ungleichheit nutzen. Okay? Und hier können wir die Daten mit Ansicht, Funktion, Ansicht und dann Menge betrachten. Und wir werden die Daten sehen. Das ist also der Datensatz. Wir haben die sechs Spalten oder John-Solardaten. Dies ist die Sonneneinstrahlung, Windgeschwindigkeit, Temperatur, höchste Temperatur des Tages und dann Monat, welcher Monat? Und das ist der Tag. Sie haben also den Monat, die Monatstemperatur, in der er Sonne, Sonnenstrahlung und Herkunft aufgeteilt hat . Okay? Hier dreht sich also alles um den Datensatz und er enthält eins von drei Daten, okay, eine lila, drei Zeilen in diesem Datensatz. Nun, was ich tun möchte, ich möchte einfach das oder Joan und die Sonnenstrahlung in einem Diagramm darstellen und sehen, was wir bekommen. Lassen Sie mich also einfach diese Daten plotten. der X-Achse geht es um Sonnenstrahlung und die Ozonschicht wird auf der Y-Achse dargestellt. An einem bestimmten Tag wird also die Sonnenstrahlung dies sein und der Ursprung, die Menge, sei dies. Das ist also die Grafik, die wir bekommen. Was ich nun mit der linearen Regression machen möchte, ich möchte eine am besten geeignete Linie finden, die diesen Datensatz korrekt darstellt. Also, was wird diese Best-Fit-Linie sein? So etwas. Etwas, das die Daten fast gleichmäßig aufteilt. Und damit können wir erraten, wie hoch die Sonneneinstrahlung an einem bestimmten Tag sein wird. Wenn Sie also dieser Linie folgen, als ob y gleich mx ist plus c die Geradengleichung ist. Also, wenn wir diese Grenze an einem bestimmten Tag ziehen , können wir es erraten. Okay, also was ich tun werde, ich werde herausfinden, was der Mittelwert der Ozonschicht ist . Was ist der Mittelwert zu dem , was ich verliere, ich verliere das, was von dieser Luftqualität herrührt. Luftqualitätsdollar oder John geben uns die Herkunft, den Wert nach oben oder unten im Datensatz zur Luftqualität. Und hier, was ich mache, alle Daten aus jedem Quartal sind wahr, wenn die Werte nicht verfügbar sind, wir haben es gerade gesehen, berücksichtigen Sie das nicht. Okay? Damit werden wir also den Mittelwert des Ursprungs finden. Der Mittelwert des Ursprungs ist also 42. Also wird es so etwas wie hier sein. Was ich tun werde, ich zeichne eine gerade Linie, die den Mittelwert des Ursprungs darstellt. Also lass mich das Ding hier laufen lassen. Diese gerade Linie stellt den Mittelwert des Ursprungs dar . Okay? Was ich nun tun werde, ich verwende die lineare Regression, um die bestmögliche Linie zu finden. Okay, wie wir das machen können, wir können die LM-Funktion, die lineare Modellfunktion, und wir können hier den Ursprung und die Sonnenempfindlichkeit verwenden . Und dann verwende ich die Luftqualitätsdaten. Okay, also verwenden Sie anhand der Luftqualitätsdaten diese beiden Parameter oder geben Sie nicht viele Antworten, bei denen es sich um Sonneneinstrahlung handelt. Und ich werde versuchen, unser lineares Regressionsmodell zu erstellen. Also habe ich erstellt, jetzt werde ich sehen, was unser Modell bietet. Also lass mich das einfach auf die richtige Seite legen. Also sieh hier, wir bekommen diese Koeffizienten. Y-Abfangwert ist das und so laut auf Künstler, okay? Was ich nun tun werde, ich werde versuchen, mit diesem Modell zu finden die am besten geeignete Linie zu finden, die unsere Daten vollständig korrekt darstellt. Was ich also verliere, AB-Linie und ich gebe dieses Modell weiter , das wir mit der LM-Funktion und unserem Begleitspiel erstellt haben . Ich möchte der Best-Fit-Linie die andere Farbe geben. Also verwende ich hier die Farbcodierung Orange. Also lass mich das ausführen. CEO. Nun, diese orange Linie ist die am besten geeignete Linie, die wir für dieses Ding bekommen. Dies entspricht also dem Wert des regulierten Werts der durch die Sonnenstrahlung vergrabenen Ozonschicht. Dies ist die am besten geeignete Linie, die wir aus der linearen Regression erhalten. Basierend auf dieser Unterstützung von Daten für einen PIP3-Tag, die wir haben, wollen wir das vorhersagen. Wir können also sehen, welche Unterstützung ich hier vorhersagen möchte? Also diese Sonnenstrahlung, nehmen wir hier an, und das wird uns den Wert eines Delta-Yards geben , der etwa 60 oder 75 sein wird. Okay? Auf diese Weise können wir mithilfe der LM-Funktion oder der linearen Regression die am besten passende Linie finden . Okay? So können wir also lineare Regression verwenden, um die am besten passende Linie zu finden. 70. Mit fehlenden Werten umgehen: Hallo und willkommen zurück. In dieser Vorlesung und den kommenden Vorlesungen werden wir uns mit den fehlenden Werten in R befassen. Wir werden also sehen, wie wir mit den fehlenden Werten in unserer Programmierung umgehen können . Denn wann immer Sie ein Data-Science-Projekt oder ein Machine-Learning-Projekt starten und mit der Arbeit an den Daten beginnen. Der allererste Schritt ist die Erkundung der Daten. Man muss die Daten lesen und man muss die Daten verstehen. Was sind die Werte dort? Worum geht es bei diesen Daten , die Sie wirklich verstehen müssen? Sofern Sie die Daten nicht verstehen, können Sie nichts erstellen oder Erkenntnisse aus diesen Daten gewinnen. Es ist also der allererste Schritt , um die Daten zu verstehen. Und wenn Sie einmal ein Verständnis von Daten haben, welche Spalten enthalten die Daten? Was sind die Werte dort? Und worüber sprechen diese Daten , wofür sind diese Daten? Sobald Sie also dieses Verständnis haben, wenn Sie die Beta-Version verstanden haben, worüber die Daten sprechen, wofür die Daten da sind. Sie können diese Daten interpretieren, und wenn Sie das verstanden haben, können Sie auf diesen Daten aufbauen. ersten Schritt müssen Sie also bedenken , dass Sie die Daten verstehen müssen. Sie müssen verstehen, welche Spalten es gibt und wofür sind diese Spalten? Welche Art von Daten werden dazu in diesen Spalten gespeichert . Sobald wir dieses Verständnis haben, können Sie mit der Arbeit an den Daten beginnen. Sie können mit der Arbeit an Ihrem Lebenszyklus für maschinelles Lernen oder Data Science beginnen . Und der eine sehr wichtige Schritt bei der Arbeit an den Daten und der Schaffung von maschinellem Lernen oder künstlicher Intelligenz. Datenwissenschaftliche Modelle beschäftigen sich mit den fehlenden Werten. Wann immer Sie Datensätze sehen, können Sie sehen, dass es viele Spalten und viele Zeilen gibt, in denen die Daten nicht verfügbar sind. Und was das bedeutet. Das bedeutet, dass wir die Daten immer dann, wenn wir sie verwenden, über Formulare, durch Umfragen und durch das Sammeln von Benutzereingaben erheben. Wann immer wir also Daten von den Benutzern sammeln ist das nur eine große Benutzergruppe. Manchmal hassten sie es, ihre Daten zu teilen, oder manchmal haben sie kein gewisses Protolevel mit ihnen. Also überspringen sie die Dojo-Eingabepunkte. Und wenn wir diese Daten sammeln und unseren Datensatz erstellen, wir möglicherweise fest, dass es viele, viele Spalten, viele Werte gibt, die fehlen. Und damit unser Datensatz für unser Modell für maschinelles Lernen oder künstliche Intelligenz ordnungsgemäß funktioniert unser Modell für maschinelles Lernen oder künstliche Intelligenz ordnungsgemäß , müssen Sie die fehlenden Werte korrigieren. Es ist also eine sehr häufige Aufgabe in der Datenanalyse, mit den fehlenden Werten umzugehen. In unserer Programmierung. Fehlende Werte werden durch ein a dargestellt und es bedeutet nicht zutreffend oder was auch immer. Sie können verstehen, wie fehlende Werte durch ein a dargestellt werden , und auf andere Weise wird es auch durch 99 dargestellt. Okay? Der sehr, sehr wichtige Schritt ist also der Umgang mit den fehlenden Werten. Während wir uns also mit den fehlenden Werten befassen, müssen wir die drei Schritte befolgen. Die erste ist die Suche nach den fehlenden Werten. Was heißt das? Das bedeutet, dass wir in den Datensatz schauen und auf den fehlenden Wert testen müssen. Wir müssen sehen, wie viele fehlende Werte es gibt. Wo sind die fehlenden Werte? Also müssen wir die fehlenden Werte finden. Sobald Sie die fehlenden Werte im Datensatz getestet haben , müssen wir den fehlenden Wert aufzeichnen. Der zweite Schritt besteht darin, die fehlenden Werte zu dekodieren , was das Dekodieren fehlender Werte bedeutet, dass wir einige, sind andere Werte an die Stelle fehlender Werte setzen müssen. Angenommen, wir haben unsere Altersdaten bei denen einige von Ihnen einfach keine Altersangaben gemacht haben . Also, was wir dort füllen können, können wir den Mittelwert daraus nehmen. Du hast gerade den ganzen mittleren oder durchschnittlichen Wert von Jugendgerechtigkeit gegessen , den wir auf den fehlenden Wert legen können. Also egal, welche Schriftart Sie gerade haben, wem auch immer das Alter fehlt, wir können den Durchschnittsalterswert der Gruppe da reinschreiben. Auf diese Weise können wir die fehlenden Werte aufzeichnen. Also müssen wir die fehlenden Werte auf der Grundlage eines Algorithmus wie dem Mittelwert aufzeichnen , all diese Dinge. Okay? Dann ist der dritte Schritt, wir können oder denken, oder der andere Weg wäre, den fehlenden Wert auszuschließen. Auf andere Weise können wir also, anstatt aufzuzeichnen, die Zeilen mit fehlenden Werten ausschließen. Wir können also einfach die Eingaben entfernen , die nicht unterstützt werden , um Sie zu unterstützen. Wir haben einen Namen, Sie nur Stadt und Alter und Beschäftigungsdetails. Und wenn ein Benutzer in seinem Alter nicht angegeben wird, können wir diesen Benutzer einfach aus dem Datensatz entfernen, sodass wir die fehlenden Werte ausschließen können. Das sind also die drei Schritte im Umgang mit den fehlenden Werten. Und in der nächsten Übung, in der nächsten Vorlesung, werden wir eine einfache praktische Übung machen in der wir sehen, wie wir nach den fehlenden Werten suchen, wie wir den fehlenden Wert aufzeichnen und wie wir die fehlenden Werte ausschließen können. nächsten Vorlesung geht es also ganz praktisch um das Thema, das sich mit den fehlenden Werten befasst. Wir sehen uns also in der nächsten Vorlesung. 71. Die fehlenden Werte testen: Hallo und willkommen zurück. In der vorherigen Vorlesung haben wir also gesehen, wie wir mit fehlenden Werten in R arbeiten können oder wie wir mit den fehlenden Werten in R umgehen Wir haben gesehen, welche Schritte wir befolgen müssen. Wir müssen diese drei Schritte befolgen. Oder du kannst zwei Schritte sagen. Entweder können Sie die fehlenden Werte aufzeichnen oder Sie können den fehlenden Wert ausschließen. Der allererste Schritt ist also das Gespür für fehlende Werte. Wir müssen testen und wir müssen die fehlenden Werte im Datensatz finden. Und dann ist der zweite Schritt erforderlich, die fehlenden Werte oder das Ausschließen der fehlenden Werte im Datensatz. Beginnen wir also mit dem allerersten Schritt, dem Testen auf fehlende Werte. Also, wie wir auf fehlende Werte testen können. Also habe ich diesen Code geschrieben und wir machen die praktische Arbeit. Also lass mich dir sagen , was ich hier mache. Ich erstelle einen Vektor mit einigen fehlenden Werten. Also erstelle ich einen Vektor 1-6 und füge dann einen NA-Wert hinzu, bei dem ein Wert fehlt, und dann acht bis zehn und dann fehlt. Nun, wenn wir diesen Vektor ausführen, schauen wir, was wir bekommen. Die Ausgabe ist 123456 , weil eins bis sechs. Und dann wenn irgendein Wert, dann 89108 bis zehn und dann jeder. Wir haben hier also zwei fehlende Werte. Diesen Datensatz erstellen wir selbst. Okay, um Ihnen zu sagen, welcher Wert fehlt, füge ich nur den fehlenden Wert in den Vektor ein. Okay? Nehmen wir nun an, wir haben diesen x-Vektor , der zwei fehlende Werte hat. Und wir wissen nicht, wo wir es sehen können, also wissen wir, dass zwei Werte fehlen. Aber nehmen wir an, wir wissen es nicht, wir sind es nicht, wir sehen nicht, wir sehen nicht, wie wir es können. Es ist ein großer Datensatz, der nicht nur aus einer Zeile besteht. Möglicherweise gibt es einen Datensatz, der mehrere Zeilen hat, Tausende von Zeilen, wie wir dort die fehlenden Werte finden. Wir können also einfach einen Test durchführen, der heißt, ob Annie eine ist, und dann müssen wir den Datensatznamen übergeben. Okay, hier geben wir an, dass der Extraktor aktiviert ist, suchen wir den fehlenden Wert. Es wird sagen, wenn dort Werte fehlen, wird es wahr sagen. Okay? Also jede NA und jeder fehlende Wert, es durchläuft diesen Vektor, den x-Vektor, und es wird den fehlenden Wert finden. Und wenn ein Wert fehlt, wird der Wert wahr zurückgegeben. Also lass mich das ausführen. Hier. Wir bekommen falsch, falsch, falsch, falsch, falsch und wahr. Das ist also für 1234566. Falsch bedeutet, dass bis sechs kein Wert fehlt. Dann gibt es für den siebten Platz welche, und dafür gibt es uns die Wahrheit zurück. Dann 8910, falsch, falsch, falsch. Und für bis zu zehn gibt es welche, also wird es wieder wahr. Es wird Ihnen also den wahren Wert für die fehlenden Werte zurückgeben. Auf diese Weise können wir feststellen, dass für diese beiden Werte ein Wert fehlt. Okay? Lassen Sie uns nun einen DataFrame mit fehlenden Daten erstellen. Also erstelle ich einen DataFrame. Df data.frame ist der Weg , um DataFrame zu erstellen. Und hier erstelle ich vier Spalten, Spalte eins, Spalte zwei, Spalte drei, Spalte vier. Und in Spalte eins gebe ich 123 und eine Spalte für diese NA ist, also das ist der Wert, den ich in den DataFrame einfüge. Okay? Lassen Sie mich also diesen DataFrame ausführen und sehen Sie sich die Ausgabe an. Also sieh hier, der DataFrame sieht so aus. Spalte eins, Spalte zwei, Spalte drei Spalte für Spalte eins hat 123,1 und Spalte zwei hat dies ist ein Text. Spalte drei, wahr, falsch, wahr, wahr. Okay. Also und Spalte vier wird 3,55, 0,26, 0,2 sein. Das ist also der DataFrame , den ich erstellt habe. Jetzt möchte ich herausfinden, ob n im vollständigen DataFrame ist. In diesem Datenrahmen möchte ich welche finden. Also ich kann den Test einfach als A ausführen und ich kann zuerst den DataFrame V0. Jeder eingegebene Datenrahmen gibt also wahr oder falsch zurück. Also dieses NA, das ist genau hier, Spalte eins, vierte Zeile, wir kommen durch, dann noch ein Eintrag hier. Also kommen wir hier durch. Und das sind noch ein und zwei weitere hier. Das heißt in diesem, okay? Auf diese Weise können wir unseren Test auf einer beliebigen Via ausführen. Angenommen, Sie möchten eine bestimmte DataFrame-Spalte identifizieren . Also möchte ich überprüfen, ob dieser DataFrame irgendwelche Werte in Spalte zwei hat, damit ich den Test als beliebig ausführen kann. Und dann der DataFrame-Name df dollar Spalte zwei. Was es also zurückgibt, es gibt für die Spalte den Wert „Wahr“ und „Falsch“ zurück. Lassen Sie uns das ausführen und sehen, was falsch, wahr, falsch, falsch ist. Warum ist es falsch? Weil in Spalte zwei Wert steht, wird also falsch zurückgegeben. Für N8 läuft true für is und text ist es Dunning, false, false. Das bedeutet, dass in Spalte zwei ein Wert fehlt. Auf diese Weise können wir herausfinden, dass bei den NA-Werten Werte in einer bestimmten Spalte fehlen. Jetzt können wir die Summenfunktion ausführen und die Anzahl von NINR DataFrame identifizieren. Wir können also some off verwenden, wenn any df ist N A, und wir müssen den Datensatznamen übergeben. Also lassen Sie uns das ausführen und sehen , jetzt bekommen wir drei. Es gibt also drei. N ist im Datenrahmen. Jetzt ist die Spaltensumme df, sie gibt Ihnen die Summe der fehlenden Werte in den Spalten. Okay? Lassen Sie uns das also ausführen und sehen, dass es in Spalte eins, Zeile, eins, Spalte 21, Spalte drei erledigt ist. Es fehlen keine Daten. Und Kolumne für einen. Also C, Spalte drei, alles ist da wahr, falsch, wahr, falsch, und wir haben keine fehlenden Werte in Spalte drei. Spalte drei unterstützt, wenn ich etwas eingebe, einige andere Werte, statt True-False gebe ich etwas Braun ein. Bei einigen Werten müssen wir 20 angeben, okay? Und jetzt starte das DF. Okay? Jetzt führe das aus. In Spalte drei fehlen keine Werte , weil alle verfügbaren Daten auf 905123 abgerundet wurden, oder? Deshalb wird es in der Regel für die dritte Spalte gemacht, Summe der Zahl, die Anzahl der fehlenden Werte in Spalte drei ist Null. In Spalte eins fehlt ein Wert, und zwar dieser. In Spalte vier gibt es einen Grund, naja, das ist dieser. Und in Spalte zwei gibt es einen. Auf diese Weise können wir die fehlenden Werte in R testen , indem wir is any verwenden , is any wird true zurückgeben, wenn im DataFrame ein Wert fehlt. So können wir also diesen ersten Schritt erreichen. In der nächsten Vorlesung werden wir sehen, wie wir eine Erfassung fehlender Werte erreichen können . Wir sehen uns in der nächsten Vorlesung. 72. Die fehlenden Werte neu kodieren: Hallo und willkommen zurück. In der vorherigen Vorlesung haben wir also gesehen, wie wir mit den fehlenden Daten arbeiten können. Und wir haben gesehen, wie wir die fehlenden Werte in einem Datensatz mit einem Punkt identifizieren können , oder? Also jeder Punkt und es gibt dir die fehlenden Werte. Und jetzt, wenn Sie wissen, dass die fehlenden Werte im Datensatz vorhanden sind, können wir sie entweder mit einem Wert aufzeichnen oder wir können sie entfernen. Schauen wir uns also an, wie wir den fehlenden Wert in einem Datensatz aufzeichnen können . Als Erstes können wir den fehlenden Wert aufzeichnen. Wenn es sich um numerische Daten handelt, können wir mit dem Mittelwert des Datensatzes, dem Mittelwert der Werte, okay, dem Durchschnitt des Werts aufzeichnen Mittelwert der Werte, okay, . Wir können zwei portieren, können wir sagen. Also hier erstelle ich einen Vektor X, okay? Und schauen wir uns an, was in dem Vektor S enthalten ist. Es ist 123456, dann eins, dann 8910 und dann irgendein. Okay, hier geht es also alles um numerische Daten. Was wir also tun können, wir können weitermachen und den Mittelwert der vorhandenen Daten ermitteln, indem wir unsere numerischen Zahlen und Zahlen anpassen und den Mittelwert anstelle der Werte auffüllen, bei denen keine Werte fehlen. Was wir also tun können, wir können das x verwenden, das ist der Datensatz oder Vektor und wir können ein a von x finden. Wir können alle NA-Werte finden. Und hier können wir den Mittelwert von x angeben. So können wir den Mittelwert von x mit der Mittelwertfunktion finden und wo, wo immer welche, die nicht gleich wahr sind. Also können wir den Mittelwert verschieben. Wir entfernen die Werte und setzen den Mittelwert an die Stelle des Umschlags. Also lass mich das ausführen. Und jetzt, in Ordnung, also das Z hier, jetzt haben wir die 123456 und anstelle von allen haben wir 5,33 und dann 8910. Und stattdessen haben alle dieses 5.3. Lassen Sie mich das noch einmal ausführen. Also hier haben wir statt eines A 5,33. Also, wie kommen wir auf diese 5,33? Wir erhalten den Durchschnitt von 1234561 plus zwei plus drei plus fünf plus sechs, plus acht plus neun plus zehn, und dividieren ihn durch die Anzahl der Werte, wenn Sie 5,3 erhalten. Anstelle von Antikörpern setzen wir also die 5,33 ein. Das ist also die einzige Möglichkeit mit den fehlenden Werten umzugehen, indem wir den fehlenden Wert mit diesem Durchschnittswert, also 5,33 , aufzeichnen . Als Nächstes wird DataFrame den fehlenden Wert mit Stickstoff überziehen In einigen Teilen des Datensatzes steht die 99 für den fehlenden Wert. Nehmen wir an, das ist der DataFrame, den ich erstelle der zwei Spalten hat. Und lassen Sie uns das ausführen und lassen Sie mich Ihnen den DataFrame zeigen. Die erste DataFrame-Spalte, Spalte 2123. Und hier sind es statt fünf 99. Und Spalte zwei enthält alle Brunnen. Diese 99 ist also fehl am Platz. Es ist wie ein fehlender Wert. Es wird also als fehlender Wert behandelt. Also, was wir jetzt tun können, eine Sache, wir können diese 99 durch eine Eins ersetzen, damit sie an Ort und Stelle ist. Wenn wir also dieses d F gleich 99 innerhalb von a ersetzen wollen, können wir DFT verwenden und in Klammern df gleich, gleich, gleich 99 verwenden. Und wenn es 99 ist, müssen wir es durch DNA ersetzen. Also lass mich das ausführen. sehen uns jetzt in gerader Linie 99, diese 299, wir haben die N A-Werte, oder? Sie können es also durch das Unvermeidliche ersetzen. Wenn Sie durch keinen Wert ersetzen möchten, können Sie sich von mir einfach den DataFrame noch einmal mit der 99 zeigen lassen . Jetzt können wir hier beliebige Werte eingeben. Wenn du fünf setzen willst, weißt du, dass es fünf geben sollte und du kannst einfach fünf und C eingeben. Jetzt haben die Werte beide Stellen durch fünf ersetzt. Auf diese Weise können Sie mit den fehlenden Werten umgehen. Wir können einfach DNA hineinlegen, okay, auf diese Weise können wir die fehlenden Werte in uns aufzeichnen. 73. Entscheidungsbaum: Hallo und willkommen zurück. In dieser Vorlesung werden wir also etwas über den Entscheidungsbaum lernen , der beim maschinellen Lernen sehr wichtig ist. Also werden wir alles über den Entscheidungsbaum lernen und das Ganze von vorne beginnen. Was ist ein Entscheidungsbaum? Lassen Sie mich Ihnen zunächst sagen, was unsere Entscheidung ist. Eine Entscheidung treffen wir jeden Tag. Nehmen wir an, wir wollen irgendwohin gehen und nehmen wir an, ich möchte zu einer Veranstaltung gehen. Und das zu unterstützen bin ich. Und ich muss, ich brauche es, um etwas Wasser zu trinken, irgendein Ereignis. Also was ich sagen werde, ob das Wetter gut ist oder nicht, und je nachdem, ob das Wetter gut ist, gehe ich hinauf. Wenn das Wetter nicht gut ist, gehe ich nicht. Das ist also abhängig von den Wetterbedingungen. Also hier unterscheide ich sie so, wie sie sind. Das ist also eine Art Entscheidungsbaum, den ich treffe. Ich treffe, ich treffe Entscheidungen auf der Grundlage des Wetters und der Unterstützung. Ich kann noch eine Sache hinzufügen, wenn das gut ist. Und wieder möchte ich etwas hinzufügen, mir gut geht und ob es mir nicht gut geht, oder? Also wenn es mir gut geht, gehe ich, es wird ja sein. Und das wird nein sein. Das Ganze wird also zu einem großen Entscheidungsbaum werden , bei dem es als Erstes um das Wetter geht, das Wetter ist gut, ich gehe, das Wetter ist nicht gut, ich gehe nicht. Und ob es gut ist Auch App, um zu sehen, ob es mir gut geht oder nicht. Und dann sage ich, besser als mein Gesundheitszustand, ja oder nein. Das ist also ein großer Entscheidungsbaum, okay? Also, so treffen wir die Entscheidung, oder? Wenn wir ein Auto fahren, wir uns das an, schauen uns die Verkehrslage an, und dann fahren wir los, oder? Wenn die Falle, wenn die Ampel grün ist, bewegt sie sich. Wenn es gelb ist, warten wir. Und wenn es rot ist, hören wir auf, oder? Das wird also auch eine Art von Entscheidung sein, die wir treffen. Was ist also ein Entscheidungsbaum? Wenn Sie das verstehen wollen, müssen wir zu einem Beispiel gehen. Nehmen wir an, nehmen wir an, das bin ich, das bin ich. Und ich möchte zu einem Imbiss gehen und ein paar Früchte kaufen. Und ich erkenne keine Früchte. Okay. Also hat mir jemand in meiner Familie erzählt, dass der Apfel, der Apfel , der Apfel zwei Eigenschaften hat. Es hat eine rote Farbe und wird gerundet, oder? Und dann sagte er, dass Banane, Banane eine gelbe Farbe haben und das ist nicht falsch, oder? Nicht rund. Es ist eigentlich lang. Okay. Und dann sagte er , wir haben es. Ich verstehe, es hat eine orange Farbe. Und es ist nicht falsch. Okay. Nicht falsch. Also gehe ich jetzt zum Entenfruchtmarkt. Und da sah ich eine Softtastatur. Ich habe einen Ladenbesitzer gesehen, der Obst verkauft. Und er hat viele Früchte, tut mir leid. Er hat Bananenunterstützung gebündelt. Das ist die Banane. Er hat also viele Bananen, ich weiß nicht, dass es Bananen sind. Okay, also etwas in Bananensafe, ich machen werde, tut mir leid für meine schlechte Zeichnung. Und er hat ein paar Früchte. Ein Schlagzeug beweist, dass er es hat. Und dann hatte er ein orangefarbenes Ding. Ich hab's. Okay. Unterstützung, die ich dort nur wenige gesammelt habe. Also jetzt höre ich auf und denke darüber nach, wie ich aufgrund der Beschreibung, die ich von meinem Familienmitglied bekommen habe, Wasser zu verlieren , gehe ich und frage den Softkey für die Frage, die ich stellen werde. Ich werde das fragen, was ist die Farbe, oder? Also frage ich als Erstes, wie Ägypten oder Rot oder Orange, oder? Ich habe dich verloren, Gita. Farbe Orange. Also die orangefarbene Protease. Und wenn ja, werde ich direkt antworten , entweder ja oder so. In Ordnung. Also wenn es ja ist. Verstanden, es wird hier klassifiziert. Die S, die Karotten werden hierher kommen, oder? Deshalb werden alle Kandidaten hierher kommen, die orange Farbe und all die Bananen, weil sie nicht orange sind. Also werden alle Bananen Bananen sein, sie werden hierher kommen. Und älter. Äpfel auch auf dieser Seite, oder? Weil sie auch nicht orange sind. Also habe ich jetzt eine Entscheidung getroffen. Die Früchte habe ich in zwei Kategorien eingeteilt , orange oder nicht. Also orange, ich habe die, alle Karotten und nicht Orange. Ich habe die gelbe Banane und die roten Äpfel. Nun, das nächste, was ich fragen werde, oder nicht, oder? Rund. Also verstehe ich ja und ich verstehe nein. Richtig? Bisher werden alle Äpfel hierher kommen, oder? Alle Äpfel werden korrekt klassifiziert, oder? Und für nein, um zu wissen, was passieren wird. Alle Bananen werden hierher kommen, oder? Weil Bananen nicht rund sind. Also hole ich alle Bananen her. Also sehen Sie, wenn Sie sich dieses Ding ansehen, können wir sehen, dass das diese ganze Sache ist. Diese ganze Sache ist ein Entscheidungsbaum, weil sie wie ein Baum aussieht, oder? Der Baum hat Zweige und Blätter, oder? Also dieser, der Hauptknoten, dieser wird als Wurzelknoten bezeichnet. Der Wurzelknoten und untergeordneten Knoten, die wir bekommen, und digitale Lippen, oder? Okay. Das ist also ein Entscheidungsbaum, bei dem ich zuerst alle Früchte sehe und entscheide, ob sie orange sind oder nicht, dann klassifiziere ich Daten , die richtig klassifiziert werden. Dann sind Banane unipolar hier und dann ihre eigenen, dann sind die Äpfel und Bananen zu Recht klassifiziert. Klassifizieren Sie die Früchte nach ihrer Farbe und speichern Sie sie. Im Grunde werden Entscheidungsbäume also für Klassifizierungsprobleme verwendet. Die Jahrhunderte werden also für Klassifizierungsprobleme verwendet , oder? Und der Mittelwert dieses Knotens, dieses Knotens, des Wurzelknotens hier. Das nennt man Entropie. Also, was unsere Entropie bedeutet, wie, je größer die Anzahl der Elemente in diesem Wurzelknoten sein wird , desto dichter wird Ihr Entscheidungsbaum sein. Okay? Also was ich tun muss, ich muss jede Entscheidung mit jedem Knoten treffen. Jeder Knoten, den ich brauche, um die Entropie zu reduzieren. Also hier ist die Entropie da, dann wird das Trapez am höchsten sein. Und dann muss ich bei jeder Entscheidung den Entropiewert reduzieren , damit wir diese Elemente klassifizieren können. Okay? Das nennt man also Entropie. Also jede Augenspur und wir werden sein, wir werden die Entropie reduzieren, richtig? Wir werden in der nächsten Vorlesung sehen, wie wir die Entropie reduzieren werden. Also hier können wir, wir werden sehen, wie wir das nutzen können und es auch mit der Titration fallen lassen und den Child-Node erreichen, wie wir in der nächsten Vorlesung die Entropie reduzieren. Aber im Inneren befindet sich der Entscheidungsbaum und so klassifizieren wir die Dinge beim maschinellen Lernen anhand des Entscheidungsbaums. Und so treffen wir den Entscheidungsbaum, werden auch in den kommenden Vorlesungen unser Hands-on tun. Zuerst werden wir den gesamten theoretischen Teil durchgehen und dann zum praktischen Teil übergehen, in dem wir Ihr Problem des maschinellen Lernens anhand des Entscheidungsbaums in unserer Programmierung klassifizieren Ihr Problem des maschinellen Lernens . Wir sehen uns in der nächsten Vorlesung. 74. Entropie und Informationsgewinn: In dieser Vorlesung werden wir uns also ansehen, wie ein Entscheidungsbaum funktioniert, wie funktioniert ein Entscheidungsbaum? Okay? Weniger als drei. Arbeit. Okay. Lassen Sie mich Ihnen dafür ein paar Grundlagen erklären, bevor wir weitermachen. Also als Erstes, diese Entscheidung, dieser Entscheidungsbaum, wir treffen verschiedene Entscheidungen. Also dieser ist, dieser ist bekannt als der Wurzelknoten, oder dieser ist als der Wurzelknoten bekannt, oder? Das ist also ein Wurzelknoten. Und diese werden dann Blattknoten genannt. Das ist also ein Blattknoten. Dies ist ein weiterer Blattknoten. Sie werden Blattknoten genannt, okay? Wurzelknoten und Blattknoten. Okay? Jetzt wissen wir also, was ein Blattknoten und ein Wurzelknoten sind. Lassen Sie mich Sie zu einem anderen Konzept führen, das Entropie heißt , und ich habe gesehen, dass es sehr, sehr wichtig ist. Also lass mich dir sagen , was ich sage. Ich sage Entropie. Also, was ist Entropie? Entropie ist eine sehr wichtige Sache. Denn sieh hier, jetzt dieser, das hat mehr Artikel, oder? Das ist also High-End-Dropping. Es tut uns leid. Das hat eine hohe Entropie. Hohe Entropie, okay? Und dieser hat eine niedrige Entropie. Es ist eine Art Population. Wenn Sie also mehr Elemente in einem Knoten haben, hat er eine hohe Entropie. Und wenn es eine geringe Anzahl von Elementen hat, wird es als niedrige Entropie bezeichnet. Okay? Entropie ist also ein Maß für die Unzulänglichkeit Ihrer Datensammlung. Wie eine größere Anzahl von Artikeln, wie hier. Auf dem Stammknoten befinden sich die Elemente mit drei Farben Orange, Gelb und Rot und aus, um sie zu speichern. Das ist also chaotischer und richtig. Das ist also eine hohe Entropie. Und im Vergleich dazu hat dieser Wurzelknoten eine niedrige Entropie und dieser hat eine sehr niedrige Entropie. Okay? Lassen Sie mich Sie also zu einem anderen Konzept mit diesem und jenem führen, das heißt Informationsgewinn. Was ist es? Es heißt, es heißt Informationsgewinn. Was ist also Informationsgewinn? Wenn wir uns zu diesem Entscheidungsbaum vom Wurzelknoten zum Blattknoten bewegen , gewinnen wir Informationen. Und wenn Informationen gewonnen werden, was sie reduzieren, ist die Entropie ein Straßenrennen. Nehmen wir diese Entropien an, denn diese Entropie ist E2, für diese Entropien E3. Und dafür unterstützen Entropien die Entropien E3. Also für jeden, den ich tracke, kannst du sagen , dass E2 weniger als eins sein wird, oder? y1-Wert ist also E1, E1 ist mehr und E2 reduziert sich. E2 ist kleiner als Y1. Und ähnlich wird e3 hier kleiner sein als E2. Okay? Was ist also Informationsgewinn? Informationsgewinn ist Informationsgewinn Wenn wir rechnen wollen, ist der Informationsgewinn gleich y1 minus y2. Y1 minus y2 ergibt den Informationsgewinn. Informationsgewinn ist die Verringerung der Entropie durch die Aufteilung des Datensatzes unter bestimmten Bedingungen. Also sieh hier. Jetzt haben wir 1234567 Daten hier. Und wir stellen eine Bedingung, Agent, Orange in der orangen Farbe der Protisten . Und basierend auf dieser Bedingung, die wir erhalten, reduzieren wir die Anzahl der Datensätze genau hier, zwei und hier 345. Also teilen wir den Datensatz auf. Also hier reduziert sich die Entropie. Informationsgewinn ist die Verringerung der Entropie durch die Aufteilung des Datensatzes auf der Grundlage einer bestimmten Bedingung. Wir werden sehen, wie wir die Entropie berechnen können. Das ist eine weitere mathematische Sache, die ich Sie wissen lasse. Aber nehmen wir vorerst an, dass die Entropie abnimmt, wenn wir den Entscheidungsbaum hinuntergehen . Früher war es E eins, jetzt ist es E2, und weiter unten kommt es auf E drei runter. Und e eins ist größer als E2 und E2 ist größer als E3. Informationsgewinn dafür, von diesem Knoten zu diesem Knoten kommt es auf y1 minus y2. Okay, das ist also der Informationsgewinn. Was ist also unser Ziel des Entscheidungsbaums? Wenn wir den Datensatz unter bestimmten Bedingungen aufteilen, wollen wir die Entropie verringern, die Entropie verringern, um die Informationen zu gewinnen, oder? Also stirbt das Haupttelefon, um mehr Informationen zu erhalten. Okay, in der nächsten Vorlesung werden wir also sehen, wie wir den Informationsgewinn berechnen können und wie wir mit dem Datensatz umgehen können, wie wir die Daten aufteilen und wie wir den Informationsgewinn berechnen können. Und wir werden sehen, was die mathematische Gleichung für den Informationsgewinn ist , okay, wir sehen uns in der nächsten Vorlesung. 75. Entropy im Entscheidungsbaum berechnen: Hallo und willkommen zurück. In dieser Vorlesung lernen wir also etwas über Entropie und wie wir Entropie berechnen. In der vorherigen Vorlesung haben wir also gesehen, wie sich unsere verschiedenen Spaziergänge entwickeln. Und doch möchte ich das klarstellen. Der Blattknoten wird sein, dies wird der eine Blattknoten sein. Das wird ein Blattknoten sein, oder? Und das wird ein weiterer anderer Blattknoten sein, okay? Lymphknoten, der Endknoten. Okay, das wird Talkie. Und wir haben gesehen, wie es uns geht, wenn wir tief in den Entscheidungsbaum gehen Die Entropie wird abnehmen. Das Hauptziel ist es , zum Datenknoten zu gelangen, zum Blattknoten, wo die Entropie geringer sein wird als die vorherige Knotenentropie. Und Entropie und Informationsgewinn. Wir haben gelernt, dass y1 minus y2 der Informationsgewinn sein wird. Jetzt werden wir sehen, was Entropie ist und wie wir die Entropie berechnen. Das Thema dieser Vorlesung ist also Entropie. Okay? Wir werden also ausführlich besprechen, was Entropie ist und wie wir die Entropie berechnen können. Entropie. Nehmen wir an, das ist die Unterstützung, das ist unser einziger Entscheidungsbaum. Nehmen wir an, das ist unsere eine, diese Entität, in der sie F1, F2, F3 sagen, okay? Und dann, okay, das sind also unsere Blätter nach Norden, oder? Das sind unsere Lymphknoten. Und das wird der Blattknoten sein. Kann der Sport oder der Lymphknoten. Und das ist der Wurzelknoten, oder? Wie berechnen wir also die Entropie? Nehmen wir noch eine Sache an. Nur um mich zu erinnern. Dieser Entscheidungsbaum. Entscheidungsbäume werden für Klassifizierungsprobleme verwendet , oder? Klassifizierungsprobleme, oder? Im Grunde wird es also die binäre Kreuzklassifikation sein , ja oder nein. Okay? Nehmen wir also an, wenn wir hier vom Stammknoten aus hinzufügen, kommen wir zu diesem F2. Nehmen wir an, wir haben drei Jahre und wir bekommen zwei Knoten, okay? Und hier haben wir vier Jahre und drei Knoten. Und dann haben wir hier fünf Jahre. Wir haben zwei Jahre und hier haben wir drei Knoten. Wir gehen einfach von diesen Werten aus, okay, und hier für Knoten und Support bekommen wir drei. Ja, und er hatte ein gutes Faible für Knoten und unterstützte diesen, indem er die Eisenbahn etwa zehn Jahre, sieben Knoten hat . Okay? Wie wir nun die Entropie berechnen, ist Entropie die Parität der Teilung. Das ist also unser Datensatz und wir teilen uns in zwei Knoten auf, oder? F2 und F3. Also, wie rein und wie gut ist dieser Split? Das werden wir auf der Grundlage der Entropie entscheiden. Also, Entropie. Entropie ist im Grunde wie gut ist, wie gut ist der Split, wie gut ist dein Split? Das wird uns die Entropie sagen und wie man die Entropie berechnet. Dass es eine einfache Formel gibt, die unterstützt, wir wollen die Entropie von S berechnen, also wird es minus Wahrscheinlichkeit von ja sein. Und dann protokollieren Sie die Nachricht mit der Wahrscheinlichkeit von Ja. Sie können auch die Wahrscheinlichkeit positiv plus minus Alpha angeben. Wahrscheinlichkeit von no log base two, Wahrscheinlichkeit von Nein, lass mich das richtig schreiben. Das geht runter. Nehmen wir an, es unterstützt die Entropie, die wir mit E bezeichnen. Die Entropieformel ist sehr einfach. Minus der Wahrscheinlichkeit von Ja in die zweite Logarithmusbasis der Wahrscheinlichkeit von Ja. Minus. Sie können in den Logarithmus des Paschtu-Logs die Wahrscheinlichkeit von Norden plus , minus die Wahrscheinlichkeit des Knotens eintragen. Das ist also die Formel zur Berechnung der Entropie. Nehmen wir an, wir wollen die Entropie dieses Knotens berechnen. Also, wie können wir das machen? Also hier wird das E die Wahrscheinlichkeit von ja sein, ja wird drei sein. Also drei nach Gesamtzähler, drei plus zu finden. Also Wahrscheinlichkeit von Ja drei mal fünf Jahre. Und dann machen wir Log Base 23 mal fünf. Und das Minuszeichen minus die Wahrscheinlichkeit eines Negativs ist zwei mal fünf. Um fünf. Loggen Sie die Wahrscheinlichkeit eines Negativs zur Basis zwei mal fünf ein. Das wird also die Entropie von sein, das wird die Entropie der Note F zwei sein. Das ist also die Formel. Sie werden hier etwas Wertvolles bekommen. Bei der Berechnung wird der Wert durch einen Wert ermittelt. Das wird also dunkel sein und dich von dieser F2 absetzen. Beachten Sie die Entropie von F2, das können Sie, oder? Okay? Die Entropie von F2 Null wird also das minus drei mal fünf sein. Armut erscheint abzüglich der Wahrscheinlichkeit negativ und es muss die logarithmische Basis zwei dieser Werte verwendet werden, die positive Wahrscheinlichkeit und die negative Wahrscheinlichkeit. Also das, ja, man kann Wahrscheinlichkeit der Positivität, Wahrscheinlichkeit der Positivität sagen . Und das wird die Wahrscheinlichkeit negativer, negativer Werte sein. Okay? Auf diese Weise können wir den Entropiewert berechnen. Wir können also auch dafür den Entropiewert berechnen, auch dafür , auch dafür hier, wenn Sie den Wahrscheinlichkeitswert berechnen, das ist der einzige, es gibt kein negatives, oder? Weil das das N Nichts ist, oder? Nehmen wir also an machen den Split und wir bekommen, nehmen wir an, wir sind hier , statt 4,3 Knoten bekommen wir drei Jahre und drei Knoten. Das ist also eine sehr, das ist nicht nützlich, das ist, das ist keine nützliche Sache, oder? Weil wir beides bekommen, drei Jahre und drei Knoten. Das wird also keinen Einblick geben, oder? Das ist also sehr negativ. Das ist eine sehr, sehr schlechte Art von Trennung, okay? Ihre Daten werden also nicht auf diese Weise in einem Entscheidungsbaum aufgeteilt. Das ist also Diskontinuität oder Hockey, denn wenn Sie diesen Wert berechnen, ergibt sich drei mal sechs minus drei mal sechs. Im Grunde sind die negative Wahrscheinlichkeit und die teilweise Wahrscheinlichkeit des Bootes gleich, okay? Also müssen wir es so aufteilen , dass wir dieses Ding nicht bekommen sollten. Okay? So berechnen wir also die Entropie mit dieser Formel. Okay? Und wir müssen, und der Informationsgewinn, wie besprochen, wird das sein, nehmen wir an, es ist E eins oder E F1. Und das ist hier EF2. Die von F1 bis F2 gesammelten Informationen lauten E F1 minus F2. Das sind also die Informationen, die von Knoten zu Knoten gewonnen werden. Okay? So berechnen wir also Entropie und Informationsgewinn. Informationsgewinn. 76. Informationsgewinn für Entscheidungsbaum berechnen: Hallo und willkommen zurück. In der letzten Vorlesung haben wir also etwas über Entropie gelernt. Und die Absätze sind in diesem Entscheidungsbaum, den ich gezeichnet habe. Abdullah, kleiner Fehler wie Yolanda. Insgesamt feuern Städte 17, 17 Gegenstände dann S. Und es gibt keine. Also, wenn Sie diese beiden Knoten aufteilen, müssen Sie das in drei Jahren wissen. Und für ja und drei Knoten, oder? Vier plus 37,5, nur 12, also fünf sind nicht enthalten. Also kannst du, also musst du dich darum kümmern. Ich mag es, wenn ich versehentlich nicht die richtigen Zahlen erhalten habe, aber das wird nichts beeinflussen , was ich in der vorherigen Vorlesung gelehrt habe. Also nur die Zahlen ergeben insgesamt 17, wenn Sie teilen. Okay? Abgesehen davon ist also alles korrekt und die Art und Weise, wie wir die Entropie berechnen, diese Formel ist korrekt, alles andere ist korrekt. Und genau das wollte ich klarstellen, damit das passiert. Ein paar andere Zahlen. Okay. Und ungefähr drei oder acht Jahre , dann und dann okay. Darin wäre mein Fehler. Ich habe 38 ja geschrieben. Um 10.7, 17 zu wissen. Okay. Und dann soll es eine Unterstützung für acht Jahre geben. Und ja. Oder McDonald's gleich hier, dann wird es richtig sein. Okay. Okay. Gehen wir nun zum nächsten Konzept , das Informationsgewinn genannt wird. In der vorigen Vorlesung habe ich Ihnen also gesagt, was ich Ihnen gesagt habe, in Farmern und Gewinn ist in Entropie minus dieser Entropie so . Also dieses Informationsspiel, das du von diesem Feature bekommst, von F1 bis F2. Aber das ist nicht der gesamte Informationsgewinn. Wenn wir also unseren Entscheidungsbaum vollständig erstellt haben, müssen wir den Informationsgewinn des gesamten Entscheidungsbaums ermitteln. Welches Informationsspiel? Auch hier kommen wir zur Totalität. Also lass mich einfach wie Dawn werfen und was ich tun werde, ich werde einen Entscheidungsbaum erstellen. Nehmen wir an, wir haben diesen Entscheidungsbaum. Also habe ich diese Phase unterstützt, F1, F2, F3. Okay? Also nehme ich an, dieser hat n, ja und sieben. Okay? Und wenn wir uns hier trennen, wird es vermutlich ETS sein, Nase. Und hier schneiden wir. Lass es diese drei Knoten sein. Also Level und hier habe ich drei und drei Jahre. Nee. Okay, das ist also einer, unser Entscheidungsbaum unterstützt einen Beispielentscheidungsbaum , den wir hier erstellen. Nun, für diesen Knoten wird Entropie angenommen, dass E F1 Sie unterstützt. Wir berechnen also die Entropie dafür. Ja, nein, sieben Knoten, wir bekommen E F1. Dafür bekommen wir eine Immobilie als E F2. Und dafür bekommen wir E F 30. Okay? Das basiert nun also auf diesem Informationsgewinn. Und Entropie reicht aus. Entropie wird es dir nur anhand des Entropiewerts sagen, wir können herausfinden, wie unsere Aufteilung ist, oder? werde nicht wissen , ob sich die gesamten Übergewichtigen für diesen oder diesen entscheiden würden, oder? Diese Trennung, oder diese Trennung, richtig? Nehmen wir also an, wir können eine weitere Aufteilung vornehmen, z. B. mit F2 beginnen, mit F2 beginnen und dann zu F1 und F3 übergehen. Das könnte also eine weitere Trennung sein. Wir wissen also nicht, welcher richtig ist, oder? Also, woher wissen wir das? Welche Strategie oder welchen Split wir besuchen sollten, würde so aussehen, als ob F1, F2, F3 Wege sind, würden mit F2, F1, F3 beginnen, oder? Also, wie können wir das entscheiden? Wir können das anhand des Begriffs entscheiden, der mir einen gewissen Gewinn gebracht hat. Auf der Grundlage des Informationsgewinns können wir also entscheiden. Welchen Weg wir einschlagen sollten, irgendwie diesen Weg oder diesen Weg gehen. Okay? Dies wird also durch die schrittweise Erhöhung des gesamten Entscheidungsbaums entschieden. Also, wie wir den gesamten Informationsgewinn berechnen , und das werde ich Ihnen sagen. Informationsgewinn gibt an, wie viele Informationen wir für diesen gesamten Entscheidungsbaum erhalten. Also für dieses erste Ding, was wir brauchen, müssen wir die Entropie für jeden Knoten, jedes Merkmal finden, okay, soweit unterstützt, haben wir auf der Grundlage der in der vorherigen Vorlesung erläuterten Formel berechnet . Wir haben berechnet und wir haben diese Werte erhalten, E von einem Jahr, PUI von drei. Okay? Also, welche Informationen gewinnen Sie jetzt? Informationsgewinn. Welchen Informationsgewinn bringt dieser Entscheidungsbaum? Es ist so, als würde die Information den Wurzelknoten hinaufsteigen , also E, f, f1, f1 abzüglich der Summe all dieser Splits. Fassen Sie all diese Splits wie diesen zusammen. Und dieser, die Informationen sammeln und bringen Sie davon ab. Okay? Also was es sein wird, es wird diese Teilmenge aller Sub-Splits sein, also das ist ein Split und das ist ein aufgeteilter derselbe Knoten, oder? Also ein Teil dieser Teilmenge, der gewichteten Gesamtgewichtung, okay? Und dann E, F-Unterstützung. Dies geht von z gleich eins zu n Unterstützung. Wir gehen von der N-Nummer von Split zu E F1-Fan über, okay? Also E F1-Unterstützung, wir haben E, F eins berechnet. Also, wie viele Untergruppen werden wir hier haben? Wir bekommen zwei Teilmengen. Eins ist das und eins ist das, oder? Was wird also die Teilmenge dieser Acht plus 31111 und die Summe sein, ist 17, 11 mal 17 in E von f, zwei. Und dann plus drei plus 36 mal 17. Insgesamt. Zähle 17 bis E F drei. Okay? Das wird also beim E F1 -11 um 17, E F2 minus sechs um 73 kommen . Okay? Also diese Formel, dieser, dieser Ausdruck wird uns etwas geben, dieser Ausdruck wird uns einen gewissen Wert geben. Nehmen wir an, ich berechne nicht den tatsächlichen Wert, Sie können ihn berechnen. Nehmen wir also an, für diesen Wert erhalten wir 0,53. Und auf ähnliche Weise nehmen wir an, wir haben auch für diesen Entscheidungsbaum berechnet . Okay? Was bedeutet dieser Eintrag? Und hier bekommen wir den Informationsgewinn als Wind für einen. Also, nehmen wir an, das ist wieder eins und das ist wieder, um zu sehen, wie unser Algorithmus für maschinelles Lernen, oder wie, entscheiden wird, welchen Weg wir einschlagen sollten. Wir sollten uns für diese Aufteilung entscheiden. Diese Aufteilung basiert auf dem Informationsgewinn. Also hier haben wir wieder, ich unterstütze 5,53 und hier haben wir einen Gewinn von 0,41, der Informationsgewinn ist größer als der Informationsgewinn, zwei. Wir würden uns also für den höheren Wert entscheiden. Je höher der Informationsgewinn, desto genauer wird der Entscheidungsbaum sein. Also werden wir damit weitermachen, uns an diesen Entscheidungsbaum halten. Also werden wir mit F1, F2 und F3 fahren. Informationsgewinn wird darüber entscheiden, welchen Entscheidungsbaum oder welchen Ansatz wir bei der Erstellung dieses Entscheidungsbaums verfolgen sollten. Und das werden wir nicht manuell oder maschinell lernende Algorithmen tun . Oder die Bibliothek wird das automatisch für uns erledigen , aber wir sollten wissen, wie es intern läuft. Was immer Sie versuchen, einen Entscheidungsbaum für ein Problem oder maschinelles Lernen zu erstellen , Algorithmen für maschinelles Lernen erstellen diese Teilmengen, diese Platten. Und sie werden das berechnen, das wird den Informationsgewinn berechnen. Und welcher Informationsgewinn auch immer höher ist, er wird mit dieser Strategie einhergehen. Auf diese Weise ist der Informationsgewinn nützlich, um zu entscheiden , welcher Entscheidungsbaum oder welcher Entscheidungsbaum mit Folgemaßnahmen darauf basiert, welches Merkmal wir zuerst aufteilen sollten. Feature eins basiert ebenfalls auf Feature. Das wird also genau das sein, denn Informationsgewinn ist eine so wichtige Sache. Wir sollten die Mathematik hinter dem Informationsgewinn kennen . Unterstütze diese drei, ja und drei Knoten hier, der Entropiewert von drei wird eins sein. Warum? Weil das eine völlig unreine Untergruppe ist, oder? Weil das nicht ist, das ist nicht gut. Weil drei S und drei darauf hinweisen , dass beide gleiche Zahlen sind, oder? Das ist also eine unreine Aufteilung und für diese Entropie wird es 11 sein, was ich vergessen habe, dir zu sagen. Der Entropiewert liegt immer zwischen Null und Eins. Der Entropiewert liegt immer im Wert von 0-1. Wenn du 10 bekommst, ist dein Split gut. Und wir müssen die Trennung dort beenden. Okay? Und wenn Split ist, kommt dein Entropiewert auf eins, das heißt, es handelt sich um eine reine oder eine unreine Aufteilung. Okay? Also bei Null hören wir auf und bei eins wird es unreiner Split sein. Okay? Also das, was du im Hinterkopf behältst. 77. Entscheidungsbaum in R: Hallo und willkommen zurück. In den vorherigen Vorlesungen haben wir also etwas über Entscheidungsbäume gelernt. Wir haben auch gesehen, wie wir einen Entscheidungsbaum erstellen. Und wir haben Entropie gesehen. Was ist Entropie? Wie wir die Entropie berechnen und was der Entropiewert sein wird. Und dann haben wir gesehen, wie wir Informationsgewinn berechnen und wie Informationsgewinn des Entscheidungsbaums darüber entscheidet , welchen Ansatz wir verfolgen sollten, welchen Ansatz wir wählen sollten. Book Creator, bester Entscheidungsbaum für unsere Problemstellung. Und wir wissen auch, dass dieser Eintrag für Bäume für Klassifizierungsprobleme verwendet wird . Okay? Also im Grunde ein binäres Klassifizierungsproblem, wir uns mit dem Entscheidungsbaum befassen. In dieser Vorlesung werden wir also lernen, wie wir vorgehen werden. Im Grunde werden wir unseren Code schreiben, um einen Entscheidungsbaum für unseren Datensatz zu erstellen. Also hier werden wir den eingebauten Datensatz verwenden , der mit R geliefert wird , also Lesefähigkeiten. Also, was hat dieser Datensatz für Lesefähigkeiten und was, wie erstellen wir dafür unseren Entscheidungsbaum. Das werden wir in dieser Vorlesung sehen. Davor schreiben wir den Code. Lassen Sie mich Ihnen einige Anwendungen von Decision Tree vorstellen. Also Entscheidungsbaum, wenn Sie in einem echten Leben sehen wollen, Sie, Entscheidungsbäume werden verwendet, wenn wir versuchen herauszufinden, welche E-Mail Spam ist, E-Mail, welche E-Mail kein Spam ist. Da sind wir also uneins, oder? Bei solchen Machine-Learning-Projekten, bei denen wir uns befinden, müssen wir entscheiden, ob eine E-Mail von einer Quelle kommt, ob es sich um Spam handelt oder nicht, da erstellen wir im Grunde einen Entscheidungsbaum. Wir machen diese Reise, Spam hin oder her. Diese Art von binärem Klassifizierungsproblem ist Spam oder kein Spam. dann im Gesundheitsministerium oder im Gesundheitssektor Wenn Sie dann im Gesundheitsministerium oder im Gesundheitssektor einen App-Krebs erkennen, ob es sich um einen Tumor handeln kann, äh, krebsartig sein kann oder nicht , können wir mithilfe von maschinellem Lernen und dem Entscheidungsbaum entscheiden . Und im Finanzsektor in Europa, Sie sehen, können wir, wie in den Bereichen Bankfinanzierung der BFSI, es vielleicht verwenden, um entscheiden, ob sie Kredite vergeben oder nicht. Und sie können auch anhand ihrer Kreditwürdigkeit entscheiden, ob oder was gut an unserem Wasser schlechten Kreditnehmer ist . Wie bei der Kreditrisikoanalyse können Sie also den Entscheidungsbaum verwenden. Dies sind also einige reale Anwendungen unseres Entscheidungsbaums und unseres maschinellen Lernproblems, die Sie sich vorstellen können, mit dem Entscheidungsbaum zu lösen. Also, wie würden wir das lösen? Im Grunde erstellen wir ein Modell und dann versuchen wir, das Modell zu trainieren. Und dann haben wir auf der Grundlage des trainierten Modells versucht die Testdaten bereitzustellen und all diese Dinge zu entscheiden. Kommen wir nun zu diesem Problem, dieser Vorlesung. Zurück zu dieser Vorlesung Wir werden den Datensatz für Lesefähigkeiten verwenden , der im Paket R, The R, enthalten ist. Sie sagen also, nun, Datensatz und dieser Datensatz beschreiben tatsächlich die Punktzahl einer Person, Lesefähigkeiten einer Person, die Lesefähigkeiten einer Person. Wenn wir die Variablen wie Alter, Selbstmordrate und ob die Person Muttersprachler ist oder nicht, kennen Selbstmordrate und ob . Wenn wir also diese Informationen haben, die Quelle, die ich bewerte und Muttersprachler eine Null hat, können wir entscheiden. Wir können eine Punktzahl für Lesefähigkeiten oder eine schwarze Person finden. Deshalb werden wir dafür einen Entscheidungsbaum erstellen. Okay? Für unsere Programmierung haben wir also die S3-Funktion. S3-Funktion, die wir zum Erstellen eines Entscheidungsbaums verwenden. Und das erfordert zwei Eingaben. Eine ist Formel und andere schon. Also. C3 verwendet zwei Formeln an der Eingabe und unsere Daten. Das werden wir im Code sehen. Okay, als Nächstes schreiben wir den Code. Als Erstes erstellen Sie also gerne einen Entscheidungsbaum. Wir brauchen ein Paket namens Party. Wir müssen dieses Paket installieren. Wenn Sie dieses Paket also nicht installiert haben, müssen Sie den Befehl install dot packages, installed packages schreiben . Und Sie müssen den Paketnamen angeben. Und dann musst du den Code ausführen. Und damit wird dieses Party-Paket für unseren Gebrauch installiert. Also habe ich das kommentiert. Wenn Sie es nicht installiert haben, entkommentieren Sie es einfach und führen Sie es aus. Das Party-Paket wird installiert. Sobald es installiert ist, kommentieren Sie es einfach aus, damit dieser Befehl nicht jedes Mal ausgeführt wird. Okay? Sobald wir also das Party-Paket installiert haben, dient dies nicht unbedingt dazu, einen Entscheidungsbaum zu erstellen da diese S3-Funktion in diesem Paket enthalten ist. Wir müssen dieses Paket verwenden. Um ein Paket in R zu verwenden, müssen wir die Bibliothek verwenden und dann den Paketnamen angeben. Also, ich verpacke meine Partys, und deshalb schreiben wir eine Bibliotheksparty. Jetzt wird diese Bibliotheksparty diesen Datensatz mit Lesefähigkeiten so kultivieren lassen, dass wir sehen können, was mit diesen Datensätzen los ist. Also können wir diesen Kopf einfach überprüfen. Die ersten paar Fähigkeiten im Kopfleesen werden Ihnen helfen. Die ersten paar sind Daten aus diesem Datensatz für Lesefähigkeiten. Also lass uns das ausführen und hier sehen. Jetzt erhalten wir die ersten sechs Zeilen des Datensatzes. Es heißt, das Alter der Muttersprachler, Selbstmorde und dann das Ergebnis. Dies ist im Grunde die Lesepartitur. Jetzt haben wir also einen Einblick in diese Daten. Wir können weiter gehen und einen Entscheidungsbaum erstellen. Also hier verwenden wir den Eingabepunkt , um die Eingabe zu übernehmen. Wir können einfach, wenn Sie diesen Namen nicht eingeben möchten, Sie können einfach die Eingabe verwenden. Also hier verwende ich Eingabepunktdaten und nehme die Daten aus dieser Bewertungsskala. Und dann gehen wir weiter. Und hier verwende ich nur ein Entscheidungsbaum-PNG mit Punkten. Und das wird die Bilddatei sein, auf die wir unseren Entscheidungsbaum drucken lassen. Und dann erstellen wir hier den Baum, Output Dot Tree. Und wir verlieren hier und hier die S3-Funktion, wir stellen die Formel für formalisierte Muttersprachler zur Verfügung. Und das ist die, das ist die, das ist die abhängige Variable. Und anhand des Alters, Selbstmorde und des Kerns entscheiden wir, ob der Muttersprachler ist oder nicht, okay? Und Daten sind, sind gleich Eingabepunktdaten. Und dann plotten wir das, plotten das Ausgabeverzeichnis. Also füge ich den Baum ein, den wir von dieser Funktion erhalten. Und das ist die Formel, Muttersprache H plus Punktzahl, basierend auf diesen drei Prädiktorvariablen, wir erhalten den Wert für Muttersprachler, okay? Und dann entspricht Theta den eingegebenen Punktdaten. Und wir planen das, oder Produktivität oder was auch immer wir aus diesem Unternehmen herausholen, wir planen es. Lassen Sie uns das also ausführen und sehen, wie wir diesen Entscheidungsbaum bekommen. Also sehen Sie hier, jetzt haben wir unsere Entscheidungsbaumdatei erstellt. Sehen Sie hier, das ist der Entscheidungsbaum, den wir bekommen. Okay? Wir haben uns also noch nicht entschieden, wie das ist , oh, wirklich, dieser Blattknoten, oder? Das System hat automatisch entschieden. Und T sind kleiner oder gleich 3813 Nullen x es kommt her, 30, weniger als 38,306 Spannung kommen hierher. Und dann ist es gleich R7. Es sind weniger als sechs, die wegen des kommenden Jahres mehr als c hierher kommen. Diese werden also aus der Ferne gedruckt, werden mit der S3-Funktion erstellt. Und hier der Informationsgewinn und alles wird von einem System erledigt, okay? Wir müssen das also nicht tun, wir müssen nur die S3-Funktion und wahrscheinlich die Formel und die Daten verwenden , und schon wird der Entscheidungsbaum für uns erstellt. Okay? So einfach ist das. Aber warum wir die Theorie in der vorherigen Vorlesung besprochen haben , weil wir hinter den Kulissen wissen sollten , was mit dieser S3-Funktion passiert. Und wir sollten uns dessen bewusst sein, okay? Nur dann können Sie im Bereich maschinelles Lernen und Datenwissenschaft erfolgreich sein . Sie müssen die mathematischen Intuitionen kennen die hinter dem Entscheidungsbaum oder jedem Algorithmus stehen, den Sie lernen. Okay? Jeder kann hierher kommen und diese S3-Funktion verwenden und einen Entscheidungsbaum erstellen. Sie wissen jedoch möglicherweise nicht, wie der Entscheidungsbaum aufgebaut wird. Was ist Entropie, was ist Informationsgewinn? Und in Ordnung, deshalb sollten Sie die wahren Intuitionen kennen , die hinter dem Algorithmus für maschinelles Lernen stehen. Okay? wir mit diesem Entscheidungsbaum Zu welchem Schluss kommen wir mit diesem Entscheidungsbaum? Wir kommen zu dem Schluss , dass wie jeder, der eine Leseskala von 38,3, weniger als 38,3 und einem Alter von mehr als sechs Jahren hat, kein Muttersprachler ist, oder? Damit bekommen wir Lake. Wenn das Alter kleiner als ist, Lesebewertung unter 38,3 liegt und das Alter höher als sechs ist, ist die Person kein Muttersprachler. So können wir also den Entscheidungsbaum in R erstellen. 78. Vor- und Nachteile des Entscheidungsbaums: In dieser Vorlesung lernen wir die Vor- und Nachteile des Entscheidungsbaums kennen. Also zuerst werden wir die Vorteile sehen, und dann werden wir uns diese Vorteile von Entscheidungsbäumen ansehen. Okay? Also der halbe Entscheidungsbaum der Schätzungen, okay? Das ist also nicht wirklich, wie wir gelernt haben, ein sehr beliebter Algorithmus für maschinelles Lernen. Und lösen Sie deutlich Probleme des maschinellen Lernens, indem die Daten in eine solche Präsentation umwandeln . Okay? Behandeln Sie eine Präsentation wie diese. Und jeder interne Knoten des Baums so. Und sie präsentieren unsere Bezeichnungen für ein Attribut und jeder Blattknoten bezeichnet die Klassenebene. Und der Entscheidungsbaumalgorithmus kann auch zur Lösung Klassifizierungsproblemen und Regressionsproblemen verwendet werden. Es ist also nicht so das durchgesickerte Klassifizierungsproblem mit dem Entscheidungsbaum gelöst werden kann . Aber wir können auch die Regulierungsprobleme lösen. Okay? Das wurde also getan, okay? Dieser Eintrag kann also sowohl für Degradations- als auch für Klassifizierungsprobleme verwendet werden . Lassen Sie mich Ihnen also sagen, was die wenigen Vorteile des Entscheidungsbaums sind . Der erste Vorteil von Decision Tree besteht also darin , dass weniger Geld benötigt wird weniger wichtige Vorverarbeitungsoperatoren erforderlich sind. Lassen Sie uns über die Vorverarbeitung der Daten sprechen, okay? Für den Entscheidungsbaum oder im Vergleich zu anderen Algorithmen für maschinelles Lernen müssen Sie also im Vergleich zu anderen Algorithmen für maschinelles Lernen etwas weniger an der Vorverarbeitung der Daten oder der Datenaufbereitung arbeiten . Sie können sagen, ich hätte gerne eine Vorbereitung, oder Sie können hier auch eine Datenaufbereitung angeben. Sie müssen also weniger Aufwand für die Datenaufbereitung und Datenvorverarbeitung aufwenden, okay? Das ist also ein großer Vorteil des maschinellen Lernens. Unser Produkt. Der zweite Vorteil wäre , dass ein Entscheidungsbaum keine Skalierung erfordert. Eine Skalierung der Daten ist nicht erforderlich. Eine Skalierung der Daten ist nicht wirklich erforderlich. Okay? Das ist also auch nicht erforderlich und das ist ein großer Vorteil, okay? Und dann der dritte Vorteil: Wir können sagen, dass dafür im Allgemeinen keine Normalisierung von Beta erforderlich ist. Also, auch wenn Sie die Daten nicht normalisiert haben, können Sie mit dem Entscheidungsbaum arbeiten. Normalisierung von Greta. Es ist fertig, nicht erforderlich. Okay? Das ist also auch eine gute Sache beim maschinellen Lernen und wir werden diesen Entscheidungsbaum sehen. Beim maschinellen Lernen sind also die Jahrhunderte und der Algorithmus, bei dem die normalen Adjacent und Gil die Daten verknüpfen, nicht wirklich erforderlich. Wenn Sie möchten, können Sie das tun, aber nicht wirklich erforderlich. Es wird keine großen Auswirkungen haben , ob die Daten normalisiert sind oder nicht. Wenn wir mit dem Entscheidungsbaum arbeiten. Der nächste Vorteil, ich könnte sein, dass fehlende Werte in den Daten ebenfalls keinen großen Einfluss auf den Entscheidungsbaum haben. Okay? Wenn Sie also andere Algorithmen für maschinelles Lernen verwenden , müssen Sie intensiv arbeiten , um mit dem fehlenden Wert umzugehen. Aber im Entscheidungsbaum wird dies keinen Einfluss auf den Entscheidungsbaum haben, nicht verloren geht wenn er nicht verloren geht. Keine Wirkung, okay, also ich werde nicht viel bewirken. Selbst wenn Daten fehlen, können Sie einen Entscheidungsbaum erstellen, der das nicht tut, Sie werden nichts verpassen, was Ihre Entscheidung oder Ihre Prognosen beeinflussen könnte. Okay? Das Entscheidungsbaummodell der nächsten Vorteile ist sehr intuitiv und leicht zu erklären für technische Teams, die im großen Maßstab agil sind. Wenn Sie also den Entscheidungsbaum sehen, ist es sehr einfach, ihn zu verstehen. Es ist sehr einfach zu verstehen und jeder nichttechnische oder technische Teil leicht zu verstehen. Das ist also der große Vorteil eines Entscheidungsbaums. Also, selbst wenn Sie Ihren Entscheidungsbaum einem Ähm, Management-Mann präsentieren möchten , können Sie ihnen den Entscheidungsbaum leicht verständlich machen. Das ist also ein Vorteil eines Entscheidungsbaums. Abgesehen von diesem Entscheidungsbaum. Oder wie sehr menschenähnliche Intuitionen die man mit dem Entscheidungsbaum bekommt. Es ist also dem menschlichen Verhalten sehr, sehr ähnlich. Auch in unserem täglichen Leben nehmen wir ähnliche Unstimmigkeiten ein, ja oder nein, aufgrund einiger Merkmale oder Bedingungen treffen wir Entscheidungen. Es ist also sehr menschenähnlich. Ich würde mich über einen menschenähnlichen Algorithmus freuen. Okay, das sind also die wenigen Vorteile, auf die wir beim maschinellen Lernen zählen können. Schauen wir uns nun die Nachteile des Entscheidungsbaums an. Der allererste Nachteil des Entscheidungsbaums, den wir sehen können, ist, dass dieser Teil sehr , nicht, zuverlässig ist, wenn sich Ihre Daten ändern. Okay? Was wir also sagen können, als ob es eine Instabilität wäre, wie in einem Stall. Und wenn sich die Daten ändern, wenn sich die Daten ändern. Also unterstütze Sie, Sie haben einen Entscheidungsbaum erstellt und es gibt eine kleine Änderung an den Daten. Kleine Datenänderungen können haben, große Auswirkungen auf den Entscheidungsbaum. Das ist also ein großer Nachteil des Entscheidungsbaums. Selbst die kleinen Trainingsdaten können zu großen Veränderungen in ihrer Struktur führen . Entscheidungsbaumunterstützung Diese Entscheidung sieht so aus. Wenn Sie die Daten ein wenig ändern, könnte es eine völlig andere Struktur des Entscheidungsbaums gewesen sein völlig andere Struktur des , und das wird, das ist eine Art von großer Wirkung, oder? Der zweite Nachteil ist, dass Entscheidungsbäume manchmal komplexer im Vergleich zu den anderen Algorithmen manchmal komplexer sind. Bei den einfacheren Daten ist Ihr Entscheidungsbaum also manchmal komplex. Manchmal erhalten wir also einen sehr komplexen Entscheidungsbaum. Und wenn Sie einen anderen Algorithmus verwenden, erhalten Sie möglicherweise die einfachere Lösung. Sie müssen also schauen, ob Sie für unsere spezielle Problemstellung wirklich einen Entscheidungsbaum benötigen oder nicht. Und wenn Sie den Entscheidungsbaum verwenden, ist er einfacher als der andere Algorithmus oder nicht. Wenn es nicht einfacher ist als der andere Algorithmus beim maschinellen Lernen, sollten Sie den anderen Algorithmus für maschinelles Lernen verwenden und müssen nicht mit dem Entscheidungsbaum fortfahren. Manchmal wird es also wirklich komplex. Die Sache mit dem Hals ist so, als ob das Training eines Modells für maschinelles Lernen mit Entscheidungsbaum riesig ist, oder? Es braucht also Zeit, halten Sie sich Zeit, um unser Modell für maschinelles Lernen mithilfe von Entscheidungsbäumen zu trainieren . Es ist also zeitaufwändig. Der Prozess zum Trainieren des Entscheidungsbaums nimmt viel Zeit in Anspruch. Die Zeit, die von der Ferne benötigt wird, ist größer. Es ist also zeitaufwändig, oder? Es wird im Vergleich zu anderen Algorithmen mehr Zeit in Anspruch nehmen. Und es ist auch so als würde die Komplexität des Entscheidungsbaums ebenfalls zunehmen . Anderes können wir sagen , dass diese Lektion nicht wirklich sehr wirkungsvoll ist. Es ist also gut, wenn Sie einen Entscheidungsbaum für ein Klassifizierungsproblem verwenden einen Entscheidungsbaum für ein Klassifizierungsproblem , ein Klassifizierungsproblem. Aber für Regressionsbäume ist das nicht so wirkungsvoll, oder? So wie ich es verstanden habe, aber es kann für beide gemacht werden. Regressionsbäume haben jedoch nicht diese Wirkung. Das sind also die wenigen Nachteile der Entscheidungsbäume , auf die wir zählen können. Das war's für diese Vorlesung. Dies sind die Vor- und Nachteile der Entscheidungsbäume. 79. Einführung von Projekten: Hallo und willkommen. In dieser Vorlesung werden wir also etwas über das Projekt erfahren , von dem wir ausgehen werden. Also werden wir das tun, was sehr wichtig ist. Es ist ein einfaches Projekt für maschinelles Lernen, das Ihnen Klarheit darüber gibt, was ein einfacher Algorithmus für maschinelles Lernen tun kann. In wenigen Zeilen. Wir werden unsere Programmierung verwenden und wir werden unseren Datensatz verwenden, die vorherigen Daten innerhalb der Organisation enthalten wird. Und auf der Grundlage der Daten werden wir die zukünftigen Aktienkurse vorhersagen. Ja, du hast es erraten, richtig? Wir werden ein Projekt durchführen, bei dem sie die vorherigen Daten verwendet haben, frühere StockData historischer Daten der Aktienkurse. Wir werden die zukünftigen Aktienkurse wie ab sofort erraten . Was wird der Aktienkurs an 100, 500 Tagen oder nach einem oder zwei Jahren, nach 30 Tagen, nach 40 Tagen sein, wie hoch wird der Aktienkurs sein? Das wird also die Aktienprognose sein. Projekt, er maschinelles Lernen, okay? Und dafür werden wir unsere Programmierung verwenden. Eine einfache XML-Datei enthält also den Aktienkurs. Und dafür werden wir Google-Aktienkursdaten für Google verwenden . Und wir brechen die Google-Preise auf die 400 oder 100 Tage, die Tage sind Tage, okay? Also Aktienkurs für X und Projekt, das wir machen werden. Und dafür haben wir diesen Datensatz im Excel-Format, der die historischen Daten der Google-Aktienkurse 2019-2020 enthält . Okay. Und siehst du, was sind die Spalten hier? Die erste Spalte ist das Datum und beginnt dann am 26., 19. September. Und wir haben Daten bis zum 25. September 2020, fast ein Jahr an Daten, okay, und dann ist die zweite Spalte D, und dann ist die dritte Spalte offen. Das bedeutet den Eröffnungspreis. der Kurs, als die Börse morgens öffnet Was war der Kurs, als die Börse morgens öffnet? Das ist also der Eröffnungskurs am sechsten Tag, Septum Auto Toggle 19 , also am ersten Tag. Was tut und dann waren es an diesem Tag 1.245, was der höchste Wert an einem Tag ist. Und Low wünschte, es ginge auf 1.232. Also an einem Tag angefangen bei 1.241,95. Es ging nach dem Gesetz von 1.232 und es stieg hoch auf 1.245 und schloss am 1.241. Diese vier beschreiben also, wie wichtig und angepasstes Schließen fast dasselbe ist. Und dann war das Volumen, etwa 15 Lakh, 30.000 Volumen da. So haben wir alle Daten für 365 Tage. Auf der Grundlage dieser Daten werden wir also die zukünftigen Aktienkurse bei Google vorhersagen . Wenn Sie diese Daten in einem Diagramm darstellen, können wir sehen, wie sich die Preise auf und ab bewegen. Also kannst du es hier sehen. Also werden wir auch diese Art von Grundstück planen und sehen, wie die Preise steigen und fallen. 3 Tage, okay? Das ist also das Projekt, das wir machen werden. Und mal sehen, in der nächsten Vorlesung werden wir anfangen diese Excel-Datei in unser Kunstatelier zu importieren und dann werden wir einfachen Code schreiben und in der nächsten Vorlesung versuchen, den zukünftigen Aktienkurs der Google-Aktien vorherzusagen der nächsten Vorlesung versuchen, den zukünftigen Aktienkurs . 80. Projekt - Aktienkurse vorhersagen: Hallo und willkommen zurück. In dieser Vorlesung beginnen wir mit unserem Projekt, das Aktienkurswert der Google-Aktie an einem bestimmten Tag auf der Grundlage der uns zur Verfügung stehenden historischen Daten vorhersagt einem bestimmten Tag auf der Grundlage . Wir haben also dieses Excel-Blatt, das zwar Daten über ein Jahr enthält, wie 26, Nummer 20192, bis, glaube ich, September 2020. Ja. Also bis zum 25. September 20 Länder. Wir haben also fast ein Jahr an Daten Google-Aktienkurs, der an allen 365 Tagen geöffnet ist. Was war der hohe Wert der Aktie an einem bestimmten Tag? Niedrigster Wert. Was war der Schlusskurs und wie hoch war das Volumen? All diese Daten, die wir haben, basierend auf diesen Daten, werden wir versuchen, ein Modell zu erstellen, mit dem wir den Aktienwert an einem bestimmten Datum vorhersagen können , okay? Nehmen wir an, in drei Tagen oder in 500, 500 Tagen, was wird die übliche Phrase sein? Ich würde sagen 100 Tage. Was wird die Schlaganfallphase sein? Also so. Okay, lasst uns den Code starten. Das allererste ist, was wir tun können. Wir können den Google-Aktienkurspunkt XLS, die Excel-Datei, in unser Studio importieren . Und wie wir das machen können, können wir zur Akte gehen. Und hier müssen wir zum Import-Datensatz gehen. Also müssen wir zum Importdatensatz gehen. Und hier sieht man aus Steuern, aus den drei NADH aus dem Excel, aus verschiedenen Datenquellen wurde hier aufgelistet. Also, was wir hier auswählen müssen, wir müssen das Excel hier auswählen. In Excel müssen wir nur klicken. Und dann müssen wir hier die Datei durchsuchen , in der wir unsere Daten aufbewahrt haben. Wir haben also diese Excel-Datei. Also öffne ich es einfach und schneide die Daten digital zu. Und sobald es fertig ist, gibt es uns die Importoption. Das ist also eine Möglichkeit, die Datendatei in das schwierigste Studio zu importieren. Das ist ein anderer Weg. Und das wird auch sehen und sehen, jetzt können wir die Codevorschau dieses Imports sehen. Es kommt wie eine Bibliothek. Ich brauche kein Excel und Google-Aktienkurs wird das Objekt sein. Und hier verwenden wir die Funktion Excel lesen und stellen den Bot der Excel-Datei mit dem Dateinamen zur Verfügung. Und dann können wir die Ansicht verwenden, dieses Objekt. Okay? Und das wird so sein, dass wir diesen Code einfach kopieren können. Und ich weiß nicht, warum es so viel Zeit in Anspruch nimmt. Es könnte ein MRT geben, also lass mich das stornieren und importieren. Siehst du. Jetzt wurden die Daten in unsere Studiohand importiert. Ja, wir können dieselben Daten sehen , die wir in dieser Excel-Datei sehen. Jetzt können wir in dieses Kunstatelier hineinschauen. Okay, jetzt haben wir die, jetzt, wenn wir diese Daten hier sehen wollen, sehen Sie, es gibt noch keine Claudia. Aber da wir importiert haben, können wir die echte Ansicht verwenden. Und hier können wir den festen Objektnamen Ihre Hand verwenden den festen . Wir können hierher rennen und sehen, dass dasselbe passiert. Auch wenn Sie die Zusammenfassung der Daten verwenden möchten. Jemand wir können das ausführen und wir besorgen jemandem diesen Datensatz hier. Mittelwert, erstes Quartil, Medianmittelwert, drittes Quartil-Höchstwert für die Menge von September 2020 Und es war 1.710, das Maximum ist 1.733. Das wird der höchste sein. Und das ist das Maximum des Öffnungsmaximums. Und dies ist weder das höchste Maximum noch das lokale Maximum und das Abschlussmaximum. Okay? Auf diese Weise können wir die Datenzusammenfassung sehen, okay? Anstatt dies zu verwenden, können wir jetzt auch die verwenden , wir können die Bibliothek verwenden. Wir können die Codebibliothek verwenden. Ich weiß nicht, warum es kommt. Wenn Sie den Code nicht kennen, können Sie einfach zum Dateiimport-Dataset und von Excel aus gehen . Und hier kannst du den Code hier sehen. Kopiere das einfach und wir müssen es nur hier einfügen. Und doch müssen Sie das Read-Excel eingeben, und dennoch müssen wir den Bot-Namen eingeben. Okay, was wird der Teil sein, den wir hier platzieren werden? Ich kann das einfach sagen. Also ordnen wir die Bibliothek Read Excel neu an und verwenden dann den Objektnamen, anstatt die Excel-Funktion zu verwenden und den fehlerhaften Teil der XL-Datei bereitzustellen. Und dann können wir den echten Morgan-Aktienkurs verwenden den echten Morgan-Aktienkurs und das wird uns das gleiche Ergebnis bringen. Das und sehen Sie, ja, wir bekommen dasselbe. Okay? Auf diese Weise haben wir die Daten gelesen und betrachtet. Als Nächstes müssen wir die Struktur der Daten verstehen. Wenn Sie also die Struktur von Daten verstehen möchten, können Sie die Übersichtsfunktion verwenden, Zusammenfassung dieses Google-Aktienkurses. Und Sie erhalten die Zusammenfassung der Daten, wie wir sie bereits gesehen haben. Auf diese Weise. Als Nächstes müssen wir tun. Wir müssen die Daten visualisieren. Als Nächstes müssen wir also tun. Wir müssen die Daten visualisieren, die Daten visualisieren. Also für das, was ich verwenden werde, werde ich sie oft benutzen. Also, was ich tun werde, ich weiß nicht, warum das eine große Verschwörung bevorsteht. Und ich verwende die Spalte Open und verwende d und dann sind die Daten in Ordnung. Und dann führe das einfach aus. Den Ofen, wir lassen ihn laufen, wir sehen uns die Daten an. In deiner Lektion. Wir werden die Handlung hier sehen. Also hier ist der Eröffnungskurs und das ist der Tag 1-2, lila. So können wir die Daten sehen, wie sich ihre Aktienkurse am Wochenende entwickeln. Du visualisierst hier. Auf diese Weise können wir später, später, weiterkommen. Als Nächstes müssen wir tun. Wir müssen die lineare Regression verwenden, um die Funktion vorherzusagen. Also, was wird verwendet? Ich verwende den prognostizierten Preis. Und für den prognostizierten Preis, was ich eine Hilum-Fung-Zelle und diese LM-Funktion verwenden werde , werde ich auf dieselbe Eingabe verwenden, die ich am Tag der offenen Tür geben werde. Und es wurde in diesem Datensatz gemacht, okay, Excel-Datei, ALU-Daten, Datensatz. Und dann komme ich einfach zum prognostizierten Preis. Also werde ich hier einfach den höheren Preis angeben. Also lass mich das ausführen. Seht hier, es sagt die Kernpräsenz und das. Okay, was ich jetzt tun werde, ich werde die Übersichtsfunktion verwenden, um zu sehen, was wir für diesen prognostizierten Preis bekommen. Bisher bekommen wir diese Preisprognose, das Minimum, erste Quartil, den Median, das dritte Quartil, das erste Quartil, den Median, das dritte Quartil, all diese Dinge. Was ich jetzt tun werde, ich werde die Tür vorhersagen. Prädiktor-Aktienwert an einem bestimmten Tag. Okay? Also können wir das machen. Ich kann die Vorhersagefunktion verwenden. Und ich kann den Preis gebrauchen. Ja. Und was ich dann verwenden kann, Datenpunktrahmen. Hier. Ich kann angeben, dass d gleich 350 ist, okay? Und das wird uns, das wird uns den prognostizierten Aktienkurs am dritten Tag geben. Also lass mich das ausführen, siehe hier. Was die Sterblichkeitsrate pro Zeitraum angeht, so wird der Aktienkurs dafür 1.620 Punkte betragen. Wenn ich das für 50 schaffe. Somit wird sich der Aktienkurs trennen. Der Aktienkurs wird 1.700 betragen. Stipendiat, wenn ich 150 gebe, sind es 1.400. Wenn ich eine Eins gebe, lautet sie 12.30.000. Sehen Sie, der Google-Aktienkurs wird sich vom ersten Tag an fast verdoppeln. Auf diese Weise können wir den D-Wert hier angeben und vorhersagen, wie hoch der Aktienkurs an diesem bestimmten Tag sein wird . Es ist also ein ziemlich einfaches Projekt , das Sie auch ausprobieren können. Sie können die Unterstützung vorhersagen. Ich möchte den Wert von Eins vorhersagen, bitte. Zweiter Tag. Ein Zweck, zweitens, dieser Weg, okay, also auf diese Weise können Sie auch Ihren eigenen Datensatz ausprobieren oder Sie können den gleichen Datensatz verwenden, den ich bereitstellen kann. Sie können den Datensatz herunterladen und versuchen , den Aktienkurs vorherzusagen. Sie können auch ein eigenes Excel-Blatt erstellen und einige zufällige Werte eingeben. Und Sie können Ihre eigenen Werte hier eingeben und Sie können vorhersagen, Sie können jeden anderen Datensatz nehmen, der diese oder einige andere Werte hat , die Sie auch ausprobieren können, und Sie können in denselben Code eingeben und versuchen, den prognostizierten Wert zu ermitteln. Okay? Dies ist also ein einfaches Projekt, das die LM-Funktion verwendet, um diesen Google-Aktienkurs vorherzusagen. Ich hoffe, Sie haben verstanden, wie wir das maschinelle Lernen und all diese einfachen Funktionen in R verwenden all diese einfachen Funktionen in R , um die Aktienkurse vorherzusagen. Ich danke dir. 81. Projekt 2 Uber-Datenanalyse mit R: Hallo und willkommen. In dieser Vorlesung werden wir also etwas über Datenanalyse durch Visualisierungen in R lernen . Und dafür werden wir ein Projekt durchführen, in dem wir wo Daten, was ist der Gap-Aggregator, Dienstleister verwenden, um was ist der Gap-Aggregator, Dienstleister verwenden, das Richtige in einer Cab X evoking App zu finden. Du kannst es sehen. Sie sind also entweder die Nummer eins in der Wand für einen Taxidienstleister. Also werden wir die UPA-Daten für die Datenanalyse für dieses Produkt verwenden . Die Motivation für dieses Projekt besteht also darin , Datenvisualisierung und Datenstorytelling durchzuführen und herauszufinden, wie wir die Daten verwenden können, um sie zu analysieren und daraus nützliche Informationen zu gewinnen. Dies ist ein wichtiger Bestandteil des maschinellen Lernens , durch den Unternehmen den Hintergrund verschiedener Abläufe verstehen können . Was heißt das? Das heißt, nehmen wir an, was im Gap Aggregator Service gemacht wird, und Mini-Cabi-Fahrer fügen ihrer Lücke zwei verschiedene Over-App hinzu. Dann streame ich und nehme an , dem Kunden das Recht einzuräumen. So riesig, dass er sich bei der App registriert und dann versucht er, die Lücke anhand ihres Standorts zu schließen. Also, was machst du, sobald du dich einloggst und deinen Standort und dein Ziel auswählst , wohin du gehen möchtest. Basierend auf Ihrem Standort. Es listet alle Caps in der Nähe auf, die dir diese in der schnellsten Zeit anzeigen können. Das wird es. Das wird es. Das wird es. Es speichert alle Lücken in Ihrer Nähe und gibt dann Geschlecht, Ort und Ihre Anforderung Es wird für Sie am besten aussehen , sodass Sie am schnellsten zum Ziel gelangen. Also, wie macht es das? Sie verwenden einfach jede Menge KI, maschinelles Lernen und datenwissenschaftliche Konzepte um die Daten zu analysieren und dies zu einer Rezession zu führen. In diesem Projekt werden wir die Daten verwenden. Und wir werden analysieren, wie viele an einem Tag passieren oder wie viele monatliche Raten an einem Tag passieren. Wie viele Ihrer LEA , dass ich anfange zu passieren leben monatlich und DY ist zu welcher Tageszeit die VGS, diese Art von Analyse werden wir in diesem Projekt machen. Also all diese Operationen, die wir mit dem **** Papa machen können, mit Hilfe von maschinellem Lernen. Mithilfe von Visualize können Unternehmen den Vorteil nutzen die komplexen Daten zu verstehen und Erkenntnisse zu gewinnen, die ihnen helfen, dies zu korrigieren, was nicht der Fall ist. Der Visualisierungsteil ist also sehr wichtig, denn mit der Wachsamkeit können wir die Daten schnell analysieren und wirklich nützliche Erkenntnisse gewinnen, z. B. zu welcher Tageszeit ist die BGN? Welche Orte haben weniger Anforderungen an die Kabine an denen die Benutzer keine Kabinenzeit haben, wenn es hinterherhinkt. All diese Analysen können wir mit der Visualisierung machen. Dies sind eher Daten, die in einem Projekt visualisiert werden , das Sie dazu anleitet die ggplot2-Bibliothek zu verwenden um die Daten zu verstehen und eine Intuition zu entwickeln, um die Kunden zu verstehen, die in den Clips in welcher App zu sehen sind . Okay, das ist also, das ist die Sache, die wir tun werden. Und das Ziel dieses Projekts ist es, Visualisierungen in R zu lernen und die Daten zu analysieren. Also lasst uns anfangen. Bevor wir fortfahren, haben wir die UVA-Daten oder -Dateien bei uns. Und die sind so, das sind die Daten für einen fieberhaften Monat. Und das hat vier Spalten: Datum, Uhrzeit, Breitengrad, Längengrad und Basis. Das sind also die Informationen, die ihr Kumpels sammelt. Okay, also Datum und Uhrzeit, Längengrad, Breitengrad und Längengrad. Und Latitude gibt den Ort der Lücke und die Uhrzeit oder die Uhrzeit an sie buchen, und die Basis aus der beste Standort dafür ist. Okay? Das sind also die Daten, die wir haben. Und das ist genauso. Wir haben Mai, Juni, Juli, August und September, die Monatsdaten, die wir haben. Und wir werden das anhand dieser Daten analysieren. Diese Daten sind ziemlich einfach. Datum und Uhrzeit, Breitengrad, Längengrad Und so gehen wir zur Datei. Dennoch verwende ich R, um das zu analysieren. Bevor wir fortfahren, werden wir die Fruchtbibliothek importieren, das ist GG-Plot zwei. Okay, dann schmieren Sie und räumen Sie die DT-Kenntnisse auf. Also, was ist GG Plot to GG Plot Twist. Die beliebteste Datenvisualisierungsbibliothek, die am häufigsten für die Erstellung von Diagrammen zur ästhetischen Regulierung verwendet wird. GG Plot ist also in unserer Programmierung sehr beliebt, um sehr ästhetisch gut aussehende und sehr abstoßende und sehr ansprechende Visualisierungen und Handschuhe und Plots zu erstellen ästhetisch gut aussehende und sehr abstoßende und sehr ansprechende Visualisierungen . Also werden wir das zweite GG-Plot verwenden. Dann verwenden wir Lubridate. Es ist diese Hebelwirkung für den Zeitrahmen. Verwendung der Zeitrahmen im Datensatz. Dann haben wir die Deep Layer, die Datenmanipulationsbibliothek , die wir verwenden werden. Dres und wichtige Bibliothek, es wird Ihre Daten sehr aufgeräumt machen. Bedeutet unsere aufgeräumten Daten winzig, bestimmt die Daten, mit denen einfach zu arbeiten ist. Die Daten. Wenn es einfach ist, damit zu arbeiten, können wir es so einfach in der anderen Bibliothek verwenden. Also verwenden wir die Tidy R-Bibliothek, um unsere Daten aufzuräumen. Und dann verwenden wir das Wesentliche, die Datentabellen in der JavaScript-Bibliothek, die wir verwenden werden. Dann wirklich Fähigkeiten erwerben, Fertigkeiten. Früher konnten mit Hilfe der Grafik, mit Hilfe der grafischen Skala, die wir mit Hilfe der Grafik, mit Hilfe der grafischen Skala, die Daten automatisch den richtigen Fähigkeiten zuordnen , mit dem ****, wobei das X selbst gut platziert war. Das hilft uns also dabei, die Daten automatisch dem richtigen Maßstab zuzuordnen. Dafür müssen wir also diese Bibliothek verwenden. Also vorher, falls Sie diese Bibliotheken nicht installiert haben , können Sie hier zu den Tools gehen und dann auf die Installationspakete klicken. Und hier kannst du einfach beliebte Pakete namens yuk verwenden, wie du GG Plot zwei platzieren kannst. Und wenn du dann alles zusammen haben willst, kannst du GG-Themen und Koma setzen und alle Namen schreiben, wichtige Daten. Okay? So können Sie das tun, und Sie können auf diese Bibliothek installieren klicken , das für Sie. So können Sie die Pakete installieren. Also wiederhole ich es noch einmal. Sie müssen RStudio aufrufen , um zum Hauptmenü zu gelangen. Hier finden Sie die Tools. Klicken Sie auf die Tools und hier sehen Sie die verschiedenen Optionen. In Rhodopsin. Sie müssen das erste auswählen, Pakete installieren und dann den Paketnamen GG plot two angeben . Und wenn wir mehrere Pakete gleichzeitig installieren möchten, können Sie ein Komma setzen und den Paketen Namen geben , indem ein Komma dazwischen setzen und dann auf die Aktie klicken. Ich habe dieses Paket bereits installiert also überlasse ich es der Agitation. Und wenn Sie es nicht installiert haben, klicken Sie einfach auf Installieren und es wird im ländlichen Australien installiert. Gehen wir also weiter. Sobald wir also unser Labor haben, um sie zu verwenden und sie zu verwenden, müssen wir nur noch das Schwierigste sagen, um das zu tun. Wir werden diese Bibliothek aufbrauchen GG plot rho, g mal lubridate, tidy, tidy verse, dt und scale. Dafür müssen wir also die Bibliothek importieren. Und dann müssen wir in die kleine Klammer den Bibliotheksnamen GG plot two setzen. Und all die Bibliotheken, die wir haben, müssen auf diese Weise schreiben. Okay, wenn Sie das geschrieben haben, wählen Sie alle diese Bibliotheken aus und klicken Sie auf Ausführen. Und es wird für Juden in Europa bereit sein. Als Nächstes erstellen wir die Farbvektoren, Farbvektoren für die Diagramme. In unseren Diagrammen verwenden wir die verschiedenen Farben für die Diagramme. In unseren Diagrammen werden wir die verschiedenen Farben verwenden, um sie ansprechender und ästhetischer zu gestalten . Und dafür erstellen wir den Farbvektor. Also hier erstelle ich eine Vektorfarbe und gebe C und dann gebe ich den Farbnamen, den gleichen Typ ACCC 10166. Also all diese grauen , grünen, gelben, blauen, rosafarbenen, all diese Gelehrten werden wir benutzen. Diese Vektoren werden das also erstellen und ausführen. Okay? Und dann werden wir tun, als Nächstes werden wir die Daten aus jedem Zeitrahmen lesen und essen. Was wir tun werden. Wir haben die Datendatei für jeden Monat wie Mai, Juni, Juli und August. Also machen wir das mit einer CSV mit gelesenen Punkten. Sie wissen, dass wir zum Lesen einer CSV-Datei in R die Punkt-CSV-Methodenfunktion lesen, also den Punkt CSV. Und dann geben wir hier den Pfad für unsere Datendatei an. Wir haben also eine Datendatei in diesem Teil gespeichert, also geben wir sie an und der Dateiname steht am Ende. Okay, jetzt behandeln wir all diese monatlichen Daten. Okay. Klicken Sie einfach darauf und sehen Sie. Es wird erfolgreich für August und September gelesen und wir sehen uns beim Laufen. Jetzt ist es also geschafft. Und als Nächstes machen wir, was wir tun werden. Wir werden die Daten miteinander kombinieren. Jetzt haben wir die Daten gelesen und in diesen Variablen gespeichert. Ich meine Juni, Juli, August, September. Was wir nun tun werden, verwenden wir die onBind-Methode, um die Daten miteinander zu verbinden. Also jetzt all diese sechs Monate zusammen mit einem. Okay, also verwenden wir die Daten hier. Seltsame Bindungsmethode, und wir geben diese Objekte einfach an Mai, Juni , Juli weiter und sie werden miteinander verkettet. Okay, lassen Sie uns das ausführen. Jetzt haben wir also das perfekte Gespür den Data Lake für Spalten und die vielen Rollen. Okay, jetzt wollen wir sehen, wie die kombinierten Daten aussehen. Also verwenden wir den Kopf und stellen hier die Objektdaten bereit. Es werden also die ersten fünf Spalten der Daten gedruckt. Okay, kommen Sie, mein Senior, jetzt haben wir diese Daten für die Zeit, den Breitengrad, den Längengrad. Und als Nächstes verwenden wir diese Daten, die Spalten enthalten Datum und Uhrzeit, wobei diese Daten Spalten, Datum und Uhrzeit, was ein Faktor ist, und Längengrad, Breitengrad, die doppelt sind, und im Grunde genommen Faktoren enthalten Datum und Uhrzeit, was ein Faktor ist, und Längengrad, Breitengrad, die doppelt sind, . Also werden wir die Datetime mit Datetime, Converge und Funktionen in ein lesbares Format formatieren. Hier befinden wir uns also innerhalb der konvergenten Datetime-Foxing-Funktion , um diese Datetime in eine besser lesbare zu konvertieren. Dafür verwenden wir also Daten und Datendatum, Datum, Uhrzeit und laden dann als Dark CD neu, Zeitformat, Jahr, Monatsdatum, Jahr und Stunden, Minuten und Sekunden. Okay. Und wenn Sie dann dieses Format lesen ist dieses und das Reformgesetz im Krankenhausarzt. Hervorragend. Okay, und dann kombinieren wir das. Okay, lass uns rennen. Das. Das Skript läuft immer noch. Wenn dies verschwindet, können Sie mit dem nächsten fortfahren. Führe das einfach aus. Es läuft also. Als Nächstes erstellen wir einzelne Spalten pro Monat, Tag und Jahr. Und dafür erhalten wir Daten für Tag, Monat, Jahr und eineinhalb Wochen. Und wir werden den Faktor hier vektoriell verwenden. Und nehmen Sie sich doch wirklich Zeit. Tatsächlich gleicht unsere monatliche Vorlaufzeit die Wochentagszeit aus und berücksichtigt sie in den Daten. Okay. Okay. Und wir werden das auch ausführen. Jetzt läuft es also. Ja. Was wir also tun werden, wir werden die neutralen Spalten einen Monat lang erstellen. Als Nächstes, was wir tun werden, fügen wir auch Zeitvariablen hinzu. Teilzeitbeschäftigte sind also in der Lage, die zweite Minute INR zu absolvieren. Und hier der Faktor Material als zweite Aspen eine Sekunde und frage sie nach dem zweiten Rauschvektor. Der zweite Vektor mina kann das RN-Fenster einnehmen. Das wird auch das ausführen. Es läuft also. Wenn es fertig ist, schauen wir uns als Nächstes die Daten an. Daten. Wir werden die Methode verwenden , um die Daten so zu betrachten, wie sie aussehen. Lassen Sie uns das also ausführen und sehen, dass wir das Tagesland, den Breitengrad und den Längengrad haben. Dies sind die vier Spalten, die es bereits gibt. Macht es. Jetzt haben wir neue Spalten wie Uhrzeit, Tag, Monat, Jahr, Wochentag, zweite Minute erstellt . Das sind also die Spalten 123-45-6788, neue Spalten, die wir erstellt haben. Und diese Kolumnen geben dem Abschlussprüfer mehr Einblick. Ich denke, es wird sagen wie Gott, nur dass wir jetzt wissen, welcher Tag des Monats, welcher Monat, und welchen Richie Rich de, Wochentag auch erfahren wird. Und dann als zweites geschaffen. Jetzt. Jetzt sind wir damit fertig, dass die Nita auf den Daten herumläuft und hier Funktionen, neue Funktionen, neue Spalten erstellt . Als Nächstes gehen wir also zum Datenvisualisierer über und erstellen teilweise nach dem Zufallsprinzip die Diagramme und Grafiken und wir werden versuchen , mehr zu verwenden. Hier. Was wir als Erstes tun werden, ist als Erstes die Drips nach RT und RD zu plotten. Dafür verwenden wir Unterstriche, die wertvoll sind, und was wir tun , sind Daten , die nach R gruppiert sind und die tiefe Ebene verwenden, um sie zusammenzufassen. Und wenn wir das jetzt ausführen, schauen Sie sich das an. Jetzt sieh dir das an. Jetzt erhalten wir diese Daten Null oder ein oder zwei oder 3 h. Wir bekommen eine Datentabelle, die wir gegessen haben. Sie können auswählen wie viele Bäume Sie gleichzeitig sehen möchten. Okay. Als Nächstes sind die Quelldaten in der Tabelle von gestern. Aber was wir jetzt tun werden, wir werden die Daten anhand unseres GG-Diagramms und unseres GD-Diagramms hier grafisch darstellen. Die einzigen Daten, die wir hier erstellt haben. Und als unsere Lüge. Und dann verwenden wir geometrische Balkenidentitäten. Immer noch fühle ich mich mit diesem Blaugrün und die Farbe wird sich ausbreiten. Dann betitelte Bewertungstypen nach r und aggregierte Untertitel. Und Legendenposition keine Handlung, Titel des Textes und wie 4,5 und 0,5 und eine Fähigkeit wie kontinuierlich. Okay, jetzt zeichnen wir die Daten anhand unserer Sonne auf diesem C auf, und jetzt erhalten wir den Plot anhand unserer Reisen. Jeder RM Here-Untertitel besteht heute aus aggregierten Produkten. Sie können also alle drei oder 24 Stunden sehen , die wir bekommen , die bei jedem Audit dieses Spielzeugs, das ich angefangen habe, es waren diese vielen Bänder. Das zweite Drittel, dunkel oder so dunkel. Sie schwimmen 24 Stunden lang und wenn wir damit fertig sind, können wir sehen, dass die 17. in ihnen sind oder dass sie mehr Ausflüge machen. Der Schnabel ist also kostenpflichtig, wenn sie die Mitte auftragen wollen , indem sie von den Philippinen aus unser Produkt bilden. Mitternacht in der Sekunde oder pro Liter. Also diese, diese, diese vielen Dinge, diese Dinge, diese Zeiten sind sehr Videorekorder und hier, wenn ihr abends das Büro seht und endet, werden sie beantragen, dass sie die höheren Gebühren erheben und sie werden die Kabine erhöhen. So machen sie es also. Dadurch finden wir heraus, erreichen die Rs sind bereit VD und darauf basierend werden wir uns mit Reis befassen. So macht Uber das also. Machen Sie nun die Plottipps nach r und Monat und aggregieren Sie unsere Daten und verwenden Sie hier wirklich die Funktion gruppieren nach. Die Monate sind dann deklariert, um sie zusammenzufassen. Also versuch das Dann machen wir den GG-Plot, um es zu plotten. Also C und jetzt bekommen wir die Handlung hier, die um n Monate gedrückt ist. Also seht hier, diese , diese Farbe, das ist echt, das ist für mich. Dies ist das Modul im Juli, August und September. Aber unsere haben sie jeden Monat zerstört. Welcher Monat also mehr oder weniger den pKa hat, ist in allen Monaten ähnlich. Mehr oder weniger, nicht genau, aber mehr oder weniger können Sie analysieren. Also offenbar auch September, ein muslimischer Mann hier oben, kastilisches Wasser und Seife jeden Monat. Das Becherglas bleibt eine Synthese. Es ist mehr oder weniger so, wie es jeden Monat weitergeht. Also was hat einige Leute als Gruppe nach Monaten zusammengefasst und du kannst diese Pleite aushebeln. Was wir nun mit dem Plotten machen, ich werde Daten nach Fahrten an jedem Tag des Monats plotten. Für die Ernährung werden die Daten also als wertvolle Daten verwendet und nach Tagen gruppiert. Und wir verwenden den Deepak , um Startups zusammenzufassen. Führe diesen und dann diesen einfachen Plot aus, um das zu plotten. Damit werden Limonade und Chips das Optimum sein. Wenn Sie sich das jetzt ansehen, erhalten Sie eine ausreichende Anzahl von Fahrten pro Tag. Es gibt viele Arten von zweiten Tagen wie diesem, also Todesfälle pro Tag des Monats. Das können wir machen. Als Nächstes sammeln wir Daten nach Wochentagen und Monaten. Also hier verwenden wir die Gruppe nach Wochentag und Monat. Und wirklich die tiefste Ebene, um sie zusammenzufassen, Blutthema. Führe das so oft aus. Und danach. Die DD-Handlung nahm von Tag zu Tag und Monat viel Tiefe. Wenn wir das tun, werden wir also täglich und monatlich Geschenke bekommen. Und er musste mit einem Farbschema zufrieden sein , das wir darin haben und zuerst hier, okay. Nun, mit dem, was wir bekommen können, können wir das für solche Wochentage bekommen . An Wochentagen. Sonntag, Montag. Für jeden Monat. Wie viele Leben gibt es am Sonntag? Wie viele Tage gibt es? Am Montag? Wie viele Tage bis zum Tag? Wie viele Tage? Mittwoch, Donnerstag, Freitag bis zu jedem Wochentag geben Sie die Anzahl der Rechte, jedoch jeden Monat. Damit können wir es schnell für Sonntag analysieren. Apple hat die niedrigste Anzahl an Kämpfen und diesen Monat haben sie festgelegt, was die meisten Fahrten am Sonntag sind? Am Dienstag, September, haben wir mehr Spaß, mehr Aufrechte. So können wir schnell den beliebtesten Tag des Monats finden . Jetzt machen wir eine Reihe von Reisen, die einen Monat, einen Monat, Innenohr stattfinden. Dafür verwenden wir also Gruppe für Monat. Wir haben keinen Monat in einem Jahr verbracht. Dafür verwenden wir also Gruppe für Monat. Und dann werden wir mit GG Plot plotten. Führe das aus und sieh, dass du jetzt bist . Wir kriegen diese Reisen in einem Monat. So viele Reisen, aber vielleicht, Juni, Juli, August. Es ist also so ET-Röhre. sich die Grafik ansehen, können Sie sagen, dass es im September mehr Fahrten nach können Sie sagen, dass es im September oben gibt, wobei August und Juli sowie Mai und Juni fast keine ähnlichen Arten aufweisen. Obwohl Joni etwas besser ist als ich, und dann offenbar Monate im Jahr auftritt. Auf diese Weise. Was wir nun tun werden, eine Heatmap, DR und Monat zu erstellen. Für Deckgruppen nach Tagen gibt es also viele Ausflüge. Exzellent wie dieser. Jetzt werden wir die Heatmap von R&D erneut von GG plotten. Ich werde diese Batterie benutzen, kannst du nur einen Bissen nehmen? Und doch, wenn sie an einem bestimmten Tag, einer bestimmten Klasse, mit dem Proton gefüllt sind an einem bestimmten Tag, einer bestimmten Klasse, mit dem Proton gefüllt , wie viele insgesamt, bleiben insgesamt weiß. Lass uns das einfach hier ausführen. Jetzt bekommen wir diese Heatmap. Unsere Karte von Tag zu Tag und somit unser Tag. Und für diese Kunst am achten Tag ist das heute 11 mal 11. Und dafür können wir mehr analysieren. Nun, wenn die Heatmap D und Monat darstellt. Und dann das, und dann werden wir das mit GG Plot erledigen. Jetzt werden wir irgendwie meinen unterhaltsamen Monat beibehalten. Und als Nächstes zeichnen wir die Heatmap T der Woche und des Monats auf. Das, also das ist die Heatmap für Monat und Tag und Monat, Monat. Und ich habe später heute Zugang zu etwas Zitrone. Damit können wir jetzt auch Verhältnis der Verstümmelung für die Preisgestaltung in Europa schaffen. Also die minimale, maximale, minimale und maximale Wahrscheinlichkeit wird NYC erreichen. Und hier, was wir tun werden, wir werden versuchen, diese beiden Agenda zu planen. Gg, GG Handlung. Also hier GG-Plot, unser Wissen über dramatische Beleuchtung, Gesamtwert innerhalb einer Farbe und der Haut, Minlength Max und Min Max-Wahrscheinlichkeit, die wir bereitstellen. Und dann sind wir zurück und verwenden das GG-Plot, um diese Eigenwert- und Lysinkarte auf der Grundlage von Sonntagen zu zeichnen. Es dauert einige Zeit. Es läuft immer noch. Warten wir, bis es hier rauskommt. Es dauert nur lange. Also lass mich dir die Karte zeigen, diese Karte Vater NYC zum Tippen, aber in einem praktischen September. Hier dauert es also einige Zeit bis wir hier alle meine Daten vor September für 2014 aufgebraucht haben , um zu analysieren und welche später Uber je nach Uhrzeit hochfährt. Auf dieser Grundlage werden wir zu D kommen, welcher Monat besser ist. Also all diese Visualisierungen können wir und verwenden die Daten. Ich hoffe, dieses Projekt hilft Ihnen Visualisierung und Datenanalyse zu verstehen 82. Projekt 3 Kundensegmentierung mit R: Hallo und willkommen zurück. In dieser Vorlesung werden wir über ein anderes Projekt sprechen , das Projekt Nummer drei für diese Klasse ist . Und das ist ein Kundensegmentierungsprojekt mit unserer Programmierung. In diesem Projekt werden wir also lernen, wie wir Kundensegmentierungen mithilfe unserer auf einem Datensatz erstellten Programmierung durchführen können Kundensegmentierungen mithilfe unserer auf einem Datensatz erstellten Programmierung . Welche Daten wir auch haben, der Kundendatensatz, das ist eine riesige Produktkundensegmentierung. Wir werden also versuchen, das Kundensegment zu finden , das vorerst nützlich sein wird. Die Unternehmen, um ihre besten Kunden und die leistungsstärksten unsere besten Kunden für ihr Geschäft zu finden. Was ist also Kundensegmentierung? Kundensegmentierung ist eine der wichtigsten Anwendungen des unüberwachten Lernens. Wie Sie wissen, gibt es zwei, Sie wissen schon, es gibt zwei Arten des Lernens. Eines ist beaufsichtigtes Lernen und ein anderes ist unüberwachtes Lernen. Betreutes Lernen ist eine Art des Lernens, bei der der freie Wille, ich nehme an, das ist ein Kind und wir wollen, dass es lernt. Es gibt zwei Möglichkeiten, wie wir sein Lernen beaufsichtigen werden. Sag ihm, was zu tun ist, wie er es tun soll, und wir geben uns Anweisungen zur Einrichtung, damit er es lernen kann. Und es gibt unbeaufsichtigtes Lernen, bei dem wir das Team nicht beaufsichtigen. Es wird unbeaufsichtigt sein und er wird aus eigener Erfahrung lernen . Es gibt also zwei Arten von beaufsichtigt und unbeaufsichtigt. Und Kundensegmentierung ist eine Art unbeaufsichtigtes Lernen. Du hast nicht teuer gemacht, meine Güte, Clustering. Mithilfe von Clustering-Techniken können Unternehmen die verschiedenen Kundensegmente identifizieren oder die potenzielle Nutzerbasis in diesem maschinellen Lernprojekt verringern . In diesem Kundensegmentierungsprojekt werden wir K-Means-Clustering verwenden. Werde lernen, was K-Mean-Clustering ist. Und wir werden für dieses Projekt diese K-Mean-Clustering-Technologie verwenden, bei für dieses Projekt diese K-Mean-Clustering-Technologie verwenden, es sich im Wesentlichen um einen Algorithmus zum Clustern unbeschrifteter Datensätze handelt. Also hier werden wir den unbeschrifteten Datensatz verwenden , wann immer Sie Ihre besten Kundenkunden in Mention finden müssen Ihre besten Kundenkunden in Mention finden , entweder die ideale Methode. Denn damit können Sie dieses Kundensegment leicht finden. Und wenn Sie sich das Kundensegment ansehen, können Sie Ihren besten Kundenstamm finden. Und Sie können Ladder Target haben , um Ihre Produkte oder Dienstleistungen zu verkaufen. Wir werden eine der wichtigsten Anwendungen des maschinellen Lernens durchführen , die Kundensegmentierung. In diesem Projekt werden wir die Kundensegmentierung in unsere Programmierung implementieren . Jetzt haben wir also die Kundensegmentierungs - und Clustering-Technologie für Rückerstattungen , die wir verwenden werden. Lassen Sie uns also im Detail verstehen, was Kundensegmentierung ist, etwas anders, etwas detaillierter. Kundensegmentierung ist also der Prozess oder die Region, die den Kundenstamm in mehrere Personengruppen aufteilt in mehrere Personengruppen denen Gemeinsamkeiten auf unterschiedliche Weise bestehen , die für das Marketing relevant sind, z. B. Geschlecht, Interesse und verschiedene Ausgabegewohnheiten. Unternehmen, die Kundensegmentierungen einsetzen befinden sich im Norden, in dem jeder Kunde unterschiedliche Anforderungen hat und ein bestimmtes Marketing benötigt, leisten es sich, diese angemessen zu adressieren. Unternehmen streben eine tiefere Herangehensweise an die Kunden an, die sie ansprechen. Daher muss es spezifische geben und auf die Anforderungen jedes Einzelnen zugeschnitten sein . Jeder Einzelne hat die Anforderungen jedes einzelnen Kunden für sie alle. Durch die gesammelten Daten können Unternehmen ein tieferes Verständnis der Kundenpräferenzen sowie der Notwendigkeit gewinnen, sowie der Notwendigkeit wertvolle Segmente zu entdecken, die den maximalen Gewinn bedeuten. Auf diese Weise können sie ihre Marketingtechniken effektiver und effizienter planen und das Risiko für ihre Investition minimieren. Die Technik der Kundensegmentierung hängt von mehreren wichtigen Unterscheidungsmerkmalen ab , die Kunden in Zielgruppen einteilen . Daten zu Demografie, Geografie, wirtschaftlichem Status sowie zu den tatsächlichen Mustern der Reha spielen eine entscheidende Rolle bei der Bestimmung der Ausrichtung des Unternehmens auf die verschiedenen Segmente. Was wir also unter Kundensegmentierung verstanden haben , ist dies UP, INDEM wir den Kundenstamm in mehrere Personengruppen einteilen, basierend auf der Ähnlichkeit verschiedene Arten, die für das Marketing relevant sind. Zum Beispiel können wir den Kundenstamm nach Geschlecht aufteilen , wie Geschlecht, Mann, Frau, basierend auf den Altersgruppen wie Erwachsene im Teenageralter und Senioren , in Gruppen, die wir bilden können, auf diesen Parametern, basierend auf dem Interesse. Nehmen wir an, wir haben den Kunden, großen Kundenstamm, in den wir den Kundenstamm nach seinen Interessen segmentieren können. Als ob sich jemand für Musik und Tanz interessiert, für Kunst und Titers für Drama. So können wir die Kunden segmentieren und dann auf der Grundlage ihrer Interessen Produkte und Dienstleistungen empfehlen. Wenn sich jemand dafür interessiert. Nehmen wir an, im Sport können wir ihnen die Werbung zeigen, ihnen die Produkte oder Dienstleistungen verkaufen , die sich auf diese bestimmte Sportart beziehen. Dies sind also sehr wichtige Dinge um die besten Zielkunden zu identifizieren. Mit dieser Segmentierung werden die Unternehmen ein tieferes Verständnis ihres Kundenstamms erlangen. Und basierend auf dem Verständnis und der Segmentierung können sie die Kunden gezielter ansprechen. Und das wird ihre Rentabilität erhöhen. Denn wenn Sie nur Absender sind, dem Kunden Werbung schicken und Ihr Produkt und Ihre Dienstleistungen verkaufen, um und Ihr Produkt und Ihre Dienstleistungen verkaufen Senioren zu unterstützen , und Sie Ihre E-Mails an alle senden , dann ist das für die Teenager nicht relevant, oder? Welcher Erwachsene? Es kann in gewisser Weise relevant sein , dass sie die Ältesten zu Hause haben. Aber es ist eher so, aber es ist wahrscheinlicher , dass es für Menschen über 60 oder Senioren relevant ist. Es ist also besser, nur Personen anzusprechen, die 60 Jahre alt waren , und dann wird es Ihnen den größten Gewinn bringen. Das ist also, was bedeutet Kundensegmentierung? Bevor wir also mit unserem Projekt fortfahren , wollen wir verstehen, was der K-Means-Algorithmus ist. Bei der Verwendung des K-Means-Clustering-Algorithmus besteht der erste Schritt darin, die Anzahl der Cluster anzugeben , die wir in der endgültigen Ausgabe produzieren möchten. Okay, also zuerst müssen wir uns für die Anzahl der Cluster entscheiden , die wir in der endgültigen Ausgabe produzieren möchten. Der Algorithmus wählt zunächst k Objekte aus Datensätzen nach dem Zufallsprinzip aus. Es wählt also zunächst dem Zufallsprinzip die Anzahl k der Objekte aus dem Datensatz aus, die als anfängliche Zentren für unsere Cluster dienen. Die ausgewählten Sternhaufen bedeuten auch zahlreiche Zentren. Das sind also, wie gesagt, es gibt k Objekte, die wir ausgewählt haben. Diese ausgewählten Objekte oder Cluster bedeuten also, und sie werden auch als Zentroide bezeichnet. Dann wird den verbleibenden Objekten der nächstgelegene Schwerpunkt zugewiesen. Der Schwerpunkt, der Schwerpunkt, wird durch den euklidischen Abstand definiert. Kleben Sie den euklidischen Abstand zwischen dem Objekt und dem Cluster. Wir beziehen uns auf diese Azure-Clusterzuweisung auf Band. Wenn die Zuweisung abgeschlossen ist berechnet der Algorithmus Neuberechnung des Clusters oder der Beobachtungen den neuen Mittelwert für jedes Clusterreagenz in nach der Neuberechnung des Clusters oder der Beobachtungen den neuen Mittelwert für jedes Clusterreagenz in den Daten oder prüft anhand der aktualisierten Clusterzuweisung, ob sie zu einem anderen Cluster gehören . Dies wiederholt sich über mehrere Iterationen, bis die Clusterzuweisungen beendet sind. Verändern. Die Cluster, die in den aktuellen Titrationen vorhanden sind , sind bei der vorherigen Hydratation vorhanden sind. Zusammenfassung des K-Means-Clusters. Das ist also, was K-Means-Clustering bedeutet. Wir geben die Anzahl der Cluster an, die wir erstellen müssen. Dann wählt der Algorithmus Ihre Objekte nach dem Zufallsprinzip aus unserem Datensatz aus. Dieses Objekt ist ein anfängliches Cluster oder meinst die Risiken und probiere es aus. Unser Hauptobjekt oder Pin die Zuordnung einer neuen Beobachtung. Diese Aufgabe wurde auf die euklidische Entfernung zwischen dem Objekt umgestellt die euklidische Entfernung zwischen dem und liest die k-Cluster in den Daten nicht. Sobald unser Rechenzentrum die neuen Mittelwerte in den, in allen Datenpunkten vorhandenen, diesen Datenpunktpunkten, diesem Datenpunkt der Cluster berechnet hat, hat der k-te Clusterzentroid eine Länge von P, die den Mittelwert aller Variablen für Beobachtungen im k-ten Cluster enthält den Mittelwert aller Variablen . Wir bezeichnen die Anzahl der Variablen so, dass ich versuche, Jason innerhalb der Summe der Quadrate zu minimieren , dann durch das Hydrat die Minimierung der Gesamtsumme der quadrierten Zuordnung nicht mehr zu schwanken. Wann und wann wurde das maximale Schiedsverfahren erreicht. Der Standardwert ist zehn, den die Grafiksoftware für den maximalen Betrieb verwendet , also maximale Adresse. Stattdessen berechnen wir den Clustering-Algorithmus für mehrere Werte von k. Dies kann erreicht werden , indem Variationen innerhalb von k, 1-10 Clustern erstellt werden. Wir können dann die Summe der Quadrate innerhalb des Clusters berechnen , die SS genannt wird. Dann haben wir auf diese Zahl gewartet, k Cluster. Diese Handlung bedeutet. Dann würden wir die K-Cluster bekommen. Und auf dieser Grundlage werden wir sehen, also das ist der theoretische Teil für dieses Projekt. In diesem Projekt werden wir in der nächsten Vorlesung mit dem Projekt beginnen, wenn wir beginnen den Code für dieses Projekt zu besprechen , und wir werden das eigentliche Projekt durchführen. Kundensegmentierung. Wir sehen uns in der nächsten Vorlesung. 83. Projekt 3 Teil 2 Kundensegmentierung mit R: Fangen wir also mit dem Projekt an. Hier benötigen wir also als allererstes eine Datendatei , die alle Kundeninformationen enthält. Hier verwenden wir also Model, Model Underscore. Kunden beginnen mit der CSV-Datei und diese CSV-Datei ist hier. Und wenn ich es hier öffne, können Sie die Kundennummer, das Geschlecht, das Alter und das Einkommen sowie die Ausgabenquote sehen . All diese Informationen wurden gegeben. Wir haben die fünf Spalten, kundennummeriert, und die einzelnen jährlichen Einnahmen, Ausgaben, Ausgabenpunkte. Das sind also die Informationen, die wir haben. Und auf dieser Grundlage werden wir wissen, welche Kundensegmentierung verwendet Also lass uns anfangen. Also zuerst müssen wir diese Datei lesen. Also ich verwende die App Daten sind wertvoll oder Kunden unterstreichen Daten und ich verwende die Funktion, Punkt CSV und Mazda Teil lesen, Teil des Kampfes lassen CSV Datei und es wird das Jetzt aus dieser CSV-Datei lesen Sie können also die benutzerdefinierte ID, das Geschlecht, das Alter, das Jahreseinkommen und die Ausgaben für diesen Kurs sehen Geschlecht, das Alter, das Jahreseinkommen . Hier können Sie also ihre eigenen Datentyp-, Char-, Char-Spalten sehen ihre eigenen Datentyp-, Char-, Char-Spalten Okay? Die nächste Sache ist, was wir tun. Wir haben Kundendaten benannt und dann wirklich, hey, versuchen, die ersten fünf Spalten zu drucken. Crushed Favorit oder studiere die Kundennummer, Geschlecht, Alter und willige Commodus-Dinge Okay, Sie können sehen Als Nächstes müssen Sie das wirklich mit dem Kunden zusammenfassen, also lassen Sie uns das ausführen und sehen Wenn wir jedoch die Zusammenfassung Wong Sun Belt on the Edge verwenden, erhalten wir damit das Mindestalter Quartal ich, erstes Quartil, Median, mittleres drittes Quartil und Maximum Also das ist für die Altersdaten dazu und ich habe irgendwelche Statistiken erstellt, okay? Dann werden das Alter des Kunden, das Jahreseinkommen und die Ausgabenquote für all diese Dinge dasselbe regeln. Wir erhalten also diese Informationen, Standardabweichung, Schätzung, Geschlechtervisualisierung. Hier erstellen wir eine tabellarische Kundendatenbank, die auf der Tagesordnung steht. Und dann werden wir versuchen, ein Balkendiagramm zu erstellen. Und das wird die X-Achse und das Geschlecht und die Y-Achse als Zähl- und Farbfunktion Und lassen Sie uns das ausführen. Und du wirst ein Balkendiagramm sehen, dem wir das Geschlecht weiblich und männlich gesehen haben. Wenn wir mehr tun. Verwenden Sie also ein Balkendiagramm, um den Geschlechtervergleich anzuzeigen. Okay? Als nächstes folgt diese Formel, geteilt durch die Summe von a in 200 Pfund, männlich, weiblich und männlich, weiblich Und das wird die Darstellung geben , dass du männlich und weiblich hast Also C und jetzt das Ziel X Prozent und männlich ist 44%. Das wollen wir jetzt also nicht in unserem Datensatz haben. 56% der Frauen enden, 44% der Männer. Jetzt wollen wir das tun, wir werden versuchen, die Altersverteilung zu visualisieren Versuchen Sie also, ein Histogramm auf dem Glas und der Frequenz zu zeichnen ein Histogramm auf dem Glas und der Frequenz zu Also sieh dir hier an, dieses Histogramm zeigt dir den Kontakt zu jeder Klasse Hier können Sie also die Frequenz Null bis 20 sehen , die bei 20 bis 30 beginnt. All diese Dinge, die Sie sehen können, das ist das Histogramm Dies ist die Altersklasse 2030, 30 bis 40, 40 bis 70. All diese Dinge können wir visualisieren und anhand des Alters ein Balkendiagramm sehen Und das gibt uns die deskriptive Analyse als Boxplot Hier können Sie also sehen, dass es hauptsächlich zwischen dem Ziel und dann einem C-Sub-N1-Einkommen also, hier für die Registrierung eines Unternehmens Versuchen Sie also, hier für die Registrierung eines Unternehmens ein Histogramm oder das Jahreseinkommen und die Häufigkeit, die wir auf der Y-Achse setzen, darzustellen und die Häufigkeit, die wir auf der Y-Achse setzen Wir sehen uns also für das Jahreseinkommen plus die Häufigkeit, Sie können sich Ihr Hockey ansehen. Dann legen wir das Grundstück für unsere Kunden an, ein weiteres Grundstück hier, Dichtegrundstück für das jährliche Einkommen. Also all diese Dinge, die Sie analysieren können, dann zeichnen wir ein Boxplot für die Ausgabenquote. Siehst du, das ist das Ende, das ist die Box Plot für diesen Ausgabenscore. Dann nochmal unser Histogramm für den Ausgabenscore. Und dann starten wir die Leiste unserer K-Mean-Algorithmus-Bibliothek und setzen auf Seed Und dann verwenden wir eine Funktion, um die Gesamtsumme der quadratischen ISS innerhalb des Clusters zu berechnen und auf eins bis zehn zu setzen Okay? Als Nächstes bewerte ich den Wert, berichte, unterstrichene AV kartografieren Und dann zeichnen wir die Anzahl der Cluster auf der X-Achse und Y-Achse auf, Gesamtsumme der Quadrate innerhalb des Clusters plus die Anzahl der Du wirst eins bis zehn sehen. Und hier können Sie die gesamte Y-Achse sehen. Cluster, Summe des gesamten Clusters, Summe der Quadrate, okay? Anzahl der Cluster für diese, 4464814. Okay? Beweise, wähle meine dritte Bibliothek aus. Sie werden Cluster extra verwenden. Diese drei Bibliotheken werden Sie verwenden. Wenn es also nicht installiert ist, können Sie hier nach Tools, installierten Paketen suchen und den Namen des Pakets angeben, und es konnte nicht sein. Lass uns anfangen. Jetzt. Was ich tun werde, wir werden tun, wir erstellen die Cluster k2 Und k2 wird die K-Means-Cluster verwenden. Und dann geben wir, dass ich mich kleide und maximal Schauspielerin und 100 und fange an und fange bei D an, Algorithmus wie. Und dann zeichnen wir diesen Cluster und die Kundendatenwerte auf. Und das Euklidische meinte, okay, so setzen wir das Das ist weiter, das ist für die A2. Jetzt machen wir die Sache für k3, k4, k5 Und wir sehen uns in der Handlung wird gestrickt. Jetzt verwenden wir den Envy Cluster und kein zusätzliches. Und wir machen Celebrity und Sie werden es eins bis fünf sehen und Kundendaten, Sie werden es eins bis fünf sehen und Kundendaten, k-means. Und dann K6 Wisse, dass wir diese optimale Anzahl von Clustern und die optimale Anzahl von Clustern haben. Cluster One hat jemals damit um 3,4, 647 gekämpft. Und dann haben wir die optimale Anzahl von Clustern. Wir werden dann, was wir tun werden, versuchen, die wichtigsten Hauptkomponenten zu visualisieren Das PCC hat sich dafür mit der PR-Funktion zusammengetan. Und lassen Sie uns das ausführen. Hier. Sie können den jährlichen Wert der Einkommensausgaben sehen. Und dann verwenden wir den GG-Plot, um das zu plotten. Jetzt können Sie sehen, wie die Modellkunden anhand von k-Mean-Clustering-Daten nach oben segmentiert werden, die Cluster-Santa-Kunden die Das ist ein Cluster, das ist ein anderer Cluster. Das ist ein Plus, das ist ein Cluster. Also die sanften Clustern, die der Kunde anhand seines Verhaltens einnimmt. Jetzt. Versuchen Sie nun, Cluster eins, Cluster zwei, Cluster drei, Wasserstoff hat mir gegeben. Jetzt können Sie also sechs Cluster sehen. Cluster eins, Cluster zwei, Cluster drei Cluster für Cluster fünf. Das sind also die Punkte, das sind die Cluster. Wir können die Daten sehen. Jetzt legen wir das ein und wir werden versuchen, es erneut auszuführen. Und jetzt ist es ziemlich klar. Jetzt haben wir hier das K-Means-Clustering. Hier können Sie also sehen, dass dieser rote Cluster eins ist, gelb, eins, Cluster zwei, Cluster drei, der grüne. Dieser Cluster, Cluster fünf, ist blau. Und das ist Cluster für. Was Sie nun sehen können, die anderen Kundencluster, die wir auf der Grundlage des K-Mean-Clusterings erstellt haben Cluster 4 und Cluster One to Cluster bestehen aus Top-Kunden, mittleren und mittleren PC-Ergebnissen. Und Cluster sechs. Klassische Diskussion Ich drucke den Cluster mit PCA, hohem PCO2 und niedrigem PC Erstens, Cluster fünf In diesem Cluster gibt es Kunden mit mittlerem und niedrigem PCO2 Das ist also das Bett mit den PCA One- und PC2-Werten, die wir haben Wir können diese Glabella auf die Cluster und Verhaltensweisen anwenden die Cluster und Verhaltensweisen Mit Hilfe von Clustering können wir die Kunden gezielt ansprechen. Wir können die Variablen viel besser verstehen was uns zu sorgfältigen Entscheidungen veranlasst Durch die Identifizierung von Fragen können Unternehmen Produkte und Dienstleistungen herausbringen , die sich an Kunden richten. Das sagen wir nicht, aber ich würde mir nur wünschen, dass Einkommen, Alter, Ausgabenmuster usw. Darüber hinaus komplexere Muster wie Produkteinführungen für eine bessere Segmentierung berücksichtigt werden Das ist also die einfache Erklärung. Sie können ins Detail gehen und mehr über diese Dinge erfahren. Darüber hinaus hoffe ich, dass dieses Projekt Ihnen hilft zu verstehen, wie wir das Gaming-Clustering durchführen 84. Projekt 4 - Einführung - Filmempfehlung: Hallo und willkommen zurück. In diesem Projekt werden wir also Projekt Nummer vier durchführen Filmempfehlung, Systemanmeldung und maschinelles Lernen. Jetzt haben wir das grundlegende Verständnis von Programmierung und wir haben auch in diesem Kurs einige Projekte durchgeführt. Dieses Projekt wird Ihnen also eine sehr breite Erfahrung Arbeit mit Algorithmen für maschinelles Lernen unsere Programmierung darin beurteilen, werden wir das sehr beliebte Filmempfehlungssystem verwenden Sie haben keine Programmierung und keinen Algorithmus für maschinelles Lernen hinzugefügt . Worum geht es also bei diesem Projekt? Dieses Projekt konzentrierte sich auf die Entwicklung einer Filmempfehlung. Ich verwende R- und maschinelle Lerntechniken sowie Techniken des maschinellen Lernens. Das Ziel dieses Projekts ist das Empfehlungssystem. Diese Empfehlungsmaschine, die Benutzern Filme auf der Grundlage ihrer Vorlieben vorschlägt . Also, was passiert eigentlich auf allen OTP-Plattformen wie Netflix, Hot Star, T5, Amazon Prime Videos Wann immer Sie Filme schauen oder Ihre, Sie haben einen Comedy-Film gesehen. Du hast Mazda war ein romantischer Film mit Schauspielern und Filmen. Basierend auf Ihren Präferenzen, was Sie in der Vergangenheit gesehen haben, werden all Ihre Einstellungen gespeichert. Und basierend auf Ihrem früheren Verhalten, als ob Sie sich eine Komödie ansehen, normalerweise Genre oder Acts und Genre. Den nächsten Film werden wir dir empfehlen. Also biegen sich alle und sie verlieren die gleiche Metallurgie. Um dir den nächsten Film vorzuschlagen. Unterstützung. Sie haben das Komitee und den X-Men-Film in den letzten Wochen gesehen den X-Men-Film in den letzten Wochen Was sie als Nächstes tun werden, können sie tun. Sie können Ihnen einen Film vorschlagen, der sowohl die Dinge Comedy als auch Exzellenz hat. So können sie dir X vorschlagen und einen Film mit den darin enthaltenen Comic-Elementen machen. Sind sie, Sie werden auf jeden Fall Duck den Comicfilm und den Film zusammen mit dem Film vorschlagen, sie können Ihnen die Filme vorschlagen, die sowohl Comedy als auch Exon zusammen enthalten All diese Dinge tun wir also mit den Algorithmen für maschinelles Lernen Das ist heutzutage also sehr beliebt. Durch die Implementierung von objektbasierter Zusammenarbeit um zu filtern, was wir erneut verwenden, werden wir praktische Erfahrung in der Anwendung unserer Datenwissenschaft und unseres maschinellen Lernens auf reale Projekte wie das Empfehlungssystem für Filme sammeln , werden wir praktische Erfahrung in der Anwendung unserer Datenwissenschaft und unseres maschinellen Lernens auf reale Projekte wie das Empfehlungssystem für Filme Was wir hier verwenden, ist es der MovieLens-Datensatz, einem Lakh, 5.039 Bewertungen in der Bewertungs-Punkt-CSV-Datei besteht 5.039 Bewertungen in der Und es enthält auch 10.329 Filme in der CSV-Datei mit Filmpunkten Also diese beiden CSV-Dateien, Datendateien, die wir verwenden werden, eine wird den Film in Auftrag geben, mehr als 10.000 Filme. Und davon abgesehen denke ich, dass CSP den Platz für bestimmte Filme von den verschiedenen Kritikern und Audits speichern wird den Platz für bestimmte Filme von den verschiedenen Kritikern und Audits Jetzt haben wir also ein grundlegendes Verständnis dafür, was wir tun werden. Als Nächstes: Was sind die Bibliotheken? Welche Bibliotheken werden wir dafür benötigen? Wir benötigen also das GG-Plot Lab data.table und receptor, die anderen grundlegenden Bibliotheken, die wir für dieses Projekt benötigen GG zeichnet diese also für den Verdauungsteil data.table auf. Welcher Tisch und die Seitenansichten des Kommandanten. Empfehlen Sie die Lektion. Was sind also die Schritte, die wir in diesem Projekt unternehmen werden? Der erste Schritt wird die Datenvorverarbeitung sein. Dann werden wir den nächsten Schritt machen Um zu filtern, werden die ähnlichen Daten untersucht. Dann wird es eine Datenbank geben. Und dann gehen wir zur Datenaufbereitung. Und die Datenvorbereitung umfasst ein paar Schritte und dann wird der Standard endlich nacheinander ausgeführt. Was werden wir bei der Datenvorverarbeitung tun Die Datenvorverarbeitung wird unterstützt. Wir bekommen Rohdaten in einer CSV-Datei mit Filmpunkten oder lesen Drogen, ja. Wir müssen diese Daten vorverarbeiten. Sobald wir also die Daten aus der CSV-Datei der Filme und den Bewertungen oder CSV-Datensätzen extrahiert haben. Was ich beobachte, was wir beobachten werden , diese Benutzer-ID- und Film-ID-Spalten, Ganzzahlen Das sind also die Dinge, die wir sehen werden, wenn wir uns auch den Code ansehen. Aber vorerst lasse ich es dich einfach wissen. In dieser Datei werden wir sehen, was wir tun können. Lass uns spülen. also Lassen Sie uns also zuerst verstehen was wir verlieren werden. Also die ID und die Benutzer-ID dieses Films. Es bestand aus den ganzen Zahlen. Und zusätzlich müssen wir das Filmgenre in Form von Movie Underscore Data und Dataframe in benutzerfreundlichere **** umwandeln Dataframe in Ob Filme oder nicht, wir müssen in ein benutzerfreundlicheres Format umwandeln , als Sie es tun. Und um das zu erreichen, habe ich eine Hot Encoding-Metrik erstellt, eine Hot Encoding-Metrik erstellt die das Genre repräsentiert, das jedem Bereich zugeordnet Um diesen benutzerfreundlichen Datenrahmen, das Filmgenre, zu erreichen , was ich getan habe, habe ich eine One-Hot-Kodierungsmatrix erstellt , die Genres referendiert jedem Film wurden anschließend solche Muster generiert um jede Suche auf der Grundlage der John-Tagebücher zu erleichtern. Da Filme oft mehrere Genres haben, wir alle wissen, dass ein Film mehrere Genres haben kann, haben wir die Unterstützung in mehrere Genres unterteilt. Ein Film kann X haben und er kann auch Drama haben. Also kann es auch die Komödie haben. Ein Film kann auch mehrere Genres haben. Also, was wir tun werden, wir werden diese metrische Klasse verwenden. Und für unsere Daten werden wir, was wir tun werden, wir werden die Matrix, die Genre-Matrix, in diese spärliche Matrix konvertieren die Genre-Matrix, in diese spärliche Matrix um sie so tabellarisch für das Filmempfehlungssystem zu machen Und dafür setzen wir die echten Verrückten auf die gelbe Bewertungsmatrixklasse ein. Der nächste Schritt wird also das gemeinsame Filtern oder Erkunden ähnlicher Daten sein. Das kollaborative Filtern beinhaltete also, Ihnen Filme zu empfehlen , die nur auf den Präferenzen anderer Benutzer beruhten den Präferenzen anderer Benutzer Also, was bedeutet das? Kollaboratives Filtern ist, nehmen wir an, Sie schauen sich einen Film an, bei dem es sich um eine Komödie handelt. Und Sie haben nicht viele Filme auf einem Plattform-Support gesehen . Sie schauen Netflix und haben gerade angefangen, Ihren Hals zu benutzen. Und Sie haben nur einen Film gesehen, der zum Comedy-Genre gehört. Nun, wie Netflix Ihnen Filme empfehlen wird, da Netflix keine Daten angibt, akzeptieren Sie, dass Sie einen Comedy-Film gesehen haben. Also entweder es kann weitermachen, Neues empfehlen, dir den Comedy-Film-Tarif empfehlen Und das wird eine sehr seltsame Sache sein, weil eine Person nicht davon abhängig sein wird. Wir werden uns nur einen Genrefilm ansehen, in dem nur er vielleicht an X interessiert ist, und auch Drama. Also Spannung, Thriller auch, oder? Dafür, was diese Split-Funktion tun wird, verwenden sie kollaborative Filterung , bei der sie Benutzern Filme empfehlen die auf den Präferenzen anderer Benutzer basieren Es gibt also Millionen von Benutzern, die die Plattform nutzen , und sie beobachten das Komitee auch x und auch. Also basierend auf unseren Benutzern , die denselben Film gesehen haben und was sie als nächstes gesehen haben. Basierend auf ihren Daten. Netflix sagt voraus, dass Ihnen auch ein bestimmter Film gefallen könnte, und zwar in der Reihenfolge, in der Sie sich den Film gerade angesehen haben. Netflix kann Ihnen Film X empfehlen , weil Sie den Film gesehen haben. Okay? Wenn du also in X springst und User B auch, dann die Filme, die sich Huge eine Woche lang angesehen hat . Und wir haben eine große Auswahl empfohlen. Das Gleiche habe ich dir erklärt und umgekehrt. Daher hängt die Empfehlung und Empfehlung von Filmen davon ab, hängt die Empfehlung und Empfehlung von Filmen davon ab unsere Ähnlichkeitsbeziehung zwischen ihnen festzustellen Sie werden wissen, was wir hier tatsächlich tun, wir stellen eine Beziehung zwischen der Ertragsähnlichkeit her, eine Beziehung zwischen die auf der Ähnlichkeit ihres Akzents oder ihres Interesses basiert der Ähnlichkeit ihres Akzents oder ihres Interesses Verwendung der empfohlenen Laborbibliothek. Was ich getan habe, ich habe die Ähnlichkeit mit verschiedenen Operatoren wie Kosinus, Pearson und Jakarta berechnet verschiedenen Operatoren wie Kosinus, Pearson Und dann konstruieren Sie eine Lektion zur Datenvisualisierung. Wir werden auch die Ähnlichkeit der Daten sehen. Hier habe ich also Ähnlichkeit zwischen den Benutzern visualisiert und auch die Ähnlichkeiten zwischen auch die Ähnlichkeiten den vorherigen Filmen untersucht Um zu bekommen. Datenbanken sind die meisten Aufrufe, die Filme sehen werden, als das, was ich getan habe. Ich habe im Datensatz mehr nachgeforscht. Vor dieser Analyse habe ich die Anzahl der riesigen, riesigen für jedes Feld berechnet und sie, die wir in die Lage versetzt haben, in absteigender Reihenfolge angeordnet Gesamtzahl der Views der Golf-Filme wird anhand des Balkendiagramms und der Vigilanten visualisiert Und es wurde geschrieben , dass Fixin der meistgesehene Film war Das sind also die Daten, die visualisiert werden, und die Dinge werden funktionieren. Und danach. Danach habe ich eine Heatmap erstellt, die in jede Lektion aufgenommen wird, eine Heatmap mit Filmdaten, um einen Einblick in die Filmbewertungen zu Ich habe eine Heatmap erstellt, die die Bewertungen der 25 besten Zeilen und fünf Spalten im Datensatz anzeigt die die Bewertungen der 25 besten Zeilen und fünf Spalten im Datensatz Wählen Sie als Nächstes die Auswahl aus. Also, was ich getan habe, ich habe getan, ich mag Golf wirklich. Du schickst Filme einfach über eine Heatmap und schaust dir auch die Verteilung der durchschnittlichen Bewertungen für die Zukunft an. Als Nächstes folgt die Datennormalisierung. Wir verstecken potenzielle Vorurteile, die durch Nutzer verursacht werden, die durchweg hohe oder niedrige Bewertungen für alle Filme, die sie sich ansehen, durchweg hohe oder niedrige Bewertungen abgeben. Ich normalisiere die Daten. Normalerweise plötzlich das Verfahren, um numerische Werte in einer Spalte auf eine gemeinsame Skala zu standardisieren , um sicherzustellen, dass der Wert nicht verzerrt wird In diesem Fall transformiere ich dann die durchschnittliche Bewertung durch Normalisierung, wobei ich meine Stimme drücke und sie grafisch wiedergebe Wir werden sehen, dass Daten gebannt wurden, wenn wir im letzten Schritt die praktische Binärdatei im letzten Schritt die praktische Binärdatei machen, oder? Zuweisung diskreter Werte 1.0. Dieser Schritt verbessert die Effizienz der Empfehlungen. Was ich getan habe, ich definiere die Matrix mit einer Bewertung von drei entspricht eins. Und ansonsten heißt es nur, dass, wenn die Filmbewertung bei etwa drei liegt, sie einer entspricht. Andernfalls wird einem Wert von weniger als drei der Wert Null zugewiesen. Kollaboratives Filtersystem. In diesem Artikel habe ich ein kollaboratives Filtersystem entwickelt , das anhand der großen Bewertungen die Ähnlichkeit von Artikeln bestimmt anhand der großen Bewertungen die Der Algorithmus erstellt unsere Tabelle ähnlichen Artikeln, die von Kunden gekauft wurden, und anhand mit ähnlichen Artikeln, die von Kunden gekauft wurden, und anhand einer Empfehlung. Ein Teil davon ist, dass die Schritte zur Bestimmung der Ähnlichkeit zwischen den Artikeln wie folgt lauten Für jeden Tagesordnungspunkt im von Kunden gekauften Produktkatalog Punkt ID1 für Punkt I bis j von Kunden als schuldig angesehen, was ich getan habe Ich kreiere Jade nach Kundenwunsch und sehe mich schuldig für das, was ich getan habe. Ich habe einen Datensatz erstellt, der angibt, dass Kunden die gekauften Artikel I, i1 und i2 sehen . Berechne die Ähnlichkeit zwischen den Artikeln I1 und I2 Okay? Da der Kunde I1 und I2 gekauft hat, könnte es sein, dass die Artikel I1 und I2 in gewisser Weise ähnlich sind Also diese Ähnlichkeit werden wir berechnen. Und dann teilen wir den Datensatz in 80% für den Trainingsdatensatz und 20% weitere Tests für ein Empfehlungssystem auf. Die 80-20-Regel ist in Algorithmen für maschinelles Lernen immer anwendbar. Der nächste und letzte Schritt wird das direkte Modellsystem sein. Exportieren Sie dazu die verschiedenen Parameter, die auf Elementen basieren, kollaborativer Filter Der Standardwert des Parameters k, die Anzahl der Elemente angibt, wird zur Berechnung verwendet 30. Der Algorithmus identifiziert die k ähnlichsten Elemente und speichert die entsprechenden Zahlen. Das Empfehlungsmodell wurde mithilfe der Funktion „Modell abrufen “ und der von uns analysierten Ähnlichkeitsmatrix aus Glas oder Diamant oder Heatmap um die knusprigsten Objekte derselben Beleuchtung zu visualisieren abgerufen, um die knusprigsten Objekte derselben Beleuchtung zu visualisieren. Als Nächstes nutzen wir dieses Modell eines Systems zur Entfernung von Menschen Indem ich die Zeilen und Spalten mit Ähnlichkeit über Null summiere, erhalte ich die Verteilung einiger Diese Verteilung wurde visualisiert , um weitere Erkenntnisse zu gewinnen. Um das Empfehlungssystem zu erstellen. Auf dieser Folie gibt der von den senkrechten Zehn empfohlene obere Wert die Anzahl der Filme an, die von jedem Benutzer empfohlen werden. Und die Vorhersagefunktion wurde dann verwendet, um ähnliche Artikel entsprechend zu identifizieren. Jede Bewertung wurde als Gewicht behandelt, das mit dem entsprechenden Ähnlichkeitsgeschmack multipliziert wurde Schließlich wurden alle Gewichte hinzugefügt, um die Empfehlungen zu generieren. Das sind also die Dinge, die wir für das Filmempfehlungssystem mithilfe von R und maschinellem Lernen tun werden. Unser Ziel ist es, den Nutzern Filme zu empfehlen , die auf ihren Vorlieben und Abneigungen basieren und darauf, was sich die Benutzer ansehen Der Abschlussball wurde aufgrund der Ähnlichkeit unterschätzt. Okay? Und für die Bibliothek GG plot TO data.table wurde vom Labor empfangen und empfohlen Wir machen Schritte, um wirklich nach der Datenvorverarbeitung zu suchen und dann werden wir das kollaborative Herausfiltern durchführen und die ähnlichen Daten untersuchen, die ähnlichen Daten untersuchen die wir bereits besprochen haben Die AWT-Lektion. Als Nächstes werden wir sehen, wie wir die Daten überarbeiten können. Für die Datenvorbereitung gibt es drei Schritte zur Datenauswahl , gibt es drei Schritte zur Datenauswahl Datennormalisierung und Datenbinarisierung , die wir Und das kollaborative Filtersystem , das wir bereits anhand dieses Beispiels verstanden haben und das ich zunächst bereits besprochen habe. Also ich hoffe, das Projekt habe ich erklärt. Nun, in der nächsten Vorlesung machen wir das Projekt, indem wir das Drehbuch schreiben. Also, wir sehen uns im Projekt 85. Projekt 4 - Teil 1- Filmempfehlungssystem mit R: Hallo und willkommen zurück. In dieser Vorlesung werden wir das Projekt durchführen, eine Empfehlungsmaschine zu lesen , die Tech-Filme für Sie einfach nach ihren Vorlieben richtet. Sie haben schon früher zugesehen. Und belasten Sie auch die anderen Benutzer auf der Plattform oder beim Ansehen von Filmen. Oder sie haben ähnliche Filme, über die Sie urteilen. Diese riesigen Schulden beobachten unser Wachfenster. Wenn Sie dies tun, wenn Sie die Streaming-Plattformen oder TPU zum ersten Mal für den Herbst verwenden die Streaming-Plattformen oder , können sie Ihnen immer noch ein höheres Risiko empfehlen Weil sie die übliche Datenbank haben, der Millionen von Menschen, die sich die ähnliche Art von Gehorsam ansehen, die Sie nur aufgrund ihrer Interessen und Ihres Interesses, einen Film anzusehen, haben . Das ist die Ähnlichkeit zwischen dir und anderen Leuten, also denke einfach auf der Plattform dass ihre Präferenzen das sind, was sie dort gearbeitet haben Je schwerer. Das ist es. Ich kann dir die Filme empfehlen. Also hier, was wir tun werden, wir werden dort sein, wo es ein artikelbasiertes kollaboratives Filterempfehlungssystem ist kollaboratives Filterempfehlungssystem Okay? Also was ist der Artikel im Grunde, ich kann mich anhand bestimmter Artikel erreichen. Wir werden Dark Collaborate in Betracht ziehen , um unsere Ähnlichkeit zu drucken Soweit diese Realitätsregion, werden wir die empfohlene Laborbibliothek GG-Plot für die Visualisierung von data.table, what tables und Receptor verwenden GG-Plot für die Visualisierung von data.table, what tables und Also diese vier Bibliotheken. Okay, als Nächstes werden wir die Daten abrufen und anzeigen. Filme und die Filmdaten. Mehr lesen Punkt csv. Am Freitag werden wir Androgenquelle CSV sehen. Lassen Sie mich Ihnen also den Aktienkurs zeigen. Das ist also mehr Vidar-CSV, das die Film-ID enthält, die eins zu 10.000 ist. also mehr als 10.000 und mehr Risiken In diesem Datensatz wurden also mehr als 10.000 und mehr Risiken hinzugefügt. Und dann liebe ich den Film, Film-ID-Titel des Filmgenres, welche Tagebücher du für mich abgewaschen hast. In diesem Datensatz gibt es also mehr als 10.000 Filme, ihren Titel und ihr Genre. Hier seht ihr also ein Filmgenre, das Genre-Abenteuer. Vor diesem Genre Edward Jeff-Animation standen Kinder bereits in Klammern Wir sind fertig mit den drei Abenden mit Comedy und Drama. Das heißt, ich liebe ab und zu Kinder und Drama sehr. Drama, Fantasy, Mysterium, sicherer Weg. Ein Film kann also zu mehreren Filmgenres gehören . Und dann haben wir die Struktur Yes, CSP, die die Benutzer-ID hat, die Film-ID, für welchen Film, es diese Bewertung erhält Welches Rating dann? Leute, sogar zu dem Film, dass es eins oder eins vor fünf ist. Und dazwischen hin zu hoher Ablehnung porträtierte der Film. Und dann haben wir die verschiedenen Typen. Kommen wir also zum Kern. Er hat also identifiziert, dass er zum Pfad der Datei gehen wird. Dann erstellen wir eine Datenvariable zum Unterstreichen von Filmen und stellen dann die Daten wieder her Also die CSV-Dateifunktion wird einen dummen Filmpunkt CSV verwenden , der in diesem Thiamin gespeichert wird, sei starr uns es und und Zeichenfolge als Fruktose Und dendritische Unterstrich-Daten, Punkt-CSV und Und dann werden wir sehen, dass es sich bei den Daten um Dark CSP handelt. Sehen Sie hier. Jetzt haben wir die Film-ID, mit der der Lehrer springen kann, oder? Scott kümmert sich um den Job und das Schreiben. Sie immer. Natürlich können Sie sich die Zusammenfassung der Daten mithilfe der Zusammenfassungsfunktion ansehen. Die Zusammenfassung der Daten, die Sie sehen können, ja, Film, erstes Quartal, zweites Quartal, drittes Quartal, ich meine Genre. Hier können sie also die sehen, die ich im Film gesehen habe, als Kopf nach oben die Partiturdatenentitäten geöffnet wurden, 123456. Okay. Jetzt können wir die Zusammenfassung der Daten sehen und dann wirklich sehen, wie die Niere ein Herz herausschneidet. Und Codierung, um die Matrix zu erstellen, die die Kosten für die neue Kendra Roth beinhaltet, jede aus Freiheit Das wird also der Sache mit der Datenverarbeitung entsprechen . Wir haben geschaffen. Der One-Hot-Encoding-Film unterstreicht Gin Chandra und der Film data as.data.frame unterstreicht die Rivalität zwischen Daten und data as.data.frame unterstreicht die Rivalität zwischen Daten Jordanien. Zeichenfolge als Strukturen, Zeichenketten als Faktoren ist gleich falsch. Dann überprüfe die Bibliothek data.table und ja, das Erstellen von Filmen unterstreicht Und hier werden wir dark data.frame hinzufügen. Und er hatte DST, die STR, Split Movie Genre und Type Dot Cardboard True Strings als Faktordateien. Und dann nennen wir ihren Namen Filmgenre. Und wir verwenden C, eins, um das zu sagen. Und sie beenden das Genre bei einigen Dingen , bei denen es sich um dein linkes Knie handelt. Hallo, ich komme von hier nach hier. Kein Spaltenname und der Leinenkram. John, John Drop und Fighted Index One Tool. Und ich bin gewandert, handgeschrieben. Ich führe diesen Code nicht aus. Und für den Anruf. Und du John, sie, meine beiden jüngeren, ich nenne sie gerne und füge Argentinien hinzu. Chandra, kaputt. Was Dakota mit einer Saite macht. Dann klicken Sie mit der rechten Maustaste darauf. Und dann kannst du hören, wie ich meine Tricks für solche Säuglingsbasis plus Plan Chandra und so fünf Tricks starten Plan Chandra und so fünf Tricks In diesem Quartal verwenden wir meine Tricks und meine Sicht auf diese Ansichten. Ein wichtiger Parameter für innerhalb dieses Systems pro Mol ist einfacher, wenn Sie das tun Aber wie eine Station, modellieren Sie die Registrierung und rufen Sie Eingabedatentyp für die L-Matrix ab, eine Matrix. Und er hat Sie eingegeben, ich habe meine Tics und Empfehlung erhalten Mark Moore, ich habe die Bewertungsmatrix und unser Vertrauen unterstrichen Nesseltiere. Sie können anhand dieses Diagramms einfach Ähnlichkeit erkennen und uns leicht dargestellt haben , das ist zwischen den Feldern Okay, das war's für diese Vorlesung, wir machen in der nächsten Vorlesung weiter. 86. Projekt 4 - Teil 2 - Filmempfehlungssystem: In der vorherigen Vorlesung haben wir mit dem Filmempfehlungssystem begonnen , das in diesem Projekt verwendet wird. Lassen Sie mich Ihnen kurz zusammenfassen, was wir in der vorherigen Vorlesung, dem ersten Teil dieses Projekts, getan haben ersten Teil dieses Projekts Also brauchen wir die für Bibliotheken, Recommender Lab. Sie plotten zwei data.table. Also stehen wir einfach in diesen Bibliotheken und dann müssen wir die Daten von dem Ort holen , an dem Sie die Daten aufbewahrt haben. Wir speichern das dann, um die CSV-Datei mit der Funktion read.csv zu lesen CSV-Datei mit der und die Unterstrichdaten in Filmen wiederherzustellen Unterstrichdaten in Filmen In ähnlicher Weise speichern wir die Bewertungsdaten Bewertungsunterstrich eta durch die Ähnlichkeit zwischen den dunklen CSVs Und wir werden die endgültige Nummerierung bestehen, zuerst CSV, dann STR, Lunge Und wir werden diesen Schritt verabschieden, um die Daten zu unterstreichen. Und dann sehen wir uns die Zusammenfassung der Daten des Films an Und das gibt Ihnen den Film-ID-Titel und das Genre. Und hier sehen Sie die statistischen Details hier. Minimal-, erstes Quartil-, Median-, Mittel-, drittes Quartil- und Maximalwerte Dann werden wir sehen, wie der Kopf des Films die Daten unterstreicht. Es gibt Ihnen die ersten fünf Zeilen der Daten. Sehen Sie sich hier die Flush-Film-ID und den Titel und dann das Genre des Films Und dann sehen wir den Leiter der Ratings. Aber du kannst auch das kleinste erste Quartil, den Median oder alle Spalten sehen , okay Dann sehen wir uns den Leiter der Bewertungsdaten an. jedoch Benutzer-ID, Film-ID und ein Bewertungs Es werden jedoch Benutzer-ID, Film-ID und ein Bewertungs - und Zeitstempel vergeben Jetzt haben wir also eine Vorstellung davon, was in der Idee steckt , was in der CSV-Datei oder der Datendatei, die wir haben, enthalten ist und was in CSV-Datei oder der Datendatei, die wir diesen Daten enthalten ist, auf denen wir weitergehen werden. Als Nächstes werden wir also tun. Wir erstellen eine One-Hot-Kodierung, indem wir eine Matrix erstellen, die für jeden Beweis die entsprechenden allgemeinen Werte enthält Für die Kodierung unserer Ernährung müssen wir also eine Matrix erstellen Also werden wir hier eine Variable erstellen mehr als das Genre unterstreicht und hier als.data.frame, sie wiederverwenden, Filme wiederverwenden Und dann verwenden wir diese Genre-Spalte. Wenn Sie also hier nachschauen, ist das Genre-Spalte in den Filmdaten, Movies of Data File. Also verwenden wir das und dann Zeichenketten als Falschfaktoren und dann die Bibliothek, die sie später verwenden werden. Hier erstellen wir also eine Matrix, eine Filmgenre-Matrix, und verwenden dann einfach data.frame und das Filmgenre und verwenden dann einfach data.frame und das Filmgenre Und dann sind wir fertig mit der Matrix hier, dann mit diesem und dann mit dem Spaltennamen. Und dann hören sie auf mit dem Genre. Genre. Was ist die Liste der Genres ist dein X und Abenteuer. All diese Dinge werden hier aufgelistet. Und dann sehen wir das Genre, Mach Eins und die Spaltennamen. Und für den Index in einem. Und Rho-Filmgenre bis vier werden die Kolumne lesen und für jedes Genre den Filmnamen erhalten Und alles. Lassen Sie uns das dann drehen, Genre Matte Zwei. Und dann das Gleiche hier. Dann geben wir es hier an STR weiter. Dann geben wir es an STR weiter. Und was wir jetzt tun werden, wir erstellen eine Suche von Patricks. Also ich denke, indem ich das Genre spezifiziere. Also John, richtig? Lassen Sie uns das also mit yes, C bind ausführen. Okay? Und dann machen wir weiter und sehen hier, jetzt machen wir das wieder. Also CN-Film-ID-Titel, Exzellente Abenteueranimation, Kinder, alle Genres Als Spalte in dieser Matrix, okay? Als nächstes ist dies eine Matrix. Als nächstes folgt die Bewertungsmatrix. Und jetzt, was wir tun werden, wir konvertieren die Bewertungsmatrix in eine Matrix mit Empfehlungen für Labore mit geringer Dichte, diese Matrix und die gelbe Bewertungsmatrix, okay? Und dann ist die Bewertungsmatrix C 668 in die zehnfache Menge fünf oder n Spalten Die Bewertungsmatrix von plus eins lag bei 5.003, 13 und Bewertungen. Okay? Als Nächstes verwenden wir das Modell Namen , Empfehlung und Empfehlungsmodell Und dann verwenden wir den Spielempfehlungsmodus. Und hier verwenden wir die Beschreibung. Durch die Implementierung eines einzigen Modells in unserer objektbasierten kollaborativen Filterung haben wir 12. Und hier verwenden wir AI VCF, okay? Beim kollaborativen Filtern wurden dem Angreifer Filme vorgeschlagen , die auf den kollektiven Präferenzen vieler anderer basieren. Das sind Sie nur, mit Hilfe von Recommenders Lab. Wir können die Ähnlichkeit zwischen der Eucharistie berechnen. Jetzt erstellen wir eine Ähnlichkeitsmetrik und eine Methode, die wir verwenden, ARCore Und weiter bist du einfach okay. Jetzt werden wir sehen, dass Ihre bloße Ähnlichkeit das durcheinander bringt. Nochmals. Es gab nicht genug Platz C. Jetzt siehst du nur Ähnlichkeiten, du siehst nur deine Ähnlichkeitsmatrix Ähnlich werden wir tun, wird so aussehen, als ob es mindestens mehrere zwischen den Filmen gibt, die wir verwenden. Und wir werden das ausführen und dann das Bild drucken. Nun, Sie können sehen, dass dies die Ähnlichkeit mit dem Film ist. Nun bewerten wir Werte als Matrixdaten für die Bewertung von Direktoren, wir werden sehen. Dann werden die eindeutigen Bewertungen extrahiert. Sie verwenden ein Unikat und benötigen dann die Bewertungswerte. Tabelle der Bewertungen. Erstellen einer Filmbewertung. Und dann sehen wir uns die Tabelle an, um Werte zu bewerten und zu bewerten. Nun, was wir tun werden. Wir machen die am häufigsten angesehene Visualisierung. Und dafür werden wir zwei Filme zeichnen, die Views unterstreichen und Qualcomms Bewertungsmatrix namens Count verwendet und dann TableViews einen data.frame-Film Wir nehmen die Namen der Filmzuschauer und nehmen die Namen aus der Filmansicht und gehen zu den Filmzuschauern. Hier Datenrahmen der Zukunft durch diese Tabelle. In ähnlicher Weise wiederholt sich der TableViews-Index über alle 325 Filme Und das werden wir. Und dann werden wir sehen , wie die Tabellenansichten Tabellenansichten laufen. Warten Sie, bis der Vorgang abgeschlossen ist. Also schau jetzt hier, komplette FC hier, du kannst die Filmkritiken und den Titel sehen . Als Nächstes stellen wir fest, dass Sie das Balkendiagramm oder die Gesamtzahl der Ansichten der oberen Seite verwenden . Bisher verwenden wir den GG-Plot, TableViews und die Ästhetik Wir verwenden Titel und Ansichten sowie Geom-Leiste, Geom-Texte und Team und löschen Ich gebe dir den Titel hier. Also ich hoffe, du weißt all diese Dinge. Ich werde nicht ins Detail gehen. Jetzt können Sie also sehen, dass der Wald 331 ist. Ihr Klassiker zurück zu 94, Views und Bulk. Okay. Auf diese Weise können wir harte Zuschauer auf die Rasenfelder bekommen. Total kurbelt die Top-Unternehmen an. Jetzt. Firmen. Okay, jetzt erstellen wir eine Heatmap für die Filme. Sehen Sie sich hier die Heatmap mit den ersten 25,25-Dollar-Spalten an. Okay, als Nächstes werden wir tun. Wir werden mit der Datenaufbereitung beginnen. Bewertungen von Filmen sind also höher als 50 und der aktuelle Vertrag wurde verbessert. Dann. Sehen Sie sich die Filmbewertung für 22 an, für 1.400 im Unterricht Okay? Also diese vielen sind für mehr als drei da, okay? Jetzt, bei den relevanten Metriken bewertest du nur 0,9. Also mindestens Filme und mindestens was Sie sehen werden, wir werden den Inhalt dafür verwenden. Und dann erstellen wir ein EMS, sehen eine Heatmap von oben, du fügst einfach die Filme hinzu. Als Nächstes müssen wir uns die Verteilung der Durchschnittsbewertungen vorstellen , die riesig sind Dafür verwenden wir also die durchschnittliche Unterstrichbewertung. Und Form bedeutet, dass wir die Bewertung und das Testament des Films nicht geplant hatten. Jetzt zeichnen Sie C auf und jetzt erhalten wir die Verteilung der Durchschnittsbewertung, aber Sie sind einfach okay, also das ist die Verteilung der Durchschnittsbewertung, aber Sie sind einfach dann, wir werden das für die Datennormalisierung verwenden Dazu verwenden wir unnormalisierte Bewertungen, normalisierte Funktionsrezensionen und Bewertungen anderer Filme Dann bedeutet ein Teil der Zeile normalisierte Bewertungen von mehr als 0,001 Und dann sieh dir diese normalisierte Bewertung an, die Top-Benutzer. Hier können Sie also sehen, dass Sie eine Artikelspalte erhalten. Okay, als nächstes die Datenbinarisierung die wir bereits im Enterotoxin besprochen haben Hier verwenden wir also Quantile und Zeilenanzahl, Filmbewertung und dann mehr Base Wash Und dann bewertete Filme, Binärfilme, mehr, Mindestbewertung drei. Also Mindestbewertung a3. All diese Filme werden bekommen. Also lass uns das ausführen. Siehst du, das sind die Filme , die eine Mindestbewertung von drei haben. Jetzt gehen wir zur kollaborativen Filterung und dabei wird der Datensatz in einen Trainingssatz und 20% des Testsatzes aufgeteilt einen Trainingssatz und 20% des Testsatzes Also Beispieldaten, wir haben hier Ihre Beispielmethode. Und hier was wir gemacht haben, wir haben sogar 80% für das Training und den Test. Teilen Sie die Daten auf. Jetzt werden wir diese Trainingsdaten und Testdaten sehen. Und dann erstellen wir mithilfe eines registrierten Registers für Empfehlungsgeber eine Empfehlung Und hier werden wir, was wir tun werden, wir erhalten Einträge, Datentypen, echte Bewertungsmatrix, die wir erstellt haben Und dann verwenden wir das Auge vcf, unterstreichen die reale Matrix und die Parameter, und dann verwendet der Empfehlungsgeber die Empfehlungsanzeigen Und hier werden wir die Trainingsdatenmethode weitergeben. Wir verwenden IV CF und legen los. Okay, lassen Sie uns all diese Dinge erledigen. Jetzt haben wir das Empfehlungsmodell für Empfehlungsgeber. Schon. Führen Sie diese Klasse von Empfehlungsmodellen aus. Sie können sich das Empfehlungslabor ansehen und jetzt die Datenwissenschaft und die Koordinationsmodelle erkunden die Koordinationsmodelle Also lasst uns dieses Klassenmodell abgeben, Modell und Modell vergessen. Und für C, D, D, C traf sich danach, danach Klammern und Patricks nächster ist weg. Diese Top-Artikel. Dies sind die Top-Artikel. Und dann sehen wir eine Heatmap in der ersten Zeile und in den ersten Spalten von. Wenn Sie dann diese Summe der Ziehungen ausführen und einige dieser 30,47, dann GG-Plot auflisten, sehen wir, dass dies der Qplot und das Balkendiagramm Sie können die Verteilung der Anzahl der zu empfehlenden Artikel in der Spalte sehen . Sie haben gerade weniger als zehn angegeben und empfohlenen Tag vorhergesagt einen empfohlenen Tag vorhergesagt. Einige Empfehlungen für den ersten urogenitalen Film: Ein Film von 1 Bar, einer von zehn Filmen Und dann Empfehlungsmatrix, Matrix mit der Empfehlung für einen easyJet-Flug, Freundlichkeitsartikel Und wir schätzen die Spaltennamen aus den gelesenen Filmen. Ich werde Artikel kaufen und dann Dark Title, Verteilung der Anzahl der IVC nach oben und qplot Anzahl der Artikel seit t, Verteilung der Artikelnummern, Anzahl der Artikel nach BCF und da Vinci, die am besten und qplot Anzahl der Artikel seit t, Verteilung der Artikelnummern, Anzahl der Artikel nach BCF und da Vinci, die am besten empfohlenen Filme. Wallace und Gromit, Gott Vater, Sohn sind gestorben und die YuJa auch Auf diese Weise können wir den empfohlenen Film für den YuJa bekommen den empfohlenen Film für den YuJa Ich hoffe, Sie haben dieses Projekt verstanden. Wenn du irgendwelche Zweifel hast, kannst du das tun, indem du sie kommentierst, indem du die Frage im Unterricht Danke. 87. Projekt 5 Einführung Erkennung von Kreditkartenbetrug: Hallo und willkommen zurück. Deshalb heiße ich Sie zu einem weiteren Projekt willkommen , das Projekt Nummer fünf für diesen Kurs ist. Und das ist die Erkennung von Kreditkartenbetrug, wenn man nach unserer Programmierung urteilt Und hier werden wir auch einen Algorithmus für maschinelles Lernen verwenden . Was ist also das Ziel dieses Projekts? Möglicherweise sind Sie sich des Online-Betrugs und der Tatsache bewusst, dass heutzutage Daten passieren, als ob der Notenausweis von jemandem verwendet wird. Ohne ihr Wissen die sozialen Medien von jemandem gehackt. Diese Art von Betrug wird also online durchgeführt. Die Bankdaten von jemandem werden gestohlen. Das Bankkonto einer Person wurde gestohlen und sie haben das Geld von ihrem Konto abgebucht. In Indien gibt es nur wenige Vorfälle, bei denen Menschen, ohne zu wissen, dass sie die Erlaubnis ihres Erziehungsberechtigten gegeben haben oder ihr OTP gerade angerufen wird Ah, der Betrüger sagt , dass sie von der Bank aus anrufen und nach der Debitkartennummer fragen Und dann fragen sie nach der CBP-Nummer. Und die Leute sagen unwissentlich, schicken alle Informationen und denken, dass die Person, die anruft, von der betreffenden Bank stammt . Und sie legen nur unsere Daten fest. Und nach diesem OTP ihr gesamtes Geld von ihrem Bankkonto abgezogen. Diese Art von Betrug ist also im Gange und wir müssen sehr, sehr vorsichtig sein Ein solcher Online-Betrug ist Kreditkartenbetrug. Nun, die Leute benutzen ihre Kinder zur Bewährung in Zeichentrickfilmen oder um etwas zu kaufen, oder sie speichern ihre Kreditkarteninformationen, oder sie sagen, gibt es Kate-Kartennummern und einige sogar Nummern, ohne dass die Leute es wissen und die Leute benutzen sie ohne ihr Wissen Und es gibt mehrere Vorfälle , bei denen die Kate-Karte benutzt wird ohne dass die Kate-Karte beim Impasto physisch anwesend Dies dient der Erkennung von Kreditkartenbetrug. Also müssen wir eine sortierte Front machen. Immer wenn eine Notenkarte von jemandem benutzt wird, weiß das Unternehmen, dass es sich bei dieser Transaktion um eine betrügerische Transaktion handeln könnte , und es kann den Kunden , den Inhaber der Gradekarte, sofort darüber informieren, dass Sie diese Art von Tangenten ausführen Und gerade jetzt sagt der Kunde oder der Inhaber des Notenausweises: Nein, nein, das bin nicht ich. Jemand anderes führt diese Transaktion durch, dann wird sie diese Transaktion sofort ablehnen. Und auf diese Weise werden wir die Klassenkarte mehr benutzen und es wird nicht viel Geld gespart. Ziel dieses Projekts ist es daher, unseren Klassifikator zu entwickeln, identifiziert werden können betrügerische Kreditkartentransaktionen Dafür, was ich getan habe, habe ich Sie, werde ich verschiedene Algorithmen für maschinelles Lernen verwenden , wie z. B. einen Entscheidungsbaum, logistische Regression, künstliche neuronale Netzwerke und letztendlich einen Gradienten-Boosting-Klassifikator letztendlich einen Gradienten-Boosting-Klassifikator Also werden wir sehen, welche Algorithmen wir verwenden können. Und damit können wir klassifizieren, was betrügerisch und nicht produktiv oder Jacksons Dazu verwenden wir einen Datensatz, der die Informationen über die Kuchenkarte und die Art der Kreditkartentransaktionen enthält, die bei vorherrschen oder nicht problematisch Männern mit Training und moderatem Levelaufstieg Dann sehen wir uns Datenexploration, Manipulation, Datenmodellierung, Anpassung des logistischen Regressionsmodells, Entscheidungsbaum, künstliche neuronale Netze an, all diese Dinge werden ausreichen Aber vorher müssen wir Betrug und seine Art im Detail verstehen. Wenn Sie sich also des DOM oder des Problems in Ihrer Hand nicht bewusst sind , werden Sie nicht in der Lage sein, die richtige Lösung zu finden. Bevor wir also mit dem Projekt beginnen, sollten wir wissen, welches Problem wir zeigen werden. Dafür müssen wir also ein sehr klares Verständnis davon haben , was jeder Betrug ist und welche Art von Betrug heutzutage im digitalen Zeitalter begangen wird . Okay, also als Erstes, als das Internet noch nicht da war, waren viele unserer digitalen Transaktionen nicht da. Dann gingen die Leute zur Bank und nahmen das Geld, indem sie ein Formular ausfüllten, und dann das Bankomatkartensystem. Dann fingen die Leute an, die Geldautomaten zu benutzen, um das Geld abzuheben. Und dann fingen die Leute an, die ATM-Betrügereien zu begehen, indem sie einfach den Inhaber der Bankomatkarte vernarbt manipulierten und einfach das Passwort von jemandem sahen und die Karte stahlen und die Karte bei IPM mit IPM Also diese Art von Betrugs-Pullover ist schon früher passiert. Und mit der Zunahme von Davison und Digital Banking werden heutzutage Online-Betrügereien begangen. Sehr selten stapeln. Was ist also Betrug? Betrug ist definiert als jede vorsätzliche Täuschung zum persönlichen und finanziellen Vorteil Betrug ist definiert als die vorsätzliche Befolgung von Vorschriften und zum persönlichen und finanziellen Vorteil Wenn Sie also etwas tun, wenn Sie dieses Epsilon mit jemandem zu Ihrem persönlichen oder finanziellen Vorteil tun , dann wird es als Betrug eingestuft Es geht darum, Fett nicht zu präsentieren, zu verbergen oder zu manipulieren, um andere zu täuschen Und welche Arten von Upgrade-Kartenbetrügern passieren heutzutage Also Arten von Kreditkartenbetrug, Identitäts-, Konto-, Übernahmekarte, nicht anwesend, Betrug und gefälschte Und dann kommt das Skimming. Also werden wir es eins nach dem anderen verstehen. Was sind diese Arten von Kartenbetrug? Das allererste ist also Identitätsdiebstahl. Was ist also Identitätsdiebstahl? Betrug bedeutet einfach, für Betrüger zu stehlen, persönliche Informationen wie Sozialversicherungsnummern oder Anmeldeinformationen zu stehlen, um sich als das Opfer auszugeben In dieser Situation also diese Tilde, abgesehen von Informationen wie Quelle, einigen Sicherheitsnummern oder anderen, unserer Kartennummer oder gesperrten Kartennummer oder den Anmeldeinformationen Ihrer Bank Und die Kcat Dunbar geben sich in einigen Fällen so aus , als ob sie der wahre Kunde sind Und dann melden sie sich mit den Daten an und verwenden Ihre Bankdaten , um die Transaktionen durchzuführen. Sie verwenden die gestohlenen Informationen, um ein betrügerisches Konto zu eröffnen und unbefugte Wege einzuschlagen. Mit solchen wie Ihrer anderen Cardio- oder PAN-Karte können sie in Ihrem Namen ein Bankkonto eröffnen und dann beginnen sie sich für Sie auszugeben und sie werden die Transaktionen durchführen, die auf Ihren Namen laufen, aber Sie sind Das nennt man also Identitätsdiebstahl. Dann kommt die Kontoübernahme. Die Kontoübernahme ist eine weitere Art von Betrug, bei der Kriminelle unbefugten Zugriff auf ein legitimes Meet-Konto erlangen , indem sie Kontodaten wie Passwörter oder persönliche Identifikationsnummern stehlen wie Passwörter oder persönliche Identifikationsnummern In diesem Fall hacken sie einfach Ihr Konto, stehlen Ihr Passwort, Ihren Benutzernamen und Ihr Passwort und lassen Ihr Konto übernehmen. Und dann werden sie mit Ihrem Konto machen, was sie wollen. Sie übernehmen die Kontrolle über Ihr Konto und verwenden es für betrügerische Aktivitäten wie Einkäufe , Kunst und das Übertragen von Schriftarten. Sobald sie also die Kontrolle über Ihr Konto haben, können sie alles tun. Sie können das Geld von Ihrem Konto auf ein anderes Konto überweisen von Ihrem Konto auf ein anderes Konto oder sie können Dinge online und offline kaufen. Und Sie werden keinen Zugriff auf Ihr Konto haben , weil Ihr Konto übernommen wurde Sie können auch Ihr Passwort ändern, sodass Sie sich selbst nicht in Ihr Konto einloggen können. der dritten Betrugsart handelt es sich Betrug, bei dem die Karte nicht anwesend ist. Dieser Betrug tritt auf, wenn betrügerische Transaktionen getätigt werden ohne dass die Grade-Karte physisch anwesend ist. Und am häufigsten sind Online- oder Telefontransaktionen, bei denen Kartendetails oder manuell eingegebene Betrüger riesige Kreditkarteninformationen gestohlen haben, riesige Kreditkarteninformationen gestohlen haben unbefugte Einkäufe zu tätigen In diesem Fall wird die Klassenkarte also nicht physisch anwesend sein, aber was sie tun werden, sie werden dich anrufen und dich bitten, einen bestimmten Jackson zu machen und sie werden dich während des Anrufs nach den Informationen der Kinderkarte fragen und dann werden sie nach dem OTP fragen Und sobald Sie das OTP oder die Tangenten angegeben haben und es abgeschlossen ist und Ihr Geld weg ist, oder sie kaufen etwas in Ihrem Namen und Ihre Kreditkarte wird belastet Die nächste Stufe, gefälschte Karten, Betrug als einfach gefälschte Grade-Karten erstellen , die einmal getroffen Also, was Betrüger bei dieser Art von Betrug tun werden, sie werden ein Fasten erstellen, sie werden einige Informationen über Ihre Käfigkartennummern erhalten über Ihre Käfigkartennummern Sie werden all diese Dinge nummerieren. Und sie werden eine ähnlich aussehende Karte mit einer ähnlichen Käfigkartennummer und der CBP-Nummer erstellen , was wir dem Original sehr legitim erscheinen lassen dem Original sehr legitim Und dann können sie die gestohlenen Kreditkarteninformationen auf der gefälschten Karte verschlüsseln die gestohlenen Kreditkarteninformationen auf der gefälschten Und dann werden gefälschte Karten verwendet, um Einkäufe zu tätigen Oft wissen Sie ohne das Wissen des Carter-Karteninhabers möglicherweise nicht, dass Ihre Klassenkarte gefälscht wurde und dass jemand anderes eine doppelte Kreditkarte mit derselben Nummer hat, die Ihnen zugewiesen wurde, und diese für betrügerische Transaktionen verwendet wird für betrügerische Transaktionen verwendet wird Dies ist also eine andere Art von Kreditkartenbetrug, der heutzutage stattfindet. Die nächste ist Intrige, ist Skimming beinhaltet, rechtlich gesehen, tut mir leid, Skimming beinhaltet die illegale Erfassung von Kreditkarteninformationen ohne Wissen des Karteninhabers. Nehmen wir an, Sie geben Ihrem Einkaufswagen und ohne Ihr Wissen, was sie tun, notieren sie nur Ihre Kreditkartennummern Wenn wir alle guten Informationen, das Ablaufdatum und all diese Informationen nummerieren Ablaufdatum und all diese Informationen , wann sie betrügerische Transaktionen speichern können . Also, wann immer Sie Ihr Auto über den Schalter für dy dx stellen und sicherstellen , dass niemand ohne Ihr Wissen Informationen von Ihrer KD-Karte liest. Und dann haben die Demonstranten, was wir tun werden, diese Kachel installierte die betrügerischen Geräte oder Zahlungsterminals oder Geldautomaten um die Kreditkartendaten zu erfassen Kürzlich wurde in Indien im letzten Monat eine Art von Betrug festgestellt, dass sie die Lieblingskohle für die Geldautomaten verwendeten. Und damit verwendeten sie einige Techniken, bei denen Informationen irgendwie erfasst werden, wenn Sie die Käfigkarte oder Ihre Kreditkarte einstecken die Käfigkarte oder Ihre Kreditkarte einstecken. Und dann später, wenn Sie von den Geldautomaten weggehen und sie werden die tragischen Zellen auf Ihrem APM erledigen Und Sie wissen vielleicht nicht, dass dies ein Plan für das Servieren war , das heutzutage passiert Anschließend verwenden sie die erfassten Informationen, um gefälschte Karten zu erstellen und die Wahrscheinlichkeit eines Zuges zu ermitteln Das ist also die Art von Identitätsdiebstahl, Kontoübernahmekarte, die nicht vorhanden ist, gefälschte Karten und Skimming oder betrügerische Aktivitäten werden online durchgeführt Es gibt auch mehr Arten von Betrügereien, zum Beispiel am Telefon, sie werden so tun, als wären sie ein Bankangestellter und sie werden Sie nach der Summe fragen, zum Glück Ihre Kreditkarteninformationen, sind Ihre Kreditkarteninformationen, Sozialversicherungsnummern und Bankkartennummern dunkler Und dann tun sie so, als würden sie dir einen Preis oder so geben Sie überweisen etwas Geld, um dein Konto zu verwalten, aber tatsächlich werden sie das Geld von dir verlangen und dir einen Link schicken. Und sie wurden gebeten , auf den Link zu klicken. Wenn Sie auf den Link klicken, schwieriger, werden Sie nicht bemerken, dass Sie aufgestanden sind , um das Geld zu überweisen. Sie ziehen das Geld von Ihrem Konto ab und Sie geben einfach das OTP ein und Ihr Geld von Ihrem Konto wird auf das aktuelle Konto überwiesen. Diese Art von Betrug passiert also und wir müssen wissen, wie wir sie stoppen können. Und genau das werden wir in diesem Projekt tun indem wir den Wachmann Jackson untersuchen. Und damit werden wir ein Modell entwickeln, das die Art der Transaktionen erkennt Art der Transaktionen und die betrügerischen Aktivitäten unterbindet 88. Bedeutung der Online-Betrugserkennung: Jetzt haben wir einen kurzen Überblick darüber, was Betrug ist und welche Art von Betrug heutzutage stattfindet Jetzt müssen wir auch verstehen, warum Plot erkennt und das ist wichtig. Betrugserkennung ist also wichtig, das heißt natürlich , um finanzielle Verluste zu verhindern. Aber es gibt auch eine andere Region, es gibt noch ein paar andere Gründe, warum sie ebenfalls angegriffen wurden , und das werden wir verstehen Die Bedeutung der Betrugserkennung. Es gibt drei wichtige wichtige Betrugserkennung , die nach eigenen Angaben vorhanden sind. Und das eine ist die Vermeidung von finanziellen Verlusten. Die zweite betrifft Produkte und Kunden. Und drittens ist die Aufrechterhaltung des Vertrauens. Und diese drei Parameter sind für jedes Bank- oder Finanzinstitut sehr, sehr wichtig. Denn wenn Sie den finanziellen Verlust pro Taxon nicht ausgleichen, wird der Kunde Ihres Kunden nicht bei Ihnen bleiben Wenn Sie die Kundeninteressen nicht schützen, dann sind Sie wahrscheinlich auch nicht länger bei Ihnen. Und wenn Sie dies versäumen, bereiten Sie vor, verhindern Sie finanzielle Verluste und beenden Sie die Produkte Und unsere Frage war Information, dann verlieren Sie offensichtlich das Vertrauen des Kunden. Daher ist es auch wichtig, das Vertrauen aufrechtzuerhalten. Diese drei Dinge sind also sehr wichtig. Als Erstes verstehen wir also, wir diese Vermeidung von finanziellen Verlusten verstehen werden. Der Betrug kann zu erheblichen finanziellen Verlusten für Einzelpersonen, Unternehmen und auch für Finanzinstitute führen. Betrugserkennung hilft dabei, betrügerische Aktivitäten zu erkennen und zu verhindern , wodurch diese Schwangerschaftsverluste minimiert Das allererste Ziel für das Produkt Axon ist es also , ihn zu verhindern, den finanziellen Verlust, den das Individuum Leute wie Sie und ich, für die Unternehmen, die Menschen, die Geschäfte machen, und die Finanzinstitute selbst. Zum Beispiel, wenn jemand kommt und er die Bank hat , das Bankkonto selbst. Und dann kann er, der Vollstrecker, das tun, der Hacker kann jede Transaktion mit jedem Bankkunden durchführen, oder? jedem Bankkunden durchführen, Also, um auch ihr Konto zu schützen, ist es wichtig, okay? Ausgefallene Verlustprävention ist also eine so wichtige Sache. Die zweite ist der Schutz, schützt genügend Kunden. Betrug kann zu Identitätsdiebstahl, unbefugten Transaktionen und anderen finanziellen Schäden für Kunden führen Identitätsdiebstahl, unbefugten Transaktionen . Betrug wird aufgedeckt und verhindert und der Schutz der finanziellen Vermögenswerte und der persönlichen Zustimmung der Kunden wird versiegelt finanziellen Vermögenswerte und der persönlichen Zustimmung der Kunden Also schützt und ein Fragezeichen hier. Das bedeutet, dass wir entweder ein Bankinstitut haben müssen, wenn es eine Bank gibt, sind andere Finanzinstitute da. Ihre Hauptverantwortung besteht darin, die Kundeninformationen sicher und vertraulich zu behandeln. Um sicherzustellen, dass sie die wichtigsten Maßnahmen zur Betrugserkennung implementieren müssen , damit Kunden, finanzielle Vermögenswerte und persönliche Daten sicher sind Die dritte ist die Aufrechterhaltung des Vertrauens. Vertrauen ist auch sehr wichtig, wenn Ihre Bank, Ihr Bankinstitut und ständig betrügerische Aktivitäten auf den Kegeln betrieben werden. Dann verlieren die Kunden das Vertrauen in Sie und suchen dann nach einer anderen Bank. Betrug untergräbt das Vertrauen in das Finanzsystem durch Aktivitäten, Aktivitäten, die Aufdeckung und Bekämpfung von Betrug Finanzinstitute und Venus können das Vertrauen aufrechterhalten, das ihre Kunden und Stakeholder unterstützen. Einmalig. Nehmen wir an, Sie sind eine Bank, X, Y , J und einer Ihrer Notenkarteninhaber. Der Kunde erhält eine Benachrichtigung, wenn jemand versucht, etwas Unbefugtes zu tun, was Exelon, seine oder ihre Notenkarte, angreift seine oder ihre Notenkarte Und bevor Sie diese Transaktion bestätigen, rufen Sie einfach den Kunden an und sagen: Hey, das gibt es, es gibt eine Arc-Tangenten und 99$ werden auf Ihrer KD-Karte Ägypten, das du auf dieser speziellen Website machst. Und wenn der Kunde sofort Nein, nein, nein , das mache ich nicht, hören Sie bitte auf. Und wenn Sie diese Transaktion blockiert haben, lehnen Sie diese Transaktion ab. Und auf diese Weise haben Sie 99$ für Ihren Kunden gespart. Und das wird sicherlich das Vertrauen erhöhen , das diese sicherlich das Vertrauen erhöhen Person dem Kunden entgegenbringt, in Ihre Institution, und er wird Ihr Lehrmittel mit Sicherheit weiterempfehlen Andere auch, weil er weiß, dass Sie gerade 99$ gespart haben. Auf diese Weise werden die Gehälter zur Betrugserkennung über die Unternehmen an die Finanzinstitute weitergegeben. Das wird den Absturz auch für Ihre Kunden verbessern. Lassen Sie uns nun verstehen, welche statistischen Daten über den Betrug vorliegen, welche Art von Betrug stattfindet und wie viel der Betrug die Unternehmen und Kunden kostet globale Laut einem Bericht der Association of Certified Fraud Examiners ist ECF Free also eine Globale Unternehmen verlieren schätzungsweise 5% des Jahresumsatzes durch Betrug. Sehen Sie, globale Organisationen und die großen multinationalen Unternehmen verlieren 5% ihres Jahresumsatzes, was für die breit angelegten Aktivitäten ein sehr, sehr großer Betrag sein könnte breit angelegten Aktivitäten ein sehr, sehr großer Betrag sein Und das bedeutet, dass jedes Jahr Billionen von Dollar verloren gehen Wenn Sie also die wichtigsten Methoden zur Betrugserkennung mithilfe von künstlicher Intelligenz und maschinellem Lernen implementieren die wichtigsten Methoden zur Betrugserkennung , können Sie diese Billionen von Dollar für Ihre Kunden sparen diese Billionen von Dollar für Ihre Der zweite ist Arcade-Kartenbetrug. diesem Bericht von Nielsen heißt es, dass weltweiten Verluste aufgrund des Kreditkartenbetrugs im Jahr 2020 27.000.000.000 USD überstiegen haben, was ein riesiger, riesiger Betrag ist, und dieser Grad Kartenbetrug, eine der häufigsten Betrugsarten, ist nichts wert eine Angesichts der weit verbreiteten riesigen Upgrade-Karte. Das ist eine Sicherung. Die Anschlüsse für Handelskarten sind sehr gut verschlossen. Und Sie können die Statistik C0 sehen, 27 Milliarden $ im Jahr 2020 Und jetzt sind wir im Es hätte also mit der zunehmenden Digitalisierung verdoppelt werden können, wie in Indien in den letzten 34 Jahren, wo alles digital wurde und Gase nur noch sehr wenig verbraucht wurden. In diesem Fall hätte es also auch um eine Erhöhung des Fußabdrucks oder um eine Milliarde Dollar gehen Daher ist die Implementierung der Kreditkartenerkennung sehr, sehr wichtig. Der nächste ist Identitätsdiebstahl. Allein in den Vereinigten Staaten erhielt die Federal Trade Commission und die FTC im Jahr 2020 über 1,4 Millionen Berichte über den Identitätstyp Dies unterstreicht die Prävalenz der Auswirkungen von Identitätsdiebstahl , der häufig zu Finanzbetrug führt Dann Online-Betrug, mit der zunehmenden zunehmenden Akzeptanz von E-Commerce und Online-Transaktionen, Online-Betrug zu einem erheblichen Problem geworden. Der LexisNexis, diese Lösung enthält 20 wahre Produktkosten, hat ergeben dass jeder 1$ betrügerischer Transaktionen Zeugen 3,36$ kostet , weil es zu Rückbuchungen kommt und Mark und Würfel verloren gehen Das ist also die Wirkung. Unternehmen verlieren 1$. Es ist nicht so, dass sie 1$ verlieren, aber laut diesem Bericht wird es sie indirekt 3,3, 6$ kosten laut diesem Bericht wird es sie indirekt 3,3, 6$ Und sie sagten, dass diese Statistiken aufgrund der Rückbuchungen, Gebühren und der verlorenen Waren die Dringlichkeit und Bedeutung der Umsetzung wirksamer Maßnahmen zur Betrugserkennung unterstreichen , um die finanziellen und möglichen Risiken im Zusammenhang mit Betrug zu mindern möglichen Risiken im Und damit ist das Wissen über den Betrug Art und Sterne, welche Auswirkungen es je nach Finanzinstituten hat, auf die Kunden, einzelne Kunden und Finanzinstitute und Schwächen. Jetzt sind wir bereit, mit unseren Projekten fortzufahren. In der nächsten Vorlesung werden wir also mit der Erstellung der Excel-Projektseite für Datumskartenprodukte beginnen . Die nächste Vorlesung 89. Umgang mit unausgeglichenem Datensatz: Bevor wir also mit dem Schreiben des Codes für das Projekt beginnen, lassen Sie uns einige weitere Dinge über die Betrugserkennung verstehen . Und das ist wichtig, um das Projekt als Versuch durchzuführen, bevor das Projekt gestartet wird. Einschließlich des theoretischen Teils , der sehr wichtig ist, um Ihr Lernen zu verbessern. In dieser Vorlesung werden wir also verstehen, welche Herausforderungen mit den von uns möglicherweise erstellten Modellen zur Betrugserkennung verbunden sind mit den von uns möglicherweise erstellten Modellen zur Betrugserkennung verbunden und wie diese bewältigt werden können. Also lass uns anfangen. Herausforderungen im Zusammenhang mit den Modellen zur Betrugserkennung. Es gibt also einige Herausforderungen wenn wir unsere Modelle zur Table Up oder Betrugserkennung ausarbeiten. Und eines der sehr wichtigen sind sehr, das kommt sehr häufig vor. Das heißt, unausgeglichene Datensätze. Also unausgewogener Datensatz oder die Datensätze. Nehmen wir an, Sie Betrugserkennung für Kd-Karten durch und wissen, dass Betrugsaktivitäten bei Arcade-Karten sehr gering sind, um 0,1% oder 0,001% Es besteht die Möglichkeit, dass eine Kreditkartenaktivität oder Transaktion betrügerisch ist. Also, wenn wir den Datensatz haben, der die meisten Transaktionen für unsere vier Autos auf der ganzen Welt enthält. Lassen wir ihn Teamkollege eines der wenigen Seen in einem Lakh, 1 Million Patronen x und es wird einige hundert Transaktionen geben, die betrügerisch sein werden Wenn wir also den Datensatz sammeln, werden die meisten der 99% des Datensatzes die legitimen Transaktionszellen enthalten, nur wenige davon werden Betrug sein Wenn wir also ein Modell erstellen, werden unsere Modelle immer von der Mehrheit bevorzugt. In diesem Fall wird es also, es wird immer, welche Transaktion auch immer stattfinden wird, als legitim auslösen weil die betrügerischen Transaktionen sehr gering sind, unsere Modelle werden nicht viel über das Produkt lernen. Jacksons und weil der Datensatz zu 99% die legitimen Transaktionen enthält, wird er immer der legitimen Transaktion den Vorzug geben. Es wird also nicht sehr selten ausgelöst , sondern es löst betrügerische Aktivitäten aus. Daher ist ein unausgewogener Datensatz eine der Herausforderungen im Zusammenhang mit unserem Modell zur Betrugserkennung Betrügerische Transaktionen sind im Vergleich zu legitimen Transaktionen relativ selten . Also der erschütternde, unausgewogene Datensatz, die Mehrheit, die Jackson angeblich erreicht hat, obwohl nur ein kleiner Teil der Transaktionen betrügerisch Dieses Klassenungleichgewicht stellt die Klassenkameraden betrügerische und legitime Transaktion Dieses Klassenungleichgewicht stellt die Schulungsmodelle also vor Herausforderungen , da sie möglicherweise gegenüber der Mehrheitsschicht voreingenommen werden, was zu schlechter Arbeit bei der Erkennung eingerichteter Produktinstanzen führen Jetzt haben wir verstanden, was dieses E ist, also dieses zwei bezieht sich darauf der Großteil des Datensatzes die legitimen Transaktionen enthalten wird , da betrügerische Transaktionen sehr selten sind. Also. Dies wird dazu führen, dass nach unserem Modell genügend betrügerische Fälle erforderlich sind. Ein weiteres Problem sind adaptive Betrugstechniken, mit denen wir ihre Techniken ständig weiterentwickeln können, um die Erkennungssysteme zu bisphosphat Was auch immer das Erkennungssystem sein mag, die Art und Weise, wie wir die Betrüger sind einen Schritt voraus und sie werden entwickeln, sind einen Schritt voraus und sie werden ihre Techniken weiterentwickeln , um dieses Erkennungssystem zu umgehen Sie übernehmen ihre Methoden, wodurch sie schwerer zu identifizieren sind. Verwendung traditioneller regelbasierter Regeln. Unsere musterbasierten Ansätze. Gemäß den geltenden Vorschriften müssen Betrugsbekämpfungsmodelle regelmäßig angewendet werden , um mit der zunehmenden Unterstützung von Betrugsmustern Schritt zu halten . Sie haben Deb Love mit einem regelbasierten Ansatz oder einem musterbasierten Und wir haben eines für das Erkennungssystem entwickelt. Und du aktualisierst es nicht. Aber im Laufe der Zeit die Demonstranten studieren, sie werden Techniken entwickeln und sie werden einfach falsche Erkennungssysteme einrichten und sie werden anfangen, betrügerische Aktivitäten durchzuführen Deshalb ist es sehr wichtig, die Techniken anzuwenden und Ihre Modelle alle paar Monate zu verbessern , damit Sie, ich, der Leiter der Demonstranten sein werden ich, der Leiter der Demonstranten Das nächste Problem ist das sich entwickelnde Betrugsmuster. Betrugsmuster sind also nicht begrenzt. Unterstützung. Sie haben einen Datensatz, in dem Sie ein Modell entwickeln, und es gibt nur wenige Muster, die Sie erkannt haben und es hat einen Mechanismus entwickelt, um einen betrügerischen Schlagstock zu identifizieren und auszulösen , während Nixon weitermacht Aber was wird passieren , das Betrüger neu erfinden oder sie werden immer neue Muster erfinden, die nicht im Datensatz enthalten sind Und aus diesem Grund sind unsere Models nicht darauf geschult. Wenn unser Modell also nicht aktiviert ist , erkennt es dieses Muster nicht und es wird dazu führen , dass legale , legitime und betrügerische Aktivitäten von Azure nicht erkannt werden Also sich entwickelndes Spannungsmuster. Eine weitere Herausforderung bei der Betrugserkennung. Betrugsmuster ändern sich im Laufe der Zeit, was es für Betrugserkennungsmodelle schwierig macht , neue und neue Betrugstechniken zu erkennen. Modelle müssen in der Lage sein, unbekannte oder bisher unbekannte Betrugsmuster zu erkennen unbekannte oder bisher unbekannte Betrugsmuster ohne sich ausschließlich auf historische Daten verlassen zu müssen Wir müssen unser Modell also so gestalten , dass es eine betrügerische Transaktion erkennen kann, auch wenn sie nicht an diesem Fuß stattgefunden hat und noch nie zuvor stattgefunden hat oder es sich nicht um historische Daten handelt Es sollte also auch das neue Muster erkennen. Das ist also eine weitere Problemherausforderung , die von den Systemen zur Betrugserkennung genutzt wird. Skalierbarkeit und Verarbeitung in Echtzeit sind eine weitere große Herausforderung bei der Betrugserkennung groß angelegte Finanzsystem verarbeitet die gesamte Anzahl von Transaktionen in Echtzeit. Modelle zur Betrugserkennung müssen große Datenmengen effizient verarbeiten und Echtzeitanalysen bereitstellen , um betrügerische Aktivitäten wirklich schnell zu erkennen . Dies erfordert eine robuste Infrastruktur und optimierte Algorithmen, um Skalierbarkeit und Echtzeitverarbeitung zu gewährleisten Skalierbarkeit und Echtzeitverarbeitung Dies ist also eine weitere sehr wichtige und sehr große Herausforderung, Skalierbarkeit und Echtzeitverarbeitung Dort werden die Daten abgefragt. Wenn wir eine betrügerische Transaktion erkennen möchten und Sie möchten , dass Sie nur wenige Sekunden Zeit haben, stehen sechs bis 8 s Zeit zur Verfügung, um die betrügerische Transaktion zu erkennen, auszulösen und zu identifizieren. Wenn Sie diesen Zeitrahmen, also sechs bis 8 s, verpassen , vergeht er. Die zeitgesteuerte Echtzeitverarbeitung ist also sehr, sehr wichtig und dies sollte sehr schnell erfolgen Das ist also eine andere Sache. Dann erfordert Feature Engineering, das bei der Entwicklung eines effektiven Systemmodells zur Betrugserkennung effektiven Systemmodells zur Betrugserkennung eine wichtige Rolle spielt, Fachwissen und Feature-Engineering Identifizierung relevanter Funktionen zur Erkennung von Betrug. Betrug oder elektrische Muster sind für eine genaue Erkennung von entscheidender Bedeutung. Die Auswahl der richtigen Funktionen und die Erstellung aussagekräftiger Darstellungen von Daten können jedoch eine Herausforderung sein und erfordern Fachkenntnisse und sind sehr aktiv. Ich habe versucht, Datenschutz, ständige Betrugsbekämpfung, Aufdeckung, die Verarbeitung sensibler Kundendaten Lesen von Datenschutzbedenken Es ist wichtig, die Einhaltung der Vorschriften sicherzustellen und die Datensicherheit während des gesamten Betrugserkennungsprozesses zu gewährleisten Datensicherheit während des gesamten . In der nächsten Zelle dieser falsch positiven und falsch-negativen Felder finden Sie das richtige Gleichgewicht zwischen der Minimierung falsch positiver Ergebnisse, der Kennzeichnung legitimer Transaktionen, betrügerischen und falsch negativen betrügerischen Transaktionen , die miteinander verknüpft und Und die als legitime Transaktion ausgelöste Transaktion ist eine Herausforderung. Eine hohe Falsch-Positiv-Rate kann dem Kunden Unannehmlichkeiten bereiten, während eine hohe Falsch-Negativ-Rate zu finanziellen Verlusten führen kann Feinabstimmung der Modellparameter. Und es ist immer notwendig, die Leistung zu optimieren. Was ist also falsch positiv? Falsch positiv bedeutet, dass legitime Transaktionen als betrügerisch gekennzeichnet werden Was wird also in diesem Fall passieren? Unterstützung für Benutzer, die seine eigene Kreditkarte verwendet und eine Transaktion durchgeführt haben Was Ihr Modell auslösen wird, ist ein betrügerischer Azure-Betrug. Und Sie rufen sofort diesen Kunden an und sagen, dass Sie auf Ihrer Kreditkarte einige Vaterlandsprojekte durchführen und dass sie durchgeführt werden Was passiert also , wenn dieser Kunde, er selbst, das tut, Transaktionen tätigt und er irritiert wird , weil er Tangenten hat und gestoppt In diesem Fall führen falsch positive Ergebnisse zu erheblichen Unannehmlichkeiten für den Kunden Und wenn es immer wieder passiert, wird es den Kunden sehr irritieren In ähnlicher Weise können die positiven und falschen negativen Fehler auch zur Finanzierung führen Wenn eine betrügerische Transaktion übersehen wird und sie das System durchläuft, führt Gordon zu finanziellen Verlusten. Der Vorstand, wir müssen falsch negativ und falsch positiv abwägen falsch negativ und falsch positiv , sodass diese beiden Fälle nur sehr selten vorkommen. Inter, intermittiertes Können und Erklärbarkeit. Moderne Techniken des maschinellen Lernens wie Deep Learning können hochgenaue Modelle zur Betrugserkennung liefern . Sie sind jedoch oft nicht interpretierbar, was es schwierig macht, die Gründe für die Entscheidungen des Modells zu erklären die Gründe für die Entscheidungen des Modells Die Fähigkeit, Modellergebnisse zu interpretieren und zu erklären, ist entscheidend, um Vertrauen und Akzeptanz bei den Stakeholdern zu gewinnen . diese Herausforderungen zu bewältigen, ist eine Kombination aus fortschrittlichen Modellierungstechniken, kontinuierlicher Überwachung, Fachwissen und der Zusammenarbeit zwischen Datenwissenschaftlern, Unleashed und Fachexperten erforderlich eine Kombination aus fortschrittlichen Modellierungstechniken, kontinuierlicher Überwachung, Fachwissen und der Zusammenarbeit zwischen Datenwissenschaftlern, , um eine robuste und anpassungsfähige Betrugserkennung von Sonnenfischhalden zu entwickeln eine robuste und anpassungsfähige Betrugserkennung Okay, jetzt werden wir einige Techniken besprechen , mit denen wir mit dem unausgewogenen Datensatz umgehen Denn in unserem Projekt werden wir einen Datensatz oder eine Kreditkartentransaktion verwenden, die ihrer Natur nach einen Datensatz oder eine Kreditkartentransaktion verwenden unausgewogen sind, weil die meisten Transaktionen bei etwa 98, 99% liegen. Tange-Exzellenz ist die meisten Transaktionen bei etwa 98, 99% liegen . Tange-Exzellenz genauso legitim und ein Blatt 1% und die Exons sind da, was den betrügerischen Umgang mit unausgewogenen Datensätzen auslösen wird betrügerischen Umgang mit Der Umgang mit unausgewogenen Datensätzen ist ein entscheidender Schritt bei der Entwicklung effektiver Modelle zur Betrugserkennung. Hier sind einige Techniken, die häufig verwendet werden, um die Herausforderungen zu bewältigen, die sich aus unausgewogenen Datensätzen Die erste Technik ist diese Probenahmetechnik, die erneute Probenahme mit Wasser Wir nehmen Stichproben, wir haben, wir haben zwei. Wir müssen das neu berechnen, damit das Ungleichgewicht im Datensatz behoben werden kann Und beim Resampling gibt es auch einige Techniken , die wir anwenden können Die erste ist die Unterabtastung. Bei der Unterstichprobe werden nach dem Zufallsprinzip Instanzen aus der Mehrheitsklasse entfernt , um den Datensatz auszugleichen Dies verringert die Dominanz der Mehrheitsklasse, kann jedoch zum Verlust wertvoller Informationen führen Wenn wir also weiterhin nach dem Zufallsprinzip die Mehrheitsklasse entfernen, kann dies auch zum Verlust wertvoller Informationen führen, aber das wird auch getan. Okay? nächste Schritt besteht darin, diese Checklisten zu überlisten, indem synthetische Instanzen von Minderheitenklassen erstellt werden , um den Datensatz auszubalancieren Der nächste Schritt besteht darin, diese Checklisten zu überlisten, indem synthetische Instanzen von Minderheitenklassen erstellt werden, um den Datensatz auszubalancieren. In diesem Fall füllen wir den Datensatz mit der Minderheitenklasse. Dies kann durch Techniken wie Random Oversampling oder das Minority-Oversampling-Verfahren mit intelligenten synthetischen Modellen Intelligentes Oversampling erhöht die Repräsentanz der Minderheitenklasse, kann aber zu einer Überanpassung führen Das führte also zum Problem der Überanpassung. Hybrid-Modell. Diese Modelle kombinierten sowohl Oversampling- Undersampling-Techniken, um den Datensatz effektiv auszugleichen Als nächstes folgen algorithmische Techniken. Die erste ist kostensensitives Lernen als n. Dann beide Methoden, Anomalieerkennung ist eine weitere Technik, Bewertungsmetriken und die Einbeziehung aller dieser Techniken, mit denen wir uns mit dem unausgewogenen Datensatz befassen werden In unserem Projekt werden wir uns also mit diesem unausgewogenen Datensatz befassen , bei dem wir eine Überstichprobe unseres Datensatzes mit einer dopaminergen Wolke durchführen, bei unseres Datensatzes mit einer dopaminergen Wolke der es sich um betrügerische Aktivitäten handelt. Wir sehen uns also in der nächsten Vorlesung. 90. Betrugserkennung ohne Model: Hallo und willkommen zurück. Also lasst uns mit dem Projekt beginnen. Hier verwende ich also eine Kreditkarten-Punkt-CSV-Datei, die die Details zu Kreditkartentransaktionen enthält. Okay, also wir, der erste Schritt besteht darin, diese CSV-Datei zu lesen. zu tun, also um das zu tun, was ich verliere, verliere ich die CSV-Funktion vor der Tür und übergebe den Pfad für die CSV-Datei und den TSV-Dateinamen. Also den dreckigsten rotieren wir und dann speichere ich ihn darin und dann speichere ich Notenblatt variabel. Es ist so wichtig, dass es so ist, denn weißt du es? Sehr gut. Bisher besteht der Schritt darin, dies auszuführen. Jetzt haben wir die Notenkartendetails in dieser Notenkarte, okay, in dieser Variablen. Also wenn du darauf klickst, siehst du hier, dass es hier ein paar Spalten mal V1, V2, V3 Und diese V1, V2, V3 werden 20. sein Und dann ist die Spalte Menge, und dann ist eine weitere Spalte Glas. Sie möchten also 28 Jahre alt sein und dann Zeitstempel und dann Betrag und Klassenspalte Also, was sind diese Kolumnen? , Zeitstempel und diese V1, V2 bis V 28, Arthur Jackson-Kartentransaktionsdetails der Benutzer Und warum ist das so, weil dies nicht die eigentlichen Transaktionen für die Säkularitätsregion Und um die Informationen der riesigen Arcade-Karteninformationen sicher zu verwahren . Mit dem PCM. haben wir. Diese Spalten sind die reduzierte Version der tatsächlichen Daten, um den Benutzerinformationssektor beizubehalten. Und dafür verwenden wir BCM und wir verwenden Diamantenmodalität, um es auf dieses Formular zu reduzieren , sodass der Richter Informationen Ihr ablehnen wird Es gibt einen Betrag und dann gibt es eine Klasse Klassen sind für Euro die präsentierten Hauptbuchtransaktionen und eine für betrügerische Transaktionen präsentierten Hauptbuchtransaktionen und eine Das ist also die Datensatz-Reha, und wir werden uns an diesem Datensatz orientieren Als Nächstes sehen wir uns die Struktur des Datensatzes an. Und dafür verwenden wir die STR-Funktion und übergeben diese Kartenvariable. Und wenn wir das ausführen, werden wir, wir werden ihnen geben, das wird das Ergebnis liefern. Läuft immer noch. Beginnen Sie mit der Struktur der Daten. Okay? Als Nächstes ist dies die Struktur des Dataset-Zeitstempels Hier können Sie also sehen, dass alle Spalten numerisch sind. Und unter diesen Zahlen und dem Glas hier, das hier ist , ist es numerisch GTO eins Aber eigentlich sind das keine numerischen Daten, sondern so sei es, es sind kategorische Daten, oder? Weil es so ist, ist der entscheidende Faktor für den Euro das Legitime und 1 "weiter Eine davon ist für betrügerische Transaktionen also das wäre im kategorischen Format Was wir also tun müssen, wir müssen das zum Faktor machen. Wir müssen diese Ganzzahl in den Faktor umrechnen. Und dafür werde ich den Kreditkartendollar verwenden, Dollar, Klassenkameraden, wir werden diesen Kurs verwenden Okay? Diese Kolumne. Okay, kannst du lesen, dass der Dollar-Call Kurs uns zu dieser Farbe führt. Und dann verwenden wir die Faktorfunktion , um dies in den Faktor umzuwandeln. Und dann geben wir hier wieder Kreditkarten-Dollar-Klassen und dann Kommastufen Du kannst 01 sehen. Wir weisen also G21-Faktoren zu. Dies zu diesem. Auf diese Weise wird es in die umgewandelt, konvertieren Sie es in die Faktoren. Also früher war es Integer Nun, wenn wir die Struktur des Datensatzes sehen, wenn ich das noch einmal durchführe, können Sie hier sehen, dass alle anderen Spalten nomadisch sind und das Glas kein Faktor mit zwei Ebenen ist. 01. Okay? Nun haben wir die Glassäule erfolgreich in zwei wertvolle Faktoren umgewandelt . Okay? Jetzt sehen wir uns noch einmal die Struktur des Datensatzes an und beachten den Brillenfaktor. Als Nächstes wird nach dem fehlenden Wert gesucht. Wann immer wir unseren Datensatz erhalten, überprüfen wir als Erstes, ob Nullwerte vorliegen. Wenn es keine Werte gibt, müssen wir sie angehen. Wir müssen mit den Nullwerten umgehen, indem wir einige Verlierer die Säulen und Stockwerke entfernen, die mehr Nullwerte enthalten Es gibt also einige Techniken , die wir anwenden, um mit fehlenden Werten umzugehen. Und hier, um die fehlenden Werte zu überprüfen, die wir verwenden, ist Dark any und den Datensatz zu analysieren Und Daumen weg ist ein A gibt uns die Gesamtzahl der fehlenden Werte im Datensatz. Ein Teil von ist dunkles NA, und dann wird die Datensatzvariable hier übergeben. Also lass uns, lass mich das erledigen. Jetzt geht es auf Null. Das bedeutet, dass unser Datensatz keine fehlenden Werte enthält , sodass fehlende Werte ignoriert werden. Darüber müssen wir uns also keine Sorgen machen. Dafür müssen wir nichts tun. Als Nächstes wird die Verteilung von Betrug und legitimen Transaktionen im Datensatz ermittelt Dafür verwenden wir nun die Tabellenfunktion und übergeben die Glasspalte, verwenden wir nun die Tabellenfunktion und übergeben die weil die Klassenspalte der Verteilungsfaktor ist, der zeigt , welche Transaktion betrügerisch und welche legitim ist Also Kreditkarte, Dollar, Unterricht und Tische. Dies gibt uns also die Anzahl der Transaktionen und die Anzahl der betrügerischen Transaktionen. Null ist also 28.004, also 84 mal Drei, die wir erhalten ist die Hauptbuchtransaktion, ein Lift 492 oder die betrügerischen 492 oder die Also hier mit dieser Woche, Glücksspiel, wissen, dass dies der unausgeglichene Datensatz ist , weil der Großteil des Datensatzes, jeder hat seine Tangenten und agile legit Transaktion und einsame zweibeinige 34.300.492 als betrügerische Transaktion, was sehr weniger ist im Vergleich zur Hauptbuchtransaktion jeder hat seine Tangenten und agile legit Transaktion und einsame zweibeinige 34.300.492 als betrügerische Transaktion, was sehr weniger ist im Vergleich zur Hauptbuchtransaktion. Das ist also eine Art von unausgewogenem Datensatz. Jetzt werden wir sehen, wie hoch der Prozentsatz legitimer und für den Berliner Datensatz betrügerischer Transaktionen im Datensatz Um das zu tun, verwenden wir die Funktion prop dot table Und wir werden diese Tabelle bestehen und wir werden diesen Spaltenkurs bestehen. Okay? Also lass mich sehen. Deine 99,8% sind die betrügerische, sorry, später Angie, Hervorragend 0,017% sind betrügerische Transaktionen. Also als Nächstes, lassen Sie mich das in die Kreisdiagramme eintragen. Um also ein Kreisdiagramm zu erstellen, erstellen wir zuerst eine Logik und produzieren hier zwei Vektoren. Und dann weisen wir es Ebenen zu, und dann erstellen wir ein weiteres Level. Und wir verwenden die Einfügefunktion, die auf diesen Labels basiert. Also nehmen wir die Level, das ist echt, und dann verwenden wir die runden hundert in die Requisitentabelle. Dies gibt uns den Prozentsatz des Prozentsatzes der legitimen und betrügerischen Transaktionen Und hier Komma zwei und wir sind gegangen, weil ich das hier haben will, es sind viele Ziffern nach dem Dezimalzeichen Ich möchte es auf die Ziffer und dann auf Stufen, Stufen und Prozentsätze beschränken . Und dann verwenden wir die Pipe-Funktion. Hier. Sie geben die Tabelle K plus diesen Spaltennamen weiter, auf dem ich die ICE-Tabelle aufzeichnen möchte , und kennzeichnen das dann als legitim und betrügerisch Und dann Spalte A Collapse oder jede Farbe hat ein grünes Android. Der grünliche Teil, die Leptonen ausgezeichnet weiter lesen, betrügerisch und schaffen gleich Pi betrügerisch und schaffen gleich Dies wird die Überschrift für unser Kreisdiagramm sein. Lassen Sie mich das alles zusammen erledigen. Und er hatte hier wirklich nach Diagramm gemacht, legitime Transaktion in 99,83 und betrügerisch und Wein 17. Lass uns das noch einmal ausführen. Hier. Das Kreisdiagramm ist Ihr Hauptbuch und seine 99,83 und das sind drei, alles wird grün. Und der rote ist für nur 0,17% weniger bereit. Dies ist also ein wirklich unausgewogener Datensatz. Nun, was ich tun werde, ich werde einfach versuchen, mit einem normalen Modell vorherzusagen werde keinen Algorithmus für maschinelles Lernen verwenden und religiöse versuchen, ohne Flasche vorherzusagen. Für das X- und Y-Label und trotzdem für eine riesige Wiederholung oder Funktion werden sie in GTO integriert Also was mache ich und rudere mit Kreditkarte. In unserem Datensatz für alle Zeilen ergibt der ROI also alle Zeilen ergibt der ROI diese Zahl, die sich dem Kate-Kartendatensatz nähert . Und für alle wiederholt die Rakete Null, sie füllt Nullen aus Das gesamte Projekt wird also zu einer Hauptbuchtransaktion werden Und dann verwenden wir den Faktor Vorhersagesinn und die Stufen G, Zeile eins. Und dann lass mich das erledigen. Okay? Und wenn ich Vorhersagensinn eingebe, Okay , und Vorhersagen , okay, und dann verwende ich die Charakterbibliothek hier. Weil ich die Konfusionsmatrix verwenden werde. Die Konfusionsmatrix und ein Chef, diese Daten, wie Sie es nennen, eine Vorhersage, diese und beziehen sich auf den Klassenkarten-Dollarkurs. Und wenn ich diese Konfusionskennzahlen durchführe, stelle dass es sich um eine aufgeladene Prognose handelt. Sehen Sie, die Genauigkeit dieses Modells beträgt 99,83. Alle Transaktionen wurden also korrekt als legitim eingestuft Alle Hauptbuchtransaktionen werden korrekt als legitim eingestuft Und diese Krankheit, die Zusatzstoffe und das ist negativ. Also das für 92 oder die betrügerischen Transaktionen , die nicht als betrügerische Transaktionen eingestuft werden. Alle Transaktionen im Datensatz wurden also als Leggett und Exons eingestuft, selbst diese für 92 tan x und selbst diese für 92 tan x und Unser Prognosemodell wurde nicht als betrügerische Transaktion die Hauptbuchtransaktion aufgenommen wurde Da es sich also um einen wirklich unausgewogenen Datensatz handelt, sagt unser Vorhersagemodell alles als legitim voraus , weil es nicht anhand der betrügerischen Daten trainiert wird, weil es sehr wenige sind und deshalb alles in die wahre positive Rate übergeht Dies ist also die Vorhersage, die auf der normalen Modellprognose basiert . Wir haben keine Modelle und Algorithmen für maschinelles Lernen verwendet . In der nächsten Vorlesung werden wir also einen Algorithmus für maschinelles Lernen verwenden um mit diesem unausgewogenen Datensatz umzugehen Und wir werden versuchen, besser vorherzusagen . Wir sehen uns in der nächsten Vorlesung. 91. Erstellen von Trainings- und Testdatensätzen Sampling: Hallo und willkommen zurück. In dieser Vorlesung werden wir also näher auf unser Projekt eingehen. Und was ich hier machen werde, ich nehme das Ding. Was wir tun werden, wir nehmen die Beispieldaten aus den aktuellen Gate-Daten, die wir haben. Was wir also tun werden, wir nehmen die zehn Prozent der Daten aus dem vorhandenen Datensatz der Stichprobe. Und darauf werden wir versuchen, ein Modell zu erstellen. Und wenn es dann korrekte Vorhersagen gibt, werden wir dieses Modell auf den Datensatz anwenden. also tun, um Was können wir also tun, um das zu tun? Ich werde eine D-Flat-Bibliothek benutzen. Also lädst du es einfach herunter. Wenn es nicht ist, laden Sie es herunter. Und dann hast du die Bibliothek gemacht, wir werden sie benutzen und dann den Startschuss setzen. Erstens, dieser Bericht, denn wenn ich 10% aus diesem Kreditkarten-Datensatz nehme. Wenn Sie also keinen Startpool anlegen, was jedes Mal passiert, werden nach dem Zufallsprinzip die zehn Prozent aus dem gesamten Datensatz entnommen und jedes Mal sind es andere, zehn Prozent. Aus diesem Grund wollen wir dasselbe Setup, 10% jedes Mal, wenn wir diesen Code ausführen. So weit, dass ich einen verliere. Okay, lassen Sie uns das ausführen. Und dann Cape Cod. Okay, ich habe es aktualisiert. Lassen Sie mich versuchen, den gesamten Code erneut auszuführen. Okay, sehen Sie, jetzt haben wir die zehn Prozent von dieser Karte abgezogen . Das ist der gesamte Datensatz daraus, ich nehme eine Probe, unterstrich Frack, diese Funktion verwende ich und ich gebe 0,1, 0,1 Minuten, 10% des gesamten Also nehme ich den Flux der 10% Klammer aus dem Datensatz und weise ihn diesem Torwächter zu Wertvoll. Okay? Und wenn ich das dann ausführe, können Sie jetzt sehen, dass wir das gleiche Setup, die gleichen Zeilen und Spalten, durchgeführt haben . Okay? Dann verwende ich Table und ich benutze diese Klasse. Also lass mich das erledigen. Jetzt. Wir lassen den Stipendiaten hier hin und her schalten oder so Also 10% davon. Okay, und hier sind die echten 28.000 und kein Protestant und verkaufe 44. Okay, jetzt haben wir die zehn Prozent aus dem gesamten Datensatz genommen . Was sind die Dinge? Jetzt verwende ich GG-Plot , um das einfach zu benutzen. Und wenn nicht heruntergeladen, laden Sie es herunter und installieren es und verwenden es dann. Okay? Und hier, was ich tun werde, ich werde versuchen, die Handlung hier zu streuen Und für dieses Jahr kann diese tote Person, die wir gerade geschaffen haben, Anästhetikum die X- und Y-Achse verwenden Wir machen Spalten und Farben und wieder, im Unterricht in letzter Minute Null oder Eins gemacht Ein echter Punkt vorne in der Länge, okay? Geom punktet, nicht, nicht schwarz auf weiß. Kombiniere deine Grafik. Das wird also schwarz und weiß aussehen. Und das skalierte Farbhandbuch hier in Blau und Schwarz. Blau und Rot, tut mir leid, nicht schwarz, blau und rot. Bläuliche Farbe. Der Euro und der Krieg um jeweils ein rotes und blaues Hauptbuch und Rot die betrügerischen Transaktionen Lassen Sie mich dieses Tool ausführen Okay, also sehen Sie hier, jetzt haben wir dieses Streudiagramm Die Klasse, die 0,1 repräsentiert, ist aber immer noch unausgewogen Es gibt so viele Jackson, von denen nur wenige auf die Betrüger gehen. Okay, jetzt haben wir die 10% der Daten und wir haben sie erfolgreich geplottet Als Nächstes müssen wir das Schulungs- und Testset für die Erstellung des Modells zur Betrugserkennung erstellen. Okay, dafür werde ich mir Tools ansehen. Wenn Sie dies nicht installiert haben, können Sie es mithilfe von install.packages installieren Und Sie können im Backend sehen, dass Sie die Bibliothek installieren möchten Sie alle benutzen die Bibliothek. Und ein kauft diesen Namen Seattle's. Und ich habe das gemacht, dann verwende ich das, um 123 zu säen. Und dann nehme ich die Datenprobe. Und was ich tun werde, ich teile diese Beispieldaten, die wir entnommen haben, zu 10% auf. Nun, dieser 10-prozentige Datensatz und aufgeteilt in 80, 2080 für das Training und Bronte für den Test Aber ich gebe die Kreditkartenklasse auf der Grundlage dieser Punkte, weißt du, und einen den Klassifikator und dann teile ich dir das Rennen auf, ich gebe punktuell Kreditkartenklasse auf der Grundlage dieser Punkte, weißt du, und einen den Klassifikator und dann teile ich dir , punktuell 80% für das Training und 20% kauften das gestrichelte Okay, und als Nächstes kommen trainierte Daten. Und nehmen Sie die Teilmenge dieser Datenprobe und die Teilmenge der Datenprobe, funktionale Verwendung und die Notenkarte Und ob eine Probe als Tos 2 min bezeichnet wird. Lassen Sie mich das zuerst überprüfen und dann werde ich Ihnen sagen, warum Sie nicht wahr und falsch verstanden haben. Okay? Wenn wir also diese Datenprobe ausführen , wird nicht überprüft, ob sie wahr falsch, wahr, falsch, wahr, falsch enthält . Wahr ist für Hauptbuchtransaktionen und falsch für die Impulse für betrügerische Okay, jetzt haben wir das Beispiel hier. Also was ich tun werde, ich nehme die beiden ALU und erhalte hier die falschen Werte. Lassen Sie mich also diese Trenddaten ausführen und dies werden die Testdaten sein. Also Trainingsdatensatz und dieser Datensatz. Nun, wenn wir wissen wollen Sinn dieser Zug- und Trainingsdatensatz und der Datensatz haben, können Sie einen Dim-Funktionsnamen verwenden , trainieren Sie Unterstrichdaten 22.007, 85 Zeilen und 31 Spalten. Und für Theta 5.696,31 Spalten, die Zeilen und die Auf diese Weise können wir den Zug- und Testdatensatz abrufen. In der nächsten Vorlesung werden wir uns weiter der Erstellung des Vorhersagemodells befassen. 92. Zufällige Sampling-Methoden über und unter dem Sampling: Jetzt haben wir also die Testdaten und Trainingsdaten. Kümmern wir uns um den unausgewogenen Datensatz. Es gibt also zwei, es gibt drei Ansätze , die wir in diesem Projekt sehen werden. Das erste ist zufälliges Oversampling. Und dann sehen wir die zufällige Unterstichprobe und dann sehen wir beide zusammen. Okay? Lassen Sie mich also mit dem zufälligen Oversampling beginnen Was ist also Random Oversampling? Zufällige Überstichproben bedeuten, dass wir 50, 50 Prozent der legitimen Fälle und Betrugsfälle angeben müssen . Okay. Also dafür, was ich tun werde, verwende ich die Zugdaten und über diesen Glastisch. Und lass mich das regeln. Also seht hier, jetzt haben wir die echte Rose, 22.007, 50 und für unseren wegweisenden 35-Jahres-Leck Okay, das ist also unausgewogen, also müssen wir diesen Datensatz nach dem Zufallsprinzip überlisten. Zufällige Stichprobenerhebung bedeutet, dass wir beide gemäß den Vereinbarungen der Schüler angeben müssen beide gemäß den Vereinbarungen der Schüler angeben Wir müssen beide gleich machen. Für diese analytische Anzahl von Transaktionen wird also Kollagen genannt, Ashley 22.007, 50. Und was ich machen will, ist, dass neuer Fracsand oft legitim ist, naja, wie, was ich will 50% Okay, jetzt sammle ich die neuen und die Gesamtzahl der Zeilen, die in unserem neuen Datensatz benötigt werden, über den Stichprobendatensatz. Also hier, was ich tun werde, ich werde neue legitime Allergie gegen diese eine, geteilt durch den Bruchteil der Logikgatter, wie wir wollen, so dass wir machen und wir bekommen eine neue Zahl. Okay, lassen Sie mich das erledigen. Das sind also 45.500 Zeilen. Das brauchen wir als Bus, okay? Also jetzt werde ich hier das Roche-Paket verwenden. Wenn Sie es also nicht installiert haben, installieren Sie es einfach. Sonst. Einfach riesig. Es ist ziemlich solide hier installiert und erzeugt ein wertvolles Oversampling und das nennt man Und er hatte eine riesige Boon-Punkt-Probenmethode. Und hier gebe ich die Klasse als variable, unabhängige Variable an. Und dieser Zeichenpunkt gibt alle anderen Variablen an, die in den Datensätzen verfügbar sind Und dann Komma und dann sind Daten gleich, wir verwenden diese Zugdaten, Zugunterstrichdaten, die wir erstellt haben Und dann ist die Methode Oversampling. Und n Anzahl der Rosen, neu und insgesamt werden es 45.500 sein Und Saatgut, das ich hier verwende, damit jedes Mal das gleiche Ergebnis erzielt wird. Also lass mich das erledigen. Also jetzt wird es ausgeführt. Nun, wenn wir uns das ansehen oder uns das zufällige Oversampling ansehen, berechnen sie, Sie können hier 45.000 Raj sehen. Klicken Sie hier und Sie können sehen, das nächste Ding ist jetzt Wenn Sie die Daten sehen möchten, müssen wir das Oversampling verwenden und das nennt man Ergebnis-Dollarzeichendaten Es wird uns also den Datensatz geben. Okay? Wenn wir uns nun diese Datensatztabelle ansehen, werden Oversampling, Credit dort 45.500 Zeilen und langwierige Fälle bei 22.017 sehen , 50 und betrügerische Fälle 50 Richtig? Nun, was ich tun werde, ich werde das einfach mit Hilfe von GG-Plot planen. Also hier ist Theta gleich, ich übernehme das Oversampling großartiger Warum? Wir machen Class Color, Class, Class und Geom Point und Thin Blue, dasselbe, was wir zuvor gemacht haben Lassen Sie mich das grafisch darstellen und sehen, wie unsere Daten aussehen. Jetzt habe ich Oversampling. Okay, weil ich auf Preis klicke. Sehen Sie hier, wie unser neuer oder Word-Beispieldatensatz so aussah. Dies ist das Streudiagramm und der Grund, warum wir immer noch sehen, wir sehen eine sehr geringere Anzahl von Fällen von Ackerland als gelesen Die meisten von ihnen schauen nur blau, weil für jeden Betrugsfall. Wir haben beim Oversampling doppelte Einträge erstellt beim Oversampling doppelte Einträge Und aus diesem Grund wird jeder von ihnen eine größere Anzahl doppelter Werte enthalten. Deshalb stecken dahinter mehr Punkte. Okay? Um es uns anzusehen, um es besser zu plotten, können wir den t-Test verwenden Der t-Test gibt Ihnen diesbezüglich mehr Transparenz. Also lass es mich dir hier sagen. Geom-Punkt für Giussani ist die Position des Vierbeiners, die Unterstriche im Der Geom-Punkt für Giussani ist die Position des Vierbeiners, die Unterstriche im Detail und die Breite. Wir können 0,2 oder ich kann sogar 0,5 setzen. Und lass mich das regeln. Diese Punkte werden nun etwas ausführlicher sein. Das wird also wissen, dass es mehr Punkte gibt. Nicht nur dieser Punkt, denn beim Oversampling, nicht beim Duplizieren, wird das Duplikat der vorhandenen Daten erstellt der Könnte hier sehen. Jetzt können Sie sehen, dass es mehr Punkte gibt, größere Punkte. Also das ist, das liegt an den doppelten Dingen. Okay? Jetzt haben wir verstanden, was Oversampling ist und wie wir das tun können Okay, beim Oversampling gibt es ein Problem mit etwas, sodass wir die doppelten Punkte erzeugen können Jetzt sehen wir uns die zufällige Unterstichprobe an. Verwenden Sie dasselbe auch für Undersampling. Unterstreichen Sie dann die Daten. Und dann gibt es hier eine Reihe betrügerischer Zeilen. Fangen Sie einfach an, wenn ich N schreibe, ist Betrug 35. Wusste, was ich will. Ich will 50 Prozent des gesamten Datensatzes. Und neu und insgesamt wird kein Betrug geteilt durch 0,5 sein. Das gibt uns also die Gesamtzahl der Straßen, die für die zufällige Unterstichprobe erforderlich sind . Wir sind jetzt dabei. Neu und insgesamt werden es 70 sein Es wird also eine Liste geben, 70 Rollen sind erforderlich. Wenn wir zu wenig Sampling durchführen, ist das ziemlich gering und das führt zum Verlust von Beta. Okay, nochmal, für andere Bewerber, also werde ich das Paket verwenden. Also hier erstelle ich Undersampling, Underscore, Adult und eigenes Sample. Das Gleiche, was ich benutzen werde. Alles wird gleich sein, außer dass bei dieser metallurgischen bis untersten Methode die Probenahme erfolgt Und hier geben wir die neue Gesamtzahl und den neuen Sitzplatz weiter. Und lass mich das regeln. Jetzt haben wir es unter Beispieldaten gemacht. Jetzt wollen Sie sehen, wie der Datensatz, USDA, Daten unterstichprobt und der großartige Writer alkyliert Wir führen das durch. Jetzt haben wir diese Unterstichprobe Was Lisa Monday da rausbringt. Und die Hälfte von ihnen ist legitim und die Hälfte von ihnen ist betrügerisch Dies führt jedoch zum Verlust von Daten, wenn Sie dasselbe plotten . Lass uns sehen. Hier. Legged und die Betrugsfälle sind fast identisch Aber hier haben wir fast 22.700 Reihen verloren. Das ist nicht gut für Analysen oder Prognosedaten. In der nächsten Vorlesung werden wir also diese beiden Untersamplungen und Oversampling miteinander kombinieren und versuchen, dies vorherzusagen 93. ROS und RUS zusammen für den Datenausgleich verwenden: Hallo und willkommen zurück. Jetzt haben wir gesehen, wie wir mit dem zufälligen Oversampling-ROS arbeiten können Und dann haben wir gesehen, wie wir mit dieser zufälligen Unterstichprobe, Oversampling und Unterstichprobe umgehen können, Oversampling und Unterstichprobe Beides hat jedoch einige Nachteile, da eine Überabtastung auch zu Wunden führt und eine Unterstichprobe dazu führt, dass die meisten Zeilen gefällig oder gelöscht werden, was sich auf die Entscheidungsfindung bei der Vorhersage auswirken kann und unsere Modelle nicht genau zu Wunden führt und eine Unterstichprobe dazu führt, dass die meisten Zeilen gefällig oder gelöscht werden , was sich auf die Entscheidungsfindung bei der Vorhersage auswirken kann und unsere Okay? Also Ansätze, die beide zusammen verwenden, das bedeutet, dass zufälliges Oversampling und Undersampling, beide zusammen funktionieren Diese Methode wird also Board genannt. Also wird hier alles beim Alten sein. Was wir tun werden, verwende ich und neu und Andrew, die Anzahl der Zeilen im Trainingsdatensatz. Das wird also sein, es wird das Tutorium 785 für 12.000 Studienstipendiaten sein Okay. Also hier können wir das Kommando und den neuen Geheimdienst 785 einsetzen und den neuen Geheimdienst 785 Nun, Frac-Sand-Betrug, neu, was wir tun wollen, ist 5% zu finden, 0,5 Hälfte davon wären betrügerische Transaktionen und die Hälfte der Transaktionen im Datenquellenbuch Jetzt nehmen wir die Stichprobe, also verwende ich die Punktstichprobe und dasselbe, was wir mit dem Unterklassenparameter verwendet haben Und dann werden sich alle anderen diesen Punkt einfallen lassen, lösen andere Spalten kommen wirklich dann Datenzug unterstreichen Datenmethode Hier. Früher haben wir die Methode immer wieder angewendet. Jetzt verwenden wir beide. Dies führt also sowohl zu einer Unter- als auch zu einer Überprobenahme. Und Sie können einen neuen Unterstrich setzen und gleich flexibel sein und Betrug oder Fehlverhalten unterstreichen , kannte den Dann sind wir immer noch gesät. Das wird also das gleiche Retarget erreichen. Lassen Sie uns das als Nächstes ausführen. Und wenn Sie die Datensatzstichprobe von Kindern sehen wollen , wo sie alkylieren und Proben nehmen, unterstreichen die Stichproben die Dollardaten Das ergibt also deine Probe, weil sie gesprungen sind. Das sind also die Daten. Okay? Jetzt erstellen wir unsere Tabelle. Also wir sehen uns jetzt. 11.004, 31 ist weniger als oder gleich fünf. Also fast die gleiche Anzahl legitimer und betrügerischer Fälle. Das ist also ein bisschen ausgewogen. Richtig? Jetzt erstellen wir die Requisitentabelle. Und hier siehst du den Prozentsatz der, so legitimen, tragischen, sie sind fast nicht die richtige Person Und 49% sind die Transaktionen im Vaterland. Wenn wir nun diese Verteilung grafisch darstellen, verwenden wir denselben Prüfungsteil, diesen oder diesen Datensatz. Und wir wollen und wiederholen X und Y. Und kalte Farben werden auf dem Glas und den Geom-Punkten G und 0,3 gemacht Glas und den Geom-Punkten G und Okay, lassen Sie uns das ausführen. Also C, aber das ist das Streudiagramm. Und wir sehen Sie auf den blauen Punkten sind immer noch, Sie können sehen, dass es mehr von kommt, aber eigentlich ist es nicht das Ding, weil wir eine robuste Probe haben und eine weitere Probe oder Probe davon. Also die langwierigen Fälle mit weniger im Datensatz, also es sind Duplikate von denen, die der Administrator erstellt, und da überschneidet es sich Rot und Blau sind also fast gleich, aber die Raten überschneiden sich. Einer auf der rechten Seite sieht aus wie weniger, aber Sie können ihn sehen. Ich habe das Detail hier verwendet. Das Merkmal ist also etwas nervös. Okay? Jetzt haben wir also gesehen, wie wir Oversampling und Undersampling durchführen und beide zusammen verwenden können Undersampling durchführen und beide zusammen verwenden Als Nächstes werden wir die Technik des synthetischen Minderheiten-Oversamplings verwenden Technik des synthetischen Minderheiten-Oversamplings um die Daten auszugleichen Das nennt man intelligente Technik. Und dafür werden wir auch die Smart-Familienbibliothek verwenden. Und in der nächsten Vorlesung werden wir mehr über Sport lernen und dann werden wir den Code für die intelligente Technik für synthetisches Minderheiten-Oversampling schreiben die intelligente Technik für synthetisches Minderheiten-Oversampling Okay, wir sehen uns in der nächsten Vorlesung. 94. Vor- und Nachteile von SMOTE: In dieser Vorlesung werden wir etwas über die Oversampling-Technik kleiner synthetischer Minderheiten lernen. Dabei handelt es sich um eine sehr beliebte Übersampling-Technik, die verwendet wird, um das Problem des Klassenungleichgewichts beim maschinellen Lernen anzugehen Klassenungleichgewichts Es funktioniert, indem synthetische Minderheitenklassenstichproben erstellt werden, die den vorhandenen Minderheitenklassenstichproben ähneln. Dies trägt dazu bei, die Klassenverteilung auszugleichen und die Leistung von Modellen für maschinelles Lernen bei unausgewogenen Datensätzen zu verbessern die Leistung von Modellen für maschinelles Lernen bei unausgewogenen Datensätzen Das wird also tatsächlich das Problem lösen, mit dem wir bei Oversampling- und Undersampling-Methoden konfrontiert waren diesem Grund wird es als synthetische Minority-Oversampling-Techniken bezeichnet synthetische Minority-Oversampling-Techniken Diese Transaktion, die in der Minderheit ist, wird diese Minderheitenklasse überschätzen, aber das wird in einer sehr synthetischen Woche geschehen handelt sich also immer noch nur um eine Oversampling-Technik , die sich aber kaum unterscheidet Also werden wir sehen, wie es gemacht wird. Hier sind einige der Vorteile intelligenter, intelligenter Technik. Es ist wirklich einfach und leicht zu implementierende Technik. Es kann in einer Vielzahl von Algorithmen für maschinelles Lernen verwendet werden. Es kann wirksam sein, um die Leistung von Modellen für maschinelles Lernen bei unausgewogenen Datensätzen zu verbessern Modellen für maschinelles Lernen bei unausgewogenen Datensätzen Das erste ist also, dass es sehr einfach und leicht zu implementieren ist . Und es kann auch mit einer Vielzahl von Algorithmen für maschinelles Lernen verwendet werden mit einer Vielzahl von Algorithmen für maschinelles Lernen Und es wird die Leistung von Modellen für maschinelles Lernen verbessern . Bei einem unausgewogenen Datensatz. Smart hat auch einige Nachteile. Es kann synthetische Proben erzeugen , die den vorhandenen Proben der Magnetklasse zu ähnlich sind , was zu einer Überanpassung führen kann Dies kann also zu einer Überanpassung führen, da dadurch die Datenbank anhand der vorhandenen obligatorischen Klassenstichproben zu stark gesampelt wird vorhandenen obligatorischen Klassenstichproben zu stark gesampelt Es kann also dazu führen , dass der Datensatz so aufgesogen wird, dass er das Modell übertrifft und unser Modell nicht das richtige Ergebnis vorhersagt Dies kann das Rauschen im Datensatz erhöhen, was auch zu einer Überanpassung führen kann Dies kann rechenaufwändig sein, insbesondere bei großen Datensätzen, da wir Und wenn der Datensatz bereits groß ist , was er tut, wird er größer sein und mehr Rechenzeit benötigen. Und die Ausgaben werden sehr hoch sein , weil es mehr Zeit in Anspruch nehmen wird Berechnungen durchzuführen, um irgendwelche Methoden darauf anzuwenden Insgesamt ist die Technik des synthetischeren Minderheiten-Oversamplings also eine leistungsstarke Technik, mit der die Leistung von Modellen für maschinelles Lernen bei unausgewogenen Datensätzen effektiv verbessert werden kann der die Leistung von Modellen für maschinelles Lernen leistungsstarke Technik, mit der die Leistung von Modellen für maschinelles Lernen bei unausgewogenen Datensätzen effektiv verbessert werden kann. Es ist jedoch wichtig, sich seiner Grenzen bewusst zu sein und es vorsichtig zu verwenden. Jetzt werden wir zunächst sehen, was die Nachteile und Vorteile die Nachteile und Vorteile sind, intelligente Technik. Auch hier können die Vorteile des EEG und die einfache Implementierung und die Nachteile, EEG und die einfache Implementierung und die die es mit sich bringen kann, oder Überanpassung auf einer Vielzahl von Algorithmen für maschinelles Lernen genutzt werden einer Vielzahl von Algorithmen für maschinelles Lernen kann, größer sein als bei Reis Sie sagten einen Test. Und können wir die Verbesserung der Leistung der Pumpenleistungsmodelle für maschinelles Lernen berücksichtigen die Verbesserung der Leistung der Pumpenleistungsmodelle für maschinelles Lernen und rechnerisch wird das Jetzt haben wir also das grundlegende Verständnis von smart und wie und welche Vor- und Nachteile durchgesetzt werden In der nächsten Vorlesung werden wir die intelligente Technik in unserem Projekt implementieren die intelligente Technik in unserem Projekt 95. SMOTE-Technik auf dem Trainingsdatensatz anwenden: Hallo und willkommen zurück. In dieser Vorlesung werden wir unseren Code weiter schreiben. Intelligente Technik, synthetische Minderheiten-Oversampling-Technik zur Ausgewogenheit des Datensatzes oder die im GitHub-Datensatz verwendete Technik im GitHub-Datensatz Hier müssen wir also das Backend install.packages multifamily installieren das Backend install.packages Also werde ich die Smart-Familie wieder hier verwenden. Wenn es also nicht installiert ist, installieren Sie es einfach, indem Sie diesen Befehl ausführen und dann Libraries Spot Family verwenden. Okay. Also als Erstes müssen wir das ausführen. Okay, als Nächstes verwenden wir die Zugdaten auf dem Glas. Also sieh dir jetzt an, das sind unsere Oriental-Daten, unsere Trainingsdaten. Also 22.007, 50 ist die Zahl der Fälle, 35 sind die landesweiten Fälle Jetzt legen wir die Anzahl der Betrugsfälle fest und lassen ihn raten. Die gewünschte Person disziplinierte medizinische Gase. Okay. Also die Anzahl der Vermutungen ist so viel in der Kunst, originale Trainingsdaten und die häufigsten Fälle bei 35. Und was wir wollen, unser Gyro, habe ich 0,6 gegeben. Was bedeutet das? Es bedeutet, dass ich den, unseren neuen Datensatz will. Nach dieser intelligenten Technik. Ich möchte, dass es etwa 60 Prozent der legitimen Vermutungen und 40 Prozent der betrügerischen Fälle sind, okay, also 60, 40 dieses Jahr möchte ich Aschenbecher nehmen, ich gebe doch Arg2 entspricht 0,6 Minuten, 60% der Fälle und 40% der Vermutungen an vorderster Front werden Wie berechnet man also Top-Sites? wir also, wenn Sie diese Modusfunktion auf synthetische Weise ansehen, F1 setzen und Sie können sich diese Technik des synthetischen Minderheitenübersamplings hier ansehen diese Technik des synthetischen Minderheitenübersamplings hier Das geht also über Dendriten, synthetische Pinsel bis hin zu Instanzen, Instanzen, die einen intelligenten Algorithmus verwenden Und was sind die Parameter? Tx, dx, dx, das ist unser Datensatz. Ziel ist, dass die Säule, auf die wir zielen wollen, wie in unserem Fall, das Glas ist. Und dann k. Und dann haben wir die Größen Dub, Dub, Dub. Häufigkeit, mit der c von x der DataFrame des numerisch attributierten Datensatzes ist DataFrame des numerisch attributierten Datensatzes Ziel ist ein Vektor der Zielklasse, der dem entspricht, was er tut, wenn dx k die Anzahl der nächsten Nachbarn während des Abtastvorgangs ist und dann die doppelte Unterstrichgröße die Zahl oder der Vektor ist, und dann die doppelte Unterstrichgröße die Zahl oder der Vektor ist der die Ziffer darstellt, die synthetische Minderheitsinstanzen gegenüber der ursprünglichen Anzahl der Mehrheitsinstanzen Okay? Also, wie oft willst du wir diese intelligente Technik ausführen dass wir diese intelligente Technik ausführen, die wir entscheiden müssen und wie wir entscheiden können. Wir können entscheiden, indem wir diese Formel verwenden. Hier verwende ich Formel eins -0/0 in n geteilt durch n, n1, und das ergibt minus eins. Okay? Das ist also die Formel. Diese Formel ergibt die n-fache Anzahl der Mülldeponien, die der Dub-Stufe entsprechen Also lasst uns das berechnen. Lass uns das durchgehen und lass mich sehen, wie viel. 422 mal muss es laufen. Okay, 432 offen, 334433. Okay, jetzt haben wir auch die Dub-Bühne. Jetzt verwenden wir die Smart-Underscore-Ausgabevariable , um die Daten zu speichern, die wir von hier erhalten Also eine reibungslose Funktion verwenden wir und dann wird x, x unser Trainingsdatensatz, Zug und damit Koordinator sein . Und dann verwende ich hier ein leeres Komma und dann mache ich minus c ein Komma eins Warum mache ich das? Denn in unserem Datensatz, in unserem Trainingsdatensatz, in unserem Trainingsdatensatz. Wenn du es dir hier ansiehst. Also v1 zur ersten Spalte für jeden Zeitstempel, den wir nicht benötigen. Deshalb verschiebe ich diese erste Spalte, den Zeitstempel, und dann haben wir eine weitere. Die Klasse. Also klasse, auch ich entferne Chrome. Ja, das stimmt, 1.31 erste und letzte Spalte, ich bin Level Wir zielen dann auf Unterstrichdaten ab. Die Zielspalte ist eine Klasse, die als Klasse bekannt Ich gebe fünf und Upsized ist gleich n-Zeit. Also lass mich das erledigen. Okay, wenn wir das ausführen und Sie die Daten sehen wollen, dann auf den Daten, die sie wollen, oder auf Dollardaten. Und wir werden das ausführen, um uns die Daten anzusehen, die Sie hier sehen können. Jetzt hat der intelligente neue Datensatz V1, V2, V3, bis zu 28 und dann Betrag und dann die Klasse, okay, also jetzt ist die Klasse hier klein geschrieben. Früher haben wir sie verwendet, war sie in der Hauptstadt Um Verwirrung zu vermeiden, ändern wir das einfach in Großbuchstaben C. Um das zu tun, müssen wir die Längenfunktion verwenden, die den Namen des Datensatzes und dann die Spaltennummer annimmt Namen des Datensatzes und dann die Spaltennummer Und dann kannst du der Spalte, die ich deiner Klasse gebe, einen beliebigen Namen geben. Und wenn ich das durchführe, wird es geändert. Und wenn ich noch einmal draufklicke, wird die Klasse jetzt in Großbuchstaben geschrieben, okay? Nun, wenn Sie sehen möchten, wie viel Prozent es gestört hat Die Oversampling oder Probenahme wurde von S2 zwei Tage lang durchgeführt bist du nicht. Wir verwenden also die Requisitentabelle, die wir zuvor verwendet haben Und hier geben wir die kleinen Datensätze mit dem Credit-Unterstrich, die Klassenspalte, und wir führen Siehst du, jetzt liegt d rho bei 60% und eins bei fast 40%. Jetzt verteilt sich unser Datensatz auf etwa 60% der Fälle, und nur wenige Prozent sind die betrügerischen Fälle. Jetzt vergleichen wir es mit dem ursprünglichen Streudiagramm. Dies ist das ursprüngliche Streudiagramm, das wir für den Trainingsdatensatz erstellt haben Lassen Sie mich Ihnen zeigen, wie es aussah. Sieh dir an, wie es so aussieht. Ich kannte die Verteilung der Daten nicht. Die Betrugsfälle waren wirklich gering. Und jetzt werde ich den neuen planen, richtig. Und das liegt daran, dass wir eine intelligente, intelligente Technik angewendet haben. Jetzt können Sie sehen, dass unser Datensatz ausgewogener ist. Und dieses eher technische Gasfeld macht es allerdings mit dem mit der mehr Anzahl betrügerischer Vermutungen hier. Und das sind nicht die überlappenden oder doppelten Werte. Dies sind die synthetischen Punkte, die mit der intelligenten Technik gefüllt wurden. Jetzt haben wir also den Datensatz, den Ungleichgewichtsdatensatz. Als Nächstes müssen wir einen Entscheidungsbaum erstellen und die Betrugsfälle vorhersagen , die wir in der nächsten Vorlesung durchführen werden. 96. Fälle von Kreditkartentransaktionen mit dem Modell vorhersagen: Hallo und willkommen zurück. Jetzt können wir Betrugsfälle anhand des Datensatzes, den wir in diesem Modus erstellt haben, vorhersagen . Lassen Sie uns den Wert also anhand unseres Modells vorhersagen. Dafür werden wir die Pakete rpart und rpart plot verwenden die Pakete rpart und rpart plot Sie müssen es also nicht installieren, wenn Sie es nicht installiert haben, wenn Sie es nicht installiert haben, indem Sie diese beiden Befehle ausführen. Und dann Library rpart und library our dotplot. Okay? Und dann bin ich hier normalerweise das Wachmodell als Variable. Und hier, was ich tun werde, ich verwende die Funktion rpart Wenn wir wissen wollen, was eine rpart-Funktion ist, können Sie rpart F1 verwenden und es gibt Ihnen die rekursive, unsere Partner rekursive Partitionierung und den unsere Partner rekursive Partitionierung Wenn wir also mehr darüber wissen wollen, können Sie die Dokumentation lesen und welche Dinge es braucht , die Formel mit dem tiefgestellten X und unseren Teil- und Modellfehlern und all diesen Dingen Okay? Wenn Sie also im Detail lesen möchten, können Sie es lesen. Okay? Als Nächstes bellen wir also, und dann geben wir ihnen die Spalten oder die abhängige Variable. In unserem Fall ist also jede Klasse und dann Zeichen und dann Punkt bedeuten alle unabhängigen Variablen. Punkt nimmt also alle, alle anderen unabhängigen Variablen. Und dann verwenden wir hier den Datensatz. Toller Ehrenkurs. Mehr Daten. Wir haben, wir haben durch die Anwendung des Intelligenten den Markt geschaffen. Also lass uns das ausführen. Jetzt können Sie sehen, dass das GARCH-Modell da ist. Und okay, als Nächstes müssen wir das R verwenden. Jetzt erstelle ich den Entscheidungsbaum dafür. Schauen wir uns also an, wie unser Modell Dinge vorhersagt und einordnet. Legitime Fälle und das Problem sagt, also nimmt es die Läsion. Also unser Plot, unser Teil Dotplot und dann werden wir das bestehen. Und dann ist Extra gleich dem Faserintegral vom Typ Null. Und schnell 1.2. Okay, lassen Sie uns das ausführen und sehen, ja, das ist der Entscheidungsbaum. Dieses 1.1, 0.2, es wird das Ding zum Kochen bringen. Okay? Das ist also der Entscheidungsbaum, und so wird unser Modell entscheiden, welcher es ist. Nehmen wir an, das ist früher. Wenn der Wert größer oder gleich -2,5 ist, wird dies klassisch als legitimer Fall angesehen und er ergibt weniger als 0,5 -2,5, und er ergibt weniger als 0,5 -2,5, dann handelt es sich um einen betrügerischen Gast Das ist also der Entscheidungsbaum, dem er folgen wird, okay? Und wenn Sie dann die vorhergesagten Werte sehen möchten, können wir die Vorhersage verwenden und dann das GARCH-Modell bestehen Dann Daesh-Daten zu Daten, die Ihre Typklasse vorhersagen Es wird Null oder Eins klassifizieren. Also werden wir dieses Modell mit unseren Testdaten ausführen und sehen, wie es vorhersagt Also lass uns das ausführen. Okay? Also, wenn wir uns das ansehen, können wir hier sehen, für ein Spiel, es hat für die vierte Reihe vorhergesagt , also 0,1, es wurde klassifiziert. Wenn wir nun sehen wollen, wie hoch der bisherige Genauigkeitsgrad ist, können wir mithilfe der Keras-Bibliothek eine Konfusionsmatrix erstellen Also eine große Karotte und dann kannte er entweder die konvergenten Metriken Und ich werde diesen prognostizierten Wert hier und hier weitergeben. Daten zur glasabhängigen, abhängigen Variablen. Okay? Lassen Sie uns das ausführen und sehen wir uns hier die Konfusionsmatrix an. unseren insgesamt neun Betrugsfällen, in denen es 97 gab, wurden sieben häufig auftretende Fälle also in denen es 97 gab, wurden sieben häufig auftretende Fälle korrekt und zu tragen nicht richtig eingestuft. In ähnlicher Weise wurden bei den Fällen mit der Legende Rot fast alle Fälle korrekt klassifiziert. Die Genauigkeit dieses Modells beträgt also 98, fast 99%. Auf diese Weise haben wir mithilfe unserer Programmierung das Modell zur Erkennung von Kartenbetrug implementiert Programmierung das Modell zur Erkennung von Kartenbetrug . Und wir haben so viele Dinge gelernt, wie zum Beispiel den Umgang mit unausgewogenen Daten und welche Algorithmen können wir anwenden Was sind die Techniken, mit denen Wassermelonen den Datensatz ausgleichen? Ich hoffe, Sie haben verstanden, falls wir irgendwelche Zweifel haben, können Sie im Unterricht kommentieren oder eine Frage stellen. Danke. 97. Einführung in ggplot2: Hallo und willkommen zurück. In dieser Vorlesungsreihe. In den kommenden Vorlesungen werden wir etwas über den GG-Plot lernen. Wir haben GG-Plot in unseren Vorlesungen zu oft verwendet . Aber wofür ich mich entscheide, ist , dass viele von uns Diagramme wie Balkendiagramm, Kreisdiagramm wiederverwenden. Und es gibt viele Gläser oder die Büchereien der rechten Hand sind riesig Wie GG Plot Tours, GG Plot. Aber wir haben es verpasst, die Grundlagen dahinter zu kennen. Und das sollten wir wissen. Ich behalte das im Hinterkopf. Ich erstelle ein paar Vorlesungen über die Grundlagen von GG Plot Two. In ähnlicher Weise werde ich mehr Vorlesungen zu allen anderen Themen erstellen , den Grundlagen all dieser Dinge, damit wir ein klares Verständnis der Dinge haben. DJ ggplot2 ist also ein R-Paket zum Erstellen von Datenvisualisierungen Es wurde von Hadley Wickham entwickelt und enthält eine Implementierung der Grafikgrammatik Ich werde sehen, was die Grammatik von Grafiken ist, die einen strukturierten Ansatz zum Erstellen und Anpassen von Plots bietet zum Erstellen und Anpassen von Plots Das Paket basiert auf dem Prinzip, Ästhetik und Mappings zu ermöglichen und es Benutzern zu ermöglichen, hochgradig anpassbare Grafiken in Publikationsqualität zu erstellen anpassbare Grafiken in Publikationsqualität GG Plot to Deb liebte es also , öffentliche Schlüssel und 3D-Grafiken zu erstellen. Vorher erstellen wir also Grafiken, aber wir sind noch nicht bereit für die Veröffentlichung. Wenn Sie also eine öffentliche 3D-Grafikeinheit erstellen möchten Tools wie Power BI oder Tableau, irgendein anderes Grafikwerkzeug, verwenden . GG Plot Two bietet jedoch die Möglichkeit, Grafiken in Publikationsqualität zu erstellen. Und es ist sehr anpassbar. Welche Ebenen Sie auch immer hinzufügen möchten, die Benutzer können sie je nach Anforderung hinzufügen. Es folgt dem Ansatz der Grammatik der Grafik, der sehr, sehr wichtig ist. Deshalb bietet es so viele Funktionen, um Grafiken und Diagramme fantastisch aussehen zu lassen. Okay, lassen Sie uns einige der Merkmale und Eigenschaften von GG Plot to Plot Two verstehen . GG Plot Two folgt der Grammatik der Grafik GG Plot Two. Wie ich bereits sagte, Probleme mit der Grammatik von Grafiken, was bedeutet, dass Diagramme erstellt werden, indem verschiedene Komponenten von Ebenen wie Daten, Ästhetik, geometrische Objekte und statistische Transformationen kombiniert verschiedene Komponenten von Ebenen wie Daten, Ästhetik, geometrische Objekte und statistische Transformationen Es zeichnet also nicht nur die Daten auf, sondern kümmert sich auch um die Daten, Ästhetik, geometrische Objekte geometrische Objekte und statistische Transformationen Statistik, Ästhetik und Mappings. Gg-Diagramm, mit dem Sie Variablen in Ihren Daten verschiedenen Ästhetiken, Attributen wie X - und Y-Koordinaten, Farbe, Form, Größe und vielem mehr zuordnen können Variablen in Ihren Daten verschiedenen Ästhetiken, Attributen wie X - und Y-Koordinaten, Farbe, . Haben Mappings definiert, wie die Daten im Diagramm visuell dargestellt werden? Das nächste Feature ist das Layering. Die erste ist die Grammatik von Grafiken, und dann haben wir die Ästhetik und das Mapping. Und dann haben wir den dritten Schlüssel, Merkmale und Eigenschaften. Das ist Schichtung. Lose im zweiten GG-Plot werden durch Hinzufügen von Ebenen grafischer Elemente erstellt Hinzufügen von Ebenen grafischer Elemente sodass jede Ebene eine andere Komponente von Flüssigkeiten wie Punkte, Linien, Balken oder Text darstellt eine andere Komponente von Flüssigkeiten wie Punkte, Linien, . Es wird also aufgebaut, indem übereinander liegende Ebenen hinzugefügt werden. Und die Ebenen haben verschiedene Komponenten wie Plot, Komponenten der Plots wie Punkte, wie Geom-Punkte, um sie zu verwenden, oder? Wiederverwendung von Geom-Linien. Dann werden auch Balken, die wir auf unserer Textebene verwenden, vorhanden sein. Ebenen können unabhängig voneinander hinzugefügt und angepasst werden, was eine komplexe und mehrschichtige Visualisierung ermöglicht Statistische Transformatoren und GG-Plots bieten ein so breites Spektrum an statistischen Transformationen, die auf die Daten angewendet werden können , bevor sie visualisiert diesen Transformationen gehören das Aggregieren von Daten, die Berechnung einer Zusammenfassung der Statistiken, das Glätten der Daten und ein minimales, hochgradig anpassbares GG-Plot 2 bietet ein hohes Maß an Anpassungsoptionen, sodass Sie fast jeden Aspekt der Handlung ändern können, einschließlich Zugriff, Beschriftungen, Titel, Legionen, Legionen Es bietet Ihnen also nicht nur die Möglichkeit, Teams mit „Gefällt mir“ zu markieren, sondern auch sondern auch Dinge wie Achsen, Beschriftungen, Titel, Legenden und Farben anzupassen , und es gibt viele Themen, die Sie anwenden können Diese Flexibilität ermöglicht es Ihnen, Diagramme zu erstellen, die bestimmten Anforderungen entsprechen Ihrem bevorzugten visuellen Stil entsprechen. Unterstützung für Facettierung, GG Plot Two unterstützt Facettierung , sodass Sie mehrere Diagramme oder Panels erstellen, auf eine oder mehrere Variablen in Ihren Dies ist nützlich, um verschiedene Teilmengen oder Kategorien innerhalb Ihres Datensatzes zu untersuchen und zu vergleichen verschiedene Teilmengen oder Kategorien innerhalb Ihres Datensatzes Integration mit unserem GG-Plot zur nahtlosen Integration in unsere Pakete und Datenmanipulationstools. Sie können GG Plot Two problemlos mit Datenmanipulationsbibliotheken wie Playa und Tidy R kombinieren , um Ihre Daten vor der Visualisierung vorzuverarbeiten und zu transformieren Ihre Daten vor Insgesamt bietet der GG-Plot also ein leistungsstarkes und intuitives Framework für die Erstellung einer Vielzahl von Medulla Jasons, das von einfachen Streudiagrammen bis hin zu komplexen facettierten Diagrammen mit mehreren Feldern Es hat sich aufgrund seiner Flexibilität, Ästhetik und Betonung guter Designprinzipien zu einem der beliebtesten häufigsten verwendeten Datenvisualisierungspakete und am häufigsten verwendeten Datenvisualisierungspakete in R entwickelt. Jetzt haben wir also auch das grundlegende Verständnis von GG Plot. Lassen Sie uns in diese Aufnahme eintauchen und einige grundlegende Plots mit GG-Plot zwei erstellen. Also habe ich eine GG-Plot-R-Skriptdatei mit zwei Punkten erstellt. Und hier werden wir versuchen, das GG-Plot zu verwenden , um ein einfaches Diagramm und eine grafische Darstellung zu erstellen, und wir werden versuchen, die verschiedenen Ebenen zu verstehen , die dazu hinzugefügt wurden. Als erstes müssen wir das ggplot2-Paket installieren Wenn es also nicht in Ihrem RStudio installiert ist, können Sie das tun, indem Sie das Skript install.packages ausführen, und Sie können den Paketnamen GG plot two geben Sobald die Pakete installiert sind, können Sie sie verwenden indem Sie die Bibliothek schreiben und dann hier den Paketnamen angeben. Dadurch können Sie das GG-Plot-Paket verwenden. Der erste Schritt besteht also darin, das Paket zu laden, installieren und zu laden. Der zweite Schritt besteht darin, ein einfaches Streudiagramm zu erstellen. Was ich dafür tun werde, erstelle ich zuerst einen DataFrame Um also einen DataFrame zu erstellen, erstelle ich hier eine Variable Und dann verwende ich data.frame, um einen DataFrame zu erstellen. Und hier gebe ich die X-Punkte, den X-Vektor, c12, 345 und den Y-Vektor sowie die Y-Achse für Y-Achse und Geschenke an, 12.243.648,5 zehn werden also die Koordinaten für unsere sein. Auf diese Weise erstelle ich einen DataFrame. Jetzt. Ich erstelle ein Streudiagramm mit GG. Plot Two ist ziemlich einfach Wir verwenden hier die GG-Plot-Funktion, GG-Plot. Und dann stellen wir die Daten bereit, den DataFrame , den wir erstellt haben Die Daten, auf denen Sie das Diagramm erstellen möchten. Daten geben Ihnen also, dann ist das nächste Ding die Ästhetik. Die Ästhetik gibt die X- und Y-Achse an, auf der Sie die Punkte zeichnen möchten. Also x ist gleich x und y ist gleich Y. Von hier aus wird es dauern, und dann geben wir die Handlung, sorry, plus Geom-Punkt Also Geom Point, wir werden die Punkte plotten. Es werden die Punkte aus dem Urindiagramm übernommen. Also lass mich das erledigen. Also sieh hier, jetzt ist unser Scatterplot fertig. Sehen Sie, der erste Punkt ist eins bis zwei, X-Achse und die Y-Achse Dann werden hier 242,4 bis vier aufgetragen, dann 36 und dann 4,5 Diese Punkte wurden also mit GG-Plot zwei korrekt geplottet mit GG-Plot zwei korrekt Lassen Sie mich Ihnen etwas mehr über diese Dinge erklären. Also erstellen wir einen DataFrame namens data mit zwei Spalten, x und Y. Die Gg-Plot-Funktion initialisiert ein GG-Plotobjekt , das dem DataFrame in seinem ersten Argument eine Textnachricht gibt Und dann gibt die ästhetische Funktion wir hier verwendet haben , um die Funktion zu übernehmen , die Ästhetik an, die X zur X-Achse und Y zur Y-Achse abbildet. Hier ordnen wir also die X-Achse der X- und Y-Achse zu. Warum? Und dann schreibt der Geom-Punkt und fügt die Punkte zum Plot Also die Geom-Punkt-Funktion, was sie tun wird , sie nimmt die Punkte daraus und zeichnet die Punkte auf dem Diagramm auf Als Nächstes werden wir versuchen, die Handlung anzupassen. Was wir also tun werden, wir werden versuchen, die Handlung nach Aussehen anzupassen. Passen Sie also das Erscheinungsbild der Handlung an. Hier verwenden wir also die GG-Plot-Funktion. Die Datenästhetik wird dieselbe sein. Und dann plus Geom Point. Und dann, nach dem Geom-Punkt, was wir tun, geben wir Sickerstand gleich 21 und die Füllfarbe ist blau und die Farbe wird schwarz sein Und Websites, ich gebe dir drei. Dann verwenden wir die Labs-Funktion, um einen Titel zu erstellen. Der Titel der Handlung wird also das Streudiagramm sein. Und welcher X-Achse geben wir dann den Namen X-Achse und die Y-Achse gibt ihnen Y-Achse Dann wieder plus. Und dann verwenden wir, wir werden das Thema hier verwenden und wir werden Theme-Unterstrich verwenden, minimalistisch, minimalistisch, was wir verwenden werden, ja Lassen Sie mich das zuerst ausführen und Ihnen dann dem Benutzer verschiedene Punkte erklären. Jetzt ist unser Scatterplot fertig und ihr könnt sehen: Einmal habe ich hier geplottet, aber das ist der, da wir hier in Blau haben, sind die Punkte mit dem Blau gefüllt und der äußere Teil Also hier haben wir Schwarz gegeben. Wenn ich es orange mache und wenn ich es laufen lasse. Jetzt, Alter Partys orange. Lassen Sie mich also etwas größer auf neun machen. Die IP und der Port-Empfänger und die Größe und 31, tut mir leid. Jetzt können Sie hier sehen, dass die Größe erhöht wurde. Okay. Also das ist die YuJa, siehe Hose, die ich blau halte, wenn du sie gelb machst Das wird also gelb. Okay? Auf diese Weise können wir anpassen und Sie können es zum Laufen bringen. Und sehen Sie, das ist das Streudiagramm, das hier unten steht, und X-Achse, Y-Achse kommen nächstes Jahr Und das Team, das wir verwenden, ist minimal. Lassen Sie mich das noch einmal ausführen. Die Größe wird also in Ordnung sein. Als nächstes kommt die Geom-Punkt-Schrift, einige Texte, die keine Argumente , um das Aussehen der Punkte anzupassen Hier haben wir gesagt, der Stipendiat hat einen vollen Kreis und eine Füllfarbe bis Blau, die Umrissfarbe ist vollen Kreis und eine Füllfarbe bis Blau, schwarz und Größe drei Das war also der frühere. Jetzt haben wir die Ebene auf zwei Seiten geändert, die Außenfarbe ist orange, Füllfarbe ist gelb. Okay. Sie können F1 setzen, indem Sie den Geom-Punkt auswählen . Daraufhin erhalten Sie die Beschreibung des Geom-Punkts, des Algoms und die Beschreibung des Geom-Punkts, des der Datenzuordnung Okay? Wenn du mehr erfahren möchtest, kannst du bei dir mehr über den Geom Point erfahren Speichern. Sie können hier nachsehen, ob Sie mehr über die CEP erfahren möchten Sie können hierher kommen und mehr über diese Tresore erfahren Die sichere Ästhetik kann mit einer Ganzzahl von 0225 oder einem einzelnen Zeichen angegeben werden . Dabei werden die Zeichen am Plotsymbol verwendet, um das kleinste Rechteck, das etwa ein Pixel sichtbar ist, zu trocknen kleinste Rechteck, das etwa ein Pixel sichtbar ist, Und es wird nichts zeichnen, was einer diskreten Variablen zugeordnet wird. Wenn wir hier also 25 angeben, schauen wir uns an, was hier geplottet wird Das andere Dreieck wurde gezeichnet, wenn wir zwei setzen. Also wie du siehst, das Dreieck ohne Füllung, okay, dann wird eins das Rechteck sein Eins ist Kreis fünf. Wenn Sie fünf verschiedene Zahlen setzen, sagen Sie das Rechteck noch einmal. Dann schauen wir uns für acht an, was hier gezeichnet wird. Okay, Zeilen 11. Damit du sehen kannst, also erkunden und du kannst andere Dinge benutzen, okay? Dann haben wir die Labs, die der X-Achse , der Y-Achse und dem Namen den Titel hinzufügen Y-Achse und dem Namen den Dann ist Tim Minimal die Funktion, die auf das minimalistische Thema der Handlung angewendet minimalistische Thema der Handlung Wir können ein anderes Thema verwenden , das schwarz und weiß ist. Als Nächstes werden wir lernen, wie wir mehrere Ebenen und Anmerkungen zu unserem Diagramm hinzufügen Also hier wird alles derselbe Geom-Punkt sein. Auf diesen Dingen wird dieselbe Geom-Linie stehen. Wir fügen eine Geomlinie hinzu, sodass eine Linie gezeichnet wird , und dann schreiben wir hier etwas Text. EnodeB-Decks x sind also gleich drei, y gleich Null, und Labore der Stufe 999 geben dasselbe und das Team verwendet sie nur Also lass uns das ausführen. Sehen Sie sich jetzt hier an, eine Genomlinie wurde gezogen, indem die Punkte zusammengefügt wurden. Und hier finden Sie 3,6, 3,6 Punkte, wir haben Texte geschrieben, also Text ausrichten steht hier, beschriftet mit Zeile Du kannst es in alles ändern. Nehmen wir an, Sie möchten hier irgendwas schreiben und das einfach ausführen. Jetzt steht irgendwas geschrieben. Du kannst hier also alles hinstellen. Also Linie. Also werden wir das noch einmal ausführen. Was auch immer du schreibst, es wird hierher kommen. Also hier bei 3,6 die X-Achse drei und Wellen sind sechs Wir haben es ohne Texte annotiert und die Texte und den Levelnamen als Zeile angegeben Okay, und das Team, das wir verwenden, ist minimal. Okay, als Nächstes ist, also geom-Zeile von Sonaten-Zeile zu den Plots einmal annotieren und wiederverwenden, um zusätzliche Notation Hier der angegebene Text zur Anzeige sowie die X- und Y-Koordinate Und Sie können die X- und Y-Ebenen ändern , erweitert um die Annotate-Funktion Okay, als nächstes die schnelle Einstellung und die Themen. Wir können also Facetten verwenden, um einem Grundstück mehrere Diagramme hinzuzufügen. Dazu verwenden wir data.frame, um eine variable Datenunterstrich-Facette, data.frame und eine X-Achse zu erstellen data.frame X- und Y-Punkte ergeben und gruppieren dann. Hier erstelle ich eine Gruppe, indem jeder Punkt einer Gruppe E, a, B und C zugeordnet wird . Jetzt haben wir hier Gruppen. Lassen Sie uns das jetzt ausführen. Und dann erstelle jetzt unser facettiertes Streudiagramm. Lassen Sie mich also zuerst die Streudiagramme erstellen. Jetzt haben wir die Punkte. Und dann gibt es noch andere ABC-Kategorien oder -Gruppen. Also Geom Point, alles außer Rap. Und hier geben wir die Gruppe an, okay, dieses Schild und die Gruppe werden die Gruppe von hier aus mitnehmen und es wird facettiert Jetzt haben wir ABC-Gruppen und alles andere ist dasselbe. Wir verwenden die Minimalfunktion, auch hier wird die Facettenunterstrich-Wrapper-Funktion verwendet, um ein facettiertes Diagramm auf der Grundlage der Gruppenspalte zu erstellen, jede Gruppe Harris Jetzt ändern wir das Thema auf Schwarzweiß. Themenunterstrich v, w. Wir verwenden, und wir werden sehen, was es hier zu sehen bekommt Jetzt wurde das Thema geändert und jetzt zeigt es klar, Hoppla, ABC Es muss Punkt B bis Punkt C einen Punkt haben. Okay. Ein Punksong zum Thema ändert also die Handlung, er wechselt zu Schwarz-Weiß. Und dieser zweite GG-Plot hat verschiedene integrierte Themen wie unterstrichenes Minimaldesign, Theme Underscore Classic und Theme Underscore Lassen Sie mich das kopieren und versuchen, den grauen T-Unterstrich zu verwenden. Jetzt ist es grau. Und dann unterstrich das Team den Klassiker. Classic ist wie zwei Gruppen hier und dann Punkte. Okay, machen wir es es heute. Okay? Das ist also die Grundlage von GG Plot für mich. Ich nehme an du lernst und ich ermutige dich, mehr zu üben, indem du einige Punkte erstellst und darauf verschiedene Plots planst Und wenn ich mit den Geom-Punkten spiele und die Labore hinzufüge, denke ich, dasselbe, wenn man mit den gleichen Beinsegmenten spielt Fragte mich 25. Du kannst also verschiedene Formen setzen und trocknen was Zahlen für dasselbe bedeuten, okay? Das sind also die Dinge, die du tun kannst 98. Streusplott und zitterte Handlung: Hallo und willkommen zurück. In dieser Vorlesung werden wir etwas über eine weitere wichtige Sache beim Plotten lernen , nämlich das Streudiagramm und das Punktdiagramm Lassen Sie mich Ihnen sagen, dass wir uns ein Beispiel ansehen werden. Und dafür verwende ich den eingebauten Datensatz, das ist der Iris-Datensatz, der mit dem R verfügbar ist. Okay? Lassen Sie mich Ihnen kurz sagen was für ein Streudiagramm Sie wissen müssen, was ein Streudiagramm Aber um Ihr Gedächtnis aufzufrischen, sage ich Ihnen, dass Streudiagramme Liniendiagrammen ähneln, die normalerweise zum Plotten verwendet werden Das Streudiagramm speichert, wie stark eine Variable mit einer anderen verwandt ist Die Beziehung zwischen den Variablen wird als Korrelation bezeichnet, die üblicherweise in statistischen Methoden verwendet wird. Okay? Das ist also die Definition von Scatterplot. Und für dieses Glücksspiel, für diesen Vortrag, bin ich ein handgeschriebenes Und hier verwende ich den Iris-Datensatz, sehr bekannten Datensatz , der Messungen Ihres Drucks, der Irisblüten, der Kelchblattlänge und der Blütenblattlänge sowie des gesamten Inhalts enthält Irisblüten, Kelchblattlänge und der Blütenblattlänge sowie des gesamten Inhalts Dafür benötigen wir also den Iris-Datensatz , der mit den Daten unseres Pakets ausgestattet ist , und dann benötigen wir GG-Plot, das wir bereits heruntergeladen haben Und wenn nicht heruntergeladen, können Sie install.packages und den Paketnamen GG plot two verwenden und den Paketnamen GG plot Und es wird neu installiert, heruntergeladen und auf Ihrem RStudio Und um dann den zweiten GG-Plot zu verwenden, müssen wir die Bibliothek verwenden und dann müssen wir den Backend-Namen übergeben Also Bibliothek GG-Plot , damit wir die GG-Plot-Funktionen wirklich nutzen können. Und um dann den Iris-Datensatz zu laden, müssen wir nur Daten schreiben. Und dann müssen wir den Datensatznamen übergeben . Datentyp ist die Daten-Iris Es wird den Iris-Datensatz laden. Und wenn Sie auf diesen Iris-Datensatz klicken, können Sie hier sehen, dass er das Auge enthält, diesen Florida-Schwanz, der Kelchblattlänge, Blütenblattlänge , Blütenblattbreite Blütenblattbreite Es gibt also Arten. Okay? In diesem Datensatz gibt es also die eine Eigenschaftsobjekte und private Labels, eine pro p-Zeile und eine pro p-Zeile und fünf Spalten. Okay, lassen Sie mich zurück zum Code gehen. Also, was wir jetzt tun, wir machen das, wir erstellen ein Streudiagramm Um also ein Streudiagramm zu erstellen, verwenden wir die GG-Plot-Funktion und verwenden hier den Namen des Datensatzes Das ist Datensatz für Iris-Datensatz. Dann zeichnen wir aus ästhetischen Gründen für die X-Achse die Kelchblattlänge und die Y-Achse Wir zeichnen die Breite der Kelchblätter auf. Und dann verwenden wir die Genom-Underscore-Point-Funktion , um diese Punkte darzustellen Es ist ziemlich einfach. Gg Plotfunktion, dann Name des Datensatzes als Ästhetik. Wir müssen die X- und Y-Koordinaten übergeben. X-Balken, X-Koordinate verwenden also die Länge des Kelchblatts. Und für die Y-Koordinate verwende ich die Funktionen Kelchblattbreite und Geom-Punkt um diese Punkte, geometrische Punkte, darzustellen Wenn wir das also ausführen, erhalten wir hier dieses Streudiagramm. Jetzt wurden hier alle Punkte zur Kelchblattlänge und Kelchblattbreite aufgetragen Jetzt verwenden wir die GG-Plot-Funktion für jedes Slider-GG-Plotobjekt und spezifizieren den Datensatz Das ist es, was wir hier gemacht haben. Dann die ästhetische Funktion hier, wir verlieren die ästhetische Funktion. Innerhalb des GG-Diagramms definieren Sie die ästhetischen Abbildungen mit der Länge der Kelchblätter Was wir hier machen, wir kartieren die Kelchblattlänge und die Kelchblattbreite Kelchblattlänge wird der X-Achse zugeordnet, und die Kelchblattbreite wird der Y-Achse zugeordnet Und die Geom-Punkt-Funktion fügt dem Diagramm Punkte hinzu. Und so bekommen wir das Streudiagramm, damit du es verzerrst. Wir verwenden also die GG-Plot-Funktion , in der wir den Datensatznamen übergeben. Dann allergen wir die ästhetische Funktion , um die Koordinaten zuzuweisen Ordnen Sie jedoch den Spaltennamen oder den Xs zu. X entspricht also den sogenannten Auslässen und der Y-Achsen-Punktbreite des Kelchblatts Und dann verwenden wir die Jin-Geom-Punktfunktion , um die Punkte im Streudiagramm Also bekommen wir diese Handlung. Als Nächstes passen wir jetzt das Streudiagramm an. Das Anpassen wird also wieder passieren. Wir werden den GG-Plot verwenden. Zuerst zeichnen wir die Handlung. Also für diesen GG-Plot, dann nenne den Datensatz diese Ästhetik. Hier, ästhetisch, dasselbe, was wir lesen. Und was wir anpassen. Wir passen es an, indem wir eine Farbe hinzufügen. Farbe entspricht also Spezies. also Alle Arten werden also einer bestimmten Art angehören, eine bestimmte Länge und Kelchblattlänge und Kelchblattbreite werden farbig sein Für jede Art wird also eine Farbe zugewiesen. Farbe wird also Spezies genannt. Dann verwenden wir Geom Point. Und hier und hier haben wir gerade Geom-Point-Schriften geplottet. Ich verwende hier die Geom-Punkt-Funktion, die wir anpassen, indem wir Argumente hinzufügen, zum Beispiel ist psi gleich drei und Alpha gleich 0,7 Dann Labore hier mit der Labs-Funktion, wir vergeben den Titel, also Titel des Streudiagramms, wir geben ein Streudiagramm für Kelchblattbreite für die X-Achse gibt den Namen Kelchblattlänge an, und die Y-Achse gibt die Kelchblattbreite an Und dann das Thema hier verwenden wir das, wir verwenden das T-Match-Theme, Minimal-Theme, und das heißt Minimalfunktion. Wir müssen das minimalistische, minimalistische Thema verwenden. Lassen Sie uns das planen und dann werden wir es weiter besprechen. Nun könnt ihr das hier sehen, da wir die ökologischen Arten angegeben haben. Also all diesen Arten, es gibt drei Arten und drei Farben wurden zugewiesen. Wenn wir uns das ansehen, können wir sagen, dass das Grün für Versicolor steht, das Rosa für Setosa Virginica ist dunkelblau. Okay, lassen Sie uns jetzt ein bisschen mehr verstehen. Also fügen wir Farben hinzu, die Sie innerhalb der ästhetischen Funktion zwei Leerzeichen nennen , um die Punkte auf der Grundlage dieser Präzision des Auges einzufärben . diesen Diagrammen, die wir bereits besprochen haben, das Seitenargument im bestimmt das Seitenargument im Geom-Unterstrich die Größe des Punktes Jetzt sind es also drei. Wenn ich es schaffe, unsere 15 zu unterstützen, was passiert dann? Das, die Punkte werden größere Erkenntnisse sein. Wenn du sehen willst, sieh dir hier jetzt den Rückenbereich größer an Je nach Anforderung können Sie also, wenn Sie eins oder fünf angeben, wird es so aussehen, okay? Jetzt gibt es noch etwas anderes, Alpha entspricht 0,7. Was ist also dieses Alpha-Alpha-Argument, das diese Transparenz steuert. Also, wenn ich sage, wenn ich es auf eins erhöhe, was passiert dann? Lass uns sehen. Siehst du, es ist dunkler, oder? Wenn ich Wind einstelle, sieh, dass es nicht so dunkel ist. Und wenn ich 0,8 gebe, wird es dunkler. Martin, dunkler. Okay? Also werde ich das Amperemeter abfeuern das die Transparenz der Punkte kontrolliert Okay. Als Nächstes wird die linke Funktion verwendet, um den Titel der Titel- und Achsenbeschriftungen festzulegen. Also für die Zugangsebenen haben wir auf der X-Achse die Kelchblattlänge, Y-Achse haben wir die Kelchblattbreite angegeben Und der Titel des Streudiagramms, wir haben ein gegebenes Streudiagramm von Probe versus Kelchblattlänge versus Kelchblattbreite Und das Thema unterstreicht die Mindestpunktzahl und das Minimalistische Aber die Handlung. Wenn wir das hier reinstellen können, wenn ich das wiederhole und wenn ich das Thema unterstrichene schwarz-weiße VW einmal verwende und was passiert dann? Lass uns sehen. Es wurde nicht viel geändert. Jetzt kommen wir zum Jitter-Plot. Also was für ein Jitter-Plot? Datendiagramme enthalten Spezialeffekte mit den darstellbaren Streudiagrammen Ein Spezialeffekt , mit dem Streudiagramme dargestellt werden können. Es wird also dem Streudiagramm den Spezialeffekt hinzufügen. Detail ist nichts anderes als ein zufälliger Wert, den Punkten zugewiesen wird, um sie zu trennen. Okay? So können Sie sehen, ob Ihr Datensatz doppelte Werte enthält und wenn Sie das Streudiagramm zeichnen, überlappen sich die Punkte also in diesen Fällen wissen möchten, Wenn Sie also in diesen Fällen wissen möchten, bei welchen Punkten es sich um Duplikate handelt, können Sie diese Jitterfunktion verwenden , um die Punkte hervorzuheben, die die Duplikate enthalten Okay? Jitter ist nichts anderes als ein zufälliger Wert, den wir den Punkten zugewiesen haben , um sie voneinander zu trennen. Okay? Also jetzt GG-Plotfunktion, Ästhetik des Datensatznamens, dann Geom-Unterstrich, Jitter und Breite ergeben 0,2, Höhe ergibt Null Alpha 0,7, und alle anderen Dinge sind fast gleich und Ihr Team verwendet Schwarz Okay? Also lass uns das ausführen. Sehen Sie hier. Jetzt wurden die Punkte getrennt. Okay? Das ist also die dritte Handlung. Also modifizieren wir die X-Achse, eine Art und schreiben Zugriff, um Länge der Blütenblätter und die Rückkehr des Genoms von einem unruhigen Punkt zur Handlung abzubilden Das Argument Breite. Steuert die Breite der Argumente Jitter und Höhe und setzt die Höhe der Höhe auf Null Diese regionale Sache, das vertikale Zittern des Geldes. Und ich werde die Transparenz vom Parlament kontrollieren, wie bei dieser Sekte und allen anderen, die wir bereits besprochen haben. Okay? So können wir ein normales Streudiagramm erstellen und wir können ein Jitterdiagramm verwenden, um ein Jitterdiagramm zu erstellen 99. Bar-Plot und Hostogramm: Hallo und willkommen zurück. In dieser Vorlesung werden wir uns also mit zwei weiteren wichtigen Plotten befassen. Die Dinge sind wie ein Balkendiagramm und dann sehen wir das Histogramm Dies sind also zwei wichtige Routing-Techniken , die Art der Diagramme. Lassen Sie mich Ihnen zunächst sagen, was Barplot ist. Das Balkendiagramm wird auch als Balkendiagramm bezeichnet und es wird auch als Säulendiagramm bezeichnet , da es für keine der beiden Spalten gilt Okay? Und es ist eine Art der Visualisierung, die kategorische Daten darstellt Du machst rechteckige Balken. Jeder Balken entspricht einer bestimmten Kategorie. Und die Höhe oder Länge des Balkens steht für die Häufigkeit, Anzahl oder den Anteil dieser Kategorie. Balkendiagramme werden häufig verwendet, um verschiedene Kategorien zu vergleichen oder veranschaulichen, wie Saudi-Arabien diese Gruppendaten dargestellt hat. wird also grundsätzlich ein Balkendiagramm verwendet Für die kategorischen Daten Okay, lassen Sie mich Ihnen sagen, wie wir das GD-Plotpaket machen können, das wir verwenden werden. Wir haben es bereits installiert. Falls Sie es nicht installiert haben, installieren Sie es mithilfe von install.packages. Und dann hat es das nicht getan. Und dann war es eine riesige IT-Bibliothek, ggplot2. Und wir werden das einfach ausführen. Es tut uns leid. Okay, dann ist es soweit, für diese Übung verwenden wir den Diamantendatensatz. Okay? Dies ist also ein integrierter Datensatz im GG-Plot zum Laden von Daten. Um diese Daten in diesen Datensatz zu laden, müssen wir Daten und dann den Datensatznamen verwenden , also Diamanten. Wenn Sie also auf diesen Diamantendatensatz klicken, können Sie die Karotte des Diamanten sehen und dann den Schliff, dann Farbe, Reinheit, Tiefe , Tabellenpreis, x, y, z. Das sind die Spalten im Datensatz. Es gibt 53.009, 40 Einträge in diesem Datensatz und insgesamt zehn Spalten sind Das ist also ein großer Gott, er tut es. Und jetzt besteht Schritt zwei darin, ein Balkendiagramm zu erstellen und zu zeichnen. Um ein Balkendiagramm zu erstellen, verwenden wir einfach die GG-Plot-Funktion und hier geben wir ihnen, was geben wir Diamant den Datensatznamen, dann ist ästhetisches X gleich Cut-Will-Spalte. Sie können hier sehen, dass die Spalte die Spalte auf der X-Achse ist. Und dann werden Genom und Escobar-Funktion verwendet, um ein Balkendiagramm zu erstellen Lassen Sie uns das ausführen und das Ergebnis sehen. Jetzt können Sie hier auf der X-Achse das Band da oben sehen, und auf der Y-Achse automatisch die Anzahl der Zahlen wird automatisch die Anzahl der Zahlen für diesen Schnitt angezeigt. So fair, gut, sehr gut. Erstklassige und ideale Warentypen, die in unserem Datensatz verfügbar sind. Sie können hier im Datensatz sehen, gut ideal Premium, gute Prämie, sehr Weltausstellung, sehr gut. Ideale Prämie. Das hat mir nicht gefallen. Okay, jetzt können wir sehen, dass unser Balkendiagramm fertig ist. Um ein Balkendiagramm zu erstellen, beschäftigen wir uns mit dieser Funktion Genom-Atlasgruppe, Balken im GG-Plot und Ästhetik, Religion x ist gleich Cut, also wird es das Säulen- oder Balkendiagramm verwenden. Wir verwenden das GG-Plot aus dem zentralen Bildslider-GG-Plotobjekt und spezifizieren den Datensatz Hat diese Diamanten nicht. Und ästhetische Funktion. Inside GG Plot definierte die ästhetische Abbildung mit gut-Map zur X-Achse und Geom Underscore Balkenfunktionen als Balken zum Plot, wodurch das wodurch das Okay, als Nächstes können wir dieses Balkendiagramm oder Balkendiagramm anpassen , indem wir die Funktion Geom-Balken im Inneren verwenden die Funktion Geom-Balken im Inneren , damit wir die vier Diesel gleich füllen können , sodass es nachgefüllt wird Und hier ist x gleich ausschneiden und füllen wird mit der Klarheit gefüllt. Also verwenden wir die X-Achse, um den geschnittenen Typ von Gott darzustellen, und wir füllen die Flasche mit der Klarheit. Also je mehr diese Klarheit, es wird Freunde mit ihnen oder Farbe entfernen. Okay? Und dann Geom Underscore Bar für abweichende Meinungen. Und dann Labore. Dies ergibt den Titel für das gesamte Balkendiagramm, das Balkendiagramm der Diamantschlifffrequenz und der X-Achse, wir geben den Namen Schnitt und für die Y-Achse geben Und dann Team, du verlierst minimal. Okay, lassen Sie uns das ausführen. Jetzt können Sie hier sehen, dass es voller Entenklarheit ist. Klarheit ist so. Die Klarheit wurde mit dunklen Farben, Gelb, Grün, Hellgrün, Blau und Blau erreicht. Okay. Also so Wir fügen innerhalb der ästhetischen Funktion ein Argument für die Feldklarheit hinzu, um die Balken zu füllen , die auf der Reinheit des Diamanten angebracht sind. Das schlechte, ordentliche Verlängerte ging in die Geom-Leiste, tippt auf den Boden, wodurch es einfacher ist, die Proportionen zu vergleichen Das ist also einer von oben, das ist der riesige neben dem Spielfeld. Okay. Du schickst Leute, um zu besetzen. Und dann funktionieren die Labore. Wir fügen den Titel des Balkendiagramms und die Zugriffsebenen hinzu und Tim Minimal, erstellen ein düsteres, minimalistisches Team für die Handlung Jetzt kommt das Histogramm. Histogramm ist also eine grafische Darstellung der Verteilung kontinuierlicher numerischer Daten Jetzt haben wir also, wir haben das Balkendiagramm mit den einzelnen kategorischen Daten gesehen mit den einzelnen kategorischen Daten Und das Histogramm ist für kontinuierliche oder numerische Daten. Es besteht aus Topsy Regia-Balken, wobei jeder Balken für einen bestimmten Wertebereich oder ein bestimmtes Wertewesen steht Wertebereich oder ein bestimmtes Wertewesen Und die Höhe des Balkens gibt an , mit welcher Frequenz oder viele Datenpunkte Pauling in diesen Bereich fallen Histogramm gibt einen Einblick in die zentrale Tendenz und verteilt die Daten, sodass die visuelle Analyse der Verteilung aufeinander Hier dreht sich also alles um das Histogramm. Lass uns einen erstellen. Um ein Histogramm zu erstellen, verwenden wir ein GG-Plot aus Sin- und Datensatzdiamanten Aesthetic x entspricht dem Preis. Also auf der X-Achse zeichnen wir den Preis und dann die Funktion Geom Underscore Histogramm In der GG-Handlung. Das Histogramm. Histogramm für die Feldbreite ergibt 500, und dann Labore für die Angabe der Beschriftungen und der Titelleiste, der Balken, unseres Titels weiter, aber Und dann verwendet das Team Schwarz und Weiß. Okay, lassen Sie uns das ausführen. Das ist das Histogramm. Sie können den Preis auf der X-Achse und die Frequenz hier sehen, Preise für zusätzliche Rohdiamanten. Also hier modifizieren wir die X-Achse für diesen Preis. Und Yom unterstreicht die Histogramm-Funktion, füge die Charge dem Blut hinzu und erstelle das Histogramm ohne Wundkontrolle der breiten Datenablagen im Wenn wir das also auf 100 setzen, schauen wir uns die Änderungen an. Die Breite wird reduziert. Wenn ich ein Tao Qian mache, wird das Rot erhöht Also 400 gemeldet. Okay. So erstellen wir ein Balkendiagramm und Histogramme, um ein wenig mehr über Balkendiagramme und Instagram zu erfahren ein wenig mehr über Balkendiagramme und Die wichtigsten Unterschiede zwischen den Balkendiagrammen und Histogrammen werde ich in Bezug auf das von mir gekaufte Blut, die Platzierung, das Modell, die Präsentation und die Anwendungsfälle erkennen ich in Bezug auf das von mir gekaufte Blut, die Platzierung, das Modell, die Präsentation und die Anwendungsfälle In Bezug auf den Datentyp eignen sich Balkendiagramme also für kategorische Daten, wobei jeder Balken die Kategorie oder Gruppe darstellt, wohingegen Histogramme für kontinuierliche numerische Daten zugelassen sind für kontinuierliche Das ist also schon ein entscheidender Unterschied, denn Datentyp, die Datentyp-Balkendiagramme für kategorische Daten und für numerische Daten oder kontinuierliche Daten, wir Histogrammbalken stellen diese Wertebereiche oder Intervalle dar. Während in Bar, Plot, Balken die Kategorie oder Gruppe darstellt. In Bezug auf die Platzierung der Balken im Balkendiagramm sind die Balken in der Regel sogar gleichmäßig entlang X-Achse angeordnet, wobei zwischen den einzelnen Balken eine Lücke besteht, um verschiedene Kategorien darzustellen Im Histogramm sind die Balken, die für Jugendliche unterschiedlich sind und sich berühren , da sie kontinuierliche Bereiche oder Intervalle von Beta-Werten entlang der X-Achse darstellen Intervalle von Beta-Werten entlang der X-Achse Das ist also ein weiterer sehr klarer Unterschied. Wenn Sie den Balken sehen können, Diagramme, die Balken, die sich entlang der X-Achse befinden und zwischen den einzelnen Balken eine Lücke besteht und die verschiedene Kategorien repräsentieren Okay, und er verwaltete Programme, Indizes, die auf kontinuierlichen Daten aufgezeichnet wurden, numerische Daten Es wird keine Lücke zwischen den Balken geben und sie werden nebeneinander liegen. Weil der andere brillante, dass kontinuierliche Bereiche in Dumps der Datendarstellung in einem Balkendiagramm, die Höhe oder Länge jedes Balkens eine proportionale spezifische Kategorie des Frequenzzählers darstellt proportionale spezifische Kategorie des Frequenzzählers Im Histogramm gibt die Höhe jedes Balkens an, dass die Häufigkeit oder der Countup-Wert von Datenpunkten, die in den bestimmten Bereich fallen, grün sind Das ist also, hier geht es um ein Histogramm, es geht um die Anzahl der Zählungen, die in einem bestimmten Bereich fallen Wohingegen das Barplot von der Anzahl der Zählungen in einer bestimmten Kategorie spricht der Anzahl der Zählungen in einer bestimmten Kategorie Und die große Vermutung, die jetzt sehr klar ist , dass Balkendiagramme häufig verwendet werden , um verschiedene Kategorien zu vergleichen, konkrete, diskrete, tut mir leid, diskrete Daten anzuzeigen oder die Beziehung zwischen kategorischen Variablen, Variablen, zu veranschaulichen die Beziehung zwischen kategorischen Variablen, Variablen, Histogramme werden dagegen häufig verwendet, um die Verteilung zu visualisieren oder Muster, zentrale Tendenzen und Streuungen kontinuierlicher numerischer Daten zu identifizieren zentrale Tendenzen und Streuungen kontinuierlicher numerischer Dies sind also die Hauptunterschiede zwischen dem Balkendiagramm und einem Histogramm Ich hoffe, es hilft Ihnen beim Verständnis und Sie werden wissen, dass wir das Balkendiagramm verwenden sollen und wo das Histogramm zu verwenden ist 100. Kreisdiagramm mit ggplot2: Hallo und willkommen. In dieser Vorlesung werden wir also etwas Ungewöhnliches tun, was wir nicht tun. Gg plant zu viel, das wäre ziemlich interessant. Also, was ich hier machen werde, ich werde ein Kreisdiagramm mit GG-Plot erstellen. Und bevor ich das tue, lass es mich dir sagen. Gg Plot Two ist in erster Linie für die Erstellung von Schichten und Grammatik von Grafiken konzipiert Erstellung von Schichten und Grammatik . Bitbasierte Plots haben kein integriertes Geom für Kreisdiagramme GG Plot unterstützt also kein Bikarb. Wir können jedoch immer noch ein Kreisdiagramm mit g, g-Diagramm zwei erstellen, indem wir die Daten manipulieren und andere Geome verwenden Schauen wir uns also das Beispiel an. Also Schritt eins, lade die Pakete und erstelle Beispieldaten. Also hier verwenden wir den blockierten Download, den wir nicht gemacht haben. Und dann benutzen wir die Bibliothek. Hast du zwei geplündert? Und dann erstellen wir Beispieldaten. Dazu verwenden wir die Kategorie data.frame und die ReLU-Kategorien ABCD und der Wert ist dieser Vektor C, 13., 20., 20, sei 35 Okay, lassen Sie uns die Beispieldaten berechnen. Das sind kategorische Daten, okay? Spielen Sie jetzt mit Spielzeugen und manipulieren Sie die Daten für die Erstellung eines Kreisdiagramms Also hier, was wir tun werden, wir berechnen den Anteil für jede Kategorie. Also Daten, wenn Sie eine Variable erstellen, wird dieser Dialog gelb angezeigt und dann die Daten transformiert. Und die Daten werden erneut für die Transformation übergeben, wir berechnen den Anteil ok, Wert geteilt durch die Summe. Nun, okay, also lass uns das machen. Und jetzt können Sie hier sehen, dass die Daten so sind. Nun, Kategorie Wertversprechen, wir haben eine Proportion geschaffen, wir haben eine richtige Proportion geschaffen Wir haben geschaffen, okay? Sortiere nun die Daten in absteigender Reihenfolge nach oben Dafür verwenden wir Data Order, Data. Der Dollargewinn wird. Wir möchten nach der YouTube-Requisite sortieren , da dies die einzigen numerischen Daten sind Also zu diesem Zweck ist es wahr , abzunehmen. Okay? Es wird in absteigender Reihenfolge sein. Also lass uns das machen. Nun, wenn wir uns die Daten ansehen, okay, das ist eine neue Bestellung. Schritt drei ist nun das Erstellen des Kreisdiagramms, des gestapelten Balkendiagramms Okay? Also GG plant zwei, dann geben wir die Daten weiter. Dann verwenden wir Ästhetik x, verwenden nichts. Warum? Wir verwenden Requisiten und füllen die Kategorie aus, okay? Nach Kategorie. Und dann gibt die Geom-Bar, menschliche Escobar-Funktion, die Statistik entspricht der Identität und die Breite gibt eine Welcher Polar ergibt dann Y, beginnend bei Null. Und dann musst du diesen Titel wirklich behalten. Mein Diagramm und fülle mit der Kategorie. Das Team wird das Theme Underscore Wide verwenden. Also lass uns sehen. Weißt du, wir haben ein Balkendiagramm das die Kategorie zeigt und das sind die Leads. Dieses Kreisdiagramm, der Kuchen ist dieser. Diese werden anhand der Proportionen gezeichnet , die wir erstellt haben. Okay? Lassen Sie uns, lassen Sie mich Ihnen das ein bisschen näher erklären, damit ich Ihnen mehr Klarheit gebe. Bei diesem Ansatz wird also eine Woche und das Kreisdiagramm in ein gestapeltes Balkendiagramm umgewandelt Durch Manipulation der Daten berechnen wir den Anteil, indem wir jeden Wert durch die Summe aller Werte dividieren jeden Wert durch die Summe aller Werte Die Funktion „Geom-Unterstriche mit den Statistiken entspricht Erstellen Sie die gestapelten Balken mit dem höchsten entsprechenden Produktanteil Okay? Und dann unterstrich Quad die polare Funktion. Funktion Was es tun wird, wandelt das Balkendiagramm in eine kreisförmige Form um, um ein Kreisdiagramm nachzuahmen Okay, und dann geben die Labore den Titel und die Legende und das Thema unterstreichen Wortschriftarten und entfernen den unnötigen Hintergrund und Mensch sorgt für ein sauberes Erscheinungsbild So erstellen wir mit diesen beiden ein Kreisdiagramm. Und ich gebe Ihnen hier einen Haftungsausschluss. Wie ich bereits sagte, wird das GG-Plot nicht pro Kreisdiagramm unterstützt, da es vor Ort selbst erstellte Grafiken erstellt wurden. Sie müssen also beachten, dass Kreisdiagramme generell nicht für Daten empfohlen werden. Wir haben einiges gelernt , weil es schwierig war genau wahrzunehmen Unterschiede in den Winkeln in den Bereichen der Scheiben Oder dass Diagrammtypen wie Balkendiagramme oder gestapelte Balkendiagramme oft effektiver für die Darstellung der vertikalen Daten sind effektiver für die Darstellung der vertikalen Daten Wenn also kategorische Daten vorhanden sind, können wir sie nicht verwenden, obwohl wir das Bus-Kreisdiagramm nicht verwendet haben Stattdessen können wir die Bug-Jars oder die gestapelten Balkendiagramme verwenden oder die gestapelten Balkendiagramme Okay? Ich hoffe also, dass dies ihrem Lernen einen gewissen Mehrwert verleiht 101. Linienplots mit ggplot2: Hallo und willkommen zurück. In dieser Vorlesung werden wir untersuchen, wie man Liniendiagramme mit GG-Plot in unserer Programmierung erstellt . Liniendiagramme eignen sich daher zur Visualisierung von Trends und zur Strukturierung kontinuierlicher Daten, kontinuierlicher Anfügung von Zeitreihendaten kontinuierlicher Anfügung von Zeitreihendaten Und wir werden lernen, einfache Liniendiagramme zu erstellen, mehrere Linien auf derselben Zeichnung zu zeichnen und das Aussehen der Linien anzupassen. Also, worüber wir im Grunde lernen werden, etwas über die Liniendiagramme zu lernen. Liniendiagramme, weshalb wir sie verwenden, um Trends und Muster in kontinuierlichen Daten zu visualisieren Liniendiagramme, wir können uns nicht einmal die kategorischen Daten leisten. Wir können es weiter verwenden. Kontinuierliche Daten, numerische Daten oder was für ein kontinuierlicher Bereich. Die Reichweite sollte ebenfalls kontinuierlich sein. Und das beste Beispiel sind Zeitreihendaten. Und wir werden auch lernen , wie man einfache Liniendiagramme erstellt. Und wir werden sehen, wir werden auch sehen, wie wir ein einfaches Liniendiagramm erstellen. Wie wir mehrere Linien auf demselben Grundstück zeichnen können. Und wie können wir das Aussehen von Daumenlichtern anpassen . Es gibt drei Linien auf derselben Handlung, wie wir jetzt in einigen Linien wie Farben oder Geschlecht direkt nach oben gehen können , okay, also lass uns anfangen. Als Erstes erstellen Sie also ein grundlegendes Liniendiagramm. Um einfache Liniendiagramme zu erstellen, haben wir also einen Datensatz mit zwei kontinuierlichen Variablen. In der Regel bieten sie Ausgänge. Das werden die unabhängige Variable und die Y-Achse sein, das werden die abhängigen Variablen sein Okay? Also, was sind die beiden Dinge, die wir brauchen? Wir brauchen diesen Datensatz. Offensichtlich benötigen wir einen Datensatz. Und Datensätze hätten mindestens zwei kontinuierliche Variablen Und in der Regel ist die X-Achse die unabhängige Variable und Y-Achse stellt die abhängigen Variablen dar Okay? Unser Datensatz mit zwei kontinuierlichen Variablen, einer für Geschlecht, unabhängigen Daten, wertvollen und einer anderen, wird also einer für Geschlecht, unabhängigen Daten, davon abhängen. So unabhängig, brillant auf der Y-Achse. Also, was ich dafür verwenden werde, werde ich ein einfaches Diagramm einer Linie erstellen ein einfaches Diagramm einer , die die Sinuskurve darstellt. Okay, bis dahin lassen Sie uns Stichproben für die von mir erstellten Leitfäden nehmen, die von der X-Achse abhängig sind, jeden Fall von der unabhängigen Variablen Also hier, was ich tun werde, ich erkläre es. Nun, ich erstelle mit unserer Sequenz Fontan. Und er hatte eine Sequenz, ich gebe Null Komma zwei in Pi und links oder Tochter, ich gebe hundert Hockey Das erzeugt also die Staub-Zufallsvariable X, die Pop-Sequenz und dann Y, die abhängige Variable, die von der X-Achse abhängt Und da Sie nicht nach Kanada wollen, gleiche Bordsteinkante, die Sinusfunktion Sie und beide die X-Variable hier. Also für jedes Ausatmen, also für jedes Excel, wird eine Kurve zugewiesen, diese Algebra und auf der Y-Achse Also X, ich verwende die Sequenzfunktion, und hier übergebe ich das Nullkomma 2,2 Pi und verlängere oder bezweifle, dass ich hundert und diesen X-Wert gebe , wenn ich zwei Sinusfunktionen übergebe Das führte also zur Sünde, Gott. Und dieses Mal, was auch immer, es wird auf dem X basieren. X ist also die unabhängige Variable und abhängige Variablen, denn warum hängt die Wertschöpfung von dem X ab, das wir an die Sinusfunktion übergeben Warum ist also die abhängige Variable und X eine unabhängige Variable? Auf diese Weise bekommen wir die X und Y. Nun, die Basic Line Plots ggplot2-Bibliothek, also haben wir sie bereits installiert Also lass mich dir zuerst diese Linie geben, zwei Zeilen, damit Okay. Okay. Also siehe schreien, wenn wir versuchen, die X-Werte zu drucken, also sieh dir den X-Wert der Daten an, den wir mit Hilfe der Sequenzfunktion versuchen Hilfe der Sequenzfunktion Und wenn ich Y drucke, dann wird es der Y-Wert sein, der vom X-Wert abhängt. Mit Hilfe dieses Sinus von X wird also der Y-Wert ermittelt , der am nächsten Freitag der ist Nun, jetzt haben wir die Und wir haben die Wegpunkte Okay, als Nächstes verwenden wir die Bibliothek GG Plot Two. Und dann werde ich versuchen, Liniendiagramme zu konfigurieren. Kann jede Zeile, geschweige denn die GG-Plotfunktion. Beide Daten. Du gehst zu data.frame. Und er hatte übergeben, dass die X- und Y-Koordinaten X- und Y-Werte sind. Annuli sind die ästhetische Funktion. Und exit ist gleich X und Y ist gleich Y. Und außerdem verwende ich hier das Allyl, das versucht wurde, eine Linie zu zeichnen, also verwende ich den Geom-Unterstrich Lassen Sie mich das zu C. C. bringen, und jetzt wird mir Golf zugewiesen. Also auf der X-Achse hundert Verschmelzung, nun, die Darstellung der Exploits und Y und Y. Auf diese Weise erreichen wir dieselbe Kurve, die auf X und Y gemacht wurde. Also X ist der unabhängige glaubwürdige und Y der abhängige. Also X ist der unabhängige glaubwürdige und Y der abhängige Für jedes X gibt es einen Y-Wert. Das ist also dieselbe Kurve, die wir bekommen. Die Art und Weise, wie wir Liniendiagramme einfach auflisten können. Einfache, einfache Liniendiagramme, um sie in den Kosinus zu bringen, gehen wie. Also. Wenn Sie möchten, können Sie noch einmal zur Erklärung gehen. X-Komma Y von data.frame erstellt also einen DataFrame Also X- und Y-Variablen, die wir hier erstellt haben, indem die Sequenz Lungen verwendet und sie dann erneut geöffnet haben, und X-Werte und mein Passagier zusätzlich die Sinusfunktion Wir haben die Y - und X- und Y-Werte. Wir haben gesehen, wie ich Wasser hinzugefügt habe. Und dann haben wir die DD-Bauteilbibliothek verwendet und Sie haben Plot und Data ist gleich dem Datenpunktrahmen X Komma Y nicht erhalten . Dadurch wird ein DataFrame mit X- und Y-Variablen erstellt Und dann die ästhetische Funktion, X ist gleich XY. Mach einfach so, was das bewirken wird, dieses echte ästhetische Mapping. X wird also die X als Makro darstellen und Y wird die Y-Achse abbilden. Überprüfen Sie dann die Funktion „Geom Underscore Line , um die Linie zu den Diagrammen hinzuzufügen Okay? Also das wird erledigt, Zeile. Okay, das ist also die Erklärung für die Erstellung dieser einfachen Liniendiagramme UG, X und Y, das Beispiel, das wir später erstellt haben. Jetzt werden wir sehen, wie wir mehrere Linien auf demselben Block zeichnen können . Okay? Also für diese Vorlesung, okay. Okay, jetzt können wir dem Diagramm mehrere Linien hinzufügen indem wir dafür sorgen, dass verschiedene Datensätze die Daten mithilfe einer Gruppierungsvariablen gruppieren Lassen Sie uns nun sowohl die Sinus- als auch die Kosinuskurve auf demselben Diagramm darstellen Also hier werde ich Sinus- und Kosinuskurve auf demselben Diagramm darstellen X wird also dieselbe und doch dieselbe Sequenzfunktion sein, Doodle, ich werde kein Land kaufen, dieser Ausfall heißt 100 Der X-Wert wird hier also derselbe sein. Warum Sinus und Weiß diese beiden Variablen häkeln, Alkyd hier und hier, ich übergebe das Ich hole mir das Y-Unterstrichzeichen Values. Und Y unterstreicht Kosten wird an die Kostenfunktion weitergegeben . cos von X gibt uns die Möglichkeit, Kostenwerte zu unterstreichen. Okay? Auf diese Weise mache ich While-Schleifen für jedes X. Also hat jeder X-Punkt einen Sinus von X und Maniok einen X-Wert, oder Sudbury für X haben wir zwei Y-Werte, Sinus und Kosinus. Und diese beiden Punkte, ich werde auf der gleichen Handlung aufbauen. Um das Liniendiagramm mit den mehreren Linien zu erstellen, verwende ich also die GG-Plot-Funktion. Und hier kannst du dir das Reha-GG-Grundstück ansehen . Und wir haben bei den Daten, data.frame X Komma Y, weil er hatte, warum es nur eins war Also haben wir gemappt, dass VX gleich X und Y im Quadrat Y ist. Hier, wenn Sie die Und wir verwenden hier den Plus-Operator. Und dann verwenden wir die Funktion Geom Underscore Line. Und in der Zeilenfunktion übergeben wir die Daten. Rahmen. Daten entsprechen dem X-Komma Y von data.frame. Hier ist Y ein Y-Unterstrich, oder Hier haben wir also sogar das X-Komma Y, einfach weil nur ein Weg der einzige war Warum war es da? Da gibt es zwei Y-Werte. Also hier gebe ich das X-Komma Y, X wird dasselbe sein Also Gamma, warum jedes Quartal, warum unterstreichen Zeichen und dann wird die ästhetische Funktion X ist gleich X und Y ist gleich Y. Und Seitliche Gaben, Zeichen Und dann machen wir dasselbe mit der Warum-Frage. Daten sind also gleich data.frame X wird der X- und Y-Leser sein Warum kostet ein Endoskop? Und ästhetisches X heißt Reaktionen OH, oder das Warum. Und Farbe Es heißt Rekursion. Hier wird der Titel Azure-Sinus- und Kosinuskurven angegeben. Und X ist gleich dem Großbuchstaben X und Y ist gleich großen Y-Farbfunktion und Tim wird das Minimum sein. Lassen Sie mich das noch einmal durchgehen und das Äußere sehen. Sehen Sie hier, jetzt haben wir die Sinus- und Kosinuskurve. Das ist die Temp1 hier. Und dann haben wir die Sinus- und Kosinuslinien im Themenplot Wir sehen uns, es gibt jetzt zwei Grundstücke. Zwei Zeilen. Einer repräsentiert unsere Scham und ein anderer ist brillant darin. Auf diese Weise können wir mehrere Linien auf demselben Block zeichnen. Also wiederhole ich es einfach noch einmal. Nun, hier, was wir getan haben, wir haben ein X erstellt, indem wir eine Sequenz verwendet haben, die wir bereits verwendet haben. Indem Sie das grundlegende Liniendiagramm erstellen. Folge und Nullkomma zwei in Pi und dann Punkt, Punkt Hundert Und warum hier Unterstreichungen in? Weil wir die Sinus- und Kosinuslinien in derselben Grafik darstellen werden. Ich brauche also zwei Punkte, Y-Punkte, um zu erklären, warum Unterstrich Sünde der Sinus von X und Y Unterstrich ist Kosinus ist Y unterstriche Kosten sind die Kosten von ZR Cosinus von X. Also diese, diese, diese könnten diese drei Punkte betreffen . X-Komma Y mit Vorzeichen und X-Komma Y ist gleich. Und jetzt muss ich diese Punkte aufzeichnen. Also für den Datenwert die GG-Plot-Funktion. Und hier bist du aufgestanden und hast den Datenrahmen an die GG-Plot-Funktion übergeben, den Plus-Operator, um alles zu übergeben Und ich verwende die Funktion „Geom Underscore Line“. Und doch sind Beraterdaten gleich data.frame X Komma Y entspricht Weckzeichen und Das Wachs ist gleich X, Y ist gleich weiß und farbig. Aber die allergische Farbe ist gleich, okay? Und die Farbe entspricht unserem Glanz. Und hier das Gleiche. Nur YOLO wird Nicaea schwächen. Und dann gibt der Titel den Laboren die Funktion, die Zeit anzugeben. Und X ist gleich X und Y ist gleich der Gewichtung einer Seitensichtfunktion und eines Minimums. Und wenn wir rennen, bekommen wir diese Anmeldung oder beschämt los, wenn die gleiche Handlung Ich habe also bereits erklärt wir zwei separate Datensätze für Sinus - und Kosinuskurve erstellen , indem wir data.frame X-Komma Y, X-Komma Hawaii, Hawaii-Zeichen und X-Komma Y verwenden. Y ist gleich X Komma Y. Warum kostet das, okay? , dass wir zwei separate Datensätze für Sinus - und Kosinuskurve erstellen, indem wir data.frame X-Komma Y, X-Komma Hawaii, Hawaii-Zeichen und X-Komma Y verwenden. Y ist gleich X Komma Y. Warum kostet das, okay? Und dann ist jeder eine Yom-Line-Ebene. Hier erstellen wir im Grunde zwei Ebenen von Ebenen mit getrennten Linien. Okay? Jede Funktion „Geom-Linie, Geom-Unterstrich erzeugt also eine Ebene, die einer separaten Linie entspricht. Okay, ein Parkzeichen und eines Wir verwenden die Farbästhetik , um sie zu unterscheiden. Und dann verwenden wir die Laborfunktion, die wir verwenden um den Titel und die Achse der überschüssigen Werte festzulegen, okay? Und Team unterstreicht minimalistisches, gepflegtes Gesamtbild der Handlung auf eine Minimalität Als Nächstes werden wir versuchen, die Linieneigenschaften anzupassen. Jetzt können wir die verschiedenen Eigenschaften von Linien wie Farbe, Linie, Typ und Größe anpassen die verschiedenen Eigenschaften von Linien wie Farbe, . Hier werden die Beispieldaten also dieselbe Sequenz aus San Values haben und die X-Where-Schleife neu erstellen Und dann werden wir herausfinden, warum Vorzeichen und Y die Kosten unterstreichen indem wir hier Sinus- und Kosinusfunktionen verwenden und den zusätzlichen illusorischen Ausgang an den unabhängigen weitergeben, wo sie sowieso, Vorzeichen unterstreichen und drahtlos gehen unterstreichen Häkeln wird die abhängige Variable sein da diese Werte vom X abhängen. Und hier erstellen wir ein Liniendiagramm mit Anpassungen Sie fügen hier Plot plus Geomline hinzu, DataFrames, dasselbe, was wir Und hier verwenden wir Farben. Es wird ein Zeichen für einen Linientyp sein, der hier als Ganzkörper bezeichnet wird und eine Größe von 1,5 ergibt. Geben Sie also durchgezogene Linie ein und sagen Sie es, aber ich verwende Größe, um die Dicke der Linie zu bestimmen. Okay? Also lasse ich 1,5 hier stehen. Und das Gleiche gilt für eine weiße Wäsche. Und dann wird alles andere gleich sein. Titel des Labors. X ist gleich XY ist gleich I Farbe. Also geben wir dir das, führen wir das und jetzt bekommen wir sie. Das ist gepunktet und das ist diese Dicke. Okay. Zusammen haben wir den Linientyp als Dashboard fertig, es kommt als gestrichelte Linie Und hier haben wir deinen soliden, also als solide Unterstützung. Sie schaffen es auf 111,5. Und wenn ich das noch einmal durchführe. Schauen wir uns also an, was Sie hier sehen. Jetzt. Die gestrichelte Linie kommt. Hier entlang. Wir können die Dicke der Linie erhöhen oder verringern. Okay, also ich hoffe es, ich hoffe, dieser Teil ist klar, wie man ein Liniendiagramm in ein GG-Plot erstellt , bis zur nächsten Vorlesung. 102. Datenvisualisierung mit ggplot2: Hallo und willkommen zurück. In der vorherigen Vorlesung haben wir gesehen, wie Liniendiagramme erstellt werden. Und wir haben auch gesehen, wie wir mehrere Liniendiagramme zeichnen und wie wir die Liniendiagramme anpassen können. In dieser Vorlesung werden wir einige weitere Daten erstellen, GG-Plot hinzufügen, um die Programmierung hinzuzufügen. Also, was das ist, ich werde unseren Datensatz aufwärmen, einen Namen, ein paar Namen und das Geschlecht, männlich, weiblich, und dann ihr Alter und das Testergebnis enthalten wird ein paar Namen und das Geschlecht, männlich, . Das Ergebnis wird 100 Mal wiederholt und natürlich, okay, und darauf basierend versuchen wir, diese Daten zu visualisieren, die Name, Alter, Geschlecht und Testergebnis enthalten Und wir werden versuchen, diesen Datensatz mit Hilfe von Radiusdiagrammen oder Live-in-GG-Plots zu visualisieren diesen Datensatz mit Hilfe , und wir werden versuchen, Anpassungen daran vorzunehmen, wie zum Beispiel wirklich facettierte Und wir werden versuchen, mehrere Dinge für diese einfachen Datensätze zu verwenden mehrere Dinge für diese einfachen Datensätze Also verwende ich den einfachen Datensatz , damit jeder ihn verstehen kann. Lassen Sie mich das vorher klären. Starten wir also die Datenvisualisierung mit ggplot2. Und mit diesem einfachen Datensatz werden wir versuchen, besser zu verstehen, was wir bisher beim ggplot2-Hogging in Guinea gelernt haben Dadurch werden offensichtlich die notwendigen Bibliotheken geladen, das ist GG-Plot zwei. Also library und wir geben die Bucket-Namenbibliothek namens GG-Plot weiter. Als Nächstes dendritieren wir den Beispieldatensatz , den wir normalerweise für diese Übung verwenden Okay, also hier verwende ich Set Seed Eins-Zwei-Drei. Und das dient der Reproduzierbarkeit. Reproduzierbarkeit des Saatguts. Denn sehen Sie, wir werden sample verwenden, indem wir die Beispielfunktion verwenden. Und es wird 18 bis 25 Jahre alt sein. Es wird sich um 18-25 bewegen. Das wird also der Zufallsgenerator sein. Was ich also tun möchte, wann immer ich diese Beispieldaten verwenden möchte, wenn ich set.seed verwende, wird es funktionieren, die Daten werden nicht regeneriert Es wird so sein, sobald es für diese Übung generiert ist, wird es wirklich dasselbe bedeuten. Es wird also dieselben Setup-Zufallswerte reproduzieren . Okay, soweit. set.seed reproduziert also dieselben Werte, obwohl wir die Beispielfunktion erreichen, okay? Andernfalls werden, wenn Sie set.seed nicht jedes Mal verwenden , zufällige neue Werte, neue Werte erstellt Okay? Also verwenden wir als erstes set.seed und dann erstellen wir unsere Variablen students Und hier benutzt du data.frame. Und hier erstellt frame die Namensvariable und dort wird dieser Vektor gespeichert , der die Namen Alice, Bob, Charlie, David, Eva, Rank, Frank, Grace, Hannah, Yan und Jack enthält Bob, Charlie, David, Eva, Rank, Frank, Grace, Hannah, Yan und Jack Okay. Und dann erstellen wir einen weiteren Faktor, der das Geschlecht speichert und das Geschlecht verwendet den Vektor ja, männlich und weiblich. Okay, und Teil zehn mal zehn, okay? Zehn vor zehn und ersetze true. Verwenden Sie dann für Angel die Stichprobe 18 bis 25. Und wie viele ich will, ich möchte Endwerte, bis zu denen ich gelesen habe, um sie zu quantifizieren und testen, 210 Discord, möchte ich mit der Beispielfunktion generieren Damit erhalten wir die Datenbeispieldatensätze. Also lass mich das erledigen. Jetzt haben wir den Beispieldatensatz erstellt. Okay? Also sieh mal hier, wenn wir den Schüler drucken, können wir deinen Namen, Geschlecht und Tesco sehen Geschlecht und Tesco Also hatte er den Namen, wir haben Namen gegeben. Und das Geschlecht wurde mithilfe der Stichprobenfunktion zufällig generiert . Okay? Männliche, weibliche, männliche Zahlungen direkt vor Ort, okay? Männlich, weiblich, männlich, weiblich. Also Zufallsgenerator, die Ehemänner im Alter von 18-25 Jahren, die zufällig diesen Namen zugewiesen wurden, und Testergebnisse wurden auch dann nämlich generiert Auf diese Weise können wir einen Beispieldatensatz erstellen . Als Nächstes, was ich, was ich tun möchte, möchte ich ein Streudiagramm zwischen diesem Zeitalter und Tesco erstellen zwischen diesem Zeitalter und Tesco Ich möchte sehen, wie sich das Testergebnis entwickelt, je nachdem, was ich jeweils oder streuen möchte, um das Ergebnis für das entsprechende Alter Also, was ich verwirrt bin, Streudiagramm, Alter versus Testergebnis Für diese Anspielungen erstelle ich also ein variables Streudiagramm. Und hier verwende ich die Funktion und übergebe den Schülerdatensatz hier. Okay, Schüler. Und dann werde ich eine riesige X-Achse ästhetisch gestalten und X ist gleich H- und Ergebnis. Und Neodympunkt, ich verwende die Geom-Punkt-Funktion, um die Punkte auf der X - Punkte auf der X Und dein Labor, X ist gleich und deshalb heißt es r2. Ergebnis. Und der Titel der Handlung wird der Scatterplot sein, Alter versus Discord Und dann drucke ich dieses Streudiagramm indem ich die Randfunktion verwende, um es hier unten anzuzeigen Also lass es mich einfach hier behalten. Und okay. Also sehen Sie hier, jetzt haben wir hier ein Streudiagramm, das sich auf Seite 18 bis 25 befindet, und die Y-Achse und das Zerstören der Punktzahl, das Testergebnis Für 18 sind es also irgendwo um die 85. Also für 18, wenn du hier gut aussiehst. Welche Identität mit vier? Also sieh dir hier Thymidin oder bei 400 an und zeichne es auf. Hier entlang. Wir können ein Streudiagramm erstellen, indem wir ggplot2 verwenden. Hier, auf der ästhetischen Ebene, haben wir die X- und Y-Achse angegeben, wir haben das Testergebnis bestanden. Und wir verwenden die Geom-Punkt-Funktion um diese Punkte auf dem Diagramm darzustellen, und Ihre Laborfunktion, wir haben X ist gleich H. Und warum es zum Testergebnis aufgerufen wird Und enger, Streudiagramm gegen Streudiagramm, Alter gegen Auf diese Weise können wir das Diagramm oder das Streudiagramm erstellen. Okay, als Nächstes möchte ich tun. Ich möchte die gleiche Erklärung geben die ich hier geschrieben habe, und Daten ablegen lassen , Sie können sie durchgehen. Und wenn du willst, erkläre ich es dir noch einmal. Hier beginnen wir also damit, die GG-Plot-Pull-Bibliothek zu laden. Als Nächstes erstellen wir den Beispieldatensatz, indem data.frame, den wir hier erstellt haben, data.frame und den generierten Namen, Alter, Geschlecht und , Geschlecht Und dann verwenden wir die GG-Plot-Funktion, um das Los zu initiieren und die Daten bereitzustellen. Studierende und Ästhetik. ästhetische Funktion X entspricht einem Graduate von Tesco, die Variable der X-Achse zuordnet X-Achse wird also auf der X-Achse abgebildet und die Score-Variable wird der Y-Achse zugeordnet Die Funktion Geom Point wird verwendet, um dem Diagramm Punkte hinzuzufügen Diese Punkte werden dem Diagramm hinzugefügt, indem für jeden Datenpunkt die Funktion Geom-Punkt, Geom-Unterstrichpunkt verwendet wird, um ein Streudiagramm zu erstellen Und schließlich passen wir die Beschriftungen und den Titel der Handlung mithilfe der Labs-Funktion an. Hier wird also die Lab-Funktion verwendet, um die Beschriftungen und den Titel des Plots anzupassen. Und dann verwenden wir die Druckfunktion. Henry, unterbreche das Scatterplot, den Namen, den wir diesem Plot zugewiesen haben, und wir geben ihn an den Druck weiter und der Scatterplot wird auf unserem Un-Solo gedruckt Auf diese Weise können wir jeden von uns generierten Beispieldatensatz im Vergleich zum Score-Wert erstellen . Als Nächstes möchte ich die facettierte Facettierung hinzufügen die facettierte Facettierung hinzufügen Scatterplot gibt das Testergebnis für jedes Geschlecht Okay, das wird also der erste Block sein. Dafür erstelle ich für den ersten Schritt ein variables Plot-Handle, Sie fügen Plot hinzu. Und er hatte einen Benutzer. Derselbe DataFrame Datensatz für Schüler. Ästhetisch gesehen ist You'd X gleich X und Y gleich Tesco. Und das wird er, da ich das viel auf der Grundlage des jeweiligen Versa-Testergebnisses machen möchte jeweiligen Versa-Testergebnisses das für jedes Geschlecht separat. Also hier ist die Farbe riesig. Farbe wird zum Geschlecht, sodass das Geschlecht anhand der Farbe spezifiziert wird. Und dann Geom Point. Ich habe die Punkte- und Laborfunktionen gezeichnet, die wir früher vergeben haben. Als nächstes folgen das Testergebnis und der Titel des Herrn. Und hier, und verwende die Facettenunterstrich-Wrap-Funktion. Und hier packe ich das ein. X1 von Mao war in der Ausschreibung enthalten. Du verwendest immer noch Geschlecht vier, wenn ich subtrahiere, okay, also lass mich das durchgehen und das Ergebnis sehen Okay? Also, jetzt male ich die Farbe und sehe hier, jetzt haben wir die facettierte Handlung, Alter im Vergleich zum Testergebnis nach Geschlecht Also die X-Achse ist es wieder, und die Y-Achse ist der Todescode Aber hier wurde unser Lord-Scatterplot in zwei Teile aufgeteilt, weiblichen und einen männlichen. Weiblich oder weiblich. Das weibliche Geschlecht wurde hier dargestellt. Und das für das männliche Geschlecht wurde es hier dargestellt. Es ist also ein klarer Schnitt. Wir können das digitale paar Minuten oder den weiblichen Schreibtisch namens Values und auf mir sehen . Okay. diese Weise können wir das festere Diagramm verwenden , um nach Geschlecht klassifizierte Daten zu verwenden. Okay? Und wir wollen wissen, was ist mit der Erklärung? Ich wiederhole es noch einmal. Lassen Sie mich das hier kurz skizzieren. Was wir gemacht haben, so wie wir das schon einmal gemacht haben. Wir haben die GG-Plot-Funktion verwendet um das Diagramm zu speichern und die Daten bereitzustellen, Studentendaten, die wir mit der Beispielfunktion erstellt haben. Und dann die Ästhetik. Die ästhetischen Schriften und X entsprechen SY Squared, genannt score und Gartler Wir haben Ihre Agenda zur Zuordnung der Altersvariablen, die sogenannte Agenda, um die Altersvariable der X-Achse zuzuordnen Tesco wertvoll für die Y-Achse, und speichern Sie die Farbe der Windgeschwindigkeit auf Geschlecht Die Farbe der Punkte richtet sich also nach der Tagesordnung. Und es gibt zwei Geschlechter. Natürlich verwendet der zweifarbige Ehemann Rot und Blau. Okay? Das Ergebnis wird also sein, das Ergebnis in unterschiedlichen Farben für männliche und weibliche Schüler. Also wurde Cl für männlich und weiblich in den verschiedenen Farben verwendet. Und das liegt daran, dass wir riesige Farben haben, die zum Geschlecht gehören, okay? Der Geom-Punkt von Sandy bildet den Streupunkt für jeden Datenpunkt , den wir bereits gesehen haben Und wir passen die Level, den Titel und die Handlung an. Du hattest nicht die letzte Funktion , die wir bereits kennen. Dann unterstreicht die Facette Lab. Und hier werden wir die geschlechtsspezifische Dysfunktion durchgehen , um separate Panels zu erstellen, Facetten auf diesen beiden Panels, männlich und weiblich Sie können hier sehen, dass dies Besuche genannt werden. Facette, Unterstrichumschlag erstellt zwei separate Felder, die zunächst für jedes Geschlecht festgelegt werden Hier haben wir also das Geschlecht überschritten. Aufgrund des Geschlechts eskalierte es also zu zwei Facetten, zwei Panels zur Darstellung der Punkte Okay? Das bedeutet, dass die Handlung in zwei Unterhandlungen aufgeteilt wird Okay? Wenn es drei Geschlechter wie männlich, weiblich und neutral gibt, wird es in drei Teile aufgeteilt , okay Nebenhandlungen. Eine Firma Mileage to Runtime, eine weitere Studentinnen Und die Druckfunktion wird verwendet , um das Display-Streudiagramm auf dem Bildschirm Okay, das ist also die Erklärung für das Erstellen eines Streudiagramms und der Facility-Blockierung Als Nächstes erstellen wir ein Balkendiagramm. Und hier verwenden wir Gender. Was wir grafisch darstellen wollen, wir wollen Geschlecht und Testcode grafisch darstellen, indem wir den Mittelwert in der Zusammenfassung verwenden. Also hier werden wir ein Balkendiagramm erstellen. Und das Balkendiagramm wird auf der Grundlage dieser beiden Variablen erstellt , Geschlecht im Vergleich zu Tesco Wir werden planen. Und was wir hier verwenden, verwenden Sie den Mittelwert, die Zusammenfassung. Sehen wir uns hier also an wo immer Bar alkyliert ist und als Plot bezeichnet wird Und ich werde die GG-Plot-Funktion als Datensätze verwenden. ästhetische X des Schülers entspricht dem Testergebnis der geschlechtsspezifischen Quadratwurzel. Und ich verwende den Plus-Operator. Und hier verwende ich den Geom-Unterstrichbalken, um das Balkendiagramm oder Balkendiagramm zu erstellen das Balkendiagramm oder Balkendiagramm Und hier gebe ich Ihnen, Statik ist gleich Zusammenfassung. Und die Funktion wird hier die Hauptfunktion sein und jeweils gleich stabil füllen. Also wird es mit dem Stahlblau wieder aufgebaut. Und die Funktion wird auf dem MDA ausgeführt, basierend auf dem Mittel- oder Durchschnittswert von Jemand und der Stapel ist die Zusammenfassung Also Zusammenfassung, ich werde es mit den Mittelwerten zusammenfassen und lachen funktionell, riesig, ökologisch, X-Achse, Geschlecht und Y, X, X ist wirklich mit einem mittleren Testergebnis im durchschnittlichen Testergebnis Und der Titel wird mit einem Balkendiagramm, Geschlecht war das durchschnittliche Testergebnis und einem Balkendiagramm drucken. Lassen Sie mich das ausführen und das Ergebnis sehen, das Sie sehen. Und jetzt haben wir Bar Plot für Männer und Frauen. Und hier auf der Y-Achse zeigen wir das durchschnittliche Testergebnis, ein Mann und eine Frau Bisher liegt das durchschnittliche Testergebnis von Frauen bei diesem. Für mich? Das ist nur das Testergebnis. Auf diese Weise können wir das Balkendiagramm erstellen. Also hier, wenn du die Erklärung wöchentlich siehst, dann sagen wir es dir. Wir werden also die GG-Plot-Funktion verwenden, um den Plot zu starten. Ästhetik. X ist gleich Geschlecht oder Y-Quadrat-Testergebnis ordnen Sie die Geschlechtsvariable der X-Achse und die Testergebnisvariable der Y-Achse zu Und die Escobar-Funktion besteht darin, ein Balkendiagramm zu erstellen. Und wir sitzen. Stat heißt zwei Zusammenfassung und phon ist gleich dem Mittelwert, dass zwei Hauptfunktionen berechnet und angezeigt werden. Die Punktzahl für jede Kuppel. Der Durchschnitt der Punkte, die sie erzielen, wird angezeigt und das Feld, in dem der Klebstoff eingeschränkt wird, entspricht der Fellfarbe im Barstow Blau, die Farbe der Balken. Und wir haben die Level angepasst, indem wir die letzte Funktion verwendet haben , die wir bereits kennen. Und dann machen wir die Druckfunktion, um die Handlung auf dem Bildschirm zu drucken . Als Nächstes erstellen wir ein Boxplot. Geschlecht versus Diskurs, dasselbe. Also hier GG Plot, Function, Stranded Asset, Aesthetic X ist gleich dem Geschlecht weg auf der Y-Achse Testergebnis und frei nach Geschlecht ausfüllen Und wir verwenden die Boxplot-Funktion geom underscore , um den Boxplot zu erstellen und die Latch-Funktion gewöhnt sich daran, den Titel des Balkens und die X-Achse- und Y-Achsennamen anzugeben und druckt ihn , und die Latch-Funktion gewöhnt sich daran, den Titel des Balkens und die X-Achse- und Y-Achsennamen anzugeben und druckt ihn einfach aus. Also lass uns das ausführen. Jetzt haben wir einen Boxplot, Geschlecht versus Testergebnis Die X-Achse ist das Geschlecht und das Y-Achsen-Testergebnis. Und das ist der Boxplot für Männer und Frauen. Damit du sehen kannst, okay. Auf dieser Grundlage können Sie die weitere Analyse durchführen, okay? Was auch immer Sie mit ihnen machen, Boxplot, erstes Quartil und all diese Dinge können Sie entspannen Dieselbe Erklärung Gorgias, DG Plot für die Initiierung der Plot-Ästhetik für die Kartierung der Winde und die junge Boxplot-Funktion, die verwendet wurde, um das Boxplot zu erstellen Und wir personalisieren, indem wir den letzten Funktionsdruck verwenden. Okay? Und hier seht ihr die beiden Boxen, eine für jedes Geschlecht, männlich und weiblich. Die Boxen Entropie im Interquartilbereich, das gesagt Die Linie innerhalb des Feldes, die den Mittelwert, den Medianwert und die Whisker außerhalb der Minimal- und Maximalwerte innerhalb eines Quartils für das Geschäftsjahr 15, zwischen den Quartilen oder IQR darstellt Medianwert und die Whisker außerhalb der Minimal- und Maximalwerte innerhalb eines Quartils für das Geschäftsjahr 15, zwischen den Quartilen . Und weist darauf hin, dass die Schnurrhaare als letzten Punkt außerhalb dieses Risikos betrachtet werden letzten Punkt außerhalb dieses Risikos denn als wir weniger genannt haben, das sind die Analysen, die Sie durchführen können , um Ausreißer zu finden, und wenn sie es sind, reicht mir dieser Datensatz nicht aus Da. Dieser Datensatz reicht nicht aus, um die Hundeklasse zu analysieren. Und alles. Dies ist der Beispieldatensatz , den wir erstellt haben, indem einfach die verschiedenen Diagramme erstellt haben. Okay, als Nächstes erstellen wir ein Histogramm Und hier verwenden wir die Altersverteilung der Schüler. Hier. Ich verwende das Histogramm Ich erstelle ein Histogramm in dem sie Year GG plotten Ich verwende denselben Datensatz und dennoch einen ästhetischen Ausgang gleich H plus die Funktion geom histogram geom underscore Hostogram geom Und hier, binwidth, ich gebe einen. Ich fülle mit diesem Tableu, der Farbe auf Weiß, und gebe mit der linken Funktion den Namen des Diagramms sowie der X- und Y-Achse an und drucke dann einfach das Hier, das ist das Histogramm. Wir haben sie so erstellt, dass wir sagen, okay, das ist das Histogramm für die Altersverteilung der Schüler Okay. Ich werde die Erklärung schnell noch einmal wiederholen. Hier haben wir also wieder die GG-Plot-Funktion zum Speichern des Diagramms und dann das Dashboard und die Dehnungsdaten im GG-Plot. Und wir verwenden die Ästhetikfunktion und das Alter, weil wir Altersverteilung der Schüler mithilfe des Histogramms rückgängig machen X ist also gleich H und die wertvolle Historie wird der X-Achse zugeordnet Geom unterstreicht die Werte der Histogrammfunktion, um das Histogramm zu erstellen steht jeder Balken für die Häufigkeit. Zählen Sie die spezifische Altersgruppe des Schülers auf Also hier, was ich versuche zu sagen, dass jeder Balken die Häufigkeit darstellt , mit der Fische in einem bestimmten Alter gemietet werden. Okay? Also bei dieser Dehnungsfrequenz von 20 ist die Frequenz dieser Miete, wie viele Stränge gibt es, die Sie sehen können? Sie sehen hier Probleme für das Alter. Mit 24 Jahren gibt es keine Schüler, es gab also keine Barriere. Und weiß, wenn das Argument vollfarbig ist, ein Balken, der weiß ist, die Lücke zwischen diesen weißen Punkten, sodass diese zusätzliche Gewichtung nicht erkennen kann , wird es nicht geben Passen Sie es dann mit der linken Funktion an. Und der Drucker, der die Druckfunktion verwendet, ist eine X-Achse. Und der Präsident, die verschiedenen Altersgruppen und zufällig Marken , die Frequenz nicht, aber ich fischte Miete in jeder Gruppe Also was 181 ist für 20 zu laufen, es gibt Schüler, also ich bin Kritik oder zum Datensatz CF1 18, nur einer ist 20 Und für 2.012,3 Stränge ist das in Ordnung. Wenn Sie sich das hier ansehen, für 23 Schüler, welche 25? Das ist Nostradamus. Also, wenn wir, wenn Sie sich die Daten ansehen, Teil D dafür ist für sie nach 24 völlig in Ordnung, dann Nostradamus Okay? Auf diese Weise können wir mit GG-Plot verschiedene Nettodurchschnittslizenzen erstellen 103. Verleihe den Parzellen Farbästhetik: Hallo und willkommen zurück. In der vorherigen Vorlesung haben wir gesehen, wie wir mit ggplot2 in unserer Handrehabilitation verschiedene Plots erstellen können mit ggplot2 in unserer Handrehabilitation verschiedene Plots erstellen diesen einfachen Datensatz Name, Geschlecht und Discord enthält Und damit haben wir gesehen, wie wir Scatterplot erstellen können, das für jedes Wort steht, sagt Tesco Und dann haben wir gesehen, wie wir Geom-Point-Schriften verwenden können und wie wir die Labs-Funktion verwenden können Und wir haben alle Erklärungen gesehen. Wir haben gesehen, wie wir ein facettenreiches Grundstück erstellen können, das wird. Die Logins bestehen also aus zwei Teilen wie Alter und Testergebnis. Basierend auf dem Geschlecht. Es wird nach dem Geschlecht sortiert. Es wird auch in den beiden Teilen, männlich und weiblich, sein. Okay? Also all die Dinge, die wir so gesehen haben, es wäre nicht, wie schnell der Übergang zwischen Mann und Frau ist. Also diese faszinierende Handlung, auch Streudiagramm, wir haben gesehen, wie wir das machen können Dann haben wir gesehen , wie man Bar Plot aufstellt. Und zwischen Alter und Geschlecht und Zwietracht. Discord, den wir auch gesehen haben. Und dann haben wir gesehen, wie wir ihren Chef, ihre Moschee, ihr Grundstück, Boxplot und zwischen Geschlecht und Testcode setzen können ihren Chef, ihre Moschee, ihr Grundstück, und wie wir das können, wir haben auch die Erklärung gesehen, wie wir die Ausreißer analysieren können, aber das ist auf den Interquartilbereich Also nicht alle unterschiedlich, dann haben wir das Histogramm gesehen. Viele weitere Dinge können Sie je nach Ihren Anforderungen tun. Als Nächstes werde ich Ihnen sagen, wie ich den Handlungen Ästhetik verleihen kann. Lassen Sie mich also annehmen, dass Sie zugesehen haben, wir haben diesen Plot erstellt, ein Streudiagramm hier. Wenn wir also das Streudiagramm sehen, ist das ein Streudiagramm wie dieses Okay? Nun, was ich tun möchte, ich möchte dieser Handlung später Farbe verleihen. Also das Gleiche wird die U-Dub-Bibliothek und ggplot2 hinzufügen. Und hier sind die Gründe , warum ich diese Ästhetik dieser Handlung modifizieren wollte . Denn wenn ich mir diese ansehe, weiß ich nicht, welcher Punkt männlich oder weiblich ist. Darauf gemacht. Wir haben auf jedem Agentenpult gemacht, hätten wir planen können, aber wir wissen nicht, das bin ich Diese Punktzahl ist männlich oder weiblich. Okay. Ich möchte die Punkte in eine Farbe setzen , damit wir uns die Handlung ansehen. Ich kann das wissen, okay, dieses Wesen gehört den Frauen und das Blau ist für mich. So etwas können wir mit der ästhetischen Veränderung machen , indem wir die Farbe hinzufügen. Was wir also tun werden, wir werden den Plots farbliche Ästhetik hinzufügen, um zwischen männlichen und weiblichen Schülern zu unterscheiden . Okay, hier also das gleiche Setup-Beispiel, das Data erstellen wird. Also müssen wir zuerst die Bibliothek ausführen und dann habe ich diesen Datensatz benutzt, den wir bereits erstellt haben. Und dann erstellen wir hier einen Vektor, der das Männchen enthält, der eine blaue Farbe zuweisen Erinnerung die rosa Farbe zuweisen. Und dieser Rektor wird die Farbvariable zuweisen. Okay, jetzt dieselbe Woche, was wir hier erstellt haben, Streudiagramm, genauso wird es dunkel sein Das Streudiagramm hier gibt Ihnen eine Variable mit dem Namen Streudiagramm um Ihnen die GG-Plot-Funktion Wir werden den Datensatz als Schüler weitergeben. Dieses haben wir kreiert, dann verwenden wir die ästhetische Funktion. Aber X ist gleich H und Y ist gleich dem Testergebnis wird dasselbe sein. Die einzige Sache ist, dass wir hier einen anderen Parameter zuweisen und jeden Aufruf nach Geschlecht färben. Also werden wir die Farbe auf der Grundlage der Agenda zuweisen. Und diese Farbe wird aus diesem Farbvektor stammen , den wir hier erstellt haben. Und dann verwenden wir den Geom-Unterstrich, um den Punkt auf dem Plot Und dann verwenden wir in der Sekunde die Farbe für den Skalenunterstrich Diese Funktion wird also verwendet , um die Punkte auf der Tagesordnung einzufärben Also Farbe wird Geschlecht. Und hier sind wir aber am Ende, diese Schriftarten und die Farbskala unterstreichen die Farbe, unterstreichen die manuellen Werte sind gleich der Dieser Wert wird also von diesem Vektor stammen. Männlich und weiblich. Das Männchen wird blau und grün sein. Wenn wir Looping Von hier aus wählt es die Farbe aus und es wird geplottet und funktioniert im Labor Jetzt wissen wir es schon. Also lass mich einfach das Ding machen und hier nachsehen. Jetzt haben wir das Streudiagramm, das wir erstellt haben. Lassen Sie uns nun einfach in das Streudiagramm hier drucken. Jetzt ist das Streudiagramm pink und blau. Die Punkte, die zuvor ein Leap waren, sind schwarz. Es wird in Blau und Rosa dargestellt . Rosafarbene Winde gehörten zu den Weibchen und die blauen zu den Männchen. Auf diese Weise können wir das Streudiagramm anpassen , indem wir Farbästhetik hinzufügen Lassen Sie mich das noch einmal erklären. Wir haben diesen Beispieldatensatz erstellt. Personen, die diesen Tabellenrabatt-Datensatz haben, sind Erics Name , Geschlecht, Alter und Testergebnis. Und hier wollen wir eine Farbästhetik hinzufügen. Also haben wir unsere Farbe erstellt, wir vektorisieren, wobei wir der männlichen und weiblichen Farbe ein Blau zugewiesen haben . Diese Farbe tippen wir auf Balken, um die Skala zu unterstreichen, die manuelle Funktion zu unterstreichen Diese Funktion gibt Werte aus diesem Farbvektor zurück. Und das wird es tatsächlich, es wird auf der Grundlage der Agenda zugewiesen wenn es blaue Farbe zuweist und wenn es sich um freie Milliäquivalente NDA handelt, denke ich, okay, dann haben wir Ähnliches können wir mit dem Balkenplot und Boxplot und dem Histogramm Also lass uns das auch machen. Hier erstelle ich also einen wertvollen Balkenknopf, macht ein Streudiagramm, eine GG-Plot-Funktion , ich verwende die Ästhetik von Datensatz-Schülern, X ist gleich Geschlecht Warum heißt es Score. Und ich gebe das Geschlecht an. Und dann verwende ich die Geom-Unterstrichleiste , zeichne auf Statistikzusammenfassung und zeichne mit der Zusammenfassung mit dem Mittelwert Und dann verwende ich das Handbuch Scale, Scale Underscore, Underscore Hier haben wir also eine Skalenunterstrichfarbe, und das nennt man Handbuch für das Balkendiagramm Handbuch, Unterstrich, Unterstrich. Und wir geben die Mehrwertfarbe weiter. Und dann wird Lab Swanson Hedges nehmen. Also lass mich das erledigen. Und jetzt drucke ich das Balkendiagramm. Schau jetzt hier, das Weibchen ist gezeichnet. Boxplot, PMM in Boxen mitbringen und Postfächer. Mail blau. Auf diese Weise können wir Ästhetik färben. Bach, Strandbar, Handlung, tut mir leid. Dann Boxplot. Ich werde den gleichen Datensatz verwenden , ästhetisches X ist gleich Geschlecht, weshalb es Schreibtisch - oder weibliches Geschlecht genannt wird. Und dann Geom Bar, Geom Underscore Boxplot, um die Punkte zu zeichnen , und dann Skala, Unterstrich, Manuell und Ihre Werte, wenn wir färben und färben und Warum liebt Gott die Tabelle mit den Testergebnissen von Boxplot, geschlechtsspezifischen Widerstandstests Und lassen Sie uns das ausführen. Und dann zufälliger Boxplot. Der Boxplot Das Boxplot hat auch die Farben pink oder weiblich und blau für das Essen Okay. Als Nächstes machen wir das Histogramm. Also dieselbe GG-Plot-Funktion für Schüler Die Datensatzästhetik X entspricht dem H-Feld. Es heißt Agenda und dann Geom Underscore Und er hatte die Bandbreite einem Mann bei jedem Anruf an einen geben einem Mann bei jedem Anruf an und jede Farbe weiß färben. Und dann skalieren. Feld „Skalieren Sie den Unterstrich“ und den zugehörigen Befehl. Wir geben die Werte als Farben weiter. Dieses Weiß wird also die Randfarbe sein , und das wird erledigt. Histogrammfarben basierend auf dem Geschlecht. Okay? Und dann die letzte Funktion als Israel-Histogramm und Verteilung der Schüler. Dies, und drucken Sie dann das Histogramm aus. Das Histogramm ist, habe ich nicht. Rosa und Blau und die dunkle Randfarbe ist weiß. Die angrenzenden Linien sind weiß. Wenn du es machen willst, mach es grün. Lassen Sie uns dieses Programm ausführen. Die Nauta, mehr oder weniger stark. Okay? Diese Farbe ist also für die Grenzlinie und dieser Wert für die Farben, die wir aus diesem Spaltenvektor auswählen, den wir erstellt haben, weil wir weiblich sind aus diesem Spaltenvektor auswählen, den wir erstellt haben, weil wir und Formyl anbauen. Sie können eine beliebige Farbe angeben, um Ihrer freien Lauf zu lassen Okay? Auf diese Weise können wir den Plots in ggplot2 die Ästhetik hinzufügen Plots in ggplot2 die Also ich hoffe, ich habe es klar erklärt. Und du kannst darauf laufen. Sie können anfangen, mit den Daten der Radius-Funktion herumzuspielen. Du kannst einen anderen Datensatz ausgraben und anfangen, die Dinge auszunutzen und zu erweitern, die Dinge explodieren zu lassen anfangen, die Dinge auszunutzen und zu erweitern, und Dinge zu experimentieren Die unterschiedliche Farbe, unterschiedliche Ästhetik. Okay, wir sehen uns in der nächsten Vorlesung. 104. Feinabstimmung der Handlungästhetik: Hallo und willkommen zurück. In der vorherigen Vorlesung haben wir also gesehen, wie wir Farbästhetik hinzufügen können. Wir haben gesehen, wie wir den Plots, dem Scatterplot, dem Balken, dem Plot und dem Boxplot Farben hinzufügen und sie speichern können Scatterplot, dem Balken, dem Plot und dem Boxplot Farben hinzufügen und sie speichern Nun, was ich versuche, die Diagramme mithilfe von Funktionen zu optimieren und zu skalieren. Also Feinabstimmung dessen , was auch in Ordnung ist. Die Ergebnisse versuchen wirklich, es etwas ansprechender zu machen, all diese Dinge okay, um Plot, Ästhetik und ggplot2 zu optimieren, können wir die ästhetische Funktion und die AES-Funktion verwenden, um Variablen der Ästhetik zuzuordnen und die Funktion skalieren Scale Underscore hat mit angefangen, darunter befinden sich mehrere Funktionen Wir können also die Skill-Funktionen verwenden, um das Aussehen von Radius-Plot-Elementen anzupassen . Einfachheit, sie können die Ästhetik verbessern, Funktionen skalieren, um die Ästhetik der Handlung zu optimieren. Als letztes laden wir die Bibliothek. Dann erstellen wir denselben Beispieldatensatz , den wir in den vorherigen Vorlesungen erstellt haben. Und dann nehmen wir die Feinabstimmung eines Streudiagramms vor. Also das Gleiche, was wir tun werden, Alter im Vergleich zum Testergebnis. Das Gleiche. Hier. Wir werden das Los mithilfe von Ästhetik- und Geschicklichkeitsfunktionen fein abstimmen . Das wertvolle Streudiagramm, das die Plotfunktion verwenden wird, übergibt den Datensatz Dann entspricht die ästhetische Funktion, wenn X gleich H von Y ist dem Testergebnis und der Farbe, die auf dem Gel hergestellt wurde. Und hier verwenden wir einen anderen Parameter namens Save. Und spare. Welchen Save wir assoziieren können , entscheidet je nach Geschlecht. Und hier verwenden wir Geom-Punkt-Funktion, um die Punkte zu plotten Aber hier spezifizieren sich die Punktseiten wirklich. Wir haben also zuvor keine Punktgröße angegeben , hier geben wir drei an. Geom zeigt also Seiten gleich drei. Dieser Parameter wird übergeben. Und dann verwenden wir das Handbuch „Skala, Unterstrich, Unterstrich Und er hatte Werte für die Farbe, die C. Rector hier blau und pink geben wird C. Rector hier blau und pink Und dann wird CEP auch Unterstriche verwenden. Der unterstrichene Manuel gibt hier die Werte an. Es hat 16, 17. Dadurch werden sichere, verschiedene Tipps erstellt , die wir erstellen können, und dann verwenden wir die Laborfunktion. Und lassen Sie mich das einfach ausführen. Wenn ich das ausführe, wird das Streudiagramm erstellt. Bringen wir das Scatterplot mit. Also jetzt kannst du hier sehen, jetzt Scatter Plot hatte es erstellt, aber sieh, das Thema der Punkte für Männer und Frauen sind gleichgültig Sehen Sie, die Punkte sind etwas größer, da wir die Größe nicht angegeben haben, die gleich drei ist. Was passiert, wenn ich es mit Schottenmuster mache? Lass uns sehen. Die Größe wird größer und es bewegt sich, drucken Sie es erneut. Jetzt sind die Punkte größer weil wir eine angegebene Größe von 13 haben. Und die Farbe, die wir hier angegeben haben, Blau und Rosa. Also blaue und rosafarbene Farben, bläulicher Teil, weiblich und männlich Wir haben Rosa gegeben. Also hier ist es. Appoggiatura Wir können das jetzt einfach korrigieren. Okay. Das ist also nicht genau oder so , dass Sie den Buchstaben C berechnen können Jetzt sind die Punkte größer. Basierend auf dieser Seite ist das also gleich 30 und die Farbe kommt von hier und schau, ob sie von diesem Haufen kommt Welche Werte wir hier auch weitergeben. Wenn ich 117 schaffe, schauen wir mal. Du kannst einfach mit den Zahlen herumspielen und jetzt diese gerade Zahl sehen. Es ist also nur ein Kreis. Und wenn ich einen Text einfüge, der Prozess des Annealing-Prozesses, Teamunterstützung, werde ich 88 angeben Und schauen wir mal, um welches Geheimnis es sich jetzt handelt. Bemerke, dass es so kommt. Auf der Grundlage dieser Dinge können Sie also sehen, wenn ich 18 gebe, was wären das auch dieselben Daten, Sie können sehen, Sie lassen mich das kopieren. Geteilt. Bitte sehen Sie sich das an, und jetzt kommt es in dieses Laminatband und das ist ein Dreieck. Wenn ich es schaffe. Das auch bei dem, was noch kommen wird, sagen wir, wenn ich 28 mache, 28 ist nichts dergleichen. Wir können es wiedergutmachen. Okay. Basierend auf den Zahlen auf dem Tresor wird sich das also ändern. Auf diese Weise können wir die Plots verfeinern. Als Nächstes werden wir den Balken-Plot feintunen. Und doch hat der Geschlechter-umge-Test in der Regel auch den Mittelwert der Zusammenfassung ergeben. Wir werden planen, was wir hier bereits geplottet haben. Derselbe Datensatz. Ästhetik der Schüler, Geschlecht, Warum Testergebnis und Besetzung nach Geschlecht. Und dann die Funktion Geom Underscore Bar. Geom-Unterstrich “ zeigt eine Zusammenfassung der Statistiken an, und die Funktion „Telefon reagiert empfindlich auf Mittelwert und Skalenunterstrich Das Underscore-Handbuch wird blau und pink angezeigt. Und das ist eine einfache Sache, werde einfach das sein und es hier einfügen. In ähnlicher Weise können wir dasselbe mit dem Boxplot machen. Das für Boxplot. Okay? Also CEO, jetzt kommt hier eine Punktlinie rein, sodass wir ein nicht-binäres Gender-Fluid haben. Und hier. In ähnlicher Weise können wir dieses Histogramm erstellen. diese Weise können wir die Plots mithilfe von ästhetischen Funktionen und Skalenfunktionen verfeinern . Den Studierenden gefällt die nächste Vorlesung 105. Ändern von Themen, Etiketten, Titeln und Achsen mit der Theme-Funktion: Hallo und willkommen zurück. In dieser Vorlesung werden wir Themen, Beschriftungen, Titel und Achsen mithilfe der Themenfunktion ändern, um Themen, Beschriftungen, Titel und Achsen In GG Plot Two können wir die Themenfunktion zusammen mit verschiedenen Themenelementen verwenden , um das Erscheinungsbild unserer Plots anzupassen. Lassen Sie uns also mit einem Beispiel beginnen und sehen wie wir die Theme-Funktion verwenden können, um Themen, Beschriftungen, Titel und Achsen zu ändern . ist also sehr schnell, dass wir die Bibliothek laden, so wie es in der Handlung ist. Als Nächstes erstellen wir diesen Beispieldatensatz, den wir bereits erstellt haben. Lassen Sie mich das vorerst ausführen. Als Nächstes müssen wir Themen, Labels, Titel ändern , eine große Sache, Banza Also für uns, um den Barplot neu zu erstellen. Also erstellen wir zuerst das Streudiagramm zwischen Alter und zusätzlichem Code, das wir bereits erstellt haben. Aber hier werden wir versuchen, die Themenebenen, Titel und Achsen mithilfe der Themenfunktion zu ändern die Themenebenen, Titel und . Fasten ist also gut, wenn die Variablen wie üblich streuen, dann verwenden wir die GG-Plot-Funktion Wir übergeben den Datensatz und verwenden dann die ästhetische Funktion. Und hier ist X gleich H, Y ist das Testergebnis Farbe, die auf der Agenda erwähnt wird , und sagen, auf der Agenda aufbauen. Das haben wir schon getan. Als nächstes unterstreichen Geom die Punktfunktionen Sij gleich drei Dadurch werden die Punkte auf dem Grundstück dargestellt. Die Größe wird angepasst, Seiten des Punktes werden aus drei Seiten bestehen. Dann verwenden wir hier die Funktionen scaled underscore color und dashCon Und hier geben wir die Werte für die Farben Blau und Rosa an und Beispiel geben wir diese Vektoren 16, 17, wir haben bereits auf der vorherigen Folie gesehen, in der vorherigen Vorlesung, wie sich die Formen der Punkte oder Punkte vorherigen Vorlesung, wie sich die Formen der Punkte oder Punkte aufgrund der Werte ändern, die wir hier weitergeben Okay? Dann ist das Labor, das Swanson verwenden wird, um den Titel der Handlung und den Namen für die X-Achse und Y-Achse anzugeben Und dann verwenden wir das Theme Underscore Minimal Function. Und dann ist das die Hauptsache, die wir in dieser Vorlesung lernen werden. Das ist Thema Function. Also innerhalb des Themas Funktion, was wir viel verlieren werden, Punkttitel, geben wir. Und hier das Element mit dem Unterstrich X, das wird sein, diese Funktion wird verwendet um die Seiten des Titels anzugeben Okay? Ergreifen Sie Partei für den Titel. Wie ein Streudiagramm mit dem Alter war ein Tesco. Dieser Titel wird aus den Diagrammen stammen, Textgröße wir von hier aus ändern können, indem die Parameter Element underscore tax und size verwenden, die wir hier Und dann geben wir das Gesicht gleich fett, hier können wir den Stil der Schrift ändern. Schriftstil können wir ändern, indem Sie das Gesicht nicht ändern, haben Sie Zweivolt-Kursiv genannt, was Sie wollen, und handeln Sie nur 0,5 und es gibt einen Punkttitel für X-Achse und Y-Achsen-Titel, wir werden dieselbe Funktion verwenden Textseiten mit Elementunterstrich geben dir, was du hören willst, ich gebe 12. Und dann Face Bowl. Und dann geben Ihnen Texte für den Zugriff das Element unterstrichene Geschlechtsfunktion und die Größe gibt zehn Und dann Legend Dot Title, wir verwenden Element. Und das nennt man Blank-Funktion. Und LoginData-Texte. Wir verwenden das Element unter bestimmten Texten und die Seiten geben zehn und die Position der Legende wird unten angezeigt. Also geben wir hier den Tiefpunkt an. Lassen Sie uns also dieses Streudiagramm ausführen. Lassen Sie mich vorher dieses Druckstreudiagramm kopieren dieses Druckstreudiagramm Und ich sage es so, sehen Sie uns einfach auf der bepflanzten Streufläche und gleichzeitig. Also lass mich das erledigen. Wir sehen uns jetzt, wir bekommen das Scatterplot hier. Und sieh, das ist unser Tech-Plot-Titel, den wir hier in einer Schüssel gegeben haben. Wenn ich das zum Beispiel auf 14 bis 24 ändere , wird das, je größer, desto größer werden die Texte. Also lass mich das erledigen. Jetzt ist es Omega, oder? Das Gleiche gilt für den Achsentitel, wenn ich ihn 22 gebe. Wenn ich das durchführe. Sehen Sie sich jetzt die Testergebnisse auf NAs oder in einer größeren Größe an. Okay? Also die Art und Weise, wie wir die Titel, Ebenen und Achsen ändern können. Okay, also lass es mich machen und 14, die nach Materie aussehen, jeder Kurs ist ein Streudiagramm Okay, als Nächstes machen wir dasselbe für die Bar Plot. Für Balkendiagramm wird also auch derselbe Datensatz verwendet. Und wir erstellen hier eine Balkenplot-Variable und dann einen DD-Datensatz der Plotfunktion. X ist gleich Geschlecht. Warum es Schreibtisch oder Geschlecht heißt. Das Gleiche, was wir zuvor beim Lifting gemacht haben, ist wir dieses Thema verwenden werden Funktion, zusätzlicher Plotpunkttitel für ein zusätzliches Jahr. Das Gleiche verwenden wir auch für den Bar Plot. Ich werde mir also nicht die Zeit nehmen , immer wieder dasselbe zu erklären . Ich kopiere das einfach. Und ich reiß das am besten einem Erwachsenen auf. Okay? Okay. Also sieh hier, das ist die schlechte Handlung. In ähnlicher Weise werden wir auch den Boxplot machen. Das sind also die Dinge, die wir bereits getan haben. Die einzige zusätzliche Sache, die wir hier machen, ist das Thema. Das Gleiche, Elemente und Diskurs. Ich habe das Gleiche. Wir machen auch weiteren Boxplot. Und ich gehe einfach dazu und füge es hier ein. Und führe das für Boxplot aus. Um den Boxplot zu sehen. Der Boxplot, alles wurde entsprechend geändert. Okay, was ist als Nächstes wirklich zu tun? Histogramm ist, Verteilungshindernisse auch hier, wir hatten dieses Anpassung der Deckgröße an die Größe des Plottakes. Also lass mich das erledigen. Auf diese Weise können wir diese Themen, Beschriftungen, Titel und Achsen ändern . Viel Verwendung in ggplot2. In jedem Plotthema wird die Funktion verwendet, um die verschiedenen Themenelemente wie den Titel des Plotpunkts, den vorhandenen Achsenpunkttitel oder die Textlegende, den Punkttitel, die Legende, den Punkttext und die Position des Ligandenpunkts zu ändern die verschiedenen Themenelemente wie den Titel des Plotpunkts, den vorhandenen Achsenpunkttitel oder die Textlegende, den Punkttitel , die Legende, den Punkttext und die Position des Ligandenpunkts Die Textfunktion „Thema“ oder „Element unterstreichen wird verwendet, um die Website, die Schrift und die Begründung auf das nächste Element festzulegen Schrift und die Begründung auf das Wir verwenden ein Thema Minimalfunktion unterstreicht, um mit dem minimalistischen Thema zu beginnen, in dem alle Handlungen dargestellt werden, und passen dann das Erscheinungsbild mit dem Thema Function weiter an Diese Beispiele zeigen, wie Sie Themen, Beschriftungen, Titel und Achsen mit der Themenfunktion in ggplot2 ändern Beschriftungen, Titel und Achsen mit der Themenfunktion in ggplot2 Jetzt können Sie zusätzliche Themenelemente erkunden und das Erscheinungsbild Ihrer Plots weiter an Ihre spezifischen Visualisierungen und Bedürfnisse anpassen Plots weiter an Ihre spezifischen Visualisierungen und Bedürfnisse jedes Projekt muss eine eigene Visualisierung durchgeführt werden, damit Sie diese Funktionen verwenden können , und Sie können weiter erkunden 106. Projekt 6: Hallo und willkommen zurück. In diesem Fall werden wir ein einfaches Projekt durchführen. Und damit wird ein Datensatz aus der realen Welt verwendet, um Erkenntnisse zu regionalisieren Deshalb arbeiten wir mit realen Datensätzen, um aufschlussreiche Lizenzen und wichtige Aspekte der Datenanalyse, Datenwissenschaft und des Storytelling unserer Projekte zu erstellen aufschlussreiche Lizenzen und wichtige Aspekte der Datenanalyse, Datenwissenschaft und des Storytelling unserer Projekte Sehen wir uns ein Beispiel an, bei dem ein Datensatz aus der realen Welt verwendet wird, um mit ggplot2 aufschlussreiche Visualisierungen zu erstellen aufschlussreiche Visualisierungen In diesem Beispiel verwenden wir den berühmten Iris-Datensatz, mit dem R-Paket leicht verfügbar ist standardmäßig mit dem R-Paket leicht verfügbar ist. Die IDT enthält die Informationen über verschiedene Arten von Irisblüten, einschließlich ihrer Kelchlänge, Kelchblattbreite, Blütenblattlänge einschließlich ihrer Kelchlänge, Kelchblattbreite, und Blütenblattbreite der Okay, das ist also das einfache Projekt, bei dem Relu versucht einige Visualisierungen zu erstellen, Visualisierungen Also als Erstes verlieren wir diese Bibliothek, ggplot2. Dann laden wir den Iris-Datensatz indem wir die Datenfunktion schreiben, Datenfunktion, die den Datensatznamen weitergibt. Diese beiden Schritte sind also der entscheidende Schritt, um die Necess-Bibliothek laden und den irischen Datensatz und die Struktur des Datensatzes zu untersuchen. Wir verwenden die STR-Funktion und übergeben den Datensatznamen. Sehen wir uns also die Struktur des Datensatzes an. Sie können hier also sehen, es gibt ein Objekt pro Mitarbeiter oder fünf Variablen. Fünf Variablen sind Kelchblattlänge, Kelchblattbreite, Blütenblattlänge, Blütenblattbreite und Okay? Und dann werden hier Werte angegeben. Okay, als Nächstes sehen wir uns die Zusammenfassung des Datensatzes an, die uns die Statistiken gibt. Die fünf Spalten, Kelchblattlänge, Kelchblattbreite, Länge, Blütenblattbreite und Und ihre Minimalwerte, zerkleinertes Quartil, Median, Mittelwerte Drittens, Quartil- und Maximalwerte für jede der Variablen. Okay? So können wir sehen, analysieren, okay, als Nächstes laden wir neu Dies ist die statistische Sache, die wir erhalten wenn wir die Zusammenfassung des Datensatzes erhalten. Was ich nun tun möchte, ist, ein Streudiagramm für diesen Datensatz zu erstellen Was ich dafür tun werde, erstelle ich hier eine unterstrichene Plotvariable mit Streuung Und ich verwende die GG-Plot-Funktion, um das Diagramm zu erstellen, und ich weise es dieser Variablen zu und drucke sie dann aus. Also GG-Plot-Funktion, ich übergebe den Datensatz, den Iris-Datensatz. Ähnlich wie in den früheren Vorlesungen haben wir die ästhetische Funktion verwendet, auch hier verlässt die ästhetische Funktion die ästhetische Funktion. Und er hatte XXS für die Kelchblattlänge und die Y-Achsenausgabe. Einfache Punktbreite und Farbe. Setzen Sie die auf der Art und dem Geom aufbauende Unterstrichpunkt-Funktion, die ich verwenden werde, um die Punkte auf dem Plot zu plotten, und Large Functional, huge, um den Titel für die X-Achse, Y-Achse und den Titel der Handlung beizubehalten Y-Achse und den Titel der Und dann verwende ich hier die vom Team unterstrichene Minimalfunktion Und dann drucke ich diese Streudiagramme. Lassen Sie uns das durchgehen und sehen, wie das Blutbild nach oben streut. Also lass es uns einfach größer machen. Dies ist das Streudiagramm, das wir erhalten, nachdem wir das ausgeführt Sehen Sie sich hier also die Länge der Kelchblätter auf der X-Achse, einfache Breite auf der Y-Achse und die Farbe auf der Grundlage Es gibt also zwei Dosa, Versicolor und Virginica. Sehen Sie, alle Arten sind hier anhand der Kelchblattlänge und der Kelchblattbreite dargestellt Das ist also dasselbe Streudiagramm aus der Vergangenheit , das wir erstellt haben Als Nächstes der Iris-Datensatz vier enthält der Iris-Datensatz vier numerische Variablen: Kelchblattlänge, Kelchblattbreite, Blütenblattlänge, Blütenblattbreite und eine kategorische Variable, nämlich eine kategorische Diese Art ist also die kategorische Variable. Lassen Sie uns nun eine aufschlussreiche Visualisierung erstellen Sie plötzlich blockiert haben Das erste ist also ein Streudiagramm, unsere Daten haben wir bereits erstellt Lassen Sie mich das noch einmal ausführen. Du bekommst dasselbe. Jetzt erstellen wir ein Boxplot. Also Boxplot, dasselbe, Boxplot GG Plot nach Belieben , dann ästhetische Funktion Und hier ist X, X, ich setze diese Teile und die Y-Achse setze ich das Hotel, ich gebe die Länge der Blütenblätter Also Arten und ihre Blütenblattlänge und wir füllen sie mit dunklen Arten Und dann Geom Underscore Boxplot. Ich benutze zum Zeichnen den Boxplot und dann die Laugh-Funktion namens title and all Und dann drucke ich. Also lass mich das erledigen. Sehen Sie hier das Boxplot, Blütenblattlänge nach Arten Also das jeweils für Setosa, das ist für diesen Boxplot ist für Versicolor, das ist zum Ansehen Ähnlich möchte ich ein Histogramm erstellen Und ein Histogramm, das ich auf der Grundlage der Verteilung der Blütenblattbreite zwischen den Arten erstellen werde der Grundlage der Verteilung der Blütenblattbreite zwischen den Für dieses Histogramm unterstrich das Gramm die Plotvariable DG, die Funktion ggplot2 tut das, sie passiert die Iris, dass wir eine ästhetische Breite von X-Blütenblättern verwenden Und ich fülle dieses Stück mit ihrer Spezies und dann Histogramm, Histogramm, funktionale Verwendung und Binwidth, ich gebe 0,1 Farbe an, ich gebe weiße Farbe ihrer Spezies und dann Histogramm, Histogramm, funktionale Verwendung und Binwidth, ich gebe 0,1 Farbe an, ich gebe weiße Farbe. Dies ist die Unterdrückungsfarbe zwischen den Bins. Und ich gebe 0.7 und labore funktionale Verwendung, um die Titel und so weiter zu geben. Und dann Theme Minimal, das ich hier verwende. Lassen Sie uns das ausführen und sehen, ja, das ist die Blütenblattbreite , bestehend aus X-Achse und Y-Achse Wir haben die Frequenz. Und dies ist der erste Satz von Teilen in Größe. Grünlich für die Versicolor und Virginica. Virginica. Blau für die Virginica Okay. Auf diese Weise können wir dieses Histogramm erstellen Als Nächstes erstelle ich ein facettiertes Streudiagramm. Und dort möchte ich die Blütenblattlänge gegenüber der Blütenblattbreite für jede Art anzeigen Blütenblattlänge gegenüber der Blütenblattbreite für jede Dafür verwende ich also die X-Achse, ich verwende die Blütenblattlänge, die Y-Achse, ich verwende die Blütenblattbreite und die Farbe, die ich gebe, besser als die Geschwindigkeit für die Art und die Geom-Punktgröße Art und die Geom-Punktgröße Ich habe drei und alle anderen Dinge im gleichen Jahr bekommen, Freundschaft, um die Wickelfunktion zu unterstreichen ich werde auf dieser Spezies aufbauen Okay, diese voreingestellte Unterstrich-Wrapper-Funktion gibt Ihnen das Streudiagramm, das der Professor gemacht hat Lassen Sie uns das ausführen und die Ausgabe sehen. Jetzt sehen wir das Facettenstreudiagramm. Hier das Größenset. Dies ist möglicherweise besser, wenn Sie auf der X-Achse landen und die Blütenblattbreite auf der Das ist für die Setosa, dieses Grün für die Versicolor und Blau für die Das ist also das facettierte Streudiagramm. Und hier kann man auch die Blockade für Setosa, Versicolor und Virginica sehen Setosa, Versicolor Dies ist eine klare Kategorisierung. Okay? Als Nächstes planen wir, dass wir mithilfe dieser Datensätze aus der realen Welt wie dem Iris-Datensatz Einblicke in die Beziehungen und die Verteilung von Variablen gewinnen, die Muster identifizieren und aufschlussreiche Interpretationen vornehmen können die Beziehungen und die Verteilung von Variablen gewinnen, die Muster identifizieren und die Muster identifizieren aufschlussreiche Interpretationen vornehmen Okay, jetzt steht es Ihnen frei, mehr Plots zu entdecken, zu schreiben und die Ästhetik anzupassen, als wir es zuvor getan haben. Sie können zum Beispiel die Themenbeschriftungen, Titel und all die Dinge, die wir in der vorherigen Lektion gelernt haben und die Sie darauf anwenden, ändern all die Dinge, die wir in der vorherigen Lektion gelernt haben und die Sie darauf und Ihr eigenes Projekt erstellen. Und dann experimentiere für die verschiedenen Datensätze. Abgesehen davon, um Ihre eigenen DWT-Unterrichtsfähigkeiten zu üben und zu entwickeln Ihre eigenen DWT-Unterrichtsfähigkeiten Dies ist also das einfache Projekt, das auf dem Iris-Datensatz basiert , um ein Histogramm, ein Fester Scatterplot, ein Boxplot und all diese Dinge zu erstellen Boxplot Ich hoffe, Sie haben eine Vorstellung davon , wie Sie auf dem Datensatz der realen Welt laufen können. Sie können auf dem Datensatz der realen Welt laufen. Danke 107. Umgang mit Datums- und Zeitdaten in ggplot2: Hallo und willkommen zurück. In dieser Vorlesung lernen wir den Umgang mit Datums- und Uhrzeitdaten in ggplot2 also Datum und Uhrzeit behandelt werden, wenn T2-Diagramm aufgerufen werden soll, das Einfügen dieser Daten wird korrekt als Datums - und Uhrzeitobjekt erkannt , das GG-Plot kann die Achsenbeschriftungen richtig formatieren und entsprechende Fähigkeiten entwickeln Was heißt das? Das heißt, wenn Sie die Daten, Datum und Uhrzeit in einem korrekten Format weitergeben , dann zeichnen Sie zwei, kümmern sich um Gemüse, Dinge, indem Sie plotten, und sie haben keine Steuern erhoben April also klinisch anerkannte Datums- und Uhrzeitobjekte beibringen klinisch anerkannte Datums- und Uhrzeitobjekte Gg plot kann die Achsenbeschriftungen richtig formatieren und entsprechende Fähigkeiten erstellen. In unserer Zeit können Datum und Uhrzeit anhand verschiedener Klassen dargestellt werden , wie z. B. Logiken für Stadt und Audits und LD-Funktionen Okay, wir werden uns das Projekt City und die Projekte LTE später ansehen. Vorerst reicht es zu wissen, dass Daten mit verschiedenen Klassen wie Logic City und Projects dargestellt werden können mit verschiedenen Klassen wie Logic City und Projects dargestellt . Okay, lassen Sie uns zu einem einfachen Beispiel gehen, bei dem ein Datensatz mit Datums- und Uhrzeitdaten verwendet wird, um zu demonstrieren wie mit Datum und Uhrzeit in ggplot2 umgegangen Also als erstes brauchen wir die ggplot2-Bibliothek und die Bibliothek, wie weit diese Beispiele diese beiden Bibliotheken laden werden Und was ich dann tun möchte, ich möchte einen Beispieldatensatz mit Zeitwert erstellen. Hier wird also unser Datensatz erstellt, der das Datum und die Werte enthält, die jedem Tag entsprechen. Also dafür mit set.seed 123, damit ich jedes Mal dieselben Setup-Beispieldaten erhalte Wenn ich das Programm starte. Dann werde ich für Data wertvolle Daten erstellen und ich werde vier Tage, ich werde, ich werde, ich werde, ich werde eine Sequenzfunktion verlieren, um die Decks für mich zu erstellen Insights Sequenzfunktionen von add dark for six city, add dark four DX DT. Und hier gebe ich das Datum als 23. Januar an, zuerst, erster Januar 2023. Das ist also der Ursprung des Datums. Also von diesem Rückgang und wir beginnen, okay, hier, ich verwende es bis zu einem Tag. Ein Tag wird also der Unterschied zwischen jedem Datum und dem Lynda-Punktpunkt 30 sein 30. Ich wollte 30 Tage erstellen. In diesen 34, 30 Tagen möchte ich etwas erschaffen, okay. Ich verwende die Sequenz Ronson und für Werte mit der ungeraden Pnorm-Funktion die Pnorm-Funktion Hier lasse ich die Anzahl der Werte stehen, die ich erstellen möchte. Also möchte ich 30 Werte bekommen. Was sind diese 30 Tage? Und dann möchte ich den Mittelwert von 50 und die Standardabweichung entweder zehn verwenden , okay? Und vier Tage habe ich Sequenzfunktion vereinigt und die interne Sequenzfunktion, die ich verwende , ist gleich dem Ag-Punkt Cp. Ich gebe das Startdatum an. Und nach einem, an jedem Tag, an dem ich lebe. In Titeln werden ab 30 Tagen erstellt, ab der ersten Generation erstellt, gedruckt werden drei Und dann erstelle ich einen DataFrame, data.frame. Jeder Anruf bis heute oder Datum. Ich verwende diese Testwerte und für Werte verwende ich diesen Wert. Okay? Lassen Sie uns das ausführen und sehen, was passiert. Jetzt laufen lassen, zum Datenrahmen df8 bringen , Also sieh hier. Jetzt ist es, ich habe zwei Spalten, Datum und Werte. Die Daten beginnen mit der ersten Generation 2023 und werden an jedem dritten Tag von der ersten Generation zur Zeit Und für jeden Tag sind damit andere, unterschiedliche Werte verbunden. Jetzt haben wir einfache Daten, Beispieldatensatz, ein Datum und die entsprechenden Daten. Was war der Wert? Es könnten so etwas wie die Kosten des bestimmten Artikels oder so sein. Wir haben also Datum und Bewertungsspalte. Jetzt können wir versuchen, sie mit ggplot2 zu plotten. In diesem Beispiel haben wir also einen Datensatz mit zwei Spalten erstellt, wobei Daten ihn in Zeitdaten darstellen und Werte einige numerische Werte darstellen. Okay, also als Erstes, was möchte ich, um ein einfaches Liniendiagramm mit Datum auf der X-Achse für diese alkylierten wertvollen Linien zu erstellen X-Achse für diese alkylierten wertvollen , die das Diagramm unterstreichen und auf das GG-Plot anspielen, um das Liniendiagramm zu erstellen Also ggplot2 und Datensatz, ich übergebe dF, das wir erstellt haben Ich weiß nur, dass es Anästhetikum X gibt. Ich wollte das Datum und die Y-Achse angeben, ich möchte Werte eingeben, also ist X gleich Datum und warum ist Wert? Und dann verwende ich die geomische Unterstrichlinie Human, die sogenannte Linienfunktion, um diese Punkte in der Grafik darzustellen Und dann verwende ich die letzte Funktion, um Namen wie für den X-Achsenstatus, Y-Achsenwert und Datalab zu geben Namen wie für den . Plot ist Linie, Plots, Wert im Zeitverlauf, und Thema, minimal Also T minus vier Millimol, und dann drucke ich das Lassen Sie uns das also ausführen und sehen, was die Ausgabe ist, die hier herauskommt. Dies ist der Befehl zum Zeichnen von Linien. Liniendiagramme des Werts im Zeitverlauf. Also für den 1. Januar, Tag und Werte Wie wir hier zum Beispiel dargestellt haben, gibt es neun Dichten wie diese, okay? Damit können Sie den Wert im Zeitverlauf einfach visualisieren , dass Teil zwei des Diagramms zu dieser können Sie den Wert im Zeitverlauf einfach visualisieren Zeit erstellt wird Ggplot2 ist das Einfache. Auf der X-Achse befinden sich Daten Y-Achsenwerte und der Rest der Dinge, wenn wir in diesem breiten GG-Plot ggplot2 um zu erkennen, dass der Inhalt der Datumsspalte, Datums - und Uhrzeitdaten und automatisch Landwirte entsprechend auf diese Ebenen zugreifen Okay. Also Labels hier. Nun, als wir das erstellt haben, haben wir keine angegeben, das Format ist hier 01012323, wir haben es nicht so angegeben, aber GG Plot hat es als Datum und Uhrzeit erkannt und automatisch die Labels gegeben, die Jan bis Gemini im Genesis-Team Okay, das wurde automatisch gemacht, per DG-Plot, um zu wissen, was wir als Nächstes tun werden, wir versuchen, das Flächendiagramm mit Datum und Uhrzeit auf der X-Achse Also Flächendiagramm, GG-Plot, die X-Achse Alport-Datum Y-Achse über ALU und gefüllt mit dem Wert Mit der Funktion „ Fläche unterstreichen“ werde ich ein Flächendiagramm erstellen und die Labore verlassen, Y-Achsenwert und Titelfläche Plotwert im Zeitverlauf, Theme minimal darstellen und die Flächendiagramme drucken, drucken Also lassen Sie uns das ausführen und sehen. Nun kann man hier sehen Arial Black im Laufe der Zeit Wert gelegt hat und hier auch Dummheit und hier auch die Dinge, für die gesorgt wurde Und das ist der Bereich Plot, der von did you ggplot2 erstellt wurde. Auf der X-Achse werden nur die Daten Januar bis 9. Januar angezeigt , also Männer , die einen Zuschuss erhalten, und dann 30. Und für jedes Datum und Werte im Laufe der Zeit mit verzweifelt und so weiter nach dem abgedeckten Bereich. In diesem Grundstück haben wir Ihre unterstrichene Fläche, um ein Flächengrundstück zu erstellen Und GG-Plot polymerisiert die X-Achsenebenen automatisch polymerisiert die X-Achsenebenen mit den Datumsinformationen. Sie können es also hier sehen. Als Nächstes erstellen wir ein Balkendiagramm, Datum auf der X-Achse Also aggregieren Sie die Daten nach meinem Tag und erstellen Sie ein Balkendiagramm. Also hier, was ich tun möchte, ich möchte ein Balkendiagramm mit dem Schwung lesen, den Daten für jeden Tag. Für ductile do LLC einen DataFrame erstellen und unser täglicher Unterstrich DF und er hat LDF , den Pipe Operator hier. Und ich habe nach Datum gruppiert, Punkt und Datum hinzugefügt, und sie geben das Datum weiter und fassen es nach Durchschnittswert Das wird der Mittelwert des Werts sein. Auf diese Weise erhalten wir den täglichen Unterstrich DF, okay? Also wenn ich das hier sehe, ist das die tägliche DF. Datum und Durchschnittswert. Beschreibe sie so, okay. Diese Drohne zwei weitere Reihen. Okay? Also jetzt werde ich es in die Bar Plot holen. Also bar Plot, Anti-D ggplot2 bar. Dieses Mal liebe ich Knot Past the DF und übergebe das an die SQL DB, die wir gerade erstellt haben Und was den ästhetischen Funktionspass anbelangt, so ist X gleich Datum und Y gleich Durchschnittswert. Datum wird also von diesem Datum ausgehen und der Durchschnittswert, der sich aus Angst ergibt. Und sieh dir dein Date an. Typ ist Datum und Durchschnittswert W. Okay? Also und dann verwende ich die Funktion Geom Underscore Column, um ein Balkendiagramm zu erstellen Und bei der Verriegelungsfunktion gebe ich X gleich Datum, Y ist gleich Durchschnittswert und engerer Balken Plot Durchschnittswert Teil D und T Kilometerstand minimal und Thema existiert Punkt X Punkt X Element unterstreichen Steuerwinkel 45 Drehen Sie den Zugriff auf die Ebenen, um eine bessere Sichtbarkeit zu gewährleisten. Okay. Also drehe ich die überhöhten Werte um 45 Grad, um die Sichtbarkeit über D zu verbessern. Okay, und drucke dann das Balkendiagramm Also lass mich das erledigen. Also sieh mal, so haben wir uns geneigt. Sees Ajahn nach Jenae wurde um 45 Grad geneigt. Wir haben es also nicht geschafft, die Steuerfunktion des Elements Unterstrich zu verwenden Steuerfunktion des Elements Unterstrich und den Winkel zu übergeben, der gleich 45 ist Wenn ich bei jedem Anruf den Winkel auf unsere 75 setze. Und wenn ich versuche, das laufen zu lassen, dann wird das regelmäßig auf der 75 sein. Wenn ich Albert unterstütze, 90, 30 Grad, dann wird es um 30 Grad C und 45 Grad geneigt sein und 45 Das sieht besser aus. Okay? Jetzt haben wir den Durchschnittswert pro Tag. Also, obwohl es gerade der 1. Januar ist, Geschlecht mir Dreien und Vierer für 30 Tage gesagt hat, Durchschnittswert Teil D, Durchschnittswert Teil D, wir können in diesem Balkendiagramm sehen, was wir gemacht haben Wir haben die Daten von Tag zu Tag aggregiert und mithilfe der Spalte „Geom-Unterstrich“ ein Balkendiagramm erstellt Wir haben auch die X-Achse um die Ebene gedreht um die Sichtbarkeit zu verbessern, was wir hier mit dem verwirrten 45-stelligen Winkel gemacht haben Demonstrieren Sie den Umgang mit Datums- und Uhrzeitdaten in ggplot2, indem Sie die DateTime-Retires in das entsprechende GG-Plot einfügen, um die übermäßige Nivellierung und Skalierung automatisch zu handhaben, sodass es einfacher wird, im Laufe der Zeit in das entsprechende GG-Plot einfügen, um die übermäßige Nivellierung und Skalierung automatisch zu aufschlussreiche, praktisch gleiche Vorschriften zu erstellen . Wir müssen also nur den richtigen DateTime-Wert an ggplot2 unter stop the thing GG plot übergeben , um zu verstehen, wie mit Datum und Uhrzeit in ggplot2 umgegangen 108. POSIXct- und POSIXlt-Funktionen mit Beispiel: Hallo und willkommen zurück. In dieser Vorlesung werden wir sowohl über die LT-Funktionen der Stadt als auch über Projekte lernen , die heute sehr verbreitet sind, wie Programmierung für den Umgang mit den Datums- und Uhrzeitdaten. Sie sehen also nicht die Endpunkt-LTE-Klassen für die Gegenwart, Datum und Uhrzeit. Beide Klassen sind Teil unseres Pakets. Sie möchten mit Datums- und Uhrzeitwerten umgehen. Sie unterscheiden sich jedoch in ihrer internen Repräsentation und ihrem Verhalten. Wenn es zwei Objektklassen gibt, muss es natürlich Unterschiede in ihrem Verhalten geben. Also weiter. Lassen Sie uns verstehen, wie LTE für die Stadt und Projekte funktioniert. Also zuerst werden wir verstehen, wie arm City Walks Project City für Forensik steht, Kalenderzeit CT-Kalenderzeit, C4-Kalender T für Zeitprojekte ist also 4,6, 0,6 und stellt Datum und Uhrzeit als Anzahl der Sekunden seit Beginn des Unikats Das ist der 1. Januar 1970. Projektkalender soll also am einundneunten Januar beginnen und ist unter Souveränität Aber Sie kennen das Unix-System nicht. Okay? Also, und ab diesem Zeitpunkt wird die Anzahl der Sekunden seit Beginn der Zeit Beginn des Zeitspiels für das Projekt City's 1971 gezählt. Okay, so funktioniert es also. Und es ist die gebräuchlichste Klasse für den Umgang mit Datums- und Uhrzeitdaten in unserer kastrierten Einfachheit und Effizienz Das Vorangegangene hat angefangen zu sprechen Es ist also wirklich effizient und gleichzeitig stark, dass Rita und Israeli Simple auch Projekte mit jeder Jump Box verstehen. Nehmen wir an, ich möchte unser Stadtobjekt erstellen. Dafür gebe ich einen Namen und Datum und Uhrzeit durchqueren die Stadt und du fügst das Punktprojekt Stadt hinzu. Und er hatte ein Alken-Date. Und es wird Licht ins Dunkle bringen Grundy 3722. Das bedeutet 20 Sekunden , um drei anzulügen. Und hier, Algol, kaum echte Bar 30 Minuten, 45 s. Und das ist das Datum und die Uhrzeit Und er und ich werden uns die Zeit nehmen, John. Danke. Und ich kann alles geben , was ich wollte. Okay. Also ich mache es weniger genau, UPC und dann versuche ich es vorherzusagen Okay, sehen wir uns hier an, es ist der 22. Juli 2023, Dynavox tut weh, als ich 45 s nach der UTC-Zeit gefragt Okay. Jetzt haben wir den Typ, der zeitlich gezeichnet ist. Jetzt möchte ich darauf zugreifen, die einzelnen Komponenten funktionieren und zu welcher Uhrzeit das Jahr, Monat, Tag sind. Unser Minutenzeiger, Sekundenzeiger , den wir sehr einfach machen können. Wenn ich will. Das Ohr sondiert das Datum, ich kann das Format verwenden und dann gebe ich das Datum weiter. Die Zeit unterstreicht die Stadt, das ist das Objekt des Tages. Und dann gebe ich den Prozentsatz zurück und das gibt mir ein Jahr. Es wird von diesem Objekt hierher passen. Also wir sehen uns, Künstler. Okay. Ähnliche Monate hatte er erlebt. Sie können Datum, Uhrzeit, Unterstrich, Stadt, Moderatoren verwenden, was sie getan haben, Uhrzeit ZT und Sie können ein D oder eine Zusammenfassung einer seltsamen Person erreichen ein D oder eine Zusammenfassung einer seltsamen Person War es nicht? M für eine Minute und S4 Sekunde M und S, ungerade Minute und zweiter Sohn waren auch die Kapitalzinsen. Okay, lassen Sie mich das ausführen und nun zu all diesen Komponenten kommen. Also werde ich eine riesige Basis haben. Ja. Er und unterstreichen CPD pro Monat, Monat und Verlust Kapazität für Datum und eine Und für den seltsamen Mann, der eine Sekunde draußen verwende ich dasselbe, okay? Und dann werde ich versuchen, das zu drucken. Wenn ich also ein Jahr drucke, ist dieses Produkt, das 23 Monate verkauft werden soll, sieben Quadratkilometer groß Die zweite ungerade Zahl sind 20 Künstler , die keine Minuten gemacht haben, und 45 s von Projekten, Stadtobjekt. nächste ist für LT-Toxin oder LD Stanford für sechs Ortszeit und stellt Datums- und Uhrzeitdaten dar und fügt eine Liste von Hier war es also ins Stocken geraten als sich die Zeit um einige Sekunden verging Und hier wird es als Liste gespeichert. Okay? Projekte LT werden also in Stanford oder Ortszeit und stellen Datums- und Uhrzeitdaten als Nischenkomponenten dar. Jahr, Monat, Tag, ungerade Minute und Sekunde werden als Liste in der lokalen Zeitzone gespeichert als Liste in der lokalen Zeitzone Standardmäßig wird also zum lokalen Typ gewechselt. Es ist flexibler als Project City, da es direkten Zugang zu neuen Ertragskomponenten der Macht ermöglicht direkten Zugang zu neuen Ertragskomponenten , um die ich John kümmere. Okay, hier ist ein Beispiel für Politik. Lt. I will create a date time object, pia, add dot projects, LTE, MLK, Martin, 20-Sekunden, Juli 2023 Callbacks sind unterschiedlich, 45 s, und ich werde versuchen, es auszudrucken Also, weißt du, hier haben wir den Tango nicht spezifiziert. Und wenn ich drucke, sehe ich 20-Sekunden-Kollisionen, Ozon, Grundy drei, naja, 30 Meilen 45 s mit der indischen Die Zeit John, meine lokale Gefahr, das ist indische Standardzeit. Es wird gewaschen, fest an diesem Objekt befestigt, giftig. Jetzt ist es üblich mit dem lokalen Timed You Only-Fenster oder Lias in Project City, wir haben den Zeitplan spezifiziert, Martin Projects LT. brauchen diesen Zeitpunkt hier nicht zu spezifizieren. Es wird automatisch die lokale Zeit verwendet, John, weil es für die lokale Zeit des Projekts steht. Okay. Und wenn wir auf die monatliche Minute und Sekunde zugreifen wollen, können wir einfach nach Eugene Datum, Uhrzeit, Unterstrich LT, dem Objekt, das wir für diesen Dollar erstellt haben , plus Was wird es also tun, wenn Sie LTE als Jahr seit 1.904 Monaten, Datum, Uhrzeit, Unterstrich LT-Dollar, M1 Monat plus ein Projekt LT, speichern 1.904 Monaten, Datum, Uhrzeit , den Monat mit Null beginnen Also Daten plus 1€ für Januar um 11:47. In ähnlicher Standardeinstellung verwenden sie den MD Monat, Tag. Und für ungerade Werte gibt es eine Minute, einen Minutenmittelwert und 4 s. Also lassen Sie uns das ausführen und mit echten Objekten darauf zugreifen und dann drucke ich es aus. Kommt total her und Randy, drei Monate, sieben Tage, 20 Sekunden oder so Das Gleiche bekommen wir und projiziert LTL real einen Liter Die Präsentation ist ein Unterschied aber projiziert Ortszeit und speichert die Komponente hat entfesselt wo die Projektstadt sie ist Kalenderzeit steht für Datum und Uhrzeit, wohingegen die Anzahl der Sekunden seit dem Beginn von Unix der Zeit ab Januar 197 entspricht Okay, das sind Dinge, mit denen wir mit Daten umgehen können, Datums- und Uhrzeitdaten oder so. Und es gibt zwei Möglichkeiten Project City und Projects Empty. Und wir haben beide verstanden 109. Projekt 7 Datentransformation und Zusammenfassung: Hallo und willkommen zurück. In diesem Projekt werden wir also ein weiteres einfaches Projekt durchführen, in dem wir Techniken zur Datentransformation und -zusammenfassung auf Daten aus der realen Welt anwenden Datentransformation und -zusammenfassung auf Daten aus der realen Welt anwenden werden Um die Technik der Datentransformation und -zusammenfassung auf reale Daten anzuwenden, verwenden wir also Technik der Datentransformation und -zusammenfassung auf reale Daten anzuwenden, den MPG-Datensatz , der standardmäßig auch in unserem verfügbar ist Dieser MPG-Datensatz ist also in unserem Paket sofort verfügbar. Wir müssen den Datensatz also nicht separat herunterladen. Es ist bereits im R-Paket verfügbar. Der MPG-Datensatz enthält Informationen über verschiedene Automodelle und deren Kraftstoffeffizienz Lassen Sie uns also das GG-Plot verwenden, wenn wir die Datentransformation anwenden und einige Techniken zusammenfassen, um Erkenntnisse aus dem MPG-Datensatz zu gewinnen , der der Datensatz über die verschiedenen Card-Modelle ist , und sie fühlen sich effizient Als erstes laden wir die ggplot2-Bibliothek. Herr, der Datensatz , der ein MPG-Datensatz ist. Also verlassen wir die Datenfunktion und übergeben den Datensatznamen, bereits im R-Paket verfügbar ist. Also Daten und übergeben Sie den Datensatznamen. Okay, dieser Datensatz wird also geladen. Und um dann die Struktur des Datensatzes zu untersuchen, verwenden wir die Funktion STR-Funktion und übergeben den Datensatznamen. Wenn wir das also ausführen, erhalten wir die Struktur von Dataset, diesen MPG-Datensatz Hier sehen Sie also Herstellermodelle, Hubraum, Baujahre, Anzahl Epsilon Dot Transmission, Dr. City, Highway und Klassen All diese Variablen sind also da. Okay? Als Nächstes sehen Sie die Zusammenfassung des Datensatzes. Lassen Sie uns also die Zusammenfassung ausführen und dann den Namen des Datensatzes übergeben. Ja, das gibt Ihnen ein besseres Verständnis dafür, wie, wie alt es dort ist, welche Art von Lesen entweder Hersteller, Modell, Hubraum, Jahr, Zylindergetriebe und Stadtautobahn, und die Füllung und dann Klasse. Für alles wird der Mindestwert angegeben. Erstes Quartil, Median, drittes Quartil, all diese statistischen Okay? Wenn wir uns das als Nächstes ansehen enthält der MPG-Datensatz mehrere Variablen, darunter Hersteller, Modellverdrängung und Hubraum in Litern Und dann Anzahl der Zylinder und dann Übergänge für irgendeinen Typ Dre ist der Typ Dr. und BYU City MPG und WY ist Highway MPG. Das ist also der durchschnittliche Kilometerstand der Stadt, und das ist ein hoher BMI abzüglich des jeweiligen Autos Wenden wir nun diese Techniken zur Datentransformation und -zusammenfassung mithilfe des GG-Plots Also verwenden wir als erstes den Gruppenbalken-Plot. Und in diesem, was wir tun werden, werden wir die Komprimierung jeder Stadt vornehmen. Auf der Mpg-Kilometerzahl basierender Zylinder. Also verwenden wir den MPG-Datensatz und den Pipe-Operator. Und hier gruppieren Sie nach Zylindern. Und dann diese Gruppierung nach Zylindern. Dann übergeben wir es an die Zusammenfassungsfunktion. Jeder Stadtdurchschnitt, der die Stadt unterstreicht, wird also als Mittelwert des Stadtdurchschnitts bezeichnet Und dann geben wir das an die GG-Plot-Funktion weiter, die ästhetische Funktion. Wir verwenden das X als Faktor und wir faktorisieren den Ausweiszylinder und warum tun wir es um des Rezepts willen und geben die Anzahl der Zylinder ein, den IJ-Faktor des Zylinders , okay Und dann wird Jamboard verwenden um den Start gleich der Identität zu bestehen Und dann berechnet er die Anzahl der Zylinder auf der X-Achse. X-Achse gibt die Zahl Epsilon an, die Y-Achse jede Stadt, Meile, BD und siehe Titel geben Ihnen jede Stadt und VD nach Und das Team wird das Minimum verwenden. Und dann drucken wir das Diagramm der Gruppenleiste. Lassen Sie uns das ausführen und sehen, lassen Sie mich einfach den Platz maximieren, damit wir das Diagramm sehen können. Okay? Ja, wenn du welche kaufst, siehst du rauchen. Malis, aber das, okay, das heißt, weil wir Nykturie-Dplyr-Bibliothek haben Also lass mich wissen, dass die Plots Okay, wenn wir jetzt laufen, sehen wir dich heutzutage richtig , dass entweder, was die by-Funktion angeht , aus dem dplyr-Paket stammt , das du nicht geladen hast Natürlich war es das Werfen, also jetzt können Sie den DMB D anhand der Anzahl der Zylinder nachweisen Also Anzahl der Zylinder auf der X-Achse. Und bei jeder Stadt steht der Kilometerstand auf der Y-Achse, also die Nummer des Zylinders, das Datum und das Myelin Aber geben Sie tatsächlich vier ein und diversifizieren Sie die Mileage-Dinge hier für tatsächlich Mileage-Dinge Auf diese Weise können wir analysieren, wie sich die Anzahl der Zylinder in einem Automodell auf die Kilometerleistung jeder Stadt auswirkt Dann zeichnen wir den Boxplot und Color Box Director sind wirklich dasselbe und Schönheit, ästhetischer Ausgang, Dry, Highway, MPG nach Typ, Typ, Typ, Typ und Y-Achse werden wir uns verhalten und den Typtyp bevorzugen und wie diese Dinge, die wir wissen, bereits diesen Boxplot-Highway MPG von Dr. gemacht Also kommen wir her. Der nächste ist drei. Wir stellen ein Streudiagramm auf und wird die MPG der Stadt im Vergleich zum Hubraum des Motors nach Getriebetypen ermittelt, was daraus ein Streudiagramm wird GG-Plot-Funktion, die Ästhetik des MPG-Datensatzes, die X-Verschiebung und die Y-Achse werden also Ästhetik des MPG-Datensatzes, die X-Verschiebung und Stadt sein Und dann ist Farbe Transmission und Geom-Punkt , um die Punkte zu Und dann X-Achse, Y-Achse, X-Achse, dann Verschiebungs-Y-Achse, ein Dämpfer, ein Dämpfer Und lassen Sie uns das ausführen und die Ausgabe sehen. Das Streudiagramm nach MPG in der Stadt im Vergleich zum Hubraum nach Klassenkameraden Dies gilt für automatisch, automatisch und manuell. All diese Dinge können wir sehen. Als Nächstes füge ich sogar das facettierte Histogramm der MPG-Verteilung der Stadt für Hier also dasselbe, XXS-Stadt und der abgeleitete Typ und das geom unterstreichen das Histogramm in dem dem Titel Weiß, Augenfarbe Weiß und Thema minimal und eitert gegeben werden Augenfarbe Weiß und Thema minimal und Und hier wird der Typtyp gemeldet, und dann werden wir die I'm Time ausführen und drucken. Es wird so kommen. Das ist also ein festliches Histogramm, MPG-Distribution in der Stadt, MPG-Distribution in der Stadt Trockenes Rohr. Das ist der City Mileage und das ist die Frequenz Und deshalb die trockene Pfeife, das ist das richtig? Okay. Was wir also lange in diesem kleinen Projekt haben , in diesen Beispielen wenden wir die Datensteinbildung und fassen einige Techniken zusammen, wie die Berechnung der Beweisstadt MPG nach Anzahl der Zylinder und die Verwendung von Gruppierungen, um aufschlussreiche Realize zu erstellen Und wir haben auch beantragt , die Distribution Absolut MPG für jeden Typ zusammenzufassen und mit Boxplot und Medulla zu verwenden Distribution Absolut MPG für und mit Boxplot und Medulla zu verwenden. Indem man anwendet, dass es sich nicht bildet. Jemanden übel zu nehmen ist technisch gesehen nicht. Sie können Muster, Trends und Jugendliche aufdecken , wenn sie in den Daten enthalten sind, und es einfacher machen, aussagekräftige Erkenntnisse aus realen Datensätzen zu ziehen Aus einem Datensatz aus der realen Welt. Denken Sie daran, dass ggplot2 verschiedene Funktionen und Flexibilität bietet , um in jeder Lektion eine weitere, zielgerichtete Lektion durchzuführen jeder Lektion eine weitere, zielgerichtete Lektion Ihnen also frei, das Plasmid zu erkunden und an Ihre Analyseanforderungen anzupassen. Das ist also ein einfaches Projekt von Klempnern und dann von jemandem einige Techniken mit realen Daten, die ein MPG-Datensatz Damit wir gesehen haben 110. Projekt 7 Teil 2 Datenfilterung und Farbskala: Hallo und willkommen zurück. In dieser Vorlesung werden wir Bedingungsanweisungen und Datenfilterung im GD-Diagramm verwenden . Okay, also ggplot2, wir können Bedingungsaussagen und unseren ersten Link zu unseren Daten verwenden , um unsere Diagramme auf der Grundlage dieser spezifischen Bedingung oder Teilmengen von Daten anzupassen auf der Grundlage dieser spezifischen Bedingung oder Teilmengen von Welche Anforderung auch immer darauf basieren wird , das können Sie tun. Auf diese Weise können Sie dynamischere und aufschlussreichere Visualisierungen erstellen dynamischere und aufschlussreichere Visualisierungen Deshalb werden wir auch in dieser Vorlesung mit dem MPG-Datensatz fortfahren, also dem Datensatz, der Karten, Modelle und deren Kilometerstand und verschiedene andere Okay, ich predige also nicht, um zu demonstrieren, wie man bedingte Anweisungen und Datenfilterung ggplot2 verwendet bedingte Anweisungen und Datenfilterung ggplot2 Also haben wir als erstes den ggplot2 geschrieben. Okay? Und dann laden wir diesen Datensatz, das ist der MPG-Datensatz Hat MPG-Datensatz gemacht. Und dann erstellen wir unser Streudiagramm, Stadt-MPG versus Autobahn-MPG wobei die Fahrzeit farbig dargestellt wird Also ja, das wird unsere Variable erstellen. Das ist ein Scatter Underscore-Plot. Und hier verwende ich die Ziffer ggplot2. Und hier ist der Datensatz MPD, es Ästhetik, Schriften, und ich gebe CD und warum Highway und Color unter Dr. Greg gemacht wurden Okay. Und dann geom Point funktionell oder um den Punkt auf dem Plot zu zeichnen Und dann geben die Labore die Namen existierender Projekte, MPD, Y-Achse, Autobahn, MPG, NBA, Titel des Streudiagramms Wir verwenden Streudiagramme für TMP im Vergleich zu Autobahn-MPG mit der Farbe Rot auf dem Und dann verwenden wir das Thema mit dem Minimalwert und drucken das Streudiagramm Lassen Sie mich das erklären. Jetzt erhalten wir ein Streudiagramm, das uns den CT im Vergleich zum MPG auf der Autobahn auf der Grundlage des Trockentyps zeigt den CT im Vergleich zum MPG auf der Autobahn auf der Grundlage des Trockentyps Das sind also die X-Achsenreal mit Stadt-MPG, Y-Achse ist Und die Laufleistung beim Nähen anhand der Trockenpfeife. Also diese Farbe, Farben schwanken das trockene Rohr. Okay, das ist also das Streudiagramm, das wir gezeichnet haben. Nun, was wir als Nächstes in diesem einfachen Streudiagramm machen, alle Datenpunkte oder wir sehen jemanden mit verschiedenen Farben, aber unter trockenem Papier Fügen wir nun einige bedingte Anweisungen und Datenfilterung hinzu, um das Diagramm weiter anzupassen. Dieses Diagramm besteht also Datenpunkten, bei denen die verschiedenen Farben unter der Fahrzeit vergraben sind. Jetzt verwenden wir unsere Bedingungsanweisungen und die Datenfilterung, um das Diagramm anzupassen. Als erstes wir erstellen wir ein Streudiagramm mit bedingt farbigen Punkten innerhalb des MPG-Schwellenwerts der Stadt Hier definieren wir also den Schwellenwert für die Geschwindigkeit und den Kilometerstand. Diese Stadt unterstreicht die Embryogenese, die als Schwellenwert bezeichnet wird. Das ist das oder was auch immer Lemma ANA testet alle Werte, die ich uns gebe 20. Nun also Streudiagramm mit bedingt farbigem Punkt. Wenn unsere Stadt MPG all das berührt , was wir hier als 20 definieren Also GG-Plot, die ästhetische Funktion des Datensatzes. Das Gleiche. Zugriff auf DY ist hi Rick and Color, hier ist eine CD. Und echte, die den Test oder weniger gegeben haben, mehr als die erhaltenen Punkte, wollten nur Punkt D größere Dichte und Dichte Und das wird vorhersagen, da alles, was derzeit Quellgebiet ist, größer ist als Menge. Okay? Und dann die Geom-Punkt-Funktion, und dann lesen wir die Skalierung Doppelpunkt, Unterstrich, manuelle Und hier geben wir die Werte für die Farben Rot und Blau sowie die Beschriftungen an, die uns unter und über dem Schwellenwert gegeben werden . Je nachdem, ob es größer als ist, relativ zu, es über dem Schwellenwert und unter 20, es wird unter dem Schwellenwert liegen. Und dann die Lachfunktion, die wir benutzen , um Done nach der Handlung und allem anderen Namen zu geben. Okay, lassen Sie mich das erledigen. Okay, wir bekommen ein paar Briefe. Hier. Wir bekommen einen Fehler. Problem bei der Berechnung der Ästhetik. Fügen Sie eine erste Gartenebene namens YLL Objects City hinzu und verkaufen August will ich nicht, tut mir leid, ich habe diese Variable nicht ausgeführt. Also jetzt haben wir. Also lass mich nochmal. Sehen Sie sich hier also dieses Streudiagramm mit bedingt gefärbtem Wind an, das auf dem MPG der Stadt basiert Stadt Diese blauen Punkte liegen also über dem Schwellenwert , der derzeit der Fall ist. Und die roten Punkte liegen unter dem Test auf dieser Stadt MPG, weniger als 20. Großartig. Jetzt ist die X-Achsenstadt MPG, Y-Achse energiereicher. Blaue Punkte stehen für den oben genannten Schwellenwert, der derzeit MPG-Stipendiaten der Stadt ist derzeit MPG-Stipendiaten der Stadt Also über dem Schwellenwert, Schleife abwischen und unseren Schwung als, okay, das ist also eine Bedingung, die wir gestellt haben Als Nächstes, was wir mit diesem Band machen werden , habe ich etwas weiter erklärt In diesem Diagramm verwenden wir die ästhetische Funktion, um die Geschwindigkeit der Farbästhetik größer als die MPG-Geschwindigkeit der Stadt, die größer als Bronte ist, abzubilden . Eine starre logische Bedingung, dass die Entwicklung wahr oder falsch ist, basierend darauf, ob der MPG-Wert . Eine starre logische Bedingung, dass die Entwicklung wahr oder falsch ist, basierend darauf, ob der Stadt über oder unter diesem Schwellenwert liegt diesem Schwellenwert Die Farbe, die Skala oder Schreibtisch oder die Darmspiegelung funktionieren hier nicht, um die benutzerdefinierten Farben an die Punkte über und unter dem Flugsaurier zusammen mit den über und unter dem Flugsaurier Als Nächstes verwenden wir, dass die Datenfilterung ein Streudiagramm erstellt, wobei die Datenfilterung die Lebensdauer respektiert Die Filterdaten für einen bestimmten Dr. Fred-Typ. Zum Beispiel F4, Frontantrieb. Okay, also hier brauche ich eine Variable und weise ihr F zu, das funktioniert bei einem weit nach vorne gerichteten Antrieb Damit ich frontantrieb und frei Gott spiele, verstreute Handlung auf diesem wertvollen Alkylat Und ich verwende die GG-Plot-Funktion und einen Ratgeberdatensatz, MPG Und hier gebe ich MPG und Dipol-Dipol an, definiert als Trockenrohr Dipol-Dipol an, definiert als Trockenrohr mit Frontantrieb. Hier übergeben wir den Datensatz an die GG-Plot-Funktion. Ich spezifiziere das aus diesem eingebetteten Datensatz, als ob ich einen Dipol-Dipol nehmen möchte Sie machen es Daten , die die trockene Leitung als Frontantrieb zur MPG haben die trockene Leitung als Frontantrieb zur MPG Dollar DRE entspricht der Antriebsart, das wird der Frontantrieb sein Und dann wird die ästhetische Funktion bestehen X ist gleich CT. Und warum habe ich die Farbe anhand der Fahrzeit und all anderen Dingen angezeigt. Geom unterstreicht den Punkt von irgendwo locker auf Plot und Grundstück und Labor funktionieren Und dann werden wir versuchen, das zu testen und zu sehen, wie die Diagramme entweder dieses Streudiagramm sehen können, Stadt-MPG war diese Autobahn, MPG für Das ist also das Streudiagramm für die CD. Und ich lege mein kleines Auto ab , das Frontantrieb hat. Okay, jetzt kannst du vergleichen, okay. In diesem Diagramm, um die Datendatei im Stack-Scatterplot von Procreate nur für einen bestimmten Typ zu verwenden Stack-Scatterplot von Procreate nur für , nämlich Frontantrieb, indem wir den MPG-Datensatz ersetzen, wo wir hier das Substituieren durchgeführt haben, sind Daten gleich MPG , MPG Dollar, dr Frontantrieb, indem wir den MPG-Datensatz ersetzen, wo wir hier das Substituieren durchgeführt haben, sind Daten gleich MPG, MPG Dollar, dr. V ist gleich Dry Prep Hier haben wir also die Teilmenge des Datensatzes aus dem MPG-Datensatz entnommen Datensatzes aus dem MPG-Datensatz Und das ist eine Projektsubvention, die auf dem trockenen Typ basiert , der Frontantrieb Also haben wir zuerst die Daten für Dodge Vehicle Damage Vehicle Damage Vehicles, die über Frontantrieb verfügen, und dann für Dolt-Automodelle mit Frontantrieb genommen für Dodge Vehicle Damage Vehicle Damage Vehicles, die über Frontantrieb verfügen, und dann für , wir haben den Kilometerstand von City my Ligand Hybrid anhand des Zustands MPG-Dollar verglichen Kilometerstand von City my Ligand Hybrid anhand des Zustands wir haben den Kilometerstand von City my Ligand Hybrid anhand des Zustands MPG-Dollar verglichen, Dr. V ist gleich Dive Type Jumper. Demonstrieren Sie, wie Sie bedingte Anweisungen und Datenfilter in ggplot2 verwenden bedingte Anweisungen und Datenfilter in , um individuellere und aufschlussreichere Visualisierungen zu erstellen individuellere und aufschlussreichere Visualisierungen Als Nächstes verwenden wir die Farbe und passen Farbskalen und Legenden Durch das Anpassen von Farbskalen und Legenden in ggplot2 können Sie die visuelle Darstellung von Daten verbessern und Ihr Diagramm informativer und visuell ansprechender gestalten Sie können Farben, Beschriftungen, Brüche und andere Aspekte der Farbe, des Maßstabs und der Legende an Ihre spezifische Visualisierung und Liste anpassen Ihre spezifische Visualisierung und Liste Lassen Sie uns GG-Plot weiter verwenden. So passen Sie Farbskalen und Legenden sowie die unruhige Handlung an Also verwenden wir hier die GG-Plot-Bibliothek. Also lass uns das ausführen. Wir verwenden die Datendaten, MPG-Datensätze, um den Datensatz zu laden, der ein MPG-Datensatz ist Dann erstellen wir eine Scatterplot-Stadt, MPG, Autobahn. Mpg. Mpg bedeutet MPG. Okay. Ich hoffe du weißt es, ich habe es vorhin auch mit Farbe erklärt , basierend auf Typ, Typ. Okay. Ihr GG-Plot zu MPG ist also, dass es Ästhetik nicht entschuldigt , wenn jemand direkt Autobahn und Farbe und Fahrt projiziert und Farbe und Und das Gleiche haben wir schon früher gemacht. Also lass uns das ausführen. Das ist das Streudiagramm, das wir bekommen Okay. Also Allradantrieb Freund von Driven Real Drape für Allradantrieb ist rot, blau ist Heckantrieb und grün ist für Frontantrieb und grün ist Okay. In diesem einfachen Streudiagramm werden nun alle Datenpunkte anhand des Trockentyps mit unterschiedlichen Farben gekennzeichnet Im GG-Plot werden automatisch Farben zugewiesen und eine Legende erstellt Jetzt werden benutzerdefinierte Farben und Legenden versuchen, benutzerdefinierte Farben zu erzeugen, sodass eine Variable erstellt wird. Der Kunde unterstreicht Farben und erstellt einen Vektor. Hier. Erzeugt einen Vektor und Gelb ergibt das, was F ergibt. Blau steht für unseren Willen Lesen und für vier für Tun. Queens Waterfront wird fahren, es wird blau sein, Heckantrieb, es wird rot sein und Arme werden umleiten, es wird Und dann erstellen wir das Streudiagramm mit Gott. Lassen Sie uns die Galen-Legende nennen, also hier benutzerdefinierter Unterstrich genannt, Farbe unterstreicht Streuung und das In diesem Streudiagramm erstellen wir ein GG-Plot, Ihr Datensatz ist derselbe, und verlassen die Autobahn Und hier die Farbe basiert auf dem Laufwerk. Und dann wird die Geom-Punkt-Funktion riesig, um die Punkte darzustellen Und dann verwenden wir die Gayle-Unterstrichfarbe und es kommt manuell, um die Farbe zuzuweisen , die wir hier erstellt haben Und wir geben Values ist gleich benutzerdefinierten Farben. Und dann erstellen wir das Streudiagramm. Also lass uns das ausführen. Jetzt. Unser Streudiagramm mit den benutzerdefinierten Farben, die wir definiert haben, funktioniert hier nicht mehr. Grün steht also für den Allradantrieb, bläulich für den Frontantrieb und Radius für den echten, echten Als Nächstes, oder was wir gemacht haben, lassen Sie mich zusammenfassen. In diesem Diagramm verwenden wir die Befehlsfunktion „Farbskala, Unterstrich, Doppelpunkt “, um die benutzerdefinierte Farbe für jeden Typtyp festzulegen die benutzerdefinierte Farbe für jeden Typtyp Wir definieren benutzerdefinierte Unterstrichfarben als benannten Vektor, wobei die Namen, die für die dortigen Antriebstypen stehen, Forefront wird RPA in der realen Welt reifen lassen und 444-Radantrieb und 444-Radantrieb Und die Werte stehen für die entsprechenden Farben. Die Skala und der Maßstab. Die Unterstrichfarbe kommt. manuelle Funktion ermöglicht es uns, die benutzerdefinierten Farben der Farbästhetik im Diagramm zuzuordnen. Als Nächstes werden wir versuchen, benutzerdefinierte Legenden und Beschriftungen hinzuzufügen. Benutzerdefinierte Legendenstufen können verboten werden. Also streuen Sie das Diagramm mit der benutzerdefinierten Legende und dem Level , das wir erstellen werden Also hier GG Plot Function, MPD, Aesthetic Exit TY, CD Warum sollten Sie den Typ, den Typ, den Geompunkt markieren und den Punkt ausarbeiten, um den Punkt zu zeichnen, zu skalieren, Farbe zu unterstreichen, manuell zu unterstreichen, um die benutzerdefinierten Farben zu verwenden Also rufen Allergologen an, um nachzusehen. Jetzt, wo wir es schon getan haben. Dann fügen wir hier Labels hinzu und er oder C wird Frontantrieb, Ellbogenantrieb und erschwinglich, reif entwickeln Ellbogenantrieb und erschwinglich, Also hier sind wir gegeben. F wird durch Vorderrad ersetzt, wird echt sein und vier werden 4-fach sein Und dann geben wir Dr. Type. Und dann und dann wird die Lachfunktion verwendet, um die Namen zu behalten. Okay, lassen Sie mich das erledigen. Wir sehen uns heute, der Swing folgte auf das F, ungerade und 40 zerstörte uns die direkte Arbeit da das Vorderrad wirklich enden wird Auf diese Weise können wir die Legenden anpassen, okay? In dieser Handlung verwenden wir also das gelernte Levelargument. Eine Punktzahl ist eine Skalierung, Unterstrich Farbe und Rus pro Minute um die Kostümebenen zu speichern, denn der Landry verwendet das Namensargument auch, um unseren benutzerdefinierten Titel für die Legende anzugeben Dies ist also das Namensargument, das wir verwendet haben, um der Legende den benutzerdefinierten Namen zu geben . Also hier kommt es, richtiger Typ. Okay. Ich hoffe, Sie haben verstanden, wie wir die bedingten Aussagen und die Datenfilterung verwenden und wie wir die Farbfähigkeiten und Legenden anpassen können 111. Erstelle interaktive Plots mit plotly und ggplotly: Hallo und willkommen zurück. In dieser Vorlesung werden wir interaktive Plots mit plotly und ggplotly erstellen interaktive Plots mit plotly und ggplotly Also die Bibliotheken plotly und ggplotly werden wir verwenden, um interaktive Plots zu erstellen Okay, also was ist ggplotly? Ggplotly ermöglicht es uns, ggplotly zu verwenden, eine Funktion , mit der wir das von uns erstellte GG-Plot in zwei umwandeln können wir das von uns erstellte GG-Plot in zwei umwandeln Wir haben interaktive Weise benannt. So kann jedes mit ggplot2 erstellte Diagramm mithilfe von plotly und ggplotly in interaktive Plots umgewandelt werden interaktive Plots umgewandelt mithilfe von plotly und ggplotly Glotzig. Okay? Wenn Sie also interaktive Diagramme mit plotly und ggplotly in our erstellen interaktive Diagramme mit plotly und ggplotly in our können Sie Ihre Visualisierungen mit interaktiver Planung verbessern Ihre Visualisierungen Und viele weitere Funktionen. Plotly ist ein R-Paket , das ggplotly in Grafiken in interaktive webbasierte Visualisierungen umwandelt Grafiken in interaktive Okay? Plotly ist also ein weiteres Paket , das wir Ihnen schicken werden. Sie können also Plot installieren. Okay, zur Installation können Sie zu den Tools gehen und auf Pakete installieren klicken. Und dann suchen Sie hier einfach nach Plotly, klicken Sie darauf, wählen Sie es aus und klicken Sie dann auf Installieren, und es wird installiert Ich habe es bereits installiert, also werde ich es nicht noch einmal tun. Und um dies zu überprüfen, installieren Sie verschiedene Dichten. Okay? Also sage ich es ab. Sie können auf Installieren klicken, falls es noch nicht installiert ist. Okay. Also gehen wir zu UGG ggplot2 und der Plotly-Bibliothek in diesem, okay, Paketen darin Also, was ich tun werde, was ich tun werde. Ich werde Ihnen eine schrittweise Anleitung zum Erstellen interaktiver Plots mit plotly und ggplotly geben Okay, also gleich als allererstes bei gemäßigter Temperatur die notwendigen Bibliotheken installieren und laden. Wie wir bereits wissen, haben wir gesehen, wie wir es installieren können. Lassen Sie mich diese also laden, um das zuerst zu nutzen. Sobald diese beiden Bibliotheken geladen sind, ist der nächste Schritt ein gutes GG-Plot für Daten, Sie ein GGPlot2-Plot Okay, lassen Sie uns damit beginnen, ein einfaches GG-Plot zu erstellen , um es mit dem MPG-Datensatz zu plotten , den wir bereits gesehen haben Okay, also lade den MPG-Datensatz, aber du hast keine Funktion bekommen. Laden. Und dann erstellen wir ein Streudiagramm, ein einfaches Streudiagramm, um eine variable GG-Plot-Unterstrichstreuung zu erstellen eine variable GG-Plot-Unterstrichstreuung Und ich werde das ggplotly benutzen. Wong Sun hat den Datensatz MPG verwendet. Und dann verwenden wir die ästhetische Funktion, X-Achse, Sprint und Y-Achse und zeichnen die Autobahnkilometer auf und färben dann die Klasse der Reagan-Geom-Punktfunktion rot , mit der wir die Punkte und Laborteiche plotten, und wir verwenden, um den Namen für die X-Achse in ihnen zu geben , Auszahlung L und Y existieren Autobahn MPG und Autobahn MPG und Sprint und Y-Achse und zeichnen die Autobahnkilometer auf und färben dann die Klasse der Reagan-Geom-Punktfunktion rot, mit der wir die Punkte und Laborteiche plotten, und wir verwenden, um den Namen für die X-Achse in ihnen zu geben, Auszahlung L und Y existieren Autobahn MPG und Titel des Streudiagramms wird Streudiagramm sein. Und dann Theme Yet, wir werden Theme Minimal verwenden. Und dann drucken wir das Streudiagramm. Lassen Sie uns also dieses einfache Streudiagramm, das Sie nicht gemacht haben, mit ggplot2 drucken Sie nicht gemacht haben, mit ggplot2 Siehst du, hier siehst du das einfache Schwindeldiagramm, diese Streudiagramme, die zwischen einem Hubraum eines Motors und dem MPG auf der Autobahn gezogen wurden . Warum Fahrzeugklasse? Also radikale Klassen hier, Zweisitzer Kompakt, Mittelklasse, ich, Minivan, Pick-up, Kleinwagen, ein SUV Das sind also die verschiedenen, unterschiedlichen Farben für jede Klasse. Und hier auf der X-Achse geben wir die Verschiebung an, okay? Und dann sehen wir auf der Y-Achse die Autobahn MPG. Das ist also das einfache Streudiagramm. Das ist nicht interaktiv, oder? Jetzt. Ich möchte dieses Diagramm erstellen, dieses Streudiagramm interaktiv machen, wenn ich den Mauszeiger Also etwas, okay. Also die Werte, was für jeden Punkt und all die Dinge, auf die ich im Juni klicken kann, ich kann all die Dinge verwalten, die ich zu unserem Scatter hinzufügen möchte . Sie werden interaktiver, sodass wir mit dem Streudiagramm interagieren können mit dem Streudiagramm interagieren Dazu verwenden wir diesen GG-Plotplot und konvertieren ihn in interaktive Plotly-Plots Und um das zu tun, werden wir den ggplotly interaktiv machen , indem wir die Funktion ggplotly verwenden. Diese Funktion ist sehr wichtig, um jeden GG-Plot, DG-Plot zu Function, sorry, Plot in die interaktiven Plots umzuwandeln DG-Plot zu Function, sorry, Plot in die interaktiven Plots Also werden Sie ggplotly aus dem Plotly-Paket heraus funktionieren, okay, und dann den digitalen Plot in den interaktiven Plotly-Plot konvertieren in den interaktiven Plotly-Plot konvertieren Was ich tun werde, ich erstelle hier eine Variable, einfache Interaktion, um die Handlung zu unterstreichen Einfach irgendeinen Namen, den du hier geben kannst, und dann entlade die ggplotly-Funktion Hier haben wir UGG-Plot. Jetzt wirst du dich geirrt haben. Und ich werde einfach das Streudiagramm hinter mir lassen, die Daten, die wir mit GG-Plot erstellt haben Also es sei denn, es ist passiv gegenüber der ggplotly-Funktion. Und dann drucke ich einfach diese interaktiven Plots aus. Wenn Sie also einfach zu diesem ggplotly übergehen, wird dieses einfache Streudiagramm konvertiert Es funktioniert, in eine interaktive Handlung umgewandelt. Schauen wir uns also an, ob das passiert oder nicht. Nun können Sie hier dieses Streudiagramm in den Verdrängung versus Autobahn-MPG von Vagal sehen dieses Streudiagramm in den Verdrängung versus Autobahn-MPG von Die Handlung ist ein Thema, aber wenn ich den Mauszeiger über einen Punkt bewege , werden die Werte angezeigt, die diesem Punkt entsprechen In diesem Punkt ist der Hubraum 1,8 Autobahn, MPG ist 36. Und Klasse der Liste, unterkompakt. Wenn ich hierher komme, Hubraum 1.837 Klasse Kompakt. Und wenn ich zu den pinken komme, diese Hubraum 2,5 Hybrid 27 und Klassen SUV dafür. Okay, sehen Sie hier, es ist ziemlich cool, dass jetzt das einfache Scatterplot, bei dem die es in eine wunderschöne interaktive Handlung ggplotly-Fonds und zur Altersvorsorge umgangen wird, umwandelt. Hier. Hier können wir das C auswählen. Wenn ich auf C klicke, macht es keinen Sinn, Sonya zu sein, weil ich alles ausgewählt, nicht ausgewählt Also wähle ich Zweisitzer. Es werden zwar zweisitzige Eisenbahnen sein, wenn ich auch Kompaktwagen hinzufügen möchte Also ich komme zurück, klicke auf kompakt und kompakt. Gelöschte Punkte werden erreichbar sein. Wenn ich nun auf Midsize und Missing Card Scheme Minivan klicke , wussten wir, dass ich gelaufen bin, kann das werden, was auch immer Sie analysieren möchten Sie können hinzufügen, wenn Sie das entfernen möchten, . Sie können hinzufügen, wenn Sie das entfernen möchten, einfach die Auswahl abwählen und fertig Das ist also das interaktive mit, das hinzugefügt wurde, indem einfach das Streudiagramm an das ggplotly übergeben Und es ist, es ist ziemlich einfach und ziemlich kalt hier kannst du dir den Plot als PNG ansehen. Diese Option gibt es auch hier. Dann haben wir die Duma. Oft können wir klicken und das können wir tun. Sie sehen hier, dass hier verschiedene Optionen angeboten werden, um auf diese Weise zu verbieten, zu verbieten. Und du kannst analysieren, das ist das Band Punctum. Dann haben wir das Kästchen ausgewählt. Wir können hier einen bestimmten Wind auswählen und Sie können analysieren, welche Punkte gesammelt werden, um hervorgehoben zu werden. Als Nächstes können wir Lasso Select auswählen Sie können so auswählen, wie Sie es auswählen möchten , und auswählen ob Sie nur eine bestimmte Sache auswählen möchten können Sie hier auswählen. Diese interaktiven Dinge wurden also hinzugefügt, glaube ich, sie wurden hinzugefügt, indem einfach die Funktion „Farbdiagramm“ für Streudiagramme übergeben wurde. Das können wir rausbringen. Und wir können Jermaine reinbringen. Und dann sagten sie Texas. Und dann haben wir die Nebenhandlung. Okay? Also so, okay, jetzt haben wir einen Abriss, aber wenn Sie einfach das Streudiagramm an die ggplotly-Funktion übergeben , wird ein interaktives Objekt erstellt wird Jetzt wurde das GG-Plot zum Streudiagramm in ein interaktives Diagramm mit Plotly umgewandelt Und Sie können mit der Maus und Dutch Bet damit interagieren . Sie können den Mauszeiger über den Datenpunkt bewegen, den wir bereits gesehen haben , und den Sie sehen, sowie Stimmungs- oder Ton-Tipps und Jermaine und Ihr Mundband Plot und viele weitere Dinge , die wir bereits getan haben Jetzt fügen wir dieser Handlung etwas mehr zwischengespeichertes Myosin hinzu. Also das nochmal, okay, das ist also die Handlung, die interaktive Handlung, die wir erstellt haben. Jetzt nehmen wir die zusätzlichen Anpassungen vor. Jetzt können wir interaktive Diagramme mithilfe der Plotly-Funktion weiter anpassen interaktive Diagramme mithilfe der Plotly-Funktion Zum Beispiel können wir die Harvard-Steuer nur für die Farbe ändern und weitere Anmerkungen hinzufügen . Also lass uns das machen. Also, was wir tun werden, wir werden die interaktive Handlung anpassen. Bisher wird dadurch eine Variable erstellt . Interaktives Unterstrichdiagramm, Unterstrich benutzerdefiniert Dies ist der Name des interaktiven Kundendiagramms, den Sie angeben können. Und hier verwende ich das Interaktive, um zu planen , was wir hier haben. Und wir verwenden das Layout Sonne. Und innerhalb des Layouts, was wir geben können, können wir den Titel anpassen. wird interaktiver Plot sein, der Titel X-Achse gibt den Hubraum in Klammern an. Ja. Es tut uns leid. Und auf der Y-Achse wird die MPG-Legendenausgabeliste der Autobahn Und es wird die Fahrzeugklasse sein und der Flur und der Modus werden die besten sein. Lassen Sie mich das ausführen und das wird die interaktive Handlung des Untergangs erstellen , und lassen Sie uns das drucken Jetzt kannst du hier die X-Achse sehen , sie kann meinen interaktiven Plot zum Absturz Und hier kannst du sehen, wie die Punkte gesungen sind. Wir können so eine Band spielen. Sie können ein Kästchen auswählen. Du meinst deinen Mund. All diese Dinge können wir gehen. In diesem Beispiel haben wir die Titelachsen und Ebenen sowie den Legendentitel aufgeteilt . Okay? also plotly und ggplotly Function, Plotly Package und ggplotly funds verwenden , können Sie ganz einfach Deckungen erstellen und löschen Von Diagramm zu Diagramm, sodass Sie Ihre Daten leichter untersuchen und verstehen können. Ich hoffe, Sie haben die Studierenden in der nächsten Vorlesung verstanden. 112. Einführung in Plotly und die wichtigsten Funktionen: Hallo und willkommen zurück. In dieser Vorlesung werden wir etwas über Plotly lernen , und es ist kostenlos Nur. Plotly ist also eine Open-Source-Bibliothek , die es Benutzern ermöglicht, interaktive, hochwertige, kostenpflichtige und ritualisierte Programmiersprachen zu erstellen , nicht nur in meinem Fall ist Plotly in Python, R und Telescope verfügbar Also Python und sag uns Control, damit du Plotly benutzen kannst. Und hier. Außerdem werden wir etwas über Plotly lernen Plotly bietet eine breite Palette von Diagrammtypen, von einfachen Streudiagrammen bis hin zu komplexen 3D-Essenzen. Sehen Sie, wie wir Anna jetzt regionalisieren und Anna in 3D kartieren können, wie wir Schauen wir uns also die Interrupts und Plotly und die wichtigsten Das erste ist die interaktive Traktorvisualisierung. Ermöglichen Sie uns also Plotly, es fortzusetzen. Interaktiver Unterricht, interaktive Funktionen für Nichteisenmetalle . Es ermöglicht Benutzern die Interaktion. Lassen Sie uns zwei, in- und ausgehende Lüfterhalle oder Datenpunkte grafisch darstellen, um die Details zu sehen und Datenreihen ein- und auszuschalten Das sind also die wichtigsten Funktionen und das gibt Ihnen einen Zeiger Interaktivität mit den Plots und dergleichen Interaktion mit den Charts. Zeig mir deinen Mund. Banning kostenpflichtig, bewegt den Mauszeiger über den Datenpunkt, um das Detailproblem zu sehen, Daten-CDJ Diese Interaktionen machen es einfach, Daten auf intuitive Weise zu untersuchen und zu analysieren. ist also das Beste an der Handlung, sie hat es , es macht das Chart-Leben auf Kurs mit Deal Also, und als Nächstes ist es einfach zu bedienen. Apa oder CLI bietet eine einfache UCR. Verwenden Sie APA, um Ihre Lizenz zu erstellen Mit ein paar Codezeilen. Sie können einen komplexen und interaktiven Josh generieren, was ihn zu einem Favoriten unter Datenwissenschaftlern und Analysten macht. Da es also ziemlich einfach zu verwenden ist, ist es bei den Taktiken im Data-Science-Unterricht sehr beliebt . Da Plotlaser in unserem Teleskop und von Thomas, sehr beliebt, mehrere Programmiersprachen sind, ist das ein weiteres wichtiges Merkmal von Plotly Plotly unterstützt mehrere Programmiersprachen, darunter Python und JavaScript Dies ermöglicht es, mit ihrer Berichtssprache zu arbeiten und nahtlos zwischen ihnen zu wechseln. Für verschiedene Aufgaben. Chart Plotly unterstützt eine Vielzahl von Diagrammtypen wie Liniendiagramme, Streudiagramme, Balkendiagramme, Histogramme von Josh, wahrscheinlich Diagramme, 3D-Diagramme, Choroplethen, Karten und viele Es bietet Flexibilität und Vielseitigkeit bei der Ritualisierung von Radiusarten von Radon Dann bietet Plotly auch webbasierte Visualisierungen an. Plotly, webbasiert, was bedeutet, dass Sie interaktive Diagramme und Dashboards ganz einfach online erstellen und in Webanwendungen einbetten Praktische Poren. Plotly bietet Ihnen also tatsächlich die Möglichkeit Ihre Plotly-Diagramme und Dashboards zu integrieren Jetzt betten wir das in die Berichte ein. Das ist mehr als eine Webanwendung mit Plotly Dash, Sie können einfach interaktive Webanwendungen erstellen und das ist für Daten Klicken Sie auf die Datenvisualisierung. Das macht es zu einem leistungsstarken Tool für die Erstellung datengesteuerter Anwendungen für jedermann Bezug auf die Kosten gibt es tatsächlich nur wenige Substanzen , die teilweise, teilweise, teilweise eine breite Palette von Kundenoptionen bieten , um das Erscheinungsbild von Charged an eine bestimmte Anforderung anzupassen Charged an eine bestimmte Anforderung Sie können nur Farben, Beschriftungen, Schriftarten, Stile und Regression und vieles mehr anpassen Schriftarten, Stile und Regression und vieles mehr Animation und ggplotly unterstützen Animationen und reibungslose Übergänge Wechat ist sehr nützlich, um eingefärbte Daten im Laufe der Zeit zu visualisieren Bei der Erkundung verschiedener Staaten des größeren Exports stellt der Landwirt ggplotly fest, dass es in verschiedene Formate wie PNG, JPEG, SVG, PDF exportiert und sogar animierte GIFs erstellt werden kann verschiedene Formate wie PNG, JPEG, SVG, PDF exportiert und sogar animierte GIFs erstellt und sogar animierte Sie könnten keine großartigen Präsentationen und Dokumente erstellen. Integration mit anderen Bibliotheken ist teilweise auch durchaus möglich. Plotly kann problemlos in andere Unterrichtsbibliotheken für Datenanalyse und Theorie integriert andere Unterrichtsbibliotheken für Datenanalyse und Theorie wie Pandas in my tongue, RTT ggplot2 in R. Dadurch können Sie einfach die Stärken verschiedener Tools kombinieren Dies sind also die Hauptmerkmale von Plotly interactive religious NADPH, APA Mehrere Programmiersprachen unterstützen jeden Datentyp und unterstützen webbasierte Anwendungen Unterstütze sie am besten. Diese Sport- und Webanwendungen. Meine Animationen und Übergänge. Plotly wird häufig in den Bereichen Datenwissenschaft, Business Intelligence und wissenschaftliche Ressourcen sowie in verschiedenen anderen Bereichen Trochlear, intuitiv ansprechend und interagieren Okay, also in der nächsten Vorlesung beginnen wir mit den praktischen Übungen mit dem Blockieren. Die nächste Vorlesung. 113. Arbeiten mit Plotly: Hallo und willkommen zurück. In dieser Vorlesung werden wir also auf Plotly gehen Plots mit Plotly erstellen In der vorherigen Vorlesung haben wir die Einführung zu Plotly gesehen die Einführung zu Plotly wir gesehen, welche Funktionen, welche Plots können wir mit Plotly erstellen? welche Plots können wir mit Plotly erstellen In dieser Vorlesung werden wir also die praktischen Übungen machen. Also habe ich etwas Code für dich geschrieben und ich werde es erklären und werde sterben den Code ausführen und dann werden wir sehen was wir mit dem Plotly machen können Einige Dinge wie werden diese 3D-Plots mit Plotly erstellen diese 3D-Plots mit Plotly Das Ding ist also ziemlich interessant und ich sage Ihnen, wie wir diese drei 3D-Streudiagramme zeichnen können. Okay, das sind also die wenigen Dinge, die wir in dieser Vorlesung tun werden. Okay, fangen wir mit dieser Vorlesung an. Und die Dinge wurden der RStudio-Website rpubs.com und Verweisen darauf entnommen RStudio-Website rpubs.com und Also lass uns anfangen. Plotly ist ein großartiges Tool, um einfach wunderschöne interaktive Plots zu erstellen Dies kann sowohl mit dem Paket Plotly als auch mit TD ggplot2 geplottet werden Wir können also Dinge verwenden, die wir nur mit dem Plotly plotten können, oder wir können den GG-Plot zusammen mit Plotly verwenden Dafür benötigen wir die Bibliotheken Plotly und DD ggplot2. Also ich habe es schon installiert, also führst du es einfach aus. Und dann verwende ich hier den Midwest-Datensatz, der mit dem RStudio-Are-Paket sofort verfügbar ist mit dem RStudio-Are-Paket Lassen Sie mich Ihnen zeigen, wie das aussieht. Lassen Sie mich also Control Enter eingeben. Siehst du, ja, das ist der Datensatz, wir in den riesigen Mittleren Westen schicken werden, okay Es gibt also eine PID, dann Land, Bundesstaat, Gebiet, Bevölkerung, Gesamtbevölkerung, Bevölkerungsdichte, bevölkerungsweite Bevölkerung, Schwarz, Popmeridian, Pop, Urzeit, Sonstiges Aber warum schwarz? Also, obwohl jede Spalte zusammen mit D da ist, jede Spalte dann weitere Variablen hinzu und sie sind alle in englischen Variablen. Wir werden die Verschwörer sein, okay? Das ist also der Datensatz. Also wie ein Land, ein Bundesland, Gesamtbevölkerung, sind all diese Variablen so okay? Leute gesagt. Okay. Jetzt verwenden wir diese Daten zum Plotten wieder. Als erstes verwende ich die Funktion Plotly, Plot Underscore Und warum Plotly funktioniert um ein Diagramm für dieses LPA zu erstellen, diesen Datensatz Midwest und die X-Achse zu übergeben, ich werde einen großen Teil Klasse verwenden, aber Klasse ist ein Datensatz, Datenspalte hier, Variable Aber Clark College, okay? Und färbe und verwende das Feld für den versteckten Status und die Typen. Ich erstelle hier ein Boxplot. Handlung Prozent Hochschulabschluss, Eile Prozent Hochschulbildung durch Um das zu planen. Also sieh hier, das ist der Boxplot , weil wir den Typ hier als Box angegeben haben. Wenn Sie hier klicken, können Sie das kleinste erste Quartil, den Median, das dritte Quartil und den oberen Zaun sehen Median, das dritte Quartil Und du kannst den Maximalwert sehen, diese Dinge. Auf diese Weise können wir schnell ein Boxplot erstellen, 4% der College-Ausbildung Schritt für Schritt durchgeführt werden Durch wie viele Menschen werden ausgebildet? Hochschule? Sag, das ist der Boxplot, okay? Jetzt werden wir versuchen, einige grundlegende Plots mit Plotly zu erstellen. Dafür. Was ich machen möchte, was ich möchte, um einen einfachen Plot direkt mit Plotly zu erstellen , oder wir können auch UGG-Plot zwei Also hier auch UGG ggplot2. Also hier verwende ich den irischen Datensatz, den wir bereits gesehen haben. Wenn Sie also sehen möchten, wie das in diesem Datensatz aussieht können Sie eine Kopf-Iris hinzufügen. Also lass mich das zuerst laden. Das ist also Datensatz, in dem Sie die Kelchblattlänge, Kelchblattbreite, Blütenblattlänge, Blütenblattbreite und eine Art sehen können Kelchblattbreite, Blütenblattlänge, Blütenblattbreite Blütenblattbreite Dies sind die Spalten oder Variablen, die in diesem irischen Datensatz eine Ebene haben. Okay? Also, wenn du das ausführen willst, kannst du sehen, ja, okay. Als Nächstes verwende ich wieder die Funktion Plot Underscore LY, und der Datensatz wird es sein. Die Daten entsprechen also Iris, Xe, X-Achse und der Kelchblattlänge und der Y-Achsen-Blattlänge Okay? Also lasst uns diese bessere Handlung zeichnen , dass sie so abläuft. Okay? Also auf der X-Achse die einfache Punktlänge und auf der Y-Achse die Blütenblattlänge, die Kelchblattlänge und die Blütenblattlänge Und diese Punkte wurden gezogen. Also für diese Kelchblattlänge und Blütenblattlänge hat der Ehemann hier gezeichnet Jetzt kann mit ggplot2 derselbe Plot auch in ggplot2 erstellt und als Objekt verwendet werden Dann kann die Handlung erstellt werden, kann interaktive Version ggplotly, Beachten Sie, dass nicht alle Funktionen funktionieren , wenn Sie ggplotly verwenden Also muss ich manchmal etwas ausprobieren. Okay? Also hier, das gleiche Streudiagramm, das ich versuchen werde, mit GG-Plot und Plot zu zeichnen, dass ich eine Figur erstelle, an der der Speicher in der Abbildung gespeichert wird , um in Abbildung zwei zu speichern Lassen Sie uns das jetzt ausführen. Und ich habe grotesk darauf angespielt, das zu planen. Abbildung zwei. Okay, lassen Sie mich das erledigen. Also sieh mal hier, wie es so kommt, okay? Das Gleiche mit Hilfe von und ggplotly. Wir haben geplündert. Indem du in der Lage bist, dich zu plotten. Sie können den Plot genauso anpassen mit ggplotly Schauen Sie sich die gebräuchlichen Spaltennamen an. Wenn Sie also den Spaltennamen für den Iris-Datensatz heraufstufen möchten , können Sie dies einfach ausführen. Sehen Sie sich die Spaltennamen an, die wir bereits gesehen haben, oder? Es gibt fünf Spaltenpunkte nach Arten. Also hier gebt ihr Daten, Iris, Ästhetik, Schriften, und wir verwenden X, Kelchblattlänge, Blütenblattlänge und Also werden wir die Punkte nach Arten färben. Und dann verwende ich die Funktion Geom Underscore Point, um diese Punkte zu plotten Und dann diese Zahl, die wir vom TG Plot bekommen, werde ich versuchen, mit dem ggplotly zu plotten Okay, also drucke das einfach aus und sieh hier, jetzt haben wir das bunte Streudiagramm und wo dieses Rosa, das grünlich ist, für Versicolor Auf diese Weise können wir die Farbe bestimmen. Jetzt können Sie also auch sehen, dass die Art im Textfeld erscheint , wenn Sie den Mauszeiger über sie Jetzt zeigt es, dass Sie den Mauszeiger über sie bewegen. Jetzt näht es Kelchblattlänge, Blütenblattlänge, und ihm geht Anika voraus. Genau wie und ggplotly können Sie die Achse, den Titel und die Farbe anpassen, einen Sektor auch hier. Er hat also GG-Plot. Was auch immer wir im GG-Plot tun können, das tun wir hier. Und dann geben wir die Zahl, wie wertvoll die Plotvariable ist, an die ggplotly Dieses Objekt wird in Abbildung zwei dargestellt und es wird geplottet, okay, also hier die X-Achse des Tagebüchers und dann die Geom-Punkte Innerhalb der Geom-Unterstreichpunktfunktion, realer Ästhetik und Farbe steht jedes Quartal für Preise und Sparberichte ebenfalls auf der Grundlage der Arten Okay. Und dann ergeben sich Kelchblattlänge, Blütenblattlänge und GG-Titel als Kelchblattlänge, Blütenblattlänge. Okay? Also lass uns das ausführen. Jetzt. Das kannst du hier sehen. Jetzt sind auch die Punkte verloren. Und für diesen Versicolor gibt es ein Dreieck, und für diesen Kerl kommen die Punkte genauso im und für diesen Kerl Quadrat Das liegt also daran, dass wir innerhalb dieser menschlichen Netskope-Punktefunktion separate Arten verwendet haben separate Arten dass wir innerhalb dieser menschlichen Netskope-Punktefunktion Auf diese Weise können wir auch die Achse, den Titel und die Farbe anpassen . Jetzt erstellen wir ein einfaches Balkendiagramm. Um ein einfaches Balkendiagramm zu erstellen, verwenden wir data.frame. Und hier erstelle ich hier einen Beispieldatensatz. Für diesen Datensatz gibt es beim nächsten Mal drei Spalten und die Gesamtrechnung. Also männlich, weiblich wird das Geschlecht für diesen Alcatel-Faktor-Vektor sein, und dann wird die Zeit das Mittag- und Abendessen sein Keiner, der nicht okay sein sollte. Die Stufen werden Mittag- und Abendessen sein, und insgesamt wird es einige zufällige Rechnungen für hier geben. Lassen Sie mich also diese Daten erstellen, aktivieren Sie zuerst diesen DataFrame Jetzt erstelle ich ein Balkendiagramm. Zeit auf der X-Achse Color Fill, Gruppierung nach Geschlecht und riesige produzierende Unterstrich-Ausweichfunktion hier GG plant also riesige Datenmengen, während ihr zu diesem einen Objekt geht, das wir haben, paar Trainingsdaten, die wir erstellt haben. Und dann die X-Achse der ästhetischen Funktion, wir setzen die Y-Achse der Zeit, ich setze Crotonville und ich fülle den Unterstrich mit Geschlecht und Geom Ich werde Stacked and put Identity and Policing, die Polizei verwenden und die niederländische Funktion unterstreichen Und dann erstelle ich ein weiteres Objekt, Abbildung vier, und ich mache das Boston-Balkendiagramm G, ggplotly, ggplotly a, B und drucke dann die Abbildung für C. Abbildung vier, und ich mache das Boston-Balkendiagramm G, ggplotly, ggplotly a, B und drucke dann die Abbildung für C. Sie sehen hier. Nun, das ist das einfache Balkendiagramm. Okay, er hat zu Mittag und zu Abend gegessen. Zwei Dinge gibt es dann dieses System für Frauen und das ist für die Gesamtrechnung von Männern oder Frauen pro Mahlzeit für das Mittagessen. Und das Gleiche gilt für das Abendessen. Wenn Sie also analysieren möchten, wie beim Mittagessen von Frauen, wird die gesamte Oberfläche abstrahieren. Insgesamt. Wir lieben nachhaltige Rupien und zum Abendessen, Frauen, die wir lieben Cystein und MATLAB, rs17.17, 0.0 Wir können also analysieren, dass beim Mittagessen Männer und Frauen die Ausgaben für das Mittagessen sehr unterschiedlich sind Männlich, gib mehr für das Mittagessen zum Abendessen aus. Sogar männlich und weiblich. Daraus können wir schließen, dass die Kosten für das Abendessen, das sie gekauft haben , fast gleich sind. Männlicher und weiblicher Tag. Gut ausgegeben bei fast dem gleichen Geldbetrag für das Abendessen. Aber wenn Frauen zu diesem Mittagessen kommen, geben sie weniger für das Mittagessen aus. Und werden sie mehr für das Mittagessen ausgeben? Dies können wir anhand dieses Balkendiagramms schlussfolgern. Als Nächstes verwenden wir das grundlegende SF. Dafür verwenden wir die Bibliothek selbst. Und dafür verwenden wir das NCDs-Objekt, SF, Doppelpunkt, Unterstrich, Lesen der Systempunktdateifunktion für Sie und überprüfen dennoch SIP Slash NC-Punkt SHP und Paket wird SF und SHP und Paket wird SF und Paket wird SF und ziemlich gleich wahr Und dann erstellen wir ein Objekt (Abbildung drei). Und ggplotly, wirklich riesig und ggplotly. Und wir werden diesen Unteroffizier überholen. Objekt für ggplotly plus geom unterstreichen sicher. Unterstreichst du SF-Fonts und überprüfst du? Und er hatte ästhetische Formen und Religionen wie diese. Und wir füllen es nach Gebieten auf. Lassen Sie uns dieses einfache Oberflächendiagramm hier zeichnen. Jetzt bekommen wir diese Oberfläche. Sie können hier auf der X-Achse und Y-Achse sehen. Also gewissermaßen. Und Sie können Etikette im Ruhezustand auf verschiedene Arten sehen. Auf diese Weise können wir das Ganze nutzen, um zu planen. Als Nächstes können wir auch die Karten dafür platzieren. Ich bin dein Zynga. Das war's für Februar, uns und den Verkehr. Okay. von dieser Website übernommenen Daten werden also direkt übernommen. Wir erstellen auf dieser Website Und diese Daten sind Teil der Punkt-CSV-Datei für den US-Flugverkehr vom 21. Februar . Also speichern wir das in diesem DataFrame. Und dann werden wir versuchen, diesen Flugverkehr auf die Karte hochzuladen. Soweit der Wert , den du gerade stylst. Also erstelle ich ein Objekt G. G und der Geltungsbereich ist die USA Der Geltungsbereich dieser Map sind US-Projekte und diese Listen geben Projekte und sind Listentyp. Alberts USA. Land für Land wird unser Sohn sein. Die Landfarbe wird RGB sein und wir verwenden Grau 95. Und die Farbe der Untereinheiten wird sehr wichtig sein, die Farbe der fünf Länder toll für fünf Länder mit 0,5 und die Farbe der Untereinheit mit Blau 0,5. Auf diese Weise können wir das nutzen. Okay? Und dann verwenden wir die GO-Funktion Plot Underscore , um dies auf der Karte zu plotten Bisher haben diese den Datensatz als dF hinter sich, diesen, den Airport Traffic Notch CSV-Datensatz, den wir hier platzieren werden. Dann wird Breitengrad zu Breitengrad und Längengrad wird all das in die Hose nehmen, das sind die beiden Dinge die aus diesem kniehohen Datensatz hervorgehen werden Ist es wirklich dick? Fügen Sie Markierungen und Texte hinzu, die Flughafen, Stadt, Bundesland und Ankunft angeben. Und dann wirklich satte Farbe, Symbol, quadratische Größe. Ich bewege den Mauszeiger für Texte. Okay, lassen Sie mich dieses Tool ausführen und dann Farbwert bei riesigen ankommenden Flügen vergessen. Und für das Layout und verwende den Titel, die Layoutfunktion, um es zu gestalten. Und dann versuche, der meiste Verkehr zu sein, den die USA blockiert sind. Und dann lesen Sie gemeinsam weiter. Dann versuche wirklich, etwas zu platzieren. Jetzt kommt es also, da meiste Verkehr Port Hauer als Flughafen hinzufügt. Also hier, wenn wir das Glas sehen , aber Buck International kommt um 90, dann kriegt man Ankünfte oder 100 für dieses Stück von Freunden, das werde ich tun, 379. Sie können also mit der Maus über die Karte fahren und Sie können Zentralaustralien finden Remington ist für die 26. Ankunft dieser Eagle Country-Region 292648 im Jahr 1998 am Salt Lake City International Airport Auf diese Weise können Sie den geschäftigsten Flughafen finden. Verändern Sie uns. Als Nächstes können wir eine Handlung erstellen, die der rationale Akteur kreiert. Als Nächstes können wir das Raster plotten, Trash Talk erstellt die farbige Heatmap mit zwei Variablen, die als X- und Y-Koordinate fungieren Und dritte Variablenzuordnung zur Farbe. Dazu verwenden wir Schritt zwei und Plotly. Dafür verwenden wir die magische Funktion und wir werden sie benutzen, solange wir es nicht können. Okay, also jetzt GG plottet zu diesem Datensatz und ästhetischem Wert1, Wert2 und geom Rushton, zu diesem Datensatz und ästhetischem Wert1, Wert2 und geom Rushton, ästhetischer Füllwert können Werte füllen. Distiller wird diese Funktionsskala und das Oscar-Feeling verwenden. Das Pellet wird Spektralrichtung eins haben. Und diese Lag-Funktion gibt die X-Achse von West nach Ost und die Y-Achse von Nord nach Süd, Titel und Sand Und dann werden wir versuchen, das zu planen. Also lass uns das laufen und sehen , dass nach der Geburt der Tochter eine Krankheitshöhenkarte für Mongo während Und das wird auf dieser Grundlage erstellt. Okay. Als Nächstes werden wir versuchen, ein 3D-Streudiagramm der Nierenkanäle zu Also 3D-Streudiagramm dafür, ich werde die leeren Autos machen Okay? Also leere Autos, ein leeres Auto, M gleich Null und M gleich eins. Das nennt man automatisch. Manuell. Und dann hier leere Autos, Edge-Faktor, leere Karten am, und dann versuchen Sie, mit Plot zu plotten, unterstreichen nur den Datensatz mit leeren Autos, der in das Gebiet integriert ist Verwenden Sie wirklich X Bar, WT, Wi-Fi-Hotspot-Edge-Projekt für Ihr krankes Wi-Fi-Hotspot-Edge-Projekt für Sie, kranke Farbe basierend auf AM und Wir werden auch hier definieren. Das ist für Farbe und die Farben geben dem Gespräch Farbe. Und dann werden für das Layout Exit, Tie Await und Y-Achsen-Cross Horsepower verwendet und Get-Achsen werden 141 mal vier Meilen Lassen Sie uns also dieses 3D-Diagramm zeichnen. KANN also wissen, dass dies das 3D-Diagramm ist, das Streudiagramm , das wir erstellt haben Dafür können Sie dann unsere X-Achse, Y-Achse sehen. Die Y-Achse steht für die Bruttoleistung. Und das dritte Exon, meine Zeit. Wenn du also mit der Maus über den Punkt fährst, siehst du 3,78 Y ist eins bei und Auf diese Weise können wir die 3D-Plots plotten und so nett und so weiter. Das ist also X-Achse, Y-Achse, und diese Karte überschreitet ihre Achsen . Plotly packt also andere größere, um hochgradig anpassbare interaktive Plots und Karten zu erstellen , um hochgradig anpassbare interaktive Plots , weil es bereits bereit ist, in GG-Plot zu integrieren, die Möglichkeit und weniger Okay, du kannst mehr Übungen dazu machen und du kannst üben und du kannst viel mehr interaktive 3D-Diagramme, Karten und so weiter erstellen . 3D-Diagramme, Karten und alles, okay. Das ist also auf einem Boot, Plotly 114. Erstelle 3D-Plots in R: Hallo und willkommen zurück. In dieser Vorlesung werden wir 3D-Plots in der Kunst erstellen. Deshalb gebe ich euch allen ein paar verschiedene, unterschiedliche Beispiele, mit denen wir 3D-Plots erstellen können. Okay, also zuerst werde ich Plotly und für diese Benutzerbibliothek richtig verwenden Plotly und für diese Benutzerbibliothek richtig Sie haben es also nicht installiert, Sie können es installieren. Also zuerst habe ich die Plotly-Bibliothek geliebt und dann werde ich Beispieldaten erstellen, indem ich eine Nichtfunktion verwende Also x, y, z, du weißt schon, 100, 100 und das Projekt existieren und ich verwende squared plus y squared Okay? Also, aber das wird die drei bekommen. Macht es später? Jetzt möchte ich diese drei Punkte mit einem 3D-Punktdiagramm darstellen Mit Plotly. Dafür verwende ich eine Wellenfunktion, die Ganzen nicht in Anspruch genommen wird , die Funktion x unterstreicht . Ich erhalte x zum Quadrat, Y-Achse x und y und dann wird x gefeiert Typ ist der 3D-Streumodus, dann die Markierungen und Harmonikas und die riesige Listengröße, ich gebe drei Farben, ich werde auf der Y-Achse und der Farbskala bezahlt und Dann das Layout, ich verwende die Szene und für die Liste stelle ich eine Liste zur Verfügung, die die X-Achse, die Y-Achse und die Jet-Achse enthält Y-Achse Und dafür gebe ich den Titel X, Y endet. Wenn du willst, kannst du Existenz als X-Achse Y-Achse angeben, und das X ist okay Also diese drei Titel gebe ich und ich werde versuchen, lass mich das ausführen Also sieh mal, das ist das gesperrte 3D-Diagramm. Wir haben ein 3D-Scatterdiagramm, wir haben ein 3D-Scatterdiagramm Wir kommen hierher, okay? Jetzt können Sie Ihre X-Achse und Y-Achse sehen, und das ist die Jet-Achse, wie auch immer Sie wollen Also C und jetzt X-Achse, Y-Achse und das X ist, sind die Punkte, die wir mit unserer Zahl erstellt haben , die in einem 3D-Streudiagramm dargestellt wurde. Also X-Achse, Y-Achse und diese Achse. Was auch immer wir analysieren wollen, diese Weise können wir mit Plotly ein 3D-Punktdiagramm erstellen Also lass mich das nochmal überarbeiten. Ich habe Beispieldaten mit unserer normalen Funktion, dem X-Achsenpunkt, erstellt unserer normalen Funktion, dem X-Achsenpunkt, Ich habe unsere Norm von 100 erstellt. Die Y-Achse beträgt nicht mehr 400 und das tote X entspricht den X- und Y-Werten. Und diese Formel, um die Punkte für ein 3D-Punktdiagramm zu erhalten , habe ich Plotly und die Rechteckwellenfunktion für die Indexierung von X-Achsen-AB-Produkten, X-Punkt, Y-Achse und Y-Achse verwendet Plotly und die Rechteckwellenfunktion für die Indexierung von X-Achsen-AB-Produkten, X-Punkt, Y-Achse und Y-Achse Und dann haben wir diese Dinge, das Layout und die Markierungen. Und wenn wir das ausführen, erhalten wir dieses 3D-Scatterdiagramm Als Nächstes gibt es nur SP, SP-Funktion plus B-Bindungen Und Sie können es in unserer Programmierung sehen, also in der Syntax BER SP, ist ein Funktionsname und wir müssen diese das ist ein Funktionsname und wir müssen diese 3,4 X-Achse, Y-Achse und tot an dieser Stelle schreiben , wir müssen als wichtigen Parameter dieser Funktion als separate verschiedene Parameter schreiben wichtigen Parameter dieser Funktion als separate verschiedene Parameter , x, y und z mit x und y sind Vektoren, die die Position entlang der X - und Y-Achse definieren Und die tote Achse entspricht der Höhe der Oberfläche in der Oberfläche im Matrixjet Diese Höhe wird also schon die Matrix sein, okay? Rückgabewert für diese SP-Funktion ist also die geflügelte Transformation von Metriken für das Projekt in den 3D-Koordinaten X, Y in die Ebene mit homogenen Koordinaten, X, Y, Z und T. Sehen wir uns also das Beispiel an, in dem diese Perspektive außer der SP-Funktion verwendet wird. Sehen wir uns also das Beispiel an, in dem diese Perspektive außer der SP-Funktion verwendet Perspektive außer der SP-Funktion Du kannst Sponsor sagen. Also, was auch immer Sie wollen, Sie können es, ich nenne es SP, Sponsor nennen. Okay, also hier möchte ich unseren einfachen rechten kreisförmigen Kegel zeichnen. Um einen einfachen rechteckigen kreisförmigen Kegel zu veranschaulichen, erstelle ich hier ein Objekt namens und für diese Funktion. Und dann übergebe ich die Funktion, Funktion in Boston, dass ich diese Quadratwurzelfunktion verwenden werde, X-Quadrat plus Y-Quadrat. Okay? Also das ist die Funktion für X-Werte, x und y sind lose Folge von minus eins zu eins, geistig behindert Und Jet wird das äußere X, Y und die Kälte sein. Das ist also die nächste Achse und dann die 3D-Oberfläche, ich verwende die Analysefunktion x, y, und diese drei Punkte übergebe ich an diese Okay, also lass uns wie geht es voran Sehen wir uns? Nun, das ist der rechte kreisförmige 3D-Kegel , den wir damit erzeugen können. Reihenfolge der Endeavour-Code-Funktionen besteht also darin, den Vektor aus Zahlen mit gleichem Abstand und der äußeren Funktion vorab zu generieren Zahlen mit gleichem Abstand und der äußeren Funktion vorab zu die Funktion corn auf jede Kombination von x und y anzuwenden. Das ist also der rechte kreisförmige Kegel, den wir Jetzt. Sehen Sie sich hier noch ein Beispiel an. Was ich tun möchte, ich möchte die Titel hinzufügen und den Zugang zur Handlung so weit verbessern, dass dieses Konferenzthema, dann wird das auch dasselbe sein Jetzt plotte ich die 3D-Oberfläche und jetzt spielen wir, wie wir die 3D-Oberfläche zeichnen , während wir die Funktion verwenden und dabei den X-, Y-, Z-Punkt übergeben Y-, Z-Punkt Danach verwende ich Managed CTO, das perspektivische Diagramm eines Kegels Okay? Okay, also perspektivische Darstellung eines Kegels. Und dann Git Lab, ich gebe Höhe für Jet-Achse, ich gebe einen Namen als Höhe und Theta Party ALX1, was ist Und dann ist Phi Propylen und die Farbe ist Orange. Und sehen Sie, welche 0,4. Okay, lassen Sie uns das ausführen und sehen, welche Ausgabe wir erhalten. Wir erhalten dieses perspektivische Diagramm der aktiven Darstellung eines Kegels. Hier kann der X Lab 11 Kreuzlift also bis zur Ebene benutzt werden, die Ebene, um die drei Achsen zu nivellieren. Und Theta und Phi sind die Blickrichtung. Theta und Phi sind andere Windex und das, was wir sehen. Wir haben Sie also am Donnerstag und Freitag, 1245,15 Uhr. Mal sehen, was sich ändert. Sehen Sie sich heutzutage an. Der Siegeswinkel wurde geändert, oder? Du schaffst es. Mal sehen, wie es sich entwickelt. Der Betrachtungswinkel ändert sich, okay? Welchen Blickwinkel du auch haben willst, du kannst ihn in Theta und Phi angeben, wenn ich ihn auf 4.560,45 drehe, lass uns sehen, wie es kommt und das Ganze so sehen, okay? Das ist T. Dann wird es so kommen. Okay? Triff eine Entscheidung. Okay. Nun verwende ich sie, ich würde sagen, um das einfache digitale Höhenmodell zu visualisieren . Okay, bis jetzt sind es zwei bis zum Vulkan und ein echtes Exemplar mit zehn in einer Spalte und Reihe von 10 m Richtung Süden nach Norden. Und warum wirst du dann zu einem zu Alkohol und Kälte gemacht werden . Und es wird den Jet nehmen und Danton wird sich von Ost nach West zerstreuen Okay? Nun, ein großer Teil wird die Funktion des Abschlusses und der Perspektive sein. Ich werde X, Y, w1, 35 verwenden und all diese anderen Winkel bekämpfen Farbe braun, Haut fällt, Theta eins minus eins Das ist für Einstellung und Rahmen und dann falsch. Also schauen wir mal, wie das kommt. Sehen Sie hier, das ist nur ein digitales Alpha-Höhenmodell. Okay? So können wir 3D-Plots in R erstellen. Also haben wir gesehen, wie wir mit der unbeschriebenen Wellenfunktion Plotly-Plot umgehen können unbeschriebenen Dann haben wir gesehen, wie wir die funktionale Perspektivenfunktion to function plus b verwenden können , wie auch immer Sie wollen, Sie können sie nennen So können wir Fernsehen kreieren 115. Erstelle interaktive Plots mit Highcharts: Hallo und willkommen zurück. In dieser Vorlesung werden wir interaktive Plots mit Highcharts erstellen interaktive Plots mit Highcharts Wir haben also gesehen, wie wir das mit den anderen Bibliotheken machen können . Und jetzt machen wir die Highcharts. Back ist da. Und dafür haben wir die Highcharts heruntergeladen. Du gehst also einfach die installierten Pakete durch und so hatte er für hohe Grafik macht wie kann das im Staub und lädst es herunter. Okay. Die Highcharts-Bibliothek wird also der Ursprung dafür sein Okay, unsere Programmiersprache wird also häufig für Statistiken, Datenvisualisierung und Datenanalyse verwendet Datenvisualisierung und Datenanalyse , die wir bereits kennen. Verwenden der Highcharts-Bibliothek. Daten der Highcharts-Bibliothek werden in der Software grafisch dargestellt nicht nur bedeutungsvolle, sondern auch interaktive Diagramme erstellt. Okay, lassen Sie uns sehen, welche Art von Diagrammen wir erstellen können. Interaktive Diagramme können wir mit Highcharts, Säulendiagrammen, Balkendiagrammen, Kreisdiagrammen und Streudiagrammen erstellen Säulendiagrammen, Balkendiagrammen, Kreisdiagrammen und Streudiagrammen Dies sind die vier Arten von Diagrammen, die Sie mit den Highcharts erstellen können Also Highcharts in Texas, ziemlich einfach. Wir verwenden X-Diagramm und übergeben dann das Datenobjekt, geben dann ein, dann geben wir bei Cases die Punkte X und Y und dann Farbe ein. Objekt, das den Datenobjekttyp darstellt, ist also der Diagrammtyp, den Sie erstellen möchten . Es besteht aus X und Y, wobei die Xs zur Darstellung der Daten erfasst werden Was ist wichtig und Farbe für das Plotten von Farben, aber Sie haben keinen Wert, den Sie angeben Diagramm erstellt also das interaktive Diagramm, okay? Und dieses Vier-Säulen-Diagramm für Balken, Balkendiagramm, Kreisdiagramm und Punktdiagramm werden wir bekommen, nicht Dies ist eine ziemlich einfache Syntax von Highchart. Ich zeichne, sein Diagramm ist die Funktion. Und wir übergeben den Datenobjekttyp der Charta, die Sie erstellen möchten , und Fälle, es werden die X- und Y-Achse und Farbe sein, aber was auch immer Sie Farbe geben möchten. Okay, also zuerst erstellen wir mit dem Dokument ein Säulendiagramm, oder ein Säulendiagramm zeigt Daten mit Kategorien an, die durch ein Rechteck dargestellt werden, manchmal auch als vertikales Balkendiagramm bezeichnet wird Und Kategorien sind normalerweise entlang der horizontalen Achse und Werte entlang der uns bekannten vertikalen Achse angeordnet. Also zuerst importieren wir die Bibliothek, die ich chartere, Also Lamport Dann werde ich hier, was ich tun werde, einfache Daten, Beispieldaten für unsere Übung erstellen . Also hier erstelle ich einen Vektor, der den Ländernamen Amerika, Indien, Indonesien, Japan, Kanada, China und Brasilien enthält Amerika, Indien, Indonesien, Japan, . Und ihr BIP. Der BIP-Vektor erstellt also das dem Land entsprechende BIP und gibt es an. Und dann geben wir Ihnen die Daten, data.frame und Land und Lieferung Das wird also der DataFrame sein. Okay? Als Nächstes wird das Säulenbalkendiagramm oder das Säulendiagramm geplottet. Dafür. Speichern Sie das im P1-Objekt und verwenden Sie die Funktion Kantendiagramm. Verwenden Sie ein Objekt, in Kantendiagramm. Verwenden Sie ein Objekt, Ordnung, Punktdaten, die das Land und das BIP enthalten Und dann tippe, ich möchte ein Säulendiagramm erstellen. Also werde ich hier eine Kolumne geben. Bei Cases gebe ich X als Land an und die Y-Achse heißt BIP und Farbe Ich möchte dir einen Steuersatz auferlegen. Wenn du es zu etwas anderem machen möchtest , kannst du auch Grün geben. Okay, lassen Sie mich das überprüfen und es mir hier ansehen. Schau dir an, wie das Hello Interactive, dieses Säulendiagramm aussieht. Lassen Sie mich diese also einfach entfernen und erneut, wenn ich darauf klicke, sehen Sie, wie sie sehr interaktive Weise erscheinen und verschwinden So können wir ein Balkendiagramm erstellen, sorry, ein Säulendiagramm. Mithilfe des interaktiven Säulendiagramms können Sie kapern. Als Nächstes erstellen wir ein Balken- oder Säulendiagramm und zeigen Daten mit Kategorien an, zeigen Daten mit Kategorien die durch das Rechteck dargestellt werden, das manchmal als horizontales Balkendiagramm bezeichnet wird Okay? Okay, lassen Sie uns hier ein Balkendiagramm erstellen. Also derselbe Datensatz, den ich bei dir sein werde. Sehen Sie sich dann die View-Daten an. Wenn Sie Ihre Daten sehen möchten, können Sie das Land und das BIP sehen. Okay? Als Nächstes möchte ich hier ein Balkendiagramm zeichnen. Also verwende ich das S-Diagrammobjekt, den Datentyp Bar, Randfälle, Land, X-Achse, Land und Y-Achsen-BIP Und ich hatte nicht gelesen. Okay, lassen Sie uns das ausführen. Jetzt. Dies ist das Balkendiagramm , das wir erstellen. Das ist also ein interaktives Balkendiagramm mit Highcharts, okay, also sieh dir an, wie es aussieht, okay? Und wenn Sie sehen, wie es drüber geht, werden Sie das entsprechende Land und das BIP sehen, okay? Als Nächstes wird jedes Kreisdiagramm, Kreisdiagramm oder jede Art von Grafik , in der der Kreis in Gruppen unterteilt ist die den Anteil der Kategoriewerte darstellen , auf die verschiedenen Konferenzen im Kreis aufgeteilt. Sie segmentieren die Marken in diese Kategorie. Also verwende ich den gleichen Datensatz, okay? Und ich werde versuchen, ein Kreisdiagramm zu erstellen. Also hier gebe ich Webseite gleich Pi. Alles andere ist derselbe einzige Typ, den wir hier ändern. Und die Farbe, wenn du eine andere Farbe geben willst , die du geben kannst, gebe ich dir das Kreisdiagramm. Sehen Sie sich hier an, wie das interaktive Kreisdiagramm entstanden ist. Also werde ich es noch einmal ansprechen und sehen, wie es aussieht. Und für jedes Land wird es hervorgehoben, wenn Sie den Mauszeiger darüber bewegen China, Japan, Indonesien, Amerika. So wie das hier. Ja. So können wir by Chart erstellen. Als Nächstes wollte ich mich mit dem Scatter Plot befassen. Punktdiagramm, auch bekannt als Punktdiagramm. Du bist gerade zu den aktuellen Werten gekommen. Was machen verschiedene Dinge medizinische Variablen-Scatterplots zu sehen, habe zwischen den Variablen abgehört, wie eine Variable von einer anderen Variablen beeinflusst wird Können wir leicht visualisieren? Also werde ich den gleichen Weg verwenden, tut es, und das wirklich eigensinnige Land und das Und er hatte das S-Diagramm und die Windel benutzt, ich gebe Streuung. Das ist alles. Okay. Carla, nehme an, ich wollte uns Gelb geben. Okay, lassen Sie uns hier in das Streudiagramm eintauchen und sehen, wie es ist Du siehst die Punkte. Also lass es mich noch einmal durchgehen, CIA Boxer kommt her. Lassen Sie mich das auf eine andere Farbe übertragen. Mach es pink. Rosa. Pink ist auch nicht so viel machbar und macht es sichtbar. Okay? Siehst du, weißt du, das ist die Quadratwurzel eines Blocks, okay? Auf diese Weise können wir die High Charter, High Highcharts-Bibliothek verwenden und Ihnen die interaktiven Charts Ihnen die interaktiven 116. Project 8 Visualisierung von Airbnb-Daten in New York City: Hallo und willkommen zurück. In dieser Vorlesung werden wir also ein weiteres kleines, sehr kleines Projekt durchführen. Und in dieser Studie werden wir eine Fallstudie zur Visualisierung von Airbnb-Daten für New York City mithilfe von GG Plot Also Airbnb, Leute bei dir zu Hause aufnehmen. Also werden wir sehen, wie die Leute nisten und was das kostet oder was die Trends in der Nachbarschaft Im Grunde werden wir uns also innerhalb der Daten von New York City bewegen Die Daten werden also hier bereitgestellt. Also Inserat oder CSP, das ich von Airbnb heruntergeladen habe. Es wird also die Daten für New York City und Airbnb-Daten für New York City enthalten Airbnb-Daten für New York City Das Ziel dieses kleinen Projekts ist es also, das Spiel zu visualisieren, zu visualisieren und Erkenntnisse aus den Airbnb-Daten der gelben Kugel A und B in New York City zu gewinnen Airbnb-Daten der gelben Kugel A und B in New York City riesiges Unternehmen wird das GG-Plot nutzen . Ein riesiges Unternehmen wird das GG-Plot nutzen und versuchen, sie zu visualisieren, die Erkenntnisse aus den realen Daten von Airbnb zu gewinnen. Okay, wir werden verschiedene Aspekte der Daten untersuchen , wie zum Beispiel die vorherige Verteilung. Sie waren Sektor, okay? Also, der Datensatz für diese Studie oder für dieses Projekt, wir verwenden die CSV-Datei mit Listenpunkten von hier als wir eine Sitzung für New York City gemacht haben. Der Datensatz enthält Informationen über verschiedene Angebote, darunter Reis, Verfügbarkeit in der Nachbarschaft und andere relevante Details. Der erste Schritt ist also die Datenaufbereitung. Dafür wird die notwendige Bibliothek geladen. Also werde ich die tiefe Schicht verwenden. Wenn du den Plan noch nicht gestartet hast, kannst du zu den von den Tools installierten Paketen gehen, wo ich die Zange hinlege und auf Installieren klicken, es wird installiert und dann kannst du die Haftung nutzen Okay? Also, GG plant das durch und wendet es auf unsere Bibliothek an, wir werden es für dieses Projekt notieren. Und wir werden die Struktur des Datensatzes sehen. Und wir nehmen einen Begriff, bei dem Werte fehlen und konvertieren bei Bedarf die DateTime Okay, also lass mich wissen, welche Bibliotheken live notwendig sind. Und als Nächstes listen wir eine große CSV-Datei auf, die wir auf meinem lokalen Computer haben. Also habe ich das geschrieben. Also verwende ich jede Punkt-CSV-Funktion und übergebe den Pfad der CSV-Datei mit dem Dateinamen. Und ich werde diese Daten in den Unterstrich-Datenvariablen A und B und B speichern diese Daten in den Unterstrich-Datenvariablen A und B und B Lassen Sie uns das also ausführen. Okay, diese Daten haben also 48.008, 95, 95 Objekte und 16 Variablen Okay? Lassen Sie mich also die Struktur des Datensatzes untersuchen. Ich verwende die STR-Funktion und wir übergeben diese AirBnB - und Discord-Daten Lass es uns. Lassen Sie mich Ihnen die Struktur dafür zeigen. Lass uns sehen. Also 48.008 95 Objekte und sagt zwei Variablen. Macht das mit meinem Namen und ID-Namen. Religion für die Bearbeitung der Kosten ID, Hostname, Nachbarschaft, Gruppe, Nachbarschaft. Lass es laut raus. Der kurzfristige Preis Das Minimum ist jetzt die Anzahl der Bewertungen. Größer, leucinreich, monatlicher Berechnung der Gastgeberlisten, Anzahl, Verfügbarkeit, Recherche Also all diese Variablen sind da und ihr Datentyp ist es auch Also nehmen wir jetzt alle fehlenden Werte. Wir können also die fehlenden Werte überprüfen, indem Es ist keine F-Funktion verwenden. Und wir übergeben diesen Datensatz und die Anzahl der fehlenden Werte und ein paar Monks und um die Summe der fehlenden Werte zu erhalten, okay, die Protonenzahl der fehlenden Werte Also das, dann drucken wir die Anzahl der fehlenden Werte und Datensatz aus, indem wir diesen einfachen Wert drucken. Okay? Also gibt es zehn fehlende pentatonische Vorbereitungswerte von 48, 95. Okay? Als Nächstes können Sie die Daten konvertieren, falls Ihr Datensatz nicht viel Zeit falls Ihr Datensatz nicht viel Zeit hat. Hey, Airbnb-Daten, letzte Bewertung, Datum, das Datum, das du aus irgendeinem Sinn nicht wieder hinzugefügt hast. Ich werde sehen, dass dein Inhalt nicht da ist. Okay? Als Nächstes wollen wir Daten oder Lizenzen visualisieren. Dazu verwenden wir den GG-Plot, um aufschlussreiche, in das Alien eingebettete Visualisierungen zu erstellen Alien eingebettete Visualisierungen Als Erstes werden wir also eine überstürzte Verteilung sehen. So weit hier. Ich erstelle ein Histogramm für Autoren, um den D-Block und die Pasta persönlich zu D-Block und die Pasta persönlich Er ließ ein B & B Daten unterstreichen, das ist der Datensatz, den wir gespeichert haben, indem wir auf die CSV-Datei zugegriffen haben CSV-Datei Okay, dann verwenden wir für die ästhetische Funktion X-Achse, unsere X-Achse, den Preis Und dann verwenden wir das Geom-Underscore-Histogramm, um das Histogramm darzustellen. Die Breite des Blocks ergibt 50. Und Phil wird das Gefühl haben, dass mit der Skype-Schleife und dem Rand die Farbe Und Labs, die X-Achse wird Preisgestaltung, Preisgestaltung, Vielfalt und die Y-Achse Frequenz und Titel die Preisverteilung von Airbnb sein Das Inserat und das Team werden nur minimal verbrauchen. Und dann drucken wir das Preisunterstrich-Programm , das wir hier erstellen. Lassen Sie mich das ausführen Sehen Sie hier. Das ist eine Grafik. Auf der X-Achse ist der Preis in US-Dollar und auf der Y-Achse die Frequenz Zuhören. Okay? Also das ist Fresh Tissue Vision, das Airbnb-Angebote anbietet. Okay. Dann schauen wir uns die Nachbarschaft an. Dafür erstellen wir ein Balkendiagramm der Anzahl der Angebote in jeder Nachbarschaft. Dafür erstellen wir eine Variable namens Neighborhood Underscore. Unterstrich-Diagramm. Dieselben Daten. Daten unterstreichen. Wir verwenden den Pipe-Operator, um der Gruppe nach Unterstrichgruppe zu folgen . Dies ist die eine Variable im Datensatz. Und dann summieren nach Anzahl ist gleich n. Und dann verlassen wir das GG-Plot und auf der X-Achse ordnen wir die Nachbarschaftsgruppe an und verwenden die Spalte Anzahl minus Auf diese Weise wird Ihr Zugriff aufgerufen und wir füllen ihn von innen mit einer Geom-Bar , die die Identität weitergibt Und die letzten Punks und die X-Achse, Nachbarschaft, Y-Achse, Anzahl der Hautfarbe, Titel, Nummer hier oben sind in jeder Nachbarschaft unrealistisch Y-Achse, Anzahl der Hautfarbe, Titel, Nummer hier oben sind in jeder Nachbarschaft unrealistisch . Abschlussjahr, das Minimum und das Team. Xis-Punkt-Textelement. Sie können ein Element unter dem Schutzwinkel 45 erstellen. Das wird also der Name auf der X-Achse sein. Ich will es bis 45 Uhr mit Treibstoff versorgen. Und dann machen wir das Ganze fertig. Darüber. So ist Manhattan und Brooklyn, Queens, das Delta-Viertel und es ist um 45 Grad geneigt Und das ist das Viertel und das ist die Anzahl der Tests für New York City, du zerstörst die Anzahl der Inserate. Nachbar in der Gruppe, Bronx, Brooklyn, Manhattan, Queens, Staten Island. Okay. So können wir also ein Balkendiagramm verwenden. Wie zahlenmäßig steigt das Gewichtheben. Und was wir dann verstanden haben, ist, dass wir die folgende IR ziehen können, die leiseste Antwort oder das Inserat, das am meisten unter unserem Ziel-Dollar-Wert liegt und mit einer alten Klasse für diesen Preis Das, was wir anhand dieses Histogramms sehen können, ist, meisten der 10.000 Werte und einige der Werte in der Produktion steigen, sodass wir entweder als Eau Claire betrachten können entweder als Eau Claire betrachten Also nur die meisten von ihnen. Und dann Barplot der Anzahl der Angebote in jeder Gruppe. Ich füge die Verteilung zwischen den Eltern hinzu und ich habe sie mir ausgeliehen, sodass einen Einblick in die beliebtesten Wohngegenden erhalte Auf diese Weise können wir es uns ansehen, wenn du willst. Sie können eine regulärere Lizenz verwenden und Sie können einfach die Daten analysieren und Sie können eine wachsamere Instanz erstellen, die ein Paragon darstellt, andere, andere spezifische Ware Ich danke dir. 117. Project 9 COVID 19-Datenanalyse und Visualisierung: Hallo und willkommen zurück. In diesem Projekt werden wir also die COVID-19-Daten analysieren. Also COVID-19, eines der sehr schlimmen Dinge, die der Menschheit, der Menschheit widerfahren sind, oder das tödliche Virus, das viele Tierärzte und Menschen auf der ganzen Welt verursachte Tierärzte und Menschen auf der ganzen Welt Deshalb werden wir heute die COVID-19-Daten analysieren und versuchen, die explorative Datenanalyse anhand des COVID-19-Datensatzes durchzuführen die explorative Datenanalyse und bereitzustellen Wenn wir ADA machen, erhalten wir wertvolle Erkenntnisse. Lassen Sie uns also zunächst die Daten laden und dann mit der Analyse fortfahren, um die zehn wichtigsten Länder mit der maximalen Anzahl von COVID-19-Fällen zu ermitteln. Wir werden auch noch ein paar Dinge tun, aber fangen wir mit dem Minimalen an. Also habe ich den Datensatz, den Datensatz, den länderspezifischen Gitterdatensatz heruntergeladen , diese CSV-Datei, die ich Ihnen zur Verfügung stellen werde Also, wenn Sie auf die Toilette gehen möchten und diese App von der WHO-Website heruntergeladen haben. Dafür brauchen wir die Bibliothek. Wenn wir also nicht installiert nehmen, kannst du zu den Tools und installierten Paketen gehen und du kannst den Plan einstellen. Okay. Und dann kannst du es herunterladen und installieren. Es konnte nicht heruntergeladen und auf Ihrem Hot installiert werden. Okay, also als Nächstes möchte ich tun. Also diesen Teil musst du ersetzen, was auch immer dein Ding ist. Ich sage, dass Sie Ihren lokalen Verzeichnispfad haben . Okay? Also lass mich in Ruhe. Wird diese CSV-Datei nun landesweit neuesten Daten speichern und sie in einer COVID-Unterstreichungsdatei speichern. Okay? Also werde ich den Punkt CSV verwenden, um diese CSV-Datei zu lesen. Und dann schauen wir uns die Zusammenfassung dieses Codes an, oder? Also habe ich die Zusammenfassung zusammengestellt. Das kannst du hier sehen. Jetzt haben wir die Länderregion, prompt, diesen Rekord. Küsst du neue Daten, neue zur Deckung von Schulden, hundert Vermutungen, und dann genesene oder ungerichtete Fälle, dass sie farbige bestätigte Wie viele Fälle haben Schema und Exonretention die WHO-Region erhöht Okay. Also so, da sind diese Kolumnen drin. Es verarbeitet diese Spalten in diesem Datensatz oder gibt Mindestmedianwerte für das erste Quartil an Mindestmedianwerte für das erste Quartil Also die nächste Sache ist, jetzt möchte ich die finden, wenn du willst, kannst du noch eine Sache tun. Sie können die Struktur des Datensatzes mithilfe der STR-Funktion überprüfen . Und jetzt haben wir diese vielen Spalten hier, 197 Objekte und Variablen. Variables Land, Region bestätigen das. Das sind also die Art von, Sie können Spalten und den Datentyp sehen, das tun Sie auch hier. Lassen Sie mich also herausfinden, dass die obere Ebene die maximale Anzahl von COVID-Fällen enthält die maximale Anzahl von COVID-Fällen Dadurch wird ein variabler oberer Unterstreichungswert für Länder geschaffen oberer Unterstreichungswert für Länder Und sie verwenden die Datensatz-CSV-Datei und speichern all diese COVID-Unterstrichdaten. Deshalb verwende ich die Unterstrichdaten und den Pipe-Operator Und ich füge in absteigender Reihenfolge nach bestätigten, bestätigten Fällen und Kopf Ich möchte die Top Ten sehen. Also gebe ich Heptan hinzu. Es werden also die zehn zufälligen Ungleichheiten ermittelt. Wir sind dann von dort, sie haben mir noch einen geschickt. Dies sind also die Länder mit der maximalen Anzahl von COVID-Fällen Also, in welcher Region befinden sich diese Länder eigentlich? Also Amerika. Und das ist unser Job In den Aufzeichnungen laden wir zuerst die benötigte Bibliothek und lesen dann das COVID-19. Geht es ins Koordinatenquadrat, Theta. Dann DataFrame, wir zeigen dann die grundlegende Zusammenfassung des Datensatzes an, um einen Überblick über die Daten zu erhalten Schließlich finden wir, dass der obere Pin die maximale Anzahl von COVID-19-Fällen enthält und dass die Pumpe, die als fehlerhaft angesehen wurde, die zehn Länder mit der höchsten Anzahl bestätigter COVID-19-Fälle enthält der höchsten Anzahl bestätigter COVID-19-Fälle Und jedes Ziel steht für das Land und jede Spalte enthält den Virus für jedes Land. Jetzt möchte ich dazu Datenvisualisierung durchführen. Um die zehn Länder mit den höchsten Kohlenstoffzahlen zu visualisieren , verwenden Sie das Kreisdiagramm, und wir verwenden dafür das Paket ggplot2 Also das Kreisdiagramm und mach dir das GG-Plot, die zehn besten Länder von hier aus, die wir von dir bekommen haben. Okay? Und dann zieht sich die ästhetische Funktion X, Y-Achse zusammen und pumpt gefüllt mit der Länderregion Geom Bar, Yeoman Escobar Funktion werden nutzen und Status gleich Identität wird bieten und Wir beginnen mit Jira Labs. Ich gebe den Titel Topper und Länder, X-Naught, Y-Naught und das Gegenteil und das Team wird so verkabelt, dass das Kreisdiagramm dafür erstellt wird so verkabelt, dass Also sieh hier. Jetzt haben wir das Kreisdiagramm, das die zehn wichtigsten Länder mit dem COVID-19-Kosinusmaximalsystem Sie können die meisten COVID-Fälle und die meisten COVID-Fälle sehen COVID-Fälle und die meisten COVID-Fälle Dann Großbritannien. Dann ist es nach und nach zuerst Königreich, dann Brasilien. Und dann haben wir ein Mittel, das ist Indien. Dann dieser, dann dieser blaue, das ist der CR. Daraus können wir also erfahren, dass die USA, Brasilien, Indien und Russland, wo die vier wichtigsten Länder, die USA und Brasilien im Endost, die ärmsten Länder, die meisten COVID-19-Fälle haben und wir an der Spitze stehen Brasilien, Indien und Russland, wo die vier wichtigsten Länder, USA und Brasilien im Endost, die ärmsten Länder, die meisten COVID-19-Fälle haben und wir an der Spitze an der meisten COVID-19-Fälle haben und wir Okay, dieser Code wird also die Byte-Gebühr berechnen. Also im Anteil der bestätigten COVID-19-Fälle für jedes Land. Jetzt können wir dichtere Texte hinzufügen und die Farben des Kreisdiagramms anpassen , um es interaktiver, informativer und optisch ansprechender zu gestalten. Okay, dieser Code erstellt das Kreisdiagramm. Jetzt wollen wir weitere Dinge hinzufügen. Also erstelle ich ein Kreisdiagramm mit den Stufen „Farben anpassen“. Also tu bitte dasselbe. Hier sind die Polar und die wir bereits benutzt haben. Und Jahre später wird diese teamweite Funktion wieder dieselbe Funktion erfüllen Und er hatte nicht Legend Dot Partisan Bottom gesetzt, mehr Schwarz in den Und der Lotpunkttitel wird Seiten geben, aber wir werden ihn geben. Gerechtigkeit. Frank Pipe, Größe ist 16, und Frankreich wird Text fett drucken. Das Element „ Textfunktion und Größe unterstreichen “ erhält eine Legende Die Textgröße wird 12 sein. Und für diesen Titel werden Seiten für Titel 1 oder 14 sein. Und wäre es die Einpunktkraft von Board und Box. Okay, also und dann verwenden wir das Kreisdiagramm. Und dafür verwende ich Skala, Unterstrichfeld und macht manuell Und hier werden die Werte manuell abgerufen. Fühlen sich die vielen Farben wie ein Spiel an, okay, also welchen Farbcode Sie geben möchten, können Sie bekommen. Und dann erstellen wir ein Kreisdiagramm mit Ebenen. Also nehme ich dieses Kreisdiagramm und dann nenne ich X und ästhetische Funktionalität, womit ich zu einer Country-Punkt-Region komme und aus der Punk kommt, oder? Wann bist du Sohn? Stapel. Und dann werde ich die ganze Sache zusammen regeln. Und C, und jetzt bekommen wir besseres Kreisdiagramm mit Liganden und verschiedenen Farben Okay? Jetzt heißt es also die Legenden. Du sagtest, dass es sein Königreich nach und nach gegeben hat. Und auch hier kannst du dieses Board sehen, okay, auf diese Weise können wir also ein individuelles Bike und einen Legendentext erstellen . Jetzt möchte ich aus dem Teil des COVID-19-Datensatzes die zehn Länder mit den meisten hinzugefügten Fällen und das Land mit einer aufgezeichneten Höchstzahl von Fällen ermitteln des COVID-19-Datensatzes die zehn Länder mit den meisten hinzugefügten Fällen und das Land einer den meisten hinzugefügten Fällen und das aufgezeichneten Höchstzahl Teil des COVID-19-Datensatzes die zehn Länder mit den meisten hinzugefügten Fällen und das Land mit einer aufgezeichneten Höchstzahl von Fällen Wir können einen ähnlichen Ansatz wie zuvor verwenden Wir sortieren den Datensatz anhand der Deckspalte und wählen dann die zehn besten Länder aus. Okay, soweit dieser Wert. Und dann verwenden wir das COVID. Ich werde diesen Datensatz lesen und zehn wichtigsten Länder verwenden, geordnet nach dieser Spalte. Und dann nehmen wir die Top Ten Okay, diesen haben wir schon. Also CFTC, die zehn Länder mit den meisten Bits. Okay? Als Nächstes möchte ich ein Balkendiagramm erstellen, aber die höchsten Todesfälle der zehn Länder mit den höchsten Todeszahlen weil Sie das Balkendiagramm und der Geom-Balken sind, Dinge haben ihre eckigen Fünf, Strich eins nur darauf Jetzt haben wir das Balkendiagramm nach oben und die Länder für das Maximum über Nacht und all diese Dinge stehen bevor. Dies ist das Kreisdiagramm. Das ist Sunda. Wir bellen. Okay. Also dieses 1-Balkendiagramm und ein Kreisdiagramm. Nun, das Gleiche. Okay? Jetzt möchte ich den Prozentsatz der Erholung für jedes Land berechnen . Also Teil dieser COVID-19-Erholung, wenn Sie die Graduiertenabteilung 200 behandelt haben. Und ich weiß, dass wir uns erholen und in die Erholung übergehen. Okay. Länderdaten. So deckten ein Land und das die prozentuale Erholung ab. Also diese Zotten haben wir als letzte berechnet, okay. Berechnen Sie nun die Perzentile, die Sie für jedes Land im oberen Teil angeben können , und erstellen Sie dann ein Dies ist das Bias-Diagramm, die prozentuale Erholung und die adoptierten Länder. Okay? Also Erholung in den USA, Ivana ist das Maximum. Mexiko. Indien hat auch so etwas wie Comedy, und dann Mexiko. Und dann möchte ich, dass die zehn wichtigsten Länder mit Kreide bedeckt sind Kreide bedeckt Dies ist die Person, die im ersten Satz die Charaktere der Gegenlehre im ersten Satz die Charaktere der Gegenlehre Von Chuck. Die meisten aktiven Fälle kommen aus welchem Land, das uns finden wird , ist das Land mit den meisten aktiven Fällen. Die zehn Länder mit den aktivsten Fällen, so schwer, dass er sterben wird. Aktive Fälle bestätigter geringfügiger Schulden abzüglich der aktiven Fälle ergeben sich aus minus dem, abzüglich zurückgezogener Forderungen, erhalten wir die meisten aktiven Fälle, und dann fügen wir diese beiden Pluspunkte hinzu. Okay? Sie können also die USA, Brasilien und Indien auf dem Scheinzahlenvektor sehen . Dies ist der Prozentsatz der Länder mit aktiver Kursdoktrin Erstellen Sie ein Kreisdiagramm. Dies zeigt uns die meisten aktiven Fälle. Prozentsatz der Vektor-Kosinusdoktrin, die Länder hier verwenden, das werden 7,73% davon Das verringert die maximale Häufigkeit der Vermutungen. schätze, ich werde die Frequenz verwenden , weil es sich summieren wird Dann drehen wir uns um und sehen uns als die Frequenz des Landes an, in dem die maximale Frequenz der Kavität herrscht, weil dieses Produkt diese zum Teil wiedergewonnen hat. Daher hat Brasilien die meisten Gerichtsverfahren. Okay? Auf diese Weise, wenn wir mehr analysieren wollen, können Sie Ihre Konditionskombination, Ihre Denkweise und Sie können die Daten aufschlüsseln Okay. Hier dreht sich also alles um die COVID-19-Datenanalyse 118. Projekt 10 Blumen zeichnen mit Mathematik in R: Hallo und willkommen zurück. In diesem Vortrag werden wir also über das Projekt sprechen. Und in diesem Projekt werden wir umfangreiche Mathematik - und Kunstprogramme , um ein paar Blumen zu zeichnen. Also das Trocknen von Blumen mithilfe von Mathematik in unserer Programmierung. Das ist es, was beide Ziele für dieses Projekt anstreben. Wir alle wissen, dass, wenn man die Natur in allem , was die Natur erschafft, betrachtet , man Schlagstock darin finden kann, auch wenn man einen Schmetterling sieht, der sich abgesperrt hat , wieder in Dawn, unsere Schnur, und zu falsch hinüberschaut Die Natur hat also viel Kreativität. Und es kann eine Menge Schlagstock unter den Schöpfern sein, auf den Blumen, auf den Bäumen, sogar bei Menschen sind wir also, wir sind alle Menschen und haben dieselben Merkmale wie Augen, Nase, Mund, hier Hände, Beine Aber jede einzelne Person sieht anders aus. Richtig? Abgesehen von den Zwillingen. Sogar die der Königin haben ein anderes CSS. Und das ist die Macht der Natur. Was wir also in dieser Vorlesung, in diesem Projekt tun werden , wir werden versuchen, einige Schlagstöcke zu ziehen, die uns weiterbringen werden Also werden wir versuchen, ein Blumenmuster zu zeichnen. Du machst Mathematik mit unserer Programmierung. Also lass uns anfangen. Also das Nachladen hier, das Mandat wird versuchen all diese Dinge zu verstehen, okay? Der Punkt sind Muster in der Natur, das sind zu viele Beispiele natürlicher Fakten und Schlagstöcke, die sich mathematisch beschreiben lassen Schöne Beispiele, sagen wir Bob, Schneeflocken, die fraktale Geometrie der Schule, Brokkoli oder wie Selbstähnlichkeit Beim Wachstum von Grundstücken. Odd ist ein Werkzeug für seriöse Analysen, aber nicht alles im Leben ist es. Wie wir wissen. Das Leben ist auch lustig und Kunst kann genutzt werden, um Spaß zu haben und schöne Dinge zu tun. Wir können auch viele kreative Dinge tun, Eugene Das ist das Ziel dieses Projekts. Troy, wir machen dieses Projekt, diese Aktivität, Newton, Kunst und Mathematik in diesem Kurs grafische Leistungsfähigkeit kann also genutzt werden, um künstlerische Bilder zu Wir werden zum Beispiel sehen, wie wir all diese Illustrationen zeichnen können , die wir beim Zeichnen sehen, wenn wir den Code ausführen, davon inspiriert ist, dass Pflanzen tote Blätter sind. Diese Tatsache wird Phylotoxizität genannt und wir werden sie als Grundlage für dieses Projekt lösen Okay? Also werden wir den GG-Plot für zwei Pakete verwenden. Wie bei der ganzen Existenz von Mahnwachen in der Kunst üblich, verwenden wir meistens GG-Plot für Paket Deshalb verwenden wir auch hier GG-Plot zum Verpacken. Und wir werden nicht nur Spaß haben, sondern auch viele wichtige Funktionen lernen. Und das wird nicht nur für die Kunst nützlich sein, sondern auch für aktuelle Daten und Probleme im wirklichen Leben. Lassen Sie uns die Probleme also nicht weiter hinauszögern. Lassen Sie uns nicht länger zögern. Lassen Sie uns damit beginnen, die Bibliothek zu laden. Also der erste Code hier, ich verwende das AAD-Notizbuch Der Vorteil der Verwendung unseres Notebooks sind also Daten. Wir können einen Code schreiben indem wir einfach Alt Control drücken. Strg, Alt, Strg Alt I. Wenn Sie eingeben, können Sie Code in diesen Abschnitt schreiben , okay, Sie können also die Erklärungen schreiben und dann können Sie Ihren Code schreiben, wie wir es jetzt tun. Google Colab. Also das, was wir im Erwachsenenalter machen können, also musst du zur Akte, New und zum Abendessen gehen Wir haben gerade unser Skript erstellt und dann kannst du mit dem Tracking beginnen. Ich ermutige Sie daher, den Code selbst zu schreiben, indem Sie der Vorlesung folgen, da Sie so praktische Erfahrungen Wenn du die Datei einfach herunterlädst und sie einfach ausführst, wirst du von der Vorlesung nicht viel profitieren Okay? Also schlage ich vor, mit dem Schreiben anzufangen, okay? Ich schreibe hier nicht. Ich habe es schon geschrieben. Denn wenn ich anfange, all diese Syntaxen zu tippen, wird es viel Zeit in Anspruch nehmen Und das wird nicht vorteilhaft sein , weil es Stunden dauern wird. Wenn ich anfange zu tippen und Dinge zu erklären. Um uns Zeit für den Lernzweck zu sparen, möchte ich es dir gleich erklären. Okay? Also als Erstes werden wir die GG-Plotbibliothek entladen Und hier sagen wir die Plotbilder nach Geschmack, damit ich funktionieren kann und zu einem brillanten Punktdiagramm werden Punkt, Breite und Höhe vier sein. Okay? Und dann neu laden. Also lass uns das ausführen Also hier seht ihr die zwei Optionen, drei Optionen. Einer ist modifizierter Chunk Opsin, der nächste wird alle obigen Chunks ausgeführt Darüber werden alle Begriffe R1, R2 stehen. Sie können diese Option hier sehen es sich um einen zufälligen aktuellen Block handelt. Also werden wir vorerst diesen Run-Junk verwenden. Okay, lassen Sie uns das ausführen. Also jetzt fertig, also wurde die GG-Plotbibliothek geladen. Als Nächstes ist der zweite Schritt für dieses Projekt das Verwässern und Austrocknen von Punkten auf einem Kreis. In dieser Aktivität werden wir also versuchen, die Punkte des Kreises zu zeichnen. Zeichne die Punkte um den Kreis herum, okay? Also mythisch werde ich versuchen, hier mit Hilfe von Punkten einen Kreis zu zeichnen hier mit Hilfe von Punkten einen Kreis Es gibt also viele Möglichkeiten , Daten im zweiten GG-Diagramm darzustellen , sowohl für einfache Streudiagramme als auch für komplexere Diagramme, komplexere Diagramme wie z. B. Violindiagramme Die Funktionen, die mit geom underscore beginnen , definieren, dass das Diagramm aus Also geom underscore definiert, wir werden bald zeigen, wie die Handlung In diesem Notizbuch wollen wir nur mit dem Geom-Unterstrichpunkt arbeiten , der Punkte zweidimensional verzerrt. Wir benötigen nur einen Datensatz mit zwei Variablen. Nennen wir sie x und y. Wir benötigen also zwei Variablen, x und y für die X-Achse und die Y-Achse. Jetzt möchte ich zwei Punkte auf einem Kreis mit Radius zeichnen, einen an jedem X- und Y-Punkt. An jedem X- und Y-Punkt. B im Einheitskreis, daraus folgt, dass das Quadrat x plus das Quadrat Y gleich eins ist Wir können dies mithilfe der berühmten trigonometrischen Identität des Pythagoras ermitteln, die besagt, dass das Quadrat des Sinus von Theta plus das Quadrat von Cos Theta für jede reelle Zahl Null gleich eins ist der berühmten trigonometrischen Identität des Pythagoras ermitteln, die besagt, dass das Quadrat des Sinus von Theta plus das Quadrat von Cos Theta für jede reelle Zahl Null gleich eins ist. Das sind also die grundlegenden mathematischen Grundlagen, die wir bereits kennen. Also gut, lass mich diesen Code öffnen. Also hier, was ich mache, ich erstelle eine Zahlenfolge Reihenfolge von Zahlen. Deshalb verwende ich t als Variable, um diese Punkte zu speichern. Und ich werde sagen, benutze die Sequenzfunktion zum Generieren. Und ich fange mit 0,2 an, bis die Länge 52 sein wird. Die Gesamtpunktzahl wird generiert. Hier. X für X-Punkt sind X-Achsenpunkte. Ich verwende Sinus t. Sinus von T. Das sind eigentlich die Winkel, okay? D ist also der Winkel, den diese Sequenz regeneriert. Die Winkel, die wir verwenden, um unsere x- und y-x-Werte zu ermitteln, sind Sinus Theta und Cos Theta Also hier Sinus t und dann Y oder Y, wir verwenden die Kosten, okay? Dann geben Sie einen DataFrame an, data.frame B wird der Winkel sein und dann x, y, x Komma y, x wird der Sinus von t sein und y ist der Sinus cos von t, Sinus von t cos Sinus Mit diesen beiden Punkten werde ich dann versuchen, ein Streudiagramm mit GG-Plot zwei zu erstellen mit GG-Plot Das ist dieser, dieser DataFrame, der DataFrame, den wir gerade erstellt haben Und dann werde ich die ästhetische Funktion der Ästhetik der Handlung zuordnen Die Punkte x Komma Y. Dann verwende ich den Punkt p plus Geom-Punkt Dadurch werden sie blockiert. Okay, lassen wir das mal laufen und schauen, sehen, und jetzt werden wir auf einem Kreis geplottet, okay, Punkte auf einem Als Nächstes geht es darum, es harmonisch zu gestalten Okay, lassen Sie uns den Code einblenden. Mach es harmonisch mit Colin Angle. Also, Blondinen fügen die Blätter in dieser Spirale hinzu. Wenn Sie sich die, irgendwelche Pflanzenblätter ansehen, wird es reichen Endgültige Form, ich habe es mit dem Rückenmark versucht, das beginnt am Ursprung und bewegt sich von seinem Punkt weg. Wenn Sie sich also eine Spirale ansehen, beginnt sie mit einem bestimmten Punkt und sie wird so verlaufen. Okay? Also wird es so laufen, den Punkt zu formulieren, und dann wird es so weitergehen Okay? Wir werden uns stärken, okay Es beginnt also mit dem Ursprung, entfernt sich von diesem Punkt, Zusatz dreht sich um ihn. In der Handlung. Oben sind alle unsere Punkte gleich. Entfernung vom Ursprung. Oder eine einfache Möglichkeit, sie spiralförmig anzuordnen, besteht darin, x und y mit einem Faktor zu multiplizieren . Eine Routine erreicht jeden Punkt. Wir könnten das Azure AD verwenden, das berücksichtigt, Azure als diesen Vektor verwenden , wenn es diese Bedingung erfüllt. Aber wir werden etwas Harmonischeres tun, werden den goldenen Winkel verwenden. Golden, wie lautet die Formel für Goldener Winkel? Es ist Phi zu drei minus unter der Wurzel fünf. Und diese Zahl ist vom Goldenen Schnitt inspiriert. Eine der bekanntesten Zahlen in der Geschichte der Mathematik. Sowohl der Goldene Schnitt als auch der Gordon-Winkel tauchten an unerwarteten Stellen in der Natur auf, abgesehen von Blüten, Blütenblättern und Pflanzenblättern. Samenköpfe, binden Gold, Sonnenblumenkerne, Samen, Spiralgalaxien, Wirbelstürme usw. Okay, es ist also an der Zeit, es fertig zu stellen . Okay, schauen wir uns den Code an. Hier. Wir definieren die Anzahl der Punkte, die ihr miteinander verbindet. Wir definieren als Torte drei minus Quadratwurzel aus fünf Und dann sind wir, wir werden derjenige sein, bei Wind in Wut, der den Winkel mit 0,500 Punkten multipliziert und dann Exponent der Sinus von t und y Preis von T. Und dann verwenden wir den DataFrame, um einen DataFrame zu erstellen Und dann erstellen wir das Streudiagramm mit dem GG-Plot . Und wir fügen den Geom-Punkt hinzu. Okay, lassen Sie uns das ausführen, die Ausgabe. Jetzt können Sie sehen, wie wir anhand der einzelnen Punkte eine Spirale erstellt haben . Als Nächstes entfernen wir alles Unnötige. Abgesehen von Daten enthält Applaud viele andere Komponenten, die das tun Diese Handlung enthält einen Freund im Hintergrund mit einem grauen Farbraster aus horizontalen und vertikalen Linien im Hintergrund Tricks entlang der Achse, Titel auf der X-Achse, das Extra entlang der Achse und Ebenen All diese Dinge, die wir tun werden indem wir diesen Code ausführen, definieren den DataFrame Ich übergehe diese Seite, das X und das Y, an die DataFrame-Funktion und mache das Streudiagramm zu mache das Streudiagramm Also der RDD-Plot. Und das nennen wir 100 A-Frame. Und dann ästhetische Werte, x zu Boo, tut mir leid, x zu d, y zu d. Okay? Und dann weisen wir diesen Punkt zu. Und dann verwenden wir die Team-Schriften hier und in der Theme-Funktionsgruppe „ Punktrasterelement-Fonts “. Und hier und in der Konsole unterstreichen Panel-Punktrasterelemente das Leerzeichen, Xis-Punkt-TXT-Element ist leer und das Titelelement unterstreicht Sie gehen eigentlich nicht, große Kühe können einen Spielplatz vorbereiten. Das Panel wird ein solider Hintergrund sein. Das Hintergrundelement und Unterstrich sind kaputt und fühlen sich wirklich riesig an, weiß Schauen wir uns also die Ausgabe an. Das ist das, was wir bekommen. Wenn wir das auch können, weiß ich. Lass uns sehen, was passiert. Okay? Jetzt ist der Hintergrund rot. Damit können wir also einen Hintergrund erstellen. Und wenn ich das ausführen würde, wäre der Hintergrund das Publikum. Okay? Also hatte er sauber. Also sieh dir jetzt an, wie diese Spirale zeigt und wie ein Muster aussieht. Okay? Als Nächstes ein bisschen höher, Makeup. Make-up wird versuchen, es zu dekorieren. Farbe und Transparenz Trocknen beginnen, wie eine Pflanze auszusehen, können wir es nicht viel besser machen , wenn wir die Farbtransparenz ändern, auch Alpha-Transparenz genannt dunklere Alpha-Größe des Bildes wird ansprechender Schauen wir uns also den Code an. Hier. Ein neues GG-Plot, Wong Sun und die Daten ergeben x-Enthalpie und Entropie Und dann gibt Dionne Point aus Zentral-USA und Größe eine bestimmte Farbe, Dunkelgrün und ein Thema und das Thema, das wir im vorherigen Block haben, das wir Lassen Sie uns das mal ausführen und in der aktuellen Kolumne nachschauen, ob ich dafür sorge, dass sie Grau unterstützt Und sieh dir an, wie Hintergründe und Meereswinde plötzlich grün werden, aber der Hintergrund grau wird. Als Nächstes geht es darum, mit der Ästhetik zu spielen. Bis jetzt bei Dalian, alles rund um das Thema deiner Erkenntnisse, Farbe, Form und Alpha Manchmal möchten Sie den Mittelpunkt in Ihrem Datensatz als vom Mittelpunkt abhängige Variable Jetzt machen wir die Größe variabel. Wir werden auch das Thema der Punkte ändern, obwohl wir nicht in der Lage sein werden, es zu übertreiben, sie glauben nicht, dass der Investor Sie daran erinnert, was Dan Dalian Lassen Sie mich Ihnen also den Kern bis zum D-Block-Geom-Punkt mit ästhetischen Funktionen zeigen D-Block-Geom-Punkt , der gleich dem T Alpha 0,5 sein wird, sagen wir für mich für acht und Spalte gebe ich Ihnen einen schwarzen Hintergrund , während ich weiß Lass uns das ausführen. Jetzt. Das kommt so. Okay? Also, wenn ich das CFE ändere oder das Meer unterstütze, aber der Punkt, an dem es nicht mehr so sein kann, okay? Also, was auch immer du willst, du kannst den Tresor hier hinstellen und er wird auf dem Band erstellt, okay? Auf dem Band, okay. Jetzt werden wir alles zusammenstellen, was wir bis jetzt gemacht haben und versuchen, diese Handlung zu erstellen. Die erste Zeile ist also dieselbe. Dann Wind hier, die ästhetische Größe entspricht 4,5. Und sippe auf die Realitätsregion 17 und das Dokument mit dem grünen oder blauen Nachthemd Okay, lass uns sehen. Code bereitstellen. Sauber. Und sieh mal, das sieht gut aus. Dieses dunkle Manometer, magentafarbener Hintergrund. Das nächste Ding Was ist, wenn wir den Winkel ändern? Mal sehen, ob wir den Winkel ändern, was wird passieren? Drainagemuster stehen im Mittelpunkt des Winkels zwischen den Punkten auf der Wirbelsäule. Kleine Veränderungen des Winkels können dabei sehr schwierig sein Religion , sagen wir 1.704,5 und Winkel, wir erhalten zwei Punkte, wir gehen Perioden Schauen wir uns jetzt an, wie schön es aussieht. Von hier aus sind wir zu dieser Erkenntnis gekommen. Die nächste Sache ist insgesamt. Jetzt. Und jetzt entwickeln wir die imaginären Blumentechniken Sie gesehen haben. Mit Token können Sie in einer endlichen Anzahl von Mustern kreieren , die von der Natur inspiriert sind. Die einzige Grenze ist Ihr von der Natur inspiriertes Muster , dass die einzige Grenze Ihre Vorstellungskraft ist Aber Kunst zu machen war auch eine lustige Ausrede, um GG-Plot zu lernen, oder? Wir haben so viele Dinge gelernt. Und das ist ziemlich interessant. Ich hoffe euch allen gefällt das Projekt. Und dieser Vortrag. Und all die Texte, die wir in einem langen Jahr gesehen haben , um die realen Daten darzustellen Also lasst uns dieses Bild auf der linken Seite finden. Etwas Rot, das von der vorherigen Blüte nicht lesbar ist, ist etwas zu sehen, das den ersten beiden sehr ähnlich ist. Drehen wir das um, sehen wie schön dieses Muster aussieht Von hier aus, wie wir in den Westen gekommen sind, haben wir mit dem Kreiswind angefangen, dann haben wir es mit dem goldenen Winkel klein gemacht Dann wurde uns die Hintergrundfarbe gegeben, dann haben wir in letzter Zeit Farbe, Größe und Transparenz gekauft und dann das SIP. Und dann das, und dann sind wir endlich zu diesem und diesem schönen Blumenmuster gekommen , das wir hier gezeichnet haben. Wenn ich den Staat ändere, um das zu tun, um zu sehen, was passiert. Siehst du, das ist eine dreieckige Basis. Unterrichten Sie eine Spalte. Das sagt voraus, dass D wie ein anderes Muster kommt. Komm im Spätsommer, auf die Toilette. Okay. Ich habe eine 17 gesetzt. Es kommt so. Okay. Also werde ich es auch schaffen. Dann. Das ist das schönste Fett, das wir je kreiert haben. Sie können also auch mit verschiedenen Alphawinkeln, unterschiedlichen Größen und Farbkombinationen spielen Alphawinkeln, unterschiedlichen Größen und versuchen, Ihr eigenes Blumenmuster zu kreieren. Blume mit mathematischen Methoden und heiß. Ich hoffe dir gefällt dieses lustige Projekt. Und du machst auch das Projekt und lädst deine Florida in the Florida Judge im Projektbereich dieses Kurses hoch. Und wir alle können es sehen 119. Projekt 11 Analyse und Visualisierung der Nobelpreisträger mit R: Hallo und willkommen zurück. In dieser Vorlesung werden wir weitere Grundlagen der Analyse und Visualisierung behandeln. Und das ist auch eine Art Projekt. Und in diesem, was ich tun werde, werde ich die Daten von Nobelpreisträgern analysieren. Also jedes Jahr unsere Nobelpreisträger. Jemand wird den Nobelpreis in einer bestimmten Kategorie erhalten. Welche Kategorie bezieht sich auf Kunstwissenschaft, Sozialarbeit an diesen Dingen, oder? Also werden wir versuchen, es an einem anderen Bitter zu analysieren und wir werden es lösen Wir werden die Daten auch visualisieren. Also dann ein paar Dinge habe ich Nika analysiert und ich zeige dir, wie du das machen kannst Also die meisten Nobelpreise, und dann konzentrieren wir uns auf den Nobelpreis. Dies sind die Kriterien , die wir besprechen werden. Dann. Jetzt werden wir sehen, wie er abschneidet und wie oder wie viele Nobelpreise USS I das Nobelpreis-Szenario dominiert. Dann visualisieren wir die Dominanz der USA. Dann werden wir den Schaden sehen und Frauen und Männer bekommen den Nobelpreis. Und dann werden wir sehen, wer die erste Frau ist , die den Nobelpreis gewonnen hat. All diese Dinge und noch viel mehr sind da wir werden versuchen, das zu tun. Schlecht, wir machen weiter. Lassen Sie mich Sie durch den Datensatz führen. Wir verwenden also diese Nobel-Punkt-CSV-Datei, die das Ohr hat, in dem der Nobelpreis verliehen wurde. Die Kategorien, verschiedene Kategorien in denen der Nobelpreis den Preisnamen erhalten hat, der Nobelpreis selbst. Dann wird am Freitag der Nobelpreis für Chemie verliehen, Nobelpreis für Literatur Physiologie. All diese Dinge. Okay, das ist also der Name. Die Kategorie wird Chemie sein. Die Polizei von Rachel Madison sagt all diese Dinge voraus. Okay, es gibt also verschiedene Kategorien, in denen sie den Nobelpreis vergeben, okay? Und dann die Motivation, was ist die Motivation dahinter? Geben sie den Nobelpreis für einen bestimmten Teil und den Preis , den sie eins nach einen bestimmten Teil und den Preis , den dem anderen oder eins nach zwei hip sind, gibt es mehr als eine die den Nobelpreis für dieselbe Person erhält Schnitte sind irgendwo eins nach dem anderen. Es werden zwei Personen sein. Da. Es waren jeweils zwei Personen derselben Kategorie. Der Nobelpreis wird also zur Hälfte geteilt. Okay? Das ist also ein Tablett nach dem anderen. Dann kannst du irgendwo eins nach vier sehen. Okay, das ist also der Preis dort. Also, wie viele Leute werden in derselben Kategorie gefangen , zum gleichen Preis. Dann Laura Tidy, jeder, der den Nobelpreis erhalten hat , den er bekommen wird, bekommt viel davon Und dann die Art der Lotterie, es wird individuell oder organisatorisch sein. Es wird so sein, wenn die Organisation den ganzen Kuchen bekommt, dann wird es die Organisation sein. Und wenn es sich um einen einzelnen Teil handelt, wird es individuell sein. Im Grunde gibt es also zwei Arten von Menschen , die eine Einzelperson und eine Organisation gründen. Dann der vollständige Name des Teils der Organisation, wohingegen der Nobelpreis als der Barrenpreis heute höher als der Barren bis heute. Dann die Stadt dieses bestimmten Teils, das Geburtsland und dann das Geschlecht, männlich, weiblich oder was auch immer. Und dann der Name der Organisation. Es, Parson waschen oder verkaufen ist der Name der Organisation als er ist. Du hast es rausgebracht. Madison ist hervorragend , nett gemacht und die Stadt des majestätischen Landes benannt und organisiert. Das Datum, an dem diese Person abgelaufen ist, und diese Stadt und dieses Land. All diese Spalten sind also in dieser neuartigen Punkt-CSV-Datei enthalten. Wir werden analysieren. Okay, also lass uns anfangen. Lassen Sie mich Ihnen also etwas über Obst erzählen, Dinge über den Nobelpreis. Also die Nobelpreise, haben aber die weltweit bekannteste wissenschaftliche Auszeichnung, mit Ausnahme der Ehre, des Prestiges und des beachtlichen Preisgeldes. Der Empfänger unter 33 bis 896 Jahren, der den Aktienkurs festlegte. Jedes Jahr. Er wird Wissenschaftlern und Gelehrten in den Kategorien Chemie, Literatur, Physik, Physiologie oder Medizin, Wirtschaftswissenschaften und Frieden verliehen Gelehrten in den Kategorien Chemie, Literatur, Physik, Physiologie oder Medizin, Wirtschaftswissenschaften und Frieden Dies sind die Kategorien, in denen der Nobelpreis den letzten Jahrzehnten verliehen wird und verliehen wird. Der Post-Nobelpreis wurde 1.901 verliehen. Der Nobelpreis wurde also 1.901 ins Leben gerufen. Und zu dieser Zeit war der Preis wirklich eurozentrisch und männlich ausgerichtet, aber heute ist er in keiner Weise voreingenommen Das ist also die Geschichte hinter dem Nobelpreis. Und jetzt werden wir herausfinden, die Nobelpreisstiftung Datensätze für alle Preisträger zur Verfügung stellt. Das ist also der Nobel-Datensatz allen Preisträgern zur Verfügung steht. Das ist also der Nobel Notch CSP, 1901-2016. Als erstes müssen wir den Datensatz laden. Der Name des Datensatzes ist also Novel oder CSP. Also verwenden wir Read Underscore CSP und wir lesen das und dann kommen wir, der Kopf wird passieren Dies sind Datensätze für die Kopffunktion der neuartigen Schriftarten. Und wir werden sehen, wie viele , wie diese Daten aussehen. Dafür gehen wir zur Bibliothek mit aufgeräumten Versen, also notieren wir uns auch diese Bibliothek Wenn wir das ausführen, können wir den Clip-Up-Datensatz abrufen. Also wir sehen uns überhaupt. Wir haben in der CSV-Datei hier bereits die Kategorie Preis und dann die Spalte Motivation gesehen . Dann der Preis hier, Laura Tidy Laura-Typ, FullName, Geburtsrecht, aber Datum, aber Stadt, Sexuelle Organisation. Also all diese Informationen sind da drin. Nach dem Laden können wir also auch über unsere auf diese Informationen zugreifen . Als Nächstes werden wir herausfinden, wer alle Gebete erledigt hat. Wenn wir uns nur die ersten paar bestätigten Preisträger unter den Nobelpreisträgern ansehen, wie die auch genannt werden, sehen wir bereits, eine Berühmtheit wird Conrad Rontgen haben , der die Röntgenstrahlung entdeckte Und tatsächlich sehen wir, dass alle ausgestorben sind. Alle Gewinner von In Nitrogen Leute, die aus Europa kamen, seit es in Europa gegründet wurde. Also der ganze Amino-Schweiß , der aus den, aus den USA, aber das war schon 1.901 Betrachtet man alle Gewinner, ist der Datensatz 1.901 bis 1966 und die reichen Länder am häufigsten vertreten Das werden wir beenden. Das Land des Gewinners als kleines Land gilt nicht für alle angegebenen Preise bei uns. Okay? zählen wird also ziemlich einfach sein, die Anzahl der verliehenen Nobelpreise von 1901-2016 zu Wir verwenden den Datensatz Nobel und verwenden den Pipe-Operator und wir zählen mit der Zählfunktion. Okay? Und dann wird die Anzahl der Preise gezählt, einer nach den männlichen und weiblichen Empfängern. Also verwenden wir Roman und zählen dann auf der Grundlage dieser sechs, sodass wir die Geschlechterzahl für Männer und Frauen getrennt voneinander erhalten. Wenn wir dann die Anzahl der Preise zählen, die verschiedenen Nationalitäten gehören , wird das Land berechnet, das der Helfer gekauft hat Und dann fügen wir die Verletzten in absteigender Reihenfolge hinzu. Und wir werden uns das erste Term T ansehen. Okay, lassen Sie uns das durchgehen. Sieh dir das Land an. Vereinigte Staaten weiter zu Personen neun, Großbritannien, 85, Frankreich, Deutschland, wie T1, Frankreich für P13, dass 29. Und dieses Land keine spezifizierten 26, Japan Grundy für Kanada bei, in der Linse sind es normalerweise 17. Und dann können wir hier das Verhältnis von Männern und Frauen sehen. Also hat man bis jetzt 49 Frauen angehoben, bis 2.016,8. 39 haben möglicherweise den Nobelpreis gewonnen und 26, Geschlecht ist unbekannt. Okay? Als Nächstes können Sie sehen, dass insgesamt 911 Personen den Nobelpreis erhalten haben. Darin waren 36, der Mann und 49 oder das Weibchen, und 2067 oder gaben ihr Geschlecht an Okay. Wir bei der Preisgestaltung, vielleicht die häufigste Warnung. Sie machen 1.901 bis zweimal 15 war ein Mann, der in den Vereinigten Staaten von Amerika geboren Aber alles in allem, wo das europäische Brot lachte, fingen die USA an. Also, bevor wir mit dem Nobelpreis begannen, waren alle Gewinner aus Europa, aber langsam, sagen Sie, hat Amerika das Ruder übernommen. Sie dominierten die Nobelpreis-Charts. Also lass uns sehen. Hier berechnen wir also den Anteil der US One-Gewinner pro Jahrzehnt. Bisher wird das diese Requisite mit uns unterstreichen, unterstreichen Und wir verwenden den Datensatz Nobel, sogar den Pipe-Operator und werden mutieren den USA geborener Gewinner ist gleich Geburtsland Und hier werden wir den Stolz der Vereinigten Staaten von Amerika auf Geburtenkontrolle legen. Und sie werden sie benutzen, geteilt durch zehn in hundert. Und wir verwenden die bodengeschrumpfte Zelle. also 200 besuchen, verwenden wir die Etage, funktionale Gruppe nach Jahrzehnt, verwenden wird, um die zu bekommen, dann fassen Der Anteil, der der durchschnittlichen US-Anleihe entspricht, wird dies nicht tun. Und eine Information, die wahr ist. Also lass uns das ausführen. Sehen Sie Ihren Wert in 19091900, der Anteil von uns sagt, dass der Gewinn bei 0,07 von 19 liegt und dann ist er um 2,078 gestiegen 1920, 0,70, 741.932,25% Daten und 40,32, 92,299, 290,14 plus Zahnärzte. Und insgesamt unterrichtest du vor 4321 EGN 1030. Jetzt. Und dann verwenden wir das GG-Plot , um den Anteil aufzuzeigen , der uns gerettet hat. Und dafür verwenden wir das Zwerchfell und übergeben es an das DD Plot und Ästhetik für Ästhetik überprüft, X-Achse wird nicht sterben Jahrzehnt und Y-Achse wird das Verhältnis zwischen Frauen angeben Und wir verlieren die Funktion „Geom-Unterstrich neun Linien“, um die Punkte zu zeichnen Menschen könnten zeigen , um die Punkte zu ziehen. Skalenunterstrich durch fortlaufende Stufen entspricht Skalen Spalte, Spalte Prozentgrenze X1, X1 Null, weniger als diese. Und sieh hier, jetzt kannst du ein Partikel sehen. Wie es läuft. Als Nächstes stellt sich die Frage, welches Geschlecht hat ein typischer Nobelpreis? Als Nächstes stellt sich die Frage, welches Geschlecht hat ein typischer Nobelpreisträger? Dazu berechnen wir den Anteil weiblicher Preisträger pro Dekadenprodukt Wir verwenden eine Requisite, um den Gewinner aus der Variablen hier und dem Nobel-Datensatz zu entschlüsseln und zu unterstreichen aus der Variablen hier Und wir werden die Mutationsfunktion verwenden. Weiblicher Underscore-Gewinner. Du nennst zwei Geschlechter gleich weiblich. Und take it floor wird durch zehn durch zehn geteilt. Und wir schließen den Pipe Operator und dann gehen wir nach Jahrzehnt und Kategorie nach oben und fassen zusammen Bei Bestehen entspricht der Anteil dem durchschnittlichen Premiersieger und den Daten von zwei. Und dann zeichnen wir das Verhältnis auf, das Freeman Lauric dafür vorhergesagt hat, wird dieses Verhältnis übertreffen D, D Unterstrich fallen lassen. Underscore wird die einfache Handlung aus einiger Ästhetik nicht machen , ich verwende X, X Quadrat von Y. X ist vier. Anzahl der Gewinner und Farbe werden die Kategorie sein, die auf der Kategorie basiert. Also lass uns das ausprobieren und sehen. Jetzt siehst du hier auf der X-Achse, die Katzen wurden geplottet und auf der Y-Achse wurden Chemie, Wirtschaftswissenschaften oder die Kategorie durcheinander gebracht Und jetzt werden wir sehen, wie viele andere Wiederholungen oder Gewinner das bisher gemacht haben, lass mich dir das zeigen. Hier verwenden wir den Roman über Data Frame. Und es tut es und wir verwenden count gleich Fullname und Filter Wenn N größer als eins ist, gerade Anzahl der Vorkommnisse mehr als eins, dann zählen wir, zählen Verstehe das. Es gibt mindestens sechs Personen, die Nobelpreis erhalten haben mehr als zwei oder zwei oder mehr als zweimal den Nobelpreis erhalten haben. Also okay. Maddie fragt die Zeit ab und Lena hat zweimal Blütenstaub verloren. Ausschuss für internationales Recht, internationale Gemeinschaft des Roten Kreuzes oder dreimal. Nun, wie alt sind Sie, wenn Sie den Nobelpreis erhalten und die wiederholten Gewinner in einigen Abbildungen, Name, wir treffen wieder Marty Query Madame Curie, die den Nobelpreis für Physik für die Entdeckung von Strahlung und Chemie für die Isolierung von Medium und Polonium erhalten hat den Nobelpreis für Physik für die Entdeckung von Strahlung und Chemie für die Isolierung von Medium und Isolierung John hat zweimal Exporttransistoren und Supraleitfähigkeit im Kühlschrank . Frederick Sanger Sanger hat es zweimal in der Chemie erwischt. Linus Pauling hat es als Erster in Sachen Chemie und Schriftzug für jedes Werk in der Werbung für dieses Kleidungsstück, Mann und diesen aktuellen Moment Und wir lernen auch diese Organisation, dass auch Preise untergeordnet sind und man es immer noch nicht verstanden hat, Preis Also lass es mich dir zeigen. Benutze das Schmiermittel. Schmieren. Sorry, hier ist das Lubridate-Paket nicht geschmiert Und hier berechnen wir das E, das die Nobelpreisträger hatten. Also neu und dann mutieren ist gleich minus Ära. Aber dann zeichnen wir das Parsing dieses DataFrame und Aesthetic wird jahrelang Export As und Ehefrau verwenden Und mit dem Handfall-Geom-Punkt und den Geometern zeichnen wir diese Lektion, bekommen, sogar klein diese Lektion wir Als nächstes gibt es einen Unterschied zwischen den Preiskategorien. Plot hat das also oft gesehen. Wir sehen, dass Menschen, die früher etwa vier bis fünf Jahre dort waren, am Tag aufrecht sitzen Heutzutage liegt der Durchschnitt deutlich bei 65, aber in den Theatern gibt es eine große Streuung in den Theatern die am besten geeignet sind, plus jemanden, der sehr jung ist. Und Sie sehen auch, dass die Preise von City ernennen heute viel höher sind als in den frühen 90ern, heute viele höher als in den frühen 90ern, heute sind viel mehr Preise festgelegt, sodass es viel mehr Gewinner gibt Wir sehen auch, dass die Preisveränderung um den zweiten Waschgang herum, Zweiten Weltkrieg 1939 bis 1943, erfolgte. Der Nobelroman unterstreicht das Alter und die Ästhetik X, Y. Und lassen Sie uns das ändern. Sehen Sie, wie unterschiedliche Kategorien, wie sich das Alter auf Chemie, Wirtschaft und Recht auswirkt. Sie versuchen, Kind kann Geld, Gebühren und Vorhersagen, Medizin, Frieden und Vorhersagen oder weniger als und jüngster Gewinner erhalten Gebühren und Vorhersagen, Medizin, Frieden und Vorhersagen oder weniger als und jüngster Also versuchen wir herauszufinden, dass das Loch das älteste und gleichzeitig das jüngste war . Lassen Sie uns hier das Büro als Kategorie für Kategorie Bauchpreis verwenden . Sie können das also für Chemie sehen und das ist für Wirtschaftswissenschaften, für Literatur, für Medizin und Physik. Dann sind weniger als die von Angular in beiden Diagrammen mit vielen Cyclinen im Gange Wir sehen, dass die Boltzmann-Pflege, Chemie und Medizin im Laufe der Zeit älter geworden sind Der Trend ist am stärksten, obwohl prognostiziert wird, dass Diabetes bei Ihnen im Alter von 50 Jahren Und jetzt die Literatur und Wirtschaft oder besser gesagt Tabelle. Und wir sehen auch, dass Wirtschaftswissenschaften in eine neuere Kategorie fallen, aber auf der Grundlage eines Projekts werden zehn erfahrene Krankenschwestern jünger. Die Kategorie Adipositas, wir auch diese Kategorie waren wir auch nicht um 2010 herum, die scheint fast jung zu sein Das wirft die Frage bei etwa zwei und dann die gleiche Frage auf, außer stinkend jung, das wirft die Frage auf, wer sind die oder weniger als die jüngsten Personen , die je dann die gleiche Frage auf, außer stinkend jung, das wirft die Frage auf, wer sind die oder weniger als die jüngsten Personen , die je einen Nobelpreis erhalten haben. Dafür verwenden wir also die neuartige Altersvariable Unterstrich, aber über dem oberen Unterstrich ergibt N eins und dann wird es Und dann für den oberen Unterstrich N1, absteigend. Okay, lassen Sie uns das ausführen. Wir sehen uns. In der Kategorie „ Stücke“ 2014. Der Nobelpreis wurde an Sie verliehen Der Nobelpreis wurde Ihnen verliehen. Also Malala. Malala ist zwei J und C waren erst 17 Jahre alt, als ihm gesagt wurde, dass er erst sieben Jahre alt war. Unterdrückung von Kindern und Jugendlichen für das Recht aller Kinder auf Bildung Und CSIA, der Preis bei ihnen, eins. Sehen Sie, wie Data Partition im Juli 1997 war und 17 Jahre alt war. C ist also der jüngste, und hier ist unsere Liste 1 insgesamt und sieben Wirtschaftswissenschaften Der Sparkassenpreis für Wirtschaftswissenschaften zeichnet insgesamt sieben , weil sie den Grundstein für einen Mechanismus gelegt haben , der theoretisch, und er sagte die drei anderen Gruppen zu anderen Leuten. Und ihr Name war Leonardo Harvest und er erhielt vorerst den Nobelpreis. Und im Alter von 90 Jahren erhielt er Dahmer-Nobelpreis und er kam aus Amerika Und Malala Yousafzai kam aus Pakistan. Dieser Weg hat uns nicht gefallen oder weniger als aus Pakistan. Auf diese Weise haben wir den jüngsten Nobelpreisträger nicht oder weniger gemocht . Sie können den Nobelpreisträger anbieten. Sie können einige weitere Punkte finden und diese analysieren. Ich hoffe, du hast verstanden, wie wir visualisieren können und später Später. Danke. 120. Projekt 12: Passwortstärke mit R finden: Hallo und willkommen zurück. In dieser Vorlesung werden wir ein weiteres Projekt durchführen , in dem wir die Passwortstärke mithilfe von odd ermitteln werden. Wie wir wissen, ziemlich beliebtes Programmiersprachenprojekt und das ist seltsam. Manchmal müssen wir auch die Passwortstärke messen. In diesem Fall können Sie diese Übung verwenden. Also lass uns sehen. In diesem Projekt werden wir also die Rollen der NIST-Sonderveröffentlichung 863 erreichen Was tritt der Prüfer sekundäre Partei , der für die Speicherung verantwortlich ist und richtig getrunken hat Passwort viel bekannt als Körperfett Es dient dazu, sicherzustellen, dass Sie kein schlechtes Passwort wählen. Wir werden die Passwörter der Benutzer durchgehen. Was sind repariert ein kleines Unternehmen und verwenden unsere, um zu kennzeichnen, dass Sie nur mit einem schlechten Passwort. Aber da dies bereits möglich ist, bedeutet dies, dass das Festnetzunternehmen 800 US-Dollar abgibt. Ich konsequent. Aber wenn ich den auswendig gespeicherten, heiligen Zellspeicher hinzufüge , sind das zehn zu Offline-Angriffen Merken Sie sich die Christelle, die mit der Tabelle gestartet wurde und hatte, eine Einwegfunktion zur Schlüsselableitung Das heißt nie, Sie speichern nur das Passwort in Klartexten, verschlüsseln Sie die Passwörter immer Wenn wir dies für das nächste Mal berücksichtigen sind wir bereit, ein Passwort-Management-System zu verwenden. Laden wir diese Daten. Die Liste der Passwörter und die feste oder eingeschränkte Datenbank. Beide Inhalte, echter Passwort-Link von einer echten Website. Dieses Passwort wurde in keiner Weise gefiltert und nicht in CloudWatch-Daten exfiltriert Das ist also nur zum Wollen. Okay, laden wir die CSV-Datei hier. Wir werden hier die Bibliothek mit aufgeräumten Versen verwenden. Also lass mich einfach, okay. Also laden wir zuerst die Bibliothek, die Bibliothek, und dann müssen wir die CSV-Datei lesen , in der all Ihre Jut-Daten gespeichert wurden. Wir verwenden Sie, um einfach die CSV-Datei zu starten. Ja. Und wir bewahren Sie nur als Wertvolles auf. zählen, wie viele du gerade in der Reha bekommen hast verwenden wir die Endrew-Funktion und geben dir das Und dann drucken wir den ersten Vorabdruck. Sehen wir uns die Daten an. Das ist also die Jahres-ID, der Benutzername und das Passwort. Das ist also die Ding-Dateidatenbank , die die Benutzer-ID, den Benutzernamen und das Passwort enthält. Okay? Es gibt also 982 Raj, okay, unbearbeitete zwei Zeilen oder das Jetzt werden wir überprüfen, ob das Passwort nicht sein sollte. Zu lösen. Das ist eine Regel. Wenn wir uns also die ersten Preprint-Benutzer ansehen, sehen wir bereits einige schlechte Passwörter Dieses Passwort ist schlecht, dieses Passwort ist schlecht. Dieses Passwort ist auch zurück. Fast alle Passwörter in diesen Rollen sind schlecht, oder? Aber lassen Sie uns nicht voreilig sein. Kann anfangen, das Passwort manuell zu kennzeichnen. Was ist das Erste, was wir nach der Sonderveröffentlichung des NIST, 800 C3b, sortieren der Sonderveröffentlichung des NIST, 800 C3b, , wenn die ersten Mobilfunkanfragen Suzanne, präge dir Secret mit einer Länge von mindestens acht Zeichen ein Okay, das Passwort der Benutzer sollte also nicht zu sortieren sein. Lassen Sie uns damit beginnen, das zu überprüfen. Also, was wir tun werden, wir überprüfen die Länge des Passworts. Das Erste. Dafür erstelle ich eine riesige Länge, eine Variable, und hier verwende ich die STR-Unterstrichlänge Überprüfe die Länge des Passworts hier. Ich überprüfe den Längenteil, du gehst einfach zur Gebärmutter und Datensatz und zum Passwort und überprüfe, wie lang das Passwort ist. Okay. Okay. Also und das hat Alice in der gesagt, du leihst einfach und dann erstelle ich eine weitere Variable, die du einfach sortierst, um zu sortieren. Er hat es sortiert, wann es beginnen soll, wenn Sie diese Länge gerade verlängern. Die Länge, die wir aus dem Passwort-Feld berechnet haben. Wenn das weniger als acht sind, markieren wir das zur Sortierung, okay? Und dann drucken wir die Summe bis zur Quelle. Wie viele gibt es? Werde es zusammenfassen und drucken. Okay, lassen Sie uns das ausführen. Wir sehen uns also, es gibt 376 Passwörter in dieser Datenbank, diesem Datensatz , der weniger als acht Zeichen sortieren muss und sieht, dass Sie falsch sortieren. Das sind mehr als acht Zeichen, 3368. Das ist auch, das ist wahr. Das sind also sieben Zeichen, sechs Zeichen. Diese WeChat-Passwörter mit weniger als acht Zeichen sind also als Tool zum Sortieren nach L2 gekennzeichnet Okay, jetzt haben wir die Möglichkeit, das Passwort mit weniger als acht Zeichen zu markieren das Passwort mit weniger als acht Zeichen Als nächstes überprüfen wir gängige Passwörter. Die Leute unterstützen das sehr. Wir werden die Liste mit 10 Millionen Passwörtern verwenden Okay, also überprüfen wir anhand dieser Liste, ob das Passwort aus dieser Liste stammt oder nicht. Okay. Also schon diese Musterregel, ein paar Straftäter unter den ersten 12 Sonderveröffentlichungen am nächsten Tag, es ist eine SSD drei V's die Rolle, dass, wenn Sie feuern, verkaufen, die potenziellen Geheimnisse mit der Liste vergleichen, die Inhalte von Werten, von denen bekannt ist, dass sie häufig verwendet werden, erwartet oder kompromittiert wurden, bevor sie von den vorherigen Okay. Das ist also der Teil Deja, das übliche Passwort, das die Leute benutzen, das durchgesickert Wörterbuchwörter wiederholten sich also über Sekunden. Wir werden Charaktere haben Zugriff auf bestimmte Wörter, wie Name des Dienstes, Nutzername, Ableitung Okay, all diese, denk darüber nach. Für ein allgemeines Passwort. Wir werden die Zeilen dieser Datei lesen, das ist eine TXT-Datei mit 10 Millionen Passwortlisten. Und dann sehen wir uns die allgemeine Passwortliste an. Okay, also nur in dieser Liste. Das sind also die üblichen Passwörter wie 123456 oder jemand könnte Passwort ist gleich Passwort I 1234530 Okay, also all diese Superman, alle Jada und Jennifer, Jolly Das ist also das übliche Passwort , das die Leute verwenden. Also haben wir breit verkauft. Sie speichern Passwörter, die nicht das übliche Passwort sein sollten. Wie überprüfen wir das? Wir müssen also alle Passwörter in unserer Benutzerdatenbank kennzeichnen , die zu den besten, intelligentesten gehören. Das bereits verwendete Passwort ist das übliche Passwort, okay. Dafür verwende ich, ich erstelle eine Variable namens Dollar Common Passwords. Also erstelle ich ein Feld namens allgemeines Passwort in der Benutzerdatenbank. Und das ist der Fall, wenn das Passwort in diesem allgemeinen Passwort, das Passwort in diesem allgemeinen Passwort enthalten ist. Okay? Wenn Sie das Passwort innerhalb des allgemeinen Passworts angeben, wird es als allgemeines Passwort gekennzeichnet und dann werden wir sehen, wie viele gängige Passwörter es gibt. Also lass uns sehen. Sehen Sie sich also Ihre 129 Passwörter in unserer Datenbank oder die häufig verwendeten Passwörter an. Sehen Sie hier. Dies sind die gängigen Password March Tom Murphy Okay, jetzt haben wir ein gemeinsames Passwort gefunden. Als Nächstes werden wir sehen, wie wir das als Passwort annehmen können oder nicht, denn Passwörter sind kein sehr verbreitetes Passwort, oder? Soweit werden wir eine Variable schlechter erstellen und Zeilen aus den 10.000 englischen Texten von Google lesen . Es ist also das Google-Premium-Wodka-Korpus wert , das Google uns gegeben hat, okay, diese Datei, und dann werden wir sehen, ob die Leute in ihrem Passwort gängige Wörter verwenden Okay? Also verwenden wir den STR-Unterstrich, um die Funktion zu senken, um sie zu senken Und dann überprüfen wir darin ob es da ist oder nicht. Und dann schauen wir auf die Registerkarte „Zusammenfassung“ und finden heraus, wie viele Personen häufig verwendete Wörter verwenden. Passwort. CR1 37-Passwörter enthalten also gemeinsame Wörter. Okay. Als Nächstes würde das Passwort für das Predicting nicht wiederholt werden Also wie überprüft man das? Also teilen wir uns zuerst das Schlimmste auf. Wir verwenden den STR-Unterstrich und teilen das Passwort auf, okay, und dann wählen wir die maximale Anzahl operativer Wiederholungszeichen für jedes Passwort aus die maximale Anzahl operativer Wiederholungszeichen für jedes Passwort Also erstelle ich maximale Wiederholungen für Unterstriche. Und ich verwende hier die Apply Funktion und gebe das Listen-Passwort hier weiter. Und dann funktioniere, du würdest das Passwort mit einem Unterstrich teilen und Max ist gleich RLE, geteiltes Und dann finden wir die Länge. Und wenn sich zu viele wiederholen, oops, speichere ich darin zu viele Wiederholungen Wenn es mehr als, für, mehr als oder gleich vier ist, entspricht es Mehr, Mehr als oder gleich vier. Okay, dann schließen wir es an. Also sieh hier. Max. Wiederhole bis zum Maximum, wiederhole eins, max. Grad 31. Okay, also was wir jetzt tun werden, ich werde das alles zusammenfügen. Und wir haben alle grundlegenden Geschmäcker pro schlechtem Passwort ausprobiert. Jetzt haben wir ein schlechtes Passwort. Jetzt werden wir sehen, wir werden alles zusammenstellen. Ich erstelle ein wertvolles schlechtes Passwort und prüfe ob es dazu dient, unser gängiges Passwort oder unser gebräuchliches Wort zu sortieren, oder ob zu viele Wiederholungen zu viele Wiederholungen sind Viele Wiederholungen habe ich zweimal hinzugefügt. Okay? Und falls eine dieser Bedingungen zutrifft, kennzeichnen Sie, dass das Passwort ein schlechtes Passwort hat und dann werden wir sehen, wie viele schlechte Passwörter wir erhalten. Mal sehen, Sie sehen, jetzt sehen wir dieses schlechte Passwort und hier wurden nur wenige Passwörter als wahr markiert Falsches Passwort, stimmt. Also dieser Co, das ist das Normale, das ist das gebräuchliche Wort, Commonwealth Diese werden also als Flag Data (schlechtes Passwort) gekennzeichnet. Auf diese Weise können wir mithilfe von odd einen Code schreiben , um das schlechte Passwort oder die Passwortstärke zu finden , um das schlechte Passwort oder die Passwortstärke 121. Einführung in das maschinelle Lernen: Hallo und willkommen zurück. In dieser Vorlesung werden wir etwas über maschinelles Lernen lernen. Jetzt haben wir gesehen, wie wir unsere Programmierung für die Datenvisualisierung und Datenanalyse verwenden können . Jetzt, von nun an, werden wir etwas über maschinelles Lernen lernen. Wir beginnen mit den Grundlagen des maschinellen Lernens. Wir werden sehen, wie maschinelles Lernen funktioniert. Was sind die Arten von maschinellem Lernen, was sind die Anwendungen von maschinellem Lernen? Okay, dann werden wir sehen, was der Prozess des maschinellen Lernens ist, wie wir Algorithmen anwenden, wie wir kreieren, modellieren, wie wir bewerten. Okay, lassen Sie uns mit einer Einführung in maschinelles Lernen beginnen und das Potenzial von Daten nutzen Lassen Sie uns mit der Definition von maschinellem Lernen beginnen. datengesteuerten Welt spielen Maschinen eine immer größere Rolle dabei, spielen Maschinen eine immer größere Rolle dabei die riesige Menge an Informationen, die uns zur Verfügung stehen, zu verstehen . Wie Sie wissen, erhalten wir in diesem digitalen Zeitalter jede Sekunde Daten, jede Sekunde Daten, sei es in der Luftfahrtindustrie, sei es in den sozialen Medien überall, in den Unternehmen, im E-Commerce, im Lernen, in der Apotheke, im medizinischen Bereich, überall. Jede Sekunde erhalten wir eine Menge Daten. Diese Daten sind nicht die normalen Daten, die Sie früher in Adim-Tabellen gespeichert haben, sondern es sind große Datenmengen Sie haben kein sehr statisches Format. Sie haben ein sehr dynamisches Format. Es werden Bilder sein, es werden Bilder sein. All diese Dinge, diese dynamischen Daten sind auf herkömmliche Weise sehr schwierig. Maschinelles Lernen ist eine Untergruppe der künstlichen Intelligenz, die sich zu einer transitiven Kraft entwickelt hat , die es Computern ermöglicht, anhand von Daten zu lernen und sich anzupassen und Aufgaben ohne explizite Programmierung auszuführen Da wir nun über eine Menge Daten verfügen, ist es nutzlos, wenn wir nicht in der Lage sind, Informationen aus den Daten zu gewinnen, wenn Sie Tausende von Rückmeldungen von Kunden, Verbrauchern oder Endnutzern wenn wir nicht in der Lage sind, Informationen aus den Daten zu gewinnen, erhalten Rückmeldungen von Kunden oder Und wenn Sie nicht daran arbeiten, wenn Sie nicht wissen, wie man daran arbeitet, dann nützt es nichts, nicht verbessern Mit dem Aufkommen der künstlichen intelligenten Datenwissenschaft, des maschinellen Lernens und der Datenanalyse werden wir unsere Prozesse, unsere Produkte und unsere Dienstleistungen künstlichen intelligenten Datenwissenschaft, des maschinellen Lernens und der Datenanalyse werden wir unsere Prozesse, . Was wir tun können, wir können aus den Daten lernen, wir können die Daten untersuchen und wir können aus den Daten relativ gute Informationen gewinnen. Und wir können uns an die Daten anpassen. Wir können analysieren, wir können anhand der Daten Entscheidungen treffen. In diesem Fall haben wir es früher selbst gemacht, aber dank maschinellem Lernen und künstlicher Intelligenz können wir die Computer jetzt in die Lage versetzen, aus den Daten zu lernen und Aufgaben ohne beschleunigte Programmierung auszuführen Wir müssen das Programm nicht einmal schreiben. Es funktioniert vor dem Verkauf und wir können die Modelle trainieren. Und es wird dazu führen , dass wir weniger verstehen, dass wir maschinelles Lernen etwas detaillierter verstehen. Im Kern geht es beim maschinellen Lernen darum, einen Algorithmus zu entwickeln, der es Computern ermöglicht, aus Daten zu lernen und Entscheidungen oder Vorhersagen auf der Grundlage von technischem Wissen zu treffen. Im Gegensatz zur herkömmlichen Programmierung, bei Menschen Computer explizit anweisen, was zu tun ist, ermöglicht maschinelles Lernen Systemen, ihre Leistung zu verbessern , und zwar unabhängig von Erfahrung. Dies wird durch die folgenden Schlüsselkomponenten erreicht. Die Datenalgorithmen, das Training, die Evaluierung und das Testen des Modells und dann die Bereitstellung. Das sind die Dinge, die wir beim maschinellen Lernen tun. Zuerst erhalten wir die Daten, dann wenden wir auf diese Daten Algorithmen an, dann trainieren wir und dann evaluieren und testen wir das Modell. Und wenn dem Modell dann die erforderlichen Ergebnisse und Ergebnisse gegeben werden, setzen wir es auf der Grundlage der Daten in einwandfreier Produktion ein. Daten sind der Lebensnerv des maschinellen Lernens. Wenn es keine Daten gibt, gibt es kein maschinelles Lernen, es gibt Denn maschinelles Lernen, KI-Datenwissenschaft, alles hängt von den Daten ab. Jede Menge Daten. Die Daten dort werden noch nützlicher sein, es wird effizientes maschinelles Lernen, künstliche Intelligenz, tiefes Lernen sein . All diese Dinge hängen alle von den Daten ab. Daten sind das Blut des maschinellen Lernens. Wenn sie nicht vorhanden sind, wird maschinelles Lernen nicht funktionieren, Algorithmen werden nicht laufen. Algorithmen lernen Muster und Beziehungen aus historischen oder Echtzeitdaten, was als Trainingsgrundlage für diese Systeme dient, Algorithmen, die wir lernen und anwenden. Sie lernen aus dem Algorithmusmuster und der Beziehung zu den Daten, die wir zum Trainieren von Modellen für maschinelles Lernen verwenden. Wenn die neuen Daten verfügbar sind, werden sie also auf der Grundlage der historischen Daten, auf denen wir das System trainiert haben, Vorhersagen treffen . Die Qualität und Quantität der Daten sind entscheidende Faktoren für den Erfolg des Modells des maschinellen Lernens. Die Daten, die wir erhalten, sollten aussagekräftig sein. Wenn Daten nicht aussagekräftig sind, Daten nicht verbessert werden, Daten sehr klar sind, dann werden Modelle für maschinelles Lernen nicht sehr vage sein Zuerst müssen wir an den Daten arbeiten. Die Daten sollten sehr sauber und präzise sein, damit Modelle für maschinelles Lernen effektiv funktionieren. Algorithmusalgorithmus und Algorithmen für maschinelles Lernen sind mathematische Engines , die Daten verarbeiten. Algorithmen stecken tatsächlich hinter der Mathematik. Sie arbeiten an den Daten und verarbeiten die Daten, identifizieren die Muster in den Daten und treffen dann auf der Grundlage dieser Muster die Vorhersagen oder Entscheidungen. Diese Algorithmen können in verschiedene Typen eingeteilt werden , darunter überwachtes, unbeaufsichtigtes Lernen und verstärkendes Lernen, jeweils für unterschiedliche Aufgaben geeignet Algorithmen und wie sie aus den Daten lernen, wie sie aus den Daten lernen, sie lesen, sind verschiedene Typen, die wir lernen werden, während wir uns die verschiedenen Arten des Lernens ansehen werden die verschiedenen Arten des Lernens ansehen Okay. Was ist das Modelltraining? Während des Trainings wird das Modell des maschinellen Lernens mit Daten konfrontiert und lernt, Muster zu erkennen. Alle Daten werden ein bestimmtes Muster aufweisen. Wenn Sie sich die Lern-Websites ansehen sie die Daten sammeln, werden sie feststellen, dass der Benutzer auf die Website kommt. Sie klicken dann auf etwas, je nachdem ob sie ein Brot kaufen, das sie kaufen, aber sie kaufen Zucker, sie kaufen das E, die Algorithmen oder das Modell des maschinellen Lernens. Wenn es die Daten erreicht hat, hat es die Daten erreicht, es wird dieses Muster erkennen. Wenn eine Person ein Brot kauft, kauft die Person auch die Butter Beim Kauf von Brot und Butter ist es auch, wenn er den Tee kauft, kauft er auch den Milchzucker Dies ist das Muster, das vom Modell erkannt wird. Und dann passt das Modell seinen Parameter an, um den Fehler oder die Abweichung vom erwarteten Ergebnis zu minimieren . Evaluierung und Testen. Evaluierung und Prüfung. Nach dem Training wird das Modell evaluiert. Wenn das Modell trainiert ist, wird das Modell anhand des separaten Datensatzes bewertet. Angenommen, wir haben einen Datensatz, dann trainieren wir unser Modell anhand dieses bestimmten Datensatzes. Und wir sagen, dass sie das Muster erkennen, wie Brad, wenn jemand Brad kauft, kauft er Aber wir müssen vorhersagen, was der Nutzer als Nächstes kaufen kann. Was wird Verhalten sein, welches Produkt können wir ihm nähen. Wir trainieren an einem Datensatz und dann probieren und bewerten wir das Modell anhand eines anderen Datensatzes, sodass wir seine Leistung und Generalisierungsfähigkeit kennenlernen können seine Leistung und Generalisierungsfähigkeit sind häufig Feinabstimmungen und Optimierungen Zur Verbesserung der Genauigkeit sind häufig Feinabstimmungen und Optimierungen erforderlich Danach optimieren wir das Modell und optimieren das Modell und die Algorithmen, um die Genauigkeit der Modellbereitstellung für maschinelles Lernen zu verbessern . Sobald das Modell zuverlässig ist, kann es in realen Anwendungen eingesetzt werden , um Vorhersagen zu treffen, Entscheidungen zu automatisieren und Empfehlungen abzugeben. Sie wären auf all diese Dinge gestoßen , wie bei Amazon Flip Card Way. Wenn Sie sehen, wann Sie ein Produkt kaufen, das System automatisch neue empfiehlt Ihnen das System automatisch neue Produkte, die auf Ihrem bisherigen Verhalten oder dem vorherigen Produkt, das Sie gekauft haben, basieren auf Ihrem bisherigen Verhalten oder dem vorherigen Produkt, das Sie gekauft haben Es empfiehlt Ihnen neue Produkte , wenn Sie Netflix schauen. Wenn Sie sich einen Comedy-Film ansehen, wenn Sie das nächste Mal zu Netflix gehen. Fangen Sie an, Ihnen die neuen Comedy-Filme zu empfehlen, oder? Es hat dein Muster erkannt, es auf Modellen des maschinellen Lernens anzusehen , hinter Netflix, Amazon, all diesen Dingen, fangen sie an, dir die neuen Produkte, Filme und all diese Dinge zu empfehlen , okay? Was sind die Anwendungen des maschinellen Lernens? Maschinelles Lernen hat in einer Vielzahl von Branchen und Bereichen Anwendung gefunden und die Art und Weise, wie wir verschiedene Aufgaben angehen, revolutioniert Hier sind einige bemerkenswerte Sprünge. Wir setzen maschinelles Lernen im Gesundheitswesen ein. Maschinelles Lernen, Diagnoseplanung, Wirkstoffforschung und personalisierte Medizin durch Analyse von medizinischen Daten, Bildern und Genomsequenzen Im Finanzbereich unterstützt es Algorithmen zur Betrugserkennung, algorithmischen Handel, Kreditbewertung und Risikobewertung und unterstützt Finanzinstitute dabei, datengestützte Entscheidungen im E-Commerce zu datengestützte Entscheidungen im Empfehlungssysteme , über die ich bereits gesprochen habe, nutzen maschinelles Lernen, um Produkte und ein personalisiertes Einkaufserlebnis vorzuschlagen und die Preisstrategie zu optimieren Autonome Fahrzeuge, maschinelles Lernen ist ein integraler Bestandteil selbstfahrender ermöglicht es ihnen, Informationen und Momente wahrzunehmen, Entscheidungen zu treffen und sicher zu navigieren Ein Beispiel ermöglicht es ihnen, Informationen und Momente wahrzunehmen, Entscheidungen zu treffen und sicher zu navigieren. Zu den Anwendungen in den Bereichen natürliche Sprachverarbeitung, NLP und LP gehören Sprachübersetzung, Stimmungsanalyse, Chatboards und Sprachkommunikation, wodurch die Interaktion zwischen Mensch und Computer reibungsloser wird und L of Create heutzutage genutzt Fertigung, vorausschauende Wartung und Qualitätskontrolle werden durch maschinelles Lernen verbessert Reduzierung von Ausfallzeiten und Defekten in Produktionsprozessen. Umweltwissenschaften und maschinelles Lernen werden zur Klimamodellierung, Vorhersage von Umwelttrends und zur Analyse ökologischer Daten Die Bedeutung des maschinellen Lernens geht über seine Erläuterungen hinaus Es hat das Potenzial, die Entscheidungsfindung zu beschleunigen , die Effizienz zu steigern, Erkenntnisse zu gewinnen, Ihre Erfahrung und Innovation zu personalisieren Maschinelles Lernen fördert Innovationen indem es neue Möglichkeiten in Bereichen wie Robotik, virtuelle Realität und erweiterte Realität eröffnet in Bereichen wie Robotik, virtuelle Realität und erweiterte Realität können wir die neuen Erkenntnisse Mithilfe von maschinellem Lernen können wir die neuen Erkenntnisse aus den Daten Wir kommen zu dem Schluss, dass maschinelles Lernen einen vermeintlichen technologischen Fortschritt darstellt. Das bedeutet, Branchen umzugestalten, Innovationen zu fördern und Entscheidungsprozesse zu verbessern , wenn Daten immer umfangreicher und komplexer werden Maschinelles Lernen wird eine immer zentralere Rolle bei der Gewinnung von Mehrwert und Intelligenz aus dieser datenreichen Welt spielen bei der Gewinnung von Mehrwert und Intelligenz aus dieser datenreichen Je tiefer wir in dieses Gebiet eintauchen, werden wir die verschiedenen Techniken, Algorithmen und Anwendungen untersuchen detaillierter werden wir die verschiedenen Techniken, Algorithmen und Anwendungen untersuchen, das volle Potenzial des maschinellen Lernens auszuschöpfen Am Ende dieser Vorlesung werden wir in den kommenden Vorlesungen mehr über maschinelles Lernen erfahren. Danke. 122. Die Rolle des maschinellen Lernens: Hallo und willkommen zurück. In dieser Vorlesung werden wir etwas über die Rolle des maschinellen Lernens in der Datenwissenschaft und der künstlichen Intelligenz lernen, Daten in Erkenntnisse umgewandelt werden. Wir haben bereits etwas über die Grundlagen der Datenwissenschaft und des maschinellen Lernens gelernt , aber wir werden kaum verstehen, wie wir die Daten mithilfe von maschinellem Lernen und künstlicher Intelligenz visualisieren können . Und welche Bedeutung haben Daten in diesen Bereichen? Datenwissenschaft und künstliche Intelligenz, zwei der transformativsten Bereiche in der modernen Technologielandschaft In diesen Bereichen spielt maschinelles Lernen eine entscheidende Rolle bei der Gewinnung zugänglicher Erkenntnisse, Automatisierung von Prozessen und der Bereitstellung von Daten als Grundlage für die Entscheidungsfindung . In dieser Vorlesung werden wir die komplizierte, komplizierte Beziehung zwischen maschinellem Lernen, Datenwissenschaft und KI untersuchen komplizierte Beziehung zwischen maschinellem Lernen, Datenwissenschaft und untersuchen, wie sie zusammen zur technologischen Entwicklung beitragen Datenwissenschaft ist ein interdisziplinäres Gebiet , das verschiedene Techniken und Prozesse kombiniert, um Wissensstandorte aus strukturierten und unstrukturierten Daten zu extrahieren aus strukturierten und unstrukturierten Lassen Sie mich Ihnen ein wenig Klarheit über strukturierte, unstrukturierte Daten Strukturierte Daten sind Daten, die so strukturiert sind, dass wir die vordefinierten Dinge zum Speichern der Daten haben , wie wir es in der Eiszapfendatenbank oder der traditionellen relationalen Datenbank tun oder der traditionellen relationalen Dinge, bei denen wir Dinge definiert haben , wie es einen Namen geben wird, es wird einen geben, es wird eine Adresse geben Es wird das Produkt geben, das er gekauft hat. Das Datum, es wird definiert und in tabellarischer Form. Okay? Und es wird ein Datensatz sein, der definiert wird. Es wird ein Text oder ein Bild sein oder was auch immer es ist, oder? Aber wenn wir uns dieses Ding ansehen, unstrukturierte Daten. Unstrukturierte Daten sind heutzutage aufgrund des Aufkommens der sozialen Medien, des Internets, des elektronischen Handels und der Luftfahrtindustrie sehr verbreitet aufgrund des Aufkommens der sozialen Medien, des Internets, des elektronischen Handels und der Luftfahrtindustrie Überall erhalten wir viele unstrukturierte Daten. Unstrukturierte Datendaten sind nicht definiert. Daten kommen auf verschiedene Arten. Mir gefällt es, manchmal kommen sie in einer Chat-Form. Im Chat teilen wir den Text, wir teilen die Bilder, wir teilen die Bilder. Wir verkaufen die Dateien, wir teilen die Videos, wir teilen die Animationen. Es könnte alles sein. Die Daten sind nicht definiert. Daten sind strukturierter, unstrukturierter Natur. Bei den herkömmlichen Dingen ist es sehr schwierig, Informationen aus den Daten herauszuholen, die Daten zu speichern oder die Daten zu speichern oder aussagekräftige Erkenntnisse aus dem Datenteil Mit Big Data, Datenwissenschaft und maschinellem Lernen mit KI ist es sehr einfach, diese unstrukturierten Daten, die wir aus sozialen Medien, E-Commerce , Websites und unserem Unternehmen erhalten, zu analysieren , zu speichern und Erkenntnisse diese unstrukturierten Daten, die wir aus , aus ihnen Das ist heutzutage ziemlich einfach, Wissen und Erkenntnisse aus den unstrukturierten Daten zu extrahieren , was wir mit der Datenwissenschaft tun Es umfasst eine Vielzahl von Aktivitäten, darunter die Datenerfassung, die Art und Weise, wie wir die Daten sammeln, Datenvorverarbeitung, die Art und Weise, wie wir die Daten vor der Bearbeitung vorverarbeiten, und dann, wie wir die Daten analysieren Das ist der Teil der Datenanalyse, den wir sehen werden , und mit der Datenvisualisierung können die Daten visualisiert Das Hauptziel der Datenwissenschaft besteht darin, Rohdaten in leicht zugängliche Erkenntnisse umzuwandeln und strategische Geschäftsentscheidungen zu dienen. Jedes Unternehmen, das über viele historische Daten verfügt, wenn es nicht aus historischen Daten lernt, wie wir beispielsweise ein Bekleidungsgeschäft betreiben, E-Commerce-Website, auf der wir die Stoffe verkaufen, wissen wir nicht, was wir haben. Die Daten, dass ein Teil des Vorstands, die Produkte, sich nicht verkaufen, einige der Produkte am meisten verkauft werden. Wenn wir diese Informationen nicht aus den vorherigen Daten beziehen, können wir den Kunden das neue Produkt, die neuen Designs, nicht empfehlen . Mithilfe historischer Daten treffen wir die Entscheidungen und können unsere strategischen Strategien sowohl robust als auch leichter zugänglich machen . Okay, die entscheidende Rolle des maschinellen Lernens in der Datenwissenschaft Maschinelles Lernen ist der Teilbereich der KI, der sich auf die Entwicklung von Algorithmen und Modellen konzentriert , die es Computern ermöglichen, zu lernen und Vorhersagen oder Entscheidungen ohne explizit programmiert zu werden So verbessert maschinelles Lernen die Datenwissenschaft, Datenanalyse und Vorhersage Algorithmen für maschinelles Lernen können große Datensätze analysieren, um versteckte Muster, Trends und zentrale Beziehungen zwischen den Daten zu entdecken und zentrale Beziehungen zwischen den Daten Diese Fähigkeit ist entscheidend für die Erstellung von Prognosen, sei es bei Verkaufsprognosen, Prognosen zur Kundenabwanderung oder sogar bei der Zifferndiagnose. In medizinischen Bereichen kann maschinelles Lernen mit automatisierter Datenvorverarbeitung die Datenvorverarbeitungsaufgaben wie fehlende Werte, Imputation, Ausreißererkennung und Merkmalsskalierung automatisieren wie fehlende Werte, Imputation, , wodurch Datenwissenschaftler an Bedeutung, Zeit und Mühe sparen Feature Engineering kann bei Feature-Auswahl und dem Engineering helfen die relevantesten Variablen für produktive Modellierung, Klassifizierung und Clusterbildung zu identifizieren für produktive Modellierung Modelle des maschinellen Lernens wie Dissidenten unterstützen Vektormaschinen Clustering-Algorithmen werden in der Datenwissenschaft häufig für Aufgaben wie Kundensegmentierung und Bildklassifizierung als Empfehlungssystem verwendet in der Datenwissenschaft häufig für Aufgaben wie Kundensegmentierung und Bildklassifizierung als . Wir haben bereits über das System für Filmempfehlungen und . Wir haben bereits über das System für Filmempfehlungen das Produktempfehlungssystem gesprochen das Produktempfehlungssystem Diese Empfehlungssysteme können mit maschinellem Lernen sehr einfach verbessert werden Kollaborative Filter- und inhaltsbasierte Empfehlungssysteme basieren auf maschinellem Lernen bieten Empfehlungen für Personen im E-Commerce und auf Inhaltsplattformen wie Netflix, natürliche Sprache, natürliche Sprache, natürliche Sprachverarbeitung und NLP-Techniken Ein Teil des maschinellen Lernens ermöglicht Stimmungsanalysen, Textklassifizierung und Entwicklung von Chatboards Verbesserung der Daten, um Erkenntnisse aus Textdaten und Datenvisualisierung Maschinelles Lernen kann dabei helfen, interaktive und informative Datenvisualisierungen zu generieren , interaktive und informative Datenvisualisierungen komplexe Erkenntnisse leichter zugänglich zu machen Die Synergie von KI und maschinellem Lernen. Während sich die Datenwissenschaft in erster Linie darauf konzentriert, Erkenntnisse aus Daten zu gewinnen, erweitert KI die Fähigkeiten des maschinellen Lernens, um Aufgaben auszuführen, für die in der Regel menschliche Intelligenz erforderlich Maschinelles Lernen ist die treibende Kraft hinter vielen KI-Anwendungen und ermöglicht es maschinellem Lernen, menschliche kognitive Funktionen nachzuahmen menschliche kognitive Funktionen nachzuahmen So schließt maschinelles Lernen die Lücke zwischen Datenwissenschaft und KI-gestützter Automatisierung Algorithmen für maschinelles Lernen automatisieren verschiedene Statistiken, verschiedene Aufgaben, von der Bilderkennung in autonomen Fahrzeugen bis hin zur Sprachübersetzung in Chatboards. machen KI-Anwendungen mit Hilfe von maschinellem Lernen effizienter und zugänglicher , was die vermeintlichen autonomen Fahrzeuge angeht , was die vermeintlichen autonomen Fahrzeuge Wenn wir das Modell trainieren können, Beispiel wenn es das Signal sieht, können wir das Signalbild einspeisen, egal ob es rot, grün oder gelb ist. Auf der Grundlage des Signals kann das automatisierte Auto anhalten, wenn es das rote Signal sieht. Es kann sich bewegen, wenn es das grüne Signal sieht. All diese Dinge können wir mit Hilfe der KI-Personalisierung trainieren Hilfe der KI-Personalisierung Maschinelles Lernen ermöglicht es KI-Systemen, personalisierte Erlebnisse wie personalisierte Inhalte, Inhaltsempfehlungen, Inhalte, Inhaltsempfehlungen, maßgeschneiderte Marketingkampagnen und -kampagnen und sogar Behandlungspläne für das Gesundheitswesen Prädiktive Analyse, ich habe produktive Analysen vorangetrieben , die auf maschinellem Lernen basieren Gesundheitsorganisation Antizipate trainiert das Kundenverhalten und Ausfall von Geräten und ermöglicht so eine proaktive Entscheidungsfindung Wir können die vorausschauende Analyse durchführen und erraten, wie unsere Züge fahren, welches Kundenverhalten sie haben und wie den Kunden das neue Produkt gefallen wird dabei, Algorithmen für maschinelles Lernen verbessern die Entscheidungsfindung und unterstützen KI-Systeme fundierte Entscheidungen zu treffen, indem sie riesige Datenmengen in Echtzeit analysieren und so menschliche Fehler, die Verarbeitung und das Verständnis natürlicher Sprache sowie LP-Modelle reduzieren Verarbeitung und das Verständnis natürlicher Sprache sowie LP-Modelle Ein Teil des maschinellen Lernens ermöglicht es KI-Systemen, menschliche Sprache zu verstehen und darauf zu reagieren , was Anwendungen wie virtuelle Katzentöpfe antreibt wie virtuelle Katzentöpfe Zusammenfassend können wir sagen, dass maschinelles Lernen der Dreh- und Angelpunkt ist , der Datensätze und mich miteinander verbindet und Rohdaten in umsetzbare Erkenntnisse umwandelt Und Systeme mit künstlicher Intelligenz in die Lage zu versetzen, Aufgaben auszuführen, von denen bisher angenommen wurde, Traum von menschlicher Intelligenz sind Das bedeutet, dass maschinelles Lernen die entscheidende Rolle dabei spielen wird die menschliche Intelligenz früher in die Maschinen zu integrieren, Dinge, die nur dem Menschen vorbehalten waren. Jetzt ist es mit maschinellem Lernen, Datenwissenschaft und mir möglich , unsere Maschinen die Arbeit erledigen können dass unsere Maschinen die Arbeit erledigen können, die Menschen mit sehr präzisen Dingen erledigen können. Da die Technologie weiter voranschreitet, die symbiotische Beziehung zwischen Datenwissenschaft, maschinellem Lernen und KI weiterhin unsere digitale Landschaft retten und Innovationen in verschiedenen Branchen vorantreiben Innovationen in verschiedenen Branchen vorantreiben Nach wie vor ist die Rolle des maschinellen Lernens für jeden, der sich für eine dynamische und sich ständig weiterentwickelnde Welt der Daten und künstlicher Intelligenz interessiert , von entscheidender Bedeutung dynamische und sich ständig weiterentwickelnde Welt der Daten und künstlicher Intelligenz interessiert , von Aus diesem Grund muss die Beziehung zwischen diesen Datenwissenschaften, maschinellem Lernen und KI verstanden werden, zwischen diesen Datenwissenschaften, maschinellem Lernen und KI verstanden werden, um Wissen auf diesem Gebiet zu erlangen. Ich hoffe, Sie haben verstanden, was die Synergie von KI und Lernen ist, welche Rolle maschinelles Lernen und Datenwissenschaft Wir werden uns in der nächsten Vorlesung treffen und einige weitere Dinge über maschinelles Lernen besprechen . Danke. 123. Arten des maschinellen Lernens: Hallo und willkommen zurück. In dieser Vorlesung werden wir maschinellen Lernens, Arten des maschinellen Lernens, kennenlernen . Wir werden es als einen sehr umfassenden Überblick betrachten. Lass uns jetzt anfangen. Wir haben ein grundlegendes Verständnis dafür , was maschinelles Lernen ist, wie es mit künstlicher Intelligenz und Datenwissenschaft zusammenhängt künstlicher Intelligenz und , den allgemeinen Dingen. Richtig, lassen Sie uns noch einmal ein bisschen überarbeiten. Maschinelles Lernen, ein Teilbereich der künstlichen Intelligenz, hat die Art und Weise, wie Computer Informationen verarbeiten und Entscheidungen treffen können, verändert die Art und Weise, wie Computer Informationen verarbeiten und Entscheidungen treffen können Informationen verarbeiten und Entscheidungen treffen Was wir verstanden haben, oder? Es ist ein Teil der künstlichen Intelligenz. Wenn Sie das Gesamtbild betrachten, ist Datenwissenschaft das Gesamtbild. Darunter fällt die künstliche Intelligenz und darunter das maschinelle Lernen. Deep Learning, all diese Dinge. Okay, Szenenlernen ist ein Teilbereich der künstlichen Intelligenz Es hat die Leistungsfähigkeit von Computern verändert, sodass ein Mensch die Ergebnisse vorhersagen kann wie ein Mensch und schneller als ein Mensch Das ist die Transformation, die maschinelles Lernen mit sich gebracht hat. Es ist sehr einfach, Entscheidungen für Unternehmen zu treffen, indem sie ihre Daten verarbeiten. Äh, Algorithmen für maschinelles Lernen Modelle erstellen und dann das Modell auswerten. Und dann Vorhersagen, und manchmal sagen sie hundertprozentig korrekte Informationen voraus hundertprozentig korrekte Informationen Okay, Algorithmen für maschinelles Lernen ermöglichen es System, aus den Daten zu lernen. Daten sind der Schlüssel. In den letzten Vorlesungen haben wir verstanden, dass Daten das Herzblut des maschinellen Lernens, der künstlichen Intelligenz und des gesamten Ökosystems der Alles hängt von den Daten ab. Alles beginnt mit dem Datendatenalgorithmus. Algorithmen für maschinelles Lernen ermöglichen es Systemen oder Computern oder Maschinen, aus Daten zu lernen und ihre Leistung im Laufe der Zeit zu verbessern. Ohne explizite Programmierung müssen Sie jedes Mal programmieren. Sie müssen nur das Modell trainieren. Und es wird anfangen, aus den Daten zu lernen, und es wird aufgrund des Lernprozesses, den es durchlaufen hat, verbessern . Es gibt verschiedene Arten von maschinellem Lernen, jeweils für bestimmte Aufgaben und Anwendungen geeignet sind. In dieser Vorlesung werden wir die Hauptkategorien des maschinellen Lernens und seine Eigenschaften untersuchen . Okay, lass uns anfangen. Es gibt grundsätzlich sieben Arten von maschinellem Lernen. Das erste ist überwachtes Lernen, dann unbeaufsichtigtes Lernen, dann kommt das halbüberwachte Lernen, dann Reinforcement Deep Learning, dann kommt das selbstüberwachte Lernen und dann kommt das Transferlernen Das sind also die sieben Arten von maschinellem Lernen, die wir lernen werden Als Erstes beginnen wir mit dem überwachten Lernen. Betreutes Lernen ist ein Lernen, das wir mit dem Lernen im blauen Raum der Klasse in Verbindung bringen können blauen Raum der Klasse bei dem ein Lehrer unser Lernen beaufsichtigt hat. Und er unterrichtet uns mit den Bildern, mit dem Video, mit dem Audio, mit den verschiedenen Lernmitteln, richtig, die beaufsichtigtes Lernen vermitteln. Überwachtes Lernen ist eine der häufigsten Arten des maschinellen Lernens. Es beinhaltet das Trainieren eines Modells auf einem beschrifteten Datensatz, bei dem jeder Datenpunkt mit dem richtigen Ausgabeziel gepaart wird. Das Modell lernt , Eingabedaten der richtigen Ausgabe zuzuordnen , indem es Muster und Beziehungen findet. Zu den wichtigsten Merkmalen des überwachten Lernens gehören. Bevor wir auf die wichtigsten Merkmale eingehen, möchte ich Ihnen sagen, was das bedeutet. Überwachtes Lernen ist die häufigste Art des maschinellen Lernens. wir an, Nehmen wir an, wir wollen unser System darauf trainieren , menschliche Gesichter zu erkennen . In diesem Fall werden wir gut darin sein, die Daten an den Algorithmus oder das Modell des maschinellen Lernens weiterzugeben , mit Bildern wie bei Menschen. Wenn es eine menschliche Phase ist, werden wir sagen, dass es sich um einen Menschen handelt. Wenn es etwas anderes ist, setzen wir das in die Tierphase, das ist eine Zeichentrickphase, okay? Wir werden so viele Bilder füttern und jedes Bild wird mit einem Namen versehen. Es wird beschriftet werden, okay, wenn es ein menschliches Gesicht ist, werden alle menschlichen Gesichter beschriftet, werden mit Menschen beschriftet. Alle Katzen, Hunde, Tiere und Elefantengesichter werden entsprechend ihrer Spezifikation markiert. Okay, wenn wir die Daten jetzt durch das Modell des maschinellen Lernens einspeisen die Daten jetzt durch das Modell des maschinellen Lernens , wird es sehen, okay, das ist menschliches Gesicht, das ist menschliches Gesicht, das ist menschliches Tempo. Es wird das Muster menschlicher Gesichter erkennen und anhand der Muster , die es in den menschlichen Gesichtern sieht, lernen, dass, wenn dieses Gesicht kommt, es ein menschliches Gesicht ist. Es erkennt auch das Muster anderer Bilder, die kein ähnliches Muster wie die menschlichen Gesichter haben , erkennt, okay, dieses Muster gehört zu einer Katze. Dieses Muster gehört dem Elefanten. Dieses Muster gehört den Affen. So fängt es nach dem Training an zu lernen, wenn wir ein neues Bild, das nicht Teil dieses Datensatzes ist, ohne Label einspeisen Teil dieses Datensatzes ist, ohne Label einspeisen Es wird die Muster ausführen und es wird dem Muster entsprechen, das es gelernt hat. Welches Muster auch immer passt, es wird sagen, okay, das ist das menschliche Gesicht Oder wenn es eine Katze ist, wird es sagen, es ist ein Katzengesicht. anhand der vorherigen Trainingsdaten Erkennen Sie anhand der vorherigen Trainingsdaten das Muster eines neuen Bildes und Sie erhalten das Ergebnis, unabhängig davon, ob es sich um ein menschliches Gesicht handelt oder nicht. So funktioniert das überwachte Lernen. Es hat Schlüsselmerkmale, nämlich Klassifikation und Regression Dies sind die beiden sehr wichtigen Begriffe, an die wir uns erinnern sollten und die wir kennen sollten Der erste ist die Klassifizierung. Klassifikation Bei der Klassifikationsaufgabe das Modell einzelne Bezeichnungen oder Kategorien voraus Zum Beispiel die Klassifizierung von E-Mails als Spam oder nicht als Spam. Wenn Sie sich das ansehen, können Sie E-Mails sehen. Immer wenn eine E-Mail eingeht, wird sie automatisch als Spam eingestuft. Das wird in den Spam-Ordner verschoben. Wie funktioniert es? Es hat einen Muster-Feed der künstlichen Intelligenz oder des maschinellen Lernens trainiert Modelle der künstlichen Intelligenz oder des maschinellen Lernens trainiert hat, um E-Mails zu versenden. Wenn die E-Mail von Domains mit diesem Schlüsselwort stammt, wird sie als Spam eingestuft. Wenn sie nicht in der Kontaktliste des Empfängers steht, wird sie als Spam markiert. Es gibt viele E-Mails , die von dieser bestimmten E-Mail-ID in großen Mengen an unbekannte Personen gesendet wurden dieser bestimmten E-Mail-ID . Dann wird es als Spam eingestuft. So funktioniert die Klassifizierungsaufgabe. Okay, es wird bestimmte Kategorien geben , die als Spam oder Nord-Spam oder Nord-Spam bezeichnet werden . Wohingegen die Region die anderen Merkmale Region in Region Aufgabe. Das Modell sagt kontinuierliche Werte voraus. Zum Beispiel die Vorhersage von Immobilienpreisen auf der Grundlage von Merkmalen wie Quadratfuß und Standort Basierend auf dem Quadratfuß und dem Standort wird der Hauspreis vorhergesagt Wenn wir die Daten einspeisen, wir trainieren, werden die Daten für diesen bestimmten Bereich verwendet. Das ist die Premium-Standort-Rate , die auf dieser Grundlage hoch sein wird. Wann immer Sie einen neuen Standort mit den neuen Abmessungen des Hauses (Quadratfuß und allem) angeben, wird es voraussagen, dass dieses Haus diesen Preis haben sollte. Das ist die Region der die kontinuierlichen numerischen Daten stammen, wo wir die Regression verwenden, wo die Klassifikationsdaten nach Kategorien kommen, dann verwenden wir die Klassifikation Das sind die beiden. Überlegen Sie. Die nächste Art des maschinellen Lernens ist unbeaufsichtigtes Lernen Beim unbeaufsichtigten Lernen wird es sich mit den unbeschrifteten Daten befassen Unüberwachtes Lernen befasst sich mit unbeschrifteten Daten, wobei Algorithmen darauf abzielen, Musterstrukturen und Gruppierungen innerhalb der Daten zu finden Gruppierungen Es wird für Aufgaben wie Clustering und Dimensionsreduzierung verwendet Clustering einzelnen Merkmalen des unbeaufsichtigten Lernens gehören Clustering, Clustering-Algorithmus und seine Funktionsweise, nämlich die Gruppierung ähnlicher Datenpunkte auf der Zu den einzelnen Merkmalen des unbeaufsichtigten Lernens gehören Clustering, Clustering-Algorithmus und seine Funktionsweise, nämlich die Gruppierung ähnlicher Datenpunkte auf der Grundlage der Merkmale. beispielsweise Kunden mit ähnlichem Kaufverhalten für ein gezieltes Marketing-Clustering gruppieren mit ähnlichem Kaufverhalten für gezieltes Marketing-Clustering Sie haben eine Lernwebsite Nehmen wir an, Sie haben eine E-Learning-Website, auf der die meisten Kunden Kurse und Marketing kaufen, während nur wenige Kunden Kurse im Technologiebereich kaufen im Technologiebereich Was dann durch Clustering erreicht wird, ist, dass alle Kunden, die die Kurse zum Thema Marketing gekauft haben , einer bestimmten Gruppe Es wird sie zusammenfassen und die Technologie daraus wird ein weiterer Cluster bilden Wir werden zwei Kundencluster haben Einer interessiert sich für Marketingkurse und ein anderer für interessante Technologiekurse. Das ist die Art und Weise, dass der neue Kunde , wenn er ein bestimmtes Verhalten zeigt, ihn klassifiziert einer bestimmten Gruppe zusammenfasst Dann kommt die Reduzierung der Dimensionalität. Diese Algorithmen reduzieren die Anzahl der Merkmale in den Daten und behalten gleichzeitig wichtige Informationen Analyse der Hauptkomponenten. Pca ist eine gängige Technik zur Reduzierung der Dimensionalität. Nehmen wir an, Sie haben so viele Merkmale in unserem Datensatz und das führt zu unnötigen Datenpunkten Dadurch wird die Anzahl der im Datensatz verfügbaren Merkmale reduziert , der Schwerpunkt liegt auf den wichtigsten Schlüsselwörtern und Funktionen und es wird das Lernen übernehmen, okay? Dies wird als Hauptkomponentenanalyse bezeichnet ist das Hauptmerkmal Ihres Datensatzes. Welches ist das Hauptmerkmal , das sich auf das Ziel auswirkt und das Ergebnis beeinflusst, das wir in der Hauptkomponentenanalyse (PCA) finden werden in der Hauptkomponentenanalyse (PCA) finden Das nächste ist teilüberwachtes Lernen. Teilüberwachtes Lernen kombiniert Elemente des überwachten und des unbeaufsichtigten Lernens Es nutzt den Datensatz mit einer kleinen Menge beschrifteter Datensätze und einer großen Menge unbeschrifteter Dieser Ansatz wird häufig verwendet, wenn die Beschaffung von beschrifteten Daten kostspielig und zeitaufwändig ist Okay, dann kommt das Reinforcement-Learning. Beim Reinforcement-Learning geht es darum, Agenten darin zu schulen Entscheidungssequenzen in einer Umgebung zu treffen. Maximierung, in einer Umgebung, Maximierung der kumulativen Belohnung Es wird häufig in Anwendungen wie Spielen, Robotik und autonomen Systemen den Hauptmerkmalen von Verstärkungen und Reinforcement-Learning gehören Agenten und Umgebung Der Mitarbeiter interagiert mit einer Umgebung und lernt, indem er Feedback in Form von Belohnungs- oder Bestrafungsmaßnahmen erhält Feedback in Form von Belohnungs- oder Bestrafungsmaßnahmen Diese Richtlinie ist die Strategie oder das Regelwerk , nach dem der Agent Entscheidungen trifft Ziel ist es, eine optionale Richtlinie zu erlernen, die die langfristigen Vorteile maximiert. Tiefes Lernen Deep Learning ist eine Untergruppe des basalen Lernens, die sich auf neuronale Netze mit vielen Schichten, tiefen neuronalen Netzwerken konzentriert neuronale Netze mit vielen Schichten, tiefen neuronalen Es hat in den letzten Jahren aufgrund seiner außergewöhnlichen Leistung bei Aufgaben wie Bild- und Spracherkennung erhebliche Aufmerksamkeit und Popularität erlangt den letzten Jahren aufgrund seiner außergewöhnlichen Leistung bei Aufgaben wie Bild- und Spracherkennung erhebliche Aufmerksamkeit und wichtigsten Merkmalen von Deep Learning gehören neuronale Netze, künstliche neuronale Netze mit mehreren Schichten miteinander verbundener Knoten oder Neuronen. Neuronale Netzwerke mit tiefen Faltungsnetzwerken (CNNs). Dies sind die häufig für Bilderkennungsaufgaben verwendeten RNNs für rekurrente Diese werden für sequenzielle Datenaufgaben wie die Verarbeitung natürlicher Sprache und Das werden wir im Detail sehen, wenn wir Deep Learning, also selbstüberwachtes Lernen, Selbstüberwachtes Lernen ist eine Technik, bei der ein Modell aus Daten ohne von Menschen bereitgestellte Kennzeichnungen lernt. Stattdessen generiert es Labels aus den Daten selbst. Überwachtes Lernen, es erkennt ein Muster. Es wird die Daten als menschliche Phase oder Caha kennzeichnen. All diese Dinge wird es von selbst kennzeichnen, oft indem es eine Ersatzaufgabe erstellt Es hat sich bei verschiedenen Aufgaben zur Verarbeitung natürlicher Sprache, Computerverarbeitung und Computersion als vielversprechend erwiesen verschiedenen Aufgaben zur Verarbeitung natürlicher Sprache, Computerverarbeitung und Computersion Dann kommt das Transferlernen. Beim Transferlernen wird ein Modell anhand einer Aufgabe trainiert und anschließend das gewonnene Wissen genutzt, um die Ausführung einer verwandten Aufgabe zu verbessern . Dies ist ein praktischer Ansatz, wenn Sie nur über begrenzte Daten für eine bestimmte Aufgabe verfügen. Heute umfasst maschinelles Lernen eine Vielzahl von Typen und Techniken, von jede ihre Stärken und Anwendungsmöglichkeiten Das Verständnis der Datentypen ist für die Wahl des richtigen Ansatzes bei der Bewältigung verschiedener realer Probleme unerlässlich die Wahl des richtigen Ansatzes bei der Bewältigung verschiedener realer Probleme Da maschinelles Lernen immer weiter voranschreitet , dass seine Auswirkungen auf Branchen wie das Gesundheitswesen erwartet, dass seine Auswirkungen auf Branchen wie das Gesundheitswesen und das Finanzwesen zunehmen werden, was es zu einem faszinierenden und dynamischen Bereich macht, den es zu erforschen und zu beherrschen gilt was es zu einem faszinierenden und dynamischen Bereich macht . bietet viele Möglichkeiten Der Markt bietet viele Möglichkeiten für maschinelles Lernen, Ingenieure, Datenwissenschaftler, KI-Ingenieure und Datenanalysten. All diese Dinge gehören zu diesen Dingen und wir können viel schneller lernen. Du sagtest, die nächste Vorlesung. 124. Workflow für maschinelles Lernen: Und willkommen zurück. In dieser Vorlesung lernen wir den Arbeitsablauf beim maschinellen Lernen kennen, wie wir mit den Daten umgehen, wie wir von den Daten ausgehen und wie wir zu Datenerkenntnissen übergehen. Lass uns anfangen. Der Workflow für maschinelles Lernen ist ein leistungsstarkes Tool zur Visualisierung von Daten. Eigentlich, hallo und willkommen zurück. In dieser Vorlesung werden wir etwas über den Workflow des maschinellen Lernens lernen. Workflow für maschinelles Lernen geht es darum, die Daten abzurufen, die Daten zu verarbeiten, die Modelle des maschinellen Lernens anzuwenden die Modelle des maschinellen Lernens und die Erkenntnisse aus den Daten zu gewinnen. Das ist es, was maschinelles Lernen in Seeked bedeutet. In dieser Vorlesung werden wir Arbeitsablauf des maschinellen Lernens im Detail kennenlernen. Fangen wir damit an, maschinelles Lernen ist ein leistungsstarkes Werkzeug. Maschinelles Lernen ist ein leistungsstarkes Werkzeug, das die Art und Weise, wie wir mit Daten umgehen und Vorhersagen und Entscheidungen treffen, revolutioniert hat wie wir mit Daten umgehen und Vorhersagen und Entscheidungen treffen, revolutioniert . Das haben wir in den letzten Vorlesungen gelernt sein Potenzial auszuschöpfen, ist jedoch ein strukturierter Ansatz erforderlich , der als Workflow für maschinelles Lernen bezeichnet wird In diesem Artikel oder in dieser Vorlesung werden wir die wichtigsten Phasen dieses Workflows untersuchen und dabei die wesentlichen Schritte hervorheben, die bei der Umwandlung von Rohdaten in variable wertvolle Erkenntnisse erforderlich Rohdaten in variable wertvolle Erkenntnisse Der erste Schritt ist die Datenerfassung. Datenerfassung ist die Grundlage für maschinelles Lernen oder Datenwissenschaft , da alles von der Datenreise abhängt. Beginnt mit der Datenerfassung. Der Schritt beinhaltet das Sammeln der relevanten Daten aus verschiedenen Quellen wie Datenbanken, APIs oder Sensoren. Dies sind die Datenpunkte , an denen wir die Daten sammeln. Daten wirken sich erheblich auf den Erfolg Ihres Machine-Learning-Projekts aus. Machen Sie die Datenerfassung einer wichtigen und oft zeitaufwändigen Aufgabe. Wie Sie wissen, arbeiten die meisten Datenwissenschaftler und Datenanalysten, Ingenieure für maschinelles Lernen, die meiste Zeit etwa 60% der Zeit an den Daten, 40% der Zeit arbeiten sie am Code und erstellen Modelle, wenden Algorithmen an, bewerten das Modell, all diese Dinge, okay? Aber zu 60% dreht sich bei der Aufgabe alles darum, an Daten zu arbeiten und sie praktikabel zu machen Dann kommt die Datenerfassung. Der nächste Schritt ist die Datenvorverarbeitung. Datenvorverarbeitung bedeutet, die Rohdaten zu verfeinern und nutzbar zu machen Rohdaten sind selten bereit, maschinell geladen zu werden, denn wenn Sie die Daten aus den Quellen gesammelt haben, kann es viele Probleme mit Es wird ein Problem mit den Daten geben, es werden Werte fehlen, es wird doppelte Werte geben, es wird falsche Werte geben, es werden Werte fehlen Die Rohdaten werden so viele Verunreinigungen enthalten. Es wird niemals fertig sein. Wenn Sie an diesen Daten arbeiten, werden Sie aufgrund fehlender Informationen, die falsch in die Daten eingegeben wurden, nicht das gewünschte Ergebnis erzielen Informationen, die falsch in die fehlender Informationen, die falsch in die Daten eingegeben wurden, nicht das Bei der Datenverarbeitung werden die Daten gereinigt, transformiert und strukturiert, damit sie für die Analyse geeignet wichtigsten Aufgaben in dieser Phase gehören der Umgang mit fehlenden Werten, Entfernen von Ausreißern und die Kodierung der kategorialen Variablen Die nächsten Schritte sind die explorative Datenanalyse. Kurz gesagt, wir nennen es EDA. Dies ist eine sehr kritische Phase , da wir in EDA die Daten verstehen. Bevor Sie sich mit der Modellierung befassen, ist es wichtig, Ihre Daten zu verstehen und Ihre Daten gründlich zu verstehen. Das Verständnis der Daten ist sehr wichtig. Da beinhaltet die Visualisierung von Daten, Berechnung deskriptiver Statistiken Identifizierung von Mustern und Korrelationen Dieser Schritt bietet Einblicke, die als Leitfaden für die Auswahl von Funktionen und Der nächste Schritt kommt, und er wird Feature-Engineering genannt. Das bedeutet, dass die Erstellung der informativen Funktionen bedeutet wenn einige der Dinge vorhanden sind und Sie sie auf diesen Informationen aufbauen können, ein neues Feature erstellen können Feature-Engineering ist das denn Feature-Engineering ist der Prozess der Auswahl, Erstellung und Transformation von Features, d. h. Eingabevariablen, die das Modell des maschinellen Lernens für Vorhersagen verwendet Es wird im Grunde an den Eingabedaten gearbeitet. Geschicktes Feature-Engineering kann die Modellleistung erheblich verbessern , je besser das Modell ist. Der nächste Typ ist die Modellauswahl. Den richtigen Algorithmus auswählen. Die Auswahl des geeigneten Algorithmus für maschinelles Lernen hängt vom Problemtyp ab. Es ist Klassifikation oder Regression. Als Erstes müssen Sie entscheiden, welche Art von Problem Sie in der Hand haben Und dann können Sie den Algorithmus festlegen. Sie müssen sich zunächst anhand Ihrer Daten und der Eigenschaften der Daten überlegen, ob es ein klassisches Replikationsproblem oder sich um ein klassisches Replikationsproblem oder ein Regressionsproblem Ihrer Daten und der Eigenschaften der Daten den gängigen Algorithmen gehören Entscheidungsbaumunterstützung, Vektormaschinen und neuronale Netze Sie können sich auf der Grundlage Ihrer Daten und Ihrer Klassifizierung des Problems für die Verwendung all dieser Algorithmen entscheiden auf der Grundlage Ihrer Daten und Ihrer . Okay, der nächste kommt nach der Modellauswahl. Der nächste Schritt ist das Modelltraining. Aus den Daten in diesem Bereich lernen. Das ausgewählte Modell wird anhand des Teils der Daten trainiert. Angenommen, Sie haben die tausenden Zeilen der Daten. Was machen Sie, Daten, was nehmen Sie? 60, 40% der Daten für das Training und die restlichen 60% behalten Sie für die Tests, den Teil der Daten, den wir nehmen und unser Modell anhand dieser Daten trainieren. Dann testen wir das Modell mit den restlichen 60 oder 40% der Daten, die wir für die Tests gespeichert haben . Das Modell lernt, Muster, Beziehungen und Freunde zu erkennen Muster, Beziehungen und Freunde die im Trainingsdatensatz vorhanden sind. Anschließend beinhaltet das Training die Anpassung der Modellparameter, um Fehler oder Abweichungen von den erwarteten Ergebnissen zu minimieren. Basierend auf dem Training, das wir mit dem ausgewählten Modell durchführen, werden wir den Parameter fein abstimmen, um die Fehler oder Abweichungen vom erwarteten Ergebnis zu minimieren oder Abweichungen vom erwarteten , was sehr wichtig ist. Dann fahren wir mit der Modellbewertung fort. Wir werden sehen, welche Leistung oder welches Ergebnis wir erzielen, was wir erhalten, und dann werden wir unser Modell bewerten. Nach dem Training ist es wichtig, die Leistung des Modells zu bewerten. Dazu wird ein separater Datensatz verwendet, d. h. der Validierungs - oder Testdatensatz, um herauszufinden, wie gut das Modell die beiden unsichtbaren Daten generalisiert gängigen Bewertungsmetriken gehören Genauigkeit, Begründung, Erinnerung und eine Punktzahl Dabei handelt es sich um die Bewertungsmetriken, Genauigkeit, Präzision, Erinnerungsgenauigkeit und den F-Score. Der nächste Schritt ist das Hyperparameter-Tuning oder die Optimierung der Modellparameter Modelle für maschinelles Lernen verfügen häufig über Hyperparameter, die nicht während des Trainings gelernt werden , sondern manuell eingestellt werden müssen Beim Hyperparameter-Tuning wird nach der besten Kombination von Hyperparametern gesucht der besten Kombination von , um die Leistung des Modells zu optimieren Dann kommt der letzte Schritt, nämlich die Implementierung des Modells in der Produktion, Produktion oder in der realen Welt Sobald das Modell nach dem Testen als zuverlässig und genau eingestuft wurde, kann es in einer realen Umgebung eingesetzt werden Vorhersagen zu treffen oder Entscheidungen zu automatisieren. Diese Phase kann die Integration des Modells in bestehende Systeme oder Anwendungen beinhalten. Nehmen wir an, Sie haben ein Bankensystem eingerichtet, in dem Sie entscheiden, welchen Kandidaten den Kredit geben und welchen Sie ablehnen. Und Sie haben ein Modell für maschinelles Lernen entwickelt , mit dem Sie entscheiden können , ob der Kredit geeignet ist oder nicht. Ihr Modell bietet eine Genauigkeit von bis zu 97, 98, 99%. Während des Testens können Sie es in der Produktionsumgebung einsetzen und dort die Benutzerdaten eingeben. Und auf der Grundlage der Benutzerdatenanalyse, die das während des Trainings des Modells durchlaufen hat, kann es die Daten, finanziellen Kriterien und all diese Dinge analysieren . Und es kann entscheiden, ob wir einen Kredit vergeben können oder nicht. Das sind die Dinge, die wir bei der Modellbereitstellung tun können . Nach der Bereitstellung des Modells ist die Arbeit dann nicht 0, wir müssen das Modell überwachen und warten. Wartung ist auch sehr wichtig für den langfristigen Erfolg, da sie zu falsch negativen oder falsch positiven Ergebnissen führen kann . All diese Dinge müssen wir genau überwachen, damit unser Systemmodell unsere Algorithmen einwandfrei funktionieren und genaue Ergebnisse liefern. Modelle für maschinelles Lernen erfordern eine kontinuierliche Überwachung und Wartung, Datenverteilung ändert sich im Laufe der Zeit. Denn manchmal haben wir das Modell, wenn wir an dem Modell gearbeitet haben, das Modell, den Datensatz oder die Unterstützungskriterien im Bankensektor erstellt das Modell, den Datensatz oder die Unterstützungskriterien . Von Zeit zu Zeit erhalten Sie die Richtlinien von der Regierung. Auf der Grundlage dieser Richtlinien können sich die Kriterien ändern. Also müssen wir weiter beobachten, äh, und wir müssen uns die Daten und die Ergebnisse weiter ansehen. Datenverteilungen ändern sich im Laufe der Zeit. Modellleistung kann sich verschlechtern , weil die Kriterien geändert wurden Es kann die falschen Ergebnisse liefern, also müssen wir es überwachen Regelmäßige Updates und Umschulungen. Wenn sich etwas ändert, müssen wir das Modell anhand der neuen Daten neu trainieren, damit es mit den neuen geänderten Kriterien funktionieren kann Regelmäßige Aktualisierungen und Umschulungen können erforderlich sein, um die kontinuierliche Genauigkeit des Modells sicherzustellen Jetzt haben wir verstanden, wie der Arbeitsablauf funktioniert. Der Workflow für maschinelles Lernen ist ein systematischer Ansatz zur Lösung realer Probleme indem das Potenzial von Daten genutzt wird Es wandelt Rohdaten in umsetzbare Erkenntnisse und intelligente Systeme um, die in der Lage sind, Vorhersagen und intelligente Systeme um, die in der Lage sind Entscheidungen zu treffen Verständnis und die Beherrschung dieses Workflows sind für Datenwissenschaftler, Analysten und Ingenieure unerlässlich, die das volle Potenzial von Maine nutzen möchten, um das volle Potenzial des maschinellen Lernens in der heutigen datengesteuerten Da die Technologie weiter voranschreitet, wird der Workflow für maschinelles Lernen in verschiedenen Branchen eine immer zentralere Rolle spielen in verschiedenen Branchen eine immer zentralere Rolle und Innovationen vorantreiben und fundierte Entscheidungen treffen Ich hoffe, wir haben verstanden, wie der Arbeitsablauf des maschinellen Lernens von der Datenerfassung über die Datenverarbeitung, explorative Datenanalyse, Feature-Entwicklung, Modellauswahl, das Modelltraining, Modellbewertung, die Hyperparameteroptimierung, die Modellbereitstellung bis hin zur Überwachung und All diese Schritte sind sehr wichtig für die erfolgreiche Implementierung eines Modells für maschinelles Lernen Ich hoffe du hast verstanden, wir treffen uns in der nächsten Vorlesung. Ich danke dir. 125. GIGO-Prinzip: Willkommen zurück. In diesem Vortrag werden wir das sehr wichtige Konzept und Prinzip verstehen, das beim maschinellen Lernen in hohem Maße anwendbar ist und das sehr alte Konzept von Müll in Müll raus ist ein Prinzip , das in der IQ-Branche und in der Software seit vielen Jahren verwendet wird . Es ist auch beim maschinellen Lernen anwendbar. Dadurch wird sichergestellt, dass die Datenqualität gut ist , und das wird zur Stärke der Datenqualität. Lass uns anfangen. Müll rein, Müll raus, los Im Bereich des maschinellen Lernens gilt ein grundlegendes Prinzip, denn wir alle wissen, dass Müll, Müll raus, ein sehr grundlegendes Konzept ist. Das heißt, seit vielen Jahren Müll raus. Dieser prägnante Satz verkörpert ein tiefgründiges Konzept. Die Qualität der Eingaben hat einen tiefgreifenden Einfluss auf die Qualität der Ergebnisse, die durch Modelle für maschinelles Lernen erzeugt werden für maschinelles Lernen erzeugt werden. Was bedeutet das? Das bedeutet, dass die Daten, die Sie in die resultierenden Modelle des maschinellen Lernens eingeben, wenn Sie die Qualität der bereinigten, präzisen Daten eingeben, Sie das genaue Ergebnis erhalten. Wenn Sie die Daten mit Müll, fehlenden Werten, falschen Informationen, anderen Dingen, falschen fehlenden Werten, hineinwerfen falschen Informationen, anderen Dingen, , dann erhalten Sie nicht die erforderliche gute Ausgabe. Die Ergebnisse, die Sie erzielen werden, die Pausen, die Sie bekommen werden, werden sehr, sehr falsch sein. Weil alles von den Daten abhängt Sie in das System eingeben und zu denen das Ergebnis führt. Sie werden in ein Zeitalter kommen, in dem Daten herrschen. Gig-Prinzip auf höchstem Niveau zu verstehen und zu schätzen, ist grundlegende Essenz von Einfache, tiefgründige Idee im Kern. Das Gig-Prinzip erinnert daran, dass unabhängig davon, wie ausgeklügelt die Algorithmen, wie leistungsfähig die Computerinfrastruktur oder wie kompetent die Datenwissenschaftler sind, der Wert des maschinellen Lernens von der Qualität der in das System eingespeisten Daten abhängt. Was bedeutet das? Es bedeutet, dass unabhängig vom Algorithmus starker Algorithmus, wie viel Sie programmieren, wie Sie ihn ausgeklügelt und leistungsfähig machen, die Computerinfrastruktur heutzutage und wie viele qualifizierte Datenwissenschaftler, maschinelles Lernen und KI-Ingenieure sind. Wenn die Daten nicht gut sind, werden sie alle verwendet, denn wenn die Daten nicht gut sind, Ihr erfahrener Datenwissenschaftler, werden Ihr erfahrener Datenwissenschaftler, Ihre Infrastruktur und Ihre Algorithmen nicht richtig funktionieren. Weil alles von den Daten abhängt. Die Basis sollte stark sein, Basis sollte sehr gut sein, dann kannst du sie anbauen. Wenn das Saatgut nicht gut ist, gute Qualität. Eine Pflanze kann nicht auf die gleiche Weise wachsen. Die Daten sind der Grundstein für alle Aktivitäten des maschinellen Lernens. Gute Daten, Sie werden ein gutes Ergebnis erzielen. Sie werden eine gute Idee daraus ziehen. Sie werden die guten Ergebnisse erzielen. Sie werden die Vorhersagen daraus ziehen. Daten sollten gut sein, dann funktioniert der Algorithmus einwandfrei, die Komfortinfrastruktur wird sie unterstützen, und der Datenwissenschaftler wird in der Lage sein, Ihnen die besten Ergebnisse und Prognosen zu die besten Ergebnisse und Prognosen , auf deren Grundlage Sie gute Geschäftsentscheidungen treffen können. Die Qualität der Daten ist sehr wichtig. Sinn für den Schlüssel. Stellen Sie sich ein selbstfahrendes Auto das durch die Straße navigiert Die Stadt im Fahrzeug ist auf Sensoren und Kameras angewiesen, um sie wahrzunehmen Umgebung, wie wir alle wissen, funktionieren selbstfahrende Autos ohne Fahrer grundsätzlich an den Dingen. Wie arbeite ich? Ich arbeite aber an der Kamera, Kamera, den Kameraaugen des Menschen für das selbstfahrende Auto. Und Sensoren sind die Sinnesorgane für selbstfahrende Autos. Die Sensoren, was es empfangen hat, die Signale und die Kamera, was es sieht und was es übersetzt und miteinander kombiniert. Und es wird eine Umgebung schaffen der sich die Mobilfunkkarte weiterentwickeln kann. Wenn es ein rotes Signal sieht, sollte es aufhören. Wenn es im Voraus Hindernisse sieht, sollte es aufhören. Stimmt das? Das machen das Signal Sensoren und die Kameras, richtig? Wenn das A defekt ist. Angenommen, Sie setzen die defekten Sensoren ein oder die Kamera***se sind verschmutzt oder die Kameraqualität ist nicht gut Wenn es ein rotes Signal gibt und die Kameraqualität oder die Kamera***s verschmutzt sind und sie nicht richtig sichtbar sind, stoppt sie nicht, sie prallt mit dem Signal zusammen und es kann zu einem tödlichen Unfall kommen, und es kann zu einem tödlichen Unfall kommen Also, die defekten Sensoren und die Kamera***sieht, wenn sie verschmutzt sind, werden die Daten, die sie über die Sensoren und die Kamera sammelt , ungenau oder unvollständig, inkonsistent sein , und diesbezüglich wird sie schlechte Entscheidungen treffen. Folglich wird der Entscheidungsprozess des Autos, wie das Erkennen von Fußgängern und das Erkennen von Verkehrsschildern, das Erkennen von Verkehrsschildern In diesem Szenario können selbst die fortschrittlichsten Algorithmen die Situation nicht lösen Es ist ein klassisches Beispiel dafür, wie man Müll rein und Müll raus nimmt. Wenn du Müll hineinlegst, bekommst du den Müll. Wenn Sie die richtigen Sensoren einsetzen, werden Sie keine guten Kameras einsetzen . Wenn das System durch die Kamera und die Sensoren keinen guten Input erhält , die Algorithmen und Modelle für maschinelles Lernen können die Algorithmen und Modelle für maschinelles Lernen nichts Gutes vorhersagen. Und es wird zu selbstfahrenden Autos führen, es wird zu Unfällen führen. Richtige Branchen. Lassen Sie uns nun verstehen, wie sich die Tatsache, dass die unnützen Daten in das System übertragen werden, auf die Branchen auswirken wird, in denen KI und maschinelles Lernen im Gesundheitswesen und bei der medizinischen Diagnose eingesetzt werden , die Genauigkeit und Integrität der Patientendaten von größter Bedeutung sind. Das Wichtigste ist, dass falsch beschriftete oder unvollständige Anamnese zu falschen Diagnosen und Behandlungsempfehlungen führen kann zu falschen Diagnosen und Behandlungsempfehlungen Im Finanzbereich verlassen sich Finanzinstitute auf Daten, um Anlageentscheidungen zu treffen, und gehen auch Risiken ein. Eine schlechte Datenqualität kann zu finanziellen Verlusten und falsch informierten Strategien führen finanziellen Verlusten und falsch informierten Im Marketingbereich hängen Marketingkampagnen von datengestützten Erkenntnissen für die Zielgruppe ab Tatsächlich können ungenaue Kundenprofile oder veraltete Informationen zu oder veraltete Informationen zu ineffektiven Kampagnen und investierten Ressourcen führen ineffektiven Kampagnen und investierten Ressourcen Sie müssen die richtigen Kundenprofile und die Daten in das Kundenprofil aufnehmen Die Kundenprofildaten sollten sehr, sehr aktuell sein , damit sie leicht zielgerichtet werden können , wenn eine Person Interesse am Kauf von Fernsehgeräten hat und dieses Interesse vor sechs Monaten geweckt wurde. Und wenn Sie diesen Kunden anrufen, okay, Sie wollen einen Fernseher kaufen, kaufen. Dann könnte er sagen, dass ich vor sechs Monaten nach einem Fernseher gesucht habe, jetzt habe ich schon einen Fernseher gekauft. Ihre Marketingkampagne geht rein, Sie rufen an, der Kunde wird reingehen. Und wenn Sie einen Kunden ansprechen, der gerade erst mit der Suche nach dem Fernseher begonnen hat und Sie die Daten innerhalb von 23 Tagen erhalten haben, sucht er möglicherweise immer noch nach dem richtigen Fernseher. Und wenn Sie diesen Kunden anrufen und ihm bei der Kaufentscheidung helfen, ein neues Fernsehgerät zu kaufen, könnte es sein, dass er am Ende ein Fernsehgerät bei Ihnen kauft. Das ist die Art und Weise, wie sich Müll rein, Müll raus auswirkt. Daten sollten aktuell und nicht veraltet sein, und sie sollten den E-Commerce-Empfehlungen entsprechen. Plattformen, die auf Nutzerverhalten basieren sind nur so gut wie Daten, die zu ihnen passen. Daten von geringer Qualität können zu schlechten Produktempfehlungen und zum Verlust von Zellen führen schlechten Produktempfehlungen . Bei der Verarbeitung natürlicher Sprache, NLP-Anwendungen wie Chat-Boards oder Stimmungsanalysen, die Qualität der Trainingsdaten erheblich wirkt sich die Qualität der Trainingsdaten erheblich auf die Fähigkeit der Modelle menschliche Sprache zu verstehen und darauf zu reagieren die Rolle der Datenqualität zu mindern, die Auswirkungen von Gig zu mildern und die Integrität der Ergebnisse des maschinellen Lernens zu gewährleisten Integrität der Ergebnisse des maschinellen Lernens müssen Unternehmen der Datenqualität und der Art und Weise, wie sie Prioritäten setzen können , Priorität einräumen, indem sie die Schritte wie die Datenerfassung befolgen, muss ein strenger Datenerfassungsprozess eingerichtet werden, einschließlich Datenvalidierungs - und Bereinigungsverfahren. Bei der Erfassung der Daten sollten Sie die Daten nicht einfach so sammeln Es sollte einen Prozess zum Sammeln der Daten geben. Nach der Datenerhebung sollten die Daten validiert und die Reinigungsverfahren eingehalten werden. Bei der Datenvorverarbeitung der Daten aus der Datenerhebung sollten verschiedene Techniken wie die Behandlung fehlender Werte und die Suche nach Ausreißern Sehr wichtig für unsere Datenverarbeitung. Dann ist die Datenverwaltung, die Schaffung eines Datenverwaltungsrahmens zur Aufrechterhaltung der Datenqualität während des gesamten Lebenszyklus sehr wichtig. Datenvalidierung ist ein weiterer sehr wichtiger Schritt zur Minimierung des Aufwands , der darin besteht, die Richtigkeit der Daten und die Konsistenz der Daten regelmäßig zu validieren und zu verifizieren , denn das ist sehr wichtig Wie wir bereits über den verlorenen TV-Verkauf gesprochen haben , wurden diese Daten nicht verifiziert, es ist 67 Monate her , dass der Kunde Interesse gezeigt hat Das sollte sehr wichtig sein. Wir müssen Ihre Daten überprüfen, wie aktuell sie sind, wie veraltet sie sind, wie sie sind, wie konsistent all diese Dinge sind. Dann implementieren die Feedbackschleifen Mechanismen zur kontinuierlichen Überwachung und Verbesserung der Datenqualität, Gigs auch weiterhin relevant sind, wenn wir im Bereich Big Data und maschinelles Lernen voranschreiten . Beispiel sind wir schon viel weiter vorangekommen und müssen jetzt viel Wert auf das Go-Prinzip legen. Das Gig-Prinzip ist nach wie vor relevant , da die Qualität der Daten auch weiterhin der Dreh- und Angelpunkt für den Erfolg und die Zuverlässigkeit von IT-Systemen in einer Welt sein der Dreh- und Angelpunkt für den Erfolg und die Zuverlässigkeit von IT-Systemen wird, in der Daten zwar reichlich vorhanden, aber nicht immer Die Anwendung des Guigo-Prinzips ist unerlässlich volle Potenzial des maschinellen Lernens auszuschöpfen und gleichzeitig maschinellen Lernens , um das volle Potenzial des maschinellen Lernens auszuschöpfen und gleichzeitig kostspielige Fehler und Folgefehler zu vermeiden. Wenn man sich um den Auftritt kümmert, muss man sehr muss man Und wenn du dich um den Auftritt kümmerst, vermeidest du kostspielige und kostspielige Fehler und Folgeschäden Zusammenfassend lässt sich sagen, dass das Guigo-Prinzip von Systemen für maschinelles Lernen erinnert symbiotische Beziehung zwischen Datenqualität und Wirksamkeit Durch die Priorisierung der Datenqualität können Unternehmen den Wert ihrer Investitionen in maschinelles Lernen nutzen fundierte Entscheidungen treffen und in Bezug auf Daten und Landschaft die Nase vorn In der Welt des maschinellen Lernens hochwertige Daten nicht nur eine Bereicherung Es ist die Grundlage, auf der Intelligenzsysteme aufgebaut sind. Es ist sehr wichtig , das zu verstehen. Hochwertige Daten sind nicht nur ein Vorteil. Hochwertige Daten sind erforderlich. Bei den Qualitätsdaten handelt es sich nicht nur um eine Reihe oder eine andere Anforderung. Auf dieser Grundlage entwickeln wir all diese KI-Systeme, Modelle für maschinelles Lernen, Deep-Learning-Modelle, Empfehlungssysteme, all die Dinge, an denen wir arbeiten werden und die wir verwenden werden Alles hängt von der Datenqualität ab. Daten sind die Grundlage und das Wichtigste für das datenwissenschaftliche Ökosystem. Ich hoffe, Sie wissen, wie wir das Problem eindämmen können und wie wir die Datenqualitätsdaten für unsere Modelle des maschinellen Lernens, Daten für unsere Modelle des maschinellen Lernens, erhalten können für unsere Modelle des maschinellen Lernens, Lernens Vielen Dank für die nächste Vorlesung. 126. Überwachte Lernalgorithmen: Hallo und willkommen zurück. In dieser Vorlesung werden wir etwas über den Algorithmus für überwachtes Lernen lernen. Dies wird der Weg zu intelligenten Vorhersagen durch maschinelles Lernen sein. Wir machen intelligente Vorhersagen, oder? Lass uns anfangen. Wir haben das grundlegende Verständnis von überwachtem Lernen. Aber bevor wir zu den Algorithmen übergehen, wollen wir verstehen, was das grundlegende Konzept des überwachten Lernens ist . Überwachtes Lernen ist ein grundlegendes Konzept in der Welt des maschinellen Lernens. Es ist das REM, bei dem Computer aus beschrifteten Daten lernen , um Vorhersagen zu treffen. Oder es ist der Ausgangspunkt von Vorhersagen, oder? Eine sehr grundlegende Sache ist überwachtes Lernen. Das heißt, wir werden die Modelle für maschinelles Lernen mit den gekennzeichneten Daten und diese Daten mit den Algorithmen für maschinelles Lernen versehen, indem wir beispielsweise angeben die Modelle für maschinelles Lernen mit den gekennzeichneten Daten und diese Daten Algorithmen für maschinelles Lernen versehen, indem , welche Art von Bezeichnung die Daten haben. Auf dieser Grundlage analysiert es dann, wenn die neuen Daten vorliegen, das Muster, das während des Trainings gelernt wurde, und trifft dann die Entscheidung. Okay? Und es untermauert zahlreiche Anwendungen in unserem täglichen Leben. In dieser Vorlesung werden wir uns Algorithmen für überwachtes Lernen genauer ansehen Wir untersuchen, was sie sind und wie sie funktionieren, und einige der häufigsten Beispiele für überwachtes Lernen. Was ist überwachtes Lernen? Überwachtes Lernen ist die Art des maschinellen Lernens, die wir bereits in der vorherigen Vorlesung behandelt haben. Dabei wird der Algorithmus anhand unseres markierten Datensatzes trainiert. Mit anderen Worten, die Eingabedaten werden mit der richtigen Ausgabe oder dem richtigen Ziel, dem Algorithmus, gepaart richtigen Ausgabe oder dem richtigen Ziel, dem Algorithmus, Der Algorithmus lernt, Eingabedaten der richtigen Ausgabe zuzuordnen lernt so effektiv aus den Beispielen Dieser Lernprozess ermöglicht es dem Algorithmus, Vorhersagen oder Entscheidungen zu treffen, wenn er mit neuen, bisher unbekannten Daten konfrontiert Die Mechanik des überwachten Lernens. Überwachtes Lernen kann in wenige Schlüsselkomponenten unterteilt werden . Das erste sind Daten, da die Daten die Grundlage all dieser Ökosystemdaten aus den Bereichen Datenwissenschaft, KI und maschinelles Lernen bilden. Der Label-Datensatz dient als Übungsplatz für Algorithmen. Er enthält beide Eingabefunktionen, zum Beispiel Attribute, Variablen und all diese Dinge. Und entsprechende Zielwerte, zum Beispiel Labels und Kategorien. Okay, Daten sind der Ausgangspunkt. Dann kommt die Modellauswahl, ein spezifischer Algorithmus für überwachtes Lernen der auf der Art Ihres Problems basiert. gängigen Algorithmen gehören Decision Three, lineare Region, logistische Regression, Support-Vector-Maschinen und neuronale Netzwerke All dies sind Algorithmen für maschinelles Lernen , die wir auf ein Modellmodell anwenden Wir werden auf der Grundlage der Art des Problems auswählen , das wir lösen werden. Schulung. Während der Trainingsphase analysiert der Algorithmus die Eingabedaten und lernt, das in den Daten verfügbare Muster , die Beziehung, zu erkennen . Außerdem werden Grenzen analysiert oder entschieden. Und welche Grenzen für die Entscheidungsfindung definiert sind , die zum richtigen Ergebnis führen. Es passt seine internen Parameter iterativ an Vorhersagefehler zu minimieren Dann folgt das Testen und Auswerten. Nach dem Training wird das Modell anhand eines separaten Datensatzes ausgewertet , der während des Trainings nicht verwendet wird. Aus diesem Grund teilen wir den gesamten Datensatz in zwei Teile auf, bevor wir mit dem Training fortfahren , bei dem es sich um Trainingsdatensatz , bei dem es sich um Trainingsdatensatz und Testdatensatz für Trainingsdatensatz Wir testen das Modell am Testdatensatz. Wir testen es auf seine Fähigkeit, auf neue unsichtbare Daten zu verallgemeinern Verschiedene Leistungskennzahlen wie Genauigkeit, Präzision und Erinnerungsvermögen werden für das Bewertungsmodell nach dem Training verwendet Testen und Evaluieren ist einer der sehr, sehr wichtigen Schritte beim überwachten Lernen Was sind nun die gängigen Arten von Algorithmen für überwachtes Lernen, die wir beim überwachten Lernen verwenden? Wenn wir Lernen auswählen, wenn wir Daten auswählen, wählen wir das Modell, wir wählen den Algorithmus aus. Welche Algorithmen verwenden wir? Es gibt eine Vielzahl von Algorithmen für überwachtes Lernen, jeweils für unterschiedliche Arten von Problemen geeignet sind. Jeder Algorithmus wird an jedem einzelnen Problem arbeiten , an jedem Problem. Wir werden einen spezifischen Ansatz benötigen , um ein Problem im täglichen Leben zu lösen. Außerdem können Sie nicht alle Probleme auf dieselbe Weise lösen . Auf die gleiche Weise können wir beim maschinellen Lernen nicht das gesamte Problem mit einem einzigen Algorithmusproblem lösen, wenn wir das überwachte Lernen nicht das gesamte Problem mit einem einzigen Algorithmusproblem lösen, wenn wir das verwenden. Für jedes spezifische Problem brauchen wir eine bestimmte Methode, um es anzugehen, oder? diesem Zusammenhang gibt es viele Algorithmen, und je nach unseren Anforderungen können wir die für unser Problem am besten geeignete auswählen. Und manchmal sind wir uns vielleicht nicht sicher, welcher Algorithmus funktionieren wird. In diesen Fällen würden sich Datenwissenschaftler auf drei Algorithmen bewerben. Und sie werden das Ergebnis und die Prognosen analysieren. Und wer auch immer die richtigeren Vorhersagen gibt, sie werden sich an den Algorithmus halten, der bei der Erprobung die gängigste Methode ist , um herauszufinden , welche Art von Algorithmus wir in unserem Modell verwenden sollten Hier sind einige bemerkenswerte Beispiele, wie die lineare Regression, einer der beliebtesten Algorithmen für überwachtes Lernen Dann ist die logistische Regression, Entscheidungsbaum, sehr wichtig Random Forest Support Vector VMs sind sehr wichtige Und die K nächsten Nachbarn. Dies sind die sehr beliebten Algorithmen für maschinelles Lernen, überwachtes maschinelles Lernen , die wir bei der Problemlösung verwenden. Welche Regulierung wird mithilfe von überwachtem Lernen zur Vorhersage kontinuierlicher Werte verwendet , die wir ebenfalls bereits besprochen haben Stimmt das? Es gibt zwei Arten von Werten. Kontinuierliche Werte, das die numerischen Werte und die kategorialen Werte, wobei wir die Kategorien der Daten klar definiert haben Kategorien der Daten klar definiert Die lineare Regelung wird zur Vorhersage kontinuierlicher Werte verwendet zur Vorhersage kontinuierlicher Werte Hier. Jetzt ist uns ganz klar, dass wir immer dann, wenn wir die kontinuierlichen Werte haben, einige Kurse einer Aktie vorhersagen müssen, den Kurs eines Hauses der Dinge, bei denen es um Kurs eines Hauses der Zahlen geht. Wir können die lineare Regelung verwenden. Wir können uns die lineare Regulation als einen der Algorithmen zur Problemlösung für maschinelles Lernen unter Verwendung von überwachtem Lernen vorstellen Algorithmen zur Problemlösung für . Lineare Regulierung, die zur Vorhersage kontinuierlicher Werte wie Immobilienpreise auf der Grundlage von Merkmalen wie der Quadratfuß-Lage Dabei wird von einer linearen Beziehung zwischen dem Eingabe-Feature und dem Ziel-Feature ausgegangen zwischen dem Eingabe-Feature und dem Ziel-Feature Im Fall der Immobilienpreisprognose handelt es sich um eine ziemlich lineare Beziehung. Wann immer Sie an einen Premium-Standort fahren, werden Ihre Preise hoch sein. Wenn wir zu den Standorten mit dem geringsten Budget gehen, wird der Preis hoch sein. Wenn Sie sich für einen Quadratfuß der Baufläche entscheiden, wird Ihr Hauspreis steigen , abzüglich des Preises. Es handelt sich um eine lineare Beziehung zwischen dem Eingabe-Feature und dem Ziel-Eingabe-Feature. In diesem Fall handelt es sich bei einer Hausvorhersage um Quadratfuß des Standorts des Hauses, richtig? Ob es ein Reifen ist, von Stadt zu Stadt. All dies sind das Eingabe-Feature und das Eingabe-Feature. Unsere Preise werden steigen und fallen. Dies ist ein Ansatz , den wir verwenden können, die lineare Regelung für kontinuierliche Werte. Die logistische und logistische Regelung ist in erster Linie auf Probleme zurückzuführen, bei denen wir ganz klar spezifiziert haben, Probleme zurückzuführen, bei denen wir ganz klar spezifiziert haben dass es ein Ja- oder Nein-Situation gibt, bei dem Sie Ja oder Nein sagen oder nach E-Mail-Spam oder Nicht-Spam klassifizieren können . Es gibt eine sehr spezifische Klassifizierung, die wir vornehmen wollen. eine sehr spezifische Klassifizierung, die wir Entweder möchten wir die E-Mail , die von einer unbekannten Person stammt, als Spam oder nicht als Spam einstufen E-Mail , die von einer unbekannten Person stammt , als Spam oder nicht als Spam Das nennt man binäre Klassifikation, die zwei Arten der Klassifizierung, die wir vornehmen, nämlich Spam oder Nicht-Spam Binär ist eine sehr klare Definition , die wir eingeben müssen , um sie in eine der Kategorien einzuordnen, okay? In diesem Fall ist es Spam oder kein Spam, okay? Im Falle einer Kreditgenehmigung Darlehen genehmigt oder nicht genehmigt, genehmigt oder abgelehnt. Bei der Kreditantragsproblematik ist es binär Einstufung nach Kredit genehmigt, Kredit abgelehnt, genehmigt und abgelehnt. Das wird die binäre Klassifizierung sein. logistische Regulierung modelliert die Wahrscheinlichkeit , dass ein Input zu einer bestimmten Klasse gehört Klasse ist Spam. Spam, okay, Entscheidung. Die Entscheidung. Der vielseitige Algorithmus. Diese sind sehr vielseitig und werden sowohl für die Klassifizierung als auch für die Regrationasketil verwendet und werden sowohl für die Klassifizierung als auch für die Regrationasketil Wir sind lineare Region und logistische Region. die lineare Region, wir für die logistische Regression kontinuierlicher Werte verwenden können , können wir für die kategorialen Probleme oder Klassifikationsprobleme verwenden die kategorialen Aber manchmal sind lineare Regions - und Logistikansätze nicht aussagekräftig genug, um das Problem zu lösen. Wir brauchen einen besseren Ansatz. In diesem Fall kommt die Entscheidung Rich ins Spiel. Sie sind ein sehr vielseitiger Algorithmus und können sowohl für Klassifizierungs - als auch für Regionsaufgaben verwendet werden. Decision erstellt eine baumähnliche Struktur für Entscheidungen und Ergebnisse auf der Grundlage der Eingabefunktion. Basierend auf dem Eingabe-Feature erhalten Sie eine baumähnliche Struktur. Auf dieser Grundlage können Sie die Ausgabe vorhersagen. Random Forest, Random Forest Gimble-Laufmethode, die mehrere Entscheidungsbäume kombiniert, um die Genauigkeit zu verbessern und die Anzahl der Vektormaschinen zu reduzieren, unterstützt Vektormaschinen SVMs eignen sich sehr gut für Klassifizierungsaufgaben. Sbm findet die optimale Hyperspur, die Datenpunkte verschiedener Klassen am besten voneinander trennt Datenpunkte verschiedener Klassen am besten voneinander trennt. In diesem Fall werden wir den, äh, gesamten Datensatz in verschiedene Klassen einteilen Und SBM wird die optimale Hyperplane-Optimallinie finden , die die Datenpunkte, die zu verschiedenen Klassen gehören, voneinander trennt zu verschiedenen Klassen gehören, Neuronale Netzwerke, tiefes Lernen neuronale Netze fördern insbesondere neuronale Netze und konventionelle neuronale CNNs sind leistungsstarke Tools für Aufgaben wie Bild- und Spracherkennung und werden ein Problem der Bild - und Spracherkennung lösen ein Problem der Bild Wir müssen uns mit diesen neuronalen Netzwerken in einem tiefen neuronalen Netzwerk befassen . Wir haben auch die beiden Ansätze. Zwei Ansätze fördern das neuronale Netzwerk und das konvolutionelle Das ist N. Dann kommen die K nächsten Nachbarn, die für die Klassifikation und Regression verwendet werden Beide Probleme können gelöst werden, indem Vorhersagen trifft, die auf der Mehrheitsklasse oder dem Mittelwert des K nächstgelegenen Datenpunkts im Trainingsdatensatz basieren die auf der Mehrheitsklasse oder dem Mittelwert des K nächstgelegenen Datenpunkts im Trainingsdatensatz Es prognostiziert die Werte auf der Grundlage der Mehrheitsklasse oder des Mittelwerts des K nächstgelegenen Datenpunkts im Trainingssatz Einige Beispiele aus der Praxis, Anwendungen des überwachten Lernens bei medizinischen Diagnosen, die Vorhersage des G-Ergebnisses auf der Grundlage Patientendaten wie die Erkennung von Krebs sind eines der Beispiele für die medizinische Diagnose , bei der wir überwachtes Lernen verwenden Basierend auf den Patientendaten sagen wir voraus, dass, ob es sich um Krebs handelt oder nicht, natürliche Sprachverarbeitung, NLP, für die Verarbeitung natürlicher Sprache verwendet wird für die Verarbeitung natürlicher Sprache Wir verwenden Stimmungsanalyse, Textklassifizierung und maschinelle Übersetzung Dies ist auch ein Beispiel für überwachtes Lernen. Bilderkennung, Identifizierung von Objekten, Gesichtern und Anomalien in Bildern und Videos , also Bilderkennung Ein weiteres Beispiel für überwachtes Lernen ist das Kredit-Scoring, bei dem die Kreditwürdigkeit von Personen anhand von finanziellen und persönlichen Daten bewertet Personen anhand von finanziellen und persönlichen Daten Dies ist auch ein Beispiel beaufsichtigtes Lernen, das im Finanzsektor häufig genutzt wird indem auf persönliche Finanzdaten und persönliche Daten zugegriffen wird, um anhand des Finanzdaten und persönliche Daten Kredit-Scores seine Kreditwürdigkeit zu definieren . Sie entscheiden dann, ob die Person für ein Wohnungsbaudarlehen, Privatdarlehen oder ein Geschäftsdarlehen in Frage kommt oder nicht Dann gibt es Empfehlungssysteme, die Produktfilme empfehlen , je nach Benutzerpräferenz Das ist heutzutage das am häufigsten verwendete überwachte Lernen. Überall sehen wir das Empfehlungssystem, seien es die E-Commerce-Websites, Amazon, Ebay, all diese. Sie empfehlen Produkte, die auf dem Empfehlungssystem basieren , und geben an, dass sie intern das überwachte Lernen nutzen. Dann die Filme, Netflix, Hot Star, all diese Dinge, sie verwenden Empfehlungssysteme. Dann die Inhalte, die auf dem Zaun basieren, wie Facebook-Werbung, Youtube, Youtube-Videos, die auf Ihren Referenzen basieren. Dies sind die realen Anwendungen des überwachten Lernens. Was wir nun aus dieser Vorlesung zitieren können, ist, dass es sich Algorithmen für überwachtes Lernen um stundenlanges maschinelles Lernen handelt , Computerlernen ermöglicht und es Computern ermöglicht, aus beschrifteten Daten zu lernen und Vorhersagen mit bemerkenswerter Genauigkeit zu treffen . Die Anwendungen sind branchen-, branchen- und domänenübergreifend, was sie zu einem unverzichtbaren Werkzeug macht, um Erkenntnisse zu gewinnen, Aufgaben zu automatisieren und datengestützte Entscheidungen in unserer datenreichen Da maschinelles Lernen weiter voranschreitet, werden Algorithmen für überwachtes Lernen auch weiterhin ein Eckpfeiler Innovation und Problemlösung in den Bereichen künstliche Intelligenz und Ich hoffe, Sie haben die von uns verwendeten Super-Wide-Learning-Algorithmen für maschinelles Lernen Und das werden wir in der nächsten Vorlesung sehen, in der nächsten. 127. Lineare Regression: Hallo und willkommen zurück. In dieser Vorlesung werden wir etwas über die lineare Regression lernen, die die Grundlage der prädiktiven Modellierung darstellt Lass uns anfangen. Was ist lineare Regression Vorher werden wir nur verstehen, dass die lineare Regression ein Eckpfeiler der statistischen Analyse und prädiktiven Modellierung ist und prädiktiven Modellierung spielt eine zentrale Rolle beim Verständnis der Beziehung zwischen den Variablen und bei der In dieser Vorlesung werden wir uns mit der Welt der linearen Regression befassen Wir untersuchen ihre wichtigsten Anwendungsmöglichkeiten und wie sie es Datenwissenschaftlern ermöglicht , wertvolle Erkenntnisse aus den Daten zu oder sogar für Ingenieure des maschinellen Lernens sehr wichtig Die lineare Region ist für Datenwissenschaftler , da wir mit der linearen Region, die wir verstehen und vorhersagen können, ein besseres produktives Modell entwickeln können Okay, fangen wir noch einmal an, die lineare Region zu verstehen. Wie gesagt, die lineare Region ist statische Methode, mit der die Beziehung zwischen einer abhängigen Variablen namens x, der abhängigen Variablen, die oft mit y bezeichnet wird, und einer weiteren unabhängigen Variablen, typischerweise mit x bezeichnet, modelliert der die Beziehung zwischen einer abhängigen Variablen namens x, der abhängigen Variablen, die oft mit y bezeichnet wird, und einer weiteren unabhängigen Variablen, wird. X. Y die abhängige Variable und x ist die unabhängige Variable x Okay, Lineares Arion ist die statistische Methode um die Beziehung zwischen der abhängigen Variablen x und der unabhängigen Variablen Y zu definieren . Was bedeutet es, wenn wir das x ändern? Wie verändert das Y diese Beziehung? Wir versuchen herauszufinden, dass diese Modellierungstechniken darauf abzielen, die am besten passende lineare Regelung zu finden , die die verwandten Variablen beschreibt. Mit der linearen Regelung versuchen wir, die am besten passende lineare Gleichung zu finden , die die Beziehung zwischen x und y definieren kann , wenn x sich ändert wie Y diese Beziehung verändert. Sie versuchen, mit dieser Gleichung die lineare Gleichung zu definieren . Die Regelungsgleichung wie es sich auf der Grundlage von wird mit y bezeichnet. Wir wollen herausfinden, x verändert. Die lineare Regulationsgleichung lautet Beta 0 plus Beta auf e in x plus Fehler Okay, wir werden sehen, was Beta 0 und Beta 1 und was das Epsilon sind. Das ist tatsächlich ein Fehler . Nun, diese Gleichung gibt uns den Y-Wert, wenn wir X Beta Null und Beta Eins plus Fehler eingeben X Beta Null und Beta Eins plus Okay? Hier ist die unabhängige, Y ist die abhängige, unabhängige Y ist die abhängige Variable oder die Zielvariable, okay? Der Wert, den wir auf der Grundlage von X vorhersagen wollen, okay, ist die abhängige Variable oder Zielvariable, die wir ihn nennen, oder? Und dann ist Beta Null der Achsenabschnitt der den Wert von Y repräsentiert, wenn X Null ist. In der nächsten Vorlesung, auf der nächsten Folie, ist Beta Eins die Steigung, die angibt wie viel sich Y bei einer Änderung von x um eine Einheit ändert, und Epsilon steht für den Fehlerterm Dies ist der Fehlerterm, der die Variabilität y berücksichtigt, die nicht durch lineare Regulierung mit X erklärt wird. Sehen Sie hier, das ist der lineare Bereich, das ist die das ist Dies ist das X, das die unabhängige Variable auf dem X ist, X, das ist auf dem Y. X verändert die Art und Weise, wie Y sich ändert Das wollen wir hier vorhersagen, das wollen wir hier definieren. Das ist eine abhängige Variable, das ist eine X-unabhängige Variable in dieser Gleichung, Beta Null plus Beta Eins in x. Sehen Sie hier, die Beta-Null ist der unabhängige Achsenabschnitt Dies ist der Achsenabschnitt, an dem er die Y-X-Achse abfängt. Das ist Beta Zero. Wenn Sie diesen Punkt hier berücksichtigen, wird es das Beta Zero sein, das wird das Beta Zero sein. Und Beta eins wird der Hang sein. Was ist die Steigung? Für die X-Achse? Okay? Wie stark sich x, y ändert, wenn sich x1x ändert. Wenn x sich ändert, wie stark ändert sich Y? Das ist was? Beta eins. Okay? Hier, das ist der eigentliche Punkt und das ist die Degradationslinie Unsere Prognose ist diese. Da X zu Eins aufgerufen wird, bekommen wir hier Y. Aber der tatsächliche Punkt in unserem Datensatz, der hier liegt, dieser Abstand zwischen diesem vorhergesagten Wert und dem tatsächlichen Wert, wird als Fehlerterm oder Fehler bezeichnet und mit diesem Epsilon bezeichnet, wenn wir Beta Null plus Beta eins zu x plus addieren Null plus Beta eins zu x plus Ein Begriff, wir, wir haben den Regrationspunkt , okay? Du hast es richtig verstanden Das ist die Regrationslinie und diese Entfernung zum Bildschirm heißt Epsilon Und die Geschwindigkeitspunkte sind die Datenpunkte, die wir haben, diese Datenpunkte, wir versuchen, die am besten passende Linie zu finden, das ist die Regrationslinie, um die Beziehungen zwischen X und Y zu definieren , okay ? Anwendungen der linearen Region. lineare Regression hat ein breites Anwendungsspektrum in verschiedenen Bereichen Wie in den Wirtschaftswissenschaften verwenden Ökonomen die lineare Regression, um die Auswirkungen von Variablen wie Inflationsraten, Zinssätzen und Konsumausgaben auf Wirtschaftsindikatoren wie die BIP-Finanzierung zu analysieren Zinssätzen und Konsumausgaben auf Wirtschaftsindikatoren wie die BIP-Finanzierung Im Finanzwesen hilft die lineare Regression dabei, Aktienkurse zu modellieren, Vermögensrenditen vorherzusagen und Risikofaktoren für Vermögenswerte, die Investitionen beeinflussen Anlageportfolios für medizinische und medizinische Ressourcen nutzen die lineare Regression, um den Behandlungserfolg des Patienten anhand von Faktoren wie Alter, Genetik und Behandlungsprotokoll vorherzusagen anhand von Faktoren wie Alter, Genetik und Behandlungsprotokoll Im Marketing verwenden Marketer die lineare Regression, um die Effektivität von Werbekampagnen zu beurteilen, Kundenverhalten, Verkäufe und Sozialwissenschaften zu analysieren Sozialwissenschaftler wenden lineare Regulierung an, um Phänomene wie Kriminalitätsraten, Bildungsergebnisse und protische Trends zu untersuchen Bildungsergebnisse und protische Trends In der Technik verwenden Ingenieure lineare Regulation, um physikalische Eigenschaften wie die Beziehung zwischen Temperatur und Materialfestigkeit zu modellieren physikalische Eigenschaften wie die Beziehung zwischen Temperatur und Materialfestigkeit Aufbau und Evaluierung eines linearen Regelungsmodells. Der Aufbau eines linearen Regelungsmodells umfasst die folgenden Schritte. Datenerfassung, das Erste ist Datenerhebung. Der Datensatz wurde gesammelt, der die unabhängige Variable y und eine weitere unabhängige Variable X, die unabhängigen Variablen X und y enthält unabhängige Variable y und eine weitere unabhängige Variable X, unabhängigen Variablen X und y Wir benötigen dies ist die Datenerfassung. Dann die Datenexploration, die Untersuchung der Daten, Verwendung deskriptiver Statistiken und Visualisierungen, um Einblicke in die Beziehung zwischen den Variablen zu gewinnen Einblicke in die Beziehung zwischen den Variablen Dann kommt das Biegen des Modells. Verwenden Sie Statistiksoftware. Verwenden Sie statistische Software oder Programmiersprachen wie Python oder R, um lineare Regreationdel-Software zu erstellen den Wert von Beta Null und Beta Eins zu schätzen , der am besten zu den Daten passt Modellevaluierung ist der nächste Schritt , bei dem mithilfe von Matrizen auf die Leistung des Modells zugegriffen Metriken wie der Bestimmtheitskoeffizient, quadratische Mittelwert des Fehlers im R-Quadrat oder der quadratische Mittelwertfehler (RMSC Diese Metriken quantifizieren, wie gut das Modell zu den Daten passt. Interpretation: Interpretieren Sie die Koeffizienten Beta Null und Beta Eins Um die Stärke und Richtung der Beziehung zwischen den vorhergesagten Variablen zu verstehen die Stärke und Richtung der , verwenden Sie das Trendmodell, um Vorhersagen für die neuen Datenpunkte zu treffen Vorhersagen für die neuen Datenpunkte Was sind die Herausforderungen für diese lineare Region? lineare Region ist zwar ein vielseitiges und leistungsstarkes Instrument, weist jedoch Einschränkungen auf. Es wird von einem linearen Verlauf ausgegangen, obwohl dies in realen Szenarien möglicherweise nicht immer zutrifft. Darüber hinaus erfasst es möglicherweise keine komplexen oder nicht zusammenhängenden Zusammenhänge. Zusammenfassend lässt sich sagen, dass die lineare Regulierung eine grundlegende Technik in der Welt der Statik und der prädiktiven Modellierung Aufgrund ihrer Einfachheit, Interpretierbarkeit und ihres breiten Anwendungsspektrums ist sie ein unverzichtbares Werkzeug, um wertvolle Erkenntnisse aus Daten zu gewinnen Und fundierte Entscheidungen in verschiedenen Bereichen und Branchen zu Es dient zwar dem, dient als Sprungbrett für weitere Fortschritte, aber auch für die Weiterentwicklung der fortgeschrittenen Modellierungstechniken Beherrschung der linearen Regulierung ist eine grundlegende Fähigkeit für jeden Datenwissenschaftler oder Analysten Wir haben die Grundlagen der linearen Regression verstanden und verstanden, welche Anwendungen die lineare Region bietet, wie wir ein lineares Regressionsmodell erstellen und welche Herausforderungen damit verbunden sind In der nächsten Vorlesung werden wir versuchen, die Region mithilfe unserer Programmierung zu Weitere Informationen finden Sie in der nächsten 128. Lineare Regression in R: Hallo und willkommen zurück. In der vorherigen Vorlesung haben wir uns ausführlich mit der linearen Regulation befasst Wir haben das Konzept theoretisch verstanden. Jetzt machen wir ein einfaches Beispiel lineare Regression und wir werden sehen, wie wir die lineare Region mithilfe der R-Programmierung implementieren können die lineare Region mithilfe der R-Programmierung implementieren R bietet eine breite Palette von Paketen und Funktionen für die lineare Regreationsanalyse. Hier gebe ich Ihnen eine Anleitung zur schrittweisen Durchführung linearer Regionen mithilfe der R-Programmierung Der allererste Schritt sollte die Datenaufbereitung sein. Denn Daten sind die Grundlage für alle Datenzeichen, maschinelles Lernen, Datenvisualisierungen, Deep Learning, was auch immer mit der Datenwissenschaft zu tun Der erste Schritt ist die Datenaufbereitung. Daten sind sehr wichtig. Dafür werden wir eine CSV-Datei verwenden , die einen sehr einfachen Datensatz enthält. Okay? Der erste Schritt ist , Ihr Band vorzubereiten, Ihre Daten vorzubereiten, Ihre Daten in R zu laden . Dann sollte es sehr formatiert sein, es sollte die abhängigen und unabhängigen Variablen enthalten Okay, hier verwenden wir Daten, CSP, die ich geladen habe Wenn wir die Datei re in R verwenden, laden wir alle. Das ist eine Funktion, die es uns ermöglicht, die Daten zu lesen, okay, aus einer CSV-Datei erstelle ich hier eine Variable, Daten. Und ich verwende die CSV-Datei , um die Daten aus dieser Datei zu lesen, und ich speichere das Ergebnis in den Daten. Okay, lassen Sie uns das ausführen. Okay? Ich stelle Ihnen die Daten-CSV-Datei zur Verfügung. Du kannst es aus dem Kurs herunterladen und benutzen, okay? Sie müssen den Daten-CSP in Ihrem Projektverzeichnis ablegen, damit er ihn korrekt liest und den vollständigen Pfad zu diesem Verzeichnis angibt Und es wird gelesen, okay. Andernfalls wird es den falschen Pfad angeben. Es wird dir den Fehler geben. Okay, Datei, keine, nur all diese Fehler, die du bekommen wirst. Als Nächstes werden wir sehen, was in diesen Daten enthalten ist. Wir werden die Head-Funktion head verwenden und diese Objektdaten übergeben. Und wenn wir das dann ausführen, können wir sehen, dass es sich in unserem Datensatz einen ziemlich einfachen Datensatz handelt , der x und y enthält. X ist die unabhängige Variable und Y ist die abhängige Variable, die auf x basiert. Y ändert sich hier. Okay, für jedes X zeichnen wir Y auf und versuchen , eine lineare Region zu finden. Regresslinie wird darstellen, welche Beziehung zwischen X und Y repräsentiert. Sie passt am besten zu all diesen Punkten, Punkten, okay? Wenn Sie auf dieser Grundlage einen anderen X-Wert angeben , der nicht in der enthalten ist, wird der Y-Wert vorhergesagt, okay? Als Nächstes folgt der Modellbau. Dafür werden wir die LM-Funktion verwenden. L-Funktion für lineares Modell. Okay? Lm bedeutet lineares Modell. Es gibt die Funktion Lm, die wir für die lineare Regression oder die Erstellung des linearen Modells verwenden die lineare Regression oder die Erstellung des linearen Modells Okay? Es ist als L M LM-Funktion geschrieben, mit der wir ein lineares Regressionsmodell erstellt In diesem Beispiel werden wir die abhängige Variable y auf der Grundlage der unabhängigen Variablen x vorhersagen die abhängige Variable y auf der Grundlage . Okay, um ein lineares Regressionsmodell zu erstellen, erstellen wir hier ein Modellobjekt Und dann verwenden wir die Funktion L M und sagen, dass X, Y von X abhängt. Daten werden als Daten zurückgegeben, Datenobjekt, das wir hier erstellt haben Okay? Daten sind gleich Daten und Y ist von x abhängig. Lassen Sie uns das jetzt ausführen. Es wird unser Modell erstellen. Jetzt möchte ich die Zusammenfassung unseres Modells sehen. Okay? Dafür können wir die Zusammenfassungsfunktion verwenden und dieses Modellobjekt hier übergeben . Lass uns das ausführen. Dies ist die Zusammenfassung für unser Modell. Hier sehen Sie den Restmittelwert, Median und das erste Quartil Drittes Quartil und Maximalwerte, okay? Der Höchstwert ist 24,469 Okay. Dann können wir den Koeffizienten für den geschätzten Standardfehler und den Wert R sehen . Okay? Das ganze Abhören, alles, was Sie sehen können, das sind die Dinge Wir werden sehen, wie Sie sich die Dinge ansehen, und wir werden sehen, wie wir anhand des Buchstabens, der das erste Quartil erfüllt, das dritte Quartil und die Maximalwerte bestimmen können anhand des Buchstabens, der das erste Quartil erfüllt, das dritte Quartil dritte Quartil Okay, der nächste Schritt ist die Modellevaluierung. Jetzt können Sie die Leistung des Modells bewerten, indem Sie die zusammenfassende Statistik einschließlich der quadratischen Werte des Koeffizienten R untersuchen die zusammenfassende Statistik einschließlich quadratischen Werte des Koeffizienten R Der nächste Schritt sind Prognosen. Wir werden die Vorhersagefunktion verwenden , um Vorhersagen zu treffen. Mit Ihrem Modell können Sie einen neuen X-Wert angeben, der in dem Datensatz, für den wir dies wünschen, nicht vorhanden ist . Sagen Sie hier den Y-Wert voraus. Wir erstellen hier ein, ein neues Objekt, hier neue Unterstrichdaten. Ich verwende hier den Datenrahmen, x. Ich gebe uns 102030 x-Werte Ich gebe hier drei Werte an. Ich gebe 1.020,30 Für diese drei Werte möchte ich für zehn vorhersagen, was das Y sein wird? Für 20, was wird, und für 30. Dann werde ich die Vorhersagen verwenden. Okay, ich werde die Vorhersage verwenden. Ich werde die neuen Werte in den Vorhersagen speichern. Und ich verwende das Vorhersagemodell, Vorhersagefunktion zwei, wobei die Y-Werte auf dem X-Wert basieren. Dafür verwende ich unser Modell , das wir hier erstellt haben. Okay, in der Alaun-Funktion haben wir dieses Modell erstellt. Ich werde dieses Modell verwenden, um die Werte vorherzusagen. Ich übergebe das Modell , um die Funktion vorherzusagen. Und neue Daten entsprechen neuen Underscore-Daten. Die neuen Unterstrichdaten, denen wir den X-Vektor übergeben. Okay? Dieser Vektor wird diese neuen Daten durchdringen. Das gibt uns jetzt die neuen vorhergesagten Werte. Okay, jetzt haben wir die Vorhersagen. Lassen Sie uns die Vorhersagen hier ausdrucken. Lass uns das machen. Lassen Sie uns jetzt hier sehen , dass wir den Prognosewert 22,8 für 102.035,5 und 48,5 30 sehen können 102.035,5 und 48,5 Lassen Sie mich das in den Block packen, damit wir das Ergebnis gleich hier sehen können Sehen Sie hier. Jetzt erhalten wir die drei Werte für y x. Wenn x zehn ist, erhalten wir den Y-Wert 22,78. Wenn Sie sich die Daten hier ansehen, gibt es keine Zehn, oder? Nein 2030. Aber du siehst eine 38. Für 38 sind es 56. Bei 30 ist es richtig, oder? Für 20 bekommen wir 35,65 Für zehn bekommen wir 22. Jetzt visualisieren wir das, indem wir es zeichnen. Wir verwenden die Plotfunktion und wir X und Y und geben die Überschrift als lineare Region und Xlab und Ylab Alta Versuchen Sie, die lineare Regionslinie mithilfe der Funktion Able zu zeichnen mithilfe der Funktion Able Für die Funktion Able zur Darstellung der Alec-Regressionslinie verwenden wir das von uns erstellte Modell und geben die Farbe als Regrlineilllottdlt'seeeow'etlegrelinere an, unsere linearen Regressionsmodelle verwenden wir das von uns erstellte Modell und geben die Farbe als Regrlineilllottdlt'seeeow'etlegrelinere an, unsere linearen Regressionsmodelle. Wenn Sie hier einen beliebigen Wert von x für 30 vorhersagen können, ist dies der Wert von y für 35. Das wird der Achsenabschnitt sein. Wenn Sie eine Linie von hier nach hier ziehen und wo sie sich kreuzt, wird das der vorhergesagte Wert sein, 50 für all diese Dinge Einige Werte sind weit von hier entfernt, von dieser roten Linie zu der Entfernung, die bis zu diesem Punkt liegen wird. Das nennt man Fehler, oder? Epsilon, das wir in unserem Theorieteil gesehen haben, oder? Der Abstand zwischen dem Punkt und der Regressionsgeraden, Epsilon oder Fehler, Epsilon oder Fehler So können wir linearen Bereich verwenden, um den Wert vorherzusagen Wenn Sie nun irgendwelche X-Werte nehmen und hier alles durchgehen, finden Sie den Y-Wert auf dieser Regresse, die vorhergesagten Werte Okay, jetzt ist die lineare Region ein leistungsstarkes Tool für die Datenanalyse und Vorhersage sowie für die prädiktive Modellierung Mit R können Sie ganz einfach lineare Berechnungen durchführen, die Beziehung zwischen den Variablen beurteilen und auf der Grundlage Ihres Modells Vorhersagen treffen Hier haben wir die grundlegenden Informationen zur Einführung in die lineare Region gesehen , aber es gibt noch viel mehr zu entdecken, darunter die Handhabung Monte-Kolinearitäts-Modelldiagnostik und fortgeschrittene Regressionstechniken fortgeschrittene lineare Regression ist nur eine Facette vielfältigen Landschaft der statistischen Analyse und des maschinellen Lernens , sodass wir noch viel mehr dieser Dinge tun können Wir werden noch einige weitere Beispiele für lineare Regression sehen. Ich hoffe, Sie haben erfahren, wie wir das lineare Regionalmodell erstellen und wie wir die Werte vorhersagen können Wie wir hier eine Regressionslinie zeichnen können , um die Werte vorherzusagen erfahren Sie in der nächsten Vorlesung 129. Vorhersage der Körpergröße einer Person mit linearer Regression: Hallo und willkommen zurück. In der vorherigen Vorlesung haben wir gesehen, wie wir ein lineares Grabmodell erstellen können, okay, um Y-Werte anhand des X vorherzusagen. Okay, hier war X die unabhängige Variable und Y die abhängige Variable. Jetzt gehen wir einen Schritt weiter, einen kleinen Schritt auf den Sohn zu. In dieser Übung werden wir versuchen, die Körpergröße einer Person anhand einer linearen Gradzahl vorherzusagen. Natürlich mit unserer Programmierung. Okay, das allererste ist, wenn Sie an einem Projekt arbeiten, erhalten Sie den echten Datensatz. Hier. Was ich mache, ich verwende keine Daten aus der realen Welt. Stattdessen generiere ich einen synthetischen Datensatz. Die meiste Zeit erhalten wir die Echtzeitdaten. Aber aus praktischen Gründen können wir nicht jedes Mal mit einem sehr großen Datensatz arbeiten, oder? In diesem Fall erstellen wir unseren eigenen Datensatz, okay, mit den Zufallswerten, und wir versuchen, Modelle zu erstellen und daran zu arbeiten. Okay, später implementieren wir dasselbe mit den Daten aus der realen Welt. Für dieses Beispiel verwende ich synthetischen Datensatz mit Alterswerten zwischen 18 und 65 Jahren. Wir werden die Alterswerte für Personen zwischen 18 und 65 Jahren haben Personen zwischen 18 und 65 Jahren Okay? Und dann werden wir entsprechenden Höhenwerte mithilfe einer linearen Beziehung erstellen . Okay, zuerst erstellen wir Alterswerte, 18-65 Für jeden Wert werden wir versuchen, eine entsprechende Größenunterstützung für 18 Jahre zu erstellen , Person wird die Größe, 19 Jahre, Seite wie diese haben 19 Jahre, Seite wie diese Okay. Wir erstellen für die Person eines anhand einer linearen Beziehung eine zufällige entsprechende Größe für die Person eines bestimmten Alters. Dann fügen wir zufälliges Rauschen hinzu. Alle Daten werden niemals perfekt sein, richtig, ein gewisses Rauschen in den Daten. Wir werden einige Unregelmäßigkeiten bei den Daten haben. Wir werden zufälliges Rauschen hinzufügen, um es mit dem Datensatz aus der realen Welt zu simulieren Denn im Datensatz der realen Welt werden wir nie die richtigen Werte haben, wir werden das Rauschen in den Datensatz aufnehmen. Wir müssen die Mehrdeutigkeit in unserem Datensatz haben. Okay, wir erzeugen diese Mehrdeutigkeit, indem wir das zufällige Rauschen verwenden , um die Daten aus der realen Welt zu simulieren Wir erstellen einen Datenrahmen namens Data aus den Variablen H Dann führen wir eine lineare Gration mit der Funktion LM durch, wobei wir die Höhe H anhand des Datenrahmens vorhersagen Wir fassen das Regionalmodell mithilfe des Zusammenfassungsmodells zusammen. All dies haben wir in der vorherigen Übung genauso gemacht , wie wir es hier tun werden , aber aus einer anderen Perspektive, oder? Die Zusammenfassung. Anhand der Zusammenfassung fassen wir unser Regrationsmodell Und wir werden dieses Modell weitergeben , das wir während der Lm-Funktion erstellt haben , und wir werden uns mit der Polizei und den Statistiken befassen Wir sagen die Höhe für einen neuen H-Wert voraus. Sobald wir ein Modell erstellt haben, übergeben wir einen neuen Alterswert, 30 oder 35 Jahre alt sein soll, und wir werden versuchen, die Körpergröße für das Alter vorherzusagen. Dafür verwenden wir die Vorhersagefunktion. Schließlich drucken und visualisieren wir die lineare Regression, okay? Sagen Sie die Höhe voraus und visualisieren Sie diese auch die Regressionslinie Okay, fangen wir damit an, dass wir als Erstes einen synthetischen Datensatz generieren werden einen synthetischen Datensatz generieren Dafür verwende ich Set 123. Was es tun wird, es wird das Set für die Reproduzierbarkeit Jedes Mal werden dieselben Setup-Daten erzeugt . Okay? Hier geht es um den Bereich 18 bis 65. Hier wird er dann 18 bis 65 alaun. Für die Höhe werde ich dann 15150 angeben. Das ist ein Grundlinienminimum Die Leute werden 150 haben, okay. Höhe, 150 Zentimeter. Dann haben wir hier das Plus 0,5 in H. Wir werden hier die Normfunktion verwenden. Wir geben die Länge von H an, dann verwenden wir den Mittelwert Null und die Standardabweichung fünf. Dadurch wird die synthetische Körpergröße für jedes Alter berechnet. Okay, hier sind wir, wir passieren das H hier. Okay, lassen Sie uns das erledigen. Jetzt haben wir den synthetischen Datensatz erstellt. Was ich jetzt tun werde, ich werde einen Datenrahmen erstellen. Ich werde im Datenrahmen speichern, dass der Datenrahmen gleich h ist und die Höhe gleich der Höhe ist Diese Höhe, okay, ist gleich h ist gleich dieser. Okay, lassen Sie uns das auch ausführen. Jetzt sehen wir den Datensatz, wir erstellt haben. Führen Sie das aus, sehen Sie sich jetzt hier für 18 an. Die zufällige Höhe. Wir haben das seit 1920 Jahren generiert. Das ist okay. Jetzt haben wir den Datensatz in unseren Händen. Als Nächstes werden wir dafür ein lineares Regationsmodell erstellen ein lineares Regationsmodell Ich verwende hier ein Variablenmodell und ich verwende die LM-Funktion, um unser lineares Aktionsmodell zu erstellen Hier gebe ich Höhe und Höhe als den Wert an, den Sie vorhersagen möchten abhängige Variable und als unabhängige Variable. Und Daten sind gleich Daten. Lassen Sie uns dieses Modell erstellen, indem wir diesen Code ausführen. Nun, das ist erstellt, lassen Sie mich das entfernen. Okay. Das habe ich schon früher gemacht. Okay, jetzt ist unser Modell fertig. Jetzt ist unser Modell fertig. Sehen wir uns nun die Zusammenfassung unseres Modells an. Hier können Sie all diese Werte, Koeffizienten und den Wert der Standardära sehen , all diese Dinge, okay? Unsere quadratischen Werte. Okay, was ich jetzt machen werde, wir haben das Modell jetzt fertig bei uns Ich möchte das Alter für eine 30-jährige Person vorhersagen. Dafür werde ich ein variables neues Zeitalter erstellen. Und ich werde hier die Datenrahmen-Datenrahmenfunktion verwenden. Ich werde eine Höhe von 30 überschreiten und dann die vorhergesagte Größe vorhersagen. Ich möchte die Größe dieser 30-jährigen Person vorhersagen. Ich werde die Vorhersagefunktion verwenden. Auf welcher Grundlage werde ich vorhersagen. Ich werde das Modell verwenden, um die Höhe vorherzusagen. Ich übergebe dieses Modell, das wir hier mit der LM-Funktion erstellt haben . Okay? Und neue Daten sind hier gleichbedeutend mit New Age. Ich werde das neue Zeitalter als 30 bestehen. Ich übergebe diese Variable, die den Wert enthält. Okay, lass uns das ausführen. Was ich jetzt tun werde, ich werde versuchen, die vorhergesagte Höhe auszudrucken. Wir haben die vorhergesagte Höhe. Wenn Sie hier sehen, ist die vorhergesagte Höhe in Ordnung. Lass mich rennen. Diese vorhergesagte Größe für eine 30-jährige Person ist 165,29 Auf diese Weise haben wir die Größe der 30-jährigen Person vorhergesagt Wenn Sie über Echtzeitdaten verfügen, können Sie diese Daten hier verwenden Okay? Richtig. Und dann können Sie vorhersagen, lassen Sie mich jetzt einen anderen Wert angeben, wie ich es als 49 Jahre alte Personendaten angeben möchte . Jetzt sind es 165. Mal sehen, was der Wert für 49 sein wird, für eine 49-jährige Person wird die Körpergröße 174,84 8.174,47 sein Das ist also die vorhergesagte Größe. Auf diese Weise können wir die Höhe vorhersagen. Lassen Sie uns nun hier die regulatorische Grenze ziehen. Ich habe einen Code geschrieben in dem Sie diesen Code schreiben können, wenn Sie den zweiten GG-Plot nicht installiert haben . Was das machen wird, wenn GG-Plot benötigt wird, es wird das Paket installieren und die Bibliothek benutzen, okay? Und wenn es schon da ist, dann ist es okay, es wird es benutzen. Okay. Dann verwenden wir hier die G GG-Plotfunktion. Ich werde die Daten weitergeben. X ist das H und Y, x ist die Höhe und der Startpunkt, Gomo-Methode LM, Farbe Blau für die Regressorlinie und all diese Überschriften, weißt du, oder und all diese Überschriften, weißt du, Das Minimum, das wir im Abschnitt GG-Plot gesehen haben. Neu ist ein Datenrahmen, der 30 und der vorhergesagten Höhe entspricht . Ich werde das Modell verwenden. Okay, dann drucken wir es aus. Okay, lassen Sie uns das ausführen. Lass uns hier nachsehen. Hier messen wir auch die Größe einer 30, 30 Jahre alten Person. Und sehen Sie hier, wir bekommen die Regressionslinie. Auch hier sagt die Regression die Körpergröße anhand des Alters voraus. Dies ist das Alter auf der X-Achse und dies ist die Körpergröße Für jedes Alter erhalten Sie einen Punkt auf der Regressionsgeraden Das ist die prognostizierte Höhe für eine Unterstützung von 52 Jahren. Es wird hierher kommen, das wird die Größe sein, 52 Jahre alt, Person 62 Jahre. Es wird so hierher kommen, okay? Wird so herkommen, okay? So können wir hier vorhersagen, wenn du willst, du kannst irgendwas angeben und es wird vorhersagen. Ich hoffe, Sie haben die lineare Regression verstanden und wir sehen uns in der nächsten Etappe 130. Logistische Regression: Hallo und willkommen zurück. In dieser Vorlesung werden wir etwas über die Logistikregion lernen Wir werden verstehen, welche Mathematik hinter dieser mathematischen die Klassifizierung anhand der logistischen Region steckt Okay, also lass uns anfangen. logistische Regulierung ist eine leistungsstarke statistische Methode, die für binäre Klassifizierungsaufgaben wie die Spam-Erkennung verwendet wird für binäre Klassifizierungsaufgaben wie die Spam-Erkennung Wie wir sehen können, verwendet sie diese Klassifizierung von E-Mails . Wenn Sie also eine E-Mail erhalten, wird sie als authentisch oder als Spam eingestuft Also werden alle Spam-E-Mails in die Spam-Ordner verschoben, oder? Das ist also ein Beispiel für logistische Vorschriften oder eine binäre Klassifizierung Medizinische Diagnose, unabhängig davon, ob es sich um eine oder eine bestimmte Ziffer oder diese Art von Klassifizierung Außerdem können wir dann die Bandbreitenklassifizierung als auch die Risikobeurteilung bei der Kreditvergabe oder Kreditvergabe vornehmen. Die Banken und Finanzinstitute, sie machen die Kreditrisikobeurteilung passend, passen oder genehmigen oder lehnen die Sache ab, okay, um herauszufinden, ob der Kreditgeber Lage sein wird, das Geld zurückzuzahlen oder Trotz seines Namens handelt es sich nicht um eine Regression im herkömmlichen Sinne, sondern um einen Obwohl der Name logistische Regression lautet, handelt es sich eigentlich nicht um eine Regression im herkömmlichen Sinne, sondern um einen Klassifizierungsalgorithmus In dieser Vorlesung werden wir die Grundlagen der logistischen Regression, Mathematik, Grundlagen und reale Anwendungen untersuchen , bei denen wir die logistische Regression so gut wie möglich nutzen können, um die binäre Klassifikation zu verstehen und reale Anwendungen denen wir die logistische Regression so gut wie möglich nutzen können, um die binäre Klassifikation . In der binären Klassifikation befassen wir uns mit Problemen, bei denen das Ziel darin besteht , Beobachtungen einer oder zwei Klassen oder Kategorien zuzuordnen . Zum Beispiel die Klassifizierung von E-Mails als Spam oder nicht als Spam, die Vorhersage, ob ein Kunde abwandert oder das Telekommunikationsunternehmen bleibt , und bestimmt ob ein medizinisches Testergebnis positiv oder negativ ist Logistikregion hilft uns bei der Lösung solcher Probleme, indem sie die Wahrscheinlichkeit modellieren, dass eine Beobachtung zu einer bestimmten Klasse gehört Dinge wie Spam oder kein Spam. Medizinischer Test, Bluttest eine bestimmte Krankheit positiv ist oder nicht, wie im Fall von Covid, sie war Covid-positiv oder Covid-negativ Diese binäre Klassifikation und die logistische Regression helfen uns, solche Probleme zu lösen, indem wir die Wahrscheinlichkeit modellieren , dass eine Beobachtung zu einer bestimmten Klasse gehört Funktion der logistischen Region ist das Herzstück der logistischen Und der Schlüssel zur logistischen Regression liegt in der logistischen Funktion, auch Sigmoidfunktion genannt auch Diese Sigmoidfunktion ist in der logistischen Region sehr wichtig, jede Eingabe einem Wert von 0-1 zuordnet. 0,1 In 0-1 da sie jede Eingabe einem Wert von 0-1 zuordnet. 0,1 In 0-1 wird sie abgebildet, okay? Die Funktion der logistischen Region ist definiert als p von y, gleich eins gleich eins nach eins plus e mit der Potenz minus Beta Null plus Beta eins in x. Sie erinnern sich an dieses Beta Null plus Beta Eins in x. Wir verwenden das in der linearen Gleichung, aber hier hat die aber hier Es ist eins, y plus e zur Potenz minus Beta Null plus Beta Eins x P von y. Gleich eins ist die Wahrscheinlichkeit, dass Beobachtung zu plus eins gehört. Das bedeutet, dass dies die Wahrscheinlichkeit angibt , mit der die Beobachtung zur Klasse E gehört. Diese Formel gibt die Wahrscheinlichkeit an, dass zur Klasse E gehört. Diese Formel gibt die Wahrscheinlichkeit an Beta Null ein Achsenabschnitt ist, die wir bereits in der linearen Regression gesehen Beta Eins in X steht für die lineare Kombination von Eingabe-Features Sept-Kurve der logistischen Funktion beginnt nahe Null und nimmt allmählich zu und nähert sich symptomatisch der Eins Es wird wie diese Sinuskurve verlaufen, oder? Dann trainieren Sie ein logistisches Regressionsmodell. Um das logistische Freizeitmodell zu trainieren, verwenden wir einen Datensatz mit Für jedes Beispiel berechnen wir anhand einer logistischen Funktion die Wahrscheinlichkeit , zur ersten Klasse zu gehören Dann haben wir eine Verlustfunktion definiert , also einen Kreuzentropieverlust Um die Leistung des Modells zu messen, besteht das Ziel darin, den Wert von Beta Null und Beta Eins zu ermitteln , der die Verlustfunktion minimiert Diese Optimierung wird in der Regel mit numerischen Methoden oder Optimierungsalgorithmen wie Gradient Descent durchgeführt numerischen Methoden oder Optimierungsalgorithmen wie Gradient Descent Dies ist ein weiterer sehr wichtiger Begriff. Wir werden Anwendungen in der Logistikregion sehen. logistische Regression ist in verschiedenen Bereichen weit verbreitet , wie wir bereits in der medizinischen Diagnostik zur Unterstützung des Krankheitsverlaufs erörtert der medizinischen Diagnostik zur Unterstützung des haben, beispielsweise Auf der Grundlage von Patientendaten wie Testergebnissen oder Anamnese geben wir die Daten weiter und sie geben uns Aufschluss darüber, ob es sich Durchgängigkeitsdiabetes handelt, ob es sich um einen Marketing und Kundenanalysen identifizieren potenzielle Gefahren im Hinblick auf Werbung und All diese Dinge können wir logistische Regulierung nutzen Wir haben bereits über die Bewertung des Kreditrisikos, die Aufdeckung von Betrug und Kreditausfällen, die Verarbeitung natürlicher Sprache, NLP und Textklassifizierung gesprochen Aufdeckung von Betrug und Kreditausfällen, Verarbeitung natürlicher Sprache, NLP und Textklassifizierung Beispielsweise eine Stimmungsanalyse, Spam-Erkennung ist eine gängige Anwendung von NLP, bei der die Bildanalyse der logistischen Region in einer Bildverarbeitung verwendet . Beispielsweise eine Stimmungsanalyse, Spam-Erkennung ist eine gängige Anwendung von NLP, bei der die Bildanalyse der logistischen Region in einer Bildverarbeitung verwendet wird. Die logistische Regulierung kann zur binären Klassifizierung von Aufgaben verwendet werden . Wenn Sie Bilder von Mensch und Tier auf der Grundlage eines bestimmten Ca-Werts unterstützen , wird bestimmt, ob dieses Bild zur Kategorie Mensch oder Tier gehört zur Kategorie Mensch oder Tier So wie das. Interpretation der logistischen Erholungskoeffizienten Beta Null und Beta Eins im logistischen Zusammenhang haben eine Die Interpretation von logistischen Koeffizienten, die Interpretation der logistischen Erholungskoeffizienten, der Effizienz von Beta Null und Beta Eins im logistischen Zusammenhang haben eine aussagekräftige Interpretation. In einem Modell zur Bewertung des Kreditrisikos könnte Beta Eins beispielsweise die Auswirkung des Einkommens auf die Wahrscheinlichkeit eines Zahlungsausfalls darstellen . Ein positiver Beta-Wert weist darauf hin , dass höhere Erträge das Ausfallrisiko verringern. Was ist die Schlussfolgerung? Das logistische Kation ist ein volatiles und interpretierbares Instrument für binäre Klassifikationsprobleme Wir sollten immer daran denken, dass dies für das Problem der binären Klassifikation gilt für das Problem der binären Klassifikation Es ist eine mathematische Grundlage und in der Lage, Wahrscheinlichkeiten abzuschätzen, es zu einem wesentlichen Bestandteil der Prognosemodellierung in der was es zu einem wesentlichen Bestandteil der Prognosemodellierung in der Datenwissenschaft und im maschinellen Lernen Obwohl es sich um einen grundlegenden Algorithmus handelt, sind seine Anwendungen weitreichend tragen zu einer besseren Entscheidungsfindung in allen Branchen und Bereichen Während wir unseren datengesteuerten Lösungen weiterhin entkommen. Die logistische Regression ist nach wie vor ein wertvolles Instrument zur Bewältigung realer Klassifizierungsherausforderungen Hier dreht sich alles um eine Theorie, einen Teil der logistischen Beziehung In der nächsten Vorlesung werden wir R einfach praktisch anwenden und versuchen, eine logistische Regression zu implementieren Sieht in der nächsten Vorlesung. 131. Vorhersage der Kundenabwanderung mit logistischer Regression: Hallo und willkommen. In dieser Vorlesung werden wir unser Programm Logistic Regression schreiben unser Programm Logistic Regression Und wir werden versuchen, vorherzusagen, ob ein Kunde abwandern wird oder nicht Mal sehen, das ist unsere Zeit, während das Projekt einen Kundenrückgang vorhersagt Okay, was wir tun, wir erstellen einen Beispieldatensatz mit zwei Variablen, wobei John ein binäres Ergebnis ist , das Null oder Eins ist und ein binäres Ergebnis ist , das Null oder Eins ist angibt, ob ein Kunde abgewandert ist oder nicht Okay, das ist es also, was wir versuchen zu tun. Okay? Wir verwenden GLM, GL, GL ist ein allgemeines Rationsmodell. Okay? Wir verwenden hier GLM, GLM-Funktion, um ein logistisches Rationsmodell anzupassen, bei dem das Familienargument auf Binomial gesetzt wird Um die logistische Regression zu spezifizieren. Das Argument, das auf Logik gesetzt ist, gibt die Funktion der logistischen Verbindung an Okay, wir zeigen eine Zusammenfassung des logistischen Regressionsmodells mithilfe Zusammenfassungsfunktion an und übergeben das logistische Modell an diese Zusammenfassungsfunktion, um Koeffizientenwerte und andere Statistiken zu sehen Wir treffen Vorhersagen für neue Daten. Und wir verwenden die Daten 38,62 und sehen, ob die beiden ein Kunde mit der 38,62 sind, wie hoch die Wahrscheinlichkeit ist, indem wir die Vorhersagefunktion mit dem Argumenttyp als Antwort verwenden dem Argumenttyp als Antwort Okay, das gibt die prognostizierte Wahrscheinlichkeit von John für diese beiden Kunden zurück John für diese beiden Kunden Und dann drucken wir, okay, schauen wir uns das mal an. Ich erstelle hier auch Beispieldaten für die Klassifizierung der Bandfarben. Wir verwenden Set Seed 123 und Data und ich verwende Data Frame und ich erstelle hier diese beiden Vektoren und die Churn-Vektoren. Als Alter gebe ich hier das H an, ich gebe den John-Wert 01 für die Altersgruppen In Ordnung? Kundenabwanderung ist ein binäres Ergebnis, wie wir bereits besprochen Und dann lassen Sie uns das ausführen. Okay? Jetzt haben wir einen Beispieldatensatz erstellt. Okay? Jetzt erstellt Lex ein Logistikmodell dafür Wir werden die GLM-Funktion verwenden und auf welcher Grundlage werden wir in der GLM-Funktion dieses Ding erstellen, eine logistische Kreation auf der Grundlage des H Hier sind Daten die Daten und Familie die binomiale Verknüpfung , die der Logik entspricht Das bedeutet, dass wir zur logistischen Regression übergehen. Okay, lassen Sie uns das jetzt ausführen. Unser logistisches Regressionsmodell ist fertig. Was wir nun tun werden, wir werden dieses logistische Modell an die Zusammenfassungsfunktion übergeben, um die Zusammenfassung dieses Regressionsmodells zu sehen die Zusammenfassung dieses Hier sehen Sie die Copic-Werte, die Intercept-Fehler, den Jet-Wert und die R-Werte Okay, hier siehst du den Personenparameter für die Sperre, wobei er als Werte für eine interne Abweichung und als C-Werte für die Restabweichung genommen und als C-Werte für die Restabweichung All diese Dinge, Dinge, die du sehen kannst. Als Nächstes möchte ich wissen, dass unser Logistikmodell fertig ist. Ich möchte vorhersagen, ob der Kunde abwandern wird oder nicht Ich bestehe die beiden H 38.62 und schaue mir die Wahrscheinlichkeit für die Daten Ich werde neue Daten erstellen. Ich übergebe die beiden Vektoren an H, um sie in den neuen Daten zu speichern. Dann übergebe ich diese neuen Daten an die Vorhersagefunktion. Ich übergebe die beiden Dinge, Logistikmodell, das wir erstellt haben , und die neuen Daten, die hier sind, den Pass und gebe eine Antwort ein. Dann führen wir das aus Jetzt haben wir die vorhergesagten Werte in diesen vorhergesagten Requisiten, sodass wir versuchen werden, sie zu drucken. Lassen Sie uns das ausführen Sehen Sie sich die Wahrscheinlichkeit an, dass der Kunde H 38 bei einem Wetter von 0,077 kommt, wohingegen der Kunde im Alter von 6022 Jahren bei etwa 97% liegt. Hier können wir leicht sagen, etwa 97% liegt dass der Kunde mit H 62 abwandern wird, denn 100% 97% sind hier fast 98% 97,75%, die Wahrscheinlichkeit, den Kunden mit 62 zu schicken , ist fast 98%. Der Kunde mit 38 ist fast 98% Okay. Hier stellen wir fest, dass bei den beiden Daten die Wahrscheinlichkeit sehr gering ist 38. Wenn ich auf 18 ändere und nehme an, dass ich auf 52 ändere. Jetzt führe ich es noch einmal aus und wir werden sehen, dass die Wahrscheinlichkeit für 18 sogar reduziert ist. Für die 0,004 6% hier sind es 76%. Was wir daraus schließen, desto größer ist die Wahrscheinlichkeit, dass Kunden hier desto größer ist die Wahrscheinlichkeit abwandern, für 28,72 Selbst im Alter von 72 Jahren haben wir eine Wahrscheinlichkeit von fast 99% , dass ein Kunde mit 72 Jahren für 28 abwandert . Die Wahrscheinlichkeit ist fast gleich Null , bei Kunden mit geringerem Alter ist die Wahrscheinlichkeit Je älter, desto wahrscheinlicher wird es sein, dass Kunden abwandern. Auf diese Weise können wir anhand Logistikregion vorhersagen, ob ein Kunde abwandern wird oder nicht. Ich hoffe, Sie haben verstanden , wie man die GLM-Funktion für Los für die Logistikregion verwendet , siehe in 132. KNN-Algorithmus: Hallo und willkommen zurück. In dieser Vorlesung werden wir etwas über k nächste Nachbarn erfahren . Wir nennen es den einfachen effektiven Algorithmus für Klassifikation und Regulierung. Okay, wir haben die Region gesehen und dann haben wir Etikett mit den logistischen Vorschriften für die Klassifizierung gesehen Jetzt sehen wir uns das Wort an, das sowohl für die Klassifizierung als auch für die Region verwendet werden kann , beides Probleme Okay, lass uns anfangen. Nächster Nachbar oder einfacher effektiver Algorithmus für Klassifizierungs - und Regionalprobleme. In der Welt des maschinellen Lernens und der Datenwissenschaft gilt der Nearest Navas oder Inalgorithmus als eine der einfachsten und außerordentlich leistungsfähigsten Techniken zur Lösung von außerordentlich leistungsfähigsten Techniken zur Lösung Klassifikations- und Regressionsproblemen Sowohl bei Klassifizierungs - als auch bei Regressionsproblemen können wir beide verwenden, da es sich um einen instanzbasierten, nicht parametrischen Algorithmus handelt , der sich auf Nähe stützt, sich auf Nähe stützt Es geht nur um die Nähe. Wir werden sehen, wie es funktioniert. In dieser Vorlesung werden wir die Grundlagen von Canon und seine Funktionsweise, seine Variationen und die realen Anwendungen untersuchen die Grundlagen von Canon und seine Funktionsweise, seine Variationen und die realen Anwendungen Wie der Name schon sagt, handelt es sich im Kern um einen einfachen Algorithmus Er trifft Vorhersagen auf der Grundlage der Mehrheitsklasse für die Klassifizierung. Und der Mittelwert für die Regression sorgt im Wesentlichen für zwei Dinge Bei Klassifikationsproblemen basieren Vorhersagen auf der Mehrheitsklasse der Regressionsprobleme, also dem Mittelwert als Basis der k nächstgelegenen Datenpunkte einer bestimmten Abfrage Das k in k NN steht für die Anzahl der nächsten Nachbarn, die bei der Erstellung von Vorhersagen berücksichtigt werden. In diesem nächsten Nachbarn steht k für die Anzahl der nächsten Nachbarn, die bei Vorhersagen für die Klassifizierung berücksichtigt wurden. Dies sind die Schritte, die wir befolgen Die erste ist die Datendarstellung. Beginnen Sie mit einem beschrifteten Datensatz , bei dem jeder Datenpunkt eine Klassenbezeichnung hat , und dann mit einer Entfernungsmetrik. Wählen Sie eine Entfernungsmetrik aus, z. B. Entfernung oder die Entfernung nach dem Mannschaftsmuster , um die Ähnlichkeit zwischen Datenpunkten in der Vorhersage zu messen . Die nächste ist die Vorhersage. Um einen neuen Datenpunkt zu klassifizieren, berechnen Sie die Entfernung zwischen dem Datenpunkt und allen anderen Punkten im Datensatz Wählen Sie die K nächstgelegenen Nachbarn auf der Grundlage der geringsten Entfernung aus. Die Mehrheit der Stimmen stimmt Ermitteln Sie die Klasse eines neuen Datenpunkts indem Sie die Mehrheit der Klassen abstimmen, wobei die nächstgelegenen Nachbarn K für die Darstellung von Regressionsdaten verwendet werden Fangen Sie wieder mit dem Label-Datensatz an, aber dieses Mal sind Beschriftungen kontinuierliche Werte , also numerische Werte, okay? Entfernungsmetriken werden dieselben Bei Entfernungsmetriken werden dieselben Entfernungsmetriken symmetrisch verwendet, wie wir in der Klassifizierung gesehen haben Das ist die Ec-Entfernung oder Manhattan-Entfernung, um die Ähnlichkeit zwischen den Datenpunkten zu messen Okay, dann kommt die Vorhersage. Um einen neuen Datenpunktwert vorherzusagen. Berechnet die Entfernung zwischen diesem Punkt und allen anderen Punkten im Datensatz. Wählen Sie die K nächsten Nachbarn auf der Grundlage der kleinsten Entfernung und dann den Mittelwert aus, um den Mittelwert der Beschriftungen der K nächsten Nachbarn zu ermitteln. werden also alle nächsten Nachbarn genommen und dann Mittelwert berechnet. Dann bedeutet das, dass dieser Mittelwert, unabhängig davon, welcher Mittelwert sich ergibt, zur Vorhersage für den neuen Datenpunkt wird. Okay? Variationen von, Es gibt drei Varianten von nicht. der ersten Variante handelt es sich um gewichtete Canon, der zweiten um die Entfernungsmetrik und bei der dritten Variante um Fit Scaling. Im gewichteten Canon nach Entfernung unterschiedliche Gewichtungen zugewiesen dem Nachbarn je nach Entfernung unterschiedliche Gewichtungen zugewiesen. Die Nachbarländer Entfernung und Schließung können einen größeren Einfluss auf die Vorhersage haben. Dann sind die Entfernungsmetriken die zweite. Experimentieren Sie mit den verschiedenen Entfernungsmetriken, um den Algorithmus so anzupassen, dass er Datentypen, Datentypen oder Domänen spezifiziert . Feature-Skalierung normalisiert oder standardisiert die Merkmale um sicherzustellen, dass kein einzelnes Merkmal die Entfernungsberechnung dominiert Reale Anwendungen von Nichtfunden, Anwendungen in einer Vielzahl von Bereichen, wie Empfehlungssysteme wie Netflix oder Facebook oder sogar Amazon- und Flip-Karten All diese E-Commerce-Websites, die Ott-Plattformen im Empfehlungssystem, die Produkte und Filme empfehlen, basieren auf dem üblichen Verhalten oder den üblichen Präferenzen Dort können wir auch die Bild- und Spracherkennung verwenden. Dann die medizinische Diagnose. Anomalien, Erkennung von Anomalien bei Finanztransaktionen, Netzwerkverkehr oder Die NLP-Probleme bei der Verarbeitung natürlicher Sprache können Dieser Kanon zur Klassifizierung von Textdokumenten, Stimmungsanalysen und Sprachübersetzungen Ein weiteres echtes Beispiel ist die Umweltüberwachung, Vorhersage der Luftqualität, Wettervorhersagen und die Überwachung der Umweltverschmutzung Bei all diesen Problemen können wir die Kanone benutzen. Okay, die Herausforderungen. Canon ist zwar ein Stilalgorithmus, hat aber einige Einschränkungen. Es kann rechenintensiv sein, besonders bei einem großen Datensatz, da die Entfernung aller Datenpunkte berechnet werden muss , okay? Die Berechnung wird ziemlich kostspielig sein, oder? Denn für jeden Datenpunkt müssen wir den Verlauf der Dimensionalität berechnen den Verlauf der Dimensionalität Wie das Merkmal „Anzahl der Dimensionen“ fördert, kann die Effektivität von Non-Dimensionen aufgrund des Verlaufs der Dimensionalität Die Wahl von k und die Wahl eines geeigneten Werts für K ist entscheidend und kann sich auf die Leistung des Modells auswirken Okay, der Umgang mit unausgewogenen Daten kann bei unausgewogenen Datensätzen, bei denen eine Klasse der anderen deutlich überlegen ist, Probleme unausgewogenen Datensätzen, bei denen eine Klasse der bereiten. Okay? All dies sind die Herausforderungen für Nicht-Canon. eine wertvolle Ergänzung zum Werkzeugkasten für maschinelles Lernen Aufgrund seiner Einfachheit und Vielseitigkeit ist Canon eine wertvolle Ergänzung zum Werkzeugkasten für maschinelles Lernen. Es gibt jedoch einige Einschränkungen , die wir bereits verstanden haben. Es ist besonders nützlich, wenn es sich um einen kleinen bis mittelgroßen Datensatz handelt sich um einen kleinen bis mittelgroßen Datensatz Kleine und mittelgroße Datensätze können sehr nützlich sein. Wenn Sie einen Datensatz haben, der klein oder mäßig mittelgroß oder nicht so groß ist , dann kann kein Datensatz bei der Wiederherstellung und Klassifizierung wirklich hilfreich sein bei der Wiederherstellung und Klassifizierung wirklich hilfreich das Prinzip hinter on und seinen verschiedenen Daten verstehen , Wissenschaftler und Praktiker des maschinellen Lernens können sie ihre Leistungsfähigkeit nutzen, um genaue Vorhersagen zu treffen und Daten in verschiedenen Anwendungen effektiv zu klassifizieren in verschiedenen Anwendungen effektiv Hier dreht sich alles um Nicht-Theorie. Wir werden versuchen, es mit unserer Programmierung auch praktisch zu machen. Sehen Sie in der nächsten Vorlesung nach. 133. Implementierung von kNN: Und willkommen zurück. In der vorherigen Vorlesung haben wir über Algorithmen gesprochen. In dieser Vorlesung werden wir den Algorithmus für die Klassifikation implementieren, der nicht mit Hilfe unserer Programmierung K zum nächsten Nachbarn verwendet wird. Okay? Die Schritte, ich werde dir sagen welchen Schritten du in diesem Beispiel folgen wirst . Als Erstes laden wir das Klassenpaket, das die in-Funktion für die Klassifizierung bereitstellt . Wir verwenden den beliebten irischen Datensatz, den wir bereits in unseren Vorlesungen in diesem Kurs verwendet haben. Zu Beginn müssen Sie sich des Iris-Datensatzes bewusst sein, der in R verfügbar ist und Messungen von Irisblüten zusammen mit ihren Artenbezeichnungen enthält . Wir haben den Datensatz in Trainings- und Testsätze aufgeteilt, wobei 70% der Daten für das Training des Datensatzes verwendet wurden. Wir werden in Trainings- und Testsätze aufgeteilt, wobei 70% der Daten für das Training und 30% der Daten für Testzwecke verwendet werden. In der Regel verwenden wir in der Praxis 80% der Daten für Schulungen und 20% für Tests, aber 70 30 sind auch okay. Abhängig von den Anforderungen Ihres Projekts oder Ihrer Daten können Sie entscheiden, ob Sie 60% für Schulungen, 70% für Schulungen und 80% für Schulungen verwenden möchten . Damit Sie auf der Grundlage Ihrer Anforderungen und der Geschäftsanforderungen entscheiden können . Hier definieren wir die Anzahl der Nachbarn, d. h. k, was bestimmt, wie viele nächste Nachbarn bei Prognosen berücksichtigt werden müssen. die Anzahl der Nachbarn von Uber Es ist sehr wichtig, die Anzahl der Nachbarn von Uber zu bestimmen, während die Nonce bestimmt, wie viele Nachbarn in der Nähe berücksichtigt werden müssen, da sich dies auf die Vorhersagen auswirkt Stimmt das? Dann führen wir die Neun-Klassifikation mit der Funktion Neun durch. Dabei geben wir die Trainingsdaten, Tests , Daten, Klassenstufen und den Wert von K an. In diesem Beispiel nehmen wir k fünf, nächste Nachbar wird die Fünf sein. Danach bewerten wir die Genauigkeit des Modells, indem wir die vorhergesagten Arten mit den tatsächlich im Testsatz enthaltenen Arten vergleichen vorhergesagten Arten mit den . Dann erstellen wir eine Konfusionsmetrik, um die Leistung des Modells weiter zu beurteilen. Okay. Wenn Sie diesen Code ausführen, erhalten Sie die Genauigkeit des Klassifikators für Hunde und die Konfusionsmatrix , die zeigt, wie gut das Modell die verschiedenen Arten von Irisblüten im Testset klassifiziert die verschiedenen Arten von Irisblüten im Testset Fangen wir jetzt hier an. Die erste Sache ist, wenn die Klasse nicht installiert ist, wird sie installiert und dann wird sie installiert. Okay? Lass uns das ausführen und die Daten laden. Die Datendatenfunktion verwendet Daten und wir übergeben den Namen des Datensatzes, also Iris. Lassen Sie uns das auch ausführen. Dann werden wir den Datensatz in Trainings- und Testsätze aufteilen den Datensatz in Trainings- und Testsätze Als erstes müssen wir Set 123 setzen. Okay, das sind ziemlich wichtige Schritte. Dann erstellen wir ein Variablen - oder Objektbeispiel für Unterstrichindizes Hier nehmen wir die erste Probe, um Iris zu registrieren. Und für die Größe werden 0,7 benötigt. Das bedeutet, dass 70% des Iris-Datensatzes für Trainingszugdaten die Iris der Stichprobenindizes sein werden Diese Indizes werden in die Iris übertragen und 70% der Daten werden zu Trainingsdaten . Die Daten werden als Iris abzüglich der Stichprobenindizes berechnet. Okay? Deshalb verwenden wir hier das Minuszeichen. Okay? Der Rest wird 30% sein. Lassen Sie uns das als Anzahl der Nachbarn berechnen, das ist k, hier definiere ich gleich fünf. Okay, lassen Sie uns das auch ausführen. Jetzt führen wir die Neun-Klassifizierung durch. Hier erstelle ich eine für Variablen oder Objekte vorhergesagte Unterstrich-Arten Hier verwende ich hier die Funktion Neun. Train bedeutet, die Unterstrichdaten eins bis vier zu trainieren. Test zum Testen von Unterstrich-Daten Klassen eins bis vier sind die Unterstrich-Datenarten Basierend auf den Arten, die wir klassifizieren werden. Okay? Dann gleich zwei k, daraus werden fünf Okay? Lass uns das jetzt ausführen. Und jetzt werden wir die Genauigkeit des Modells mithilfe einer Funktion bewerten . vorhergesagte Spezies entspricht den Testdaten (Dollararten) geteilt durch N höhere Testdaten. Okay, mal sehen, dann drucken wir es mit einer Genauigkeit von 200. Okay, sehen Sie hier, jetzt bekommen wir, dass die Genauigkeit für dieses Modell 97,78 ist. Das ist ziemlich gut Jetzt drucken wir die Konfusionsmatrix indem wir eine Tabellenfunktion verwenden, die tatsächlich den Testdaten der Spezies P entspricht . Okay, lassen Sie uns die Konfusionsmatrix hier erstellen, siehe hier Nun, die Konfusionsmatrix, die Sie hier für Setosa 14 sehen können , wurde die Art fast korrekt kategorisiert Nur einer hat falsch klassifiziert. Ansonsten ist alles richtig klassifiziert. Auf diese Weise können wir das Non implementieren. 134. Entscheidungsbaum und Random Forests: Hallo und willkommen zurück. In dieser Vorlesung werden wir etwas über Entscheidungsbäume und Random Forest lernen . Diese beiden sind beste Freunde, sie arbeiten zusammen und sie eignen sich einfach hervorragend für maschinelles Lernen. Ihre Anwendungen werden verwendet und sie sind sehr nützlich und praktisch, wenn Sie an maschinellem Lernen arbeiten, insbesondere im Bereich des überwachten Lernens. Okay, fangen wir an, etwas über diese beiden leistungsstarken Methoden des maschinellen Lernens zu lernen. Zunächst werden wir verstehen, was Ruhr und Random Forest im Ring des maschinellen Lernens Dysentery und Random Forest sind zwei hervorragende Tools, die die Entscheidungsfindung im Datenbereich revolutioniert haben Diese Algorithmen werden häufig für Klassifikation und Regression verwendet Aufgabe, wir haben verstanden, was ist Aufgabe, oder? Klassifikation bedeutet , dass wir in zwei oder mehr Segmenten klassifizieren müssen , wie etwa „richtig“ oder „falsch“, „ Antrag“, „akzeptiert“ oder Es ist eine Bedrohung, Spam-Dinge, oder? Regressionsaufgabe Wir machen es für kontinuierliche, für numerische Dinge, richtig Diese Algorithmen werden häufig für Klassifikations- und Regressionsaufgaben verwendet , weshalb sie für verschiedene Anwendungen unverzichtbar In diesem Artikel werden wir in dieser Vorlesung die Arbeitsprinzipien und praktischen Anwendungen von Dissented Forest untersuchen Anwendungen von Dissented Forest Wir werden untersuchen, welches Konzept hinter Degrees und Random Forest Welche Arbeitsprinzipien stehen hinter den Entscheidungsbäumen und Random Forest? Und was sind die realen Anwendungen von Entscheidungsbäumen und Random Forest? Fangen wir also mit den Entscheidungsbäumen an. Entscheidungsbaum ist eine baumartige Struktur, wie Sie hier sehen können, okay? Der übergeordnete Knoten, dann der untergeordnete Knoten und dann der untergeordnete Knoten, okay? Es wird so wachsen, oder? Ein Entscheidungsbaum ist eine baumartige Struktur, die zur Entscheidungsunterstützung verwendet wird. Okay. Hier ein einfaches Beispiel. Wenn Sie etwas kaufen wollen, egal ob Sie etwas verwirrt haben, möchten Sie kaufen, kaufen, kaufen. Nun, die Entscheidung ist zweierlei per E-Mail oder nicht, Spam, Spam wie dieser, okay? Es unterteilt einen komplexen Entscheidungsprozess in eine Reihenfolge von Simulationen. Jeder Knoten im Baum steht für eine Entscheidung oder einen Vorgeschmack auf ein Attribut, jeder Zweig steht für ein Ergebnis, jeder Zweig ist ein Ergebnis. Okay? Hier sind die Ergebnisse, richtig? Der Entscheidungstest für das Attribut, Jeder Zweig steht für ein Ergebnis und jeder Blattknoten steht für eine Klassenebene oder eine Entscheidung, okay? Das sind die Knoten. Das sind die Blätter, okay? Wie Desiree Gebäude und Bäume mit einem rekursiven Top-Down-Ansatz konstruiert werden, der als rekursive Partitionierung bezeichnet wird, wie Sie hier sehen können, ist eine Art Top-Down-Ansatz Es ist ein rekursiver Vorgang, der sich immer wieder wiederholen würde, oder? Entscheidungsbäume werden konstruiert, sie basieren rekursiven Ansatz von oben nach unten, der als rekursive Partitionierung bezeichnet wird Wir partitionieren jeden Knoten rekursiv für die Knoten. Der richtige Algorithmus wählt bei jedem Schritt das beste Attribut aus, um die Daten in Teilmengen aufzuteilen Bei jedem Schritt der Entscheidungsalgorithmus wählt der Entscheidungsalgorithmus bei jedem Schritt das beste Attribut aus. Um die Daten aufzuteilen, teilt er die auf dem Attribut basierenden Daten in Daten auf, die in Bezug auf die Zielvariable so homogen wie möglich Unter Berücksichtigung der Zielvariablen werden die Daten in eine Teilmenge aufgeteilt Es wird auch sicherstellen, dass die Teilmenge homogen ist, okay Es wird dazu beitragen, die Zielvariable zu erreichen. Auswahl von Attributen. Verschiedene Kriterien wie Gini, Verunreinigung, Entropie und Informationsgewinn werden verwendet, um das beste Attribut für die Aufteilung zu bestimmen Ziel ist es, Verunreinigungen zu minimieren minimieren Drittens ist das Beschneiden. Der Entscheidungsbaum kann zu komplex werden und zu einer Überanpassung Beim Beschneiden werden Äste entfernt, die nicht wesentlich zur Verbesserung der Genauigkeit beitragen, was zu einem einfacheren oder allgemeineren Zweig führt Das Beschneiden ist einfach: Wenn Sie einen Baum weiter wachsen lassen, kann er in jede Richtung wachsen Aber wenn Sie einen Baum in einem sehr guten Tresor halten wollen, müssen wir die überschüssigen Äste auf die gleiche Weise abschneiden wie bei Entscheidungsbäumen. Wenn wir ihn weiter wachsen lassen, wird er außerdem übermäßig komplex und neigt dazu, übermäßig gut zu passen Dann kommt das Beschneiden. Beschneiden bedeutet, die Äste zu entfernen , die nicht wesentlich dazu beitragen. Einige Zweige sind möglicherweise nicht nützlich. Später werden wir diese Zweige beschneiden, was zu einfacheren und allgemeineren Modellanwendungen von Dysenterie-Dissidenten führen wird allgemeineren Modellanwendungen von Dysenterie-Dissidenten In vielen Bereichen finden Sie Anwendungen verschiedener Wissenschaftler in vielen Bereichen wie Medizin, Diagnose der Krankheit anhand von Patientensymptomen und Krankengeschichte im Finanzbereich, Krankheit anhand von Patientensymptomen Kreditkarten-Scoring, Betrugserkennung, Investitionstätigkeit — ein Beispiel für Andersdenkende . In all diesen Bereichen können wir Ruhrmarketing, Kundensegmentierung, Targeting und Abwanderungsprognosen mithilfe von Dysenterie einsetzen Kundensegmentierung, Targeting und Abwanderungsprognosen . Herstellung, Qualitätskontrolle und Optimierung des Produktionsprozesses können, können anhand von Serien, Umweltzeichen, Artenklassifizierung und Umweltüberwachung mit Hilfe von Ruhr durchgeführt werden durchgeführt werden Dies sind die Anwendungen von Decision Tree, das jetzt den Random Forest abdeckt Random Forest ist wie Gimble. Entscheidungsbäume sind zwar leistungsfähig, können aber empfindlich auf kleine Änderungen in den Daten Random Forest behebt diese Einschränkung, indem es mehrere Entscheidungsbäume kombiniert , um ein robustes und genaues Ensemble-Modell zu erstellen . Sehen Sie hier, dies ist ein Entscheidungsbaum, aber eine zufällige Kombination aus vielen Entscheidungsbäumen. Stimmt das? Was es tut, der Entscheidungsbaum ist dafür eine sehr kleine Sache. Er wird seine Ergebnisse, die Verarbeitung der Knoten und alles andere drastisch verändern . Alles wird sich ändern. Wenn Sie Datensatz ändern, wird sich alles ändern. Um diese Einschränkung zu überwinden, behebt Random Forest diese Einschränkung, indem mehrere Entscheidungsbäume kombiniert werden , um ein robustes und genaues Jumble-Modell zu erstellen ein robustes und genaues Jumble-Modell Es wird ähnliche Entscheidungsbäume erstellen und ein robustes Random-Forest-Ding ergeben Es wird viele Bäume geben, und deshalb wird er Random Forest genannt , weil viele Baumgruppen ihn zum Wald machen, richtig. Wie funktioniert Random Forest? Bootstrap-Sampling. Random Forest beginnt mit Erstellung mehrerer Bootstrap-Stichproben, Zufallsstichproben, die aus den Trainingsdaten ersetzt Es beginnt mit der Erstellung der Bootstrap-Stichproben aus dem Trainingsdatensatz Zufällige Auswahl von Merkmalen für jeden Baum im Wald. eine zufällige Teilmenge von Merkmalen berücksichtigt Auswahl des besten Baums wird an jedem Knoten Erstellung mehrerer Entscheidungsbäume erfolgt unabhängig voneinander mit einer eigenen Bootstrap-Stichprobe und einer zufälligen Feature-Auswahl Dann die Abstimmung und die Mittelwertbildung. Für Klassifizierungsaufgaben verwenden die Wälder nach dem Zufallsprinzip Mehrheitsabstimmungen unter den Bäumen für die Regration nach Himmelsgewalt. Es verwendet die Abstimmung für die Regreationag-Mittelwertbildung, um Vorhersagen zu treffen. Was sind die Vorteile von Random Forest? Dadurch wird die Überausstattung, also die Einschränkung bei der Wache, verringert die Einschränkung bei der Wache Die Random Forest neigen weniger zu Überanpassungen als die einzelnen Disses Verbesserte Generalisierungen und Robustheit in Bezug auf die Bedeutung von Datenmerkmalen. Random Forests bieten Einblicke in die Bedeutung von Merkmalen und helfen so bei der Merkmalsauswahl. Anwendungen von Random Forest. Random Forests sind in vielen Bereichen wie Bildanalyse, Finanzen, Ökologie, Marketing und Gesundheitswesen weit verbreitet vielen Bereichen wie Bildanalyse, . Bei der Analyse können Objekterkennung, Bildklassifizierung Bildklassifizierung und Merkmalsextraktion im Finanzwesen eingesetzt werden. Auch hier können Aktienkurse vorhergesagt und Betrug mit Kreditrisiken aufgedeckt werden. Ökologie, wir mögen die Modellierung der Artenverteilung und Bewertungen können im Marketing durchgeführt werden, im Gesundheitswesen können Kundenprognosen und -empfehlungen durchgeführt werden, um den Behandlungserfolg vorherzusagen und G-Diagnosen Okay, was ist die Schlussfolgerung? Diese beiden dynamischen Wachposten und der Random Forest sind in der Welt des maschinellen Lernens dynamisch Gentry bietet zwar eine höhere Genauigkeit und Robustheit, aber das Verständnis des Baumalgorithmus und seiner Anwendung bietet Datenwissenschaftlern und Praktikern des maschinellen Lernens leistungsstarke Tools zur Lösung realer Probleme in verschiedenen Bereichen. höhere Genauigkeit und Robustheit, aber das Verständnis des Baumalgorithmus und seiner Anwendung bietet Datenwissenschaftlern und seiner Anwendung bietet Datenwissenschaftlern und Praktikern des maschinellen Lernens leistungsstarke Tools zur Lösung realer Probleme eine höhere Genauigkeit und Robustheit, aber das Verständnis des Baumalgorithmus und seiner Anwendung bietet Datenwissenschaftlern und Praktikern des maschinellen Lernens leistungsstarke Tools zur Lösung realer Probleme in verschiedenen Bereichen. Da datengestützte Entscheidungsfindung weiterhin Strom spart, sorgen die Vielseitigkeit und Effektivität von Entscheidungsbäumen und Random Forest dafür, dass sie im Bereich des dass sie weiterhin Strom spart, sorgen die Vielseitigkeit und Effektivität von Entscheidungsbäumen und Random Forest dafür, dass sie im Bereich des maschinellen Lernens weiterhin relevant sind. Bei diesen beiden Algorithmen handelt es sich um die sehr, sehr wichtigen Algorithmen für maschinelles Lernen Decente und Random Forest Ich hoffe, wir haben die Grundlagen dieser beiden Themen behandelt, siehe Vorlesung. 135. Support-Vektor-Maschinen-Algorithmus: Hallo und willkommen zurück. In dieser Vorlesung werden wir etwas über Support Vector Machine lernen . Okay, lass mich okay, ignoriere diesen. Okay? Wir werden etwas über den Algorithmus zur Unterstützung von Vektormaschinen lernen. Unterstützt Vector Machine oder SPM. In, so nennen wir es, ist einer der beliebtesten Algorithmen für überwachtes Lernen, der sowohl für Klassifikations- als auch für Regressionsprobleme verwendet wird für Klassifikations- als auch für Regressionsprobleme verwendet erster Linie wird er jedoch für Klassifikationsprobleme beim maschinellen Lernen verwendet In erster Linie wird er jedoch für Klassifikationsprobleme beim maschinellen Lernen verwendet, er kann sowohl für Regression als auch für Klassifikation verwendet werden, aber in erster Linie verwenden wir ihn nur zur Klassifizierung, okay? In den meisten Fällen, die Sie für Klassifikationsprobleme verwenden werden, kann SPM also für die Klassifizierung verwendet werden den meisten Fällen werden in 99% der Fälle ein oder 2% von 5% verwendet . Es gibt Fälle , in denen Sie es weiter verwenden können, es gibt Fälle, in denen Sie es weiter verwenden können Regressionsprobleme auch, aber das ist in der realen Welt sehr selten, okay? Das Ziel des SBM-Algorithmus besteht darin, die beste Entscheidungslinie zu erstellen , die dimensionalen Raum in Klassen unterteilen kann, sodass wir den neuen Datenpunkt in Zukunft problemlos in die richtige Kategorie Diese Grenze für die beste Entscheidung wird Hyperlane genannt. Es ist, als würde man eine Hyperle erstellen, eine Linie erzeugen. Nehmen wir an, Sie zeichnen die Datenpunkte im X- und Y-U-Raum und zeichnen, wir es bei der linearen Regression gesehen haben Wir haben eine Linie gezogen, die die Datenpunkte auf die gleiche Weise teilt Außerdem wird es versuchen, eine Linie zu finden, die den Datensatz teilen kann. Das ist okay Das ist das Ziel des SPM. Die Grenze der Diktion wird Hyperlinie genannt. Spm wählt die extremen Datenpunkte oder Vektoren aus, die bei der Erstellung der Hyperlinie helfen Extremfälle werden als Unterstützungsvektoren bezeichnet. Sbm. Der Maschinenalgorithmus von Support Vector wählt die extremen Datenpunkte oder Vektoren aus, die bei der Erzeugung der Hypo helfen Diese Extremfälle werden als Support Vector bezeichnet. Es werden zuerst die Extrempunkte oder Vektoren gefunden , und diese Vektoren werden als Stützvektoren bezeichnet. Für die Erstellung des Hyperline-Algorithmus wird der Begriff Support Vector Machine Okay, die Stützvektoren zu finden, das ist der Grund, warum dieser Algorithmus als Support Vector Machine bekannt ist Sehen Sie sich das folgende Diagramm an, in dem es zwei verschiedene Kategorien gibt , die anhand der Abstammungsgrenze oder des Hypes klassifiziert werden . Siehe hier. Jetzt haben wir X eins und X zwei. Und hier können Sie dort sehen, dass dies die maximale Margenlinie ist. Diese Linie ist die maximale Randlinie und dies ist der positive Hyperlinie-Hyperlink mit maximalem Rand Dies sind die Unterstützungsvektoren. Dies sind die Unterstützungsvektoren. Diese Punkte, die wir gefunden haben. Dies sind die Unterstützungsvektoren. Okay? Diese Seite, das ist negativ. Hypolositiveypolineximumrgin wird die Hyperspur sein, maximaler Rand, hyperlinear, siehe hier. Nun, diese Hyperspur teilt diese beiden Sollwerte, richtig? Diese Punkte werden als Unterstützungsvektoren bezeichnet. Okay, zuerst finden wir den Unterstützungsvektor und mit den Unterstützungsvektoren werden wir versuchen, den Hyperlink zu finden Bm kann anhand des Beispiels verstanden werden , das wir im Canine Classifier verwendet haben Nehmen wir an, wir sehen eine seltsame Katze , die auch einige Merkmale eines Hundes aufweist Nehmen wir an, wir haben ein Bild von einer Katze, die einige zystische Merkmale des Hundes aufweist Wenn wir außerdem ein Modell benötigen , das genau erkennen kann, ob es sich um einen Katzenhund handelt, kann ein solches Modell mithilfe eines Algorithmus erstellt werden Wir werden unser Modell zunächst mit vielen Bildern von Katzen und Hunden trainieren unser Modell zunächst mit vielen Bildern von Katzen und , sodass es mehr über die verschiedenen Eigenschaften von Katzen und Hunden lernen kann . Und dann testen wir es mit dieser seltsamen Kreatur, die sowohl mit Katze als auch mit Hund vergleichbar ist, aber in Wirklichkeit ist es eine Katze. Da der Unterstützungsvektor eine klare Grenze zwischen diesen beiden Daten schafft , wählen Katze und Hund Extremfälle, also Unterstützungsvektoren. Es wird den Extremfall von Katze und Hund auf der Grundlage von Unterstützungsvektoren untersuchen. Es wird sie als Katze klassifizieren. Betrachten Sie das folgende Diagramm. Sehen Sie sich diese früheren Etikettendaten an. Das sind die schnellsten Daten wie das ist Hund und das ist eine Katze. Hier erstellen wir ein Modell und schulen es darin , dass es sich bei dieser Kreatur um einen Hund und bei dieser Kreatur um eine Katze handelt. Es liest alle Merkmale dieser beiden Bilder und unser Modell wird gerade trainiert. Unser Vorhersagemodell wird vorhersagen , dass es sich um eine Katze handelt. Wie es funktionieren wird. Nehmen wir an, wir geben ein Bild, das sowohl der Katze als auch dem Hund sehr ähnlich ist. Es hat einige Merkmale eines Hundes. Außerdem wird es die extremen Merkmale einer Katze erkennen. Es wird die Merkmale einer Katze klassifizieren. Es wird klassifizieren, es wird anhand der Merkmale, der extremen Merkmale, die Hyperspur finden Hyperspur anhand der Merkmale, der extremen Merkmale, die Es wird entscheiden, ob es eine Katze oder ein Hund ist. Das Extrem wird mit der Katze übereinstimmen. Es wird diese extremen Merkmale kategorisieren, als ob sie nicht mit der Katze übereinstimmen Dann wird es das als Hund mit dem Premierminister kategorisieren, sogar mit dieser seltsamen Katze, die dem Hund B sehr ähnlich ist. Mit Hilfe der Hilfsvektoren und dem Hyperlink, dass es sich um eine Katze und nicht um einen Lassen Sie uns das Beispiel verstehen: Unterstützende Vektormaschinen, wie Anwendungen von Support Vector Machine, können SBM für die Bildklassifizierung verwendet werden Wie wir gerade gesehen haben, wurden SBM zur Bildklassifizierung verwendet Aufgaben wie Handschrifterkennung und Objekterkennung, wie Stimmungsanalyse, Spam-Erkennung und Dokumentkategorisierung Bio, Poetik und PMs werden Erkennung von Proteinfalten, zur Genklassifizierung und G-Diagnose eingesetzt Genklassifizierung Im Finanzsektor werden PMs zur Kreditkodierung, zur Börsenprognose und zur Erkennung von Krediten im Gesundheitswesen Sie wurden bei der Diagnose und Prognose der GD auf der Grundlage der medizinischen Daten verwendet . Die Verarbeitung natürlicher Sprache und LP SPM spielen eine Rolle bei Erkennung benannter Entitäten und Lassen Sie uns verstehen, welche Arten von SPM es gibt. Es gibt zwei Arten von Spm. Die erste ist die lineare Regression. Das nichtlineare SPM kann in zwei Typen eingeteilt werden: lineares SPM, ich sagte Regression, es ist SBM, lineares SPM und nichtlineares SPM . Lineares SBM wird für linear trennbare Daten verwendet. Das heißt, wenn ein Datensatz mithilfe einer einzigen geraden Linie in zwei Klassen eingeteilt werden kann in zwei Klassen eingeteilt , dann wird der hier verwendete Klassifikator als linearer SPM-Klassifikator bezeichnet verwendete Klassifikator als linearer SPM-Klassifikator dann wird der hier verwendete Klassifikator als linearer SPM-Klassifikator bezeichnet. Wenn es sich bei den Daten um einen linearen Klassenkampf handelt, können wir die Daten anhand einer linear trennbaren Hyperspur, einer geraden Linie, klassifizieren. Dann spricht man von ziemlich linear trennbaren geraden Daten. Und der hier verwendete Klassifikator wird als linearer SBM-Klassifikator bezeichnet . Lineare nichtlineare SVM wird für nichtlinear getrennte Daten verwendet Wenn der Datensatz also nicht anhand einer geraden Linie klassifiziert werden kann , solche Daten als nichtlineare Daten bezeichnet Der in diesem Fall verwendete Klassifikator wird als nichtlineares SPM bezeichnet. Wir werden sehen, wie sich diese beiden unterscheiden. Okay, Hyperlane und unterstütze Vektoren. Im SPM-Algorithmus wissen wir, was Hyperlinie ist , und wir zeichnen Hyperlane Es kann mehrere Linien oder Entscheidungsgrenzen geben, um Klassen im n-dimensionalen Raum zu trennen, aber wir müssen die beste Entscheidungsgrenze herausfinden, die uns hilft, den Datenpunkt zu Diese beste Grenze wird als Hyperlane von SPM bezeichnet. Die Abmessungen der Hyperebene hängen von den im Datensatz vorhandenen Merkmalen Das heißt, wenn es zwei Merkmale gibt , wie im Bild gezeigt, ist die Hyperlinie eine gerade Wenn es drei Merkmale gibt, Hyperlinie die zweidimensionale Ebene Okay? Wir erstellen immer, dass eine Hyperlinie einen maximalen Rand hat, was den maximalen Abstand zwischen den Datenpunkten bedeutet zwischen den Datenpunkten Okay? Okay. Vektor unterstützen. den Datenpunkten handelt es sich um Vektordaten, die der Hyperlinie am nächsten beeinflussen die Position der Hyperlinie, die sich sehr nahe an der Hyperlinie befinden, wirken sich sehr effektiv auf die hyaline Position der der Bei diesen Datenpunkten handelt es sich um Vektoren, die als Stützvektoren bezeichnet werden, da diese Vektoren den Hyperleupportvektor unterstützen da Okay, wie funktioniert SPM? Zuerst sehen wir uns die lineare SVM an. Die Funktionsweise des SPM-Algorithmus kann anhand eines Beispiels verstanden werden Nehmen wir an, wir haben einen Datensatz zwei Feldern, grün und blau Hier haben wir diese beiden Farben Braun und Hellbraun genommen diese beiden Farben Braun und Hellbraun Okay? Der Datensatz hat zwei Merkmale, X eins und t. Ich möchte das Paar x den Mais klassifizieren , entweder grün oder blau Angenommen, das ist grün und blau, okay? Die Farben habe ich hier etwas falsch geschrieben, Grau und helleres Grau, okay? Okay, nehme an, das ist blau und grün, okay? Nun, im Zwei-D-Raum, mit nur einer geraden Linie, können wir diese beiden Klassen leicht trennen, oder? Wir können hier eine Linie ziehen. Wir können eine solche Linie ziehen. Und diese beiden grünen und blauen Farben können wir trennen, aber es kann mehrere Linien die die einzelnen Klassen voneinander trennen können. Betrachte sie. Wir können dieses Bild zeichnen, ein rotes, das sind auch die beiden. Ich kann eine solche Linie ziehen. Ich kann auch hier eine andere Linie ziehen , die das klassifizieren kann Ich kann hier auch eine weitere Linie ziehen, die klassifiziert, es kann mehrere Linien die diese Klassen trennen können Daher hilft der Pm-Algorithmus dabei, die beste Linie zu finden, oder wurde diese beste Grenze hier Hyperlinie genannt Jetzt können wir mehrere Linien haben, so wie das Ziel darin besteht, die beste Linie für die Herstellung zu finden beste Linie für die Herstellung zu Okay? Diese Region wird Hyperled-Supportvektoren genannt Dies sind die blauen und grünen Punkte sind die Unterstützungsvektoren Okay? Der Abstand zwischen Vektoren und dem Rand mit Hyperlinks, siehe hier die Stütze, dieser Abstand wird Rand genannt Okay? Dieser Abstand zwischen dem Stützvektor und der Hypospur wird als Rand bezeichnet diesen Spielraum zu maximieren, hypolimrginlledptimhyplaneeowf, versuchen Sie, hier eine Linie zu setzen, Um diesen Spielraum zu maximieren, hypolimrginlledptimhyplaneeowf, versuchen Sie, hier eine Linie zu setzen, der Abstand wird geringer sein. Wenn Sie hier eine Linie setzen, wird der Rand hier geringer sein. Wenn wir diese Linie betrachten, der Abstand von hier und von hier aus maximal. Von jedem Punkt aus ist der Abstand zwischen den Stützvektoren und der Ebene maximal. Das ist die optimale Hyperliniensuche, richtig, die Entfernung dieser Punkte zwischen den Vektoren und dem Rand der Hyperlinie Und das Ziel von SPM ist es, diesen Spielraum zu maximieren. Die Hyperlinie mit maximalem Spielraum wird als optimale optimale Hyperlinie bezeichnet optimale optimale Hyperlinie Dies ist das optimale Hypollene, das wir finden. Jetzt kommt nichtlineares SPM. Wenn die Daten linear angeordnet sind, können wir sie mithilfe einer geraden Linie trennen Bei nichtlinearen Daten können wir keine einzige gerade Linie zeichnen Bedenken Sie dasselbe, die blauen Punkte sind auch hier. Auch hier und grüner hier. Nun, wir können keine gerade Linie ziehen, die blaue und grüne Punkte in eine separate Region einteilt, oder? Einige Punkte werden sich in jeder der Regionen befinden. Eine geradlinige Klassifizierung ist hier nicht möglich, oder? In diesem Fall müssen wir, um diese Datenpunkte zu trennen, eine weitere Dimension hinzufügen. Für lineare Daten haben wir zwei Dimensionen verwendet, x und y. Für die nichtlinearen Daten fügen wir eine dritte Dimension hinzu, mit dieser Formel berechnet wird, egal ob x zum Quadrat plus q. Wir werden hier eine weitere Dimension hinzufügen, weil es in den beiden Dimensionen nicht möglich ist, dies zu klassifizieren, zu trennen, eine Linie mit getrennten grünen und blauen Punkten zu zeichnen, wir werden Eine weitere Dimension hinzufügen , nämlich die Jet-Dimension Und diese Jetpoints werden bei dieser Formel berücksichtigt. Jetcall zu X zum Quadrat plus Y zum Quadrat. Okay? Also gibt es für jedes X und Y einen Jet-Punkt, und der wird durch X zum Quadrat plus Y zum Quadrat berechnet Okay? Durch das Hinzufügen der dritten Dimension wird der Probenraum wie dieses Bild hier aussehen. Jetzt sind x y und tiefblau hier und grün jetzt. Wir können hier sehen, wir können sehen, dass es derzeit zwei Regionen gibt. Sbm wird den Datensatz in Klassen einteilen. Im Satz auf folgende Weise in Klassen. Das wird die beste Hyperspur sein, die wir zeichnen können, und das wird die Datenpunkte trennen, Blip Lane auf dieser Seite der Hyperlane, da wir uns im Raum befinden, also sieht es aus wie eine Ebene parallel zur X-Achse Wenn wir es in einen Raum umwandeln und Gal in eins, dann wird es so werden Okay? Wenn wir davon ausgehen, dass es im Raum ist, wenn wir einen anrufen, dann wird es so werden, okay? Somit erhalten wir einen Umfang mit Radius eins. Bei nichtlinearen Daten können wir auf diese Weise die beste Hyperspur in einem kreisförmigen Objekt finden , oder? Umfang eines Umfangs mit Radius eins. Sehen Sie auf diese Weise innerhalb des Kreises grün und außerhalb des Kreises blau, diese kreisförmige Hyperlinie, die wir für diese Daten erhalten können Okay, ich hoffe, wir haben verstanden, wie SPM funktioniert. Schauen Sie in der nächsten Vorlesung nach. 136. Regressionsanalyse verstehen: Hallo und willkommen zurück. Also, ich bin Sohn und ich bin zurück mit dem neuen Update für diesen Kurs. Also in dieser Vorlesungsreihe , die ich jetzt hochladen werde, werden wir die Regressionsanalyse im Detail behandeln Als Erstes werden wir mit den Grundlagen beginnen und diese Vorlesungsreihe wird in den kommenden Wochen erscheinen Möglicherweise werden Sie in diesem Kurs über den Austausch von Fähigkeiten regelmäßig Neuigkeiten erfahren. Lassen Sie uns also anfangen. Das erste ist also ein Überblick über die Regressionsanalyse. Was ist also Regressionsanalyse. Regressionsanalyse ist eine statische Technik verwendet wird, um die Beziehung zwischen einer abhängigen Variablen und einer oder mehreren unabhängigen Variablen zu verstehen zwischen einer abhängigen Variablen und einer oder mehreren Es handelt sich also einfach um eine Analyse der Beziehung zwischen der abhängigen und einer oder mehreren unabhängigen Variablen Sie können also verstehen , dass der Herzinfarkt für einen Patienten von mehreren Variablen abhängt . Hier ist ein Herzinfarkt eine abhängige Variable. Das hängt von einer oder mehreren unabhängigen Variablen wie Ihrem Alter, Ihrem Lebensstil, Ihrer Bewertungsgewohnheit und anderen Faktoren ab, z. B. wenn Sie Diabetiker sind oder Sie irgendwelche genetischen Probleme in der Vorgeschichte des Herzinfarkts in Ihrer Familie haben der Vorgeschichte des Herzinfarkts in Ihrer Familie Es gibt mehrere unabhängige Variablen , die sich auf die Wahrscheinlichkeit eines Herzinfarkts bei einem Patienten auswirken Wahrscheinlichkeit eines Herzinfarkts bei einem Patienten Hier sind Herzinfarkt und Herzinfarkt abhängige Variablen, und alle anderen Gesundheitssymptome oder Ihr Lebensstil oder die bestehenden Krankheiten sind die sind Regressionsanalyse ist also ein statistisches Verfahren, das verwendet wird , um die Beziehung zwischen diesen abhängigen und unabhängigen Variablen zu verstehen diesen abhängigen und unabhängigen Variablen Ich hoffe, ich habe es sehr deutlich gemacht. Jetzt haben Sie verstanden, wie wir das machen. Daher ist es in verschiedenen Bereichen wie Wirtschaft, Finanzen, Sozialwissenschaften und Gesundheitswesen weit verbreitet verschiedenen Bereichen wie Wirtschaft, Finanzen, . Also, das Gesundheitswesen habe ich dir schon, äh, gegeben. In der Wirtschaft, auch im Finanzwesen, können Sie sehen, ob Sie in einige Aktien investieren und so, Ihr Gewinn und Verlust werden von den abhängigen Variablen und der Marktstimmung und all den anderen Dingen abhängen, wie die Nachrichten und alles, was die Aktienkurse beeinflusst, die eine oder mehrere unabhängige Variablen sein werden die eine oder mehrere unabhängige Variablen sein Gesundheitswesen, um Ergebnisse auf der Grundlage der Eingabevariablen zu modellieren und vorherzusagen In diesem Abschnitt werden wir uns mit den Grundlagen der Regressionsanalyse sowie mit Typen, Sprüngen und Anwendungen befassen . Jetzt werden wir es auf mathematische Weise verstehen. Was ist Regressionsanalyse? Im Kern zielt die Regressionsanalyse also darauf ab, zielt die Regressionsanalyse also darauf die Beziehung zwischen abhängigen Variablen, oft mit y bezeichnet, und einer oder mehreren unabhängigen Variablen, die mit x eins, x zwei usw. bezeichnet werden, abzuschätzen oft mit y bezeichnet, und einer oder mehreren unabhängigen Variablen, die mit x eins, x zwei usw. bezeichnet werden, Okay. Die Beziehung wird typischerweise durch eine Gleichung der Form dargestellt. Es ist eine lineare Gleichung, bei der y gleich Beta Null plus Beta eins zu x eins plus Beta zwei zu x t plus Beta drei zu x drei ist, und so weiter bis Beta n zu x plus Epsilon Okay. Beta Null ist Interzeptor, wobei x eins, x und y sich abschneiden und Beta eins, Beta zwei und B der Koeffizient sind , der die Anstrengungen der unabhängigen Variablen darstellt , wie sich unabhängige Variablen auswirken werden Dies ist ein Fehlerterm, der die Differenz zwischen dem Objekt und den vorhergesagten Werten darstellt Objekt und den vorhergesagten Also was wir beobachten und was wir vorhersagen. Was ist der vorhergesagte Wert und was ist der Objektwert? Der Unterschied wird darin bestehen, dass wir den Fehlerterm nennen. Fehlerterm ist das, was wir vorhergesagt haben und welches Ergebnis genau erzielt wurde. Nehmen wir an, wir sagen voraus, dass wir einen Gewinn von sechs 50 haben, aber wir stellen fest, dass wir einen Gewinn von 500 erzielt haben Also sechs 50 -501 50 wäre der Fehlerbegriff, ganz einfach, wenn ich das erkläre Okay? Also Art der Regressionsanalyse, einfache lineare Regression, von der wir alle wissen , dass sie eine einzige unabhängige Variable und eine lineare Beziehung zu der abhängigen Variablen beinhaltet eine einzige unabhängige Variable und eine lineare Beziehung zu der abhängigen Wenn Sie es sich also ansehen, wird es sehr einfach sein, X, Y zu grafieren, und es wird eine Linie geben, die durch das Diagramm verläuft, oder ? Und dann kommt die multiple lineare Regression, die sich mit mehreren unabhängigen Variablen und einer linearen Beziehung zur abhängigen Variablen befasst mehreren unabhängigen Variablen und einer linearen Beziehung zur abhängigen Variablen Dann kommt die polynomielle Regression, die eine Kurve an die Daten anpasst , indem Polynomterme der unabhängigen Variablen eingeführt werden Polynomterme der unabhängigen Variablen Und dann ist die letzte die logistische Regression, die sehr beliebt ist und bei binären Klassifikationsproblemen verwendet wird, bei denen die binären Klassifikationsproblemen abhängige Variable kategorial ist. Wir werden sehen, wie wir all das erreichen können und wie wir das gesamte logistische Ponmialmultiple und die einfache Regression verstehen und entschlüsseln können logistische Ponmialmultiple und die einfache Regression Nun zu den Anpassungen der Regressionsanalyse. Damit die Regressionsanalyse genaue Ergebnisse liefert, müssen bestimmte Die erste ist Linearität. Linearität. Die einfache Beziehung zwischen den abhängigen und unabhängigen Variablen sollte linear sein Die erste Ausnahme ist also, dass die Beziehung zwischen den abhängigen und unabhängigen Variablen linear sein sollte. Dann ist das zweite As Unabhängigkeit. Beobachtungen sollten unabhängig voneinander sein. Die nächste ist Homosesticity Die Varianz des Fehlerterms sollte auf allen Ebenen der unabhängigen Variablen konstant sein auf allen Ebenen Dann kommt die Normalität. Der Fehlerterm sollte einer Normalverteilung folgen. Der Fehlerterm , den wir hier E gesehen haben, sollte also der Normalverteilung folgen. Dann kommt die Multikolinearität. Die unabhängigen Variablen sollten nicht stark miteinander korreliert sein stark miteinander korreliert Also, was ich in der nächsten Vorlesung tun werde, werde ich kurz erklären, was Normalität und Multikolinearität und Homocd , damit Sie Vorerst musst du nur der Vorlesung folgen. Keine Multikolinearität bedeutet also, dass die unabhängigen Variablen nicht stark miteinander korreliert wären . Anwendungen der Regressionsanalyse. Also, wie ich schon sagte, Ökonomie zur Kalkulation der Nachfrage und Analyse der Preiselastizität, dann können wir sie im Finanzwesen verwenden, um die Aktienkurse vorherzusagen und die Risikofaktoren zu bewerten In den Sozialwissenschaften können wir damit die Auswirkungen von Interventionen untersuchen und die Umfragedaten analysieren Umfragedaten für die Sozialfürsorge, dass die Regierung all diese Dinge durchführt können wir mit der Regress-Analyse tun Und dann können wir im Gesundheitswesen die Behandlungsergebnisse vorhersagen, können wir im Gesundheitswesen die Behandlungsergebnisse vorhersagen den Risikofaktor für eine bestimmte Erkrankung einschätzen , wie wir es bereits beim Herz besprochen haben Ausgrabungen, welche Ausgrabungen Sie auch immer anhand der Daten vorhersagen können. Das Fazit dieser Vorlesung lautet: Die Regressionsanalyse ist ein leistungsstarkes statistisches Verfahren, Regressionsanalyse ist ein leistungsstarkes statistisches Verfahren Beziehungen zwischen Variablen zu modellieren und Durch das Verständnis ihrer Grundlagen, Erweiterungen und Typen nutzen, können Analysten wie Geschäftsanalysten und Datenwissenschaftler sowie Ressourcen die Regressionsanalyse effektiv um Erkenntnisse aus den Daten zu gewinnen und fundierte Entscheidungen in verschiedenen Bereichen zu treffen fundierte Entscheidungen Sobald Sie also das Konzept der Regressionsanalyse verstanden haben , können Sie es für jeden Bereich verwenden, können Sie es für jeden Bereich verwenden Erkenntnisse aus den Daten zu gewinnen den Daten Das ist also ein sehr mächtiges Werkzeug , das wir lernen werden. In der nächsten Vorlesung werden wir also mehr über die Regressionsanalyse lernen über die Regressionsanalyse Also in der nächsten Vorlesung. 137. Verständnis für lineares Regressionsmodell: Hallo und willkommen zurück. In dieser Vorlesung werden wir also etwas über das lineare Regressionsmodell lernen lineare Regression ist also eine der grundlegenden Techniken, die Statistik und im maschinellen Lernen verwendet werden Und dies wird verwendet, um die Beziehung zwischen der abhängigen Variablen und einer oder mehreren unabhängigen Variablen zu modellieren der abhängigen Variablen und einer oder mehreren unabhängigen Variablen Das haben wir in der vorherigen Vorlesung gelernt die Regressionsanalyse verstanden lineare Regression ist also eines der Modelle der Regressionsanalyse In diesem Artikel werden wir uns mit der Mechanik der linearen Regression befassen der Mechanik der linearen Regression Es ist eine Ausnahme und wie man die Modellparameter interpretiert und wie man praktische Lass uns anfangen. Die lineare Regression verstehen lineare Regression zielt darauf ab, eine lineare Beziehung zwischen der unabhängigen Variablen x und der abhängigen Variablen y anzupassen . Die Beziehung wird typischerweise durch die Gleichung dargestellt y ist gleich Beta Null plus Eins in x plus e, wobei y eine abhängige Variable ist, x eine unabhängige Variable ist Beta Null ist der Interzem das ist der Wert von y, wenn Und Beta Eins ist der Steigungskoeffizient, wobei die Änderung von Y bei einer Änderung von x um eine Einheit das Eratom ist, von dem wir bereits wissen, dass Diskrepanz zwischen dem Zielwert und den vorhergesagten Werten darstellt . Jetzt ist es klar Wenn ich zeichnen kann, okay. Hier gibt es kein Zeichenwerkzeug. Lass mich überprüfen, ob ich hier zeichnen kann. Okay. Lass mich hier eine Stecknadel öffnen. Also, wenn ich Ihnen das sagen kann, das ist die X-Achse, und das wird die Y-Achse sein. Das heißt, das ist Y, und lineare Regression bedeutet eine Regressionslinie wie diese zu finden, wobei x gleich y ist Diese Linie wird y gleich sein, lass mich. Wir setzen B Null plus B eins, x plus. Sie können es also so verstehen, y gleich Beta Null plus P1x plus ist Hier, wo wir hier verstehen werden, ist Beta Null der Achsenabschnitt, wobei y der Wert von y ist, wenn x gleich Null ist Wenn du also hierher gehst, ist x Null, und wenn du von hier aus abfängst, so. Hier ist x Null und y, von hier nach hier, Die Site B Null oder B t Null. Was auch immer du kannst. Das ist B Null und Beta Eins ist die Änderung von Y für eine Einheit der Änderung der x-Steigung. Wenn du also hier siehst, wie du dich von hier nach hier bewegst, und dann von hier, so wird das die Steigung sein, wird diese Steigung die B sein. Ist der Fehler Tom, wird der Fehlerbegriff sein. Nehmen wir an, wir sagen hier einen Wert voraus und wir widersprechen hier etwas, sodass der Unterschied der Wert ist. Das ist die Regressionsgerade. Lassen Sie mich Ihnen sagen , dass diese Linie die Regressionslinie ist Diese Linie ist die Regresslinie. Okay. Das ist die Geradengleichung, y ist gleich x plus c , das kannst du auch verstehen. Ich hoffe, das ist klar. Die nächsten Amptons für die Redia-Regression für die lineare Regression, um eine zuverlässige Zahl zu liefern, müssen mehrere Ampton Redia-Regression für die lineare Regression reichen . Die erste ist Linearität, Unabhängigkeit, sadistische Normalität, keine perfekte Y-Kollinearität . Linearität, wir haben bereits verstanden, wo zwischen Denn wenn wir x und y zeichnen, sollten wir eine gerade Linie erhalten Das ist also Linearität. Unabhängigkeit, die Beobachtungen sollten unabhängig voneinander sein und Homo Sadizität ist die Varianz des Fehlerterms, die auf allen Ebenen der x-Normalität konstant sein sollte auf allen Ebenen der x-Normalität konstant Die Fehlerterme sollten einer Normalverteilung folgen und keine perfekte Multikonearität Die unabhängigen Variablen sollten nicht perfekt miteinander korreliert sein , okay Dann und keine perfekte Multikonearität aufweisen. Die unabhängigen Variablen sollten nicht perfekt miteinander korreliert sein, okay Dann die Modellparameter interpretieren. Fangen Sie hier Beta-Null Der Achsenabschnitt Beta Null, Beta Null, steht für Y, wenn x gleich Null ist, was nur dann von Bedeutung ist, wenn es in den Bereich der Daten fällt Steigung Beta eins, die Steigung, die wir hier beobachtet haben, Beta eins, gibt die Änderung Y für eine Änderungseinheit von x an. Wenn wir also bei der Bewegung sehen können, ob wir dieses X sehen können, dann ist dies Lass mich die Farbe ändern. Für dieses x, für dieses x wird das y sein. Das ist es, was es aussagt, oder Änderung von y, für eine Änderung der Einheit von x deutet eine positive Steigung darauf hin, dass oder Änderung von y, für eine Änderung der Einheit von x deutet eine positive Steigung darauf hin, die positive rec-negative Steigung den negativen Relevanz-Wirkungsgrad der Bestimmung r zum Quadrat der Bestimmung angibt , gemessen für den Anteil der Varianz in der abhängigen Variablen, der anhand der unabhängigen Variablen vorhersagbar ist . Ein höherer Wert für das R-Quadrat weist auf eine bessere Anpassung an das Modell Praktische Überlegungen zur Modellevaluierung ermitteln von Matrizen wie dem quadratischen Mittelwert (MSC), dem quadratischen Mittelwert (RMS) und dem quadratischen R-Wert ( R) die Güte anhand von Matrizen wie dem quadratischen Mittelwert (MSC), dem quadratischen Mittelwert (RMS) und dem quadratischen R-Wert ( R) die Güte der Anpassung R Ausreißer und Einflussfaktoren ermitteln und identifizieren und behandeln die Ausreißer, die das Regressionsergebnis überproportional beeinflussen könnten . Prüfen Sie die Kolinarität zwischen unabhängigen Variablen mit mehreren Kololitäten und ziehen Sie eine Korrektur in Betracht, falls sie verhindert ist. ist. Kreuzvalidierung: Validieren Sie die Leistungsfähigkeit des Modells mithilfe von Techniken wie der K-fachen Kreuzvalidierung, um die allgemeine Lesbarkeit sicherzustellen. Okay. Das lineare Regressionsmodell bietet auf einfache Weise einen leistungsfähigen Rahmen für Verständnis und die Modellierung der Beziehung zwischen den Variablen, indem es sich an seine Annahmen hält, Modellparameter effektiv interpretiert und praktische Überlegungen berücksichtigt. Analysten und Ressourcen können die lineare Regression nutzen, Analysten und Ressourcen können um Erkenntnisse aus den Daten zu gewinnen Erkenntnisse aus den fundierte Entscheidungen in verschiedenen Bereichen. Das sollten wir also über lineare Regression wissen. Wir werden das Praktische auch mit dem Kern unserer Programmierung machen , aber das wäre letzteres Zunächst werden wir die Grundlagen verschiedener Regressionsanalysemodelle wie der linearen Regression verstehen verschiedener Regressionsanalysemodelle wie der linearen Regression , dann werden wir uns auch mit der multiplen Regression befassen Sehen Sie in der nächsten Vorlesung nach. 138. Heim-Skedastizität verstehen: Hallo und willkommen zurück. In diesem Vortrag werden wir also etwas über Mo Cdesticdy erfahren Homostatizität, auch bekannt als Homogenität der Varianz, ist also eine Summe linearer Regression, die sich auf den Zustand bezieht , bei dem die Varianz des Fehlers oder eine Summe linearer Regression, die sich auf den Zustand bezieht , bei dem die Varianz des der Residuen auf allen Ebenen der unabhängigen Variablen konstant ist. ist. Einfacher ausgedrückt bedeutet dies, dass die Streuung der Residuen unabhängig vom Wert der unabhängigen Variablen gleich bleiben sollte . . Was ist also Homodastie Es ist die Homogenität der Varianz, und es ist ein Amson, das wir bei der linearen Regression annehmen, und es bezieht sich auf die Bedingung, dass die Fehler, diese Residuen, die wir berechnen, auf allen Ebenen der unabhängigen ? Es ist die Homogenität der Varianz, und es ist ein Amson, das wir bei der linearen Regression annehmen, und es bezieht sich auf die Bedingung, dass die Fehler, diese Residuen, die wir berechnen, auf allen Ebenen der unabhängigen Variablen konstant bleiben. ? Es ist die Homogenität der Varianz, und es ist ein Amson, das wir bei der linearen Regression annehmen, und es bezieht sich auf die Bedingung, dass die Fehler, diese Residuen, die wir berechnen, auf allen Ebenen der unabhängigen Variablen konstant bleiben. Unabhängig davon, welchen Wert Sie für die unabhängigen Variablen wählen, bleibt die Varianz der Fehler bzw. der Residuen konstant für die unabhängigen Variablen wählen, bleibt die Varianz der Fehler bzw. der Residuen konstant . für die unabhängigen Variablen wählen, bleibt die Varianz der Fehler bzw. der Residuen konstant . Ich hoffe, du hast das erfahren, oder? Also, was ist die Bedeutung von Homodatie? Homosestizität ist ein wichtiges Ajumton bei der linearen Regression, da ein Verstoß gegen diese Ajumption da ein Verstoß gegen ist ein wichtiges Ajumton bei der linearen Regression, da ein Verstoß gegen diese Ajumption zu einer verzerrten Parameterschätzung führen kann. Was passiert also, wenn wir diesen Homokaten einfach ignorieren? Wir erhalten die Schätzung, aber das wird die Verzerrung der Unterparameter sein, und das bringt Sie zu dem Test, der Ihnen falsche Standardfehler und irreführende Hypothesen gibt . Wenn das Projekt der Homo Sadizität heterod vorliegt, kann das Modell zu viel Wert auf bestimmte Beobachtungen mit großen Residuen legen, kann das Modell zu viel Wert auf bestimmte Beobachtungen mit großen Residuen legen was zu aber das wird die Verzerrung der Unterparameter sein, und das bringt Sie zu dem Test, der Ihnen falsche Standardfehler und irreführende Hypothesen gibt. Wenn das Projekt der Homo Sadizität heterod vorliegt, kann das Modell zu viel Wert auf bestimmte Beobachtungen mit großen Residuen legen, was zu unzureichenden Ergebnissen führt und unzuverlässige Schätzungen. Wenn wir also diese Homodität ignorieren , werden wir uns der Heterodatität zuwenden, die der Homodatie entgegengesetzt ist, wenn diese Heldentum in unserem Modell auftauchen wird, was werden wir dann haben? Heterodatität zuwenden, die der Homodatie entgegengesetzt ist, wenn diese Heldentum in unserem Modell auftauchen wird, was wenn diese Heldentum , werden wir uns der Heterodatität zuwenden, die der Homodatie entgegengesetzt ist, wenn diese Heldentum in unserem Modell auftauchen wird, was werden wir dann haben? Wir werden mehr Wert auf die Beobachtung mit den großen Residuen legen, was dazu führen wird mehr Wert auf die Beobachtung mit den großen Residuen legen, was dazu führen , dass die effizienten Schätzungen unzuverlässig sind. sind. Schätzungen, und das wird unser Modell sehr inkonsistent und wenig nützlich machen sehr inkonsistent und wenig nützlich Um also die Homosexualität zu identifizieren , gibt es zwei Dinge. erste ist ein Residuendiagramm und das zweite ist ein Wir werden also verstehen, was ein Residuendiagramm ist. Eine gängige Methode zur Diagnose der Homo-Sadstizität besteht darin, die Residuen gegen den vorhergesagten Wert grafisch Unabhängig davon, welchen vorhergesagten Wert wir erhalten stellen wir die Residuen gegen die vorhergesagten Werte oder die unabhängigen Variablen in einem Residuendiagramm dar. Wenn die Streuung der Residuen über den gesamten Bereich, die vorhergesagten Werte oder unabhängigen Variablen grob eingeengt zu sein scheint, ist Homosexualität , stellen wir die Residuen gegen die vorhergesagten Werte oder die unabhängigen Variablen in einem Residuendiagramm dar. Wenn die Streuung der Residuen über den gesamten Bereich, die vorhergesagten Werte oder unabhängigen Variablen grob eingeengt zu sein scheint, ist Homosexualität wahrscheinlich ausgeschlossen. , stellen wir die Residuen gegen die vorhergesagten Werte oder die unabhängigen Variablen in einem Residuendiagramm dar. Wenn die Streuung der Residuen über den gesamten Bereich, die vorhergesagten Werte oder unabhängigen Variablen grob eingeengt zu sein scheint, ist Homosexualität wahrscheinlich ausgeschlossen. Wenn sich die Streuung der Residuen jedoch wie bei den vorhergesagten Werten vergrößert oder verengt, kann die Änderung der Heterodizität verhindert werden. Bei der zweiten Methode handelt es sich um den heidnischen Geschmack von Zahnspangen. Dies ist der statistische Geschmack, der verwendet wird, um in der Regressionsanalyse formal nach Homosdaität zu suchen Die Nullhypothese des Brace Pagan Tests besagt, dass die Varianz der Residuen konstant ist Varianz Bei der Alternativhypothese handelt es sich bei der Varianz der Residuen jedoch nicht um eine konstante Heterodiversität . Ein signifikantes Ergebnis deutet auf Hinweise auf Herosdiät hin. Okay. Was wird passieren? Was werden die Folgen einer Verletzung der Homosexualität Es wird zu einer voreingenommenen Schätzung kommen. Die Koeffizientenschätzungen können verzerrt sein, wenn die Streuung der Residuen systematisch mit den Werten der unabhängigen Variablen variiert den Werten der unabhängigen Variablen Falsche Standardfehler: Es kann sein, dass die Standardfehler zu niedrig oder zu hoch geschätzt sind, was zu einem falschen Konfidenzintervall und einem falschen Hypothesentest führt falschen Konfidenzintervall und einem falschen Hypothesentest Bei effizienten Schätzungen kann die Effizienz der Parameterschätzungen beeinträchtigt werden, Schätzungen kann die Effizienz der Parameterschätzungen beeinträchtigt werden Aussagekraft der Regressionsanalyse zur Erkennung der wahren Beziehung zwischen den Variablen verringert zur Erkennung der wahren Beziehung zwischen den Wenn die Homo-Sadastizität verletzt wird, können mehrere Lösungsansätze in Betracht gezogen werden . Transformation von Variablen, die Transformation abhängigen oder unabhängigen Variablen kann dazu beitragen, die Varianz der Residuen zu stabilisieren, gewichtetes Listenquadrat Die Transformation von Variablen, die Transformation der abhängigen oder unabhängigen Variablen kann dazu beitragen, die Varianz der Residuen zu stabilisieren, gewichtetes Listenquadrat. wird die gewichtete Litch Square-Regression verwendet bei der die Beobachtungen auf der Grundlage ihrer Varianz gewichtet werden auf der Grundlage ihrer Varianz gewichtet Es wird die gewichtete Litch Square-Regression verwendet, bei der die Beobachtungen auf der Grundlage ihrer Varianz gewichtet werden und somit die sedierende Wirkung von Helden berücksichtigt werden kann. Zuverlässige Standardfehler und Methoden mit Standardfehlern können verwendet werden, um Standardfehler bei Heldensedaten zu korrigieren, ohne dass die spezifischen Fehler angenommen Heldensedaten Form der Varianzstruktur. Homosexualität ist also eine wichtige Ausnahme bei der linearen Regression, die die Gültigkeit und Zuverlässigkeit des Schätzmodells gewährleistet Zuverlässigkeit Erkennung und Bekämpfung von Verstößen gegen die Homosexualität ist unerlässlich, um genaue und vertrauenswürdige Regressionsergebnisse zu erzielen Die Erkennung und Bekämpfung von Verstößen gegen die Homosexualität ist unerlässlich, um genaue und vertrauenswürdige Regressionsergebnisse zu erzielen . Die Erkennung und Bekämpfung von Verstößen gegen die Homosexualität ist unerlässlich, um genaue und vertrauenswürdige Regressionsergebnisse zu erzielen . Das ist also Homodalität und wie wichtig es ist , zu verstehen, wie man sie identifiziert. Es gibt zwei Möglichkeiten, und dann haben wir gesehen, welche Folgen eine Verletzung der Und dann haben wir gesehen , wie man mit der Homo-Sadastik umgehen kann. Es gibt drei Möglichkeiten der Transformation von Variablen: gewichtete Shed-Quadrate und robuste Standardfehler Okay? In der nächsten Vorlesung werden wir also sehen, was Normalität ist Also ist sie in der nächsten Vorlesung. 139. Normalität verstehen: Hallo und willkommen zurück. In diesem Vortrag werden wir also verstehen, was Normalität ist Normalität ist eine Abkürzung der linearen Regression, die sich auf den Zustand bezieht , bei dem die Residuen oder Fehler des Wenn also die Fehler oder die Residuen Residuen normalverteilt sind, spricht man von Normalverteilung. Mit anderen Worten bedeutet dies, dass die Verteilung der Residuen einer glockenförmigen oder glockenförmigen Kurve folgt einer glockenförmigen oder glockenförmigen Kurve folgt, die um Null zentriert ist. Die meisten Residuen befinden sich in der Nähe des Mittelwerts und weniger Residuen in den Was bedeutet das eigentlich? Das heißt, wenn die Fehler in unserem Modell oder die Residuen in unserem Regressionsmodell normalverteilt sind. Was bedeutet das? Normalverteilt bedeutet, dass die Verteilung der Residuen der Glockenschlupskurve folgt , wo sie zentriert ist Sie ist zentriert. Alle Pfeile sind um den Nullpunkt zentriert, wobei die meisten Residuen in der Nähe des Mittelwerts gruppiert Also das meiste, wenn Sie auf die Glocke schauen, wenn Sie auf die Glocke schauen, wie sieht sie Es sieht so aus, oder? Okay. Lass mich einen Stift benutzen. Wenn du dir eine Glocke ansiehst, wird sie so sein, oder? Nehmen wir an, sie wird um diese Null herum zentriert sein. Und die meisten Werte bewegen sich in Richtung dieses Mittelwerts, des Mittelwerts. Okay, das ist es also, was es bedeutet. Es sollte wie bei Glocken sein, wo sich die meisten Werte befinden. Quer durch den Mittelwert der Werte. Gut geformte Kurve in der Mitte Nullpunkts, wobei sich die meisten Pflanzen in der Nähe des Mittelwerts und weniger Reste im Schwanz befinden. Nun also die Bedeutung von Normalität. Normalität ist eine wichtige Ajumption-Regression, da viele statistische Geschmacks - und Schätzmethoden, die in der Regressionsanalyse verwendet werden, auf der Ajumption viele statistische Geschmacks - und Schätzmethoden in der Regressionsanalyse verwendet werden der Normalität beruhen. Wenn die Residuen normalverteilt sind, deutet dies darauf hin, dass die Fehler zufällig und unabhängig sind und die Regressionskozentrierung effizient geschätzt wird . . Wie lässt sich Normalität anhand des Residuendiagramms ermitteln Eine gängige Methode zur Bewertung der Ausnahme von Normalwerten ist die Untersuchung eines Histogramms oder eines Q Q-Diagramms, eines Quantil-Quantil-Diagramms ? Eine gängige Methode zur Bewertung der Ausnahme von Normalwerten ist die Untersuchung eines Histogramms oder eines Q Q-Diagramms, eines Quantil-Quantil-Diagramms der Residuen. in einem Q Q-Diagramm die Punkte ungefähr entlang der diagonalen Linie liegen, Wenn in einem Q Q-Diagramm die Punkte ungefähr entlang der diagonalen Linie liegen, deutet dies darauf hin, dass die Residuen normalverteilt Alternativ würde ein Histogramm des Residuums einem B-Sep-Diagramm wie diesem ähneln. Okay. Die nächste Methode ist Sapiro K Taste. Dies ist der statistische Geschmack, der verwendet wird , um die Normalität der Residuen formal zu testen Die Nullhypothese des Sapiro-Milchgeschmacks ist der Test, dass die Residuen normalverteilt dass Ein signifikantes Ergebnis deutet auf Beweise hin, die gegen die Normalität sprechen. Okay. Folgen einer Verletzung der Normalität bei der Regressionsanalyse sind dieselben wie die, die wir bei der Homosexualität bei der Regressionsanalyse sind dieselben wie die , der verzerrten Schätzung und der falschen Schlussfolgerung gesehen haben Die Folgen einer Verletzung der Normalität bei der Regressionsanalyse sind dieselben wie die, die wir bei der Homosexualität, der verzerrten Schätzung und der falschen Schlussfolgerung gesehen haben. Was ist die verzerrte Schätzung? Komplizierte Schätzungen können verzerrt sein , wenn die Residuen Falsche Folgerungen bedeuten, dass das Konfidenzintervall und der auf T-Verteilungen basierende Hypothesentest möglicherweise ungültig sind, wenn und der auf T-Verteilungen basierende Hypothesentest möglicherweise ungültig sind, wenn die Residuen nicht normalverteilt sind. treten ungenaue Vorhersagen Wenn wir gegen die Normalität verstoßen, treten ungenaue Vorhersagen auf. Prognoseintervalle können unzuverlässig sein, wenn die Ausnahme von der Normalität Prognoseintervalle können unzuverlässig sein , wenn Wie also mit der Normalität umgegangen werden kann, wenn die Normalität verletzt wird, können verschiedene Lösungsansätze Die erste ist die Datentransformation, die die Daten transformiert Die Transformation der abhängigen und unabhängigen Variablen kann normaleren Verteilung der Residuen beitragen. Zu den gängigen Transformationen gehören die logarithmische Transformation, die Quadratwurzeltransformation oder und unabhängigen Variablen kann zu einer normaleren Verteilung der Residuen beitragen. Zu den gängigen Transformationen gehören die logarithmische Transformation, die Quadratwurzeltransformation oder die Boxcox-Transformation. Robuste Regression, robuste Regressionstechniken wie robuste Standardfehler oder Schätzungen können verwendet werden, um den Regressionskoeffizienten in Fällen zu schätzen, robuste Regressionstechniken wie robuste Standardfehler oder Schätzungen können verwendet werden, um den Regressionskoeffizienten in Fällen zu schätzen, in denen nicht normale Fehler auftreten. Und dann ist der dritte Boostrapping. Beim Boost-Strapping handelt es sich um ein Verfahren zur Neuabtastung , das bei der Regressionsanalyse robuste Rückschlüsse ziehen kann , ohne dass die Normalität Regressionsanalyse Wir können also den Schluss ziehen, dass Normalität eine Ausnahme von der linearen Regression darstellt, die sicherstellt, dass Validität, Effizienz und Zuverlässigkeit des Regressionsmodells korrekt und ohne Rückschlüsse geschätzt von der linearen Regression darstellt, die sicherstellt, dass Validität, Effizienz und Zuverlässigkeit des Regressionsmodells korrekt und ohne Rückschlüsse geschätzt werden. Auch wenn Verstöße gegen die Normalität nicht immer zu erheblichen Problemen führen, ist es von entscheidender Bedeutung, Abweichungen von der Normalität zu bewerten und zu beheben, ist es von entscheidender um ein genaues und vertrauenswürdiges Regressionsergebnis zu erhalten nicht immer zu erheblichen Problemen führen, ist es von entscheidender Bedeutung, Abweichungen von der Normalität zu bewerten und zu beheben, um ein genaues und vertrauenswürdiges Regressionsergebnis zu erhalten. Okay. Also ich hoffe, du hast auch erfahren, was Normalität ist. In der nächsten Vorlesung werden wir verstehen, keine perfekte Multikolinearität gibt. Also bleib in der nächsten Vorlesung drinnen. 140. Keine perfekte Multicollinearity verstehen: A und willkommen zurück. In dieser Vorlesung werden wir lernen, wie es keine perfekte Multikolinearität Keine perfekte Multikolinearität ist also eine Ausnahme, die wir bei der linearen Regression annehmen , die besagt, dass es keine exakte lineare Beziehung zwischen den unabhängigen Variablen geben sollte keine . Okay. Unabhängige Variablen sind die Variablen auch als Prädiktoren bezeichnet werden Unabhängige Variablen sind die Prädiktoren, und der Wert, den wir vorhersagen, wird als abhängige Variablen bezeichnet Mit anderen Worten bedeutet dies, dass die eine unabhängige Variable keine perfekte Linearkombination anderer Variablen sein sollte perfekte Linearkombination anderer Eine unabhängige Variable sollte also keine perfekte Linearkombination der anderen sein. Es sollte also keine Kombination von Linearität geben. ist wichtig, dass es keine perfekte Multikolinarität gibt. Multikolinarität liegt vor, wenn zwei oder mehr unabhängige Variablen in einem Regressionsmodell Es ist wichtig, dass es keine perfekte Multikolinarität gibt. Multikolinarität liegt vor, wenn zwei oder mehr unabhängige Variablen in einem Regressionsmodell stark miteinander korrelieren. Zwei oder mehr unabhängige Variablen sollten also nicht korreliert, sondern stark miteinander korreliert sein. miteinander korreliert sein. Multikolinearität selbst ist zwar nicht unbedingt ein Problem. Eine perfekte Multikolinearität kann zu Problemen bei der Schätzung des Regressionskoeffizienten führen und die Interpretation des Modells untergraben . Identifizierung einer perfekten Multikorrelationsmatrix. Eine gängige Methode zum Nachweis von Multikolinearität ist die Untersuchung der Korrelationsmatrix unabhängiger Variablen . Korrelationskoeffizient nahe plus eins oder minus eins weist auf eine starke Die zweite Methode ist der Varianzinflationsfaktor VF. VF ist ein Maß dafür, inwieweit die Varianz des geschätzten Regressionskoeffizienten aufgrund der Multikolinearität erhöht ist. Ein hoher F F steht für einen Varianzinflationsfaktor. Ein Wert, der typischerweise erreicht wird, weist auf ein problematisches Maß an Multilinearität hin. weist auf ein problematisches Maß an Multilinearität hin. Was passiert, wenn wir die perfekte multikolare Kollinearität verletzen perfekte multikolare Kollinearität Dies wird zu unzuverlässigen Koeffizientenschätzungen führen. Wenn die perfekte Multikollinearität vorliegt, kann das Regressionsmodell den eindeutigen Koeffizienten nicht für jede unabhängige Variable schätzen. Infolgedessen werden die Koeffizientenschätzungen instabil und unzuverlässig . Unendliche Lösungen. Bei perfekter Multikolinearität gibt es unendlich viele Kombinationen von Koeffizientenschätzungen, die perfekt Daher kann das Regressionsmodell die Probleme bei der Interpretation der Koeffizienten nicht eindeutig bestimmen Die perfekte Multikolinarität erschwert die Interpretation einzelner Koeffizienten und Schätzungen, da es unmöglich wird, den Effekt unabhängiger Variablen von den anderen zu isolieren den Effekt unabhängiger Variablen von den anderen Wie geht man mit der perfekten Variablenauswahl für mehrere Kolinearitäten um, entfernt eine oder mehrere stark korrelierte Variablen aus dem Modell, priorisiert Variablen, die theoretisch relevanter sind oder eine stärkere Assoziation mit der abhängigen Variablen theoretisch Variablenauswahl für mehrere Kolinearitäten um, entfernt eine oder mehrere stark korrelierte Variablen aus dem Modell, priorisiert Variablen, die theoretisch relevanter sind oder eine stärkere Assoziation mit der abhängigen Variablen haben? Datentransformation werden eine oder mehrere Variablen transformiert Bei der Datentransformation werden eine oder mehrere Variablen transformiert, um die Multikololarität zu reduzieren. Erstellung von Wechselwirkungstermen oder Polynombegriffen kann beispielsweise dazu beitragen, komplexe Beziehungen zu erfassen komplexe Beziehungen Die Erstellung von Wechselwirkungstermen oder Polynombegriffen kann beispielsweise dazu beitragen, komplexe Beziehungen zu erfassen, ohne dass eine perfekte Polarität entsteht. Ridge-Regression. Ridge-Regression handelt es sich eine Regularisierungstechnik, mit der mehrere Polaritäten behandelt werden können, indem der Zielfunktion der Regression ein Strafterm hinzugefügt wird ein Strafterm Dieser Strafterm trägt zur Stabilisierung der Koeffizientenschätzungen bei und mildert den Effekt der Multikolinearität Koeffizientenschätzungen . Dies sind die drei sehr effektiven Techniken, mit denen wir die perfekte Multikolinearität erreichen können. Die perfekte Multikolinearität erreichen können. Die eine ist die Variablenselektion. Wir können weitere Variablen entfernen oder hinzufügen , um eine oder mehrere stark korrelierte Variablen Dann die Datentransformation, wir können eine oder mehrere Variablen transformieren, um die Multikolität zu reduzieren , und die Ridge-Regression ist eine Regelungstechnik, um die Multikolität durch Hinzufügen eines Strafterms zu handhaben Okay. Um Regressionsanalyse zu erzielen, ist es also unerlässlich, sicherzustellen, dass keine perfekte Multkolität zuverlässige und interpretierbare Ergebnisse linearen Regressionsanalyse zu erzielen, ist es also unerlässlich, sicherzustellen, dass keine perfekte Multkolität vorliegt Erkennung und Behandlung der Multkollarität in einem frühen Stadium des Modellierungsprozesses kann dazu beitragen, die Genauigkeit und Stabilität der Regressionsschätzungen zu verbessern Genauigkeit und Stabilität der Jetzt haben wir also die Homosadistik, Normalität und perfekte Multikolinarität verstanden . Mit diesem Verständnis werden wir nun mit unserer Regressionsanalyse, dem Verstehen, weitermachen . Okay, sehen Sie sich das in der nächsten Vorlesung an. 141. Einfache lineare Regressionskonzepte und Formulierung: Und willkommen zurück. In dieser Vorlesung werden wir uns einfacher linearer Regression, Konzepten und Formulierungen vertraut machen einfache lineare Regression ist also, wie bereits erwähnt, auch ein grundlegendes statistisches Verfahren, das verwendet wird um die Beziehung zwischen zwei Variablen, einer abhängigen Variablen und einer abhängigen Variablen, zu modellieren einer abhängigen Variablen und einer abhängigen Variablen, . Sie wird auch als Antwortvariable und als unabhängige Variable, die als Prädiktorvariable bezeichnet wird, bezeichnet vorhergesagte Variable wird also Vorhersage einer abhängigen Variablen sein Hier werden wir uns eingehend mit dem Konzept der Formulierung der einfachen linearen Regression befassen die grundlegenden Prinzipien und praktischen Anwendungen der einfachen Das Konzept der einfachen linearen Regression verstehen wir zunächst In ihrem Code zielt die einfache lineare Regression darauf ab, die lineare Beziehung zwischen einer einzelnen unabhängigen Variablen x und einer abhängigen Variablen y zu erfassen die lineare Beziehung zwischen einer einzelnen unabhängigen Variablen . Die Beziehung basiert auf einer geraden Gleichung y, die x plus c plus B t Null entspricht B Null ist Null, wir bereits in der vorherigen Vorlesung gesehen haben, ist der Schnittpunkt oder der Achsenabschnitt x und y ist die unabhängige Variable, y ist die abhängige Variable und B eins, Beta eins ist ein Steigungskoeffizient. Wir haben das hier bereits besprochen. Das ist Beta Null, das ist B eins, das und das ist x. Okay. Also, der Achsenabschnitt steht für den Wert von y, wenn x Null ist , was wir bereits gesehen haben, und der Steigungskoeffizient eta eins gibt die Änderung von y an, die mit der Änderung von x um eine Einheit verbunden ist. Wenn Sie sich das hier ansehen, wird sich dieser Eta-Wert ändern Nun zur Formulierung einer einfachen linearen Regression. Schätzung zur Schätzung der Steigung, die Beta eins umfasst. Der Neigungskopizent Beta eins wird mit der Methode der kleinsten Quadrate geschätzt, die Summe der Differenz zwischen dem Ziel und den vorhergesagten Werten von y minimiert bei der die Summe der Differenz zwischen dem Ziel und den vorhergesagten Werten von y minimiert wird. Die Formel für die Schätzung von Beta eins lautet Beta eins und entspricht Sigma von x i minus x bis y minus y. Dies ist vorhergesagt minus Objekt minus vorhergesagtes Objekt, geteilt wird. Die Formel für die Schätzung von Beta eins lautet Beta eins und entspricht Sigma von x i minus x bis y minus y. Dies ist Sigma von x i minus x bis vorhergesagt minus Objekt minus durch Sigma aus, und hier ist mit der Methode der kleinsten Quadrate geschätzt, bei der die Summe der Differenz zwischen dem Ziel und den vorhergesagten Werten von y minimiert wird. Die Formel für die Schätzung von Beta eins lautet Beta eins und entspricht Sigma von x i minus x bis y minus y. Dies ist vorhergesagt minus Objekt minus vorhergesagtes Objekt, geteilt durch Sigma aus, und hier ist I variierend von gleich eins zwei und xi minus x. Ganzes Quadrat Wo ist die Anzahl der Beobachtungen, x und y sind die Einzelwerte von x und y und x und y, das sind der Stichprobenmittelwert des X-Mittelwerts und der Y-Mittelwert ist der Mittelwert von x und y. Schätzung der Beta-Null Sobald der Steigungskoeffizient Beta eins geschätzt ist, kann der Achsenabschnitt Beta Null mit der Formel Beta Null, Balken gleich Y bar minus Beta 1 bar berechnet werden, wobei x bar x bar beta eins der Neigungskoeffizient ist und x bar y bar die Stichprobenmittelwerte mit der Formel Beta Null, Balken gleich Y bar minus Beta 1 bar berechnet werden, wobei x bar x bar beta eins Neigungskoeffizient ist und von x und y sind. Das ist also die Formel Formulierung der einfachen linearen Regression. Anwendung der einfachen linearen Regression kennen wir bereits in den Wirtschaftswissenschaften zur Modellierung des Verhältnisses zwischen Einnahmen und Ausgaben im Finanzwesen, Vorhersage von Aktienkursen auf der Grundlage historischer Daten, im Gesundheitswesen und bei Ling den Zusammenhang zwischen dem Alter des Patienten und den Krankheitskosten und im Bildungswesen zur Vorhersage der Leistung von Schülern auf der Grundlage Zur Studie s. Die einfache lineare Regression ist also ein leistungsstarkes statistisches Instrument zur Modellierung und zum Verständnis der Beziehungen zwischen den beiden Variablen, indem sie den Steigungs- und Schnittkoeffizienten stimuliert den Steigungs- und Analysten können die Stärke und Richtung der Beziehung quantifizieren und auf der Grundlage der beobachteten Daten Vorhersagen treffen Das Verständnis des Konzepts und der Formulierung der einfachen linearen Regression ist für die Durchführung genauer und aussagekräftiger Analysen unerlässlich Durchführung genauer und aussagekräftiger Analysen In verschiedenen Bereichen. Das ist also ein Schritt weiter, wir sind gegangen und haben verstanden, wie die einfache lineare Regressionsformulierung funktioniert. Und wir haben das Konzept auch verstanden. Wir werden also in der nächsten Vorlesung mehr über diese, äh, einfache lineare Regression erfahren nächsten Vorlesung mehr über diese, äh, einfache lineare Regression 142. Die Theorie der Methode der kleinsten Quadrate erklärt: Und willkommen zurück. In dieser Vorlesung werden wir also verstehen, was die Methode der kleinsten Quadrate ist. Methode der kleinsten Quadrate ist also ein gängiger Ansatz, der in der linearen Regression verwendet wird Um den Koeffizienten der Regreationsgleichung zu schätzen. Ziel ist es, die Linie zu finden , die am besten zu den Objektdaten passt, indem die Summe der quadrierten Differenzen zwischen dem Objekt und den vorhergesagten Werten der abhängigen Variablen minimiert die Summe der quadrierten Differenzen zwischen dem Objekt und den vorhergesagten Werten der So funktioniert die List-Square-Methode. Definieren Sie zunächst die Regressionsgleichung. Die Regressionsgleichung für ein einfaches lineares Regressionsmodell wird typischerweise als Y dargestellt , das gleich Beta Null plus Beta eins und zwei x plus oder Epsilon ist, wobei Wir nennen sie auch Antwortvariable, x ist eine unabhängige Variable, wir nennen sie Prädiktorvariable wir nennen Beta Null ist der Intercept-Term, Beta eins ist Slow und Epsilon ist der Fehlerterm, der durch unerklärliche Variation repräsentiert wird Beta eins ist Slow und Epsilon ist der Fehlerterm, der durch unerklärliche Variation repräsentiert wird. Der zweite Schritt besteht darin, den vorhergesagten Wert anhand der angegebenen Regressionsgleichung zu berechnen und den vorhergesagten Wert zu berechnen, d. h. für Anschließend wird der vorhergesagte Wert y für die Beobachtung y y y bar plus Beta Null plus Beta eins zu xi berechnet, wobei Beta Null und Beta eins mit der Methode der kleinsten Quadrate geschätzt werden Methode der kleinsten Quadrate Im dritten Schritt wird nun das Residuum berechnet. Das Residuum von für jede Beobachtung ist die Differenz zwischen dem Objektwert von y und dem vorhergesagten Wert, y, dass der Doppelpunkt i gleich zwei ist, yi hat. Um die Summe der quadrierten Residuen zu minimieren. Das Ziel der List-Squa-Methode besteht darin, die Summe der quadrierten Residuen zu minimieren Mathematisch kann dies als diese Gleichung ausgedrückt werden. Sigma zwei n, Sigma F ist gleich eins bis n i quadriert ist gleich Sigma F y minus yi hat Quadrat, wobei I von eins bis Sigma F y minus yi hat Quadrat n variiert. Indem wir diese Summe minimieren, erhalten wir die am besten passende Linie, die durch die Datenpunkte verläuft, da sie die allgemeine Diskrepanz zwischen den beobachteten und vorhergesagten Werten von y verringert . Schätzt den Sigma F ist gleich eins bis n i quadriert ist gleich Sigma F y minus yi hat Quadrat, wobei I von eins bis n variiert. Indem wir diese Summe minimieren, erhalten wir die am besten passende Linie, die durch die Datenpunkte verläuft, da sie die allgemeine Diskrepanz zwischen den beobachteten und vorhergesagten Werten von y verringert. Schätzt den Koeffizienten, Seite mit dem fünften Schritt. Um den Wert von Beta Null und Beta Eins zu ermitteln, der die Summe der quadratischen Restkalkül minimiert, werden insbesondere partielle Ableitungen verwendet. Die Formeln für die Schätzung des Koeffizienten sind wie folgt angegeben: x bar, wobei x bar, wobei x bar und ar die Mittelwerte von x Nachdem Sie den Wert von hier aus ermittelt haben, interpretieren Sie im nächsten Schritt den Koeffizienten Sobald der Beta-Null-Balken und Beta-1-Balken geschätzt sind, können sie wie folgt interpretiert werden Beta-Null-Balken ist ein Achsenabschnitt der das Y darstellt, der den Wert von Y darstellt, wobei x Null ist und Beta 1-Balken der Steigungskoeffizient ist , der die Änderung von Y angibt mit einer Änderung von x um eine Einheit einhergeht. Durch Anwendung dieser Listenquadratmethode erhalten wir Schätzungen des Koeffizienten, die die am besten passende Linie für die gegebenen Daten definieren, sodass wir die quantifizieren können Beziehung zwischen den unabhängigen und abhängigen Variablen in einem einfachen linearen Regressionsmodell So funktioniert die Shed-Square-Methode, und das ist die Theorie hinter der Methode der Listenquadrate 143. Beispiel der LEST-QUADRAT-Methode in der linearen Regression: Hallo und willkommen zurück. In der vorherigen Vorlesung haben wir uns mit der Theorie befasst, die hinter der List-Square-Methode steckt. In dieser Vorlesung werden wir dieses einfache Programm ausführen, das ich geschrieben habe , um die List-Squared-Methode bei der linearen Regression zu erklären List-Squared-Methode bei der linearen Regression Was ich hier mache, ich generiere synthetische Daten. Dafür verwende ich Set Dot Set 123. Dadurch wird das Set auf Reproduzierbarkeit eingestellt. Hier nehme ich X als einen Wert von 1 bis 200. Das ist eine unabhängige Variable, also ist x eine unabhängige Variable Die abhängige Variable wird y sein, und wir kennen die Rekonstruktion, tut mir leid, die einfache Linienformel lautet, y ist gleich x plus c. Also hier die zwei von x, ich nehme zwei und zwei x, zwei x plus etwas zufälliges Rauschen, das ich hier nehme, indem ich die Formel verwende, die Funktion norm, 100 und meine, ich nehme Null und Standarddivation nehme ich zehn Das gibt uns also die abhängige Variable mit zufälligem Rauschen Nun, was ich tun werde, werde ich das lineare Regressionsmodell anpassen indem ich die Liste quadratweise weise. Hier erstelle ich das lineare Regressionsmodell mithilfe von LM-Funktionen, ich erstelle das Modell und verwende die Funktion m, und hier y die abhängige Variable und x die unabhängige Ich erstelle hier das lineare Regressionsmodell. Jetzt drucke ich das lineare Regressionsmodell aus. Lass mich bis hierher rennen. Sehen Sie hier, jetzt können wir es hier sehen. Minimale Rückstände. Median des ersten Quartils ist das dritte Quartil. Max und Max Reststandard 9,1 bei 90 Freiheitsgraden, Vielfaches R-Quadrat 0,0 978 angepasstes R-Quadrat 0,0 9763 Jetzt zeichne ich die Daten und passe sie an und finde die Anpassungslinie. Zum Zeichnen verwende ich die Plotfunktion x und behalte die Überschrift als Titel für das Diagramm ist die kleinste quadratische lineare Regression und x x sage ich x und y, x p y, mit der Ab-Linie versuche ich, die angepasste Regressionslinie zu finden Ich werde das Modell hier verwenden. Dieses lineare Regressionsmodell, ich für die Linie verwenden werde, werde ich die rote Farbe verwenden Lassen Sie mich das jetzt ausführen. Lass es mich machen. Lass es mich machen. Siehst du, für jedes X bekommen wir Y und C erhalte ich eine lineare Regression Das ist die Regressionslinie, die rote Linie, ich komme hierher Das ist die lineare Regressionslinie nach der Methode der kleinsten Quadrate Damit erhalten wir hier diese Regressionslinie. Hier haben wir die Methode der kleinsten Quadrate verwendet , um die Regressionslinie zu finden Sehen Sie in der nächsten Vorlesung nach. 144. Fazit und Projektarbeit: Hallo Leute, wir haben also das Kunstprogrammieren gelernt und können mit unseren Programmierkenntnissen gut umgehen. Und wir können dieses Kunstprogrammierwissen jetzt in Datenwissenschaft und maschinellem Lernen umsetzen dieses Kunstprogrammierwissen . Okay, ab jetzt sind Sie bereit, Algorithmen für Datenwissenschaft und maschinelles Lernen mithilfe unserer Programmierung zu implementieren . Unsere Programmierung ist also klar. Jetzt hast du geladen. Ihr nächster Schritt besteht nun darin, Algorithmen aus den Bereichen Datenwissenschaft und maschinelles Lernen in unsere Programmierung zu implementieren Algorithmen aus den Bereichen Datenwissenschaft und maschinelles Lernen und zu versuchen, sie zu erforschen. Das ist also der nächste Schritt. Und jetzt können Sie weiter gehen und der Analyse der Daten mithilfe von R beginnen und ML-Algorithmen wie lineare Regression mithilfe der R-Programmierung implementieren . Dies sind also die Dinge, die Sie nach Abschluss dieses Kurses weiter untersuchen können . Als Nächstes, was ist dein Projekt für diesen Kurs? Jetzt können Sie Ihre eigenen Daten erstellen, so wie ich Mitarbeiterdaten in einer CSV-Datei erstellt habe. Sie können für diesen Kurs, die Projektarbeit, auch Ihre eigenen Daten in einer CSV-Datei erstellen . Und versuche, diese CSV-Datei durch Kunst zu lesen. Versuchen Sie dann, einige Datenanalysen an diesen Daten, an diesen CSV-Dateidaten durchzuführen , indem Sie Kunst verwenden , wie wir es in unserer Klasse gemacht haben. Und versuchen Sie, einige Diagramme und Grafiken zu erstellen die auf Daten wie der Reha für unsere Mitarbeiterdaten basieren. In ähnlicher Weise können Sie sich ein Problem vorstellen, an Daten denken und all diese Dinge ausführen. Und nachdem Sie damit fertig sind, sagen wir, Ihr abschließender Analysebericht. Was sind zum Beispiel die Dinge Sie aus den Daten herausgefunden haben werden? Und versuchen Sie, einen Bericht zu erstellen und versuchen Sie, Grafiken und Diagramme zu erstellen. Und versuche, das in den Projektabschnitt dieses Kurses aufzunehmen, damit wir es alle durchgehen können. Lernen Sie aus Ihrem Experiment, lernen Sie aus Ihrem Projekt und scheitern Sie an konstruktivem Feedback miteinander. Also, wenn Sie Ihr Projekt speichern, alle anderen Schüler. Und selbst ich kann das durchmachen und sogar ich kann sagen , dass Feedback und andere sich das auch ansehen und das Feedback miteinander sagen. Und damit können wir lernen und wachsen. Fangen Sie also an, Ihr Projekt einzurichten und zu veröffentlichen. Das war's für diesen Kurs. Und ich hoffe, Ihnen hat dieser Kurs gefallen und Sie haben unsere Programmierung für Ihre zukünftigen Projekte in den Bereichen Datenwissenschaft und maschinelles Lernen gelernt unsere Programmierung für Ihre zukünftigen Projekte in den Bereichen Datenwissenschaft . Tschüss, Mach's gut.

R-Programmierung Bootcamp für Data Science und Machine Learning

Sunil Kumar Gupta

Schau dir diesen Kurs und Tausende anderer Kurse an

Schau dir diesen Kurs und Tausende anderer Kurse an

Einheiten dieses Kurses

1.

Einführung

1:15

2.

R-Installation

7:15

3.

Installieren und Erkunden von RStudio

11:34

4.

Warum R lernen

5:15

5.

Erstes R-Programm und Operatoren in R

11:06

6.

Datentypen in R

8:33

7.

Erstellen von Vektoren in R

5:49

8.

Sequenz in R

14:59

9.

Replizierungsfunktion

5:09

10.

Zugriff auf Vektorelemente

8:04

11.

Vektormanipulation in R

5:39

12.

Recycling von Vektorelementen

5:22

13.

Sortieren von Vektorelementen

5:35

14.

Entscheidungsfindung in R

9:55

15.

Loop-Steuerung mit Repeat- und Whir-Loop

6:18

16.

Für Loop und nächste Anweisung

5:10

17.

Funktionen in R

13:01

18.

Matrizen in R

13:04

19.

Faktoren in R

7:53

20.

Datenrahmen in R

16:14

21.

Datenrahmen kombinieren

9:03

22.

Daten in R aus einer CSV-Datei analysieren

18:44

23.

Erstellen eines Kreisdiagramms in R

8:30

24.

Mitarbeiterdaten analysieren

13:30

25.

Excel-Datei in R lesen

7:05