Transkripte
1. Einführung in den Data Science Kurs: Hallo allerseits, willkommen zu
den Data Science-Ergebnissen. In diesem Kurs
werden wir
alle praktischen
Aspekte der Data Science abdecken . Dies ist eigentlich ein
projektbasiertes auch live in B, tatsächlich auf
ein Projekt bietet, und wir verwenden die Konzepte in der Data Science und wenden es auf dieses Projekt an. Nach Ende dieses Kurses können
Sie
alle wichtigen
Konzepte der Data Science in den Griff bekommen , einschließlich Datenanalyse,
Datenvorverarbeitung und
Visualisierungstechniken. Also im Grunde x plus richtig? Oder heißt das Was
genau ist Data Science? Und ich gebe Ihnen
einen Überblick darüber, was genau Sie in diesem Kurs
behandeln werden. Zuallererst können Sie sehen, dass es bei Data Science darum geht, Wissen und
Erkenntnisse aus
lauten
und unstrukturierten Daten
mithilfe einiger Elemente
und einiger Prozesse zu extrahieren Erkenntnisse aus
lauten
und unstrukturierten Daten . Grundsätzlich gibt es
viele Unternehmen und es gibt viele Branchen, die tatsächlich verschiedene Arten von Daten
verwenden. Sie haben Millionen von Rekorden. Um sie zu strukturieren, extrahieren
Sie das Wissen zum Wohle ihrer Geschäfte. Sie erfordern einige
Datenvisualisierungstechniken, Techniken zur
Datenvorverarbeitung, da Wissenschaft die
wachsenden und aufkommenden Füße und viele Möglichkeiten
für Datenwissenschaftler darstellt. Und diese ganze Periode erhöht
die Norm in der Branche. Während dieses Kurses werde
ich mein Bestes geben, um Ihnen einen versteckten Hands-on zu geben,
wie Sie alle
Konzepte, die in Data Science
integriert sind, tatsächlich umsetzen können. Fangen wir an, der Doc
antwortete auf meinen Salzdiskurs, der Phosphatimporteur zum Klettern ist der
Kampf und Browning. Außerdem würden wir mit
der Python-Programmierung beginnen. Ich stimme einigen Grundlagen von
500 Videos in diesem Kurs zu, Sie werden diese Gewürze
verstehen können Oreos. Und danach können
Sie mit
Data Science auf sechs beginnen. In Ordnung, also die nächste
Anforderung ist Hingabe, da die Datenanalyse sehr alt
ist und McDonald's, weil
sie es gekauft haben, dass Sie
viel Urlaub haben. Um zu verstehen, was
der Datensatz ist, um zu verstehen,
welche Techniken Sie benötigen,
um einen Datensatz zu finden. Jedes Gute, das ich sagte,
wird sich von dem anderen unterscheiden und es muss verschiedene Wege
und verschiedene Techniken geben. Es werden diese Daten verarbeitet, die Daten
analysieren, die viel Engagement
erfordern. Und das ist der mittlere Grund, warum dies ein aufstrebendes Feld ist. Mal sehen, welche Tools wir zu lange verwenden
werden, da ich vermute, wir würden keine
Pilotenprogrammierung und
einige Gehkämpfe
und Bibliotheken verwenden . Wir können Jupyter Notebook verwenden, das tatsächlich Ihr
IDE-Typ in einer Megabase Acht ist, die andere rechts,
das alte lädt
sie ein ,
verschiedene Datensätze zu analysieren. Die Ferse ist gestaffelt, nachdem
Sie
die wichtigen Datensätze heruntergeladen haben und einen Blick darauf werfen, was
genau wir tun können. Dann gibt es einige
wichtige Bibliotheken wie Pandas Library,
Scikit-Learn, die eine sehr moderne ist, die Daten
neu verarbeiten und
auch ein Erlebnis bringen, das Sie sehen können. Ihre FEV1- und
Microsoft-Kavität wird hier für die
Datenvisualisierung verwendet , dass wir einige Bibliotheken
wie TensorFlow, Python unter Verwendung von Deep Learning haben. Auch einige Verschönerungen wie zufällige
Waldklassifizierung, Entscheidungsbäume und einige Modelle für
maschinelles Lernen. Und schaffen Sie
es auch in diesen Datensätzen, sich
weitgehend mit
sehr praktischen Dingen befassen , die bereit sind, in diesen Kurs zu
kommen. Wir sehen uns also in den nächsten
Tutorial-Zeiten. Die Logik.
2. Kaggle Datasets erkunden: Dies ist das erste
Video dieses Kurses. Diese Data Science Scores
und v werden viele Dinge
wie Datenvorverarbeitung,
Datenvisualisierung
und viele Dinge
wie Datenproben,
Aggregation,
Dimensionalitätsreduzierung
durchführen Datenvisualisierung
und viele Dinge
wie Datenproben, Aggregation, , all das Zeug, das
du machen wirst. Bevor ich jedoch mit einem
der Konzepte
beginne, möchte ich Sie zuerst
mit der Kaggle-Website vertraut machen ,
die kaggle.com ist. Also werde ich Ihnen
alle Vorteile der Verwendung von
Kalkül geben und von
jedem Data Science begeisterten Schulterblatt verwenden. Zuallererst müssen Sie
einfach auf die website.com gehen. Und hier ist Kaggle
im Grunde eine Website die viele
Datensätze und
viele Dinge bietet , die für
alle Schüler
, die lernen möchten, und alle Schüler, die auch
wollte antreten, oder? Es gibt also auch Wettbewerbe. Zuallererst können Sie auf dieser Var hier
sehen, hier haben wir den Datensatz. Wenn ich also hier hineinklicke,
sehen Sie uns eine Liste einiger Trainingsdatensätze, die Sie sehen können, dass er sprach
Daten, Google-Aktiendaten. Und es gibt viele beliebte Datensätze, die Sie hier
sehen können , wie Boston Housing, NSL, KDD, mobile
Preisklassifizierung. Im Grunde genommen werden
wir
im gesamten Kurs tatsächlich viele Dinge wie die
Datenvorverarbeitung durchführen . Dafür werden
wir verschiedene,
verschiedene Datensätze von Kaggle abholen . Der Grund dafür ist,
dass Sie, wenn Sie verschiedene Arten
von Datensätzen haben, verschiedene
Arten von Herausforderungen konfrontiert werden. Und das
hilft Ihnen wirklich, Fähigkeiten zu schätzen oder Data Science , wenn Sie tatsächlich Data Science
studieren. Nehmen wir zum Beispiel an,
Sie haben einen Datensatz und möchten sehen, dass
es einige gibt, sagen
wir eine ASR, die in
unserem Datensatz verfügbar ist , und es gibt einige doppelte Elemente
in diesem Datensatz. Alles es gibt auch einige andere
Herausforderungen. Wenn Sie also verschiedene, verschiedene Datensätze
aufgreifen, werden Sie sich
gut mit
verschiedenen Arten von
Herausforderungen auseinandersetzen, Sie sich
gut mit
verschiedenen Arten von
Herausforderungen auseinandersetzen denen Sie möglicherweise auch in Ihrer
Data-Science-Karriere gegenüberstehen. Also werden wir
verschiedene Datensätze aufgreifen und
ich werde
diesen Datensatz auswählen , um Ihnen
bestimmte Konzepte zu lösen oder einfach zu zeigen. Und hier sehen Sie,
dass wir diese Datensätze haben. Es hat auch einige
Kurse und Asthma. Es gibt auch einige andere Dinge
wie Wettbewerbe. Grundsätzlich ist Kaggle genau wie ein GitHub für Entwickler, also ist Kaggle für Data Science. Also haben wir hier ein paar
Wettbewerbe. Und diese sind auch preisbasiert. Sie können also tatsächlich
etwas Geld bekommen , wenn Sie
daran teilnehmen, und Sie können
bei diesen Wettbewerben
sehen, dass dies einige
der Berechnungen hier sind. Jetzt haben wir einen Kurs, kalter jetzt
interessanter Teil hier in der Kalkül, dass
Sie Python-Programmierung
verwenden werden,
um im Grunde alle Daten zu
schreiben und auszuführen, wiederzuverarbeiten, zu analysieren Zeug. Dafür müssen Sie
nicht einmal eine ganze
Python-Umgebung
erstellen. Sie können einfach hier
auf Create klicken. Und hier können Sie einfach
direkt auf
neues Load Book klicken und Ihr eigenes Notizbuch
erstellen, oder? Das ist also eine
interessante Sache. Sie können dies direkt in
diesem Notizbuch
, der Python-Umgebung, tun , der Python-Umgebung, Ihnen auch
Zugriff auf Pandas Bibliothek
Scikit-Learn geben , sodass
Sie sie nicht
manuell
in Ihrem nächsten Top installieren müssen . Hier sehen Sie, dass
wir einige Datensätze haben. Ein interessanter Teil, den ich Ihnen hier zeigen
werde
, ist , dass dieser Datensatz einige Zeit
dauern wird, um hier zu laden. Hier haben wir einige Fortschritte bei den
Benutzerrankings und all das Zeug. Werfen wir einen Blick
auf einen Datensatz hier. Okay, also hier haben wir
das Boston Housing. Also
klicke ich einfach auf diesen. Und hier sieht man, dass sich
das in einer Minute öffnen wird. Vi haben verschiedene Arten von Datensätzen und nicht wirklich
diese Datensätze. Menschen, die Frachtgemeinschaft, veröffentlichen
tatsächlich viele
ihrer eigenen Notebooks und ihre Möglichkeiten, Daten auf Kaggle zu
analysieren. Was Sie tun können, ist, dass Sie sehen können, dass es Notizbücher gibt und von ihnen lernen kann. Es ist wirklich eine sehr gute Sache. Genau wie du den Code von
jemandem auf GitHub siehst und genau hier
daraus lernst. Ich glaube, ich muss es auffrischen. Es ist jetzt geöffnet. Hier sehen Sie also,
dass es die Daten zeigt. Sie können sehen, dass die Daten
im Punkt-CSV-Format vorliegen und
dies ist der gesamte Datensatz. Aber der interessante Teil hier
ist der Score, ein Tab hier. Wenn Sie also kalt werden, werden
Sie sehen können,
dass es viele
Leute aus dieser
Gerüstgemeinschaft gibt Leute aus dieser
Gerüstgemeinschaft sie alle anzieht, um
diese Daten zu visualisieren oder vorzu verarbeiten, oder? Klicken Sie also als nächstes auf diesen
, der hier ist. Sie können sehen, dass es zeigt
, dass dies das Notebook ist und dies die Bibliotheken sind
, die dieses Notebook verwendet hat. Wir werden sie
in diesem ganzen Kurs benutzen. Ich gebe Ihnen nur einen Überblick darüber, wie genau Sie
Goggle verwenden
können weil es ein
wirklich wichtiges Werkzeug
für jeden Datenwissenschaftler ist . So können Sie sehen, dass wir
darüber nachdenken Mark Floyd, Seaborne für
Datenvisualisierung und Science-Fiction. Und hier können Sie sehen, dass diese Person
hier ihren eigenen Code
geschrieben hat , um den
Datensatz zu visualisieren
und zu verstehen und zu plotten. Hier kannst du alles sehen und Bestellungen auch hier. Man kann sehen, dass es auch gut ist. Es ist also eine sehr gute Plattform,
um Data Science zu erlernen. Im Grunde werden wir, ich
werde all
diese Funktionen und all
diese komplexen Funktionen vermitteln diese Funktionen und all ,
dank euch. Sie brauchen sich also keine Sorgen darüber
zu machen. Es ist nur so, dass ich
Ihnen eine Vorstellung davon gebe, was genau Sie
von dieser Kaggle-Website erwarten können. Im Grunde genommen ist das
alles für dieses Tutorial. Im nächsten Tutorial nehmen
wir zunächst
einen Datensatz auf und importieren ihn mit der Pandas-Bibliothek in Python. Das ist also alles für dieses
Tutorial. Danke fürs Zuschauen.
3. Erste Schritte mit Pandas: In diesem Video werden
wir einige der sehr wichtigen Funktionen
der Pandas-Bibliothek diskutieren . Und wir werden besprechen,
was genau
die Dinge sind , die wir tun und verwenden
können,
indem Python- und
Pandas-Bibliothek für einige wichtige Datenanalysen verwenden und Wissensformen
verstehen und
extrahieren eines bestimmten Datensatzes. Das wird also ein
sehr wichtiges Tutorial sein. Und dieses
werden wir
einige der sehr
grundlegenden Funktionen abdecken . Und während wir zu diesem Kurs übergehen
werden, werden
wir einige
wichtigere als
einige komplexe Aufgaben untersuchen , die mit der Pandas-Bibliothek problemlos erledigt werden
können. Die ersten Dinge für uns
müssen wir das Jupyter Notebook auslösen. Also hier öffne ich das Jupyter
Notebook und hier müssen
wir
ein neues Python-Notizbuch
mit Python-Baum erstellen . Ich habe bereits
eine erstellt, die unter
dem Namen Pi Bond als zentral steht . Und was wir tun müssen, ist dass wir diesen hier einfach
öffnen müssen. Jetzt können wir hier
das Python-Programm schreiben und wir können
alle Data Science-Aufgaben ausführen alle Data Science-Aufgaben , die wir hier erledigen möchten, oder? Das nächste ist also, den Datensatz
herunterzuladen. Hier können Sie jeden
Datensatz Ihrer Wahl herunterladen. Ich habe den Boston
Housing Prices Datensatz heruntergeladen und ist
auf google.com verfügbar. Und ich werde auch
den ganzen Link dazu geben. In
der Beschreibung dieses Videos. Sie können es von dort herunterladen. Und hier habe ich einen Ordner, der als Wohnungsdaten
bezeichnet wird. Und Sie können sehen, dass wir hier
einen Housing Dot CSV haben. Wenn ich nur will, muss
ich zuerst sehen, wie
dieser Datensatz aussieht. Dafür öffne ich
es hier. Als erstes, was wir hier sehen können, gibt es einige Spalten in
diesem Datensatz und es gibt einige Zeilen
in diesem Datensatz. Was wir tun wollen
ist, dass wir
sicherstellen wollen , dass dieser von uns erstellte
Gehäusepunkt CSV einen DataFrame
erstellen wird
, der tatsächlich
diesen ganzen Datensatz verwendet und es wird ihn hier
importieren
Jupyter Notizbuch. Und was auch immer wir mit diesem DataFrame tun
, es wird sich nicht auf
unsere ursprünglichen Daten auswirken. Selbst wenn hier in der
Python-Programmierung etwas
schief geht , hat dies keinen Einfluss auf
die ursprünglichen Daten,
wenn wir hier etwas falsch machen. Also zuerst: Importieren
wir zuerst die Pandas-Bibliothek. Also verwenden wir den
Befehl import pandas. Und seitdem können wir
es hier als Elias oder einen Namen zuweisen, was ist BD, oder? Wann immer wir die Miner-Bibliothek
verwenden möchten, können
wir die SPD-Verknüpfung verwenden. Das erste ist, dass wir einen DataFrame erstellen müssen
. Nennen wir das als ds. Und dieser DataFrame wird tatsächlich den Datensatz
unseres Housing Dot csv
enthalten. Mal sehen, wie wir den Datensatz hier
importieren können. Wir werden also pd dot read
underscore csv Funktion verwenden, die eine integrierte Funktion
der Pandas-Bibliothek ist. Und hier können wir den
Weg zu den Gehäusedaten angeben, sich auf diesen
Boulder-Gehäuse-Daten befindet. Und der Name der Datei
ist housing dot csv. Hier sehen Sie also, dass ich den gesamten Datensatz hier
importiert habe. Und diese DataFrame, die
DF-Variable
ist, wird hier den
gesamten Datensatz enthalten, die Zeilen und die
Spalten von Housing dorsi sind. Der erste Durchgang, den
wir sehen werden, besteht
darin , die ersten, sagen
wir, fünf Zeilen
dieses Datensatzes zu finden . Dies ist der erste Teil
, den wir machen wollen. Dafür können wir eine
sehr nützliche Funktion verwenden, die die Kopffunktion ist. Head bedeutet die Startregeln. Also hier kann ich hier
eine beliebige Zahl angeben. Nehmen wir an, wir
möchten fünf angeben. Wenn ich jetzt Control Enter drücken werde. Jetzt können Sie hier sehen,
dass es mir
die ersten fünf Zeilen dieses
DataFrame zeigt , nämlich Bf. Denken Sie daran, dass ich Ihnen
bereits gesagt habe, dass wenn wir Änderungen
an diesem Datensatz vornehmen, ich,
wenn wir Änderungen
an diesem Datensatz vornehmen,
jeden Wert dieses
DataFrame ändere , der df ist. Es wird sich nicht auf
die Daten und den
Gehäusepunkt csv auswirken . Selbst wenn wir irgendwelche Änderungen vornehmen
wollten, haben
wir eine separate Zeile für
das, was wir das tun können. Aber hier besteht die mittlere
Essenz darin, dass wir hier
alles tun können , wie Datenvorverarbeitungsaufgaben und alles,
was sich nicht auf
die ursprünglichen Daten auswirkt. So
können wir also sehen, wie wir die ersten 54 Zeilen
mit der head-Variablen
extrahieren können . Gehen wir nun zur nächsten
sehr wichtigen Funktion über, nämlich die Tail-Funktion. Nehmen wir an, wir
wollen die erste herausfinden, sagen
wir mal die letzten fünf
Zeilen dieser Daten. Okay, also
machen wir das im Grunde, weil es sehr wichtig
ist, dass
wir ihn sehr gut analysiert
haben, wenn wir einen Datensatz erhalten . Wir, wir werden diese
Funktionen sehr oft
innerhalb unserer Data
Science-Programme verwenden , was auch immer hier schreiben wird, denn sagen wir, ich
möchte eine
Datenvorverarbeitungsaufgabe ausführen und jetzt möchte ich sehen was sind die Änderungen
im Datensatz. Ich muss also nicht
den gesamten Datensatz hier laden. Ich kann einfach die ersten vier
oder fünf Gesetze laden und ich kann mir eine Vorstellung davon
machen, wie es den Datensatz verändert
hat. Es ist also sehr wichtig. Lasst uns nun herausfinden, was
die letzten fünf Zeilen
dieses Datensatzes sind . Sie können sehen, wann
ich die Eingabetaste Eingabetaste drücke, Sie werden sehen
, dass es zuletzt zeilenweise gibt. Und hier sehen Sie die
Phase, in der es
488 Regeln gibt und innerhalb
dieses Datensatzes. Also eine sehr wichtige Funktion hier. Lassen Sie uns nun auch zu einigen
anderen Funktionen übergehen. Die erste wichtige Funktion
ist die Shape-Funktion. Und es ist eigentlich keine
Funktion, es ist eine Eigenschaft. Wenn ich also Control Enter drücken werde, können
Sie die DF-Punktform sehen. Es gibt mir dieses Ergebnis hier. Dieses Ergebnis besagt, dass
es 489 Gesetze
gibt, es gibt vier Spalten. Dies ist eine sehr wichtige
Eigenschaft, da wir meistens nicht den gesamten Datensatz öffnen werden. Wir können diese
Shape-Eigenschaft einfach auslösen und wir können wissen, wie viele
Zeilen und Spalten
in unserem Datensatz sind . Gehen wir nun zu einer
sehr wichtigen Funktion über, die beschriebene Funktion handelt. Ich werde hier die Eingabetaste kontrollieren. Wenn wir nun die
Beschreibefunktion für jedes Detail verwenden, ist
dies eine sehr wichtige Funktion und ein sehr wichtiges Werkzeug für Datenwissenschaftler, die dies tatsächlich verwenden, um
den Datensatz zu verstehen. Sie können hier sehen, dass dies
die vier Regeln dieses Datensatzes sind . Die ersten vier Spalten, die ungerade m sind, sind das
Stapel-B3-Verhältnis und haben mich richtig gemacht. Hier können wir also sehen, dass wenn wir die
describe-Funktion verwenden, uns
das Zählgemein zeigt. Std steht für
Standardabweichung mit einem stetigen. Diese Begriffe bedeuten und
Standardabweichung in einem separaten Video,
da sie in der Data Science
sehr wichtig sind . Dann haben wir Männer 2550%
Prozent und max. Was
uns jetzt gibt,
beschreibt es tatsächlich den gesamten
Datensatz und es gibt uns eine Vorstellung davon, was der Mittelwert
der gesamten Spalte hier sein
wird . Sie können also sehen, dass Atom, Atom eine ganze Spalte ist und
der Mittelwert dieser Spalte 6,2 für die Standardabweichung
beträgt 0,6, und das minimale Element
ist 3,56 etwas. Dies sind die Werte
, die auch bei der
Datenvisualisierung sehr
entscheidend sind . Wenn wir also unsere Daten
visualisieren wollen, müssen
wir auch sehen, was sind
die Standardabweichungen, die Mittel und all
das Zeug, oder? Dies ist also wieder eine sehr
wichtige Funktion, der es sich um
die Beschreibefunktion handelt. Und lassen Sie uns zu einigen
anderen wichtigen Funktionen übergehen. Die erste Funktion
, die wir ausführen werden , ist die Drop-Funktion, die in DFS fallen gelassen wird. Hier. Wir werden eine Spalte
angeben. Sagen wir also, ich
möchte das Säulenatom fallen lassen. Also gebe ich hier
einen Artikel an. Was ich jetzt mache, ist,
dass ich die Achse angeben werde. Achse eins bedeutet also Spalte. Wenn der Zugriff gleich 0 ist, bedeutet
dies, dass
es sich um einen niedrigen Zustand handelt. Also hier habe ich Achse
gleich eins angegeben ,
weil ich
angeben wollte , dass das Element tatsächlich
eine Spalte ist, wenn es ein Nein war, wenn phi 0 hier. Jetzt hier, wenn ich diesen Datensatz
entfernen möchte, oder? Wenn ich also jetzt die
Eingabetaste drücke, können Sie sehen , dass dieser Datensatz jetzt nur drei Spalten
hat, sind m entfernt. Okay, also hier können
Sie sehen, dass dieser RMD
aus dem Datensatz hierher verschoben wurde. Nun eine wichtige Sache, die
Sie hier bemerken werden
, ist , dass wenn ich mir df.head ansehen werde
, wenn ich mich an diese Funktion erinnere
und wenn ich Control Enter drücke, Sie sehen können, dass das Element immer noch in diesem DataFrame
vorhanden ist. Nun bedeutet es, dass
es es tatsächlich
nur vorübergehend und nicht
dauerhaft aus diesem DataFrame entfernt . Es bedeutet also, dass wir etwas tun
müssen
, damit es tatsächlich
aus diesem DataFrame entfernt wird. Jetzt gibt es zwei
Möglichkeiten, dies zu tun. Wir können DFS tatsächlich neu zuweisen, df entspricht DF-Punkttropfen. Also wenn ich jetzt
die df.head-Funktion aufrufe. Jetzt können Sie sehen, dass die RM-Spalte von hier
entfernt wurde. Das ist eine Möglichkeit, aber ich habe
einen bequemeren Weg hier. Anstatt diese
vf gleich zu machen, können
wir
hier einen anderen Parameter verwenden, der vorhanden ist. Ist gleich „wahr“. Dann führen wir das durch. Es wird die Daten tatsächlich
entfernen und diese Atomspalten
aus dem Datensatz
verdienen. Und direkt gleich
true bedeutet, dass es es anstelle
des DataFrame
entfernt. Wenn ich jetzt die Eingabetaste
drücken werde, können
Sie hier deutlich sehen , dass der Artikel tatsächlich
verschoben wurde, richtig? Also ist es, die Verwendung dieses
In-Place-Parameters ist das nur richtig? Lassen Sie uns nun auch zu einigen anderen wichtigen
Funktionen übergehen. Das nächste wichtige
ist, dass wir
auch verwenden können , ist df three. Ich drücke „Control Enter“. Du siehst, dass es mir die ersten
drei Reihen gibt, oder? Anstatt also head zu verwenden, können
wir auch diese
Anweisung verwenden, die df ist, dann eckige Klammern,
und wir haben hier
einen Doppelpunkt und dann drei. Das ist einer. Eine andere Möglichkeit, dies
nicht zu tun , wenn Sie die Head-Funktion nicht
schreiben möchten, können
Sie dies auch verwenden. Es ist schneller in der Natur. Lassen Sie uns nun zu einigen
anderen Funktionen übergehen, wie zum Löschen der ersten Spalten, oder? Lassen Sie uns diese Aufgabe also ausführen. Nehmen wir an,
Sie möchten
die ersten zwei oder drei
Spalten aus einem Datensatz entfernen . Wie wirst du das machen? Werfen wir einen Blick auf das. Jetzt haben wir die DFT-Funktion und natürlich werden wir die Drop-Funktion hier
verwenden. Medicare Die Parameter
werden sich ändern. Das erste ist,
dass ich Spalten schreibe. Und ich werde diese
Parameterspalten angeben. Also muss ich
alle Spalten angeben , die
ich glauben möchte. Die Art und Weise ist die Verwendung von
Spalten gleich df.columns. Hier kann ich die
Anzahl der Spalten angeben. Wenn ich also den
ersten zwei Spalten glauben möchte, muss
ich einen Doppelpunkt verwenden. Und du kannst hier sehen,
dass ich ihm schreiben muss. Jetzt. Der nächste Parameter ist Achse. Denken Sie daran, die Achse immer
anzugeben,
da sie angibt, ob wir Zeilen oder Spalten
haben. Vier Spalten, wir
haben die Achse eins. Für Zeilen haben wir die Achse 0. Und offensichtlich ist
der letzte der
In-Place-Parameter x. Ich
gehe hier durch. Wenn ich jetzt versuche df.head
zu schreiben. Jetzt können Sie sehen
, dass es
die ersten beiden Spalten
aus unserem DataFrame entfernt hat. erste Do wird tatsächlich mit
diesem Doppelpunkt und zwei
dargestellt. Und hier haben wir df.columns. Also haben wir die Spalten
mit dieser df.columns-Funktion angegeben . Mal sehen, wie wir die letzten n Spalten
löschen können. Löschen und letzte Spalte. Angenommen, Sie haben eine Aufgabe
, bei der Sie
die letzten zwei oder drei
Spalten aus dem Datensatz löschen möchten. Auch hier werden wir
die Drop-Funktion verwenden. Dies sind also im Grunde die, Sie können die Variationen
der Drop-Funktion sehen und
sie sind sehr wichtig, da Sie
diese wichtigen Dinge
täglich verwenden werden , wenn Sie den Datensatz
analysieren. Wenn wir also die letzten
N letzten Spalten in uns
haben wollen , müssen wir angeben, dass wir die
Spalten löschen möchten.
Dafür. Ich werde wieder
df.columns benutzen. Genau hier. Ich werde angeben, sagen wir minus eins gegen die
Achse angeben, die eine sein wird. Weil das Löschen von Spalten
und direkt dem Wert „true“ entspricht. Nun, was ich tun werde, ist einen
Blick auf den Datensatz selbst zu werfen. Alles klar, damit Sie hier sehen können, wenn ich minus eins
angebe, wird eine
Spalte vom Ende gelöscht. Sie können also sehen, dass die letzte
Spalte, die erstellt wurde,
wurde jetzt gelöscht, oder? Wenn ich also zwei
hier schreibe und es erneut ausführe, kannst
du sehen, dass eins minus zwei
mit Spalte entfernt wird. Es entfernt tatsächlich eine
Spalte an dieser Indexposition. Also müssen wir hier einen Doppelpunkt
angeben. Denn wenn wir die Spalte nicht
angeben
, werden
die letzten n Spalten nicht gelöscht, oder? Es wird nur
die Spalte und
den Minuszwei-Index löschen , der hier ist. Wenn ich das jetzt treffe, kannst
du sehen, dass es tatsächlich versucht, einige
der Spalten hier zu löschen , oder? Sie können also sehen, dass die ersten
beiden Spalten gelöscht wurden. Hier. Ich kann noch eine Sache machen. Werfen wir einen Blick darauf, was
passiert, wenn ich
hier schreibe und einen Doppelpunkt richtig? Jetzt können Sie sehen, dass wenn
ich zwei schreibe und es ist, Doppelpunkt am Ende ist, die letzten beiden Spalten gelöscht
wurden. So können Sie
diese verschiedenen,
verschiedenen Variationen ausprobieren, um
einen Blick darauf zu werfen, was genau wir innerhalb
des Datensatzes tun
können , da
dies sehr wichtig ist. Doppelpunkt zwei bedeutet, dass wir die ersten n Spalten
löschen. Und wenn ich lese Ich mache Doppelpunkt, werden die
letzten n Spalten aus unserem Datensatz gelöscht . Auf dem DataFrame
nicht der Datensatz, weil der Datensatz intakt
ist, oder? Lassen Sie uns nun auch zu
einigen anderen Dingen übergehen, nämlich versuchen wir,
Zeilen aus unserem Datenrahmen zu löschen. Wir haben den Datenrahmen hier. Das ist unser DataFrame. Angenommen, wir wollen den
ersten n Zeilen aus
diesem neuen Datenrahmen glauben . Mal sehen, wie
wir das machen können. Jetzt. Auch hier werden wir
die Drop-Funktion verwenden. Funktion ist eigentlich eine sehr wichtige Funktion zum Löschen. Also df-Punkt-Punkt Drop. Denken Sie daran, dass
wir
hier die Spalte nicht
löschen möchten, also werden wir keine Spalten gleich zwei
verwenden. Wir werden
die df.head-Funktion verwenden. Nehmen wir an, wir möchten
die ersten drei Zeilen
aus unserem Datensatz löschen , also werde ich das bereitstellen. Jetzt ist der nächste wichtige
Parameter die Achse. Jetzt ist der Zugriff gering, Soli ist tatsächlich 0 und der letzte Parameter ist
vorhanden, was stimmt. Werfen wir einen Blick auf das. Alles klar, jetzt kannst du
sehen, dass es spezifisch ist. Es zeigt hier, dass wir hier eine Bearbeitung
haben, die Sie sehen
oder in Access finden können. Was wir also hier tun müssen, df.head-Punkt-Index, müssen
wir hier
den Index angeben. Dann wird es nur
den ersten drei Reihen glauben, oder? df.head three bedeutet also die ersten drei Zeilen
dieses DataFrame. Punktindex
gibt ihm den Index, den Wert, und es wird tatsächlich die
falschen drei Rollen fallen lassen. Sie können also sehen, dass
ich
in unserem DataFrame tatsächlich
die ersten Fotos zeige. Die ersten Fotos beginnen also
nicht bei 0123, sie beginnen bei
3456 genau hier. Wenn ich hier fünf angeben werde können
Sie sehen, dass sich der Datensatz
ändert, oder? Die ersten fünf Zeilen, Zeilen werden auf diese Weise
gelöscht. Mal sehen, wie wir die letzten n Zeilen
löschen können. kann ich hier nur tun, indem ich
einfach die Tail-Methode verwende. Also d von fünf wird uns die letzten fünf Zeilen
des DataFrame geben. Und der Punktindex
gibt uns tatsächlich eine Dysfunktion den Index der fünften und
letzten fünften Spalte und er wird sie fallen lassen. Also, wenn ich
hier statt Kopf schreibe, wenn ich Schwanz schreibe. Jetzt können Sie sehen, dass unser Datensatz anfänglich 488 Zeilen hatte, und jetzt zeigt es,
dass der letzte 4083 ist, was bedeutet, dass er
fünf Zeilen aus unserem Datenrahmen entfernt hat . So können wir also
zuerst und Zeilen und
die letzten zehn Regeln löschen ,
indem wir die df.head-Punktindexfunktion verwenden. Df-Punkt, Punktindexfunktion. Stimmt's? Jetzt werde ich einfach
reinkommen, weil wir jetzt auch zu
einigen anderen wichtigen
Funktionen übergehen werden. Lassen Sie uns nun sehen, wie wir die Spalten
tatsächlich lösen können. Das ist eine sehr wichtige Sache. Sortieren von Spalten auf der
Grundlage von, sagen wir, Namen oder deren numerischen Werten in zunehmender oder abnehmender Reihenfolge
ist sehr wichtig. Und das werden
Sie sehr
häufig in den Datensätzen tun . Dafür haben wir
eine einfache Funktion, die
die Sortierwertefunktion ist. Wir schreiben einfach
df-Punkt-Sortierwerte. Was wir jetzt tun werden,
ist, dass sie die Spalte
angeben müssen ,
indem wir sagen, dass wir das RM-Volume
sortieren möchten, oder? Und Sie können sehen, dass
dies die Elementspalte ist. Und hier haben wir
5.796, dann 5.859. Nach dem Sortieren
wird es sich tatsächlich in aufsteigender Reihenfolge
ändern, oder? Also nach Artikel. Das nächste, was
wir angeben müssen, ist nur die In-Place-Methode, die wahr sein wird, oder? Jetzt zeige ich
einfach df.loc an. Und hier werde ich
Slice genau hier angeben. Jetzt können Sie sehen, dass
dies tatsächlich so ist, versuchen
wir es hier an der Spitze. Jetzt können Sie sehen, dass diese
Artikelvariable jetzt sortiert ist. Dies ist also die Hauptbenutzung
der Sortierwertefunktion. Es wird tatsächlich alle Werte
und alle Werte
dieser RM-Spalten
sortieren . Sie können also sehen, dass es jetzt 3.5613.863 ist und auf diese Weise. So funktioniert die
Sortierwertefunktion. Nehmen wir an, wir möchten
einige doppelte Werte
in unseren DataFrame legen . Nehmen wir an, wir haben einen
DataFrame, in dem
sich in einer Spalte doppelte Werte
befinden. Mal sehen, wie wir das machen können. Ich werde das kommentieren, und ich werde auch in diese
kommen. Lassen Sie uns nun fortfahren,
wie Sie Duplikate löschen können. Wir wollten die
doppelten Elemente aus
dem DataFrame, die wir haben, löschen . Auch hier eine sehr einfache Funktion, die BF ist, hat
Drop-Unterstrich-Duplikate Funktion erhalten. Wir werden an Ort und
Stelle schreiben, die gleich wahr ist. Was es also tun wird, ist, dass alle Duplikate
aus einem DataFrame
entfernt werden . Da wir in diesem Datensatz
keine Duplikate haben, können
wir das nicht in Aktion sehen. Aber was Sie tun können, ist, dass
ich Ihnen eine
sehr einfache Aufgabe gebe. Sie können tatsächlich
die CSV-Datei des Gehäusepunkts öffnen und darin einige doppelte
Werte erstellen und dann diese Funktion d
von Punkt, Dot Drop Duplikaten verwenden. Und Sie können dann sehen und
visualisieren, wie es
diese doppelten Werte
an Ort und Stelle fallen gelassen hat , was bedeutet , dass es tatsächlich
bereit ist,
Änderungen am
ursprünglichen DataFrame vorzunehmen . In Ordnung, das waren also einige
der wichtigen Funktionen, Löschen, einige Sortierungen und
viele Dinge, die sie jetzt die sehr
wichtige Aufgabe sind, von denen viele sehr
wichtig sind
bekannt als Slicing. Slicing beinhaltet hier zwei sehr
wichtige Funktionen, nämlich die LOC-Funktion
und es gibt Lucy-Funktion. LLC bedeutet also im Grunde Standort. Dies gibt zwei Methoden, LOC und Lucy des
Pandas DataFrame, die uns tatsächlich helfen, die Spalten und Zeilen zu
schneiden. Denn manchmal möchten
Sie, wenn
Sie einen Datensatz analysieren, nicht
den gesamten Datensatz analysieren. Was möchten Sie analysieren? Einfacher, einfacher
Teil dieses Datensatzes. Sie möchten das also herausschneiden,
damit Sie sich
das visualisieren können und damit
viele Dinge machen können. Alles klar, also lasst uns
sehen, wie wir die LLC- und I-LOC-Funktion
verwenden können . Das erste ist, dass wir die Funktion df.loc
verwenden werden. Und hier werden wir 04 angeben. Jetzt gebe ich
hier
die Spaltennamen an , nämlich RM. Angenommen, wir geben
eine weitere Spalte an. Es ist LSAT. Was es tun wird, ist, dass es
tatsächlich den
gesamten Datensatz schneidet . 0 bedeutet die ersten vier Zeilen und die Spalten, die
ich zwei Slices haben möchte, RAM und als Sag, oder? Wenn ich einfach die
DF-Punktformfunktion schreibe, wenn ich OK drücke. Hier sieht man also, dass es hier
nicht so traurig ist, also war das ein Fehler. Jetzt können Sie hier sehen, dass es
mir zeigt, dass wir dieses DF haben. Ich drücke „Control Enter“. Sie können sehen, dass
dies tatsächlich
das Slice-Dataset
des gesamten Datensatzes ist. Es hat nur diese
beiden Spalten ausgewählt, was unser MNL-Stack ist. Und der Bereich der
Zeilen beträgt 0 bis vier. Also kann ich es tatsächlich ändern, sagen
wir von zwei auf sechs. Und wenn ich Enter drücke, siehst du das 23456, oder? Gesetze sind also zwischen zwei
und sechs und die Spalten
sind RM- und S-Tag. Es ist also ein sehr wichtiges Schloss. Es ist eigentlich keine Funktion, es ist ein Locator. LLC
bedeutet also im Grunde genommen diese mit
diesen beiden Indizes zu
lokalisieren und es wurde abgeschnitten. Was wir also tun können,
ist, dass wir
dfs zuweisen können , da ds diesem entspricht. Wenn ich versuche df.head
anzuzeigen, wird
es mir das zeigen. Wir können es tatsächlich
schneiden und wir können es dem
DataFrame
neu zuweisen, wenn wir möchten. Und hier haben wir diese LOC-Funktion ist
sehr wichtige Funktion
und wir werden diese Funktion
verwenden,
wenn wir nur einen kleinen
Teil des Datensatzes
analysieren wollen . Jetzt haben wir einen anderen
Locator, der die ILC ist. Lucy ist zwar im Grunde das Gleiche wie LLC, war
aber der Hauptunterschied, nämlich dass es
keine extremen Werte annimmt. Es wird nur
die numerischen Werte verwenden , um die Indizes zu
finden oder zu verwenden, oder? Anstelle von Elementen im Stack müssen
wir also die numerischen Werte angeben. Wenn ich also versuche, hier einen
sehr einfachen Befehl auszuführen, können
Sie sehen, welcher ILC ist. Von 0 auf vier. Es wird die ersten
vier Zeilen des Datensatzes schneiden. Hier können wir
die Spaltennamen nicht selbst angeben. Wir können diesen Strahl wirklich einfach hier
schneiden, wenn ich will, einfach, Es sind zwei Komma vier. Und wenn ich Enter drücke, okay, also haben wir, wir
haben hier keine vier Spalten. Schreiben wir drei. als Nächstes auf Enter hier. Jetzt können Sie sehen, dass der Doppelpunkt
die ersten beiden Reihen verpasst. Und Doppelpunkt drei bedeutet
die ersten drei Spalten. Wenn ich drei Doppelpunkte schreibe, bedeutet das, dass wir
die letzten drei Spalten haben. Du kannst, du kannst sehen
, dass
wir von hier aus auch deinen Schwanz benutzt haben
, der an diesem Ort ist. Sie können sehen, dass wir
Doppelpunkt zwei verwenden, um die ersten n Spalten in Doppelpunkt anzugeben, um die letzten
Ende Spalten anzugeben. Das Gleiche wie die
Versorgung und das Halten in der ILC-Funktion, da
wir
im Spaltenabschnitt dies nicht angeben können. Deswegen
machen wir das hier. Wenn ich also
jetzt die Eingabetaste drücke, können Sie sehen,
dass nur
die letzten drei Spalten angegeben werden. Und Sie können sehen, dass dies
tatsächlich Mitte der 70er Jahre ist, was die letzte Spalte selbst ist. Also wenn ich es schaffe. Jetzt bei Visual me, den letzten drei
Spalten hier, kannst
du viele Dinge tun. Du kannst
mit diesem Ding rumspielen. Was passiert,
wenn
ich hier angeben werde , sagen wir 32. Hier sieht man, dass
drei und tun nicht funktionieren weil es nicht gut ist. Es ist kein Bereich hier. Also muss ich
angeben, sagen wir 310. Alle Zeilen von drei
bis zehn werden hier angegeben. Also hatten wir
die Gesetze tatsächlich drei bis zehn aufgeteilt. Hier. Ein bis zwei bedeutet , dass
die Spalten tatsächlich
von Position
eins zu Position zwei ausgewählt werden. Wenn ich drei schaffe. Sie können sehen, dass
alle Spalten von eins bis drei ausgewählt werden. Sie können also
mit diesen Werten herumspielen. Sie können
hier einige
negative Werte angeben und einen Blick darauf werfen, was im DataFrame
passiert und wie das Slicing
abläuft. Und es wird Ihnen sehr
helfen, Datenanalysen durchzuführen. Auch. Im nächsten Tutorial beginnen
wir mit der Aufgabe zur
Datenvorverarbeitung. Und im Grunde haben Sie jetzt eine gute Vorstellung davon, wie man die Pandas-Bibliothek
benutzt. Probieren Sie alle diese Funktionen
selbst
aus und
schauen Sie sich an, wie
sich die Ausgabe ändert, indem Sie die DF-Punkt-Kopffunktion
oder
die DF-Punktfunktion verwenden . Sie können die
Änderungen im Datensatz sehen. Das ist also alles für dieses
Tutorial. Danke fürs Zuschauen.
4. Numpy Arrays: In diesem Video beginnen
wir mit einer sehr wichtigen Bibliothek, nämlich der numpy-Bibliothek. Das erste, was
ich hier machen werde,
ist, dass ich numpy als np
importieren werde. Np ist im Grunde genommen aliasiert. Im vorherigen Tutorial
dieser Data Science Scores haben
wir bereits eine
sehr wichtige Bibliothek behandelt, die die Pandas-Bibliothek ist. Und wir haben gesehen, wie wir
verschiedene Patienten damit machen können. Jetzt werden wir
diese Datenvorverarbeitungsaufgaben
in den kommenden Videos durchführen diese Datenvorverarbeitungsaufgaben . Und dafür werden wir diese beiden
wichtigen Bibliotheken
verwenden, nämlich die NumPy
- und Pandas-Bibliothek. Grundsätzlich können Sie, wenn Sie
die gesamte Dokumentation
des Nicht-Seins sehen möchten , einfach
auf numpy dot ORG gehen, die offizielle Website
der NumPy-Bibliothek ist. Sie werden alle Funktionen finden , dass diese Bibliothek ein Boot ist. Jetzt, da wir uns auf
die Data Science-Ziele und die Aufgaben zur
Datenvorverarbeitung konzentrieren . Ich habe einige
der sehr wichtigen Funktionen
der NumPy Bibliothek gesammelt . Und im Grunde habe ich sie
aus verschiedenen Projekten ausgewählt , die ich gemacht habe. Hier werden wir
alle behandeln und die meisten von ihnen sind sehr nützlich und wir werden
sie in den
kommenden Videos verwenden . Im Grunde gibt es also zwei
grundlegende Verwendungszwecke der NumPy Library. Die erste ist
die Zahl von Alice. Und zweitens ist die numerische Analyse oder numerische Operationen
, die wir durchführen möchten. NumPy steht also für
numerisches Python. Also hier werden wir sein, haben diese beiden Teile hier. Aber in diesem Video werden
wir nur die Numpy-Arrays behandeln. Und im nächsten Video werden
wir sehen, wie wir
mathematische Operationen
wie Logarithmus,
Standardabweichung
, all das ausführen können mathematische Operationen
wie Logarithmus, . Im nächsten Video. Fangen wir mit der NumPy Iris an. Im Grunde müssen
wir also verstehen, warum wir NumPy brauchen. Lassen Sie uns also im Grunde eine einfache Liste
erstellen. Ich werde hier einfach
eine Liste erstellen, die eine
ist. Sie wird drei
Elemente enthalten. Oder sagen wir,
das sind die vier Elemente. Wenn wir also schon weniger
erstellen können, sagen
wir, ich drucke das aus, drucke den Typ
dieser Liste hier aus. Wenn ich Control Enter drücke, können
Sie sehen, dass dies mithilfe von Arrays zur
Klassenliste gehört . Warum benutzen wir Eris? Lassen Sie uns das zuerst besprechen. Jetzt ist das Ding in der Liste. Es wird eigentlich nicht an
kontinuierlichen Speicherorten gespeichert. Diese vier Elemente werden also nicht in einer kontinuierlichen
Speicherzuweisung
gespeichert. Das ist der
Hauptgrund, warum wir
keinen schnelleren
Zugriff auf diese Elemente
der Liste haben, da sie nicht kontinuierlich
im Speicher
gespeichert werden. Deshalb
brauchen wir Num von Erwachsenen. Da wir in Data Science Operationen schneller durchführen wollen, wollen
wir schneller auf
diese Elemente zugreifen. Also werden wir NumPy-Arrays
verwenden. Und das zweite ist
, dass wir einige
der mathematischen Operationen an
diesen Künstlern verwenden können der mathematischen Operationen an , wie
Matrixmultiplikationen. Und wir können sogar
mehrdimensionale
Arrays mit NumPy erstellen . Okay, also fangen wir
mit der ersten Transponierung an, bei der tatsächlich ein NumPy-Array
erstellt wird. Kein NumPy-Array ist eigentlich MDRD. Und MDRD bedeutet
n-dimensionales Array. So können wir ein n-dimensionales
Array mit ihnen Bytes erstellen, was die grundsätzlich
kontinuierliche Position von Objekten ist. Es ist das n-dimensionale Objekt. Also sage ich genau hier und dimensionale Objekte, oder? Mal sehen, wie wir ein Array erstellen
können. Also erstelle ich hier eine Anzeige
mit dem Namen ARR. Eine Möglichkeit, dies zu tun, ist,
dass Sie np dot verwenden. Und hier müssen Sie nur die Elemente
der Studie
angeben. Wenn ich also ein Komma,
zwei Komma drei angeben
werde , wird dies ein
NumPy-Array sein, oder? Versuchen wir also,
den Typ davon zu markieren. Wir werden also wissen, was das
eigentlich hier ist. Sie können sehen, dass es hier zeigt
, dass es zur Klasse gehört. ARR ist also eine Variable
und
die Tie-Funktion gibt uns den Typ
dieser Variablen. Sie können also sehen, dass es definiert
, dass es sich um ein NumPy-Array handelt. Es ist also ein m nach n
dimensionaler Addition. Lasst uns jetzt sehen, wie
wir es herausfinden können. Die Dimension dieser Einstellung können
wir die Dim Funktion verwenden, die endokrine
Funktion, die uns die Anzahl der
Dimensionen des Sadie
anzeigt. Sadie hat nur eine Dimension, die Sie hier sehen können, 123. Lassen Sie uns jetzt
eine andere Dimension schaffen indem
wir ein separates Koma verwenden. Und lassen Sie uns
eine andere Liste von
Elementen wie 567 angeben , oder? Jetzt können Sie sehen,
dass der Datentyp
nicht verstanden wird. Der Grund, warum
dies geschieht, ist diese
in einem einzigen aufgenommen werden müssen. Dass wir hier eine
weitere eckige Klammer schreiben müssen , und wir
müssen sie hier schließen. Drücken wir nun Control Enter. Jetzt können Sie sehen, dass es sich um
einen zweidimensionalen Bereich handelt. Wenn wir also ein
zweidimensionales Array angeben möchten, müssen
wir es so
angeben. Die erste Dimension wird diese drei Elemente
haben. Die zweite Dimension wird diese Elemente
haben. Wenn ich
mehr Dimensionen erstellen möchte, werde
ich sie in
diese eckige Klammer-Site aufnehmen. Selbst wenn ich
die Dimension dieser beiden Elemente,
dieser beiden Listen, erhöhen möchte die Dimension dieser beiden Elemente,
dieser beiden , kann
ich hier
einfach weitere eckige
Klammern hinzufügen, oder? Wenn ich also drei
eckige Klammern hinzufüge, können Sie
interessanterweise sehen, dass es die
Dimension des Arrays erhöht
hat. Je mehr die Anzahl
dieser eckigen Klammern ist, desto Modus ist die
Anzahl der Dimensionen. Sie können also sehen, dass
ich erwähnt habe, ist sieben, obwohl wir nur
diese beiden Elemente haben, oder? Wenn ich also versuche,
diesen Adder hier zu drucken, kannst
du sehen, dass es
so auftauchen wird. Auf diese Weise können wir
diese Anzeige erstellen , ist diese n
Anzahl von Dimensionen. Und jetzt werde ich es
einfach zweidimensional machen. Okay, jetzt haben wir dieses
zweidimensionale Array. Mal sehen, wie wir vierdimensionale,
fünfdimensionale Bereiche
schaffen können . Lassen Sie uns einen anderen
Bereich erstellen, der bei
einem du gleich dem NumPy-Array ist . Nehmen wir an, wir wollen dreidimensionale 123
schaffen. So werden wir dreidimensional
angeben. Hier schreibe ich
ein Komma zwei, Komma drei. Wir werden
eine weitere Liste erstellen, die
vier Komma fünf ist , Komma sechs. Und das letzte
ist sieben Komma 89. Also lasst uns
versuchen, das auszudrucken. Versuchen wir, die Anzahl
der Dimensionen dieses Addie zu öffnen. Hast du hier gesehen, dass wir drei Dimensionen haben und so
haben wir die andere. Auf diese Weise können wir
jedes n-dimensionale Objekt erstellen. Grundsätzlich können Sie sehen, dass
wir die Möglichkeit haben können, Anzeigen zu erstellen, die n dimensional
sind. So wird es uns auch bei der
Datenvorverarbeitung sehr helfen. Und wenn
wir
es mit einigen
Matrixmultiplikationen
und einigen wichtigen Operationen wie
Protokollen und
Standardabweichung kombinieren es mit einigen
Matrixmultiplikationen und einigen wichtigen Operationen wie , werden
wir eine sehr
gute Vorverarbeitungsaufgabe erhalten und ein paar sehr wichtige
Sachen, oder? Das war also ein voller
Schritt und jetzt sehen wir uns welche Operationen wir an diesen Atomen tatsächlich
durchführen können. Jetzt wissen wir, wie man ein Array
erstellt, wie man eine
beschädigte Hillary erstellt. Lassen Sie uns nun sehen, wie wir die Indizierung
dieser Bereiche
tatsächlich durchführen können . Also
schreibe ich im Grunde die Indexierung. Nehmen wir an, wir haben
diesen ARR hinzugefügt. Und hier schreibe ich ein Koma eins. Mal sehen, was
die Ausgabe hier ist. Man kann das eine Komma sehen. Dies sind die beiden Elemente
, die geliefert wurden. Indexierung bedeutet im Grunde was, wie greife ich auf ein bestimmtes Element innerhalb
dieses Ganzen zu, das es gegeben hat? Sie können also sehen, dass
dies unser Dachboden ist. Wenn ich ein Komma schreibe wird uns
11 die
Dimension sagen, in der wir uns befinden. Sie können also sehen, dass wir hier zwei Dimensionen
haben, und es beginnt bei 01. Dies ist also die Null-Dimension und dies ist die falsche Dimension. Man
indexiert das also tatsächlich. Wir finden jetzt das
Element in dieser Liste. Wir können diese Dimension sagen. Der nächste, der hier ist, gibt das Element
in dieser Liste an. Hier finden wir also tatsächlich 25671 bedeutet, dass
wir tatsächlich auf das erste Element zeigen oder
indizieren. Fünf ist also tatsächlich auf der 0, an Position sechs ist
an der einen Position. Wenn ich
hier drei schreibe, lass uns sehen. Wir werden einen Fehler bekommen,
weil es hier nicht nur Elemente
012 gibt, oder? Also lasst uns tun, wir
kriegen sieben hier. Sie können sehen, jetzt lassen Sie
uns sehen, was
passiert , wenn ich 0 Komma zwei schreibe. Jetzt können Sie sehen
, dass 0 bedeutet , dass wir uns das tatsächlich
ansehen. hier hinzufügen, was
die 0 an Position
ist, erreichen wir das
zweite Element darin, das eigentlich drei ist. Also kriegen wir
drei in der Ausgabe. Okay, so können
Sie also die Indizierung durchführen. Das erste Element wird
uns die Dimension geben, in der wir uns befinden. Und das zweite Element
hier in dieser Indizierung gibt uns die richtige
Position des Elements. Gehen wir zu
einer anderen Operation , die wir durchführen werden. Sehr oft in diesen Bereichen, die als Slicing bezeichnet werden. Wir haben auch schon Pandas
geschnitten. Und wir haben gesehen, wie wir das
Slicing und die Datenrahmen machen können. Mal sehen, wie wir das in Bereichen
machen können, oder? Wir werden den
gleichen Adi in Betracht ziehen, nämlich ARR. Und hier
schreibe ich einfach diesen Befehl Hill, der eins und
Doppelpunkt und dann drei ist. Lassen Sie uns die Ausgabe davon sehen. Jetzt siehst du, dass
13 mir 567 gibt. Warum kriegen wir das. Sie können sehen, dass wir diesen Adi
tatsächlich schneiden. Dies hat bereits
diese Zwei-Dimensionen, wie wir hier sehen können. Die erste Dimension hat 123 und die zweite
Dimension hat 567. Wir schneiden die ADA jedoch
von 133 bedeutet,
alle Elemente, die wir
haben, aus einer Nettoposition. Sie können also sehen, dass wir hier Nullen
haben, dann haben wir hier die erste
Position und dann das ganze Slicing
, das von
der ersten Position bis
zur zweiten Position stattfindet der ersten Position bis , weil
drei hier nicht enthalten sind. Also schreibe ich hier
, dass drei nicht inklusive sind. Also wird es das
Gegebene
von der ersten Position abschneiden . Zweiter Platz, weil drei
nicht inklusive sind, oder? Mal sehen, wie wir das
im zweiten Bereich machen können , der hinzugefügt wird. Okay, also
schreibe in den hinzugefügten zwei Lippen denselben Befehl
, um die Ausgabe zu sehen. Jetzt siehst du hier, dass wir
nichts in diesem Adi haben. Lassen Sie uns sehen, warum
dies geschieht, denn an erster Stelle haben
wir keinen Gegenstand. Das ist Loch ist
die 0te Position, also versuchen wir hier 0. Und jetzt können Sie
schnell sehen, dass wir hier, wenn wir versuchen, es von 0 zu trennen, 0 Komma eins, Komma zwei haben. An diesen drei Positionen haben
wir all diese Elemente. Dies ist also an der 0ten Position, diese fügt
die falsche Position hinzu, und diese befindet sich an
der zweiten Position. Sie können also sehen, dass dies das
Ergebnis des Slicings ist , das wir gemacht haben. Jetzt müssen Sie mit verschiedenen Arten
von Arterien
herumspielen und Sie
müssen mit
diesen verschiedenen Werten herumspielen , um
einen Blick darauf zu werfen, was
im Ergebnis passiert, um tatsächlich ein
besseres Verständnis dafür, wie die Dinge funktionieren. Weil du
all diese Begriffe nicht lernen kannst. Man kann sich
all diese Sachen nicht merken. Sie müssen weiter
mit verschiedenen
dimensionalen Arrays üben . Slicing es mit
verschiedenen Werten. Hier statt 0 bis drei, entfernen
wir 0 und mal
sehen, was hier passieren wird. Sie können sehen, dass
es hier keine Veränderung gibt. Der Grund ist, wenn
wir del drei schreiben, bedeutet das im Grunde genommen, dass der
erste 012 ungehindert ist, oder? Okay, so
können wir
das Schneiden innerhalb
von zu Hause machen . Jetzt schauen wir uns an, wie wir Schritte schneiden
können. Hier. Was ich tun werde, ist, dass
ich das ausdrucke. Jetzt studieren wir
über Slicing, was ein weiteres sehr
wichtiges Konzept ist. Also hier haben
wir, wir bekommen den Sadie
und wir werden hier
das Schneiden machen ,
die Schritte schneiden. Mal sehen, was genau das ist. Also
bringe ich das Hinzufügen hierher. Ich schreibe ein Koma. Versuchen wir es 10 zu eins zu zwei. Und mal sehen, was genau
wir hier bekommen. Also statt Folien
und Sie können sehen dass
wir dies als Ergebnis haben. Was
genau ist das für ein Slicing? Anstatt
zu schneiden, sagen
wir, dass wir den gegebenen Eddie in Scheiben schneiden wollen , aber wir werden diese Schritte
befolgen. Also werden
wir zuerst angeben, dass
wir
diese drei Werte angeben. Also war es, es wird tatsächlich von 0
auf eins schneiden. Und dann wurde es
von eins bis zwei geschnitten, oder? Es wird also tatsächlich das Slicing
schrittweise geschehen. Anstatt also
aus dem gesamten Array zu schneiden, können
wir tatsächlich
einige kleine Teile des
Arrays mithilfe von Steps Slicing erstellen . Es gibt mehr Möglichkeiten, dies zu tun. Wir können sogar all diese
Methoden ausprobieren. Im Grunde werde ich hier ein anderes Atom
erstellen, das ich
als drei hinzugefügt nennen werde. Und dabei verwende ich
Num Biotic. Und das wird
die Elemente haben, sagen wir mal. Wohlstandskomma drei,
Komma 456, Komma sieben. Und lasst uns noch
eins erstellen, das 11 Komma zwei Komma drei ist. Der letzte wird nur drei
Komma vier sein, oder? Also haben wir diese Elemente hier. Dies müssen Sie
sehr vorsichtig sein, wenn Sie ein NumPy-Array
erstellen da es
sicherstellen muss, dass die Anzahl der Dimensionen tatsächlich diejenige ist,
die Sie wünschen, oder? Also hier haben wir die
Schuld, die Dimension, und hier haben wir die
zweite Liste von Elementen. Nehmen wir an, ich möchte diese beiden in
eine einzige Dimension
aufnehmen. Ich kann das tun,
indem ich sie tatsächlich
in diese einzelnen eckigen Klammern einschließe . Wenn ich sie jetzt in eine andere Dimension aufnehmen
möchte, kann
ich das tun, indem ich eine andere verwende,
indem ich eine andere eckige Klammer erstelle, oder? Wann immer Sie also eine Dimension erstellen
möchten, müssen
Sie sicherstellen, dass Sie einen quadratischen Datensatz dafür
erstellen. Nun, was Sie
tun werden, ist, es uns versuchen. Verwenden Sie die Endfunktion, die uns tatsächlich
die Dimension dieses Arrays mitteilt. Verwenden Sie diese Endfunktionen,
damit Sie wissen können ob Sie
die erforderlichen Dimensionen erhalten. Und die ADA ist auch der erforderliche Bereich
, den Sie wollen, oder? So können Sie hier die Anzahl
der oder zwei Dimensionen sehen, die hier ist, das
Ergebnis ist hier. Was ich jetzt nur machen will, hier haben wir zwei Dimensionen. In der positiven Dimension habe ich diese beiden Positionen, und in der zweiten
Dimension habe ich diese beiden Atome genau hier. Ich möchte das Slicing machen. Dies fügte drei hinzu. Und ich will es tun, sagen
wir, ich schreibe
ein Komma vier. Drücken wir Enter hier und schauen
wir uns an, was passieren wird. Jetzt kannst du sehen, dass es uns
nichts zeigt. Machen wir es also als 0. Das wird eins sein. Was wir hier machen,
ist im ersten Teil, ich gebe an, dass wir uns auf der 0ten Position
befinden, was die
Null-Dimension bedeutet. In der 0-Dimension schneiden
wir tatsächlich von
einer, bis sie einschließen wird, schieben
wir es als 0 auf zwei. Es wird also
alle Elemente von 01 enthalten sind und die Dimension, die
wir uns ansehen, ist 0. Also wenn ich es schaffe, mal sehen, was das Ergebnis
sein wird. Sie können sehen, dass es
das Ergebnis zeigt, dass wir 123 und drei Viertel
haben, was Sie in
diesem Schaden sehen können, in dem auf die
erste Position zeigt, oder? Wenn Sie also in
einer bestimmten Dimension schneiden möchten, können
Sie die
Dimension hier angeben. Hier schreibe ich
einen Kommentar, dass die erste Position die Dimension und
den zweiten
Positionsindex des Slicings angibt . Auf diese Weise. Sie werden dies schneller
verstehen können. Dass dieser erste
Parameter zu
der Dimension gehört , die
wir uns ansehen, dass wir ein Slicing
durchführen möchten. Und hier schreiben wir, wie wollen wir
das Slicing machen, oder? Wir wollen 012 schneiden. Aber hier, wenn wir Step Slicing machen wollen
, können
wir das auch tun. Wir können tatsächlich
angeben, dass ich
Elemente von 0 zu eins haben möchte , dann von eins bis drei, was das numpy-Array ist. Wenn es diese
Anzahl von Elementen hat, kann
es sie
herausschneiden. So können wir das
Slicing innerhalb eines Arrays durchführen. Sie können sich überspielen,
indem Sie verschiedene Bereiche mit unterschiedlicher Anzahl von Dimensionen und unterschiedlicher
Anzahl von Elementen erstellen. Und Sie werden
verstehen, wie dieses Step-Slicing funktioniert und wie diese Art der
Indizierung läuft. Stimmt's? Jetzt werden wir zu
einem anderen Konzept übergehen, das heißt, wir wollen einige Funktionen von NumPy testen
. Nehmen wir an, wir wollen
den Mittelwert und einige
andere Dinge auch berechnen . In diesem Fall möchte ich
also
ein Array von kontinuierlichen
und natürlichen Zahlen erstellen . Nehmen wir an, ich möchte
ein Array n natürliche Zahlen erstellen. In diesem Fall müssen wir
kein
Array erstellen , indem wir
die Zahlen manuell schreiben. Was wir tun können, ist,
dass wir einfach sagen, ich möchte ein Array
erstellen. Welches ist NRT. Und ich möchte die ersten
20 natürlichen Zahlen einschließen, damit ich einfach schreiben
und V Punkt schreiben kann, oder? Angenommen, ich möchte
eine natürliche Zahl schaffen, die von einer
Warnsicherheit ausgeht. Stimmt's? Was also passieren wird, ist diese NumPy-Bibliothek sie
erstellt und hinzufügt, was von eins bis 20 reicht. Wenn ich das einfach ausdrucke
und hier hinzufüge, wirst
du
das im Hinterkopf sehen können, oder? Hier heißt es also, dass das Modul
numpy nicht hat, okay, also sollte es Single sein. Jetzt können Sie sehen, dass wir
diese Elemente haben , die von eins bis 19
beginnen. Sie können also sehen,
dass 20 nicht enthalten sind, oder? Der letzte ist also nicht enthalten. Wenn ich also 20 schreibe, fängt
es bei n an
und es wird bis 19 gehen. Warum machen wir das jetzt? Denn wenn wir wollen, dass eine Reihe natürlicher Zahlen
herumspielen kann, können
wir
diese Funktion tatsächlich nutzen und sicherstellen, dass es sich nur um ein
einzelnes Haar handelt, oder? Es ist nicht W. Okay, also mal sehen was sonst noch, wie Sie
mit mehr Werten übereinstimmen können. Nehmen wir an, wir wollen
schwebende Zahlen von
einer Position zwei erstellen , sagen
wir von einer
Zahl zur anderen. Also lassen Sie einen weiteren Bereich
erstellen
, der hier hinzugefügt wird. Nehmen wir an, wir
wollen entschlossen schaffen. Wir werden wieder die
Arrange-Funktion benutzen. Hier. Wir geben
den Bereich an, von dem wir
die schwebenden Zahlen haben wollen, oder? Sagen wir, ich will schwebende
Zahlen von eins bis n, was zehn hier ist. Und jetzt muss ich
den Datentyp hier mit
dem Typ angeben . Und hier werde ich Float angeben. Richtig. Nun wird dies
tatsächlich erzeugen und symbiotisch mit schwebenden
Zahlen von eins bis zehn sein. Sie können also sehen, dass dies keine schwebende Zahl
sind. Es hat also 1.2,03 Punkt. Und ähnlich wie das, oder? Das ist also eine andere
interessante Sache. Denken Sie daran, dass all
diese
Funktionen in der
Datenvorverarbeitungsaufgabe enthalten sein werden. Stellen Sie also sicher, dass Sie sie
tatsächlich selbst praktizieren. Dies alles ist sehr wichtig und wir haben
sie bereits in einigen Projekten eingesetzt. Stellen Sie also sicher, dass Sie das
auch üben. Gehen wir zu einem sehr
wichtigen Konzept über, das darin besteht, die Form zu verändern. Ändern der Form des Arrays. Nehmen wir an, wir haben ein Array
mit einer bestimmten Dimension. Nehmen wir an, dass eine dreidimensionale, dreidimensionale
beleuchtete Suche
zwei-mal-zwei-Dimension ist dreidimensionale
beleuchtete Suche . Und jetzt wollen wir
die Form des Arrays ändern. Wir möchten die
Dimension des Arrays ändern. Mal sehen, wie wir das machen können. Als erstes
sehen wir , wie wir
die Form von Anodisch überprüfen können. Dafür werde
ich es anodisch
spielen gleich numpy dot ID. Hier gebe ich nur
ein Komma zwei an, Komma drei. Und ich drucke
Hill Dot Shape, oder? Die Form ist keine Funktion, es ist eine Eigenschaft. Wenn ich also die Eingabetaste drücke, zeigt
es uns
, dass die Form
drei Komma ist und nichts da ist weil wir die Spalten nicht
angegeben haben. Es gibt hier nur drei
Elemente, also gibt es das an. Lasst uns noch eins erstellen. Anstatt ein
Array wie diesen Lift zu erstellen, drücken Sie und natürliche Zahlen
mit der
Arrange-Funktion np.arange. Lasst uns sechs Elemente erstellen. Dafür gebe ich
einfach sechs an. Und hier haben wir, sagen
wir, ich benutze die Funktion
umformen. Sagen wir nun, ich
möchte dieses Array umgestalten. Nehmen wir an, wir haben diesen
hier und hier
schreibe ich das eine dunkle Form. Wir wissen, dass es drei Homer
zeigen wird, etwas Gutes zu wissen. Ich möchte
es umgestalten, damit ich
die Funktion umformen kann , oder? Also lasst
es uns neu zuweisen, Punkt umformen. Und da es hier
drei Elemente gibt, können
wir
noch einige Elemente schaffen
, damit wir ihre Form tatsächlich
ändern können. Fügen wir also noch ein paar Elemente hinzu. Ich füge 456789 hinzu. Auch. Wir haben
diese Elemente hier geschaffen. Und was ich will ist, ich will, das sind eigentlich
die neun Elemente und es hat eine
Dimension neun Komma eins. Wenn ich also Enter
oder Control Enter drücke, wird mir
das zeigen, dass die Form
dieser Ära neun Komma eins ist. Was ich also will, ist, dass ich diese einzelne
Dimension darin
konvertieren möchte. Ich möchte mich in drei mal drei
Matrix umformen, oder? Die Möglichkeit besteht also darin, die Positionen hier
anzugeben. Wenn ich also eine
Drei-mal-Drei-Form wollte, realisierte
ich drei Komma. Was nun tun wird,
ist, dass es die Form
dieses Ganzen,
das hier ist, schnell die Form
dieses Ganzen,
das hier ist, in ein drei
- mal dreidimensionales Array verwandeln wird. Wenn ich also hier die Eingabetaste
drücke, können
Sie schnell sehen,
dass jetzt die Änderung, die Form,
auf drei mal drei geändert wurde, oder? Werfen wir also einen Blick auf die Form des hinzugefügten, bevor wir die Funktion umformen
verwenden. Wenn ich also eine
hinzugefügte Punktform schreibe, sieht
man, dass es
anfangs
neun Komma 0 war und jetzt drei Komma drei sind. Also haben wir
die Form oder die
Dimension geändert, die um drei mal drei entschieden wurde. Was also passieren wird, ist, dass die
Lippen versuchen, dies hierher zu bringen. Jetzt können Sie statt
einer Single sehen,
es ist jetzt 123. Dann haben wir vier
Kämpfer und wir haben 789. Also ein drei-mal-dreidimensionales
Array haben wir hier. Und es hat es so
geteilt, oder? Was passiert also, wenn ich hier drei Komma zwei
schreibe? Lassen Sie uns sehen, ob es
dazu in der Lage sein wird. Jetzt werden Sie hier schnell sehen Evaluator sagt, dass wir den Bereich
der Größe neun
nicht in diese umgestalten können. Was bedeutet, dass
Sie, wann immer
Sie eine Umformung durchführen möchten, sicherstellen müssen,
dass das Produkt dieser beiden, das wir in
dieser Shape-Funktion schreiben werden dieser Shape-Funktion der Anzahl von
Elemente
innerhalb der Einstellung. Was sonst noch? Das wirst du nicht
tun können. Alles klar, lasst uns hier
nur sechs Elemente einbeziehen. Und jetzt wissen wir, dass das Produkt von drei Komma zwei sechs ist. Wenn ich also Control Enter drücke, können Sie
jetzt sehen, dass es
hier ein Array
mit zwei Elementen erstellt
hat und es gibt zwei, und dies ist eine Matrix
zwei mal drei. Wir haben zwei Spalten
und drei Zeilen. Hier haben wir drei Komma zwei. Und jetzt ändern wir
es in zwei Komma drei. Jetzt
sehen Sie hier schnell im Peinlichen, dass die
Elemente drei sind, aber wir haben hier nur zwei
Dimensionen. So können
wir
diese Elemente eines bestimmten
NumPy-Arrays umgestalten , oder? Es ist also eine sehr wichtige
Sache, dass Sie dieses Video
oft
verwenden werden , wenn wir die Analyse
durchführen, obwohl
Datenvorverarbeitungsaufgaben auch zu einer anderen
wichtigen Funktion übergehen , die ich immer wieder sehe. Viele Projekte
zu Data Science, die die
Elemente durch eins ersetzen. Nehmen wir an, ich möchte alle Elemente
von monadisch durch den Wert eins
ersetzen . Mal sehen, wie kann,
wie ich das machen kann. Zunächst werde ich ein neues Array
erstellen. Und anstatt
die Elemente manuell zu schreiben, verwende
ich einfach diese
Arrange-Funktion. Hier erstelle ich
ein Array mit, sagen wir, wir haben
vier Elemente darin. Was ich jetzt machen werde,
ist, dass ich es ersetzen werde. Ich werde versuchen, Ihnen einfach
den Wert dieses Bereichs zu zeigen. Sie können sehen, dass
dieses Array 0123 hat. Was ich jetzt
tun werde, ist, dass ich eine sehr wichtige
Funktion
verwenden werde , die
Np-Punkt-Unterstrich ist ,
Like Funktion. Hier werde ich
es mit der neuen RA versorgen. Ich drücke „Control Enter“. Jetzt können Sie sehen, dass es sie alle durch eins
ersetzt hat. Es ist also wichtig, es in vielen
Fällen nützlich ist, wenn wir eine
Datenkategorisierung
durchführen wollen , wir wollen, wir können das
mit diesem tun, oder? Es ist also wichtig, dass
ein Modus ist, der Nullsee ist. Wenn ich also Nullen hier in Beziehung setze, werden
sie alle
in Nullen umgewandelt. Sie können hier sehen, dies sind
zwei sehr wichtige Funktionen, die ich gesehen habe und die
ich persönlich
in einigen Projekten verwendet habe. Stellen Sie also sicher, dass Sie sie auch
üben. Und ich kann sehen, dass es
Nullen und eine Skala hat. Gehen wir nun
zum nächsten Teil über
, so können wir
zwei Arterien genau hier verketten. Ich schreibe
hier Verkettung. Alles klar, dafür muss
ich mich ansprechen. Lasst uns also noch eine erstellen. Wenn wir einen
Undergrad schaffen, ist es hier. Lassen Sie uns also einige der
Elemente in diesem Array erstellen, die numpy
dot angeordnet sein werden. Und hier, sagen wir, wir wollen
Elemente von Tutoren sechs. Hier werde ich
ein anderes Array erstellen , das auf verschiedenen
sein wird. Das wird von sieben ausgehen. Wir haben diese beiden
Atome und wollen sie dann zu einem
einzigen Array verketten. Um das zu tun, ist es sehr einfach. Wir können einfach verwenden, sagen
wir, wir werden einen anderen Bereich
schaffen,
der die Mehrheit von A1 und A2 ist. Um das zu tun, haben wir
eine sehr einfache Funktion, nämlich die
Np-Punkt-Verkettungsfunktion. Hier müssen wir nur diese beiden Arrays
angeben. Denken Sie daran, dass dies die Funktion
ist und wir möchten A1 und A2
angeben. Der Weg zu tun ist nicht so. Manche Leute mögen
das, wie A1, A2. kannst du es nicht machen. Sie müssen dies als
Paar endlose kreisförmige
Klammern wie diese angeben . Jetzt können wir sehen, dass wir
eine Klammer haben ,
die die gesamte Verkettungsfunktion ist. Diese zweite Klammer gibt
A1 und A2 als Spieler an. Nun, wenn ich versuchen werde, so
viel hinzuzufügen, können
Sie sehen,
dass es diese Namensbereiche zeigt, okay, also hier sollte es np.arange sein, nicht im Spitzenkoma. Jetzt können Sie sehen, dass es Sie zu diesen beiden
Pfeilen in einem einzigen Array
kontaktiert hat . Möglicherweise werden Sie verwendet, Sie werden diese
Funktion oft verwenden, nämlich
zwei oder mehr Arrays zu kombinieren. So können wir
den Verkettungsteil machen. Gehen wir zum
gegenteiligen Teil davon über, so können wir die Anzeige
aufteilen, sagen wir, ich möchte dieses Modul
teilen. Und um das zu
tun, werde ich es tun. Lassen Sie uns zuerst eine andere Idee erstellen. Ich nenne es als unbewegte Daddy. Hier verwende ich hier eine sehr
einfache Funktion,
die verwendet wird, um
den Spliting-Teil zu machen, bei
dem es sich um einen Np-Punkt-Split handelt. Unterstrichen-Split-Funktion hinzufügen. Hier möchte ich nur die Sterblichkeit
angeben. Dann müssen wir
angeben, sagen wir drei. Okay, also wollte ich
es an der dritten Position teilen. Jetzt werde ich versuchen, diesen unbewegten Daddy
auszudrucken. Daddy hatte all diese
Elemente, 2345678. Also hier sehen wir es. Der gleiche Name, zusammengeführt,
ist nicht der letzte Fall, also war es nicht viel, es war der größte Unterstrich ARR. Es wird dies also bei
Bilddaten von der
dritten Position aufteilen . So können wir hier sehen,
wir haben 23457891011. Und jetzt können Sie sehen
, dass drei bedeutet, dass es so ist, teilen Sie es in drei gleiche Teile. Der erste Teil ist
drei für den zweiten Teil ist 7891011, oder? Also lasst uns es ändern und
mal sehen, was passieren wird. Jetzt können Sie sehen, dass es
fällt ein Array
mit fünf Elementen und die
nächste Ära mit vier Elementen erstellt . Auf diese Weise können wir
die RAs in mehrere Bereiche aufteilen , oder? Lassen Sie uns nun zu einem anderen wichtigen
Teil übergehen, der darin besteht die Suche
innerhalb eines bestimmten an ihm
durchzuführen. Verwenden dieser NumPy-Bibliothek. Wir möchten nach einigen Elementen
suchen. Nehmen wir zuerst ein Beispiel. Nennen wir es wie in diesem. Ich gehe nur von hier aus zum ersten
Beispiel. Das hier. Als nächstes erstelle und füge
ein mit einigen Zufallszahlen hinzu. Ich verwende hier nur beliebige
Zufallszahlen. Und sagen wir, ich wollte nach 87 in diesem hinzugefügten
suchen , nämlich der Knoten
, den es bei 0123 ist. Es ist an dritter Stelle
und wir wollen danach suchen. Die Vorgehensweise ist also sehr einfach. Ich werde zuerst
ein Element x erstellen, das tatsächlich die
Position der 87. Elemente erhält. Wir haben also eine seltsame Funktion , die verwendet wird, um
den Suchteil auszuführen. Also np dot, wo
die Funktion zwei Parameter erhält. funktioniert nur ein Parameter. E ist gleich zwei gleich zwei. Ich muss das
Element angeben, das 87 ist. Was es jetzt tun wird,
ist, dass es nach 87 in diesem gibt, bei
einem welches E hier ist, oder? Wenn ich also versuche, x zu drucken, sehen
Sie hier, dass es
die Suche zeigt. Und jetzt heißt es an einer dritten Position und der Datentyp des
Elements ist Ganzzahl 64. Sie können hier sehen, dass es
tatsächlich auf der dritten Position war. Dies ist also der erste, tut mir leid, die 0te Position. Und erste, zweite,
dritte Position. Es hat uns also die Position gegeben. Und Sie können sehen, dass die
Suche in diesem Fall der
Förderer ist,
da wir Eris verwenden . Lassen Sie uns nun zu einem anderen wichtigen Teil übergehen
, der das Sortieren ist. Gegebenes Array. Das Sortieren
ist ebenfalls wichtig. Sortieren Sie als Nächstes nur diese ERD. Sie können sehen, dass diese
Anzeige nicht sortiert ist. Versuchen wir das zu sortieren. Ich schreibe Brent. Und P-Punkt-Sortierfunktion. Und innerhalb dieses
Sortiercontrollers geben Sie hier E an. Sie können sehen, dass dies die sortierten Daten in
aufsteigender Reihenfolge sind, oder? Sie können also anfangs sehen
, dass es nicht sortiert war. Und jetzt ist das bei einem sortiert. So sehr einfache,
einfache Funktionen, diese Utility-Funktionen helfen
Ihnen tatsächlich sehr bei der
Datenvorverarbeitung. zu praktizieren ist
sehr wichtig. Und wenn Sie
immer mehr Produkte machen, werden
Sie sich
mit all diesen vertraut machen. Und Sie werden
all diese Funktionen
hier gut in den Griff bekommen, oder? Okay, also lass uns
zu einem anderen übergehen. Und dieser ist
oberes dreieckig. Jetzt ist diese Funktion, ich habe sie in
vielen Projekten gesehen. Wie erstelle ich ein VR-Dreiecke. Und es ist ein sehr
wichtiges Konzept. Konzentrieren Sie sich also hier auf diesen Teil,
denn es ist wirklich wichtig zu verstehen, warum es wichtig
ist, PR-Dreiecke zu erstellen
. Nehmen wir an, ich erstelle hier
ein Array. Ich nenne es als Addition. Nennen wir es als 0. Hier verwende ich np dot. Nehmen wir e als Beispiel. Wir werden
e benutzen, was hier ist. Um ein PR-Dreiecke zu erstellen. Das werde ich, ich werde
nur b dot u drucken, was eine kurze Form von
oberem Dreieck oder Tri ist, bedeutet Dreieck, du meinst oben. Np Punkt dreieckig U bedeutet also,
dass es ein oberes Dreieck
der gegebenen Matrix erzeugt. Lassen Sie uns dafür eine
dreidimensionale Matrix erstellen. Ich werde schnell eine
dreidimensionale Matrix erstellen. Alles was wir oben bereits
eine dreidimensionale
Matrix erstellt haben. Als wir
den Umformungsteil gemacht haben, haben
wir diesen auch geschaffen. Lasst uns einfach noch einmal erstellen. Hier. Ich werde B dot orange verwenden, und ich werde Elemente
von Weiß eins bis neun einschließen. Und ich werde es schnell drei mal drei Mal
drei Mal
umformen. Und schauen wir uns das
an, bei einer 0. Der erste Nexi, ob
es richtig ist oder nicht, heißt
es, es sollte
einer sein, der Martin heißt. Wir haben das, du kannst sehen
, dass dies der Addie ist. Wir haben 123456789. Eine Drei-mal-Drei-Matrix, Sie als
Drei-mal-Drei-Matrix betrachten können. Dann wollen wir
ein oberes Dreieck erzeugen. Was wir tun können, ist, schauen wir uns an, wie die RA ändern wird, wenn wir das obere
Dreieck genau hier
anwenden. Pieps-Dreieck. Also werde ich die np
dot u-Funktion drucken. Hier. Ich werde es speziell tun, ich werde hier nur
zwei Parameter angeben. Der erste Parameter wird
das Array sein, in dem das
obere Dreieck und
das zweite Element 0 ist. Ich werde dir sagen, was genau
dieses zweite Element sein kann. Ändere diesen Wert wirklich. Es kann tatsächlich 0 minus 11 sein. Wir werden die Werte sehen, wie sich
dies ändert, wenn wir den zweiten
Parameter als 0
anwenden, dann minus eins und dann eins. Drücken wir also Control Enter
, um die Ausgabe hier zu sehen. Sie können sehen, als ich 0 angegeben habe, es hat ein oberes Dreieck erstellt. Also war das anfangs RID. Und jetzt, nachdem Sie ein Dreieck
erstellt
haben, können Sie alle
Elemente darüber hinaus sehen. Sie können sehen, dass dies
die diagonalen Elemente sind, 159 Millimeter. Und jetzt sieht man, dass es dieses Dreieck
tatsächlich bildet. 123569 bildet hier eigentlich ein Dreieck, das
Sie hier sehen können. Und diese Elemente
sind 0 geworden, oder? Sobald sie also 0 geworden sind, haben
wir hier ein oberes Dreieck. Ändern wir diesen
Wert nun von 0 auf eins. Mal sehen, was sich hier ändern wird, oder? Jetzt können Sie
hier sehen, wenn wir eins schreiben, wird
es auch die
diagonalen Elemente enthalten. Es wird also
ein oberes Dreieck erzeugen. Sie können sehen, dass
zwei Drei-Sechstel diesem Dreieck beteiligt
sind. Diese Elemente sind 0 geworden. Wenn ich das auf minus eins ändere, drücke ich die Eingabetaste. Jetzt können Sie sehen, dass V0 ein oberes Dreieck
gekauft hat, aber nur das letzte
Element ist 0, oder? Also alle Elemente
über diesem Naught 0. Auf diese Weise können wir ein Bot-Dreiecke
erstellen und Sie werden sehen, wie wichtig es ist
, diese zu erstellen. Dreiecke innerhalb von, wenn wir mit den Aufgaben
zur Datenvorverarbeitung
beginnen. Sie werden eine Menge
dieser
Funktionsstörungen trocken sehen , die Sie auch
in vielen Projekten verwendet haben. Jetzt haben Sie eine gute Vorstellung davon wie genau diese Funktion
das hinzugefügte ändern wird. Was ich jetzt tun werde
, ist, dass wir jetzt zur
letzten Funktion übergehen,
die darin besteht, den Datentyp
des Hinzufügens der
Elemente des Arrays zu ändern . In Ordnung, dafür werde
ich einen weiteren Zusatz von 23 erstellen. Und hier werde ich np.edu benutzen. Lassen Sie uns Elemente erstellen, die automatisch schwebende Werte haben,
was 2.11.2 ist. Und geben wir ihm einen Backenzahn, der, mal sehen,
Drei-Punkt-Eins ist. Jetzt haben wir alle
dieses NumPy-Array. Was ich tun werde,
ist, dass ich den Typ dieser Seite
ausdrucke. Zuerst werde ich ein neues Array
erstellen. Hier. Ich werde IRR
als Dank-Funktion verwenden. Ich schreibe hier rein. Was nun passieren wird, ist, dass
es ein neues Array erstellt, das
jedoch alle Werte
davon zu drei hinzugefügt hat. Es wird es tatsächlich
in Ihren Teil umwandeln. Werfen wir einen Blick darauf, wie genau unser neuer Adam aussehen
wird. So wird der neue Audi
all diese Elemente haben, aber nur den ganzzahligen
Teil dieser Elemente. Hier können Sie also sehen, wie sich der Datentyp
ändert, und jetzt hat er 123 und
diese Dezimalteile ignoriert. Auf diese Weise können Sie diese im Inneren
ändern. Wenn Sie den
Datentyp der Elemente ändern möchten, können
Sie dies tatsächlich
tun und Sie werden bei
der Vorverarbeitung von Daten sehr auf
diese Schwierigkeit stoßen . Manchmal
braucht man keine Float-Werte. Sie konvertieren sie also
der Einfachheit halber,
5. Numpy in Python: In diesen CDs haben
wir in diesem Kurs bereits NumPy-Arrays
behandelt. Wir haben also einige
der sehr wichtigen
Funktionen behandelt , die wir bei Nicht-Käufern erfüllen
können. Und in diesem Video werden
wir
alle numerischen mathematischen
Operationen von NumPy behandeln , die unterstützt
werden, und wir können sie auf Dina Biotas
ausführen. Dies sind also einige
der grundlegenden und einige
der sehr wichtigen
Funktionen, die Sie während Ihrer
Data-Science-Karriere
nutzen werden . Fangen wir jetzt damit an. Zuallererst werde ich hier
numpy als np liquid importieren. Und hier erstelle ich
eine Matrix , die np.array sein wird. Hier
erstellen wir hier nur drei Elemente
, nämlich 123456789. Hier siehst du, dass
ich eine Matrix erstellt habe. Lassen Sie uns schnell prüfen
, ob wir es richtig
definiert haben ,
indem wir dies ausdrucken. Also hier siehst du, dass ich
diese Matrix erstellt habe , die diese
neun Elemente enthält, oder? Was ich jetzt machen werde, ist, dass
ich hier einige
der mathematischen Operationen
an dieser Matrix ausführen werde. Zum Beispiel Punkt-Produkt,
Standardabweichung, Mittelwert und alle
statistischen Funktionen auch. Fangen wir mit einigen
der grundlegenden an. Der erste hier ist also zwei. Berechne das maximale Moment, das ein sehr wichtiges
Bit ist, das tatsächlich das maximale Element
in dieser ganzen Matrix
ergibt. Ich werde ausdrucken, benutze die np dot max-Funktion, die uns tatsächlich das maximale Element
dieser Matrix gibt. Sie können sehen, dass wenn
ich Control Enter drücke, sehen können
Sie sehen, dass neun
das maximale Element
in dieser ganzen Matrix ist . Was ich hier machen werde, ist Angenommen, wir
wollen herausfinden, was das maximale Element
in dieser Achse ist, was genau hier das Gesetz ist. Was ich tun kann, ist, dass ich tatsächlich die Achse hier
angeben kann die Achse hier
angeben behauptet, dass Access gleich
0 ist, wenn ich Control Enter drücke. Jetzt können Sie sehen, dass die Achse 0789 das maximale Element ist. können wir also auch tun. Wenn ich also hier einen schreibe
und Enter kontrolliere, kannst
du sehen, dass es 369 sein wird. also den Zugriff ändern, können
Sie
das maximale Element entsprechend dem
Zugriff zurückgeben das maximale Element entsprechend dem , der
Zeilen und Spalten ist. nächste Teil, der ähnlich
ist, besteht darin,
das minimale Element zu berechnen. Und dafür haben wir auch die gleiche Technik, die np dot Hauptfunktion
verwendet. Und hier kann ich einfach die Matrix
angeben. Und Sie können sehen,
dass das Minimum, das minimale Element
dieser Matrix eins ist, und genau das druckt es
hier. Ebenso können wir
hier auch die Achse bei 01 angeben. Lassen Sie uns nun jedoch zu einigen
anderen Funktionen übergehen. Dies sind eigentlich die
statistischen Funktionen. Im Grunde habe ich
diese Themen der Statistik im Grunde genommen noch nicht angesprochen , was bedeutet Standardabweichung,
Abweichung bedeutet. Dies sind einige der
sehr wichtigen Themen , die
in der Data Science behandelt werden müssen. Was ich hier mache,
ist in diesem Tutorial, ich zeige nur, wie man sie benutzt. Und im nächsten
Video werde ich alle wichtigen Konzepte
dieser Statistiken wie
Varianz, Mittelwert,
Standardabweichung
vermitteln dieser Statistiken wie . Und auf diese Weise
können Sie besser verstehen, wie diese Funktionen in der Data Science
nützlich sind. Beginnen wir also mit
dem sehr grundlegenden, nämlich den
Mittelwert des gegebenen Eddie zu berechnen. Nehmen wir an, wir
bekommen hier diese Matrix, die diese ist, ich möchte den Mittelwert berechnen. Mittelwert ist im Grunde durchschnittlich. Was ich also tun kann, ist, dass ich den Mittelwert ausdrucken möchte
. Dafür verwende
ich einfach die np
dot Mean Funktion und muss
sie
nur mit der Matrix versorgen. Und Sie können hier sehen
, dass es fünf als
Mittelwert zurückgibt , weil es
tatsächlich der Durchschnitt
aller Elemente ist . Wir werden mehr
als diese Dinge besprechen, nämlich die Konzepte
der Statistik im nächsten Tutorial ausführlich. Lassen Sie uns also zu
einem anderen Statistikkonzept übergehen , bei dem es sich um Varianz handelt. Abweichung. Lassen Sie uns einfach alle
in dieser einzelnen Zelle hier abdecken. Abweichung und Standardabweichung. Dies sind die beiden Dinge, die sehr wichtig
sind und
in der Data Science weit verbreitet sind, da diese tatsächlich sehr nützlich sind, um einige
der wichtigen Methoden
der Datenvorverarbeitung
durchzuführen . Auch hier können wir den Mittelwert
ausdrucken. Und wenn wir die Varianz
malen wollen, kann
ich
sie einfach mit dieser liefern. Sie können also sehen, dass
die Varianz
dieser gegebenen Matrix 6,66 beträgt. Wenn ich
die Standardabweichung möchte, kann
ich dies auch tun, indem ich np dot SDD
verwende, was eine Standardabweichung ist. Und ich werde es einfach
mit der Matrix hier anwenden. Sie können sehen, ob ich Control Enter
drücke, das gibt mir die
Standardabweichung. Wir werden diese drei
wichtigen Konzepte untersuchen, und es gibt ein weiteres
wichtiges Konzept, das eine Normalverteilung
ist. werden wir auch studieren. Lassen Sie uns zu einigen
der linearen Algebra-Themen übergehen. Dass dies einige
mathematische Konzepte sind, nämlich das Punktprodukt und die Multiplikation und
Addition von Matrizen. Also lasst uns diese Gesundheit durchführen. Die erste Methode, die wir durchführen
werden, besteht darin, die
Transponierung einer Matrix zu berechnen. Im Grunde genommen erfordert dieser
Kurs , dass Sie
über Grundkenntnisse der Mathematik verfügen
, nämlich Matrizen
und Determinanten. Mal sehen, wie wir die
Transponierung einer Matrix
berechnen können . Dafür ist es sehr einfach. Ich kann einfach
Matrix-Punkt-Kapital T. schreiben Wenn ich Control Enter drücken werde. Jetzt können Sie sehen, dass dies
die Transponierung einer Matrix ist. Im Wesentlichen sieht man also , dass die Rollen hier
zu Spalten geworden sind. Also war 123 tatsächlich eine
Reihe in der Matrix hier. Dann wollen wir
durch Armbrüste berechnen und Gesetz werden. Sie können sehen,
dass es jetzt die Spalte 123 ist. So können wir
die Transponierung einer Matrix berechnen. Lassen Sie uns fortfahren, wie die Determinante
einer Matrix
berechnet wird. Dies sind alle Konzepte von Grundkonzepten der
linearen Algebra. Und dies ist die einzige Mathematik , die
in Data Science erforderlich ist
, nämlich Statistik,
Wahrscheinlichkeit und lineare Algebra. Auch wenn Sie die Grundlagen
dieser Konzepte kennen , können
Sie loslegen. Mal sehen, wie wir
die Determinante dieser Matrix berechnen können . Dafür verwenden wir hier die NumPy Library mit
dieser Funktion. Also np dot LIN LG Funktion, die eigentlich eine
Eigenschaft in Reihenfolge ist. Und dann werden wir
DEP verwenden, um
die Determinante dieser Matrix zu berechnen . Sie können sehen, dass
die Determinante
dieser Matrix dieser Hügel ist, np Punkt LIBNAME dot db. In Ordnung, also lasst uns weitermachen , wie man
den Rang einer Matrix berechnet. Grundsätzlich wird der Rang als n minus eins
berechnet, wobei n für das Ende steht, im Grunde für die
Anzahl der Dimensionen steht. In Ordnung, fügt hinzu, Sie können sehen, dass dieser
Bereich Theta-Emission war. Wenn ich also den Rang
berechnen wollte, kann ich einfach tun, dass ich
wieder die lineare
NP-Punkt-Algebra verwenden muss. Dot LAN LG steht hier für
lineare Algebra. Und da wir
die linearen
Algebra-Funktionen verwenden und hier bin ich genau wie
Matrix-Unterstrich-Rang. Hier. Ich werde es mit
der Matrix oder dem Dachboden versorgen. Hier kann man sehen, dass es aber der Rang dieser Matrix ist, oder? So können Sie
den Rang dieser Matrizen berechnen. Wir wollen also auch zu einigen anderen
wichtigen Funktionen
übergehen. Werfen wir einen
Blick darauf, wie
die Eigenwerte
und Eigenvektoren berechnet werden. Eigenwerte und Eigenvektoren
sind ebenfalls wichtig. Hier werden Sie
diese Funktionen häufiger
in der Datenvorverarbeitungsaufgabe verwenden . Mal sehen, wie wir die Eigenwerte
berechnen können. Grundsätzlich nehmen
wir an, wir haben eine quadratische Matrix ein Wenn ich multipliziere, wenn ich ein Punktprodukt mit
v
mache , ist
das gleich k, was die Eigenvektoren sind. Und wieder Punktprodukt mit v, das sind die Eigenwerte. Im Grunde genommen besteht der Zweck von
Eigenvektoren darin, die Form
der quadratischen Matrix und
nicht die Richtung tatsächlich zu
erhöhen . Also hier kann ich das sogar schreiben, dann wirst du es anwenden. Lineare Transformation. Eigenvektoren ändern sich, ändern die Form der NANDA-Richtung der
Matrix. Okay, lasst uns sehen, wie wir diese beiden Werte
berechnen können. Auch hier werden wir die Eigenwerte
und Vektoren
dieser Matrix
berechnen , die wir in diesem gesamten Programm
verwenden. Die erste Sache ist, wenn Sie die Eigenwerte berechnen möchten , definieren Sie hier zuerst
Variablen. Definieren wir zwei Variablen, die Eigenwerte und Eigenvektoren sind. Wir haben eine Funktion,
die beide zurückgibt, nämlich np dot linearer
Algebra-Punkt Eigenvektor EEG, und wendet es mit dem Mutex an. Welche Funktion gibt die Eigenwerte und
Eigenvektoren
zurück und was
wird hier gespeichert, oder? Versuchen wir also,
diese Werte zu sehen, indem wir diese Werte hier
ausdrucken , nämlich Eigenwerte. Und hier drucke ich
die Eigenvektoren. Wenn ich Control Enter drücke, sehen
Sie, dass
dies die Eigenwerte sind. Dieses Loch, das Sie sehen können,
ist ein Eigenvektor. Lassen Sie uns zu weiteren Funktionen übergehen. Mal sehen, wie wir können. Berechnen Sie das Punktprodukt. Dot-Produkt ist ebenfalls
sehr wichtig. Mal sehen, wie wir das machen können. Zuallererst muss ich hier zwei Matrizen
erstellen. Lassen Sie uns eine sehr
einfache Matrix erstellen, 123. Und ich werde
eine weitere Matrix erstellen, die Matrix zwei ist. Und das wird
Werte für V6 haben. Jetzt möchte ich
das Punktprodukt berechnen. Wenn ich also
das Punktprodukt berechnen wollte, werde ich es tun. Zuallererst
wird dies ein np-Punkt-Array sein. Dies wird
auch nicht periodisch erfolgen. In Ordnung, wenn ich das jetzt ausdrucken
wollte, muss
ich die
NP-Punkt-Punktfunktion verwenden. Also wird es hier eine
dunkle Funktion haben. Und ich muss nur
diese beiden Matrizen in
dem Argument angeben diese beiden Matrizen in , das
Matrix eins ist, Matrix Q. Sie können hier sehen, dass
das Punktprodukt
3232 das Punktprodukt
dieser beiden Matrizen hat . Denken Sie daran, dass
Sie bei
der Berechnung des Dotnet-Punkt-Produkts zuerst
die linearen Algebra-Konzepte
verstehen
müssen die linearen Algebra-Konzepte wie Sie
das Punktprodukt berechnen und wie Sie tatsächlich
sicherstellen können, dass die Zeilen die
Spalten dieser beiden
stimmen überein oder nicht, oder? Dann können wir das Punktprodukt
berechnen. Lassen Sie uns weitermachen, wie
man zwei Arrays hinzufügt, was die Hinzufügung
dieser Vektoren ist. Stimmt's? Also werden wir
diese beiden Matrix eins nehmen , nur
Matrix zwei. Wenn ich also die Druckmatrix
eins mit der Funktion add schreibe eins mit der Funktion add und wir die
Matrix eins hinzufügen möchten, Matrix zwei. Sie können sehen, dass wenn
ich versuche, sie hinzuzufügen, ihre Werte die
entsprechenden Werte sind
, die hinzugefügt werden und in einem anderen Vektor
gespeichert werden. Es ist um 79, also eins
plus vier ist fünf, dann ist es die F7,
dann haben wir neun. Wenn Sie die Subtraktion durchführen
möchten, müssen
Sie den gleichen Schritt
ausführen. Sie müssen die NumPy
np Dot-Produktfunktion drucken. Auch hier Lieferanten mit diesen beiden Werten,
die Matrix eins sind. Matrix zwei. Sehen Sie noch einmal, wenn
ich sie subtrahiere, gibt mir
eins minus vier minus
drei bis minus Pi minus drei. Und ähnlich minus V hier. So können wir die Subtraktion
berechnen. Und mal sehen, wie wir die Multiplikation
machen können. Dies ist Multiplikation,
nicht das Punktprodukt. Also schreibe ich hier , dass dies nicht
das Punktprodukt ist. Dies ist die Matrixmultiplikation. Sie werden hier sehen, was
der Unterschied zwischen ihnen ist. Dafür werde ich das
verwenden, dass wir
zwei Matrizen multiplizieren können , indem ich
einfach
einen Status wie diesen verwende , und
es wird diese beiden multiplizieren. Vier
multipliziert mit eins sind vier, dann zehn, dann 181018 Jahre. Die Antwort hier. Dies ist also eigentlich
die Multiplikation zweier Matrizen, die sich von dem
Punktprodukt gegen Sie
unterscheidet. Dieses Punkt-Produkt
war eigentlich 32. Jetzt werden wir auch
zu einigen anderen Funktionen übergehen. Hier fange ich damit an, wie
man die
Umkehrung einer Matrix berechnet. Um
die Umkehrung einer Matrix zu berechnen, müssen
wir erneut
die lineare Algebra-Funktion verwenden. Und ich ende wir Funktion ist da. Ich muss
es nur mit der Matrix versorgen. Wenn ich Control Enter drücke, können
Sie sehen, dass es bewegt wird berechnen Sie
einfach die
Umkehrung dieser Matrix. Dies ist also die Verwendung der
inversen INV-Funktion hier, die zur
linearen Algebra-Eigenschaft gehört. Jetzt werden wir sehen, wie
Zufallswerte generiert werden, was wiederum ein sehr
wichtiges Konzept ist, wie wir mit NumPy
Zufallswerte generieren können. Dafür erstelle ich
ein sehr einfaches Programm, ein sehr einfaches Programm das tatsächlich fünf Zufallswerte
herausfindet. Hier
schreibe ich hier einen Kommentar. Lassen Sie mich
die Fünf-Neuntel für
Werte zwischen eins und zehn berechnen . Wenn ich
fünf Zufallswerte
zwischen eins und zehn berechnen wollte , schauen wir
uns an, wie wir das machen können. Ich verwende die
NP-Dot-Zufallsfunktion. Und, UND, und hier muss
ich es
mit drei Variablen liefern. Sie werden von 0 auf 11 gehen und ich will fünf Werte. Es wird also so sein. Sie können hier sehen,
dass
die fünf
Zufallswerte von eins bis
10110 bis sechs durch diese Werte berechnet die fünf
Zufallswerte von eins bis werden, und 011 sind davon ausgeschlossen. So können Sie also berechnen
, dass dieser bekannte Wert ist. Eine interessante Sache hier ist, wenn Sie erneut die Eingabetaste
drücken, werden
diese Zufallswerte und dies wird sich ständig ändern. Um diese
Konstante so zu gestalten, als ob Sie
nicht möchten, dass
sich die Zufallswerte jedes Mal ändern, können
Sie eine sehr
wichtige Sache verwenden die als Seed bekannt ist. Dafür können Sie die Funktion np
dot random.seed verwenden. Hier. Sie können es
mit einem versorgen, bei dem
Sie die Größe nicht ändern möchten. Wenn ich also Control Enter drücke, ich immer wieder
die Eingabetaste. Dieser Wert wird sich nicht ändern. Dies wird
aufgrund dieser Obergrenze,
die wir hier gemacht haben, konstant werden. Lasst uns nun zu
einer anderen wichtigen Sache übergehen. Nehmen wir an, wir möchten aus
der Normalverteilung
einige Zufallswerte erzeugen . Normalverteilung ist
ein weiteres wichtiges Konzept der Data Science, da es zum Status, den
Statistiken und der Wahrscheinlichkeit
gehört. Also werden wir das auch
im nächsten Tutorial besprechen , dass ich
diese Konzepte zur Statistik behandeln werde . Das x plus c, wie wir
die Werte aus der
Normalverteilung abrufen können . Dafür können wir tatsächlich die
NP-Dot-Zufallspunkt-Normalfunktion verwenden . Und dann
muss ich ihm einfach nur einen Wert geben. Geben wir ihm also einen Wert 1, der tatsächlich gemein sein wird. Also müssen wir
ihm drei Parameter angeben. Der erste wird der Mittelwert sein, der zweite wird die
Standardabweichung sein. Und die dritte sind die Zahlen, die Sie generieren
möchten. 1 ist der Mittelwert, dann müssen wir 10 und
Standardabweichung. Und die Nummer, die
ich tun wollte, dann drücke ich Control Enter. Es
nimmt diese zehn Zahlen automatisch aus der Normalverteilung des Mittelwerts
des gegebenen Mittelwerts
und der Standardabweichung auf. Im Grunde genommen sind dies alle wichtigen Funktionen
dieser NumPy Bibliothek. Wir werden mehr
von ihnen in der Säure aufdecken. Wir werden in diesem Kurs weitermachen. Das ist also im Grunde nicht das, was dieser faktorielle Abbruch beobachtet.
6. Statistiken für Datenwissenschaften!: Lassen Sie uns nun zum ersten Thema übergehen, das wir
studieren werden , was ein Mittel ist. Wir haben Mittelwert,
Standardabweichung, Waschverteilung
und Varianz. Wir werden diese
sehr wichtigen Themen behandeln und diese sind Menschen, die ihnen in Daten
gegenüberstehen. Danke vielmals. Beginnen wir mit dem
Mittelwert und versuchen wir zu
verstehen, was die
Bedeutung des Seins hat. Hier habe ich eine
Grafik für ein Beispiel gezeichnet. Betrachten wir also ein
sehr einfaches Beispiel. Betrachten wir, dass
es ein Smartphone-Unternehmen gibt
und dass das Unternehmen tatsächlich die Smartphones
verkauft. Und aus schlechten Daten habe ich sieben
Tage des Verkaufs abgeholt. Hier sehen Sie
, dass
ich in den Daten diese sieben Punkte darin habe. 151030 fünfundzwanzig,
fünfundzwanzig, fünfundzwanzig. In diesem Diagramm
sehen Sie auf dieser Achse habe ich die Tagesnummer,
die 1234567 ist. Für wen haben wir diese
Anzahl von Handys verkauft. Sie können am
ersten Tag sehen, 15, ich werde am zweiten Tag Telefone verkauft und
die Anzahl
der Telefone wurde verkauft. Und ähnlich wurden für den dritten Tag 30 Nummer verkauft. Und so habe ich diese Standpunkte
gezeichnet, diese blauen Punkte, die die Daten
darstellen. Jetzt schauen wir uns
an, wie man den Mittelwert berechnet. Mittelwert ist eigentlich der
Durchschnitt dieser Werte. Wir können meinen berechnen, indem wir sie einfach
starten und durch ID und Anzahl der
Datenpunkte teilen , die wir haben, was in unserem Fall sieben sind. Hier sehen Sie, dass Sie
bei der Berechnung
150 mal sieben erhalten , was 18,57 ist. Sie können hier eine rote Linie sehen , die dieses Diagramm
durchläuft. Hier sehen Sie, dass dies
absolut präsentierend ist, was 18,57 ist, und Sie können sehen, dass es zwischen 1520
liegt. Versuchen wir jetzt zu
verstehen, was gemein ist. Die Bedeutung des Mittelwerts ist
sehr einfach und gibt uns den Durchschnitt des
Tagesdurchschnitts der letzten sieben Tage. Dies bedeutet, dass es tatsächlich 18,57 ist. Nehmen wir an, es ist ein
absoluter Wert von 18. Es bedeutet tatsächlich, dass in den letzten
sieben Tagen durchschnittlich
18 Telefone
jeden Tag verkauft wurden . Dies ist eine sehr wichtige
Information, denn manchmal ist das Unternehmen nicht daran interessiert, was passiert, wie viel Knochen an einem einzigen Tag
verkauft werden, was sie wollten, sie wollten berechne den Mittelwert, den Durchschnitt. Hier sehen Sie, dass
der Durchschnitt 18 beträgt. Wir können also sagen, dass
durchschnittlich
18 Telefone in nur einer Woche
jeden Tag verkauft wurden . Aber wenn Sie
sich hier ansehen würden, gibt es eine interessante
Information , die in diesem Diagramm fehlt. Dies bedeutet
tatsächlich irreführend. Der Grund, warum es
irreführend ist, ist, dass wir einem Datenpunkt
ausgehen,
der weit von dieser Linie entfernt ist, die weit
von diesem Mittel entfernt ist. Was bedeutet, dass der Mittelwert höher wird, wenn ich den
Mittelwert jetzt
berechne. Dieser Wert von Fleisch wird zunehmen,
und wenn er zunehmen wird, war der
Intellektuelle ein Wert, der, nehmen
wir an, dass der
Wert auf 30 steigt. So wird es zeigen, dass praktisch jeden Tag total
telefoniert, was überhaupt nicht stimmt. Ein Datenpunkt wird den Mittelwert tatsächlich
falsch interpretieren. Da der Mittelwert
falsch interpretiert wird, gibt
es uns eine falsche
und irreführende Information an das Unternehmen, dass jeden
Tag 18 vierziger Jahre verkauft wurden, was nicht stimmte, weil es
tatsächlich durchschnittlich war. Es war also wahr, dass du
nicht virtuell angezogen hast. Wenn Sie sehen können, dass wenn wir
solche Datenpunkte haben , die
tatsächlich Anomalien in den Daten sind , dies tatsächlich falsch interpretieren kann
und irreführend ist. Um diese irreführende Tatsache zu vermeiden, können
wir
diese Informationen tatsächlich verbessern. Wir können es viel
mehr als verdünnend machen. Ich füge die
Standardabweichung hinzu. Lassen Sie uns versuchen,
ganz einfach gewollt zu verstehen, was ist eigentlich
Standardabweichung? Standardabweichung
ist also eigentlich die Entfernung und Entfernung ist
eigentlich nur die Abweichung. Es ist eine Entfernung davon, wie weit die Punkte
vom Mittelwert entfernt sind. Man sieht, dass man in
den grünen Atomen
sehen kann, dass dies die Entfernung
ist, dieser Punkt stammt. Der Mittelwert. Die
Standardabweichung sagt uns tatsächlich, wie weit alle diese Datenpunkte vom Mittelwert
entfernt sind. Der Grund, warum wir
dies tun, ist zu verstehen wie sehr diese Datenpunkte näher am Mittelwert
liegen. Wenn ich sage,
dass in den letzten sieben Tagen
jeden Tag 18 Telefone
verkauft werden . Und die
Standardabweichung ist ebenfalls geringer. Bei dieser
Standardabweichung ist geringer, bedeutet
dies, dass die Entfernungen geringer sind. Dies bedeutet, dass die Datenpunkte näher am Durchschnitt
liegen. Das wird eine gute Information sein. Wenn die
Standardabweichung jedoch hoch ist, bedeutet
dies, dass diese Punkte tatsächlich vom Mittelwert entfernt
sind. Wenn sie vom Mittelwert entfernt sind,
bedeutet das , dass sie vom Mittelwert
abweichen. Und das könnte
dem Unternehmen sagen , dass
der Durchschnitt tatsächlich so schwarz war. Die Punkte, die tatsächlich eine
große Abweichung haben würden , ist eine interessante Information
, die dieser hinzugefügt werden kann. Lassen Sie uns verstehen, wie
die Standardabweichung berechnet wird. Es ist sehr einfach.
Wir müssen nur diese grünen Entfernungen
berechnen. Sie können sehen, dass ich, wenn ich diese grüne Distanz bekommen wollte
, nur diesen
Wert von fünf mit dem Mittelwert subtrahieren muss. Wenn ich 18 von fünf subtrahiere, bekomme
ich diese Region. Was ich tun werde, ist, dass ich für alle von ihnen
rechnen werde. Und da
es zwar nicht negativ ist, wollen
wir das nicht, sind
wir nicht an negativen Werten
interessiert da die Standardabweichung
tatsächlich eine Größe davon ist tatsächlich eine Größe davon wie viel diese Datenpunkte sind
sind weg vom Mittelwert. Wir nehmen die Quadrate
dieser Entfernungen. Da wir wollen,
stellt die
Standardabweichung die Abweichung
aller Punkte dar, die
wir zusammenfassen, und wir werden sie so anzeigen. Und der Zähler. Wiederum, siehe 130 mal sieben, ich habe es von hier genommen,
was der Mittelwert ist. Verwenden Sie keinen Indian
Point 57, da die Berechnungen
zu einem Großteil ihrer Haare werden. Wenn Sie 130 mal sieben verwenden, müssen
Sie es nur von 15
subtrahieren. Sie können in die Ferne gehen
und wir werden all diese
Entfernungen so eingrenzen. Und dann
addieren wir sie. Und schließlich werden
wir es durch
die Anzahl der
Datenpunkte teilen , die wir haben. Wir haben sieben
Datenpunkte zur Berechnung. Wenn Sie
diesen ganzen Wert berechnen, erhalten
Sie einen Wert von
69,357, der hier ist. Da wir das
Quadrat dieser Zahlen gemacht haben, müssen wir das benachrichtigen. Dafür werden
wir die Quadratwurzel benutzen. Nachdem ich die
Quadratwurzel erhalten habe, erhalte ich diesen Wert
, der 8,32 ist, und das ist eigentlich die
Standardabweichung. 8.32 ist die
Standardabweichung dieses Graphen. Versuchen wir zu verstehen, was diese Informationen sind und wie sie
die Informationen verbessern werden. Also 8.32, was haben wir vorgestellt? Ist das bedeutet, dass 1818 Telefone
in den letzten sieben Tagen durchschnittlich
jeden Tag verkauft wurden . Aber es gab eine Abweichung
von acht Punkten. Ich schreibe hier
plus acht Punkte. Eigentlich waren das 8,32. Ich muss schreiben, dass
es eine Abweichung von 8,32 gab, oder wir können sagen, dass es
eine Abweichung von acht Knochen gab. Da diese Abweichung plus acht und
minus acht oder so
sein kann , muss ich
sie plus minus acht schreiben. Stimmt's? Das sind keine sehr
guten Informationen. Aus diesen Informationen wird
eine Person wissen, dass ja, 18 Telefone verkauft wurden durchschnittlich
18 Telefone verkauft wurden und die
Standardabweichung acht betrug, oder? Es gab also keinen Anstieg und Rückgang Verkäufe an einem
einzigen Tag, oder? Wenn also die Standardabweichung niedriger
ist, ist dies das Gute, weil dies bedeutet, dass diese Werte tatsächlich
näher an dieser Linie liegen, nämlich der roten Linie,
die der Mittelwert ist. Und wenn sie näher sind,
bedeutet das, dass der Wert , den wir hier
erhalten tatsächlich
nahe am Durchschnitt liegt. Und die Informationen
werden viel besser sein,
weil 18 Punkte
verkauft werden könnten und es
gibt minus dxy ein oder zwei Zellen, was egal ist. So berechnen wir
die Standardabweichung. Und das ist die Bedeutung der Standardabweichung,
weil sie
diese Informationen vervollständigt und zu
diesen Informationen hinzufügt , dass es
eine Erhöhung oder Dekrement
dieses großen Wertes geben wird eine Erhöhung oder Dekrement innerhalb
dieses Durchschnitts werden durchschnittlich
18 Volt
jeden Tag verkauft, aber es könnte zu einem
Anstieg oder Grad von maximal acht Punkten kommen. Lasst uns nun zum
zweiten übergehen. Die dritte, nämlich
die Varianz. Jetzt haben wir hier
die Quadratwurzel
dieses Wertes hierher migriert . Wenn Sie dies nicht haben, wird dieser
Wert als Varianz bezeichnet. Hier sieht man also, dass
dies Lydier sind. 69.387 sind also Millionen. Was bedeutet „Abweichung“? Diese Varianz ist auch die Summe
der Entfernungen aller dieser
Datenpunkte vom Mittelwert. Was passiert also, wenn
die Varianz geringer ist? Lasst uns also verstehen
, was passiert wenn Abweichung Lektion ist. Wir wollen auch
verstehen, was dieser Wert bedeutet? Was passiert, wenn
die Varianz hoch ist? Wenn die Varianz geringer ist? Wenn es niedriger ist, bedeutet dies,
dass die Entfernungen dieses Punktes vom
Mittelwert tatsächlich niedriger sind. Weil niedriger es bedeutet, dass diese Punkte sehr
nahe am Mittelwert liegen. Sie sind näher am Mittelwert. Hier kann ich schreiben, dass
die Messwerte gesenkt werden. Es bedeutet, dass die
Punkte mir nahe liegen. Das ist Distanz.
Wenn es niedriger ist, bedeutet dies, dass sie dem Mittelwert
sehr nahe kommen. Was passiert, wenn
die Varianz hoch ist? Wenn die Varianz hoch ist, ist
es grundsätzlich aufgrund dieser Entfernungen
sehr hoch. Diese Unterschiede
waren sehr hoch. Wenn diese Entfernungen also sehr hoch
sind, bedeutet
dies, dass die Punkte sehr weit
von diesem Mittel entfernt
sind. Wir haben hier den Mittelwert und
die Punkte sind verstreut. Ihr Startup bedeutet,
dass es weit davon entfernt ist. Lassen Sie uns nun sehen, wie wir
diese beiden wichtigen Dinge
über Varianz nutzen können , um sie tatsächlich in Data Science
oder Machine Learning
anzuwenden. Im maschinellen Lernen gibt es
ein Konzept, das als Clustering bekannt ist. Und um zu gruppieren, was wir tun, ist, dass wir versuchen, Gruppen
innerhalb einer Daten zu bilden. Was ich hier machen werde,
ist, dass ich hier
eine sehr einfache Grafik zeichnen werde. Betrachten wir, dass wir hier
diese Punkte haben , die schwarz markiert
sind. Und dann haben wir diese Gedanken. Micelle
war vielleicht fällig, oder? Wir haben also diesen ganzen Datensatz, aber wir haben Margaret in zwei verschiedenen
Gruppen oder Clustern. Was ich tun kann, ist, dass die
Varianz gesenkt wird. Das bedeutet, dass die
Werte näher liegen. Die Varianz ist hoch, dann bedeutet dies, dass die Werte weit vom Mittelwert entfernt
sind. Um innerhalb unserer Daten Cluster
oder Gruppen zu bilden, gibt es zwei Bedingungen. Die erste Bedingung ist,
dass die Datenelemente innerhalb einer
Gruppe ,
wenn Sie diese Gruppe betrachten, innerhalb der Gruppe näher beieinander liegen
sollten. Sie müssen näher
beieinander sein. Und wie können wir sicherstellen, dass sie näher beieinander liegen, indem die Varianz
berechnen
, die sie näher sind. Wenn Sie dies sehen, müssen wir, wenn wir diese Schleife erstellen möchten, sicherstellen, dass diese Elemente sehr
nahe beieinander liegen. Dies war die erste Bedingung,
dass
die Elemente, die Elemente einer Gruppe innerhalb
einer Gruppe näher sein sollten. Dies war die erste Bedingung. Wir wissen, dass wir dafür
den Alias verwenden können. Es gibt auch eine zweite
Bedingung. Die zweite Bedingung besagt, dass wenn Sie Gruppen bilden möchten, zuerst
darin bestand, sicherzustellen, dass die Elemente einer Gruppe nahe beieinander
liegen. Zweitens sollte sichergestellt werden
, dass die Werte dieser Gruppe und dieser Gruppe weit voneinander entfernt
sind. In Ordnung, diese Werte
sollten also weit voneinander entfernt sein. Und es ist sinnvoll
, weil wir
sicherstellen wollten , dass die
Gruppen näher sind. Sie wussten nicht, dass innerhalb einer Gruppe der Datenpunkt näher sein
sollte. Daher
bilden sie einen Cluster. Aber wir wollen auch
sicherstellen , dass sie
weit voneinander entfernt sind, dann können wir nur zwischen
diesen beiden Gruppen
unterscheiden. Wir können dieses
Varianzkonzept verwenden, um diese Gruppierung
innerhalb eines Datensatzes
sicherzustellen. Und das ist sehr wichtig
und es wird
nur verstanden werden , wenn Sie wissen,
wie die Varianz, wenn Sie die Varianz erhöhen, weit vom Mittelwert entfernt sein wird und die Punkte weit voneinander
entfernt sind. Das ist eine Sache. Lassen Sie mich nun
zum letzten und sehr wichtigen
Konzept übergehen, das
als normale und
Gaußsche Verteilung bekannt ist . Dafür werde
ich dieses Diagramm zuerst hier entfernen. Okay, also lasst uns
versuchen zu verstehen, was die normale
Gaußsche Verteilung ist. Bevor wir
dies verstehen, müssen wir verstehen, was die Verteilung
bedeutet. sehr einfaches Beispiel für den
Vertrieb ist,
sagen wir , ich habe zehn Pralinen
und es gibt Funktionen. Und was ich tun kann
ist, dass ich diese 10 Dollar tatsächlich an sie
verteilen kann . Und das wird eigentlich als Distribution
bezeichnet. Dies ist die einfache
englische Bedeutung der Verteilung, genauso wie hier. Auch im Vertrieb haben
wir versucht, das x zu verteilen,
das sind die Eingaben. Machen Sie etwas Umlagerung. Wir
rufen als y zu den Outputs auf. Im Bereich. Nehmen wir an, wir haben
einen Bereich von 0 zu eins. Ich habe diese Datenpunkte
und verteile
diese Datenpunkte
innerhalb dieser Bereiche,
indem ich diese Datenpunkte
innerhalb dieser Bereiche sie plotte, oder? Dafür brauche ich
eine Funktion f von x, die das tatsächlich
umgekehrt ist. Und es wird sicherstellen, dass diese Eingaben
zwischen diesen beiden liegen ,
nämlich dieser Bereich. Dies ist nur ein Beispiel, um zu
erklären, was Verteilung ist. Wenn wir also die Elemente
verteilen wollen, verwenden
wir verschiedene
Arten von Distributionen. Wenn die Ausgabe,
die der Bereich ist, wenn es sich um die Provabilität handelt,
als Wahrscheinlichkeitsverteilung bezeichnet wird. Lasst uns jetzt verstehen, was
eine Gaußsche Verteilung ist. Gaußsche Verteilung wird auch als Normalverteilung
bezeichnet. Und wir müssen es tatsächlich anhand eines Graphen
verstehen. Dieser Graph hat bei, dass
ich zeichnen werde, ist eigentlich eine Darstellung
dieser Funktion hier
, die ich dort habe. Sie können sehen, dass dieses f von
x eins geteilt durch alles,
unter der Wurzel von zwei Pi e
auf die Leistung minus die Hälfte,
x minus Mittelwert und
Standardabweichung ganzes Quadrat erhöht . Dies ist also eine Funktion, die die Warnverteilung
darstellt. Und hier sehen Sie dieses
Symbol, das Rho ist. Dies stellt die
Standardabweichung dar. Dieser Wert, der mu ist,
repräsentiert den Mittelwert. Hier haben wir die
Standardabweichung und hier haben wir den Mittelwert. Wenn wir also Mittel- und
Standardabweichung haben, können
wir die
Gaußsche Verteilung verwenden. Dieses x hier repräsentiert
die Datenpunkte, die wir haben. Wenn ich also die
Datenpunkte hier an das x gebe, wird
es
mir geben und es wird die
Eingabe
tatsächlich über einen bestimmten Bereich verteilen. Was auch immer der Wert ist
, den mir diese Funktion f x geben wird, ich werde ihn plotten. Und hippe Hände, es ist eigentlich in einem Bereich, den wir es
als Outputs nennen, oder? Lasst uns nun verstehen,
welche Schritte zum Erstellen
des Graphen
der Normalverteilung sind, der das Diagramm
dieser Funktion ist. Der erste Schritt besteht darin, tatsächlich einen Wert zu markieren, der sich in
der Mitte dieser Achse befindet. Und dieser Wert wird der Mittelwert sein. So ist 18,57 der Mittelwert. Der Einfachheit halber gebe ich nachmittags nur den absoluten Wert an. Das ist eigentlich der Mittelwert hier. Ich werde Mu benutzen, um das zu
vertreten, richtig? Der zweite Schritt besteht
darin, hier mehr Marker zu erstellen, indem die
Standardabweichung addiert und subtrahiert wird. Wie kann ich das machen? Die Standardabweichung beträgt 8,32. Und wieder nehme ich
den absoluten Wert von acht an. Wenn ich es dazu hinzufüge. Hier bekomme ich wann D6. Wenn ich acht davon subtrahiere, bekomme
ich einen Wert von zehn. Diese ist eigentlich die Standardabweichung, die durch Rho repräsentiert
wird. Und Rho ist gleich acht. In unserem Fall nehme ich
den absoluten Wert. Dies ist der erste Schritt. Dies wird eigentlich
als das erste bezeichnet. Eine Standardabweichung.
Der dritte Schritt besteht nun darin, die Gesamt
- und die zweite
Standardabweichung zu berechnen . Und es ist auch einfach. Wir müssen nur
die Standardabweichung
zu dieser Zahl hinzufügen . 26 plus acht sind
tatsächlich gleich 34. Hier haben wir eine NAD und ich
muss das Gleiche hier machen. Ich muss den
Wert von acht von diesen zehn subtrahieren, und dann wird der Wert fällig sein. Also weiter, wir können es in
dieser Grafik so machen. Dies war die erste
Standardabweichung. Man sieht, dass diese hier die erste
Standardabweichung
war. Dieser ist der zweite. Ebenso können wir
hier
viel mehr Standardabweichungen erzeugen viel mehr Standardabweichungen , indem wir einfach die
Standardabweichung zum Mittelwert hinzufügen. stellt sich also die Frage, was versuchen wir
mit diesem Diagramm zu machen? Was ist das Motiv
dieses Graphen und was werden wir in der Data Science verwenden
. Gehen wir nun
zu unserem Beispiel zurück. In unserem Beispiel haben wir festgestellt , dass die Anzahl der
Verkäufe im Durchschnitt
18 betrug und es zu
einem Anstieg oder Dekrement
von acht Mobiltelefonen kam . Hier. Wenn ich versuche, dies zu zeichnen, wenn Sie hier sehen können, haben
wir eine gemeine und
Standardabweichung. Was wir tun wollen, ist zu analysieren, dass, wenn die Standardabweichung zunehmen
wird, wenn die
Standardabweichung zunehmen wird, wie stark sie sich auf die Punkte
auswirken wird. die Auswirkung
auf diese Datenpunkte aus, wenn ich die
Standardabweichung erhöht Wie wirkt sich die Auswirkung
auf diese Datenpunkte aus, wenn ich die
Standardabweichung erhöht? Werden sie
dem gemeinen näher kommen oder sie werden
weit vom Mittelwert entfernt sein. Was wir tun, ist,
dass wir das tatsächlich planen. Wir nehmen den Mittelwert und nehmen
die Standardabweichung und diese Punkte, die wir dieser Funktion
zur Verfügung gestellt haben. Und es wird beobachtet, dass
Sie, wenn
Sie diese Funktion angeben ,
ein Diagramm wie dieses erhalten. Der vierte Schritt besteht darin, den Graphen dafür tatsächlich zu
zeichnen. Dies ist die Y-Achse. Diese Y-Achse repräsentiert
einen niedrigen und einen hohen Wert. Hier sehen wir also eine weniger
wahrscheinliche Situation. Und hier sehen wir eine
hochwahrscheinliche Situation. Im Grunde bedeutet es also
, dass, wenn der Wert dieser Funktion fx Höhe ist, wenn er höher ist, dies
bedeutet, dass der Punkt sehr wahrscheinlich
näher am Mittelwert
liegt. Der springende Punkt ist also, dass
wir sicherstellen wollen, dass wir
aus diesem Diagramm verstehen wollen, wie die Datenpunkte vom Mittelwert
abweichen. Kommen sie
dem Mittelwert näher oder gehen sie weit zum Mittelwert für
diese Grafik, wird es helfen. Zeichnen wir nun diese Grafik. 18 ist also der Mittelwert. Also
ziehe ich hier einfach eine gepunktete Linie. Wenn Sie nun versuchen, dieses Diagramm zu
zeichnen, ist
dies die erste Abweichung. Also ziehe ich hier eine weitere
gepunktete Linie wie diese. Dies war also unsere erste
Standardabweichung und das ist der Mittelwert. Versuchen wir nun,
die Kohorteneffekte zu durchziehen ,
die hier sind. Es wird beobachtet, dass ein
glockenförmiges Golf
beobachtet wird . Es geht so. Wenn es die erste
Standardabweichung berührt, beginnt
sie zu steigen. Dein Schnee steigt so an. Und wenn es den Mittelwert erreicht, beginnt es so zu sinken. Und dann wird es so
geschwärzt. Dies wird hier
als glockenförmige Kurve bezeichnet, und dies ist das Ziel von f von x, was diese Funktion ist. Mal sehen, was die wichtigen
Fakten zu diesem Zeug sind. Es
wird beobachtet, dass, wenn Sie diese Eingaben,
den Mittelwert und die
Standardabweichung liefern , wenn wir diese Kurve erhalten, absorbiert wird, dass 34%
aller Datenpunkte darin
liegen werden wenn wir diese Kurve erhalten,
absorbiert wird, dass 34%
aller Datenpunkte darin
liegen werden Region, die
ich hier markiere. 34% werden sie und 34%
der Linie in dieser anderen Hälfte liegen. Insgesamt werden 68%
aller Datenpunkte innerhalb dieser ersten
Standardabweichung
liegen. Was heißt das? Das heißt, wenn ich diesen Wert von zehn
nehme, bedeutet
dies, dass, wenn die Anzahl der Verkäufe zwischen zehn und 26 lag, tatsächlich
68% Punkte vorhanden sind, die näher am Mittelwert liegen. Lassen Sie uns nun versuchen zu
verstehen, was
passieren wird , wenn ich hier einen Wert nehme, nehmen wir hier
einen Wert an, der auf dem Mittelwert liegt. Der Wert liegt auf dem Mittelwert. Werfen wir einen Blick
auf diese Formel. Wenn es 91 ist, hat der Mittelwert einen Wert, der dem Mittelwert entspricht, was 18,57 ist. Dieser Wert liegt hier
bei 18,57 minus 18,57. Dies wird tatsächlich 0 werden. Und da es minus halb multipliziert mit 0 gibt, wird es 0 sein. Und dann haben wir hier
auf die Macht 0 angehoben. Dieser ganze Wert
ist gleich 0. E, die auf die Macht
0 angehoben wird, ist gleich eins. Was wir bekommen, ist nur
fx gleich eins unter Root
von zwei Pi, dann ist der Wert
des Datenpunkts tatsächlich
gleich dem Mittelwert. Der Wert von eins nach zwei
Pi habe ich bereits berechnet. Es ist tatsächlich gleich 0,4, was hier eine Einschränkung ist. Ich kann
hier tatsächlich schreiben, dass die Funktion f von x gleich 0,4 geteilt
durch Standardabweichung ist. Sie können als
Standardabweichung sehen. Und Sie können sehen,
obwohl
Funktionseffekte umgekehrt
proportional zueinander sind. Da sind sie umgekehrt
proportional zueinander. Der Wert der
Standardabweichung wird steigen. Der Wert der Standardabweichung erhöht den Wert der
Ethik, den wir abschließen werden. Sie können aus der Kurve sehen, wenn die Standardabweichung
zunimmt der Graph sinkt. Dies ist hier ein wichtiger Punkt , dass wenn die Standardabweichung, die grundsätzlich sinnvoll ist,
weil Standardabweichung tatsächlich der Abstand
des Punktes vom Mittelwert ist. Sie werden diese Distanz erhöhen, dann wird es weniger wahrscheinlich, dass der Punkt näher am Mittelwert
liegt. Das ist also, dass meine Dysfunktion
einen niedrigeren Wert hat. Nehmen wir an, lasst uns versuchen,
einen weiteren Graphen zu verstehen, was hier eine andere Sache ist, die sehr interessant ist. Nehmen wir also an,
dass wir stattdessen eine
Standardabweichung von zwei haben. Statt acht
habe ich also eine
Standardabweichung von zwei. Nehmen wir einfach an, dass der
Wert zwei war. In diesem Fall. Wenn es zwei sind, wissen wir, dass es
kleiner ist als dieser Fall. Das bedeutet, dass die Punkte
viel näher am Mittelwert liegen. Versuchen wir also, dies in diesem
Diagramm und Lexi darzustellen, ob unsere Logik
, dass die Punkte näher am Mittelwert liegen, in der Grafik
zutreffend ist oder nicht. Wir wissen, dass das Diagramm unter
Zeichnungsschritten einfach ist. Wir müssen die
Standardabweichung zum Mittelwert hinzufügen. Also hier werden 18 plus zwei 2018 minus zwei werden 16. Wenn ich jetzt zeichnen möchte,
wird das Diagramm so aussehen und
der Graph wird flach sein. Aber wenn es die
volle Standardabweichung erreicht, nimmt er so zu. Aber jetzt ist die Frage, wird es tiefer
gehen oder wird es höher gehen? Dieser Code, wird er tiefer gehen? Und dann runter? Oder wird es höher gehen? Und weiß es dann nicht? Die Antwort auf diese Frage
ist die Logik selbst. Es gibt zwei Logiken
, die dies erklären. Der erste ist, dass 68%
der Punkte, die beobachtet werden , die es hier belegen wird. Wenn Sie dies also verkleinern
würden, müssen
Sie natürlich die Kurve
erhöhen, um diese 68% -Werte zu berücksichtigen. Dies ist die erste Logik
, auf die Sie schließen können. Die wichtigste Logik des gesunden
Menschenverstandes ist, dass Sie, wenn Sie
die Standardabweichung verringern, Grad die
Standardabweichung haben. Das bedeutet, dass die Punkte näher am Mittelwert
liegen. Wenn sie dem Mittelwert schon
näher sind
, werden
sie höher werden. Es ist sehr wahrscheinlich. Es wird hervorgehoben, dass die
Punkte näher am Mittelwert liegen. Dieser Wert wird so
werden und er wird wieder sinken, die erste Standardabweichung, und wieder wird er flach werden. Hier geht es um diese
wichtigen Themen und Sie werden diese wichtigen
Konzepte im maschinellen Lernen verwenden. Sie werden Varianz und
maschinelles Lernen verwenden , um die
Gruppen verstreut sind. Sie werden Ihre
Süßigkeiten-Regularisierung verwenden auch das
Problem der Überanpassung untersucht. Im Grunde ist das alles für dieses Video. Danke fürs Zuschauen.