Transkripte
1. Einführung in die Datenwissenschaft: Alle, es ist Max. Und willkommen zu meinem Kurs über das Wesentliche der Data Science. Nun, das erste, was wir hier tun werden, ist, dass wir eine kurze,
kleine Einführung in die Datenwissenschaft geben , damit wir verstehen, was ein Datenwissenschaftler ist, und dann werden wir alle drei wichtigen Bereiche abdecken, die Sie müssen ein erfolgreicher Data Scientists sein. Alles klar, was ist Data Science? Nun, Data Science ist irgendwie auf verschiedene Arten zusammenfassen, aber die wichtigsten Teile davon sind die Umwandlung von Daten in Informationen. Und das ist ein wirklich großer Schritt,
weil viele Leute über
Daten und Big Date und all diese Dinge reden . Aber Daten an sich sind nicht wirklich so nützlich, bis Sie sie in Informationen verwandeln können. Und wenn Sie also nur irgendwo eine Reihe von Zahlen erscheinen und es ist nur, Sie wissen so viel davon, dass
niemand Sinn daraus machen kann. Und dort brauchen Sie einen Datenwissenschaftler, um all diese all seine
Unklarheit und Art dieses Geräusch auf das umwandeln zu können, und Sie müssen in der Lage sein, Informationen daraus zu extrahieren. Und das ist es, was ein Datenwissenschaftler tut. Nun, was Sie damit mit diesen Informationen machen oder wie Sie diese Informationen erhalten, ist
es durch die Analyse Ihrer Daten. Ein großer Teil davon wäre also, du weißt schon, Dinge aufzuräumen, ein paar Prozesse daran zu
machen. Und dann analysieren Sie, sobald Sie die Dinge ein wenig bereinigt haben, und das ist eine der Möglichkeiten, wie Sie dann Informationen aus Ihren Daten erhalten können. Ähm, durch diese Analyse, und Sie können irgendwie weitermachen und Sie sehen Trends und Muster und alle Arten von Korrelationen, hoffentlich, auf all diesen Dingen bauen sich wieder in diese Umwandlung von Daten in -Informationskomponente. Ähm, und letztendlich müssen
Sie auch alles kontextualisieren, was Sie haben, damit Ihr Computer das nicht für Sie tun kann. Computer kann die Zahlen und das Zeug knirschen, aber es liegt in Ihrer Verantwortung, auch Sinn zu machen, was vor Ihnen ist. Und selbst wenn du etwas
siehst, vertraust du ihm einfach nicht blind. Aber du musst es verstehen, weißt
du? Wo befinde ich mich? Woher komme ich? Woher kommen diese Daten? Brauchen Sie es in der Lage sein, diese Dinge zu kontextualisieren und dann, natürlich, in der Lage
sein, sie anzuwenden und zu verstehen. Und wenn Sie diese Daten haben, wissen
Sie, dass es großartig ist. Aber machen Sie es in eine Information in großartige Informationen, die Sie verwenden und direkt
anwenden können . Dort liegt die Rialmacht. Und das ist auch die Rolle eines Data Scientist. Also, das ist, was die Daten, das ist, was Datenzeichen ziemlich viel sind. Und was machen die Datenwissenschaftler? Nun, wir haben schon ein bisschen darüber geredet, aber lassen Sie es uns nochmal übergehen. Noch mehr konkrete Beispiele? Und so würde ein Data Scientist zum Beispiel diese Rohdaten
abrufen und verarbeiten und dann in etwas Klares umwandeln. Sie können sich also vorstellen, wie ein Datenstrom hereinkommt. Und Sie haben dieses Messgerät und messen ständig alle Arten von Daten auf und weil, wie nichts wirklich Konstanz ist, alles schwankt. Ich war unten, und so würde ein Datum, das diesem zugewiesen wird, der Leiter der nehmen all diese Daten. Es ist diese Art von Aufräumen ein wenig,weißt
du, weißt
du, vielleicht reduzierte diese Fluktuation, von der du weißt, dass sie nicht da sein sollte. Das ist nur eine Art Hintergrund-Zeug los und dann in ein Format, so dass Sie
leicht gegen einige Dinge auf geplottet werden können . Und dann kommen wir schon zum nächsten Punkt, dass, wissen
Sie, sobald der Staat als sauberer ist, Sie vielleicht beginnen können, einige Berechnungen zu machen, um herauszufinden, die wichtigsten statistischen Komponenten, wissen
Sie, wie, was sind die Durchschnittswerte von diesen? - Was? Worum habe ich es wirklich zu tun, wissen
Sie, einen ersten Blick auf den ersten Blick zu
bekommen, was es eigentlich ist, das Sie anpacken. Und wenn Sie dann diese Art von Verständnis haben, dass Sie beginnen können, einige
Visualisierungen zu machen , die Ihnen als Data Scientist geholfen haben, vielleicht sehen Sie einige Trends oder Muster bereits. Aber Visualisierung ist auch wirklich der Schlüssel, weil sie es anderen Menschen zeigen lassen, und sie sind ein großartiges Mittel der Kommunikation. So helfen sie sowohl uns als Datenwissenschaftler, als auch anderen zu helfen. Wenn Sie versuchen, ihnen diese Informationen zu vermitteln, Ordnung, und dann endlich, müssen
Sie einige Anwendungen der Informationen vorschlagen, also ist es nicht wirklich genug, um es einfach anzusehen und zu sagen, ,
ich Ja,
ichsehe, es geht hoch und runter und das ist gut, aber was bedeutet das? Wie überträgt sich das in etwas Nützliches? Und das ist auch eine der Schlüsselrollen eines Data Scientists, der Informationen ins
Wissen überträgt . Und so haben Sie diese Daten in den Informationsschritt. Aber Sie müssen auch diese Informationen in Wissen übertragen und diese Luft auf wirklich mächtige Dinge, die viel wert sind, viel. Und das ist ziemlich genau das, worauf sich ein Datenwissenschaftler konzentriert, und dann können Sie weiter gehen und, wissen
Sie, und nehmen Sie diese Daten und machen Sie maschinelles Lernen damit oder so. Wenn Sie wirklich verstehen, was vor sich geht oder wenn Sie eine Hypothese von haben, wissen
Sie, was passieren könnte, damit Sie die Dinge viel weiter nehmen können. Aber letztendlich ist diese Art der Umwandlung von Daten in Informationen und dann in Wissen, das ist Ihre Rolle, Ordnung, also lasst uns in die wesentlichen Techniken oder die wesentlichen Komponenten der Data Science eingehen. Also die erste wesentliche Komponente, und wir haben sie irgendwie berührt. Das ist schon Statistik, und im Grunde werden wir das später abdecken. Aber lassen Sie uns einfach eine Art schnellen Wrap down geben. Also in Statistiken müssen verschiedene Datentypen zu verstehen, die Sie begegnen können. Und so gibt es einen Tag, an dem ich auf verschiedene Arten kommen kann, und wir werden später noch näher damit eingehen. Aber es ist nicht nur, wissen
Sie, Sie bekommen eine Reihe von Zahlen Datum, ich kann kommen und sehr viele verschiedene Möglichkeiten, abhängig von dem Feld, in dem Sie sich befinden. Und so müssen Sie vorbereitet sein und Sie müssen sich bewusst sein, dass Daten nicht immer nur eine direkte Nummer für Sie sein können. Und dann, natürlich, müssen
Sie einige wichtige statistische Begriffe verstehen, wie Sie wissen, die verschiedenen Arten von Mitteln und auch Verständnis, Schwankungen und Daten. Und das ist wichtig, weil diese wichtigen statistischen Begriffe Ihnen einen
Überblick darüber geben , wie sich diese Daten verhalten. Und je nachdem, wie sich die Daten verhalten, möchten
Sie sie möglicherweise anders angehen. Wenn Sie also wissen, dass Ihre Daten sehr sauber sind, gibt es sehr geringe Schwankungen. Wenn Sie dann Dinge visualisieren, können
Sie wahrscheinlich vertrauen, was vor sich geht oder, wenn Sie vielleicht einige Kurven dazu passen möchten oder etwas Aber wenn Sie sehen, dass Ihre Daten viel schwanken, die visualisieren, wird es viel mehr sein schwierig, weil Sie nur Sprünge überall
sehen und Sie nicht wirklich sicher sind, welche davon tatsächlich wahr ist. Und welche davon verursacht wird, weißt
du, wie irgendein Eingriff irgendwo oder jemand ist mit meinem System durcheinander. Und so werden Ihnen all diese Dinge irgendwie durch statistische Begriffe angedeutet werden. Es ist also wahrscheinlich gut,
dass Sie mit diesen Dingen wohl fühlen und dass Sie in der Lage sein können, eine
Bedeutung aus ihnen herauszubekommen . Alles klar, auf, dann, endlich ist es und Statistiken in der Lage zu sein, Sie wissen, auf Gruppen- oder Segmentdatenpunkte
aufzuteilen, so dass, wenn
Sie diesen großen Datensatz haben, Sie in der Lage, es vielleicht in kleinere Dinge aufzuteilen, verschiedene Regionen zu
vergleichen, einige Dinge genauer zu
betrachten und vielleicht, weißt
du, zwei Komponenten
zu isolieren, weil Weißt du, hey, diese Dinger werden wahrscheinlich wichtig sein. Der Rest kümmert mich nicht so sehr. So in der Lage zu sein, Art von lokalisieren und isolieren und Metall mit den Daten ein wenig. Das sind also die Art von statistischen Komponenten, die wir untersuchen werden. Alles klar
, die nächste große Sache und wir haben bereits darüber gesprochen, ist die Datenvisualisierung. Andi, wir werden sehen, warum Datenvisualisierung eine wirklich Schlüsselfertigkeit für Data Scientists ist. Und dann werden wir auch verschiedene Arten von Gras abdecken, die Sie verwenden können und wie Sie verschiedene Anzahl von Variablen vergleichen können. So zum Beispiel ein variables Gras haben, können
Sie
zum Beispiel ein variables Gras haben,bei dem Sie nur eine Sache betrachten und nur das
betrachten wollen , und Sie wollen sehen, wie sich das ändert. Sie haben Ihre typische bis variable Huhn, die Sie wahrscheinlich wissen, wo Sie diese X- und eine Y-Achse haben. Und dann können Sie irgendwie sehen, wie sich zwei Variablen zueinander beziehen, wo Sie drei variable oder sogar höhere variable Graphen haben können und wo Sie vielleicht drei verschiedene Dinge oder sogar mehr plotten, wenn Sie wollen, solange es Sinn nebeneinander, so dass Sie mehrere Dinge zur gleichen Zeit vergleichen können, Ordnung. Und jetzt kommen wir zu der anderen großen Sache, die Sie wahrscheinlich als Data Scientist brauchen , was die Fähigkeit sein wird, jetzt zu programmieren, nicht jeder Datenwissenschaftler kann das tun, aber das ist wirklich, wirklich wichtig, meiner
Meinung
nach, für Ihre Rolle als Datenwissenschaftler, denn zu wissen, wie das Programm Ihnen das Leben so viel leichter machen wird, wenn Sie wissen, wie man programmiert, können Sie Ihre Ideen und Gedanken nehmen, und Sie können sie in Aktionen auf dem Computer setzen. Und Sie können einfach alles automatisieren, was Sie Dinge anpassen können, die Sie erkunden können, Sie können Prototypen erstellen, Sie
konkurrentieren, und Sie sind nicht auf einige,
Sie wissen,
Anwendungen angewiesen Sie wissen, . Sie müssen keine Anwendung beherrschen. Und wenn es nicht funktioniert, wenn eine Funktion nicht vorhanden ist, müssen
Sie sich an den Kundendienst wenden. Und vielleicht ist es nicht einmal möglich. Und dann müssen Sie auf ein Update warten. Oder vielleicht ist etwas mit der Programmierung abgehört. Es gibt nur, dass du so viel mehr auf dich selbst angewiesen bist, und du kannst wirklich tun, was du tun willst. Und Sie sind nicht auf andere Menschen oder auf die Werkzeuge angewiesen, die andere Leute für Sie gebaut haben . Aber vielmehr kannst du so ziemlich gehen und du weißt schon, einfach tun, was du tun willst, ohne dass es große Straßensperren gibt und an. Wir werden uns auch einige wichtige Pakete und Python ansehen. Also in der Programmierung, Sie wollen nie das Rad neu erfinden. Sie wollen immer beginnen mit der letzten Person aufgehört,
und so die Fähigkeit, zu programmieren und in der Lage sein, einfache Programme zu schreiben, die Sie würde ich brauchen, um sich selbst zu lehren. Aber Sie müssten nicht hochkomplexe mathematische Pakete oder
Datenanalyse-Pakete korrigieren . Die sind schon da draußen. Alles, was Sie tun müssen, ist in der Lage zu sein, sie herunterzuladen und sie in Ihrem Mantel zu implementieren, und sie werden funktionieren. Weißt du, sie wurden oft getestet. Es gibt eine riesige Gemeinschaft, die an ihnen arbeiten, um sie und alles zu verbessern. All dies ist für die Gemeinschaft, und so arbeitet die ganze Gemeinschaft zusammen, um sie zu verbessern. Niemand versucht wirklich direkt, eine Menge Geld daraus zu machen, also werden sie Ihnen nicht all diese Servicegebühren und alles in Rechnung stellen. Jeder versucht nur, sein Paket zu verbessern, denn wenn es verbessert, jeder profitiert auch davon. Und so schauen wir uns einige der Bibliothek an. Wir werden über einige Bibliotheken sprechen, die Sie verwenden können, insbesondere in Python, und um Ihnen auf Ihrem Weg bei der Datenanalyse zu helfen und ein erfolgreicher Data Scientist .
2. Statistische Datentypen: Hey alle, es ist Max und willkommen zurück. Also in diesem Kapitel werden wir über statistische Datentypen sprechen. Jetzt werden wir uns die drei verschiedenen Arten von Daten ansehen, die als numerische,
kategorische und ordinale Datentypen zusammengefasst werden. Nun, das sind die Arten von Daten, über die wir zuvor gesprochen haben. Wie können Sie nicht nur erwarten, dass Ihre Daten numerisch sind. Und so werden wir numerische Daten sehen, aber wir werden auch die zwei anderen Arten von Daten sehen, die Sie in Ihrer Karriere als Data Scientist begegnen können . Okay, also lassen Sie uns zuerst über numerische Daten sprechen. Numerische Daten werden auch als quantitative Daten bezeichnet. Und es sind so ziemlich Dinge, die man irgendwie messen kann. Es ist großartig. Numerische Dinge, mit denen Sie Mathematik machen können. Sie können es vergleichen, wissen Sie, sagen Sie dies plus das macht Sinn. A ist größer als b. Dies sind alle Beispiele für numerische Daten. Numerische Daten können wir in zwei verschiedene Segmente aufteilen? Einer von ihnen wird diskret sein. Und so diskret bedeutet, dass die Werte nur unterschiedliche Zahlen annehmen. Und ein Beispiel dafür wäre, wissen
Sie, IQ oder so etwas und Messung von IQ. Oder wenn Sie einen Münzwurf machen, die Anzahl der Male, die Sie werfen Köpfe. So können Sie, wissen Sie, Sie können 15 Köpfe haben, Sie können 12 Köpfe von 20 Münzwürfen haben. Sie können 500 Köpfe von 1000 Münzwürfen oder 500 von 600 haben, oder all diese Dinge. Aber all dies sind unterschiedliche Zahlen und jetzt müssen sie nicht ganz speziell sein, aber sie müssen deutlich sein. Das ist also die Art von sehr wichtigen Teil, mit dem, weißt
du, es gibt eine Art Schrittgröße, mit der du es zu tun hast. Und natürlich kannst du immer noch sagen, hey, weißt du, dass es besser ist, acht von 20 Köpfen zu
drehen, als sieben von 20 Köpfen zu
fummeln, wenn du Köpfe umdrehen willst ,
das heißt, wir drehen acht von 20 ist schlimmer als 7 von 20, wenn Sie für so viele Details wie möglich gehen. Also all diese Art von Vergleiche, die Sinn machen. Das ist also der diskrete Teil numerischer Daten. Dann haben wir den kontinuierlichen Teil. Und jetzt ist der kontinuierliche Teil wirklich, dass Werte einfach eine beliebige Zahl annehmen
können und sie nicht durch Dezimalstelle begrenzt sind. Ein Wert, der Nino kann wie 1.1 sein und dann wäre der nächste Wert 1.2. Das ist nicht ununterbrochen. Das ist immer noch diskret, da Sie diese Schrittgröße von 0,1 haben. Kontinuierlich bedeutet buchstäblich jede Zahl von Anfang bis Ende übernommen werden kann. Und das bedeutet nicht, dass jede mögliche Zahl im Universum von negativer Unendlichkeit bis plus Unendlichkeit und alle imaginären Zahlen und alles, was mit ihm kommt, was nicht, das ist nicht erforderlich für kontinuierliche. Es könnte wirklich sein, dass nur jede Zahl zwischen 01 aufgenommen wurde. Nehmen wir zum Beispiel an, Sie haben eine Flasche Wasser, und diese Flasche Wasser kann einen Liter halten. Nun, wenn Sie Ihre Flasche auffüllen und sie beginnt leer und Sie füllen sie den ganzen Weg bis nach oben. Die Menge an Wasser, die Sie brauchten, um
jede einzelne Zahl zwischen 01 zu nehmen , weil Sie nicht einfach Wasser auffüllen können , wissen
Sie, und Art von kleinen Schritten von sagen, hey, ich werde in 0,2 Liter jeden einzelnen Zeit, weil das Wasser nicht nur von A nach B teleportiert sondern wenn man Wasser einströmt, ist
es eher so, als ob wir hier im Bach sehen. Und der Wasserspiegel steigt und steigt und steigt auf. Und so muss die Menge an Wasser, die wir in
unserem Becher haben , auf jeden Wert zwischen 01 nehmen. Das ist also ein Beispiel für kontinuierliche Daten für, aber Sie sehen, dass wir auf 0 beschränkt sein können und zwischen 01 zu sein, müssen
wir nicht bei 0 beginnen und den ganzen Weg bis ins Unendliche gehen oder so. Aber es ist nur so, dass der Bereich, den wir betrachten, jede einzelne Zahl angewendet werden kann oder jede einzelne Zahl passieren kann. Ein weiteres gutes Beispiel wäre die Geschwindigkeit eines Autos. Wenn du anfängst, stehst
du still und studierst und studierst an einer Ampel. Und dann wollen Sie in der Geschwindigkeitsbegrenzung beschleunigen, sagen Sie, 50 Meilen pro Stunde oder so. Um 50 Meilen pro Stunde von Ihrer Startposition zu erreichen, muss
Ihr Auto jede einzelne Geschwindigkeit dazwischen übernehmen. Und natürlich wollen Sie sehen, dass, wissen Sie, auf Ihrem Tacho würde es so etwas wie 0 Meilen pro Stunde,
eine Meile pro Stunde sagen , wissen Sie, vielleicht können Sie hineingehen, als würde es 0.10.20.3 oder so etwas. So mag es diskret für Sie aussehen, aber so läuft Ihr Auto nicht. Ihr Auto sagt nicht wie, oh, ich werde in die Schrittgrößen der Geschwindigkeit gehen, es wird beschleunigen und es wird auf jeden Wert nehmen, beginnend mit 0, bis zu 50 Meilen pro Stunde. Und du wirst, wenn du in diesem Übergang bist, wirst
du jeden einzelnen dieser Geschwindigkeitswerte übernehmen. So sieht es also kontinuierliche Daten aus. Und es ist wichtig, den Unterschied zwischen diesem diskreten und kontinuierlichen zu verstehen. Nur weil Sie es vielleicht anders angehen möchten. Nun natürlich, wenn wir es mit Computern zu tun haben, können Computer nicht mit unendlichen Zahlen wie in den Dezimalstellen umgehen. Wir müssen es irgendwo abschneiden. Und so werden in der Regel kontinuierliche Daten irgendwann abgerundet. Aber es ist immer noch wichtig für Sie zu wissen, dass Sie es hier mit
kontinuierlichen Daten zu tun haben , anstatt diskret, so dass Sie wissen, hey, es kann immer noch andere Dinge dazwischen geben. Hier sind all diese Dinge, anstatt, wissen Sie, bestimmte Schrittgrößen
zu haben und alles, was Sie sehen, ist nur eine Reihe von Zeilen. Bei jeder Schrittgröße. Aber Sie können erwarten, dass, wenn Sie
kontinuierliche Daten haben , dass alles nur irgendwie
gefüllt ist , gefüllt, alles kann, und sogar gut gemacht zwischen bestimmten Orten sein. Das ist also das Wichtigste, was zwischen diskret und kontinuierlich zu beachten ist. Also, die nächste Art von Daten, die wir haben werden, ist kategorisch. Kategoriale Daten haben nicht wirklich eine mathematische Bedeutung, und Sie wissen vielleicht auch, dass es sich um qualitative Daten und kategoriale Daten handelt. Es beschreibt Merkmale. Ein gutes Beispiel dafür wäre beispielsweise das Geschlecht. Hier gibt es also keine echte mathematische Bedeutung für das Geschlecht. Natürlich, wissen Sie, wenn Sie Daten haben, können
Sie sagen, männlich ist 0 und weiblich ist eins. Aber Sie können die beiden Zahlen nicht wirklich vergleichen, obwohl Sie ihnen Zahlen zuweisen. Und Sie können dies einfach tun, damit Sie es später aufteilen können. Ihr Computer kann es verstehen, aber es macht keinen Sinn, zu vergleichen. Du kannst nicht sagen, du weißt schon, ist männlich gleich 0? Nun, man kann sagen, männlich ist nicht gleich weiblich, aber man kann nicht wirklich sagen, ist eine größer als die andere oder eine ungefähr gleich dem anderen. Diese Dinge ergeben keinen Sinn, weil sie nicht gut definiert sind. Was bedeutet das? Und man kann sie auch nicht wirklich zusammenfassen. Man kann nicht sagen, männlich, weiblich. Aber das tut es nicht, es gibt Ihnen keine dritte Kategorie oder so. Also Kategorien, die Sie nicht wirklich Mathematik auf sie anwenden können, aber es gibt schöne Möglichkeiten, Ihre Daten zu teilen oder zu gruppieren. Und sie liefern diese schönen qualitativen Informationen, die noch wichtig sind. Es ist nur, du kannst nicht wirklich so gut gehen, weißt du, wie sie auf einem Löwen zu plotten oder so etwas. Das sind also wichtige Dinge, die mit kategorialen Daten zu beachten sind. Und dann wäre ein anderes Beispiel zum Beispiel ethnische Zugehörigkeit, oder man könnte auch Staatsangehörigkeit haben. All diese Dinge sind Beispiele für kategoriale Datentypen. Ähm, ja, und so, wie wir gesagt haben, können
Sie ihnen Zahlen zuweisen. Aber das ist wirklich nur für Ihren Code, so dass es einfach ist, sie irgendwie aufzuteilen, aber Sie können sie immer noch nicht wirklich vergleichen. Wie werden Sie Nationalitäten vergleichen? Es gibt wirklich keine Definition, um einen Typ von Kategorie mit einem anderen zu vergleichen. Ordnung? Und so ist die dritte Art von Daten
, die Sie begegnen können, etwas, das Ordinaldaten genannt wird. Ordinaldaten sind eine Mischung aus numerischen und kategorialen Daten. Und ein gutes Beispiel dafür wären Hotelbewertungen. So haben Sie Sternebewertungen 001234 oder fünf Sterne, oder vielleicht sogar sechs Sterne oder was auch immer es ist. Was auch immer Hotels bis in diese Tage gehen, ähm, aber es ist immer noch nicht so einfach zu vergleichen. Ich bin mir sicher, dass Sie zwei verschiedene Arten von Drei-Sterne-Hotels gesehen haben. Einer von ihnen hatte das bloße Minimum, dass die Betten in Ordnung waren, aber es war nicht wirklich etwas Besonderes. Und dann hatten Sie diese Drei-Sterne-Hotels, die Sie hätten schwören können, wo mindestens vier Sterne. Und so machen Sternbewertungen Sinn. Wir können sagen, wissen Sie, ein Vier-Sterne-Hotel ist wahrscheinlich besser als das Drei-Sterne-Hotel, weil es Standards gegeben hat. Es gibt Standards für diese Dinge. Sie wurden überprüft, wissen Sie, wenn Sie in ein Vier-Sterne-Hotel gehen, wissen
Sie, was Sie erwarten. Aber es ist noch nicht vollständig definiert. So wie auf dieses Drei-Sterne-Beispiel zurückzukommen, ist es sehr schwer. Sagen Sie einfach, hey, wir gehen ins Drei-Sterne-Hotel. Es ist sehr schwer, genau zu wissen, was zu erwarten weil es verschiedene Teile von Drei-Sterne-Hotels gibt. Es gibt drei Sterne Hotels, die sich entwickelt haben, wie ein Schwimmbad vielleicht oder so etwas. Und dann gibt es diese Drei-Sterne-Hotels, die wirklich eher
wie Hostels sind oder etwas, das ich gerade hinter dem Zwei-Sterne-Hotel geschafft habe. Und so ist es viel schwieriger zu definieren oder einfach zu wissen, was zu erwarten ist. Nun, wenn Sie Durchschnittswerte der Sternsystemzone nehmen, dann bekommen Sie eine viel bessere Vorstellung davon, was los ist. Also, wenn Sie Verbraucherbewertungen oder so etwas haben und sagen, oh, von 500 Bewertungen, hat
unser Hotel eine durchschnittliche Bewertung von 3,8. Wissen Sie, dass das Drei-Sterne-Hotel, das Sie betrachten, so ziemlich ein Vier-Sterne-Hotel ist. Es fühlt sich an wie ein Vier-Sterne-Hotel, obwohl es vielleicht nicht alle diese Qualifying-Eigenschaften hat, das ist die Art von Gefühl, das Sie von ihm bekommen. Während von einem anderen Drei-Sterne-Hotel, können
Sie eine Lesung von 2,9 oder so haben und sie sind, wissen
Sie, wissen Sie, dieses Hotel ist eher am unteren Ende des Drei-Sterne-Hotels. Manche Leute betrachten es vielleicht nicht einmal als drei Sterne. Und natürlich, wissen Sie, diese Bewertung kann ein wenig voreingenommen sein weil sie zuerst in ein anderes Drei-Sterne-Hotel gingen, und dann gingen sie zu diesem und sie erwarteten etwas ganz anderes von einem Drei-Sterne-Hotel. Also sagten sie, das dürfen keine drei Sterne sein, das sind zwei Sterne. Aber es ist wegen der Art, wie das Ranking System unter und alles zu finden ist. Und so, wenn wir diese Durchschnittswerte haben, aber diese Ordnungszahlen als die Art von Start, ein wenig mehr Sinn zu machen. Okay, also lassen Sie uns eine kleine Übung durchgehen und sehen, ob wir identifizieren können, mit welcher Art von Daten wir es zu tun haben. Das erste, was wir uns ansehen werden, ist die Antwort auf das Glück der Umfrage. Nun, Sie haben Leute, die eine Umfrage ausfüllen
und dann diese, und dann eine der Fragen ist, wie würden Sie Ihr Glück bewerten und es wird schlecht, neutral, gut oder ausgezeichnet sein. Welche Art von Daten mit diesem B? Nun, das wäre eine Ordnungsart von Daten, weil es immer noch eine Form von Kategorien ist. Und Sie fragen nach der subjektiven Meinung, aber es ergibt Sinn. Siehst du, du kannst sie immer noch vergleichen. Man kann sagen, ausgezeichnet ist größer als gut, gut ist größer als neutral, neutral ist größer als schlecht. Aber was genau bedeutet es, gut und ausgezeichnet zu sein? Weißt du, wo ziehen verschiedene Leute die Grenze dafür? Dass es immer noch ein bisschen Vage ist,
aber im Allgemeinen ergibt es keinen Sinn und man kann es nicht vergleichen. Und wenn Sie eine Menge von Umfragen haben und Sie sie Durchschnitt haben, die Werte, die Sie bekommen werden, wahrscheinlich sehr gut repräsentativ oder zumindest ziemlich gut repräsentativ sein. In Ordnung? Also, wenn wir uns die nächste Sache ansehen, die die Höhe eines Kindes sein wird. Welche Art von Daten sind das? Jetzt? Wir können nicht sagen, es ist wahrscheinlich numerisch und gut, es ist eigentlich definitiv numerisch. Die Höhe eines Kindes ist also ein numerischer Wert. Aber lassen Sie uns ein wenig tiefer gehen und sagen, ist die Höhe eines Kindes diskret oder ist es die Höhe eines Kindes kontinuierlich? Nun, auch wenn man die Höhe
misst, bekommt man so etwas wie fünf Fuß fünf drei oder 160 Zentimeter oder so etwas. Es ist kein diskreter Wert, denn um diese Höhe zu erhalten, müssen
Sie jede einzelne Höhe von vier erreicht haben. Und obwohl Sie es im Moment vielleicht messen, runden
Sie es irgendwie ab, wie viel Ihr Maßband messen kann. So wie Ihr Maßband ist Art der Begrenzung der Höhe. Aber wenn Sie ein super,
super präzises Messgerät hätten , könnten
Sie nicht nur, wissen Sie,
fünf Fuß, drei oder so etwas messen . Sie könnten wirklich ins Detail gehen mit den Zoll und den Dezimalstellen dort und allem, was los ist. Die Höhe eines untergeordneten Datentyps wäre also ein numerischer Datentyp, aber er wäre kontinuierlich. Alles klar, jetzt denken wir darüber nach, über das Gewicht eines Erwachsenen zu reden. Erwarten Sie, dass das Gewicht eines Erwachsenen entweder diskret oder kontinuierlich ist? Also können wir wahrscheinlich zustimmen, dass es numerisch ist, weil es ein Gewichtswert ist. Es ist, es ist ziemlich definiert, eine Zahl zu sein. Was erwarten Sie, dass es diskret oder kontinuierlich ist? Während die richtige Antwort hier wieder ununterbrochen sein wird, denn um ein bestimmtes Gewicht zu erreichen, hätten
sie vorher jedes einzelne Gewicht dazwischen erreicht. Also wieder, Gewicht ist etwas, das wir als kontinuierlich betrachten können. In Ordnung? Und so schließlich, schauen wir uns die Anzahl der Münzen in ihrer Brieftasche. Auch hier können wir schon mit dem Namen, es sagt die Anzahl der Münzen. So können wir wahrscheinlich zustimmen, dass dies eine numerische Art von Daten ist, aber die Anzahl der Münzen in Ihrem Geldbeutel ohne diskret oder kontinuierlich sein? Nun, die Antwort wäre diskret, weil es nicht wirklich wichtig ist. Was ist Ihre Notiz, die Ihre Münzen sind, sie könnten 57 Stück sein, das könnten 25 Cent Stücke sein, 10 oder fünf oder
eins, so etwas wie eine Zwei oder so. Aber sie werden es nicht sein, aber die Anzahl der Münzen, die Sie haben werden, werden
wir auf eine ganze Zahl zusammenfassen. Sie können also eine Münze haben, zwei haben, Sie können drei,
all diese Dinge haben , aber Sie können keine unendlichen Bruchteile einer Münze haben. Man kann nicht, sagen wir, wissen Sie,
die Quadratwurzel von 2 Münzen haben , das macht nicht wirklich Sinn. So haben Sie eine definierte Schrittgröße, Sie haben eine Münze. Und dann, wenn Sie eine zweite Münze haben, die Sie haben, weil die dritte Menge von drei, Sie gehen in Schrittgrößen von eins. Also für die Anzahl der Münzen in Ihrer Brieftasche, würden
wir diskrete numerische Daten haben.
3. Arten von Durchlässen: Hey alle, es ist Max und willkommen zurück. In diesem Tutorial werden wir über die verschiedenen Arten von Durchschnittswerten sprechen. Jetzt werden wir die drei verschiedenen Arten von Durchschnittswerten sehen, das ist der Mittelwert, der Median und der Modus. Alles klar, fangen wir an. Also fangen wir mit dem Gemeinen an. Nun, der Mittelwert ist der typische Durchschnitt, den Sie kennen. Und wirklich, was der Sinn ist, dass Sie einfach alle Ihre Werte
summieren und dann teilen Sie sie durch die Gesamtzahl der Werte, die Sie haben. Nun, die großen Vorteile des Mittelwerts sind, dass es sehr leicht zu verstehen ist. Es macht Sinn. Wir haben nur alles, was wir haben, und wir werden nur irgendwie alle aufteilen und es dann durch das, was wir haben. Und das sollte uns eine gute Darstellung dessen geben, was der Durchschnitt ist. Und es berücksichtigt auch alle Daten. Da wir also alles addieren und dann durch die Menge der Daten dividieren, berücksichtigen
wir jeden einzelnen Datenpunkt. Nun, es gibt einige Probleme damit. Eines der Probleme ist also, dass der Mittelwert möglicherweise nicht immer die beste Beschreibung ist. Und wir werden sehen, warum, wenn wir uns
Beispiele dafür ansehen , wann wir den Median und den Modus verwenden sollten. Und der Mittelwert wird auch sehr stark von Ausreißern beeinflusst. Da wir also alles in Betracht ziehen, je wenn wir große Ausreißer haben, wird es wirklich ändern, wie unser gemein aussieht. Also, wenn wir nur normale Werte zwischen 15 und plötzlich haben wir etwa 10 Tausend da drin. Das wird sich wirklich auf unsere Gemeine auswirken. Der Mittelwert wird also stark von Ausreißern beeinflusst. Und je größer der Ausreißer ist, desto mehr wird der Mittelwert davon beeinflusst. In Ordnung, also lassen Sie uns einige Beispiele für den Mittelwert sehen. Wir werden zuerst ein gearbeitetes Beispiel durchlaufen und wir können hier unseren Datensatz sehen
, der nur eine Reihe von Zahlen ist. Und was wir tun werden, um den Mittelwert zu berechnen, da wir einfach jede einzelne
dieser Zahlen nehmen und sie addieren werden. Und wir können das Gesamtergebnis sehen, das wir hier bekommen. Und das nächste, was wir tun werden, ist, dass wir dieses Gesamtergebnis nehmen und die Anzahl der Datenpunkte zählen, die wir haben. Und wir werden eins durch das andere teilen, was uns dann unsere Gemeine gibt, wie wir hier sehen können. Das ist also eine Beispielberechnung des Mittelwerts, aber lassen Sie uns einige Beispielanwendungen des Mittelwerts sehen. Also, wann würden wir es benutzen? Nun, gute Anwendung würde sagen, wenn man sich die Zeit anschaut, die man braucht, um zum Supermarkt zu gehen. Also manchmal ist der Spaziergang ein bisschen schneller und vielleicht dauert es 20 Minuten, um dorthin zu gelangen. Manchmal ging er etwas langsamer. Es dauert die 25, aber im Durchschnitt dauert es irgendwo wie 22 oder vielleicht 22 und eine halbe Minuten oder so etwas. Also, wenn du sagst, ich gehe in den Supermarkt, magst du, dass es mich so viel Zeit braucht, um dorthin zu kommen. Ein weiteres gutes Beispiel für den Mittelwert wäre die Prüfungsnote für eine Klasse. Um also ein gutes Verständnis davon zu bekommen, wie die Leute in einer Prüfung oder in einer Klasse tun, können
Sie sich die mittlere Prüfungsnote im letzten Jahr ansehen. Und da es Prüfungswerte gibt, sind irgendwie in einem kleineren arrangieren, wird
ein Meeting gut zu verwenden sein, weil Sie alles zwischen 0 bekommen können. Aber realistisch gesehen wird niemand wahrscheinlich eine 0 bekommen. So ist Ihre Reichweite noch kleiner und Sie sind weniger von Ausreißern betroffen. Und Sie wissen irgendwie, wie schwer die Klasse
sein wird , nur indem Sie ihre Mittel vergleichen können. Wenn man sich also eine Klasse anschaut und ihr Mittelwert höher ist als die andere, aber sie haben eine große Anzahl von Schülern oder so, dann kann man wahrscheinlich sagen, hey, es ist einfacher, hier eine gute Note zu bekommen, so etwas. Oder vielleicht, weißt du, einige dieser einfacheren Überbeanspruchungen, ohne zu tief hinein zu tauchen. In Ordnung, ein weiteres gutes Beispiel für das Mittel wäre zu sagen, wie viel Schokolade brauchst du, wenn du diese Art von süßem Verlangen bekommst? Und du wirst nicht sagen, oh, nein,
ich brauche einen Schokoriegel, zwei Schokoriegel oder drei. Aber wie Sie sagen werden,
oh, im Durchschnitt, wissen Sie, ich brauche, wissen Sie, vielleicht drei Viertel einer Schokoriegel. Und manchmal möchte ich vielleicht ein bisschen mehr, weil ich danach fühle. Und wenn ich anfange, Schokolade zu essen sehne ich mich noch mehr. Manchmal, weißt du, ich habe es zuerst und wie, der Geschmack sitzt gerade nicht richtig bei mir. Und so habe ich ein bisschen weniger. Aber das sind irgendwie die Menge der Dinge. Also, wenn du dieses Verlangen hast, weißt du, entweder sagst du, Oh, ich werde versuchen, stark zu sein, oder du bist wie, na ja, ich kenne dieses Gefühl und ich weiß, wenn ich
etwa drei Viertel einer Tafel Schokolade esse oder so was, bin
ich gehen, um sich gut zu fühlen, wird
mein Verlangen zufrieden sein. Also weißt du irgendwie, was du erwarten kannst. Dies sind also einige Beispiele dafür, wie wir mit einem Mittelwert umgehen würden. Nun, wenn wir die gemeine verwenden würden. In Ordnung, also schauen wir uns das nächste an, das der Median sein wird. Nun stellt der Median den Mittelwert in Ihrem Dataset dar. Wenn Sie nun eine gerade Anzahl von Datenpunkten haben, haben
Sie keinen mittleren Wert. Und in diesem Fall wird der Median der Mittelwert der beiden Werte sein. Es werden also die beiden Mittelwerte addiert und dann durch zwei geteilt. Die Vorteile der Verwendung eines Medianwerts sind also, dass der Median manchmal genauer sein kann als der Mittelwert, und wir werden einige Beispiele dafür sehen. Der Median teilt auch Ihre Daten gleichmäßig auf, so dass Sie nicht wirklich von
dem Mittelwert betroffen sind, in dem Sinne, dass, wenn Sie einen Ausreißer
im Mittelwert haben und es alles nach rechts zieht. Es könnte sein, dass Ihr Ausreißer die Dinge so weit nach rechts zieht. Alle Ihre Daten befinden sich links vom Mittelwert und nur die Ausreißer auf der rechten Seite. Das wäre also ein Extremfall, aber das kann nicht passieren. Während sich der Median,
wissen Sie immer direkt in der Mitte Ihrer Daten befindet. Und der Median kümmert sich auch nicht um Ausreißer. Also, wenn Sie riesige Ausreißer am Anfang und am Ende haben, ist es nicht wirklich wichtig, weil Ausreißer per Definition nicht sehr häufig sind, weil sie Ausreißer sind. Und wenn Sie also einige am Anfang haben oder am Ende haben, werden
sie sehr wenige in der Zahl sein, was sie Ausreißer macht. Und deshalb kümmert sich der Median nicht so sehr um Ausreißer. Ein Betrüger ist jedoch, dass der Median Ihnen
nicht wirklich viele Informationen über den Rest der Daten gibt. Sicher. Du weißt, was im Zentrum steht. Ich weiß nicht, wie sich alles um mich herum verhält. Sie wissen nur, wo der Mittelpunkt unserer Daten steht. Also lassen Sie uns einige Beispiele sehen. Wir werden ein gearbeitetes Beispiel für uns machen, wo wir unseren Datensatz hier sehen. Und wir können zählen, wie viele Werte wir haben. Wenn Sie von links nach rechts gehen, dann können wir sagen, dass wir 123456789, 10, 11, 12 und 13 Datenpunkte haben. Also haben wir eine ungerade Zahl. Und so
wird unser Medianwert, unser Mittelwert, der siebte Datenpunkt sein, weil er sechs von Anfang an ist und auch sechs vom Ende entfernt ist. Es ist sowohl vom Anfang als auch vom Ende gleichermaßen verteilt. Deshalb sehen wir, dass unser Medianwert hier 26 ist. Es befindet sich direkt im Zentrum. Wofür nützt der Median? Nun, der Median wird oft verwendet, wenn man sich das Haushaltseinkommen eines Landes anschaut. Denn wenn du den Mittelwert nutzen würdest, dann würden diese Milliardäre einfach völlig, weißt
du, sie würden dir
eine falsche Beschreibung geben , was wirklich ein durchschnittliches Haushaltseinkommen ist. Denn normalerweise, wenn man einen Durchschnittswert hat und man sagen kann, oh, das durchschnittliche Haushaltseinkommen aus dieser Familie würde sagen, $40.000 oder so etwas, oder das wäre der Medianwert. Aber wenn Sie stattdessen den Mittelwert verwenden würden, dann würden alle Milliardäre und Millionäre des Landes das Haushaltseinkommen ändern. Und dann würden Sie sagen, oh, wissen Sie, das durchschnittliche Haushaltseinkommen pro Familie würde wie 60 K. Und das ist eine schlechte Darstellung, weil es Ihnen nicht wirklich einen realistischen Blick auf das gibt, was die durchschnittliche Haushaltsfamilie hat. Und die durchschnittliche Haushaltsfamilie tut es wirklich. Es ist auf etwa 40 K zentriert und sicher, es gibt Leute unter ihnen, es wird hoch sein, aber das ist, was in der Mitte ist. Wenn Sie stattdessen den Mittelwert für Ihren Durchschnitt verwenden würden, würden
Sie irgendwie dieses überhöhte Haushaltseinkommen bekommen, das für den Rest Ihres Landes nicht repräsentativ wäre . Ein weiteres gutes Beispiel für den Median wäre die Entfernung, die Menschen zurücklegen, um zur Arbeit zu kommen. Wenn man sich das auf Kilometer anschaut, dann kann man sagen, oh, weißt du, einige Leute, sie gingen zur Arbeit und es ist höchstens ein Kilometer, also so etwas wie das. Und dann können Sie erwarten, dass Menschen reisen. Die meisten Menschen reisen um die drei Kilometer, um zu arbeiten. Und sicher gibt es einige, wissen Sie, die viel weiter reisen, weil sie außerhalb der Stadt leben wollen. Und es gibt einige, die sehr, sehr kurze Strecken zurücklegen, weil sie ein Haus direkt neben
dem Büro haben oder ihr Haus ist das Büro oder so etwas,
je nachdem, wo Sie arbeiten. Dann können Sie sich ansehen, wissen Sie, wo in der Mitte, wie reisen die Menschen zur Arbeit, welche Zeit oder welche Entfernung müssen sie zurücklegen? Und so wäre das eine weitere gute Verwendung des Medians. Ein Median. Ein weiterer guter Medianwert ist, was geben Sie normalerweise aus, wenn Sie ein neues Kleidungsstück kaufen? Und so, sicher, manchmal kann es zu
diesem teuren Bekleidungsgeschäft gehen und man könnte eine Jacke bekommen, die,
ich weiß nicht, nördlich von ein paar 100 Euro oder Dollar kostet , was auch immer System Sie benutzen wollen. Und manchmal kann man in einen Secondhand-Shop gehen und es für sehr billig bekommen. Aber normalerweise, wenn du in Geschäfte gehst, eine Jacke, weiß ich nicht, vielleicht ist Castiel $100 oder so etwas. Und so, wissen Sie, wenn Sie ausgehen, können
Sie erwarten, ungefähr $100 zu zahlen. Nicht wirklich. Ich nehme so viel Buchhalter zu, in welche Geschichte du gehst. Die meisten Geschäfte, die Sie besuchen werden,
werden diesen Preis für die Jacke haben. Das wäre also eine weitere gute Verwendung für den Median. Okay, schauen wir uns die dritte Art von Durchschnitt an, die wir tun können, was der Modus ist. Jetzt betrachtet der Modus den am häufigsten verwendeten Wert in Ihren Daten. Und es ist nicht wirklich definiert, wenn es mehrere gängigste Werte gibt. Aber wenn es nur einen am häufigsten auftretenden Wert gibt, dann wäre das Ihr Modus. Und so werden wir in einer Sekunde ein Beispiel dafür sehen. Für die Profis der Verwendung des Modus ist, dass es nicht nur auf numerische Daten anwendbar ist. Wenn man sich
zum Beispiel Kategorien anschaut , dann kann man sagen: „Hey, wir haben fünf Leute aus den USA und zwei aus Kanada und eine aus Frankreich. Und Sie wissen, dass der Modus
die USA sein wird , weil es fünf Leute aus den USA gibt. So Modus ist der große Durchschnitt. Das ist nicht nur anwendbar auf numerische Daten in dem Sinne, dass Sie technisch auch auf Kategorien oder zwei Ordnungszahlen anwenden
können, wenn Sie wollten, so dass Sie das häufigste Land sagen können, das wir haben, wo die, die durchschnittliche Art des Landes, das wir hier erwarten, sind die USA und sicher, dass es andere Länder gibt, aber die durchschnittliche oder die häufigste wird in diesem Fall die USA sein. Also ja, und dann natürlich ist
der andere Profi, dass wir erlauben zu sehen, was am häufigsten ist, was am meisten auftaucht. Eine große Nutzung des Modus. Wenn es Fälle gibt, in
denen wiederkehrende Werte viel passieren, ist dies beispielsweise bei diskreten Zahlen der Fall. In diskreten Zahlen treten Werte häufig wieder auf. Und so ist es gut, den Modus zu verwenden. Der Modus wird sein, dass es nicht wirklich tut, wieder gibt Ihnen ein gutes Verständnis der Rest der Daten ähnlich dem, was wir für den Median hatten. Aber auch, es ist nicht wirklich anwendbar, wenn Sie nur eine Reihe von verschiedenen Arten von Daten haben, dann wird es nicht wirklich einen Modus geben, wenn es nicht genug
von jedem Daten gibt und es nicht wirklich gut ist, den Modus zu verwenden. Sie möchten nicht Tausende von Datenpunkten haben, und sie sind am häufigsten wiederkehrenden Wert. Tritt wieder auf wie drei Mal, das ist nicht gut. Sie möchten den Modus für Situationen verwenden, in denen Daten häufig wiederkommen. So wie wir das Länderbeispiel gesehen haben, aber lassen Sie uns tatsächlich ein funktionierendes Beispiel sehen, aber auch einige andere Beispiele für den Modus. Also das gearbeitete Beispiel hier wäre wieder, wir nehmen unseren Datensatz und wir können zählen, wie oft verschiedene Zahlen erscheinen. Und so, wenn wir durch die Zahlen gehen, wird sehen, dass 26 tritt am meisten. Und so wird das unser Modus hier sein. Also haben wir 22 und 25, die beide zweimal auftreten, aber 26 tritt dreimal auf. Und so 26 wird unser Modus sein, wird unser vorkommender Wert sein. Nun wird der Modus für Dinge wie den Höhepunkt eines Histogramms nützlich sein. Wenn Sie also dieses Histogramm zeichnen und nicht wissen, was ein Histogramm ist, machen Sie sich keine Sorgen. Das werden wir auch in einem späteren Vortrag behandeln, wenn wir uns mit der Datenvisualisierung befassen. Aber der Höhepunkt eines Histogramms, das Ihnen den Modus der Daten zeigt,
das am häufigsten vorkommende Datum. Eine gute, eine weitere Verwendung des Modal sein, wenn man sich das Einkommen der Arbeitnehmer anschaut und begleitet. Weil das begleitet wird, weißt du, du kannst wieder den Boss haben, der den Mittelweg abnimmt. Und Sie können eine höhere Ebene Mitarbeiter, auf die wir Art der Verschiebung der Median haben. Aber wenn ein Drittel Ihrer Mitarbeiter Mindestlohn verdienen, wird
das nicht nur der beste Durchschnitt sein oder sagen, dass 40% Ihrer Mitarbeiter einen Mindestlohn verdienen, sind wahrscheinlich nicht Ihre Mitarbeiter, weil das kein sehr gutes System wäre. Aber wenn 40 Prozent der Mitarbeiter in der Firma, die Sie suchen, verdienen den Mindestlohn. Das ist nicht wirklich gut. Und wenn Sie sich den Modus ansehen, werden
Sie leicht sehen, dass der Durchschnitt in diesem Fall wäre, Mindestlohn zu verdienen, weil das ist, was die meisten Menschen verdienen. Und sicher, der Boss, er oder der CEO oder so, weißt du, er kann den Mittelwert stark nach oben verschieben. Und dann die Tatsache, dass Sie höhere Höhen haben. Wenn Sie sich den Medianwert ansehen, Sie vielleicht sogar zu weit, zu weit nach rechts, den Sie wirklich nicht in Betracht ziehen. Diese Mitarbeiter sind überhaupt in den gleichen Beträgen. Aber Sie wollen wirklich diese Beschreibung bekommen, was Sie hier aus dem Modus bekommen. Und dann auch das Ergebnis einer Wahl ist, wo Sie den Modus für und sicher verwenden, manchmal haben Sie nur zwei Werte, manchmal haben Sie vielleicht drei. Aber wenn Sie verschiedene Kandidaten haben und sagen, dass Sie fünf verschiedene Kandidaten haben, dann
wird die Person mit den meisten Stimmen die Wahl gewinnen, weil sie die meisten haben. Und so dort, wieder, werden Sie den Modus verwenden.
4. Datenbreiten: Hey alle, es ist Max und willkommen zurück in meinem Tutorial. In diesem Vortrag werden
wir uns die Verbreitung von Daten ansehen. Und wir werden beginnen mit der Betrachtung der Begriffe, Reichweite und Domain. Dann gehen wir weiter zu verstehen, was Varianz und Standardabweichung bedeutet. Und schließlich schauen wir uns Kovarianz und Korrelation an. In Ordnung, also fangen wir mit dem Bereich und der Domäne an. Jetzt. Lass uns mit der Reichweite los. Der Bereich ist also im Grunde die Differenz zwischen dem
Maximal- und dem Minimalwert in unserem Datensatz. Also das ist, das ist irgendwie einfach zu denken. Also lasst uns das einfach mit einem funktionierten Beispiel durchgehen. Wir gründen eine Firma in der Stadt, und das ist die einzige Firma in der Stadt. Und der Eigentümer der Gesellschaft verdient ein Gehalt von 200 K pro Jahr. Und dann die Angestellten, sie alle haben unterschiedliche Gehälter, aber die niedrigsten Angestellten oder vielleicht die
Teilzeitbeschäftigten verdienen so etwas wie 50 K pro Jahr. Also haben wir Daten von 15 k bis 200 K und so ist unsere Reichweite der Unterschied zwischen dem Maximum und dem Minimalwert in unserer DNA. Also nehmen wir 200 K und wir subtrahieren 15 k davon. Und wir haben eine Reichweite von 185 K im Gehalt. So groß kann sich unser Gehalt ändern. So kann es, wenn wir mit 15 k beginnen, kann
es den ganzen Weg bis zu 200 k. also ist das eine 185 K Reihe von angestellten Leuten in dieser Firma haben können, okay. Und die Domäne wird die Werte sein, die Datenpunkte übernehmen
können oder die Region, in der unsere Datenpunkte liegen. Wenn wir also dieses Beispiel noch einmal betrachten, wird
unsere Domain bei 15 k beginnen und bis zu 200 K gehen. Also, was die Domain definiert, definiert sie Art von Start- und Endpunkten oder a definiert einen Abschnitt in unseren Daten. Und so in diesem Fall würde
die Domäne definieren Nino es würden wir beginnen bei 15 kam und es würde bis zu einem 100 K. Und was die Domäne sagt uns ist, dass alles oder alle Gehälter innerhalb zwischen 15 k und 200 K, dass sie sind möglich. Aber innerhalb dieser Domain oder innerhalb dieses Unternehmens ist
es nicht möglich, Gehälter außerhalb nach dieser Domain zu haben. Also, wenn unsere Domain wieder 15 k bis 200 K ist, dann können wir kein Gehalt von 14 k haben, weil das außerhalb unserer Domain ist. Und wir können auch kein Gehalt von 205 K haben, denn wieder, das ist außerhalb unserer Domain. So sind so ziemlich alle Gehälter innerhalb von 15 bis 200 K möglich. Alles außerhalb der Domain ist nicht möglich, da dies nicht mehr in unserer Domain ist. In Ordnung, also gehen wir weiter und schauen uns die Varianz und Standardabweichung an. Und wir werden zuerst über die Varianz sprechen. Und was uns die Varianz sagt. Es sagt uns ziemlich viel, wie sehr sich unsere Daten vom Mittelwert unterscheiden. Und es betrachtet jeden Mittelwert, und es wird untersucht, wie unterschiedlich jeder Wert vom Mittelwert ist. Und dann gebe ich uns die Varianz. Es macht einige Berechnungen und wir müssen die Formel nicht wirklich kennen. Es ist jetzt wichtiger, nur das Konzept der Varianz zu verstehen. Und was Varianten sagen uns wirklich ist, dass es uns sagt, wie stark unsere Daten schwanken können. Wenn wir also eine hohe Varianz haben, bedeutet
das, dass sich viele unserer Werte
stark vom Mittelwert unterscheiden und das wird unsere Varianz größer machen. Wenn wir eine geringe Varianz haben, bedeutet
das, dass viele unserer Werte sehr nahe am Mittelwert liegen. Und das wird unsere Varianz niedriger machen. Und jetzt, wenn wir uns der Standardabweichung zuwenden, ist
die Standardabweichung buchstäblich nur die Quadratwurzel der Varianz. Wenn du also eins verstehst, dann verstehst du auch den anderen. Und jetzt können wir dies kombinieren, wenn wir den Bereich
unserer Daten kennen , um ein besseres Gefühl für Daten zu erhalten. Und so lassen Sie uns ein Beispiel verwenden, wo wir zwei verschiedene Länder haben, Länder A
und B. Und sie haben die gleiche mittlere Höhe für Frauen, was in diesem Fall sagen wir, ist ein 165 Zentimeter oder fünf Fuß, vier. Und wir werden sagen, dass der Bereich der Höhen für sie identisch sein könnte. Nehmen wir an, sie können reichen. Die Reichweite, sagen wir, könnte etwa 30 Zentimeter oder so sein. Kann überall hingehen, von sagen, 150 bis zu 80. Oder wir können das sogar erhöhen und sagen, wie überall von 140 bis zu zwei Metern oder so etwas. Aber lassen Sie uns einfach die Reichweite für diese gleich behalten. Und beide haben eine mittlere Höhe. Nun, wenn Land a eine Standardabweichung von fünf Zentimetern hat, die ungefähr zwei Zoll beträgt, die ungefähr zwei Zoll beträgt,
und Land B eine Standardabweichung von zehn Zentimetern hat, was ungefähr vier Interessen ist, dann können Sie erwarten zu wissen, diese Werte ist, dass, wenn Sie in Land ein gehen, die Menschen, die Sie sehen werden, werden viel ähnlicher in der Höhe sein. Unsere Standardabweichung ist also niedriger. Das bedeutet, dass unsere Werte niedriger vom Mittelwert abweichen. Und das bedeutet, dass viele der Frauen, die Sie sehen werden, sehr
nahe an 165 Zentimeter oder fünf Fuß,
vier plus, minus zwei Zoll sein werden. Es ist also genau das, was man erwarten kann, wenn man zu dieser Firma geht, wenn man in dieses Land geht, ist,
dass jeder sein viele der Frauen werden ungefähr so hoch sein. Wenn Sie in Land B gehen, haben
sie eine viel größere Standardabweichung. Und so kann man nicht wirklich erwarten, dass jeder etwa 504 ist, weil es viel mehr schwankt. Und wenn Sie in dieses Land gehen, können
Sie erwarten, viel mehr Frauen unterschiedlicher Höhe zu sehen, sowohl größer als auch kürzer als 54. In Ordnung, und so können wir irgendwie die Varianz
und die Standardabweichung oder die Standardabweichung verwenden , um
uns ein wenig mehr Perspektive auf unsere Datenzu geben uns ein wenig mehr Perspektive auf unsere Daten und uns irgendwie einige Dinge über unsere Daten abzuleiten. Also reden wir über Kovarianz und Korrelation. Und Kovarianz wird bereits die Namensvarianz darin haben. Aber Kovarianz wird zwischen zwei verschiedenen Variablen gemessen. Und es misst so ziemlich, wenn Sie zwei Variablen haben. Sagen wir mal,
wir trinken morgens Kaffee und meine allgemeine Müdigkeit. Also, wenn ich diese beiden Werte benutze und Sie wissen,
Datenpunkte bekommen so viel Kaffee trinke ich morgens und
so müde ich mich heute Morgen fühle oder so etwas. Und das, was die Kovarianz tut, ist, dass es aussieht, wie stark sich einer
dieser Werte unterscheidet oder sich ändert, wenn ich den anderen ändere. Was bedeutet das, zum Beispiel, wenn ich mehr Kaffee trinke, was die Kovarianz aussehen würde, wie sehr ändert sich meine Müdigkeit? Das macht man also mit Kovarianz. Weißt du, du sagst, ich ändere eins, wie sehr wirkt sich das aus? Die andere Sache, die ich ansehe? Und jetzt ist die Korrelation der Kovarianz sehr ähnlich. So normalisieren wir die Kovarianz, indem durch die Standardabweichung jeder Variablen
dividieren. Das bedeutet also, dass wir die Kovarianz für meinen Kaffeetrinken bekommen und sich müde fühlen. Und dann würden wir nur durch die Standardabweichung von
Dosierungen und Kaffee und eine Standardabweichung davon teilen , dass ich müde bin. Und so wirklich, was wir mit der Korrelation tun, ist, dass wir
es irgendwie auf relative Begriffe herabsetzen, die besser zu unseren Daten passen würden. Das ist also irgendwie die abstrakte Idee. Das Wichtigste, was man im Auge behalten muss, ist, dass wir uns einen
ansehen und sehen, wie sehr sich das ändert, und wir sehen, wie sehr sich diese Änderungen auf die andere auswirken. Ordnung, also gibt es verschiedene Arten von Korrelationswerten, die wir haben können und sie können irgendwo zwischen negativen 11 oder so liegen. Ihre Domäne liegt zwischen negativer 11 und eine Korrelation von einem bedeutet eine perfekte positive Korrelation. Das bedeutet also, wenn eine Variable nach oben geht, geht die andere nach oben. Also für mein Kaffee-Beispiel wäre
das, wenn ich morgens Kaffee habe, dann fühle ich mich auch glücklicher. Je mehr Kaffee ich habe, desto glücklicher fühle ich mich. Und natürlich wird es eine Grenze geben. Aber sagen wir, ich trinke nur bis zu zwei Tassen Kaffee oder so
etwas und ich kann alles dazwischen trinken. Und je mehr ich habe, desto glücklicher bin ich darüber. Das wäre also eine positive Korrelation. Je mehr ich Kaffee habe, desto mehr habe ich Glück. Und so würden sie irgendwie zusammen hinaufgehen. Und wenn wir dann näher an 0 kommen, wird
der Nullpunkt keine Korrelation zu uns bedeuten. Alles zwischen 01 wird also eine Art leicht positive Korrelation sein. Es wird kein Super-Starker sein. Und wir werden einige Beispiele auf der nächsten Folie sehen. Aber ja, also wird alles zwischen 01 eine Art leichte positive Korrelation
sein, nicht super-stark. Und je näher Sie an 0 kommen, desto mehr bedeutet keine Korrelation. Ein Beispiel für den 0 Fall wäre , dass es egal ist, wie viel Kaffee ich morgens trinke. Es wird nicht beeinflussen, ob sie nicht verwandt sind. Das eine wirkt sich nicht auf das andere aus. So konnte ich eine Tasse Kaffee trinken und
einen sonnigen Tag verdienen und eine Tasse Kaffee während des regnerischen Tages. Und es wird das Wetter nicht ändern, es wird nicht das Wetter beeinflussen. Sie sind also ziemlich unkorreliert. Und dann können wir auch in den negativen Bereich hinuntergehen. Und je näher wir dem negativen kommen oder wenn wir genau negative erreichen, bedeutet diese Korrelation des Negativen eine vollkommen negative Korrelation. Und so können wir hier unser Beispiel von Kaffee gegen Müdigkeit nehmen. Und je mehr Kaffee ich habe, desto weniger müde werde ich sein. So geht der Kaffee hoch und Müdigkeit sinkt. So können wir diese Korrelation verstehen. Und es kommt von der Kovarianz. Daher ist es wichtig, die Kovarianz zu verstehen. Normalerweise verwenden wir die Korrelation, weil die Korrelation, weil wir durch die Standardabweichung von jedem geteilt, viel besser zu unseren Daten passen. Nun, es gibt eine Sache, die sehr wichtig ist, sich zu erinnern, und das ist, dass Korrelation keine Ursache bedeutet. Nur weil zwei Dinge korreliert sind, bedeutet das nicht, dass eine das andere verursacht. Also ein gutes Beispiel dafür. Wenn ich in einem Klima lebe, in
dem es am Morgen meist bewölkt ist und ich weiß, dass es am Nachmittag sonnig ist, aber jeden Morgen, wenn es bewölkt ist, trinke
ich Kaffee und dann wird es am Nachmittag sonnig. Das ist nicht, obwohl sie korreliert sind. Ich trinke Kaffee und es wird sonnig. Ich trinke Kaffee nicht dazu führen, dass es sonnig ist. Das ist nur zufällig. Dies nur, weil es jeden Tag passiert und zufällig diese Art von Korrelation erscheint. Aber das bedeutet nicht, dass mein Kaffee trinkt, weißt
du, dazu führt, dass das Wetter besser wird. Eine Ursache wäre, dass ich Kaffee trinke und ich mich weniger
müde fühle , oder ich trinke Kaffee und ich fühle mich glücklich darüber,
weil ich den Geschmack mag wären Ursachen. Das ist also eine wichtige Sache im Auge zu behalten, nur weil die Dinge korreliert sind, bedeutet das nicht, dass eine den anderen verursacht. Okay, also lass uns diese Dinge in einem Diagramm sehen. Und so haben wir hier wieder die Beispiele, über die wir gesprochen haben, aber wir können irgendwie sehen, wie die Daten für verschiedene Arten von Korrelationen aussehen würden. Und so können wir eine perfekte,
perfekte Korrelation von einem sehen . Also geht einer nach oben, der andere geht hoch. Wir können auf der linken Seite sehen, und wir bekommen diese wirklich schöne gerade Linie. Also steigt ein Wert an, der andere Wert steigt mit ihm. Und je näher wir 0 erreichen, desto weniger verwandte oder weniger Korrelation gibt es zwischen ihnen. Und dann desto mehr Varianz haben wir in Daten. So werden wir für den Fall der perfekten Korrelation bemerken, die die eine oder der Fall der perfekten Anti-Korrelation ist, die das Minus ist, die wir wieder das Beispiel für mehr Kaffee hatten, weniger müde. Und in diesen Fällen haben
wir eine sehr schöne dünne Linie und unsere Daten springen nicht viel herum. Aber je näher wir an 0 kommen, desto weniger können wir sehen, dass eine den anderen verursacht, und desto mehr können wir sehen, wie sich unsere Daten verbreiten. Und so würde Korrelation in Bezug auf Grafik aussehen.
5. Quantilen und Brennern: Hey, alle, es ist Mocks und willkommen zurück. In diesem Tutorial werden wir durch Quartile und Perzentile gehen. In Ordnung, also lasst uns anfangen. Was sind also Quantile? Nun, Quantile erlauben uns, unsere Daten
in bestimmte Regionen aufzuteilen , dass, wenn wir mit Wahrscheinlichkeit zu tun haben, sie alle die gleiche Wahrscheinlichkeit haben, aufzutreten. Oder wenn wir es nur mit Datengrößen zu tun
haben, wollen wir unsere Daten in gleiche Regionen aufteilen. Also, das ist, was wir mit Quantilen tun können, ist es, alles aufzuteilen, so dass jedes Mal, wenn wir es teilen, wir gleiche Mengen an Daten haben. In Ordnung? Und so wäre ein Beispiel für ein Quantil etwas, das als Quartil bekannt ist. Und das ist, wenn wir unsere Daten in vier gleiche Regionen aufteilen, daher den Namen Quartil. Ein Quantil ist also der allgemeine Name für dieses Aufteilungsverfahren. Und dann, wenn wir Quartil sagen, bedeutet
das, dass wir Quantile machen, aber für vier gleiche Regionen. Und so ist dies etwas, das Sie wahrscheinlich oft
Online-Hochschulzulassungsseiten oder so etwas sehen würden . Und sie sagen, die Top 25 Prozent unserer Bewerber haben mindestens einen Testergebnis von 90 Prozent oder so, weißt du. Und dann würden sie sagen, die unteren 25 Prozent für Bewerber oder unsere Zulassung oder zugelassene Studenten oder so etwas, haben eine Testnote. Das heißt, ich weiß nicht, 70 Prozent oder 75 Prozent oder so etwas. Und dann ist der Median Testergebnis 85%. So würden Sie über Quartile gehen,
ist, dass Sie die niedrigeren 25 Prozent haben, aber, Mitte, 25 bis 50, dann haben Sie die 50 bis 75, und dann haben Sie die Top 25 Prozent. Also die 75 Prozent auf eine 100. Und sehen Sie, dass Sie diese vier gleichen Regionen haben, die auch Ihren Minimalwert ganz unten, Ihr Maximum an der Spitze enthalten. Und in der Mitte haben Sie Ihren Medianwert. Das ist also der Wert direkt in den mittleren Losen, weil Sie ihn für gleiche Regionen aufteilen. Und so der Wert, der das zweite Quintil trennt, Was sollte die 25, 250 aus dem dritten Quartil, wäre von 50 bis 75
, Dieser Wert wäre es der Medianwert. Ordnung? Und wenn Sie also in Perzentile gehen, Perzentile, die ein Name gewesen sein könnten, Sie wahrscheinlich schon gehört haben. Perzentil ist wiederum ein Beispiel für ein Quantil. Aber anstatt zu sagen, wissen
Sie, wie ein Quartil, tun wir es für, ein Perzentil bedeutet, es in 100 gleiche Segmente zu drehen. Daher werden die Perzentile, die Vergünstigungen am Anfang jedoch genannt. Das ist das, wo sind die Prozent. Und Sie haben vielleicht bemerkt, Prozent bedeutet von 100 oder so, das ist, wenn Sie mit Prozent vertraut sind, dann ist das auch die gleiche Art von Argumentation, woher das kommt. Und so haben wir Perzentile,
was bedeutet, dass wir 100 gleich Segmente in Sie aufteilen. Und so wird ein Beispiel dafür oft in Testergebnissen verwendet. Also, wenn Sie jemals so etwas wie die SATs oder so etwas genommen haben, dann erhalten Sie eine Testnote. Aber man bekommt auch ein Perzentil. Und der Grund, warum das getan wurde, ist, nicht Sie gegen die Tests zu urteilen, sondern Sie gegen alle anderen. Und wenn es ein schwieriger Test ist, dann etwas wie eine Testnote von 60 Prozent zu bekommen, aber Sie sind im 95. Perzentil,
bedeutet, dass Ihre Punktzahl tatsächlich viel besser ist. Und was man zum Beispiel mit Perzentilen sagen kann,
ist, dass jedes Perzentil, in dem man sich befindet, bedeutet, dass man besser ist als so viele andere Menschen. Wenn Sie zum Beispiel das 99. Perzentil erreicht haben, bedeutet
das, dass Sie besser als 99% der Personen sind, die den Test gemacht haben, wäre
das 95. Perzentil 90. Du bist besser als 95 Prozent der Leute, die den Test gemacht haben oder so etwas. Deshalb werden Perzentile oft
für Tests verwendet und werden oft zur Normalisierung verwendet. Weil sie es Ihnen erlauben, in Betracht zu ziehen, wissen Sie, diese Faktoren wie, ist es ein schwieriger Test, ist ein einfacherer Test. Vielleicht sind mehr Leute höher. Also beurteilen sie dich nicht direkt gegen den Test, aber sie normalisieren dich gegen alle anderen, die den Test gemacht haben. Also, wenn du den Test
machst, bekommst du eine Punktzahl. Und dann haben Sie die Perzentil-Prüfungen, wo diese Punktzahl relativ zu allen anderen liegt. Und so diese Perzentile, sie erlauben Ihnen, eine gute Normalisierung zu geben und sie ermöglichen es Ihnen,
große Vergleiche zu machen , weil sie Ihnen erlauben, einige dieser Faktoren irgendwie zu beseitigen. Eine Testschwierigkeit. Und natürlich, wissen Sie, es kann immer Glück in Sachen verwickelt sein
, und das kann nicht auf individueller Basis herausgefiltert werden. Aber wenn Sie dies für viele Studenten tun,
und das ist auch, warum es in dieser Art von großen standardisierten Tests getan ist, dass Sie
ein Perzentil zusammen mit Ihrer Punktzahl erhalten , so dass Sie verstehen, wenn,
vielleicht, wenn Ihre Punktzahl niedriger ist. Aber der Test war wirklich hart, du kannst immer noch sehen, weißt du,
ich habe es wirklich gut gemacht, weil die Leute diesen Test wirklich
hart fanden und es für sie noch schwieriger war als für mich.
6. Bedeutung der Datenvisualisierung: Hey, alle, es ist Max und willkommen zurück. In diesem Tutorial werden wir über die Bedeutung der Datenvisualisierung sprechen. Alles klar, worüber wir reden ist zuerst, dass wir uns die Rolle ansehen, die der Computer für uns spielt und für welche Rolle der Computer tatsächlich gemacht wird. Dann schauen wir uns an, welche Rolle der Mensch in Bezug auf die Datenwissenschaft spielen sollte. Dann schauen wir uns die Präsentation von Daten an. Und schließlich werden wir über die Interpretation von Daten sprechen. Alles klar, also lasst uns anfangen und über die Rolle reden, die der Computer Platz hat. Computer ist viel, viel schneller berechnen als ein Mensch, denn dafür ist er gemacht. Es ist für knirschende Zahlen gemacht, es ist für schnelle Berechnungen gemacht. Wissen Sie, wenn Sie darüber nachdenken, wie schneller Computer im Gigahertz-Bereich sind. Also bedeutet Giga Milliarde, also machen sie jede Sekunde Milliarden von Dingen. Und so sind sie wirklich gut, um sich wiederholende Dinge zu tun, weil sie sie so schnell machen können. Und dann können wir ihnen diese logischen Aufgaben in Bezug auf die Programmierung geben. Und wir geben ihnen eine Struktur und sie
tun es einfach und sie können es immer und immer wieder tun. Sie werden sich nicht vermasseln. Ich kann das Gleiche wiederholen. Sie werden es nicht müde. Und sie sind wirklich gut und sie sind wirklich schnell darin, diese Dinge zu tun. Das ist also die Rolle, die der Computer für Sie spielen sollte. Sei ein Mittel, um diese harten Zahlen knirschen zu lassen und all diese Dinge zu erledigen. Also gibt es wirklich keine Notwendigkeit für Sie, irgendwie
alle diese komplizierte Mathematik zu erarbeiten , weil Ihr Computer es viel besser und viel schneller als Sie. Und es ist auch weniger anfällig für Fehler, wenn Sie es richtig codieren. Das ist also der einzige Teil, in dem du reinkommst und es wird sich nur vermasseln, wenn du dich vermasselst. Aber im Allgemeinen macht unser Computer genau das, was wir ihm
sagen und es ist wirklich gut und es ist wirklich schnell. Welche Rolle sollte ein Mensch im Hinblick auf die Datenwissenschaft spielen? Nun, Menschen haben sich natürlich entwickelt, um Muster zu identifizieren, und wir haben das zuerst für das Überleben getan. Also, wenn wir irgendwo herumlaufen und wir einen,
ich weiß nicht, einen großen Raubtier sehen , der das verbirgt. Wir können das Muster des Raubtieres identifizieren, und wir können es irgendwie aussuchen, obwohl es versucht, sich selbst zu tarnen. So sind die Menschen von Natur aus sehr,
sehr gut in der Identifizierung von Mustern geworden . Und das sieht man auch, wenn man sich die Wolken anschaut und das Ding
sieht, oder man sieht Tierformen in den Wolken oder anderen Dingen. Diese Muster sind also nicht wirklich da, aber die Menschen sind so gut darin geworden, Muster zu identifizieren. Wir können Dinge an vielen Orten sehen. Und das ist es, was Menschen wirklich, wirklich gut darin sind. Wir sind in der Lage, Dinge zu betrachten,
wir sind in der Lage, Muster auszusuchen. Nun, eine andere Sache, die wirklich gut für Menschen ist, ist, dass wir sehr kreativ sind. Und durch ihre Kreativität können
wir auch das Gedächtnis nutzen und es außerhalb des Wissens bringen. Und wir können auch ein allgemeines Verständnis von verwenden, so dass
dies alles Dinge sind, die Computer nicht tun können. Computer sind also ein Mittel, um Sachen zu uns zu bekommen. Aber sobald es tatsächlich da ist, ist
es unsere Aufgabe, unsere Mustererkennungsfähigkeiten zu nutzen. Und natürlich können Sie Algorithmen für maschinelles Lernen später für
bestimmte Muster oder bestimmte Fälle trainieren und sie wirklich gut darin machen. Aber im Allgemeinen, wenn Sie nicht genau wissen, was kommen wird, dann wäre unser erster Schritt als Data Scientist, zu versuchen, diese Muster zu identifizieren. Du nutzt deine Kreativität, nutzt dein Gedächtnis, du weißt schon, bringst all diese verschiedenen Dinge ein. Verwenden Sie all diese verschiedenen Dinge, die Sie menschlich machen und all das auf den Daten verwenden, all diese Dinge, auf die ein Computer einfach keinen Zugriff hat. Ok? Also mit, weißt du, du überlegst das alles. Der beste Weg, all dies zu tun, wäre in Bezug auf die Datenvisualisierung. Sie können also nicht einfach Tabellenkalkulationen mit einer Reihe von Zahlen anzeigen, die Ihnen nicht wirklich helfen. Denn wenn man sich Zahlen ansieht, ist
es wirklich schwer, Muster auszuwählen. Der beste Weg, dies zu tun, wäre nur, Werte zu plotten. Und dann, wenn wir diese Visuals vor uns haben, dann können wir Muster wirklich identifizieren. Wir können sehen, wie die Dinge nach oben und unten gehen und wir können sehen, wie sie schwanken, und wir können sie sehen und eine sehr dünne Linien machen. Wir können uns nur ein Diagramm ansehen und Dinge sehen. Und natürlich, wissen Sie, wir brauchen ein bisschen Übung, um zu verstehen, was diese Grafik uns zu sagen versucht. Aber wenn wir die Grafik und im Allgemeinen verstehen, dann können wir uns neue Graphen ansehen und wir können einfach Dinge sehen. So können wir anfangen, Muster zu sehen. Und sie sind vielleicht nicht immer wahr. Aber das bedeutet nicht, dass wir sie nicht aussuchen können. Und dann ist das später. Sie würden auch einige Tests durchführen, um zu sehen, ob diese Muster mit true, wenn sie Sinn ergeben. Aber im Allgemeinen ist die Datenvisualisierung sehr gut dafür, weil
Sie damit alle Ihre menschlichen Eigenschaften aufrufen können. Die Dinge, die wirklich gut sind, die uns menschlich machen. Die Dinge, über die wir auf der letzten Folie gesprochen haben,
alles, was der Computer nicht tun kann. Und manchmal beschäftigen Sie sich mit nur diesen Zahlen. Es ist Datenvisualisierung ist für Sie und $0,01, so dass Sie diese Dinge sehen können und versuchen, sie auszusuchen und sie später zu verwenden. Aber auch, wenn Sie versuchen, diese Dinge anderen Menschen zu zeigen. Also vielleicht musst du eine Präsentation machen und ich eine Art Zusammenfassung. Dann möchten Sie sicherstellen, dass Ihre Datenvisualisierungen
gut sind , weil die Leute, die sie betrachten werden, viel,
viel weniger geschult sind , Daten zu betrachten und Daten zu analysieren als Sie. Und wenn Sie versuchen, ihnen eine Nachricht zu vermitteln und ihnen einfach
eine große Tabellenkalkulation mit Zahlen zeigen und nur darauf hinweisen, wie hier, schau, schau, schau, schau, diese Zahlen, du weißt schon, sie erscheinen und sie werden so sein, was wirst du hinunterreden? Deshalb ist es wirklich wichtig, wirklich gute Fähigkeiten zur Datenvisualisierung zu haben. Einer von ihnen ist es, Ihnen zu ermöglichen, Ihre Arbeit zu erledigen, aber der andere Teil davon ist, sie anderen Menschen zu zeigen und ihnen Informationen zu vermitteln. Sie wissen es? Und natürlich haben wir über statistische Werte gesprochen. Und statistische Werte sind sehr wichtig und sie können uns
eine gute Vorstellung über die Daten geben und was in den Daten vor sich geht. Aber die Visualisierung von Daten bringt sie nur auf die nächste Ebene. Und statistische Werte reichen dort nicht aus. Sie können uns geben, wissen Sie, sie können uns helfen, sie können uns unterstützen, die uns Ideen geben können. Aber wenn wir wirklich verstehen wollen, was los ist,
jemand, der nur einen Blick darauf werfen muss, was los ist. Und natürlich sind sie das. Es ist auch wichtig, sicherzustellen, dass Sie die richtigen Visualisierungen und alles auswählen. Denn andere Male können Sie einfach extrem seltsam aussehen. Aber nur diese Fähigkeit, Daten sowohl für sich selbst als auch für andere Menschen
präsentieren zu können ,
als sehr, sehr wichtig für einen Data Scientists. Und dann gehen wir zur Interpretation von Daten über. Und wir haben das schon im letzten Abschnitt angesprochen. Aber wirklich mit der Datenvisualisierung erlaubt
es Ihnen nur, diese Daten zu sehen und es ermöglicht Ihnen, einige Argumente auf das System anzuwenden. Und so können Sie, wenn Sie Daten betrachten, entweder sehen Sie etwas, das großartig ist. Das bedeutet, dass Sie versuchen können, etwas zu testen, um zu
sehen, ob es tatsächlich dort ist, wo Sie nichts sehen. Und das sagt Ihnen auch etwas, das Sie nicht wirklich in der Lage sind, ein Muster auszuwählen, so dass es nicht gibt, es gibt nichts Offensichtliches, das dort vor sich geht. Vielleicht etwas zugrundeliegendes Das ist komplizierter, aber offensichtlich für den Benutzer. Nur nicht da. Und so all diese Dinge ermöglichen es Ihnen, Art von leicht, sind viel einfacher analysieren Ihre Daten und Art der Vorbereitung, wo werden Sie danach tun? Die Standardvisualisierung, die Ihnen wirklich ein tiefes,
tiefes Verständnis dafür gibt , was mit Ihren Daten vor sich geht. Und dann, wenn wir diese Daten interpretieren und diese Visualisierungen betrachten, weißt du, vielleicht siehst du Dips und weißt du, vielleicht siehst du irgendwo ein paar Hügel. Wir können versuchen, all dies zu verstehen, indem wir unser Wissen von außen einbringen. Also wieder, was der Mensch wirklich gut ist, können
wir in den Kontext der Dinge bringen. Weißt du, vielleicht gehen die Leute hier zum Mittagessen. Und deshalb nimmt die Aktivität ab. Oder vielleicht ist jeder üblich, am Morgen zu arbeiten. Und deshalb steigt die Aktivität im Vergleich zu sechs Uhr morgens. Also all diese Dinge, und wir können in all diesen Kontexten bringen. Wir können all dieses Verständnis einbringen, um zu versuchen, das Datendiagramm zu interpretieren,
versuchen, besser zu verstehen, was vor sich geht. Und dann werden
wir natürlich hoffentlich einige Trends oder Muster sehen. Natürlich, wie ich schon sagte, sind diese vielleicht nicht immer da. Also sind wir eigentlich so gut in der Mustererkennung, dass wir manchmal Muster sehen können und nicht wirklich da sind. Und so ein gutes Beispiel dafür wäre, nur auf die Wolken am Himmel zu schauen. Und man kann Tiermuster sehen, aber das ist wirklich nicht da. Das ist nur unser Verstand, weißt du, all diese Muster
zu identifizieren. Und so, ja, deshalb ist die Datenvisualisierung so wichtig für einen Data Scientists. Es ist wegen dieser ganzen riesigen menschlichen Aspekt, ist es nur der Schlüssel in der Datenwissenschaft. Es ist Schlüssel und Datenanalyse, um zu verstehen, was vor Ihnen liegt, in der Lage
zu sein, dieses Wissen von außen einbringen zu können,
um diese Kreativität kontextualisieren zu können, die wirklich der Schlüssel zu einem guten Data Scientist ist. Und ein Computer kann Ihnen bei all dem helfen. Der Computer kann Ihnen helfen, die Anzahl knirschen und Computer kann Ihnen helfen, die Visualisierungen einzurichten und es kann plotten, was Sie für sie wollen. Aber letztendlich liegt es an Ihnen, die richtige Visualisierung zu wählen, um die Daten
zu betrachten, um auch die Visualisierung kommunizieren zu können. All diese Dinge liegen bei Ihnen. Und deshalb ist der Mensch in der Datenwissenschaft
so wichtig.
7. Eine variable Grafiken: Hallo an alle. Es ist Max und willkommen zurück. In diesem Tutorial werden wir uns eine variable Graphen betrachten. Also werden wir tatsächlich einige der Arten von Diagrammen sehen, die wir tun können, über die wir in unserem letzten Tutorial gesprochen haben, wo wir gerade die Bedeutung der Datenvisualisierung untersucht haben. Nun gehen wir in die Datenvisualisierung und betrachten die Arten von Grafiken, die Sie vielleicht verwenden möchten oder aus denen Sie wählen möchten. Ordnung, und so werden die Graphen, die wir in Bezug auf
eine variable Graphen aussehen werden, Histogramme, Balkendiagramme und Kreisdiagramme sein. Lassen Sie uns also mit Histogrammen beginnen. Nun können wir ein Beispiel für ein Histogramm auf der rechten Seite sehen. Aber was wirklich cool an Histogrammen ist, dass es uns die Verteilung der Daten zeigt und uns die Verteilung über alle Werte in unseren Daten zeigt. Und so zeigt es uns, was am wenigsten passiert, und es zeigt uns auch, was am meisten passiert. Und Histogramme lassen uns sehen, wo unsere Daten konzentriert sind, und sie lassen uns auch sehen, wie sie verteilt sind. Und so zeigt
es irgendwie ein allgemeines Verhalten. Und so wirklich, was ein Histogramm ist, ist, dass es
jeden Wert betrachtet und es schaut nur, wie oft dieser Wert aufgetreten ist. Und was wir hier sehen, zum Beispiel,
ist, dass um 0, wir haben die am meisten vorkommende. Wenn wir also den Wert betrachten, den wir betrachten, und wenn wir uns nach links bewegen und nach rechts bewegen, beginnen
diese Werte abzufallen, so dass sie weniger häufig werden. Und das zeigt uns ein Histogramm. Dieses Diagramm zeigt uns eine Art Häufigkeit, wie oft diese Dinge auftreten. Und so gibt es verschiedene Arten von Histogrammen, denen Sie begegnen können. Oder ich meine, im Allgemeinen ist ein Histogramm nur das Plotten einer Frequenz im Vergleich zu Ihrem Wert. Und so gibt es verschiedene Möglichkeiten, wie dieses Histogramm aussehen kann. Einer von ihnen ist die, die wir gerade gesehen haben, die keine normale Verteilung ist oder es wird wie
Histogramm genannt , weil es
dieser Gaußschen Verteilung oder dieser Normalverteilung folgt , die Sie wissen, aber wir können auch haben einen exponentiell verfallenden Wert. Also fangen wir sehr hoch an. Und je weiter wir vom Anfangswert weg sind, desto schneller wird er abnehmen. Und Sie können das tatsächlich mit dem Gott vergleichen, anders als oder mit der normalen Verteilung. Die Normalverteilung sieht also eher wie eine Glocke aus. Es geht irgendwie nach oben und dann kurviert sich langsam, während das Exponentialsystem sehr schnell abschneidet und dann irgendwie langsamer wird. Sie haben also unterschiedliche Verhaltensweisen. Und dann können
wir natürlich auch nicht nur einen Gipfel bekommen, wie wir in diesem ersten Fall sehen und die Gottheit, anders als die Verteilung, aber wir können auch Dinge wie zwei Gipfel bekommen oder wir können sogar drei oder mehr Gipfel bekommen. Wir können sehr große, ausgedehnte Gipfel haben. Und so unsere Histogramme, gibt es Mittel, um uns zu zeigen, wie diese Daten verteilt werden. Es gibt Mittel, um uns zu zeigen,
was die Dinge am häufigsten vorkommen, während sich unsere Daten konzentrierten. Aber das bedeutet nicht, dass sie einen bestimmten Wert haben müssen. Und so gibt es bestimmte Formen. So gibt es viele verschiedene Formen, die Histogramme annehmen können. Und je nachdem, welche Form Sie bekommen, sagt uns
das auch etwas ganz anderes über unsere Daten. In Ordnung, also der nächste variable Teil, den wir uns ansehen werden, wird Balkendiagramme sein. Und was Balkendiagramme tun, ist, dass sie zunächst ein wenig ähnlich wie Histogramme aussehen, aber sie sind in gewissem Sinne sehr unterschiedlich weil Balkendiagramme es uns erlauben, zwischen verschiedenen Gruppen zu vergleichen. Und so sehen wir das auf der X-Achse unten, wenn wir verschiedene Gruppen betrachten. Und so verwenden wir die gleiche Variable und wir können diese Variable über verschiedene Gruppen vergleichen. Und wenn wir uns das im Beispiel ansehen, so was wir hier auf der rechten Seite sehen, ist, dass wir verschiedene Länder betrachten. Und was wir zeigen, ist, dass wir die durchschnittliche Einkommensteuer gezeigt haben. Und so sehen wir, dass Land B zum Beispieldie höchste durchschnittliche Einkommensteuer
hat, die höchste durchschnittliche Einkommensteuer
hat, während Land D die niedrigste Einkommensteuer hat. Und so betrachten
wir durch diese, wissen Sie, immer noch nur die Einkommensteuervariable, aber wir waren in der Lage, iss über verschiedene Gruppen,
über verschiedene Kategorien zu vergleichen , wenn Sie so wollen. Andere Beispiele wären also, wenn Sie sich Kontrollgruppen und Testgruppen ansehen. Also, wenn du ein medizinisches Studium machst oder vielleicht ein Psychologie-Studium oder so etwas. Sie möchten immer Ihre Kontrollgruppe haben. Und dann können Sie verschiedene Arten von Testgruppen haben. Und dann können Sie jede dieser Gruppen als Balkendiagramm plotten und Sie können sich dieselbe Variable ansehen, aber Sie können sehen, wie sich das über die verschiedenen Gruppen ändert. Ein anderes Beispiel wäre etwas wie der Vergleich von männlichen und weiblichen Höhen. Sie haben also eine Gruppe, die männlich ist, die andere Gruppe, die weiblich ist, und Sie können einfach ihre durchschnittliche Höhe aufzeichnen, ähm und dann die Steuer, die Einkommensteuer verschiedener Länder, was wir auf der rechten Seite gesehen haben. hier. Alles klar, und so wird das letzte variable Diagramm , das wir betrachten werden, Tortendiagramme sein. Und Tortendiagramme, die zu tun erlaubt, ist, dass sie uns erlauben,
unsere Daten zu teilen und wir können die Aufteilung in Perzentile verbergen. Und aus diesem Grund können
wir sehen, woraus unsere Daten bestehen. So entspricht der gesamte Pi 100 Prozent. Und dann schneiden wir es irgendwie in verschiedenen Scheiben ab. Und durch das Schneiden. Und dann hoffentlich werde ich einige Farbcodierung wie wir hier gemacht haben und vielleicht sogar Etikettierung oder definitiv Wellenlängen, so dass Sie wissen, welche Scheibe welchem Wert entspricht. Wir können sehen, welche Kategorien, ähm, Sie wissen, oder aus welchen Kategorien unsere Daten bestehen. Und so können wir sehen, was am prominentesten ist. Aber wir können auch sehen, was am wenigsten prominent ist und all diese Dinge. Und dann wieder hier können wir auch Verteilungen nicht so gut sehen wie im Histogramm, aber wir können immer noch Verteilungen in Bezug auf Dominanz sehen, in Bezug darauf, wie viele Gruppen es gibt. Verpassen Sie die Daten gleichmäßig verteilt, ist es stark in einem Teil des Kuchens konzentriert? All diese Dinge erlauben, weißt
du, das ist es, was wir mit Tortendiagrammen machen können. Wir bekommen diese nette Art von Gruppenübersicht einer Variablen. So Beispiele dafür wäre, dass Sie die ethnische Zugehörigkeit in einer Universität betrachten können. Und so können Sie ein Tortendiagramm und
nur jedes Stück Kuchen haben , das eine andere ethnische Zugehörigkeit darstellen soll. Und je nachdem, wie viel unseres Prozentsatzes das Gesamtprofil der Universität ausmacht, wäre das
so groß das Stück Kuchen. Und so können Sie die Dominanz einiger Ethnien sowie Minderheiten sehen. Aber Sie können auch sehen, wie viele Scheiben sie sind. Sie können sehen, wie viele verschiedene ethnische Gruppen es gibt. Und ein weiteres Beispiel wäre, dass Sie Sternebewertungen für ein Produkt aufteilen können. Anstatt also auf die durchschnittliche Sternebewertung zu schauen, können
Sie auch einfach ein Kreisdiagramm verwenden und Sie können sehen, wie viele meiner Bewertungen oder fünf Sterne, wie viele von ihnen waren vier Sterne, 321. Und so können Sie wieder, Ich werde sagen, bekommen Sie diesen schönen anderen Überblick darüber, wie das Überprüfungssystem funktionieren würde.
8. Zwei variable Grafiken: Hey alle, es ist Max und willkommen zurück. Jetzt werden wir über zwei variable Graphen sprechen. Die Graphen, die wir uns ansehen werden, sind Streudiagramme, Liniendiagramme, 2D-Histogramme sind zweidimensionale Histogramme und Box- und Whisker-Plots. In Ordnung, also fangen wir mit Scatterplots an. Nun, für ein Streudiagramm, was wir tun, ist, dass wir wirklich alle Datenpunkte in einem Diagramm verstreuen. Und so ziemlich jeder Datenpunkt, den wir haben, setzen
wir irgendwie einen kleinen Punkt auf den Graphen. Und Streudiagramme sind großartig, weil sie uns erlauben, die Verbreitung von Daten zwischen zwei Variablen zu sehen. Wir plotten also immer eine Variable auf der X-Achse und dann eine andere Variable auf der Y-Achse. Und es erlaubt uns so ziemlich zu sehen, wie die Daten für diese beiden Variablen verteilt werden. Und dann können wir auch dichtere Bereiche sehen. Wir können auch einige spärliche Bereiche sehen, und wir können auch auf Korrelationen schauen. Vielleicht erinnern Sie sich in der Vorlesung, die wir über Korrelationen gesprochen haben. Wir konnten durch Streudiagramme sehen, wo diese Korrelationen wo oder wo es keine Korrelation gab. Also all diese Dinge, das ist, was Scatter Plots sind wirklich, wirklich nett für. Streudiagramme. Natürlich können wir sie auch benutzen, um, wie wir hier sehen, ein kleines Cluster zu haben. Also muss nicht alles durch eine Linie oder eine Kurve verbunden sein. Vielleicht ist etwas eher wie ein Kreis. Und das ist es, was Streudiagramme uns auch zeigen können. Sie können diese Gruppierungen zeigen und wir sehen einen Cluster hier. Aber vielleicht, weißt du, du hast größere Grundstücke und dann gäbe es kleinere, du weißt schon, wie 10 kleine verschiedene Gruppierungen für verschiedene Dinge. Also hat es unsere Kosten sind wirklich großartig dafür, weil sie uns nur zeigen , wo sich die Datenpunkte für diese beiden Variablen befinden. Und dann können wir unsere Zelle benutzen, wissen
Sie, wie, wie, wie sehen die aus? Tun Sie, wirkt sich eine Variable auf die andere aus? Oder vielleicht bestimmte Gruppierungen, die wir sehen können, wo unsere dichten Bereiche, wo es spärlich ist. Wo sind die Dinge konzentriert, wissen Sie, ist alles verteilt über den ganzen Ort ist sehr, sehr eng und es nur in bestimmten Regionen. Streudiagramme ermöglichen es uns, all diese Dinge sehr leicht zu sehen. Und so einige Beispiele, wo wir Scatter-Plots verwenden könnten, wären, wenn wir sehen, wenn wir uns die Grafik auf der rechten Seite ansehen, können
wir etwas wie einen Autopreis im Vergleich zur Anzahl der verkauften Autos betrachten. Jeder dieser Datenpunkte stellt also so ziemlich ein Auto dar, das verkauft wurde. Und dann sagt uns die X-Achse den Preis, den das Auto ausverkauft war. Und die Y-Achse sagt uns die Anzahl der Autos, die zu diesem Preis verkauft wurden. Und so, was wir hier sehen, zum Beispiel, sehr leicht setzen sie mehr als das Auto kostet, elastische wird verkauft. Und dann können Sie vielleicht darüber nachdenken, in Bezug auf, na ja, je mehr sein Preis, vielleicht wollen die Leute nicht so ein teures Auto kaufen. Vielleicht haben sie eine billigere Version davon gefunden. Vielleicht ist es nur eine Branding-Sache, weshalb es teurer ist. Vielleicht gibt es etwas genauso gute Qualität, das billiger ist. Vielleicht haben die Leute einfach nicht genug Geld. Das ist wahrscheinlich ein großer Faktorbaum, dass die Leute einfach nicht genug Geld
haben, um diese teuren Autos zu kaufen. Und deshalb fallen sie ab. Und so kann es ein wenig anders in Bezug auf die Gewinne aussehen. Aber je höher das Auto ist,
desto zuletzt sehen wir, dass es verkauft wird. Das ist also ein Beispiel für ein Streudiagramm. Dann etwas anderes, das wir uns ansehen können, ist vielleicht das Einkommen im Vergleich zu Jahren der Ausbildung. Also würden wir uns auf der X-Achse ansehen, wie viele Jahre jemand ausgebildet wurde. Und dann würden wir uns das aktuelle Einkommen ansehen. Und das wäre nur ein Punkt auf der Grafik. Und das können wir für viele, viele verschiedene Menschen tun. Und dann können wir sehen, wie unterschiedliche Bildung für verschiedene Menschen, wie sich das auf ihr derzeitiges Einkommen auswirkt. Also das ist eine andere Sache, für die wir ein Streudiagramm machen können. Wir können auch auf eines der früheren Beispiele zurückgehen, das wir sehr früh verwendet haben, wo wir über Menschen gesprochen haben, die zur Arbeit reisen. Und wir können einfach die zurückgelegte Strecke im Vergleich zu der Zeit aufzeichnen, die es braucht und zur Arbeit gereist ist ist. Und dann können wir sehen, dass manche Leute schneller reisen. Es könnte sein, dass einige Leute die gleiche Strecke fahren, aber eine dauert länger als die andere, weil man durch Kiara geht, der andere fährt mit dem Fahrrad, der andere mit öffentlichen Verkehrsmitteln, all diese Dinge. Also all das können wir in den Streudiagrammen sehen und nur Art
berücksichtigen diese verschiedenen Situationen und sehen, wie das alles für die sucht, für die allgemeine Bevölkerung unserer Daten oder nur allgemein für Daten. Also muss es, Grundstücke sind wirklich, wirklich toll als eine Art zuerst gehen, um nur Trends zu identifizieren, Regionen zu identifizieren. Ich gebe Ihnen nur einen guten Überblick über Ihre Daten. Nun, das nächste, was wir uns ansehen werden, ist Liniendiagramme. Und Liniendiagramme sind in gewissem Sinne ähnlich wie Streudiagramme. Wir haben also die gleiche Basis der x- und der y-Achse, aber die Punkte sind verbunden. Und jetzt ist es sehr wichtig zu wissen, wann Liniendiagramme und Streudiagramme ausgewählt werden sollen. So können Liniendiagramme viele Vorteile mit sich bringen, weil diese Verbundenheit
es uns sehr leicht macht, Trends zu sehen, weil wir sehen können, wohin diese Linien gehen und
nicht nur versuchen, die Punkte in unserem Kopf zu verbinden. Weißt du, ich verbinde irgendwie die Punkte. Aber das ist genau das, was ich bin ein Linienplot tut, ist es verbindet die Punkte für uns. Und so können wir diese Zeilen sehen. Es ist toll, wenn wir eine Evolution von etwas sehen wollen. Vielleicht wollen Sie eine Evolution im Laufe der Zeit sehen. Vielleicht möchten Sie eine Evolution über
Raum und Evolution mit Menschen sehen , so etwas. Nur wenn unsere Datenpunkte verbunden sind, ist
es toll, ein Liniendiagramm zu verwenden. Wenn wir also wissen, dass alles, was vorher passiert, mit dem verbunden ist, was jetzt passiert ist
es großartig, Liniendiagramme zu verwenden, weil Liniendiagramme
uns zeigen , wie sich die Dinge entwickeln, weil sie alle als Linie verbunden sind. Aber wenn wir Streudiagramme machen wollen und wir einfach Punkte zufällig plotten. Und nur weil, wenn wir zurück zu ihr oder Art Auto verkauft Auto Preis Beispiel, nur weil jemand kaufte ein teures Auto oder wenn wir uns das teure Auto und es wurde gekauft,
sagen, wie fünf Mal, dann schauen wir bei einem billigeren Karten und kaufte ein 100 mal. Es gibt nicht wirklich eine logische Verbindung zwischen den beiden herzustellen. Und wenn wir also Liniendiagramme verwenden würden, in denen wir Streudiagramme verwenden sollten, würden wir
wirklich nur eine Reihe von Linien überall sehen. Deshalb ist es wichtig zu wissen, wann Liniendiagramme verwendet werden sollen. Und eins, Sie verwenden Scatterplots, weil es sehr, sehr hilfreich sein kann. Wenn Sie ein Streudiagramm anstelle eines Liniendiagramms verwenden, wird
es etwas verwirrender sein, weil Sie versuchen
müssen, die Punkte selbst in der Hand zu verbinden. Aber wenn Sie ein Liniendiagramm anstelle eines Streudiagramms verwenden, wird wirklich
seltsam aussehen , weil es nur Linien überall gibt und man nichts wirklich sehen kann. Ein Beispiel, in dem wir Liniendiagramme verwenden könnten, ist, dass wir die typische Entfernung versus Zeit haben. So können Sie sehen, wissen Sie, wie weit jemand oder wie spät es ist und wie weit jemand gereist ist ist. Nur eine allgemeine Kurve der Entfernung im Vergleich zur Zeit. Das ist sehr, sehr häufig. Und Sie können den Gewinn des Unternehmens im Vergleich zur Anzahl der Mitarbeiter betrachten. Je mehr Mitarbeiter sie einen Angestellten implizieren, wie ändert sich das ihre Gewinne? Natürlich müssen sie den Mitarbeitern mehr bezahlen, aber vielleicht können die Mitarbeiter auch mehr Arbeit leisten. Und hoffentlich, weißt du, dass diese Art von annulliert, was du ihnen bezahlst, und dann erhöht diese Unternehmensgewinne. Und dann, was wir hier auf der rechten Seite sehen können, wie wir
Ihre Kreativität betrachten können und wie sich das mit Stress verändert. So können wir sehen, dass je mehr gestresst Ihre, die letzte kreative UR. Und hier ist es auch gut, ein Liniendiagramm zu verwenden, weil Art von allmählich voran und Stress. Und so jeder Punkt und betont Art von verwandten. Und je höher Sie steigen und Stress, desto niedriger gehen Sie nach unten und Kreativität. Und so gibt es diese Art von Beziehung, in der wir diese Evolution sehen können. Je mehr Sie gestresst werden, desto weniger kreativ wird er. Also Kalk plus ein wirklich schönes hier, weil es nicht überall diese chaotische Bewegung gibt. Aber es ist sehr schön und es ist sehr einfach, diese Zeile zu sehen. Es ist sehr einfach zu folgen. Ok? Die nächste Grafik, über die wir sprechen können, sind zweidimensionale Histogramme. Jetzt haben wir eindimensionale Histogramme im letzten Tutorial gesehen, in dem wir uns die Verbreitung von Daten anschauten und die Spitzen anschauten und wie die Dinge einfach nach rechts und links verteilt wurden. Aber wir können auch ein zweidimensionales Histogramm machen. Und etwas ein zweidimensionales Histogramm ist es ein eindimensionales Histogramm, aber es ist ziemlich ein Histogramm für jeden einzelnen Punkt der anderen Variablen, die wir betrachten. Also wirklich, was diese Dinge uns erlauben zu sehen, ist, dass sie uns erlauben, zu sehen wie die verschiedenen Verteilungen der beiden Variablen relativ zu einer anderen sind. So können wir hier zum Beispiel
in der roten Region sehen, dass für diese spezifischen Werte, sie, sie, viel passieren. So dass die Kombination von Werten viel passiert. Und so sind wir in der Lage, diese Frequenzvorkommen wieder zu lokalisieren. Und wir sind auch in der Lage, Drop-Offs zu betrachten, aber wir sind in der Lage, das auf zwei spezifische Werte zu lokalisieren, anstatt nur auf einen, was wir mit dem 2D-Histogramm gemacht haben. Und diese Dinge sind viel schwieriger zu sehen in Streudiagrammen. Denn in Streudiagrammen, wenn wir einen Wert haben, der 100 Mal auftritt, wäre
es nur der gleiche Punkt und der Punkt würde nicht größer werden. Jetzt können Sie den Punkt natürlich selbst vergrößern, wenn Sie es wollten. Oder Sie können die Farbe ändern oder so etwas. Aber wirklich, wenn Sie ein Scatterplot
zu tun und das Gleiche passiert mit einem 100 Mal wird nur wie ein Punkt aussehen. Während
wir bei zweidimensionalen Histogrammen sehen können, dass es nicht nur ist, es passiert nicht nur, sondern wir können tatsächlich die Häufigkeit dieser Variablen sehen. Sind das, diese beiden Variablen zusammen. Ein Beispiel für ein zweidimensionales Histogramm wäre also wenn wir die Ticketpreise im Vergleich zu den verkauften Tickets betrachten. Und wenn man sich die untere linke Ecke anschaut und wir diesen roten Gipfel sehen können. Das sind also günstigere Ticketpreise, aber die Tickets werden auch oft verkauft. Wir wissen also, dass Tickets zu diesem Preis oft verkauft werden. Und das könnten, weißt du, wie neue, aufstrebende Markenbänder sein. Das könnte so sein, du weißt schon, du bist irgendwie Standard-Bands, zu denen du vielleicht jemanden an einem Tag mitnehmen willst, aber du willst nicht zu viel Geld für ein Ticket ausgeben, aber eine hält immer noch für eine nette Idee. Und das ist also ein guter Ticketpreis. Das verkauft eine Menge Tickets, weil es Ihnen die Freude an
p Veranstaltung gibt , ohne es zu teuer zu machen. Und dann, wenn Sie mehr zu höheren Ticketpreisen bewegen, und dann, wenn Sie mehr in Richtung mehr verkaufte Tickets bewegen, dann können Sie sehen, dass für
hohe Tickets, hohe Ticketpreise, die, wissen
Sie, wie diese großen Bänder. Dann können wir wieder sehen, wie viele Tickets wir verkauft haben. So können wir das für einen höheren Preis sehen. Und wenn wir gehen und Tickets verkauft, also wenn Sie viele Tickets für einen hohen Preis verkauft sehen wollen, dann werden die roten Peeks uns all diese berühmteren Künstler geben. Das ist also eine Art von Anwendung. Aber natürlich gibt es viele, viele bessere. Es sind nur diese Dinger. Weißt du, wenn du im Moment bist und das kannst, dann würdest du erkennen, Oh, hier wäre ein zweidimensionales Histogramm eine tolle Sache für mich. Also viele dieser Graphen, sie sind toll zu wissen. Und wenn Sie im Moment sind, dann ist es viel einfacher für Sie herauszufinden, welches Diagramm am besten repräsentativ wäre. Schließlich wird das letzte Diagramm, das wir uns ansehen werden, eine Box und Whisker Handlung sein. Und ich will Box und Whisker Plots erlauben uns zu tun ist, dass sie uns erlauben, die Ausbreitung innerhalb unseres Datums zu sehen. Es ist also nicht nur wie ein Balkendiagramm, das uns nur einen Wert zeigt, sondern wir können tatsächlich die statistische Spread sehen. So können wir Medianwerte sehen, was wir hier sehen. Wir können Quartile sehen. Die kleinen Punkte auf der Außenseite zeigen uns Ausreißer. Und was es uns erlauben, Box- und Whisker-Plots zu tun, ist, dass sie
uns erlauben , diese statistischen Informationen zu sehen, aber sie erlauben es uns, sie visuell zu sehen. Und das macht den Vergleich zwischen verschiedenen Gruppen viel einfacher, was wir hier tun. Ein gutes Beispiel dafür wäre, wenn wir uns die
Ticketpreise für Fußballspiele für verschiedene Teams ansehen . So verwenden verschiedene Teams und verschiedene Teams natürlich verschiedene Stadien und sie haben unterschiedliche Popularität. Diese, und einige Teams können viel teurer sein oder ihre Ticketpreise vielleicht viel teurer als andere. Und so können wir diese Ticketpreise mit Box- und Whisker-Plots vergleichen. Und dann können wir sehen,
was ist das höhere Ende dieser Kosten? Das werden also die luxuriöseren Sitze sein. Und dann gehen wir auf den Grund. Und das werden die weniger luxuriösen Sitze sein, wahrscheinlich diejenigen, wo Sie stehen. Und dann haben Sie Mittelwerte abhängig von, wissen
Sie, die Standardsitze und wo Sie sich im Stadion befinden. Wenn Sie in der Nähe des Feldes sind, wenn Sie weiter weg vom Feld sind, aber Sie sitzen immer noch. All diese Dinge, die wir hier sehen können, und das gibt uns die Verbreitung. Wir können das über verschiedene Teams hinweg vergleichen, und wir können die Verbreitung über verschiedene Teams sehen, aber wir können auch sehen, welche Teams teurer sind. Wissen Sie, wo variieren die Preise für ein bestimmtes Team am meisten? Vielleicht haben einige Teams einen Super-Start und dann haben sie Ihre Stehplätze, die einfach viel billiger sind. Und so würden Sie eine viel größere Verbreitung sehen. Oder vielleicht haben einige Teams
nur Plätze und sehen, man würde einen viel niedrigeren Spread sehen. Und so sind
wir in der Lage, mit Box- und Whisker-Plots über verschiedene Gruppen zu vergleichen.
9. Drei und höhere Variables: Hey, alle, es ist Max und willkommen zurück. In diesem Tutorial werden wir über drei und höhere variable Graphen sprechen. Also die Graphen, die wir uns ansehen werden,
es wird Heatmaps sein. Und dann werden wir uns auch multivariable Balkendiagramme ansehen, sowie wie wir einige der unterdimensionalen Graphen, über die wir zuvor gesprochen haben, mehr Variablen
hinzufügen können . In Ordnung, also fangen wir mit Heatmaps an. Heatmaps erlauben uns nun, zwei Variablen gegeneinander und das x und das y zu plotten,
und die Gesetze, um eine Intensität oder eine Größe oder
so etwas in der z-Richtung oder auf uns zu zeigen . Ein Beispiel dafür, was ich auf der rechten Seite zu veranschaulichen versucht habe,
ist ein Kunde, der sich durch einen Sturm bewegt. Und so können wir den Weg des Kunden in der x- und y-Richtung des Ladens verfolgen. So können Sie diese Vogelperspektive sehen und sehen, wohin sie sich bewegen. Und die dunkleren Flecken sagen uns tatsächlich, wo sie mehr Zeit verbringen. So können wir sehen, dass sie am Anfang ein wenig Zeit verbringen , sie bewegten sich in Männern und dann stoppen sie eine wählen, was werden wir sehen, dass dunkle Fleck sein? Vielleicht fanden sie wie den Süßigkeitengang oder so. Es gab ein bestimmtes Stück Süßigkeiten, das sie wollten. Und dann zogen sie weiter und dann begannen sie zu gehen oder uns ein wenig um die Ecke zu laufen. Und vielleicht erreichten sie
dort den Obst- und Gemüsebereich und wählten mehrere Dinge aus. Und dann begannen sie, in Richtung der Kasse zu gehen, was am Ende passiert und sie bewegen sich zu einem konstanteren zahlt. Manchmal hörten sie auf, um ein bisschen auszusehen, aber sie gingen einfach weiter. Und so die drei Variablen, die wir hier gezeigt haben, wie wir dort gezeigt haben, Exposition im Laden, haben wir dort y Position im Sturm und zur Farbe gezeigt. Wir haben auch die Zeit gezeigt, die sie an jeder Position verbringen. Also, das ist, was wir verwenden können, Heatmaps vier. Und dann wäre ein weiteres Beispiel für eine Heatmap zum Beispiel, wenn Sie eine Taschenlampe nehmen und sie über den Bildschirm bewegen. Und wirklich, was Sie zeigen, ist die
Menge an Zeit, die Sie die Taschenlampe auf eine bestimmte Region gezeigt haben. Das ist also ein anderes Beispiel für eine Heatmap, aber normalerweise Heatmap, wie der Name schon sagt, erlaubt
es Ihnen, Positionen zu verfolgen. Und so ist es sehr oft für Dinge wie die Verfolgung von
Kunden durch Geschäfte verwendet werden nur die Verfolgung der allgemeinen Menschen Standort, wo sie gerne ihre Zeit verbringen. Und die Intensität, die Sie in Bezug auf
die Farbe sehen , ist normalerweise die Menge an Zeit, die sie dort verbracht haben. In Ordnung, also können wir auch mehrere variable Balkendiagramme und multivariate Barplot machen. Es ist also sehr ähnlich zu einem einzelnen Balkendiagramm in dem wir nur einen Wert über verschiedene Gruppen geplottet haben. Aber anstatt nur eine zu setzen, haben wir sie irgendwie zusammengeknappt und wir plotten mehrere. Und so ein Beispiel dafür wäre, dass wir Torpunkte,
Tore für Team die Schüsse ohne Tor,
sowie die Schüsse auf das Ziel zeichnen Tore für Team die Schüsse ohne Tor, . Und so können wir sehen, vielleicht gibt es Teams, die Lektion Tor ohne Ergebnis weniger schießen, aber das ist, weil sie auch weniger schießen und deshalb schießen sie auch weniger auf Ziel. Oder vielleicht gibt es einige Teams, die Ihre Punktzahl viel und das ist, weil sie einen Haufen schießen. Sie treffen einfach nicht so oft das Ziel. Oder vielleicht gibt es wirklich gute Teams, die viel punkten und sie schießen auch viel auf das Ziel. Und so können wir all diese Dinge dann über verschiedene Gruppen vergleichen. Und das ist es, wofür wir multivariable Balkendiagramme verwenden können. Wenn es mehrere Variablen gibt, würde
das uns ein besseres Verständnis
des Systems geben , als nur die Variablen in einem nach dem anderen zu betrachten. Aber es ist auch wirklich cool, wenn Sie alle vergleichen könnten, dann könnten wir multivariable Balkendiagramme dafür verwenden und sie einfach auf dem gleichen Balkenplot platzieren. Und dann können wir sehen, wie sie sich verändert haben, wissen Sie, innerhalb einer Gruppe. Wir können auch sehen, wie sie sich über verschiedene Gruppen ändern. Ok? Und etwas, das wir tun können, ist, dass wir auch einfach
zusätzliche Dimensionen zu unterdimensionalen Graphen hinzufügen können , die wir hatten. Und einige waren irgendwie auf drei Dimensionen beschränkt ,
weil das die Menge an Raumdimensionen ist, in denen wir leben. Aber wenn wir das Streudiagramm nehmen, zum Beispiel, wo wir mit nur der X- und der Y-Achse und den Punkten begannen. Was wir tun können, ist, dass wir tatsächlich eine dritte Achse hinzufügen können, so dass wir das x und das y nehmen können, und dann können wir ein z hinzufügen. Und das gibt uns eine zusätzliche Tiefendimension, die genau das ist, was wir hier sehen. Anstatt einfach im Gegensatz zu einem zweidimensionalen Feld zu plotten, können wir es
im Gegensatz zu einer Ebene tatsächlich in einem Volumen darstellen. So können wir diese Art von verstreuten Ball sehen, den wir gemacht haben,
irgendwie, irgendwie Ball, den wir hier gemacht haben, was irgendwie im Zentrum unserer Handlung liegt. Und so kann das wirklich cool sein, weil es uns erlaubt, Tiefe zu sehen. Das Problem dabei ist, dass wir jedes Mal Snapshots haben. Und so sehen wir uns wirklich zweidimensionale Schnappschüsse an. Um das beste Verständnis dafür zu erhalten, müssen
wir unsere Streudiagramme oder unsere Plots so drehen, wie wir sie tun, damit wir auch unsere Tiefenwahrnehmung hinzufügen können. Denn gerade jetzt, wenn wir es betrachten, mag
es dreidimensional aussehen, aber wirklich ist es nur eine zweidimensionale Momentaufnahme. Und um das beste Verständnis zu bekommen, wenn unsere Streuhandlung mehr zu uns auf mehr Aufgaben auf der linken Seite oder so etwas
liegt. Oder vielleicht ist es einfach wirklich hoch und nah an uns, oder vielleicht ist es wirklich niedrig und weit weg. Um all diese Dinge zu verstehen, müssen
wir in der Lage sein,
unsere Streudiagramme so zu drehen , dass wir sie aus verschiedenen Blickwinkeln sehen können, was uns dann diese Tiefenwahrnehmung gibt. Und wir können das Gleiche mit 3D-Liniendiagrammen machen. Also hier sehen wir ein Beispiel für vielleicht, was die Position eines Skifahrers, wie Sie Skifahren einen Hügel hinunter. Und dann können wir das durch die Zeit verfolgen und sehen,
dass sie irgendwie den Hügel hinunter gehen und diese schöne Zick-Zack-Bewegung, wie Sie sollten, und wir können ihre Position im Laufe der Zeit verfolgen. Also hier haben wir diese zusätzliche Dimension zum 3D-Liniendiagramm hinzugefügt, anstatt nur eine Zeit und eine Position in einer Zeit oder so etwas zu nehmen. Wir haben eine zweite Position hinzugefügt, waren eigentlich sogar eine dritte Position. Also haben wir das x zur 1, machen diese Position, und dann verfolgen wir es einfach im Laufe der Zeit. Und das gibt uns diese ganze Zeile hier. Und so können wir
diese niederdimensionalen Plots nehmen , die wir vorher gesehen haben Wir können ihnen einfach zusätzliche Dimensionen hinzufügen, wenn wir wollen, solange es immer noch leicht zu sehen ist, solange es Sinn macht, wo wir sehen uns an. Wir sind wirklich nur in der Lage, dort vielleicht einfach eine andere Richtung zu schlagen und, weißt
du, eine andere Variable zu vergleichen.
10. Programmierung in Data: Alle, das ist Max. Und willkommen zurück in diesem Tutorial werden wir den dritten großen Abschnitt berühren, der
wirklich großartig für Data Scientists ist . Oder das sollte ein wesentliches von Data Scientists sein, was die Fähigkeit zu programmieren ist. Ok. Und warum programmieren wir? Nun, es gibt verschiedene Gründe, warum wir programmieren können wollen. Die 1. 1 wird die Leichtigkeit der Automatisierung sein. Die zweite wird die Fähigkeit sein, anzupassen. Und schließlich, weil
es viele große externe Bibliotheken für uns gibt, die einfach unsere Arbeit
so viel einfacher machen . Ähm, Ordnung, aber lasst uns anfangen. Lassen Sie uns über die Leichtigkeit der Automatisierung für uns sprechen. Was meinst du damit? Nun, Fähigkeit, es wirklich zu programmieren, ermöglicht es Ihnen, wirklich schnell Prototypen zu erstellen, ermöglicht es uns,
Dinge zu automatisieren , und es gibt uns auch den zusätzlichen Vorteil, wenn wir etwas im Kopf haben, können
wir das einfach nehmen und Art von setzen es in den Computer durch Programmieren. Und so sind wir in der Lage, alles sehr schnell zu automatisieren, und wir müssen diese sich wiederholenden Aufgaben nicht erledigen. Vielleicht kopieren
SieEinfügematerial in oder aus Excel oder all diese Dinge. Sie Wenn wir nur etwas wiederholen wollen oder wir schnell etwas ändern wollen und einfach etwas
ändern wollen, müssen
wir nicht viel tun. Wir können das einfach in unserem Code ändern und dann auf Play klicken und den Computer
alles für uns erledigen lassen , anstatt dass wir alles manuell machen zu müssen. Daher ist es sehr einfach für uns, Dinge zu automatisieren und auch Berichte zu erstellen. Es ist sehr einfach, diese Berichte automatisch zu erstellen. Wissen Sie,
alles, was Sie tun müssen, ist, Ihr Programm so einzurichten, dass es sich um die Daten handelt, die Sie
ihm geben werden , und dann kann ich automatisch jede Woche Berichte erstellen. Und die Berichte können unterschiedlich sein, weil Sie eine andere Daten geben. Ähm, es sollte immer noch gleich aussehen, aber die Daten, die Werte können unterschiedlich sein. Und so würde das einfach automatisch alle diese Berichte für Sie erstellen. Und das musst du nicht selbst machen. Das Programm macht es für dich, ähm, aber du hast das Programm gebaut und du gibst ihm verschiedene Daten. Also machen Sie immer noch die ganze Analyse. Es ist nur, dass Sie den Teil des Kopiereinfügens überspringen und gerne
die Werte überblicken und übernehmen und die Formatierung durchführen, indem Sie den gleichen Bericht immer und immer
wieder ausführen. Mir geht es darum, dass es sich um dich gekümmert hat, und alles, was du tun musst, ist einfach die richtigen Daten einzufügen, du weißt schon, alles, was du tun willst, und dann klicke auf Play und lass den Computer alles für dich erledigen denn denken Sie daran, das ist, was die Computer gut tun, diese sich wiederholenden Aufgaben zu tun. Okay, wir wollen auch in der Lage sein, zu programmieren, weil es uns wirklich erlaubt, anpassen. Es ist sehr einfach, wenn wir in die Datenanalyse gehen, und wenn wir Dinge sehen, die wir diese Ideen bekommen, die wir erweitern wollen, oder verschiedene Richtungen, die wir fortschreiten oder analysieren wollen und programmieren können, erlaubt
es uns wirklich nur Nehmen Sie all das und setzen Sie es in Code und wählen Sie einfach diese Richtung und schwächen Sie sehr leicht, tauchen Sie viel tiefer in unsere Analyse ein und entdecken Sie die Dinge schnell, denn es liegt an uns, wohin wir wollen. Und so diese Fähigkeit, mit der Programmierung anpassen. Es ist sehr,
sehr wichtig, weil wir auf nichts anderes angewiesen sind. Wir sind nicht auf Software angewiesen , ,
und vielleicht ist es kaputt. Oder vielleicht wissen wir nicht, wie wir es perfekt benutzen sollen. Und wir müssen das Handbuch lesen und es wie ein Hilfebereich lesen. Nein, aber wir wissen, wie man programmiert. Und wir haben genau das getippt, was wir genau dort machen wollen, wo wir es hinnehmen wollen, genau das, was wir sehen wollen, und wir können damit
sehr, sehr schnell anpassen . Wir können auch Prototyp sehr, sehr schnell ohne auf Vielleicht, wenn eine Visualisierung nicht funktioniert, ein Streudiagramm in ein Liniendiagramm
zu verwandeln ist sehr einfach. Du änderst nur ein Wort. All diese Dinge sind also sehr, sehr einfach mit der Programmierung zu tun, weil wir all diese Macht an unseren Fingerspitzen haben, und wir können einfach , was alles
ändern, waswir betrachten,
alles ändern, alles
das berechnet wurde, vielleicht eine zusätzliche Sache berechnen wollen, nehmen Sie etwas anderes, weil es irrelevant ist. All diese Dinge konnten angepasst werden, und all das können wir tun, weil wir in der Lage sind, so wirklich zu programmieren, was wir tun, ist,
dass wir die Daten erstellen. Unsere so dass wir die volle Kontrolle über die Daten haben die volle Kontrolle darüber, wo wir mit unserer Analyse
gehen wollen , was wir sehen wollen und was wir zeigen wollen. Alles klar, s Also lassen Sie uns über erste Bibliotheken sprechen, aber geben Sie auch zwei großartige Pipe in Bibliotheken,
die Sie sich
vielleicht wohl fühlen sollten , oder die Sie vielleicht in Erwägung ziehen sollten,für die Datenanalyse zu verwenden. Also, vor allem, was sind Bibliotheken? Will-Bibliotheken sind Codestücke. Ich wurde von anderen geschrieben, die Sie einfach aufnehmen und verwenden können. Und so ein sehr gutes Beispiel dafür ist etwas, das als Mathematik-Bibliothek bekannt ist. Und so hat das all die quadrierten Funktionen, die an die Macht nehmen, wissen
Sie, das exponentielle
nehmen, dem Co-Zeichen all diese Dinge
zugewiesen, die Sie kennen und Sie verwenden möchten. Aber du willst kein Programm selbst. So wie es so ziemlich vermeidet, dass Sie die Gleichung programmieren müssen, um ein Zeichen zu berechnen, denn all diese Dinge, das sind Dinge, die wir nicht tun wollen. Wir wollen uns nicht von unserem Ziel ablenken lassen. Wir wollen in der Lage sein, genau das zu tun, was wir wollen, ohne das Programm komplett zu haben. Anderes Zeug. Und so ist es, was Bibliotheken Luft großartig für ihre von der Community entwickelt für alle zu verwenden. Wissen Sie, jeder hilft einander und diese Bibliotheken, sie bringen einfach eine Menge Kraft mit. Und so wird eine dieser Bibliotheken Pandas genannt und Panoz ist ziemlich ähnlich wie Excel, aber es erlaubt uns zu tun oder wir könnten damit programmieren,
was es einfach so viel besser macht, weil wir die Dinge so schnell damit machen können. Wir können all diese Anpassungen machen. Wir könnten all diese Automatisierung durchführen, während, wissen
Sie, wie Excel. Wenn du es zu viel gibst, zu viel zum Laufen, würde
es einfach abstürzen, weil es all diese anderen Dinge bewältigen muss. All diese anderen visuellen Dinge, weißt
du, die u I. und es gibt eine Menge Mauritz. Es ist nicht eine Struktur, wo ist und das Programm programmiert. Weißt du, dein Computer durchläuft alles Schritt für Schritt. Es muss sich nicht um all diese Visualisierungen Dinge kümmern. Es macht nur die Berechnungen unten. Aber wir können immer noch alle Arten von Datenmanagement mit ihnen durchführen, damit wir unsere Daten verschieben können . Wir können Säulen fallen lassen, schwächen, Dinge
aufteilen. Weißt du, wir können die Dinge nach Reihe aufteilen. Wir können bestimmte Rose aussuchen. Wir können sogar statistische Berechnungen für unsere Daten durchführen, damit wir sagen können, du weißt schon, hey, den Mittelwert dafür
berechnen können. Wir müssen nicht einmal ihre eigene Formel
erstellen,
um , die Bedeutung zu berechnen oder die Standardabweichung zu berechnen
oder die Korrelation zwischen verschiedenen Spalten zu berechnen. All das kann mit Panoz mit nur einem gemacht werden, wissen Sie, ein paar Schlüsselwörter. Und so ist es wirklich einfach, Datenanalyse damit durchzuführen, weil alle Funktionen, die
da sind und wir genau wissen, was
wir tun wollen, wir müssen nicht den Code für alles schreiben. Wenn Sie also Korrelationen betrachten wollten, sagen
wir einfach, Hey, Panels machen Korrelationen,
anstatt alle Korrelationen für uns selbst zu sagen
wir einfach,
Hey,
Panels machen Korrelationen,
anstatt alle Korrelationen für uns selbst zu
kodieren,wissen
Sie, kodieren, zitiert diesen ganzen Algorithmus und das macht es wirklich einfach und wirklich schnell, Ergebnisse zu erhalten
und dorthin zu gelangen, wo Sie gehen, weil Sie in keinen dieser
Mittelplätze gehen müssen. Du kannst so ziemlich einfach den Mittelsmann überspringen,
das
alles zu haben , das . Ich züchte sie zu sich selbst, und du könntest sie einfach benutzen, damit du deinen Anfang hast. Du hast deine Idee. Du weißt genau, was du tun willst. Und genau das kannst du tun, um dein Ziel zu erreichen. Ähm, die andere Bibliothek, die sehr cool ist, wird Matt Plot lib sein, was ich viel für die Datenvisualisierung verwende. Es ermöglicht mir, Diagramme zu erstellen, ermöglicht mir, meine Daten zu visualisieren, ermöglicht eine Reihe von Anpassungen, so dass ich wirklich alles bewegen konnte. Ich kann meine Stacheln bewegen. Ich kann die Dinge ein- und ausschalten. Weißt du, all diese Dinge sind sehr einfach mit meinem beliebten zu tun. Es gibt eine Menge großartiger Anpassungen, die ich damit machen kann. Dies sind also die Art von zwei grundlegenden privaten Bibliotheken, die Sie wahrscheinlich
wissen sollten , wo Sie einige meiner anderen Kurse betrachten können. Einer von ihnen würde sich mit dem Datenanalyse-Teil befassen und Kartenlot lib würde Ihnen helfen mit dem Datenvisualisierungs-Teil
umzugehen.