Angewandte Datenwissenschaft - 2 : Statistiken | Kumaran Ponnambalam | Skillshare

Playback-Geschwindigkeit


  • 0.5x
  • 1x (normal)
  • 1.25x
  • 1.5x
  • 2x

Angewandte Datenwissenschaft - 2 : Statistiken

teacher avatar Kumaran Ponnambalam, Dedicated to Data Science Education

Schau dir diesen Kurs und Tausende anderer Kurse an

Erhalte unbegrenzten Zugang zu jedem Kurs
Lerne von Branchenführern, Ikonen und erfahrenen Experten
Eine Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Schau dir diesen Kurs und Tausende anderer Kurse an

Erhalte unbegrenzten Zugang zu jedem Kurs
Lerne von Branchenführern, Ikonen und erfahrenen Experten
Eine Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Einheiten dieses Kurses

5 Einheiten (1 Std. 1 Min.)
    • 1. Über angewandte Datenwissenschaft

      8:12
    • 2. Arten von Daten

      7:29
    • 3. Zusammenfassung Statistiken

      16:10
    • 4. Statistische Distributionen

      19:05
    • 5. Statistiken Korrelationen

      10:09
  • --
  • Anfänger-Niveau
  • Fortgeschrittenes Niveau
  • Fortgeschrittenes Niveau
  • Alle Niveaus

Von der Community generiert

Das Niveau wird anhand der mehrheitlichen Meinung der Teilnehmer:innen bestimmt, die diesen Kurs bewertet haben. Bis das Feedback von mindestens 5 Teilnehmer:innen eingegangen ist, wird die Empfehlung der Kursleiter:innen angezeigt.

646

Teilnehmer:innen

--

Projekte

Über diesen Kurs

Dieser Kurs ist Teil der "Applied Data Science Series" auf SkillShare von V2 Maestros. Wenn du den gesamten Kurs durchlaufen möchtest, melde dich bitte für alle anderen Kurse an und gehe in der angegebenen Reihenfolge durch.

Dieser Kurs konzentriert sich auf die Statistik für die Datenwissenschaft Es geht um grundlegende Konzepte von Statistiken, die für die Durchführung von data und maschinellen Lernvorgängen als Teil dieser Serie erforderlich sind.

Triff deine:n Kursleiter:in

Teacher Profile Image

Kumaran Ponnambalam

Dedicated to Data Science Education

Kursleiter:in

V2 Maestros is dedicated to teaching data science and Big Data at affordable costs to the world. Our instructors have real world experience practicing data science and delivering business results. Data Science is a hot and happening field in the IT industry. Unfortunately, the resources available for learning this skill are hard to find and expensive. We hope to ease this problem by providing quality education at affordable rates, there by building data science talent across the world.

Vollständiges Profil ansehen

Kursbewertungen

Erwartungen erfüllt?
    Voll und ganz!
  • 0%
  • Ja
  • 0%
  • Teils teils
  • 0%
  • Eher nicht
  • 0%
Bewertungsarchiv

Im Oktober 2018 haben wir unser Bewertungssystem aktualisiert, um das Verfahren unserer Feedback-Erhebung zu verbessern. Nachfolgend die Bewertungen, die vor diesem Update verfasst wurden.

Warum lohnt sich eine Mitgliedschaft bei Skillshare?

Nimm an prämierten Skillshare Original-Kursen teil

Jeder Kurs setzt sich aus kurzen Einheiten und praktischen Übungsprojekten zusammen

Mit deiner Mitgliedschaft unterstützt du die Kursleiter:innen bei Skillshare

Lerne von überall aus

Ob auf dem Weg zur Arbeit, zur Uni oder im Flieger - streame oder lade Kurse herunter mit der Skillshare-App und lerne, wo auch immer du möchtest.

Transkripte

1. Über angewandte Datenwissenschaft: Hey, willkommen zum Kurs sind Datenzeichen mit unserem Dies ist Ihr Lehrer, Cameron Parnham gehören aus Video Mastro's Let's Go Through und verstehen, worum es bei diesem Kurs geht. Das Ziel des Kurses ist es, Studenten zu ausbilden, um vollwertige Datenpraktiker zu werden. Daher konzentrieren wir uns darauf, Menschen zu Praktizierenden zu machen, die in Ereignisdaten ausführen können, da das Projekt von Anfang an Daten bis hin zur Transformation, Laden in ein endgültiges später unser Ziel und dann Durchführung von Organanalysen auf schließlich Erreichen einiger Geschäftsergebnisse aus dieser Analyse, was tun Sie Was Sie, indem Sie diesen Kurs nehmen, ist Sie verstehen das Konzept und die Konzepte der Datenzeichen, Sie verstehen die verschiedenen Phasen in der im Lebenszyklus von einer Data Science -Projekt entwickeln Sie Fähigkeiten, um unsere ANDI nutzen zu können, sind in allen Phasen von ANALITICO direkt von explorativen Datenanalyse bis hin zur Direktive pro Stunde. Es dauert bis zum Modellieren der Zehe. Schließlich die Vorhersage mit maschinellen Lernalgorithmen lernten die verschiedenen Data Engineering-Tools und Techniken über die Datenerfassung und Bereinigung von Daten auf Transformation Daten. Erworbene Kenntnisse über den Freund Machine Learning Techniken auf auch lernen, wie Sie sie verwenden können und vor allem, dann können Sie sie zu einem vollwertigen Data Science Praktiker werden und wer kann sofort beitragen Daten aus dem realen Leben. Wissenschaftsprojekte nichtzu erwähnen, dass Sie dieses Wissen zu Ihrem Interview bringen wollen , damit Sie eine Position in Data Science bekommen können. Terry war diese Praxis, die wir dieses besondere Ding von Theorie gegen Praxis, Daten, Zeichen, Prinzipien, Tools und Techniken berühren wollten Praxis, Daten, Zeichen, Prinzipien, Prinzipien, . Bild aus verschiedenen Schildern und Ingenieurdisziplinen. Nein, sie kommen aus Informatik, Informatik , Information, Information, Terry Wahrscheinlichkeit und begann Sticks, künstliche Intelligenz und so eine auf theoretische Studie von Daten Zeichen es konzentrieren sich auf diese wissenschaftliche Grundlage und Argumentation aus den verschiedenen Mission Learning Gardens. Es konzentriert sich auf den Versuch zu verstehen, wie diese Mission Salgados Arbeit in einem tiefen Sinn lernen kann, um Ihre eigenen Algorithmen auf zu entwickeln. Entwickeln Sie Ihre eigene Implementierung dieser Algorithmen, um einen echten Ball Probleme vorherzusagen. Nur einer wohnt in viel weg in unseren Gleichungen und formell über Entbehrungen und Argumentation. Während der Pakt ist auf der Spitze spät an einem Teil der Daten, Wissenschaft konzentriert sich auf ein Spiel die Werkzeuge, Prinzipien und Techniken, um Geschäftsprobleme zu lösen bekommen den Fokus auf den Versuch, vorhandene Techniken und Werkzeuge und Bibliotheken zu verwenden auf wie Sie diese nehmen und ein Spiel sie wirklich Probleme zu arbeiten und kommen mit Geschäft verdient. Dieser konzentriert sich auf ein angemessenes Verständnis der Konzepte und Kenntnisse darüber, was die Tools und Bibliotheken zur Verfügung stehen, wie Sie diese Tools und Bibliotheken verwenden können, um reale Probleme zu lösen . Dieser Kurs konzentriert sich also auf die Praxis aus späteren Zeichen, und deshalb heißt es Applied Data Science Neigung der Kurse. Diese Datenwissenschaft ist ein transdisziplinäres Thema, und es ist ein komplexes Thema. Es geht nicht vor allem um drei technische Bereiche, auf die man sich konzentrieren muss. Es gibt also Mathematik und Statistiken, die Mission Learning ist. Und es gibt Programmierung auf diesem Kurs ist darauf ausgerichtet. Wissen Sie, Programmierung orientiert sich an bestehenden Software-Profis. Es ist stark auf Programmierung und Lösungsaufbau fokussiert. Es hat begrenzt und verlangte erforderliche Explosionsbelastung. Die Mathematik und Statistiken auf sie deckt Überblick Off Machine Learning Konzepte gibt Ihnen artikulieren Verständnis davon, wie diese maschinelles Lernen alle bewacht sie Bücher. Aber der Fokus liegt auf der Verwendung des vorhandenen Tools zur Entwicklung der realen Welt Lösung. In der Tat, 90 95% andere Arbeit, die später Wissenschaft Zeit. Nur tun in der realen Welt ist die Praxis der Datenwissenschaft. Nicht wirklich, Terry, von größerer Wissenschaft und dieser Kurs ist bestrebt, die Dinge einfach und sehr leicht zu verstehen. Also haben wir das definitiv sehr einfach gemacht. Wir haben uns von einigen der komplexen Konzept ferngehalten. Entweder haben wir versucht, den Ton nach unten Diese komplexen Konzepte sind einfach von ihnen ferngehalten , so dass es leicht für das Verständnis für Menschen aller Ebenen aus Wissen im Bereich der Datenwissenschaft macht . Es ist also eine Art von einem großen Krankenschwester Kurs. Wenn ich sagen darf, dass die Kernstruktur es geht durch die Konzepte des größeren Sinnes zu Beginn, was genau ist ihre zugeordnet? Wie funktioniert Data Science? Es untersucht den Lebenszyklus der Datenheiligen mit ihren verschiedenen Lebenszyklusstadien. Es geht dann in einige Grundlagen der gestarteten Sticks, die für die Durchführung von Datenzeichen erforderlich sind. Es geht dann in unsere Programmierung. Es Frage nach vielen Beispielen, wie Sie unsere Programmierung für verschiedene Phasen in Data Science Projekt verwenden würden . Die verschiedenen Stufen in Daten gesendet verletzt Data Engineering, Teil Aufwand. Welche anderen Dinge, die Sie normalerweise dort tun, die eine der Best Practices im Bereich der wellenförmigen Daten entwickeln, deckt es diese Bereiche ab. Schließlich gibt es den Modellierungs- und Predictive Analytics-Teil, in dem wir in die Mission Learning oder Gott Adams einbauen . Wir betrachten auch Endo und Anwendungsfälle für diese maschinellen Lernalgorithmen, und es gibt auch einige fortgeschrittene Themen, die wir ansprechen. Schließlich gibt es ein Ressourcenbündel, das als Teil dieses Kurses kommt, und dieses Ergebnisbündel enthält grundsätzlich alle Datensätze. Die Daten reichten das Beispielgericht Beispiel Mantel auf jene Art von Dingen, die wir tatsächlich als Teil dieses Kurses unterrichten, der in den Beispielen behandelt wird, alle von ihnen sind im Ressourcenbündel angegeben . Also kenne ich nicht das Ressourcenbündel, das alle Daten enthält, die Sie benötigen, und alle Kernbeispiele , die Sie benötigen, damit Sie dieselben Dinge selbst experimentieren können. Richtlinien für Studenten, das Fasten dieser Zehe verstehen ihre Daten. Saints ist ein komplexes Thema. Es braucht erhebliche Anstrengungen, um es zu verstehen. Stellen Sie also sicher, dass, wenn Sie stecken bleiben, überprüfen und entlasten Sie die Videos und Übungen tut. Er rief Hilfe aus anderen Büchern über Landempfehlungen und Supportforen an. Wenn Ihre Anfragen 1000 Bedenken tun, und das ist eine private Nachricht, und das ist eine private Nachricht,haben wir diese Frage gestellt, und wir werden wirklich glücklich sein. Toe reagierte das so schnell wie möglich. Wir sind ständig bemüht, unsere Kurse zu verbessern, daher ist jede Art von Feedback, das Sie haben, willkommen. Bitte geben Sie Feedback durch private Nachrichten sind zwei E-Mails am Ende des Kurses . Wenn Sie den Kurs mögen, geben Sie eine Rezension. Bewertungen sind hilfreich für andere neue potenzielle Studenten, um diesen Kurs zu nehmen und Maxim Disc diejenigen von anderen zukünftigen Kursen von We Do Mastro zu erwarten , wollen wir das einfach für unsere Schüler Beziehung mit dem anderen zu machen. Wir tun Master-Kurse sind Kurse auf Data Science konzentriert, wirklich ein Themen im Grunde, Technologien, Prozesse, Werkzeuge und Techniken der Daten Heiligen auf. Wir wollen unsere Kurse so weit wie möglich autark machen, nicht wahr? Also, was das bedeutet, ist, wenn Sie ein bestehender, wir tun Master Student sind, werden Sie sehen einige Inhalte und Beispiele in allen Kursen wiederholt. Wir wollen uns zu einer Vision machen Also, anstatt das zu sagen, irgendein Punkt in dem Kurs? Okay, Mädchen, sieh dir despotisch an wie andere Kurse. Registrieren Sie sich für den anderen Kurs und erfahren Sie mehr darüber. Wir wollen uns lieber auf diesen Kurs selbst konzentrieren. Bewahren Sie zwei Dinge im selben Kurs auf. Es sei denn, das andere Konzept ist ein riesiges Konzert. Das selbst von separatem Kurs. Wir wollen nach Indien sie als Teil dieses Kurses selbst. So können Sie einige Inhalte sehen, die in allen Kursen wiederholt werden. Schließlich hoffen wir, dass dieser Kurs Ihnen hilft, Ihre Karriere voranzutreiben. Also viel Glück. Glückliches Lernen auf Bleiben Sie nicht in Kontakt. Vielen Dank. 2. Arten von Daten: Hallo. Willkommen bei Statistik für Data Science. In diesem Modell werden wir über einige der Grundlagen von Statistiken sehen, die für Mission Learning und Predictive Analytics verwendet werden . Also die Mädchen aus diesem bestimmten Modell ist im Grunde, die grundlegenden Statistiken zu beschreiben, die für Dale Zuweisungen erforderlich sind. Ah, sehr einfaches, sehr einfaches Level, mit dem wir uns beschäftigen werden. Wir werden erklären, dass die Konzepte sehr hoch sind und auf eine sehr einfache Art und Weise. Wir gehen zu einer breiten Familie und mathematische Darstellungen, Asthma einfach möglich. Wir wollen es einfach einfach halten, damit jeder, der mit unterschiedlichen Ebenen abseits der mathematischen Belichtung versteht, was vor sich geht. S o. Ich hoffe, dass dies für Sie nützlich sein wird, wenn Sie das Gefühl haben, dass Sie mehr darüber erfahren wollen, gibt es andere Kurse und anderes Material dafür. Wir versuchen, sie in diesem Kurs zu vergeben, damit wir das für alle mögliche Minimum halten wollen . Wir gehen auf eine der Arten von Daten darüber, was sie sind und was wir mit ihnen machen wollen . Datentypen spielen in der Datenwissenschaft eine sehr wichtige Rolle, da Mission Learning Guard Adams typischerweise davon betroffen sind, welche Art von Daten an sie weitergegeben werden. Also sind einige maschinelle Lernalgorithmen gut mit einigen Arten von Daten, was wir in der Predictive sehen werden und ich werde das Modell beheben. Es ist also gut zu erfahren, was diese Art von Daten sind und was Sie damit machen können. Es gibt also vier Arten von Daten, die Sie normalerweise am Tag behandeln, unterscheiden sich typischerweise in der Bedeutung für die Operationen, die Sie im Grunde auf sie tun können. Auf diesen vier Arten von Daten genannt kategoriale Daten sind nominale Daten sind Faktoren. Die zweiten Windeln, orginale Daten erzählten uns. Intervall auf dem Fötus genannt Problem. Also, was genau sind das? Lassen Sie uns mit kategorialen kategorialen Daten beginnen repräsentiert Kategorien auf Typen. Wir haben überall Arten und Kategorien gesehen. Das beste Beispiel für kategoriale Daten ist Geschlecht, Geschlecht ist männlich oder weiblich. Was ist also besonders daran? Kategorisch später, dass es immer eine feste Menge von Werten, wie im Fall von Geschlecht, dass es nur männlich und weiblich. Es hat keine implizite Reihenfolge unserer Sequenzierung. Man kann sie nicht in irgendeinem Rennen abreißen oder bestellen, einer ist besser als der andere höher als der andere, so dass alle gleich betrachtet werden. Sie können sie nicht wirklich vergleichen, wie mit einem Größer-als oder einem Kleineren als einfach. Im Falle von kategorialen Daten sind einige der Beispiele wie die Liste der Früchte wie Äpfel, Orangen, Trauben. In einer Fußballmannschaft, Sie können verschiedene Arten von Spielern haben, wie verschiedene er Mittelfeldspieler nach vorne sind Sie Arten von Autos wie ein Aussaat Problem haben. Wir coop etcetera als FNC. Die religiösen Kategorien, die sie alle sind, haben typischerweise einen festen Satz von Werten. Sie haben keine implizite Bestellung unserer Sequenzierung unter ihnen. Die zweite Art von Dota wird gewöhnliche Daten genannt, die auch produzieren. Mitt ist wie kategoriale Daten, dass es auch hat, wie ein Fix es von Werten. Aber das ist Ordnung unter diesen Werten können Sie tatsächlich unsere sie und sagen, dass eine besser ist als die andere höher ist als die andere auf ihrer typischerweise eine Skala off Messung wie eine Skala von 1 bis 10 eine Skala von einem zu kämpfen, oder so etwas wie ein hohes mittleres Tief. Ausgezeichnet, sehr gut, Gut Es in der Regel die Geschenke entkommen, aber es ist immer noch kategorisch. Daten über Sie können Vergleiche durchführen, wie Sie größer als oder kleiner als Art von Vergleichen machen können , aber Sie können keine arithmetischen Operationen wie Addition, Subtraktion, Subtraktion, Multiplikationsteilung auf jedem von ihnen durchführen, sind einige der Beispiele, die Sie sehen können. Es ist wie Bewertungen wie Hervorragend, Sehr gut. Dies ist ein Beispiel für normale Daten, wobei die Schmerzstufe am höchsten ist, wie 1 bis 10 Schülernoten. A B C D e der ist die höhere. So haben Sie immer so etwas wie die höchste und niedrigste, die Sie tatsächlich verdichten können? Gefragt Impacto kategoriale Daten. Die dritte Art von Daten wird sich damit befassen, das Intervall Data genannt. Also in der Gesamtdaten sind typischerweise numerische Daten zur Messung. Es ist Messung, bei der der Unterschied zwischen den Zahlen eine Bedeutung hat, wie Entfernung. Zum Beispiel, unser Bezirk teilweise und 60 Meilen zwischen B und C ist 70 Meilen. Die Fragen sind 10 Meilen auf der Ferne. Sagen Sie Nihilismus sinnvolle Zahl, eine sinnvolle Liste in Also in einem Intervall, Daten gibt es Bedeutung mit referenziertem Gummi mit bis zu der Entfernung hier stellt Dinge wie Zeit, Entfernung, Temperatur, Diese Art von Zeug. Das Wichtigste, was Sie bemerken möchten. Diese Addition und Subtraktion ist möglich, wie Sie Zeit hinzufügen oder subtrahieren Zeit sind Entfernungen bei Temperaturen, aber Multiplikation und Division sind nicht möglich. Sie können die Entfernung eins nicht multiplizieren und zu einer anderen Entfernung bestimmt und erhalten. Du wirst immer Distanzchor bekommen. Es ergibt einfach keinen Sinn. Zehe nicht multiplizieren und Distanzen teilen, so dass ist, was es bedeutet. Beispiele sind wie die Zeit des Tages Datumsabstände zwischen zwei Punkten Temperatur und Dinge wie diese. Dies sind Intervalldaten. Auf dem letzten Typ, den Sie sehen würden, ist das, was das Verhältnis genannt wird. Die Verhältnisdaten wie alles andere, wie jede Art von numerischen Gator, die Sie sehen würden, die nicht wie alle anderen drei anderen Arten von Daten, die wir gerade gesehen haben, qualifiziert . Alle Arten von arithmetischen Operationen sind mit Verhältnisdaten möglich. Ein Waffenstillstand ido ist möglich, aber Null ist ein wahrer gültiger Wert in Im Falle eines Verhältnisses Daten. Einige Beispiele dafür sind wie große Geschwindigkeit Menge in einer Art kontinuierlicher Messdaten , die Sie im wirklichen Leben sehen würden? Ja. Betrachten Sie dringt in Ihre Daten. Wie haben sie sich also alle verglichen? Ah, hier ist ein schöner Kampf ist verantwortlich zwischen jedem der vier Typen. Die besten großen Werte sind in allen vier von ihnen weiterhin anwendbar. Werte sind nur in Intervall- und Verhältnisdaten anwendbar. Weil orginal eine Normale nur Kategorien sind. Frequenzverteilungen, die wir später sehen werden, gelten für tatsächlich alle von ihnen bewegen Gewerkschaftspersonals. Es gelten nur ausländische Reiseverhältnis auf gewöhnliche Sorry für das rote Wesen auf dem Ja und gewöhnlichen und 1.000.000 Person Alter. Addition und Subtraktion sind mit Intervall- und Verhältnisdaten möglich. Multiplikationsteilung ist nur nach Verhältnismittelwert und Standardabweichung möglich. Wieder, werden wir uns was ansehen? Was tat, sind in den zukünftigen Sitzungen gibt es nur auf in Reisen und Verhältnis auf. Natürlich können Sie wirklich ein Verhältnis wie Verhältnis zwischen A und B in Verhältnisdaten finden, nur auf einem Versuch Null ist nur in dem Fall aus Verhältnisdaten anwendbar. Das ist alles, was sie alle miteinander kompakt sind. Ich hoffe, diese Präsentation macht Ihnen hilft, zu verstehen, was die verschiedenen Arten von Daten sind. Vielen Dank 3. Zusammenfassung Statistiken: Wir werden unsere etwas über jemanden Statistiken sehen Jemand Samstag sechs sind ein wichtiger, Ein sehr wichtiger Teil von statistischen und analytischen. Es ist etwas, das Sie immer als grundlegende Analyse für jede Art von Daten, die Sie sehen. Also, was ist jemand Statistik, wenn Sie, wie, eine Reihe von Beobachtungen wie eine Reihe von Datenpunkten, vielleicht 10 Datenpunkte, £100. 1.000.000 Datenpunkte. Sie wollen sie irgendwie charakterisieren auf die Art von Daten, die Sie in 23 R vier Zahlen sehen, zu charakterisieren, und das ist, warum Sie eine Reihe von jemandem Statistiken wie Sie wie ein Basketballspieler auf der Basketball-Spieler hat Bean eskortiert eine Reihe von Punkten für jedes Spiel. Du willst verrückte Leistung vom Basketballspieler tragen. So kommen Sie mit einer Art von zusammenfassenden Statistiken wie Punkte pro Spiel. Sie sehen sich also gut an. In den letzten 10 Spielen, dieser Kerl höhere Punkte pro Spiel von 20, aber er hat einen Karriere-Durchschnitt von Trägerpunkten pro Spiel off 15. Was Sie also tun, ist, dass Sie versuchen, eine Reihe von Datenpunkten in diesem Fall zu erhalten, die Anzahl der Punkte, die die Spieler in jedem der Spiele gefangen haben, wenn sie versuchen, sie in eine oder zwei Zahlen zusammenzufassen . Das stellt dar, wie die tatsächlichen Einzelwerte aussahen. Das nennen wir also zusammenfassende Statistiken. Diese Beobachtungen haben also eine Reihe von Datenpunkten und jemand angefangene Sticks werden verwendet, um sie zu charakterisieren. Also, was sind die Videos? Jemand, äh, Statistiken, die wir Sie betrachten, beginnen mit der zentralen Tendenz an der Tür, sind drei verschiedene Arten von ihnen, aber nur gemein, was nichts anderes als der durchschnittliche Median und mehr ist. Dann gibt es Variation. Abweichung zwischen dem Punkt wird durch Varianz und Standardabweichung am gemessen. Es gibt auch schief, wie die Daten an einem oder anderen Ende süß sind, um zu messen, dass wir Corporal haben. Jetzt werden wir voran gehen und sehen, was jeder von ihnen ist. Beginnen wir mit zentraler Tendenz, zentralen Tendenzen, einer Maßnahme aus. Sehr die Daten sind Stendhal zentral 10 in Richtung Also beginnen wir mit bedeuten, dass jeder Familie mit Mittelwert ist die durchschnittliche Onda. Wie berechnet werden, ist auch sehr einfach. Sie fügen einfach alle Zahlen hinzu und sie gingen durch die Zahl aus der Anzahl der Zahlen, die wir haben. Also bei allen Zahlen geteilt durch die Zählung und dann erhalten Sie den Mittelwert sind die durchschnittlichen ziemlich einfach und unkompliziert. Ein weniger verwendeter Messwert außerhalb der Mitteltendenz ist der Median Median nichts anderes als der mittlere Wert. Der mittlere Wert bedeutet, dass Sie eine Reihe von Zahlen haben. Was ist der Mittelwert, den Sie dort finden? Wie finden Sie Median? Sie nehmen diese, setzen Zahlen und ordnen sie in aufsteigender Reihenfolge und dann finden, was genau in der Mitte dieser Liste ist. Das ist der mittlere Wert auf, wenn die Zahl aus der Anzahl der Zahlen gerade ist, Nehmen wir an, Sie von 10 Zahlen, die Sie finden würden. Was oder wie finden Sie die Mitte ist, dass Sie im Grunde nehmen die unter den Nehmen Nehmen wir an, wir haben, wie 10 Zahlen. Sie nehmen die mittleren zwei Zahlen, fügen sie zusammen und dividieren durch zwei, so dass sie den Durchschnitt von den mittleren Werten auf finden. Das ist es, was Ihnen den Median geben wird. Nehmen wir an, Sie haben 10 Zahlen. Nehmen Sie die 15 6 Zahl, fügen Sie sie hinzu und teilen Sie sie durch zwei, und Sie erhalten die Medien die nächste ist mehr ist nichts anderes als der Wert, der am meisten im Datensatz auftritt . Also hast du dich für dich. Unsere Daten sagten, wo die Zahlen nicht eindeutig sind, wiederholen sie immer mehr. Das ist die Nummer, die am meisten auftritt, auf der Sie wo verwenden, und die hängt von der Situation ab. Es ist sehr Situation abhängig von was? Basierend auf dem, was Sie für die Messung der 10 zentralen Tendenz verwenden. Viele Male könnten Sie sich tatsächlich alle drei ansehen, um einige Merkmale an Bord der Daten zu verstehen . Das ist also eine Ansicht. Berechnen Sie die zentrale Tendenz. Angenommen, Sie haben eine Reihe von Beobachtungen wie diese sind die Zahlen. 1345578999 So wie Sie So haben Sie 10 Zahlen Jahre Konto von 10. Äh, einige dieser Zahlen sind 60. Füge sie einfach zusammen. Und wie findest du mich? Ist einige nach Zählung, die 60 Biss ist, dann unter den sechs, das Symbol, das für Mittelwert verwendet wird, ist das Symbol Maultier amuse. Gebrauchte Tomate sind in der Regel vertreten mich. Der Median ist nichts anderes als der Mittelwert. Wenn Sie sich diese Liste von Zahlen ansehen, ist der mittlere Wert. Darunter sind 10 derjenige, das Verzeichnis in der fünften, unter sechsten in der Liste, und das ist fünf und sieben. Also nimm einfach diese zwei Zahlen fünf und sieben Adam und teile durch zwei. Auf Sie erhalten 66 ist das Medium, und der Motor ist die am häufigsten vorkommende Zahl auf in dieser Liste. Sie werden sehen, dass die Zahl neun dreimal vorkommt, so dass der Modus wird. Auf diese Weise berechnen Sie diese drei Metriken einfach, wenn Sie irgendeine Art von statistischen Analyse-Paket haben . In der Tat, jede der Programmiersprachen sind die Werkzeuge, die Sie haben, bieten Bibliotheken oder Funktionen , um alle drei von ihnen zu berechnen. So ziemlich, dass Sie nicht manuell im Gericht richtig sein müssen. Berechnen Sie sie. Sie werden immer eine Art von Funktion haben. Helfen Sie unserer Bibliothek dabei, all diese Dinge zu berechnen. Die nächsten kommen Varianten. Variant wird verwendet, um zu messen, wie die Werte um einen Mittelwert verteilt werden. Sie sind also die gemeine, was die zentrale Tendenz ist. Aber wie werden die Werte um den Mittelwert verteilt? Sind sie näher an der Mitte? Kennen sie weit jeden Freund? Ich meine, Sie können Zahlen von 4 bis 6 mit einer größeren Datei haben. Und Sie können Zahlen von 1 bis 10 mit einem gemeinen Kampf haben. Auch wenn für beide die bedeutendsten fünf sind, ist die Verteilung dieser Zahlen unterschiedlich. 4 bis 6 und 1 bis 10. Wie messen Sie diese Verteilung? Und dafür verwenden Sie Varianz und Standardabweichung. Sie sehen also im Grunde, dass, wenn die sehr in kleine der Standard sind, Abweichung klein ist, die sehr in der Variabilität in den Daten sehr klein ist. Wenn die Werte hoch sind, ist die Fähigkeit sehr Also, wie geht man über das Rechnen? Eine sehr intensive Standardabweichung. Also auf der rechten Seite haben Sie eine Tabelle, eine Beispieltabelle auf in diesem. Aber Sie gehen und beginnen mit der Berechnung der Varianz und Standardabweichung. Das erste, was Sie hier machen, haben Sie, wie Feuerdatenpunkte 54635 und zum ersten, was Sie tun, ist mir den Mittelwert des Wertes zu berechnen . Alle diese Werte sind für einmal Sie den Mittelwert der Werte berechnen. Dann beginnen Sie, jeden Wert vom Mittelwert zu subtrahieren. Also sagen Sie vier minus der Gemeinheit. Vier. Also vier minus für ein 06 minus. Tut mir leid, dass meine sechs minus zwei sind. Es wird begonnen. Du machst gemein minus dem Wert. Also für minus sechs ist minus zwei vier. Minus drei ist eins für minus fünf s minus eins. So erhalten Sie alle diese Werte. Was machst du dann? Dein Squire? All diese Werte. So Squire von Null ist Null. Ruhig weg. Minus zwei ist vier Einheit. Eine Einheit minus eins ist 12 Westen für Also was passiert, wenn Sie Squires? Sie eliminieren im Grunde den negativen Wert aus der Liste. Sobald Sie diesen Chor tun, summieren Sie alle Quadrate, die Summe aller Quadrate, die die subtrahieren jede Zahl vom Mittelwert und dann Sie Squire Adama. Und dann hast du sie zusammengefasst und du bekommst einen Wert von 10. Und wie erhalten Sie Varianz ist, dass Sie diese Zahl 10 durch die Zählung teilen. Es gibt also einen Kampf. Fünf Werte da drin, einige von Squires. Die Stents, oder 10 mal fünf ist zwei. Also ist die Varianz von diesen Daten gesagt ist auch. Also noch einmal subtrahieren Sie jeden Wert von dem Mittelwert, der sie aufgeschoben hat und dann einige oben. Alle Quadrate teilen sich auf einige von Squires durch zwei. Und das ist alles, was man findet. Standardabweichung Gerade geteilt Gast tun ist ruhig Weg von den Varianten und dann erhalten Sie Standardabweichung. Eine Sache, die Sie bemerken, ist, dass die Varianten die Messvarianten in der Regel die Maßeinheit ist in der Regel das Quadrat von der Einheit aus den einzelnen Werten. Was ich dazu sagen möchte, ist, dass jeder dieser Werte Abstand darstellt. Nehmen wir an, jeder von ihnen ist Meilen vier Meilen, sechs Meilen, drei Meilen. Dann Varianten ist eigentlich, wenn Sie das Zimmer, weil er ruhig ist. Alle Werte Abweichungen zwei Meilen Quadrat. So bekommen Sie so, um den Wert in der gleichen Einheit in Meilen zu erhalten, müssen Sie Squire ritt sie und Sie erhalten Standardabweichung. Also hier sind die Daten gesagt: Wo sind Sie, wo haben Sie eine Liste aufgestellt? Sie sagten, die Entfernung und Meilen, die Haupt ist vier Meilen unter Standardabweichung ist 1,41 Meilen. Das ist alles, was Sie hier für Mittelwert und Standardabweichung darstellen. Das nächste, was Sie sehen möchten, ist über Viertel Fliesen Quartil wird verwendet, um zu finden. Grundsätzlich gibt es Ihnen tatsächlich ein Maß für unser Los von Dingen, also gibt es Ihnen ein Maß für die zentrale Tendenz, die es Ihnen gibt. Messung des Bereichs. Bereich ist nichts anderes als der Minimalwert und Maximalwert in einem Datensatz. Einige Maß für Mieter und zentrale Tendenz Median der Bereich, die der minimale Wert im Maximalwert auf, wie wurden die Daten verzerrt? Ist es schief auf den Minimalwert sind auf den Maximalwert verzerrt. Alle von ihnen werden mit Korporalen gemessen. Also, angesichts einer Reihe von Beobachtungen, wie finden Sie Quart anders? Sie haben eine Reihe von Beobachtungen gegeben, die Sie in der Reihenfolge auf Divide sie in vier gleiche Mengen angeordnet haben. Sie hat also eine Reihe von Werten. Der gleiche Satz von Werten, die Sie früher für die Berechnung gesehen haben, bedeutet, dass Sie sie in den vierten gleichen Sinn teilen . Also jeder Dienst, bei 25% enthält 25% Rabatt auf die Werte im Datensatz. Der erste Wert, den Sie sehen, ist also der Mittelwert. Die, die Sie am 25. Perzentil sehen, wird das erste Quartal genannt. In diesem Fall ist es vier, Das, das Sie am 20. Perzentil sehen, wird das zweite Viertel unterhalb des Medians genannt. Das, das Sie am 3. 1 oder 75. Perzentil sehen, ist das dritte Quartil auf einem. Der Maximalwert bildet tatsächlich das vierte Quartil als Maximalwert. Der Mittelwert erste Quartilmedian, Maximalwert für das dritte Quartal. Also durch Blick auf diese fünf Läufer, Männer ersten Quartil Median das Viertel als max. Es verwendet tatsächlich Ihre schöne Bildisierung aus, wie die Daten verteilt werden. Eine Sache, die Sie sehen möchten, ist zwischen dem Mittelwert und dem Median, 50% der Werte treten auf. Ich meine, Wert und Median 50% der Werte wieder. In ähnlicher Weise zwischen dem Median und dem Maximalwert treten zwischen dem Median und dem Maximalwert weitere 50% der Werte auf. Und am wichtigsten ist, dass zwischen dem ersten Quartal im dritten Quartal 50% auf die Werte, rechts, rechts, erstes Quartal und drittes Quartal, 50% der Werte auftreten. So betrachten Sie und versuchen, die Daten zu charakterisieren und lassen Sie sie gehen und schauen Sie sich hier einige Beispiele an . Also hier ist ein Satz von Datensätzen alle die gleichen min und Max Werte, aber es gibt Ihnen, wie Daten variieren können und haben Sie es interpretieren können. Schauen wir uns die ersten Daten an und verwenden 1358 10. Das ist irgendwie gleichermaßen verteilt. Warum dies gleichmäßig verteilt ist, ist die beste Ins zwischen der Minute und ersten Mengen wie toe zwischen dem ersten und Treffen Dies, wie Medien und drittes Quartil ist wie drei, so ist es irgendwie gleichmäßig zwischen jedem verteilt diese Zahlen. Die zweite 1, die Sie sehen, ist, dass die meisten Werte näher an den Zentren sind. Sie sehen, dass 1456 und 10. Also zwischen dem ersten und dritten Quartal, das sind vier und sechs. Sie werden sehen, dass 50% der Daten auftreten USO 50 Person außerhalb der Zahlen in Ihrem Rechenzentrum zwischen vier und sechs, während die Gesamtbereiche zwischen eins und 10. So gibt es Ihnen eine andere Art von Variation, bei der eine Reihe von Gassen auf dem Median eng zusammengepackt sind . Aber es gibt eine Reihe von Wert gibt es sie vor ihnen, so ist es Art von bestimmten Werten sind weg, aber die meisten von ihnen sind in den Medien verpackt. Der dritte Datensatz ist, wo Sie 1237 und 10 sehen. Also, obwohl die Bereiche zwischen einem und 10 die Sitzung Geschichte so 50% der Werte, die ich gerade abgedeckt in 100 auf einem anderen 50 Person knuckle zwischen drei und 10. Also ist es irgendwie schief nach links und Sie schauen auf die nächste Runde, sehen Sie, dass Sie das Risiko, dass Sie zu teilen, weil der Median sieben ist. Also zwischen sieben und zehn oder 50% Ihrer Werte, aber wir waren eins auf sieben, weitere 50%. gibt also mehr Kundgebungen zwischen dem Median und dem Oberkiefer, die sich gerade wiederholen, Esgibt also mehr Kundgebungen zwischen dem Median und dem Oberkiefer, die sich gerade wiederholen, während zwischen den Männern und den Medien weniger Werte auftreten. Dies ist eine schöne Präsentation aus. Wissen Sie, das ist, wie Sie die Daten betrachten und versuchen, es herauszufinden, aber weniger Blick auf das Quartal. Sie versuchen, eine Reihe von Dingen über die Daten zu finden. Sie möchten sehen, was die zentrale Tendenz, was ist der Bereich der Daten und sie gleichmäßig verteilt, gerettet werden, sogar real aussehen, alle von ihnen, indem Sie nur auf das Viertelfinale. Das Letzte, was wir ihn ansehen wollen, ist das, was wir uns Ausreißer nennen . Also, was ist ein Ausreißer in unserem Spieler? Gibt es einen Kunstwert, der in einem Datensatz über Kleid typischerweise dem Thema Axinn oder dem bevorstehenden der Wüste vorkommt ? Weil es bereits ist, wird es offensichtlich in Richtung es auf die max und seltsame bevorstehende der Datensatz alle Spieler sein . Warum sie in der Analyse wichtig sind, ist, dass sie beabsichtigen, die jemand angefangen Sticks des Datensatzes zu starten . Also, wenn Sie Daten verwenden, ohne Spieler Bildung lernen, kann es das Verhalten von Ihrer Mission Lernalgorithmen beginnen , so dass ist eines der wichtigsten Dinge, die Sie sich erinnern möchten . Es gibt Spieler sind sehr wichtig, wenn Sie Daten in Mission Learning Algorithmus übergeben . Ein Beispiel hier ist in der Regel haben Sie eine Reihe von Beobachtungen wie 1245 auf 20. Sie sehen offensichtlich sofort, dass 20 wie eine Kunstnummer ist, die dort sitzt, weshalb wir sie den Ausreißer nennen. Also ohne Spieler. Also lasst uns ein Tablett, das verirrt hatte, um den Mittelwert und die Standardabweichung von diesen Daten zu berechnen sagte mit und ohne unsere Spieler. Also ohne Spieler, Sie sehen die gemeinsten 6.4 und die Standardabweichung von 6.94 Aber Sie entfernen Ihren Spieler und nehmen Sie einfach die 24 Zahlen 124 und fünf und versuchen, den Mittelwert zu berechnen Jetzt sehen, der Mittelwert ist nur drei, und Standardabweichung ist nur 1,5. So viel und hoffentlich können Sie beginnen. Sie sind Zahlen, also müssen Sie sehr vorsichtig mit allen Spielern sein. Wann immer Sie sich die Daten sec ansehen und Sie müssen entscheiden, dass Sie die alten Spieler für Ihre Finanzanalyse nicht halten wollen . Sonst wird es diese Art von verzerrter Leistung haben. Es kann Ihnen tatsächlich die falsche Idee geben. Falsche Analyse, falsche Handlungen, allerlei Sachen. Sie möchten also sehr vorsichtig mit unseren Spielern sein. Das schließt also unsere Diskussion über jemanden ab 4. Statistische Distributionen: Hallo. Das ist dein Lehrer, Cameron. Hier versuchen wir nun, im Abschnitt über Distributionen zu sehen. Statistische Verteilungen sind Wahrscheinlichkeitsverteilungen. Distributionen sind ein Bischel Weg von einigen Rennen und zeigt Trends auf Sie. Wenn Sie Toe Analytics verwendet wurden, werden Sie eine Menge über diese Distributionen sehen, die in Ihrem wirklichen Leben. Also, was sind die Distributionen? Zeigen Sie, wie die Datenwerte in einem gegebenen verteilt werden. Beobachtung sagte, so dass Sie eine Reihe von Daten haben. Du bist Sammler. Die Anzahl der Beobachtungen oder Proben sind Beispiele. Und dann versuchen Sie herauszufinden, wie sich diese Werte in einem bestimmten Datensatz verteilen. Also, wie geht es Ihnen? Distributionen sind Verteilungen im Grunde enthalten eine Reihe von Ablagen. Die Behälter sind unsere Gruppen sind auf der X-Achse dargestellt. In diesem Beispieldiagramm auf der rechten Seite sind die Bins tatsächlich wie die Arten von Feedback, die Sie wie ausgezeichnet erhalten. Sehr gut, guter Farron schlecht. Also ist jeder ein gewesen auf. Dann zählen Sie die Anzahl der Beobachtungen, die in jedem der Abschnitte aufgetreten sind. Also nehmen Sie an, Sie haben Feedback von, sagen wir, 50 Menschen gesammelt sagen wir, und dann wollen Sie zeigen, wie maney Exzellenz Sie bekommen, wie maney sehr Güter Sie bekommen haben. Wie maney Güter du angeschafft hast. Dies ist, wie Sie sie in einer Verteilung zeigen, ist Sie steak jeder aus der Art off Bewertung und setzen Sie sie auf die X-Achse und dann die Zählung, die Sie finden sein Telefon als fünf setzen auf der Y-Achse . Und so würde eine Distribution aussehen. So tun Sie für kategoriale oder gewöhnliche Daten. Was ist mit Intervall- oder Verhältnisdaten? Im Falle von Intervall oder Verhältnis, Sie sind Die Abschnitte sind normalerweise Bereiche aus Werten. Sie konvertieren sie in Wertebereiche wie 1 bis 10 10 bis 2020 bis 30. In der Regel sind sie gleich große Bereiche. Und dann zeigen Sie, wie maney Werte in jedem dieser Bereiche aufgetreten sind. So würden Sie eine Verteilung für Intervall- oder Verhältnisdaten durchführen. Hier ist ein Beispiel, wie Sie eine Distribution erstellen würden. Also oben, sehen Sie, wie 10-Nummer. Das sind also Ihre Daten, sagten die Daten. Hat 10 Zahlen in ihnen auf. Ich möchte eine Distribution aufbauen. Wie mache ich das? Zuerst erstelle ich Bens Stubbins hier gezeigt ist, dass ich versuche, Bins im Bereich von zwei Zahlen zu erstellen . Sie wollen 3 zu 4567 zu acht und neun heute zu tun, und dann wird jeder Wert genommen und in die entsprechende gewesen. Also die schnelleren Werte für ich nehme diese vier und lege in den Bin 3 bis 4, weil das der Bereich ist, in den es fällt. Dann nehmen Sie sieben auf, legen Sie sie in den Ben 78, weil das ist die Ordnung, in die es fällt auf. Dann tun Sie das für jeden Wert, den Sie im Datensatz finden. Und dann schließlich zählen Sie die Anzahl der Werte, die auftreten. Jeder der war die Anzahl der Werte von 1 bis 2. Die gewesen wollen zu tun, gibt es drei Werte Ihr Land. Sobald Sie also die Zählung auf abhängig haben, pflanzen Sie die Bohnen auf der X-Achse. 123456 789 10 und Blut. Die Zählungen auf der Y-Achse auf. Dann knallst du. Setzen Sie die Punkte der Balken sind, was Sie in der Show und so erstellen Sie ein Verteilungsdiagramm für einen bestimmten Satz von Daten. Nun, wenn Sie Verteilung haben, die verschiedene Formen sind. Sie enden, wenn Sie eine Verteilung machen. Also, wenn Sie versuchen, glatte Ebene auf diesen Grundstücken oder hier zu zeichnen, sagen wir, Gehen Sie zurück zu der früheren Verteilung und Sie versuchen, SMU zu zeichnen, trainieren Sie auf der Handlung wie folgt. Also einer von denen, die Sie die Verteilung steuern, können Sie tatsächlich eine kleine Ebene auf der Oberseite von allen Balken zeichnen. Auf der Spitze der Punkte erhalten Sie eine Form auf der Form. Typischerweise, dass die Minen waren Art der Verteilung. Es ist so, dass es verschiedene Arten der Verteilung, wie die J-Shape-Verteilung. Sie sagen, die Werte sind die niedrigeren Bens haben viele Off-Werte als die höheren Bins in dem Fall. Aus einer Normalverteilung sehen Sie, dass die mittleren Bins die meisten Werte auf den unteren und den oberen Bins haben, um zu wissen, dass diese Geldzahl von Werten im Fall einer rechteckigen Verteilung, alle Bins haben die gleiche Anzahl von Werte in einer Kaufmodellverteilung. Siehst du, die beiden Unebenheiten sind zwei Berge in den Verteilungen, wo es nach Modell genannt wird, also gibt es ein Nein auf der unteren sagte. Es gibt eine gewesen, die viele Werte auf der höheren Seite hat, es gibt einen Gewinn, der viele Werte hat. Dann gibt es die Positive. Q. Und die Negative que wo in der Pastor töten, während die unteren Knochen haben in der Regel eine mehr Anzahl von Werten. Im Falle der negativen Studi, höhere Ereignisse haben mehr Anzahl von Werten. Dies ist, wie die Verteilung, die verschiedene Arten von Verteilungen, die in der Regel gibt . Dann kommt das Wichtigste, was Wahrscheinlichkeitsverteilung genannt wird. Was ist also eine Wahrscheinlichkeitsverteilung? Dies ist ein wenig komplexes Konzept, wenn Sie mehr Aufmerksamkeit auf versuchen, es zu verstehen , so dass es eine Wahrscheinlichkeit Zehe jedem messbaren Ersatz aus zu zahlen. Mögliche Ergebnisse experimentieren oft wieder. Hier gibt es eine Menge Komplexität. Lassen Sie uns eins nach dem anderen bewerten. Sie haben ein Experiment. Ein Experiment ist nichts, aber ich sammle Daten. Also ein zusätzlicher Mann, vielleicht als würde ich versuchen, unter 100 Patienten zu finden. Weißt du, was für eine Art von Ohka nehme an, ich habe 100 Patienten? Ich möchte herausfinden, was das Alter reicht von diesen Patienten. Wenn sie wollten mein Hemd Alter reicht von diesen Patienten und ich will eine Handlung bis regelmäßige Verteilung. Was ich normalerweise tun würde, ist, dass ich das Alter von den 100 Patienten des Patienten abnehmen sie dann in Eimer von 0 bis 10 legen möchte. 10 bis 2030 22 30. So wie das auf. Dann möchte ich die Zählung auf die Y-Achse setzen und schönes Blut ziehen. Nun, das ist eine regelmäßige Verteilung. Was bedeutet eine wahrscheinlich Verteilung ist in Sachen, die die Zählung auf der Y-Achse plottet. Ich werde tod die Wahrscheinlichkeit von jedem dieser Bereiche auftretenden. Also, wie mache ich das? Ich gehe zurück zu der früheren Handlung und zeige dir dann Nein. Hier ist es die Flächenverteilung, die Sie gebaut haben. Aber die Sonne schien auf der X-Achse und zählt auf der Y-Achse. Jetzt ändere ich einfach die Zählspitze. Vermutlich auf Eis bleiben. Ich hätte wahrscheinlich jede dieser Kurven ablegen sollen. Es ist sehr einfach. Sie nehmen nur die Zählung in jedem der Bins, seien Sie besorgt über die Gesamtzahl der Werte und das wird die Wahrscheinlichkeit für jeden mit so in diesem Fall die Gesamtzahl aus Werten, um die Zählung zu stemmen, und es ist ein Zeh gewesen, eine Straße zu machen. Also drei. Aber dann ist unsere 30.3 die Wahrscheinlichkeit, dass die gewollten, auf die Wahrscheinlichkeit hinweisen was gewesen? Schön. Sie plotten also wahrscheinlich auf der Y-Achse Ben auf der X-Achse, die zu Ihrer Wahrscheinlichkeitsverteilung wird . Gehen wir zurück zur anderen Folie und fangen an, etwas tiefer zu graben. Also in diesem Fall, sagen wir, ich habe auf der X-Achse gealtert, die Wahrscheinlichkeit, dass ein Patient dieses Alter hat, ist auf der Y-Achse gesichtet, die Sie messen, indem Sie sagen, ich sammle Daten von 100 Patienten und dann bin ich setzen sie alle in eine Verteilung und dann Umwandlung tun eine wahrscheinlich Verteilung mit der Technik Wir gerade angedockt Kräuter. Also jeder mögliche Ranger Teil um die X-Achse, die, wie gesagt, H 0 zu 10 10 bis 2020 30 auf, dann die wahrscheinlich, dass bestimmte Altersgruppe auftritt, ist Punkt auf der Y-Achse Wahrscheinlichkeit ist immer ein Wert, aber 0 bis 1. So sahen wir, dass es so sein könnte, als ob 30 Agenten diktiert würden, 30 von 100 Patienten der Altersgruppe 20 bis 30 sind . Die Wahrscheinlichkeit von 20 bis 30 beträgt 30 mal 100. Unter diesem 1000.3 können Sie wahrscheinlich Verteilungen entweder diskret oder kontinuierlich sein. Diskret bedeutet, dass sie nur Vince sind. Das kann es sein. Sie können sie verwenden, um zu plotten, einen Satz von Werten fortzusetzen und dann auch eine schöne Abdeckung auf sie zu plotten , so dass Sie beides in Bezug auf Wahrscheinlichkeitsverteilungen tun können. Eine der beliebtesten Distribution, die Sie sehen, wird als Normalverteilung bezeichnet Sind die Goshen-Verteilung. Was ist also eine normale Verteilung? A. Normalverteilung ist Verteilung, wo, wenn Sie Werte aus blockieren, gegeben Datensatz auf einem Diagramm, es nimmt das Schiff ab und unsere Melco So plotten Sie die Werte auf einem Diagramm auf einem Devon Daten und unter den Daten nimmt was heißt normalerweise auf der Suche nach gekräuselten. Was ist ein normalerweise aussehendes Auto? Schauen wir uns auf der rechten Seite Diagramm. Ein normal aussehendes Auto hat in der Regel, vorausgesetzt, sie sind symmetrisch über den Mittelwert, was bedeutet, dass Sie den Mittelwert nehmen, der der mittlere Balken ist. Sie sehen, wie das Diagramm zementiert wird. Beide Seiten sehen typischerweise gleich aus. Es gibt keine Schoner. Auf der linken Seite sind Schoner auf der rechten Seite oder so etwas wie ein von modernen so etwas. So ist es gleichermaßen symmetrisch über den Mittelwert. Und es gibt andere Merkmale über eine Normalverteilung auf, die zu sehen ist. Beginnen wir mit dem Versuch zu verstehen, was jeder der Mittel es sagt, etwa 68% Rabatt auf die Werte unseres Lebens innerhalb einer Standardabweichung vom Mittelwert Was bedeutet das ? Der Mittelwert ist also Bruder in der Mitte? Aber wir nennen hier Experte. Wir hätten dich auch wieder anrufen können. Es gibt etwas anderes, aber wir wollen nicht darauf hineingehen. Und was bedeutet dann X plus ein Sigma auf was X minus ein Sigma ist? Angenommen, Sie wissen, Daten sagen, der Mittelwert der Werte ist Kampf. Verstehen Sie, dass Abweichung auch so ist X plus ein Sigma fünf plus zwei, dass ein sieben x minus eins drei bedeutet. treten also zwischen 3 und 7 68% der Werte auf. Also die Daten besagten hatten 100 Werte mit a waren Mittelwert von fünf und Standardabweichung von bis zu 68. ihnen wäre zwischen den Werten drei und sieben. Lassen Sie mich wiederholen. Ich habe einen Tag Hat es 100 Werte mit einem Mittelwert von fünf Standardabweichung von bis zu 68. Von ihnen wird zwischen drei und sieben sein. Aber nur, ich meine plus ein Sigma und mittlere Bergleute Sobald es dann sagen Sie 95% von ihnen werden zwischen zwei Standardabweichungen des Mittelwerts liegen, was bedeutet, dass 95% der Werte zwischen Express zu einem X minus zwei liegen werden, das ist Kampf plus tun, um vier zu tun. Also fünf plus vier und fünf Minuten für zwischen, Warum die Werte eins und neun, 94% der Werte auftreten würde. So zeigen Sie nur, wie die Werte gleichmäßig verteilt werden würden, wenn die Werte auf diese Weise verteilt werden , und wenn Sie dieses Teilchen der Form auf diese Zahlen bestätigen, wird es zu einer normalen Verteilung auf Verteilung. Warum sollten Sie also wollen, dass wir herausfinden, ob Ihre Daten normal sind oder nicht? Denn sobald Sie wissen, dass Ihre Daten wie eine Normalverteilung aussehen, gibt es viele reguläre Standardformeln, die Sie normalerweise mit der Wiedergabe beginnen können . Es gibt eine Reihe von regelmäßigen Annahmen, dass Sie nicht beginnen können, sich auf Ihre Daten anzuwenden. Man muss nicht viele Sachen sitzen und computern. Viele Dinge sind bereits für Sie berechnet. Es gibt Landwirte und Bibliotheken für Sie, die Sie verwenden können, wenn Sie wissen, dass Ihre Daten normalerweise verteilt sind. Typischerweise wird auch gesagt, dass die meisten Daten sagen, dass Sie finden werden, werden normalerweise verteilt. Vorträge. Okay, unter auf der linken Seite, sagte, Sie sehen ein anderes Diagramm, das Ihnen gibt, wie die Normalverteilung für verschiedene Werte von mu aussehen wird . Auf verschiedenen Werten sind Varianten der klassischen Myers-Standardabweichung von Sigma. Sigma Squired ist strahlend. Also, was verschiedene Werte von Ihnen und Standard-Division? Wie sehen diese Werte aus? Nur die schnellen Abdeckungen? Sehr schmal. Das liegt daran, dass Sie sehen, dass die Standardabweichungen des Spiegels die Varianzen ziemlich weniger spiegeln, wenn eine Varianz ständig zunimmt, die Höhe der Kurve sinkt auf der Streuung des CO steigt. Das ist alles, was du siehst. Unterschiedliche Normalverteilungen nehmen Gestalt an. Hier ist ein Beispiel aus einer Normalverteilung. Es geht um Angestellte aus einer Getreidefabrik. Es zeigt, wie viele Jahre die Menschen arbeiten und wie viele Menschen in diese bestimmte Zahl fallen aus Ihrem scategory. Die Anzahl der Jahre wurde also auf der X-Achse dargestellt. Die Frequenz ist vorne um die Y-Achse. Das bedeutet die Anzahl der Menschen. Also lassen Sie uns sagen, dass der einzige Blick auf die Zahl von uns arbeiten diese acht gibt es 100 seiner eigenen Leute, dass eine bestimmte waren auf dem Mittelweg aus. Diese Daten sind 10.21 Standardabweichung ist 4.1. Wenn man sich also eine Figur wie diese anschaut, gibt es Ihnen sofort ein schönes Bild. Ization aus, wie die Daten verteilt werden. Sie sehen auf Justiz Bild Zoll. Okay, das sind alle meine Daten. Sieht aus, als wäre der Mittelwert um 11. 11. Sehen Sie sich einfach die Tabelle an. Sie können leicht die gemeinsten um 11 sehen. Sie tun gut, verbreiten ihre eigenen, nicht verzerrt. Wie auch immer, Sie können vielleicht ein paar Annahmen in Bezug auf sie machen. Als nächstes kommt eine sehr wichtige Verteilung, die eine nach Modellverteilung durch Modellverteilung durch eine Nennverteilung genannt wird. einer Binomialverteilung handelt es sich um Daten, bei denen das Datum entweder Null oder eins sieht. Es ist keine Zahl offiziell ein 01 Angenommen, Sie haben einen Test, die Sie jemals gesetzt 100 Patienten. Und Sie wollen sagen, Hat dieser Patient Krebs oder nicht? Das ist also ein Test. Sie haben also 100 Patienten. Sie stellen diese Frage 100 Mal für jeden dieser Patienten, haben Sie. Ich habe mit nur einem oder Null oder s oder nein geantwortet, da es nur zwei mögliche Werte sind, das heißt, durch seine von einer Armee von auf einer Verteilung für diese Art von Daten aufgerufen wird, wird eine Binomialverteilung genannt . Wie plotten Sie also eine Binomialverteilung? Angenommen, Sie haben es ist im Grunde beschreibt eine Wahrscheinlichkeit aus einem Tyrann, ein Ergebnis, das zu sagen ist, dass, wenn ich unter Patienten, was ist die Wahrscheinlichkeit, dass 30 Personen 30% Rabatt auf meine Patienten? Wir lieben Krebs. Wie hoch ist die Wahrscheinlichkeit, dass 50 von meinen Patienten Krebs haben? Wie hoch ist die Wahrscheinlichkeit, dass Sandy von meinen Patienten Krebs haben wird? Das ist es, was eine Binomialverteilung normalerweise zu beantworten versucht. Also sagen wir das Beispiel auf der rechten Seite, vielleicht sind wir wie 10 Patienten, okay. Und von diesen 10 Patienten versuchten, die Wahrscheinlichkeit zu finden, was Autorität ist, dass Patienten Krebs haben und dass diese wahrscheinlich 20% Rabatt auf meine Patienten sind. Was ist das Problem damit? Fünf Patienten aus könnten Krebs auf die Wahrscheinlichkeit ist irgendwo hier, wie 50,12 sind 12% der Patienten. Also, wenn Sie, wie, eine Reihe von Studien in dieser Studie und nichts anderes als die Anzahl von Beobachtungen in diesem Fall dass die Anzahl der Patienten, wenn ich eine Reihe von Patienten habe und ich Kay, wie, eine Reihe von Studien in dieser Studie und nichts anderes als die Anzahl von Beobachtungen in diesem Fall, dass die Anzahl der Patienten, wenn ich eine Reihe von Patienten habe und ich Kay, die Anzahl der Erfolge, Kay ist die Zahl der Patienten unter diesen, die Krebs haben könnte. Was ist die Wahrscheinlichkeit, dass Sie versuchen, eine starke Wahrscheinlichkeitsverteilung und sagen: Okay, Okay, was ist die Partei, dass 10% der Patienten, 20% meiner Patienten, 30% der Medikamente Krebs haben werden? Also, das ist eine Handlung von der ganzen Wahrscheinlichkeit. Das Problem wird also auf der Y-Achse die Anzahl der Beobachtungen auf Studien auf der X-Achse der Anzahl der Patienten aufgezeichnet und dann nur unsere Bar, wie Sie möchten das betrachten. Hier ist ein Beispiel für die Binomialverteilung. In diesem Fall, was Sie tun, ist, dass Sie versuchen, eine Münze für Zeiten zu drehen, wenn Sie eine Münze vier Mal , was nichts anderes als vier Beobachtungen sind vier Beispiele oder vier Versuche jeweils. Für jeden Versuch wirst du ein Binomial nach oben bekommen. Es wird entweder Kopf oder Schwanz sein. So gibt es nur zwei mögliche Ausgänge von jedem Versuch, Kopf oder Schwanz. Dann versuchst du, alle vier Prüfungen zu machen und zu sehen, wie maney Gesamtköpfe ich kriegen kann. Also, wenn Sie eine Flip-Off-Münzen vier Mal tun, das sind alle mögliche Kombination. Es gibt 16 mögliche Kombinationen aus, wie Sie Kopf unseren Tag bekommen würden und sie sind tatsächlich hier gezeigt. Sie können entweder Kopf, Kopf, Kopf bekommen Kopf, . Es hatte auf vielleicht jemand wie Kopf Schwanz, Schwanz Kopf nehmen . Also, obwohl die 16 Beobachtungen, die Sie versuchen, zu finden, wie oft ich in diesem bekommen Sie maßgeschneiderte Produkt mit einem Diagramm hier und sagen, Überschuss , Feststellung durch die Zahl aus es. Also, wie oft werden Sie Null Köpfe bekommen? Das war eine, die ist, wenn Sie alle Geschichten eins von 60 bekommen. So gut, eine andere 16 die wahrscheinlich geteilt durch 16 ist 160,6 bis 5. Was ist das wahrscheinlich, dass ich nur einen Kopf bekommen werde. Sie bekommen vier Mal in dieser Liste. Sie werden sehen, dass es vier Mal gibt, dass Sie nur einen Kopf bekommen. Also das ist vier mal sechs Howard Mal. Ich bekomme nur 62 Köpfe, die sechs mal 16 Onley drei Treffer vier mal 16 haben. Ich will dich. Und woher bekommst du Stirn? Das wird von 60 gewonnen. Der Euro Das ist schön. Wahrscheinlich kommt das hier rauf. Dann gehst du sie und Blut. Dies ist die Anzahl der Treffer, die Sie die X-Achse auf der wahrscheinlich auf der Y-Achse bekommen würden. Und dann kriegst du diese schöne Belka so. Dies ist ein Beispiel für eine Binomialverteilung. Und Sie können dies verwenden, um es herauszufinden. Du weißt, wie es das Eigentum ist, zu dem ich komme, und dann kannst du dir ansehen. Auf diese Weise wird die Wahrscheinlichkeit verteilt. Damit ist unsere Diskussion über Distributionen abgeschlossen. Danke. 5. Statistiken Korrelationen: hoch in diesem Abschnitt, werden wir über Korrelation sprechen. Korrelation ist die Grundlage für Radarzeichen und Missionslernen Sie immer darüber sprechen wenn Sie über Datenzeichen über Signale über die Einsicht, Informationen, Wissenund alle möglichen Dinge sprechen Informationen, Wissen . Die Grundlage für alle ist die Korrelation. Wenn du das Missionserlernen kennst, versuchst du, etwas anderes als andere Dinge zu schützen. Das Ding, das du vorhersagen willst, ist das Ziel. Das Ding, das Sie verwenden wollen, um vorherzusagen, wird als Prädiktorvariable auf Zehe bezeichnet. Sagen Sie das Ziel voraus. Es muss eine Korrelation zwischen dem Prädiktor und dem Ziel geben. Wenn Sie Korrelation haben, können Sie Mission Learning verwenden, um vorherzusagen. Wenn Sie keine Korrelation haben, dann können Sie nichts tun. Korrelation ist die Grundlage von Daten Heiligen auf, die gehandelt hat. Lernen Sie etwas abgebrochenes. Also, was ist Korrelation? Korrelation ist eine gegenseitige Beziehung Verbindung zwischen zwei oder mehr Dingen. Es gibt also zwei Dinge, die durch zwei Sätze von Zahlen dargestellt werden. Wenn Sie Korrelation sagen, bedeutet dies, dass, wenn eine Reihe von Zahlen, wenn der Wert steigt, der andere auch nach oben geht oder der Wert auf einer Seite sinkt. Abwertung gehen auch Stein auf der anderen Seite. Also auf der rechten Seite haben Sie ein Diagramm zwischen Schwarzdruck und Alter auf. Sie sehen, dass, wenn acht ansteigen, der Blutdruck auch steigt oder abnimmt. Dies zeigt die Beziehung zwischen variablem Alter und variablem Brotdruck. Auf diese, was wir nennen, fragen Korrelation. Wenn eine Sache hochgeht, geht auch die andere Sache nach oben. Es zeigt die Interdependenz zwischen zwei Sätzen von Werten sind die Interdependenz zwischen zwei Wert zwei Variablen. So Korrelation, wie wir wieder gesagt haben, ist mit der Korrelation zwischen zwei Datensätzen ist, wie viel eine sich ändert, wenn sich der andere ändert, wie viel man ändert, Wie genau ändert sich eine, wenn die andere auch Änderungen? Und es ist die Grundlage von Datenzeichen. Wie ich gerade erklärt habe, ist eine Korrelation zwischen dem Prädiktor und den Zielvariablen erforderlich, damit Sie genaue Vorhersagen machen können. Und hier sahen wir ein Beispiel für Alter und Blutdruck Messung Korrelation. Wie messen Sie die Korrelation? Es gibt eine Reihe von Möglichkeiten, wie Arm versichert, dass wir verwendet haben, um Korrelation zu messen, aber die wichtigste und beliebteste ist, was wir den Pearsons-Korrelationskoeffizienten nennen . Wir würden diese Koeffizienzmaßnahme in allen unseren Beispielen in einer prädiktiven Analytics-Modelle verwenden . Achten Sie also bitte genau darauf. Der Korrelationskoeffizient von Pearson ist eine Zahl, die zwischen minus eins und plus eins verschieden ist, desto näher ist der Wert zwei minus eins. Diese negativere Korrelation ist umso näher. Der Wert ist zwei plus eins. Je positiver die Korrelation ist auf der näher, der Wert ist 20 Es gibt keine Korrelation auf die Beispiele für sie sind tatsächlich in den verschiedenen Diagrammen in der unteren. Nehmen Sie also an, Sie nehmen zwei Variablen und Blut eine auf der X-Achse auf der anderen auf der Y-Achse an jedem Datum auseinander und an jedem Beispiel. Unsere Probe dieses Produkt hier in dieser Tabelle. Aber, sagte er, es gebe eine perfekte positive Korrelation auf den Wert. Es ist eine, die Sie sehen, dass, wenn es zunimmt, wenn der überschüssige Zugang zunimmt, warum auch in einer wirklich, wirklich geraden Ebene zunimmt? Wenn die Korrelation etwa 0,8 hoch positive Korrelation ist, werden Sie sehen, dass sie fast in ein gerades Bein fallen. Aber es gibt kleine Höhen und Tiefen irgendwo, wenn Ihr Wert von 0,3, was niedrig ist positive Korrelation, die Werte beginnen sich auszubreiten, aber sie fallen immer noch irgendwie in eine gerade Linie, wissen Sie, ein Wort in einer geraden Linie, aber es gibt viele Varianten, wenn es keine Korrelation gibt. Natürlich sind die Werte überall auf der Stelle, wenn der Wert Null und negative Korrelation ist, wenn ein Wert in die andere Geisterstadt geht, das ist, was Sie eine negative Bedingung nennen. Einer geht hoch, der andere geht runter. Also die gleichen Sanitär auf dem X und y sehen Sie, dass, wenn es eine geringe negative Korrelation, die Werte sind überall auf der Stelle. Aber es fällt immer noch etwas in eine abnehmende gerade Linie. Wenn er sich in eine hohe negative Korrelation bewegt, ist es fast eine gerade Linie auf einem perfekten Negativ. Korrelation ist, es war eine gerade abnehmende Linie. Dies ist also unsere Korrelation zwischen zwei Sätzen von Werten können untereinander variieren. Es war wichtig für Sie, weiterhin Ihre Daten in diesen Diagrammen zu plotten und diesen verdammten Blick zu halten und zu sehen, wie, welche Art von Korrelation ich in den Diagrammen sehe und was ist meine Essenz? Korrelationskoeffizient gemessen, was jeder von ihnen eine sehr wichtige Sache, die wir wissen nicht über Korrelation ist, was die Beziehung zwischen Korrelation und Kausation ist. So Korrelation, wie wir sahen, ist, dass die Beziehung zwischen zwei Werten die Ursache für eine Wertänderung ist . Sie haben variabel und variabel eingeschaltet, wenn die Variable a nach oben geht. Wo Sie sein werden, geht auch nach oben. Bedeutet es, dass Variable eine ISS, die Autos aus variablem Schlag? Nehmen wir ein einfaches Beispiel ab. Die Beziehung würde den Cholesterinspiegel von Andi eindringen. Sie würden in der Regel sehen, dass, wenn das Gewicht steigt, Cholesterinspiegel steigt auch. Ist es eine Ursache? Ist warten eine Ursache für College für Cholesterinspiegel zu gehen? Ja, das ist, weil es wissenschaftlich bewiesen ist, dass je mehr weg, wo Sie in der Regel wiegen desto mehr haben Sie in Ihrem Körper auf. Das bedeutet, dass es eine Reihe von wissenschaftlichen sein wird, kein Grund, warum Sie mehr Cholesterin haben werden. Es gibt also einen Grund, warum es eine Erklärung für diese Ursache gibt, dass, wenn das Gewicht steigt, Ihr Cholesterinspiegel auch steigt. Lassen Sie uns die umgekehrte Frage stellen. Ist der Cholesterinspiegel die Prägnanz für Warten? Nein, nur weil Ihr Cholesterinspiegel steigt, beeinflusst das Gewicht nicht, weil wissenschaftlich widerlegt ist, ist es Gewicht, das Cholesterin beeinflusst, nicht umgekehrt. Richtig? Heuristisch. So Korrelation kann nicht im Spiel Kausation, so dass ist eine andere wichtige Sache. Also, nur weil zu Radia, Rechnungen sind später einander, nur weil, um zu tragen, die andere geht nach oben, bedeutet nicht, dass eine eine Ursache für andere ist. Dann sage ich ein weiteres Beispiel aus der Brustgröße. Okay, lasst uns verdichtet. Kleidungsgröße gegen Cholesterin. 11. Wenn Ihre Kleidungsgröße steigt, in der Regel steigt auch Ihr Cholesterinspiegel. Bedeutet das, dass Sie gerade Größe ist die Ursache für den Cholesterinspiegel? Nein, sie sind abhängig. Sie sind mit 100 korreliert. Aber Einssein, nicht die Ursache für andere hatte. Eigentlich waren 1/3 Kosten nur Ihr Gewicht. Also warten ist die Ursache, dass so gibt es eine Korrelation zwischen Ihrem Gewicht und Brustgröße zwischen Ihrem Gewicht und Cholesterinspiegel und der Vader, die Ursache, dass Ihr Cholesterinspiegel geht auf Ihre Kleidergröße Ursache. Also Korrelation gemacht, vielleicht tun Zehe Korrelation zwischen zwei Variablen kann entweder die Kausation tun. Sie könnten gemeinsame Kosten haben, wie Kleidergröße auf duh. Cholesterinspiegel haben eine gemeinsame Kosten wie Art und Weise, oder es kann nur rein zufällig sein. Vielleicht gibt es keinen Grund. Also musst du es tun. Wann immer Sie eine Korrelation zwischen zwei Variablen sehen, müssen Sie fortfahren, herausfinden. Warum korrelieren sie miteinander? Gibt es einen Schadensfall? Ist das eine häufige Ursache in Ball da drauf? Rein beiläufig. Wenn Sie versuchen, etwas in Mission Learning vorherzusagen, möchten Sie die Prädiktorvariablen, Toby die Ursache für die Zielvariablen. Das ist, wenn die Vorhersage in der Zukunft gut halten wird, wenn Ihre Prädiktorvariablen die Ursache für Ihre Zielvariablen sind, tut es das. Brent Kommission Lernen wird gut sein, wenn das fehlt. Wenn die Beziehung rein zufällig ist, gibt es keine Garantie, dass die Korrelation, die Sie heute sehen, auch morgen passieren wird, wenn die Beziehung nur zufällig ist. Sie wollen also immer den Grund betrachten, warum einige Variablen miteinander korreliert sind , wenn Sie Missionslernen machen. Also hier ist ein Beispiel aus einer Beziehung zwischen US-Autobahn Todesraten und frischen Zitronen Zitronen wichtig die USA Von Mexiko, eine interessante Sache,die Sie sehen, ist, dass die frischen Zitronen wichtig aus Mexiko fragen. Von Mexiko, eine interessante Sache, Geht weiter nach unten. Die für das erste war es niedriger. Die Todesrate ist hoch. Also, warum ist U S Autobahn Todesrate, die von Verkehrsunfällen hoch, wenn die Importe die USA aus Mexiko niedrig sind? USA Das ist rein zufällig. Wie Sie sehen, ist dies auf eine Zeitschuld. Es könnte also zwei verschiedene unabhängige Dinge geben, die auf dieser Zeit blink passieren können , was beide beeinflusst. Aber die U. S. ich war weiter später hat keine Beziehung zu den frischen Zitronen importiert die U. S. aus Mexiko. Also sehen Sie und da eine Korrelation hier. Es gibt keinen Grund zu der Annahme, dass es eine Beziehung zueinander gibt. Sie müssen also sehr vorsichtig sein, wenn Sie eine Korrelation zwischen zwei Variablen sehen. Sie haben die Grundwahrheit darüber etabliert, warum Sie diese Art von Beziehung sehen. Damit ist unsere Diskussion über Korrelationen abgeschlossen. Vielen Dank