2024-Lean Six Sigma GreenBelt Analysephase – Hypothesentest mit Microsoft-Excel und Minitab | Dimple Sanghvi | Skillshare
Drawer
Suchen

Playback-Geschwindigkeit


  • 0.5x
  • 1x (normal)
  • 1.25x
  • 1.5x
  • 2x

2024-Lean Six Sigma GreenBelt Analysephase – Hypothesentest mit Microsoft-Excel und Minitab

teacher avatar Dimple Sanghvi, Master Black Belt, Data Scientist, PMP

Schau dir diesen Kurs und Tausende anderer Kurse an

Erhalte unbegrenzten Zugang zu allen Kursen
Lerne von Branchenführern, Ikonen und erfahrenen Experten
Wähle aus einer Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Schau dir diesen Kurs und Tausende anderer Kurse an

Erhalte unbegrenzten Zugang zu allen Kursen
Lerne von Branchenführern, Ikonen und erfahrenen Experten
Wähle aus einer Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Einheiten dieses Kurses

    • 1.

      Analysephase der DMAIC – Einführung in die Datenanalyse

      3:12

    • 2.

      Projektarbeit

      0:51

    • 3.

      Grundlagen der Statistik

      4:34

    • 4.

      Bedeutung von Messebenen oder Datentypen

      15:57

    • 5.

      Maße des Zentrums und Maße der Dispersion

      9:13

    • 6.

      Minitab

      2:16

    • 7.

      Was ist deskriptive Statistiken

      4:32

    • 8.

      Deskriptive vs. inferentielle Statistiken

      9:13

    • 9.

      Konzepte von Inferenzstatistiken Teil 2

      7:01

    • 10.

      Konzepte des Hypothesentests im Detail

      12:22

    • 11.

      Einführung 7Qc-Tools

      1:34

    • 12.

      Prüfblatt

      5:03

    • 13.

      Box-Plot

      8:33

    • 14.

      Box-Plot verstehen Teil 1

      5:22

    • 15.

      Box-Plot verstehen Teil 2

      7:37

    • 16.

      Pareto-Analyse

      19:20

    • 17.

      Konzeptionshypothesetests und statistische Signifikanz

      5:56

    • 18.

      Hypothesentests verstehen

      5:27

    • 19.

      Null- und alternatives Hypothesenkonzept

      7:01

    • 20.

      Statistiken P-Wert verstehen

      7:48

    • 21.

      Arten von Fehlern verstehen

      4:49

    • 22.

      Verstehe Arten von Fehlern-part2

      5:57

    • 23.

      Remember-the-Jingle

      4:34

    • 24.

      Testauswahl

      5:40

    • 25.

      Konzepte von T Test im Detail

      19:02

    • 26.

      1 Sample t-Test verstehen

      6:57

    • 27.

      2 Sample t-Test-Beispiel 1

      5:32

    • 28.

      2 Sample t Test-Beispiel 2

      3:14

    • 29.

      Pailed-t-Test verstehen

      3:59

    • 30.

      Einen Z-Test mit einem Stichproben-Z-Test verstehen

      5:16

    • 31.

      Verstehen des Proportionstests-1p-tests

      4:01

    • 32.

      Verstehen von zwei Proben-Proportionstest-2p-test

      1:39

    • 33.

      Zwei-Proben-Proportionstest-2p-Test-Beispiel

      2:21

    • 34.

      Excel verwenden = ein Beispiel-t-Test

      6:51

    • 35.

      Korrelationsanalyse

      27:56

    • 36.

      Pearsons Korrelationsanalyse-Konzept

      15:50

    • 37.

      Punkt-Biserial-Korrelation

      11:17

    • 38.

      Logistische Regression

      19:43

    • 39.

      Logistische Regressionspraxis

      20:01

    • 40.

      ROC-Kurve

      18:49

    • 41.

      Die nicht normalen Daten verstehen

      15:15

    • 42.

      Kruskal Wallis-Test 3 oder mehr Gruppen nicht-normale Daten

      13:20

    • 43.

      Design von Experimenten

      4:23

    • 44.

      Die Anwendungsbereiche für ein DOE

      4:01

    • 45.

      Arten von Designs in einem DOE

      4:42

    • 46.

      Wie man die Anzahl der Durchläufe reduzieren kann

      5:23

    • 47.

      Art der Effekte

      4:30

    • 48.

      Fraktionales faktorielles Design

      10:48

    • 49.

      Plackett Burman Central Composite-Design

      3:13

    • 50.

      Fazit

      2:25

  • --
  • Anfänger-Niveau
  • Fortgeschrittenes Niveau
  • Fortgeschrittenes Niveau
  • Jedes Niveau

Von der Community generiert

Das Niveau wird anhand der mehrheitlichen Meinung der Teilnehmer:innen bestimmt, die diesen Kurs bewertet haben. Bis das Feedback von mindestens 5 Teilnehmer:innen eingegangen ist, wird die Empfehlung der Kursleiter:innen angezeigt.

424

Teilnehmer:innen

24

Projekte

Über diesen Kurs

Dieses umfassende Datenanalyse-Bootcamp-Curriculum deckt die Konzepte der Statistik-Grundlage ab, die Datenanalyse mit Minitab

  • Erfahre mehr über
  • Grundlagen von Statistiken
  • Deskriptive Statistik
  • Grafische Zusammenfassung
  • Verteilungen
  • Histogramm
  • Box-Plot
  • Balkendiagramm
  • Kreisdiagramm
  • Hypothesentest
  • Arten von Fehlern
  • Ein Beispiel-T-Test
  • Zwei Beispiel-T-Test
  • Gepaarter T-Test
  • One-Way-Annova
  • Chi-Quadrat-Test

Für wen ist dieser Kurs geeignet?

 Jeder, der Lean Six Sigma Student ist oder Statistiken und grafische Analysen verstehen und anwenden möchte

Wichtigste Erkenntnisse

  • Verstehe, wie du grundlegende Analysen durchführen kannst
  • Die in der Mess- und Analysephase von Six-Sigma-Projekten erforderlichen Tools verstehen und anwenden
  • Welcher Graph sollte wann verwendet werden?
  • Einige häufige Fehler, die wir bei der grafischen Analyse machen
  • Erstellen von Grafiken zum Ziehen der Schlussfolgerung

Triff deine:n Kursleiter:in

Teacher Profile Image

Dimple Sanghvi

Master Black Belt, Data Scientist, PMP

Kursleiter:in

About Me

I am dedicated to empowering individuals to unlock their potential and make a meaningful impact. As a Consultant and Independent Director on a Corporate Board (NSE & BSE), I bring a wealth of experience to my roles, including being a Lean Six Sigma Master Black Belt and a Leadership Coach & Mentor. My expertise extends to AI, ML, and Data Science Coaching.

Let's connect on LinkedIn for professional growth and networking opportunities https://www.linkedin.com/in/dimplesanghvi/ to explore opportunities for professional growth and networking. I often discuss topics such as #ChatGPT, #DataAnalytics, #CoachingBusiness, #StorytellingWithData, and #LeanSixSigmaBlackBelt.

Join my Telegram channel to embark on a journey through Lean Six Sigma and Storytelling. Here,... Vollständiges Profil ansehen

Level: All Levels

Kursbewertung

Erwartungen erfüllt?
    Voll und ganz!
  • 0%
  • Ja
  • 0%
  • Teils teils
  • 0%
  • Eher nicht
  • 0%

Warum lohnt sich eine Mitgliedschaft bei Skillshare?

Nimm an prämierten Skillshare Original-Kursen teil

Jeder Kurs setzt sich aus kurzen Einheiten und praktischen Übungsprojekten zusammen

Mit deiner Mitgliedschaft unterstützt du die Kursleiter:innen auf Skillshare

Lerne von überall aus

Ob auf dem Weg zur Arbeit, zur Uni oder im Flieger - streame oder lade Kurse herunter mit der Skillshare-App und lerne, wo auch immer du möchtest.

Transkripte

1. Intro für Datenanalysen: Hallo Freunde. Beginnen wir mit diesem Schulungsprogramm, Eckdatenanalyse mit MiniTab. Was wirst du in diesem Kurs lernen? Die Fähigkeiten, die Sie in diesem Kurs erlernen, sind also einige Grundlagen der Statistik. Wir werden beschreibende Statistiken, grafische Zusammenfassungen, Verteilungen, Histogramm, Box-Plot, Balkendiagramme und Tortendiagramme behandeln grafische Zusammenfassungen, Verteilungen, Histogramm, Box-Plot, . Ich werde eine neue Serie über den Test der Hypothese einrichten, die ich im Link als Link im letzten Video teilen werde . Aber lassen Sie uns zunächst die verschiedenen Arten der grafischen Analyse verstehen . Wer sollte an diesem Kurs teilnehmen? Jeder, der Lean Six Sigma studiert, sich als Green Belt, Black Belt zertifizieren lassen möchte oder Statistiken und grafische Analysen an seinem Arbeitsplatz anwenden möchte. Auch wenn Sie Unternehmer oder Student sind und Statistiken mithilfe von MiniTab verstehen möchten. Ich werde alles behandeln. Wir werden lernen, welche Fehler häufig bei der Analyse passieren. Denn wenn wir Analysen mit einfachen theoretischen Datenpunkten durchführen, scheint alles normal zu sein. Deshalb zeige ich Ihnen einige Fallen, in denen unsere Analyse scheitern wird und wie Sie diese Fallen vermeiden sollten. Wir werden versuchen, am Ende dieses Programms zu sagen, was Sie aus diesem Programm mitnehmen werden? Sie werden verstehen, wie man einige grundlegende Analysen durchführt. Sie werden verstehen, welche Tools während Ihrer Messphase erforderlich sind, wie Fähigkeitsberechnungen usw. Wir werden während der Analysephase also, wenn möglich, den Test der Hypothese abdecken. Andernfalls, wenn es wird, wird das Video größer, ich werde es als separates Bild setzen. Ivan behandelt auch, welches Diagramm verwendet werden soll , wenn einige häufige Fehler auftreten, und wir führen grafische Analysen durch und erstellen Grafiken. Und wie kann ich aus diesen Grafiken Erkenntnisse und Schlussfolgerungen ziehen? Dies wird Ihnen wirklich helfen dieses Programm wirklich gut zu verstehen. Mal sehen was ist ein Minitab? Minitab ist eine Statistiksoftware, die verfügbar ist und über mehrere Regionen verfügt. Also suche ich mir ein neues Projekt. Mein Minitab-Bildschirm sieht ungefähr so aus. Ich habe einen Navigator auf der linken Seite. Ich habe meinen Ausgabebildschirm oben, ich habe mein Datenblatt, das einem Excel-Blatt sehr ähnlich ist, mit dem ich arbeiten kann. Ich kann diese Blätter weiter hinzufügen und habe viele Daten. Ich kann mit meinen Optionen viele Analysen durchführen. Wir werden grundlegende Statistiken behandeln, Regression. Wir werden viele grundlegende Statistiken behandeln und wir werden viele Grafiken mit verschiedenen Datentypen behandeln , oder? Wenn Sie also daran interessiert waren, diese Dinge zu wissen, sollten Sie sich auf jeden Fall anmelden und mein Video ansehen. Ich danke dir sehr. 2. Projektarbeit: Lassen Sie uns verstehen, was die Projektarbeit ist , die wir in diesem Datenanalyseprogramm mit MiniTab erledigen werden. Wie ich Ihnen bereits sagte, werden wir mit MiniTab zusammenarbeiten. Und das ist das Minitab , das ich verwenden werde. Ich werde Ihnen auch ein Datenblatt zur Verfügung stellen, Ihr Projektdatenblatt, in dem ich mehrere Beispiele habe, in denen wir Berechnungen zur Leistungsfähigkeit durchführen. Wir werden versuchen, Distributionen zu sehen und Sie können sehen, dass es verschiedene Registerkarten gibt. Beispiel eins Beispiel zwei Beispiel drei, wir werden versuchen, eine Trendanalyse durchzuführen. Wir werden versuchen, Pareto-Charts zu sehen. Wir haben viele Daten, die mit Ihnen geteilt wurden, was Ihnen eine praktische Erfahrung bei der Arbeit mit Daten bietet, oder? Also lass uns anfangen. 3. Grundlagen der Statistik: Willkommen zu unserem nächsten wichtigen Thema, Grundlagen der Statistik. In diesem Video erfahren Sie, was Statistik ist, was deskriptive Statistik ist und was Inferenzstatistik Fangen wir mit der ersten Frage an. Was ist Statistik? Statistik befasst sich mit der Erfassung, Analyse und Präsentation von Daten. Wenn wir beispielsweise untersuchen wollen, ob das Geschlecht einen Einfluss auf die bevorzugte Zeitung hat , dann sind Geschlecht und Zeitung unsere sogenannten Variablen , die wir analysieren möchten. Um zu analysieren, ob das Geschlecht einen Einfluss auf die bevorzugte Zeitung hat . Wir müssen zuerst Daten sammeln. Dazu erstellen wir einen Fragebogen, Geschlecht und bevorzugter Zeitung gefragt wird. Wir werden dann die Umfrage verschicken und zwei Wochen warten. Danach können wir uns die eingegangenen Antworten in einer Tabelle in dieser Tabelle anzeigen lassen . Wir haben eine Spalte für jede Variable, eine für das Geschlecht und eine für die Zeitung. Andererseits steht jede Zeile für die Antwort einer Person. Zum Beispiel ist der erste Befragte männlich und gab die Zeiten Indiens an Der zweite ist weiblich und gibt an, Hindu zu sein, und so weiter Natürlich müssen die Daten nicht aus einer Umfrage stammen. Die Daten können auch aus einem Experiment stammen, bei dem. Sie möchten beispielsweise die Wirkung von zwei Medikamenten auf den Blutdruck untersuchen . Betrachten wir ein anderes Beispiel aus dem wirklichen Leben. Stellen Sie sich vor, Sie sind Filialleiter und möchten wissen, ob ein neues Produktdisplay den Umsatz steigert. Sie könnten schon früher Daten über Verkäufe sammeln. Und wenn das neue Display eingerichtet ist, können Sie anhand dieser Daten die Effektivität des Displays analysieren. Oder nehmen Sie an, Ihr Schulleiter möchte herausfinden, ob zusätzliche Nachhilfestunden den Schülern helfen, ihre Mathematikergebnisse zu verbessern Könnten Sie zuvor Ergebnisse sammeln ? Nach den Nachhilfesitzungen , um die Auswirkungen zu analysieren. Jetzt ist der erste Schritt getan. Wir haben Daten gesammelt und können mit der Analyse der Daten beginnen. Aber was wollen wir eigentlich analysieren? Wir haben nicht die gesamte Bevölkerung befragt , sondern eine Stichprobe genommen. Die große Frage ist nun, wollen wir nur die Stichprobendaten beschreiben oder wollen wir eine Aussage über die gesamte Bevölkerung treffen ? Wenn unser Ziel auf die Stichprobe selbst beschränkt ist. Das heißt, wir wollen nur die gesammelten Daten beschreiben. Wir werden deskriptive Statistiken verwenden. Deskriptive Statistiken bieten eine detaillierte Zusammenfassung der Stichprobe Wenn wir beispielsweise 100 Personen nach ihrer bevorzugten Zeitung befragen würden, würden uns deskriptive Statistiken Aufschluss darüber geben, wie viele Menschen indische oder hinduistische Zeiten bevorzugen Wenn wir jedoch Rückschlüsse auf die Gesamtbevölkerung ziehen wollen Rückschlüsse auf die Gesamtbevölkerung Wir verwenden Inferenzstatistiken. Dieser Ansatz ermöglicht es uns, anhand unserer Stichprobendaten Rückschlüsse auf die Population zu anhand unserer Stichprobendaten Rückschlüsse auf die Population Mithilfe von Inferenzstatistiken könnten wir beispielsweise anhand einer Stichprobe von 500 Befragten den Anteil aller Erwachsenen in einer Stadt schätzen , die eine bestimmte Zeitung bevorzugen , die eine bestimmte Zeitung , die eine Inferenzstatistiken können uns auch dabei helfen, festzustellen, ob eine bestimmte demografische Gruppe, wie das Geschlecht, die Zeitungspräferenzen signifikant beeinflusst Durch die Analyse unserer Stichprobendaten können wir Rückschlüsse auf die Zeitungspräferenzen der gesamten Bevölkerung Durch die Verwendung sowohl deskriptiver als auch inferentieller Statistiken können wir ein tieferes Verständnis unserer Ergebnisse gewinnen und fundierte Entscheidungen über Marketingstrategien oder die Erstellung von Inhalten für In der nächsten Lektion werden wir uns eingehender mit praktischen Anwendungen der Statistik befassen . Bleiben Sie dran. 4. Bedeutung von Messebenen oder Datentypen: Bedeutung der Messebenen. Das Verständnis der Messebene ist aus mehreren Gründen von entscheidender Bedeutung. Angemessene Analyse. Verschiedene Messebenen erfordern unterschiedliche statistische Techniken. Die Verwendung der falschen Methode kann zu falschen Schlussfolgerungen führen. Interpretation der Daten. Die Kenntnis des Levels hilft, die Ergebnisse falsch zu interpretieren. Mittelwerte sind beispielsweise für Intervall - und Verhältnisdaten aussagekräftig , nicht jedoch für nominale oder ordinale Daten Visualisierung und effektive Datenvisualisierungstechniken variieren je nach Messebene Balkendiagramme eignen sich für nominale Daten, während Histogramme besser für Intervall- und Verhältnisdaten geeignet sind Lassen Sie uns näher auf die einzelnen Messebenen eingehen. Nominales Messniveau. Nominale Variablen kategorisieren Daten ohne eine aussagekräftige Reihenfolge festzulegen Befragten zum Beispiel nach der Befragten zum Beispiel nach ihrem Verkehrsmittel zur Schule, zum Bus, zum Auto, zum Fahrrad oder zu Fuß ist nominell Jede Kategorie ist unterschiedlich, aber es gibt keine inhärente Rangfolge oder Reihenfolge zwischen ihnen. Die Analyse nominaler Daten beinhaltet das Zählen Häufigkeiten oder die Verwendung von Balkendiagrammen zur Visualisierung von Verteilungen Ordinale Messebene Ordinalvariablen sorgen für eine sinnvolle Reihenfolge oder Rangfolge zwischen den Kategorien, aber die Unterschiede zwischen Rängen sind nicht Schüler beispielsweise gebeten werden, ihre Zufriedenheit mit ihrem Verkehrsmittel als „ sehr zufrieden“, „zufrieden“, „neutral“, „ zufrieden“ oder „sehr zufrieden“ einzustufen, zeigt dies eine ordinale Wir können diese Antworten zwar von den am wenigsten zufriedenen bis hin zu den am meisten zufriedenen einordnen , der numerische Unterschied zwischen zufrieden und sehr zufrieden ist nicht quantifizierbar Die Analyse umfasst in der Regel Medianberechnungen und nichtparametrische Tests Messintervalle und Mengenverhältnisse , metrische Variablen Intervall- und Verhältnisvariablen werden als metrische Variablen betrachtet. gemeinsam, dass die Intervalle zwischen den Werten gleichmäßig verteilt sind, aber Verhältnisvariablen haben auch einen echten Nullpunkt, sodass alle arithmetischen Beispiele hierfür sind die Messung von Alter, Gewicht oder Einkommen. Befragten beispielsweise nach der Anzahl der Minuten gefragt werden, die es dauert, bis sie zur Schule kommen , werden Intervalldaten gemessen, wobei die Intervalle zwischen den Antworten, z. B. 10 Minuten, 20 Minuten, konsistent und aussagekräftig sind. Dies ermöglicht statistische Messungen wie die Berechnung Durchschnittswerten und den Einsatz fortgeschrittener statistischer Techniken wie der Regressionsanalyse Zusammenfassung. Das Verständnis dieser Messebenen ist entscheidend für die Gestaltung von Umfragen und Auswahl geeigneter statistischer Analysen. nominalen Daten geben uns Aufschluss über Kategorien ohne jegliche Reihenfolge. Ordinaldaten ermöglichen eine Rangfolge, aber keine genaue Messung von Unterschieden, und das Intervall und das Verhältnis metrischer Daten ermöglichen präzise Messung und unterstützen eine Vielzahl statistischer Analysen ob Frequenztabellen, Balkendiagramme oder Histogramme erstellt werden, die Auswahl der richtigen Messgröße gewährleistet eine genaue Interpretation der Daten und aussagekräftige Erkenntnisse in verschiedenen Studien- und Forschungsbereichen Schauen wir uns die einzelnen Messebenen genauer an. Nominaler Messpegel. Die nominalen Daten sind die grundlegendste Messebene. Nominale Variablen kategorisieren Daten, ermöglichen jedoch keine aussagekräftige Rangfolge der Kategorien Zu den Beispielen gehören Geschlecht, Mann, Frau, Tierarten, Hund, Katze, Vogel und bevorzugte Zeitungen In all diesen Fällen können Sie zwischen Werten unterscheiden, die Kategorien jedoch nicht sinnvoll einordnen Um beispielsweise zu untersuchen, ob das Geschlecht die bevorzugte Zeitung beeinflusst werden nominale Variablen verwendet In einem Fragebogen würden Sie mögliche Antworten für beide Variablen auflisten. Da es keine inhärente Reihenfolge gibt, die Anordnung der Kategorien im Fragebogen keine Rolle. gesammelten Daten können in einer Tabelle dargestellt werden , und Häufigkeitstabellen oder Balkendiagramme können verwendet werden, um die Verteilungen zu visualisieren Ordinale Ebene der Messung. Ordinaldaten können in einer sinnvollen Reihenfolge kategorisiert und geordnet werden, aber die Unterschiede zwischen den Rängen sind mathematisch gesehen nicht gleich Beispiele hierfür sind Rankings, erster , zweiter, dritter Platz, Zufriedenheitswerte, sehr unzufrieden, unzufrieden, neutral, zufrieden, sehr zufrieden, Bildungsniveau, Gymnasium, Bachelor, Master, in diesem Fall, obwohl die Reihenfolge aussagekräftig , zweiter, dritter Platz, Zufriedenheitswerte, sehr unzufrieden, unzufrieden, neutral, zufrieden, sehr zufrieden, Bildungsniveau, Gymnasium, Bachelor, Master, in diesem Fall, obwohl die Reihenfolge aussagekräftig ist. Die Abstände zwischen den Rängen sind nicht unbedingt gleich. Wenn Sie beispielsweise in einem Fragebogen gefragt werden, wie zufrieden Sie mit Ihrem aktuellen Job sind, wobei Optionen von sehr unzufrieden bis sehr zufrieden reichen Die Antwortkategorien sind geordnet, aber der genaue Unterschied zwischen den einzelnen Zufriedenheitsgraden ist nicht Bei der Analyse von Ordinaldaten werden häufig Mediane berechnet und nichtparametrische Tests verwendet Intervallniveau der Messung. Intervalldaten haben gleiche Intervalle zwischen den Werten, aber es fehlt ein echter Nullpunkt. Beispiele hierfür sind Temperaturen in Celsius oder Fahrenheit. Intervalldaten ermöglichen die Messung von Unterschieden zwischen Werten Da es jedoch keine echte Null gibt, sind Verhältnisse nicht aussagekräftig. Statistische Operationen wie die Berechnung von Durchschnittswerten und die Verwendung von Techniken wie Regressionsanalyse sind möglich Verhältnis, Ebene der Messung. Verhältnisdaten weisen gleiche Intervalle zwischen den Werten auf und beinhalten einen echten Nullpunkt. Beispiele hierfür sind Alter, Gewicht oder Einkommen, da Verhältnisdaten eine echte Null enthalten. Alle arithmetischen Operationen sind gültig. Diese Stufe ermöglicht die Berechnung von Verhältnissen und Durchschnittswerten und ermöglicht die Verwendung fortgeschrittener statistischer Methoden Oh. Was wir bisher anhand eines Beispiels gelernt haben . Stellen Sie sich vor, Sie führen eine Umfrage in einer Schule durch, um zu verstehen, wie Schüler zur Schule kommen. Hier sind Fragen, die Sie stellen könnten. Jedes entspricht einer anderen Messebene. Die erste Frage könnte sein, welchem Verkehrsmittel fahren Sie zur Schule? Zu den Optionen könnten Bus, Auto, Fahrrad oder zu Fuß gehören. Dies ist eine nominale Variable. Die Antworten können kategorisiert werden, aber es gibt keine sinnvolle Reihenfolge. Das bedeutet, dass der Bus nicht höher ist als das Fahrrad. Gehen ist nicht höher als Auto und so weiter. Wenn Sie die Ergebnisse dieser Frage analysieren möchten, können Sie zählen, wie viele Schüler jedes Verkehrsmittel nutzen , und dies in einem Balkendiagramm darstellen. Als Nächstes fragen Sie sich vielleicht, wie zufrieden Sie mit Ihrem aktuellen Verkehrsmittel sind . Folgende Optionen stehen zur Auswahl: sehr unzufrieden, unzufrieden, neutral, zufrieden oder sehr zufrieden Dies ist eine ordinale Variable. Sie können die Antworten in eine Rangfolge einordnen, um zu sehen, mit welchem Verkehrsmittel die Zufriedenheit höher bewertet Aber der genaue Unterschied zwischen zufrieden und sehr zufrieden. Zum Beispiel ist nicht quantifizierbar. Zur letzten Frage: Wie viele Minuten brauchst du, um zur Schule zu kommen? Hier sind Minuten bis zur Schule eine metrische Variable. Sie können die durchschnittliche Zeit berechnen, die benötigt wird, um zur Schule zu gehen, und dabei alle gängigen statistischen Messgrößen verwenden. Wir können diese Daten mit einem Histogramm visualisieren , das die Verteilung der Zeiten zeigt den Schulweg benötigt werden, und die verschiedenen Verkehrsmittel miteinander vergleichen Anhand nominaler Daten können wir also die Antworten kategorisieren und zählen, aber wir können keine Reihenfolge ableiten Ordinaldaten ermöglichen es uns, Antworten zu ordnen, aber keine genauen Unterschiede zwischen den Rängen zu messen Metrische Daten ermöglichen es uns, genaue Unterschiede zwischen Datenpunkten zu messen genaue Unterschiede zwischen Datenpunkten Wie bereits erwähnt, können metrische Messebenen weiter in Intervallskalen und Verhältnisskalen unterteilt werden Intervallskalen und Verhältnisskalen Aber was ist der Unterschied zwischen Intervall - und Verhältnisniveaus Lassen Sie uns den Unterschied zwischen den Messstufen Intervall und Verhältnis anhand eines Beispiels untersuchen . Messniveau im Vergleich zum Verhältnis zwischen Intervall und Verhältnis. Bei einem Marathon dient die Zeit, die Läufer benötigen , um das Rennen zu beenden, als praktisches Beispiel. Stellen Sie sich ein Szenario vor, in dem der schnellste Läufer in 2 Stunden und der langsamste in 6 Stunden ins Ziel So klassifizieren wir das Messniveau anhand der bereitgestellten Informationen Verhältnis des Messniveaus. Ein Verhältnismaß ist dadurch gekennzeichnet, dass es einen echten Nullpunkt hat, wobei Null das Fehlen der zu messenden Menge bedeutet. Im Marathon-Beispiel starten alle Läufer zu Beginn des Rennens zur gleichen 0,0-Zeit. Mit einem echten Nullpunkt können wir aussagekräftige Vergleiche anstellen und beispielsweise feststellen, dass der schnellste Läufer dreimal weniger Zeit benötigt hat als der langsamste Läufer, nämlich 2 Stunden gegenüber 6 Stunden Diese Stufe ermöglicht sinnvolle Multiplikations - und Divisionsoperationen Wenn zum Beispiel ein Läufer in 4 Stunden und ein anderer in 12 Stunden fertig ist, können wir genau sagen, dass der erste Läufer dreimal schneller war als der zweite Intervallniveau der Messung. Bei einer Intervallmessung fehlt ein echter Nullpunkt. im Marathonkontext Wenn im Marathonkontext die Stoppuhr zu spät startet und wir nur die Zeitunterschiede zum schnellsten Läufer messen die Zeitunterschiede zum , der pünktlich gestartet ist, verlieren wir die echte Nullreferenz. Obwohl die Intervalle zwischen den Werten immer noch gleichmäßig verteilt sind und arithmetische Operationen wie Addition und Subtraktion gültig sind, sind Multiplikation und beispielsweise sinnvoll zu sagen, dass ein Läufer 4 Stunden vor einem anderen ins Ziel Wir können jedoch nicht sagen, dass ein Läufer viermal schneller war als ein anderer, ohne die Gesamtzeit für beide zu kennen. Zusammenfassend lässt sich sagen, dass die Messung auf Intervallebene gleiche Intervalle zwischen den Werten ermöglicht und Operationen wie Addition und Subtraktion unterstützt, aber keinen echten Nullpunkt besitzt , der für aussagekräftige Verhältnisse erforderlich ist Nun eine kleine Übung, um zu überprüfen, ob dir alles klar ist Erstens haben wir den Bundesstaat USA, was eine nominale Messgröße ist. Das bedeutet, dass die Daten zur Kennzeichnung oder Benennung von Kategorien ohne quantitativen Wert verwendet werden. In diesem Fall handelt es sich bei den Staaten um Namen ohne inhärente Reihenfolge oder Rangfolge. Als Nächstes haben wir Produktbewertungen auf einer Skala von 1—5. Dies ist ein Beispiel für Ordinaldaten. Hier haben die Zahlen eine Reihenfolge oder einen Rang. Fünf ist besser als eins, aber die Abstände zwischen den Bewertungen sind nicht unbedingt gleich. Kommen wir nun zu den Namen von Abteilungen wie Beschaffung, Vertrieb, Betrieb und Finanzen. Auch das ist nominell gemeint. Die hier verwendeten Kategorien, z. B. verschiedene Abteilungen dienen der Kategorisierung und implizieren keine Reihenfolge Als nächstes haben wir die CO2-Emissionen in einem Jahr, die anhand eines metrischen Verhältnisses gemessen werden. Dieses Niveau ermöglicht das gesamte Spektrum mathematischer Operationen, einschließlich aussagekräftiger Kennzahlen. Nullemissionen bedeuten überhaupt keine Emissionen. Dann haben wir Telefonnummern. Telefonnummern sind zwar numerisch, werden aber als Nennnummern eingestuft. Sie sind lediglich Identifikatoren ohne numerischen Wert für die Analyse Das Komfortniveau ist ein weiteres ordinales Beispiel. Dazu könnten Stufen wie niedrige, mittlere und hohe Pflegestufe gehören , die zwar auf eine Reihenfolge hinweisen, aber nicht den genauen Unterschied zwischen diesen Stufen Wohnfläche in Quadratmetern wird auf einer Verhältnisskala gemessen. Wie bei den CO2-Emissionen bedeuten Quadratmeter, dass es keine Wohnfläche gibt und Vergleiche wie das Doppelte oder die Hälfte sind aussagekräftig. Schließlich haben wir die Arbeitszufriedenheit auf einer Skala von 1—4 angegeben. Das sind Ordinaldaten. Dabei werden die Zufriedenheitsgrade eingestuft, der Unterschied zwischen den einzelnen Stufen wird jedoch nicht quantifiziert In der nächsten Lektion werden wir uns eingehender praktischen Anwendungen der Versuchsplanung befassen. Bleib dran. 5. Maße der Mitte und Maße der Dispersion: Lassen Sie uns beide Methoden untersuchen, beginnend mit deskriptiven Statistiken Warum ist deskriptive Statistik wichtig? Zum Beispiel, wenn ein Unternehmen verstehen möchte, wie seine Mitarbeiter zur Arbeit pendeln Es kann eine Umfrage erstellen, um diese Informationen zu sammeln. Sobald genügend Daten gesammelt wurden, können sie mithilfe deskriptiver Statistiken analysiert werden Was genau ist deskriptive Statistik? Ihr Zweck besteht darin, einen Datensatz auf sinnvolle Weise zu beschreiben und zusammenzufassen Es ist jedoch wichtig zu beachten, dass deskriptive Statistiken nur die gesammelten Daten widerspiegeln und keine Rückschlüsse auf eine größere Mit anderen Worten, wenn wir wissen, wie einige Mitarbeiter in einem Unternehmen pendeln, können wir uns keine Sorgen darüber machen, wie es allen Arbeitnehmern Um Daten deskriptiv zu beschreiben, konzentrieren wir uns nun auf vier Hauptkomponenten Messungen der zentralen Tendenz, Streuungsmaße, Häufigkeitstabellen und Diagramme Beginnen wir mit Messgrößen für die zentrale Tendenz, zu denen der Mittelwert, der Median und mehr gehören Zunächst wird der Mittelwert, das arithmetische Mittel, berechnet, indem alle Beobachtungen addiert und durch die Anzahl der Beobachtungen dividiert werden Wenn wir beispielsweise die Testergebnisse von fünf Schülern haben, summieren wir die Ergebnisse und dividieren sie durch fünf, um zu ermitteln dass das durchschnittliche Testergebnis 86,6 beträgt Als nächstes folgt der Median. Wenn die Werte in einem Datensatz in aufsteigender Reihenfolge angeordnet sind, ist der Median der mittlere Wenn es eine ungerade Anzahl von Datenpunkten gibt, ist es einfach der mittlere Wert Wenn es eine gerade Zahl gibt, ist der Median der Durchschnitt der beiden Mittelwerte Ein wichtiger Aspekt des Medians ist, dass er gegen Extremwerte oder Ausreißer resistent ist Extremwerte oder Ausreißer resistent Zum Beispiel, unabhängig davon, wie groß, die letzte Person in einem hohen Datensatz ist Der Median bleibt gleich. Der Mittelwert kann sich aufgrund dieses Werts zwar erheblich ändern , der Median bleibt jedoch unabhängig von der Körpergröße der letzten Person unverändert unabhängig von der Körpergröße der letzten Person Das bedeutet, dass er nicht von Ausreißern beeinflusst wird. Im Gegensatz dazu können sich die Männer je nach Größe der letzten Person erheblich verändern , sodass sie empfindlich auf Ausreißer reagiert Lassen Sie uns nun den Modus besprechen. Der Modus ist der Wert oder die Werte , die in einem Datensatz am häufigsten vorkommen. Wenn beispielsweise 14 Personen mit dem Auto, sechs mit dem Fahrrad, fünf zu Fuß und fünf Personen mit öffentlichen Verkehrsmitteln pendeln , ist das Auto der Modus, da er am häufigsten vorkommt Als Nächstes gehen wir zu den Streuungsmaßen über, die beschreiben, wie weit die Werte in einem Datensatz verteilt sind Zu den wichtigsten Messgrößen für die Streuung gehören Varianten. Bereich der Standardabweichung und interquatler Bereich, beginnend mit der Standardabweichung Sie gibt die durchschnittliche Entfernung zwischen den einzelnen Datenpunkten und dem Dies sagt uns, um wie viel einzelne Datenpunkte vom Durchschnitt abweichen Wenn die durchschnittliche Abweichung vom Mittelwert beispielsweise 11,5 Zentimeter beträgt, können wir die Standardabweichung anhand der Formel berechnen Standardabweichung anhand der Sigma entspricht der Quadratwurzel der Summe der einzelnen Werte minus dem Mittelwert Quadriert, geteilt durch n, wobei Sigma die Standardabweichung ist N ist die Anzahl der Personen. X sub i ist der Wert jedes Individuums und x bar ist der Mittelwert. Es ist wichtig zu beachten, dass es zwei Formeln für die Standardabweichung gibt . Eine dividiert durch n, während die andere durch n minus eins dividiert Letzteres wird verwendet, wenn unsere Stichprobe nicht die gesamte Population abdeckt, z. B. in klinischen Studien Letzteres wird verwendet , wenn unsere Stichprobe nicht die gesamte Population abdeckt, z. B. in klinischen Studien. Wie unterscheidet sich nun die Standardabweichung von der Varianz? Die Standardabweichung misst die durchschnittliche Entfernung vom Mittelwert Dabei ist die Varianz einfach der quadrierte Wert der Standardabweichung Lassen Sie uns als Nächstes den Bereich und den ganzzahligen Bereich besprechen. Der Bereich ist die Differenz zwischen den Maximal- und Minimalwerten in einem Datensatz Andererseits stellt der Ungleichheitsbereich die mittleren 50% der Daten dar, berechnet als Differenz zwischen dem ersten Quartil , Q eins, und dem dritten Quartil, qu Das bedeutet, dass 25% der Werte unter und 25% über dem Interquartilbereich liegen unter Bevor wir zu den letzten Punkten übergehen, wollen wir kurz diese Konzepte, Maße der zentralen Tendenz und Maße der Streuung, miteinander vergleichen Maße der zentralen Tendenz und Maße der Streuung Betrachten wir die Messung des Blutdrucks von Patienten. Messungen der zentralen Tendenz liefern einen einzigen Wert, der den gesamten Datensatz repräsentiert. Hilft dabei, einen zentralen Punkt zu identifizieren , um den sich Datenpunkte tendenziell gruppieren. Andererseits geben Streuungsmaße wie Standardabweichung, wie Standardabweichung, Reichweite und Inteqatile-Bereich an Reichweite und Inteqatile-Bereich an, wie weit die Datenpunkte verteilt Ob sie eng um das Zentrum herum gruppiert oder weit verstreut sind Zentrum herum gruppiert oder weit verstreut Zusammenfassend lässt sich sagen, dass Messungen der zentralen Tendenz zwar den zentralen Punkt des Datensatzes hervorheben , Streuungsmaße jedoch beschreiben, wie die Daten um dieses Zentrum herum verteilt sind. Gehen wir nun zu den Tabellen über konzentrieren uns dabei auf die wichtigsten Typen, Häufigkeitstabellen und Kontingenztabellen Eine Häufigkeitstabelle zeigt, wie oft jeder einzelne Wert in einem Datensatz vorkommt Beispielsweise befragte ein Unternehmen seine Mitarbeiter zu ihren Pendelmöglichkeiten, dem Auto, dem Fahrrad, zu Fuß und zu den öffentlichen Verkehrsmitteln Hier sind die Ergebnisse von 30 Mitarbeitern mit ihren Antworten Wir können eine Häufigkeitstabelle erstellen, um diese Daten zusammenzufassen , indem wir die vier Optionen in der ersten Spalte auflisten die vier Optionen in der ersten Spalte und ihre Häufigkeit anhand der Tabelle zählen Es liegt auf der Hand, dass die Arbeitnehmer am häufigsten mit dem Auto reisen Mit 14 Mitarbeitern, die sich für diese Option entscheiden. Die Häufigkeitstabelle bietet eine kurze Zusammenfassung der Daten Aber was ist, wenn wir statt einer zwei kategorialen Variablen haben statt einer zwei kategorialen Variablen Hier kommt eine Kontingenztabelle ins Spiel, auch Kreuztabelle genannt Stellen Sie sich vor, das Unternehmen hat zwei Fabriken, eine in Detroit und eine weitere in Cleveland? Wenn wir die Mitarbeiter auch nach ihrem Arbeitsort fragen, können wir beide Variablen anhand einer Kontingenztabelle anzeigen Diese Tabelle ermöglicht es uns, die Beziehung zwischen den beiden kategorialen Variablen zu analysieren und zu vergleichen zwischen den beiden kategorialen Die Zeilen stellen die Kategorien einer Variablen dar. Während die Spalten die Kategorien der anderen darstellen, zeigt jede Zelle in der Tabelle die Anzahl der Beobachtungen, die in die entsprechende Kategorienkombination passen . Beispielsweise gibt die erste Zelle an, wie viele Mitarbeiter mit dem Auto pendeln , und die Arbeit in Detroit wurde sechsmal gemeldet Danke. Wir sehen uns in der nächsten Statistikstunde. 6. Minitab: In diesem Kurs lernen wir etwas über Hypothesentests. Ich werde Ihnen das Testen von Hypothesen mit MiniTab beibringen. Ich werde Ihnen auch das Testen von Hypothesen mit Microsoft Office beibringen . Das verwendet Excel und Microsoft Office für diejenigen , die sich für MiniTab interessieren. Lassen Sie mich Ihnen zeigen, von wo Sie Minitab herunterladen können. Minitab.com unter Downloads. Hier kommen wir zum Downloadbereich. Sie haben die Statistiksoftware MiniTab, 30 Tage lang kostenlos verfügbar ist. Ich habe auch die Testversion auf mein System und die Dando-Analyse heruntergeladen und gezeigt, dass Sie sie Ihnen gezeigt haben. Denken Sie daran, dass es nur 30 Tage lang verfügbar ist. Bitte stellen Sie sicher , dass Sie das gesamte Schulungsprogramm innerhalb der ersten 30 Tage abschließen. Wenn Sie den Wert darin spüren, sollten Sie auf jeden Fall die lizenzierte Version von MiniTab verwenden, die hier verfügbar ist. Ich muss nur auf Herunterladen klicken und Woodstock herunterladen. Es beginnt mit einer kostenlosen 30-Tage-Testversion. Und es ist gut genug Zeit um alle Übungen zu üben, die angetrieben werden. Sie werden nach einigen persönlichen Daten gefragt , damit sie sich mit Ihnen in Verbindung setzen können und Ihnen mit einigen Rabatten helfen können. Falls es welche gibt. Sie haben einen Bereich namens Dr. MiniTab oder Sie haben eine Telefonnummer. Wenn Sie aus Großbritannien anrufen , können Sie dort leicht anrufen. Wenn Sie jedoch von anderen Orten aus sprechen, ist es viel einfacher, mit MiniTab zu sprechen. Dies ist ein sehr gutes statistisches Tool und sie aktualisieren die Funktionen regelmäßig. Ich persönlich bin der Meinung, dass sich diese Investition lohnen wird. Aber für diejenigen, die es sich nicht leisten können, sich für die Lizenz zu entscheiden , können sie Microsoft Office verwenden zumindest einige der Funktionen, nicht alle, aber einige der Funktionen sind verfügbar. Zunächst werde ich Ihnen die gesamte Übung verschiedener Arten von Hypothesen mit MiniTab zeigen die gesamte Übung verschiedener Arten von . Und dann werden wir zu Microsoft Excel übergehen, Verbindung bleiben und weiter lernen. 7. Deskriptive Statistik: In der heutigen Sitzung werden wir uns deskriptiven Statistiken befassen. Deskriptive Statistik bedeutet, dass ich die Maße des Zentrums verstehen möchte . Wie Maße für den mittleren, mittleren, mittleren Modus. Ich möchte die Maße der Ausbreitung verstehen. Das ist nichts als Bereich, Standardabweichung und Varianz. Nehmen wir einfache Daten, die ich habe. Ich habe eine Zykluszeit in Minuten für fast 100 Datenpunkte. Ich werde die Zykluszeit in Minuten aus meinem Tagesprojektdatenblatt entnehmen. Ich gehe zu MiniTab und füge meine Daten dort ein, wo ich hier beschreibende Statistiken erstellen möchte. Statistiken. Klicken Sie auf Standardstatistiken und sagen Sie Deskriptive Statistik anzeigen. Wenn ich das mache, gibt es mir im Popup-Fenster eine Option namens, die mir die verfügbaren Datenfelder anzeigt, die ich habe. Ich habe eine Zykluszeit in Minuten. Es sagt mir also, dass ich die variable Zykluszeit in Minuten analysieren möchte . Ich klicke einfach auf Okay, und das findest du sofort in meinem Ausgabefenster. Ich kann das einfach runterziehen. In meinem Ausgabefenster. Es zeigt mir , dass es einige statistische Analysen für die variable Zykluszeit in Minuten durchgeführt hat einige statistische Analysen für . Ich habe 100 Datenpunkte hier. Die Anzahl der fehlenden Werte ist 0. Der Mittelwert ist 10,064. Standardfehler des Mittelwerts beträgt 0,103, Standardabweichung beträgt 1 bis der Mindestwert 7,5. Eins ist nichts als dein Quartil eins ist 9.1. Median, das heißt, Ihr Q2 ist 10,35, Q3 ist 10,868 und der Maximalwert ist 12,490. Wenn ich mehr statistische Analysen benötige, kann ich diese Analyse wiederholen. Dieses Mal klicke ich auf Statistiken. Und ich kann mir die anderen Datenpunkte ansehen, die ich brauche. Angenommen, ich brauche den Bereich, brauche ich keinen Standardfehler, ich brauche einen Interquartilbereich. Ich möchte herausfinden, wie die Stimmung ist. Ich möchte herausfinden, was die Schiefe ist und welche Daten ich habe. Was ist die Kurtosis in meinen Daten? Ich kann alles auswählen und sagen, okay, ich klicke auf Okay. Wenn ich das mache, werden alle anderen statistischen Parameter, die ich ausgewählt habe, in meinem Ausgabefenster angezeigt. Das ist mein Ausgabefenster. Also sagt es mir wieder zusätzlichen Datenpunkt , den ich ausgewählt habe. Radius ist also nichts anderes als Ihre Standardabweichung im Quadrat. Sie ist 0,0541. Es sagt mir den Bereich , der maximal minus minimal ist. Es ist 4,95. Interquartilbereich liegt bei 1,707. In meinen Daten gibt es keinen Modus. Und die Anzahl der Datenpunkte bei 0, weil es keine mehr gibt, die Daten nicht verzerrt. Die Werte liegen sehr nahe bei 0, sie sind 0,05, aber es gibt eine Kurtosis. Das bedeutet, dass meine Daten nicht als arbeitslos angezeigt werden. So gut, wir wollen sehen, wie meine Distribution aussieht. Lass uns das machen. Ich klicke auf Statistiken, ich klicke auf Basisstatistiken und dann auf grafische Zusammenfassung. Ich wähle die Zykluszeit in Minuten aus. Und ich sage, ich möchte ein 95% -Konfidenzintervall sehen. Ich klicke auf Okay, lass uns die Ausgabe sehen. Die Zusammenfassung der Zyklus-Diamantminuten. Es zeigt mir den Mittelwert, die Standardabweichung, die Varianz. Alle Statistik-Dinge werden auf der rechten Seite angezeigt. Mittelwert, Standardabweichung, Varianz, Schiefe, Kurtosis, Anzahl der Datenpunkte minimaler Median des ersten Quartils , Maximum des dritten Quartils. Diese Datenpunkte, die Sie als Minimum Q1, Median, Q3 und Maximum sehen , werden im Boxplot behandelt. Das Boxplot wird mithilfe dieser Datenpunkte gerahmt. Und wenn Sie sich den Klettverschluss ansehen, heißt es, dass die Glocke keine steile Kurve ist, sondern eine etwas dickere Kurve, und daher ist der Kurtosis-Wert ein negativer Wert. Wir werden im nächsten Video weiter im Detail lernen . Danke. 8. Beschreibende vs. Inferenzstatistiken: Lassen Sie uns beide Methoden untersuchen, beginnend mit der deskriptiven Statistik Warum ist deskriptive Statistik wichtig? Zum Beispiel, wenn ein Unternehmen verstehen möchte, wie seine Mitarbeiter zur Arbeit pendeln Es kann eine Umfrage erstellen, um diese Informationen zu sammeln. Sobald genügend Daten gesammelt wurden, können sie mithilfe deskriptiver Statistiken analysiert werden Was genau ist deskriptive Statistik? Ihr Zweck besteht darin, einen Datensatz auf sinnvolle Weise zu beschreiben und zusammenzufassen Es ist jedoch wichtig zu beachten, dass deskriptive Statistiken nur die gesammelten Daten widerspiegeln und keine Rückschlüsse auf eine größere Mit anderen Worten, wenn wir wissen, wie einige Mitarbeiter in einem Unternehmen pendeln, können wir uns keine Sorgen darüber machen, wie es allen Arbeitnehmern Um Daten deskriptiv zu beschreiben, konzentrieren wir uns nun auf vier Hauptkomponenten Messungen der zentralen Tendenz, Streuungsmaße, Häufigkeitstabellen und Diagramme Beginnen wir mit Messgrößen für die zentrale Tendenz, zu denen der Mittelwert, der Median und mehr gehören Zunächst wird der Mittelwert, das arithmetische Mittel, berechnet, indem alle Beobachtungen addiert und durch die Anzahl der Beobachtungen dividiert werden Wenn wir beispielsweise die Testergebnisse von fünf Schülern haben, summieren wir die Ergebnisse und dividieren sie durch fünf, um zu ermitteln dass das durchschnittliche Testergebnis 86,6 beträgt Als nächstes folgt der Median. Wenn die Werte in einem Datensatz in aufsteigender Reihenfolge angeordnet sind, ist der Median der mittlere Wenn es eine ungerade Anzahl von Datenpunkten gibt, ist es einfach der mittlere Wert Wenn es eine gerade Zahl gibt, ist der Median der Durchschnitt der beiden Mittelwerte Ein wichtiger Aspekt des Medians ist, dass er gegen Extremwerte oder Ausreißer resistent ist Extremwerte oder Ausreißer resistent Zum Beispiel, unabhängig davon, wie groß, die letzte Person in einem hohen Datensatz ist Der Median bleibt gleich. Der Mittelwert kann sich aufgrund dieses Werts zwar erheblich ändern , der Median bleibt jedoch unabhängig von der Körpergröße der letzten Person unverändert unabhängig von der Körpergröße der letzten Person Das bedeutet, dass er nicht von Ausreißern beeinflusst wird. Im Gegensatz dazu können sich die Männer je nach Größe der letzten Person erheblich verändern , sodass sie empfindlich auf Ausreißer reagiert Lassen Sie uns nun den Modus besprechen. Der Modus ist der Wert oder die Werte , die in einem Datensatz am häufigsten vorkommen. Wenn beispielsweise 14 Personen mit dem Auto, sechs mit dem Fahrrad, fünf zu Fuß und fünf Personen mit öffentlichen Verkehrsmitteln pendeln , ist das Auto der Modus, da er am häufigsten vorkommt Als Nächstes gehen wir zu den Streuungsmaßen über, die beschreiben, wie weit die Werte in einem Datensatz verteilt sind Zu den wichtigsten Messgrößen für die Streuung gehören Varianten. Bereich der Standardabweichung und interquatler Bereich, beginnend mit der Standardabweichung Sie gibt die durchschnittliche Entfernung zwischen den einzelnen Datenpunkten und dem Dies sagt uns, um wie viel einzelne Datenpunkte vom Durchschnitt abweichen Wenn die durchschnittliche Abweichung vom Mittelwert beispielsweise 11,5 Zentimeter beträgt, können wir die Standardabweichung anhand der Formel berechnen Standardabweichung anhand der Sigma entspricht der Quadratwurzel der Summe der einzelnen Werte minus dem Mittelwert Quadriert, geteilt durch n, wobei Sigma die Standardabweichung ist N ist die Anzahl der Personen. X sub i ist der Wert jedes Individuums und x bar ist der Mittelwert. Es ist wichtig zu beachten, dass es zwei Formeln für die Standardabweichung gibt . Eine dividiert durch n, während die andere durch n minus eins dividiert Letzteres wird verwendet, wenn unsere Stichprobe nicht die gesamte Population abdeckt, z. B. in klinischen Studien Letzteres wird verwendet , wenn unsere Stichprobe nicht die gesamte Population abdeckt, z. B. in klinischen Studien. Wie unterscheidet sich nun die Standardabweichung von der Varianz? Die Standardabweichung misst die durchschnittliche Entfernung vom Mittelwert Dabei ist die Varianz einfach der quadrierte Wert der Standardabweichung Lassen Sie uns als Nächstes den Bereich und den ganzzahligen Bereich besprechen. Der Bereich ist die Differenz zwischen den Maximal- und Minimalwerten in einem Datensatz Andererseits stellt der Ungleichheitsbereich die mittleren 50% der Daten dar, berechnet als Differenz zwischen dem ersten Quartil , Q eins, und dem dritten Quartil, qu Das bedeutet, dass 25% der Werte unter und 25% über dem Interquartilbereich liegen unter Bevor wir zu den letzten Punkten übergehen, wollen wir kurz diese Konzepte, Maße der zentralen Tendenz und Maße der Streuung, miteinander vergleichen Maße der zentralen Tendenz und Maße der Streuung Betrachten wir die Messung des Blutdrucks von Patienten. Messungen der zentralen Tendenz liefern einen einzigen Wert, der den gesamten Datensatz repräsentiert. Hilft dabei, einen zentralen Punkt zu identifizieren , um den sich Datenpunkte tendenziell gruppieren. Andererseits geben Streuungsmaße wie Standardabweichung, wie Standardabweichung, Reichweite und Inteqatile-Bereich an Reichweite und Inteqatile-Bereich an, wie weit die Datenpunkte verteilt Ob sie eng um das Zentrum herum gruppiert oder weit verstreut sind Zentrum herum gruppiert oder weit verstreut Zusammenfassend lässt sich sagen, dass Messungen der zentralen Tendenz zwar den zentralen Punkt des Datensatzes hervorheben , Streuungsmaße jedoch beschreiben, wie die Daten um dieses Zentrum herum verteilt sind. Gehen wir nun zu den Tabellen über konzentrieren uns dabei auf die wichtigsten Typen, Häufigkeitstabellen und Kontingenztabellen Eine Häufigkeitstabelle zeigt, wie oft jeder einzelne Wert in einem Datensatz vorkommt Beispielsweise befragte ein Unternehmen seine Mitarbeiter zu ihren Pendelmöglichkeiten, dem Auto, dem Fahrrad, zu Fuß und zu den öffentlichen Verkehrsmitteln Hier sind die Ergebnisse von 30 Mitarbeitern mit ihren Antworten Wir können eine Häufigkeitstabelle erstellen, um diese Daten zusammenzufassen , indem wir die vier Optionen in der ersten Spalte auflisten die vier Optionen in der ersten Spalte und ihre Häufigkeit anhand der Tabelle zählen Es liegt auf der Hand, dass die Arbeitnehmer am häufigsten mit dem Auto reisen Mit 14 Mitarbeitern, die sich für diese Option entscheiden. Die Häufigkeitstabelle bietet eine kurze Zusammenfassung der Daten Aber was ist, wenn wir statt einer zwei kategorialen Variablen haben statt einer zwei kategorialen Variablen Hier kommt eine Kontingenztabelle ins Spiel, auch Kreuztabelle genannt Stellen Sie sich vor, das Unternehmen hat zwei Fabriken, eine in Detroit und eine weitere in Cleveland? Wenn wir die Mitarbeiter auch nach ihrem Arbeitsort fragen, können wir beide Variablen anhand einer Kontingenztabelle anzeigen Diese Tabelle ermöglicht es uns, die Beziehung zwischen den beiden kategorialen Variablen zu analysieren und zu vergleichen zwischen den beiden kategorialen Die Zeilen stellen die Kategorien einer Variablen dar. Während die Spalten die Kategorien der anderen darstellen, zeigt jede Zelle in der Tabelle die Anzahl der Beobachtungen, die in die entsprechende Kategorienkombination passen . Beispielsweise gibt die erste Zelle an, wie viele Mitarbeiter mit dem Auto pendeln , und die Arbeit in Detroit wurde sechsmal gemeldet Danke. Wir sehen uns in der nächsten Statistikstunde. 9. Konzepte von Inferenzstatistiken Teil 2: Lassen Sie uns in die Inferenzstatistik eintauchen. Wir beginnen mit einem kurzen Überblick darüber, was es ist. Gefolgt von einer Erläuterung der sechs Schlüsselkomponenten. Was ist also Inferenzstatistik? Sie ermöglicht es uns, anhand von Daten aus einer Stichprobe Rückschlüsse auf eine Population Zur Verdeutlichung: Die Population ist die gesamte Gruppe, an der wir interessiert sind. Wenn wir zum Beispiel die durchschnittliche Körpergröße aller Erwachsenen in den Vereinigten Staaten untersuchen wollen , umfasst unsere Bevölkerung alle Erwachsenen des Landes. Bei der Stichprobe handelt es sich dagegen um eine kleinere Teilmenge aus dieser Population Wenn wir beispielsweise 150 Erwachsene aus den USA auswählen, können wir anhand dieser Stichprobe Rückschlüsse auf die breitere Nun, hier sind die sechs Schritte, die zu diesem Prozess gehören. Hypothese. Wir beginnen mit einer Hypothese. Welche Aussage wollen wir testen? Zum Beispiel möchten wir vielleicht untersuchen, ob ein Medikament den Blutdruck bei Menschen mit Hypotonie positiv beeinflusst Blutdruck bei Menschen mit Hypotonie Oh, in diesem Fall besteht unsere Population aus allen Personen mit hohem Blutdruck in den USA, da es nicht praktikabel ist, Daten von der gesamten Bevölkerung zu sammeln Daten von der Wir verlassen uns auf eine Stichprobe, um anhand unserer Stichprobe Rückschlüsse auf die Population Wir verwenden Hypothesentests. Dies ist eine Methode, die verwendet wird, um eine Aussage über einen Populationsparameter auf der Grundlage von Stichprobendaten zu bewerten . Es sind verschiedene Hypothesentests verfügbar, und das am Ende dieses Videos. Ich werde dir zeigen, wie du den richtigen auswählst. Wie funktioniert das Testen von Hypothesen? Wir beginnen mit einer Forschungshypothese. Auch bekannt als Alternativhypothese , für die wir in unserer Studie nach Beweisen suchen. Wird auch als Alternativhypothese bezeichnet. Dafür versuchen wir Beweise zu finden. In unserem Fall lautet die Hypothese , dass das Medikament den Blutdruck beeinflusst. Wir können dies jedoch nicht direkt mit einem klassischen Hypothesentest testen. Also testen wir die gegenteilige Hypothese, dass das Medikament keinen Einfluss auf den Blutdruck hat. Hier ist der Prozess. Erstens, nimm die Nein-Hypothese an. Wir gehen davon aus, dass das Medikament keine Wirkung hat, was bedeutet, dass Menschen, die das Medikament einnehmen und solche, die nicht den gleichen durchschnittlichen Blutdruck haben. T, sammle und analysiere Probendaten. Wir nehmen eine Zufallsstichprobe. Wenn das Medikament in der Probe eine große Wirkung zeigt, bestimmen wir dann die Wahrscheinlichkeit, eine solche oder eine Probe zu ziehen , die noch stärker abweicht, wenn das Medikament tatsächlich keine Wirkung hat, oder eine, die noch stärker abweicht, wenn das Medikament tatsächlich keine Wirkung hat, T, bewerten den Wahrscheinlichkeits-p-Wert Wenn die Wahrscheinlichkeit, ein solches Ergebnis unter der Nullhypothese zu beobachten , sehr gering ist Wir erwägen die Möglichkeit , dass das Medikament eine Wirkung hat. Wenn wir genügend Beweise haben, können wir die Nullhypothese zurückweisen. Der p-Wert ist die Wahrscheinlichkeit, der die Stärke der Beweise gegen die Nullhypothese gemessen wird. Zusammenfassend besagt die Nullhypothese, es keinen Unterschied in der Grundgesamtheit gibt, und der Hypothesentest berechnet, wie wahrscheinlich es ist die Stichprobenergebnisse beobachtet wenn die Nullhypothese wahr ist Wir wollen Beweise für unsere Forschungshypothese finden. Das Medikament beeinflusst den Blutdruck. Wir können dies jedoch nicht direkt testen, also testen wir die entgegengesetzte Hypothese, die Nullhypothese. Das Medikament hat keine Wirkung auf den Blutdruck. So funktioniert es. Gehen Sie von der Nein-Hypothese aus. Gehen Sie davon aus, dass das Medikament keine Wirkung hat. heißt, Menschen, die das Medikament einnehmen, und Menschen, die nicht den gleichen durchschnittlichen Blutdruck haben, sammeln und analysieren Daten. Nehmen Sie eine Zufallsstichprobe. Wenn das Medikament eine große Wirkung in der Probe zeigt. Wir bestimmen, wie wahrscheinlich es ist, ein solches oder ein extremeres Ergebnis zu erzielen . Wenn das Medikament wirklich keine Wirkung hat, berechnen Sie den p-Wert. Der p-Wert ist die Wahrscheinlichkeit eine Probe beobachtet wird, die so extrem ist wie unsere. Unter der Annahme, dass die Nullhypothese wahr ist. Statistische Signifikanz Wenn der p-Wert unter einem festgelegten Schwellenwert liegt, normalerweise 0,05. Das Ergebnis ist statistisch signifikant, d. h. es ist unwahrscheinlich, dass es allein durch Zufall entstanden ist Wir haben dann genügend Beweise , um die Nullhypothese abzulehnen Ein kleiner p-Wert deutet darauf hin, dass die beobachteten Daten nicht mit der Nullhypothese übereinstimmen führt dazu, dass wir sie zugunsten der Alternativhypothese ablehnen zugunsten der Alternativhypothese Ein großer p-Wert deutet darauf hin, dass die Daten mit der Nullhypothese übereinstimmen. Wir lehnen es nicht ab. Wichtige Punkte. Ein kleiner p-Wert beweist nicht , dass die Alternativhypothese wahr ist. Es zeigt lediglich an , dass ein solches Ergebnis unwahrscheinlich ist , wenn die Nullhypothese wahr ist. Ebenso beweist ein großer p-Wert nicht, dass die Nullhypothese wahr ist. Dies deutet darauf hin, dass die beobachteten Daten wahrscheinlich unter der Nullhypothese liegen. Danke. Wir sehen uns in der nächsten Statistikstunde. 10. Konzepte des Hypothesentests im Detail: Willkommen zurück. Lassen Sie uns die Hypothese genauer verstehen. Hypothese von Wir haben eine ganze Population, die wir gerne untersuchen würden. Es gäbe jedoch immer begrenzte Zeit und Ressourcen, um die gesamte Bevölkerung zu untersuchen. Daher nehmen wir unter Verwendung verschiedener Stichprobenverfahren eine Stichprobe aus der Grundgesamtheit und ziehen eine Stichprobe heraus. Wir untersuchen die Stichprobe und ziehen einige Schlüsse über die Grundgesamtheit, und zwar als Inferenzstatistik Was genau ist Hypothese? Eine Hypothese ist eine Annahme , die weder anfällig noch negativ sein kann. In einem Forschungsprozess wird die Hypothese ganz am Anfang aufgestellt, und das Ziel besteht darin, die Hypothese entweder abzulehnen oder nicht abzulehnen Um die Hypothese, beispielsweise Daten aus dem Experiment, abzulehnen oder nicht abzulehnen, ist eine Umfrage erforderlich, die dann mithilfe eines Hypothesentests ausgewertet werden. Unter Verwendung von Hypothesen werden Hypothesen in der Regel ausgehend von einer wörtlichen Überprüfung Auf der Grundlage der wörtlichen Überprüfung können Sie entweder begründen, warum Sie die Hypothese auf diese Weise formuliert haben die Hypothese auf diese Weise formuliert Ein Beispiel für eine Hypothese könnte sein, dass Männer in Österreich für dieselbe Tätigkeit mehr verdienen als Frauen Die Hypothese basiert auf der Annahme eines erwarteten Zusammenhangs. Ihr Ziel ist es, die Nullhypothese entweder abzulehnen oder nicht abzulehnen. Sie können Ihre Hypothese anhand der Daten testen. Die Analyse der Daten erfolgt mithilfe des Hypothesentests. In Österreich verdienen Männer für dieselbe Arbeit mehr als Frauen. Sie haben eine Umfrage unter fast 1.000 in Australien tätigen Arbeitnehmern durchgeführt, einen T-Test einer unabhängigen Stichprobe. In diesem Test benötigen Sie für die Hypothese aus der Umfrage geeignete Hypothesentests wie den T-Test oder den Korrelationsanalysetest. Wir können Online-Tools wie Data Tab oder Excel-Tools verwenden , um dieses Problem zu lösen. Wie formuliere ich eine Hypothese? Um eine Hypothese zu formulieren, muss zunächst eine Forschungsfrage definiert werden eine präzise formulierte Hypothese über der Forschungsfrage kann dann eine präzise formulierte Hypothese über die Population abgeleitet werden Forschungsfrage kann dann eine präzise formulierte Hypothese über die Population abgeleitet In Australien verdienen Männer für denselben Job mehr als Frauen. Was ist zum Thema die Frage, die wir stellen wollen, und was ist die Hypothese? Anschließend stellen Sie die Daten für den Hypothesentest zur Verfügung und ziehen die Schlussfolgerung. Dies ist eine sehr schöne visuelle Darstellung der Durchführung eines Hypothesentests. Hypothesen sind keine einfachen Aussagen. Sie sind so formuliert, dass sie mit getestet werden können . Sie können im Laufe des Forschungsprozesses mit gesammelten Daten getestet werden mit gesammelten Daten getestet . Um Hypothesen zu testen, muss genau definiert werden, um welche Variablen sich handelt und wie diese Variablen zusammenhängen. Hypothesen sind dann Annahmen über die Ursache-Wirkungs-Beziehung der Assoziation zwischen den Variablen. Was ist in diesem Fall eine Variable? Variable ist nichts anderes als eine Eigenschaft eines Objekts oder eines Ereignisses, das unterschiedliche Werte annehmen kann. Zum Beispiel ist eine Augenfarbe eine Variable. Wenn es die Eigenschaft des Objekts ist, kann ich verschiedene Werte annehmen. Wenn Sie in einer Sozialwissenschaft forschen, können Ihre Variablen Geschlecht, Einkommen , Einstellungen, Umweltschutz usw. sein. Wenn Sie im medizinischen Bereich forschen, könnten Ihre Variablen Körpergewicht, Raucherstatus, Herzfrequenz usw. sein Raucherstatus, Herzfrequenz usw. Was genau ist also die Null - und Alternativhypothese? Es gibt immer zwei Hypothesen, die sich genau entgegengesetzt sind genau entgegengesetzt und die behaupten, entgegengesetzt zu sein Diese entgegengesetzten Hypothesen werden als Null- und Alternativhypothese bezeichnet als Null- und Alternativhypothese und durch H nichts und H A oder H eins, H Null und H eins repräsentiert Null und H Die Nullhypothese von H nichts geht davon aus, dass es keinen Unterschied zwischen zwei oder mehr Gruppen in Bezug auf die Merkmale gibt , die wir untersuchen möchten Die Nullhypothese lautet dann. Die Nullhypothese geht davon aus , dass es keinen Unterschied zwischen zwei oder mehr Gruppen in Bezug auf die Merkmale gibt. Beispielsweise unterscheiden sich die Gehälter der Männer und Frauen in Österreich nicht. Die alternative Hypothese ist die Hypothese, die wir beweisen wollen, oder wir sammeln Daten, um sie zu beweisen. Die alternative Hypothese geht also davon aus, dass es einen Unterschied zwischen den zwei oder mehr Gruppen gibt. Beispielsweise unterscheidet sich das Gehalt der Männer und Frauen in Österreich. Die Hypothese, die Sie testen möchten, oder was Sie anhand der Theorie untersuchen möchten , gibt in der Regel die Wirkung an. Das Geschlecht wirkt sich auf das Gehalt aus. Diese Hypothese wird als alternative Hypothese bezeichnet. Es ist eine sehr schöne Aussage, oder? Es gibt eine andere Schreibweise, nämlich das Geschlecht wirkt sich auf das Gehalt aus, und der Hypothesentest wird als alternative Hypothese bezeichnet. Die Nullhypothese besagt normalerweise , dass es keinen Effekt gibt. Das Geschlecht hat keinen Einfluss auf das Gehalt. Im Hypothesentest kann nur die Nullhypothese getestet werden. Ziel ist es herauszufinden, ob Nullhypothese abgelehnt wird oder nicht. Es gibt verschiedene Arten von Hypothesen. Welche Arten von Hypothesen gibt es? Am häufigsten wird zwischen Unterschieden Korrelationshypothesen unterschieden. Es kann sich um direktionale und ungerichtete Hypothesen handeln. Differential- und Korrelationshypothese. Differentialhypothesen werden verwendet, wenn verschiedene Gruppen sowie die Gruppe der Männer und die Gruppe der Frauen unterschieden werden sollen sowie die Gruppe der Männer und die Gruppe der Frauen unterschieden Männer und die Gruppe der Frauen Korrelationshypothesen werden verwendet , wenn eine Beziehung hergestellt werden soll oder wenn eine Korrelation zwischen der Variablen getestet werden soll Die Beziehung zwischen Alter und Größe. Differenzhypothese. Differenzhypothese ist ein Test, bei dem wir testen, ob es einen Unterschied zwischen zwei oder mehr Gruppen gibt. Das Beispiel der Differenzhypothese ist, dass die Gruppe der Männer mehr verdient als die der Frauen. Raucher haben ein höheres Herzinfarktrisiko als Nichtraucher Es gibt einen Unterschied zwischen Deutschland, Österreich und Frankreich in Bezug auf die Arbeitsstunden pro Woche Somit ist eine Variable immer eine kategoriale Variable wie Geschlecht, Raucherstatus oder Land Andererseits ist die andere Variable eine ordinale Variable oder eine Variable für Gehalt, prozentuales Herzinfarktrisiko und Arbeitsstunden pro Woche Lassen Sie uns nun die Korrelationshypothese etwas genauer verstehen etwas genauer Ein Korrelationshypothesentest, Beziehungen zwischen zwei Variablen. Zum Beispiel die Größe und das Körpergewicht. die Körpergröße der Person zunimmt, wird das Körpergewicht beeinflusst Die Korrelationshypothese lautet beispielsweise, dass je größer eine Person ist, je schwerer sie ist, je mehr Pferdestärken ein Auto hat, desto höher ist sein Kraftstoffverbrauch Je besser die Mathe-Note, desto höher das zukünftige Gehalt Wie Sie den Beispielen entnehmen können, Korrelationshypothesen häufig die Form , je höher, desto niedriger. Daher werden mindestens zwei ordinale Skalenvariablen untersucht Direktionale und ungerichtete Hypothesen, Hypothesen werden in gerichtete und ungerichtete Hypothesen unterteilt gerichtete und ungerichtete Hypothesen Das heißt, entweder handelt es sich um eine einseitige oder eine zweiseitige Hypothese. Wenn die Hypothese Wörter wie besser als, schlechter enthält, dann ist die Hypothese in der Regel richtungsweisend. Sie könnte positiv oder negativ sein. Bei ungerichteten Hypothesen findet man oft die Bausteine heraus, zum Beispiel, dass es einen Unterschied zwischen den Formulierungen gibt, aber es wird nicht angegeben, in welcher Richtung der Unterschied liegt. Bei der ungerichteten Hypothese ist das Einzige von Interesse, das Einzige von Interesse ob es einen Unterschied im Wert zwischen den betrachteten Variablen gibt. bei einer direktionalen Hypothese, Was interessiert es bei einer direktionalen Hypothese, ob eine Gruppe höher oder niedriger ist als die andere? Sie haben eine zweiseitige Hypothese, oder Sie können eine einseitige Hypothese wie linksseitig oder rechtsseitig haben . Eine ungerichtete Hypothese, eine ungerichtete Hypothese, testet, ob ein Unterschied oder eine Beziehung besteht. Es spielt keine Rolle, in welcher Richtung die Beziehung besteht oder welche unterschiedlichen Ursachen es gibt. Im Fall einer Differenzhypothese bedeutet dies, dass es einen Unterschied zwischen zwei Gruppen gibt, aber es sagt nicht aus, ob eine Gruppe einen höheren Wert hat. Es gibt einen Unterschied zwischen dem Gehalt von Männern und Frauen, aber es sagt nicht aus , wer mehr verdient Es gibt einen Unterschied im Herzinfarktrisiko zwischen Rauchern und Nichtrauchern, aber es wird nicht gesagt, wer ein höheres In Bezug auf die Korrelationshypothese bedeutet dies, dass eine Beziehung oder eine Korrelation zwischen zwei Variablen besteht Aber es wird nicht gesagt, ob die Beziehung positiv oder negativ ist. Es besteht eine Korrelation zwischen Größe und Gewicht und es besteht eine Korrelation zwischen Pferdestärke und Kraftstoffverbrauch im Auto. In beiden Fällen wird nicht gesagt, die Korrelation positiv oder negativ ist. Wenn Sie von einer Richtungshypothese sprechen, wir zusätzlich die Richtung der Beziehung oder des Unterschieds an. Im Falle der anderen Hypothese wird eine Aussage getroffen, welche Gruppe hat einen höheren oder niedrigeren Wert? Männer verdienen mehr als Frauen. Raucher haben ein höheres Herzinfarktrisiko als Nichtraucher Im Falle einer Korrelationshypothese wird die Beziehung dahingehend hergestellt, wird die Beziehung dahingehend hergestellt ob eine Korrelation positiv oder negativ ist Je größer ein Mensch ist, desto schwerer ist er. Je mehr Pferdestärken ein Auto hat, desto höher ist sein Kraftstoffverbrauch einseitige direktionale Alternativhypothese umfasst nur die Werte, die sich in einer Richtung von den Werten der Nullhypothese unterscheiden . Wie interpretieren wir nun den p-Wert in einer Richtungshypothese? Normalerweise hilft Ihnen Statistiksoftware immer bei der Berechnung des p-Werts Excel ist auch bei der Berechnung des p-Werts sehr intelligent geworden , und es hilft bei der Berechnung des ungerichteten Tests und hilft auch bei der Angabe des p-Werts dafür. Um den p-Wert für die Richtungshypothese zu ermitteln, muss geprüft werden, ob der Effekt in die richtige Richtung ist. Anschließend wird der p-Wert durch zwei geteilt und ob das Signifikanzniveau nicht durch zwei, sondern nur durch eine Seite bestimmt wird sondern nur durch eine Seite Darüber hinaus haben wir ein Tutorial zum P-Wert. Also schauen Sie sich das bitte in der analysierten Phase meines Kurses an. Wenn Sie in einem Software-Lil-Datentyp eine gerichtete Alternativhypothese für die Berechnung der Hypothese auswählen in einem Software-Lil-Datentyp eine , erfolgt die Konvertierung automatisch und Sie können nur lesen. Nun eine schrittweise Anleitung zum Testen der Hypothese. Sie sollten eine Literaturrecherche durchführen, die Hypothese formulieren, das Skalenniveau definieren, das Signifikanzniveau bestimmen, den Hypothesentest bestimmen. Welcher Hypothesentest ist für die Skalenniveaus und den Hypothesenstil geeignet für die Skalenniveaus und den Hypothesenstil Im nächsten Tutorial geht es um das Testen von Hypothesen. Sie werden etwas über Hypothesentests lernen und herausfinden , welche besser ist und wie man sie liest. 11. Einführung 7Qc-Tools: T. Willkommen zum neuen Kurs über sieben Qualitätswerkzeuge. Dies ist eines der wichtigsten Konzepte wenn Sie darüber nachdenken kontinuierlich zu verbessern Ihren Prozess, Ihre Abläufe oder Ihre Fertigungseinrichtung kontinuierlich zu verbessern. Selbst wenn Sie in der Dienstleistungsbranche tätig sind, helfen Ihnen diese Tools dabei, den Überblick über die Qualität zu behalten. Lassen Sie uns damit anfangen. Also, die sieben QC-Tools, was werde ich im Rahmen dieses Schulungsprogramms behandeln Rahmen dieses Schulungsprogramms Es sind die sieben Qualitätskontrollwerkzeuge. Erstens: Dinge, Katapult, Flussdiagramm, Histogramm, Pareto-Analyse, Fishburn-Diagramm, auch Ishikawa-Diagramm genannt Ishikawa-Diagramm Wir werden diese Tools nicht nur auf hohem Niveau behandeln. Wir werden einige Beispiele machen, wie man diese Dinge mit Microsoft Excel zeichnet , wo immer dies möglich ist. Wir werden Ihnen auch einige Beispielübungen mit Daten geben einige Beispielübungen mit , die Ihnen helfen können, diese Aktivitäten sehr einfach durchzuführen. Wir werden darüber sprechen, was das Tool ist, wie das Tool verwendet wird, wann das Tool verwendet wird, einige häufige Fehler, die wir vermeiden sollten, und eine schrittweise Anleitung zur Erstellung der erforderlichen Ausgabe geben. 12. Prüfblatt: Gehen wir zum nächsten Qualitätswerkzeug der sieben QC-Tools über , dem Prüfblatt Lassen Sie uns mehr über das Prüfblatt erfahren. Scheckblätter werden zur systematischen Erfassung und Zusammenstellung der Daten Aus den historischen Quellen oder Beobachtungen, sobald sie auftreten Es kann verwendet werden, um Daten an Orten zu sammeln , an denen Daten im Laufe der Zeit tatsächlich generiert werden. Es kann verwendet werden, um sowohl quantitative als auch qualitative Daten zu erfassen . Deshalb habe ich Ihnen ein einfaches Prüfblatt gezeigt, auf dem Sie die Fehlertypen haben und wie oft dieser bestimmte Fehler auftritt. Dies kann verwendet werden , um Daten aus historischen Quellen oder Beobachtungen systematisch aufzuzeichnen und zusammenzustellen , sobald sie auftreten. Es kann verwendet werden, um Daten an Orten zu sammeln , an denen Daten in Echtzeit generiert werden. Diese Art von Daten kann quantitativ als auch qualitativ sein. Das Prüfblatt gehört zu den sieben grundlegenden Qualitätskontrollen. Was macht das Scheckblatt? Es wird verwendet, um leicht verständliche Daten zu erstellen, und das ist mit einem einfachen, effizienten Prozess verbunden Sie sich bei jedem Eintrag ein klares Bild von den Fakten, die von den einzelnen Teammitgliedern vorgeschlagen Aus diesem Grund ist es eines der datengesteuerten. Es standardisiert die Vereinbarung über Definitionen jeder einzelnen Bedingung Wie wird eine Scheckform verwendet? Wir einigen uns auf die Definition von Ereignissen oder Bedingungen , die beobachtet werden. Beispiel. Wenn wir nach der Grundursache für Mängel des Schweregrads 1 suchen, dann müssen wir uns darauf einigen, sie als ersten Schweregrad zu bezeichnen. Entscheiden Sie, wer die Daten sammelt, entscheiden Sie, welche Person an dieser Aktivität beteiligt sein wird. Notieren Sie sich die Quellen , aus denen die Daten gesammelt werden. Die Daten sollten in Form einer Stichprobe oder der gesamten Population vorliegen. Sie können sowohl qualitativ als auch quantitativ sein. Legen Sie fest, welcher Wissensstand für die Person erforderlich ist, die am Datenerfassungsplan beteiligt ist. Entscheiden Sie, wie häufig die Daten gesammelt werden sollen und ob die Daten wöchentlich, stündlich, täglich oder monatlich erhoben werden müssen. Legen Sie die Dauer der Datenerhebung fest, d. h. wie lange die Daten gesammelt werden sollen, wie lange die Daten gesammelt werden sollen um ein aussagekräftiges Ergebnis zu erzielen. Erstellen Sie ein einfach zu verwendendes Prüfblatt, das präzise, vollständig und konsistent bei der Erfassung der Daten während des gesamten Erfassungszeitraums ist zu verwendendes Prüfblatt, das präzise, vollständig und konsistent bei der Erfassung der Daten während des gesamten Erfassungszeitraums Daten während des gesamten Bitte beachten Sie, dass Scheckblätter zu Zeiten des Industriezeitalters als eines der Qualitätsinstrumente erstellt wurden Derzeit befinden wir uns im Informationszeitalter. Wir haben so viele ERP-Softwareprogramme, Maschinen, die Daten aufgrund der IT erfassen, und es gibt verschiedene andere computergenerierte Berichte , die anwendbar sind Versuchen Sie, ein Scheckblatt nur zu verwenden, und zwar nur dann, wenn Sie sich in einem vollständig manuellen Datenerfassungsprozess befinden Es ist eines der Tools, in den letzten Monaten jedoch am wenigsten genutzt Lassen Sie mich das anders formulieren: Tools, die in den letzten Jahren am wenigsten genutzt wurden. Es sei denn, Ihr Unternehmen hat überhaupt keinen systematischen Ansatz zur Erfassung der Daten Es ist ein sehr gutes Tool, wenn Sie Mitarbeiter mit blauen Farben einsetzen und keine High-Tech-Systeme zur Erfassung der Daten haben. Deshalb habe ich die Vorlage für das Scheckblatt im Bereich Projekt und Ressourcen beigefügt . Sie können sich darauf beziehen. Gib mir einfach eine Sekunde. Ich zeige dir das Scheckblatt auf dem Bildschirm. So kann ich ein Scheckblatt verwenden , das ich Ihnen als Teil meiner Parado-Vorlage gegeben Sie können die Kategorien hier aufschreiben und mir sagen, dass es sich um Fehler eins, Fehler zwei handelt Es handelt sich um ein Problem wie auch immer Ihr Fehler heißen Bitte listen Sie hier alle Mängel auf, oder? Und dann können Sie das vermarkten , wie oft passiert das? Wo auch immer es passiert, fangen Sie bitte an, eines zu schreiben. Wie oft siehst du das und wann siehst du es? Dies in Verbindung damit, dass ich diese Daten später für meine Pareto-Analyse verwenden kann , für die ich ein separates Video erstellt habe , das können Sie verwenden In der heutigen Welt benötigen Sie kein separates Scheckblatt. Sie können das verwenden, das ich hier gegeben habe. Danke. Ich sehe dich in der nächsten Klasse. 13. Box-Plot: Heute werden wir etwas über Boxplot lernen und es im Detail verstehen Wir alle hätten Boxplot in mehreren Fällen gesehen. Aber mal sehen, was es interpretiert. Was genau ist also ein Boxplot? Mit einem Boxplot können Sie in der Regel viele Informationen zu Ihren Daten grafisch darstellen Das Feld gibt den Bereich der mittleren 50% der Stelle an, an der Ihr Wert liegt Lassen Sie uns den Boxplot verstehen, wie er aufgeteilt ist. Wenn der Anfang der Box als Q Eins bezeichnet wird, ist er das untere Ende der Box und wird auch als erstes Quartil bezeichnet Q ist das obere Ende der Box oder das dritte Quartil. Die Entfernung zwischen Q 3 und Q wird als Interquartilbereich bezeichnet, was den mittleren 50% Ihrer Die 25% der Daten liegen unter Q Eins. In dem Feld befinden sich 50% der Daten, und daher befinden sich 25% der Daten über dem Sie haben eine Haupt- und eine Mittellinie innerhalb des Felds, wodurch die Daten wiederum in 25 und 25% aufgeteilt werden Nehmen wir also an, wenn wir das Alter des Teilnehmers, das Boxplot, anzeigen , sind es 31 Das bedeutet, dass 25% der Teilnehmer jünger als 31 Jahre sind. Q drei ist 63 Jahre. Das bedeutet, dass 25% der Teilnehmer älter als 63 Jahre sind. 50% der Teilnehmer sind 31-63 Jahre alt. Der Mittelwert und der Median. Der Median liegt bei 42, was bedeutet, dass die Hälfte der Teilnehmer älter als 42 Jahre und die andere Hälfte jünger als 42 Die gestrichelte Linie wird auch als Durchschnittslinie oder als Hauptwert bezeichnet , der den Durchschnitt darstellt Da der Mittelwert vom Median abweicht, bedeutet dies eindeutig, dass es sich bei den Daten um einen Unterschied handelt Die durchgezogene Linie steht für den Median und die gepunktete Linie für Die weiter entfernten Punkte werden als Ausreißer bezeichnet. Die Höhe des Whiskers entspricht etwa dem 1,5-fachen des Bereichs zwischen den Quartalen. Der Whisker kann nicht endlos pingen. Der Ausreißer und der Ti-förmige Schnurrbart. Wenn es keinen Ausreißer gibt, ist der Maximalwert Wenn es einen Ausreißer gibt, ist der T-förmige Whisker der letzte Punkt, bei dem das 1,5-fache des Interquaralbereichs und andere Wie erstelle ich einen Boxplot? Sie haben eine Excel, um Ihren Boxplot zu erstellen, und Sie können dies auch mit Online-Tools tun Ja, also kann ich einfach nach Diagrammen suchen. Damit kann ich sagen, dass ich die metrische Variable nehme, dann haben Sie die Option eines Histogramms und Sie haben auch die Option eines Boxplots, was eindeutig besagt, dass Q eins 29 ist, 66 ist, der Median 42 ist, der Mensch 46 ist Das Maximum ist 99, der obere Zaun ist 99. Es gibt keine Ausreißer. Gehen wir und ändern die Daten. Lass mich das auf 126 machen. Sobald ich den Wert einer Person auf 126 ändere und Sie zurückkommen, werden Sie feststellen, dass es einen Ausreißer im Histogramm gibt, und hier ist sehr offensichtlich, dass 126 ein Ausreißer ist Und hier ist der obere Zaun 92. Q drei ist immer noch derselbe, Q eins ist immer noch derselbe. Die Boxgröße ändert sich also nicht und so weiter. Richtig? Was ist, wenn die Person ein Held ist? In diesem Fall werden Sie feststellen, dass es sich nicht um einen Ausreißer handelt, sondern dass es immer noch Teil des ISC ist Ich kann die Grafik klein machen, ich kann die Nulllinie anzeigen Ich kann die Standardabweichung anzeigen. Ich kann die Punkte zeigen. Ich kann es horizontal und vertikal machen. All diese Optionen sind also mit einem Online-Statistiktool möglich . Ich kann die Zip-Datei natürlich herunterladen und damit arbeiten. Okay. Wie kann ich Boxplot mit Excel machen? Also habe ich die gleichen Daten hierher kopiert. Ich habe verschiedene Gruppen, also habe ich mein Alter als Daten ausgewählt. Und jetzt gehe ich zum Einfügen eines empfohlenen Diagramms, gehe zu allen Diagrammen und ich habe ein Box-and-Whisker-Diagramm Und ich kann mein Box-and-Whisker-Diagramm sehen. Ich kann meine Rasterlinien entfernen und die Datenbeschriftungen hinzufügen, und es zeigt deutlich meinen Weg. Vielleicht kann ich es einfach vergrößern, um es besser sichtbar zu machen. Ich kann die Farbe meines Diagramms so ändern, dass sie anders ist. Oh und ich kann das auswählen Mein Durchschnitt ist hier drüben. Mein Median ist 421, drei und. Jetzt, das gleiche Diagramm, ich kann es auch nach Wurzeln gruppieren Ich nehme die Gruppe und das Alter. Ich klicke rein, ich kann auf das empfohlene Diagramm klicken, zu allen Diagrammen gehen und Box and Whisker machen Dieses Mal habe ich vier Boxen für jedes Mitglied der Gruppe. Ich kann die Farbe meines Diagramms ändern. In Ordnung. Ich kann die Datenbeschriftungen beifügen. Wenn ich es hier einfüge und auf das Kommazeichen klicke, wirst du feststellen, dass die Bindepunkte waren . Es ist also sehr einfach, Diagramme mit Excel sowie mit einigen Online-Tools zu zeichnen Excel sowie mit einigen Online-Tools Also für die Gruppen habe ich die Gruppe plus das A genommen, und dafür habe ich genommen Also für A, sagen wir für die Gruppe C, wenn ich weitermache und den Wert auf 100 ändere, wirst du feststellen, dass es dort einen Ausreißer gibt Der Mindestwert ist zehn, lassen Sie uns die Werte 25 ändern Sie werden feststellen, dass sich die Werte auf diese Weise ändern. Großartig. Also werde ich dich in der nächsten Klasse sehen. Danke. Oh. 14. Box-Plot Teil 1: In dieser Lektion werden wir mehr über Boxplot erfahren. Ein Boxplot ist eine der grafischen Techniken, mit denen wir Ausreißer identifizieren können, oder? Lassen Sie uns verstehen, wie ein Boxplot entsteht. Lassen Sie uns zuerst das Konzept verstehen bevor wir uns mit den Praktika befassen. Ein Boxplot wird als Boxplot bezeichnet, weil es wie eine Box aussieht und viskos ist wie die Katze. Die Katze hat im Gesicht. Nun, genau wie die Katze nicht haben kann und weniger viskos ist, die Größe des Whiskers des wird die Größe des Whiskers des Boxplots für bestimmte Parameter festgelegt . Sie werden einige wichtige Terminologien sehen , wenn Sie ein Boxplot erstellen. Nummer eins, was ist der Mindestwert? Was ist das Quartil? Was ist der Median? Was ist der Kern fest? Drittens, was ist die Größe des maximalen Whiskers? Und was ist der Maximalwert am Datenpunkt? Hier? Die Mindestanzahl der Hunde über den Minimumpunkt und wo der Whisker verlängert werden kann. Q1 steht für das erste Quartal, was 25% der Daten bedeutet. Nehmen wir zur Vereinfachung an, wir haben 100 Datenpunkte. 25 Prozent der Daten werden unter dieser einen Marke liegen. Zwischen Q1 und Q2. Fünfundzwanzig Prozent Ihrer Daten werden gebildet, werden vorhanden sein. Q2 wird auch als Median oder Mittelpunkt Ihrer Daten bezeichnet . Wenn ich also meine Daten in aufsteigender oder absteigender Reihenfolge anordne, wird der mittlere Datenpunkt als Median und als Q2 bezeichnet. Q3, oder auf andere Weise auch als oberes Quartil bezeichnet, spricht von den fünfundzwanzig Prozent der Daten nach dem Medium. Technisch gesehen haben Sie inzwischen fünfundsiebzig Prozent Ihrer Daten abgedeckt fünfundsiebzig Prozent Ihrer Daten unter Ihrem dritten Quartil liegen werden, 25 Prozent unter dem ersten Quartal, 50% der Daten unter dem zweiten Quartal, fünfundsiebzig Prozent von Die Daten liegen unter Q3. Technisch gesehen liegen von 100% der Daten 75% der Daten unter dem dritten Quartal. Das bedeutet, dass fünfundzwanzig Prozent meiner Datenpunkte über dem dritten Quartal liegen werden. Jetzt wird der Abstand zwischen Q1 und Q3 als Boxgröße bezeichnet. Und diese Kastengröße wird auch als Interquartilbereich bezeichnet. Q3 minus Q1 wird als Interquartilbereich bezeichnet. Wie ich Ihnen zu Beginn des Unterrichts sagte, hängt die Größe des Whiskers vom Interquartilbereich oder IQR ab. Q3. Ich kann diese Linie das 1,5-fache der Größe der Box bilden. 1,5-fache IQR plus Q3 ist also die Obergrenze für meinen Whisker. Auf der rechten Seite. Auf der Oberseite. Wenn ich den Whisker auf der linken Seite zeichnen möchte, ist es nichts anderes als das gleiche 1,5-fache im Interquartilbereich. Aber ich subtrahiere diesen Wert von Q1 und verlängere ihn bis zu diesem Wert. Also legt es die Untergrenze fest. Möglicherweise haben Sie Datenpunkte, die unter den Minimalpunkt fallen. Möglicherweise werden Datenpunkte, die über die maximale Größe des Risikos dieser Datenpunkte hinausgehen , als Ausreißer bezeichnet. Das Schöne an Boxplot ist, dass es Ihnen hilft, festzustellen , ob Ihr Datensatz Ausreißer enthält. Mal sehen wie kann ich ein Boxplot erstellen? Denn physisch muss ich mir keine Sorgen machen , 2525% Prozent herauszufinden. Und wirklich persönlich werden wir zu MiniTab gehen und dann die Arbeit machen. Sehen wir uns dieses Datenblatt an. In unserer vorherigen Klasse haben wir einige beschreibende Statistiken dazu erstellt. Und wir haben die Datenpunkte gefunden. Wir haben den minimalen Datenpunkt Q1, Q2, Q3 und maximalen Datenpunkt gefunden. Versuchen wir, ein Boxplot für die Zykluszeit in Minuten zu erstellen . Also klicke ich auf Grafik. Ich gehe zum Boxplot und sehe mir ein einfaches Boxplot an und klicke auf Okay, ich werde die Zykluszeit in Minuten auswählen. Und ich sage: Okay, sehen wir uns die Datenansicht an. Wenn Sie sich dieses Boxplot ansehen, wird die untere Zeile als die eine bezeichnet. Es ist 9.16. Der Median ist die Mittellinie und muss nicht genau in der Mitte liegen. Die Oberseite der Box ist Q3, was 10,86 in diesem Datenbereich ist, und der Interquartilbereich ist 1,7. Meine Box kann sich 1,5-mal am Ellbogen ausdehnen und auf dem Ballon 1,5 mal in 1,7 gehen . Und Sie sehen , dass es in diesem Boxplot keine Sternchen gibt , sehr deutlich darauf hinweist, dass es in meinem aktuellen Datensatz keine Ausreißer gibt . Holen wir uns noch einen Datensatz. In unserem nächsten Video zu verstehen, wie Boxplot funktioniert. 15. Box-Plot Teil 2: Lassen Sie uns unsere Reise fortsetzen um Boxplots genauer zu verstehen. Wenn Sie in Ihrer Projektdatei auf das Arbeitsblatt gehen, das als Boxplot bezeichnet wird. Ich habe Daten zur Zykluszeit für fünf verschiedene Szenarien gesammelt. Wie Sie sehen können, habe ich an einigen Stellen mehr Datenpunkte, wie ich fast 401745 Daten habe. An manchen Stellen habe ich nur 14 Datenpunkte. Versuchen wir also, dies genauer zu analysieren , um zu verstehen, wie Boxplot funktioniert. Ich habe diese Daten auf MiniTab kopiert, Fall eins, Fall zwei, T3 und T4. Als erstes würde ich also einige grundlegende deskriptive Statistiken für alle Fremdschlüssel erstellen wollen einige grundlegende deskriptive Statistiken . Ich wähle alles aus. Und dann sehe ich, wenn ich meine Ausgabe sehe, kann ich sehen, dass ich in drei der Fälle 45 Datenpunkte habe. Im vierten Fall habe ich 18 Datenpunkte. Im fünften Fall habe ich 14 Datenpunkte. Die Anzahl der Datenpunkte ist also sehr, wenn man sich meinen Mindestwert anschaut, reicht er von 1, eins, einundzwanzig, zweiundzwanzig. Und der Maximalwert liegt irgendwo zwischen 4090. In einem Szenario habe ich Werte von 21 bis 40 entwickelt. In einem Szenario habe ich Werte von zwei bis 90, was sehr deutlich zeigt, dass die Anzahl der Datenpunkte oder dies tut. Aber mein Wertebereich ist weiß. Wenn Sie sich also die Rate ansehen, liegt sie zwischen 18,8 und 99 Punkten. Also im zweiten Fall habe ich 1200 als Bereich, also 99 Jahre. Und dasselbe kann auch als Standardabweichung beobachtet werden. Sie können sehen, dass die Schiefe der Daten unterschiedlich ist und die Kurtosis unterschiedlich ist. Lassen Sie uns zunächst das Boxplot im Detail verstehen. Und im nächsten Video, wenn ich über das Histogramm spreche, werden wir das Verteilungsmuster anhand desselben Datensatzes verstehen . Lass uns anfangen. Ich klicke auf Grafik. Ich kann auf Boxplot klicken und ich klicke auf simple. Was ich tun kann ist, dass ich 11 Fälle gleichzeitig aufnehmen kann , um meine Daten zu analysieren. Im ersten Fall zeigt es mir ein Boxplot und dieses Boxplot zeigt sehr deutlich , dass meine Daten keine Ausreißer enthalten. Und der Bereich liegt zwischen. Wenn ich den Cursor hier drüben lasse, habe ich 45 Datenpunkte. Mein Whisker reicht von 21,6 bis 4,4 und mein Interquartilbereich liegt bei 5,95. Mein Median ist 30,3. Mein erstes Quartil ist 26,9. Mein drittes Quartil ist 32,85. Lassen Sie uns die Sache für Fall zwei wiederholen. Wenn ich auch meine Schlüssel mache, wenn du jetzt hinschaust, sieht die Box sehr klein weil hier meine Datenpunkte gleich sind. Verstärkt von Vickery reicht wieder von 21,6 bis 40 für scheint wie mein vorheriges Szenario. Aber ich habe hier Ausreißer, die weit darüber hinausgehen. Wenn Sie sich erinnern, ist die beschreibende Statistik für Kinder bis zu meinem Mindestwert eins und mein Maximalwert ist 100. Mein Median war wie mein vorheriges Szenario. Mein Q1 ist auch ähnlich, nicht dasselbe, aber ähnlich. Und Q3 ist auch ähnlich. Aber wenn man sich das Boxplot anschaut, ist die Box sehr klein, sehr deutlich zeigt, dass was sehr deutlich zeigt, dass mein Interquartilbereich 6,95 beträgt. Meine Viskose kann nur das 1,5-fache erreichen und jeder Datenpunkt darüber hinaus wird Misko als Ausreißer bezeichnet. Ich kann diese Ausreißer auswählen, oder? Und es ist sehr deutlich zu sehen, k ist zwei, der Wert ist 100 und es ist in Zeile Nummer eins. Zeile Nummer 37, ich habe einen Wert namens 90. In Zeile Nummer 30 habe ich einen Wert namens ist 88. Und in Zeile Nummer 21 habe ich einen Wert namens Eins , der eine Mindestgröße ist. Ich habe also Ausreißer auf beiden Seiten. Lass uns Fall drei verstehen. Wenn ich mir die Chemie ansehe, setze ich den Cursor auf den Boxplot. Ich habe dieselben 45 Datenpunkte. Meine Viskose oder von 21,6 bis 40 für scheint wie mein Fall eins, Fall zwei. Aber in diesem Szenario habe ich viele Ausreißer. Am unteren Ende. Das ist, auf der Unterseite meines Kerns, eng, richtig? Es fällt uns leicht, auf jede einzelne von ihnen zu klicken und zu sehen, wie meine Boxen sind. Das Schöne hier ist, dass ich nur 18 Datenpunkte habe, aber immer noch einen Ausreißer habe. Machen wir es für k ist fünf. Und verstehe das auch. Ich habe eine kleinere Kiste. Ich habe nur 14 Datenpunkte und einen Ausreißer auf der Aufwärts-Taste, und ich habe einen Ausreißer am unteren Ende. Hier ist der Wert 23. Aber wenn ich diese Handlungen anders sehe , ist es für mich schwierig, einen Vergleich durchzuführen. Kann ich alles auf einen Bildschirm bekommen? Also gehe ich zum Graphen, ich gehe zum Boxplot. Ich werde eine einfache Umgebung auswählen. Ich wähle alle Fälle zusammen aus und sehe mehrere Grafiken. Ich sehe Haut und ich sehe, dass die Achse gesehen werden sollte. Rasterlinien sollten sichtbar sein. Und ich klicke auf Okay. Ich erhalte alle fünf Datenpunkte, fünf Fallszenarien in einem Diagramm. Das wird es mir leicht machen die Analyse durchzuführen, in diesem Fall. Also individuell, wenn ich den Fall eins gesehen habe, wenn wir uns ein großes Schwad zeigen. Aber wenn ich einen nebeneinander vergleiche , kann ich wissen, dass ich im zweiten Fall Ausreißer oben und unten habe . Im dritten Fall habe ich Ausreißer auf der Unterseite. Im vierten Fall habe ich Ausreißer auf der Oberseite. Im fünften Fall habe ich Verkaufsstellen auf beiden Seiten. Die Anzahl der Datenpunkte ist unterschiedlich. Die Bulks werden gezogen. Die Größe der Box kann nicht durch die Anzahl der Datenpunkte bestimmt werden . Ich habe 45 Datenpunkte, aber meine Box ist sehr schmal. Und ich habe 14 Datenpunkte und meine Box ist weiß. Also die Größe der Box. Wenn ich also 14 Datenpunkte habe , werden meine Daten in vier Teile aufgeteilt. Also drei Datenpunkte unter Q1, drei Datenpunkte zwischen Q1 und Q2, drei Datenpunkte zwischen Q2 und Q3 und drei Datenpunkte hinter Q3. Während ich 45 Datenpunkte hatte, es als 11111111 verteilt. Mein Median wäre die mittlere Zahl. Aus dieser Übung lernen Sie also , dass Sie anhand der Größe des Quaders die Anzahl der Datenpunkte nicht bestimmen können. Aber was Sie definitiv feststellen können , ist, dass ich angesichts dieses Datensatzes Datenpunkte habe, die extrem hoch oder niedrig sind? Der Zweck des Zeichnens eines Boxplots besteht also darin, die Verteilung zu sehen und etwaige Ausreißer zu identifizieren. Ich hoffe, das Konzept ist klar. Wenn Sie Fragen haben, können Sie diese gerne in der Diskussionsgruppe veröffentlichen. Und ich beantworte sie gerne. Danke. 16. Pareto-Analyse: Hallo Freunde. Lassen Sie uns unser Lernen über sieben QC-Tools fortsetzen unser Lernen über sieben QC-Tools Das Tool, das wir heute lernen werden, sind Pareto-Diagramme, die auch als Parto-Analyse bezeichnet werden Dies basiert auf dem berühmten Statistiker, nicht auf dem Statistiker Lassen Sie mich korrigieren, Wirtschaftswissenschaftler, um die Welt gereist ist, den Anteil des Wohlstands an der Bevölkerung zu untersuchen Wohlstands an der Bevölkerung zu Dabei fand Herr Pareto das 80-20-Prinzip heraus Lassen Sie uns tief in das Thema eintauchen. Also die Pareto-Analyse, das Prinzip, das Ihnen hilft, sich auf das Wichtigste zu konzentrieren , um den größtmöglichen Nutzen zu erzielen Sie beschreibt das Phänomen , dass eine geringe Menge hoher Werte mehr zur Gesamtsumme beiträgt als eine hohe Anzahl niedriger Werte Der Schwerpunkt liegt auf den Attributen mit hohem Wert, auf die ich mich konzentrieren muss , anstatt auf so viele Dinge mit geringem Wert. Kurz gesagt: Identifiziere die Wenigen und nicht die trivialen Vielen Was sind diese roten Blöcke , die nur drei oder vier sind? Aber der Beitrag ist groß. Anstatt sich Hunderte von kleinen Dingen anzusehen, bei denen der Beitrag insgesamt gering ist. Selbst wenn ich mir meine persönlichen Ausgaben ansehe, O von meinem Gesamteinkommen, fließt der Großteil meines Geldes in die Zahlung von EMI, die Bezahlung der Mieten und Rechnungen. Das sind also meine wenigen lebenswichtigen, und nicht trivialen vielen, bei denen ich versuche, mir die Bustickets, das Essen, das ich esse, oder die kleinen Einkäufe, die ich tätige, anzusehen Essen, das ich esse, oder die kleinen Einkäufe, die ich Wenn ich also gut sparen will , muss ich mich darauf konzentrieren, wie ich meine EMI schneller zurückzahlen kann, wie ich eine Miete haben kann, die innerhalb meines Budgets liegt Die Pareto-Analyse basiert auf der berühmten 80-20-Regel. Sie besagt, dass rund 80% der Ergebnisse auf 20% des Aufwands zurückzuführen sind Sehr schön gesagt, der Aufwand von 80% ergibt sich aus einem Aufwand von 20%. In ähnlicher Weise sind 80% der Probleme oder Auswirkungen auf 20% der Ursachen zurückzuführen. Wir verwenden dies für unsere Ursachenanalyse. Der genaue Prozentsatz kann von Situation zu Situation variieren, obwohl wir glauben, dass er bei 80 20 liegt, auch wenn es 75 25 sind, sollten wir weitermachen und uns bemühen, diese wenigen lebenswichtigen Probleme zu beheben. Manchmal bekommen wir einen Wert von 70 30, manchmal sogar einen Wert von 88 12. Dies sind nur einige Beispiele. Der Punkt ist, welche sind die Hauptursachen, die ich mit minimalem Aufwand beheben kann , um maximale Ergebnisse zu erzielen. In vielen Fällen sind nur wenige Anstrengungen für die meisten Ergebnisse verantwortlich. sind einige wenige Ursachen Regel sind einige wenige Ursachen für den Großteil des Aufwands verantwortlich. Wenn ich auf meine Prüfung zurückblicke, gibt es bestimmte Kapitel in meinem Buch , die in meiner Abschlussprüfung mehr Gewicht Wenn ich mich mit diesen Kapiteln gründlich beschäftige, wird meine Wahrscheinlichkeit, 60 bis 70% zu erreichen, sehr einfach Anstatt zu versuchen, alle 20 Kapitel in meiner Arbeitsmappe zu lesen , könnte ich mich auf einige Kapitel konzentrieren, um Ergebnisse zu erzielen Sparto-Analyse wird von Entscheidungsträgern verwendet , um den Aufwand zu ermitteln, der am wichtigsten ist, um dann zu entscheiden, welcher zuerst ausgewählt werden am wichtigsten ist, um dann zu soll, die Entscheidungsfindung Sie wird für Projekte zur Prozessverbesserung verwendet, um sich auf die Ursachen zu konzentrieren , die am meisten zu einem bestimmten Problem beitragen am meisten zu einem bestimmten Problem Dies hilft dabei, die potenziellen Ursachen, Faktoren und wichtigsten Prozessfaktoren des untersuchten Problems zu priorisieren , Faktoren und wichtigsten Prozessfaktoren des untersuchten Problems zu Es handelt sich um ein Toolkit zur kontinuierlichen Verbesserung. Pareto-Analyse wird bei der Priorisierung von Projekten verwendet , um sich auf wichtige Projekte zu konzentrieren , die dem Kunden und dem Unternehmen einen Mehrwert bieten Anstatt alle Projekte zu erledigen , die auf meiner Projektliste stehen, würde ich mich auf diese wenigen Projekte konzentrieren, zwei oder drei Großprojekte, die mir den größtmöglichen Nutzen bringen können Sie können bei der Festlegung des Projektumfangs vorsichtig sein , ob Sie den Teil Aysis verwenden oder bei der Priorisierung Ihrer Ressourcen, wer die Hauptperson ist, die für Ihr Projekt benötigt wird Wir können die Parto-Analyse auch zur Visualisierung Ihrer Daten verwenden , um schnell zu wissen Ich habe zum Beispiel eine Menge fehlerhafter Daten, wie z. B. zehn Reißen aus dichtem Fang Ich führe die Analyse durch und habe diese Daten. Wenn ich es in absteigender Reihenfolge der Fehler anordne, finde ich, dass das Abreißen der größte Aufwand ist Dann folgt eine Lochblende, dann und so weiter Auf die, die grau sind, werde ich mich nicht besonders konzentrieren, weil sie keinen großen Beitrag leisten. Wenn ich den Riss repariere, werde ich maximale Ergebnisse erzielen Wenn ich die ersten drei repariere, werde ich die Fehler, die in meinem Prozess auftreten, erheblich reduzieren . Wenn Sie beispielsweise Daten über Fehlertypen sammeln, kann die Analyse des Bedieners Aufschluss darüber geben , welche Art von Fehler am häufigsten auftritt. Sie können sich darauf konzentrieren, die Ursache zu lösen , die die meisten Auswirkungen hat. Der Vorteil der Teilanalyse besteht darin, Sie sich auf das konzentrieren können, was wirklich wichtig ist Sie trennt die Hauptursachen des Problems von den kleineren Es ermöglicht die Messung der Auswirkungen von Verbesserungen, indem die Ergebnisse vorher und nachher erfasst werden. Es ermöglicht es, einen Konsens darüber zu erzielen , was zuerst angegangen werden muss. Es hat sich herausgestellt, dass das Pareto-Prinzip bei vielen Gebühren zutrifft: 20% bemühen sich, 80-prozentige Ergebnisse zu erzielen Anstatt Arbeit oder wir können es auch als 20% Ursachen bezeichnen , was mir zu 80% Wirkung Wenn ich also über Ursache-Wirkungs-Analyse nachdenke, dann sind es wieder 20% Ursachen, 80% Aufwand. O Effekt, wenn ich auch die Analyse von Aufwand und Ergebnissen betrachte, sagen wir, weniger Aufwand betreiben, um maximale Ergebnisse zu erzielen. 20% der Kunden des Unternehmens sind für 80% des Umsatzes verantwortlich oder 80% des Verkaufs stammen von 20% der Kunden. Das ist also das Konzept von 20% Aufwand gegenüber Ergebnissen von 80%. Man kann davon ausgehen, dass das Büro Pardo Analysis Act so konzipiert ist, dass 20% der Arbeitnehmer 80% der Arbeit erledigen 20% der für eine Aufgabe aufgewendeten Zeit führen zu 80% der Ergebnisse 20% der Bevölkerung besitzen 80% des Reichtums der Nation. Stimmt das nicht, auch in unserem Land, unserem Staat, unserer Gemeinschaft? Wir stellen fest, dass es nur sehr wenige Menschen gibt, die das maximale Vermögen besitzen Sie können die 20% der Haushaltsgeräte verwenden , 80% der Zeit. Sie dürfen 20% Ihrer Kleidung tragen, 80% der Zeit. Es ist also an der Zeit, dass Sie in Ihrem Privatleben einfach eine Teilanalyse anwenden , um Ihre Garderobe aufzuräumen , wenn Sie an das Konzept des Minimalismus glauben an das Konzept des Minimalismus 20% der Autofahrer verursachen 80% der Unfälle. 80% der Kundenbeschwerden stammen von 20% der Kunden. Nur einige wenige Ursachen machen den größten Teil der Wirkung auf die Fischrute aus. Wenn ich meine Parto-Analyse auf eine Fischrute umrechne, werden Sie feststellen, dass es nur wenige Ursachen gibt , die zur Hauptursache beitragen sich all diese Beispiele angehört haben, hätten Sie verstanden, dass Pareto nicht darauf beschränkt ist , sich nur in Ihrem Büro oder an Ihrem Arbeitsplatz zu bewerben Sie können die Parto-Analyse sogar in Ihrem Privatleben anwenden. Wenn ich es auf Twitter oder eine solche Social-Media-Plattform weitergebe, die meisten der aktiven 20% der Twitter-Nutzer sind die meisten der aktiven 20% der Twitter-Nutzer für 80% der gesamten Tweets verantwortlich Das Parto-Diagramm ist eine spezielle Art von Balkendiagramm, das die Häufigkeit historischer Daten darstellt Sie müssen also verstehen, dass sich diese Daten auf den Stand von gestern, heute Morgen oder auf den Stand des letzten Monats beziehen Es handelt sich also um kategorische Daten. Die X-Achse sagt sehr deutlich, dass es sich kategoriale Daten handelt, und die Y-Achse gibt Auskunft über die Häufigkeit des werden kann Bitte beachten Sie, dass die Parto-Analyse nicht für kontinuierliche Daten verwendet Wenn Sie also sehen, werden Sie über kategoriale Daten verfügen , deren Häufigkeit in absteigender Reihenfolge aufgetragen ist. Die Hauptursachen sind weniger Aufwand, um deren Häufigkeit in absteigender Reihenfolge aufgetragen ist. Die Hauptursachen maximale Ergebnisse zu erzielen den kategorialen Daten handelt es sich um die niedrigste Datenebene , anhand derer Personen, Dinge oder Ereignisse klassifiziert Ich kann es einfacher machen. Alles, was mit Wörtern gemacht wurde , wird als kategoriale Daten bezeichnet Geografische Standorte, Wetter, Farbe, Gerätetyp, Blutgruppe, Blut, Bankkontotyp, wie Sparguthaben oder Girokonto, FD oder Privatkredit , Art des Fehlers oder Defekts, Art der Daten Pareto-Analyse: Die vertikale Achse stellt die Häufigkeit der kategorialen Daten Die X-Achse stellt die Kategorien der Beschriftungen dar. Die horizontale Achse stellt die kategorialen Daten dar, die ein Problem oder die Probleme verursachen Der Balken ist in absteigender Reihenfolge von links nach rechts angeordnet absteigender Reihenfolge von links nach rechts Die am häufigsten vorkommende ist auf der linken Seite, die am seltensten vorkommende ist auf der rechten Seite Sie müssen sich keine Sorgen machen, wenn Sie Microsoft Excel haben, es wird es für Sie zeichnen. Wenn Sie eine ältere Version von Excel verwenden, werde ich im Abschnitt Projekt und Ressourcen unten eine Vorlage veröffentlichen. Wenn Sie zu viele Kategorien haben, können Sie diese kleinen, seltenen Kategorien in der Kategorie Andere gruppieren in der Kategorie Andere Der letzte Balken ist normalerweise etwas höher als die vorherigen. Sie können optional eine kumulative Frequenzkurve über dem Balken platzieren und ihm eine sekundäre Y-Achse geben eine sekundäre Y-Achse , die den kumulativen Prozentsatz darstellt Dies hilft lediglich dabei, die Ergebnisse leichter zu interpretieren und die 80 20-Verbindung zu identifizieren Die Parto-Analyse konzentriert sich auf die Bemühungen in den Kategorien, deren senkrechter Balken 80% der Ergebnisse ausmacht Sie sollten nach etwas suchen , bei dem es sich um Hauptursachen, maximale Wirkung und geringsten Aufwand handelt, um maximale Ergebnisse zu erzielen Wenn Sie sich die beiden Partomuster A und B ansehen, welches Muster A und B ansehen, welches ist das beste Beispiel für das Partomuster Ich würde vorschlagen, dass es das Muster A ist, weil Muster B zeigt , dass die meisten von ihnen fast zu gleichen Teilen beitragen Da es sich um eine gleichmäßige Verteilung handelt, würde ich mich nicht daran halten. Ich würde mich für die Kategorie A entscheiden. Und das ist falsch. Wenn die resultierenden Diagramme ein Parto-Muster deutlich veranschaulichen Dies deutet darauf hin, dass nur wenige Ursachen für etwa 80% des Problems Dies bedeutet, dass es einen Teileffekt gibt, und Sie können sich darauf konzentrieren diese wenigen Ursachen zu bekämpfen, um ein maximales Ergebnis zu erzielen Wenn Sie ein Muster wie ein B-Diagramm erhalten hätten, dann funktioniert die Parto-Analyse nicht, und wir müssen auch eine andere Qualitätskontrolle verwenden Wenn jedoch kein Paradomuster gefunden wird, können wir nicht sagen, dass einige Ursachen wichtiger sind als Wie ich gerade sagte. Stellen Sie sicher, dass Ihr Parado-Diagramm genügend Datenpunkte enthält , um es aussagekräftig zu machen In der heutigen Welt viele Daten verfügbar. Stellen Sie also sicher, dass Sie so viele Daten wie möglich erfassen Die Pareto-Analyse zur Erstellung eines Parto-Diagramms. Sie gemeinsam mit Ihrem Team das Problem, Definieren Sie gemeinsam mit Ihrem Team das Problem, das Sie lösen möchten, und ermitteln Sie die möglichen Ursachen mithilfe von Brainstorming Entscheiden Sie sich für die Messmethode , die für den Vergleich verwendet werden soll, die Häufigkeit, die Kosten und die Zeit usw. Wie erstellt man ein Parto-Diagramm, sammelt die Daten und verlangt, dass die kategorialen Daten analysiert werden ? Berechnet die Häufigkeit der kategorialen Daten. Zeichnen Sie eine horizontale Linie und platzieren Sie den vertikalen Balken, um die Häufigkeit der Kategorie anzugeben Zeichnen Sie links eine vertikale Linie, um die Frequenz links von der Linie zu platzieren links von der Linie falls Sie sie auf Millimeterpapier zeichnen. Microsoft Excel kann Parado-Diagramme automatisch erstellen. Wenn Sie dies jedoch manuell tun, sortieren Sie die Kategorien in der Reihenfolge ihrer Häufigkeit, von der bis zur kleinsten, größten, die auf der linken Seite erscheint Sie sollten Ihre kumulative Häufigkeitskurve und eine kubultive Prozentlinie berechnen und eine kubultive Wenn Sie beobachten, wie die Parade ihre Wirkung entfaltet, sollten Sie Ihre Verbesserungsbemühungen auf die wenigen Kategorien konzentrieren , deren senkrechter Balken meisten ausmacht Diese Ursachen haben wahrscheinlich den größten Einfluss auf Ihre Prozessleistung. Ich habe eine Pareto-Probe entnommen , um zu analysieren, warum ein Patient einen Anruf in einem Krankenhaus gut nutzt, wenn er aufgenommen wird einen Anruf in einem Krankenhaus gut nutzt, wenn er aufgenommen Sie brauchen also einen Toilettenassistenten, brauchen Nahrung oder Wasser, ihr Bett neu positionieren, intravenöse Probleme, Schmerzmittel, einen dringenden Anruf zurück ins Bett, holen sich all die Dinge, die grau sind, sind nicht häufig vorkommende Dinge und sie sind auch nicht vorkommende Dinge und Also, wenn wir uns auf die ersten drei oder die ersten vier konzentrieren. Wenn ich also sagen würde , dass diese vier Faktoren zu 40% des Aufwands beitragen, werden Sie 70% der Wirkung erzielen. Ich könnte mich also dafür entscheiden, nur an den ersten drei zu arbeiten, das sind 30% Aufwand, um immer noch 68% Aufwand zu erzielen. Alles ist in Ordnung. Das Konzept ist , dass ich weniger Anstrengungen unternehmen muss , um maximale Ergebnisse zu erzielen. Kundenbeschwerden in einer Fabrik. Ein Werksteam hat eine Parado-Analyse durchgeführt, um der steigenden Anzahl von Beschwerden aus Kundensicht zu begegnen In gewisser Weise kann das Management das verstehen. Es handelt sich um eine Art von Kundenbeschwerde, Produktbeschwerde, dokumentenbezogene Beschwerde, paketbezogene Beschwerde oder lieferungsbezogene Beschwerde. Wir können sehen, dass sich Kunden am häufigsten über die Art des Produkts oder den Defekt des Produkts beschweren des Produkts oder den Defekt des Produkts Gefolgt von Problemen im Zusammenhang mit dem Dokument. Kundenbeschwerde in einer Fabrik, die Hauptkategorien sind möglicherweise zu allgemein gehalten und können in Unterkategorien unterteilt werden Wenn ich also über Produktreklamationen nachdenke, handelt es sich um ein übergeordnetes Problem, ich könnte sie als Unterkomponente von Problem A betrachten sie als Unterkomponente von Problem A es sich um ein Problem mit Kratzern, ein Nadelloch, ein Paar HMA Sie können auch den Teil der Produktbeschwerde erneut anwenden , d. h., wenn Sie Probleme im Zusammenhang mit Kratzern und Dellen in einer Produktbeschwerde beheben wollen , wird der Großteil der Produktbeschwerden zurückgehen Art der Reklamationen: Wir können feststellen, dass fehlende Informationen der Hauptgrund dafür sind, gefolgt von Rechnungsfehlern, falscher Menge und anderen Das Parto-Diagramm kann weiter analysiert werden indem die Hauptkategorien in Unterkategorien unterteilt werden , oder Unterkomponenten, bei denen das spezifische Problem am häufigsten auftritt, werden Unterkategorien das spezifische Problem am häufigsten auftritt genannt Kundenbeschwerden in einer Fabrik. Die Ergebnisse deuten darauf hin , dass es drei Unterkategorien gibt , die am häufigsten vorkommen Beachten Sie, dass es möglich ist, zwei Diagramme zu einem zusammenzuführen. Ich habe also die Art der Produktbeschwerden und die Art des Dokuments, und ich kann sie zusammenfassen. Pero Principles ist nach dem italienischen Ökonomen Wilfredo Peto benannt italienischen Ökonomen Wilfredo Joseph Juran hat die Prinzipien von Peto auf das Qualitätsmanagement der Unternehmensproduktion angewendet Prinzipien von Peto . Erwägen Sie bei Ihrer Analyse die Verwendung von Kontextdaten, Metadaten und Spalten , die Textdaten Datenbanken enthalten oft viele kategorische Daten über die Umgebung, aus der die aus Diese Daten können bei späteren Analysen bei der Untersuchung der Urheber von Konzepten und Ideen sehr nützlich bei der Untersuchung der Urheber von Konzepten und Ideen Pareto-Prinzipien können Ihnen helfen, die Auswirkungen von Verbesserungen zu messen , indem Sie das Vorher mit dem Nachher vergleichen Wenn Sie sehen, dass die blaue Arbeit nach den Projekten eine große Hilfe war, stellen Sie fest, dass es in dieser Kategorie eine erhebliche Verbesserung gibt in dieser Kategorie eine erhebliche Verbesserung Das neue Teildiagramm kann zeigen, dass der Primärcode erheblich reduziert wurde Statistisch gesehen lassen sich die Parado-Prinzipien anhand der Verteilung der Strommenge und vieler natürlicher Phänomene beschreiben, die diese Verteilung hervorrufen . Damit bin ich am Ende des Konzepts der Parto-Analyse angelangt Im nächsten Video zeige ich Ihnen, wie ich die Pareto-Analyse mit Microsoft Cel durchführe ich die Pareto-Analyse mit Microsoft Cel durchführe Wir sehen uns in der nächsten Klasse. 17. Konzepthypothesentests und statistische Signifikanz (1): Lassen Sie uns die Konzepte im Zusammenhang mit Hypothesentests und statistischer Signifikanz aufschlüsseln . Erstens, Hypothesentests Bei der Durchführung eines Hypothesentests beginnen wir mit einer Forschungshypothese, auch Alternativhypothese genannt. In Ihrem Fall die Forschungshypothese , dass das Medikament den Blutdruck beeinflusst. Wir können diese Hypothese jedoch nicht direkt mit einem klassischen Hypothesentest testen. Stattdessen testen wir die gegenteilige Hypothese , dass das Medikament keinen Einfluss auf den Blutdruck hat. Wir gehen davon aus, dass Menschen, die das Medikament einnehmen, und Menschen, die das Medikament nicht einnehmen, in der Bevölkerung im Durchschnitt Menschen, die das Medikament einnehmen, und Menschen, die das Medikament nicht einnehmen den gleichen Blutdruck haben. Wenn wir in einer Probe eine starke Wirkung des Medikaments beobachten , fragen wir dann, wie wahrscheinlich es ist, eine solche oder eine noch extremere Probe zu ziehen , wenn das Medikament tatsächlich keine Wirkung hat. Die Wahrscheinlichkeit, eine solche Stichprobe zu erhalten, unter der Annahme der Nullhypothese, keine Wirkung besteht, wird als P-Wert bezeichnet. Der P-Wert gibt die Wahrscheinlichkeit an, eine Stichprobe zu erhalten, die genauso stark von unserer beobachteten Stichprobe abweicht oder sogar noch extremer ist, wenn die Nullhypothese wahr wäre Wenn der p-Wert sehr niedrig ist, typischerweise weniger als 0,05, haben wir Belege dafür, dass die Nullhypothese zugunsten der Alternativhypothese zurückgewiesen die Nullhypothese zugunsten der Alternativhypothese zugunsten der Alternativhypothese Ein kleiner p-Wert deutet darauf hin, dass die beobachteten Daten oder Stichproben nicht mit der Nullhypothese übereinstimmen Also drei, statistische Signifikanz. Wenn der p-Wert unter einem vorbestimmten Schwellenwert liegt, oft 0,05. Das Ergebnis wird als statistisch signifikant angesehen. Dies bedeutet, dass es unwahrscheinlich ist, dass das beobachtete Ergebnis allein durch Zufall zustande gekommen ist, und wir haben genügend Beweise, um die Nullhypothese abzulehnen Der Schwellenwert für den p-Wert ist auf 5% oder 0,05 festgelegt. Ein kleiner p-Wert deutet darauf hin, dass die beobachteten Daten oder Stichproben nicht mit der Nullhypothese übereinstimmen Umgekehrt deutet ein großer p-Wert darauf hin, dass die beobachteten Daten mit der Nullhypothese übereinstimmen, und wir lehnen sie nicht ab Viertens: Fehler beim Testen von Hypothesen. Denken Sie daran, dass ein kleiner p-Wert nicht beweist, dass die alternative Hypothese wahr ist. deutet nur darauf hin, dass das beobachtete Ergebnis unter der Nullhypothese unwahrscheinlich ist . Ebenso beweist ein großer P-Wert nicht, dass die Nullhypothese wahr ist. Er deutet lediglich darauf hin, dass das beobachtete Ergebnis unter der Nullhypothese wahrscheinlich ist. Lassen Sie uns nun die beiden Arten von Fehlern verstehen. Der Fehler vom ersten Typ und der Fehler vom zweiten Typ. Ein Fehler vom Typ eins tritt auf, wenn wir fälschlicherweise eine echte Nullhypothese ablehnen In Ihrem Beispiel würde dies bedeuten, Schluss zu kommen, dass das Medikament wirkt, obwohl es tatsächlich nicht Ein Fehler liegt vor, wenn Sie die Nullhypothese zurückweisen , obwohl die Nullhypothese in Wirklichkeit wahr ist, Ihre Entscheidung über die Nullhypothese jedoch abgelehnt wird Fehler zweiten Typs tritt auf, wenn wir eine falsche Nullhypothese nicht zurückweisen können. Fehler zweiten Typs liegt vor, wenn Sie die Nullhypothese nicht zurückweisen, obwohl die Nullhypothese in Wirklichkeit falsch ist, Ihre Entscheidung über die Nullhypothese jedoch akzeptiert wird. In Ihrem Beispiel würde das bedeuten, die Tatsache zu übersehen, dass das Medikament wirkt. Die entnommene Probe zeigte keinen großen Unterschied. Ich dachte fälschlicherweise, dass das Medikament nicht wirkt. In der nächsten Lektion werden wir uns eingehender mit praktischen Anwendungen der Versuchsplanung befassen. Bleib dran. 18. TestofHypothesis: Hallo Freunde. Lassen Sie uns unsere Reise zur MiniTab-Datenanalyse fortsetzen. Heute werden wir etwas über Hypothesentests lernen. Sie haben vielleicht gehört, dass wir während der Analyse- und Verbesserungsphase unseres Projekts Hypothesentests durchführen . Um zu verstehen, wie der Hypothesentest funktioniert, lassen Sie uns ein einfaches Fallszenario verstehen. Ich werde noch einmal auf diese Grafik zurückkommen und Ihnen erklären, dass es so ist. Wie Sie wissen, kann das Justizsystem verwendet werden, um das Konzept der Hypothesentests zu erklären, wenn wir vor Gericht gehen kann das Justizsystem verwendet werden, um das . Der Richter beginnt immer mit einer Aussage, die besagt, dass die Person bis zum Nachweis ihrer Schuld als unschuldig gilt. Das ist nichts als Ihre Nullhypothese, der Status Quo. Wenn sie erwischt werden, geht der Fall weiter. Die Anwälte versuchten, Daten und Beweise vorzulegen. Und solange wir keine starken Daten und starken Beweise haben, befindet sich die Person im Status der Unschuld. Der Angeklagte oder der Oppositionsanwalt versucht also immer zu sagen, dass diese Person schuldig ist, und ich habe Daten und Beweise, um dies zu beweisen. Er versucht, an einer alternativen Hypothese zu arbeiten. Und der Richter sagt, ich gehe standardmäßig mit dem Status Quo der Nullhypothese. Lassen Sie mich das einfacher erklären. Sie und ich, wir werden nicht vor Gericht gestellt, weil wir uns standardmäßig alle in OSA befinden, das ist der Status Quo. Wer wird vor Gericht gezogen. Menschen, die eine Chance haben, sind gekommen, haben ein Verbrechen begangen. Es könnte alles Mögliche sein. Auf die gleiche Weise. Woran versuchen wir Hypothesentests durchzuführen wenn ich meine Analysephase des Projekts durchführe. Ich habe also mehrere Ursachen , die zu meinem Projekt beitragen könnten. Warum? Wir führen eine Ursachenanalyse durch und lernen das kennen wir, okay? Vielleicht hat sich die Lieferung verzögert. Vielleicht ist die Maschine ein Problem, vielleicht ist das Messsystem ein Problem. Vielleicht ist der Rohstoff nicht von guter Qualität. Wir haben mehrere Gründe , die es gibt. Jetzt möchte ich es anhand von Daten beweisen, und das ist der Ort, an dem ich versucht habe, Hypothesentests durchzuführen. Alle Prozesse sind unterschiedlich. Wir wissen, dass alle Prozesse der Glockenkurve folgen. Wir werden niemals das Zentrum hinzufügen. jedem Prozess gibt es einige Abweichungen. Nun die Daten oder die Stichprobe, die Sie aktualisiert haben, handelt es sich um eine Zufallsstichprobe, die von derselben Banco stammt? Oder ist es ein Sample, das aus einer ganz anderen Glockenkurve stammt ? Hypothesentests helfen Ihnen also bei der Analyse derselben. Wann immer wir einen Hypothesentest aufstellen, haben wir zwei Arten von Hypothesen, wie ich Ihnen bereits sagte, den Status Quo oder die Standardhypothese, die Ihre Nullhypothese ist. Standardmäßig gehen wir davon aus, dass die Nullhypothese wahr ist. Um die Nullhypothese zurückzuweisen, müssen wir Beweise vorlegen. Alternative Hypothese ist der Ort , an dem es einen Unterschied gibt. Und das ist der Grund, warum der Hypothesentest tatsächlich eingeleitet wurde, oder? Wir werden es anhand vieler Beispiele verstehen. Also bleib in Verbindung. Wenn ich also eine Null - und Alternativhypothese aufstelle, sagen wir, ich sage, dass mein mu nichts anderes als mein Durchschnitt ist, mein Bevölkerungsdurchschnitt entspricht einem bestimmten Wert. Denken Sie immer daran, dass sich Ihre alternative Hypothese gegenseitig ausschließt. Wenn mu einem Wert entspricht, würde die alternative Hypothese besagen, dass mu nicht gleich diesem Wert ist. Beispiel ist mu weniger als gleich einem Wert als Null-Hypothese. Wenn ich zum Beispiel Domino's Pizza verkaufe, sehe ich, dass meine durchschnittliche Lieferzeit weniger als 30 Minuten beträgt. Der Kunde kommt und sagt mir, dass die durchschnittliche Lieferzeit mehr als 30 Minuten beträgt, das wird meine Alternative. Manchmal, wenn wir die Nullhypothese haben , ist mu größer als gleich einem Wert. Zum Beispiel ist meine durchschnittliche Qualität größer als 90%. Dann kommt der Kunde zurück und teilt mir mit, dass Ihre durchschnittliche Qualität unter diesem Prozentsatz liegt. Denken Sie also immer an die Nullhypothese und alternative Hypothesen schließen sich gegenseitig aus und ergänzen sich gegenseitig. Wir werden noch viele weitere Beispiele aufgreifen, wenn wir weiter gehen. 19. Null und alternatives Hypothesekonzept: Lassen Sie uns in die Inferenzstatistik eintauchen. Wir beginnen mit einem kurzen Überblick darüber, was es ist. Gefolgt von einer Erläuterung der sechs Schlüsselkomponenten. Was ist also Inferenzstatistik? Sie ermöglicht es uns, anhand von Daten aus einer Stichprobe Rückschlüsse auf eine Population Zur Verdeutlichung: Die Population ist die gesamte Gruppe, an der wir interessiert sind. Wenn wir zum Beispiel die durchschnittliche Körpergröße aller Erwachsenen in den Vereinigten Staaten untersuchen wollen , umfasst unsere Bevölkerung alle Erwachsenen des Landes. Bei der Stichprobe handelt es sich dagegen um eine kleinere Teilmenge aus dieser Population Wenn wir beispielsweise 150 Erwachsene aus den USA auswählen, können wir anhand dieser Stichprobe Rückschlüsse auf die breitere Nun, hier sind die sechs Schritte, die zu diesem Prozess gehören. Hypothese. Wir beginnen mit einer Hypothese. Welche Aussage wollen wir testen? Zum Beispiel möchten wir vielleicht untersuchen, ob ein Medikament den Blutdruck bei Menschen mit Hypotonie positiv beeinflusst Blutdruck bei Menschen mit Hypotonie Oh, in diesem Fall besteht unsere Population aus allen Personen mit hohem Blutdruck in den USA, da es nicht praktikabel ist, Daten von der gesamten Bevölkerung zu sammeln Daten von der Wir verlassen uns auf eine Stichprobe, um anhand unserer Stichprobe Rückschlüsse auf die Population Wir verwenden Hypothesentests. Dies ist eine Methode, die verwendet wird, um eine Aussage über einen Populationsparameter auf der Grundlage von Stichprobendaten zu bewerten . Es sind verschiedene Hypothesentests verfügbar, und das am Ende dieses Videos. Ich werde dir zeigen, wie du den richtigen auswählst. Wie funktioniert das Testen von Hypothesen? Wir beginnen mit einer Forschungshypothese. Auch bekannt als Alternativhypothese , für die wir in unserer Studie nach Beweisen suchen. Wird auch als Alternativhypothese bezeichnet. Dafür versuchen wir Beweise zu finden. In unserem Fall lautet die Hypothese , dass das Medikament den Blutdruck beeinflusst. Wir können dies jedoch nicht direkt mit einem klassischen Hypothesentest testen. Also testen wir die gegenteilige Hypothese, dass das Medikament keinen Einfluss auf den Blutdruck hat. Hier ist der Prozess. Erstens, nimm die Nein-Hypothese an. Wir gehen davon aus, dass das Medikament keine Wirkung hat, was bedeutet, dass Menschen, die das Medikament einnehmen und solche, die nicht den gleichen durchschnittlichen Blutdruck haben. T, sammle und analysiere Probendaten. Wir nehmen eine Zufallsstichprobe. Wenn das Medikament in der Probe eine große Wirkung zeigt, bestimmen wir dann die Wahrscheinlichkeit, eine solche oder eine Probe zu ziehen , die noch stärker abweicht, wenn das Medikament tatsächlich keine Wirkung hat, oder eine, die noch stärker abweicht, wenn das Medikament tatsächlich keine Wirkung hat, T, bewerten den Wahrscheinlichkeits-p-Wert Wenn die Wahrscheinlichkeit, ein solches Ergebnis unter der Nullhypothese zu beobachten , sehr gering ist Wir erwägen die Möglichkeit , dass das Medikament eine Wirkung hat. Wenn wir genügend Beweise haben, können wir die Nullhypothese zurückweisen. Der p-Wert ist die Wahrscheinlichkeit, der die Stärke der Beweise gegen die Nullhypothese gemessen wird. Zusammenfassend besagt die Nullhypothese, es keinen Unterschied in der Grundgesamtheit gibt, und der Hypothesentest berechnet, wie wahrscheinlich es ist die Stichprobenergebnisse beobachtet wenn die Nullhypothese wahr ist Wir wollen Beweise für unsere Forschungshypothese finden. Das Medikament beeinflusst den Blutdruck. Wir können dies jedoch nicht direkt testen, also testen wir die entgegengesetzte Hypothese, die Nullhypothese. Das Medikament hat keine Wirkung auf den Blutdruck. So funktioniert es. Gehen Sie von der Nein-Hypothese aus. Gehen Sie davon aus, dass das Medikament keine Wirkung hat. heißt, Menschen, die das Medikament einnehmen, und Menschen, die nicht den gleichen durchschnittlichen Blutdruck haben, sammeln und analysieren Daten. Nehmen Sie eine Zufallsstichprobe. Wenn das Medikament eine große Wirkung in der Probe zeigt. Wir bestimmen, wie wahrscheinlich es ist, ein solches oder ein extremeres Ergebnis zu erzielen . Wenn das Medikament wirklich keine Wirkung hat, berechnen Sie den p-Wert. Der p-Wert ist die Wahrscheinlichkeit eine Probe beobachtet wird, die so extrem ist wie unsere. Unter der Annahme, dass die Nullhypothese wahr ist. Statistische Signifikanz Wenn der p-Wert unter einem festgelegten Schwellenwert liegt, normalerweise 0,05. Das Ergebnis ist statistisch signifikant, d. h. es ist unwahrscheinlich, dass es allein durch Zufall entstanden ist Wir haben dann genügend Beweise , um die Nullhypothese abzulehnen Ein kleiner p-Wert deutet darauf hin, dass die beobachteten Daten nicht mit der Nullhypothese übereinstimmen führt dazu, dass wir sie zugunsten der Alternativhypothese ablehnen zugunsten der Alternativhypothese Ein großer p-Wert deutet darauf hin, dass die Daten mit der Nullhypothese übereinstimmen. Wir lehnen es nicht ab. Wichtige Punkte. Ein kleiner p-Wert beweist nicht , dass die Alternativhypothese wahr ist. Es zeigt lediglich an , dass ein solches Ergebnis unwahrscheinlich ist , wenn die Nullhypothese wahr ist. Ebenso beweist ein großer p-Wert nicht, dass die Nullhypothese wahr ist. Dies deutet darauf hin, dass die beobachteten Daten wahrscheinlich unter der Nullhypothese liegen. Danke. Wir sehen uns in der nächsten Statistikstunde. 20. Statistiken Verstehen des P-Werts: Was ist der p-Wert und wie wird er interpretiert? Darüber werden wir in diesem Video sprechen. Fangen wir mit einem Beispiel an. Wir möchten untersuchen, ob es einen Größenunterschied zwischen einem durchschnittlichen amerikanischen Mann und durchschnittlichen amerikanischen Basketballspieler gibt. Der durchschnittliche Mann ist 1,77 Meter groß. Wir wollen also wissen, ob der durchschnittliche Basketballspieler auch 1,77 Meter groß ist Daher geben wir die Nullhypothese an. Die durchschnittliche Größe eines amerikanischen Basketballspielers beträgt 1,77 Meter Wir gehen davon aus, dass die der amerikanischen Basketballspieler durchschnittliche Körpergröße der amerikanischen Basketballspieler 1,77 Meter Da wir jedoch nicht die gesamte Bevölkerung befragen können, ziehen wir eine Stichprobe Für Co ergibt diese Stichprobe keinen exakten Mittelwert von 1,77 Metern Das wäre sehr unwahrscheinlich. Oh. Es kann sein , dass die rein zufällig entnommene Probe um 3 Zentimeter mal 8 Zentimeter mal 15 Zentimeter oder um einen anderen Wert abweicht 3 Zentimeter mal 8 Zentimeter mal 15 Zentimeter oder um einen anderen Wert Da wir eine ungerichtete Hypothese testen , wollen wir also nur wissen, ob es einen Unterschied gibt Es ist uns egal, in welche Richtung der Unterschied geht. Jetzt kommen wir zum p-Wert. Wie bereits erwähnt, gehen wir davon aus, dass es in der Bevölkerung einen Mittelwert von 1,77 Metern Wenn wir eine Stichprobe ziehen, wird sie sich um einen bestimmten Wert von der Grundgesamtheit unterscheiden Der p-Wert gibt an, wie wahrscheinlich es ist, eine Stichprobe zu ziehen, die Grundgesamtheit abweicht gleichen oder einen größeren Betrag als den beobachteten Wert von der Schauen wir uns das noch einmal genauer an. Wir haben eine Stichprobe, die sich von der Grundgesamtheit unterscheidet. Wir sind jetzt daran interessiert, wie wahrscheinlich es ist, eine Stichprobe zu ziehen , die genauso stark wie unsere Stichprobe oder mehr von der Grundgesamtheit abweicht unsere Stichprobe oder mehr von der Grundgesamtheit Somit gibt der p-Wert an, wie wahrscheinlich es ist, eine Stichprobe zu ziehen , deren Mittelwert in diesem Bereich liegt Zum Beispiel, wenn die Stichprobe zufällig um 3 Zentimeter von 1,77 Metern abweicht Der p-Wert gibt an, wie wahrscheinlich es ist, eine Stichprobe zu ziehen , die 3 Zentimeter oder mehr von der Grundgesamtheit abweicht 3 Zentimeter oder mehr von Wenn die Stichprobe zufällig um 9 Zentimeter von 1,65 Metern abweicht , sagt uns der p-Wert, wie wahrscheinlich es ist, eine Stichprobe zu ziehen , die 9 Zentimeter oder mehr von der Grundgesamtheit abweicht Nehmen wir ein Beispiel, bei dem wir einen Unterschied von 9 Zentimetern erhalten , und unsere bevorzugte Berechnet wie Mini Tab den p-Wert von 0,03. Das sind 3%. Dies zeigt uns, dass die Wahrscheinlichkeit, eine Stichprobe zu ziehen, die mindestens 9 Zentimeter vom Mittelwert der Grundgesamtheit von 1,77 Metern abweicht, mit einer Wahrscheinlichkeit von nur 3% mindestens 9 Zentimeter vom Mittelwert der Grundgesamtheit von 1,77 Metern abweicht, mit einer Wahrscheinlichkeit von Für normalverteilte Daten. Das bedeutet, dass die Wahrscheinlichkeit , dass der Mittelwert in diesem Bereich liegt einen Richtung bei 1,5% und in der anderen Richtung bei 1,5% Insgesamt 3%. Wenn diese Wahrscheinlichkeit sehr gering ist Man kann sich natürlich fragen, ob die Stichprobe überhaupt aus einer Population mit einem Mittelwert von 1,65 Metern stammt überhaupt aus einer Population mit einem Mittelwert von 1,65 Metern Wenn diese Wahrscheinlichkeit sehr gering ist. Man kann sich natürlich fragen, ob die Stichprobe überhaupt aus einer Population mit einem Mittelwert von 1,77 Metern stammt überhaupt aus einer Population mit einem Mittelwert von 1,77 Metern Es ist nur eine Hypothese , dass der Mittelwert von Basketballspielern 1,77 Meter beträgt Und genau diese Hypothese wollen wir testen. Wenn wir also einen sehr kleinen p-Wert berechnen, gibt uns dies Hinweise darauf , dass der Mittelwert der Population überhaupt nicht 1,77 Meter beträgt Daher würden wir die Nullhypothese ablehnen, die davon ausgeht, dass der Mittelwert 1,77 Meter beträgt Daher würden wir die Nullhypothese ablehnen, die davon ausgeht, dass der Mittelwert 1,77 Meter beträgt Aber an welchem Punkt ist der p-Wert klein genug, um die Nullhypothese abzulehnen Dies wird mit dem sogenannten Signifikanzniveau, auch Alpha-Niveau genannt, bestimmt . Dabei sind zwei wichtige Dinge zu beachten. Erstens wird das Signifikanzniveau immer vor der Studie festgelegt und kann danach nicht mehr geändert werden , um letztendlich die gewünschten Ergebnisse zu erzielen. Zweitens, um ein gewisses Maß an Vergleichbarkeit zu gewährleisten, wird das Signifikanzniveau in der Regel auf 5% oder 1% festgelegt Ein AP-Wert von weniger als 1% wird als hochsignifikant angesehen Weniger als 5% werden signifikant und mehr als 5% als signifikant bezeichnet. Zusammenfassend gibt uns der p-Wert einen Hinweis darauf, ob wir die Nullhypothese ablehnen oder nicht. Zur Erinnerung: Die Nullhypothese geht davon aus, dass es keinen Unterschied gibt. Die Alternativhypothese geht zwar davon aus, dass es einen Unterschied gibt. Im Allgemeinen wird die Nullhypothese verworfen, wenn der p-Wert kleiner als 0,05 ist Es ist immer nur eine Wahrscheinlichkeit, und wir können mit unserer Aussage falsch liegen Wenn die Nullhypothese in der Grundgesamtheit I zutrifft , liegt der Mittelwert bei 1,77 Metern Aber wir ziehen eine Stichprobe, die zufällig ziemlich weit entfernt ist. Es könnte sein, dass der p-Wert kleiner als 0,05 ist. Wir lehnen die Nullhypothese fälschlicherweise ab. Dies wird als Fehler vom ersten Typ bezeichnet. Wenn es sich um eine Grundgesamtheit handelt, ist die Nullhypothese falsch. Das heißt, der Mittelwert liegt nicht bei 1,77 Metern, aber wir ziehen eine Stichprobe , die zufällig sehr nahe bei 1,77 Der p-Wert kann größer als 0,05 sein, und wir dürfen die Nullhypothese nicht zurückweisen Dies wird als Fehler vom zweiten Typ bezeichnet. Danke, dass du mit mir gelernt hast. Wir sehen uns in der nächsten Statistikstunde. 21. Arten von Fehlern: Lassen Sie uns einige weitere Beispiele für Null- und Alternativhypothesen verstehen . Nehmen wir also an, wenn mein Projekt Sie vergießen wird, ist meine Nullhypothese ein fester Wert. Ich würde also sagen, dass mein aktueller Mittelwert meiner aktuellen durchschnittlichen Zeit, um Julies 70% zu teilen , beträgt. Aktuell. Der Durchschnitt von P bis S liegt bei 70%. Die alternative Hypothese würde bedeuten, dass sie nicht bei 70% liegt. Angenommen, ich denke über den Feuchtigkeitsgehalt eines Projekts nach. Ich bin in einer Fertigungsanlage und möchte messen ob der Feuchtigkeitsgehalt 5% betragen sollte. Oder 5% sind für meinen Kunden akzeptabel, dann kann ich sagen, dass mein Feuchtigkeitsgehalt weniger als fünf Prozent beträgt. Dann würde die alternative Hypothese behaupten, dass der Feuchtigkeitsgehalt größer als fünf Prozent ist. Der Fall, in dem der Mittelwert größer als ist, dann die Nullhypothese. Wir haben kein Interesse an diesem Problem. Lass es uns weiter verstehen. Die Frage war, hat ein kürzlich erfolgter TED-Prozess zur Genehmigung von Krediten für kleine Unternehmen die durchschnittliche Zykluszeit für die Bearbeitung des Kredits reduziert ? Die Antwort könnte nein sein. Die Zykluszeit hat sich nicht geändert. Oder der Manager sieht vielleicht, dass die mittlere Zykluszeit unter 7,5% liegt. Der Status Quo entspricht also 7,514 Minuten. Und die Alternative sagt, nein, es sind weniger als 7,414 Minuten oder Tage, was auch immer die Hauptmaßeinheit ist wir messen, oder? Ihr Status Quo ist also standardmäßig eine Go-Null-Hypothese. Und das Beispiel oder der Status, Sie leichter beweisen möchten alternative Hypothese. Jetzt könnte es irgendwelche Pfeile geben, wenn wir Entscheidungen treffen. Kehren wir also zu unserem Codefall zurück. Der Angeklagte ist in Wirklichkeit nicht schuldig, oder? Lass mich meinen Laserstrahl aufnehmen. Standardmäßig ist der Angeklagte oder die Realität, dass der Angeklagte nicht schuldig ist. Urteil kommt auch , dass der Angeklagte, die Person nicht schuldig ist. Es ist eine gute Entscheidung, oder? Also ja, wir haben eine sehr gute Entscheidung getroffen, dass die Person unschuldig ist. In Wirklichkeit ist der Angeklagte schuldig. Und das Urteil lautet auch , dass er schuldig ist. Die Entscheidung ist eine gute Entscheidung. Was passiert, ist, dass die Person in Wirklichkeit nicht garantiert ist, aber das Urteil kommt, dass sie schuldig ist und eine unschuldige Person verurteilt wird. Es ist ein Fehler. Das ist ein sehr großer Fehler. In einer Person aus dem Norden, die zu einer Strafe verurteilt und ins Gefängnis gesteckt wird, mit einer Strafe, ist das ein Fehler. Der Fehler kann sogar auf der anderen Seite passieren, wo die Person in Wirklichkeit schuldig ist, aber das Urteil kommt, dass sie nicht schuldig ist. Person wird für unschuldig erklärt und ist bereit dafür. Dies ist auch ein Pfeil, der aber ein größerer Fehler ist. Der größere Fehler, den Sie in das Kommentarfeld schreiben können , was denken Sie? Welcher Fehler ist der größere Pfeil? Ist der Fehler ein größerer Fehler oder ist der Fehler der größere Pfeil? Wenn keine vernünftige Person, die verurteilt wird, ein größerer Fehler ist oder ist eine schuldige Person, die sich frei auf den Straßen bewegt , entweder größerer Pfeil? Ich hoffe, Sie haben die Kommentare bereits geschrieben. Die Realität ist also, dass dies mein größerer Fehler wird. Und das wird als Typ-Eins-Fehler bezeichnet. Denn wenn ein Unschuldiger verurteilt wird, können wir die Zeit, die er verloren hat, nicht zurückgeben. Wir können nicht verstehen, dass er viele emotionale Traumata erleiden würde. Wenn ein Schuldiger für unschuldig erklärt wird, können wir ihn vor das Oberste Gericht und Obersten Gerichtshof bringen und ihn dazu bringen, zu beweisen, dass er nicht schuldig ist, richtig. Damit ich hier die Entscheidung treffen kann , dass die Person ein Sträfling ist. Er sollte verurteilt werden und er sollte für schuldig erklärt und bestraft werden. Dieser Fehler wird also als Typ-2-Fehler bezeichnet. Wenn Sie jemand gefragt hat, welcher Fehler ein größerer Fehler ist, geben Sie einen Fehler ein, der auch als Alpha-Fehler bezeichnet wird. Und das wird als Betafehler bezeichnet. Richtig? Lass uns in unserer nächsten Klasse weiter machen . 22. Arten von Fehler-part2: Lassen Sie uns die Arten von Pfeilen noch einmal verstehen. Wie wir also wissen, dass, wenn die Person nicht schuldig ist oder die Person unschuldig ist, und das Urteil besagt auch, dass die Person nicht schuldig ist. Es ist eine gute Entscheidung. Wenn die Person schuldig ist, lautet das Urteil, dass sie schuldig ist. Die Entscheidung ist wieder eine gute Entscheidung. Der Verurteilte ist nicht, muss verurteilt werden oder sollte bestraft werden. Das Problem tritt auf, wenn eine unschuldige Person als schuldig bewiesen wird und leidet. Die zweite Art von Problem, das auftritt, wenn eine schuldige Person, eine Person mit einem Verbrecher, als unschuldig erklärt wird. Und er sagte: Dies wird als Typ-Eins-Fehler bezeichnet. Das heißt, eine unschuldige Person, die verurteilt oder bestraft wird, ist ein Typ-eins-Fehler. Er wird auch Alpha-Pfeil genannt. Eine schuldige Person, kriminell befreit, wird als Typ-2-Fehler oder Beta-Fehler bezeichnet, was auch ein Fehler ist , den wir vermeiden wollen. Das Signifikanzniveau wird durch den Alpha-Wert festgelegt. Wie sicher möchten Sie also die richtige Entscheidung treffen? Also tritt ein Fehler ein, wenn die Null wahr ist, aber wir haben abgelehnt. Typ-2-Fehler tritt auf, wenn die Null in Wirklichkeit falsch ist, wir sie aber nicht ablehnen. Wie hilft uns das bei der Verarbeitung? Lassen Sie uns das einfach jeden Tag für das Mittagessen verstehen. Richtig? Lassen Sie uns das genauer verstehen. Dies ist das eigentliche Szenario. Schreiben wir das tatsächliche oben. Und diese Mythen mögen das Urteil. Okay, denken wir jetzt über den Prozess nach. Der Prozess hat sich nicht geändert. Hat sich nicht geändert. Keine Alternative wird sein Prozess hat sich geändert. Jetzt ist das Urteil zur Kenntnis genommen. Und das Urteil ist, dass sich der Prozess verbessert hat. Okay. Jetzt stelle ich dir eine sehr wichtige Frage. Wenn sich ein Prozess nicht geändert hat und das Urteil lautet, dass es keine Änderung gibt, ist dies die richtige Entscheidung. Prozess hat sich geändert und das Urteil lautet auch, dass sich der Prozess verbessert hat. Das ist auch eine richtige Entscheidung. Stellen Sie sich nun vor, der Prozess hat sich nicht geändert, aber wir haben erklärt, dass ich jetzt einen verbesserten Prozess und ein verbessertes Produkt habe, und ich informiere den Kunden: Ist das richtig? Ein Fehler. Und dies wird als Typ-Eins-Fehler bezeichnet, weil sie alt erscheinen, aber unsere Schulden werden als neues Produkt an den Kunden verkauft. Können Sie verstehen , was mit dem Ruf des Unternehmens passieren wird ? Das Team oder Produkt wird als neue Produkte an den Kunden verkauft . Neues Ein-Kernprodukt. Was wird also mit dem Ruf des Unternehmens passieren? Es wird ein Wurf sein und daher sagen wir, dass dies keine gute Entscheidung ist. Jetzt verstehe hier auch der Prozess hat sich geändert. Der Prozess hat sich verbessert, aber das Urteil ist nicht verbessert. Dies ist auch ein Fehler. Ich streite es nicht ab. Dies wird als Typ-2-Fehler bezeichnet oder Audit wird auch als Betafehler bezeichnet. Gleich hier. Was passiert ist, dass wir dem Kunden nicht mitteilen , dass die Verbesserung eingetreten ist, oder? Wir behalten die verbesserten Artikel in Brutprodukten also nicht behalten die verbesserten Artikel im Lager. Das ist auch nicht richtig, aber der größere Fehler ist hier wo wir eigentlich keine Verbesserung vorgenommen haben, aber ich informiere den Kunden , dass Sie schlechte Leute sind. 23. Jingle: Wenn wir Hypothesen testen, gibt es immer zwei Hypothesen. Eine ist die Standardhypothese, die Nullhypothese, und die zweite ist die alternative Hypothese , die Sie beweisen möchten. Und das ist der Grund, warum Sie die Hypothese aufstellen. Wenn Sie also die Hypothese aufstellen, ist der Grund, warum wir das tun , dass wir niemals Zugang zur gesamten Bevölkerung haben. Wenn wir also die Probe sammeln, wollen wir verstehen, die Probe von der Glockenkurve stammt oder der Verteilung, aus der wir verstehen, welche Variation Sie sehen, ? aufgrund der natürlichen Eigenschaft des Datensatzes. Manchmal kann sich die Probe an der Endecke des Klettverschlusses befinden. Und das ist ein Ort, an dem wir die Verwirrung bekommen , dass diese Daten zum ursprünglichen Klettverschluss gehören oder zur zweiten Alternative gehören? Willkommen. Das ist da. Wir werden Übungen machen , die Ihnen ein einfacheres Verständnis dafür vermitteln. Hypothese, Sie erhalten Informationen wie den p-Wert, abgesehen von den Ergebnissen der Teststatistik. Sie erhalten auch den p-Wert. Wir vergleichen immer den p-Wert mit dem Nullwert , den wir gesetzt haben. Angenommen, Sie möchten zu 95% selbstbewusst sein. Dann legen Sie den p-Wert auf 5% fest. Und wenn Sie festlegen, dass das Konfidenzniveau 90% beträgt, liegt Ihr Alpha-Wert bei zehn Prozent oder Ihr p-Wert bei 0,10. Der Grund, warum wir einen p-Wert verwenden, ist, dass, wenn Sie diese Glockenkurve sehen können, die wahrscheinlichste Beobachtung Teil der Mitte der Glocke ist. Sehr unwahrscheinliche Beobachtungen kommen vom Schwanz. Dieser p-Wert, der grüne Grund, hilft Ihnen zu erkennen, ob er zum ursprünglichen Klettverschluss gehört oder zu dem alternativen Großteil davon gehört, das heißt, Sie versuchen es durch die alternative Hypothese zu beweisen. Daher hilft Ihnen der p-Wert , sich daran leicht zu erinnern. Denk an den Jingle. Unten, null. Das heißt, wenn der p-Wert kleiner als der Alpha-Wert ist, werde ich die Nullhypothese zurückweisen. P Flug auf hohem Niveau. Wenn der p-Wert größer als der Alpha-Wert ist, können wir die Nullhypothese nicht zurückweisen. Wir kommen zu dem Schluss, dass wir nicht genügend statistische Beweise dafür haben , dass die alternative Hypothese existiert. Wir werden viel Sport treiben und ich werde diesen Jingle mehrmals singen , damit du dich leicht daran erinnern kannst. Gehen Sie unter Null hinter Nullcline. Einige der Teilnehmer mit, wenn ich den Workshop mache, werden sie sagen, dass None Go was bedeutet? Die andere Sache, an die ich ihnen sage, dass sie sich leicht erinnern sollen, ist f für Flug und F für Feld. Also wenn P hoch Null ist, fliegen wir. Das bedeutet, dass Sie die Nullhypothese nicht zurückweisen können. Es wird eine Nullhypothese geben. Die alternative Hypothese wird verworfen. Denken Sie an eine weitere Sache, die hauptsächlich während des Interviews gefragt wird. Der p-Wert lag bei 1,230,123. Würden Sie die Nullhypothese ablehnen oder würden Sie die Nullhypothese akzeptieren? Oder würden Sie die alternative Hypothese akzeptieren? Oder akzeptieren Sie die Nullhypothese? Als Statistiker? Wir akzeptieren niemals eine Hypothese. Entweder lehnen wir die Nullhypothese oder wir verwerfen die Nullhypothese nicht. Wir sagen es immer aus der Sicht von Null, weil der Standardstatus Quo die Nullhypothese erleichtert. Wenn das P hoch ist, akzeptieren wir die Null - und Alternativhypothese nicht. Akzeptieren wir nicht die Nullhypothese. Wir sagen, wir können die Nullhypothese nicht zurückweisen. Wenn das p niedrig ist, akzeptieren wir keine Alternative, aber wir sagen, ich lehne die Nullhypothese ab und kommen zu dem Schluss, dass es genügend statistische Beweise dafür gibt , dass die Daten vom alternativen Bellcore stammen . Wir werden mit vielen Übungen weitermachen. Und dies gibt Ihnen Sicherheit wie Sie dabei Inferenzstatistiken üben, interpretieren und in Ihrer Analyse verwenden können. 24. Testauswahl: Eine der häufigsten Fragen , die meinen Teilnehmern gestellt werden, wenn ich Projekt teilnehme , ist , welche Hypothese sollte ich mieten? Das ist also eine einfache Analyse , die Ihnen hilft, das zu verstehen. Welche Tests sollte ich verwenden? Genau wie wenn ein Patient zum Arzt geht, verschreibt ihm der Arzt nicht den gesamten Test. Er hat ihm einfach den entsprechenden Test gemacht, basierend auf dem Problem, dass der Patient fischt. Wenn der Patient sieht, dass ich einen Unfall hatte, würde der Arzt sagen, dass ich denke, Sie sollten Ihre Röntgenaufnahme machen lassen. Er würde ihn nicht bitten, seinen COVID-Test oder RT-PCR-Test zu machen . Wenn die Person hustet und an Fieber leidet, wird eine RT-PCR empfohlen. Und zu diesem Zeitpunkt sind wir nicht in der Lage, die Röntgenaufnahme zu befriedigen. Ähnlich sieht es aus, wenn wir einfache Hypothesentests durchführen, wir versuchen, sie zu verstehen oder auf andere Weise einfache Hypothesentests durchführen, wir versuchen, sie zu verstehen oder mit der Bevölkerung zu vergleichen. Wir wollen verstehen, welchen Test wir durchführen sollten? Wenn ich auf Mittelwerte teste, das Ihr Durchschnitt ist, dann vergleichen Sie den Mittelwert einer Stichprobe mit dem erwarteten Wert. Also vergleiche ich die Stichprobe mit meiner Population. Dann mache ich meinen T-Test mit einer Stichprobe. Ich habe nur eine Probe , die ich vergleiche. Ich möchte vergleichen, ob die durchschnittliche Leistung des, wenn der durchschnittliche Umsatz gleich x ist, was der erwartete Wert ist. Wir hatten also erwartet, dass der Umsatz beispielsweise 5 Millionen betragen würde. Mein Durchschnitt liegt bei 4,8. Ich habe das nicht getroffen. Dann kann ich einen T-Test mit einer Stichprobe machen. Vergleichen Sie den Mittelwert von Proben mit zwei verschiedenen Proportionen. Wenn ich also zwei unabhängige Ts habe, nehmen wir an, ich führe online eine Schulung durch. Ich führe eine Schulung offline durch. Es ist die Shrina und ich habe eine Reihe von Studenten, die an meinem Online-Programm teilnehmen. Ich habe eine andere Gruppe von Studenten , die an meinem Programm teilnehmen. Ich möchte die Effektivität von Schulungen vergleichen. Ich habe also zwei Stichproben, und das sind zwei unabhängige Stichproben , weil die Teilnehmer unterschiedlich sind. Dann mache ich einen T-Test mit zwei Stichproben. Wenn ich die beiden Stichproben vergleichen möchte kommen die Leute zu meinem Training. Ich mache vor meinem Trainingsprogramm eine Bewertung über ihr Verständnis von Lean Six Sigma. Und ich kann das Schulungsprogramm absolvieren und die gleichen Teilnehmer nehmen nach dem Schulungsprogramm am Test teil . Also die Teilnehmer oder die Szene. Aber die Veränderung , die stattgefunden hat, ist das Training, das sich auf sie ausgewirkt hat. Ich habe die Testergebnisse vor dem Training und ich habe die Testergebnisse nach dem Training, ich möchte vergleichen, ob das Training effektiv ist. Dann mache ich einen gepaarten T-Test mit zwei Stichproben. weiter voran. Angenommen, ich teste auf Frequenz, habe ich diskrete Daten und möchte die Frequenz testen , da ich in diskreten Daten keine Durchschnittswerte habe. Ich nehme Frequenzen. Wenn ich also die Anzahl Variablen in einer Stichprobe mit der erwarteten Verteilung vergleiche, genau wie ich einen Beispiel-T-Test hatte. Das Äquivalent dazu für diskrete Daten wäre meine Chi-Quadrat-Güte der Anpassung. I, standardmäßig wird erwartet, dass es sich um einen normalen Wert oder einen bestimmten Wert oder einen unerwarteten Wert handelt. Und das vergleiche ich. Wie weit sind meine Daten? Ich setze auf eine chi-quadratische Passform. Dieser Test ist auf MiniTab in Excel verfügbar. Es ist nicht verfügbar. Also werde ich eine Vorlage erstellen und sie dir geben, die es dir leicht macht , den Chi-Quadrat-Test durchzuführen. Alle drei verschiedenen Arten von Chi-Quadrat-Tests unter Verwendung der Excel-Vorlage. Wenn ich einige der Variablen zwischen zwei Stichproben zählen muss. Es wird also ein homogener Chi-Quadrat-T-Test sein. Ich überprüfe eine einfache einzelne Stichprobe , um festzustellen, ob die diskreten Variablen unabhängig sind. Ich mache einen Chi-Squared Unabhängigkeitstest. Wenn ich einen Teil der Daten habe, wie gute oder schlechte Bewerbungen, habe ich akzeptiert oder abgelehnt. Und ich sage, okay, 50% der Bewerbungen werden angenommen oder fünfundzwanzig Prozent der Menschen werden gestellt. Ich habe einen Anteil , den ich testen möchte. Wenn ich nur eine Probe habe, mache ich einen Proportionstest. Wenn ich den Anteil der Handelsabsolventen mit dem Absolventen der Naturwissenschaften oder den Anteil der Finanz-, MBA- und Personen mit Marketing-MBA-Mitarbeitern vergleichen Handelsabsolventen mit dem Absolventen der Naturwissenschaften oder den Anteil der Finanz-, möchte, habe ich zwei verschiedene Stichproben, damit ich mach einen Test mit zwei Proportionen. Um es zusammenzufassen Wenn ich teste, teste ich auf Durchschnittswerte? Teste ich auf Frequenzen wie diskrete Daten oder teste ich auf Proportionen? Abhängig davon nehmen Sie den entsprechenden Test auf und arbeiten daran. Wir werden das alles mit Men Dab und Exit üben . Der Datensatz ist im Abschnitt Beschreibung verfügbar. Im Projektbereich lade ich Sie alle ein, es zu üben und Ihre Projekte, Ihre Analyse, in den Projektbereich zu stellen . Wenn Sie irgendwelche Zweifel haben, können Sie dies in den Diskussionsbereich schreiben und ich beantworte gerne Ihre Zweifel. Viel Spaß beim Lernen. 25. Konzepte von T Test im Detail: Was bringt dir dieses Video bei? Über den T-Test? Dieses Video behandelt alles, was Sie über den T-Test wissen müssen . Am Ende dieses Videos erfahren Sie, was ein AT-Test ist, wann er verwendet werden sollte, verschiedenen Arten von T-Tests, Hypothesen und Annahmen involviert sind, wie der AT-Test berechnet wird und wie die Ergebnisse zu interpretieren Was ist ein T-Test? Fangen wir mit den Grundlagen an. Ein T-Test ist ein statistisches Testverfahren. wird analysiert, ob zwischen den Mittelwerten zweier Gruppen ein signifikanter Unterschied besteht. Zum Beispiel könnten wir den Blutdruck von Patienten, die Medikament A erhalten , mit dem Blutdruck vergleichen . Medikament B, Arten von T-Tests. Es gibt drei Haupttypen von T-Tests: den t-Test mit einer Stichprobe, den t-Test mit unabhängigen Proben oder den t-Test mit zwei Stichproben und den t-Test mit gepaarten Stichproben. Was ist ein T-Test für eine Stichprobe? Wir verwenden einen t-Test mit einer Stichprobe, wenn wir den Mittelwert einer Stichprobe mit einem bekannten Referenzmittelwert vergleichen möchten . Ein Hersteller von Schokoriegeln gibt beispielsweise an, dass seine Riegel durchschnittlich 50 Gramm wiegen . Wir nehmen eine Probe. Finden Sie das Durchschnittsgewicht heraus. davon aus, dass das Probengewicht 48 Gramm beträgt, und führen Sie einen t-Test mit einer Probe durch, um festzustellen, ob es signifikant von den angegebenen 50 Gramm abweicht. Was ist ein T-Test für unabhängige Proben? Der t-Test für unabhängige Stichproben vergleicht die Mittelwerte zweier unabhängiger Gruppen oder Stichproben. Wir könnten zum Beispiel die Wirksamkeit von zwei Schmerzfarben vergleichen , indem 60 Personen nach dem Zufallsprinzip zwei Gruppen zuordnen Bei der Einnahme von Medikament A und dem anderen Medikament B. Und dann anhand eines unabhängigen T-Tests, um signifikante Unterschiede in der Schmerzlinderung zu bewerten Was ist ein T-Test für gepaarte Proben? Der t-Test für gepaarte Stichproben vergleicht die Mittelwerte zweier abhängiger Gruppen. Um beispielsweise die Wirksamkeit einer Diät zu beurteilen, könnten wir zuvor 30 Personen wiegen. Nach der Diät stellen wir anhand von Stichprobenpaaren fest, ob zuvor ein signifikanter Gewichtsunterschied bestand. Nach der Diät. Das Verständnis des Unterschieds zwischen abhängigen und unabhängigen Proben ist entscheidend für die Auswahl des richtigen T-Tests für Ihre Analyse. Abhängige Stichproben oder Stichprobenpaare beziehen sich auf Fälle, in denen jede Beobachtung in einer Stichprobe mit einer bestimmten Beobachtung gepaart ist. Bei der anderen Stichprobe ergibt sich diese Paarung aus der Art der Datenerhebung, z. B. vor und nach den Messungen An denselben Personen, übereinstimmende Paare in einem Experiment Der t-Test der gepaarten Stichproben wird verwendet, um zu beurteilen, ob. Die mittlere Differenz zwischen diesen gepaarten Beobachtungen ist statistisch signifikant Andererseits handelt es sich bei unabhängigen Stichproben um Beobachtungen, aus zwei getrennten Gruppen oder Populationen stammen, die nicht miteinander verwandt oder in keiner systematischen Weise gepaart sind miteinander verwandt oder in keiner systematischen Weise gepaart Jede Beobachtung in einer Stichprobe ist völlig unabhängig von jeder anderen Beobachtung. In der anderen Stichprobe, den unabhängigen Stichproben, T-Test bewertet, ob sich die Mittelwerte dieser beiden unabhängigen Gruppen signifikant voneinander unterscheiden Die Wahl zwischen diesen Arten von T-Tests hängt davon ab, wie die Daten gesammelt wurden und in welchem Verhältnis die zu vergleichenden Stichproben Durch die Verwendung des richtigen T-Tests wird sichergestellt, dass Ihre statistische Analyse die Art Ihrer Forschungsfrage und die Struktur Ihrer Daten genau widerspiegelt die Art Ihrer Forschungsfrage . Hier ist ein interessanter Hinweis. Der t-Test mit gepaarten Stichproben ist dem t-Test mit einer Stichprobe sehr ähnlich. Wir können uns den t-Test mit gepaarten Stichproben auch so vorstellen den t-Test mit gepaarten Stichproben auch so , dass eine Probe zu zwei verschiedenen Zeitpunkten gemessen wurde . Anschließend berechnen wir die Differenz zwischen den gepaarten Werten und erhalten so einen Wert für eine Stichprobe. Die Differenz ist eins minus fünf plus zwei minus eins minus drei und so weiter und so fort. Nun wollen wir testen, ob der Mittelwert der gerade berechneten Differenz von einem Referenzwert abweicht In diesem Fall Null, genau das macht der T-Test mit einer Stichprobe Was sind die Annahmen? Für einen t-Test benötigen wir natürlich zuerst eine geeignete Probe im T-Test mit einer Stichprobe, wir benötigen eine Stichprobe und den Referenzwert im unabhängigen t-Test. Wir benötigen zwei unabhängige Stichproben, und im Fall eines t-Tests mit einem Paar, eine Stichprobe, wobei die Variable, für die wir testen wollen , ob es einen Unterschied zwischen den Mittelwerten gibt , metrisch sein muss. Beispiele für metrische Variablen sind Alter, Körpergewicht und Einkommen. Beispielsweise ist das Bildungsniveau einer Person keine metrische Variable. Darüber hinaus muss die metrische Variable in allen drei Testvarianten normalverteilt sein , um zu lernen, wie Sie testen können, ob Ihre Daten normalverteilt sind. Bei einem unabhängigen T-Test die Varianzen in den beiden Gruppen müssen die Varianzen in den beiden Gruppen ungefähr gleich sein dem L-Even-Test können Sie überprüfen, ob die Varianzen Mit dem L-Even-Test können Sie überprüfen, ob die Varianzen gleich sind Was sind die Hypothesen des T-Tests? Beginnen wir mit dem T-Test mit einer Stichprobe im T-Test mit einer Stichprobe Die Nullhypothese besagt, dass der Mittelwert der Stichprobe dem angegebenen Referenzwert entspricht. Es gibt also keinen Unterschied, und die alternative Hypothese lautet der Mittelwert der Stichprobe nicht dem angegebenen Referenzwert entspricht. Was ist mit den unabhängigen Stichproben, die getestet werden sollen? Beim unabhängigen t-Test lautet die Nullhypothese, lautet die Nullhypothese dass die Mittelwerte in beiden Gruppen identisch sind. Es gibt also keinen Unterschied zwischen den beiden Gruppen, und die alternative Hypothese lautet dass die Mittelwerte in beiden Gruppen nicht gleich sind. Es besteht also ein Unterschied zwischen den beiden Gruppen. Und schließlich werden die Stichprobenpaare in einem T-Paar-Test getestet. Die Nullhypothese ist, dass der Mittelwert der Differenz zwischen den Paaren Null ist, und die Alternativhypothese ist dass der Mittelwert der Differenz zwischen den Paaren nicht Null ist. Jetzt wissen wir, was die Hypothesen sind. Bevor wir uns ansehen, wie der T-Test berechnet wird. Schauen wir uns ein Beispiel an , warum wir tatsächlich einen T-Test benötigen. Nehmen wir an, es gibt einen Unterschied in der Studiendauer für einen Bachelor-Abschluss zwischen Männern. Und Frauen in Deutschland. Unsere Bevölkerung setzt sich also aus allen Bachelor-Absolventen zusammen , die in Deutschland studiert haben. Da wir jedoch nicht alle Bachelor-Absolventen befragen können, ziehen wir eine möglichst repräsentative Stichprobe. Mit dem Test testen wir nun die Nullhypothese, dass es keinen Unterschied in der Grundgesamtheit gibt. Wenn es keinen Unterschied in der Grundgesamtheit gibt, wenn es keinen Unterschied in der Grundgesamtheit gibt, werden wir in der Stichprobe sicherlich immer noch einen Unterschied in der Studiendauer feststellen . Es wäre sehr unwahrscheinlich, dass wir eine Stichprobe ziehen würden, bei der der Unterschied genau Null wäre. Einfach ausgedrückt wollen wir jetzt wissen, bei welcher Differenz in einer Stichprobe gemessen wurde. Wir können sagen, dass die Studiendauer von Männern und Frauen signifikant unterschiedlich ist. Und genau das beantwortet der T-Test. Aber wie berechnen wir einen T-Test? Um das zu tun? Wir berechnen zuerst den t-Wert, um den t-Wert zu berechnen. Wir benötigen zwei Werte. Zuerst benötigen wir die Differenz zwischen den Mittelwerten und dann die Standardabweichung vom Mittelwert. Dies wird auch als Standardfehler bezeichnet. Beim t-Test mit einer Stichprobe berechnen wir die Differenz zwischen dem Stichprobenmittelwert und dem bekannten Referenzmittelwert. S ist die Standardabweichung der gesammelten Daten und n ist die Anzahl der Fälle. S geteilt durch die Quadratwurzel von n ist dann die Standardabweichung vom Mittelwert. Was ist der Standardfehler? Beim t-Test der abhängigen Stichproben berechnen wir einfach die Differenz zwischen den Mittelwerten der beiden Stichproben. Um den Standardfehler zu berechnen, benötigen wir die Standardabweichung und die Anzahl der Fälle aus der ersten und zweiten Stichprobe, je nachdem, ob wir für unsere Daten von gleicher oder ungleicher Varianz ausgehen können für unsere Daten von gleicher oder ungleicher Varianz Für den Standardfehler gibt es unterschiedliche Formeln . Bei einem t-Test mit einer gepaarten Stichprobe müssen wir nur die Differenz zwischen den gepaarten Werten berechnen und daraus den Mittelwert berechnen. Der Standardfehler ist dann derselbe wie bei einem t-Test mit einer Stichprobe. Was haben wir bisher über den T-Wert gelernt? Egal welcher T-Test, wir rechnen. Der t-Wert ist größer, wenn wir eine größere Differenz zwischen den Mittelwerten haben, und der t-Wert ist kleiner wenn die Differenz zwischen den Mittelwerten kleiner ist. Außerdem wird der t-Wert kleiner, wenn wir eine größere Streuung des Mittelwerts haben. Je stärker die Daten gestreut sind, desto weniger aussagekräftig sind die Mittelwertunterschiede. Jetzt wollen wir den t-Test verwenden um zu sehen, ob wir die Nullhypothese zurückweisen können oder nicht. Dazu können wir den t-Wert nun auf zwei Arten verwenden. Entweder lesen wir den kritischen t-Wert aus einer Tabelle ab, oder wir berechnen einfach den p-Wert aus dem t-Wert. Wir werden beide gleich durchgehen. Aber was ist der p-Wert? Ein t-Test testet immer die Nullhypothese, dass es keinen Unterschied gibt. Zunächst gehen wir davon aus, dass es keinen Unterschied in der Population gibt. Wenn wir eine Stichprobe ziehen, weicht diese Stichprobe um einen bestimmten Betrag von der Nullhypothese Der p-Wert gibt an, wie wahrscheinlich es ist, dass wir eine Stichprobe ziehen würden, von der Grundgesamtheit abweicht gleichen Betrag oder mehr von der Grundgesamtheit abweicht als eine Stichprobe, die wir Je mehr also die Stichprobe von der Nullhypothese abweicht, desto kleiner wird der p-Wert. Wenn diese Wahrscheinlichkeit sehr, sehr gering ist, können wir natürlich fragen, ob die Nullhypothese für die Grundgesamtheit gilt Vielleicht gibt es einen Unterschied, aber an welchem Punkt können wir die Nullhypothese ablehnen Diese Grenze wird als Signifikanzniveau bezeichnet liegt normalerweise bei 5%. Wenn es nur eine Wahrscheinlichkeit von 5% gibt , dass wir eine solche Stichprobe ziehen. Oder eine, die anders ist. Dann haben wir genügend Beweise, um anzunehmen, dass wir die Nullhypothese ablehnen. Einfach ausgedrückt gehen wir davon aus, dass es einen Unterschied gibt, dass die Alternativhypothese wahr ist. wir nun wissen, was der p-Wert ist, können wir uns endlich ansehen, wie der t-Wert verwendet wird, um festzustellen, ob die Nullhypothese abgelehnt wird oder nicht. Beginnen wir mit dem Pfad durch den kritischen t-Wert , den Sie aus einer Tabelle ablesen können. Um das zu tun. Wir benötigen zunächst eine Tabelle mit kritischen T-Werten, die wir auf der Registerkarte Daten unter Tutorials und T-Verteilung finden . Fangen wir mit den beiden Heckgehäusen an. Wir werden uns am Ende dieses Videos kurz das Gehäuse mit einem Schwanz ansehen. Hier unten sehen wir die Tabelle. Zunächst müssen wir entscheiden, welches Signifikanzniveau wir verwenden wollen. Wählen wir ein Signifikanzniveau von 0,05 von 5%. Dann schauen wir in dieser Spalte auf 120,05, was 0,95 entspricht. Jetzt benötigen wir die Freiheitsgrade für den einer Stichprobe und den t-Test für die gepaarten Stichproben Die Freiheitsgrade sind einfach die Anzahl der Fälle minus eins. Wenn wir eine Stichprobe von zehn Personen haben, gibt es neun Freiheitsgrade. Beim t-Test der unabhängigen Stichproben addieren wir die Anzahl der Personen aus beiden Stichproben und berechnen diese Zahl minus zwei, weil wir zwei Stichproben haben. Beachten Sie, dass die Freiheitsgrade auf unterschiedliche Weise bestimmt werden können , je nachdem, ob wir gleicher oder gleicher Varianz ausgehen Wenn wir also ein Signifikanzniveau von 5% und neun Freiheitsgrade haben , erhalten wir einen kritischen t-Wert von 2,262 Nun haben wir zum einen einen T-Wert mit dem t-Test berechnet und wir haben den kritischen t-Wert Wenn unser berechneter T-Wert größer als der kritische t-Wert ist. Wir lehnen die Nullhypothese ab. Nehmen wir zum Beispiel an, wir berechnen einen t-Wert von 2,5. Dieser Wert ist größer als 2,262, und daher sind die beiden Mittelwerte so unterschiedlich, dass wir die Nullhypothese zurückweisen können Andererseits können wir auch den p-Wert für den T-Wert berechnen, den wir berechnet haben Wenn wir 2,5 für den t-Wert und neun für die Freiheitsgrade eingeben , erhalten wir einen p-Wert von 0,034 Der p-Wert ist kleiner als 0,05, und wir lehnen daher die Nullhypothese als Kontrolle Wenn wir hier den t-Wert von 2,262 kopieren, erhalten wir genau einen p-Wert von 0,05, was genau der Grenzwert ist Wenn Sie den AT-Test mit der Registerkarte Daten berechnen möchten, müssen Sie nur Ihre eigenen Daten in diese Tabelle kopieren Klicken Sie auf Hypothesentest und wählen Sie dann die gewünschten Variablen aus. Wenn Sie beispielsweise testen möchten, ob sich das Geschlecht auf das Einkommen auswirkt, klicken Sie einfach auf die beiden Variablen und Sie erhalten automatisch den AT-Test, der für unabhängige Stichproben berechnet wird. Hier unten. Sie können den p-Wert ablesen. Wenn Sie sich bei der Interpretation der Ergebnisse immer noch nicht sicher sind, können Sie einfach auf Interpretation nach innen klicken Ein T-Test für unabhängige Stichproben, gleiche Varianzen angenommen wurden, ergab , dass der Unterschied zwischen Frauen und Männern in Bezug auf die abhängige Variable Gehalt statistisch nicht signifikant war Somit wird die Nullhypothese beibehalten. Die letzte Frage ist nun, was ist der Unterschied zwischen gerichteter Hypothese und ungerichteter Hypothese Im ungerichteten Fall lautet die alternative Hypothese, dass es einen Unterschied gibt Zum Beispiel gibt es in Deutschland einen Unterschied zwischen dem Gehalt von Männern und Frauen Es ist uns egal, wer mehr verdient. Wir wollen nur wissen, ob es einen Unterschied gibt oder nicht. In einer gezielten Hypothese. Wir sind auch an der Richtung des Unterschieds interessiert . Die alternative Hypothese könnte beispielsweise lauten, dass Männer mehr verdienen als Frauen oder Frauen mehr verdienen als Männer. Wenn wir uns die T-Verteilung grafisch ansehen, können wir sehen, dass wir im zweiseitigen Fall einen Bereich auf der linken Seite und einen Bereich auf der rechten Seite haben Wir wollen die Nullhypothese zurückweisen, wenn wir entweder hier oder dort ein Signifikanzniveau von 5% haben Beide Bereiche haben eine Wahrscheinlichkeit von 2,5%. Zusammen sind es nur 5%. Wenn wir einen One-Tail-T-Test durchführen, wird die Nullhypothese nur dann verworfen, wenn wir uns in diesem Bereich befinden oder je nachdem welcher Richtung wir testen wollen , in diesem Bereich mit einem Signifikanzniveau von 5% liegen A 5% innerhalb dieses Bereichs Danke, dass du mit mir gelernt hast. Wir sehen uns in der nächsten Statistikstunde. 26. 1 Probe t Test: Lassen Sie uns verstehen, welche Hypothesentests ich verwenden sollte? In Minitab haben Sie einen Assistenten, der Ihnen bei dieser Entscheidung helfen kann. Wenn Sie also zum Assistenzhypothesentest gehen, können Sie anhand der Anzahl der Proben, die Sie haben, identifizieren . Angenommen, Sie haben eine Probe, führen Sie möglicherweise einen t-Test bei einer Stichprobe, eine Standardabweichung der Stichprobe, einen fehlerhaften Prozentsatz der Stichprobe chi-quadrierte Anpassungsgüte durch. Wenn Sie zwei Proben haben, haben Sie zwei Stichproben-T-Tests für verschiedene Proben. Testen Sie, ob die Vorher- und Nachher-Elemente identisch sind. Standardabweichung der Stichprobe zum Prozentsatz der Stichprobe des defekten Chi-Quadrat-Tests der Assoziation. Wenn Sie mehr als zwei Proben haben, haben wir einen einfachen ANOVA-Standardabweichungstest, Chi-Quadrat-Prozentsatz ist defekt und Chi-Quadrat-Test der Assoziation. Wir werden das alles mit vielen Beispielen üben. Kommen wir also zum ersten Beispiel. Wir haben ADHS von Anrufen innerhalb von Minuten. Wir haben eine Stichprobe von 33 Datenpunkten entnommen. Der Durchschnitt ist sieben, der Mindestwert beträgt vier Minuten, Maximalwert beträgt zehn Minuten. Der Grund, warum wir einen Hypothesentest durchführen müssen , ist der Manager der Prozesse , dass sein Team in der Lage ist, die Lösung oder den Anruf in sieben Minuten abzuschließen . Und der Prozessdurchschnitt liegt ebenfalls bei sieben Minuten, das Minimum bei vier Minuten. Der Kunde sieht jedoch , dass die Agenten sie der Warteschleife halten, und das Gespräch dauert mehr als sieben Minuten. Jetzt möchte ich also statistisch überprüfen, ob es korrekt ist oder nicht. Wann immer wir Hypothesentests einrichten, müssen wir den fünfstufigen Sechs-Schritte-Ansatz verfolgen. Schritt Nummer eins, definiere die alternative Hypothese. Definiere die Nullhypothese, die nichts anderes als dein Status Quo ist. Was ist das Signifikanzniveau oder Ihr Alpha-Wert? Wenn nichts angegeben ist, wird der Alpha-Wert als fünf Prozent gesendet. Wir stellen zunächst die alternative Hypothese auf. in unserem Fall Was sagt der Kunde in unserem Fall? Der Kunde sieht, dass die durchschnittliche Bearbeitungszeit mehr als sieben Minuten beträgt. Der Status Quo oder die vereinbarte SLA lautet ADHS weniger als sieben Minuten betragen sollte. Wie ich Ihnen bereits sagte, schließen sich die Null- und die Alternativhypothese gegenseitig aus und ergänzen sich gegenseitig. Identifizieren Sie nun den durchzuführenden Test. Wie viele Proben habe ich? Ich habe nur eine Probe der HD des Kontaktzentrums. Also nehme ich einen T-Test. Okay? Jetzt muss ich die Teststatistiken erstellen und den p-Wert identifizieren. Wenn Sie sich an die vorherige Beispielstunde erinnern, sagten wir, wenn der p-Wert kleiner als der Alpha-Wert ist, lehnen wir die Nullhypothese ab. Wenn der p-Wert größer als fünf Prozent oder der Alpha-Wert ist, können wir die Nullhypothese nicht zurückweisen. Lassen Sie uns dieses Verständnis übernehmen. Wenn Sie sich also erinnern, haben wir unsere Projektdaten. In den Projektdaten haben wir den Test der Hypothese. Hier drüben. Ich habe dir die AHG Kohle in wenigen Minuten gegeben. Also habe ich diese Daten auf MiniTab kopiert. Also lass es uns auf zwei Arten machen. Zum ersten Mal und zeig es dir mit dem Assistenten. Zweitens werde ich es dir anhand von Statistiken zeigen. , das ich erreichen möchte, wenn ich zu den Hypothesentests gehe Was ist das Ziel, das ich erreichen möchte, wenn ich zu den Hypothesentests gehe? Es ist ein t-Test bei einer Stichprobe. Ich habe eine Probe. Geht es um gemein? Geht es um Standardabweichung? Sind es getrennte, defekte oder diskrete Zahlen? Wir sprechen über den Durchschnitt 100 Mal. Also mache ich einen T-Test bei einer Probe. Für Daten in Spalten. Ich habe das ausgewählt. Was ist mein Zielwert? Mein Zielwert ist sieben. Die alternative Hypothese besagt dass das Durchschnittsalter des Anrufs in Minuten größer als sieben ist. Darüber beschwert sich der Kunde. Der Alpha-Wert ist standardmäßig 0,05, ich klicke auf Okay. Sehen wir uns die Ausgabe an. Um die Ausgabe zu sehen, klicken Sie auf Nur anzeigen und ausgeben. wirst du sehen. Wenn Sie den p-Wert sehen, ist der p-Wert 0,278. Erinnern Sie sich, dass unter Nicht-Ziel hohe Nulllinie dieser Wert von 0,278 größer als der Alpha-Wert von 0,05 ist ? Ja, das ist es. Daher kann ich schlussfolgern , dass der Mittelwert von d von Kohle nicht signifikant größer als das Ziel ist. Was auch immer Sie als größer als Ziel ansehen, es ist nur ein Zufall. Es gibt also nicht genügend Belege, um zu dem Schluss zu kommen, dass der Mittelwert über sieben liegt Signifikanzniveau von fünf Prozent aufweist Und es zeigt mir auch, wie das Muster ist. Es gibt keine ungewöhnlichen Datenpunkte , da die Stichprobengröße mindestens 20 beträgt. Normalität ist kein Problem. Der Test ist korrekt. Und es wäre gut zu schlussfolgern, dass die durchschnittliche Bearbeitungszeit nicht wesentlich über sieben Minuten liegt . Ich kann den Antrag des Kunden ablehnen . Die wenigen Aufrufe, die wir als qualitativ hochwertige und hochwertige Ziele ansehen . Das konnte nur durch Zufall geschehen. Derselbe Test. Ich kann es auch tun, indem ich auf Teststatistik, grundlegende Statistiken klicke. Und ich speichere einen Proben-T-Test, eine oder mehrere Proben, jeweils in einer Spalte. Ich werde dein ausgewähltes ADHS umdrehen. Ich möchte Hypothesentests durchführen. Der hypothetische Mittelwert ist sieben. Ich gehe zu Option und sage, was ist die alternative Hypothese, die ich definieren möchte. Ich möchte definieren, dass der tatsächliche Mittelwert größer ist als der hypothetische Mittelwert. Klicke auf Okay. Wenn ich ein Diagramm brauche, kann ich diese Grafiken erstellen. Klicken Sie auf Okay und dann auf Okay. Ich erhalte diese Ausgabe. Also die deskriptiven Statistiken, das ist der Mittelwert, das ist die Standardabweichung und so weiter. Nullhypothese lautet, dass mu gleich sieben ist. Alternative Hypothese ist mu ist größer als sieben. p-Wert ist 0,278. diesen Nullflug abschließen, lehnen wir die Nullhypothese nicht ab und kommen zu dem Schluss, dass die durchschnittliche 100-Zeit bei etwa sieben Minuten liegt . Lass uns weitermachen. Wir haben unseren Output erhalten. Wir haben all dies gesehen und sind zu dem Schluss gekommen, dass die durchschnittliche Bearbeitungszeit nicht wesentlich über sieben Minuten liegt. 27. 2 Probe t Testbeispiel 1: Lassen Sie uns noch ein Beispiel mit zwei Teams machen, zwei Proben. In diesem Beispiel also zwei Teams, deren Leistung gemessen werden muss. Der Manager von DMB behauptete, dass sein Team ein leistungsfähigeres Team sei als DNA. Der Manager eines Teams befürwortet, dass diese Behauptung ungültig ist. Gehen wir zu unserem Datensatz. Wenn Sie also zur Projektdatei gehen, haben Sie etwas, das als Team a und Team B bezeichnet wird Lassen Sie mich diese Daten also einfach kopieren. Okay. Lass mich hergehen und das Radar auf der rechten Seite platzieren. Warum kann ich auch ein neues Blatt nehmen und die Daten einfügen. Richtig? Kommen wir also zu Hypothesentest, einem t-Test mit zwei Stichproben. Lassen Sie mich diesen Wert löschen. Und TB, das Team a unterscheidet sich von der VM. Ich kann auch sagen, basierend auf der Hypothese , dass das Team behauptet wird, dass sein Team besser ist als ein. also kann ich sagen, dass es weniger als TV ist. Und ich klicke auf Okay. Auch in diesem Beispiel erhalte ich eine Ausgabe, die besagt, dass das Team nicht wesentlich weniger als TB ist. Haben Sie die Werte von 27,727,3? Es gibt keinen statistischen Unterschied zwischen den beiden Tipps, oder? Also waren beide Beispiele, die wir bekamen, so. Schauen wir uns noch ein Beispiel an. Ich habe die Zykluszeit von Prozess eins und die Zykluszeit von Prozess B genommen von Prozess eins und die Zykluszeit von Prozess B Kopieren wir also einfach diese Daten. Dies ist ein weiterer Datensatz. Und ich sage: Was ist meine alternative Hypothese? Beide Balken sind unterschiedlich. Was ist die Nullhypothese? Beide Teams sind gleich. Weil diese beiden Teams unterschiedlich sind. Ich werde meinen t-Test mit zwei Stichproben machen. Die Daten jedes Teams sind getrennt. Und ich sehe, dass sich der TB-Alpha-Wert von 5% unterscheidet, und dann klicke ich auf, Okay. Wenn Sie nun die Ausgabe dieses Mal sehen, heißt es, dass sich die Zykluszeit von a erheblich von der Zykluszeit von dB unterscheidet. Hier, diese 26.8, siebenundzwanzig Punkt sechs. Aber wenn ich mir die Verteilung ansehe, die Verteilung, dass sich dieses Rot nicht mit diesem Rot überschneidet. Es gibt also einen Unterschied in der Zykluszeit der beiden Teams. Wenn ich dasselbe mit Statistiken machen muss, grundlegende Statistiken, t-Test mit zwei Stichproben. wie Ihre Zeit, in der Sie zur Zeit der TB-Optionen e waren Gibt es verschiedene Optionen, wie Ihre Zeit, in der Sie zur Zeit der TB-Optionen e waren? Ich kann meine Grafiken haben. Ich möchte kein individuelles Diagramm. Ich werde nur das Boxplot nehmen und sagen, okay, mu1 ist der Mittelwert der Grundgesamtheit der Zykluszeit von Prozessen, Zykluszeit von Prozess B. Wenn Sie sehen, dass es eine Standardabweichung gibt , ist das ein Unterschied. Der p-Wert ist 0, was bedeutet, dass es einen signifikanten Unterschied zwischen den beiden Teams gibt. Sei niedrig, nicht cool. Hier lehnen wir also die Nullhypothese ab und sagen, dass es einen signifikanten Unterschied zwischen E und D gibt . Richtig? Ich habe das Gleiche mit der Verteilung gesehen. Es gibt also eine größere Verteilung oder hier und es gibt eine kleinere Verteilung. Ich kann meine grafische Analyse, die ich auf der rechten Seite gelernt habe , durchführen und dann sehen, wie das Team abschneidet. Das ist also die Zusammenfassung der DNA. Der Mittelwert ist 26, die Standardabweichung ist 1,5. Und wenn ich nach unten scrolle, komme ich zu Team B und es kommt auf diese Weise. Jetzt möchte ich diese Diagramme überlappen, damit ich auf ein Diagramm und ein Histogramm klicken kann. Und ich sage ein bisschen fit und seidig. Und ich werde diese beiden Grafiken auf einem separaten Panel derselben Grafik auswählen , dasselbe Vitamin C max. Klicke auf, okay. Klicke auf Okay. Kannst du sehen, dass die Glockenkurve von beiden unterschiedlich ist? Lassen Sie uns ein überlappendes Graph-Histogramm erstellen. Und in mehrfacher Bodenüberlagerung in diesem Diagramm. Kannst du sehen, dass das Blau und das Rot einen Unterschied gibt? Und daher ist die Kurtosis anders, die Schiefe ist anders, und das ist die Schlussfolgerung in meinem t-Test mit zwei Stichproben, besagt, dass die Verteilung dort signifikant ist Unterschied. Es gibt einen statistisch signifikanten Unterschied zwischen der heiligen Zeit als EN-Kämpfer und dem Absterben. Als zweites werden wir in unserem nächsten Beispiel etwas über den Bett-t-Test erfahren. 28. 2 Probe t Testbeispiel 2: Kommen wir zu unserem Beispiel. Zwei. Es gibt zwei Zentren , deren Leistung gemessen werden muss. Der Manager von Sensory behauptete, sein Team sei ein leistungsfähigeres Team als das Zentrum B. Die Größe des Zentrums be befürwortet, dass die Behauptung ungültig sei. Auch hier werde ich meinen fünfstufigen Prozess verfolgen. Was ist die alternative Hypothese? Ist besser als B. Machen wir es einfacher. Es ist nicht gleich T, ist nicht gleich TB oder center ist nicht gleich Zentrum. Was bedeutet das Nicht-Hypothesenzentrum a ist gleich Zentrum V, Signifikanzniveau, fünf Prozent. Wie viele Proben habe ich? Ich habe zwei Samples, Center Editor und Center B-Daten. Da ich zwei Proben habe, muss ich einen t-Test mit zwei Stichproben machen. Gehen wir zu unserem Excel-Blatt. Ich habe die Daten für Centauri und Center B. Ich werde sie in Minitab kopieren. Ich lege meine Daten hier ab. Machen wir den t-Test bei zwei Stichproben. Also gehe ich zu Stat, Basic Statistics und sage t-Test mit zwei Stichproben. Beide Proben befinden sich in einer Spalte. Jedes Sample hat seine eigene Spalte, also wähle ich dieses Beispiel aus. Eine davon ist eine sensorische Probe. Zentrieren Sie B? Option ist hybrid. Das ist nicht anders. Der Unterschied zwischen a und B ist also 0. Und ich mache es weiter. Ich kann mein individuelles Boxplot haben und OK sagen und Okay sagen, lass uns die Ausgabe sehen. Die sensorischen Daten gehören also Ihnen und die TBI-Daten sind hier. Und wenn Sie den p-Wert sehen, ist der p-Wert hoch. Wieder habe ich ein Beispiel, das besagt, dass es sich um eine hohe Nullfliege handelt, was bedeutet, dass es keinen Unterschied zwischen Mitte und Mitte B gibt zwischen Mitte und Mitte B Wenn Sie den einzelnen Wert sehen, aber Sie sehen dasselbe. Sehen wir uns das Boxplot an. Das Boxplot besagt , dass sich der Mittelwert nicht signifikant unterscheidet, da eine Stichprobe entnommen worden wäre. Das ist der Grund, warum es so ist, und Sie sehen einen Wert von 0, was ein Ausreißer ist. Also sollten wir darüber nachdenken. Das Gleiche. Lassen Sie mich das mit Hypothesentests machen. t-Test bei zwei Stichproben, Mittelwert der Stichprobe Die Probe ist anders. Der Mittelwert von Mittelpunkt unterscheidet sich vom Mittelwert von Zentrum B und C. Okay. Ebenso der mittlere Unterschied, der Mittelwert von Santa Fe unterscheidet sich nicht signifikant vom Mittelwert außermittig. Richtig? Wenn Sie diese Verteilung sehen, können Sie feststellen, dass sich der rote Teil vollständig überschneidet , was darauf hindeutet , dass es keine ausreichenden Beweise gibt, um auf einen Unterschied schließen zu können. Wenn Sie den Mittelwert sehen, gibt es einen Unterschied, 6,86,5. Aber das könnte an einer Chance liegen. Und es gibt auch eine Standardabweichung. Daher zeigen sie es anhand der roten Balken, zeigen, dass es keinen signifikanten Unterschied zwischen sensorischer und zentraler Woche gibt. Wir werden im kommenden Video weiter über andere Beispiele lernen . 29. Paired t Test: Lassen Sie uns ein weiteres Beispiel verstehen. Dies ist ein Beispiel für einen gepaarten t-Test. Wenn man sich diese Fallstudie anschaut, wollten die Psychologen herausfinden, ob ein bestimmtes Laufprogramm auf die Ruheherzfrequenz auswirkt. Die Herzfrequenz von 15 zufällig ausgewählten Personen wurde gemessen. Die Menschen wurden dann in ein laufendes Programm aufgenommen und nach einem Jahr erneut gemessen. Also sagen die Teilnehmer vorher gegen nachher? Ja. Und das ist der Grund, warum es sich nicht um einen t-Test mit zwei Stichproben handelt, sondern um einen gepaarten t-Test, der Vorher- und Nachher-Messung jeder Person oder in Beobachtungsbändern. Wenn ich also zu meinem Datensatz zurückkehre, habe ich etwas, das wie vorher und nachher heißt, es gibt eine andere Phase, ich nehme nicht den Differenzwert. Ich habe die Daten für die 15 Personen genommen und im Mini-Tab gespeichert. Richtig? Jetzt möchte ich das tun, weil es dieselbe Person vor und nach mir ist, wir wollen die verschiedenen Hypothesentests verstehen. Ich mache einen gepaarten T-Test. Die erste Sache war, was ist die alternative Hypothese? Vorher und Nachher ist anders. Wenn Sie sich erinnern, das Programm von vorher und nachher, wollen sie feststellen, ob sie Auswirkungen auf den Lauf haben. Die Messung ist vor, das Messwerkzeug ist oben. Mittelwert von davor unterscheidet sich vom Mittelwert von danach. Das ist also meine alternative Hypothese. Was bedeutet meine Nullhypothese davor, dass es keine Änderung gibt. Die Alternative sieht, dass sich das Vorher von Nachher unterscheidet. Der Alpha-Wert ist 0,05. Lass uns auf Okay klicken. Sehen wir uns die Ausgabe an. Unterscheidet sich der Mittelwert? Was ist ein p-Wert von 0,007? Der Mittelwert von vorher unterscheidet sich signifikant vom Mittelwert von danach. Wenn man sich den Mittelwert anschaut, lag er bei 74,572,3. Aber es gibt einen Unterschied. Wenn Sie also sehen, ist der Unterschied größer als 0. Und wenn ich mir diese Werte von vorher versus nachher ansehe ist der blaue Punkt hinter dem schwarzen Punkt vor. Bei den meisten Teilnehmern war ihre Herzfrequenz nach dem Laufprogramm gesunken. Nur wenige von ihnen waren Ausnahmen, aber das könnte eine Ausnahme sein. Es gibt keine ungewöhnlichen paarweisen Unterschiede , da unsere Stichprobengröße mindestens 20 beträgt. Normalität ist kein Problem. Die Stichprobe reicht aus, um den Unterschied im Mittelwert nachzuweisen. Ich kann also sehen, dass es einen Unterschied zwischen beiden gibt. Wunderbar. Also nochmal, schnelle Überarbeitung. Hallo, Nullziel, da der p-Wert unter dem Signifikanzniveau liegt, schlussfolgern wir, dass zwischen den beiden Messwerten ein signifikanter Unterschied besteht. Wenn ich die Szene machen muss, klicke ich auf Statistik, Basic Statistics. Schlechte Abscheu, jede Probe in einer Regel. Vorher, nach der Option sind sie unterschiedlich. Lassen Sie mich nur das Boxplot und das Histogramm von Ich möchte das Histogramm nicht auswählen. Ich nehme nur den Boxplot. Null-Hypothese. Der Unterschied ist 0. Alternative Hypothese ist, dass die Differenz ungleich Null p-Werte niedrig sind, was zu dem Schluss kommt, dass ich die Nullhypothese zurückweise Und es gibt einen Unterschied bei der Übernahme des Programms. Wenn Sie also den Nullwert sehen, ist der rote Punkt weit vom Mittelwert des Konfidenzintervalls der Box entfernt , um zu schließen, dass es einen Unterschied gibt zwischen dem Durchlaufen des Programms durch dieser Herzspezialist, richtig? Im nächsten Programm werden wir also lernen, weitere Beispiele aufzugreifen. 30. Ein Test mit Sample: Die kurze Zusammenfassung der verschiedenen Arten von Tests, die wir gelernt haben, lautet: Wenn ich mir anschaue , wie unterschiedlich meine Gruppe und zwischen den Bevölkerungsgruppen sind, mache ich einen t-Test mit einer Stichprobe. Wenn ich zwei verschiedene Probengruppen habe, mache ich einen t-Test mit zwei Stichproben. Wenn diese Stichproben unabhängig sind. Wenn ich einen gepaarten T-Test machen werde. Gepaarte t-Test. Wenn die Gruppe dieselbe Gruppe von Personen hat, aber es ist oder ein anderer Zeitpunkt. Wie wir das Beispiel des Herzschlags gesehen haben. Die Menschen wurden also an ihrem Herzschlag gemessen. Den Bericht über ein laufendes Programm und das laufende Programm posten. Wie war der heiße Ruheherzschlag, oder? Das sind also die Dinge, die wir sortiert haben. wir nun mit weiteren Beispielen fort. Also fügen wir den Anwendungsfall Nummer fünf hinzu, die Analyse des Fettanteils. Die Wissenschaftler eines Unternehmens , das Verfahren hergestellt hat, die den Fettanteil in der Wasserquelle des Unternehmens S ermitteln möchten . Das Datum der Veröffentlichung beträgt 15% und die Wissenschaftler messen, dass der Fettanteil 20 Zufallsstichproben beträgt. Die bisherige Messung der Standardabweichung der Grundgesamtheit beträgt 2,6. Dies ist nun die Standardabweichung der Population. Die Standardabweichung der Stichprobe beträgt 2,2. Wenn ich den Populationsparameter kenne, kann ich einen Z-Test für die Stichprobe verwenden , da die Anzahl der Proben, die ich habe, eins ist. Und ich will, ich habe die bekannte Standardabweichung der Bevölkerung. Jetzt werde ich wieder dasselbe anwenden, was die alternative Hypothese definiert hat, oder? Also was werde ich sagen? Was ist die alternative Hypothese? Der Fettanteil ist nicht gleich 603050. Was ist der Fettanteil der Nullhypothese gleich 15%. Signifikanzniveau fünf Prozent. Weil ich weiß, dass es sich um einen Test mit einer Stichprobe und ich die Standardabweichung der Bevölkerung habe Ich verwende einen Beispiel-Z-Test. Lass uns die Analyse machen. Ich habe die Projektdatei geöffnet und habe die Proben-IDs und erstelle hier einen Fettanteil. Lassen Sie mich diese Daten in Minitab kopieren. Aber kopierte den Fettanteil mit den Wissenschaftlern getan haben. Da wir die Standardabweichung der Grundgesamtheit kennen, kann ich den Z-Test bei einer Stichprobe verwenden. Meine Daten sind in einer Spalte enthalten. Es ist die Tatsache, die präsentiert wird. Die bekannte Standardabweichung betrug 2,6. Ich möchte Hypothesentests durchführen. Die Hypothese bedeutet, dass es 15% sind. Meine Nullhypothese ist also der Fettanteil gleich 15 ist. Meine Hypothese ist, dass Fett ein großes A nicht gleich 15 ist. Ich kann ein Diagramm von Boxplot und Histogramm auswählen und sagen: Okay, ich zeige Ihnen die Ausgabe. Die Nullhypothese lautet also, dass der Fettanteil gleich 15 ist. Alternative Hypothese ist, dass der Fettanteil nicht gleich 15 ist. Der Alpha-Wert ist 0,05. Mein p-Wert ist 0,012, da mein p-Wert kleiner als der Alpha-Wert ist, P niedrig, nicht cool. Daher lehne ich die Nullhypothese ab und komme zu dem Schluss, dass der Fettanteil nicht 50 beträgt. Wenn Sie hier sehen, ist der Fettanteil mehr als 50. Ich kann den gleichen Test wiederholen. Dieses Mal. Ich kann weitermachen und nachsehen. Ist mein Fettanteil höher als der hypothetische Mittelwert. Lass es uns machen. Und trotzdem erhalte ich meinen p-Wert selbstbewusster, 0,006 sehr weit von meinem Alpha-Wert entfernt. Zusammenfassend lässt sich sagen, dass der Alpha, der Nullwert hypothetisch ist, der Mittelwert 15 ist. Die Stichprobe besagt jedoch, dass Ihr Fettanteil in der Quelle mit hoher Wahrscheinlichkeit mehr als 50 beträgt. Welchen Rat werden wir dem Unternehmen geben? Wir werden das Unternehmen darauf hinweisen, dass Sie die Bezeichnung nicht verkaufen können , dass der Container 15% beträgt , da unser Faktor mehr als 15% beträgt. Um sicher zu gehen, können Sie das Etikett des Produkts so ändern, dass der Fettanteil 18 beträgt, oder? Weil wir fünf Prozent haben, machen wir 20 durch. Ein Verbraucher wird sich also über ein Produkt freuen , das weniger Fett enthält. Dann um ein Produkt zu erhalten , das mehr Fett enthält , weil wir alle gesundheitsbewusst sind, oder? Also lasst uns in der nächsten Klasse weitermachen. 31. Ein Sample test-1p-Test: Wir werden unsere Hypothesentests fortsetzen. Manchmal haben wir vielleicht einen Teil der Action, oder? Wir haben jedoch keine Durchschnittswerte Standardabweichung oder Varianz zu , Standardabweichung oder Varianz zu messen , was wir tun. Nehmen wir dieses Beispiel sechs, der Marketinganalyst möchte feststellen, ob der Mann, die Werbung für das neue Produkt, zu einer Rücklaufquote geführt hat , die sich vom nationalen Durchschnitt unterscheidet. Normalerweise, wenn Sie eine Anzeige in der Zeitung platzieren, sagen sie, dass die Werbefirma normalerweise sieht, dass wir in der Lage sein werden, 6% Ergebnis oder 10% Ergebnis oder eine bestimmte Zahl zu beeinflussen Ergebnis genau hier. Was ist, es ist die gleiche Art von Szenario. Hier. Sie nahmen eine Zufallsstichprobe von 1000 Haushalten, die Werbung erhalten haben. Und von diesen 10.000 Haushalten tätigten 87 von ihnen Einkäufe, tätigten 87 von ihnen nachdem sie diese Vergrößerung erhalten hatten. Diese Firma, die eine Werbefirma ist, behauptet, dass ich eine bessere Wirkung erzielt habe als die der anderen Werbung. Der Analyst muss den Ein-Prozent-Z-Test durchführen den Ein-Prozent-Z-Test um festzustellen, ob der Anteil der Haushalte, die einen Kauf getätigt haben, vom nationalen Durchschnitt von 6,5 abweicht , da dieser 8,7 beträgt. In diesem Fall. Was ist Ihre alternative Hypothese? Alternative Hypothese ist, dass die Werbung anders ist als die Reaktion auf die Werbung vom nationalen Durchschnitt. Hier sagen wir, dass es keinen Unterschied gibt. Sie sind beide Sünde, Alpha-Wert liegt bei fünf Prozent. Und wir werden einen Proportion-, Z-Test-, Ereignis-Proportionstest aufnehmen . Ich soll dich zur Minute bringen. Gehen wir also zu MiniTab. Ich kann weitermachen und diese Väter, grundlegende Statistiken, ein Anteil. Ich habe keine Daten in meiner Kolumne, aber ich habe sie zusammengefasst, oder? Also lass mich das schließen, abbrechen, lass mich das schließen. Also habe ich einen Probenanteilstest gemacht. Ich habe Daten zusammengefasst. Wie viele Ereignisse haben wir aufgenommen? Wir beobachten 87 Ereignisse, die eintreten werden. Die Stichprobe besteht aus Tausend. Ich muss einen Hypothesentest durchführen und den hypothetischen Anteil von 6,5, 0,06566% ,5, oder? Es ist also 0,065. Dieser Anteil entspricht nicht dem Hypothesenverhältnis. Ich sage: Okay, ich verstehe, okay. Jetzt lautet die Nullhypothese dass der Anteil 6,5 Prozent entspricht. Alternative Hypothese ist, dass die proportionale Wirkung nicht 5,56 Prozent entspricht. p-Wert ist 0,008. Was heißt das? Ja, sei niedrig, nicht cool. Also lehnen wir die Nullhypothese ab und kommen zu dem Schluss, dass der Effekt der Werbung, Er ist nicht 6,6,5 Prozent, aber es ist mehr, denn wenn Sie das Konfidenzintervall von fünfundneunzig Prozent sehen , es heißt 0,7% bis 10%, oder? Sie haben einen Anteil von 88,7%. Und das 95% -Konfidenzintervall des Anteils liegt weit vor 6,5, es beginnt bei 7. Wir können also den Schluss ziehen, dass erhebliche Auswirkungen die Werbung erhebliche Auswirkungen hat, und wir können diese Werbefirma durchgehen . Fahren wir mit unserer nächsten Lektion fort. 32. Zwei Probeanteilstest-2p-Test: Lassen Sie uns diese Übung noch einmal mit Assistant machen. Wir haben also die nummerierten 80 Rindfleischprodukte von Lieferant E, die wir überprüft haben. 725 sind defekt oder nicht defekt. Wie viele sind das wirksam? Also, wenn ich eine Subtraktion mache, wäre es 777802 minus 725 ist 77712 Produkte der Stichprobe des Lieferanten B wurden von 73 ausgewählt. Perfekt. Also wie viel ist defekt? Eins, 39. Versuchen wir also, unseren Test mit zwei Anteilen Minitab-Assistenten durchzuführen, da dieser dann Hypothesentest, Probenstücke, Stuhl, Probenprozentsatz fehlerhafter Lieferant E, 0 bis 7771 bis 139. Die Person ist defekt von Lieferant E ist weniger als der Prozentsatz des Defekts von Lieferant B. Ich werde fortfahren und auf Okay klicken. Und das verstehe ich. Ja, dieser Prozentsatz an Defekten oder Lieferanten ist deutlich geringer als der Prozentsatz an Defekten von Lieferant B. Und wenn ich nach unten scrolle, Ja. Es sagt also den Unterschied aus, dieser Lieferant ist Lesebereitschaft. Aus dem Test können Sie schließen, dass der prozentuale Anteil von Lieferant a bei einem Signifikanzniveau von 5% unter Lieferant B liegt. Wenn Sie diesen Prozentsatz sehen. Sie können auch deutlich sehen, dass wir in der nächsten Woche mit den nächsten Hypothesentests fortfahren werden . Tun 33. Zwei Probeanteil-Test-2p-Test-Beispiel: Lassen Sie uns nun das nächste Beispiel verstehen. Dies ist ein Beispiel, bei dem ein Betriebsleiter ein Produkt untersucht, das aus Rohstoffen von zwei Lieferanten hergestellt wurde, feststellt, ob einer der Rohstoffe größerer Wahrscheinlichkeit einen besseren produziert Qualitätsprodukt. So wurden 802 Produkte vom Lieferanten E 725 beprobt oder perfekt, das ist nicht defekt. 712 Produkte wurden von Lieferant B, 573 oder Buffet beprobt. Das heißt, es ist nicht defekt. Wir wollen also Leistung erbringen, denn wie hoch ist Prozentsatz der nicht fehlerhaften personenbezogenen Daten? Ja, ich habe zwei Proportionen, Supply Array und Lieferant B. Gehen wir zur main. Ich kann zu Stat, Basic Statistics zwei Proportionstest gehen. Ich habe meine zusammenfassenden Daten, die Ereignisse von der ersten Leichtigkeit, 725 oder beide handeln aus 802 heraus. Nehmen wir also 725025723712572371. Die Option, mit der sie sehen, ist, dass es einen Unterschied gibt , und lassen Sie uns das herausfinden. Die BVA, die Nullhypothese, besagt also, dass es keinen Unterschied zwischen dem Anteil gibt. Alternative Hypothese ist, dass es einen Unterschied zwischen den beiden Proportionen gibt. Als ich mir den p-Wert angesehen habe, der p-Wert Z, um niedrig Null zu sein. Es kommt zu dem Schluss, dass ich die Nullhypothese zurückweisen muss. Es gibt einen Unterschied in der Leistung der beiden Lieferanten. Nun, wenn ich darüber nachdenke, weil ich von perfekt oder nicht defekt spreche , ist Probe eins derzeit zu 90% perfekt und Probe zwei zu 80% perfekt. Also zu dem Schluss, dass Lieferant E ein besserer Lieferant ist als Lieferant B. Richtig? Also, vielen Dank. Wir werden in der nächsten Lektion fortfahren. 34. Verwendung von Excel = eine Sample: Oft verstehen wir den Test der Hypothese, aber es gibt eine Herausforderung, die wir haben. Die Herausforderung ist, dass ich kein MiniTab habe. Kann ich Hypothesentests nicht auf einfache Weise durchführen, anstatt eine manuelle Berechnung mit einem statistischen Rechner durchzuführen. Mach dir keine Sorgen, dass das möglich ist. Ich werde Ihnen zeigen, wie ich mit Microsoft Excel Hypothesentests durchführen kann . Gehe zu Datei. Gehe zu Optionen. Wenn Sie zu Optionen gehen, gehen Sie zu Add-ins. Wenn Sie auf Add-ins klicken. Lass mich hier klicken. Sie haben eine Option , die in der Option Verwalten als Excel-Add-In bezeichnet wird. Wählen Sie also Excel-Add-In und klicken Sie auf Los. Klicken Sie auf Analysis ToolPak und stellen Sie sicher, dass dieser Haken aktiviert ist. Sobald Sie das haben, finden Sie es auf Ihrer Registerkarte Daten. Sie haben Datenanalysen zur Verfügung. Lassen Sie mich darauf klicken, damit Sie verstehen, was möglich ist. Bei der Datenanalyse. Ich habe eine OR-Korrelation, Kovarianz, deskriptive Statistik, Histogramm, T-Test, Z-Tests, Zufallszahlengenerierung, Stichprobenregression und all diese Dinge. Daher wird es für Sie sehr einfach , Hypothesentests durchzuführen. Zumindest die Hypothese der kontinuierlichen Daten auch problemlos über Microsoft Excel getestet werden. Ich führe Sie vorerst Schritt für Schritt durch die Übung. Kehren wir zur Präsentation zurück. Nehmen wir das erste Problem. Das heißt, ich habe die beschreibenden Statistiken für die Huntington-Krankheit des Anrufs, den Manager der Prozesse, an denen sein Team arbeitet , um die Lösung des Anrufs in sieben Minuten abzuschließen . Der Kunde sieht jedoch, dass er lange Zeit in der Warteschleife gehalten wird, und verbringt daher mehr als sieben Minuten. Wenn ich mir die beschreibenden Statistiken ansehe , werden mir zehn Minuten angezeigt, Median ist sieben, der Durchschnitt ist 7,1. Jetzt würde ich diese Analyse mit Microsoft exit durchführen wollen . Also lasst uns anfangen. Ich habe diesen Anwendungsfall in den Projektdaten, die ich hochgeladen habe, klicke auf ASD, natürlich bringt es dich an diesen Ort. Jetzt werde ich Ihnen zunächst beibringen, wie Sie beschreibende Statistiken mit Microsoft Excel erstellen. Ich klicke auf Datenanalyse unter der Registerkarte Daten. Ich werde nach beschreibenden Statistiken suchen. Klicke auf, okay. Mein Eingabebereich reicht von hier nach unten. Ich habe ausgewählt. Meine Daten sind nach Spalten gruppiert. Das Etikett befindet sich in der ersten Reihe. Und ich möchte, dass meine Ausgabe in eine neue Arbeitsmappe aufgenommen wird. Ich möchte zusammenfassende Statistiken und ich möchte Vertrauensniveau von mir haben. Ich klicke auf OK. Excel führt einige Berechnungen und bereitet sie darauf vor. Ja. Hier ist mein Output. Ich klicke hier drüben auf Former , um zu sehen, was die Ausgabe ist. Sie können also sehen, dass Sie Mittelwert, Medianmodus, Standardabweichung, Kurtosis, Schiefe, Bereich, Minimum, Maximum, Summe, Anzahl und Konfidenzniveau sind. All diese Dinge lassen sich leicht mit einem Klick auf eine Schaltfläche berechnen. Ich muss nicht so viele Formeln schreiben. Kehren wir nun zu unserem Datensatz zurück. Ich möchte die Hypothesentests machen. Was ist meine Nullhypothese? Wenn die Nullhypothese lautet , dass die ADHS sieben Minuten entspricht. Alternative Hypothese. Das ADHS beträgt keine sieben Minuten. Es gibt einen anderen Alpha-Wert, den ich als 5% einrichte. Und damit werde ich die Tests durchführen, die ich verbinden werde , ein T-Test mit einer Stichprobe. Wenn Sie einen T-Test mit einer Stichprobe mit Microsoft Excel durchführen , müssen Sie einen kleinen Trick befolgen. Der Trick ist, ich füge hier eine Spalte ein. Und das nenne ich als Dummy. Weil Microsoft Excel mit einer Option für einen t-Test mit zwei Stichproben geliefert wird. Ich habe HD des Anrufs in Minuten und Dummy, wo ich auf Nullen, Nullen geschrieben habe. Der durchschnittliche Median, alles für 0 ist jedoch immer 0. Klicken Sie auf Datenanalyse. Ich werde nach unten gehen und zwei Stichproben-T-Tests unter der Annahme gleicher Varianz sagen . Ich wähle das aus. Ich klicke auf, okay. Mein Eingabebereich, einer ist diese Zeile. Mein Eingabebereich reicht durch diesen Dummy. Mein vermuteter mittlerer Unterschied beträgt sieben Minuten. Bezeichnung ist in beiden Alpha-Werten enthalten , die auf fünf Prozent festgelegt sind. Und ich sage, dass meine Ausgabe in einer neuen Arbeitsmappe enthalten sein muss . Ich klicke auf Okay, es macht die Berechnung und bringt mir die Ausgabe. Sie können sehen, dass die Zahlen als Übung vermittelt wurden Ich klicke einfach auf das Karma im Abschnitt Format, damit die Zahlen sichtbar sind. Ich ändere die Ansicht , weil Dummy keine Daten hat. steht mir frei, diese Spalte zu löschen. Lassen Sie uns jetzt verstehen , wonach wir immer suchen? Wir suchen nach diesem Wert, dem p-Wert. Erinnerst du dich an die Formel? Lass mich meine Formeln hier rüber bringen. Ja. Was ist die Schlussfolgerung? Das Fazit ist P hoch. Ich lehne die Nullhypothese nicht ab. Der Abschluss des ADHS des Anrufs beträgt sieben Monate. Ich lehne die alternative Hypothese weil mein p-Wert über 0,05 liegt. folgenden Lektionen werde ich weitere Beispiele aufgreifen. Ich freue mich darauf, dass Sie diese Serie fortsetzen. Wenn Sie Fragen haben, bitte ich Sie, Ihre Fragen in den Diskussionsbereich unten zu stellen, und ich beantworte sie gerne. Danke. 35. Korrelationsanalyse: Willkommen zur nächsten Lektion unserer analysierten Phase im DMAc-Lebenszyklus eines Lean Six Sigma-Projekts Manchmal geraten wir in eine Situation, in wir eine Korrelationsanalyse durchführen möchten Deshalb dachte ich, ich sollte Sie heute eingehend damit befassen, was Korrelation ist . Was ist der Unterschied zwischen Korrelation und Zufall? Wie interpretiere ich Korrelation, wenn ich mir das Streudiagramm ansehe Welches Signifikanzniveau kann ich festlegen , wenn ich meine Hypothesen teste Pearson-Korrelation, Spearman-Korrelation, serielle Punkt-B-Korrelation und wie werden diese Berechnungen online mit einigen der verfügbaren Tools Lassen Sie uns also anfangen. Was genau ist Korrelationsanalyse? Korrelationsanalyse ist eine statistische Technik, die Ihnen Informationen über die Beziehung zwischen den Variablen gibt. Korrelationsanalyse kann berechnet werden , um die Beziehung zwischen Variablen zu untersuchen und zu untersuchen, wie stark die Korrelation durch den Korrelationskoeffizienten bestimmt wird, der durch den Zahlenbuchstaben r dargestellt wird , der von minus eins bis plus eins variiert. Die Korrelationsanalyse kann somit verwendet werden, um Aussagen über die Stärke und Richtung der Korrelation zu treffen. Sie möchten beispielsweise herausfinden, ob ein Zusammenhang zwischen dem Alter, in dem ein Kind seinen ersten Satz spricht , und dem späteren Schulerfolg besteht. Dann können Sie die Korrelationsanalyse verwenden. Wenn wir jetzt mit Korrelation arbeiten, gibt es immer eine Herausforderung. Manchmal werden wir mit Dingen verwechselt, die ein Problem darstellen. Wenn die Korrelationsanalyse beispielsweise zeigt, dass zwei Merkmale miteinander verwandt sind, kann im Wesentlichen geprüft werden, ob eine Variable zur Vorhersage der anderen Variablen verwendet werden kann. erwähnte Korrelation Bestätigt sich beispielsweise die im Beispiel erwähnte Korrelation, kann überprüft werden, ob der Schulerfolg anhand des Alters, in dem das Kind seinen ersten Satz spricht, vorhergesagt werden kann , was bedeutet, dass es eine lineare Regressionsgleichung gibt Ich habe ein separates Video, in dem erklärt wird, was eine lineare Regation ist Aber Vorsicht, Korrelation muss keinen kausalen Zusammenhang haben Das bedeutet , dass jede Korrelation , die entdeckt werden kann, vom Fachexperten genauer untersucht, aber niemals sofort inhaltlich interpretiert werden sollte werden kann, vom Fachexperten genauer untersucht , , auch wenn sie sehr offensichtlich ist Sehen wir uns einige Beispiele für Korrelation und Kausalität Wenn die Korrelation zwischen der Verkaufszahl und dem Preis analysiert wird, wird eine starke Korrelation festgestellt Es wäre logisch anzunehmen, dass die Verkaufszahlen vom Preis und nicht von der weisen Person beeinflusst werden . Der Preis passiert nicht andersherum. Diese Annahme kann jedoch der Grundlage einer Korrelationsanalyse keineswegs bewiesen werden auf der Grundlage einer Korrelationsanalyse keineswegs bewiesen werden. Darüber hinaus kann es vorkommen , dass die Korrelation zwischen den Variablen x und y durch die Variable erzeugt wird. Daher werden wir dies in teilweiser Korrelation ausführlicher behandeln . Je nachdem, welche Variable verwendet werden kann, können Sie jedoch möglicherweise von Anfang an von einem Kausalzusammenhang sprechen Anfang an von einem Kausalzusammenhang Schauen wir uns ein Beispiel an, ob es einen Zusammenhang zwischen dem H und dem Gehalt Es ist klar, dass das Alter das Gehalt beeinflusst, nicht umgekehrt. Das Gehalt hat keinen Einfluss auf das Alter. Nur weil mein Alter steigt oder nur weil ich ein höheres Gehalt habe, oder nur weil ich ein höheres Gehalt habe heißt das nicht, dass ich alt werde. Sonst würde jeder so wenig Gehalt wie möglich verdienen wollen . Das ist einfach Liebe. Interpretiere die Korrelation. Mit Hilfe der Korrelationsanalyse können zwei Aussagen getroffen werden. Eine über die Richtung der Korrelation und eine über die Stärke. Über die lineare Beziehung der beiden Metriken oder der Variablen mit normaler Skalierung Die Richtung gibt an, ob die Korrelation positiv oder negativ ist Ob die Stärke bestimmt, ob die Korrelation zwischen der Variablen stark oder schwach ist Wenn ich also sage eine positive Korrelation besteht zwischen beiden eine positive Korrelation besteht, dann wollen wir damit sagen , dass die größeren Werte der Variablen x mit den größeren Werten der Variablen y einhergehen den größeren Werten der Variablen y einhergehen und nicht umgekehrt Körpergröße und Schuhgröße korrelieren beispielsweise positiv Der Korrelationskoeffizient liegt bei 0-1. Das heißt, es ist ein positiver Wert. negative Korrelation besteht dagegen , wenn ein größerer Wert der Variablen x vom kleineren Wert der Variablen y begleitet wird und umgekehrt. Der Produktpreis und die Verkaufsmenge korrelieren normalerweise negativ. Je teurer ein Produkt ist, desto geringer ist die Verkaufsmenge. In diesem Fall liegt der Korrelationskoeffizient zwischen minus eins und Null, vorausgesetzt, es handelt sich um einen negativen Wert. Es ergibt sich also ein negativer Wert. Wie ermittle ich die Stärke der Korrelation? Hinsichtlich der Stärke des Korrelationskoeffizienten r kann die folgende Tabelle als Richtschnur dienen. Wenn Ihr Wert zwischen 0,0 und 0,1 liegt, können wir eindeutig sagen , dass keine Korrelation besteht. Wenn der Wert zwischen 0,1 und 0,3 liegt, sagen wir, dass eine geringe oder geringfügige Korrelation oder eine Korrelation besteht. Wenn der Wert zwischen 0,32 und 0,5 liegt, mittlere Korrelation, wenn der Wert zwischen 0,5 und 0,7 liegt, sagen wir, dass es eine hohe Korrelation oder eine starke Korrelation gibt , und wenn der Wert zwischen 0,7 und eins liegt, sagen wir, dass es sich um eine sehr hohe Korrelation Am Ende dieses Moduls zeige ich Ihnen, wie Sie das Korrelations-Kation auch direkt in einem Online-Modus berechnen das Korrelations-Kation auch direkt in einem Online-Modus Gehen wir also weiter. Wenn Sie dies online tun, erhalten Sie eines der Tools, mit denen wir die Korrelation analysieren, ein Streudiagramm, da sowohl X Y vom variablen Datentyp oder metrischen Datentyp sind , wie Sie es nennen Genauso wichtig wie grafische Darstellung des Korrelationskoeffizienten ist, können wir ein Streudiagramm verwenden So wie das Alter die X-Achse immer die Eingabevariable und die Y-Achse die Ausgangsvariable, und die Y-Achse die weil y gleich der Funktion von x ist. Und ich sehe, dass mit steigendem Alter auch meine Gehälter steigen Mit dem Streudiagramm können Sie grob abschätzen , ob es eine Korrelation gibt und ob es eine lineare oder eine nichtlineare Korrelation gibt eine nichtlineare Korrelation und ob es irgendwelche Ausreißer gibt Wenn wir eine Korrelation durchführen, möchten wir vielleicht auch unsere Hypothesen testen und die Korrelation auf Signifikanz testen Wenn in der Stichprobe eine Korrelation besteht, muss dennoch geprüft werden, ob genügend Beweise dafür vorliegen, dass die Korrelation auch in der Grundgesamtheit besteht. Daher stellt sich die Frage, wann der Korrelationskopion als statistisch signifikant angesehen wird als statistisch signifikant angesehen Die Signifikanz der vorhandenen Korrelation kann mit dem t-Test getestet werden In der Regel wird getestet, ob sich der Korrelationskoeffizient signifikant von Null unterscheidet Das heißt, es wird eine lineare Abhängigkeit getestet. In diesem Fall lautet die Nullhypothese, dass keine Korrelation zwischen den untersuchten Variablen besteht. Im Gegensatz dazu geht die alternative Hypothese davon aus, dass eine Korrelation besteht. Wie bei allen anderen Hypothesentests wird das Signifikanzniveau zunächst auf 5% festgelegt. Der Alpha-Wert ist auf 5% festgelegt. Das bedeutet, dass ich mich zu 95% auf die Analyse verlassen sollte , die ich durchführe. Wenn der berechnete p-Wert unter 5% liegt, wird die Nullhypothese zurückgewiesen und die alternative Hypothese gilt. Wenn der p-Wert unter 5% liegt, davon ausgegangen, dass eine Beziehung zwischen x und dem besteht . Die t-Testformel, die wir für Hypothesentests verwenden, lautet r in die Unterwurzel von n minus zwei geteilt durch die Unterwurzel von eins minus r im Quadrat. Dabei ist n die Stichprobengröße, r r die ermittelte Korrelation der Stichprobe und der entsprechende p-Wert kann einfach im Korrelationsrechner berechnet werden. Direktionale und ungerichtete Hypothese. Mit der Korrelationsanalyse kann die Hypothese einer direktionalen oder ungerichteten Korrelation getestet werden . Was meinen wir mit der Hypothese einer ungerichteten Korrelation? Sie sind nur daran interessiert zu wissen, ob es eine Beziehung oder eine Korrelation zwischen zwei Variablen gibt. Zum Beispiel, ob ein Zusammenhang zwischen Alter und Gehalt besteht , Sie aber nicht an der Richtung der Beziehungen interessiert sind . Wenn Sie eine Hypothese der direktionalen Korrelation aufstellen, interessiert Sie auch die Richtung der Korrelation. Gibt an, ob zwischen den Variablen eine positive oder eine negative Korrelation besteht. Ihre alternative Hypothese ist dann ein Beispiel. Das Alter wirkt sich positiv auf das Gehalt aus. Worauf Sie achten müssen , ist, dass Sie bei einer Richtungshypothese vom Ende des Beispiels ausgehen. Sie werden also weitermachen, ob es einen positiven Einfluss gibt oder nicht? Normalerweise sagen wir also, es gibt keine Korrelation und es gibt eine Korrelation. Aber hier sagen wir, dass es keine Korrelation gibt, und die alternative Hypothese besagt , dass es einen positiven Einfluss auf den Salat gibt. Gehen wir jetzt zum nächsten Teil. Das ist Pearsons Korrelationsanalyse. Mit der Korrelationsanalyse nach Pearson erhalten Sie eine Aussage über die lineare Korrelation zwischen den metrischen Skalenvariablen Für die Berechnung wird die jeweilige Kovarianz verwendet. Die Kovarianz ergibt einen positiven Wert wenn eine positive Korrelation zwischen den Variablen besteht , und einen negativen Wert, wenn eine negative Korrelation zwischen den Variablen besteht Die Kovarianz wird als COV berechnet, oder Kovarianz von X wird anhand der auf dem Bildschirm angegebenen Formel berechnet Mach dir keine Sorgen. Wir müssen es nicht manuell berechnen. Dann haben wir Systeme und Tools, die diese Analyse für uns durchführen können. Die Kovarianz ist jedoch nicht standardisiert und kann Werte zwischen plus und minus unendlich annehmen Dies macht es schwierig, die Stärke der Beziehung zwischen den Variablen zu vergleichen Stärke der Beziehung zwischen den Variablen zu Aus diesem Grund ist der Korrelationskoeffizient auch eine Produktbewegungskorrelation Und das wird auf andere Weise berechnet. Der Korrelationskoeffizient wird durch Normalisierung der Kovarianz erhalten Für diese Normalisierung wird die Varianz der beiden Variablen wie folgt Der Korrelationskoeffizient nach Pearson kann nun Werte von minus eins bis plus eins annehmen und kann Der Wert minus eins bedeutet, dass ein vollständig positiver linearer Zusammenhang besteht , und je größer der Wert minus eins ist, bedeutet, dass ein vollständig negativer Zusammenhang besteht ein vollständig negativer Je mehr und desto weniger. Mit dem Wert Null gibt es keine lineare Beziehung. Die Variable korreliert nicht mit beiden. Die Korrelation von plus eins wird ungefähr so aussehen, was nur theoretisch möglich ist Korrelation von 0,7 plus sieht ungefähr so aus, sie weist eine positive Seite auf und die meisten Punkte befinden sich näher an der Achse des Regressionslichts Eine Korrelation von plus drei wird verstreut sein, aber sie geht in eine positive Richtung Wenn Sie eine Korrelation durchführen, haben Sie eine Korrelation von -0,7 Sie sind alle gestreut und bewegen sich nach unten Wenn also der Wert von x steigt, nimmt der Wert von y ab, und die meisten Punkte sind auf der Regressionsseite verstreut Wir erhalten den Korrelationswert Null auf mehrere Arten, entweder sind die Punkte vollständig verstreut, oder Sie erhalten perfekte Linien wie diese oder so, was wiederum nicht der Fall wäre, was bedeutet, dass Sie zur Interpretation der Variablen eine andere Analyse durchführen müssen zur Interpretation der Variablen Nun kann endlich die Stärke der Beziehung interpretiert werden, und dies kann durch die folgende Geschichte veranschaulicht werden . Die Stärke der Korrelation. Wenn es 0-0 0,1 ist, liegt keine Korrelation Wenn es 0,1 bis 0,3 ist, besteht eine geringe Korrelation 0,3 bis 0,5 mittlere Korrelation, 0,52 0,7, sehr hohe Korrelation, Entschuldigung, hohe Korrelation, und 0,7 zu eins ist eine sehr hohe Um vorab zu überprüfen, ob ein linearer Zusammenhang besteht, sollten Streudiagramme in Betracht gezogen werden Auf diese Weise kann der jeweilige Zusammenhang zwischen den Variablen auch visuell überprüft werden Die Korrelation nach Pearson ist nur dann sinnvoll und zielführend, wenn Demor-Beziehungen vorliegen Die Korrelation nach Pearson hat bestimmte Vorteile, die Sie im Hinterkopf behalten sollten Bei PSM müssen die Variablen, wann immer Sie diese Methode verwenden, normalverteilt sein, und es muss eine lineare Beziehung zwischen den Die Normalverteilung kann entweder analytisch oder grafisch anhand des QQ-Diagramms getestet werden. Ich werde Ihnen zeigen , Ich werde Ihnen zeigen , Ob die Variablen eine lineare Korrelation aufweisen, lässt sich am besten mit dem Streudiagramm überprüfen Wenn die Bedingungen nicht erfüllt sind, Spearman-Korrelation verwendet werden Ich hoffe, Sie haben es bis hier verstanden, und lassen Sie uns weiter lernen. Lass uns weitermachen. Was tun wir, wenn meine Daten nicht normal sind und ich eine Korrelationsanalyse durchführen möchte In diesem Fall verwenden wir die Rangkorrelation nach Spearman. Die Rangkorrelationsanalyse von Spearman wird verwendet, um die Beziehung zwischen zwei Variablen zu berechnen die Beziehung zwischen zwei Variablen , die ein ordinales Maß haben Wenn Sie variable Daten haben, oder ich kann sagen, kontinuierliche Daten, verwenden wir eine normale Korrelationsanalyse wie die Korrekturanalyse von Pearson Wenn meine Daten jedoch ordinal oder nicht parametrisch sind, kann ich mit der Korrelationsanalyse von Spearman fortfahren Dieses Verfahren wird daher verwendet, wenn die Voraussetzung der Korrelationsanalyse, d. h. die parametrischen Verfahren, nicht erfüllt sind oder wenn keine metrischen Daten oder kontinuierlichen Variablen vorliegen und die Daten und In diesem Zusammenhang bieten wir an, es als Spearman-Korrelation oder Spearmansche Zeile zu bezeichnen Spearman-Korrelation oder Spearmansche Zeile Die Rangkorrelation nach Spearman ist gemeint. Die Frage kann dann so behandelt werden, als Rangkorrelation von Spearman der des Korrelationskoeffizienten von Percy ähnlich von Percy Beispiele. Besteht eine Korrelation zwischen zwei Variablen oder Merkmalen? Besteht beispielsweise ein Zusammenhang zwischen Alter und Religiosität in der französischen Bevölkerung? Die Berechnung der Rangkorrelation basiert auf dem Rankingsystem der Datenreihe Das bedeutet, dass die Rangmaßvariablen nicht bei der Berechnung verwendet, sondern in Ränge umgewandelt werden. Der Test wird dann anhand der Ränge durchgeführt. Für den Rangkorrelationskoeffizienten p sind die Werte zwischen minus eins und eins positiv. Wenn ein Wert kleiner als Null ist, ist p kleiner als Null, es besteht eine negative lineare Beziehung. Wenn der Wert größer als Null ist, liegt eine positive lineare Beziehung vor. Wenn der Wert Null oder nahe Null ist, z. B. 0,1 bis -0,1, können wir sagen, dass keine Beziehung zwischen den Variablen besteht keine Beziehung zwischen den Variablen Wie beim Korrelationskoeffizienten für Sparen die Stärke der Korrelation kann Wenn es also 0-0 0,1 ist, liegt keine Korrelation vor. Wenn es 0,12 0,3 ist, besteht eine geringe Wenn es 0,3 bis 0,5 gibt, liegt eine mittlere Retation Es besteht eine hohe Korrelation von 0,5 bis 0,7 und eine sehr hohe Korrelation von 0,7 zu eins Bei negativen Werten sprechen wir von geringer negativer Korrelation, hoher negativer Korrelation usw. Es gibt eine andere Art von Korrelation, die als biserielle Punktkorrelation bezeichnet wird . Die biserielle Punktkorrelation wird verwendet , wenn eine der Variablen dichotom ist Beispiel: Haben Sie studiert oder nicht studiert? Die andere ist eine metrische Variable wie das Gehalt. In diesem Fall verwenden wir einen Punkt nach serieller Korrelation. Die Korrelation eines Punktes durch serielle Korrelation entspricht der berechneten Korrelation nach Pearson Um sie zu berechnen, wird einer der beiden Ausdrücke des dichotomen Werts als Null kodiert Der andere ist als Eins kodiert. Berechnete Korrelationsanalyse zeigen wir Ihnen mit Excel oder anderen Tools , die kostenlos erhältlich sind. Ich werde Ihnen die Berechnung nach einiger Zeit zeigen, aber lassen Sie uns zuerst den Fall untersuchen. Ein Student möchte wissen, ob es einen Zusammenhang zwischen Größe und dem Gewicht der Teilnehmer des Statistikkurses Zu diesem Zweck zog der Student eine Stichprobe, die im Folgenden verteilt ist Ich habe also die Körpergröße der Menschen, ich habe die Gewichte der Menschen. Um die lineare Beziehung mithilfe der Korrelationsanalyse zu analysieren , können Sie die Korrelation mit Excel oder den anderen verfügbaren Tools online berechnen . Kopieren Sie zunächst die Tabelle in den Statistikrechner. Klicken Sie dann auf Korrelation und wählen Sie sie aus. Und schließlich können Sie die folgenden Beilagen erhalten. Also lass es uns online machen. Also bin ich zu data tab.net gekommen. Es ist ein statistischer Online-Rechner. Die Daten hier haben eine hundertprozentige Datensicherheit, da die Berechnungen in Ihrem Browser und die Daten in Ihren Browser-Cookies eingefügt und gespeichert werden. Die Daten sind zu 100%, und das ist der Grund, warum die Berechnung sehr schnell funktioniert. Die Daten benötigen daher keinen großen Server und damit Sie. Ich habe also das Körpergewicht, ich habe das Gewicht und ich habe das Alter. Also ich möchte es verstehen. Also wenn ich runtergehe, lasse ich mich kortieren. Ich möchte wissen, ob es einen Zusammenhang zwischen Körpergröße und Körpergewicht Welche Art von Korrelation möchte ich? Lass uns zuerst mit Pearsons gehen. Es besteht eine Korrelation Es besteht eine positive Korrelation. Das Signifikanzniveau ist festgelegt. 5% Wir können testen, ob Annahmen vorliegen, und es führt sofort die Analyse durch. Es macht das QQ-Diagramm für mich. Es zeichnet das Histogramm und zeigt die Ergebnisse, richtig? Wir können also sagen, dass die Daten mehr oder weniger normalverteilt sind Ich kann das kopieren, indem ich auf PNG herunterladen klicke, und die Datei wird kopiert. Und du wirst es auf diese Weise sehen können. Lassen Sie mich jetzt diesen Tumba schließen, damit er die Annahmen überprüft hat Die Zusammenfassung in Versen, das Ergebnis der Korrelation nach Pearson , zeigte, dass es eine sehr hohe positive Korrelation zwischen Körpergewicht, Größe und Gewicht Die Ergebnisse zeigten, dass die Beziehung zwischen Körpergewicht, Größe und Gewicht bei einem positiven R-Wert statistisch signifikant R ist 0,86 und der p-Wert ist 0,01. 001. Wenn Sie sich also die Stärke der Korrelation ansehen und der Wert größer als 0,7 und eins ist, sagen wir, dass es sich um eine sehr hohe Korrelation handelt und es sich um ein positives Dekor handelt. Wenn ich Hypothesen teste, gibt es keine oder eine negative Korrelation zwischen Körpergröße und Gewicht. Es besteht eine positive Korrelation zwischen Körpergröße und Gewicht. Wie viele Fälle haben wir zehn Fälle. Der R-Wert ist 0,86 und der p-Wert ist 0,001, was weniger als 0,5 ist Daher lehnen wir die Hypothese ab, dass es keine Korrelation gibt, und es gilt die alternative Hypothese, dass eine positive Korrelation zwischen Körpergröße und Körpergewicht besteht zwischen Körpergröße und Körpergewicht Der Vorteil, einen Datenentwurf zu haben, besteht darin, dass Sie eine KI-Interpretation haben. Diese Tabelle fasst die Ergebnisse der Analyse von Körpergröße und Körpergewicht zusammen und zeigt den Korrelationskoeffizienten r und P va Der Wert des Korrelationskoeffizienten gibt die Stärke und Richtung der Beziehung zwischen der Variablen Größe und Gewicht an, und der Koeffizientenwert beträgt 0,86, was auf eine sehr hohe positive Korrelation hindeutet eine sehr hohe positive Dies bedeutet, dass im Allgemeinen zunehmender Körpergröße auch das Gewicht zunimmt und umgekehrt. Der P-Wert. Der p-Wert geht hier davon aus, dass die verfügbaren Daten ausreichende Beweise liefern, um die Nullhypothese zurückzuweisen. In diesem Fall wurde die einseitige Hypothese getestet, und die Nullhypothese besagt , dass keine oder eine negative Korrelation zwischen der Größe und dem Gewicht in der Population besteht. In den meisten Fällen liegt der p-Wert unter 0,05. Wir gehen davon aus, dass eine statistische Signifikanz besteht In unserem Fall beträgt der p-Wert 0,001, was offensichtlich weniger als 0,5 ist Die Nullhypothese wird zurückgewiesen, und das Ergebnis der Pearson-Korrelation zeigt, dass eine positive Korrelation zwischen Körpergröße und Körpergewicht statistisch signifikant ist eine positive Korrelation zwischen Körpergröße und Körpergewicht statistisch positive Korrelation zwischen Körpergröße und Körpergewicht Das Ergebnis der Korrelation nach Pearson zeigt also , dass eine sehr positive Korrelation zwischen Körpergröße und Gewicht besteht eine sehr positive Korrelation zwischen Körpergröße und Gewicht Diese Korrelation wird durch eine statistisch signifikante positive Korrelation zwischen dem R-Wert 0,86 und dem P-Wert von 0,05 gespeichert statistisch signifikante positive Korrelation zwischen dem R-Wert 0,86 und dem P-Wert von 0,05 Jetzt gibt es ein Streudiagramm das Ich kann hier drüben klicken und meine Regressionslinie abrufen. Ich kann meine Achse ändern, wenn ich nicht bei Null beginnen möchte Möchte ich eine Nulllinie Dann ist die Null enthalten, aber ich will sie nicht. Ich kann es ändern. Wie will ich mein Bild haben, das extra große PDM und so Ich kann auf TNG herunterladen klicken , um dieses Bild herunterzuladen. Wie ich Ihnen bereits sagte, können wir jetzt auch die Kovarianzberechnung durchführen die Kovarianzberechnung Wenn ich mir also Körpergröße und Körpergewicht ansehe, ist die Kovarianz 1,29 Es bedeutet also, dass es eine Beziehung gibt. So machen Sie die Berechnung also. Nun, für den Point-by-Serialrechner haben wir vielleicht eine andere Art von Daten, die wir analysieren möchten Hat die Änderung des Gehalts . Hat die Änderung des Gehalts etwas mit dem Geschlecht zu tun? In diesem Fall würde ich dann den metrischen Wert als Gehalt und die nominale Variable als Geschlecht auswählen Gehalt und die nominale Variable als Geschlecht und dann meine Berechnung durchführen. Es würde den Mann auf Null und die Frau auf eins setzen. Boxplot, aus dem hervorgeht, dass ja, Männer im Vergleich zu Frauen tendenziell ein höheres Gehalt haben . Wenn also ein Student wissen möchte, ob es einen Zusammenhang zwischen einem erhöhten S gibt, haben wir diese Analyse durchgeführt Die Hypothese: Wenn man von einer normalen Hypothese ausgehen kann, besteht kein Zusammenhang zwischen Körpergröße und Körpergewicht Es besteht ein Zusammenhang zwischen Körpergröße und Gewicht, aber ich hatte in meinem Test eine Richtungshypothese aufgestellt. Der P-Wert ist dieser, und wir haben gesehen, wie wir die Ausgabe erzeugen können. Zunächst erhalten Sie die Null - und die Alternativhypothese. Die Nullhypothese besagt , dass es keine Korrelation zwischen Größe und Gewicht gibt, und dann haben wir die alternative Hypothese , die das Gegenteil verhindert Wenn Sie auf U-Boot-Vögel klicken, erhalten Sie die Interpretation, die wir gerade Wir können weitermachen und tatsächlich haben wir die direktionale oder einseitige Korrelationshypothese ausprobiert die direktionale oder einseitige Korrelationshypothese Und in Excel und anderen Tools, die Ihnen bei der Berechnung helfen können. Also haben wir gerade die Tests durchgeführt und festgestellt , dass es keine oder eine negative Korrelation zwischen dem Körpergen gibt und dass es eine positive Korrelation zwischen der Körpergröße gibt. Und als wir das gesehen haben, haben wir festgestellt , dass es eine positive, sehr starke positive Korrelation gibt, weshalb der p-Wert unter 0,01 lag In diesem Fall müssen Sie zunächst überprüfen, ob die Korrelation in allen Richtungen der Alternativhypothese besteht, d. h. Größe und Gewicht sind positiv korreliert, und in diesem Fall wird der p-Wert durch zwei geteilt Daher wird nur eine einseitige Verteilung berücksichtigt. Dieses Tool kümmert sich jedoch diese beiden Schritte und die Zusammenfassung in Versen wird so wiedergegeben, wie wir es gesehen haben. Wir stellen fest, dass eine positive Korrelation zwischen der Größe und dem Gewicht des Datensatzes an der Stichprobe besteht. Daher können wir sagen, dass eine positiv korrelierte Signifikanz besteht, und wir können feststellen, dass zwischen den Variablen Körpergröße und Körpergröße eine sehr positive Korrelation besteht Somit besteht eine sehr hohe positive Korrelation zwischen der Stichprobenhöhe und dem Damit schließen wir unsere Korrelationsanalyse ab und wir sehen uns im nächsten Kurs. 36. Pearsons Korrelationsanalyse-Konzept: Lassen Sie uns unsere Korrelationsreise fortsetzen. Ich werde heute über Pearsons Korrelation berichten. Die Korrelationsanalyse von Pearson ist eine Untersuchung der Beziehung zwischen zwei Variablen Zum Beispiel ist es eine Korrelation zwischen dem Alter und dem Gehalt einer Person Bei beiden handelt es sich um kontinuierliche Variablen, weshalb das Diagramm verstreut sein wird. also das Gehalt mit zunehmendem Alter der Person Steigt also das Gehalt mit zunehmendem Alter der Person? Nun müssen Sie sich daran erinnern, dass y eine Funktion von x ist, sodass Ihre Y-Achse das Ergebnis hat und die X-Achse die unabhängige Variable hat. Genauer gesagt können wir den Korrelationskoeffizienten von Pearson verwenden , um die lineare Beziehung zwischen zwei Variablen zu messen die lineare Beziehung zwischen zwei Variablen Wenn die Beziehung nicht linear ist, diese Korrelationsgleichung nicht von Nutzen. Ich denke, Sie hätten bemerkt, dass ich meinen AR für diese Aufnahme geändert habe. Wenn es dir gefallen hat, gib einfach einen Daumen hoch in den Kommentarbereich Lassen Sie uns weitermachen, die Stärke und die Richtung der Korrelation Mit der Korrelationsanalyse können wir feststellen, wie stark die Beziehung ist und in welche Richtung die Korrelation geht. Wir können die Stärke und Richtung der Korrelation am Korrelationskoeffizienten R nach Pearson ablesen , dessen Wert von minus eins bis plus eins variiert Die Stärke der Korrelation, die Stärke der Korrelation, das kann man in der Tabelle ablesen Der R-Wert liegt zwischen Null und minus Eins, was bedeutet, dass keine Korrelation besteht. Wenn der Betrag des Werts von r zwischen 0,7 und Eins liegt, handelt es sich um eine sehr stark korrelierte, sehr starke Korrelation Wenn die Werte nun positiv sind, ist sie positiv korreliert, und wenn die Werte negativ sind, ist sie negativ Nehmen wir also an, der R-Wert ergibt -0,66. Dann können wir sagen, dass es stark negativ korreliert ist. Das habe ich also aus dem Buch der Statistik übernommen . Lassen Sie uns das eindämmen. Was meinst du mit Korrelationsrichtung? Eine positive Korrelation liegt vor, wenn große Werte einer Variablen mit großen Werten einer anderen Variablen verknüpft sind oder wenn eine kleine Änderung einer Variablen mit einer kleinen Änderung der anderen Variablen verbunden ist . Wenn es sich also um eine positive Korrelation handelt und ein größerer Wert auf der X-Achse vorhanden ist, entspricht dies einem größeren Wert auf der Y-Achse. Und ein kleinerer Wert auf der X-Achse korreliert mit einem kleineren Wert auf der Y-Achse, wie Sie in diesen beiden Bildern sehen können Eine positive Korrelation ergibt Beispiele für Körpergröße und Schuhgröße Dies führt zu einer positiven Korrelation. Mit zunehmender Körpergröße nimmt also auch die Schuhgröße zu. Das Ergebnis ist ein positiver Korrelationskoeffizient, und r ist größer als Null Nun, haben Sie gesehen, dass dieses Diagramm einen Fehler enthält? Der Fehler ist, dass die Schuhgröße das Ergebnis ist und die Körpergröße die unabhängige Variable, aber wir haben sie mutwillig falsch abgebildet, um dies zu vermeiden Lassen Sie mich also meine Kommentare hier platzieren. Was ist falsch im Pow-Graph? Die Frage ist, ob die Größenzunahme der Show einer Erhöhung der Körpergröße der Person führt oder die Zunahme der Körpergröße der Person Erhöhung der Schuhgröße dient. Bitte schreiben Sie in die zehn folgenden Abschnitte. Ja. Denken Sie daran, y ist eine Funktion von x. Und hier ist y die Körpergröße der Person und x ist mein Fehler. X ist die Körpergröße der Person und y ist die Körpergröße. Ich hoffe, jetzt ist klar, was wir sagen wollen. Also y ist eine Funktion von x. Lassen Sie mich aus dem Buchstaben ein kleines Y machen , denn das ist das Projekt Y. X ist die Körpergröße der Person. Also hier ist der Fehler , dass wir es falsch dargestellt haben. Die negative Korrelation liegt vor, wenn ein großer Wert eine Variable mit einem kleinen Wert für die andere Variable verknüpft ist und umgekehrt. Wenn also die Y-Achse groß ist, ist der X-Achsenwert klein. Und wenn der X-Achsenwert groß ist, ist der Y-Achsenwert klein. Dies wird als negative Korrelation bezeichnet. Die Punkte fließen. Im Gegensatz zum vorherigen , bei dem die Punkte nach oben flossen. Jetzt besteht die negative Korrelation zwischen Produktgröße und Verkaufswert. Dies führt zu einer negativen Korrelation. Was passiert, wenn der Preis steigt, das Verkaufsvolumen sinkt. Und wenn der Preis gesenkt wird, neigen die Leute dazu, mehr Volumen zu kaufen. Das führt zu mehr Verkäufen. Lass mich schreiben, dass es Steigerungen gibt. Sehr gut. Das Ergebnis ist also eine negative Korrelation, der Koefionswert von r ist kleiner als Null Je stärker die Korrelation ist, näher rückt der Wert an minus eins heran Und hier ist die Grafik korrekt. Wenn der Preis steigt, sinken die Mengen. Wie berechnen wir nun den Korrelationsclient von Pearson? Das ist eine sehr wichtige Sache, oder? Der Korrelationsfaktor nach Pearson wird anhand der folgenden Gleichung berechnet Dabei ist r der Korrelationskoeffizient nach Pearson. X i ist der Einzelwert einer Variablen. Zum Beispiel könnte es das Alter der Person sein. Der X-Balken ist das Durchschnittsalter des Stichprobendatensatzes. Y ist der individuelle Wert der anderen Variablen oder der Ergebnisvariablen, und der Y-Balken ist nichts anderes als das Durchschnittsgehalt des Stichprobendatensatzes. Hier sind also X-Balken und Y-Balken jeweils der Mittelwert zweier Variablen. Das Ganze wird geteilt durch die Unterwurzel von x eins minus x Balkenquadrat, y eins minus y bar ganzem Quadrat. Wenn ich es also quadriere und eine Unterwurzel mache, wird sich darum gekümmert Also x eins sind die einzelnen Werte und y eins sind die einzelnen Werte der Ergebnisvariablen R ist die Korrelation nach Pearson und der Mittelwert. In dieser Gleichung können wir sehen, dass die jeweiligen Mittelwerte der ersten Variablen von der anderen Variablen subtrahieren In unserem Beispiel haben wir den Hauptwert von Alter und Gehalt berechnet den Hauptwert von Alter und Gehalt Dann subtrahieren wir den Hauptwert jedes Alters und Gehalts vom Mittelwert Dann multiplizieren wir beide Werte. Wir summieren dann die einzelnen Ergebnisse der Multiplikation Der Ablauf des Nenners stellt sicher, dass der Korrelationskoeffizient immer zwischen minus eins und plus eins liegt Denken Sie daran, dass Sie nichts davon manuell berechnen müssen. Derzeit sind diese Funktionen in Excel und auf mehreren Online-Websites verfügbar . Wenn Sie mehrere positive Werte wünschen, erhalten wir einen positiven Wert. Und wenn wir zwei negative Werte multiplizieren, erhalten wir ebenfalls einen positiven Wert minus in minus e plus. Alle Werte, die in diesem Bereich liegen, haben also einen positiven Einfluss auf den Korrelationskoeion steigendem Alter steigt das Gehalt, das Gehalt sinkendem Alter sinken die Gehälter Wenn wir einen positiven Wert mit einem negativen Wert multiplizieren, erhalten wir einen negativen Wert, der minus bis plus minus ist. Die ganze Zeit gibt es eine Reihe negativer Einflüsse auf den Korrelationskoeion Also die Dinge, die in der lila Box hervorgehoben sind, wenn die Daten dort runterfallen, dann führt das zu einer negativen Korrelation Wenn unser Wert also überwiegend aus zwei grünen Bereichen der beiden vorherigen Zahlen besteht. Wir erhalten einen positiven Korrelationskoeffizienten und damit eine positive Wenn unsere Werte überwiegend im roten Bereich der Zahlen liegen , erhalten wir einen negativen Korrelationskoeffizienten und somit eine negative Korrelation und somit eine Verteilen sich die Punkte auf alle vier Bereiche, positive und negative Terme, heben sie sich gegenseitig auf, und es kann sein, dass wir am Ende sehr geringe oder gar keine Korrelation Das ist also ein sehr wichtiger Teil , den Sie verstehen müssen. Stimmt das? Wenn die Punkte insgesamt verteilt sind, ergibt sich überhaupt keine Korrelation. Nun, wie signifikant sind Tests von Korrelation und Koeffizient? Im Allgemeinen wird der Korrelationskoeffizient von Daten aus einer Stichprobe berechnet In den meisten Fällen wollen wir jedoch die Hypothese über die Population testen Da wir die Grundgesamtheit nicht untersuchen können , nehmen wir eine Stichprobe, und wir nehmen eine Stichprobe, und durch die Untersuchung der Stichprobe wollen wir Rückschlüsse auf die Grundgesamtheit ziehen In diesem Fall, der Korrelationsanalyse, wollen wir dann wissen, ob es eine Korrelation in der Grundgesamtheit gibt es eine Korrelation in der Grundgesamtheit Dazu testen wir, ob der Korrelationskoeffizient in der Stichprobe statistisch signifikant ist und sich von Null unterscheidet Wie führen wir nun Hypothesentests durch? Für Pearsons Korrelation? Die Nullhypothese und die Alternativhypothese für die Korrelationen nach Pearson Die Nullhypothese besagt, dass es keine Korrelation gibt und dass sich der R-Wert daher nicht signifikant von Null unterscheidet Es besteht keine Beziehung. Die alternative Hypothese besagt, dass es einen signifikanten Unterschied oder eine lineare Korrelation zwischen den Daten gibt. Achtung. Wir testen immer, ob die Nullhypothese abgelehnt wird oder nicht. Das ist sehr, sehr wichtig. Ich akzeptiere nie etwas Ähnliches oder wir arbeiten nie daran. Die Sache ist, wir arbeiten immer daran, die Nullhypothese zu beweisen oder abzulehnen. Wir versuchen nie, die Alternative zu beweisen, obwohl unsere Forschung beginnt, weil es eine Alternative gibt. In unserem Beispiel könnten wir also die Frage stellen, wenn es um das Gehalt und das Alter der Person geht. Gibt es einen Zusammenhang zwischen Alter und Gehalt für die deutsche Bevölkerung? Um das herauszufinden, ziehen wir eine Stichprobe und testen, ob sich der Korrelationskoeffizient in dieser Stichprobe signifikant von Null unterscheidet. Die Nullhypothese lautet dann dass es in der deutschen Bevölkerung keine Korrelation zwischen Gehalt und Alter gibt. Die alternative Hypothese besagt, dass der deutschen Bevölkerung ein Zusammenhang zwischen Gehalt in der deutschen Bevölkerung ein Zusammenhang zwischen Gehalt und Alter besteht. Signifikanz und Test. Wenn sich der Korrelationsfähigkeitstest nach Pearson signifikant von der Nullstichprobenerhebung unterscheidet signifikant von der Nullstichprobenerhebung unterscheidet, testen wir ihn mit der T-Testformel Dabei ist r der Korrelationskoeffizient und n der Stichprobenumfang und Auch hier würde ich sagen, dass es gut ist, die Formel zu kennen, sich aber nicht darin zu verlieren Richtig? Ein P-Wert kann anhand der Teststatistik t berechnet werden, und der p-Wert ist kleiner als das angegebene Signifikanzniveau, das normalerweise 5% beträgt, dann wird die Nullhypothese zurückgewiesen, andernfalls nicht. Wir möchten also sicherstellen , dass der p-Wert, wenn er größer als 0,05 ist, die Nullhypothese nicht zurückweisen Wenn der p-Wert größer als 0,05 ist, können wir die Nullhypothese nicht zurückweisen Was sind nun einige Annahmen, die in der Korrelation nach Pearson enthalten sind Was ist mit den Annahmen der Korrelation nach Pearson? Hier müssen wir unterscheiden, ob wir den Korrelationskoeffizienten nach Pearson berechnen oder ob wir eine Hypothese testen wollen Um den Korrelationskoeion nach Pearson zu berechnen, nur Metrische Variablen können beispielsweise das Gewicht, das Gehalt, der Stromverbrauch usw. einer Person sein . Kurz gesagt, kontinuierliche Variable. Der Korrelationsclient nach Pearson sagt uns dann , wie groß die lineare Beziehung ist, und gibt es eine nichtlineare Wir können nicht aus dem Korrelationskoion von Pearson ablesen. Das ist also eine lineare Korrelation, und wenn Ihre Daten auf diese Weise berechnet werden oder auftauchen, dann tendieren wir dazu, weiterzumachen In diesem Fall gibt es also keine Korrelation. Wenn wir jedoch testen wollen, ob der Korrelationskoeffizient von Pearson in der Stichprobe signifikant von Null unterscheidet, wollen wir die Hypothese testen, dass die beiden Variablen ebenfalls normalverteilt sind Weil Sie die Korrelation nach Pearson nicht auf Daten testen können , die nicht dem Normalwert entsprechen In diesem Fall können die berechneten Teststatistiken t und der p-Wert nicht zuverlässig interpretiert werden Wenn die Annahme nicht getroffen wird, wird die Rangkorrelation nach Pearson verwendet Das bedeutet, dass ich für nicht normale Daten die Rangkorrelation nach Pearson verwenden werde Wie berechne ich die Korrelation nach Pearson online mit Excel und anderen Tools Ich werde es Ihnen in Kürze zeigen. 37. Punkt-Biserial-Korrelation: Lassen Sie uns nun etwas über die biserielle Punktkorrelation lernen. Ich werde die Theorie und das Beispiel erläutern und erläutern, wie wir das mit einem Online-Rechner praktisch umsetzen können wir das mit einem Online-Rechner praktisch . Bleiben Sie in Verbindung. Was genau ist eine biserielle Punktkorrelation? Hast du schon einmal davon gehört oder dein Gesicht hat sich in etwa so verändert? Wir hören meistens von linearer Regression, logistischer Wenn wir etwas über Korrelation lernen, denken wir an einfache Korrelation, positive Korrelation, negative Korrelation Und wann immer wir Korrelation machen, denken wir nur an Variablen, kontinuierliche Variablen sowohl auf der X- als auch auf der Y-Achse. Lassen Sie uns also verstehen, was Punkt bei serieller Korrelation ist. Es handelt sich um einen Spezialfall der Korrelation nach Pearson, und es untersucht die Beziehung zwischen einer dikotonmen Variablen und einer metrischen Variablen Okay. Die Regel für die Korrelation lautet, dass Ihre beiden Variablen kontinuierlich oder metrisch sein sollten. Aber mit der Punkt-für-Seriell-Korrelation kann ich sogar nach einer dichotymen Variablen suchen, die ja oder nein sein können Lassen Sie uns das Beispiel einer dikotonösen Variablen verstehen . Eine dikotyme Variable ist eine Variable mit zwei Werten Geschlecht (männlich und weiblich) und Raucherstatus (Raucher, Nichtraucher Metrische Variablen sind dagegen das Gewicht der Person, das Gehalt der Person, der Stromverbrauch usw. Wenn wir also eine dichotonme Variable und eine metrische Variable haben , wollen wir wissen, ob es eine Beziehung gibt Wir können die punktuelle serielle Korrelation verwenden. Lassen Sie uns also die Definition davon verstehen. punktuelle serielle Korrelation ist eine besondere Art der Korrelation und untersucht die Beziehung zwischen einer dichotyen Variablen und einer metrischen Variablen Dichotonome Variablen sind Variablen mit zwei Werten, und metrische Variablen sind kontinuierliche Variablen mit unendlichen Werten, wie Größe, Gewicht, Gehalt, Stromverbrauch usw. und metrische Variablen sind kontinuierliche Variablen mit unendlichen Werten, wie Größe, Gewicht, Gehalt, Stromverbrauch usw. Wie genau wird der Punkt durch Es verwendet das Konzept der Pearson-Korrelation, aber in der Pearson-Korrelation haben wir auch eine Variable, die nominaler Natur ist Nehmen wir zum Beispiel an, Sie möchten den Zusammenhang zwischen der Anzahl der in einem Test unternommenen Stunden und den Ergebnissen untersuchen den Zusammenhang zwischen der Anzahl der in einem Test unternommenen Stunden , d. h. ob die Person bestanden oder nicht bestanden hat Hier kann ich also sehen, wie viele Stunden die Person dem Lernen verbracht hat und ob sie bestanden oder nicht bestanden hat? Wir haben Daten für die Stichprobe von 20 Studierenden gesammelt. 12 Studierende haben bestanden, acht Studierende sind durchgefallen. Wir haben die Anzahl der Stunden für jeden Schüler, der an dem Test teilgenommen hat, aufgezeichnet und dem Schüler, der den Test bestanden hat, eine Punktzahl von eins und dem Schüler, der den Test nicht bestanden hat, eine Punktzahl von Null zugewiesen und dem Schüler, der den Test nicht bestanden hat, eine Punktzahl von Null . Jetzt können wir entweder die Pearson-Korrelation zwischen der Zeit und den Testergebnissen berechnen die Pearson-Korrelation zwischen der Zeit und den oder wir können die Gleichung für den Punkt anhand der CDN-Korrelation verwenden Gleichung für den Punkt anhand der CDN-Korrelation Jetzt können wir entweder die Pearson-Korrelation zwischen Zeit und Testergebnissen mit der Gleichung berechnen die Pearson-Korrelation zwischen Zeit und Testergebnissen mit der Zeit und Testergebnissen mit Nun, hier ist x y der Mittelwert der Personen, die durchgefallen sind, und X eins ist der Mittelwert der Personen, die bestanden haben N steht für die Gesamtzahl der Beobachtungen. N eins steht für die Anzahl der Personen, die bestanden haben, n zwei steht für die Anzahl der Personen, die durchgefallen sind. Genau wie der Korrelationskoeffizient nach Pearson, r, ist Punkt für serielle Korrelation rp. Auch B variiert zwischen minus eins und plus eins Mit Hilfe von Cefent können wir zwei Dinge wir So stark ist die Beziehung. Ist es eine positive Korrelation? Handelt es sich um eine schwache positive Korrelation und in welche Richtung geht die Korrelation? Handelt es sich um eine positive Korrelation oder um eine negative Korrelation? Die Stärke der Korrelation kann in der Tabelle abgelesen werden. Liegt der Wert zwischen 0,0 und weniger als 0,1, liegt keine Korrelation vor. Wenn der Wert zwischen 0,1 und weniger als 0,3 liegt, liegt eine geringe Korrelation vor. Der Wert liegt zwischen 0,3 und 0,5, es besteht eine mittlere Korrelation von 0,52 bis 0,7, eine hohe Korrelation von 0,7 zu einer, sehr hohen Korrelation Wenn der Wert zwischen Null und minus Eins liegt, sprechen wir von einer negativen Korrelation Wenn der Koeffizient zwischen minus eins und kleiner als Null liegt, handelt es sich um eine negative Korrelation, daher besteht eine negative Beziehung zwischen der Variablen Wenn der Wert zwischen Null und plus eins liegt, handelt es sich um eine positive Korrelation Somit besteht eine positive Beziehung zwischen der Variablen, und wenn das Ergebnis nahe Null liegt, sagen wir, dass keine Korrelation besteht. Der Korrelationskoeffizient wird normalerweise anhand der Daten aus der Stichprobe berechnet Wir möchten jedoch häufig Hypothesen über die Grundgesamtheit testen Wir wollen eine Hypothese über die Population testen , weil wir die Population nicht untersuchen können, wir verwenden eine Stichprobenmethode. Wir berechnen den Korrelationsgrad der Stichprobendaten. Jetzt können wir testen, ob sich der Korrelationskoeffizient signifikant von Null unterscheidet signifikant Die Nullhypothese besagt, dass sich der Korrelationskoeffizient nicht signifikant unterscheidet Es besteht keine Beziehung. Eine alternative Hypothese besagt, dass die Korrelationskohäsion signifikant von Null abweicht. Es besteht eine Beziehung. Wenn wir also den Punkt durch serielle Korrelation berechnen, erhalten wir denselben p-Wert wie den T-Test für unabhängige Stichproben für dieselben Daten. Unabhängig davon, ob wir die Korrelationshypothese mit einem Punkt durch serielle Korrelation oder eine Differenzhypothese des T-Tests testen, erhalten wir den gleichen p-Wert. Was ist mit den Annahmen , die wir berücksichtigen müssen, wenn wir einen Punkt mit serieller Korrelation ermitteln? Hier müssen wir unterscheiden, ob wir nur den Korrelationskoeffizienten berechnen wollen oder ob wir auch die Hypothese testen wollen Um den Korrelationskorenten zu berechnen, nur eine metrische Variable und eine dichotome müssen nur eine metrische Variable und eine dichotome Variable vorhanden sein. Wenn Sie jedoch testen möchten, ob der Korrelationskoeffizient signifikant von Null unterscheidet, eine metrische Ist dies nicht gegeben, die berechneten Teststatistiken oder der p-Wert nicht zuverlässig interpretiert werden Wir können Online-Rechner wie die Registerkarte „Daten“ verwenden, die Ihnen bei der Analyse helfen können und auf die ich jetzt eingehen werde Wir sind auf Datenfass. Ich habe einige Daten in Bezug auf die Anzahl unserer Studientestergebnisse eingegeben Null und Eins als bestanden und nicht bestanden in Null und Eins umgerechnet . Ich kann meine Daten mit dieser Schaltfläche importieren und damit die Tabelle löschen. Sie haben Einstellungen, mit denen Sie entscheiden können, welche Art von Einstellungen Sie für Grafiken verwenden möchten. Gehen wir jetzt runter. Ich korreliere, und ich habe Optionen. Hier sind meine nominale Variable die Testergebnisse. Meine metrische Variable ist unser strded. Ich möchte Pearsons Pfannen und Konvolu berechnen. Vorerst behalte ich es einfach als Pearsons. Meine nominale Variable sind Testergebnisse Sobald ich die nominale Variable als Testergebnisse ausgewählt habe, konnte ich dies als serielle Punkt-Pi-Korrelation identifizieren als serielle Punkt-Pi-Korrelation Die Hypothese besagt, dass es keine Korrelation zwischen unseren Studien- und Testergebnissen gibt. Die alternative Hypothese besagt, dass ein Zusammenhang zwischen der Anzahl der untersuchten Stunden und den Testergebnissen besteht. Der Punkt, an dem die serielle Korrelation fehlschlägt, nimmt den Wert Null an, Ps nimmt den Wert Eins an. Der Wert für die serielle Punktkorrelation beträgt 0,31 Freiheitsgrade, r 18 t ist 0,14, der p-Wert ist 1,79 Ich habe den Boxplot hier drüben , der besagt, dass mein Boxplot für die ehemaligen 50% der Teilnehmer lernen zwischen 8,5 und 19,25 Stunden, was zu einem erfolgreichen Studium geführt hat Leute, die durchgefallen sind, lernen 7-13 Stunden, richtig? Ich kann es sogar herunterladen, indem ich auf den PNG-Download-Button Und Sie werden sehen, dass ich dazu in der Lage bin. Nun, wie funktioniert die Berechnung für die serielle Korrelation von Punkt B? Wenn Sie den Punkt durch serielle Korrelation berechnen, wählen Sie eine metrische Variable und eine nominale Variable mit zwei Werten. Bevor ich darauf eingehe, möchte ich eine Zusammenfassung in Worten zusammenfassen. Die serielle Korrelation nach Punkt B wurde durchgeführt, um den Zusammenhang zwischen unseren Studien und den Testergebnissen zu bestimmen . Es besteht eine positive Korrelation zwischen unserer Studie und dem Testergebnis, die nicht signifikant und statistisch signifikant war, da der p-Wert größer als 0,05 ist Wenn ich mehr Daten wie diesen hätte, bei denen ich mehrere Werte verwende, um Männer und Frauen gleich Null und Eins zu bestimmen, und dann hätte es berechnet Es heißt also, gibt es einen Zusammenhang zwischen dem Gehalt und dem Geschlecht? Und wir können sehr deutlich sehen, dass ja, Männer im Vergleich zu Frauen ein deutlich höheres Gehalt haben . Wenn Sie jedoch den p-Wert sehen, er sehr nahe bei 0,05, aber er liegt bei 0,07 Wir können die Nullhypothese also nicht zurückweisen und sagen, dass dies möglicherweise auf den Ding-Fehler der Stichprobe zurückzuführen ist . O 38. Logistische Regression: Willkommen zur nächsten Lektion über logistische Regression. Lassen Sie uns das Theoriebeispiel verstehen und wie wir es interpretieren Wann verwenden wir logistische Vorschriften? Nehmen wir ein Beispiel. Wo auch immer wir überprüfen müssen, ob es ein alter Mensch ist , der an Krebs erkranken wird, oder ob es ein Mann oder eine Frau ist, der stärker erkrankt? Ist es ein Raucher, der die Krankheit verursacht? Wenn ich nach mehreren Variablen suchen möchte, die mich infizieren können , und mir sagen ob die Krankheit möglich ist, wie hoch ist dann die Wahrscheinlichkeit , an einer Krankheit zu Lassen Sie uns also tiefer eintauchen. Was genau ist Regression? Eine Regressionsanalyse ist eine Methode zur Modellierung von Beziehungen zwischen Variablen Sie ermöglicht es, auf der Grundlage einer oder mehrerer anderer Variablen auf eine Variable zu schließen oder vorherzusagen , ob der Kunde glücklich oder traurig ist , ob der Kunde glücklich oder Ich versuche also anhand der Qualifikation der Person, der dafür benötigten Zeit oder des Alters zu überprüfen, ob dies möglich anhand der Qualifikation der Person, der dafür benötigten Zeit oder des Alters zu überprüfen, ob dies Welcher Faktor beeinflusst es? Die Variable, die wir ableiten oder vorhersagen möchten, wird als abhängige Variable oder Kriterium bezeichnet , und die Variablen, die wir für die Vorhersage verwenden , werden als unabhängige Variablen oder Prädiktoren bezeichnet unabhängige Variablen oder Prädiktoren Was ist der Unterschied zwischen linearer Regression und logistischer Regulation Bei einer linearen Regelung ist die abhängige Variable eine metrische Beispiel: Gehalt, Strom, Verbrauch usw. Das bedeutet, dass es sich um eine kontinuierliche Variable handelt. In einer logistischen Regression ist die abhängige Variable eine dichotonme Was ist eine dichotonyme Variable? Das bedeutet, dass die Variable nur zwei Werte hat. Zum Beispiel, ob eine Person ein bestimmtes Produkt kaufen wird oder nicht, oder ob eine Krankheit vorliegt oder nicht. Wie können logistische Vorschriften genutzt werden? Mit Hilfe der logistischen Regulierung können wir feststellen, was einen Einfluss darauf hat , ob eine bestimmte Krankheit vorliegt oder Wir könnten den Einfluss von Alter, Geschlecht und Raucherstatus auf diese bestimmte Krankheit untersuchen , Geschlecht und Raucherstatus auf diese bestimmte Krankheit In diesem Fall steht Null für „ nicht erkrankt“ und „Eins“ für „erkrankt Die Wahrscheinlichkeit des Auftretens einer Krankheit oder eines Merkmals ist eins bedeutet, dass das Merkmal vorhanden ist Unsere Datenbasis sah ungefähr so aus, wobei meine unabhängigen Variablen ein geschlechtsspezifischer Raucherstatus sein könnten , und meine abhängige Variable könnte eine Variable sein , die sich aus Nullen und Einsen zusammensetzt. Wir könnten nun untersuchen welchen Einfluss die unabhängige Variable hat und wie sich die Krankheit auf die Krankheit auswirkt Wenn es einen Einfluss gibt, können wir vorhersagen, wie wahrscheinlich es ist, dass eine Person an einer bestimmten Krankheit leidet. Jetzt stellt sich natürlich die Frage. Warum brauchen wir in diesem Fall eine logistische Regulierung? Warum funktioniert die lineare Erholung nicht? Lassen Sie uns also kurz zusammenfassen, was bei der linearen Regression passiert ist Lassen Sie uns kurz zusammenfassen, was lineare Regulierung ist. In der linearen Regression ist dies unsere Regressionsgleichung Y geht zu b1x1 plus b2x2 plus b3x3 und so weiter und so fort. B und xn plus c. Wir haben die abhängige Variable y und wir haben unabhängige Variablen wie x eins, und wir haben unabhängige Variablen wie x eins x 2x3tx neun. Und wir haben die Regressionskosion, b eins, b2b Bn . Wenn Sie sich nun jedoch diese Variable ansehen, wird die abhängige Variable mit Null oder Eins erstellt Und daher wird Ihre Ausgabe ungefähr so aussehen. Sie haben viele Punkte auf der Nulllinie und viele Punkte auf der einen Linie, aber Sie haben keine Daten dazwischen. Unabhängig davon, wie viel Wert Sie haben, kann die unabhängige Variable dazu beitragen, dass die Variable einen Wert von 0-1 Die Ergebnisse sind immer Null oder Eins. In einer Regressionsgleichung müssen wir einfach eine gerade Linie durch die Punkte ziehen und wir sehen, dass es viele Fehler gibt Wir können jetzt sehen, dass bei einer linearen Regression Werte zwischen plus und minus unendlich auftreten können Und daher funktioniert diese Formel nicht. Was ist die Lösung? Ziel der logistischen Regression ist es jedoch , die Eintrittswahrscheinlichkeit abzuschätzen Der Wertebereich der Vorhersage sollte daher zwischen 0 und 1 liegen. Und deshalb wollen wir eine Linie, die auf diese Linie passt , und keine Diagonale wie diese Wir brauchen also eine Funktion , die nur Werte dazwischen akzeptiert, was zu einem Wert von Null und Eins führt. Genau das macht die logistische Funktion. Egal, wo Sie sich auf der X-Achse befinden, Sie werden sich befinden, Ihre Y-Achse wird entweder Null oder Eins ergeben Zwischen dem Minus und dem Plus Unendlich liegen die einzigen Ergebnisse bei 0-1 Und genau das wollen wir. Die Gleichung der logistischen Abrechnung wird ungefähr so aussehen Die logistische Funktion wird jetzt in der logistischen Erholung verwendet Lassen Sie uns also die lineare Erholungsformel noch einmal aufschlüsseln die lineare Erholungsformel noch einmal Eins plus y ergibt b1x1 plus b2x2 plus t b x und so weiter. Diese Gleichung wird nun in die Funktion eingefügt. Wenn Sie das tun, ist es die Potenz von e minus Ihrer größten linearen Erholungsgleichung, 1/1 plus e mit der Potenz der Minus-Gleichung Somit ist die Wahrscheinlichkeit