2025-Lean Six Sigma GreenBelt Analysephase – Hypothesentest mit Microsoft-Excel und Minitab | Dimple Sanghvi | Skillshare

Playback-Geschwindigkeit


1.0x


  • 0.5x
  • 0.75x
  • 1x (normal)
  • 1.25x
  • 1.5x
  • 1.75x
  • 2x

2025-Lean Six Sigma GreenBelt Analysephase – Hypothesentest mit Microsoft-Excel und Minitab

teacher avatar Dimple Sanghvi, AI Consultant, Lean Six Sigma Master Black Belt

Schau dir diesen Kurs und Tausende anderer Kurse an

Erhalte unbegrenzten Zugang zu allen Kursen
Lerne von Branchenführern, Ikonen und erfahrenen Experten
Wähle aus einer Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Schau dir diesen Kurs und Tausende anderer Kurse an

Erhalte unbegrenzten Zugang zu allen Kursen
Lerne von Branchenführern, Ikonen und erfahrenen Experten
Wähle aus einer Vielzahl von Themen, wie Illustration, Design, Fotografie, Animation und mehr

Einheiten dieses Kurses

    • 1.

      Analysephase von DMAIC – Einführung in Datenanalysen

      3:12

    • 2.

      Zusammenfassung der Einführung in Lean Six Sigma

      13:49

    • 3.

      Projektarbeit

      0:51

    • 4.

      Grundlagen der Statistik

      4:34

    • 5.

      Bedeutung von Messungsebenen oder Datentypen

      15:57

    • 6.

      Maße für den Mittelpunkt und Maße für die Dispersion

      9:13

    • 7.

      Minitab

      2:16

    • 8.

      Was ist Deskriptive Statistik

      4:32

    • 9.

      Deskriptive vs. inferenzielle Statistik

      9:13

    • 10.

      Konzepte der Inferenzstatistik Teil 2

      7:01

    • 11.

      Konzepte des Hypothesentests im Detail

      12:22

    • 12.

      Einführung 7Qc-Tools

      1:34

    • 13.

      Prüfblatt

      5:03

    • 14.

      Box-Plot

      8:33

    • 15.

      Box-Plot verstehen Teil 1

      5:22

    • 16.

      Box-Plot verstehen Teil 2

      7:37

    • 17.

      Pareto-Analyse

      19:20

    • 18.

      Prüfung von Konzepthypothesen und statistische Signifikanz

      5:56

    • 19.

      Hypothesentests verstehen

      5:27

    • 20.

      Konzept der Null- und Alternativhypothese

      7:01

    • 21.

      Statistik P-Wert verstehen

      7:48

    • 22.

      Fehlertypen verstehen

      4:49

    • 23.

      Fehlertypen verstehen – Teil2

      5:57

    • 24.

      Vergiss den Jingle

      4:34

    • 25.

      Testauswahl

      5:40

    • 26.

      Konzepte des T-Tests im Detail

      19:02

    • 27.

      Verstehen eines t-Tests einer Stichprobe

      6:57

    • 28.

      Verstehen Sie 2 Beispiel-t-Testbeispiel 1

      5:32

    • 29.

      Verstehen von 2 Beispielen t-Testbeispiel 2

      3:14

    • 30.

      Den gepaarten t-Test verstehen

      3:59

    • 31.

      Einen Beispiel-Z-Test verstehen

      5:16

    • 32.

      Verstehen Sie einen Probenanteilstest-1p-test

      4:01

    • 33.

      Verstehen Sie zwei Probenanteilstest-2p-test

      1:39

    • 34.

      Test mit zwei Probenanteilen-2p-Test-Beispiel

      2:21

    • 35.

      Verwenden von Excel = ein Beispiel-t-Test

      6:51

    • 36.

      Korrelationsanalyse

      27:56

    • 37.

      Pearsons Konzept der Korrelationsanalyse

      15:50

    • 38.

      Punkt-biseriale Korrelation

      11:17

    • 39.

      Logistische Regression

      19:43

    • 40.

      Logistische Regressionspraxis

      20:01

    • 41.

      ROC-Kurve

      18:49

    • 42.

      Verständnis der nichtnormalen Daten

      15:15

    • 43.

      Kruskal-Wallis-Test mit 3 oder mehr Gruppen von nicht normalen Daten

      13:20

    • 44.

      Entwurf von Experimenten

      4:23

    • 45.

      Die Anwendungsbereiche für ein DOE

      4:01

    • 46.

      Typen von Entwürfen in einem DOE

      4:42

    • 47.

      So reduzieren Sie die Anzahl der Durchläufe

      5:23

    • 48.

      Typ der Effekte

      4:30

    • 49.

      Fraktionierter faktorieller Entwurf

      10:48

    • 50.

      Entwurf für Plackett Burman Central Composite

      3:13

    • 51.

      Fazit

      2:25

  • --
  • Anfänger-Niveau
  • Fortgeschrittenes Niveau
  • Fortgeschrittenes Niveau
  • Jedes Niveau

Von der Community generiert

Das Niveau wird anhand der mehrheitlichen Meinung der Teilnehmer:innen bestimmt, die diesen Kurs bewertet haben. Bis das Feedback von mindestens 5 Teilnehmer:innen eingegangen ist, wird die Empfehlung der Kursleiter:innen angezeigt.

505

Teilnehmer:innen

36

Projekte

Über diesen Kurs

Dieser umfassende Data Analytics Bootcamp-Lehrplan behandelt die Grundlagen der Statistik und die Analyse von Daten mit Minitab.

  • Weitere Informationen
  • Grundlagen der Statistik
  • Deskriptive Statistik
  • Grafische Zusammenfassung
  • Verteilungen
  • Histogramm
  • Box-Plot
  • Balkendiagramm
  • Kreisdiagramm
  • Hypothesentest
  • Fehlertypen
  • Ein T-Test mit einer Probe
  • T-Test mit zwei Proben
  • Gekoppelter T-Test
  • Einweg-Annova
  • Chi-Quadrat-Test

 Für wen ist dieser Kurs geeignet?

 Jeder Teilnehmer von Lean Six Sigma oder der Statistiken und grafische Analysen verstehen und anwenden möchte

Wichtigste Erkenntnisse

  • Verstehen, wie man grundlegende Analysen durchführt
  • Tools verstehen und anwenden, die während der Mess- und Analysephase von Six Sigma-Projekten benötigt werden
  • Welches Diagramm wann verwenden?
  • Einige häufige Fehler, die wir bei der grafischen Analyse machen
  • Erstellen von Diagrammen zum Ziehen der Schlussfolgerung

Triff deine:n Kursleiter:in

Teacher Profile Image

Dimple Sanghvi

AI Consultant, Lean Six Sigma Master Black Belt

Kursleiter:in

About Me

I am dedicated to empowering individuals to unlock their potential and make a meaningful impact. As a Consultant and Independent Director on a Corporate Board (NSE & BSE), I bring a wealth of experience to my roles, including being a Lean Six Sigma Master Black Belt and a Leadership Coach & Mentor. My expertise extends to AI, ML, and Data Science Coaching.

Let's connect on LinkedIn for professional growth and networking opportunities https://www.linkedin.com/in/dimplesanghvi/ to explore opportunities for professional growth and networking. I often discuss topics such as #ChatGPT, #DataAnalytics, #CoachingBusiness, #StorytellingWithData, and #LeanSixSigmaBlackBelt.

Join my Telegram channel to embark on a journey through Lean Six Sigma and Storytelling. Here,... Vollständiges Profil ansehen

Level: All Levels

Kursbewertung

Erwartungen erfüllt?
    Voll und ganz!
  • 0%
  • Ja
  • 0%
  • Teils teils
  • 0%
  • Eher nicht
  • 0%

Warum lohnt sich eine Mitgliedschaft bei Skillshare?

Nimm an prämierten Skillshare Original-Kursen teil

Jeder Kurs setzt sich aus kurzen Einheiten und praktischen Übungsprojekten zusammen

Mit deiner Mitgliedschaft unterstützt du die Kursleiter:innen auf Skillshare

Lerne von überall aus

Ob auf dem Weg zur Arbeit, zur Uni oder im Flieger - streame oder lade Kurse herunter mit der Skillshare-App und lerne, wo auch immer du möchtest.

Transkripte

1. Intro für Datenanalysen: Hallo Freunde. Beginnen wir mit diesem Schulungsprogramm, Eckdatenanalyse mit MiniTab. Was wirst du in diesem Kurs lernen? Die Fähigkeiten, die Sie in diesem Kurs erlernen, sind also einige Grundlagen der Statistik. Wir werden beschreibende Statistiken, grafische Zusammenfassungen, Verteilungen, Histogramm, Box-Plot, Balkendiagramme und Tortendiagramme behandeln grafische Zusammenfassungen, Verteilungen, Histogramm, Box-Plot, . Ich werde eine neue Serie über den Test der Hypothese einrichten, die ich im Link als Link im letzten Video teilen werde . Aber lassen Sie uns zunächst die verschiedenen Arten der grafischen Analyse verstehen . Wer sollte an diesem Kurs teilnehmen? Jeder, der Lean Six Sigma studiert, sich als Green Belt, Black Belt zertifizieren lassen möchte oder Statistiken und grafische Analysen an seinem Arbeitsplatz anwenden möchte. Auch wenn Sie Unternehmer oder Student sind und Statistiken mithilfe von MiniTab verstehen möchten. Ich werde alles behandeln. Wir werden lernen, welche Fehler häufig bei der Analyse passieren. Denn wenn wir Analysen mit einfachen theoretischen Datenpunkten durchführen, scheint alles normal zu sein. Deshalb zeige ich Ihnen einige Fallen, in denen unsere Analyse scheitern wird und wie Sie diese Fallen vermeiden sollten. Wir werden versuchen, am Ende dieses Programms zu sagen, was Sie aus diesem Programm mitnehmen werden? Sie werden verstehen, wie man einige grundlegende Analysen durchführt. Sie werden verstehen, welche Tools während Ihrer Messphase erforderlich sind, wie Fähigkeitsberechnungen usw. Wir werden während der Analysephase also, wenn möglich, den Test der Hypothese abdecken. Andernfalls, wenn es wird, wird das Video größer, ich werde es als separates Bild setzen. Ivan behandelt auch, welches Diagramm verwendet werden soll , wenn einige häufige Fehler auftreten, und wir führen grafische Analysen durch und erstellen Grafiken. Und wie kann ich aus diesen Grafiken Erkenntnisse und Schlussfolgerungen ziehen? Dies wird Ihnen wirklich helfen dieses Programm wirklich gut zu verstehen. Mal sehen was ist ein Minitab? Minitab ist eine Statistiksoftware, die verfügbar ist und über mehrere Regionen verfügt. Also suche ich mir ein neues Projekt. Mein Minitab-Bildschirm sieht ungefähr so aus. Ich habe einen Navigator auf der linken Seite. Ich habe meinen Ausgabebildschirm oben, ich habe mein Datenblatt, das einem Excel-Blatt sehr ähnlich ist, mit dem ich arbeiten kann. Ich kann diese Blätter weiter hinzufügen und habe viele Daten. Ich kann mit meinen Optionen viele Analysen durchführen. Wir werden grundlegende Statistiken behandeln, Regression. Wir werden viele grundlegende Statistiken behandeln und wir werden viele Grafiken mit verschiedenen Datentypen behandeln , oder? Wenn Sie also daran interessiert waren, diese Dinge zu wissen, sollten Sie sich auf jeden Fall anmelden und mein Video ansehen. Ich danke dir sehr. 2. Zusammenfassung der Einführung in Lean Six Sigma: Die Übertragungsfunktion von Six Sigma verstehen. Lassen Sie uns nun die Funktion und ihre Relevanz bei Six Sigma untersuchen und ihre Relevanz bei Six Sigma Dies beginnt mit dem Verständnis der mathematischen Beziehung Y ist eine Funktion von X. In dieser Gleichung steht Y für den Output und die Ergebnisse oder das Ergebnis, das wir verbessern möchten. X steht für die Eingabevariable oder das Muster. F steht für die Funktion oder die Transformation, die auf diese Eingaben angewendet werden kann. Im Wesentlichen geht es bei Fix Sigma darum, den X-Faktor zu identifizieren und zu optimieren, also die Eingaben, die die Ausgabe steuern Durch die Verbesserung des Xs müssen wir das Y verbessern, oder wir konzentrieren uns auf die Verbesserung des Y. Das Beispiel der Übertragungsfunktion in Schauen wir uns ein Beispiel an: Wir rufen einen technischen Support an, um ein Computerproblem zu lösen In der definierten Phase definieren wir ein Problem, d. h. wie lange es dauert, bis ein Kunde eine Lösung erhält. Y, was der Zeit bis zur Lösung entspricht, O ist die Gesamtzeit zur Lösung des Kundenproblems benötigt wird. In der Maßnahmenphase identifizieren und messen wir die verschiedenen Faktoren, die an dem Anruf beteiligt waren. Wie die Zeit in der Warteschlange, die Zeit mit dem Support, die Zeit, die für die Weiterleitung der Anrufe zwischen den Agenten aufgewendet wurde, die Lösungszeit. Analysephase ermitteln wir, welche X entscheidend sind und welche typischen Abweichungen zwischen den Faktoren bestehen. Während der Verbesserungsphase führen wir Änderungen durch, um den Zeitaufwand für jeden Schritt zu reduzieren. Vielleicht geht es dort um die Automatisierung bestimmter Reaktionen oder die Optimierung der Routinelogik Während der Kontrollphase überwachen wir das System, um sicherzustellen, dass sich das Y , das die Zeit bis zur Problemlösung darstellt, tatsächlich verbessert hat und im Laufe der Zeit in Ordnung geblieben ist Problemlösung darstellt, tatsächlich verbessert hat und im Laufe der Zeit in Ordnung geblieben Dieser Prozess kann kontinuierlich wiederholt werden , um weitere Verbesserungen voranzutreiben. Bei strikter Anwendung ist DMAC eine leistungsstarke, wiederholbare Methode zur Erzielung messbarer Erträge zur Zusätzliche Verbesserungen, Methoden in Six Sigma Sixema verwendet andere bewährte Tools, Techniken und Praktiken, einschließlich statistischer Es verwendet ein Kontrolldiagramm um die Veränderung im Laufe der Zeit zu überwachen Es verwendet die obere und untere Kontrollgrenze, um festzustellen, wann der Prozess statistisch gesehen außer Kontrolle geraten ist SPC-Tools können den DMX-Zyklus auslösen , wenn Variation und Fehler den akzeptablen Schwellenwert überschreiten Tools zur Reduzierung von Abweichungen und Mängeln gehören üblicherweise zum gesamten Qualitätsmanagement Sie helfen dabei, die Grundursache und Optimierungsmöglichkeiten zu identifizieren . Diese Tools spielen in der Analyse- und Verbesserungsphase von DMC eine Schlüsselrolle der Analyse- und Verbesserungsphase von DMC Teamwork und Qualitätszirkel. Ursprünglich von Teta ausgehend, basierte der Schwerpunkt auf einem teambasierten Ansatz zur Prozessverbesserung Mitarbeiter auf allen Ebenen arbeiten regelmäßig zusammen, um ein Problem mithilfe der in Six Sigma bereitgestellten Tools und Methoden Die Qualitätszirkel integrieren häufig statistische Tools, DMAT- und DPATrduction-Techniken Als nächstes die Six-Sigma-Projekte und die Yellow Belt Road. Im nächsten Abschnitt werden wir uns den Six-Sigma-Projekten befassen und aufzeigen, was ein gelber Gürtel wissen muss, einschließlich der Rollen und Verantwortlichkeiten des Projekts und des Werts , den der Gelbe Gürtel für das Verbesserungsteam bietet Regel kann die Dauer eines Six-Sigma-Projekts erheblich variieren Ein kurzfristiges Projekt kann nur ein paar Stunden oder Tage dauern, insbesondere wenn es von einem kleinen Qualitätsteam geleitet wird , das sich um schrittweise Aufgaben kümmert Ein langfristiges Projekt kann sich über ein Jahr erstrecken, insbesondere wenn der Umfang komplex und funktionsübergreifend ist Hier kommt der schwarze Gürtel ins Spiel. Die typischsten Six-Sigma-Projekte, bei denen es sich um ein grünes Band handelt, laufen jedoch etwa vier bis acht Wochen, sodass genügend Zeit für die Datenerfassung bleibt, und durchlaufen alle Phasen des DMC-Zyklus Zehn Rollen in Six-Sigma-Projekten. Jedes Teammitglied spielt eine eigene und entscheidende Rolle. Lasst uns sie verstehen. Ein Master Black Belt und ein Blag. Diese Leute leiten und verwalten Projekte. Sie sorgen für die Ausrichtung an Strategie und betreuen die Teammitglieder. Grüngürtel. Sie führten detaillierte Analysen durch, sammelten Daten und halfen bei der Implementierung von Prozessverbesserungen. Gelbe Gürtel sind die Personen, die wichtige Informationen liefern, bei der Datenerfassung helfen und die Implementierungsaktivitäten unterstützen. zwar keine Projektleiter, haben aber eine sehr wichtige Rolle als Yellow Bells sind zwar keine Projektleiter, haben aber eine sehr wichtige Rolle als Teammitglied, das die tägliche Umsetzung des Six Sigma-Projekts vorantreibt Umsetzung des Six Sigma-Projekts Was sind die gemeinsamen Ziele der Six-Sigma-Projekte? Die Projekte sind unterschiedlich umfangreich und konzentrieren sich häufig darauf , Schwankungen im Kundenerlebnis zu reduzieren In der heutigen Welt ist Erfahrung sehr wichtig. Verkürzung der Markteinführungszeit, Beseitigung von Fehlern und Defekten, Senkung der Betriebskosten einige wichtige Aspekte bei der Implementierung von Six Sigma und der Ausschreibung durch die Geschäftsleitung und das Angebot Projekte ohne starke Unterstützung, Finanzierung und Sichtbarkeit durch die Unternehmensleitung unterscheiden sich deutlich Angemessenheit der Methodik. Pi Sigma ist so mächtig, aber es ist nicht für jedes Problem geeignet Vermeiden Sie eine Einheitsmethode oder Mentalität. Fangen Sie klein an und skalieren Sie dann. Bauen Sie Selbstvertrauen und Fähigkeiten auf, die kleinere, überschaubare Projekte sind , bevor Sie eine umfassendere Transformation in Angriff nehmen. Wissen Sie, wann Sie andere Ansätze anwenden sollten? In einigen Fällen können alternative Methoden besser geeignet sein Lean-Initiative, Neugestaltung von Geschäftsprozessen, wir nennen das BPR, Geschäftsprozessmanagement Oder die andere Methode , die verwendet werden kann. Die Kontrolle des Umfangs ist sehr wichtig. Wenn der Projektumfang zu weit gefasst ist und kein klares Ergebnis vorliegt, wird er unüberschaubar Kosten versus Nutzen. Berücksichtigen Sie den ROI, bevor Sie Zeit und Ressourcen investieren. Ein Beispiel: 100 Stunden aufzuwenden, um nur 10 Stunden pro Jahr einzusparen , ist kein effektiver Kompromiss. Eignungsbeurteilung durchzuführen Es ist sehr wichtig, vor Beginn eines Projekts eine Eignungsbeurteilung durchzuführen. Dies hilft Ihrer Organisation, sich darauf vorzubereiten, bevor wir ein Projekt in Angriff nehmen Definieren Sie das gewünschte Ergebnis. Was versuchen wir zu erreichen und warum? Legen Sie Erfolgskriterien fest. Wie sieht Erfolg sowohl für die Organisation als auch für die beteiligten Personen aus? Bewerten Sie die Datenverfügbarkeit. Verfügen wir über zuverlässige, relevante und aktuelle Daten zur Unterstützung der Analyse? Stellen Sie das richtige Team zusammen. Haben wir Mitarbeiter mit den Fähigkeiten, dem Einfluss und dem Engagement, um das Produkt erfolgreich zu machen? Erstellen Sie einen Geschäftsszenario. Was ist der Wert einer Verbesserung? Wer profitiert tendenziell davon und wer könnte widerstehen? Was ist der erwartete ROI? Organisation darauf Bei der Planung eines Six-Sigma-Projekts ist es sehr wichtig, die Sind diese Schlüsselfragen, weil sie sehr wichtig sind. Ist, wie sieht der zukünftige Staat im Vergleich zur aktuellen Situation aus? Lösen wir ein echtes Problem in unserem Geschäft? Ist jetzt der richtige Zeitpunkt , Six Sigma zu implementieren? Eine sorgfältige Bewertung stellt sicher, dass das Six Sigma-Projekt nicht nur relevant, sondern auch realisierbar und für unser Unternehmen von großer Wirkung ist Wirkung Evaluieren wir die Leistung? Haben wir eine überzeugende Begründung für die Anwendung von Six Sigma in unserem Geschäftsszenario Und schließlich, passiert in Ihrem Projekt noch etwas anderes , das Ihre Aufmerksamkeit erfordert Gibt es bei Six Sigma tatsächlich den richtigen Ansatz? Diese Fragen können sicherstellen, dass unsere Organisation bereit ist Six SEMA für ein bestimmtes Es gibt drei wichtige Schritte, um zu beurteilen, ob die Organisation bereit Erster Schritt: Beurteilen Sie die Aussichten und den zukünftigen Weg. Stellen Sie die Frage, ist meine Kette kritisch? Unternehmen brauchen es jetzt. Bewerten Sie die aktuelle Leistung. Stellen Sie die Frage. Gibt es eine überzeugende strategische Begründung für die Anwendung von Six Sigma in unserem Geschäft? Überprüfen Sie die Systeme und die Fähigkeit zur Veränderung. Stellen Sie sich die Frage: Kann die bestehende Verbesserung das Maß an Veränderung bewirken, das erforderlich ist, um erfolgreich und wettbewerbsfähig zu bleiben, ohne Six Sigma zu verwenden Denken Sie zunächst darüber nach, wie wichtig das Kundenerlebnis und die Kundenzufriedenheit Wir konzentrieren uns auf die Stimme des Kunden, um Veränderungen voranzutreiben. Verbesserungen sind unerlässlich und der Kunde braucht sie. Hier kommen sechs Sigma-Datenanalysetools zum Einsatz. Es hilft uns zu verstehen , was dem Kunden wirklich wichtig ist Six Sigma bietet ein leistungsstarkes Tool für die strategische Zukunftsplanung, strategische Zukunftsplanung indem es die Effektivität des Marketings verbessert, die Dinge gleich beim ersten Mal richtig macht und identifiziert, was den Kunden an unseren Projekten und Dienstleistungen wirklich wichtig ist unseren Projekten und Dienstleistungen Ein solches wertvolles Tool im Six Sigma Toolkit ist das CO-Modell, das uns hilft , Kundenbedürfnisse besser zu verstehen und zu priorisieren Das CO-Modell ist eine Methode, um Daten von Kunden zu sammeln und zu verstehen, was für von Kunden zu sammeln und zu verstehen sie wirklich wichtig ist Was unterscheidet unsere Angebote von den anderen? Es hilft uns dabei, wichtige Dinge zu identifizieren , z. B. welche Funktionen die Kundenzufriedenheit erhöhen können, Kundenzufriedenheit erhöhen können wenn sie dem Kunden gut zugeordnet werden Was sind die potenziellen Unannehmlichkeiten, die das Kundenerlebnis beeinträchtigen könnten, wenn sie nicht adressiert Durch die Analyse dieser Rückmeldungen können wir Verbesserungen priorisieren, die einen größeren Mehrwert für unsere Kunden schaffen können einen größeren Mehrwert für unsere Kunden schaffen Lassen Sie uns nun über die strategische Planung nachdenken . Six Sigma-Analysen können eine entscheidende Rolle spielen , indem sie wichtigsten Faktoren identifizieren, die Kunden antreiben Kundenzufriedenheit, Integration dieser Faktoren in die strategische Planung Leistungsverbesserungen sind am dringendsten erforderlich. In einer Unternehmenskultur, die Teil des Standardansatzes von TIC Sigma ist, können Teams durch effektive Projektplanung, Entwicklung von Kennzahlen, Kontrollsysteme Entwicklung von Kennzahlen, Kontrollsysteme und Qualitätszirkelteams die Leistungsausrichtung im gesamten Unternehmen erheblich verbessern Rentabilität hat weiterhin oberste Priorität. Six Sigma ist besonders wirksam bei der Senkung der Qualitätskosten Viele Unternehmen geben 20 bis 75% der Kosten aus , um lediglich die Qualität ihrer Produkte und Dienstleistungen sicherzustellen Durch die Senkung dieser Kosten halten wir uns eng an den Erwartungen unserer Kunden und liefern durchweg besser und schneller als unsere Mitbewerber. Okay. Konzept von Len. Lean Manufacturing, insbesondere im Dienstleistungssektor, bedeutet Initiativen zur kontinuierlichen Verbesserung anzuerkennen. Im Kern konzentriert sich N auf die Rationalisierung und Verbesserung Prozessen, um mehr Wert mit Ihren Ressourcen zu schaffen TaHiOo, der oft als Vater des modernen Pfandrechts angesehen wird, betonte, dass der Kern des Pfandrechts in einem einfachen Prinzip besteht Zeit vom Eingang der Kundenbestellung bis zum Erhalt der Zahlung für deren Erfüllung zu berechnen Kundenbestellung bis zum Erhalt und dann kontinuierlich daran zu arbeiten, und dann kontinuierlich daran zu arbeiten diese Zeit so kurz wie möglich Bei Len geht es im Wesentlichen darum , Verschwendung im gesamten Wertbereich zu unnötige Zeit, Mühe und Ressourcen zu reduzieren Das Ergebnis ist eine Maximierung des Werts, Verbesserung der Effizienz, eine bessere Qualität und eine höhere Kundenzufriedenheit. In einer Fertigungseinrichtung gibt es viele Erfolgsgeschichten. Derzeit haben wir viel, auch im Dienstleistungssektor. 3. Projektarbeit: Lassen Sie uns verstehen, was die Projektarbeit ist , die wir in diesem Datenanalyseprogramm mit MiniTab erledigen werden. Wie ich Ihnen bereits sagte, werden wir mit MiniTab zusammenarbeiten. Und das ist das Minitab , das ich verwenden werde. Ich werde Ihnen auch ein Datenblatt zur Verfügung stellen, Ihr Projektdatenblatt, in dem ich mehrere Beispiele habe, in denen wir Berechnungen zur Leistungsfähigkeit durchführen. Wir werden versuchen, Distributionen zu sehen und Sie können sehen, dass es verschiedene Registerkarten gibt. Beispiel eins Beispiel zwei Beispiel drei, wir werden versuchen, eine Trendanalyse durchzuführen. Wir werden versuchen, Pareto-Charts zu sehen. Wir haben viele Daten, die mit Ihnen geteilt wurden, was Ihnen eine praktische Erfahrung bei der Arbeit mit Daten bietet, oder? Also lass uns anfangen. 4. Grundlagen der Statistik: Willkommen zu unserem nächsten wichtigen Thema, Grundlagen der Statistik. In diesem Video erfahren Sie, was Statistik ist, was deskriptive Statistik ist und was Inferenzstatistik Fangen wir mit der ersten Frage an. Was ist Statistik? Statistik befasst sich mit der Erfassung, Analyse und Präsentation von Daten. Wenn wir beispielsweise untersuchen wollen, ob das Geschlecht einen Einfluss auf die bevorzugte Zeitung hat , dann sind Geschlecht und Zeitung unsere sogenannten Variablen , die wir analysieren möchten. Um zu analysieren, ob das Geschlecht einen Einfluss auf die bevorzugte Zeitung hat . Wir müssen zuerst Daten sammeln. Dazu erstellen wir einen Fragebogen, Geschlecht und bevorzugter Zeitung gefragt wird. Wir werden dann die Umfrage verschicken und zwei Wochen warten. Danach können wir uns die eingegangenen Antworten in einer Tabelle in dieser Tabelle anzeigen lassen . Wir haben eine Spalte für jede Variable, eine für das Geschlecht und eine für die Zeitung. Andererseits steht jede Zeile für die Antwort einer Person. Zum Beispiel ist der erste Befragte männlich und gab die Zeiten Indiens an Der zweite ist weiblich und gibt an, Hindu zu sein, und so weiter Natürlich müssen die Daten nicht aus einer Umfrage stammen. Die Daten können auch aus einem Experiment stammen, bei dem. Sie möchten beispielsweise die Wirkung von zwei Medikamenten auf den Blutdruck untersuchen . Betrachten wir ein anderes Beispiel aus dem wirklichen Leben. Stellen Sie sich vor, Sie sind Filialleiter und möchten wissen, ob ein neues Produktdisplay den Umsatz steigert. Sie könnten schon früher Daten über Verkäufe sammeln. Und wenn das neue Display eingerichtet ist, können Sie anhand dieser Daten die Effektivität des Displays analysieren. Oder nehmen Sie an, Ihr Schulleiter möchte herausfinden, ob zusätzliche Nachhilfestunden den Schülern helfen, ihre Mathematikergebnisse zu verbessern Könnten Sie zuvor Ergebnisse sammeln ? Nach den Nachhilfesitzungen , um die Auswirkungen zu analysieren. Jetzt ist der erste Schritt getan. Wir haben Daten gesammelt und können mit der Analyse der Daten beginnen. Aber was wollen wir eigentlich analysieren? Wir haben nicht die gesamte Bevölkerung befragt , sondern eine Stichprobe genommen. Die große Frage ist nun, wollen wir nur die Stichprobendaten beschreiben oder wollen wir eine Aussage über die gesamte Bevölkerung treffen ? Wenn unser Ziel auf die Stichprobe selbst beschränkt ist. Das heißt, wir wollen nur die gesammelten Daten beschreiben. Wir werden deskriptive Statistiken verwenden. Deskriptive Statistiken bieten eine detaillierte Zusammenfassung der Stichprobe Wenn wir beispielsweise 100 Personen nach ihrer bevorzugten Zeitung befragen würden, würden uns deskriptive Statistiken Aufschluss darüber geben, wie viele Menschen indische oder hinduistische Zeiten bevorzugen Wenn wir jedoch Rückschlüsse auf die Gesamtbevölkerung ziehen wollen Rückschlüsse auf die Gesamtbevölkerung Wir verwenden Inferenzstatistiken. Dieser Ansatz ermöglicht es uns, anhand unserer Stichprobendaten Rückschlüsse auf die Population zu anhand unserer Stichprobendaten Rückschlüsse auf die Population Mithilfe von Inferenzstatistiken könnten wir beispielsweise anhand einer Stichprobe von 500 Befragten den Anteil aller Erwachsenen in einer Stadt schätzen , die eine bestimmte Zeitung bevorzugen , die eine bestimmte Zeitung , die eine Inferenzstatistiken können uns auch dabei helfen, festzustellen, ob eine bestimmte demografische Gruppe, wie das Geschlecht, die Zeitungspräferenzen signifikant beeinflusst Durch die Analyse unserer Stichprobendaten können wir Rückschlüsse auf die Zeitungspräferenzen der gesamten Bevölkerung Durch die Verwendung sowohl deskriptiver als auch inferentieller Statistiken können wir ein tieferes Verständnis unserer Ergebnisse gewinnen und fundierte Entscheidungen über Marketingstrategien oder die Erstellung von Inhalten für In der nächsten Lektion werden wir uns eingehender mit praktischen Anwendungen der Statistik befassen . Bleiben Sie dran. 5. Bedeutung von Messebenen oder Datentypen: Bedeutung der Messebenen. Das Verständnis der Messebene ist aus mehreren Gründen von entscheidender Bedeutung. Angemessene Analyse. Verschiedene Messebenen erfordern unterschiedliche statistische Techniken. Die Verwendung der falschen Methode kann zu falschen Schlussfolgerungen führen. Interpretation der Daten. Die Kenntnis des Levels hilft, die Ergebnisse falsch zu interpretieren. Mittelwerte sind beispielsweise für Intervall - und Verhältnisdaten aussagekräftig , nicht jedoch für nominale oder ordinale Daten Visualisierung und effektive Datenvisualisierungstechniken variieren je nach Messebene Balkendiagramme eignen sich für nominale Daten, während Histogramme besser für Intervall- und Verhältnisdaten geeignet sind Lassen Sie uns näher auf die einzelnen Messebenen eingehen. Nominales Messniveau. Nominale Variablen kategorisieren Daten ohne eine aussagekräftige Reihenfolge festzulegen Befragten zum Beispiel nach der Befragten zum Beispiel nach ihrem Verkehrsmittel zur Schule, zum Bus, zum Auto, zum Fahrrad oder zu Fuß ist nominell Jede Kategorie ist unterschiedlich, aber es gibt keine inhärente Rangfolge oder Reihenfolge zwischen ihnen. Die Analyse nominaler Daten beinhaltet das Zählen Häufigkeiten oder die Verwendung von Balkendiagrammen zur Visualisierung von Verteilungen Ordinale Messebene Ordinalvariablen sorgen für eine sinnvolle Reihenfolge oder Rangfolge zwischen den Kategorien, aber die Unterschiede zwischen Rängen sind nicht Schüler beispielsweise gebeten werden, ihre Zufriedenheit mit ihrem Verkehrsmittel als „ sehr zufrieden“, „zufrieden“, „neutral“, „ zufrieden“ oder „sehr zufrieden“ einzustufen, zeigt dies eine ordinale Wir können diese Antworten zwar von den am wenigsten zufriedenen bis hin zu den am meisten zufriedenen einordnen , der numerische Unterschied zwischen zufrieden und sehr zufrieden ist nicht quantifizierbar Die Analyse umfasst in der Regel Medianberechnungen und nichtparametrische Tests Messintervalle und Mengenverhältnisse , metrische Variablen Intervall- und Verhältnisvariablen werden als metrische Variablen betrachtet. gemeinsam, dass die Intervalle zwischen den Werten gleichmäßig verteilt sind, aber Verhältnisvariablen haben auch einen echten Nullpunkt, sodass alle arithmetischen Beispiele hierfür sind die Messung von Alter, Gewicht oder Einkommen. Befragten beispielsweise nach der Anzahl der Minuten gefragt werden, die es dauert, bis sie zur Schule kommen , werden Intervalldaten gemessen, wobei die Intervalle zwischen den Antworten, z. B. 10 Minuten, 20 Minuten, konsistent und aussagekräftig sind. Dies ermöglicht statistische Messungen wie die Berechnung Durchschnittswerten und den Einsatz fortgeschrittener statistischer Techniken wie der Regressionsanalyse Zusammenfassung. Das Verständnis dieser Messebenen ist entscheidend für die Gestaltung von Umfragen und Auswahl geeigneter statistischer Analysen. nominalen Daten geben uns Aufschluss über Kategorien ohne jegliche Reihenfolge. Ordinaldaten ermöglichen eine Rangfolge, aber keine genaue Messung von Unterschieden, und das Intervall und das Verhältnis metrischer Daten ermöglichen präzise Messung und unterstützen eine Vielzahl statistischer Analysen ob Frequenztabellen, Balkendiagramme oder Histogramme erstellt werden, die Auswahl der richtigen Messgröße gewährleistet eine genaue Interpretation der Daten und aussagekräftige Erkenntnisse in verschiedenen Studien- und Forschungsbereichen Schauen wir uns die einzelnen Messebenen genauer an. Nominaler Messpegel. Die nominalen Daten sind die grundlegendste Messebene. Nominale Variablen kategorisieren Daten, ermöglichen jedoch keine aussagekräftige Rangfolge der Kategorien Zu den Beispielen gehören Geschlecht, Mann, Frau, Tierarten, Hund, Katze, Vogel und bevorzugte Zeitungen In all diesen Fällen können Sie zwischen Werten unterscheiden, die Kategorien jedoch nicht sinnvoll einordnen Um beispielsweise zu untersuchen, ob das Geschlecht die bevorzugte Zeitung beeinflusst werden nominale Variablen verwendet In einem Fragebogen würden Sie mögliche Antworten für beide Variablen auflisten. Da es keine inhärente Reihenfolge gibt, die Anordnung der Kategorien im Fragebogen keine Rolle. gesammelten Daten können in einer Tabelle dargestellt werden , und Häufigkeitstabellen oder Balkendiagramme können verwendet werden, um die Verteilungen zu visualisieren Ordinale Ebene der Messung. Ordinaldaten können in einer sinnvollen Reihenfolge kategorisiert und geordnet werden, aber die Unterschiede zwischen den Rängen sind mathematisch gesehen nicht gleich Beispiele hierfür sind Rankings, erster , zweiter, dritter Platz, Zufriedenheitswerte, sehr unzufrieden, unzufrieden, neutral, zufrieden, sehr zufrieden, Bildungsniveau, Gymnasium, Bachelor, Master, in diesem Fall, obwohl die Reihenfolge aussagekräftig , zweiter, dritter Platz, Zufriedenheitswerte, sehr unzufrieden, unzufrieden, neutral, zufrieden, sehr zufrieden, Bildungsniveau, Gymnasium, Bachelor, Master, in diesem Fall, obwohl die Reihenfolge aussagekräftig ist. Die Abstände zwischen den Rängen sind nicht unbedingt gleich. Wenn Sie beispielsweise in einem Fragebogen gefragt werden, wie zufrieden Sie mit Ihrem aktuellen Job sind, wobei Optionen von sehr unzufrieden bis sehr zufrieden reichen Die Antwortkategorien sind geordnet, aber der genaue Unterschied zwischen den einzelnen Zufriedenheitsgraden ist nicht Bei der Analyse von Ordinaldaten werden häufig Mediane berechnet und nichtparametrische Tests verwendet Intervallniveau der Messung. Intervalldaten haben gleiche Intervalle zwischen den Werten, aber es fehlt ein echter Nullpunkt. Beispiele hierfür sind Temperaturen in Celsius oder Fahrenheit. Intervalldaten ermöglichen die Messung von Unterschieden zwischen Werten Da es jedoch keine echte Null gibt, sind Verhältnisse nicht aussagekräftig. Statistische Operationen wie die Berechnung von Durchschnittswerten und die Verwendung von Techniken wie Regressionsanalyse sind möglich Verhältnis, Ebene der Messung. Verhältnisdaten weisen gleiche Intervalle zwischen den Werten auf und beinhalten einen echten Nullpunkt. Beispiele hierfür sind Alter, Gewicht oder Einkommen, da Verhältnisdaten eine echte Null enthalten. Alle arithmetischen Operationen sind gültig. Diese Stufe ermöglicht die Berechnung von Verhältnissen und Durchschnittswerten und ermöglicht die Verwendung fortgeschrittener statistischer Methoden Oh. Was wir bisher anhand eines Beispiels gelernt haben . Stellen Sie sich vor, Sie führen eine Umfrage in einer Schule durch, um zu verstehen, wie Schüler zur Schule kommen. Hier sind Fragen, die Sie stellen könnten. Jedes entspricht einer anderen Messebene. Die erste Frage könnte sein, welchem Verkehrsmittel fahren Sie zur Schule? Zu den Optionen könnten Bus, Auto, Fahrrad oder zu Fuß gehören. Dies ist eine nominale Variable. Die Antworten können kategorisiert werden, aber es gibt keine sinnvolle Reihenfolge. Das bedeutet, dass der Bus nicht höher ist als das Fahrrad. Gehen ist nicht höher als Auto und so weiter. Wenn Sie die Ergebnisse dieser Frage analysieren möchten, können Sie zählen, wie viele Schüler jedes Verkehrsmittel nutzen , und dies in einem Balkendiagramm darstellen. Als Nächstes fragen Sie sich vielleicht, wie zufrieden Sie mit Ihrem aktuellen Verkehrsmittel sind . Folgende Optionen stehen zur Auswahl: sehr unzufrieden, unzufrieden, neutral, zufrieden oder sehr zufrieden Dies ist eine ordinale Variable. Sie können die Antworten in eine Rangfolge einordnen, um zu sehen, mit welchem Verkehrsmittel die Zufriedenheit höher bewertet Aber der genaue Unterschied zwischen zufrieden und sehr zufrieden. Zum Beispiel ist nicht quantifizierbar. Zur letzten Frage: Wie viele Minuten brauchst du, um zur Schule zu kommen? Hier sind Minuten bis zur Schule eine metrische Variable. Sie können die durchschnittliche Zeit berechnen, die benötigt wird, um zur Schule zu gehen, und dabei alle gängigen statistischen Messgrößen verwenden. Wir können diese Daten mit einem Histogramm visualisieren , das die Verteilung der Zeiten zeigt den Schulweg benötigt werden, und die verschiedenen Verkehrsmittel miteinander vergleichen Anhand nominaler Daten können wir also die Antworten kategorisieren und zählen, aber wir können keine Reihenfolge ableiten Ordinaldaten ermöglichen es uns, Antworten zu ordnen, aber keine genauen Unterschiede zwischen den Rängen zu messen Metrische Daten ermöglichen es uns, genaue Unterschiede zwischen Datenpunkten zu messen genaue Unterschiede zwischen Datenpunkten Wie bereits erwähnt, können metrische Messebenen weiter in Intervallskalen und Verhältnisskalen unterteilt werden Intervallskalen und Verhältnisskalen Aber was ist der Unterschied zwischen Intervall - und Verhältnisniveaus Lassen Sie uns den Unterschied zwischen den Messstufen Intervall und Verhältnis anhand eines Beispiels untersuchen . Messniveau im Vergleich zum Verhältnis zwischen Intervall und Verhältnis. Bei einem Marathon dient die Zeit, die Läufer benötigen , um das Rennen zu beenden, als praktisches Beispiel. Stellen Sie sich ein Szenario vor, in dem der schnellste Läufer in 2 Stunden und der langsamste in 6 Stunden ins Ziel So klassifizieren wir das Messniveau anhand der bereitgestellten Informationen Verhältnis des Messniveaus. Ein Verhältnismaß ist dadurch gekennzeichnet, dass es einen echten Nullpunkt hat, wobei Null das Fehlen der zu messenden Menge bedeutet. Im Marathon-Beispiel starten alle Läufer zu Beginn des Rennens zur gleichen 0,0-Zeit. Mit einem echten Nullpunkt können wir aussagekräftige Vergleiche anstellen und beispielsweise feststellen, dass der schnellste Läufer dreimal weniger Zeit benötigt hat als der langsamste Läufer, nämlich 2 Stunden gegenüber 6 Stunden Diese Stufe ermöglicht sinnvolle Multiplikations - und Divisionsoperationen Wenn zum Beispiel ein Läufer in 4 Stunden und ein anderer in 12 Stunden fertig ist, können wir genau sagen, dass der erste Läufer dreimal schneller war als der zweite Intervallniveau der Messung. Bei einer Intervallmessung fehlt ein echter Nullpunkt. im Marathonkontext Wenn im Marathonkontext die Stoppuhr zu spät startet und wir nur die Zeitunterschiede zum schnellsten Läufer messen die Zeitunterschiede zum , der pünktlich gestartet ist, verlieren wir die echte Nullreferenz. Obwohl die Intervalle zwischen den Werten immer noch gleichmäßig verteilt sind und arithmetische Operationen wie Addition und Subtraktion gültig sind, sind Multiplikation und beispielsweise sinnvoll zu sagen, dass ein Läufer 4 Stunden vor einem anderen ins Ziel Wir können jedoch nicht sagen, dass ein Läufer viermal schneller war als ein anderer, ohne die Gesamtzeit für beide zu kennen. Zusammenfassend lässt sich sagen, dass die Messung auf Intervallebene gleiche Intervalle zwischen den Werten ermöglicht und Operationen wie Addition und Subtraktion unterstützt, aber keinen echten Nullpunkt besitzt , der für aussagekräftige Verhältnisse erforderlich ist Nun eine kleine Übung, um zu überprüfen, ob dir alles klar ist Erstens haben wir den Bundesstaat USA, was eine nominale Messgröße ist. Das bedeutet, dass die Daten zur Kennzeichnung oder Benennung von Kategorien ohne quantitativen Wert verwendet werden. In diesem Fall handelt es sich bei den Staaten um Namen ohne inhärente Reihenfolge oder Rangfolge. Als Nächstes haben wir Produktbewertungen auf einer Skala von 1—5. Dies ist ein Beispiel für Ordinaldaten. Hier haben die Zahlen eine Reihenfolge oder einen Rang. Fünf ist besser als eins, aber die Abstände zwischen den Bewertungen sind nicht unbedingt gleich. Kommen wir nun zu den Namen von Abteilungen wie Beschaffung, Vertrieb, Betrieb und Finanzen. Auch das ist nominell gemeint. Die hier verwendeten Kategorien, z. B. verschiedene Abteilungen dienen der Kategorisierung und implizieren keine Reihenfolge Als nächstes haben wir die CO2-Emissionen in einem Jahr, die anhand eines metrischen Verhältnisses gemessen werden. Dieses Niveau ermöglicht das gesamte Spektrum mathematischer Operationen, einschließlich aussagekräftiger Kennzahlen. Nullemissionen bedeuten überhaupt keine Emissionen. Dann haben wir Telefonnummern. Telefonnummern sind zwar numerisch, werden aber als Nennnummern eingestuft. Sie sind lediglich Identifikatoren ohne numerischen Wert für die Analyse Das Komfortniveau ist ein weiteres ordinales Beispiel. Dazu könnten Stufen wie niedrige, mittlere und hohe Pflegestufe gehören , die zwar auf eine Reihenfolge hinweisen, aber nicht den genauen Unterschied zwischen diesen Stufen Wohnfläche in Quadratmetern wird auf einer Verhältnisskala gemessen. Wie bei den CO2-Emissionen bedeuten Quadratmeter, dass es keine Wohnfläche gibt und Vergleiche wie das Doppelte oder die Hälfte sind aussagekräftig. Schließlich haben wir die Arbeitszufriedenheit auf einer Skala von 1—4 angegeben. Das sind Ordinaldaten. Dabei werden die Zufriedenheitsgrade eingestuft, der Unterschied zwischen den einzelnen Stufen wird jedoch nicht quantifiziert In der nächsten Lektion werden wir uns eingehender praktischen Anwendungen der Versuchsplanung befassen. Bleib dran. 6. Maße der Mitte und Maße der Dispersion: Lassen Sie uns beide Methoden untersuchen, beginnend mit deskriptiven Statistiken Warum ist deskriptive Statistik wichtig? Zum Beispiel, wenn ein Unternehmen verstehen möchte, wie seine Mitarbeiter zur Arbeit pendeln Es kann eine Umfrage erstellen, um diese Informationen zu sammeln. Sobald genügend Daten gesammelt wurden, können sie mithilfe deskriptiver Statistiken analysiert werden Was genau ist deskriptive Statistik? Ihr Zweck besteht darin, einen Datensatz auf sinnvolle Weise zu beschreiben und zusammenzufassen Es ist jedoch wichtig zu beachten, dass deskriptive Statistiken nur die gesammelten Daten widerspiegeln und keine Rückschlüsse auf eine größere Mit anderen Worten, wenn wir wissen, wie einige Mitarbeiter in einem Unternehmen pendeln, können wir uns keine Sorgen darüber machen, wie es allen Arbeitnehmern Um Daten deskriptiv zu beschreiben, konzentrieren wir uns nun auf vier Hauptkomponenten Messungen der zentralen Tendenz, Streuungsmaße, Häufigkeitstabellen und Diagramme Beginnen wir mit Messgrößen für die zentrale Tendenz, zu denen der Mittelwert, der Median und mehr gehören Zunächst wird der Mittelwert, das arithmetische Mittel, berechnet, indem alle Beobachtungen addiert und durch die Anzahl der Beobachtungen dividiert werden Wenn wir beispielsweise die Testergebnisse von fünf Schülern haben, summieren wir die Ergebnisse und dividieren sie durch fünf, um zu ermitteln dass das durchschnittliche Testergebnis 86,6 beträgt Als nächstes folgt der Median. Wenn die Werte in einem Datensatz in aufsteigender Reihenfolge angeordnet sind, ist der Median der mittlere Wenn es eine ungerade Anzahl von Datenpunkten gibt, ist es einfach der mittlere Wert Wenn es eine gerade Zahl gibt, ist der Median der Durchschnitt der beiden Mittelwerte Ein wichtiger Aspekt des Medians ist, dass er gegen Extremwerte oder Ausreißer resistent ist Extremwerte oder Ausreißer resistent Zum Beispiel, unabhängig davon, wie groß, die letzte Person in einem hohen Datensatz ist Der Median bleibt gleich. Der Mittelwert kann sich aufgrund dieses Werts zwar erheblich ändern , der Median bleibt jedoch unabhängig von der Körpergröße der letzten Person unverändert unabhängig von der Körpergröße der letzten Person Das bedeutet, dass er nicht von Ausreißern beeinflusst wird. Im Gegensatz dazu können sich die Männer je nach Größe der letzten Person erheblich verändern , sodass sie empfindlich auf Ausreißer reagiert Lassen Sie uns nun den Modus besprechen. Der Modus ist der Wert oder die Werte , die in einem Datensatz am häufigsten vorkommen. Wenn beispielsweise 14 Personen mit dem Auto, sechs mit dem Fahrrad, fünf zu Fuß und fünf Personen mit öffentlichen Verkehrsmitteln pendeln , ist das Auto der Modus, da er am häufigsten vorkommt Als Nächstes gehen wir zu den Streuungsmaßen über, die beschreiben, wie weit die Werte in einem Datensatz verteilt sind Zu den wichtigsten Messgrößen für die Streuung gehören Varianten. Bereich der Standardabweichung und interquatler Bereich, beginnend mit der Standardabweichung Sie gibt die durchschnittliche Entfernung zwischen den einzelnen Datenpunkten und dem Dies sagt uns, um wie viel einzelne Datenpunkte vom Durchschnitt abweichen Wenn die durchschnittliche Abweichung vom Mittelwert beispielsweise 11,5 Zentimeter beträgt, können wir die Standardabweichung anhand der Formel berechnen Standardabweichung anhand der Sigma entspricht der Quadratwurzel der Summe der einzelnen Werte minus dem Mittelwert Quadriert, geteilt durch n, wobei Sigma die Standardabweichung ist N ist die Anzahl der Personen. X sub i ist der Wert jedes Individuums und x bar ist der Mittelwert. Es ist wichtig zu beachten, dass es zwei Formeln für die Standardabweichung gibt . Eine dividiert durch n, während die andere durch n minus eins dividiert Letzteres wird verwendet, wenn unsere Stichprobe nicht die gesamte Population abdeckt, z. B. in klinischen Studien Letzteres wird verwendet , wenn unsere Stichprobe nicht die gesamte Population abdeckt, z. B. in klinischen Studien. Wie unterscheidet sich nun die Standardabweichung von der Varianz? Die Standardabweichung misst die durchschnittliche Entfernung vom Mittelwert Dabei ist die Varianz einfach der quadrierte Wert der Standardabweichung Lassen Sie uns als Nächstes den Bereich und den ganzzahligen Bereich besprechen. Der Bereich ist die Differenz zwischen den Maximal- und Minimalwerten in einem Datensatz Andererseits stellt der Ungleichheitsbereich die mittleren 50% der Daten dar, berechnet als Differenz zwischen dem ersten Quartil , Q eins, und dem dritten Quartil, qu Das bedeutet, dass 25% der Werte unter und 25% über dem Interquartilbereich liegen unter Bevor wir zu den letzten Punkten übergehen, wollen wir kurz diese Konzepte, Maße der zentralen Tendenz und Maße der Streuung, miteinander vergleichen Maße der zentralen Tendenz und Maße der Streuung Betrachten wir die Messung des Blutdrucks von Patienten. Messungen der zentralen Tendenz liefern einen einzigen Wert, der den gesamten Datensatz repräsentiert. Hilft dabei, einen zentralen Punkt zu identifizieren , um den sich Datenpunkte tendenziell gruppieren. Andererseits geben Streuungsmaße wie Standardabweichung, wie Standardabweichung, Reichweite und Inteqatile-Bereich an Reichweite und Inteqatile-Bereich an, wie weit die Datenpunkte verteilt Ob sie eng um das Zentrum herum gruppiert oder weit verstreut sind Zentrum herum gruppiert oder weit verstreut Zusammenfassend lässt sich sagen, dass Messungen der zentralen Tendenz zwar den zentralen Punkt des Datensatzes hervorheben , Streuungsmaße jedoch beschreiben, wie die Daten um dieses Zentrum herum verteilt sind. Gehen wir nun zu den Tabellen über konzentrieren uns dabei auf die wichtigsten Typen, Häufigkeitstabellen und Kontingenztabellen Eine Häufigkeitstabelle zeigt, wie oft jeder einzelne Wert in einem Datensatz vorkommt Beispielsweise befragte ein Unternehmen seine Mitarbeiter zu ihren Pendelmöglichkeiten, dem Auto, dem Fahrrad, zu Fuß und zu den öffentlichen Verkehrsmitteln Hier sind die Ergebnisse von 30 Mitarbeitern mit ihren Antworten Wir können eine Häufigkeitstabelle erstellen, um diese Daten zusammenzufassen , indem wir die vier Optionen in der ersten Spalte auflisten die vier Optionen in der ersten Spalte und ihre Häufigkeit anhand der Tabelle zählen Es liegt auf der Hand, dass die Arbeitnehmer am häufigsten mit dem Auto reisen Mit 14 Mitarbeitern, die sich für diese Option entscheiden. Die Häufigkeitstabelle bietet eine kurze Zusammenfassung der Daten Aber was ist, wenn wir statt einer zwei kategorialen Variablen haben statt einer zwei kategorialen Variablen Hier kommt eine Kontingenztabelle ins Spiel, auch Kreuztabelle genannt Stellen Sie sich vor, das Unternehmen hat zwei Fabriken, eine in Detroit und eine weitere in Cleveland? Wenn wir die Mitarbeiter auch nach ihrem Arbeitsort fragen, können wir beide Variablen anhand einer Kontingenztabelle anzeigen Diese Tabelle ermöglicht es uns, die Beziehung zwischen den beiden kategorialen Variablen zu analysieren und zu vergleichen zwischen den beiden kategorialen Die Zeilen stellen die Kategorien einer Variablen dar. Während die Spalten die Kategorien der anderen darstellen, zeigt jede Zelle in der Tabelle die Anzahl der Beobachtungen, die in die entsprechende Kategorienkombination passen . Beispielsweise gibt die erste Zelle an, wie viele Mitarbeiter mit dem Auto pendeln , und die Arbeit in Detroit wurde sechsmal gemeldet Danke. Wir sehen uns in der nächsten Statistikstunde. 7. Minitab: In diesem Kurs lernen wir etwas über Hypothesentests. Ich werde Ihnen das Testen von Hypothesen mit MiniTab beibringen. Ich werde Ihnen auch das Testen von Hypothesen mit Microsoft Office beibringen . Das verwendet Excel und Microsoft Office für diejenigen , die sich für MiniTab interessieren. Lassen Sie mich Ihnen zeigen, von wo Sie Minitab herunterladen können. Minitab.com unter Downloads. Hier kommen wir zum Downloadbereich. Sie haben die Statistiksoftware MiniTab, 30 Tage lang kostenlos verfügbar ist. Ich habe auch die Testversion auf mein System und die Dando-Analyse heruntergeladen und gezeigt, dass Sie sie Ihnen gezeigt haben. Denken Sie daran, dass es nur 30 Tage lang verfügbar ist. Bitte stellen Sie sicher , dass Sie das gesamte Schulungsprogramm innerhalb der ersten 30 Tage abschließen. Wenn Sie den Wert darin spüren, sollten Sie auf jeden Fall die lizenzierte Version von MiniTab verwenden, die hier verfügbar ist. Ich muss nur auf Herunterladen klicken und Woodstock herunterladen. Es beginnt mit einer kostenlosen 30-Tage-Testversion. Und es ist gut genug Zeit um alle Übungen zu üben, die angetrieben werden. Sie werden nach einigen persönlichen Daten gefragt , damit sie sich mit Ihnen in Verbindung setzen können und Ihnen mit einigen Rabatten helfen können. Falls es welche gibt. Sie haben einen Bereich namens Dr. MiniTab oder Sie haben eine Telefonnummer. Wenn Sie aus Großbritannien anrufen , können Sie dort leicht anrufen. Wenn Sie jedoch von anderen Orten aus sprechen, ist es viel einfacher, mit MiniTab zu sprechen. Dies ist ein sehr gutes statistisches Tool und sie aktualisieren die Funktionen regelmäßig. Ich persönlich bin der Meinung, dass sich diese Investition lohnen wird. Aber für diejenigen, die es sich nicht leisten können, sich für die Lizenz zu entscheiden , können sie Microsoft Office verwenden zumindest einige der Funktionen, nicht alle, aber einige der Funktionen sind verfügbar. Zunächst werde ich Ihnen die gesamte Übung verschiedener Arten von Hypothesen mit MiniTab zeigen die gesamte Übung verschiedener Arten von . Und dann werden wir zu Microsoft Excel übergehen, Verbindung bleiben und weiter lernen. 8. Deskriptive Statistik: In der heutigen Sitzung werden wir uns deskriptiven Statistiken befassen. Deskriptive Statistik bedeutet, dass ich die Maße des Zentrums verstehen möchte . Wie Maße für den mittleren, mittleren, mittleren Modus. Ich möchte die Maße der Ausbreitung verstehen. Das ist nichts als Bereich, Standardabweichung und Varianz. Nehmen wir einfache Daten, die ich habe. Ich habe eine Zykluszeit in Minuten für fast 100 Datenpunkte. Ich werde die Zykluszeit in Minuten aus meinem Tagesprojektdatenblatt entnehmen. Ich gehe zu MiniTab und füge meine Daten dort ein, wo ich hier beschreibende Statistiken erstellen möchte. Statistiken. Klicken Sie auf Standardstatistiken und sagen Sie Deskriptive Statistik anzeigen. Wenn ich das mache, gibt es mir im Popup-Fenster eine Option namens, die mir die verfügbaren Datenfelder anzeigt, die ich habe. Ich habe eine Zykluszeit in Minuten. Es sagt mir also, dass ich die variable Zykluszeit in Minuten analysieren möchte . Ich klicke einfach auf Okay, und das findest du sofort in meinem Ausgabefenster. Ich kann das einfach runterziehen. In meinem Ausgabefenster. Es zeigt mir , dass es einige statistische Analysen für die variable Zykluszeit in Minuten durchgeführt hat einige statistische Analysen für . Ich habe 100 Datenpunkte hier. Die Anzahl der fehlenden Werte ist 0. Der Mittelwert ist 10,064. Standardfehler des Mittelwerts beträgt 0,103, Standardabweichung beträgt 1 bis der Mindestwert 7,5. Eins ist nichts als dein Quartil eins ist 9.1. Median, das heißt, Ihr Q2 ist 10,35, Q3 ist 10,868 und der Maximalwert ist 12,490. Wenn ich mehr statistische Analysen benötige, kann ich diese Analyse wiederholen. Dieses Mal klicke ich auf Statistiken. Und ich kann mir die anderen Datenpunkte ansehen, die ich brauche. Angenommen, ich brauche den Bereich, brauche ich keinen Standardfehler, ich brauche einen Interquartilbereich. Ich möchte herausfinden, wie die Stimmung ist. Ich möchte herausfinden, was die Schiefe ist und welche Daten ich habe. Was ist die Kurtosis in meinen Daten? Ich kann alles auswählen und sagen, okay, ich klicke auf Okay. Wenn ich das mache, werden alle anderen statistischen Parameter, die ich ausgewählt habe, in meinem Ausgabefenster angezeigt. Das ist mein Ausgabefenster. Also sagt es mir wieder zusätzlichen Datenpunkt , den ich ausgewählt habe. Radius ist also nichts anderes als Ihre Standardabweichung im Quadrat. Sie ist 0,0541. Es sagt mir den Bereich , der maximal minus minimal ist. Es ist 4,95. Interquartilbereich liegt bei 1,707. In meinen Daten gibt es keinen Modus. Und die Anzahl der Datenpunkte bei 0, weil es keine mehr gibt, die Daten nicht verzerrt. Die Werte liegen sehr nahe bei 0, sie sind 0,05, aber es gibt eine Kurtosis. Das bedeutet, dass meine Daten nicht als arbeitslos angezeigt werden. So gut, wir wollen sehen, wie meine Distribution aussieht. Lass uns das machen. Ich klicke auf Statistiken, ich klicke auf Basisstatistiken und dann auf grafische Zusammenfassung. Ich wähle die Zykluszeit in Minuten aus. Und ich sage, ich möchte ein 95% -Konfidenzintervall sehen. Ich klicke auf Okay, lass uns die Ausgabe sehen. Die Zusammenfassung der Zyklus-Diamantminuten. Es zeigt mir den Mittelwert, die Standardabweichung, die Varianz. Alle Statistik-Dinge werden auf der rechten Seite angezeigt. Mittelwert, Standardabweichung, Varianz, Schiefe, Kurtosis, Anzahl der Datenpunkte minimaler Median des ersten Quartils , Maximum des dritten Quartils. Diese Datenpunkte, die Sie als Minimum Q1, Median, Q3 und Maximum sehen , werden im Boxplot behandelt. Das Boxplot wird mithilfe dieser Datenpunkte gerahmt. Und wenn Sie sich den Klettverschluss ansehen, heißt es, dass die Glocke keine steile Kurve ist, sondern eine etwas dickere Kurve, und daher ist der Kurtosis-Wert ein negativer Wert. Wir werden im nächsten Video weiter im Detail lernen . Danke. 9. Beschreibende vs. Inferenzstatistiken: Lassen Sie uns beide Methoden untersuchen, beginnend mit der deskriptiven Statistik Warum ist deskriptive Statistik wichtig? Zum Beispiel, wenn ein Unternehmen verstehen möchte, wie seine Mitarbeiter zur Arbeit pendeln Es kann eine Umfrage erstellen, um diese Informationen zu sammeln. Sobald genügend Daten gesammelt wurden, können sie mithilfe deskriptiver Statistiken analysiert werden Was genau ist deskriptive Statistik? Ihr Zweck besteht darin, einen Datensatz auf sinnvolle Weise zu beschreiben und zusammenzufassen Es ist jedoch wichtig zu beachten, dass deskriptive Statistiken nur die gesammelten Daten widerspiegeln und keine Rückschlüsse auf eine größere Mit anderen Worten, wenn wir wissen, wie einige Mitarbeiter in einem Unternehmen pendeln, können wir uns keine Sorgen darüber machen, wie es allen Arbeitnehmern Um Daten deskriptiv zu beschreiben, konzentrieren wir uns nun auf vier Hauptkomponenten Messungen der zentralen Tendenz, Streuungsmaße, Häufigkeitstabellen und Diagramme Beginnen wir mit Messgrößen für die zentrale Tendenz, zu denen der Mittelwert, der Median und mehr gehören Zunächst wird der Mittelwert, das arithmetische Mittel, berechnet, indem alle Beobachtungen addiert und durch die Anzahl der Beobachtungen dividiert werden Wenn wir beispielsweise die Testergebnisse von fünf Schülern haben, summieren wir die Ergebnisse und dividieren sie durch fünf, um zu ermitteln dass das durchschnittliche Testergebnis 86,6 beträgt Als nächstes folgt der Median. Wenn die Werte in einem Datensatz in aufsteigender Reihenfolge angeordnet sind, ist der Median der mittlere Wenn es eine ungerade Anzahl von Datenpunkten gibt, ist es einfach der mittlere Wert Wenn es eine gerade Zahl gibt, ist der Median der Durchschnitt der beiden Mittelwerte Ein wichtiger Aspekt des Medians ist, dass er gegen Extremwerte oder Ausreißer resistent ist Extremwerte oder Ausreißer resistent Zum Beispiel, unabhängig davon, wie groß, die letzte Person in einem hohen Datensatz ist Der Median bleibt gleich. Der Mittelwert kann sich aufgrund dieses Werts zwar erheblich ändern , der Median bleibt jedoch unabhängig von der Körpergröße der letzten Person unverändert unabhängig von der Körpergröße der letzten Person Das bedeutet, dass er nicht von Ausreißern beeinflusst wird. Im Gegensatz dazu können sich die Männer je nach Größe der letzten Person erheblich verändern , sodass sie empfindlich auf Ausreißer reagiert Lassen Sie uns nun den Modus besprechen. Der Modus ist der Wert oder die Werte , die in einem Datensatz am häufigsten vorkommen. Wenn beispielsweise 14 Personen mit dem Auto, sechs mit dem Fahrrad, fünf zu Fuß und fünf Personen mit öffentlichen Verkehrsmitteln pendeln , ist das Auto der Modus, da er am häufigsten vorkommt Als Nächstes gehen wir zu den Streuungsmaßen über, die beschreiben, wie weit die Werte in einem Datensatz verteilt sind Zu den wichtigsten Messgrößen für die Streuung gehören Varianten. Bereich der Standardabweichung und interquatler Bereich, beginnend mit der Standardabweichung Sie gibt die durchschnittliche Entfernung zwischen den einzelnen Datenpunkten und dem Dies sagt uns, um wie viel einzelne Datenpunkte vom Durchschnitt abweichen Wenn die durchschnittliche Abweichung vom Mittelwert beispielsweise 11,5 Zentimeter beträgt, können wir die Standardabweichung anhand der Formel berechnen Standardabweichung anhand der Sigma entspricht der Quadratwurzel der Summe der einzelnen Werte minus dem Mittelwert Quadriert, geteilt durch n, wobei Sigma die Standardabweichung ist N ist die Anzahl der Personen. X sub i ist der Wert jedes Individuums und x bar ist der Mittelwert. Es ist wichtig zu beachten, dass es zwei Formeln für die Standardabweichung gibt . Eine dividiert durch n, während die andere durch n minus eins dividiert Letzteres wird verwendet, wenn unsere Stichprobe nicht die gesamte Population abdeckt, z. B. in klinischen Studien Letzteres wird verwendet , wenn unsere Stichprobe nicht die gesamte Population abdeckt, z. B. in klinischen Studien. Wie unterscheidet sich nun die Standardabweichung von der Varianz? Die Standardabweichung misst die durchschnittliche Entfernung vom Mittelwert Dabei ist die Varianz einfach der quadrierte Wert der Standardabweichung Lassen Sie uns als Nächstes den Bereich und den ganzzahligen Bereich besprechen. Der Bereich ist die Differenz zwischen den Maximal- und Minimalwerten in einem Datensatz Andererseits stellt der Ungleichheitsbereich die mittleren 50% der Daten dar, berechnet als Differenz zwischen dem ersten Quartil , Q eins, und dem dritten Quartil, qu Das bedeutet, dass 25% der Werte unter und 25% über dem Interquartilbereich liegen unter Bevor wir zu den letzten Punkten übergehen, wollen wir kurz diese Konzepte, Maße der zentralen Tendenz und Maße der Streuung, miteinander vergleichen Maße der zentralen Tendenz und Maße der Streuung Betrachten wir die Messung des Blutdrucks von Patienten. Messungen der zentralen Tendenz liefern einen einzigen Wert, der den gesamten Datensatz repräsentiert. Hilft dabei, einen zentralen Punkt zu identifizieren , um den sich Datenpunkte tendenziell gruppieren. Andererseits geben Streuungsmaße wie Standardabweichung, wie Standardabweichung, Reichweite und Inteqatile-Bereich an Reichweite und Inteqatile-Bereich an, wie weit die Datenpunkte verteilt Ob sie eng um das Zentrum herum gruppiert oder weit verstreut sind Zentrum herum gruppiert oder weit verstreut Zusammenfassend lässt sich sagen, dass Messungen der zentralen Tendenz zwar den zentralen Punkt des Datensatzes hervorheben , Streuungsmaße jedoch beschreiben, wie die Daten um dieses Zentrum herum verteilt sind. Gehen wir nun zu den Tabellen über konzentrieren uns dabei auf die wichtigsten Typen, Häufigkeitstabellen und Kontingenztabellen Eine Häufigkeitstabelle zeigt, wie oft jeder einzelne Wert in einem Datensatz vorkommt Beispielsweise befragte ein Unternehmen seine Mitarbeiter zu ihren Pendelmöglichkeiten, dem Auto, dem Fahrrad, zu Fuß und zu den öffentlichen Verkehrsmitteln Hier sind die Ergebnisse von 30 Mitarbeitern mit ihren Antworten Wir können eine Häufigkeitstabelle erstellen, um diese Daten zusammenzufassen , indem wir die vier Optionen in der ersten Spalte auflisten die vier Optionen in der ersten Spalte und ihre Häufigkeit anhand der Tabelle zählen Es liegt auf der Hand, dass die Arbeitnehmer am häufigsten mit dem Auto reisen Mit 14 Mitarbeitern, die sich für diese Option entscheiden. Die Häufigkeitstabelle bietet eine kurze Zusammenfassung der Daten Aber was ist, wenn wir statt einer zwei kategorialen Variablen haben statt einer zwei kategorialen Variablen Hier kommt eine Kontingenztabelle ins Spiel, auch Kreuztabelle genannt Stellen Sie sich vor, das Unternehmen hat zwei Fabriken, eine in Detroit und eine weitere in Cleveland? Wenn wir die Mitarbeiter auch nach ihrem Arbeitsort fragen, können wir beide Variablen anhand einer Kontingenztabelle anzeigen Diese Tabelle ermöglicht es uns, die Beziehung zwischen den beiden kategorialen Variablen zu analysieren und zu vergleichen zwischen den beiden kategorialen Die Zeilen stellen die Kategorien einer Variablen dar. Während die Spalten die Kategorien der anderen darstellen, zeigt jede Zelle in der Tabelle die Anzahl der Beobachtungen, die in die entsprechende Kategorienkombination passen . Beispielsweise gibt die erste Zelle an, wie viele Mitarbeiter mit dem Auto pendeln , und die Arbeit in Detroit wurde sechsmal gemeldet Danke. Wir sehen uns in der nächsten Statistikstunde. 10. Konzepte von Inferenzstatistiken Teil 2: Lassen Sie uns in die Inferenzstatistik eintauchen. Wir beginnen mit einem kurzen Überblick darüber, was es ist. Gefolgt von einer Erläuterung der sechs Schlüsselkomponenten. Was ist also Inferenzstatistik? Sie ermöglicht es uns, anhand von Daten aus einer Stichprobe Rückschlüsse auf eine Population Zur Verdeutlichung: Die Population ist die gesamte Gruppe, an der wir interessiert sind. Wenn wir zum Beispiel die durchschnittliche Körpergröße aller Erwachsenen in den Vereinigten Staaten untersuchen wollen , umfasst unsere Bevölkerung alle Erwachsenen des Landes. Bei der Stichprobe handelt es sich dagegen um eine kleinere Teilmenge aus dieser Population Wenn wir beispielsweise 150 Erwachsene aus den USA auswählen, können wir anhand dieser Stichprobe Rückschlüsse auf die breitere Nun, hier sind die sechs Schritte, die zu diesem Prozess gehören. Hypothese. Wir beginnen mit einer Hypothese. Welche Aussage wollen wir testen? Zum Beispiel möchten wir vielleicht untersuchen, ob ein Medikament den Blutdruck bei Menschen mit Hypotonie positiv beeinflusst Blutdruck bei Menschen mit Hypotonie Oh, in diesem Fall besteht unsere Population aus allen Personen mit hohem Blutdruck in den USA, da es nicht praktikabel ist, Daten von der gesamten Bevölkerung zu sammeln Daten von der Wir verlassen uns auf eine Stichprobe, um anhand unserer Stichprobe Rückschlüsse auf die Population Wir verwenden Hypothesentests. Dies ist eine Methode, die verwendet wird, um eine Aussage über einen Populationsparameter auf der Grundlage von Stichprobendaten zu bewerten . Es sind verschiedene Hypothesentests verfügbar, und das am Ende dieses Videos. Ich werde dir zeigen, wie du den richtigen auswählst. Wie funktioniert das Testen von Hypothesen? Wir beginnen mit einer Forschungshypothese. Auch bekannt als Alternativhypothese , für die wir in unserer Studie nach Beweisen suchen. Wird auch als Alternativhypothese bezeichnet. Dafür versuchen wir Beweise zu finden. In unserem Fall lautet die Hypothese , dass das Medikament den Blutdruck beeinflusst. Wir können dies jedoch nicht direkt mit einem klassischen Hypothesentest testen. Also testen wir die gegenteilige Hypothese, dass das Medikament keinen Einfluss auf den Blutdruck hat. Hier ist der Prozess. Erstens, nimm die Nein-Hypothese an. Wir gehen davon aus, dass das Medikament keine Wirkung hat, was bedeutet, dass Menschen, die das Medikament einnehmen und solche, die nicht den gleichen durchschnittlichen Blutdruck haben. T, sammle und analysiere Probendaten. Wir nehmen eine Zufallsstichprobe. Wenn das Medikament in der Probe eine große Wirkung zeigt, bestimmen wir dann die Wahrscheinlichkeit, eine solche oder eine Probe zu ziehen , die noch stärker abweicht, wenn das Medikament tatsächlich keine Wirkung hat, oder eine, die noch stärker abweicht, wenn das Medikament tatsächlich keine Wirkung hat, T, bewerten den Wahrscheinlichkeits-p-Wert Wenn die Wahrscheinlichkeit, ein solches Ergebnis unter der Nullhypothese zu beobachten , sehr gering ist Wir erwägen die Möglichkeit , dass das Medikament eine Wirkung hat. Wenn wir genügend Beweise haben, können wir die Nullhypothese zurückweisen. Der p-Wert ist die Wahrscheinlichkeit, der die Stärke der Beweise gegen die Nullhypothese gemessen wird. Zusammenfassend besagt die Nullhypothese, es keinen Unterschied in der Grundgesamtheit gibt, und der Hypothesentest berechnet, wie wahrscheinlich es ist die Stichprobenergebnisse beobachtet wenn die Nullhypothese wahr ist Wir wollen Beweise für unsere Forschungshypothese finden. Das Medikament beeinflusst den Blutdruck. Wir können dies jedoch nicht direkt testen, also testen wir die entgegengesetzte Hypothese, die Nullhypothese. Das Medikament hat keine Wirkung auf den Blutdruck. So funktioniert es. Gehen Sie von der Nein-Hypothese aus. Gehen Sie davon aus, dass das Medikament keine Wirkung hat. heißt, Menschen, die das Medikament einnehmen, und Menschen, die nicht den gleichen durchschnittlichen Blutdruck haben, sammeln und analysieren Daten. Nehmen Sie eine Zufallsstichprobe. Wenn das Medikament eine große Wirkung in der Probe zeigt. Wir bestimmen, wie wahrscheinlich es ist, ein solches oder ein extremeres Ergebnis zu erzielen . Wenn das Medikament wirklich keine Wirkung hat, berechnen Sie den p-Wert. Der p-Wert ist die Wahrscheinlichkeit eine Probe beobachtet wird, die so extrem ist wie unsere. Unter der Annahme, dass die Nullhypothese wahr ist. Statistische Signifikanz Wenn der p-Wert unter einem festgelegten Schwellenwert liegt, normalerweise 0,05. Das Ergebnis ist statistisch signifikant, d. h. es ist unwahrscheinlich, dass es allein durch Zufall entstanden ist Wir haben dann genügend Beweise , um die Nullhypothese abzulehnen Ein kleiner p-Wert deutet darauf hin, dass die beobachteten Daten nicht mit der Nullhypothese übereinstimmen führt dazu, dass wir sie zugunsten der Alternativhypothese ablehnen zugunsten der Alternativhypothese Ein großer p-Wert deutet darauf hin, dass die Daten mit der Nullhypothese übereinstimmen. Wir lehnen es nicht ab. Wichtige Punkte. Ein kleiner p-Wert beweist nicht , dass die Alternativhypothese wahr ist. Es zeigt lediglich an , dass ein solches Ergebnis unwahrscheinlich ist , wenn die Nullhypothese wahr ist. Ebenso beweist ein großer p-Wert nicht, dass die Nullhypothese wahr ist. Dies deutet darauf hin, dass die beobachteten Daten wahrscheinlich unter der Nullhypothese liegen. Danke. Wir sehen uns in der nächsten Statistikstunde. 11. Konzepte des Hypothesentests im Detail: Willkommen zurück. Lassen Sie uns die Hypothese genauer verstehen. Hypothese von Wir haben eine ganze Population, die wir gerne untersuchen würden. Es gäbe jedoch immer begrenzte Zeit und Ressourcen, um die gesamte Bevölkerung zu untersuchen. Daher nehmen wir unter Verwendung verschiedener Stichprobenverfahren eine Stichprobe aus der Grundgesamtheit und ziehen eine Stichprobe heraus. Wir untersuchen die Stichprobe und ziehen einige Schlüsse über die Grundgesamtheit, und zwar als Inferenzstatistik Was genau ist Hypothese? Eine Hypothese ist eine Annahme , die weder anfällig noch negativ sein kann. In einem Forschungsprozess wird die Hypothese ganz am Anfang aufgestellt, und das Ziel besteht darin, die Hypothese entweder abzulehnen oder nicht abzulehnen Um die Hypothese, beispielsweise Daten aus dem Experiment, abzulehnen oder nicht abzulehnen, ist eine Umfrage erforderlich, die dann mithilfe eines Hypothesentests ausgewertet werden. Unter Verwendung von Hypothesen werden Hypothesen in der Regel ausgehend von einer wörtlichen Überprüfung Auf der Grundlage der wörtlichen Überprüfung können Sie entweder begründen, warum Sie die Hypothese auf diese Weise formuliert haben die Hypothese auf diese Weise formuliert Ein Beispiel für eine Hypothese könnte sein, dass Männer in Österreich für dieselbe Tätigkeit mehr verdienen als Frauen Die Hypothese basiert auf der Annahme eines erwarteten Zusammenhangs. Ihr Ziel ist es, die Nullhypothese entweder abzulehnen oder nicht abzulehnen. Sie können Ihre Hypothese anhand der Daten testen. Die Analyse der Daten erfolgt mithilfe des Hypothesentests. In Österreich verdienen Männer für dieselbe Arbeit mehr als Frauen. Sie haben eine Umfrage unter fast 1.000 in Australien tätigen Arbeitnehmern durchgeführt, einen T-Test einer unabhängigen Stichprobe. In diesem Test benötigen Sie für die Hypothese aus der Umfrage geeignete Hypothesentests wie den T-Test oder den Korrelationsanalysetest. Wir können Online-Tools wie Data Tab oder Excel-Tools verwenden , um dieses Problem zu lösen. Wie formuliere ich eine Hypothese? Um eine Hypothese zu formulieren, muss zunächst eine Forschungsfrage definiert werden eine präzise formulierte Hypothese über der Forschungsfrage kann dann eine präzise formulierte Hypothese über die Population abgeleitet werden Forschungsfrage kann dann eine präzise formulierte Hypothese über die Population abgeleitet In Australien verdienen Männer für denselben Job mehr als Frauen. Was ist zum Thema die Frage, die wir stellen wollen, und was ist die Hypothese? Anschließend stellen Sie die Daten für den Hypothesentest zur Verfügung und ziehen die Schlussfolgerung. Dies ist eine sehr schöne visuelle Darstellung der Durchführung eines Hypothesentests. Hypothesen sind keine einfachen Aussagen. Sie sind so formuliert, dass sie mit getestet werden können . Sie können im Laufe des Forschungsprozesses mit gesammelten Daten getestet werden mit gesammelten Daten getestet . Um Hypothesen zu testen, muss genau definiert werden, um welche Variablen sich handelt und wie diese Variablen zusammenhängen. Hypothesen sind dann Annahmen über die Ursache-Wirkungs-Beziehung der Assoziation zwischen den Variablen. Was ist in diesem Fall eine Variable? Variable ist nichts anderes als eine Eigenschaft eines Objekts oder eines Ereignisses, das unterschiedliche Werte annehmen kann. Zum Beispiel ist eine Augenfarbe eine Variable. Wenn es die Eigenschaft des Objekts ist, kann ich verschiedene Werte annehmen. Wenn Sie in einer Sozialwissenschaft forschen, können Ihre Variablen Geschlecht, Einkommen , Einstellungen, Umweltschutz usw. sein. Wenn Sie im medizinischen Bereich forschen, könnten Ihre Variablen Körpergewicht, Raucherstatus, Herzfrequenz usw. sein Raucherstatus, Herzfrequenz usw. Was genau ist also die Null - und Alternativhypothese? Es gibt immer zwei Hypothesen, die sich genau entgegengesetzt sind genau entgegengesetzt und die behaupten, entgegengesetzt zu sein Diese entgegengesetzten Hypothesen werden als Null- und Alternativhypothese bezeichnet als Null- und Alternativhypothese und durch H nichts und H A oder H eins, H Null und H eins repräsentiert Null und H Die Nullhypothese von H nichts geht davon aus, dass es keinen Unterschied zwischen zwei oder mehr Gruppen in Bezug auf die Merkmale gibt , die wir untersuchen möchten Die Nullhypothese lautet dann. Die Nullhypothese geht davon aus , dass es keinen Unterschied zwischen zwei oder mehr Gruppen in Bezug auf die Merkmale gibt. Beispielsweise unterscheiden sich die Gehälter der Männer und Frauen in Österreich nicht. Die alternative Hypothese ist die Hypothese, die wir beweisen wollen, oder wir sammeln Daten, um sie zu beweisen. Die alternative Hypothese geht also davon aus, dass es einen Unterschied zwischen den zwei oder mehr Gruppen gibt. Beispielsweise unterscheidet sich das Gehalt der Männer und Frauen in Österreich. Die Hypothese, die Sie testen möchten, oder was Sie anhand der Theorie untersuchen möchten , gibt in der Regel die Wirkung an. Das Geschlecht wirkt sich auf das Gehalt aus. Diese Hypothese wird als alternative Hypothese bezeichnet. Es ist eine sehr schöne Aussage, oder? Es gibt eine andere Schreibweise, nämlich das Geschlecht wirkt sich auf das Gehalt aus, und der Hypothesentest wird als alternative Hypothese bezeichnet. Die Nullhypothese besagt normalerweise , dass es keinen Effekt gibt. Das Geschlecht hat keinen Einfluss auf das Gehalt. Im Hypothesentest kann nur die Nullhypothese getestet werden. Ziel ist es herauszufinden, ob Nullhypothese abgelehnt wird oder nicht. Es gibt verschiedene Arten von Hypothesen. Welche Arten von Hypothesen gibt es? Am häufigsten wird zwischen Unterschieden Korrelationshypothesen unterschieden. Es kann sich um direktionale und ungerichtete Hypothesen handeln. Differential- und Korrelationshypothese. Differentialhypothesen werden verwendet, wenn verschiedene Gruppen sowie die Gruppe der Männer und die Gruppe der Frauen unterschieden werden sollen sowie die Gruppe der Männer und die Gruppe der Frauen unterschieden Männer und die Gruppe der Frauen Korrelationshypothesen werden verwendet , wenn eine Beziehung hergestellt werden soll oder wenn eine Korrelation zwischen der Variablen getestet werden soll Die Beziehung zwischen Alter und Größe. Differenzhypothese. Differenzhypothese ist ein Test, bei dem wir testen, ob es einen Unterschied zwischen zwei oder mehr Gruppen gibt. Das Beispiel der Differenzhypothese ist, dass die Gruppe der Männer mehr verdient als die der Frauen. Raucher haben ein höheres Herzinfarktrisiko als Nichtraucher Es gibt einen Unterschied zwischen Deutschland, Österreich und Frankreich in Bezug auf die Arbeitsstunden pro Woche Somit ist eine Variable immer eine kategoriale Variable wie Geschlecht, Raucherstatus oder Land Andererseits ist die andere Variable eine ordinale Variable oder eine Variable für Gehalt, prozentuales Herzinfarktrisiko und Arbeitsstunden pro Woche Lassen Sie uns nun die Korrelationshypothese etwas genauer verstehen etwas genauer Ein Korrelationshypothesentest, Beziehungen zwischen zwei Variablen. Zum Beispiel die Größe und das Körpergewicht. die Körpergröße der Person zunimmt, wird das Körpergewicht beeinflusst Die Korrelationshypothese lautet beispielsweise, dass je größer eine Person ist, je schwerer sie ist, je mehr Pferdestärken ein Auto hat, desto höher ist sein Kraftstoffverbrauch Je besser die Mathe-Note, desto höher das zukünftige Gehalt Wie Sie den Beispielen entnehmen können, Korrelationshypothesen häufig die Form , je höher, desto niedriger. Daher werden mindestens zwei ordinale Skalenvariablen untersucht Direktionale und ungerichtete Hypothesen, Hypothesen werden in gerichtete und ungerichtete Hypothesen unterteilt gerichtete und ungerichtete Hypothesen Das heißt, entweder handelt es sich um eine einseitige oder eine zweiseitige Hypothese. Wenn die Hypothese Wörter wie besser als, schlechter enthält, dann ist die Hypothese in der Regel richtungsweisend. Sie könnte positiv oder negativ sein. Bei ungerichteten Hypothesen findet man oft die Bausteine heraus, zum Beispiel, dass es einen Unterschied zwischen den Formulierungen gibt, aber es wird nicht angegeben, in welcher Richtung der Unterschied liegt. Bei der ungerichteten Hypothese ist das Einzige von Interesse, das Einzige von Interesse ob es einen Unterschied im Wert zwischen den betrachteten Variablen gibt. bei einer direktionalen Hypothese, Was interessiert es bei einer direktionalen Hypothese, ob eine Gruppe höher oder niedriger ist als die andere? Sie haben eine zweiseitige Hypothese, oder Sie können eine einseitige Hypothese wie linksseitig oder rechtsseitig haben . Eine ungerichtete Hypothese, eine ungerichtete Hypothese, testet, ob ein Unterschied oder eine Beziehung besteht. Es spielt keine Rolle, in welcher Richtung die Beziehung besteht oder welche unterschiedlichen Ursachen es gibt. Im Fall einer Differenzhypothese bedeutet dies, dass es einen Unterschied zwischen zwei Gruppen gibt, aber es sagt nicht aus, ob eine Gruppe einen höheren Wert hat. Es gibt einen Unterschied zwischen dem Gehalt von Männern und Frauen, aber es sagt nicht aus , wer mehr verdient Es gibt einen Unterschied im Herzinfarktrisiko zwischen Rauchern und Nichtrauchern, aber es wird nicht gesagt, wer ein höheres In Bezug auf die Korrelationshypothese bedeutet dies, dass eine Beziehung oder eine Korrelation zwischen zwei Variablen besteht Aber es wird nicht gesagt, ob die Beziehung positiv oder negativ ist. Es besteht eine Korrelation zwischen Größe und Gewicht und es besteht eine Korrelation zwischen Pferdestärke und Kraftstoffverbrauch im Auto. In beiden Fällen wird nicht gesagt, die Korrelation positiv oder negativ ist. Wenn Sie von einer Richtungshypothese sprechen, wir zusätzlich die Richtung der Beziehung oder des Unterschieds an. Im Falle der anderen Hypothese wird eine Aussage getroffen, welche Gruppe hat einen höheren oder niedrigeren Wert? Männer verdienen mehr als Frauen. Raucher haben ein höheres Herzinfarktrisiko als Nichtraucher Im Falle einer Korrelationshypothese wird die Beziehung dahingehend hergestellt, wird die Beziehung dahingehend hergestellt ob eine Korrelation positiv oder negativ ist Je größer ein Mensch ist, desto schwerer ist er. Je mehr Pferdestärken ein Auto hat, desto höher ist sein Kraftstoffverbrauch einseitige direktionale Alternativhypothese umfasst nur die Werte, die sich in einer Richtung von den Werten der Nullhypothese unterscheiden . Wie interpretieren wir nun den p-Wert in einer Richtungshypothese? Normalerweise hilft Ihnen Statistiksoftware immer bei der Berechnung des p-Werts Excel ist auch bei der Berechnung des p-Werts sehr intelligent geworden , und es hilft bei der Berechnung des ungerichteten Tests und hilft auch bei der Angabe des p-Werts dafür. Um den p-Wert für die Richtungshypothese zu ermitteln, muss geprüft werden, ob der Effekt in die richtige Richtung ist. Anschließend wird der p-Wert durch zwei geteilt und ob das Signifikanzniveau nicht durch zwei, sondern nur durch eine Seite bestimmt wird sondern nur durch eine Seite Darüber hinaus haben wir ein Tutorial zum P-Wert. Also schauen Sie sich das bitte in der analysierten Phase meines Kurses an. Wenn Sie in einem Software-Lil-Datentyp eine gerichtete Alternativhypothese für die Berechnung der Hypothese auswählen in einem Software-Lil-Datentyp eine , erfolgt die Konvertierung automatisch und Sie können nur lesen. Nun eine schrittweise Anleitung zum Testen der Hypothese. Sie sollten eine Literaturrecherche durchführen, die Hypothese formulieren, das Skalenniveau definieren, das Signifikanzniveau bestimmen, den Hypothesentest bestimmen. Welcher Hypothesentest ist für die Skalenniveaus und den Hypothesenstil geeignet für die Skalenniveaus und den Hypothesenstil Im nächsten Tutorial geht es um das Testen von Hypothesen. Sie werden etwas über Hypothesentests lernen und herausfinden , welche besser ist und wie man sie liest. 12. Einführung 7Qc-Tools: T. Willkommen zum neuen Kurs über sieben Qualitätswerkzeuge. Dies ist eines der wichtigsten Konzepte wenn Sie darüber nachdenken kontinuierlich zu verbessern Ihren Prozess, Ihre Abläufe oder Ihre Fertigungseinrichtung kontinuierlich zu verbessern. Selbst wenn Sie in der Dienstleistungsbranche tätig sind, helfen Ihnen diese Tools dabei, den Überblick über die Qualität zu behalten. Lassen Sie uns damit anfangen. Also, die sieben QC-Tools, was werde ich im Rahmen dieses Schulungsprogramms behandeln Rahmen dieses Schulungsprogramms Es sind die sieben Qualitätskontrollwerkzeuge. Erstens: Dinge, Katapult, Flussdiagramm, Histogramm, Pareto-Analyse, Fishburn-Diagramm, auch Ishikawa-Diagramm genannt Ishikawa-Diagramm Wir werden diese Tools nicht nur auf hohem Niveau behandeln. Wir werden einige Beispiele machen, wie man diese Dinge mit Microsoft Excel zeichnet , wo immer dies möglich ist. Wir werden Ihnen auch einige Beispielübungen mit Daten geben einige Beispielübungen mit , die Ihnen helfen können, diese Aktivitäten sehr einfach durchzuführen. Wir werden darüber sprechen, was das Tool ist, wie das Tool verwendet wird, wann das Tool verwendet wird, einige häufige Fehler, die wir vermeiden sollten, und eine schrittweise Anleitung zur Erstellung der erforderlichen Ausgabe geben. 13. Prüfblatt: Gehen wir zum nächsten Qualitätswerkzeug der sieben QC-Tools über , dem Prüfblatt Lassen Sie uns mehr über das Prüfblatt erfahren. Scheckblätter werden zur systematischen Erfassung und Zusammenstellung der Daten Aus den historischen Quellen oder Beobachtungen, sobald sie auftreten Es kann verwendet werden, um Daten an Orten zu sammeln , an denen Daten im Laufe der Zeit tatsächlich generiert werden. Es kann verwendet werden, um sowohl quantitative als auch qualitative Daten zu erfassen . Deshalb habe ich Ihnen ein einfaches Prüfblatt gezeigt, auf dem Sie die Fehlertypen haben und wie oft dieser bestimmte Fehler auftritt. Dies kann verwendet werden , um Daten aus historischen Quellen oder Beobachtungen systematisch aufzuzeichnen und zusammenzustellen , sobald sie auftreten. Es kann verwendet werden, um Daten an Orten zu sammeln , an denen Daten in Echtzeit generiert werden. Diese Art von Daten kann quantitativ als auch qualitativ sein. Das Prüfblatt gehört zu den sieben grundlegenden Qualitätskontrollen. Was macht das Scheckblatt? Es wird verwendet, um leicht verständliche Daten zu erstellen, und das ist mit einem einfachen, effizienten Prozess verbunden Sie sich bei jedem Eintrag ein klares Bild von den Fakten, die von den einzelnen Teammitgliedern vorgeschlagen Aus diesem Grund ist es eines der datengesteuerten. Es standardisiert die Vereinbarung über Definitionen jeder einzelnen Bedingung Wie wird eine Scheckform verwendet? Wir einigen uns auf die Definition von Ereignissen oder Bedingungen , die beobachtet werden. Beispiel. Wenn wir nach der Grundursache für Mängel des Schweregrads 1 suchen, dann müssen wir uns darauf einigen, sie als ersten Schweregrad zu bezeichnen. Entscheiden Sie, wer die Daten sammelt, entscheiden Sie, welche Person an dieser Aktivität beteiligt sein wird. Notieren Sie sich die Quellen , aus denen die Daten gesammelt werden. Die Daten sollten in Form einer Stichprobe oder der gesamten Population vorliegen. Sie können sowohl qualitativ als auch quantitativ sein. Legen Sie fest, welcher Wissensstand für die Person erforderlich ist, die am Datenerfassungsplan beteiligt ist. Entscheiden Sie, wie häufig die Daten gesammelt werden sollen und ob die Daten wöchentlich, stündlich, täglich oder monatlich erhoben werden müssen. Legen Sie die Dauer der Datenerhebung fest, d. h. wie lange die Daten gesammelt werden sollen, wie lange die Daten gesammelt werden sollen um ein aussagekräftiges Ergebnis zu erzielen. Erstellen Sie ein einfach zu verwendendes Prüfblatt, das präzise, vollständig und konsistent bei der Erfassung der Daten während des gesamten Erfassungszeitraums ist zu verwendendes Prüfblatt, das präzise, vollständig und konsistent bei der Erfassung der Daten während des gesamten Erfassungszeitraums Daten während des gesamten Bitte beachten Sie, dass Scheckblätter zu Zeiten des Industriezeitalters als eines der Qualitätsinstrumente erstellt wurden Derzeit befinden wir uns im Informationszeitalter. Wir haben so viele ERP-Softwareprogramme, Maschinen, die Daten aufgrund der IT erfassen, und es gibt verschiedene andere computergenerierte Berichte , die anwendbar sind Versuchen Sie, ein Scheckblatt nur zu verwenden, und zwar nur dann, wenn Sie sich in einem vollständig manuellen Datenerfassungsprozess befinden Es ist eines der Tools, in den letzten Monaten jedoch am wenigsten genutzt Lassen Sie mich das anders formulieren: Tools, die in den letzten Jahren am wenigsten genutzt wurden. Es sei denn, Ihr Unternehmen hat überhaupt keinen systematischen Ansatz zur Erfassung der Daten Es ist ein sehr gutes Tool, wenn Sie Mitarbeiter mit blauen Farben einsetzen und keine High-Tech-Systeme zur Erfassung der Daten haben. Deshalb habe ich die Vorlage für das Scheckblatt im Bereich Projekt und Ressourcen beigefügt . Sie können sich darauf beziehen. Gib mir einfach eine Sekunde. Ich zeige dir das Scheckblatt auf dem Bildschirm. So kann ich ein Scheckblatt verwenden , das ich Ihnen als Teil meiner Parado-Vorlage gegeben Sie können die Kategorien hier aufschreiben und mir sagen, dass es sich um Fehler eins, Fehler zwei handelt Es handelt sich um ein Problem wie auch immer Ihr Fehler heißen Bitte listen Sie hier alle Mängel auf, oder? Und dann können Sie das vermarkten , wie oft passiert das? Wo auch immer es passiert, fangen Sie bitte an, eines zu schreiben. Wie oft siehst du das und wann siehst du es? Dies in Verbindung damit, dass ich diese Daten später für meine Pareto-Analyse verwenden kann , für die ich ein separates Video erstellt habe , das können Sie verwenden In der heutigen Welt benötigen Sie kein separates Scheckblatt. Sie können das verwenden, das ich hier gegeben habe. Danke. Ich sehe dich in der nächsten Klasse. 14. Box-Plot: Heute werden wir etwas über Boxplot lernen und es im Detail verstehen Wir alle hätten Boxplot in mehreren Fällen gesehen. Aber mal sehen, was es interpretiert. Was genau ist also ein Boxplot? Mit einem Boxplot können Sie in der Regel viele Informationen zu Ihren Daten grafisch darstellen Das Feld gibt den Bereich der mittleren 50% der Stelle an, an der Ihr Wert liegt Lassen Sie uns den Boxplot verstehen, wie er aufgeteilt ist. Wenn der Anfang der Box als Q Eins bezeichnet wird, ist er das untere Ende der Box und wird auch als erstes Quartil bezeichnet Q ist das obere Ende der Box oder das dritte Quartil. Die Entfernung zwischen Q 3 und Q wird als Interquartilbereich bezeichnet, was den mittleren 50% Ihrer Die 25% der Daten liegen unter Q Eins. In dem Feld befinden sich 50% der Daten, und daher befinden sich 25% der Daten über dem Sie haben eine Haupt- und eine Mittellinie innerhalb des Felds, wodurch die Daten wiederum in 25 und 25% aufgeteilt werden Nehmen wir also an, wenn wir das Alter des Teilnehmers, das Boxplot, anzeigen , sind es 31 Das bedeutet, dass 25% der Teilnehmer jünger als 31 Jahre sind. Q drei ist 63 Jahre. Das bedeutet, dass 25% der Teilnehmer älter als 63 Jahre sind. 50% der Teilnehmer sind 31-63 Jahre alt. Der Mittelwert und der Median. Der Median liegt bei 42, was bedeutet, dass die Hälfte der Teilnehmer älter als 42 Jahre und die andere Hälfte jünger als 42 Die gestrichelte Linie wird auch als Durchschnittslinie oder als Hauptwert bezeichnet , der den Durchschnitt darstellt Da der Mittelwert vom Median abweicht, bedeutet dies eindeutig, dass es sich bei den Daten um einen Unterschied handelt Die durchgezogene Linie steht für den Median und die gepunktete Linie für Die weiter entfernten Punkte werden als Ausreißer bezeichnet. Die Höhe des Whiskers entspricht etwa dem 1,5-fachen des Bereichs zwischen den Quartalen. Der Whisker kann nicht endlos pingen. Der Ausreißer und der Ti-förmige Schnurrbart. Wenn es keinen Ausreißer gibt, ist der Maximalwert Wenn es einen Ausreißer gibt, ist der T-förmige Whisker der letzte Punkt, bei dem das 1,5-fache des Interquaralbereichs und andere Wie erstelle ich einen Boxplot? Sie haben eine Excel, um Ihren Boxplot zu erstellen, und Sie können dies auch mit Online-Tools tun Ja, also kann ich einfach nach Diagrammen suchen. Damit kann ich sagen, dass ich die metrische Variable nehme, dann haben Sie die Option eines Histogramms und Sie haben auch die Option eines Boxplots, was eindeutig besagt, dass Q eins 29 ist, 66 ist, der Median 42 ist, der Mensch 46 ist Das Maximum ist 99, der obere Zaun ist 99. Es gibt keine Ausreißer. Gehen wir und ändern die Daten. Lass mich das auf 126 machen. Sobald ich den Wert einer Person auf 126 ändere und Sie zurückkommen, werden Sie feststellen, dass es einen Ausreißer im Histogramm gibt, und hier ist sehr offensichtlich, dass 126 ein Ausreißer ist Und hier ist der obere Zaun 92. Q drei ist immer noch derselbe, Q eins ist immer noch derselbe. Die Boxgröße ändert sich also nicht und so weiter. Richtig? Was ist, wenn die Person ein Held ist? In diesem Fall werden Sie feststellen, dass es sich nicht um einen Ausreißer handelt, sondern dass es immer noch Teil des ISC ist Ich kann die Grafik klein machen, ich kann die Nulllinie anzeigen Ich kann die Standardabweichung anzeigen. Ich kann die Punkte zeigen. Ich kann es horizontal und vertikal machen. All diese Optionen sind also mit einem Online-Statistiktool möglich . Ich kann die Zip-Datei natürlich herunterladen und damit arbeiten. Okay. Wie kann ich Boxplot mit Excel machen? Also habe ich die gleichen Daten hierher kopiert. Ich habe verschiedene Gruppen, also habe ich mein Alter als Daten ausgewählt. Und jetzt gehe ich zum Einfügen eines empfohlenen Diagramms, gehe zu allen Diagrammen und ich habe ein Box-and-Whisker-Diagramm Und ich kann mein Box-and-Whisker-Diagramm sehen. Ich kann meine Rasterlinien entfernen und die Datenbeschriftungen hinzufügen, und es zeigt deutlich meinen Weg. Vielleicht kann ich es einfach vergrößern, um es besser sichtbar zu machen. Ich kann die Farbe meines Diagramms so ändern, dass sie anders ist. Oh und ich kann das auswählen Mein Durchschnitt ist hier drüben. Mein Median ist 421, drei und. Jetzt, das gleiche Diagramm, ich kann es auch nach Wurzeln gruppieren Ich nehme die Gruppe und das Alter. Ich klicke rein, ich kann auf das empfohlene Diagramm klicken, zu allen Diagrammen gehen und Box and Whisker machen Dieses Mal habe ich vier Boxen für jedes Mitglied der Gruppe. Ich kann die Farbe meines Diagramms ändern. In Ordnung. Ich kann die Datenbeschriftungen beifügen. Wenn ich es hier einfüge und auf das Kommazeichen klicke, wirst du feststellen, dass die Bindepunkte waren . Es ist also sehr einfach, Diagramme mit Excel sowie mit einigen Online-Tools zu zeichnen Excel sowie mit einigen Online-Tools Also für die Gruppen habe ich die Gruppe plus das A genommen, und dafür habe ich genommen Also für A, sagen wir für die Gruppe C, wenn ich weitermache und den Wert auf 100 ändere, wirst du feststellen, dass es dort einen Ausreißer gibt Der Mindestwert ist zehn, lassen Sie uns die Werte 25 ändern Sie werden feststellen, dass sich die Werte auf diese Weise ändern. Großartig. Also werde ich dich in der nächsten Klasse sehen. Danke. Oh. 15. Box-Plot Teil 1: In dieser Lektion werden wir mehr über Boxplot erfahren. Ein Boxplot ist eine der grafischen Techniken, mit denen wir Ausreißer identifizieren können, oder? Lassen Sie uns verstehen, wie ein Boxplot entsteht. Lassen Sie uns zuerst das Konzept verstehen bevor wir uns mit den Praktika befassen. Ein Boxplot wird als Boxplot bezeichnet, weil es wie eine Box aussieht und viskos ist wie die Katze. Die Katze hat im Gesicht. Nun, genau wie die Katze nicht haben kann und weniger viskos ist, die Größe des Whiskers des wird die Größe des Whiskers des Boxplots für bestimmte Parameter festgelegt . Sie werden einige wichtige Terminologien sehen , wenn Sie ein Boxplot erstellen. Nummer eins, was ist der Mindestwert? Was ist das Quartil? Was ist der Median? Was ist der Kern fest? Drittens, was ist die Größe des maximalen Whiskers? Und was ist der Maximalwert am Datenpunkt? Hier? Die Mindestanzahl der Hunde über den Minimumpunkt und wo der Whisker verlängert werden kann. Q1 steht für das erste Quartal, was 25% der Daten bedeutet. Nehmen wir zur Vereinfachung an, wir haben 100 Datenpunkte. 25 Prozent der Daten werden unter dieser einen Marke liegen. Zwischen Q1 und Q2. Fünfundzwanzig Prozent Ihrer Daten werden gebildet, werden vorhanden sein. Q2 wird auch als Median oder Mittelpunkt Ihrer Daten bezeichnet . Wenn ich also meine Daten in aufsteigender oder absteigender Reihenfolge anordne, wird der mittlere Datenpunkt als Median und als Q2 bezeichnet. Q3, oder auf andere Weise auch als oberes Quartil bezeichnet, spricht von den fünfundzwanzig Prozent der Daten nach dem Medium. Technisch gesehen haben Sie inzwischen fünfundsiebzig Prozent Ihrer Daten abgedeckt fünfundsiebzig Prozent Ihrer Daten unter Ihrem dritten Quartil liegen werden, 25 Prozent unter dem ersten Quartal, 50% der Daten unter dem zweiten Quartal, fünfundsiebzig Prozent von Die Daten liegen unter Q3. Technisch gesehen liegen von 100% der Daten 75% der Daten unter dem dritten Quartal. Das bedeutet, dass fünfundzwanzig Prozent meiner Datenpunkte über dem dritten Quartal liegen werden. Jetzt wird der Abstand zwischen Q1 und Q3 als Boxgröße bezeichnet. Und diese Kastengröße wird auch als Interquartilbereich bezeichnet. Q3 minus Q1 wird als Interquartilbereich bezeichnet. Wie ich Ihnen zu Beginn des Unterrichts sagte, hängt die Größe des Whiskers vom Interquartilbereich oder IQR ab. Q3. Ich kann diese Linie das 1,5-fache der Größe der Box bilden. 1,5-fache IQR plus Q3 ist also die Obergrenze für meinen Whisker. Auf der rechten Seite. Auf der Oberseite. Wenn ich den Whisker auf der linken Seite zeichnen möchte, ist es nichts anderes als das gleiche 1,5-fache im Interquartilbereich. Aber ich subtrahiere diesen Wert von Q1 und verlängere ihn bis zu diesem Wert. Also legt es die Untergrenze fest. Möglicherweise haben Sie Datenpunkte, die unter den Minimalpunkt fallen. Möglicherweise werden Datenpunkte, die über die maximale Größe des Risikos dieser Datenpunkte hinausgehen , als Ausreißer bezeichnet. Das Schöne an Boxplot ist, dass es Ihnen hilft, festzustellen , ob Ihr Datensatz Ausreißer enthält. Mal sehen wie kann ich ein Boxplot erstellen? Denn physisch muss ich mir keine Sorgen machen , 2525% Prozent herauszufinden. Und wirklich persönlich werden wir zu MiniTab gehen und dann die Arbeit machen. Sehen wir uns dieses Datenblatt an. In unserer vorherigen Klasse haben wir einige beschreibende Statistiken dazu erstellt. Und wir haben die Datenpunkte gefunden. Wir haben den minimalen Datenpunkt Q1, Q2, Q3 und maximalen Datenpunkt gefunden. Versuchen wir, ein Boxplot für die Zykluszeit in Minuten zu erstellen . Also klicke ich auf Grafik. Ich gehe zum Boxplot und sehe mir ein einfaches Boxplot an und klicke auf Okay, ich werde die Zykluszeit in Minuten auswählen. Und ich sage: Okay, sehen wir uns die Datenansicht an. Wenn Sie sich dieses Boxplot ansehen, wird die untere Zeile als die eine bezeichnet. Es ist 9.16. Der Median ist die Mittellinie und muss nicht genau in der Mitte liegen. Die Oberseite der Box ist Q3, was 10,86 in diesem Datenbereich ist, und der Interquartilbereich ist 1,7. Meine Box kann sich 1,5-mal am Ellbogen ausdehnen und auf dem Ballon 1,5 mal in 1,7 gehen . Und Sie sehen , dass es in diesem Boxplot keine Sternchen gibt , sehr deutlich darauf hinweist, dass es in meinem aktuellen Datensatz keine Ausreißer gibt . Holen wir uns noch einen Datensatz. In unserem nächsten Video zu verstehen, wie Boxplot funktioniert. 16. Box-Plot Teil 2: Lassen Sie uns unsere Reise fortsetzen um Boxplots genauer zu verstehen. Wenn Sie in Ihrer Projektdatei auf das Arbeitsblatt gehen, das als Boxplot bezeichnet wird. Ich habe Daten zur Zykluszeit für fünf verschiedene Szenarien gesammelt. Wie Sie sehen können, habe ich an einigen Stellen mehr Datenpunkte, wie ich fast 401745 Daten habe. An manchen Stellen habe ich nur 14 Datenpunkte. Versuchen wir also, dies genauer zu analysieren , um zu verstehen, wie Boxplot funktioniert. Ich habe diese Daten auf MiniTab kopiert, Fall eins, Fall zwei, T3 und T4. Als erstes würde ich also einige grundlegende deskriptive Statistiken für alle Fremdschlüssel erstellen wollen einige grundlegende deskriptive Statistiken . Ich wähle alles aus. Und dann sehe ich, wenn ich meine Ausgabe sehe, kann ich sehen, dass ich in drei der Fälle 45 Datenpunkte habe. Im vierten Fall habe ich 18 Datenpunkte. Im fünften Fall habe ich 14 Datenpunkte. Die Anzahl der Datenpunkte ist also sehr, wenn man sich meinen Mindestwert anschaut, reicht er von 1, eins, einundzwanzig, zweiundzwanzig. Und der Maximalwert liegt irgendwo zwischen 4090. In einem Szenario habe ich Werte von 21 bis 40 entwickelt. In einem Szenario habe ich Werte von zwei bis 90, was sehr deutlich zeigt, dass die Anzahl der Datenpunkte oder dies tut. Aber mein Wertebereich ist weiß. Wenn Sie sich also die Rate ansehen, liegt sie zwischen 18,8 und 99 Punkten. Also im zweiten Fall habe ich 1200 als Bereich, also 99 Jahre. Und dasselbe kann auch als Standardabweichung beobachtet werden. Sie können sehen, dass die Schiefe der Daten unterschiedlich ist und die Kurtosis unterschiedlich ist. Lassen Sie uns zunächst das Boxplot im Detail verstehen. Und im nächsten Video, wenn ich über das Histogramm spreche, werden wir das Verteilungsmuster anhand desselben Datensatzes verstehen . Lass uns anfangen. Ich klicke auf Grafik. Ich kann auf Boxplot klicken und ich klicke auf simple. Was ich tun kann ist, dass ich 11 Fälle gleichzeitig aufnehmen kann , um meine Daten zu analysieren. Im ersten Fall zeigt es mir ein Boxplot und dieses Boxplot zeigt sehr deutlich , dass meine Daten keine Ausreißer enthalten. Und der Bereich liegt zwischen. Wenn ich den Cursor hier drüben lasse, habe ich 45 Datenpunkte. Mein Whisker reicht von 21,6 bis 4,4 und mein Interquartilbereich liegt bei 5,95. Mein Median ist 30,3. Mein erstes Quartil ist 26,9. Mein drittes Quartil ist 32,85. Lassen Sie uns die Sache für Fall zwei wiederholen. Wenn ich auch meine Schlüssel mache, wenn du jetzt hinschaust, sieht die Box sehr klein weil hier meine Datenpunkte gleich sind. Verstärkt von Vickery reicht wieder von 21,6 bis 40 für scheint wie mein vorheriges Szenario. Aber ich habe hier Ausreißer, die weit darüber hinausgehen. Wenn Sie sich erinnern, ist die beschreibende Statistik für Kinder bis zu meinem Mindestwert eins und mein Maximalwert ist 100. Mein Median war wie mein vorheriges Szenario. Mein Q1 ist auch ähnlich, nicht dasselbe, aber ähnlich. Und Q3 ist auch ähnlich. Aber wenn man sich das Boxplot anschaut, ist die Box sehr klein, sehr deutlich zeigt, dass was sehr deutlich zeigt, dass mein Interquartilbereich 6,95 beträgt. Meine Viskose kann nur das 1,5-fache erreichen und jeder Datenpunkt darüber hinaus wird Misko als Ausreißer bezeichnet. Ich kann diese Ausreißer auswählen, oder? Und es ist sehr deutlich zu sehen, k ist zwei, der Wert ist 100 und es ist in Zeile Nummer eins. Zeile Nummer 37, ich habe einen Wert namens 90. In Zeile Nummer 30 habe ich einen Wert namens ist 88. Und in Zeile Nummer 21 habe ich einen Wert namens Eins , der eine Mindestgröße ist. Ich habe also Ausreißer auf beiden Seiten. Lass uns Fall drei verstehen. Wenn ich mir die Chemie ansehe, setze ich den Cursor auf den Boxplot. Ich habe dieselben 45 Datenpunkte. Meine Viskose oder von 21,6 bis 40 für scheint wie mein Fall eins, Fall zwei. Aber in diesem Szenario habe ich viele Ausreißer. Am unteren Ende. Das ist, auf der Unterseite meines Kerns, eng, richtig? Es fällt uns leicht, auf jede einzelne von ihnen zu klicken und zu sehen, wie meine Boxen sind. Das Schöne hier ist, dass ich nur 18 Datenpunkte habe, aber immer noch einen Ausreißer habe. Machen wir es für k ist fünf. Und verstehe das auch. Ich habe eine kleinere Kiste. Ich habe nur 14 Datenpunkte und einen Ausreißer auf der Aufwärts-Taste, und ich habe einen Ausreißer am unteren Ende. Hier ist der Wert 23. Aber wenn ich diese Handlungen anders sehe , ist es für mich schwierig, einen Vergleich durchzuführen. Kann ich alles auf einen Bildschirm bekommen? Also gehe ich zum Graphen, ich gehe zum Boxplot. Ich werde eine einfache Umgebung auswählen. Ich wähle alle Fälle zusammen aus und sehe mehrere Grafiken. Ich sehe Haut und ich sehe, dass die Achse gesehen werden sollte. Rasterlinien sollten sichtbar sein. Und ich klicke auf Okay. Ich erhalte alle fünf Datenpunkte, fünf Fallszenarien in einem Diagramm. Das wird es mir leicht machen die Analyse durchzuführen, in diesem Fall. Also individuell, wenn ich den Fall eins gesehen habe, wenn wir uns ein großes Schwad zeigen. Aber wenn ich einen nebeneinander vergleiche , kann ich wissen, dass ich im zweiten Fall Ausreißer oben und unten habe . Im dritten Fall habe ich Ausreißer auf der Unterseite. Im vierten Fall habe ich Ausreißer auf der Oberseite. Im fünften Fall habe ich Verkaufsstellen auf beiden Seiten. Die Anzahl der Datenpunkte ist unterschiedlich. Die Bulks werden gezogen. Die Größe der Box kann nicht durch die Anzahl der Datenpunkte bestimmt werden . Ich habe 45 Datenpunkte, aber meine Box ist sehr schmal. Und ich habe 14 Datenpunkte und meine Box ist weiß. Also die Größe der Box. Wenn ich also 14 Datenpunkte habe , werden meine Daten in vier Teile aufgeteilt. Also drei Datenpunkte unter Q1, drei Datenpunkte zwischen Q1 und Q2, drei Datenpunkte zwischen Q2 und Q3 und drei Datenpunkte hinter Q3. Während ich 45 Datenpunkte hatte, es als 11111111 verteilt. Mein Median wäre die mittlere Zahl. Aus dieser Übung lernen Sie also , dass Sie anhand der Größe des Quaders die Anzahl der Datenpunkte nicht bestimmen können. Aber was Sie definitiv feststellen können , ist, dass ich angesichts dieses Datensatzes Datenpunkte habe, die extrem hoch oder niedrig sind? Der Zweck des Zeichnens eines Boxplots besteht also darin, die Verteilung zu sehen und etwaige Ausreißer zu identifizieren. Ich hoffe, das Konzept ist klar. Wenn Sie Fragen haben, können Sie diese gerne in der Diskussionsgruppe veröffentlichen. Und ich beantworte sie gerne. Danke. 17. Pareto-Analyse: Hallo Freunde. Lassen Sie uns unser Lernen über sieben QC-Tools fortsetzen unser Lernen über sieben QC-Tools Das Tool, das wir heute lernen werden, sind Pareto-Diagramme, die auch als Parto-Analyse bezeichnet werden Dies basiert auf dem berühmten Statistiker, nicht auf dem Statistiker Lassen Sie mich korrigieren, Wirtschaftswissenschaftler, um die Welt gereist ist, den Anteil des Wohlstands an der Bevölkerung zu untersuchen Wohlstands an der Bevölkerung zu Dabei fand Herr Pareto das 80-20-Prinzip heraus Lassen Sie uns tief in das Thema eintauchen. Also die Pareto-Analyse, das Prinzip, das Ihnen hilft, sich auf das Wichtigste zu konzentrieren , um den größtmöglichen Nutzen zu erzielen Sie beschreibt das Phänomen , dass eine geringe Menge hoher Werte mehr zur Gesamtsumme beiträgt als eine hohe Anzahl niedriger Werte Der Schwerpunkt liegt auf den Attributen mit hohem Wert, auf die ich mich konzentrieren muss , anstatt auf so viele Dinge mit geringem Wert. Kurz gesagt: Identifiziere die Wenigen und nicht die trivialen Vielen Was sind diese roten Blöcke , die nur drei oder vier sind? Aber der Beitrag ist groß. Anstatt sich Hunderte von kleinen Dingen anzusehen, bei denen der Beitrag insgesamt gering ist. Selbst wenn ich mir meine persönlichen Ausgaben ansehe, O von meinem Gesamteinkommen, fließt der Großteil meines Geldes in die Zahlung von EMI, die Bezahlung der Mieten und Rechnungen. Das sind also meine wenigen lebenswichtigen, und nicht trivialen vielen, bei denen ich versuche, mir die Bustickets, das Essen, das ich esse, oder die kleinen Einkäufe, die ich tätige, anzusehen Essen, das ich esse, oder die kleinen Einkäufe, die ich Wenn ich also gut sparen will , muss ich mich darauf konzentrieren, wie ich meine EMI schneller zurückzahlen kann, wie ich eine Miete haben kann, die innerhalb meines Budgets liegt Die Pareto-Analyse basiert auf der berühmten 80-20-Regel. Sie besagt, dass rund 80% der Ergebnisse auf 20% des Aufwands zurückzuführen sind Sehr schön gesagt, der Aufwand von 80% ergibt sich aus einem Aufwand von 20%. In ähnlicher Weise sind 80% der Probleme oder Auswirkungen auf 20% der Ursachen zurückzuführen. Wir verwenden dies für unsere Ursachenanalyse. Der genaue Prozentsatz kann von Situation zu Situation variieren, obwohl wir glauben, dass er bei 80 20 liegt, auch wenn es 75 25 sind, sollten wir weitermachen und uns bemühen, diese wenigen lebenswichtigen Probleme zu beheben. Manchmal bekommen wir einen Wert von 70 30, manchmal sogar einen Wert von 88 12. Dies sind nur einige Beispiele. Der Punkt ist, welche sind die Hauptursachen, die ich mit minimalem Aufwand beheben kann , um maximale Ergebnisse zu erzielen. In vielen Fällen sind nur wenige Anstrengungen für die meisten Ergebnisse verantwortlich. sind einige wenige Ursachen Regel sind einige wenige Ursachen für den Großteil des Aufwands verantwortlich. Wenn ich auf meine Prüfung zurückblicke, gibt es bestimmte Kapitel in meinem Buch , die in meiner Abschlussprüfung mehr Gewicht Wenn ich mich mit diesen Kapiteln gründlich beschäftige, wird meine Wahrscheinlichkeit, 60 bis 70% zu erreichen, sehr einfach Anstatt zu versuchen, alle 20 Kapitel in meiner Arbeitsmappe zu lesen , könnte ich mich auf einige Kapitel konzentrieren, um Ergebnisse zu erzielen Sparto-Analyse wird von Entscheidungsträgern verwendet , um den Aufwand zu ermitteln, der am wichtigsten ist, um dann zu entscheiden, welcher zuerst ausgewählt werden am wichtigsten ist, um dann zu soll, die Entscheidungsfindung Sie wird für Projekte zur Prozessverbesserung verwendet, um sich auf die Ursachen zu konzentrieren , die am meisten zu einem bestimmten Problem beitragen am meisten zu einem bestimmten Problem Dies hilft dabei, die potenziellen Ursachen, Faktoren und wichtigsten Prozessfaktoren des untersuchten Problems zu priorisieren , Faktoren und wichtigsten Prozessfaktoren des untersuchten Problems zu Es handelt sich um ein Toolkit zur kontinuierlichen Verbesserung. Pareto-Analyse wird bei der Priorisierung von Projekten verwendet , um sich auf wichtige Projekte zu konzentrieren , die dem Kunden und dem Unternehmen einen Mehrwert bieten Anstatt alle Projekte zu erledigen , die auf meiner Projektliste stehen, würde ich mich auf diese wenigen Projekte konzentrieren, zwei oder drei Großprojekte, die mir den größtmöglichen Nutzen bringen können Sie können bei der Festlegung des Projektumfangs vorsichtig sein , ob Sie den Teil Aysis verwenden oder bei der Priorisierung Ihrer Ressourcen, wer die Hauptperson ist, die für Ihr Projekt benötigt wird Wir können die Parto-Analyse auch zur Visualisierung Ihrer Daten verwenden , um schnell zu wissen Ich habe zum Beispiel eine Menge fehlerhafter Daten, wie z. B. zehn Reißen aus dichtem Fang Ich führe die Analyse durch und habe diese Daten. Wenn ich es in absteigender Reihenfolge der Fehler anordne, finde ich, dass das Abreißen der größte Aufwand ist Dann folgt eine Lochblende, dann und so weiter Auf die, die grau sind, werde ich mich nicht besonders konzentrieren, weil sie keinen großen Beitrag leisten. Wenn ich den Riss repariere, werde ich maximale Ergebnisse erzielen Wenn ich die ersten drei repariere, werde ich die Fehler, die in meinem Prozess auftreten, erheblich reduzieren . Wenn Sie beispielsweise Daten über Fehlertypen sammeln, kann die Analyse des Bedieners Aufschluss darüber geben , welche Art von Fehler am häufigsten auftritt. Sie können sich darauf konzentrieren, die Ursache zu lösen , die die meisten Auswirkungen hat. Der Vorteil der Teilanalyse besteht darin, Sie sich auf das konzentrieren können, was wirklich wichtig ist Sie trennt die Hauptursachen des Problems von den kleineren Es ermöglicht die Messung der Auswirkungen von Verbesserungen, indem die Ergebnisse vorher und nachher erfasst werden. Es ermöglicht es, einen Konsens darüber zu erzielen , was zuerst angegangen werden muss. Es hat sich herausgestellt, dass das Pareto-Prinzip bei vielen Gebühren zutrifft: 20% bemühen sich, 80-prozentige Ergebnisse zu erzielen Anstatt Arbeit oder wir können es auch als 20% Ursachen bezeichnen , was mir zu 80% Wirkung Wenn ich also über Ursache-Wirkungs-Analyse nachdenke, dann sind es wieder 20% Ursachen, 80% Aufwand. O Effekt, wenn ich auch die Analyse von Aufwand und Ergebnissen betrachte, sagen wir, weniger Aufwand betreiben, um maximale Ergebnisse zu erzielen. 20% der Kunden des Unternehmens sind für 80% des Umsatzes verantwortlich oder 80% des Verkaufs stammen von 20% der Kunden. Das ist also das Konzept von 20% Aufwand gegenüber Ergebnissen von 80%. Man kann davon ausgehen, dass das Büro Pardo Analysis Act so konzipiert ist, dass 20% der Arbeitnehmer 80% der Arbeit erledigen 20% der für eine Aufgabe aufgewendeten Zeit führen zu 80% der Ergebnisse 20% der Bevölkerung besitzen 80% des Reichtums der Nation. Stimmt das nicht, auch in unserem Land, unserem Staat, unserer Gemeinschaft? Wir stellen fest, dass es nur sehr wenige Menschen gibt, die das maximale Vermögen besitzen Sie können die 20% der Haushaltsgeräte verwenden , 80% der Zeit. Sie dürfen 20% Ihrer Kleidung tragen, 80% der Zeit. Es ist also an der Zeit, dass Sie in Ihrem Privatleben einfach eine Teilanalyse anwenden , um Ihre Garderobe aufzuräumen , wenn Sie an das Konzept des Minimalismus glauben an das Konzept des Minimalismus 20% der Autofahrer verursachen 80% der Unfälle. 80% der Kundenbeschwerden stammen von 20% der Kunden. Nur einige wenige Ursachen machen den größten Teil der Wirkung auf die Fischrute aus. Wenn ich meine Parto-Analyse auf eine Fischrute umrechne, werden Sie feststellen, dass es nur wenige Ursachen gibt , die zur Hauptursache beitragen sich all diese Beispiele angehört haben, hätten Sie verstanden, dass Pareto nicht darauf beschränkt ist , sich nur in Ihrem Büro oder an Ihrem Arbeitsplatz zu bewerben Sie können die Parto-Analyse sogar in Ihrem Privatleben anwenden. Wenn ich es auf Twitter oder eine solche Social-Media-Plattform weitergebe, die meisten der aktiven 20% der Twitter-Nutzer sind die meisten der aktiven 20% der Twitter-Nutzer für 80% der gesamten Tweets verantwortlich Das Parto-Diagramm ist eine spezielle Art von Balkendiagramm, das die Häufigkeit historischer Daten darstellt Sie müssen also verstehen, dass sich diese Daten auf den Stand von gestern, heute Morgen oder auf den Stand des letzten Monats beziehen Es handelt sich also um kategorische Daten. Die X-Achse sagt sehr deutlich, dass es sich kategoriale Daten handelt, und die Y-Achse gibt Auskunft über die Häufigkeit des werden kann Bitte beachten Sie, dass die Parto-Analyse nicht für kontinuierliche Daten verwendet Wenn Sie also sehen, werden Sie über kategoriale Daten verfügen , deren Häufigkeit in absteigender Reihenfolge aufgetragen ist. Die Hauptursachen sind weniger Aufwand, um deren Häufigkeit in absteigender Reihenfolge aufgetragen ist. Die Hauptursachen maximale Ergebnisse zu erzielen den kategorialen Daten handelt es sich um die niedrigste Datenebene , anhand derer Personen, Dinge oder Ereignisse klassifiziert Ich kann es einfacher machen. Alles, was mit Wörtern gemacht wurde , wird als kategoriale Daten bezeichnet Geografische Standorte, Wetter, Farbe, Gerätetyp, Blutgruppe, Blut, Bankkontotyp, wie Sparguthaben oder Girokonto, FD oder Privatkredit , Art des Fehlers oder Defekts, Art der Daten Pareto-Analyse: Die vertikale Achse stellt die Häufigkeit der kategorialen Daten Die X-Achse stellt die Kategorien der Beschriftungen dar. Die horizontale Achse stellt die kategorialen Daten dar, die ein Problem oder die Probleme verursachen Der Balken ist in absteigender Reihenfolge von links nach rechts angeordnet absteigender Reihenfolge von links nach rechts Die am häufigsten vorkommende ist auf der linken Seite, die am seltensten vorkommende ist auf der rechten Seite Sie müssen sich keine Sorgen machen, wenn Sie Microsoft Excel haben, es wird es für Sie zeichnen. Wenn Sie eine ältere Version von Excel verwenden, werde ich im Abschnitt Projekt und Ressourcen unten eine Vorlage veröffentlichen. Wenn Sie zu viele Kategorien haben, können Sie diese kleinen, seltenen Kategorien in der Kategorie Andere gruppieren in der Kategorie Andere Der letzte Balken ist normalerweise etwas höher als die vorherigen. Sie können optional eine kumulative Frequenzkurve über dem Balken platzieren und ihm eine sekundäre Y-Achse geben eine sekundäre Y-Achse , die den kumulativen Prozentsatz darstellt Dies hilft lediglich dabei, die Ergebnisse leichter zu interpretieren und die 80 20-Verbindung zu identifizieren Die Parto-Analyse konzentriert sich auf die Bemühungen in den Kategorien, deren senkrechter Balken 80% der Ergebnisse ausmacht Sie sollten nach etwas suchen , bei dem es sich um Hauptursachen, maximale Wirkung und geringsten Aufwand handelt, um maximale Ergebnisse zu erzielen Wenn Sie sich die beiden Partomuster A und B ansehen, welches Muster A und B ansehen, welches ist das beste Beispiel für das Partomuster Ich würde vorschlagen, dass es das Muster A ist, weil Muster B zeigt , dass die meisten von ihnen fast zu gleichen Teilen beitragen Da es sich um eine gleichmäßige Verteilung handelt, würde ich mich nicht daran halten. Ich würde mich für die Kategorie A entscheiden. Und das ist falsch. Wenn die resultierenden Diagramme ein Parto-Muster deutlich veranschaulichen Dies deutet darauf hin, dass nur wenige Ursachen für etwa 80% des Problems Dies bedeutet, dass es einen Teileffekt gibt, und Sie können sich darauf konzentrieren diese wenigen Ursachen zu bekämpfen, um ein maximales Ergebnis zu erzielen Wenn Sie ein Muster wie ein B-Diagramm erhalten hätten, dann funktioniert die Parto-Analyse nicht, und wir müssen auch eine andere Qualitätskontrolle verwenden Wenn jedoch kein Paradomuster gefunden wird, können wir nicht sagen, dass einige Ursachen wichtiger sind als Wie ich gerade sagte. Stellen Sie sicher, dass Ihr Parado-Diagramm genügend Datenpunkte enthält , um es aussagekräftig zu machen In der heutigen Welt viele Daten verfügbar. Stellen Sie also sicher, dass Sie so viele Daten wie möglich erfassen Die Pareto-Analyse zur Erstellung eines Parto-Diagramms. Sie gemeinsam mit Ihrem Team das Problem, Definieren Sie gemeinsam mit Ihrem Team das Problem, das Sie lösen möchten, und ermitteln Sie die möglichen Ursachen mithilfe von Brainstorming Entscheiden Sie sich für die Messmethode , die für den Vergleich verwendet werden soll, die Häufigkeit, die Kosten und die Zeit usw. Wie erstellt man ein Parto-Diagramm, sammelt die Daten und verlangt, dass die kategorialen Daten analysiert werden ? Berechnet die Häufigkeit der kategorialen Daten. Zeichnen Sie eine horizontale Linie und platzieren Sie den vertikalen Balken, um die Häufigkeit der Kategorie anzugeben Zeichnen Sie links eine vertikale Linie, um die Frequenz links von der Linie zu platzieren links von der Linie falls Sie sie auf Millimeterpapier zeichnen. Microsoft Excel kann Parado-Diagramme automatisch erstellen. Wenn Sie dies jedoch manuell tun, sortieren Sie die Kategorien in der Reihenfolge ihrer Häufigkeit, von der bis zur kleinsten, größten, die auf der linken Seite erscheint Sie sollten Ihre kumulative Häufigkeitskurve und eine kubultive Prozentlinie berechnen und eine kubultive Wenn Sie beobachten, wie die Parade ihre Wirkung entfaltet, sollten Sie Ihre Verbesserungsbemühungen auf die wenigen Kategorien konzentrieren , deren senkrechter Balken meisten ausmacht Diese Ursachen haben wahrscheinlich den größten Einfluss auf Ihre Prozessleistung. Ich habe eine Pareto-Probe entnommen , um zu analysieren, warum ein Patient einen Anruf in einem Krankenhaus gut nutzt, wenn er aufgenommen wird einen Anruf in einem Krankenhaus gut nutzt, wenn er aufgenommen Sie brauchen also einen Toilettenassistenten, brauchen Nahrung oder Wasser, ihr Bett neu positionieren, intravenöse Probleme, Schmerzmittel, einen dringenden Anruf zurück ins Bett, holen sich all die Dinge, die grau sind, sind nicht häufig vorkommende Dinge und sie sind auch nicht vorkommende Dinge und Also, wenn wir uns auf die ersten drei oder die ersten vier konzentrieren. Wenn ich also sagen würde , dass diese vier Faktoren zu 40% des Aufwands beitragen, werden Sie 70% der Wirkung erzielen. Ich könnte mich also dafür entscheiden, nur an den ersten drei zu arbeiten, das sind 30% Aufwand, um immer noch 68% Aufwand zu erzielen. Alles ist in Ordnung. Das Konzept ist , dass ich weniger Anstrengungen unternehmen muss , um maximale Ergebnisse zu erzielen. Kundenbeschwerden in einer Fabrik. Ein Werksteam hat eine Parado-Analyse durchgeführt, um der steigenden Anzahl von Beschwerden aus Kundensicht zu begegnen In gewisser Weise kann das Management das verstehen. Es handelt sich um eine Art von Kundenbeschwerde, Produktbeschwerde, dokumentenbezogene Beschwerde, paketbezogene Beschwerde oder lieferungsbezogene Beschwerde. Wir können sehen, dass sich Kunden am häufigsten über die Art des Produkts oder den Defekt des Produkts beschweren des Produkts oder den Defekt des Produkts Gefolgt von Problemen im Zusammenhang mit dem Dokument. Kundenbeschwerde in einer Fabrik, die Hauptkategorien sind möglicherweise zu allgemein gehalten und können in Unterkategorien unterteilt werden Wenn ich also über Produktreklamationen nachdenke, handelt es sich um ein übergeordnetes Problem, ich könnte sie als Unterkomponente von Problem A betrachten sie als Unterkomponente von Problem A es sich um ein Problem mit Kratzern, ein Nadelloch, ein Paar HMA Sie können auch den Teil der Produktbeschwerde erneut anwenden , d. h., wenn Sie Probleme im Zusammenhang mit Kratzern und Dellen in einer Produktbeschwerde beheben wollen , wird der Großteil der Produktbeschwerden zurückgehen Art der Reklamationen: Wir können feststellen, dass fehlende Informationen der Hauptgrund dafür sind, gefolgt von Rechnungsfehlern, falscher Menge und anderen Das Parto-Diagramm kann weiter analysiert werden indem die Hauptkategorien in Unterkategorien unterteilt werden , oder Unterkomponenten, bei denen das spezifische Problem am häufigsten auftritt, werden Unterkategorien das spezifische Problem am häufigsten auftritt genannt Kundenbeschwerden in einer Fabrik. Die Ergebnisse deuten darauf hin , dass es drei Unterkategorien gibt , die am häufigsten vorkommen Beachten Sie, dass es möglich ist, zwei Diagramme zu einem zusammenzuführen. Ich habe also die Art der Produktbeschwerden und die Art des Dokuments, und ich kann sie zusammenfassen. Pero Principles ist nach dem italienischen Ökonomen Wilfredo Peto benannt italienischen Ökonomen Wilfredo Joseph Juran hat die Prinzipien von Peto auf das Qualitätsmanagement der Unternehmensproduktion angewendet Prinzipien von Peto . Erwägen Sie bei Ihrer Analyse die Verwendung von Kontextdaten, Metadaten und Spalten , die Textdaten Datenbanken enthalten oft viele kategorische Daten über die Umgebung, aus der die aus Diese Daten können bei späteren Analysen bei der Untersuchung der Urheber von Konzepten und Ideen sehr nützlich bei der Untersuchung der Urheber von Konzepten und Ideen Pareto-Prinzipien können Ihnen helfen, die Auswirkungen von Verbesserungen zu messen , indem Sie das Vorher mit dem Nachher vergleichen Wenn Sie sehen, dass die blaue Arbeit nach den Projekten eine große Hilfe war, stellen Sie fest, dass es in dieser Kategorie eine erhebliche Verbesserung gibt in dieser Kategorie eine erhebliche Verbesserung Das neue Teildiagramm kann zeigen, dass der Primärcode erheblich reduziert wurde Statistisch gesehen lassen sich die Parado-Prinzipien anhand der Verteilung der Strommenge und vieler natürlicher Phänomene beschreiben, die diese Verteilung hervorrufen . Damit bin ich am Ende des Konzepts der Parto-Analyse angelangt Im nächsten Video zeige ich Ihnen, wie ich die Pareto-Analyse mit Microsoft Cel durchführe ich die Pareto-Analyse mit Microsoft Cel durchführe Wir sehen uns in der nächsten Klasse. 18. Konzepthypothesentests und statistische Signifikanz (1): Lassen Sie uns die Konzepte im Zusammenhang mit Hypothesentests und statistischer Signifikanz aufschlüsseln . Erstens, Hypothesentests Bei der Durchführung eines Hypothesentests beginnen wir mit einer Forschungshypothese, auch Alternativhypothese genannt. In Ihrem Fall die Forschungshypothese , dass das Medikament den Blutdruck beeinflusst. Wir können diese Hypothese jedoch nicht direkt mit einem klassischen Hypothesentest testen. Stattdessen testen wir die gegenteilige Hypothese , dass das Medikament keinen Einfluss auf den Blutdruck hat. Wir gehen davon aus, dass Menschen, die das Medikament einnehmen, und Menschen, die das Medikament nicht einnehmen, in der Bevölkerung im Durchschnitt Menschen, die das Medikament einnehmen, und Menschen, die das Medikament nicht einnehmen den gleichen Blutdruck haben. Wenn wir in einer Probe eine starke Wirkung des Medikaments beobachten , fragen wir dann, wie wahrscheinlich es ist, eine solche oder eine noch extremere Probe zu ziehen , wenn das Medikament tatsächlich keine Wirkung hat. Die Wahrscheinlichkeit, eine solche Stichprobe zu erhalten, unter der Annahme der Nullhypothese, keine Wirkung besteht, wird als P-Wert bezeichnet. Der P-Wert gibt die Wahrscheinlichkeit an, eine Stichprobe zu erhalten, die genauso stark von unserer beobachteten Stichprobe abweicht oder sogar noch extremer ist, wenn die Nullhypothese wahr wäre Wenn der p-Wert sehr niedrig ist, typischerweise weniger als 0,05, haben wir Belege dafür, dass die Nullhypothese zugunsten der Alternativhypothese zurückgewiesen die Nullhypothese zugunsten der Alternativhypothese zugunsten der Alternativhypothese Ein kleiner p-Wert deutet darauf hin, dass die beobachteten Daten oder Stichproben nicht mit der Nullhypothese übereinstimmen Also drei, statistische Signifikanz. Wenn der p-Wert unter einem vorbestimmten Schwellenwert liegt, oft 0,05. Das Ergebnis wird als statistisch signifikant angesehen. Dies bedeutet, dass es unwahrscheinlich ist, dass das beobachtete Ergebnis allein durch Zufall zustande gekommen ist, und wir haben genügend Beweise, um die Nullhypothese abzulehnen Der Schwellenwert für den p-Wert ist auf 5% oder 0,05 festgelegt. Ein kleiner p-Wert deutet darauf hin, dass die beobachteten Daten oder Stichproben nicht mit der Nullhypothese übereinstimmen Umgekehrt deutet ein großer p-Wert darauf hin, dass die beobachteten Daten mit der Nullhypothese übereinstimmen, und wir lehnen sie nicht ab Viertens: Fehler beim Testen von Hypothesen. Denken Sie daran, dass ein kleiner p-Wert nicht beweist, dass die alternative Hypothese wahr ist. deutet nur darauf hin, dass das beobachtete Ergebnis unter der Nullhypothese unwahrscheinlich ist . Ebenso beweist ein großer P-Wert nicht, dass die Nullhypothese wahr ist. Er deutet lediglich darauf hin, dass das beobachtete Ergebnis unter der Nullhypothese wahrscheinlich ist. Lassen Sie uns nun die beiden Arten von Fehlern verstehen. Der Fehler vom ersten Typ und der Fehler vom zweiten Typ. Ein Fehler vom Typ eins tritt auf, wenn wir fälschlicherweise eine echte Nullhypothese ablehnen In Ihrem Beispiel würde dies bedeuten, Schluss zu kommen, dass das Medikament wirkt, obwohl es tatsächlich nicht Ein Fehler liegt vor, wenn Sie die Nullhypothese zurückweisen , obwohl die Nullhypothese in Wirklichkeit wahr ist, Ihre Entscheidung über die Nullhypothese jedoch abgelehnt wird Fehler zweiten Typs tritt auf, wenn wir eine falsche Nullhypothese nicht zurückweisen können. Fehler zweiten Typs liegt vor, wenn Sie die Nullhypothese nicht zurückweisen, obwohl die Nullhypothese in Wirklichkeit falsch ist, Ihre Entscheidung über die Nullhypothese jedoch akzeptiert wird. In Ihrem Beispiel würde das bedeuten, die Tatsache zu übersehen, dass das Medikament wirkt. Die entnommene Probe zeigte keinen großen Unterschied. Ich dachte fälschlicherweise, dass das Medikament nicht wirkt. In der nächsten Lektion werden wir uns eingehender mit praktischen Anwendungen der Versuchsplanung befassen. Bleib dran. 19. TestofHypothesis: Hallo Freunde. Lassen Sie uns unsere Reise zur MiniTab-Datenanalyse fortsetzen. Heute werden wir etwas über Hypothesentests lernen. Sie haben vielleicht gehört, dass wir während der Analyse- und Verbesserungsphase unseres Projekts Hypothesentests durchführen . Um zu verstehen, wie der Hypothesentest funktioniert, lassen Sie uns ein einfaches Fallszenario verstehen. Ich werde noch einmal auf diese Grafik zurückkommen und Ihnen erklären, dass es so ist. Wie Sie wissen, kann das Justizsystem verwendet werden, um das Konzept der Hypothesentests zu erklären, wenn wir vor Gericht gehen kann das Justizsystem verwendet werden, um das . Der Richter beginnt immer mit einer Aussage, die besagt, dass die Person bis zum Nachweis ihrer Schuld als unschuldig gilt. Das ist nichts als Ihre Nullhypothese, der Status Quo. Wenn sie erwischt werden, geht der Fall weiter. Die Anwälte versuchten, Daten und Beweise vorzulegen. Und solange wir keine starken Daten und starken Beweise haben, befindet sich die Person im Status der Unschuld. Der Angeklagte oder der Oppositionsanwalt versucht also immer zu sagen, dass diese Person schuldig ist, und ich habe Daten und Beweise, um dies zu beweisen. Er versucht, an einer alternativen Hypothese zu arbeiten. Und der Richter sagt, ich gehe standardmäßig mit dem Status Quo der Nullhypothese. Lassen Sie mich das einfacher erklären. Sie und ich, wir werden nicht vor Gericht gestellt, weil wir uns standardmäßig alle in OSA befinden, das ist der Status Quo. Wer wird vor Gericht gezogen. Menschen, die eine Chance haben, sind gekommen, haben ein Verbrechen begangen. Es könnte alles Mögliche sein. Auf die gleiche Weise. Woran versuchen wir Hypothesentests durchzuführen wenn ich meine Analysephase des Projekts durchführe. Ich habe also mehrere Ursachen , die zu meinem Projekt beitragen könnten. Warum? Wir führen eine Ursachenanalyse durch und lernen das kennen wir, okay? Vielleicht hat sich die Lieferung verzögert. Vielleicht ist die Maschine ein Problem, vielleicht ist das Messsystem ein Problem. Vielleicht ist der Rohstoff nicht von guter Qualität. Wir haben mehrere Gründe , die es gibt. Jetzt möchte ich es anhand von Daten beweisen, und das ist der Ort, an dem ich versucht habe, Hypothesentests durchzuführen. Alle Prozesse sind unterschiedlich. Wir wissen, dass alle Prozesse der Glockenkurve folgen. Wir werden niemals das Zentrum hinzufügen. jedem Prozess gibt es einige Abweichungen. Nun die Daten oder die Stichprobe, die Sie aktualisiert haben, handelt es sich um eine Zufallsstichprobe, die von derselben Banco stammt? Oder ist es ein Sample, das aus einer ganz anderen Glockenkurve stammt ? Hypothesentests helfen Ihnen also bei der Analyse derselben. Wann immer wir einen Hypothesentest aufstellen, haben wir zwei Arten von Hypothesen, wie ich Ihnen bereits sagte, den Status Quo oder die Standardhypothese, die Ihre Nullhypothese ist. Standardmäßig gehen wir davon aus, dass die Nullhypothese wahr ist. Um die Nullhypothese zurückzuweisen, müssen wir Beweise vorlegen. Alternative Hypothese ist der Ort , an dem es einen Unterschied gibt. Und das ist der Grund, warum der Hypothesentest tatsächlich eingeleitet wurde, oder? Wir werden es anhand vieler Beispiele verstehen. Also bleib in Verbindung. Wenn ich also eine Null - und Alternativhypothese aufstelle, sagen wir, ich sage, dass mein mu nichts anderes als mein Durchschnitt ist, mein Bevölkerungsdurchschnitt entspricht einem bestimmten Wert. Denken Sie immer daran, dass sich Ihre alternative Hypothese gegenseitig ausschließt. Wenn mu einem Wert entspricht, würde die alternative Hypothese besagen, dass mu nicht gleich diesem Wert ist. Beispiel ist mu weniger als gleich einem Wert als Null-Hypothese. Wenn ich zum Beispiel Domino's Pizza verkaufe, sehe ich, dass meine durchschnittliche Lieferzeit weniger als 30 Minuten beträgt. Der Kunde kommt und sagt mir, dass die durchschnittliche Lieferzeit mehr als 30 Minuten beträgt, das wird meine Alternative. Manchmal, wenn wir die Nullhypothese haben , ist mu größer als gleich einem Wert. Zum Beispiel ist meine durchschnittliche Qualität größer als 90%. Dann kommt der Kunde zurück und teilt mir mit, dass Ihre durchschnittliche Qualität unter diesem Prozentsatz liegt. Denken Sie also immer an die Nullhypothese und alternative Hypothesen schließen sich gegenseitig aus und ergänzen sich gegenseitig. Wir werden noch viele weitere Beispiele aufgreifen, wenn wir weiter gehen. 20. Null und alternatives Hypothesekonzept: Lassen Sie uns in die Inferenzstatistik eintauchen. Wir beginnen mit einem kurzen Überblick darüber, was es ist. Gefolgt von einer Erläuterung der sechs Schlüsselkomponenten. Was ist also Inferenzstatistik? Sie ermöglicht es uns, anhand von Daten aus einer Stichprobe Rückschlüsse auf eine Population Zur Verdeutlichung: Die Population ist die gesamte Gruppe, an der wir interessiert sind. Wenn wir zum Beispiel die durchschnittliche Körpergröße aller Erwachsenen in den Vereinigten Staaten untersuchen wollen , umfasst unsere Bevölkerung alle Erwachsenen des Landes. Bei der Stichprobe handelt es sich dagegen um eine kleinere Teilmenge aus dieser Population Wenn wir beispielsweise 150 Erwachsene aus den USA auswählen, können wir anhand dieser Stichprobe Rückschlüsse auf die breitere Nun, hier sind die sechs Schritte, die zu diesem Prozess gehören. Hypothese. Wir beginnen mit einer Hypothese. Welche Aussage wollen wir testen? Zum Beispiel möchten wir vielleicht untersuchen, ob ein Medikament den Blutdruck bei Menschen mit Hypotonie positiv beeinflusst Blutdruck bei Menschen mit Hypotonie Oh, in diesem Fall besteht unsere Population aus allen Personen mit hohem Blutdruck in den USA, da es nicht praktikabel ist, Daten von der gesamten Bevölkerung zu sammeln Daten von der Wir verlassen uns auf eine Stichprobe, um anhand unserer Stichprobe Rückschlüsse auf die Population Wir verwenden Hypothesentests. Dies ist eine Methode, die verwendet wird, um eine Aussage über einen Populationsparameter auf der Grundlage von Stichprobendaten zu bewerten . Es sind verschiedene Hypothesentests verfügbar, und das am Ende dieses Videos. Ich werde dir zeigen, wie du den richtigen auswählst. Wie funktioniert das Testen von Hypothesen? Wir beginnen mit einer Forschungshypothese. Auch bekannt als Alternativhypothese , für die wir in unserer Studie nach Beweisen suchen. Wird auch als Alternativhypothese bezeichnet. Dafür versuchen wir Beweise zu finden. In unserem Fall lautet die Hypothese , dass das Medikament den Blutdruck beeinflusst. Wir können dies jedoch nicht direkt mit einem klassischen Hypothesentest testen. Also testen wir die gegenteilige Hypothese, dass das Medikament keinen Einfluss auf den Blutdruck hat. Hier ist der Prozess. Erstens, nimm die Nein-Hypothese an. Wir gehen davon aus, dass das Medikament keine Wirkung hat, was bedeutet, dass Menschen, die das Medikament einnehmen und solche, die nicht den gleichen durchschnittlichen Blutdruck haben. T, sammle und analysiere Probendaten. Wir nehmen eine Zufallsstichprobe. Wenn das Medikament in der Probe eine große Wirkung zeigt, bestimmen wir dann die Wahrscheinlichkeit, eine solche oder eine Probe zu ziehen , die noch stärker abweicht, wenn das Medikament tatsächlich keine Wirkung hat, oder eine, die noch stärker abweicht, wenn das Medikament tatsächlich keine Wirkung hat, T, bewerten den Wahrscheinlichkeits-p-Wert Wenn die Wahrscheinlichkeit, ein solches Ergebnis unter der Nullhypothese zu beobachten , sehr gering ist Wir erwägen die Möglichkeit , dass das Medikament eine Wirkung hat. Wenn wir genügend Beweise haben, können wir die Nullhypothese zurückweisen. Der p-Wert ist die Wahrscheinlichkeit, der die Stärke der Beweise gegen die Nullhypothese gemessen wird. Zusammenfassend besagt die Nullhypothese, es keinen Unterschied in der Grundgesamtheit gibt, und der Hypothesentest berechnet, wie wahrscheinlich es ist die Stichprobenergebnisse beobachtet wenn die Nullhypothese wahr ist Wir wollen Beweise für unsere Forschungshypothese finden. Das Medikament beeinflusst den Blutdruck. Wir können dies jedoch nicht direkt testen, also testen wir die entgegengesetzte Hypothese, die Nullhypothese. Das Medikament hat keine Wirkung auf den Blutdruck. So funktioniert es. Gehen Sie von der Nein-Hypothese aus. Gehen Sie davon aus, dass das Medikament keine Wirkung hat. heißt, Menschen, die das Medikament einnehmen, und Menschen, die nicht den gleichen durchschnittlichen Blutdruck haben, sammeln und analysieren Daten. Nehmen Sie eine Zufallsstichprobe. Wenn das Medikament eine große Wirkung in der Probe zeigt. Wir bestimmen, wie wahrscheinlich es ist, ein solches oder ein extremeres Ergebnis zu erzielen . Wenn das Medikament wirklich keine Wirkung hat, berechnen Sie den p-Wert. Der p-Wert ist die Wahrscheinlichkeit eine Probe beobachtet wird, die so extrem ist wie unsere. Unter der Annahme, dass die Nullhypothese wahr ist. Statistische Signifikanz Wenn der p-Wert unter einem festgelegten Schwellenwert liegt, normalerweise 0,05. Das Ergebnis ist statistisch signifikant, d. h. es ist unwahrscheinlich, dass es allein durch Zufall entstanden ist Wir haben dann genügend Beweise , um die Nullhypothese abzulehnen Ein kleiner p-Wert deutet darauf hin, dass die beobachteten Daten nicht mit der Nullhypothese übereinstimmen führt dazu, dass wir sie zugunsten der Alternativhypothese ablehnen zugunsten der Alternativhypothese Ein großer p-Wert deutet darauf hin, dass die Daten mit der Nullhypothese übereinstimmen. Wir lehnen es nicht ab. Wichtige Punkte. Ein kleiner p-Wert beweist nicht , dass die Alternativhypothese wahr ist. Es zeigt lediglich an , dass ein solches Ergebnis unwahrscheinlich ist , wenn die Nullhypothese wahr ist. Ebenso beweist ein großer p-Wert nicht, dass die Nullhypothese wahr ist. Dies deutet darauf hin, dass die beobachteten Daten wahrscheinlich unter der Nullhypothese liegen. Danke. Wir sehen uns in der nächsten Statistikstunde. 21. Statistiken Verstehen des P-Werts: Was ist der p-Wert und wie wird er interpretiert? Darüber werden wir in diesem Video sprechen. Fangen wir mit einem Beispiel an. Wir möchten untersuchen, ob es einen Größenunterschied zwischen einem durchschnittlichen amerikanischen Mann und durchschnittlichen amerikanischen Basketballspieler gibt. Der durchschnittliche Mann ist 1,77 Meter groß. Wir wollen also wissen, ob der durchschnittliche Basketballspieler auch 1,77 Meter groß ist Daher geben wir die Nullhypothese an. Die durchschnittliche Größe eines amerikanischen Basketballspielers beträgt 1,77 Meter Wir gehen davon aus, dass die der amerikanischen Basketballspieler durchschnittliche Körpergröße der amerikanischen Basketballspieler 1,77 Meter Da wir jedoch nicht die gesamte Bevölkerung befragen können, ziehen wir eine Stichprobe Für Co ergibt diese Stichprobe keinen exakten Mittelwert von 1,77 Metern Das wäre sehr unwahrscheinlich. Oh. Es kann sein , dass die rein zufällig entnommene Probe um 3 Zentimeter mal 8 Zentimeter mal 15 Zentimeter oder um einen anderen Wert abweicht 3 Zentimeter mal 8 Zentimeter mal 15 Zentimeter oder um einen anderen Wert Da wir eine ungerichtete Hypothese testen , wollen wir also nur wissen, ob es einen Unterschied gibt Es ist uns egal, in welche Richtung der Unterschied geht. Jetzt kommen wir zum p-Wert. Wie bereits erwähnt, gehen wir davon aus, dass es in der Bevölkerung einen Mittelwert von 1,77 Metern Wenn wir eine Stichprobe ziehen, wird sie sich um einen bestimmten Wert von der Grundgesamtheit unterscheiden Der p-Wert gibt an, wie wahrscheinlich es ist, eine Stichprobe zu ziehen, die Grundgesamtheit abweicht gleichen oder einen größeren Betrag als den beobachteten Wert von der Schauen wir uns das noch einmal genauer an. Wir haben eine Stichprobe, die sich von der Grundgesamtheit unterscheidet. Wir sind jetzt daran interessiert, wie wahrscheinlich es ist, eine Stichprobe zu ziehen , die genauso stark wie unsere Stichprobe oder mehr von der Grundgesamtheit abweicht unsere Stichprobe oder mehr von der Grundgesamtheit Somit gibt der p-Wert an, wie wahrscheinlich es ist, eine Stichprobe zu ziehen , deren Mittelwert in diesem Bereich liegt Zum Beispiel, wenn die Stichprobe zufällig um 3 Zentimeter von 1,77 Metern abweicht Der p-Wert gibt an, wie wahrscheinlich es ist, eine Stichprobe zu ziehen , die 3 Zentimeter oder mehr von der Grundgesamtheit abweicht 3 Zentimeter oder mehr von Wenn die Stichprobe zufällig um 9 Zentimeter von 1,65 Metern abweicht , sagt uns der p-Wert, wie wahrscheinlich es ist, eine Stichprobe zu ziehen , die 9 Zentimeter oder mehr von der Grundgesamtheit abweicht Nehmen wir ein Beispiel, bei dem wir einen Unterschied von 9 Zentimetern erhalten , und unsere bevorzugte Berechnet wie Mini Tab den p-Wert von 0,03. Das sind 3%. Dies zeigt uns, dass die Wahrscheinlichkeit, eine Stichprobe zu ziehen, die mindestens 9 Zentimeter vom Mittelwert der Grundgesamtheit von 1,77 Metern abweicht, mit einer Wahrscheinlichkeit von nur 3% mindestens 9 Zentimeter vom Mittelwert der Grundgesamtheit von 1,77 Metern abweicht, mit einer Wahrscheinlichkeit von Für normalverteilte Daten. Das bedeutet, dass die Wahrscheinlichkeit , dass der Mittelwert in diesem Bereich liegt einen Richtung bei 1,5% und in der anderen Richtung bei 1,5% Insgesamt 3%. Wenn diese Wahrscheinlichkeit sehr gering ist Man kann sich natürlich fragen, ob die Stichprobe überhaupt aus einer Population mit einem Mittelwert von 1,65 Metern stammt überhaupt aus einer Population mit einem Mittelwert von 1,65 Metern Wenn diese Wahrscheinlichkeit sehr gering ist. Man kann sich natürlich fragen, ob die Stichprobe überhaupt aus einer Population mit einem Mittelwert von 1,77 Metern stammt überhaupt aus einer Population mit einem Mittelwert von 1,77 Metern Es ist nur eine Hypothese , dass der Mittelwert von Basketballspielern 1,77 Meter beträgt Und genau diese Hypothese wollen wir testen. Wenn wir also einen sehr kleinen p-Wert berechnen, gibt uns dies Hinweise darauf , dass der Mittelwert der Population überhaupt nicht 1,77 Meter beträgt Daher würden wir die Nullhypothese ablehnen, die davon ausgeht, dass der Mittelwert 1,77 Meter beträgt Daher würden wir die Nullhypothese ablehnen, die davon ausgeht, dass der Mittelwert 1,77 Meter beträgt Aber an welchem Punkt ist der p-Wert klein genug, um die Nullhypothese abzulehnen Dies wird mit dem sogenannten Signifikanzniveau, auch Alpha-Niveau genannt, bestimmt . Dabei sind zwei wichtige Dinge zu beachten. Erstens wird das Signifikanzniveau immer vor der Studie festgelegt und kann danach nicht mehr geändert werden , um letztendlich die gewünschten Ergebnisse zu erzielen. Zweitens, um ein gewisses Maß an Vergleichbarkeit zu gewährleisten, wird das Signifikanzniveau in der Regel auf 5% oder 1% festgelegt Ein AP-Wert von weniger als 1% wird als hochsignifikant angesehen Weniger als 5% werden signifikant und mehr als 5% als signifikant bezeichnet. Zusammenfassend gibt uns der p-Wert einen Hinweis darauf, ob wir die Nullhypothese ablehnen oder nicht. Zur Erinnerung: Die Nullhypothese geht davon aus, dass es keinen Unterschied gibt. Die Alternativhypothese geht zwar davon aus, dass es einen Unterschied gibt. Im Allgemeinen wird die Nullhypothese verworfen, wenn der p-Wert kleiner als 0,05 ist Es ist immer nur eine Wahrscheinlichkeit, und wir können mit unserer Aussage falsch liegen Wenn die Nullhypothese in der Grundgesamtheit I zutrifft , liegt der Mittelwert bei 1,77 Metern Aber wir ziehen eine Stichprobe, die zufällig ziemlich weit entfernt ist. Es könnte sein, dass der p-Wert kleiner als 0,05 ist. Wir lehnen die Nullhypothese fälschlicherweise ab. Dies wird als Fehler vom ersten Typ bezeichnet. Wenn es sich um eine Grundgesamtheit handelt, ist die Nullhypothese falsch. Das heißt, der Mittelwert liegt nicht bei 1,77 Metern, aber wir ziehen eine Stichprobe , die zufällig sehr nahe bei 1,77 Der p-Wert kann größer als 0,05 sein, und wir dürfen die Nullhypothese nicht zurückweisen Dies wird als Fehler vom zweiten Typ bezeichnet. Danke, dass du mit mir gelernt hast. Wir sehen uns in der nächsten Statistikstunde. 22. Arten von Fehlern: Lassen Sie uns einige weitere Beispiele für Null- und Alternativhypothesen verstehen . Nehmen wir also an, wenn mein Projekt Sie vergießen wird, ist meine Nullhypothese ein fester Wert. Ich würde also sagen, dass mein aktueller Mittelwert meiner aktuellen durchschnittlichen Zeit, um Julies 70% zu teilen , beträgt. Aktuell. Der Durchschnitt von P bis S liegt bei 70%. Die alternative Hypothese würde bedeuten, dass sie nicht bei 70% liegt. Angenommen, ich denke über den Feuchtigkeitsgehalt eines Projekts nach. Ich bin in einer Fertigungsanlage und möchte messen ob der Feuchtigkeitsgehalt 5% betragen sollte. Oder 5% sind für meinen Kunden akzeptabel, dann kann ich sagen, dass mein Feuchtigkeitsgehalt weniger als fünf Prozent beträgt. Dann würde die alternative Hypothese behaupten, dass der Feuchtigkeitsgehalt größer als fünf Prozent ist. Der Fall, in dem der Mittelwert größer als ist, dann die Nullhypothese. Wir haben kein Interesse an diesem Problem. Lass es uns weiter verstehen. Die Frage war, hat ein kürzlich erfolgter TED-Prozess zur Genehmigung von Krediten für kleine Unternehmen die durchschnittliche Zykluszeit für die Bearbeitung des Kredits reduziert ? Die Antwort könnte nein sein. Die Zykluszeit hat sich nicht geändert. Oder der Manager sieht vielleicht, dass die mittlere Zykluszeit unter 7,5% liegt. Der Status Quo entspricht also 7,514 Minuten. Und die Alternative sagt, nein, es sind weniger als 7,414 Minuten oder Tage, was auch immer die Hauptmaßeinheit ist wir messen, oder? Ihr Status Quo ist also standardmäßig eine Go-Null-Hypothese. Und das Beispiel oder der Status, Sie leichter beweisen möchten alternative Hypothese. Jetzt könnte es irgendwelche Pfeile geben, wenn wir Entscheidungen treffen. Kehren wir also zu unserem Codefall zurück. Der Angeklagte ist in Wirklichkeit nicht schuldig, oder? Lass mich meinen Laserstrahl aufnehmen. Standardmäßig ist der Angeklagte oder die Realität, dass der Angeklagte nicht schuldig ist. Urteil kommt auch , dass der Angeklagte, die Person nicht schuldig ist. Es ist eine gute Entscheidung, oder? Also ja, wir haben eine sehr gute Entscheidung getroffen, dass die Person unschuldig ist. In Wirklichkeit ist der Angeklagte schuldig. Und das Urteil lautet auch , dass er schuldig ist. Die Entscheidung ist eine gute Entscheidung. Was passiert, ist, dass die Person in Wirklichkeit nicht garantiert ist, aber das Urteil kommt, dass sie schuldig ist und eine unschuldige Person verurteilt wird. Es ist ein Fehler. Das ist ein sehr großer Fehler. In einer Person aus dem Norden, die zu einer Strafe verurteilt und ins Gefängnis gesteckt wird, mit einer Strafe, ist das ein Fehler. Der Fehler kann sogar auf der anderen Seite passieren, wo die Person in Wirklichkeit schuldig ist, aber das Urteil kommt, dass sie nicht schuldig ist. Person wird für unschuldig erklärt und ist bereit dafür. Dies ist auch ein Pfeil, der aber ein größerer Fehler ist. Der größere Fehler, den Sie in das Kommentarfeld schreiben können , was denken Sie? Welcher Fehler ist der größere Pfeil? Ist der Fehler ein größerer Fehler oder ist der Fehler der größere Pfeil? Wenn keine vernünftige Person, die verurteilt wird, ein größerer Fehler ist oder ist eine schuldige Person, die sich frei auf den Straßen bewegt , entweder größerer Pfeil? Ich hoffe, Sie haben die Kommentare bereits geschrieben. Die Realität ist also, dass dies mein größerer Fehler wird. Und das wird als Typ-Eins-Fehler bezeichnet. Denn wenn ein Unschuldiger verurteilt wird, können wir die Zeit, die er verloren hat, nicht zurückgeben. Wir können nicht verstehen, dass er viele emotionale Traumata erleiden würde. Wenn ein Schuldiger für unschuldig erklärt wird, können wir ihn vor das Oberste Gericht und Obersten Gerichtshof bringen und ihn dazu bringen, zu beweisen, dass er nicht schuldig ist, richtig. Damit ich hier die Entscheidung treffen kann , dass die Person ein Sträfling ist. Er sollte verurteilt werden und er sollte für schuldig erklärt und bestraft werden. Dieser Fehler wird also als Typ-2-Fehler bezeichnet. Wenn Sie jemand gefragt hat, welcher Fehler ein größerer Fehler ist, geben Sie einen Fehler ein, der auch als Alpha-Fehler bezeichnet wird. Und das wird als Betafehler bezeichnet. Richtig? Lass uns in unserer nächsten Klasse weiter machen . 23. Arten von Fehler-part2: Lassen Sie uns die Arten von Pfeilen noch einmal verstehen. Wie wir also wissen, dass, wenn die Person nicht schuldig ist oder die Person unschuldig ist, und das Urteil besagt auch, dass die Person nicht schuldig ist. Es ist eine gute Entscheidung. Wenn die Person schuldig ist, lautet das Urteil, dass sie schuldig ist. Die Entscheidung ist wieder eine gute Entscheidung. Der Verurteilte ist nicht, muss verurteilt werden oder sollte bestraft werden. Das Problem tritt auf, wenn eine unschuldige Person als schuldig bewiesen wird und leidet. Die zweite Art von Problem, das auftritt, wenn eine schuldige Person, eine Person mit einem Verbrecher, als unschuldig erklärt wird. Und er sagte: Dies wird als Typ-Eins-Fehler bezeichnet. Das heißt, eine unschuldige Person, die verurteilt oder bestraft wird, ist ein Typ-eins-Fehler. Er wird auch Alpha-Pfeil genannt. Eine schuldige Person, kriminell befreit, wird als Typ-2-Fehler oder Beta-Fehler bezeichnet, was auch ein Fehler ist , den wir vermeiden wollen. Das Signifikanzniveau wird durch den Alpha-Wert festgelegt. Wie sicher möchten Sie also die richtige Entscheidung treffen? Also tritt ein Fehler ein, wenn die Null wahr ist, aber wir haben abgelehnt. Typ-2-Fehler tritt auf, wenn die Null in Wirklichkeit falsch ist, wir sie aber nicht ablehnen. Wie hilft uns das bei der Verarbeitung? Lassen Sie uns das einfach jeden Tag für das Mittagessen verstehen. Richtig? Lassen Sie uns das genauer verstehen. Dies ist das eigentliche Szenario. Schreiben wir das tatsächliche oben. Und diese Mythen mögen das Urteil. Okay, denken wir jetzt über den Prozess nach. Der Prozess hat sich nicht geändert. Hat sich nicht geändert. Keine Alternative wird sein Prozess hat sich geändert. Jetzt ist das Urteil zur Kenntnis genommen. Und das Urteil ist, dass sich der Prozess verbessert hat. Okay. Jetzt stelle ich dir eine sehr wichtige Frage. Wenn sich ein Prozess nicht geändert hat und das Urteil lautet, dass es keine Änderung gibt, ist dies die richtige Entscheidung. Prozess hat sich geändert und das Urteil lautet auch, dass sich der Prozess verbessert hat. Das ist auch eine richtige Entscheidung. Stellen Sie sich nun vor, der Prozess hat sich nicht geändert, aber wir haben erklärt, dass ich jetzt einen verbesserten Prozess und ein verbessertes Produkt habe, und ich informiere den Kunden: Ist das richtig? Ein Fehler. Und dies wird als Typ-Eins-Fehler bezeichnet, weil sie alt erscheinen, aber unsere Schulden werden als neues Produkt an den Kunden verkauft. Können Sie verstehen , was mit dem Ruf des Unternehmens passieren wird ? Das Team oder Produkt wird als neue Produkte an den Kunden verkauft . Neues Ein-Kernprodukt. Was wird also mit dem Ruf des Unternehmens passieren? Es wird ein Wurf sein und daher sagen wir, dass dies keine gute Entscheidung ist. Jetzt verstehe hier auch der Prozess hat sich geändert. Der Prozess hat sich verbessert, aber das Urteil ist nicht verbessert. Dies ist auch ein Fehler. Ich streite es nicht ab. Dies wird als Typ-2-Fehler bezeichnet oder Audit wird auch als Betafehler bezeichnet. Gleich hier. Was passiert ist, dass wir dem Kunden nicht mitteilen , dass die Verbesserung eingetreten ist, oder? Wir behalten die verbesserten Artikel in Brutprodukten also nicht behalten die verbesserten Artikel im Lager. Das ist auch nicht richtig, aber der größere Fehler ist hier wo wir eigentlich keine Verbesserung vorgenommen haben, aber ich informiere den Kunden , dass Sie schlechte Leute sind. 24. Jingle: Wenn wir Hypothesen testen, gibt es immer zwei Hypothesen. Eine ist die Standardhypothese, die Nullhypothese, und die zweite ist die alternative Hypothese , die Sie beweisen möchten. Und das ist der Grund, warum Sie die Hypothese aufstellen. Wenn Sie also die Hypothese aufstellen, ist der Grund, warum wir das tun , dass wir niemals Zugang zur gesamten Bevölkerung haben. Wenn wir also die Probe sammeln, wollen wir verstehen, die Probe von der Glockenkurve stammt oder der Verteilung, aus der wir verstehen, welche Variation Sie sehen, ? aufgrund der natürlichen Eigenschaft des Datensatzes. Manchmal kann sich die Probe an der Endecke des Klettverschlusses befinden. Und das ist ein Ort, an dem wir die Verwirrung bekommen , dass diese Daten zum ursprünglichen Klettverschluss gehören oder zur zweiten Alternative gehören? Willkommen. Das ist da. Wir werden Übungen machen , die Ihnen ein einfacheres Verständnis dafür vermitteln. Hypothese, Sie erhalten Informationen wie den p-Wert, abgesehen von den Ergebnissen der Teststatistik. Sie erhalten auch den p-Wert. Wir vergleichen immer den p-Wert mit dem Nullwert , den wir gesetzt haben. Angenommen, Sie möchten zu 95% selbstbewusst sein. Dann legen Sie den p-Wert auf 5% fest. Und wenn Sie festlegen, dass das Konfidenzniveau 90% beträgt, liegt Ihr Alpha-Wert bei zehn Prozent oder Ihr p-Wert bei 0,10. Der Grund, warum wir einen p-Wert verwenden, ist, dass, wenn Sie diese Glockenkurve sehen können, die wahrscheinlichste Beobachtung Teil der Mitte der Glocke ist. Sehr unwahrscheinliche Beobachtungen kommen vom Schwanz. Dieser p-Wert, der grüne Grund, hilft Ihnen zu erkennen, ob er zum ursprünglichen Klettverschluss gehört oder zu dem alternativen Großteil davon gehört, das heißt, Sie versuchen es durch die alternative Hypothese zu beweisen. Daher hilft Ihnen der p-Wert , sich daran leicht zu erinnern. Denk an den Jingle. Unten, null. Das heißt, wenn der p-Wert kleiner als der Alpha-Wert ist, werde ich die Nullhypothese zurückweisen. P Flug auf hohem Niveau. Wenn der p-Wert größer als der Alpha-Wert ist, können wir die Nullhypothese nicht zurückweisen. Wir kommen zu dem Schluss, dass wir nicht genügend statistische Beweise dafür haben , dass die alternative Hypothese existiert. Wir werden viel Sport treiben und ich werde diesen Jingle mehrmals singen , damit du dich leicht daran erinnern kannst. Gehen Sie unter Null hinter Nullcline. Einige der Teilnehmer mit, wenn ich den Workshop mache, werden sie sagen, dass None Go was bedeutet? Die andere Sache, an die ich ihnen sage, dass sie sich leicht erinnern sollen, ist f für Flug und F für Feld. Also wenn P hoch Null ist, fliegen wir. Das bedeutet, dass Sie die Nullhypothese nicht zurückweisen können. Es wird eine Nullhypothese geben. Die alternative Hypothese wird verworfen. Denken Sie an eine weitere Sache, die hauptsächlich während des Interviews gefragt wird. Der p-Wert lag bei 1,230,123. Würden Sie die Nullhypothese ablehnen oder würden Sie die Nullhypothese akzeptieren? Oder würden Sie die alternative Hypothese akzeptieren? Oder akzeptieren Sie die Nullhypothese? Als Statistiker? Wir akzeptieren niemals eine Hypothese. Entweder lehnen wir die Nullhypothese oder wir verwerfen die Nullhypothese nicht. Wir sagen es immer aus der Sicht von Null, weil der Standardstatus Quo die Nullhypothese erleichtert. Wenn das P hoch ist, akzeptieren wir die Null - und Alternativhypothese nicht. Akzeptieren wir nicht die Nullhypothese. Wir sagen, wir können die Nullhypothese nicht zurückweisen. Wenn das p niedrig ist, akzeptieren wir keine Alternative, aber wir sagen, ich lehne die Nullhypothese ab und kommen zu dem Schluss, dass es genügend statistische Beweise dafür gibt , dass die Daten vom alternativen Bellcore stammen . Wir werden mit vielen Übungen weitermachen. Und dies gibt Ihnen Sicherheit wie Sie dabei Inferenzstatistiken üben, interpretieren und in Ihrer Analyse verwenden können. 25. Testauswahl: Eine der häufigsten Fragen , die meinen Teilnehmern gestellt werden, wenn ich Projekt teilnehme , ist , welche Hypothese sollte ich mieten? Das ist also eine einfache Analyse , die Ihnen hilft, das zu verstehen. Welche Tests sollte ich verwenden? Genau wie wenn ein Patient zum Arzt geht, verschreibt ihm der Arzt nicht den gesamten Test. Er hat ihm einfach den entsprechenden Test gemacht, basierend auf dem Problem, dass der Patient fischt. Wenn der Patient sieht, dass ich einen Unfall hatte, würde der Arzt sagen, dass ich denke, Sie sollten Ihre Röntgenaufnahme machen lassen. Er würde ihn nicht bitten, seinen COVID-Test oder RT-PCR-Test zu machen . Wenn die Person hustet und an Fieber leidet, wird eine RT-PCR empfohlen. Und zu diesem Zeitpunkt sind wir nicht in der Lage, die Röntgenaufnahme zu befriedigen. Ähnlich sieht es aus, wenn wir einfache Hypothesentests durchführen, wir versuchen, sie zu verstehen oder auf andere Weise einfache Hypothesentests durchführen, wir versuchen, sie zu verstehen oder mit der Bevölkerung zu vergleichen. Wir wollen verstehen, welchen Test wir durchführen sollten? Wenn ich auf Mittelwerte teste, das Ihr Durchschnitt ist, dann vergleichen Sie den Mittelwert einer Stichprobe mit dem erwarteten Wert. Also vergleiche ich die Stichprobe mit meiner Population. Dann mache ich meinen T-Test mit einer Stichprobe. Ich habe nur eine Probe , die ich vergleiche. Ich möchte vergleichen, ob die durchschnittliche Leistung des, wenn der durchschnittliche Umsatz gleich x ist, was der erwartete Wert ist. Wir hatten also erwartet, dass der Umsatz beispielsweise 5 Millionen betragen würde. Mein Durchschnitt liegt bei 4,8. Ich habe das nicht getroffen. Dann kann ich einen T-Test mit einer Stichprobe machen. Vergleichen Sie den Mittelwert von Proben mit zwei verschiedenen Proportionen. Wenn ich also zwei unabhängige Ts habe, nehmen wir an, ich führe online eine Schulung durch. Ich führe eine Schulung offline durch. Es ist die Shrina und ich habe eine Reihe von Studenten, die an meinem Online-Programm teilnehmen. Ich habe eine andere Gruppe von Studenten , die an meinem Programm teilnehmen. Ich möchte die Effektivität von Schulungen vergleichen. Ich habe also zwei Stichproben, und das sind zwei unabhängige Stichproben , weil die Teilnehmer unterschiedlich sind. Dann mache ich einen T-Test mit zwei Stichproben. Wenn ich die beiden Stichproben vergleichen möchte kommen die Leute zu meinem Training. Ich mache vor meinem Trainingsprogramm eine Bewertung über ihr Verständnis von Lean Six Sigma. Und ich kann das Schulungsprogramm absolvieren und die gleichen Teilnehmer nehmen nach dem Schulungsprogramm am Test teil . Also die Teilnehmer oder die Szene. Aber die Veränderung , die stattgefunden hat, ist das Training, das sich auf sie ausgewirkt hat. Ich habe die Testergebnisse vor dem Training und ich habe die Testergebnisse nach dem Training, ich möchte vergleichen, ob das Training effektiv ist. Dann mache ich einen gepaarten T-Test mit zwei Stichproben. weiter voran. Angenommen, ich teste auf Frequenz, habe ich diskrete Daten und möchte die Frequenz testen , da ich in diskreten Daten keine Durchschnittswerte habe. Ich nehme Frequenzen. Wenn ich also die Anzahl Variablen in einer Stichprobe mit der erwarteten Verteilung vergleiche, genau wie ich einen Beispiel-T-Test hatte. Das Äquivalent dazu für diskrete Daten wäre meine Chi-Quadrat-Güte der Anpassung. I, standardmäßig wird erwartet, dass es sich um einen normalen Wert oder einen bestimmten Wert oder einen unerwarteten Wert handelt. Und das vergleiche ich. Wie weit sind meine Daten? Ich setze auf eine chi-quadratische Passform. Dieser Test ist auf MiniTab in Excel verfügbar. Es ist nicht verfügbar. Also werde ich eine Vorlage erstellen und sie dir geben, die es dir leicht macht , den Chi-Quadrat-Test durchzuführen. Alle drei verschiedenen Arten von Chi-Quadrat-Tests unter Verwendung der Excel-Vorlage. Wenn ich einige der Variablen zwischen zwei Stichproben zählen muss. Es wird also ein homogener Chi-Quadrat-T-Test sein. Ich überprüfe eine einfache einzelne Stichprobe , um festzustellen, ob die diskreten Variablen unabhängig sind. Ich mache einen Chi-Squared Unabhängigkeitstest. Wenn ich einen Teil der Daten habe, wie gute oder schlechte Bewerbungen, habe ich akzeptiert oder abgelehnt. Und ich sage, okay, 50% der Bewerbungen werden angenommen oder fünfundzwanzig Prozent der Menschen werden gestellt. Ich habe einen Anteil , den ich testen möchte. Wenn ich nur eine Probe habe, mache ich einen Proportionstest. Wenn ich den Anteil der Handelsabsolventen mit dem Absolventen der Naturwissenschaften oder den Anteil der Finanz-, MBA- und Personen mit Marketing-MBA-Mitarbeitern vergleichen Handelsabsolventen mit dem Absolventen der Naturwissenschaften oder den Anteil der Finanz-, möchte, habe ich zwei verschiedene Stichproben, damit ich mach einen Test mit zwei Proportionen. Um es zusammenzufassen Wenn ich teste, teste ich auf Durchschnittswerte? Teste ich auf Frequenzen wie diskrete Daten oder teste ich auf Proportionen? Abhängig davon nehmen Sie den entsprechenden Test auf und arbeiten daran. Wir werden das alles mit Men Dab und Exit üben . Der Datensatz ist im Abschnitt Beschreibung verfügbar. Im Projektbereich lade ich Sie alle ein, es zu üben und Ihre Projekte, Ihre Analyse, in den Projektbereich zu stellen . Wenn Sie irgendwelche Zweifel haben, können Sie dies in den Diskussionsbereich schreiben und ich beantworte gerne Ihre Zweifel. Viel Spaß beim Lernen. 26. Konzepte von T Test im Detail: Was bringt dir dieses Video bei? Über den T-Test? Dieses Video behandelt alles, was Sie über den T-Test wissen müssen . Am Ende dieses Videos erfahren Sie, was ein AT-Test ist, wann er verwendet werden sollte, verschiedenen Arten von T-Tests, Hypothesen und Annahmen involviert sind, wie der AT-Test berechnet wird und wie die Ergebnisse zu interpretieren Was ist ein T-Test? Fangen wir mit den Grundlagen an. Ein T-Test ist ein statistisches Testverfahren. wird analysiert, ob zwischen den Mittelwerten zweier Gruppen ein signifikanter Unterschied besteht. Zum Beispiel könnten wir den Blutdruck von Patienten, die Medikament A erhalten , mit dem Blutdruck vergleichen . Medikament B, Arten von T-Tests. Es gibt drei Haupttypen von T-Tests: den t-Test mit einer Stichprobe, den t-Test mit unabhängigen Proben oder den t-Test mit zwei Stichproben und den t-Test mit gepaarten Stichproben. Was ist ein T-Test für eine Stichprobe? Wir verwenden einen t-Test mit einer Stichprobe, wenn wir den Mittelwert einer Stichprobe mit einem bekannten Referenzmittelwert vergleichen möchten . Ein Hersteller von Schokoriegeln gibt beispielsweise an, dass seine Riegel durchschnittlich 50 Gramm wiegen . Wir nehmen eine Probe. Finden Sie das Durchschnittsgewicht heraus. davon aus, dass das Probengewicht 48 Gramm beträgt, und führen Sie einen t-Test mit einer Probe durch, um festzustellen, ob es signifikant von den angegebenen 50 Gramm abweicht. Was ist ein T-Test für unabhängige Proben? Der t-Test für unabhängige Stichproben vergleicht die Mittelwerte zweier unabhängiger Gruppen oder Stichproben. Wir könnten zum Beispiel die Wirksamkeit von zwei Schmerzfarben vergleichen , indem 60 Personen nach dem Zufallsprinzip zwei Gruppen zuordnen Bei der Einnahme von Medikament A und dem anderen Medikament B. Und dann anhand eines unabhängigen T-Tests, um signifikante Unterschiede in der Schmerzlinderung zu bewerten Was ist ein T-Test für gepaarte Proben? Der t-Test für gepaarte Stichproben vergleicht die Mittelwerte zweier abhängiger Gruppen. Um beispielsweise die Wirksamkeit einer Diät zu beurteilen, könnten wir zuvor 30 Personen wiegen. Nach der Diät stellen wir anhand von Stichprobenpaaren fest, ob zuvor ein signifikanter Gewichtsunterschied bestand. Nach der Diät. Das Verständnis des Unterschieds zwischen abhängigen und unabhängigen Proben ist entscheidend für die Auswahl des richtigen T-Tests für Ihre Analyse. Abhängige Stichproben oder Stichprobenpaare beziehen sich auf Fälle, in denen jede Beobachtung in einer Stichprobe mit einer bestimmten Beobachtung gepaart ist. Bei der anderen Stichprobe ergibt sich diese Paarung aus der Art der Datenerhebung, z. B. vor und nach den Messungen An denselben Personen, übereinstimmende Paare in einem Experiment Der t-Test der gepaarten Stichproben wird verwendet, um zu beurteilen, ob. Die mittlere Differenz zwischen diesen gepaarten Beobachtungen ist statistisch signifikant Andererseits handelt es sich bei unabhängigen Stichproben um Beobachtungen, aus zwei getrennten Gruppen oder Populationen stammen, die nicht miteinander verwandt oder in keiner systematischen Weise gepaart sind miteinander verwandt oder in keiner systematischen Weise gepaart Jede Beobachtung in einer Stichprobe ist völlig unabhängig von jeder anderen Beobachtung. In der anderen Stichprobe, den unabhängigen Stichproben, T-Test bewertet, ob sich die Mittelwerte dieser beiden unabhängigen Gruppen signifikant voneinander unterscheiden Die Wahl zwischen diesen Arten von T-Tests hängt davon ab, wie die Daten gesammelt wurden und in welchem Verhältnis die zu vergleichenden Stichproben Durch die Verwendung des richtigen T-Tests wird sichergestellt, dass Ihre statistische Analyse die Art Ihrer Forschungsfrage und die Struktur Ihrer Daten genau widerspiegelt die Art Ihrer Forschungsfrage . Hier ist ein interessanter Hinweis. Der t-Test mit gepaarten Stichproben ist dem t-Test mit einer Stichprobe sehr ähnlich. Wir können uns den t-Test mit gepaarten Stichproben auch so vorstellen den t-Test mit gepaarten Stichproben auch so , dass eine Probe zu zwei verschiedenen Zeitpunkten gemessen wurde . Anschließend berechnen wir die Differenz zwischen den gepaarten Werten und erhalten so einen Wert für eine Stichprobe. Die Differenz ist eins minus fünf plus zwei minus eins minus drei und so weiter und so fort. Nun wollen wir testen, ob der Mittelwert der gerade berechneten Differenz von einem Referenzwert abweicht In diesem Fall Null, genau das macht der T-Test mit einer Stichprobe Was sind die Annahmen? Für einen t-Test benötigen wir natürlich zuerst eine geeignete Probe im T-Test mit einer Stichprobe, wir benötigen eine Stichprobe und den Referenzwert im unabhängigen t-Test. Wir benötigen zwei unabhängige Stichproben, und im Fall eines t-Tests mit einem Paar, eine Stichprobe, wobei die Variable, für die wir testen wollen , ob es einen Unterschied zwischen den Mittelwerten gibt , metrisch sein muss. Beispiele für metrische Variablen sind Alter, Körpergewicht und Einkommen. Beispielsweise ist das Bildungsniveau einer Person keine metrische Variable. Darüber hinaus muss die metrische Variable in allen drei Testvarianten normalverteilt sein , um zu lernen, wie Sie testen können, ob Ihre Daten normalverteilt sind. Bei einem unabhängigen T-Test die Varianzen in den beiden Gruppen müssen die Varianzen in den beiden Gruppen ungefähr gleich sein dem L-Even-Test können Sie überprüfen, ob die Varianzen Mit dem L-Even-Test können Sie überprüfen, ob die Varianzen gleich sind Was sind die Hypothesen des T-Tests? Beginnen wir mit dem T-Test mit einer Stichprobe im T-Test mit einer Stichprobe Die Nullhypothese besagt, dass der Mittelwert der Stichprobe dem angegebenen Referenzwert entspricht. Es gibt also keinen Unterschied, und die alternative Hypothese lautet der Mittelwert der Stichprobe nicht dem angegebenen Referenzwert entspricht. Was ist mit den unabhängigen Stichproben, die getestet werden sollen? Beim unabhängigen t-Test lautet die Nullhypothese, lautet die Nullhypothese dass die Mittelwerte in beiden Gruppen identisch sind. Es gibt also keinen Unterschied zwischen den beiden Gruppen, und die alternative Hypothese lautet dass die Mittelwerte in beiden Gruppen nicht gleich sind. Es besteht also ein Unterschied zwischen den beiden Gruppen. Und schließlich werden die Stichprobenpaare in einem T-Paar-Test getestet. Die Nullhypothese ist, dass der Mittelwert der Differenz zwischen den Paaren Null ist, und die Alternativhypothese ist dass der Mittelwert der Differenz zwischen den Paaren nicht Null ist. Jetzt wissen wir, was die Hypothesen sind. Bevor wir uns ansehen, wie der T-Test berechnet wird. Schauen wir uns ein Beispiel an , warum wir tatsächlich einen T-Test benötigen. Nehmen wir an, es gibt einen Unterschied in der Studiendauer für einen Bachelor-Abschluss zwischen Männern. Und Frauen in Deutschland. Unsere Bevölkerung setzt sich also aus allen Bachelor-Absolventen zusammen , die in Deutschland studiert haben. Da wir jedoch nicht alle Bachelor-Absolventen befragen können, ziehen wir eine möglichst repräsentative Stichprobe. Mit dem Test testen wir nun die Nullhypothese, dass es keinen Unterschied in der Grundgesamtheit gibt. Wenn es keinen Unterschied in der Grundgesamtheit gibt, wenn es keinen Unterschied in der Grundgesamtheit gibt, werden wir in der Stichprobe sicherlich immer noch einen Unterschied in der Studiendauer feststellen . Es wäre sehr unwahrscheinlich, dass wir eine Stichprobe ziehen würden, bei der der Unterschied genau Null wäre. Einfach ausgedrückt wollen wir jetzt wissen, bei welcher Differenz in einer Stichprobe gemessen wurde. Wir können sagen, dass die Studiendauer von Männern und Frauen signifikant unterschiedlich ist. Und genau das beantwortet der T-Test. Aber wie berechnen wir einen T-Test? Um das zu tun? Wir berechnen zuerst den t-Wert, um den t-Wert zu berechnen. Wir benötigen zwei Werte. Zuerst benötigen wir die Differenz zwischen den Mittelwerten und dann die Standardabweichung vom Mittelwert. Dies wird auch als Standardfehler bezeichnet. Beim t-Test mit einer Stichprobe berechnen wir die Differenz zwischen dem Stichprobenmittelwert und dem bekannten Referenzmittelwert. S ist die Standardabweichung der gesammelten Daten und n ist die Anzahl der Fälle. S geteilt durch die Quadratwurzel von n ist dann die Standardabweichung vom Mittelwert. Was ist der Standardfehler? Beim t-Test der abhängigen Stichproben berechnen wir einfach die Differenz zwischen den Mittelwerten der beiden Stichproben. Um den Standardfehler zu berechnen, benötigen wir die Standardabweichung und die Anzahl der Fälle aus der ersten und zweiten Stichprobe, je nachdem, ob wir für unsere Daten von gleicher oder ungleicher Varianz ausgehen können für unsere Daten von gleicher oder ungleicher Varianz Für den Standardfehler gibt es unterschiedliche Formeln . Bei einem t-Test mit einer gepaarten Stichprobe müssen wir nur die Differenz zwischen den gepaarten Werten berechnen und daraus den Mittelwert berechnen. Der Standardfehler ist dann derselbe wie bei einem t-Test mit einer Stichprobe. Was haben wir bisher über den T-Wert gelernt? Egal welcher T-Test, wir rechnen. Der t-Wert ist größer, wenn wir eine größere Differenz zwischen den Mittelwerten haben, und der t-Wert ist kleiner wenn die Differenz zwischen den Mittelwerten kleiner ist. Außerdem wird der t-Wert kleiner, wenn wir eine größere Streuung des Mittelwerts haben. Je stärker die Daten gestreut sind, desto weniger aussagekräftig sind die Mittelwertunterschiede. Jetzt wollen wir den t-Test verwenden um zu sehen, ob wir die Nullhypothese zurückweisen können oder nicht. Dazu können wir den t-Wert nun auf zwei Arten verwenden. Entweder lesen wir den kritischen t-Wert aus einer Tabelle ab, oder wir berechnen einfach den p-Wert aus dem t-Wert. Wir werden beide gleich durchgehen. Aber was ist der p-Wert? Ein t-Test testet immer die Nullhypothese, dass es keinen Unterschied gibt. Zunächst gehen wir davon aus, dass es keinen Unterschied in der Population gibt. Wenn wir eine Stichprobe ziehen, weicht diese Stichprobe um einen bestimmten Betrag von der Nullhypothese Der p-Wert gibt an, wie wahrscheinlich es ist, dass wir eine Stichprobe ziehen würden, von der Grundgesamtheit abweicht gleichen Betrag oder mehr von der Grundgesamtheit abweicht als eine Stichprobe, die wir Je mehr also die Stichprobe von der Nullhypothese abweicht, desto kleiner wird der p-Wert. Wenn diese Wahrscheinlichkeit sehr, sehr gering ist, können wir natürlich fragen, ob die Nullhypothese für die Grundgesamtheit gilt Vielleicht gibt es einen Unterschied, aber an welchem Punkt können wir die Nullhypothese ablehnen Diese Grenze wird als Signifikanzniveau bezeichnet liegt normalerweise bei 5%. Wenn es nur eine Wahrscheinlichkeit von 5% gibt , dass wir eine solche Stichprobe ziehen. Oder eine, die anders ist. Dann haben wir genügend Beweise, um anzunehmen, dass wir die Nullhypothese ablehnen. Einfach ausgedrückt gehen wir davon aus, dass es einen Unterschied gibt, dass die Alternativhypothese wahr ist. wir nun wissen, was der p-Wert ist, können wir uns endlich ansehen, wie der t-Wert verwendet wird, um festzustellen, ob die Nullhypothese abgelehnt wird oder nicht. Beginnen wir mit dem Pfad durch den kritischen t-Wert , den Sie aus einer Tabelle ablesen können. Um das zu tun. Wir benötigen zunächst eine Tabelle mit kritischen T-Werten, die wir auf der Registerkarte Daten unter Tutorials und T-Verteilung finden . Fangen wir mit den beiden Heckgehäusen an. Wir werden uns am Ende dieses Videos kurz das Gehäuse mit einem Schwanz ansehen. Hier unten sehen wir die Tabelle. Zunächst müssen wir entscheiden, welches Signifikanzniveau wir verwenden wollen. Wählen wir ein Signifikanzniveau von 0,05 von 5%. Dann schauen wir in dieser Spalte auf 120,05, was 0,95 entspricht. Jetzt benötigen wir die Freiheitsgrade für den einer Stichprobe und den t-Test für die gepaarten Stichproben Die Freiheitsgrade sind einfach die Anzahl der Fälle minus eins. Wenn wir eine Stichprobe von zehn Personen haben, gibt es neun Freiheitsgrade. Beim t-Test der unabhängigen Stichproben addieren wir die Anzahl der Personen aus beiden Stichproben und berechnen diese Zahl minus zwei, weil wir zwei Stichproben haben. Beachten Sie, dass die Freiheitsgrade auf unterschiedliche Weise bestimmt werden können , je nachdem, ob wir gleicher oder gleicher Varianz ausgehen Wenn wir also ein Signifikanzniveau von 5% und neun Freiheitsgrade haben , erhalten wir einen kritischen t-Wert von 2,262 Nun haben wir zum einen einen T-Wert mit dem t-Test berechnet und wir haben den kritischen t-Wert Wenn unser berechneter T-Wert größer als der kritische t-Wert ist. Wir lehnen die Nullhypothese ab. Nehmen wir zum Beispiel an, wir berechnen einen t-Wert von 2,5. Dieser Wert ist größer als 2,262, und daher sind die beiden Mittelwerte so unterschiedlich, dass wir die Nullhypothese zurückweisen können Andererseits können wir auch den p-Wert für den T-Wert berechnen, den wir berechnet haben Wenn wir 2,5 für den t-Wert und neun für die Freiheitsgrade eingeben , erhalten wir einen p-Wert von 0,034 Der p-Wert ist kleiner als 0,05, und wir lehnen daher die Nullhypothese als Kontrolle Wenn wir hier den t-Wert von 2,262 kopieren, erhalten wir genau einen p-Wert von 0,05, was genau der Grenzwert ist Wenn Sie den AT-Test mit der Registerkarte Daten berechnen möchten, müssen Sie nur Ihre eigenen Daten in diese Tabelle kopieren Klicken Sie auf Hypothesentest und wählen Sie dann die gewünschten Variablen aus. Wenn Sie beispielsweise testen möchten, ob sich das Geschlecht auf das Einkommen auswirkt, klicken Sie einfach auf die beiden Variablen und Sie erhalten automatisch den AT-Test, der für unabhängige Stichproben berechnet wird. Hier unten. Sie können den p-Wert ablesen. Wenn Sie sich bei der Interpretation der Ergebnisse immer noch nicht sicher sind, können Sie einfach auf Interpretation nach innen klicken Ein T-Test für unabhängige Stichproben, gleiche Varianzen angenommen wurden, ergab , dass der Unterschied zwischen Frauen und Männern in Bezug auf die abhängige Variable Gehalt statistisch nicht signifikant war Somit wird die Nullhypothese beibehalten. Die letzte Frage ist nun, was ist der Unterschied zwischen gerichteter Hypothese und ungerichteter Hypothese Im ungerichteten Fall lautet die alternative Hypothese, dass es einen Unterschied gibt Zum Beispiel gibt es in Deutschland einen Unterschied zwischen dem Gehalt von Männern und Frauen Es ist uns egal, wer mehr verdient. Wir wollen nur wissen, ob es einen Unterschied gibt oder nicht. In einer gezielten Hypothese. Wir sind auch an der Richtung des Unterschieds interessiert . Die alternative Hypothese könnte beispielsweise lauten, dass Männer mehr verdienen als Frauen oder Frauen mehr verdienen als Männer. Wenn wir uns die T-Verteilung grafisch ansehen, können wir sehen, dass wir im zweiseitigen Fall einen Bereich auf der linken Seite und einen Bereich auf der rechten Seite haben Wir wollen die Nullhypothese zurückweisen, wenn wir entweder hier oder dort ein Signifikanzniveau von 5% haben Beide Bereiche haben eine Wahrscheinlichkeit von 2,5%. Zusammen sind es nur 5%. Wenn wir einen One-Tail-T-Test durchführen, wird die Nullhypothese nur dann verworfen, wenn wir uns in diesem Bereich befinden oder je nachdem welcher Richtung wir testen wollen , in diesem Bereich mit einem Signifikanzniveau von 5% liegen A 5% innerhalb dieses Bereichs Danke, dass du mit mir gelernt hast. Wir sehen uns in der nächsten Statistikstunde. 27. 1 Probe t Test: Lassen Sie uns verstehen, welche Hypothesentests ich verwenden sollte? In Minitab haben Sie einen Assistenten, der Ihnen bei dieser Entscheidung helfen kann. Wenn Sie also zum Assistenzhypothesentest gehen, können Sie anhand der Anzahl der Proben, die Sie haben, identifizieren . Angenommen, Sie haben eine Probe, führen Sie möglicherweise einen t-Test bei einer Stichprobe, eine Standardabweichung der Stichprobe, einen fehlerhaften Prozentsatz der Stichprobe chi-quadrierte Anpassungsgüte durch. Wenn Sie zwei Proben haben, haben Sie zwei Stichproben-T-Tests für verschiedene Proben. Testen Sie, ob die Vorher- und Nachher-Elemente identisch sind. Standardabweichung der Stichprobe zum Prozentsatz der Stichprobe des defekten Chi-Quadrat-Tests der Assoziation. Wenn Sie mehr als zwei Proben haben, haben wir einen einfachen ANOVA-Standardabweichungstest, Chi-Quadrat-Prozentsatz ist defekt und Chi-Quadrat-Test der Assoziation. Wir werden das alles mit vielen Beispielen üben. Kommen wir also zum ersten Beispiel. Wir haben ADHS von Anrufen innerhalb von Minuten. Wir haben eine Stichprobe von 33 Datenpunkten entnommen. Der Durchschnitt ist sieben, der Mindestwert beträgt vier Minuten, Maximalwert beträgt zehn Minuten. Der Grund, warum wir einen Hypothesentest durchführen müssen , ist der Manager der Prozesse , dass sein Team in der Lage ist, die Lösung oder den Anruf in sieben Minuten abzuschließen . Und der Prozessdurchschnitt liegt ebenfalls bei sieben Minuten, das Minimum bei vier Minuten. Der Kunde sieht jedoch , dass die Agenten sie der Warteschleife halten, und das Gespräch dauert mehr als sieben Minuten. Jetzt möchte ich also statistisch überprüfen, ob es korrekt ist oder nicht. Wann immer wir Hypothesentests einrichten, müssen wir den fünfstufigen Sechs-Schritte-Ansatz verfolgen. Schritt Nummer eins, definiere die alternative Hypothese. Definiere die Nullhypothese, die nichts anderes als dein Status Quo ist. Was ist das Signifikanzniveau oder Ihr Alpha-Wert? Wenn nichts angegeben ist, wird der Alpha-Wert als fünf Prozent gesendet. Wir stellen zunächst die alternative Hypothese auf. in unserem Fall Was sagt der Kunde in unserem Fall? Der Kunde sieht, dass die durchschnittliche Bearbeitungszeit mehr als sieben Minuten beträgt. Der Status Quo oder die vereinbarte SLA lautet ADHS weniger als sieben Minuten betragen sollte. Wie ich Ihnen bereits sagte, schließen sich die Null- und die Alternativhypothese gegenseitig aus und ergänzen sich gegenseitig. Identifizieren Sie nun den durchzuführenden Test. Wie viele Proben habe ich? Ich habe nur eine Probe der HD des Kontaktzentrums. Also nehme ich einen T-Test. Okay? Jetzt muss ich die Teststatistiken erstellen und den p-Wert identifizieren. Wenn Sie sich an die vorherige Beispielstunde erinnern, sagten wir, wenn der p-Wert kleiner als der Alpha-Wert ist, lehnen wir die Nullhypothese ab. Wenn der p-Wert größer als fünf Prozent oder der Alpha-Wert ist, können wir die Nullhypothese nicht zurückweisen. Lassen Sie uns dieses Verständnis übernehmen. Wenn Sie sich also erinnern, haben wir unsere Projektdaten. In den Projektdaten haben wir den Test der Hypothese. Hier drüben. Ich habe dir die AHG Kohle in wenigen Minuten gegeben. Also habe ich diese Daten auf MiniTab kopiert. Also lass es uns auf zwei Arten machen. Zum ersten Mal und zeig es dir mit dem Assistenten. Zweitens werde ich es dir anhand von Statistiken zeigen. , das ich erreichen möchte, wenn ich zu den Hypothesentests gehe Was ist das Ziel, das ich erreichen möchte, wenn ich zu den Hypothesentests gehe? Es ist ein t-Test bei einer Stichprobe. Ich habe eine Probe. Geht es um gemein? Geht es um Standardabweichung? Sind es getrennte, defekte oder diskrete Zahlen? Wir sprechen über den Durchschnitt 100 Mal. Also mache ich einen T-Test bei einer Probe. Für Daten in Spalten. Ich habe das ausgewählt. Was ist mein Zielwert? Mein Zielwert ist sieben. Die alternative Hypothese besagt dass das Durchschnittsalter des Anrufs in Minuten größer als sieben ist. Darüber beschwert sich der Kunde. Der Alpha-Wert ist standardmäßig 0,05, ich klicke auf Okay. Sehen wir uns die Ausgabe an. Um die Ausgabe zu sehen, klicken Sie auf Nur anzeigen und ausgeben. wirst du sehen. Wenn Sie den p-Wert sehen, ist der p-Wert 0,278. Erinnern Sie sich, dass unter Nicht-Ziel hohe Nulllinie dieser Wert von 0,278 größer als der Alpha-Wert von 0,05 ist ? Ja, das ist es. Daher kann ich schlussfolgern , dass der Mittelwert von d von Kohle nicht signifikant größer als das Ziel ist. Was auch immer Sie als größer als Ziel ansehen, es ist nur ein Zufall. Es gibt also nicht genügend Belege, um zu dem Schluss zu kommen, dass der Mittelwert über sieben liegt Signifikanzniveau von fünf Prozent aufweist Und es zeigt mir auch, wie das Muster ist. Es gibt keine ungewöhnlichen Datenpunkte , da die Stichprobengröße mindestens 20 beträgt. Normalität ist kein Problem. Der Test ist korrekt. Und es wäre gut zu schlussfolgern, dass die durchschnittliche Bearbeitungszeit nicht wesentlich über sieben Minuten liegt . Ich kann den Antrag des Kunden ablehnen . Die wenigen Aufrufe, die wir als qualitativ hochwertige und hochwertige Ziele ansehen . Das konnte nur durch Zufall geschehen. Derselbe Test. Ich kann es auch tun, indem ich auf Teststatistik, grundlegende Statistiken klicke. Und ich speichere einen Proben-T-Test, eine oder mehrere Proben, jeweils in einer Spalte. Ich werde dein ausgewähltes ADHS umdrehen. Ich möchte Hypothesentests durchführen. Der hypothetische Mittelwert ist sieben. Ich gehe zu Option und sage, was ist die alternative Hypothese, die ich definieren möchte. Ich möchte definieren, dass der tatsächliche Mittelwert größer ist als der hypothetische Mittelwert. Klicke auf Okay. Wenn ich ein Diagramm brauche, kann ich diese Grafiken erstellen. Klicken Sie auf Okay und dann auf Okay. Ich erhalte diese Ausgabe. Also die deskriptiven Statistiken, das ist der Mittelwert, das ist die Standardabweichung und so weiter. Nullhypothese lautet, dass mu gleich sieben ist. Alternative Hypothese ist mu ist größer als sieben. p-Wert ist 0,278. diesen Nullflug abschließen, lehnen wir die Nullhypothese nicht ab und kommen zu dem Schluss, dass die durchschnittliche 100-Zeit bei etwa sieben Minuten liegt . Lass uns weitermachen. Wir haben unseren Output erhalten. Wir haben all dies gesehen und sind zu dem Schluss gekommen, dass die durchschnittliche Bearbeitungszeit nicht wesentlich über sieben Minuten liegt. 28. 2 Probe t Testbeispiel 1: Lassen Sie uns noch ein Beispiel mit zwei Teams machen, zwei Proben. In diesem Beispiel also zwei Teams, deren Leistung gemessen werden muss. Der Manager von DMB behauptete, dass sein Team ein leistungsfähigeres Team sei als DNA. Der Manager eines Teams befürwortet, dass diese Behauptung ungültig ist. Gehen wir zu unserem Datensatz. Wenn Sie also zur Projektdatei gehen, haben Sie etwas, das als Team a und Team B bezeichnet wird Lassen Sie mich diese Daten also einfach kopieren. Okay. Lass mich hergehen und das Radar auf der rechten Seite platzieren. Warum kann ich auch ein neues Blatt nehmen und die Daten einfügen. Richtig? Kommen wir also zu Hypothesentest, einem t-Test mit zwei Stichproben. Lassen Sie mich diesen Wert löschen. Und TB, das Team a unterscheidet sich von der VM. Ich kann auch sagen, basierend auf der Hypothese , dass das Team behauptet wird, dass sein Team besser ist als ein. also kann ich sagen, dass es weniger als TV ist. Und ich klicke auf Okay. Auch in diesem Beispiel erhalte ich eine Ausgabe, die besagt, dass das Team nicht wesentlich weniger als TB ist. Haben Sie die Werte von 27,727,3? Es gibt keinen statistischen Unterschied zwischen den beiden Tipps, oder? Also waren beide Beispiele, die wir bekamen, so. Schauen wir uns noch ein Beispiel an. Ich habe die Zykluszeit von Prozess eins und die Zykluszeit von Prozess B genommen von Prozess eins und die Zykluszeit von Prozess B Kopieren wir also einfach diese Daten. Dies ist ein weiterer Datensatz. Und ich sage: Was ist meine alternative Hypothese? Beide Balken sind unterschiedlich. Was ist die Nullhypothese? Beide Teams sind gleich. Weil diese beiden Teams unterschiedlich sind. Ich werde meinen t-Test mit zwei Stichproben machen. Die Daten jedes Teams sind getrennt. Und ich sehe, dass sich der TB-Alpha-Wert von 5% unterscheidet, und dann klicke ich auf, Okay. Wenn Sie nun die Ausgabe dieses Mal sehen, heißt es, dass sich die Zykluszeit von a erheblich von der Zykluszeit von dB unterscheidet. Hier, diese 26.8, siebenundzwanzig Punkt sechs. Aber wenn ich mir die Verteilung ansehe, die Verteilung, dass sich dieses Rot nicht mit diesem Rot überschneidet. Es gibt also einen Unterschied in der Zykluszeit der beiden Teams. Wenn ich dasselbe mit Statistiken machen muss, grundlegende Statistiken, t-Test mit zwei Stichproben. wie Ihre Zeit, in der Sie zur Zeit der TB-Optionen e waren Gibt es verschiedene Optionen, wie Ihre Zeit, in der Sie zur Zeit der TB-Optionen e waren? Ich kann meine Grafiken haben. Ich möchte kein individuelles Diagramm. Ich werde nur das Boxplot nehmen und sagen, okay, mu1 ist der Mittelwert der Grundgesamtheit der Zykluszeit von Prozessen, Zykluszeit von Prozess B. Wenn Sie sehen, dass es eine Standardabweichung gibt , ist das ein Unterschied. Der p-Wert ist 0, was bedeutet, dass es einen signifikanten Unterschied zwischen den beiden Teams gibt. Sei niedrig, nicht cool. Hier lehnen wir also die Nullhypothese ab und sagen, dass es einen signifikanten Unterschied zwischen E und D gibt . Richtig? Ich habe das Gleiche mit der Verteilung gesehen. Es gibt also eine größere Verteilung oder hier und es gibt eine kleinere Verteilung. Ich kann meine grafische Analyse, die ich auf der rechten Seite gelernt habe , durchführen und dann sehen, wie das Team abschneidet. Das ist also die Zusammenfassung der DNA. Der Mittelwert ist 26, die Standardabweichung ist 1,5. Und wenn ich nach unten scrolle, komme ich zu Team B und es kommt auf diese Weise. Jetzt möchte ich diese Diagramme überlappen, damit ich auf ein Diagramm und ein Histogramm klicken kann. Und ich sage ein bisschen fit und seidig. Und ich werde diese beiden Grafiken auf einem separaten Panel derselben Grafik auswählen , dasselbe Vitamin C max. Klicke auf, okay. Klicke auf Okay. Kannst du sehen, dass die Glockenkurve von beiden unterschiedlich ist? Lassen Sie uns ein überlappendes Graph-Histogramm erstellen. Und in mehrfacher Bodenüberlagerung in diesem Diagramm. Kannst du sehen, dass das Blau und das Rot einen Unterschied gibt? Und daher ist die Kurtosis anders, die Schiefe ist anders, und das ist die Schlussfolgerung in meinem t-Test mit zwei Stichproben, besagt, dass die Verteilung dort signifikant ist Unterschied. Es gibt einen statistisch signifikanten Unterschied zwischen der heiligen Zeit als EN-Kämpfer und dem Absterben. Als zweites werden wir in unserem nächsten Beispiel etwas über den Bett-t-Test erfahren. 29. 2 Probe t Testbeispiel 2: Kommen wir zu unserem Beispiel. Zwei. Es gibt zwei Zentren , deren Leistung gemessen werden muss. Der Manager von Sensory behauptete, sein Team sei ein leistungsfähigeres Team als das Zentrum B. Die Größe des Zentrums be befürwortet, dass die Behauptung ungültig sei. Auch hier werde ich meinen fünfstufigen Prozess verfolgen. Was ist die alternative Hypothese? Ist besser als B. Machen wir es einfacher. Es ist nicht gleich T, ist nicht gleich TB oder center ist nicht gleich Zentrum. Was bedeutet das Nicht-Hypothesenzentrum a ist gleich Zentrum V, Signifikanzniveau, fünf Prozent. Wie viele Proben habe ich? Ich habe zwei Samples, Center Editor und Center B-Daten. Da ich zwei Proben habe, muss ich einen t-Test mit zwei Stichproben machen. Gehen wir zu unserem Excel-Blatt. Ich habe die Daten für Centauri und Center B. Ich werde sie in Minitab kopieren. Ich lege meine Daten hier ab. Machen wir den t-Test bei zwei Stichproben. Also gehe ich zu Stat, Basic Statistics und sage t-Test mit zwei Stichproben. Beide Proben befinden sich in einer Spalte. Jedes Sample hat seine eigene Spalte, also wähle ich dieses Beispiel aus. Eine davon ist eine sensorische Probe. Zentrieren Sie B? Option ist hybrid. Das ist nicht anders. Der Unterschied zwischen a und B ist also 0. Und ich mache es weiter. Ich kann mein individuelles Boxplot haben und OK sagen und Okay sagen, lass uns die Ausgabe sehen. Die sensorischen Daten gehören also Ihnen und die TBI-Daten sind hier. Und wenn Sie den p-Wert sehen, ist der p-Wert hoch. Wieder habe ich ein Beispiel, das besagt, dass es sich um eine hohe Nullfliege handelt, was bedeutet, dass es keinen Unterschied zwischen Mitte und Mitte B gibt zwischen Mitte und Mitte B Wenn Sie den einzelnen Wert sehen, aber Sie sehen dasselbe. Sehen wir uns das Boxplot an. Das Boxplot besagt , dass sich der Mittelwert nicht signifikant unterscheidet, da eine Stichprobe entnommen worden wäre. Das ist der Grund, warum es so ist, und Sie sehen einen Wert von 0, was ein Ausreißer ist. Also sollten wir darüber nachdenken. Das Gleiche. Lassen Sie mich das mit Hypothesentests machen. t-Test bei zwei Stichproben, Mittelwert der Stichprobe Die Probe ist anders. Der Mittelwert von Mittelpunkt unterscheidet sich vom Mittelwert von Zentrum B und C. Okay. Ebenso der mittlere Unterschied, der Mittelwert von Santa Fe unterscheidet sich nicht signifikant vom Mittelwert außermittig. Richtig? Wenn Sie diese Verteilung sehen, können Sie feststellen, dass sich der rote Teil vollständig überschneidet , was darauf hindeutet , dass es keine ausreichenden Beweise gibt, um auf einen Unterschied schließen zu können. Wenn Sie den Mittelwert sehen, gibt es einen Unterschied, 6,86,5. Aber das könnte an einer Chance liegen. Und es gibt auch eine Standardabweichung. Daher zeigen sie es anhand der roten Balken, zeigen, dass es keinen signifikanten Unterschied zwischen sensorischer und zentraler Woche gibt. Wir werden im kommenden Video weiter über andere Beispiele lernen . 30. Paired t Test: Lassen Sie uns ein weiteres Beispiel verstehen. Dies ist ein Beispiel für einen gepaarten t-Test. Wenn man sich diese Fallstudie anschaut, wollten die Psychologen herausfinden, ob ein bestimmtes Laufprogramm auf die Ruheherzfrequenz auswirkt. Die Herzfrequenz von 15 zufällig ausgewählten Personen wurde gemessen. Die Menschen wurden dann in ein laufendes Programm aufgenommen und nach einem Jahr erneut gemessen. Also sagen die Teilnehmer vorher gegen nachher? Ja. Und das ist der Grund, warum es sich nicht um einen t-Test mit zwei Stichproben handelt, sondern um einen gepaarten t-Test, der Vorher- und Nachher-Messung jeder Person oder in Beobachtungsbändern. Wenn ich also zu meinem Datensatz zurückkehre, habe ich etwas, das wie vorher und nachher heißt, es gibt eine andere Phase, ich nehme nicht den Differenzwert. Ich habe die Daten für die 15 Personen genommen und im Mini-Tab gespeichert. Richtig? Jetzt möchte ich das tun, weil es dieselbe Person vor und nach mir ist, wir wollen die verschiedenen Hypothesentests verstehen. Ich mache einen gepaarten T-Test. Die erste Sache war, was ist die alternative Hypothese? Vorher und Nachher ist anders. Wenn Sie sich erinnern, das Programm von vorher und nachher, wollen sie feststellen, ob sie Auswirkungen auf den Lauf haben. Die Messung ist vor, das Messwerkzeug ist oben. Mittelwert von davor unterscheidet sich vom Mittelwert von danach. Das ist also meine alternative Hypothese. Was bedeutet meine Nullhypothese davor, dass es keine Änderung gibt. Die Alternative sieht, dass sich das Vorher von Nachher unterscheidet. Der Alpha-Wert ist 0,05. Lass uns auf Okay klicken. Sehen wir uns die Ausgabe an. Unterscheidet sich der Mittelwert? Was ist ein p-Wert von 0,007? Der Mittelwert von vorher unterscheidet sich signifikant vom Mittelwert von danach. Wenn man sich den Mittelwert anschaut, lag er bei 74,572,3. Aber es gibt einen Unterschied. Wenn Sie also sehen, ist der Unterschied größer als 0. Und wenn ich mir diese Werte von vorher versus nachher ansehe ist der blaue Punkt hinter dem schwarzen Punkt vor. Bei den meisten Teilnehmern war ihre Herzfrequenz nach dem Laufprogramm gesunken. Nur wenige von ihnen waren Ausnahmen, aber das könnte eine Ausnahme sein. Es gibt keine ungewöhnlichen paarweisen Unterschiede , da unsere Stichprobengröße mindestens 20 beträgt. Normalität ist kein Problem. Die Stichprobe reicht aus, um den Unterschied im Mittelwert nachzuweisen. Ich kann also sehen, dass es einen Unterschied zwischen beiden gibt. Wunderbar. Also nochmal, schnelle Überarbeitung. Hallo, Nullziel, da der p-Wert unter dem Signifikanzniveau liegt, schlussfolgern wir, dass zwischen den beiden Messwerten ein signifikanter Unterschied besteht. Wenn ich die Szene machen muss, klicke ich auf Statistik, Basic Statistics. Schlechte Abscheu, jede Probe in einer Regel. Vorher, nach der Option sind sie unterschiedlich. Lassen Sie mich nur das Boxplot und das Histogramm von Ich möchte das Histogramm nicht auswählen. Ich nehme nur den Boxplot. Null-Hypothese. Der Unterschied ist 0. Alternative Hypothese ist, dass die Differenz ungleich Null p-Werte niedrig sind, was zu dem Schluss kommt, dass ich die Nullhypothese zurückweise Und es gibt einen Unterschied bei der Übernahme des Programms. Wenn Sie also den Nullwert sehen, ist der rote Punkt weit vom Mittelwert des Konfidenzintervalls der Box entfernt , um zu schließen, dass es einen Unterschied gibt zwischen dem Durchlaufen des Programms durch dieser Herzspezialist, richtig? Im nächsten Programm werden wir also lernen, weitere Beispiele aufzugreifen. 31. Ein Test mit Sample: Die kurze Zusammenfassung der verschiedenen Arten von Tests, die wir gelernt haben, lautet: Wenn ich mir anschaue , wie unterschiedlich meine Gruppe und zwischen den Bevölkerungsgruppen sind, mache ich einen t-Test mit einer Stichprobe. Wenn ich zwei verschiedene Probengruppen habe, mache ich einen t-Test mit zwei Stichproben. Wenn diese Stichproben unabhängig sind. Wenn ich einen gepaarten T-Test machen werde. Gepaarte t-Test. Wenn die Gruppe dieselbe Gruppe von Personen hat, aber es ist oder ein anderer Zeitpunkt. Wie wir das Beispiel des Herzschlags gesehen haben. Die Menschen wurden also an ihrem Herzschlag gemessen. Den Bericht über ein laufendes Programm und das laufende Programm posten. Wie war der heiße Ruheherzschlag, oder? Das sind also die Dinge, die wir sortiert haben. wir nun mit weiteren Beispielen fort. Also fügen wir den Anwendungsfall Nummer fünf hinzu, die Analyse des Fettanteils. Die Wissenschaftler eines Unternehmens , das Verfahren hergestellt hat, die den Fettanteil in der Wasserquelle des Unternehmens S ermitteln möchten . Das Datum der Veröffentlichung beträgt 15% und die Wissenschaftler messen, dass der Fettanteil 20 Zufallsstichproben beträgt. Die bisherige Messung der Standardabweichung der Grundgesamtheit beträgt 2,6. Dies ist nun die Standardabweichung der Population. Die Standardabweichung der Stichprobe beträgt 2,2. Wenn ich den Populationsparameter kenne, kann ich einen Z-Test für die Stichprobe verwenden , da die Anzahl der Proben, die ich habe, eins ist. Und ich will, ich habe die bekannte Standardabweichung der Bevölkerung. Jetzt werde ich wieder dasselbe anwenden, was die alternative Hypothese definiert hat, oder? Also was werde ich sagen? Was ist die alternative Hypothese? Der Fettanteil ist nicht gleich 603050. Was ist der Fettanteil der Nullhypothese gleich 15%. Signifikanzniveau fünf Prozent. Weil ich weiß, dass es sich um einen Test mit einer Stichprobe und ich die Standardabweichung der Bevölkerung habe Ich verwende einen Beispiel-Z-Test. Lass uns die Analyse machen. Ich habe die Projektdatei geöffnet und habe die Proben-IDs und erstelle hier einen Fettanteil. Lassen Sie mich diese Daten in Minitab kopieren. Aber kopierte den Fettanteil mit den Wissenschaftlern getan haben. Da wir die Standardabweichung der Grundgesamtheit kennen, kann ich den Z-Test bei einer Stichprobe verwenden. Meine Daten sind in einer Spalte enthalten. Es ist die Tatsache, die präsentiert wird. Die bekannte Standardabweichung betrug 2,6. Ich möchte Hypothesentests durchführen. Die Hypothese bedeutet, dass es 15% sind. Meine Nullhypothese ist also der Fettanteil gleich 15 ist. Meine Hypothese ist, dass Fett ein großes A nicht gleich 15 ist. Ich kann ein Diagramm von Boxplot und Histogramm auswählen und sagen: Okay, ich zeige Ihnen die Ausgabe. Die Nullhypothese lautet also, dass der Fettanteil gleich 15 ist. Alternative Hypothese ist, dass der Fettanteil nicht gleich 15 ist. Der Alpha-Wert ist 0,05. Mein p-Wert ist 0,012, da mein p-Wert kleiner als der Alpha-Wert ist, P niedrig, nicht cool. Daher lehne ich die Nullhypothese ab und komme zu dem Schluss, dass der Fettanteil nicht 50 beträgt. Wenn Sie hier sehen, ist der Fettanteil mehr als 50. Ich kann den gleichen Test wiederholen. Dieses Mal. Ich kann weitermachen und nachsehen. Ist mein Fettanteil höher als der hypothetische Mittelwert. Lass es uns machen. Und trotzdem erhalte ich meinen p-Wert selbstbewusster, 0,006 sehr weit von meinem Alpha-Wert entfernt. Zusammenfassend lässt sich sagen, dass der Alpha, der Nullwert hypothetisch ist, der Mittelwert 15 ist. Die Stichprobe besagt jedoch, dass Ihr Fettanteil in der Quelle mit hoher Wahrscheinlichkeit mehr als 50 beträgt. Welchen Rat werden wir dem Unternehmen geben? Wir werden das Unternehmen darauf hinweisen, dass Sie die Bezeichnung nicht verkaufen können , dass der Container 15% beträgt , da unser Faktor mehr als 15% beträgt. Um sicher zu gehen, können Sie das Etikett des Produkts so ändern, dass der Fettanteil 18 beträgt, oder? Weil wir fünf Prozent haben, machen wir 20 durch. Ein Verbraucher wird sich also über ein Produkt freuen , das weniger Fett enthält. Dann um ein Produkt zu erhalten , das mehr Fett enthält , weil wir alle gesundheitsbewusst sind, oder? Also lasst uns in der nächsten Klasse weitermachen. 32. Ein Sample test-1p-Test: Wir werden unsere Hypothesentests fortsetzen. Manchmal haben wir vielleicht einen Teil der Action, oder? Wir haben jedoch keine Durchschnittswerte Standardabweichung oder Varianz zu , Standardabweichung oder Varianz zu messen , was wir tun. Nehmen wir dieses Beispiel sechs, der Marketinganalyst möchte feststellen, ob der Mann, die Werbung für das neue Produkt, zu einer Rücklaufquote geführt hat , die sich vom nationalen Durchschnitt unterscheidet. Normalerweise, wenn Sie eine Anzeige in der Zeitung platzieren, sagen sie, dass die Werbefirma normalerweise sieht, dass wir in der Lage sein werden, 6% Ergebnis oder 10% Ergebnis oder eine bestimmte Zahl zu beeinflussen Ergebnis genau hier. Was ist, es ist die gleiche Art von Szenario. Hier. Sie nahmen eine Zufallsstichprobe von 1000 Haushalten, die Werbung erhalten haben. Und von diesen 10.000 Haushalten tätigten 87 von ihnen Einkäufe, tätigten 87 von ihnen nachdem sie diese Vergrößerung erhalten hatten. Diese Firma, die eine Werbefirma ist, behauptet, dass ich eine bessere Wirkung erzielt habe als die der anderen Werbung. Der Analyst muss den Ein-Prozent-Z-Test durchführen den Ein-Prozent-Z-Test um festzustellen, ob der Anteil der Haushalte, die einen Kauf getätigt haben, vom nationalen Durchschnitt von 6,5 abweicht , da dieser 8,7 beträgt. In diesem Fall. Was ist Ihre alternative Hypothese? Alternative Hypothese ist, dass die Werbung anders ist als die Reaktion auf die Werbung vom nationalen Durchschnitt. Hier sagen wir, dass es keinen Unterschied gibt. Sie sind beide Sünde, Alpha-Wert liegt bei fünf Prozent. Und wir werden einen Proportion-, Z-Test-, Ereignis-Proportionstest aufnehmen . Ich soll dich zur Minute bringen. Gehen wir also zu MiniTab. Ich kann weitermachen und diese Väter, grundlegende Statistiken, ein Anteil. Ich habe keine Daten in meiner Kolumne, aber ich habe sie zusammengefasst, oder? Also lass mich das schließen, abbrechen, lass mich das schließen. Also habe ich einen Probenanteilstest gemacht. Ich habe Daten zusammengefasst. Wie viele Ereignisse haben wir aufgenommen? Wir beobachten 87 Ereignisse, die eintreten werden. Die Stichprobe besteht aus Tausend. Ich muss einen Hypothesentest durchführen und den hypothetischen Anteil von 6,5, 0,06566% ,5, oder? Es ist also 0,065. Dieser Anteil entspricht nicht dem Hypothesenverhältnis. Ich sage: Okay, ich verstehe, okay. Jetzt lautet die Nullhypothese dass der Anteil 6,5 Prozent entspricht. Alternative Hypothese ist, dass die proportionale Wirkung nicht 5,56 Prozent entspricht. p-Wert ist 0,008. Was heißt das? Ja, sei niedrig, nicht cool. Also lehnen wir die Nullhypothese ab und kommen zu dem Schluss, dass der Effekt der Werbung, Er ist nicht 6,6,5 Prozent, aber es ist mehr, denn wenn Sie das Konfidenzintervall von fünfundneunzig Prozent sehen , es heißt 0,7% bis 10%, oder? Sie haben einen Anteil von 88,7%. Und das 95% -Konfidenzintervall des Anteils liegt weit vor 6,5, es beginnt bei 7. Wir können also den Schluss ziehen, dass erhebliche Auswirkungen die Werbung erhebliche Auswirkungen hat, und wir können diese Werbefirma durchgehen . Fahren wir mit unserer nächsten Lektion fort. 33. Zwei Probeanteilstest-2p-Test: Lassen Sie uns diese Übung noch einmal mit Assistant machen. Wir haben also die nummerierten 80 Rindfleischprodukte von Lieferant E, die wir überprüft haben. 725 sind defekt oder nicht defekt. Wie viele sind das wirksam? Also, wenn ich eine Subtraktion mache, wäre es 777802 minus 725 ist 77712 Produkte der Stichprobe des Lieferanten B wurden von 73 ausgewählt. Perfekt. Also wie viel ist defekt? Eins, 39. Versuchen wir also, unseren Test mit zwei Anteilen Minitab-Assistenten durchzuführen, da dieser dann Hypothesentest, Probenstücke, Stuhl, Probenprozentsatz fehlerhafter Lieferant E, 0 bis 7771 bis 139. Die Person ist defekt von Lieferant E ist weniger als der Prozentsatz des Defekts von Lieferant B. Ich werde fortfahren und auf Okay klicken. Und das verstehe ich. Ja, dieser Prozentsatz an Defekten oder Lieferanten ist deutlich geringer als der Prozentsatz an Defekten von Lieferant B. Und wenn ich nach unten scrolle, Ja. Es sagt also den Unterschied aus, dieser Lieferant ist Lesebereitschaft. Aus dem Test können Sie schließen, dass der prozentuale Anteil von Lieferant a bei einem Signifikanzniveau von 5% unter Lieferant B liegt. Wenn Sie diesen Prozentsatz sehen. Sie können auch deutlich sehen, dass wir in der nächsten Woche mit den nächsten Hypothesentests fortfahren werden . Tun 34. Zwei Probeanteil-Test-2p-Test-Beispiel: Lassen Sie uns nun das nächste Beispiel verstehen. Dies ist ein Beispiel, bei dem ein Betriebsleiter ein Produkt untersucht, das aus Rohstoffen von zwei Lieferanten hergestellt wurde, feststellt, ob einer der Rohstoffe größerer Wahrscheinlichkeit einen besseren produziert Qualitätsprodukt. So wurden 802 Produkte vom Lieferanten E 725 beprobt oder perfekt, das ist nicht defekt. 712 Produkte wurden von Lieferant B, 573 oder Buffet beprobt. Das heißt, es ist nicht defekt. Wir wollen also Leistung erbringen, denn wie hoch ist Prozentsatz der nicht fehlerhaften personenbezogenen Daten? Ja, ich habe zwei Proportionen, Supply Array und Lieferant B. Gehen wir zur main. Ich kann zu Stat, Basic Statistics zwei Proportionstest gehen. Ich habe meine zusammenfassenden Daten, die Ereignisse von der ersten Leichtigkeit, 725 oder beide handeln aus 802 heraus. Nehmen wir also 725025723712572371. Die Option, mit der sie sehen, ist, dass es einen Unterschied gibt , und lassen Sie uns das herausfinden. Die BVA, die Nullhypothese, besagt also, dass es keinen Unterschied zwischen dem Anteil gibt. Alternative Hypothese ist, dass es einen Unterschied zwischen den beiden Proportionen gibt. Als ich mir den p-Wert angesehen habe, der p-Wert Z, um niedrig Null zu sein. Es kommt zu dem Schluss, dass ich die Nullhypothese zurückweisen muss. Es gibt einen Unterschied in der Leistung der beiden Lieferanten. Nun, wenn ich darüber nachdenke, weil ich von perfekt oder nicht defekt spreche , ist Probe eins derzeit zu 90% perfekt und Probe zwei zu 80% perfekt. Also zu dem Schluss, dass Lieferant E ein besserer Lieferant ist als Lieferant B. Richtig? Also, vielen Dank. Wir werden in der nächsten Lektion fortfahren. 35. Verwendung von Excel = eine Sample: Oft verstehen wir den Test der Hypothese, aber es gibt eine Herausforderung, die wir haben. Die Herausforderung ist, dass ich kein MiniTab habe. Kann ich Hypothesentests nicht auf einfache Weise durchführen, anstatt eine manuelle Berechnung mit einem statistischen Rechner durchzuführen. Mach dir keine Sorgen, dass das möglich ist. Ich werde Ihnen zeigen, wie ich mit Microsoft Excel Hypothesentests durchführen kann . Gehe zu Datei. Gehe zu Optionen. Wenn Sie zu Optionen gehen, gehen Sie zu Add-ins. Wenn Sie auf Add-ins klicken. Lass mich hier klicken. Sie haben eine Option , die in der Option Verwalten als Excel-Add-In bezeichnet wird. Wählen Sie also Excel-Add-In und klicken Sie auf Los. Klicken Sie auf Analysis ToolPak und stellen Sie sicher, dass dieser Haken aktiviert ist. Sobald Sie das haben, finden Sie es auf Ihrer Registerkarte Daten. Sie haben Datenanalysen zur Verfügung. Lassen Sie mich darauf klicken, damit Sie verstehen, was möglich ist. Bei der Datenanalyse. Ich habe eine OR-Korrelation, Kovarianz, deskriptive Statistik, Histogramm, T-Test, Z-Tests, Zufallszahlengenerierung, Stichprobenregression und all diese Dinge. Daher wird es für Sie sehr einfach , Hypothesentests durchzuführen. Zumindest die Hypothese der kontinuierlichen Daten auch problemlos über Microsoft Excel getestet werden. Ich führe Sie vorerst Schritt für Schritt durch die Übung. Kehren wir zur Präsentation zurück. Nehmen wir das erste Problem. Das heißt, ich habe die beschreibenden Statistiken für die Huntington-Krankheit des Anrufs, den Manager der Prozesse, an denen sein Team arbeitet , um die Lösung des Anrufs in sieben Minuten abzuschließen . Der Kunde sieht jedoch, dass er lange Zeit in der Warteschleife gehalten wird, und verbringt daher mehr als sieben Minuten. Wenn ich mir die beschreibenden Statistiken ansehe , werden mir zehn Minuten angezeigt, Median ist sieben, der Durchschnitt ist 7,1. Jetzt würde ich diese Analyse mit Microsoft exit durchführen wollen . Also lasst uns anfangen. Ich habe diesen Anwendungsfall in den Projektdaten, die ich hochgeladen habe, klicke auf ASD, natürlich bringt es dich an diesen Ort. Jetzt werde ich Ihnen zunächst beibringen, wie Sie beschreibende Statistiken mit Microsoft Excel erstellen. Ich klicke auf Datenanalyse unter der Registerkarte Daten. Ich werde nach beschreibenden Statistiken suchen. Klicke auf, okay. Mein Eingabebereich reicht von hier nach unten. Ich habe ausgewählt. Meine Daten sind nach Spalten gruppiert. Das Etikett befindet sich in der ersten Reihe. Und ich möchte, dass meine Ausgabe in eine neue Arbeitsmappe aufgenommen wird. Ich möchte zusammenfassende Statistiken und ich möchte Vertrauensniveau von mir haben. Ich klicke auf OK. Excel führt einige Berechnungen und bereitet sie darauf vor. Ja. Hier ist mein Output. Ich klicke hier drüben auf Former , um zu sehen, was die Ausgabe ist. Sie können also sehen, dass Sie Mittelwert, Medianmodus, Standardabweichung, Kurtosis, Schiefe, Bereich, Minimum, Maximum, Summe, Anzahl und Konfidenzniveau sind. All diese Dinge lassen sich leicht mit einem Klick auf eine Schaltfläche berechnen. Ich muss nicht so viele Formeln schreiben. Kehren wir nun zu unserem Datensatz zurück. Ich möchte die Hypothesentests machen. Was ist meine Nullhypothese? Wenn die Nullhypothese lautet , dass die ADHS sieben Minuten entspricht. Alternative Hypothese. Das ADHS beträgt keine sieben Minuten. Es gibt einen anderen Alpha-Wert, den ich als 5% einrichte. Und damit werde ich die Tests durchführen, die ich verbinden werde , ein T-Test mit einer Stichprobe. Wenn Sie einen T-Test mit einer Stichprobe mit Microsoft Excel durchführen , müssen Sie einen kleinen Trick befolgen. Der Trick ist, ich füge hier eine Spalte ein. Und das nenne ich als Dummy. Weil Microsoft Excel mit einer Option für einen t-Test mit zwei Stichproben geliefert wird. Ich habe HD des Anrufs in Minuten und Dummy, wo ich auf Nullen, Nullen geschrieben habe. Der durchschnittliche Median, alles für 0 ist jedoch immer 0. Klicken Sie auf Datenanalyse. Ich werde nach unten gehen und zwei Stichproben-T-Tests unter der Annahme gleicher Varianz sagen . Ich wähle das aus. Ich klicke auf, okay. Mein Eingabebereich, einer ist diese Zeile. Mein Eingabebereich reicht durch diesen Dummy. Mein vermuteter mittlerer Unterschied beträgt sieben Minuten. Bezeichnung ist in beiden Alpha-Werten enthalten , die auf fünf Prozent festgelegt sind. Und ich sage, dass meine Ausgabe in einer neuen Arbeitsmappe enthalten sein muss . Ich klicke auf Okay, es macht die Berechnung und bringt mir die Ausgabe. Sie können sehen, dass die Zahlen als Übung vermittelt wurden Ich klicke einfach auf das Karma im Abschnitt Format, damit die Zahlen sichtbar sind. Ich ändere die Ansicht , weil Dummy keine Daten hat. steht mir frei, diese Spalte zu löschen. Lassen Sie uns jetzt verstehen , wonach wir immer suchen? Wir suchen nach diesem Wert, dem p-Wert. Erinnerst du dich an die Formel? Lass mich meine Formeln hier rüber bringen. Ja. Was ist die Schlussfolgerung? Das Fazit ist P hoch. Ich lehne die Nullhypothese nicht ab. Der Abschluss des ADHS des Anrufs beträgt sieben Monate. Ich lehne die alternative Hypothese weil mein p-Wert über 0,05 liegt. folgenden Lektionen werde ich weitere Beispiele aufgreifen. Ich freue mich darauf, dass Sie diese Serie fortsetzen. Wenn Sie Fragen haben, bitte ich Sie, Ihre Fragen in den Diskussionsbereich unten zu stellen, und ich beantworte sie gerne. Danke. 36. Korrelationsanalyse: Willkommen zur nächsten Lektion unserer analysierten Phase im DMAc-Lebenszyklus eines Lean Six Sigma-Projekts Manchmal geraten wir in eine Situation, in wir eine Korrelationsanalyse durchführen möchten Deshalb dachte ich, ich sollte Sie heute eingehend damit befassen, was Korrelation ist . Was ist der Unterschied zwischen Korrelation und Zufall? Wie interpretiere ich Korrelation, wenn ich mir das Streudiagramm ansehe Welches Signifikanzniveau kann ich festlegen , wenn ich meine Hypothesen teste Pearson-Korrelation, Spearman-Korrelation, serielle Punkt-B-Korrelation und wie werden diese Berechnungen online mit einigen der verfügbaren Tools Lassen Sie uns also anfangen. Was genau ist Korrelationsanalyse? Korrelationsanalyse ist eine statistische Technik, die Ihnen Informationen über die Beziehung zwischen den Variablen gibt. Korrelationsanalyse kann berechnet werden , um die Beziehung zwischen Variablen zu untersuchen und zu untersuchen, wie stark die Korrelation durch den Korrelationskoeffizienten bestimmt wird, der durch den Zahlenbuchstaben r dargestellt wird , der von minus eins bis plus eins variiert. Die Korrelationsanalyse kann somit verwendet werden, um Aussagen über die Stärke und Richtung der Korrelation zu treffen. Sie möchten beispielsweise herausfinden, ob ein Zusammenhang zwischen dem Alter, in dem ein Kind seinen ersten Satz spricht , und dem späteren Schulerfolg besteht. Dann können Sie die Korrelationsanalyse verwenden. Wenn wir jetzt mit Korrelation arbeiten, gibt es immer eine Herausforderung. Manchmal werden wir mit Dingen verwechselt, die ein Problem darstellen. Wenn die Korrelationsanalyse beispielsweise zeigt, dass zwei Merkmale miteinander verwandt sind, kann im Wesentlichen geprüft werden, ob eine Variable zur Vorhersage der anderen Variablen verwendet werden kann. erwähnte Korrelation Bestätigt sich beispielsweise die im Beispiel erwähnte Korrelation, kann überprüft werden, ob der Schulerfolg anhand des Alters, in dem das Kind seinen ersten Satz spricht, vorhergesagt werden kann , was bedeutet, dass es eine lineare Regressionsgleichung gibt Ich habe ein separates Video, in dem erklärt wird, was eine lineare Regation ist Aber Vorsicht, Korrelation muss keinen kausalen Zusammenhang haben Das bedeutet , dass jede Korrelation , die entdeckt werden kann, vom Fachexperten genauer untersucht, aber niemals sofort inhaltlich interpretiert werden sollte werden kann, vom Fachexperten genauer untersucht , , auch wenn sie sehr offensichtlich ist Sehen wir uns einige Beispiele für Korrelation und Kausalität Wenn die Korrelation zwischen der Verkaufszahl und dem Preis analysiert wird, wird eine starke Korrelation festgestellt Es wäre logisch anzunehmen, dass die Verkaufszahlen vom Preis und nicht von der weisen Person beeinflusst werden . Der Preis passiert nicht andersherum. Diese Annahme kann jedoch der Grundlage einer Korrelationsanalyse keineswegs bewiesen werden auf der Grundlage einer Korrelationsanalyse keineswegs bewiesen werden. Darüber hinaus kann es vorkommen , dass die Korrelation zwischen den Variablen x und y durch die Variable erzeugt wird. Daher werden wir dies in teilweiser Korrelation ausführlicher behandeln . Je nachdem, welche Variable verwendet werden kann, können Sie jedoch möglicherweise von Anfang an von einem Kausalzusammenhang sprechen Anfang an von einem Kausalzusammenhang Schauen wir uns ein Beispiel an, ob es einen Zusammenhang zwischen dem H und dem Gehalt Es ist klar, dass das Alter das Gehalt beeinflusst, nicht umgekehrt. Das Gehalt hat keinen Einfluss auf das Alter. Nur weil mein Alter steigt oder nur weil ich ein höheres Gehalt habe, oder nur weil ich ein höheres Gehalt habe heißt das nicht, dass ich alt werde. Sonst würde jeder so wenig Gehalt wie möglich verdienen wollen . Das ist einfach Liebe. Interpretiere die Korrelation. Mit Hilfe der Korrelationsanalyse können zwei Aussagen getroffen werden. Eine über die Richtung der Korrelation und eine über die Stärke. Über die lineare Beziehung der beiden Metriken oder der Variablen mit normaler Skalierung Die Richtung gibt an, ob die Korrelation positiv oder negativ ist Ob die Stärke bestimmt, ob die Korrelation zwischen der Variablen stark oder schwach ist Wenn ich also sage eine positive Korrelation besteht zwischen beiden eine positive Korrelation besteht, dann wollen wir damit sagen , dass die größeren Werte der Variablen x mit den größeren Werten der Variablen y einhergehen den größeren Werten der Variablen y einhergehen und nicht umgekehrt Körpergröße und Schuhgröße korrelieren beispielsweise positiv Der Korrelationskoeffizient liegt bei 0-1. Das heißt, es ist ein positiver Wert. negative Korrelation besteht dagegen , wenn ein größerer Wert der Variablen x vom kleineren Wert der Variablen y begleitet wird und umgekehrt. Der Produktpreis und die Verkaufsmenge korrelieren normalerweise negativ. Je teurer ein Produkt ist, desto geringer ist die Verkaufsmenge. In diesem Fall liegt der Korrelationskoeffizient zwischen minus eins und Null, vorausgesetzt, es handelt sich um einen negativen Wert. Es ergibt sich also ein negativer Wert. Wie ermittle ich die Stärke der Korrelation? Hinsichtlich der Stärke des Korrelationskoeffizienten r kann die folgende Tabelle als Richtschnur dienen. Wenn Ihr Wert zwischen 0,0 und 0,1 liegt, können wir eindeutig sagen , dass keine Korrelation besteht. Wenn der Wert zwischen 0,1 und 0,3 liegt, sagen wir, dass eine geringe oder geringfügige Korrelation oder eine Korrelation besteht. Wenn der Wert zwischen 0,32 und 0,5 liegt, mittlere Korrelation, wenn der Wert zwischen 0,5 und 0,7 liegt, sagen wir, dass es eine hohe Korrelation oder eine starke Korrelation gibt , und wenn der Wert zwischen 0,7 und eins liegt, sagen wir, dass es sich um eine sehr hohe Korrelation Am Ende dieses Moduls zeige ich Ihnen, wie Sie das Korrelations-Kation auch direkt in einem Online-Modus berechnen das Korrelations-Kation auch direkt in einem Online-Modus Gehen wir also weiter. Wenn Sie dies online tun, erhalten Sie eines der Tools, mit denen wir die Korrelation analysieren, ein Streudiagramm, da sowohl X Y vom variablen Datentyp oder metrischen Datentyp sind , wie Sie es nennen Genauso wichtig wie grafische Darstellung des Korrelationskoeffizienten ist, können wir ein Streudiagramm verwenden So wie das Alter die X-Achse immer die Eingabevariable und die Y-Achse die Ausgangsvariable, und die Y-Achse die weil y gleich der Funktion von x ist. Und ich sehe, dass mit steigendem Alter auch meine Gehälter steigen Mit dem Streudiagramm können Sie grob abschätzen , ob es eine Korrelation gibt und ob es eine lineare oder eine nichtlineare Korrelation gibt eine nichtlineare Korrelation und ob es irgendwelche Ausreißer gibt Wenn wir eine Korrelation durchführen, möchten wir vielleicht auch unsere Hypothesen testen und die Korrelation auf Signifikanz testen Wenn in der Stichprobe eine Korrelation besteht, muss dennoch geprüft werden, ob genügend Beweise dafür vorliegen, dass die Korrelation auch in der Grundgesamtheit besteht. Daher stellt sich die Frage, wann der Korrelationskopion als statistisch signifikant angesehen wird als statistisch signifikant angesehen Die Signifikanz der vorhandenen Korrelation kann mit dem t-Test getestet werden In der Regel wird getestet, ob sich der Korrelationskoeffizient signifikant von Null unterscheidet Das heißt, es wird eine lineare Abhängigkeit getestet. In diesem Fall lautet die Nullhypothese, dass keine Korrelation zwischen den untersuchten Variablen besteht. Im Gegensatz dazu geht die alternative Hypothese davon aus, dass eine Korrelation besteht. Wie bei allen anderen Hypothesentests wird das Signifikanzniveau zunächst auf 5% festgelegt. Der Alpha-Wert ist auf 5% festgelegt. Das bedeutet, dass ich mich zu 95% auf die Analyse verlassen sollte , die ich durchführe. Wenn der berechnete p-Wert unter 5% liegt, wird die Nullhypothese zurückgewiesen und die alternative Hypothese gilt. Wenn der p-Wert unter 5% liegt, davon ausgegangen, dass eine Beziehung zwischen x und dem besteht . Die t-Testformel, die wir für Hypothesentests verwenden, lautet r in die Unterwurzel von n minus zwei geteilt durch die Unterwurzel von eins minus r im Quadrat. Dabei ist n die Stichprobengröße, r r die ermittelte Korrelation der Stichprobe und der entsprechende p-Wert kann einfach im Korrelationsrechner berechnet werden. Direktionale und ungerichtete Hypothese. Mit der Korrelationsanalyse kann die Hypothese einer direktionalen oder ungerichteten Korrelation getestet werden . Was meinen wir mit der Hypothese einer ungerichteten Korrelation? Sie sind nur daran interessiert zu wissen, ob es eine Beziehung oder eine Korrelation zwischen zwei Variablen gibt. Zum Beispiel, ob ein Zusammenhang zwischen Alter und Gehalt besteht , Sie aber nicht an der Richtung der Beziehungen interessiert sind . Wenn Sie eine Hypothese der direktionalen Korrelation aufstellen, interessiert Sie auch die Richtung der Korrelation. Gibt an, ob zwischen den Variablen eine positive oder eine negative Korrelation besteht. Ihre alternative Hypothese ist dann ein Beispiel. Das Alter wirkt sich positiv auf das Gehalt aus. Worauf Sie achten müssen , ist, dass Sie bei einer Richtungshypothese vom Ende des Beispiels ausgehen. Sie werden also weitermachen, ob es einen positiven Einfluss gibt oder nicht? Normalerweise sagen wir also, es gibt keine Korrelation und es gibt eine Korrelation. Aber hier sagen wir, dass es keine Korrelation gibt, und die alternative Hypothese besagt , dass es einen positiven Einfluss auf den Salat gibt. Gehen wir jetzt zum nächsten Teil. Das ist Pearsons Korrelationsanalyse. Mit der Korrelationsanalyse nach Pearson erhalten Sie eine Aussage über die lineare Korrelation zwischen den metrischen Skalenvariablen Für die Berechnung wird die jeweilige Kovarianz verwendet. Die Kovarianz ergibt einen positiven Wert wenn eine positive Korrelation zwischen den Variablen besteht , und einen negativen Wert, wenn eine negative Korrelation zwischen den Variablen besteht Die Kovarianz wird als COV berechnet, oder Kovarianz von X wird anhand der auf dem Bildschirm angegebenen Formel berechnet Mach dir keine Sorgen. Wir müssen es nicht manuell berechnen. Dann haben wir Systeme und Tools, die diese Analyse für uns durchführen können. Die Kovarianz ist jedoch nicht standardisiert und kann Werte zwischen plus und minus unendlich annehmen Dies macht es schwierig, die Stärke der Beziehung zwischen den Variablen zu vergleichen Stärke der Beziehung zwischen den Variablen zu Aus diesem Grund ist der Korrelationskoeffizient auch eine Produktbewegungskorrelation Und das wird auf andere Weise berechnet. Der Korrelationskoeffizient wird durch Normalisierung der Kovarianz erhalten Für diese Normalisierung wird die Varianz der beiden Variablen wie folgt Der Korrelationskoeffizient nach Pearson kann nun Werte von minus eins bis plus eins annehmen und kann Der Wert minus eins bedeutet, dass ein vollständig positiver linearer Zusammenhang besteht , und je größer der Wert minus eins ist, bedeutet, dass ein vollständig negativer Zusammenhang besteht ein vollständig negativer Je mehr und desto weniger. Mit dem Wert Null gibt es keine lineare Beziehung. Die Variable korreliert nicht mit beiden. Die Korrelation von plus eins wird ungefähr so aussehen, was nur theoretisch möglich ist Korrelation von 0,7 plus sieht ungefähr so aus, sie weist eine positive Seite auf und die meisten Punkte befinden sich näher an der Achse des Regressionslichts Eine Korrelation von plus drei wird verstreut sein, aber sie geht in eine positive Richtung Wenn Sie eine Korrelation durchführen, haben Sie eine Korrelation von -0,7 Sie sind alle gestreut und bewegen sich nach unten Wenn also der Wert von x steigt, nimmt der Wert von y ab, und die meisten Punkte sind auf der Regressionsseite verstreut Wir erhalten den Korrelationswert Null auf mehrere Arten, entweder sind die Punkte vollständig verstreut, oder Sie erhalten perfekte Linien wie diese oder so, was wiederum nicht der Fall wäre, was bedeutet, dass Sie zur Interpretation der Variablen eine andere Analyse durchführen müssen zur Interpretation der Variablen Nun kann endlich die Stärke der Beziehung interpretiert werden, und dies kann durch die folgende Geschichte veranschaulicht werden . Die Stärke der Korrelation. Wenn es 0-0 0,1 ist, liegt keine Korrelation Wenn es 0,1 bis 0,3 ist, besteht eine geringe Korrelation 0,3 bis 0,5 mittlere Korrelation, 0,52 0,7, sehr hohe Korrelation, Entschuldigung, hohe Korrelation, und 0,7 zu eins ist eine sehr hohe Um vorab zu überprüfen, ob ein linearer Zusammenhang besteht, sollten Streudiagramme in Betracht gezogen werden Auf diese Weise kann der jeweilige Zusammenhang zwischen den Variablen auch visuell überprüft werden Die Korrelation nach Pearson ist nur dann sinnvoll und zielführend, wenn Demor-Beziehungen vorliegen Die Korrelation nach Pearson hat bestimmte Vorteile, die Sie im Hinterkopf behalten sollten Bei PSM müssen die Variablen, wann immer Sie diese Methode verwenden, normalverteilt sein, und es muss eine lineare Beziehung zwischen den Die Normalverteilung kann entweder analytisch oder grafisch anhand des QQ-Diagramms getestet werden. Ich werde Ihnen zeigen , Ich werde Ihnen zeigen , Ob die Variablen eine lineare Korrelation aufweisen, lässt sich am besten mit dem Streudiagramm überprüfen Wenn die Bedingungen nicht erfüllt sind, Spearman-Korrelation verwendet werden Ich hoffe, Sie haben es bis hier verstanden, und lassen Sie uns weiter lernen. Lass uns weitermachen. Was tun wir, wenn meine Daten nicht normal sind und ich eine Korrelationsanalyse durchführen möchte In diesem Fall verwenden wir die Rangkorrelation nach Spearman. Die Rangkorrelationsanalyse von Spearman wird verwendet, um die Beziehung zwischen zwei Variablen zu berechnen die Beziehung zwischen zwei Variablen , die ein ordinales Maß haben Wenn Sie variable Daten haben, oder ich kann sagen, kontinuierliche Daten, verwenden wir eine normale Korrelationsanalyse wie die Korrekturanalyse von Pearson Wenn meine Daten jedoch ordinal oder nicht parametrisch sind, kann ich mit der Korrelationsanalyse von Spearman fortfahren Dieses Verfahren wird daher verwendet, wenn die Voraussetzung der Korrelationsanalyse, d. h. die parametrischen Verfahren, nicht erfüllt sind oder wenn keine metrischen Daten oder kontinuierlichen Variablen vorliegen und die Daten und In diesem Zusammenhang bieten wir an, es als Spearman-Korrelation oder Spearmansche Zeile zu bezeichnen Spearman-Korrelation oder Spearmansche Zeile Die Rangkorrelation nach Spearman ist gemeint. Die Frage kann dann so behandelt werden, als Rangkorrelation von Spearman der des Korrelationskoeffizienten von Percy ähnlich von Percy Beispiele. Besteht eine Korrelation zwischen zwei Variablen oder Merkmalen? Besteht beispielsweise ein Zusammenhang zwischen Alter und Religiosität in der französischen Bevölkerung? Die Berechnung der Rangkorrelation basiert auf dem Rankingsystem der Datenreihe Das bedeutet, dass die Rangmaßvariablen nicht bei der Berechnung verwendet, sondern in Ränge umgewandelt werden. Der Test wird dann anhand der Ränge durchgeführt. Für den Rangkorrelationskoeffizienten p sind die Werte zwischen minus eins und eins positiv. Wenn ein Wert kleiner als Null ist, ist p kleiner als Null, es besteht eine negative lineare Beziehung. Wenn der Wert größer als Null ist, liegt eine positive lineare Beziehung vor. Wenn der Wert Null oder nahe Null ist, z. B. 0,1 bis -0,1, können wir sagen, dass keine Beziehung zwischen den Variablen besteht keine Beziehung zwischen den Variablen Wie beim Korrelationskoeffizienten für Sparen die Stärke der Korrelation kann Wenn es also 0-0 0,1 ist, liegt keine Korrelation vor. Wenn es 0,12 0,3 ist, besteht eine geringe Wenn es 0,3 bis 0,5 gibt, liegt eine mittlere Retation Es besteht eine hohe Korrelation von 0,5 bis 0,7 und eine sehr hohe Korrelation von 0,7 zu eins Bei negativen Werten sprechen wir von geringer negativer Korrelation, hoher negativer Korrelation usw. Es gibt eine andere Art von Korrelation, die als biserielle Punktkorrelation bezeichnet wird . Die biserielle Punktkorrelation wird verwendet , wenn eine der Variablen dichotom ist Beispiel: Haben Sie studiert oder nicht studiert? Die andere ist eine metrische Variable wie das Gehalt. In diesem Fall verwenden wir einen Punkt nach serieller Korrelation. Die Korrelation eines Punktes durch serielle Korrelation entspricht der berechneten Korrelation nach Pearson Um sie zu berechnen, wird einer der beiden Ausdrücke des dichotomen Werts als Null kodiert Der andere ist als Eins kodiert. Berechnete Korrelationsanalyse zeigen wir Ihnen mit Excel oder anderen Tools , die kostenlos erhältlich sind. Ich werde Ihnen die Berechnung nach einiger Zeit zeigen, aber lassen Sie uns zuerst den Fall untersuchen. Ein Student möchte wissen, ob es einen Zusammenhang zwischen Größe und dem Gewicht der Teilnehmer des Statistikkurses Zu diesem Zweck zog der Student eine Stichprobe, die im Folgenden verteilt ist Ich habe also die Körpergröße der Menschen, ich habe die Gewichte der Menschen. Um die lineare Beziehung mithilfe der Korrelationsanalyse zu analysieren , können Sie die Korrelation mit Excel oder den anderen verfügbaren Tools online berechnen . Kopieren Sie zunächst die Tabelle in den Statistikrechner. Klicken Sie dann auf Korrelation und wählen Sie sie aus. Und schließlich können Sie die folgenden Beilagen erhalten. Also lass es uns online machen. Also bin ich zu data tab.net gekommen. Es ist ein statistischer Online-Rechner. Die Daten hier haben eine hundertprozentige Datensicherheit, da die Berechnungen in Ihrem Browser und die Daten in Ihren Browser-Cookies eingefügt und gespeichert werden. Die Daten sind zu 100%, und das ist der Grund, warum die Berechnung sehr schnell funktioniert. Die Daten benötigen daher keinen großen Server und damit Sie. Ich habe also das Körpergewicht, ich habe das Gewicht und ich habe das Alter. Also ich möchte es verstehen. Also wenn ich runtergehe, lasse ich mich kortieren. Ich möchte wissen, ob es einen Zusammenhang zwischen Körpergröße und Körpergewicht Welche Art von Korrelation möchte ich? Lass uns zuerst mit Pearsons gehen. Es besteht eine Korrelation Es besteht eine positive Korrelation. Das Signifikanzniveau ist festgelegt. 5% Wir können testen, ob Annahmen vorliegen, und es führt sofort die Analyse durch. Es macht das QQ-Diagramm für mich. Es zeichnet das Histogramm und zeigt die Ergebnisse, richtig? Wir können also sagen, dass die Daten mehr oder weniger normalverteilt sind Ich kann das kopieren, indem ich auf PNG herunterladen klicke, und die Datei wird kopiert. Und du wirst es auf diese Weise sehen können. Lassen Sie mich jetzt diesen Tumba schließen, damit er die Annahmen überprüft hat Die Zusammenfassung in Versen, das Ergebnis der Korrelation nach Pearson , zeigte, dass es eine sehr hohe positive Korrelation zwischen Körpergewicht, Größe und Gewicht Die Ergebnisse zeigten, dass die Beziehung zwischen Körpergewicht, Größe und Gewicht bei einem positiven R-Wert statistisch signifikant R ist 0,86 und der p-Wert ist 0,01. 001. Wenn Sie sich also die Stärke der Korrelation ansehen und der Wert größer als 0,7 und eins ist, sagen wir, dass es sich um eine sehr hohe Korrelation handelt und es sich um ein positives Dekor handelt. Wenn ich Hypothesen teste, gibt es keine oder eine negative Korrelation zwischen Körpergröße und Gewicht. Es besteht eine positive Korrelation zwischen Körpergröße und Gewicht. Wie viele Fälle haben wir zehn Fälle. Der R-Wert ist 0,86 und der p-Wert ist 0,001, was weniger als 0,5 ist Daher lehnen wir die Hypothese ab, dass es keine Korrelation gibt, und es gilt die alternative Hypothese, dass eine positive Korrelation zwischen Körpergröße und Körpergewicht besteht zwischen Körpergröße und Körpergewicht Der Vorteil, einen Datenentwurf zu haben, besteht darin, dass Sie eine KI-Interpretation haben. Diese Tabelle fasst die Ergebnisse der Analyse von Körpergröße und Körpergewicht zusammen und zeigt den Korrelationskoeffizienten r und P va Der Wert des Korrelationskoeffizienten gibt die Stärke und Richtung der Beziehung zwischen der Variablen Größe und Gewicht an, und der Koeffizientenwert beträgt 0,86, was auf eine sehr hohe positive Korrelation hindeutet eine sehr hohe positive Dies bedeutet, dass im Allgemeinen zunehmender Körpergröße auch das Gewicht zunimmt und umgekehrt. Der P-Wert. Der p-Wert geht hier davon aus, dass die verfügbaren Daten ausreichende Beweise liefern, um die Nullhypothese zurückzuweisen. In diesem Fall wurde die einseitige Hypothese getestet, und die Nullhypothese besagt , dass keine oder eine negative Korrelation zwischen der Größe und dem Gewicht in der Population besteht. In den meisten Fällen liegt der p-Wert unter 0,05. Wir gehen davon aus, dass eine statistische Signifikanz besteht In unserem Fall beträgt der p-Wert 0,001, was offensichtlich weniger als 0,5 ist Die Nullhypothese wird zurückgewiesen, und das Ergebnis der Pearson-Korrelation zeigt, dass eine positive Korrelation zwischen Körpergröße und Körpergewicht statistisch signifikant ist eine positive Korrelation zwischen Körpergröße und Körpergewicht statistisch positive Korrelation zwischen Körpergröße und Körpergewicht Das Ergebnis der Korrelation nach Pearson zeigt also , dass eine sehr positive Korrelation zwischen Körpergröße und Gewicht besteht eine sehr positive Korrelation zwischen Körpergröße und Gewicht Diese Korrelation wird durch eine statistisch signifikante positive Korrelation zwischen dem R-Wert 0,86 und dem P-Wert von 0,05 gespeichert statistisch signifikante positive Korrelation zwischen dem R-Wert 0,86 und dem P-Wert von 0,05 Jetzt gibt es ein Streudiagramm das Ich kann hier drüben klicken und meine Regressionslinie abrufen. Ich kann meine Achse ändern, wenn ich nicht bei Null beginnen möchte Möchte ich eine Nulllinie Dann ist die Null enthalten, aber ich will sie nicht. Ich kann es ändern. Wie will ich mein Bild haben, das extra große PDM und so Ich kann auf TNG herunterladen klicken , um dieses Bild herunterzuladen. Wie ich Ihnen bereits sagte, können wir jetzt auch die Kovarianzberechnung durchführen die Kovarianzberechnung Wenn ich mir also Körpergröße und Körpergewicht ansehe, ist die Kovarianz 1,29 Es bedeutet also, dass es eine Beziehung gibt. So machen Sie die Berechnung also. Nun, für den Point-by-Serialrechner haben wir vielleicht eine andere Art von Daten, die wir analysieren möchten Hat die Änderung des Gehalts . Hat die Änderung des Gehalts etwas mit dem Geschlecht zu tun? In diesem Fall würde ich dann den metrischen Wert als Gehalt und die nominale Variable als Geschlecht auswählen Gehalt und die nominale Variable als Geschlecht und dann meine Berechnung durchführen. Es würde den Mann auf Null und die Frau auf eins setzen. Boxplot, aus dem hervorgeht, dass ja, Männer im Vergleich zu Frauen tendenziell ein höheres Gehalt haben . Wenn also ein Student wissen möchte, ob es einen Zusammenhang zwischen einem erhöhten S gibt, haben wir diese Analyse durchgeführt Die Hypothese: Wenn man von einer normalen Hypothese ausgehen kann, besteht kein Zusammenhang zwischen Körpergröße und Körpergewicht Es besteht ein Zusammenhang zwischen Körpergröße und Gewicht, aber ich hatte in meinem Test eine Richtungshypothese aufgestellt. Der P-Wert ist dieser, und wir haben gesehen, wie wir die Ausgabe erzeugen können. Zunächst erhalten Sie die Null - und die Alternativhypothese. Die Nullhypothese besagt , dass es keine Korrelation zwischen Größe und Gewicht gibt, und dann haben wir die alternative Hypothese , die das Gegenteil verhindert Wenn Sie auf U-Boot-Vögel klicken, erhalten Sie die Interpretation, die wir gerade Wir können weitermachen und tatsächlich haben wir die direktionale oder einseitige Korrelationshypothese ausprobiert die direktionale oder einseitige Korrelationshypothese Und in Excel und anderen Tools, die Ihnen bei der Berechnung helfen können. Also haben wir gerade die Tests durchgeführt und festgestellt , dass es keine oder eine negative Korrelation zwischen dem Körpergen gibt und dass es eine positive Korrelation zwischen der Körpergröße gibt. Und als wir das gesehen haben, haben wir festgestellt , dass es eine positive, sehr starke positive Korrelation gibt, weshalb der p-Wert unter 0,01 lag In diesem Fall müssen Sie zunächst überprüfen, ob die Korrelation in allen Richtungen der Alternativhypothese besteht, d. h. Größe und Gewicht sind positiv korreliert, und in diesem Fall wird der p-Wert durch zwei geteilt Daher wird nur eine einseitige Verteilung berücksichtigt. Dieses Tool kümmert sich jedoch diese beiden Schritte und die Zusammenfassung in Versen wird so wiedergegeben, wie wir es gesehen haben. Wir stellen fest, dass eine positive Korrelation zwischen der Größe und dem Gewicht des Datensatzes an der Stichprobe besteht. Daher können wir sagen, dass eine positiv korrelierte Signifikanz besteht, und wir können feststellen, dass zwischen den Variablen Körpergröße und Körpergröße eine sehr positive Korrelation besteht Somit besteht eine sehr hohe positive Korrelation zwischen der Stichprobenhöhe und dem Damit schließen wir unsere Korrelationsanalyse ab und wir sehen uns im nächsten Kurs. 37. Pearsons Korrelationsanalyse-Konzept: Lassen Sie uns unsere Korrelationsreise fortsetzen. Ich werde heute über Pearsons Korrelation berichten. Die Korrelationsanalyse von Pearson ist eine Untersuchung der Beziehung zwischen zwei Variablen Zum Beispiel ist es eine Korrelation zwischen dem Alter und dem Gehalt einer Person Bei beiden handelt es sich um kontinuierliche Variablen, weshalb das Diagramm verstreut sein wird. also das Gehalt mit zunehmendem Alter der Person Steigt also das Gehalt mit zunehmendem Alter der Person? Nun müssen Sie sich daran erinnern, dass y eine Funktion von x ist, sodass Ihre Y-Achse das Ergebnis hat und die X-Achse die unabhängige Variable hat. Genauer gesagt können wir den Korrelationskoeffizienten von Pearson verwenden , um die lineare Beziehung zwischen zwei Variablen zu messen die lineare Beziehung zwischen zwei Variablen Wenn die Beziehung nicht linear ist, diese Korrelationsgleichung nicht von Nutzen. Ich denke, Sie hätten bemerkt, dass ich meinen AR für diese Aufnahme geändert habe. Wenn es dir gefallen hat, gib einfach einen Daumen hoch in den Kommentarbereich Lassen Sie uns weitermachen, die Stärke und die Richtung der Korrelation Mit der Korrelationsanalyse können wir feststellen, wie stark die Beziehung ist und in welche Richtung die Korrelation geht. Wir können die Stärke und Richtung der Korrelation am Korrelationskoeffizienten R nach Pearson ablesen , dessen Wert von minus eins bis plus eins variiert Die Stärke der Korrelation, die Stärke der Korrelation, das kann man in der Tabelle ablesen Der R-Wert liegt zwischen Null und minus Eins, was bedeutet, dass keine Korrelation besteht. Wenn der Betrag des Werts von r zwischen 0,7 und Eins liegt, handelt es sich um eine sehr stark korrelierte, sehr starke Korrelation Wenn die Werte nun positiv sind, ist sie positiv korreliert, und wenn die Werte negativ sind, ist sie negativ Nehmen wir also an, der R-Wert ergibt -0,66. Dann können wir sagen, dass es stark negativ korreliert ist. Das habe ich also aus dem Buch der Statistik übernommen . Lassen Sie uns das eindämmen. Was meinst du mit Korrelationsrichtung? Eine positive Korrelation liegt vor, wenn große Werte einer Variablen mit großen Werten einer anderen Variablen verknüpft sind oder wenn eine kleine Änderung einer Variablen mit einer kleinen Änderung der anderen Variablen verbunden ist . Wenn es sich also um eine positive Korrelation handelt und ein größerer Wert auf der X-Achse vorhanden ist, entspricht dies einem größeren Wert auf der Y-Achse. Und ein kleinerer Wert auf der X-Achse korreliert mit einem kleineren Wert auf der Y-Achse, wie Sie in diesen beiden Bildern sehen können Eine positive Korrelation ergibt Beispiele für Körpergröße und Schuhgröße Dies führt zu einer positiven Korrelation. Mit zunehmender Körpergröße nimmt also auch die Schuhgröße zu. Das Ergebnis ist ein positiver Korrelationskoeffizient, und r ist größer als Null Nun, haben Sie gesehen, dass dieses Diagramm einen Fehler enthält? Der Fehler ist, dass die Schuhgröße das Ergebnis ist und die Körpergröße die unabhängige Variable, aber wir haben sie mutwillig falsch abgebildet, um dies zu vermeiden Lassen Sie mich also meine Kommentare hier platzieren. Was ist falsch im Pow-Graph? Die Frage ist, ob die Größenzunahme der Show einer Erhöhung der Körpergröße der Person führt oder die Zunahme der Körpergröße der Person Erhöhung der Schuhgröße dient. Bitte schreiben Sie in die zehn folgenden Abschnitte. Ja. Denken Sie daran, y ist eine Funktion von x. Und hier ist y die Körpergröße der Person und x ist mein Fehler. X ist die Körpergröße der Person und y ist die Körpergröße. Ich hoffe, jetzt ist klar, was wir sagen wollen. Also y ist eine Funktion von x. Lassen Sie mich aus dem Buchstaben ein kleines Y machen , denn das ist das Projekt Y. X ist die Körpergröße der Person. Also hier ist der Fehler , dass wir es falsch dargestellt haben. Die negative Korrelation liegt vor, wenn ein großer Wert eine Variable mit einem kleinen Wert für die andere Variable verknüpft ist und umgekehrt. Wenn also die Y-Achse groß ist, ist der X-Achsenwert klein. Und wenn der X-Achsenwert groß ist, ist der Y-Achsenwert klein. Dies wird als negative Korrelation bezeichnet. Die Punkte fließen. Im Gegensatz zum vorherigen , bei dem die Punkte nach oben flossen. Jetzt besteht die negative Korrelation zwischen Produktgröße und Verkaufswert. Dies führt zu einer negativen Korrelation. Was passiert, wenn der Preis steigt, das Verkaufsvolumen sinkt. Und wenn der Preis gesenkt wird, neigen die Leute dazu, mehr Volumen zu kaufen. Das führt zu mehr Verkäufen. Lass mich schreiben, dass es Steigerungen gibt. Sehr gut. Das Ergebnis ist also eine negative Korrelation, der Koefionswert von r ist kleiner als Null Je stärker die Korrelation ist, näher rückt der Wert an minus eins heran Und hier ist die Grafik korrekt. Wenn der Preis steigt, sinken die Mengen. Wie berechnen wir nun den Korrelationsclient von Pearson? Das ist eine sehr wichtige Sache, oder? Der Korrelationsfaktor nach Pearson wird anhand der folgenden Gleichung berechnet Dabei ist r der Korrelationskoeffizient nach Pearson. X i ist der Einzelwert einer Variablen. Zum Beispiel könnte es das Alter der Person sein. Der X-Balken ist das Durchschnittsalter des Stichprobendatensatzes. Y ist der individuelle Wert der anderen Variablen oder der Ergebnisvariablen, und der Y-Balken ist nichts anderes als das Durchschnittsgehalt des Stichprobendatensatzes. Hier sind also X-Balken und Y-Balken jeweils der Mittelwert zweier Variablen. Das Ganze wird geteilt durch die Unterwurzel von x eins minus x Balkenquadrat, y eins minus y bar ganzem Quadrat. Wenn ich es also quadriere und eine Unterwurzel mache, wird sich darum gekümmert Also x eins sind die einzelnen Werte und y eins sind die einzelnen Werte der Ergebnisvariablen R ist die Korrelation nach Pearson und der Mittelwert. In dieser Gleichung können wir sehen, dass die jeweiligen Mittelwerte der ersten Variablen von der anderen Variablen subtrahieren In unserem Beispiel haben wir den Hauptwert von Alter und Gehalt berechnet den Hauptwert von Alter und Gehalt Dann subtrahieren wir den Hauptwert jedes Alters und Gehalts vom Mittelwert Dann multiplizieren wir beide Werte. Wir summieren dann die einzelnen Ergebnisse der Multiplikation Der Ablauf des Nenners stellt sicher, dass der Korrelationskoeffizient immer zwischen minus eins und plus eins liegt Denken Sie daran, dass Sie nichts davon manuell berechnen müssen. Derzeit sind diese Funktionen in Excel und auf mehreren Online-Websites verfügbar . Wenn Sie mehrere positive Werte wünschen, erhalten wir einen positiven Wert. Und wenn wir zwei negative Werte multiplizieren, erhalten wir ebenfalls einen positiven Wert minus in minus e plus. Alle Werte, die in diesem Bereich liegen, haben also einen positiven Einfluss auf den Korrelationskoeion steigendem Alter steigt das Gehalt, das Gehalt sinkendem Alter sinken die Gehälter Wenn wir einen positiven Wert mit einem negativen Wert multiplizieren, erhalten wir einen negativen Wert, der minus bis plus minus ist. Die ganze Zeit gibt es eine Reihe negativer Einflüsse auf den Korrelationskoeion Also die Dinge, die in der lila Box hervorgehoben sind, wenn die Daten dort runterfallen, dann führt das zu einer negativen Korrelation Wenn unser Wert also überwiegend aus zwei grünen Bereichen der beiden vorherigen Zahlen besteht. Wir erhalten einen positiven Korrelationskoeffizienten und damit eine positive Wenn unsere Werte überwiegend im roten Bereich der Zahlen liegen , erhalten wir einen negativen Korrelationskoeffizienten und somit eine negative Korrelation und somit eine Verteilen sich die Punkte auf alle vier Bereiche, positive und negative Terme, heben sie sich gegenseitig auf, und es kann sein, dass wir am Ende sehr geringe oder gar keine Korrelation Das ist also ein sehr wichtiger Teil , den Sie verstehen müssen. Stimmt das? Wenn die Punkte insgesamt verteilt sind, ergibt sich überhaupt keine Korrelation. Nun, wie signifikant sind Tests von Korrelation und Koeffizient? Im Allgemeinen wird der Korrelationskoeffizient von Daten aus einer Stichprobe berechnet In den meisten Fällen wollen wir jedoch die Hypothese über die Population testen Da wir die Grundgesamtheit nicht untersuchen können , nehmen wir eine Stichprobe, und wir nehmen eine Stichprobe, und durch die Untersuchung der Stichprobe wollen wir Rückschlüsse auf die Grundgesamtheit ziehen In diesem Fall, der Korrelationsanalyse, wollen wir dann wissen, ob es eine Korrelation in der Grundgesamtheit gibt es eine Korrelation in der Grundgesamtheit Dazu testen wir, ob der Korrelationskoeffizient in der Stichprobe statistisch signifikant ist und sich von Null unterscheidet Wie führen wir nun Hypothesentests durch? Für Pearsons Korrelation? Die Nullhypothese und die Alternativhypothese für die Korrelationen nach Pearson Die Nullhypothese besagt, dass es keine Korrelation gibt und dass sich der R-Wert daher nicht signifikant von Null unterscheidet Es besteht keine Beziehung. Die alternative Hypothese besagt, dass es einen signifikanten Unterschied oder eine lineare Korrelation zwischen den Daten gibt. Achtung. Wir testen immer, ob die Nullhypothese abgelehnt wird oder nicht. Das ist sehr, sehr wichtig. Ich akzeptiere nie etwas Ähnliches oder wir arbeiten nie daran. Die Sache ist, wir arbeiten immer daran, die Nullhypothese zu beweisen oder abzulehnen. Wir versuchen nie, die Alternative zu beweisen, obwohl unsere Forschung beginnt, weil es eine Alternative gibt. In unserem Beispiel könnten wir also die Frage stellen, wenn es um das Gehalt und das Alter der Person geht. Gibt es einen Zusammenhang zwischen Alter und Gehalt für die deutsche Bevölkerung? Um das herauszufinden, ziehen wir eine Stichprobe und testen, ob sich der Korrelationskoeffizient in dieser Stichprobe signifikant von Null unterscheidet. Die Nullhypothese lautet dann dass es in der deutschen Bevölkerung keine Korrelation zwischen Gehalt und Alter gibt. Die alternative Hypothese besagt, dass der deutschen Bevölkerung ein Zusammenhang zwischen Gehalt in der deutschen Bevölkerung ein Zusammenhang zwischen Gehalt und Alter besteht. Signifikanz und Test. Wenn sich der Korrelationsfähigkeitstest nach Pearson signifikant von der Nullstichprobenerhebung unterscheidet signifikant von der Nullstichprobenerhebung unterscheidet, testen wir ihn mit der T-Testformel Dabei ist r der Korrelationskoeffizient und n der Stichprobenumfang und Auch hier würde ich sagen, dass es gut ist, die Formel zu kennen, sich aber nicht darin zu verlieren Richtig? Ein P-Wert kann anhand der Teststatistik t berechnet werden, und der p-Wert ist kleiner als das angegebene Signifikanzniveau, das normalerweise 5% beträgt, dann wird die Nullhypothese zurückgewiesen, andernfalls nicht. Wir möchten also sicherstellen , dass der p-Wert, wenn er größer als 0,05 ist, die Nullhypothese nicht zurückweisen Wenn der p-Wert größer als 0,05 ist, können wir die Nullhypothese nicht zurückweisen Was sind nun einige Annahmen, die in der Korrelation nach Pearson enthalten sind Was ist mit den Annahmen der Korrelation nach Pearson? Hier müssen wir unterscheiden, ob wir den Korrelationskoeffizienten nach Pearson berechnen oder ob wir eine Hypothese testen wollen Um den Korrelationskoeion nach Pearson zu berechnen, nur Metrische Variablen können beispielsweise das Gewicht, das Gehalt, der Stromverbrauch usw. einer Person sein . Kurz gesagt, kontinuierliche Variable. Der Korrelationsclient nach Pearson sagt uns dann , wie groß die lineare Beziehung ist, und gibt es eine nichtlineare Wir können nicht aus dem Korrelationskoion von Pearson ablesen. Das ist also eine lineare Korrelation, und wenn Ihre Daten auf diese Weise berechnet werden oder auftauchen, dann tendieren wir dazu, weiterzumachen In diesem Fall gibt es also keine Korrelation. Wenn wir jedoch testen wollen, ob der Korrelationskoeffizient von Pearson in der Stichprobe signifikant von Null unterscheidet, wollen wir die Hypothese testen, dass die beiden Variablen ebenfalls normalverteilt sind Weil Sie die Korrelation nach Pearson nicht auf Daten testen können , die nicht dem Normalwert entsprechen In diesem Fall können die berechneten Teststatistiken t und der p-Wert nicht zuverlässig interpretiert werden Wenn die Annahme nicht getroffen wird, wird die Rangkorrelation nach Pearson verwendet Das bedeutet, dass ich für nicht normale Daten die Rangkorrelation nach Pearson verwenden werde Wie berechne ich die Korrelation nach Pearson online mit Excel und anderen Tools Ich werde es Ihnen in Kürze zeigen. 38. Punkt-Biserial-Korrelation: Lassen Sie uns nun etwas über die biserielle Punktkorrelation lernen. Ich werde die Theorie und das Beispiel erläutern und erläutern, wie wir das mit einem Online-Rechner praktisch umsetzen können wir das mit einem Online-Rechner praktisch . Bleiben Sie in Verbindung. Was genau ist eine biserielle Punktkorrelation? Hast du schon einmal davon gehört oder dein Gesicht hat sich in etwa so verändert? Wir hören meistens von linearer Regression, logistischer Wenn wir etwas über Korrelation lernen, denken wir an einfache Korrelation, positive Korrelation, negative Korrelation Und wann immer wir Korrelation machen, denken wir nur an Variablen, kontinuierliche Variablen sowohl auf der X- als auch auf der Y-Achse. Lassen Sie uns also verstehen, was Punkt bei serieller Korrelation ist. Es handelt sich um einen Spezialfall der Korrelation nach Pearson, und es untersucht die Beziehung zwischen einer dikotonmen Variablen und einer metrischen Variablen Okay. Die Regel für die Korrelation lautet, dass Ihre beiden Variablen kontinuierlich oder metrisch sein sollten. Aber mit der Punkt-für-Seriell-Korrelation kann ich sogar nach einer dichotymen Variablen suchen, die ja oder nein sein können Lassen Sie uns das Beispiel einer dikotonösen Variablen verstehen . Eine dikotyme Variable ist eine Variable mit zwei Werten Geschlecht (männlich und weiblich) und Raucherstatus (Raucher, Nichtraucher Metrische Variablen sind dagegen das Gewicht der Person, das Gehalt der Person, der Stromverbrauch usw. Wenn wir also eine dichotonme Variable und eine metrische Variable haben , wollen wir wissen, ob es eine Beziehung gibt Wir können die punktuelle serielle Korrelation verwenden. Lassen Sie uns also die Definition davon verstehen. punktuelle serielle Korrelation ist eine besondere Art der Korrelation und untersucht die Beziehung zwischen einer dichotyen Variablen und einer metrischen Variablen Dichotonome Variablen sind Variablen mit zwei Werten, und metrische Variablen sind kontinuierliche Variablen mit unendlichen Werten, wie Größe, Gewicht, Gehalt, Stromverbrauch usw. und metrische Variablen sind kontinuierliche Variablen mit unendlichen Werten, wie Größe, Gewicht, Gehalt, Stromverbrauch usw. Wie genau wird der Punkt durch Es verwendet das Konzept der Pearson-Korrelation, aber in der Pearson-Korrelation haben wir auch eine Variable, die nominaler Natur ist Nehmen wir zum Beispiel an, Sie möchten den Zusammenhang zwischen der Anzahl der in einem Test unternommenen Stunden und den Ergebnissen untersuchen den Zusammenhang zwischen der Anzahl der in einem Test unternommenen Stunden , d. h. ob die Person bestanden oder nicht bestanden hat Hier kann ich also sehen, wie viele Stunden die Person dem Lernen verbracht hat und ob sie bestanden oder nicht bestanden hat? Wir haben Daten für die Stichprobe von 20 Studierenden gesammelt. 12 Studierende haben bestanden, acht Studierende sind durchgefallen. Wir haben die Anzahl der Stunden für jeden Schüler, der an dem Test teilgenommen hat, aufgezeichnet und dem Schüler, der den Test bestanden hat, eine Punktzahl von eins und dem Schüler, der den Test nicht bestanden hat, eine Punktzahl von Null zugewiesen und dem Schüler, der den Test nicht bestanden hat, eine Punktzahl von Null . Jetzt können wir entweder die Pearson-Korrelation zwischen der Zeit und den Testergebnissen berechnen die Pearson-Korrelation zwischen der Zeit und den oder wir können die Gleichung für den Punkt anhand der CDN-Korrelation verwenden Gleichung für den Punkt anhand der CDN-Korrelation Jetzt können wir entweder die Pearson-Korrelation zwischen Zeit und Testergebnissen mit der Gleichung berechnen die Pearson-Korrelation zwischen Zeit und Testergebnissen mit der Zeit und Testergebnissen mit Nun, hier ist x y der Mittelwert der Personen, die durchgefallen sind, und X eins ist der Mittelwert der Personen, die bestanden haben N steht für die Gesamtzahl der Beobachtungen. N eins steht für die Anzahl der Personen, die bestanden haben, n zwei steht für die Anzahl der Personen, die durchgefallen sind. Genau wie der Korrelationskoeffizient nach Pearson, r, ist Punkt für serielle Korrelation rp. Auch B variiert zwischen minus eins und plus eins Mit Hilfe von Cefent können wir zwei Dinge wir So stark ist die Beziehung. Ist es eine positive Korrelation? Handelt es sich um eine schwache positive Korrelation und in welche Richtung geht die Korrelation? Handelt es sich um eine positive Korrelation oder um eine negative Korrelation? Die Stärke der Korrelation kann in der Tabelle abgelesen werden. Liegt der Wert zwischen 0,0 und weniger als 0,1, liegt keine Korrelation vor. Wenn der Wert zwischen 0,1 und weniger als 0,3 liegt, liegt eine geringe Korrelation vor. Der Wert liegt zwischen 0,3 und 0,5, es besteht eine mittlere Korrelation von 0,52 bis 0,7, eine hohe Korrelation von 0,7 zu einer, sehr hohen Korrelation Wenn der Wert zwischen Null und minus Eins liegt, sprechen wir von einer negativen Korrelation Wenn der Koeffizient zwischen minus eins und kleiner als Null liegt, handelt es sich um eine negative Korrelation, daher besteht eine negative Beziehung zwischen der Variablen Wenn der Wert zwischen Null und plus eins liegt, handelt es sich um eine positive Korrelation Somit besteht eine positive Beziehung zwischen der Variablen, und wenn das Ergebnis nahe Null liegt, sagen wir, dass keine Korrelation besteht. Der Korrelationskoeffizient wird normalerweise anhand der Daten aus der Stichprobe berechnet Wir möchten jedoch häufig Hypothesen über die Grundgesamtheit testen Wir wollen eine Hypothese über die Population testen , weil wir die Population nicht untersuchen können, wir verwenden eine Stichprobenmethode. Wir berechnen den Korrelationsgrad der Stichprobendaten. Jetzt können wir testen, ob sich der Korrelationskoeffizient signifikant von Null unterscheidet signifikant Die Nullhypothese besagt, dass sich der Korrelationskoeffizient nicht signifikant unterscheidet Es besteht keine Beziehung. Eine alternative Hypothese besagt, dass die Korrelationskohäsion signifikant von Null abweicht. Es besteht eine Beziehung. Wenn wir also den Punkt durch serielle Korrelation berechnen, erhalten wir denselben p-Wert wie den T-Test für unabhängige Stichproben für dieselben Daten. Unabhängig davon, ob wir die Korrelationshypothese mit einem Punkt durch serielle Korrelation oder eine Differenzhypothese des T-Tests testen, erhalten wir den gleichen p-Wert. Was ist mit den Annahmen , die wir berücksichtigen müssen, wenn wir einen Punkt mit serieller Korrelation ermitteln? Hier müssen wir unterscheiden, ob wir nur den Korrelationskoeffizienten berechnen wollen oder ob wir auch die Hypothese testen wollen Um den Korrelationskorenten zu berechnen, nur eine metrische Variable und eine dichotome müssen nur eine metrische Variable und eine dichotome Variable vorhanden sein. Wenn Sie jedoch testen möchten, ob der Korrelationskoeffizient signifikant von Null unterscheidet, eine metrische Ist dies nicht gegeben, die berechneten Teststatistiken oder der p-Wert nicht zuverlässig interpretiert werden Wir können Online-Rechner wie die Registerkarte „Daten“ verwenden, die Ihnen bei der Analyse helfen können und auf die ich jetzt eingehen werde Wir sind auf Datenfass. Ich habe einige Daten in Bezug auf die Anzahl unserer Studientestergebnisse eingegeben Null und Eins als bestanden und nicht bestanden in Null und Eins umgerechnet . Ich kann meine Daten mit dieser Schaltfläche importieren und damit die Tabelle löschen. Sie haben Einstellungen, mit denen Sie entscheiden können, welche Art von Einstellungen Sie für Grafiken verwenden möchten. Gehen wir jetzt runter. Ich korreliere, und ich habe Optionen. Hier sind meine nominale Variable die Testergebnisse. Meine metrische Variable ist unser strded. Ich möchte Pearsons Pfannen und Konvolu berechnen. Vorerst behalte ich es einfach als Pearsons. Meine nominale Variable sind Testergebnisse Sobald ich die nominale Variable als Testergebnisse ausgewählt habe, konnte ich dies als serielle Punkt-Pi-Korrelation identifizieren als serielle Punkt-Pi-Korrelation Die Hypothese besagt, dass es keine Korrelation zwischen unseren Studien- und Testergebnissen gibt. Die alternative Hypothese besagt, dass ein Zusammenhang zwischen der Anzahl der untersuchten Stunden und den Testergebnissen besteht. Der Punkt, an dem die serielle Korrelation fehlschlägt, nimmt den Wert Null an, Ps nimmt den Wert Eins an. Der Wert für die serielle Punktkorrelation beträgt 0,31 Freiheitsgrade, r 18 t ist 0,14, der p-Wert ist 1,79 Ich habe den Boxplot hier drüben , der besagt, dass mein Boxplot für die ehemaligen 50% der Teilnehmer lernen zwischen 8,5 und 19,25 Stunden, was zu einem erfolgreichen Studium geführt hat Leute, die durchgefallen sind, lernen 7-13 Stunden, richtig? Ich kann es sogar herunterladen, indem ich auf den PNG-Download-Button Und Sie werden sehen, dass ich dazu in der Lage bin. Nun, wie funktioniert die Berechnung für die serielle Korrelation von Punkt B? Wenn Sie den Punkt durch serielle Korrelation berechnen, wählen Sie eine metrische Variable und eine nominale Variable mit zwei Werten. Bevor ich darauf eingehe, möchte ich eine Zusammenfassung in Worten zusammenfassen. Die serielle Korrelation nach Punkt B wurde durchgeführt, um den Zusammenhang zwischen unseren Studien und den Testergebnissen zu bestimmen . Es besteht eine positive Korrelation zwischen unserer Studie und dem Testergebnis, die nicht signifikant und statistisch signifikant war, da der p-Wert größer als 0,05 ist Wenn ich mehr Daten wie diesen hätte, bei denen ich mehrere Werte verwende, um Männer und Frauen gleich Null und Eins zu bestimmen, und dann hätte es berechnet Es heißt also, gibt es einen Zusammenhang zwischen dem Gehalt und dem Geschlecht? Und wir können sehr deutlich sehen, dass ja, Männer im Vergleich zu Frauen ein deutlich höheres Gehalt haben . Wenn Sie jedoch den p-Wert sehen, er sehr nahe bei 0,05, aber er liegt bei 0,07 Wir können die Nullhypothese also nicht zurückweisen und sagen, dass dies möglicherweise auf den Ding-Fehler der Stichprobe zurückzuführen ist . O 39. Logistische Regression: Willkommen zur nächsten Lektion über logistische Regression. Lassen Sie uns das Theoriebeispiel verstehen und wie wir es interpretieren Wann verwenden wir logistische Vorschriften? Nehmen wir ein Beispiel. Wo auch immer wir überprüfen müssen, ob es ein alter Mensch ist , der an Krebs erkranken wird, oder ob es ein Mann oder eine Frau ist, der stärker erkrankt? Ist es ein Raucher, der die Krankheit verursacht? Wenn ich nach mehreren Variablen suchen möchte, die mich infizieren können , und mir sagen ob die Krankheit möglich ist, wie hoch ist dann die Wahrscheinlichkeit , an einer Krankheit zu Lassen Sie uns also tiefer eintauchen. Was genau ist Regression? Eine Regressionsanalyse ist eine Methode zur Modellierung von Beziehungen zwischen Variablen Sie ermöglicht es, auf der Grundlage einer oder mehrerer anderer Variablen auf eine Variable zu schließen oder vorherzusagen , ob der Kunde glücklich oder traurig ist , ob der Kunde glücklich oder Ich versuche also anhand der Qualifikation der Person, der dafür benötigten Zeit oder des Alters zu überprüfen, ob dies möglich anhand der Qualifikation der Person, der dafür benötigten Zeit oder des Alters zu überprüfen, ob dies Welcher Faktor beeinflusst es? Die Variable, die wir ableiten oder vorhersagen möchten, wird als abhängige Variable oder Kriterium bezeichnet , und die Variablen, die wir für die Vorhersage verwenden , werden als unabhängige Variablen oder Prädiktoren bezeichnet unabhängige Variablen oder Prädiktoren Was ist der Unterschied zwischen linearer Regression und logistischer Regulation Bei einer linearen Regelung ist die abhängige Variable eine metrische Beispiel: Gehalt, Strom, Verbrauch usw. Das bedeutet, dass es sich um eine kontinuierliche Variable handelt. In einer logistischen Regression ist die abhängige Variable eine dichotonme Was ist eine dichotonyme Variable? Das bedeutet, dass die Variable nur zwei Werte hat. Zum Beispiel, ob eine Person ein bestimmtes Produkt kaufen wird oder nicht, oder ob eine Krankheit vorliegt oder nicht. Wie können logistische Vorschriften genutzt werden? Mit Hilfe der logistischen Regulierung können wir feststellen, was einen Einfluss darauf hat , ob eine bestimmte Krankheit vorliegt oder Wir könnten den Einfluss von Alter, Geschlecht und Raucherstatus auf diese bestimmte Krankheit untersuchen , Geschlecht und Raucherstatus auf diese bestimmte Krankheit In diesem Fall steht Null für „ nicht erkrankt“ und „Eins“ für „erkrankt Die Wahrscheinlichkeit des Auftretens einer Krankheit oder eines Merkmals ist eins bedeutet, dass das Merkmal vorhanden ist Unsere Datenbasis sah ungefähr so aus, wobei meine unabhängigen Variablen ein geschlechtsspezifischer Raucherstatus sein könnten , und meine abhängige Variable könnte eine Variable sein , die sich aus Nullen und Einsen zusammensetzt. Wir könnten nun untersuchen welchen Einfluss die unabhängige Variable hat und wie sich die Krankheit auf die Krankheit auswirkt Wenn es einen Einfluss gibt, können wir vorhersagen, wie wahrscheinlich es ist, dass eine Person an einer bestimmten Krankheit leidet. Jetzt stellt sich natürlich die Frage. Warum brauchen wir in diesem Fall eine logistische Regulierung? Warum funktioniert die lineare Erholung nicht? Lassen Sie uns also kurz zusammenfassen, was bei der linearen Regression passiert ist Lassen Sie uns kurz zusammenfassen, was lineare Regulierung ist. In der linearen Regression ist dies unsere Regressionsgleichung Y geht zu b1x1 plus b2x2 plus b3x3 und so weiter und so fort. B und xn plus c. Wir haben die abhängige Variable y und wir haben unabhängige Variablen wie x eins, und wir haben unabhängige Variablen wie x eins x 2x3tx neun. Und wir haben die Regressionskosion, b eins, b2b Bn . Wenn Sie sich nun jedoch diese Variable ansehen, wird die abhängige Variable mit Null oder Eins erstellt Und daher wird Ihre Ausgabe ungefähr so aussehen. Sie haben viele Punkte auf der Nulllinie und viele Punkte auf der einen Linie, aber Sie haben keine Daten dazwischen. Unabhängig davon, wie viel Wert Sie haben, kann die unabhängige Variable dazu beitragen, dass die Variable einen Wert von 0-1 Die Ergebnisse sind immer Null oder Eins. In einer Regressionsgleichung müssen wir einfach eine gerade Linie durch die Punkte ziehen und wir sehen, dass es viele Fehler gibt Wir können jetzt sehen, dass bei einer linearen Regression Werte zwischen plus und minus unendlich auftreten können Und daher funktioniert diese Formel nicht. Was ist die Lösung? Ziel der logistischen Regression ist es jedoch , die Eintrittswahrscheinlichkeit abzuschätzen Der Wertebereich der Vorhersage sollte daher zwischen 0 und 1 liegen. Und deshalb wollen wir eine Linie, die auf diese Linie passt , und keine Diagonale wie diese Wir brauchen also eine Funktion , die nur Werte dazwischen akzeptiert, was zu einem Wert von Null und Eins führt. Genau das macht die logistische Funktion. Egal, wo Sie sich auf der X-Achse befinden, Sie werden sich befinden, Ihre Y-Achse wird entweder Null oder Eins ergeben Zwischen dem Minus und dem Plus Unendlich liegen die einzigen Ergebnisse bei 0-1 Und genau das wollen wir. Die Gleichung der logistischen Abrechnung wird ungefähr so aussehen Die logistische Funktion wird jetzt in der logistischen Erholung verwendet Lassen Sie uns also die lineare Erholungsformel noch einmal aufschlüsseln die lineare Erholungsformel noch einmal Eins plus y ergibt b1x1 plus b2x2 plus t b x und so weiter. Diese Gleichung wird nun in die Funktion eingefügt. Wenn Sie das tun, ist es die Potenz von e minus Ihrer größten linearen Erholungsgleichung, 1/1 plus e mit der Potenz der Minus-Gleichung Somit ist die Wahrscheinlichkeit, mit der die abhängige Variable auftritt, gleich eins Wie sieht das in unserem Beispiel aus? Wie hoch ist die Wahrscheinlichkeit einer bestimmten Erkrankung? P ist disa. Wie groß ist die Wahrscheinlichkeit, dass die Person erkrankt ist, gleich 1/1 plus E bar minus B eins zu H, B zwei zum Geschlecht, P drei zu Raucher Das ist eine Funktion von A, Geschlecht und Für Z wird jetzt einfach die Gleichung der linearen Gleichung eingefügt. Und wenn Sie das tun, stellen wir fest, dass die Wahrscheinlichkeit einer abhängigen Variablen an diesem Beispiel eins ist. In unserem Beispiel wird die Wahrscheinlichkeit, an einer bestimmten Krankheit anhand des Parameters Geschlecht und Raucherstatus berechnet. Wie sieht das in unserem Beispiel aus? E potenziert mit minus B eins, B zwei, B drei, sind alles die Bestimmtheitskoeffizienten , sodass das Modell am besten zu den gegebenen Daten passt. Um dieses Problem zu lösen, nennen wir es die Methode der maximalen Lighthod-Methode Zu diesem Zweck gibt es gute numerische Methoden, um das Problem effizient zu lösen Aber wie interpretiert man die Ergebnisse einer Logistikregulierung Schauen wir uns die Fixitios-Nummer an. Er gibt das Geschlecht des Rauchens, den Status und die Krankheit an. 22 Frauen sind Nichtraucher und erkrankt, 25 Raucherinnen sind erkrankt, 18 männliche Raucher sind nicht erkrankt, so weiter und so fort 25 Raucherinnen sind erkrankt, 18 männliche Raucher sind nicht erkrankt, so weiter und so fort. Wenn wir das auf einen statistischen Online-Rechner eingeben und zur Regression übergehen und dann auswählen, was meine abhängigen Variablen und was meine unabhängigen Variablen sind ? ? Was ist eher eine Vorhersage, krank oder nicht krank, und Und wenn wir darauf klicken, wird es die Erholungsgleichung für uns ausführen Wir möchten also die logistische Erholung berechnen, also müssen wir auf die Registerkarte Erholung klicken Dann kopieren wir unsere Daten dorthin und die Variablen werden hier unten angezeigt Je nachdem, wie Ihre abhängigen Variablen verwendet werden, statistische Online-Rechner wie berechnen statistische Online-Rechner wie die Registerkarte „ Daten“ entweder die logistische oder die lineare Rekonstruktion unter der Registerkarte Erholung Wir wählen „erkrankt“ als abhängige Variable, A, Geschlecht, Raucherstatus als Jetzt übernimmt der Rechner die logistische Regressionsgleichung Gehen Sie jetzt langsam die gesamte Tabelle durch und verstehen Sie, und fangen wir von oben an Wenn Sie nicht wissen, wie Sie die Ergebnisse interpretieren sollen, gibt es ein Muster, das als Zusammenfassung in Versen bezeichnet wird. Sie können es in Word kopieren, Sie können die Ergebnisse in Excel kopieren und Sie können auch die Klassifizierungstabelle kopieren. Fangen wir also an. Das erste, was in der Ergebnistabelle angezeigt wird, sind die Ergebnisse , wo wir sagen, dass insgesamt 36 Personen untersucht wurden. 26 wurden korrekt geschätzt , und das sind 72,22 Prozent in Prozent Mit Hilfe der Berechnung, des Regressionsmodells, wurden 26 von 36% korrekt zugeordnet Das sind 72%. Gehen wir nun zur folgenden Klassifizierungstabelle. Sie haben die Möglichkeit, es nach Word und Excel zu exportieren. Hier können Sie sehen, wie oft die Kategorien „Nicht erkrankt“ und „Krankheit beobachtet und wie oft sie vorhergesagt werden Die beobachteten Werte sind also 11, fünf, fünf, 15, und die vorhergesagten Kategorien lauten wie folgt Wir können also sagen, dass sie ein korrektes Prognosemittel getroffen haben. In Wirklichkeit ist die Person nicht krank, und das Modell hat auch vorausgesagt, dass sie nicht erkrankt ist In Wirklichkeit ist die Person verstorben, und das Modell hat eine Krankheit vorhergesagt Beide sind positiv. Wahr positiv und wahr negativ. Aber wir haben ein Konzept, das als falsch negativ und falsch positiv bezeichnet wird. In Wirklichkeit ist die Person nicht krank, aber das Modell sagt, dass sie krank ist Das ist also ein falsch-positiver Fall, was in Ordnung ist, weil Sie sich definitiv für eine zweite Meinung entscheiden können und die Person vorsichtig ist Die Sorge gilt dem falsch negativen Ergebnis. In Wirklichkeit ist die Person krank, aber mein Modell ist nicht in der Lage, dies vorherzusagen Daher werden diese fünf Patienten die Behandlung verpassen , wenn sie sich nicht für die aktuelle Diagnose entscheiden Insgesamt sind es 16 11 plus 516 ohne Krankheitsbeobachtung. Von diesen 16 das Freizeitmodell 11 korrekt als nicht erkrankt bewertet und fünf fälschlicherweise als Krankheit gespeichert Von 20 erkrankten Personen wurden 15 korrekt als Krankheit und Pi falsch bewertet. Zu beachten ist, dass bei der Entscheidung, ob eine Person erkrankt ist oder nicht, ein Schwellenwert von 50% Wenn die Wahrscheinlichkeit höher als 50% ist, kennzeichnen wir die Person als erkrankt Da die Wahrscheinlichkeit weniger als 50% beträgt, kennzeichnen wir sie als nicht erloschen. Wenn das Regressionsmodell also mehr als 50% schätzt, wird die Person als verstorben eingestuft, andernfalls nicht verstorben Kommen wir zum Chi-Square-Test. Wir haben ein ausführliches Video zum Chi-Quadrat. Der Chi-Quadrat-Wert beträgt 8,79 Freiheitsgrade drei und der p-Wert 0,32 Wenn P niedrig ist, geh. Wir werden uns mit dem Testen der Hypothesen befassen. Hier können wir nachlesen, ob das Modell insgesamt signifikant ist oder nicht. Die Antwort lautet: Ja. Jetzt wollen wir mal sehen. Es gibt zwei Modelle , die verglichen werden können. In einem Modell werden alle unabhängigen Variablen verwendet. In dem anderen Modell nur wenige der unabhängigen Variablen verwendet. Mit Hilfe des Chi-Square-Tests vergleichen wir, wie gut die Vorhersage ist, wenn die abhängigen Variablen verwendet werden, und wie gut sie ist, wenn die abhängigen Variablen nicht verwendet werden. Und der Chi-Quadrat-T-Test sagt uns, ob es einen signifikanten Unterschied zwischen den beiden Ergebnissen Die Nullhypothese besagt, dass beide Modelle identisch sind. Der p-Wert ist kleiner als 0,05. Dies bedeutet, dass die Nullhypothese zurückgewiesen wird. Wenn also die Nullhypothese abgelehnt wird, gehen wir davon aus, dass es einen signifikanten Unterschied zwischen den Modellen gibt. Somit ist das Modell als Ganzes signifikant. Als nächstes folgt die Modellzusammenfassung. In dieser Tabelle sehen Sie eine Hand mit minus zwei Log-Likelihood-Werten und auf der anderen Seite haben Sie einen anderen Bestimmtheitskoeffizienten oder Quadratwert. Die Modellzusammenfassung sieht wie folgt aus. Sie können es einfach in Word und Cel exportieren. Minus zwei ist eine Log-Likelihood von 40,67, Quadratwert von Cosell R ist 0,22 Und die anderen Werte werden ebenfalls angezeigt. Das R-Quadrat wird verwendet, um herauszufinden wie gut das Erholungsmodell die abhängige Variable erklärt. Bei der linearen Rekonstruktion gibt das R-Quadrat den Teil der Variation an, der durch die unabhängigen Variablen erklärt werden kann . Je mehr Varianz erklärt werden kann, desto besser ist das Regulierungsmodell. R-Quadrat wird verwendet, um herauszufinden, wie gut das Regulationsmodell die abhängige Variable erklärt Bei einer linearen Regelung gibt das R-Quadrat den Teil der Varianz an, der durch die unabhängigen Variablen erklärt werden kann durch die unabhängigen Variablen erklärt Je mehr Varianz erklärt werden kann und desto besser ist das Regulierungsmodell Im Fall der logistischen Regulierung ist die Bedeutung jedoch ist die Bedeutung Es gibt verschiedene Möglichkeiten, das R-Quadrat zu berechnen. Leider gibt es noch keine Einigung darüber , welcher Weg am besten ist. Das R-Quadrat ist laut Knopfzelle 0,22, Nagker Ki ist 0,29 und Und jetzt kommt die wichtigste Tabelle, die Tabelle mit dem Modell Coent Der wichtigste Parameter des Klienten ist das Chancenverhältnis von B, p-Wert Die B-Werte des Koeenten sind hier, die p-Werte sind hier und das Chancenverhältnis Wir können sehen, dass der P-Wert für Geschlecht größer als 0,05 ist. Das bedeutet, dass das Geschlecht kein Faktor ist , der zur Krankheit beiträgt In der ersten Spalte können wir die Koeffizientenwerte als 0,040 0,871 0,4 -2,73 lesen , und dann können wir diese Werte anstelle von B eins, b2bk, einfügen diese Werte anstelle von Wenn wir das Cypion einsetzen, erhalten wir eine Gleichung wie diese: 1/1 plus Radierung 20,04 zu H, 0,87 zu Geschlecht plus 1,34 zu Raucher minus der Konstante 2,73, 0,87 zu Geschlecht plus 1,34 zu Raucher minus der Konstante 2,73 und dann fahren wir fort erhalten wir eine Gleichung wie diese: 1/1 plus Radierung 20,04 zu H, 0,87 zu Geschlecht plus 1,34 zu Raucher minus der Konstante 2,73, und dann fahren wir fort und berechnen. Damit können wir nun die Wahrscheinlichkeit berechnen , dass eine Person verstorben ist . Wir wollen wissen, wie wahrscheinlich es , dass eine Person im Alter von 55 Jahren, weiblich und Raucher verstorben Wir ersetzen den Wert Alter durch 55, Geschlecht durch Null, weil es sich nicht um einen Mann und eins als Raucher und berechnen Wenn wir diese Berechnung durchführen, beträgt der Wahrscheinlichkeitswert 0,69 Das bedeutet, dass eine 55-jährige Raucherin mit einer Wahrscheinlichkeit von 69% erkrankt 55-jährige Raucherin mit einer Wahrscheinlichkeit von 69% erkrankt Auf der Grundlage dieser Prognose würde nun entschieden werden, ob eine umfassende Untersuchung durchgeführt werden soll oder nicht Das Beispiel ist rein imaginär. In der Realität könnten bestimmte, viele andere Faktoren und verschiedene unabhängige Variablen wie das Gewicht der das Alter der Person und viele weitere Faktoren dazu beitragen, festzustellen, ob die Person krank ist oder nicht Aber jetzt kommen wir zurück zum Tisch. In der Spalte können wir den Koeffizienten der signifikanten Differenz von Null ablesen . Die Nullhypothese lautet Koeffizient in der Grundgesamtheit Null ist. Bei der folgenden Nullhypothese handelt es sich um einen Test. In der Grundgesamtheit ist der Koeffizient Null. Da die Variable kleiner als 0,05 ist, der vorhergesagte Koeffizient einen signifikanten Einfluss In unserem Beispiel sehen wir, dass keiner der Koeffizienten einen signifikanten Einfluss hat , da alle p-Werte größer als 0,05 sind Lassen Sie uns nun das Chancenverhältnis verstehen. Das Chancenverhältnis ist 1,042 0,39 83,81. Das Chancenverhältnis liegt beispielsweise bei 1,04, was bedeutet, dass bei einem Anstieg der Variablen Alter um eine Einheit die Wahrscheinlichkeit, dass eine Person erkranken kann, um eine Person erkranken kann Und wir können sehen, dass das Chancenverhältnis für Raucher sehr hoch ist Damit sind wir am Ende der logistischen Erholung angelangt. Wir sehen uns in der praktischen Sitzung. Bleib dran. Danke. 40. Logistische Regressionspraxis: Wir werden einen Online-Rechner für die Regressionsanalyse verwenden , insbesondere für die logistische Regressionsanalyse insbesondere für die logistische Regressionsanalyse in diesem Video. Ich habe ein separates Video darüber hochgeladen wie Sie diese Analyse mit Excel durchführen können. Fahren wir also mit dem statistischen Online-Rechner fort. Ich kann meine Daten importieren, indem ich auf die Importschaltfläche klicke und Excel-Dateien, SV-Datei oder Daten-Tab-Datei SV-Datei oder Daten-Tab-Datei Ich kann auf Durchsuchen klicken und meine Daten abrufen. Stimmt das? Ich habe also bereits meine Daten geladen, die Sie auf dem Bildschirm sehen können. Ich habe den Raucherstatus, ob eine Person verstorben ist oder nicht, Alter, Geschlecht. Wir können sehen, dass der Datentyp vom statistischen Rechner automatisch identifiziert wurde. Es heißt, das Alter ist eine metrische Variable, das Geschlecht ist nominell und der Raucherstatus ist ebenfalls normal. Die Krankheit ist nominell. Jetzt klicke ich auf Regression und scrolle nach unten. Ich habe also eine gute Anzahl von Fällen. Lass mich einfach nach unten scrollen. Wenn ich auf Regression klicke, kann ich einfache lineare Regression, multilineare Regression und logistische Regulation Was sind meine abhängigen Variablen? Das Alter ist meine abhängige Variable. Das Geschlecht ist eine abhängige Variable. Der Rauchstatus ist eine abhängige Variable. Was möchte ich vorhersagen? Ich möchte vorhersagen, ob die Person krank ist oder nicht. Wähle ich das Richtige aus? Nein. Ich möchte überprüfen, was die abhängige Variable ist? Was ist mein Y? Mein Y ist, ob die Person verstorben ist oder nicht. Und meine unabhängigen Variablen sind Geschlecht und Raucherstatus. Als Referenz für das Geschlecht nehme ich also männlich als eins an. Referenz für den Raucherstatus betrachte ich Raucher als Einzelperson, und das Modell wird vorhergesagt ob die Person erkrankt ist oder nicht Jetzt kann ich auf Zusammenfassung in Worten klicken, und es führt eine korrekte Analyse durch und zeigt sie mir Stimmt das? eine logistische Regreationsanalyse durchgeführt wurde , um den Einfluss von Alter, Geschlecht, Frau und Raucherstatus als Nichtraucher als Variablen zu untersuchen , dass Krankheiten für den Wertverlust vorhergesagt werden, ein logistisches Analysemodell gezeigt hat, dass das Chi-Quadrat für die drei Variablen 8,79 ist ein logistisches Analysemodell gezeigt hat, dass das , der p-Wert 0,32 ist Es zeigt deutlich, dass eine logistische Regreationsanalyse durchgeführt wurde, um den Einfluss von Alter, Geschlecht, Frau und Raucherstatus als Nichtraucher als Variablen zu untersuchen, dass Krankheiten für den Wertverlust vorhergesagt werden, ein logistisches Analysemodell gezeigt hat, dass das Chi-Quadrat für die drei Variablen 8,79 ist, der p-Wert 0,32 ist und die Anzahl der Beobachtungen 36. Der Koeffizient der Variablen p beträgt 0,04 , was positiv ist. Dies bedeutet, dass der Anstieg des Alters mit einer Erhöhung der Wahrscheinlichkeit einer abhängigen variablen Erkrankung einhergeht mit einer Erhöhung der Wahrscheinlichkeit einer abhängigen variablen Erkrankung Der p-Wert beträgt jedoch 0,092, was darauf hindeutet, dass der Einfluss statistisch nicht signifikant ist Das Chancenverhältnis beträgt 1,04, was bedeutet, dass bei einem Anstieg der Variablen acht um eine Einheit die Wahrscheinlichkeit, dass die abhängige Variable abnimmt , um 1,04 zunimmt . Der Koeffizient der Variablen Geschlecht weiblich, B-Wert ist 0,87 negativ Da diese Variable negativ ist, bedeutet dies, dass mit dem Wert der Variablen Geschlecht weiblich die Wahrscheinlichkeit sinkt, dass die abhängige Variable krank wird Der p-Wert von 2,0 bis 0,28 weist jedoch darauf hin , dass der Einfluss statistisch nicht signifikant ist Das Chancenverhältnis liegt bei 0,42, was bedeutet, dass bei der Variablen Geschlecht weiblich die Wahrscheinlichkeit einer abhängigen variablen Erkrankung um das 0,42-fache steigt 0,42-fache Der Koeffizient der Variablen Raucherstatus, p-Wert, ist -1,32, was negativ ist. Das heißt, wenn der Wert der Variablen für den Raucherstatus „Nichtraucher“ lautet, sinkt die Wahrscheinlichkeit, dass die abhängige Variable verstorben ist die . Der p-Wert beträgt jedoch 0,089, was darauf hindeutet, dass der Einfluss statistisch nicht signifikant ist . . Das Chancenverhältnis von 0,26 bedeutet, dass es sich bei der Variablen um einen Raucherstatus handelt. Die Wahrscheinlichkeit, dass die abhängige Variable verstorben ist, steigt bei Nichtrauchern um das Lassen Sie mich nun die Angabe „Nichtraucher“ und die Kategorie „Diese Krankheit und keine Krankheit“ aufgreifen Kategorie „Diese Krankheit und Kommen wir nun zur Zusammenfassung. Wir stellen fest, dass sich die Analyse geringfügig geändert hat. Sie sind jetzt alle negativ geworden. Stimmt? Das Chancenverhältnis hat sich geändert Bei einer Erhöhung des Alters um eine Einheit bedeutet 0,96, dass die Person nicht verstorben sein wird , denn jetzt zielen wir auf nicht verstorbene Personen ab, oder? Sie sollten also vorsichtig sein was Sie als Referenz nehmen Was halten Sie von Ihrer Hypothese, dass männliche Menschen häufiger erkranken? Wenn Sie also das Geschlecht als männlich annehmen, beträgt der B-Wert -0,87 Nun, hier ist mein Ziel nicht erkrankt. Es scheint also, dass die Wahrscheinlichkeit, dass die männliche Person nicht erkrankt ist, um 0,97 sinkt Aber wenn ich mir Krankheiten ansehe, werden Sie feststellen, dass dies jetzt ein positiver Wert ist Raucher ist auch ein positiver Wert. Wir sollten also wissen, welche Zielvariable wir untersuchen wollen Lass uns jetzt runterkommen. Lassen Sie uns die Ergebnisse sehen, und ich habe sogar eine KI-Interpretation, die mir hilft. Die Tabelle fasst die Gesamtleistung des binären logistischen Regressionsmodells Hier lautet die Interpretation, dass Gesamtzahl der Fälle 36 beträgt, was der Gesamtzahl der Beobachtungen entspricht. Die Tabelle fasst die Gesamtleistung des binären Hier entspricht die Interpretation der Gesamtzahl der Fälle von 36. Dies ist die Gesamtzahl der Beobachtungen oder Instanzen, an denen das Modell getestet wurde. In diesem Zusammenhang handelt es sich bei der Anzahl der Personen um Elemente, bei denen das Modell versuchte, das Ergebnis vorherzusagen, unabhängig davon, ob es sich bei der Person um eine Tat handelt oder nicht. korrekte Zuordnung liegt bei 26 von 36 Fällen 26 Fällen hat das Modell das Ergebnis vorhergesagt. Diese korrekte Vorhersage umfasste sowohl echte positive Ergebnisse, bei denen die betroffene Person korrekt identifiziert wurde, als auch echte negative Ergebnisse, bei denen Fälle ohne Krankheit korrekt identifiziert wurden In Prozent 72,22% Dies ist die Genauigkeit des Modells, das besagt , dass die Anzahl der Aufgaben 26 geteilt durch die Gesamtzahl der Fälle 36 beträgt durch die Gesamtzahl der Fälle Ich multipliziere es mit zehn , um den Prozentsatz zu erhalten. Es sagt uns, wie das Modell die richtige Vorhersage macht. Lassen Sie uns nun die Klassifizierungstabelle verstehen. Dort versuchen wir zu klassifizieren. Ich kann die Hilfe der KI-Interpretation in Anspruch nehmen, um es zu verstehen. In der Tabelle ist das Maß für die Güte der Anpassung aus der logistischen Regressionsanalyse Hier sind 11 Fälle, in denen wir richtig vorausgesagt haben, dass sie nicht erkrankt sind, die wahren positiven und wahrhaft negativen sind 11 Fälle, in denen wir richtig vorausgesagt haben, dass sie nicht erkrankt sind richtig vorausgesagt haben, dass Falsch positiv sind fünf Fälle , in denen uns ein Fehler ersten Typs unterlaufen ist Falsch negativ sind fünf Fälle, in denen wir fälschlicherweise vorausgesagt haben, dass sie nicht als Fehler des zweiten Typs erkrankt sind als Fehler des zweiten Typs erkrankt Richtig positive Ergebnisse werden korrekt als erkrankt vorhergesagt. Richtigkeit der Vorhersage. Die korrekte Vorhersage, ob nicht erkrankt ist, liegt bei 68,75%. Die Gesamtzahl der nicht erkrankten Fälle wurde korrekt identifiziert. Richtige Krankheitsvorhersagen, Sensitivität oder, wie wir sagen, 75% der tatsächlichen Krankheitsfälle wurden korrekt identifiziert Die Gesamtgenauigkeit liegt bei 72,22% aller Schutzmaßnahmen, unabhängig davon, ob wir die Krankheit korrekt erkannt haben oder nicht Lassen Sie uns nun den Chi-Quadrat-Test verstehen. Das Schöne an diesem statistischen Rechner ist, dass er Ihnen eine KI-Interpretation ermöglicht. Ich muss dazu nicht zu ChangeP gehen. Die Tabelle zeigt die Ergebnisse des Chi-Quadrat-Tests im Zusammenhang mit dem binären logistischen Regressionsmodell Der Test wird häufig verwendet, um die Gesamtsignifikanz des Modells zu beurteilen Hier die Interpretation der einzelnen Komponenten. Ich habe die Statistik quadriert , wobei die Antwort in unserem Fall 8,79 ist Damit wird der Unterschied zwischen beobachteten und der erwarteten Häufigkeit des Ergebnisses gemessen Je höher der Chi-Quadrat-Wert desto größer ist die Diskrepanz zwischen dem erwarteten und dem beobachteten Wert, was darauf hindeutet, dass die Prädiktoren des Modells eine signifikante Beziehung aufweisen Freiheitsgrade, hier haben wir drei Freiheitsgrade, die die Anzahl der Prädiktoren in der einfachen logistischen Regression darstellen Prädiktoren in der einfachen logistischen Regression P-Wert ist die Wahrscheinlichkeit die Chi-Quadrat-Teststatistik genauso extrem beobachtet wird wie bei der Nullhypothese . Die Nullhypothese besagt , dass kein Zusammenhang zwischen der beobachteten und der erwarteten Häufigkeit des anhand des Volumens vorhergesagten Ergebnisses besteht beobachteten und der erwarteten Häufigkeit . Der P-Wert liegt bei 0,032, was darauf hindeutet, dass die beobachtete Chi-Quadrat-Statistik mit einer Wahrscheinlichkeit von 3,22% extrem ist einer Wahrscheinlichkeit beobachtete Chi-Quadrat-Statistik Und die Nullhypothese war wahr. Der p-Wert liegt um 0,32 unter dem Schwellenwert von 0,05, was darauf hindeutet, dass ein statistisches Signifikanzergebnis vorliegt ein statistisches Signifikanzergebnis Lassen Sie uns nun eine Modellzusammenfassung erstellen. Hier heißt es also, dass die Wahrscheinlichkeit eines Logarithmus minus zwei bei 40,67 liegt. Es misst die Fitness des Modells. Je niedriger der Wert, desto besser passt das Modell zu den Daten. In unserem Fall ist der Wert 40,67, was bedeutet, dass es sich um ein relativ gesättigtes Modell handelt, ein Modell mit perfekter Passform Diese Zahl allein sagt uns nicht viel aus. Daher müssen wir sie mit anderen Zahlen vergleichen. Der quadratische Wert von Cocin-Zelle R ist 0,22. Dies ist ein Pseudo-R-Quadratmaß , das das Ausmaß der Variation in der vorhergesagten Variablen angibt , das durch das Modell erklärt wird. Sie liegt im Bereich von 0 bis 1. Der Wert 0,22 gibt an, dass die Varianz von 22% durch das Modell erklärt wird Es ist jedoch erwähnenswert, dass diese Kennzahl selbst bei einem perfekten Modell niemals einen Wert erreicht Gehen wir zum quadratischen Wert von Nagar K R. Es ist 0,29. Auch hier versuchen wir, das R-Quadrat so einzustellen, dass es eins erreicht Denken Sie jedoch daran , dass 29% der Variation durch dieses Modell erklärt werden. Das bedeutet, dass Sie mehr Variablen einbeziehen müssen , um das Modell besser zu verstehen. Wenn wir uns das ansehen, wir den Modellunterschied. Die fragliche Komponente steht für die verschiedenen Größen, Standardfehler, den Z-Wert, P-Wert, das erwartete Verhältnis und die Zuverlässigkeit von 95%. Lassen Sie uns die Interpretation machen. Das Modell prognostiziert das grundlegende Ergebnis -2,73, wobei der Prädiktor Null ist und das Chancenverhältnis das Chancenverhältnis Dies deutet auf eine geringere Wahrscheinlichkeit eines Ergebnisses hin, wenn sich der Prädiktor auf dem Referenzwert befindet Mit jeder Erhöhung des Alters um eine Einheit steigt die Wahrscheinlichkeit, dass die Person verstorben ist , um 0,04 Das ist ein Anstieg der Gewinnchancen um 4%. Wenn das Geschlecht männlich ist, gibt es einen Anstieg um 0,87%, und so Lassen Sie uns die Vorhersage machen. Wenn die Person 45 Jahre alt ist und die Person männlich ist und die Wahrscheinlichkeit , dass die Person Raucher ist, wie hoch ist die Wahrscheinlichkeit, dass die Person erkrankt? Es gibt 0,81 Ist es mehr als 0,45? 50%? Ja. Es besteht die Wahrscheinlichkeit, dass die Person krank ist Aber wenn die Person eine Frau ist, dann sinkt die Wahrscheinlichkeit Wenn die Person nicht raucht, ist die Wahrscheinlichkeit, dass die Person krank ist, außerdem sehr gering dass die Person krank ist Jetzt sind wir zum nächsten Beispiel übergegangen , in dem wir versuchen zu überprüfen, ob die Person ein Produkt kaufen wird oder Und die Variablen sind Geschlecht, Alter und die Zeit, die sie online verbracht haben. Also werde ich auf Erholungsgleichung klicken. Was ist die abhängige Variable, Geschlecht, Alter und die online verbrachte Zeit und das Kaufverhalten, sind meine abhängige Variable. Es gibt drei Arten von Vorhersagen, dass sie eintreten, und nicht zwei wie beim letzten Mal. Wir müssen jetzt kaufen, später kaufen und nichts kaufen. Referenzkategorie für weibliches Geschlecht, ich nehme es als weiblich und lassen Sie uns zur Zusammenfassung übergehen. Die logistische Regressionsanalyse ergab hier also , dass der Einfluss des Geschlechts männlich, des Alters und der im Internet verbrachten Zeit auf das variable Kaufverhalten im Wert von inzwischen liegt Die logistische Regressionsanalyse zeigt, dass das Modell insgesamt signifikant war zeigt, dass das Modell insgesamt signifikant war. Die Zahl der Beobachtungen beträgt 24. Der Koeffizient, dass die Variable Geschlecht männlich ist, beträgt 1,53, was Dies bedeutet, dass der Wert der Variablen Geschlecht ma, die Wahrscheinlichkeit, dass die Person kauft, steigt Der p-Wert beträgt 0,201, was darauf hinweist, dass der Einfluss statistisch nicht signifikant ist Das Chancenverhältnis liegt bei 4,63, was bedeutet, dass das Geschlecht männlich ist. Die Wahrscheinlichkeit, dass die abhängige Variable abhängig ist, steigt inzwischen um das 4,63-fache Der Koeffizient der Variablen Alter ist p gleich -0,11, Dies bedeutet, dass ein Anstieg des Alters mit einer Verringerung der Wahrscheinlichkeit einhergeht , dass die abhängige Variable Der p-Wert liegt jedoch bei 0,07 was darauf hindeutet, dass der Einfluss statistisch nicht signifikant ist Das Chancenverhältnis liegt bei 0,9 , was bedeutet, dass mit jeder Erhöhung des Alters die Person derzeit nur um das 0,9-fache zunimmt Der Koeffizient der variablen Zeit, die im Online-Shop verbracht wird, liegt bei -0,02, Das bedeutet, je mehr Zeit im Internet verbracht wird, desto geringer ist die Wahrscheinlichkeit, dass sie Der P-Wert ist 0,56 was bedeutet, dass er statistisch nicht signifikant ist, und die online verbrachte Zeit erhöht die Wahrscheinlichkeit um das 0,98-fache 24 Fälle, 17 korrekt vorhergesagt, in Prozent 70. Lassen Sie uns die Analyse durchführen. Also um die Gesamtzahl der Fälle 24, korrekte Zuordnung 17 Prozent 70. Gehen wir nun zur Klassifizierungstabelle. Wir können verstehen, was ein Fehler vom ersten Typ und ein Fehler vom zweiten Typ sind? Richtig negativ Bei 13 Fällen wurde richtig vorhergesagt , dass sie nicht kaufen werden . Falsche positive Ergebnisse sind drei Fälle, was falsch vorhergesagt wurde, da sie jetzt feststehen, aber in Wirklichkeit haben sie nicht gekauft Und falsche Fälle sind, dass vier von ihnen tatsächlich gekauft haben, aber unser Modell sagte , dass sie nicht gekauft haben Vier Fälle wurden jetzt korrekt als Pi vorhergesagt. Die Richtigkeit liegt jetzt bei 82%, Richtigkeit von inzwischen bei 50%, die Gesamtgenauigkeit bei 70%. Wenn Sie sich die Chi-Quadrat-Gleichung ansehen, erhalten wir einen p-Wert von 0,42 Hier ist die Wahrscheinlichkeit eines Chi-Quadrat-Tests als einer der beobachteten Werte der Nullhypothese äußerst wichtig beobachteten Werte der Nullhypothese Die Nullhypothese besagt , dass kein Zusammenhang zwischen der beobachteten und der erwarteten Frequenz und der vom Modell vorhergesagten Leistung besteht. Ein P-Wert von 0,42 liegt unter dieser Konvention von 0,5, was statistisch signifikant Wenn ich mich für das Modell entscheide, können wir sehen, dass die Werte im Quadrat R sehr w sind. Und ich habe den p-Wert. Lassen Sie uns nun eine Vorhersage machen Wenn die Person männlich und 45 Jahre alt ist und die aufgewendete Zeit 2 Wie hoch ist die Wahrscheinlichkeit , dass eine Person kauft? Es besteht keine große Wahrscheinlichkeit. Aber wenn die Person 20 Jahre alt ist, steigt die Wahrscheinlichkeit Wir können also verstehen, dass die Menschen der neuen Generation bereit sind , mehr zu kaufen als die älteren Wenn wir eine 80-jährige Person haben, dann ist die Wahrscheinlichkeit absolut gleich 0,01 Ich hoffe, Sie lernen in diesem Video, wie man logistische Regression durchführt. Oh. 41. ROC-Kurve: D. Lassen Sie uns die ROC-Kurve verstehen Wir haben gerade das Lernen über logistische Regression abgeschlossen. Eine Möglichkeit, die Genauigkeit des Modells zu validieren , ist die Verwendung der ROC-Kurve Lassen Sie uns die Theorie anhand von Beispielen verstehen. ROC steht also für Receiver Operating Characteristics. Es handelt sich um eine grafische Darstellung der Leistung eines binären Klassifikationsmodells, auch als logistisches Regressionsmodell bezeichnet wird, sowie anderer Klassifikationsschwellenwerte Lassen Sie uns das anhand eines Beispiels verstehen. Nehmen wir an, wir führen einen Screening-Test an Patienten durch, um festzustellen, ob der Patient gesund oder krank ist Für diese Einstufung führt der Apotheker einige Blutuntersuchungen durch und entscheidet dann , wer von ihnen erkrankt und wer gesund ist und entscheidet dann , wer von ihnen erkrankt und wer gesund Als sie die Stichprobe von zehn Daten erhielten, haben sie beschlossen, einen Schwellenwert festzulegen, und jeder, der diesen Schwellenwert unterschreitet , wird als gesund und jeder, der den Schwellenwert überschreitet, als krank bezeichnet Nun, wie entscheiden wir, was der Schwellenwert sein sollte? Auf welcher Grundlage können Sie vorhersagen, dass die Zukunft darin besteht, dass der Patient verstorben ist? Nehmen wir an, wir haben eine Stichprobe von zehn Personen mit ihren Blutwerten Wir sehen, dass die meisten erkrankten Menschen einen höheren Blutspiegel haben Und die meisten gesunden Menschen haben niedrigere Blutwerte Also beschließen wir, dass wir einen Schwellenwert von 45 festlegen. Wenn wir also einen Schwellenwert von 45 festlegen, sagen wir, dass wir jeden, der unter 45 ist, als gesund einstufen werden Jeder, der über 45 Jahre alt ist, werden wir als Krankheit einstufen . Jetzt können wir sehen, dass es hier bestimmte Probleme gibt, und lassen Sie uns diese Probleme im Detail verstehen In diesem Fall werden also von sechs Personen, die als Krankheit eingestuft wurden , zwei, vier korrekt als Krankheit eingestuft, aber zwei von ihnen werden fälschlicherweise als Krankheit eingestuft, aber in Wirklichkeit sind sie gesund. Wir haben also vier von sechs Fällen als Krankheit eingestuft, und dies wird als positive Rate bei zwei Fällen bezeichnet. Sie wird auch als Sensitivität bezeichnet. Andererseits haben wir von den vier gesunden Personen eine Person fälschlicherweise als krank eingestuft Eine kranke Person wurde als gesund eingestuft, und wir haben drei gesunde Personen korrekt als gesund eingestuft drei gesunde Personen korrekt als gesund Wenn wir nun eine von vier Personen falsch als gesund einstufen, spricht man von einer Falsch-Positiv-Rate, durch FPR oder durch eins minus Spezifität dargestellt wird FPR oder durch eins minus Spezifität dargestellt wird Bei einem Schwellenwert von 45 erhalten wir eine Wahr-Positiv-Rate von 4/5, also 80% , und eine Falsch-Positiv-Rate von 2/5 als 40% Was genau ist also eine TPR - oder Zwei-Positiv-Rate? Wahre positive Rate ist nichts anderes als wahre positive Quote geteilt durch wahrhaft positive und falsch negative zwei positiven Personen handelt es sich um Personen, die korrekt als Krankheit eingestuft wurden. Wir haben vier von ihnen korrekt als Krankheit eingestuft. Falsch negativ sind Personen, die fälschlicherweise als gesund eingestuft werden Also haben wir bei einer Person einen Fehler gemacht. Also ist die Summe 4/1. Wirklich positiv ist also nichts anderes, vier von ihnen korrekt als krank eingestuft wurden Das Problem bestand jedoch darin, dass von den vier Personen, die korrekt eingestuft wurden, eine der erkrankten Personen übersehen wurde. Der Grund, warum wir die TPR kennen müssen , ist folgender: Wie viel Prozent der Menschen werden ohne Behandlung auskommen Die Spezifität ist sehr wichtig, um zu verstehen , dass es 20% der Bevölkerung gibt , die möglicherweise nicht gut behandelt werden, oder wir klassifizieren 80% der von uns getesteten Population korrekt 80% der von uns getesteten Population Lassen Sie uns FPR verstehen, das ist falsch positiv. Falsch positive Personen sind gesunde Personen, die fälschlicherweise als krank eingestuft werden, und zwei negative Personen sind Personen wurden korrekt als gesund eingestuft. Zwei von ihnen wurden also fälschlicherweise als DCs eingestuft. Also beginnen wir mit der Behandlung, geteilt durch die Gesamtzahl der tatsächlich Gesunden fünf Also die Gesamtzahl der gesunden Menschen geteilt durch die Anzahl der falsch positiven Ergebnisse. Bei 40% der Menschen waren es also 0,4, was der FPR-Rate entspricht. Wie berechnen wir also TPR und FPR für jeden Schwellenwert? Sollte ich den Schwellenwert auf 38 setzen? Sollte ich den Schwellenwert auf 65 setzen und so weiter. In diesem Fall berechnen wir also den TPR und den FPR für jeden der Schwellenwerte Wenn ich diesen Wert auf Null setze, steigt meine wahre positive Rate, aber meine Falsch-Positiv-Rate ist fast Das sind also genau die beiden Werte , die auf der ROC-Kurve dargestellt Die wahre positive Rate ist auf der Y-Achse und die falsch positive Rate auf der X-Achse aufgetragen Wir möchten entscheiden, dass bei einem Wert von 0,240 0,2 unsere Falsch-Positiv-Rate hier ist, die wahre positive Rate jedoch steigt, und zwar in ähnlicher Weise bei 0,4, 0,6, 0,8 und Lassen Sie uns nun die komplette ROC-Kurve für unser Beispiel zeichnen. Wenn wir den Schwellenwert sehr klein wählen , also ganz nach links schieben, klassifizieren wir alle fünf erkrankten Personen korrekt Aber wir klassifizieren auch alle fünf gesunden Personen falsch alle fünf gesunden Personen Die tatsächliche positive Rate liegt also bei fünf von fünf, also eins Auf die gleiche Weise haben wir jedoch fünf gesunde Personen fälschlicherweise als krank eingestuft Die Falsch-Positiv-Rate liegt also bei fünf von fünf, das ist wieder eins. Aus diesem Grund liegt der erste Datenpunkt bei einem Punkt eins. wir also den Schwellenwert überschreiten, werden wir immer noch korrekt klassifizieren, wenn ich bei 0,2 liege Ich klassifiziere immer noch alle fünf Personen korrekt als krank, aber ich klassifiziere vier der gesunden Personen Jetzt komme ich zum nächsten Datenpunkt. Wenn ich also 0,8 als Schwellenwert nehme, liegt meine tatsächliche positive Quote bei fünf von fünf Ich habe also alle Verstorbenen korrekt als verstorben eingestuft . Aber von fünf gesunden Personen haben wir jetzt nur vier von fünf falsch klassifiziert Somit liege ich bei der Falsch-Positiv-Rate bei 0,8 Für den nächsten Schwellenwert, wo wir eine positive Rate von 0,1 haben, liegen wir bei 0,3, und wir stellen fest, dass wir alle fünf Personen korrekt als krank eingestuft haben , meine gesunden Personen jedoch Das wird also mein dritter Datenpunkt sein. Fünf kranke Personen sind korrekt klassifiziert. Falsch-Positiv-Rate liegt bei drei von fünf Fällen, die fälschlicherweise als Krankheit eingestuft wurden , also 0,6 Beim nächsten Schwellenwert wird die erkrankte Person zum ersten Mal fälschlicherweise als gesund eingestuft Das ist der Schwellenwert. Das ist der Ort, an dem die kranke Person fälschlicherweise als gesund eingestuft wird Und daher sehen wir einen Rückgang der tatsächlichen positiven Rate von Die wahre positive Rate liegt bei vier von fünf, also 0,8, und die Falsch-Positiv-Rate liegt bei drei von fünf, also 0,6 Das können wir jetzt für alle anderen Schwellenwerte tun, und entsprechend entwerfen wir unsere ROC-Kurve Zu diesem Zeitpunkt wurden beispielsweise 80% der DAS-Personen 80% der DAS-Personen korrekt als Krankheit eingestuft, 20% der gesunden Personen wurden fälschlicherweise als Krankheit eingestuft Anhand der ROC-Kurve können wir verschiedene Klassifizierungsmethoden vergleichen Klassifikationsmodelle sind besser je höher die Kurve ist Daher ist das Klassifikationsmodell umso besser, je größer die Fläche unter der Kurve ist. Mithilfe der ROC-Kurve können wir verschiedene Klassifizierungsmethoden vergleichen, und genau die Fläche spiegelt sich im Wert der AUC-Fläche unter der Kurve Die Fläche unter der Kurve wird bei der Bewertung des linearen Regressionsmodells verwendet bei der Bewertung des linearen Regressionsmodells Der AUC-Wert variiert zwischen 0 und 1. Je größer der Wert, desto besser das Modell. Was ist mit der ROC-Kurve und der logistischen Regression? Zum Beispiel könnten wir mithilfe der logistischen Regression ein neues Klassifikationsmodell erstellen Regression ein neues Klassifikationsmodell erstellen Hier könnten wir die zusätzlichen Werte wie Blutwert, Alter und Geschlecht der einzelnen Personen verwenden die zusätzlichen Werte wie Blutwert, Alter und versuchen, vorherzusagen, ob die Person gesund oder krank ist Lassen Sie uns weitermachen, was die ROC-Kurve und die logistische Regression angeht Bei einer logistischen Regression gibt der geschätzte Wert dann an, wie wahrscheinlich es ist , dass eine bestimmte Person verstorben ist Sehr oft geben 50% von ihnen einfach als Schwellenwert an, ob eine Person verstorben ist oder nicht Aber das ist natürlich nicht das, woran wir denken Sie können also nicht immer den Schwellenwert von 50% annehmen. Deshalb erstellen wir trotz der logistischen Vorschriften die ROC-Kurve für verschiedene Schwellenwerte und schauen, auf welcher Ebene wir die maximale Fläche haben Wie kann ich die ROC-Kurve also online abrufen? Lassen Sie uns jetzt verstehen, wie ich diese ROC-Berechnung anhand der Daten durchführen kann diese ROC-Berechnung anhand der Daten Also habe ich einige Datenwerte für mehr als 40, fast 40 Personen, mit unterschiedlichen Blutwerten und unabhängig davon, unterschiedlichen Blutwerten und ob die Person krank ist oder nicht Also kann ich mich entweder für mein Befreiungsmodell entscheiden und sagen, dass ich die Variable als krank angeben möchte Der Status der Variablen ist ja oder nein, und ich möchte die Testvariable als Blutwert verwenden Wir erhalten also sofort den ROC, und der ROC zeigt an, auf welchem Niveau Spezifität Sensitivität ist nichts anderes als meine wahre positive Rate. Wie viele dieser kranken Menschen habe ich richtig klassifiziert? Spezifität hingegen ist, wie viele von ihnen oder wie viele gesunde Menschen fälschlicherweise als krank eingestuft wurden Und wir wollen, dass es sie gibt. Kranke Menschen sind 19 Jahre alt, nicht krank sind 22, und positiv ist größer als gleich eins, die Sensitivität ist eins und mir werden alle Daten angezeigt. Wir können einige Beispieldaten verlieren. Und das tue ich. Ich kann das auch unter meinem Korrelationsmodell finden. Also gehe ich zur Regulierung über und sage, dass meine abhängige Variable verstorben ist und der Blutwert meine unabhängige Variable ist. Die Zusammenfassung in Worten, ob die logistische Regulierungsanalyse durchgeführt wurde, um zu untersuchen, ob der Blutwert einer Variablen den Wert nicht vorhersagen lässt, lautet ja Analyse der logistischen Erholung zeigt, dass der Chi-Quadrat-Wert 5,23 und der P-Wert 0,02 beträgt P-Wert Das bedeutet, dass Blut vorhersagen kann , dass der Blutspiegel keinen Einfluss auf die Krankheit Wir lehnen die Nullhypothese ab , weil der p-Wert lo ist. Der Kozient des Blutwerts B ist 0,03, was Das bedeutet, dass der Anstieg des Blutwerts mit der Erhöhung der Wahrscheinlichkeit für die abhängige Variable mit Ja einhergeht mit der Erhöhung der Wahrscheinlichkeit für die abhängige Variable mit Ja einhergeht Wahrscheinlichkeit für die abhängige Variable mit Ja Der p-Wert von 0,32 gibt an, dass der Einfluss statistisch signifikant ist Das ungerade Verhältnis ist 1,03, was bedeutet, dass eine Erhöhung des Blutwerts um eine Einheit die Wahrscheinlichkeit, dass die abhängige Variable „Ja“ ausfällt, um das 0,13-fache Wenn wir also die logistische Regression erstellen, können wir sehen, dass wir gerade die Zusammenfassung gelesen haben , dass der p-Wert 0,03 beträgt , was darauf hindeutet, dass der Blutwert für den erkrankten Menschen von Bedeutung ist Blutwert für den erkrankten Menschen von Bedeutung Die Tabelle fasst zusammen, dass von den 41 Fällen, die bei der Erstellung des Modells untersucht wurden , in diesem Zusammenhang die Anzahl der Personen beobachtet wurde, die entweder als krank oder gesund vorhergesagt wurden 28 von 41 Fällen wurden korrekt eingestuft, erkrankte Personen wurden als krank und gesunde Personen als gesund eingestuft und gesunde Personen als gesund Der Prozentsatz beträgt 68,29. Es gibt die Gesamtzahl der Personen an, die korrekt klassifiziert wurden, durch 28 geteilt, und dann mit 100 multipliziert, um einen Prozentsatz zu erhalten Wenn ich Ihnen sage, wie oft das Modell die richtige Vorhersage macht, ob es sich bei der Vorhersage um das Vorhandensein oder Fehlen von S handelt so können wir sehen, dass daraus eine Klassifikationstabelle entsteht Menschen, die tatsächlich nicht erkrankt sind und korrekt als nicht erkrankt vorhergesagt wurden, Menschen, die erkrankt sind und als nicht erkrankt vorausgesagt Diese Acht sind mein Anliegen. Warum? Weil dies die Menschen sind, die sich nicht behandeln lassen werden. Und fünf von ihnen wurden als krank eingestuft, obwohl sie in Wirklichkeit nicht litten Also werden wir dann das ROC-Modell erstellen, und das ROC ist derzeit das AOC, A unter der Kurve liegt A unter der Je höher die Kurve, desto besser das Modell. Von 41 Fällen wurde in 28 Fällen die richtige Zuordnung und in 13 Fällen die falsche Zuordnung vorgenommen. Somit wurden 68% der Personen korrekt klassifiziert. Lassen Sie uns nun eine KI-Interpretation durchführen. Die KI-Interpretation besagt ganz klar , dass das Modell zwei logarithmische Wahrscheinlichkeiten hat. Je niedriger der Wert, desto besser das Modell. Hier ist der Wert 51,39, was bedeutet, dass das Modell relativ gesättigt ist, also ein Modell mit perfekter Passform Die Zahl allein sagt nicht viel aus. Wir müssen es mit anderen Modellen vergleichen. Lassen Sie uns nun die Interpretation des Modells vornehmen. Die Tabelle zeigt , dass wir eine binäre logistische Rekursionsanalyse durchgeführt haben , bei der untersucht wurde, wie Prädiktoren die Wahrscheinlichkeit eines bestimmten Ergebnisses beeinflussen Komponenten, Cefion B. Dies stellt den Effekt der einzelnen Prädiktoren dar Ein positiver Kozient erhöht die wahrscheinliche oder logarithmische Wahrscheinlichkeit des Ergebnisses, und ein negativer und Standardfehler. Damit wird die Standardabweichung der geschätzten Kohäsion gemessen, d. h. relativ, wie genau das Modell den Kohäsionswert schätzt Der Z-Wert. Dies ist der Z-Score als Koeffizient geteilt durch den Standardfehler berechnet wird. Er wird verwendet, um die Nullhypothese zu testen , dass der Koeffizient Null ist. Der P-Wert gibt die Wahrscheinlichkeit an, dass die Daten oder etwas Extremeres beobachtet Wenn die Nullhypothese wahr ist, deutet der niedrigere Wert für P und Wort darauf hin, dass der P-Wert die Wahrscheinlichkeit angibt die Daten oder etwas Extremeres beobachtet werden. Wenn die Nullhypothese wahr ist, deutet der niedrigere p-Wert darauf hin, dass die Nullhypothese, dass keine Wirkung vorliegt, weniger wahrscheinlich ist. Interpretation. Das Modell prognostiziert die logarithmische Wahrscheinlichkeit der Basislinie mit -1,31, da alle Prädiktoren Das ungerade Verhältnis ist 0,27, was darauf hindeutet, dass die Wahrscheinlichkeit des Ergebnisses geringer wenn alle Prädiktoren den Referenzwert Blutwert, der um drei steigt. Lassen Sie uns jetzt die Vorhersage machen. Wenn mein Blutwert 85 ist, besteht eine Wahrscheinlichkeit von 75% , dass ich leide. Ich werde auch die ROC-Kurve sehen. Der ROC, die Fläche unter der Kurve, beträgt 0,699. Sie, Psst 42. Die nicht normalen Daten verstehen: Unsere Normalität oder nicht. Lassen Sie uns versuchen zu verstehen, wie wir arbeiten, wenn meine Daten nicht normal sind? Oder noch bevor ich dort ankomme, möchte ich Ihnen diesen Herrn vorstellen. Irgendwelche Vermutungen? Wer ist der Gentleman? Sie können in das Chatfenster tippen, wenn Sie wissen. Und selbst wenn Sie es nicht wissen, ist das völlig in Ordnung. Für falsche Vermutungen gibt es keine Strafpunkte. Ja. Einige von Ihnen haben es richtig erraten? Er ist die berühmte Person hinter unserer Normalverteilung. Herr Carl cos. Er ist der große Mathematiker. Und er war die Person, die das Konzept der Gaußschen Verteilung oder der Normalverteilung entwickelt hat. Hier ist also das Gehirn hinter dem Konzept der Normalverteilung und all den parametrischen Tests , die wir durchführen. Wenn meine Daten nicht normal sind, können sie verzerrt sein. Es könnte negativ oder positiv verzerrt sein. Wenn ich negativ schief sage, bedeutet das, es technisch gesehen einen Schwanz auf der linken Seite hat. Positiv schief bedeutet, dass sich der Schwanz auf der rechten Seite befindet. Das bedeutet, dass sich meine Daten nicht normal verhalten. Meine Daten können nicht normal sein, weil sie einer Gleichverteilung oder einer flachen Verteilung wie dieser folgen . Dann folgt es auch nicht der Normalverteilung. Meine Daten können mehrere Peaks haben, etwa so, was bedeutet, dass mein Datensatz mehrere Datengruppen enthält. Und es ist kein normales Verhalten. Weil meine Daten all diese Dinge enthalten. Ich muss diese Daten anders behandeln , wenn ich meinen Hypothesentest durchführe. Und warum sind diese Daten nicht normal? Dies könnte am Vorhandensein einiger Ausreißer liegen. Es könnte an der Schiefheit meiner Daten liegen, oder es könnte an der Kurtose liegen, die in den Daten vorhanden ist. Der Grund dafür, dass sich Ihre Daten nicht normal verhalten, könnte also einer dieser Gründe sein. Lassen Sie uns zusammenfassen, was haben wir gelernt? Meine Daten sind nicht normal, wenn die Verteilung schief, unimodal ist, sie ist nicht unimodal, sondern tatsächlich diese bimodale oder multimodale Verteilung. Es handelt sich um eine Heavy-Tail-Verteilung , die Ausreißer enthält. Oder es könnte eine flache Verteilung wie eine Gleichverteilung sein. Dies sind einige grundlegende Gründe, warum sich meine Daten nicht normal verhalten. Seltsamerweise handelt es sich nicht um eine Normalverteilung, dann gibt es mehrere Verteilungen. Es gibt auch andere Verteilungen, bei denen von der Exponentialverteilung die Rede ist, die die Zeit zwischen den Ereignissen modelliert. Die logarithmische Normalverteilung. Das heißt, wenn ich den Logarithmus auf die Daten anwende, folgen meine Daten einer Normalverteilung. Poisson-Verteilung, Binomialverteilung, Multinomialverteilung. Lassen Sie uns einige Beispiele verstehen, reale Szenarien, in denen die nichtnormalen Verteilungen angewendet werden können. Wenn Sie sich das ansehen, wann immer ich versuche, etwas über ein festes Zeitintervall vorherzusagen . Dann verwende ich die Poisson-Verteilung für meine Analyse und Hypothese. Einige Beispiele für die Poisson-Verteilung oder die Anzahl der im Call Center eingegangenen Kundendienstanrufe. Die Anzahl der Patienten, die an einem bestimmten Tag in die Notaufnahme eines Krankenhauses kommen, die Anzahl der Anfragen für einen bestimmten Artikel in einem Online-Shop an einem bestimmten Tag. Die Anzahl der Pakete, die von der Lieferfirma an einem bestimmten Tag geliefert wurden, die Anzahl der defekten Artikel von einem Produktionsunternehmen an einem bestimmten Tag hergestellt wurden. Wenn Sie beobachten, gibt es hier ein übliches Verhalten. Wann immer wir versuchen, etwas in einem bestimmten Zeitraum zu verstehen , könnte es ein bestimmter Tag sein, es könnte ein bestimmter Monat sein, ein gegebenes B. Dann ziehen wir es vor, Dann ziehen wir unsere Analyse mit der Poisson-Verteilung durchzuführen. Einige Beispiele für die logarithmische Normalverteilung. Die Größe der aus dem Internet heruntergeladenen Dateien, die Größe der Partikel in einer Sedimentprobe, die Höhe des Baums, die Höhe der finanziellen Erträge, die Größe des Versicherungsspiels. Wenn Sie sich diese Beispiele ansehen, wenn ich zum Beispiel die finanziellen Renditen ihrer Investitionen nehme , Sie vielleicht feststellen, dass mir einige Investitionen aus meinem Anlageportfolio eine sehr gute Rendite von 100%, 100%, 150 Prozent, 80 Prozent eingebracht haben. Und Sie werden auch sehen, dass ich in einen Teil meines Portfolios investiert habe in einen Teil meines Portfolios investiert , weil dies zu einer Nullrendite oder einer negativen Rendite geführt hat, weil ich verloren habe. Insgesamt bietet mir mein Portfolio jedoch eine Rendite von 12 bis 15 bis 15 Prozent oder 15 bis 20 Prozent. Sie versuchen zu sagen, dass Ihre Verteilung technisch gesehen keine Normalverteilung ist . Sie haben sehr niedrige Renditen und sehr hohe Renditen. Wenn Sie den Logarithmus jedoch auf Ihre Daten anwenden, verhält er sich wie eine Normalverteilung, sodass Ihr Portfolio insgesamt zu einer Rendite von etwa X Prozent führt . Ähnliches gilt auch für den Versicherungsanspruch. Versuchen wir, die Anwendung der Exponentialverteilung zu verstehen . Die Zeit zwischen der Ankunft von Kunden in der Warteschlange, die Zeit zwischen Ausfällen an einer Maschine, Ihrer Fabrik, die Zeit zwischen Einkäufen im Einzelhandelsgeschäft, Die Zeit zwischen Telefonanrufen und dem Contact Center, die Zeit zwischen Seitenaufrufen auf der Website. Wenn Sie nun zwischen der Poisson-Verteilung und der Exponentialverteilung sehen der Poisson-Verteilung und , gibt es ein gemeinsames Element. Was ist das gemeinsame Element? Wir versuchen, mit Bezug auf die Zeit zu lernen. Wann immer Sie eine Normalverteilung durchführen, bezieht sie sich nicht auf die Zeit. Stimmt es? Das sind also einige Anwendungen. Aber der Unterschied zwischen einem Gift und einer Exponentialverteilung liegt in einer Poisson-Verteilung. Es ist an einem bestimmten Tag, an einem bestimmten Tag, an einer bestimmten Woche sind bestimmte Monate. Hier versuchen wir, die Zeit zwischen den beiden Ereignissen zu verstehen . Was ist eine Zeitlücke zwischen den beiden Ereignissen? Dann kann Ihnen die Exponentialverteilung weiterhelfen. Wir können, lassen Sie uns die Anwendung einer gleichmäßigen Verteilung verstehen , wie zum Beispiel die Größe des Schülers in der Klasse. Bedarf an Paketen in einem Lieferwagen. Manche Pakete sind sehr groß, manche Pakete sind klein. Wenn Sie es in eine Distribution packen, werden Sie auch feststellen, dass es sich um eine flache Distribution oder eine einheitliche Distribution handelt, da Sie für jede Kategorie von Paketen ungefähr die gleiche Anzahl von Paketen haben werden . Waren, die Sie liefern. Die Verteilung der Testergebnisse für eine Multiple-Choice-Prüfung. Die Verteilung der Wartezeit an einer Ampel, die Verteilung der Ankunftszeit eines Kunden in einem Einzelhandelsgeschäft. Wenn Sie also all diese Beispiele nach einer gleichmäßigen Verteilung sehen , handelt es sich nicht um eine Glockenkurve. Weil Sie ständig Leute haben , die im Einzelhandelsgeschäft ankommen. Es ist nicht so, dass es einen plötzlichen Höhepunkt gibt. Und die realen Szenarien eines starken Vertriebs sind der Vertrieb, bei dem die Ausreißer vorhanden sind, die Anzeichen eines finanziellen Verlusts und einer Versicherungsbranche oder andere Anzeichen eines finanziellen Verlusts. Wenn ein paar einen Händler fragen, würden sie diese extrem hohe und eine extrem niedrige Zahl sehen . Die Größe der extremen Regenfälle. Wir haben also nicht jedes Jahr extreme Regenfälle. Wir könnten also nicht sagen , dass alles, was passiert ist, auf einen Ausreißer zurückzuführen ist. Und der starke Vertrieb wird in der Regel durch das Vorhandensein von Ausreißern beeinträchtigt. Wenn Ihre Daten also Ausreißer aufweisen, können Sie auch sehen , dass es sich bei der Lastverteilung um eine starke Verteilung handelt. Und wir werden in der nächsten Sitzung verstehen, welche Art von nichtparametrischen Tests ich durchführen sollte? Abhängig von der Art der nicht normalen Daten , mit denen wir beginnen. Die Größe des Stromverbrauchs, die Größe der wirtschaftlichen Schwankungen des Börsencrashs. Dies sind alles Beispiele für Ihren heftigen Vertrieb. Beispiele für bimodale Daten. Hier müssen Sie verstehen, bimodal bedeutet, dass es zwei Ergebnisse gibt , die wir zu untersuchen versuchen. Die Verteilung der Prüfungsergebnisse von Studierenden, die studiert haben, und von Studierenden, die nicht studiert haben. Altersverteilung der Personen in einer Population, die aus zwei verschiedenen Altersgruppen stammt, Größe zweier verschiedener Arten, Gehaltsverteilung der Mitarbeiter aus zwei verschiedenen Abteilungen. Viel Glück auf einer Autobahn mit zwei Gruppen langsamer und schneller Fahrer. Hier können Sie also sehen , dass ich zwei Gruppen von Daten habe , die unterschiedlich sind. Und ich versuche, das Verhalten zu verstehen , bevor ich meine Untersuchung als Teil meiner Hypothese oder der Ressource , die ich versuche, durchzuführen. Wenn ich mehr als zwei Gruppen habe, zwei verschiedene, mehr als zwei verschiedene Gruppen, drei verschiedene Gruppen für verschiedene Gruppen, dann wird es eine multimodale Verteilung. Stimmt es? Ich denke also, Sie hätten inzwischen eine Vorstellung davon bekommen , was die verschiedenen Verteilungen sind, die keine Normalverteilungen sind. Wie stelle ich fest, ob meine Daten nicht normal sind? Der erste Punkt, der uns in den Sinn kommt, ist ein Normalitätstest. Aber noch bevor Sie einen Normalitätstest durchführen, können Sie mit einfachen grafischen Methoden herausfinden, ob Ihre Daten normal sind oder nicht. Sie können ein Histogramm verwenden. Und hier zeigt das Histogramm deutlich mehrere Züge. Ich kann also deutlich sehen, dass dies keine Normalverteilung ist. Wenn ich versuchen würde, eine passende Linie zu ziehen, kann ich auch sehen, dass meine Daten schief sind. Ich kann auch Boxplot verwenden, um festzustellen, ob meine Daten nicht normal sind. Hier können Sie also sehen, dass ich auf der linken Seite einen schweren Schwanz habe , der darauf hinweist, dass meine Daten verzerrt sind. Ich kann auch Ausreißer haben, die ein Boxplot leicht hervorheben kann. So kann ich mich verstecken und die starke Verteilung anhand des Boxplots identifizieren . Ebenfalls. Ich kann einfache deskriptive Statistiken verwenden , in denen ich die Zahlen des mittleren Medianmodus sehen kann. Und wenn ich sehe, dass sich diese Zahlen nicht überschneiden oder nicht nahe beieinander liegen , bedeutet das auch einfach, dass meine Daten nicht normal sind. Ich kann mir die Kurtose und die Schiefheit meiner Datenverteilung ansehen Schiefheit meiner Datenverteilung und dann zu dem Schluss kommen, ob sich meine Daten normal verhalten oder nicht. Deshalb habe ich Ihnen andere Möglichkeiten gezeigt , um festzustellen, ob Ihre Daten Normalverteilung folgen und nicht , oder ob Ihre Daten einer Normalverteilung folgen. Jetzt würde ich noch eine Sache sagen. Bring dich nicht um, wenn dein Mittelwert 23,78 und der Median 24 ist und der Modus 24,2 oder 24 wäre. Wenn es also zu einer leichten Deflation kommt, halten wir dies immer noch für normal. Stimmt es? Eine Neigung nahe Null ist ein Hinweis darauf, dass meine Daten normal sind. Aber wenn meine Schieflage über minus zwei oder plus zwei liegt, ist das definitiv unser Beweis dafür, dass wir keine Normalität haben. Ketose ist auch eine weitere Methode festzustellen, ob meine Daten der Normalverteilung folgen. Meistens bevorzugen wir die Kurtosis-Zahl zwischen 0 und 3 liegt. Aber wenn Ihre Ketose negativ ist, bedeutet das, dass es sich um eine flache Kurve handelt. Audits folgen einer einheitlichen Verteilung. Audit könnte eine starke Verteilung hoher Kurtosis sein, könnte auch ein Hinweis darauf sein , dass Ihre Daten zu perfekt sind. Und vielleicht müssen Sie untersuchen, ob sie Ihre Daten vor der Übergabe nicht manipuliert haben . Ein weiterer beliebter AdText- oder Anderson-Darling-Test, bei dem wir versuchen zu verstehen, ob meine Daten normal sind oder nicht. Die grundlegende Nullhypothese ist also, wenn ich einen NAT-Test mache, dass meine Daten einer Normalverteilung folgen. Dies ist also der einzige Test, bei dem ich möchte , dass mein p-Wert größer als 0,05 ist. Ich lehne die Nullhypothese nicht ab und komme zu dem Schluss, dass meine Daten normal sind, und ich greife auf meinen bevorzugten parametrischen Test zurück, mir die Analyse erleichtert. Aber was ist, wenn Ihre Daten und Ihre Datenanalyse während des ADA-Tests Ihre Daten und Ihre Datenanalyse zeigen, dass der p-Wert signifikant ist, dass er kleiner als 0,05 ist, vielleicht 0,02 ist. Dann kommt es zu dem Schluss, dass meine Daten keine Normalverteilung sind. Und ich muss untersuchen, welche Art von Nichtnormalität es hat. Dementsprechend muss ich den Test machen und dann weitermachen. Wir werden unsere Sitzung am nächsten Tag in Venedig fortsetzen. Ich hoffe es hat dir gefallen. Wenn Sie Fragen haben, gerne im WhatsApp - oder Telegram-Kanal oder im Kommentarbereich - oder Telegram-Kanal hier kommentieren. Jedes Thema, das Sie im Rahmen der Sitzung am Mittwoch lernen möchten . Ich würde mich freuen , das zu prüfen. Wenn Sie diese Kommentare in das Chat-Feld, in die WhatsApp-Gruppe oder das Telegramm einfügen können. Ich liebe es wirklich, dich zu unterrichten, und ich danke dir, dass du wunderbar bist. Studierende. Pass auf dich auf. 43. Kruskal Wallis-Test mit 3 oder mehr Gruppen nicht-normalen Daten: In diesem Tutorial geht es um den Crus-Walus-Test. Wenn Sie wissen möchten, was der Crus-C-Walus-Test ist und wie er berechnet und interpretiert werden kann Am Ende dieses Videos sind Sie am richtigen Ort. Ich zeige Ihnen, wie Sie den Walus-Test ganz einfach online berechnen können den Walus-Test ganz einfach online berechnen Und wir fangen sofort an. Der Crus-Walus-Test ist ein Hypothesentest, der verwendet wird, wenn Sie testen möchten, ob es einen Unterschied zwischen mehreren unabhängigen Gruppen gibt einen Unterschied zwischen mehreren unabhängigen Jetzt wundern Sie sich vielleicht ein wenig und sagen: Hey, wenn es mehrere unabhängige Gruppen gibt, verwende ich eine Varianzanalyse Das ist richtig. Aber wenn Ihre Daten nicht normalverteilt sind und die Annahmen für die Varianzanalyse nicht erfüllt sind Der Wus-Test wird verwendet. Der Wace-Test ist das nichtparametrische Gegenstück zur Einzelfaktorvarianzanalyse Ich werde dir jetzt zeigen, was das bedeutet. Es gibt einen wichtigen Unterschied zwischen den beiden Tests. Die Analyse von Varianztests, falls es einen Unterschied in den Mittelwerten gibt Wenn wir also unsere Gruppen haben, berechnen wir den Mittelwert der Gruppen und prüfen, ob alle Mittelwerte gleich sind Wenn wir uns dagegen den Crus-C-Wals-Test ansehen, prüfen wir nicht, ob die Mittelwerte gleich sind Wir prüfen, ob die Rangsummen aller Gruppen gleich sind. Was bedeutet das? Was ist nun ein Rang? Und was ist eine Rangsumme im klassischen ALS-Test? Wir verwenden nicht die tatsächlichen Messwerte, sondern wir sortieren alle Personen nach Größe, und dann erhält die Person mit dem kleinsten Wert den neuen Wert oder Rang eins. Die Person mit dem zweitkleinsten Wert erhält Rang zwei. Die Person mit dem drittkleinsten Wert erhält Rang drei usw. und so weiter und so weiter vierten Platz, bis jeder Person ein Rang zugewiesen wurde. Jetzt haben wir jeder Person einen Rang zugewiesen, und dann können wir einfach die Ränge aus der ersten Gruppe zusammenzählen. Addieren Sie die Ränge aus der zweiten Gruppe und addieren Sie die Ränge aus der dritten Gruppe. In diesem Fall erhalten wir eine Rangsumme von 54 für die erste Gruppe. 70 für die zweite Gruppe und 47 für die dritte Gruppe. Der große Vorteil besteht darin , dass, wenn wir nicht den Hauptunterschied, sondern die Rangsumme betrachten, die Daten nicht normalverteilt sein müssen , wenn wir den Kreuzwarstest verwenden. Unsere Daten müssen keiner Verteilungsform entsprechen und müssen daher auch nicht normalverteilt sein Beispiele für den Rusk-Wallace-Test für den Rusk-Walus-Test Natürlich können dieselben Beispiele wie für die Einfaktorvarianzanalyse verwendet werden , allerdings mit dem Zusatz, dass die Daten nicht normalverteilt sein müssen Medizinisches Beispiel. Für ein Pharmaunternehmen möchten Sie testen, ob ein Medikament XY einen Einfluss auf das Körpergewicht hat. Dazu wird das Medikament 20 Probanden verabreicht. T-Testpersonen erhalten ein Placebo und 20 Testpersonen erhalten kein Medikament oder Placebo Zielsetzung: Feststellen, ob Medikament XY im Vergleich zu Placebo- und Kontrollgruppen einen statistisch signifikanten Effekt auf das Körpergewicht hat einen statistisch signifikanten Effekt auf im Vergleich zu Placebo- und Kontrollgruppen einen statistisch signifikanten Effekt auf das Körpergewicht Beispiel aus der Sozialwissenschaft. Unterscheiden sich drei Altersgruppen? In Bezug auf den täglichen Fernsehkonsum, Forschungsfrage und Hypothese. Die Forschungsfrage für den Ruskal lautete vielleicht Test. Gibt es einen Unterschied in der zentralen Tendenz mehrerer unabhängiger Stichproben? Diese Frage führt zur Null- und Alternativhypothese. Keine Hypothese. Die unabhängigen Stichproben weisen alle dieselbe zentrale Tendenz und stammen daher aus derselben Grundgesamtheit. Alternative Hypothese: Mindestens eine der unabhängigen Stichproben weist nicht dieselbe zentrale Tendenz auf wie die anderen Stichproben und stammt daher aus einer anderen Grundgesamtheit Bevor wir besprechen, wie der Crus-Kull berechnet wird, machen Sie sich keine Sorgen Es ist wirklich nicht kompliziert. Wir schauen uns zunächst die Annahmen an. Annahmen. Wann verwenden wir den Crus C Walus-Test? Wir verwenden den Crus-Walus-Test wenn wir eine nominale oder ordinale Variable mit mehr als zwei Werten haben mit mehr als Und eine metrische Variable, eine nominale oder ordinale Variable mit mehr als zwei Werten, ist zum Beispiel die Variable, bevorzugte Zeitung, mit den Werten Washington Post, New York Times, Es könnte sich auch um die Häufigkeit handeln, mit der täglich mehrmals pro Woche Fernsehen geschaut Wirklich nie ist eine metrische Variable beispielsweise das Gehalt, das Wohlbefinden, Wohlbefinden oder das Gewicht von Personen. Was sind jetzt die Annahmen? nur mehrere unabhängige Zufallsstichproben mit zumindest normal skalierten Merkmalen verfügbar sein Die Variablen müssen keiner Verteilungskurve entsprechen Die Nullhypothese ist also, dass die unabhängigen Stichproben alle dieselbe zentrale Tendenz aufweisen. Und stammen daher aus derselben Population oder mit anderen Worten. Es gibt keinen Unterschied in den Rangsummen, und die alternative Hypothese könnte sein, dass mindestens eine der unabhängigen Stichproben nicht dieselbe zentrale Tendenz aufweist wie die anderen Stichproben und daher aus einer anderen Population stammt. Oder um es noch einmal mit anderen Worten zu sagen. Mindestens eine Gruppe unterscheidet sich in ihren Rangsummen. Die nächste Frage ist also, wie berechnet man einen Zwieback? Wallace-Test Es ist nicht schwer. Nehmen wir an, Sie haben die Reaktionszeit von drei Gruppen gemessen. Gruppe A in Gruppe C, und jetzt möchten Sie wissen, ob es einen Unterschied zwischen den Gruppen in Bezug auf die Reaktionszeit gibt. Nehmen wir an, Sie haben die gemessene Reaktionszeit in einer Tabelle notiert . Gehen wir einfach davon aus, dass die Daten nicht normalverteilt und Sie daher den Crus-K-Was-Test verwenden müssen Dann lautet unsere Nullhypothese, dass es keinen Unterschied zwischen den Gruppen gibt, und das werden wir jetzt testen Zuerst weisen wir jeder Person einen Rang zu. Das ist der kleinste Wert. Diese Person bekommt also Rang eins. Das ist der zweitkleinste Wert. Diese Person bekommt also Rang zwei, und das machen wir jetzt für alle Leute. Wenn die Gruppen keinen Einfluss auf die Reaktionszeit haben, sollten die Ränge eigentlich rein zufällig verteilt werden. Im zweiten Schritt berechnen wir nun die Rangsumme und die mittlere Rangsumme für die erste Gruppe, die Rangsumme ist zwei plus vier plus sieben plus neun, was 22 entspricht, und wir haben vier Personen in der Gruppe. Die mittlere Rangsumme ist 22/4, was 5,5 entspricht. Jetzt machen wir dasselbe für die zweite Gruppe. Hier erhalten wir eine Rangsumme von 27 und die mittlere Rangsumme von 6,75, und für die dritte Gruppe erhalten wir eine Rangsumme von 29 und die mittlere Rangsumme von 7,25 Jetzt können wir den erwarteten Wert der Rangsummen berechnen. Wenn es keinen Unterschied zwischen den Gruppen gäbe, wäre der erwartete Wert , dass jede Gruppe eine Rangsumme von 6,5 hätte. Wir haben jetzt fast alles, was wir brauchen. Wir interviewen 12 Personen. Die Anzahl der Fälle beträgt 12. Der erwartete Wert der Ränge ist 6,5. Wir haben auch die mittleren Rangsummen der einzelnen Gruppen berechnet . Die Grade vor Domina sind zwei, und diese ergeben sich einfach der Anzahl der Gruppen minus eins, was drei minus eins ergibt Schließlich benötigen wir die Varianz. Die Varianz der Ränge ergibt sich aus dem Quadrat n im Quadrat -1/12. N ist wieder eine Anzahl von Personen, also 12. Wir erhalten eine Varianz von 11,92. Jetzt haben wir mit diesen Werten alles, was wir brauchen. Wir können jetzt unseren Testwert g berechnen . Die Teststatistik entspricht dem g-Quadrat-Wert und ist durch diese Formel n mal die Summe von r bar minus e r geteilt durch Sigma zum Quadrat In unserem Fall beträgt die Anzahl der Fälle 12. Wir haben immer vier Personen pro Gruppe. Wir können also das E herausziehen. 5,5 ist der mittlere Rang von Gruppe A, 6,75 ist der mittlere Rang von Gruppe B und 7,25 ist der mittlere Rang von Gruppe C. Dies gibt uns einen gerundeten Wert von 0,5, wie wir gerade Wie wir gerade gesagt haben, entspricht dieser Wert dem quadratischen Jetzt können wir den kritischen, quadratischen Wert in der Tabelle der kritischen, quadratischen Werte leicht ablesen . Sie finden diese Tabelle auch im Internet. Wir haben zwei Freiheitsgrade. Und wenn wir annehmen, dass wir ein Signifikanzniveau von 0,05 haben , erhalten wir einen kritischen, quadratischen Wert von 5,991 Natürlich ist unser Wert kleiner als der kritische G-Quadrat-Wert, sodass auf der Grundlage unserer Beispieldaten die Nullhypothese beibehalten wird. Jetzt zeige ich Ihnen, wie Sie den Cresco-Wallace-Test einfach online mit der Registerkarte Daten berechnen können Cresco-Wallace-Test einfach online mit der Registerkarte Daten berechnen Online-Berechnung. Dazu besuchen Sie einfach data tab.net, besuchen Sie einfach data tab.net, klicken dann auf den Statistikrechner und fügen Ihre eigenen Daten in diese Tabelle Außerdem klicken Sie auf diese Registerkarte, und unter dieser Registerkarte finden Sie viele Hypothesentests. Wenn Sie die Variablen auswählen, die Sie testen möchten, schlägt das Tool den entsprechenden Test Nachdem Sie Ihre Daten in die Tabelle kopiert haben, sehen Sie hier unten die Reaktionszeit und die Gruppe. Jetzt klicken wir einfach auf Reaktionszeit und Gruppe und es wird automatisch eine Varianzanalyse für uns berechnet eine Varianzanalyse für Aber wir wollen keine Varianzanalyse. Wir wollen den nichtparametrischen Test. Wir klicken einfach hier. Jetzt berechnet der Rechner automatisch den Ruskal-Wallace-Test Wir erhalten außerdem einen E-Quadratwert von 0,5, die Freiheitsgrade sind zwei und der berechnete p-Wert ist, und hier unten können Sie die Interpretation nachlesen Ruskal Walus hat gezeigt, dass es keinen signifikanten Unterschied zwischen den Kategorien Basierend auf dem p-Wert können wir daher mit den verwendeten Daten die mit den verwendeten Daten die Nullhypothese nicht zurückweisen Probieren Sie es einfach selbst aus. Es ist sehr einfach. Bleiben Sie in Verbindung, lernen Sie weiter, wachsen Sie weiter, wir sehen uns in der nächsten Lektion. 44. Design von Experimenten: Hallo und willkommen. In diesem Video. Wir werden in die faszinierende Welt der Versuchsplanung eintauchen Allgemein als DOE bezeichnet, besprechen wir, was Versuchsplanung oder DOE ist, die Prozessschritte eines DOE-Projekts Wie DOE Ihnen helfen kann, die Anzahl der Experimente zu reduzieren. Wie lässt sich die Anzahl der benötigten Experimente abschätzen? Und wir gehen die gängigsten Arten von Designs durch. Was genau ist also Versuchsplanung im Kern, Versuchsplanung DOE ist eine strukturierte Methode zur Planung, Durchführung und Interpretation von Experimenten. Der Hauptzweck von DOE besteht darin herauszufinden, wie sich verschiedene Eingangsvariablen, sogenannte Faktoren, auf eine Ausgangsvariable, die sogenannte Antwortvariable, auswirken . Hier ist eine einfachere Erklärung. Systematischer Ansatz. DOE ist organisiert und methodisch. Es folgt einem schrittweisen Prozess, um sicherzustellen, dass die Experimente auf logische und effiziente Weise durchgeführt werden Eingabevariablen, Faktoren. Dies sind die Elemente , die Sie in einem Experiment ändern , um zu sehen, wie sie sich auf das Ergebnis auswirken. Wenn Sie beispielsweise einen Kuchen backen, können dies die Zuckermenge, die Backzeit oder die Ofentemperatur sein. Ausgangsvariable, Antwortvariable. Dies messen Sie im Experiment, um die Auswirkungen der Änderungen zu ermitteln, die Sie an den Faktoren vorgenommen haben. Im Kuchenbeispiel könnte die Antwortvariable der Geschmack oder die Textur des Kuchens sein . Ziel von DOE ist es, die Beziehung zwischen diesen Faktoren und der Antwortvariablen zu verstehen die Beziehung zwischen diesen Faktoren . Wir helfen Ihnen dabei , festzustellen, welche Faktoren den größten Einfluss haben den größten Einfluss und wie sie miteinander interagieren. Stellen Sie sich vor, Sie fahren Fahrrad. Die sanfte Drehung der Räder hängt vom Zustand der Lager ab. Wenn die Lager gut geschmiert sind, entsteht ein minimales Reibungsmoment, sodass das sodass Wenn die Schmierung jedoch unzureichend ist oder die Temperatur zu hoch ist, ist aufgrund der erhöhten Reibung mehr Aufwand erforderlich, um die Geschwindigkeit aufrechtzuerhalten In solchen Fällen können wir mit DOE systematisch Faktoren wie Schmierarten wie Öl oder Fett und schwankende Temperaturen (niedrig, mittel, hoch) untersuchen wie Schmierarten wie Öl oder Fett und schwankende Temperaturen (niedrig, und schwankende Temperaturen (niedrig , um deren Einfluss auf die Reibung genau zu quantifizieren Aber warum ist das wichtig? Das Design von Experimenten ermöglicht es uns, effiziente Testpläne zu entwerfen , die diese Erkenntnisse effektiv aufdecken Durch die sorgfältige Manipulation von Faktoren und ihren Werten hilft uns DOE dabei, herauszufinden, welche Variablen das Ergebnis maßgeblich beeinflussen Sei es in mechanischen Systemen wie Lagern oder in komplexeren Szenarien, in denen Menschen auf Medikamente reagieren Die Anwendungsmöglichkeiten von DOE sind umfangreich und vielfältig Ob es nun um die Optimierung von Herstellungsprozessen, Verbesserung von Produktdesigns oder die Weiterentwicklung medizinischer Behandlungen DOE dient als leistungsstarkes Instrument zur Identifizierung kritischer Faktoren und zur Festlegung optimaler Bedingungen für die Erzielung der gewünschten Ergebnisse Es ermöglicht Forschern und Ingenieuren, fundierte Entscheidungen auf der Grundlage empirischer Daten zu treffen, anstatt sich auf Vermutungen zu verlassen In unseren nächsten Abschnitten werden wir uns mit den wesentlichen Schritten des ADOE-Projekts befassen, von der Planung von von der Planung von Experimenten Im weiteren Verlauf des Kurses decken wir die Feinheiten der Versuchsplanung auf und erfahren, decken wir die Feinheiten der wie dieser methodische Ansatz Ihren Experimentier- und Forschungsansatz revolutionieren kann Forschungsansatz revolutionieren . Bleiben Sie dran für weitere Einblicke und praktische Tipps. 45. Die Anwendungsbereiche für ein DOE: Lassen Sie uns nun verstehen, in welchen Anwendungsbereichen DOE eingesetzt werden kann. Die Anwendungen von DOE sind breit gefächert und vielfältig, sei es zur Optimierung von Herstellungsprozessen, zur Verbesserung von Produktdesigns oder zur Verfeinerung medizinischer Behandlungen DOE ist ein leistungsstarkes Instrument zur Identifizierung von Schlüsselfaktoren und zur Bestimmung der besten Bedingungen, um die gewünschten Ergebnisse zu erzielen Es hilft Forschern und Ingenieuren, fundierte Entscheidungen auf der Grundlage realer Daten statt auf Vermutungen zu Schritte eines DOE-Projekts Lassen Sie uns einen Blick auf den Prozess eines DOE-Projekts, die Planung, Überprüfung, Optimierung und Im ersten Schritt die Planung. Die Dinge sind wichtig. Verschaffen Sie sich zunächst ein klares Verständnis des Problems und des Systems. Zweitens bestimmen Sie eine oder mehrere Antwortvariablen. Drittens identifizieren Sie Faktoren, die die Antwortvariable erheblich beeinflussen können. Die Bestimmung potenzieller Faktoren, die die Antwortvariable beeinflussen, kann sehr komplex und zeitaufwändig sein. In einem Team kann beispielsweise ein Fischgrätendiagramm erstellt werden. Jetzt kommt der zweite Schritt. Screening, wenn es viele Faktoren gibt , die einen Einfluss haben könnten. In der Regel mehr als vier bis sechs Faktoren. Screening-Experimente sollten durchgeführt werden , um die Anzahl der Faktoren zu reduzieren. Warum ist das wichtig? Die Anzahl der zu untersuchenden Faktoren hat einen großen Einfluss auf die Anzahl der erforderlichen Experimente. Beachten Sie, dass bei der Versuchsplanung die einzelnen Experimente auch einfach als Durchläufe im vollfaktoriellen Versuchsplan bezeichnet werden, worauf wir gleich noch näher eingehen Die Anzahl der Experimente oder Durchläufe entspricht n der Potenz von k, wobei n die Anzahl der Durchläufe und k die Anzahl der Faktoren ist Hier ist ein kleiner Überblick , ob wir drei Faktoren haben. Zum Beispiel müssen wir mindestens acht Durchläufe mit sieben Faktoren machen . Es sind bereits mindestens 128 Läufe mit zehn Faktoren. Es sind bereits mindestens 1024 Läufe. Bitte beachten Sie, dass diese Tabelle für AD OE gilt, wo jeder Faktor nur zwei Stufen hat, andernfalls. , wie komplex ein einzelnes Experiment ist, wird es noch mehr Durchläufe geben Je nachdem, wie komplex ein einzelnes Experiment ist, wird es noch mehr Durchläufe geben. Es kann sich daher lohnen, sogenannte Screening-Designs für vier oder mehr Faktoren auszuwählen . Später werden wir uns dem fraktionierten faktoriellen Design und dem ruhigen Berman-Design befassen. Welches kann für Screening-Experimente verwendet werden. Sobald die signifikanten Faktoren anhand von Screening-Designs identifiziert wurden anhand von Screening-Designs identifiziert wurden , wurde die Anzahl der Faktoren hoffentlich reduziert. Weitere Experimente können nun durchgeführt werden. Die gewonnenen Daten können dann verwendet werden , um ein Regressionsmodell zu erstellen, mit dessen Hilfe die Eingangsvariablen so bestimmt werden können, dass die Antwortvariable optimiert wird Nach der Optimierung folgt der letzte Schritt der Überprüfung. Dabei wird noch einmal überprüft, ob die berechneten optimalen Eingangsgrößen wirklich den gewünschten Einfluss auf die Antwortvariable haben . Je nachdem, ob wir uns im Screening-Schritt oder im Optimierungsschritt befinden. Es gibt verschiedene Arten von Designs. Danke für Ihre Aufmerksamkeit. In der nächsten Lektion werden wir uns eingehender praktischen Anwendungen der Versuchsplanung und der effektiven Interpretation der Ergebnisse befassen. Bleib dran. 46. Arten von Designs in einem DOE: Arten von Designs in DOE-Experimenten. Wenn wir uns entweder im Screening-Schritt oder im Optimierungsschritt befinden. Wir verwenden verschiedene Arten von Entwurfsmethoden. Die bekanntesten sind das vollfaktorielle Design, das fraktionierte faktorielle Design, das Placet-Berman-Design, das Box-Benkin-Design und das zentrale Verbunddesign Schauen wir uns zunächst den vollfaktoriellen Versuchsplan und den teilfaktoriellen Versuchsplan an vollfaktoriellen Versuchsplan und den teilfaktoriellen Versuchsplan . Wir müssen auch beantworten, warum wir all diese Anstrengungen unternommen haben. Warum verwenden wir Versuchsplanung, DOE, und warum brauchen wir Statistiken? Der Grund dafür ist, dass Experimente Zeit in Anspruch nehmen und Geld kosten. Deshalb müssen wir die Anzahl der Durchläufe, der einzelnen Experimente, so gering wie möglich halten . Wenn wir jedoch zu wenige Durchläufe durchführen, übersehen wir möglicherweise wichtige Unterschiede und erhalten keine genauen Ergebnisse. Nehmen wir zum Beispiel an, wir möchten herausfinden , welche Faktoren das Reibungsverhalten eines Lagers beeinflussen das Reibungsverhalten eines Lagers Wir müssen unsere Experimente sorgfältig planen, um diese Faktoren effizient zu identifizieren, diese Faktoren effizient zu identifizieren ohne unnötige Durchläufe durchführen zu müssen Wie wird die Anzahl der Experimente in DOE geschätzt? Schauen wir uns ein Beispiel an. Wir wollen untersuchen , welche Faktoren den Reibungswiderstand eines Lagers beeinflussen Fangen wir mit einem Faktor an, der Schmierung. Wir wollen wissen, ob die Schmierung das Reibungsmoment beeinflusst , wenn ein Lager geölt oder gefettet ist Um das herauszufinden, nehmen wir eine Stichprobe von zehn Lagern? Wir ölen die Hälfte der Lager und fetten die andere Hälfte ein. Jetzt können wir die Reibungszunahme der fünf geölten Lager und der fünf gefetteten Lager messen geölten Lager und der fünf gefetteten Lager Aber warum zehn Kugellager verwenden, in den meisten Fällen kostet jeder Lauf eine Menge Geld Vielleicht kommen wir mit weniger Durchläufen zurecht. Wie viele Experimente müssen wir durchführen, um herauszufinden, ob der Schmierstoff einen Einfluss auf die Reibungszunge hat Fangen wir einfach mit den zehn Kugellagern an. Wir können jetzt den Mittelwert des Reibungsmoments der geölten und gefetteten Lager berechnen Reibungsmoments der geölten und gefetteten Lager Dann können wir die Differenz zwischen den beiden Mittelwerten berechnen die Differenz zwischen den In diesem Beispiel können wir einen Unterschied zwischen geölten und gefetteten Lagern erkennen einen Unterschied zwischen geölten und gefetteten Lagern Wir stellen jedoch auch fest, dass das Reibungsmoment in den geölten und gefetteten Lagern sehr unterschiedlich Wenn wir eine weitere Zufallsstichprobe von zehn Lagern nehmen, könnte der Unterschied größer sein oder er könnte in die entgegengesetzte Richtung Mit anderen Worten, die Reibungseigenschaften der Lager sind sehr unterschiedlich Je größer die Streuung, desto schwieriger ist es, einen bestimmten Unterschied oder Effekt zu erkennen Zum Glück können wir die Variabilität des Mittelwerts verringern , indem wir die Stichprobengröße erhöhen Je größer der Stichprobenumfang, desto genauer ist die Schätzung des Mittelwerts Daher muss der Stichprobenumfang umso größer sein, je geringer der Effekt und je breiter die Streuung der Antwortvariablen und je breiter die Streuung der Aber wie viel größer, wie können Sie die Anzahl der benötigten Durchläufe abschätzen? Sie können diese Formel als Näherung verwenden , um die Anzahl der benötigten Durchläufe zu schätzen n entspricht Sigma geteilt Ein Quadrat ist hier, n ist die Anzahl der Durchläufe. Sigma ist die Standardabweichung. Delta ist der zu bestimmende Effekt. Zum Beispiel, wenn wir eine Standardabweichung von drei Newtonmillimetern und eine relevante Differenz von fünf Newtonmillimetern haben. Wir brauchen 22 Läufe. Wenn die Standardabweichung zwei Newtonmillimeter beträgt. Wir benötigen nur zehn Durchläufe, wenn die Standardabweichung einen Newtonmillimeter beträgt Wir brauchen vier Läufe. Wir würden also zwei Läufe mit gefetteten Lagern und zwei Läufe mit geölten Lagern verwenden gefetteten Lagern und zwei Läufe mit geölten Lagern Aber wie kann DOE Ihnen helfen, die Anzahl der Läufe zu reduzieren? Wir werden es in der nächsten Lektion im Detail sehen. Danke für Ihre Aufmerksamkeit. In der nächsten Lektion werden wir uns eingehender praktischen Anwendungen der Versuchsplanung und der effektiven Interpretation der Ergebnisse befassen. Bleib dran. 47. Wie man die Anzahl der Durchläufe reduzieren kann: Aber wie kann DOE Ihnen helfen, die Anzahl der Läufe zu reduzieren? Nehmen wir an, dass die Berechnung der Anzahl der Durchläufe zu 16 Experimenten führt. Acht Läufe mit geölten Lagern und acht Läufe mit gefetteten Aber was ist, wenn wir einen zweiten Faktor haben? Nehmen wir an, wir haben zusätzlich zur Schmierung Temperaturen mit niedrigen und hohen Werten. Dann benötigen wir weitere acht Durchläufe , um diese Faktoren zu berücksichtigen. Wir benötigen also 16 Durchläufe , um zu überprüfen, ob das Schmiermittel eine Wirkung hat. Und 16 Läufe, um zu überprüfen, ob sich die Temperatur auswirkt. Das gibt uns insgesamt 24 Läufe. Nun stellt sich die Frage, ob es möglich ist, dies mit weniger Durchläufen zu erreichen, und das bringt uns zum vollständigen faktoriellen Design Die Frage ist, warum sollten wir uns darauf beschränken, jeweils einen Faktor zu testen Stattdessen könnten wir ein Design entwickeln , das alle möglichen Kombinationen berücksichtigt, z. B. Fett und hohe Temperaturen Natürlich benötigen wir immer noch 16 Durchläufe pro Faktor. Das erreichen wir, indem mit jeder der vier Kombinationen vier Durchläufe machen. Dann haben wir acht Läufe mit Öl und acht mit Fett und auf der anderen Seite acht mit niedriger Temperatur und acht mit hoher Temperatur. Wir haben jetzt insgesamt 16 Läufe, bevor wir 24 Läufe hatten. Wir benötigen jetzt weniger Experimente und erhalten noch mehr Informationen. Warum mehr Informationen? Wir wissen jetzt auch, ob es eine Wechselwirkung zwischen Temperatur und Schmierung gibt. Beispielsweise kann es bei geölten Lagern Schwankungen des Reibungsmoments bei unterschiedlichen Temperaturen kommen, was bei gefetteten Lagern nicht der Fall ist Diese Information wäre zuvor verloren gegangen. Wenn wir jetzt drei statt zwei Faktoren haben, sind die Einsparungen noch höher. Wenn wir jeweils einen der drei Faktoren testen, benötigen wir 32 Durchläufe. Wenn wir jetzt zwei Experimente für jede Kombination in einem vollfaktoriellen Versuchsplan durchführen , benötigen wir immer noch nur 16 Durchläufe Für jeden Faktor haben wir jedoch immer noch acht Durchläufe pro Faktorstufe Für den Schmierfaktor haben wir beispielsweise acht Läufe mit Öl und acht Durchläufe mit Fett. Natürlich können wir auch vollfaktorielle Versuchspläne mit mehr als zwei Stufen erstellen vollfaktorielle Versuchspläne mit mehr als zwei Stufen Der Temperaturfaktor könnte beispielsweise drei Stufen haben: niedrig, mittel und hoch Wie eingangs erwähnt, nimmt die Anzahl der erforderlichen Durchläufe jedoch selbst bei einem vollfaktoriellen Versuchsplan mit zwei Stufen für jeden Faktor sehr schnell zu, nimmt die Anzahl der erforderlichen Durchläufe wenn die Anzahl der Faktoren zunimmt Schauen wir uns daher nun den teilfaktoriellen Versuchsplan an Das fraktionierte faktorielle Design wird für Screening-Versuchspläne verwendet Das heißt, wenn Sie mehr als ungefähr vier bis sechs Faktoren haben , Verringerung der Anzahl der Durchläufe natürlich auch bedeutet eine Verringerung der Anzahl der Durchläufe natürlich auch eine Verringerung der Bei teilfaktoriellen Versuchsplänen ist die Auflösung reduziert Was ist die Auflösung? Die Auflösung ist ein Maß dafür, wie gut DOE zwischen verschiedenen Effekten unterscheiden kann. Genauer gesagt gibt die Auflösung an, wie stark die Haupteffekte und Wechselwirkungseffekte in einem Design miteinander vermischt sind Aber was sind Mitteleffekte und Interaktionseffekte? Was bedeutet „verwechselt“? In der Versuchsplanung bezieht sich der Begriff Effekt auf die Auswirkung, die ein bestimmter Faktor oder eine Kombination von Faktoren auf die Antwortvariable eines Experiments hat Im Wesentlichen messen sie, wie stark sich die Antwortvariable ändert , wenn Sie die Faktoren ändern. Ein Haupteffekt ist der Einfluss eines einzelnen Faktors auf die Antwortvariable. Welchen Einfluss hat beispielsweise die Schmierung eines Lagers auf die Reibungszunge Wechselwirkungseffekte treten auf , wenn die Wirkung eines Faktors auf die Antwortvariable von der Höhe eines anderen Faktors abhängt Beispielsweise könnte die Wirkung des Schmiermittels auf die Reibung von der Temperatur abhängen Aber was heißt das? Danke für Ihre Aufmerksamkeit. In der nächsten Lektion werden wir uns eingehender praktischen Anwendungen der Versuchsplanung befassen. Bleib dran. 48. Art der Effekte: Aber was sind Haupteffekte und Interaktionseffekte, und was bedeutet „verwechselt“ Bei der Planung von Experimenten. Der Begriff Effekt bezieht sich auf den Einfluss, den ein bestimmter Faktor oder eine Kombination von Faktoren auf die Antwortvariable eines Experiments hat . Im Wesentlichen messen sie, wie stark sich die Antwortvariable ändert , wenn Sie die Faktoren ändern? Ein Haupteffekt ist der Einfluss eines einzelnen Faktors auf die Antwortvariable. Welchen Einfluss hat beispielsweise die Schmierung eines Lagers auf das Reibungsmoment Wechselwirkungseffekte treten auf , wenn die Wirkung eines Faktors auf die Antwortvariable von der Höhe eines anderen Faktors abhängt Beispielsweise könnte die Wirkung des Schmiermittels auf die Reibungszunge von Schmiermittels auf die Reibungszunge von der Temperatur abhängen Aber was heißt das? Nehmen wir an, wir haben ein durchschnittliches Reibungsmoment von 102 Newtonmillimetern für die Lager mit Öl und einen Durchschnittswert von 108 Newtonmillimetern für die Lager mit Fett Dann haben wir einen Haupteffekt der Schmierung von sechs Newtonmillimetern Aber jetzt können wir das in hohe und niedrige Temperaturen aufteilen. Bei hohen Temperaturen könnten wir 98 für Öl und 102 für Fett bekommen . Der Unterschied zwischen Öl und Fett beträgt nur vier Newtonmillimeter. Bei niedriger Temperatur könnten wir 104 und 112 bekommen. Ein Unterschied von acht, der Schmierfaktor wird also von der Temperatur beeinflusst, und wir haben eine Wechselwirkung zwischen Schmierung und Temperatur. Die Wechselwirkung führt zu einem Unterschied von zwei neuen 10 Millimetern zum ursprünglichen Ergebnis. Wir haben also einen Wechselwirkungseffekt von zwei Newtonmillimetern. Bei vollfaktoriellen Versuchsplänen alle Wechselwirkungen berücksichtigt In unserem Beispiel zur Lagerreibung neben den Faktoren der Schmierstofftemperatur haben wir uns neben den Faktoren der Schmierstofftemperatur auch mit der Wechselwirkung zwischen Schmierstoff und Temperatur befasst zwischen Schmierstoff und Mit zunehmender Anzahl von Faktoren treten jedoch schnell zahlreiche Wechselwirkungen Wenn wir beispielsweise fünf Faktoren haben, A, B, C, D und E, erhalten wir die Wechselwirkung zwischen zwei Faktoren. Zwischen drei Faktoren, zwischen vier Faktoren und zwischen allen fünf Faktoren. Jetzt natürlich. Die Frage ist, brauchen wir wirklich alle Interaktionen oder können wir die Auflösung reduzieren? Genau das macht der teilfaktorielle Versuchsplan in einem teilfaktoriellen Versuchsplan . Wechselwirkungen können mit anderen Wechselwirkungen oder mit Haupteffekten von Faktoren verwechselt anderen Wechselwirkungen oder mit Was bedeutet „verwirrt“? Das bedeutet, dass die Auswirkungen verschiedener Faktoren oder die Wirkung des Zusammenspiels von Faktoren nicht voneinander getrennt werden können Inwieweit die Anzahl der Durchläufe auf Kosten der Auflösung reduziert werden kann auf Kosten der Auflösung reduziert , ist in dieser Tabelle dargestellt. Die Auflösung wird in der Regel mit römischen Ziffern angegeben. Beispiel drei, vier, fünf usw. Hier auf der Diagonale. Wir sehen die vollständigen faktoriellen Designs. Wir werden gleich durchgehen, was die Auflösungen drei , vier und fünf bedeuten Wenn wir beispielsweise sechs Faktoren haben, benötigen wir mindestens 64 Durchläufe für einen vollfaktoriellen Versuchsplan Wenn wir einen teilfaktoriellen Versuchsplan mit einer Auflösung von sechs wählen mit einer Auflösung Wir benötigen 32 Durchläufe mit einer Auflösung von vier. Wir benötigen 16 Durchläufe mit einer Auflösung von drei. Wir brauchen nur acht Läufe. Aber was heißt das? Wie funktioniert es? Der vollfaktorielle Versuchsplan wird immer als Ausgangspunkt verwendet Schauen wir uns das Beispiel mit acht Durchläufen an. In der nächsten Lektion werden wir uns eingehender praktischen Anwendungen der Versuchsplanung befassen. Bleib dran. 49. Fraktionales faktorielles Design: Lassen Sie uns die wichtigsten Punkte zu fraktionalfaktoriellen Versuchsplänen in einfachen Worten zusammenfassen fraktionalfaktoriellen Versuchsplänen Was sind teilfaktorielle Versuchspläne? Bruchfaktorielle Versuchspläne sind eine effiziente Methode, um mehrere Faktoren gleichzeitig zu testen Sie reduzieren die Anzahl der erforderlichen Versuchsdurchläufe erheblich Versuchsdurchläufe Warum fraktionalfaktorielle Versuchspläne verwenden? Die Verwendung von teilfaktoriellen Versuchsplänen spart Versuchsplänen sowohl Zeit als auch Ressourcen im Vergleich Darüber hinaus ermöglichen sie das Testen von Wechselwirkungen zwischen Faktoren, sodass mit weniger Experimenten wertvolle Erkenntnisse gewonnen Erstens: Auflösung in fraktionierten faktoriellen Versuchsplänen. Definition: Auflösung bezieht sich darauf, wie viele Informationen in einem Versuchsplan erfasst werden Einfacher ausgedrückt sagt sie uns, wie viele Faktoren wie A, B, C wir zusammen testen können und wie gut wir ihre Auswirkungen voneinander trennen können . H höhere Auflösung, zum Beispiel drei oder drei. Das bedeutet, dass wir mehr Faktoren zusammen testen können, aber es bedeutet auch , dass die Auswirkungen dieser Faktoren mit Wechselwirkungen verwechselt werden können Diese Faktoren interagieren miteinander. Bei Auflösung drei könnten beispielsweise die Auswirkungen von Hauptfaktoren mit Wechselwirkungen verwechselt werden , an denen zwei andere Faktoren beteiligt sind. Beispiel: Niedrigere Auflösung. I V oder 4, hier können wir nicht so viele Faktoren zusammen testen, aber es ist klarer, die Haupteffekte der einzelnen Faktoren zu erkennen , da sie weniger mit Wechselwirkungen vermischt sind . Bei Auflösung vier beispielsweise werden die Auswirkungen der Hauptfaktoren mit Wechselwirkungen verwechselt, an denen drei Faktoren beteiligt sind an denen drei Faktoren beteiligt Zweitens, verwirrende Effekte, Definition. Wenn wir sagen, dass Effekte verwechselt werden, bedeutet das, dass wir nicht genau sagen können , welcher Faktor eine bestimmte Änderung der Ergebnisse verursacht Dies liegt daran, dass verschiedene Kombinationen von Faktoren ähnliche Auswirkungen auf das Ergebnis haben können Stellen Sie sich zum Beispiel vor, wir testen die Faktoren A, B und C, wenn wir einen vierten Faktor, D, hinzufügen könnten die Ergebnisse Veränderungen zeigen , die wir nicht ausschließlich D zuordnen können . Die Wirkung von D könnte mit der Art und Weise, wie A, B und C miteinander interagieren , verwechselt werden . Drittens, Einfluss der Auflösung auf das Versuchsdesign. Erklärung. Die Wahl einer Auflösung wirkt sich darauf aus, wie effizient unser Experiment ist und wie klar unsere Ergebnisse sind. Eine höhere Auflösung ermöglicht es uns, mehr Faktoren gemeinsam zu testen, erfordert jedoch mehr Tests, um uns auf unsere Ergebnisse verlassen zu können. Eine niedrigere Auflösung erfordert weniger Tests, kann es aber schwieriger machen, die Auswirkungen verschiedener Faktoren miteinander zu die Auswirkungen verschiedener Faktoren Vier praktische Beispiele, Illustration Stellen Sie sich zum besseren Verständnis vor, verschiedene Rezepte für das Backen eines Kuchens auszuprobieren Wenn Sie eine Zutat ändern, z. B. Zucker, kann sich der Geschmack ändern. Wenn Sie jedoch sowohl Zucker als auch Mehl ändern, ist es schwieriger zu sagen, welche Änderung zu welchem Ergebnis geführt hat. Das Design hilft uns dabei, ein Gleichgewicht zwischen dem Testen vieler Faktoren und dem Verständnis ihrer einzelnen Auswirkungen herzustellen. diese Punkte verstehen, Forscher diese Punkte verstehen, können sie Experimente entwerfen, die klare Antworten darauf geben , wie sich Faktoren auf die Ergebnisse auswirken, selbst wenn mehrere Faktoren gleichzeitig getestet werden. Wir werden gleich durchgehen, was die Auflösungen drei , vier und fünf bedeuten. Wenn wir beispielsweise sechs Faktoren haben, benötigen wir mindestens 64 Durchläufe für einen vollfaktoriellen Versuchsplan Wenn wir einen teilfaktoriellen Versuchsplan mit einer Auflösung von sechs wählen , benötigen wir 32 Durchläufe Bei einer Auflösung von vier benötigen wir 16 Durchläufe, und bei einer Auflösung von drei benötigen wir nur acht Aber was bedeutet das und wie funktioniert es? Der vollfaktorielle Versuchsplan wird immer als Ausgangspunkt verwendet Schauen wir uns ein Beispiel mit acht Durchläufen an. Angenommen, wir haben die Faktoren A, B und C mit einem vollfaktoriellen Versuchsplan, wir können testen, ob Faktor A, B oder C eine Wirkung hat Wir können auch testen, ob Wechselwirkungen zwischen zwei Faktoren eine Wirkung haben und ob Wechselwirkungen zwischen allen drei Faktoren eine Wirkung haben Wenn wir nun nicht nur drei Faktoren mit acht Durchläufen testen wollen , sondern einen weiteren vierten Faktor, den S-Faktor D, müssen wir einige Informationen aus einer der Wechselwirkungen opfern . Zum Beispiel die Wechselwirkung von A und B, und wenn wir einen fünften Faktor mit acht Versuchen testen wollen, sagen wir Faktor A, müssten wir eine weitere Wechselwirkung opfern. Zum Beispiel die Wechselwirkung zwischen B und C, aber wir lassen die Informationen nicht wirklich fallen. Wir mischen den neuen Faktor mit der Wechselwirkung. Das heißt, wir haben den Faktor mit der Interaktion verwechselt . Was bedeutet das? Das bedeutet, dass wir nicht feststellen können, ob ein beobachteter Effekt auf Faktor D oder die Wechselwirkung von A, B und C zurückzuführen ist. Ebenso können wir nicht sagen, ob ein Effekt auf Faktor A oder auf die Wechselwirkung von B und C zurückzuführen ist. Es ist viel weniger problematisch , einen Faktor mit einer Wechselwirkung von drei Faktoren zu vermischen einer Wechselwirkung von drei Faktoren als mit einer Wechselwirkung von zwei Faktoren. Ebenso können wir nicht unterscheiden, ob ein Effekt auf Faktor A oder auf die Wechselwirkung von B und C zurückzuführen ist. Jetzt haben wir einen guten Übergang zur Auflösung. Was bedeuten die Auflösungen drei, vier und fünf? Bei Auflösung drei können Haupteffekte mit Wechselwirkungen zweier Faktoren verwechselt werden Zum Beispiel könnte Faktor D mit der Wechselwirkung der Faktoren A und B verwechselt werden. Experimente mit Auflösung drei werden daher als kritisch angesehen Sie können nur verwendet werden, wenn die Wechselwirkung zweier Faktoren deutlich geringer ist als die Wirkung der Hauptfaktoren Andernfalls kann die Wechselwirkung zweier Faktoren das Ergebnis eines Faktors erheblich verfälschen Experimente mit Auflösung vier sind viel weniger kritisch. Hier werden nur die Haupteffekte mit den Wechselwirkungen von drei Faktoren und den mehreren Faktoren, die an einer Wechselwirkung beteiligt sind, verwechselt und den mehreren Faktoren, die an einer Wechselwirkung beteiligt sind Je geringer ist der Effekt wahrscheinlich. Darüber hinaus werden in Auflösung vier Wechselwirkungen zweier Faktoren mit Wechselwirkungen zweier anderer Faktoren verwechselt O Experimente mit Auflösung fünf werden nicht als kritisch angesehen Haupteffekte werden nur mit Wechselwirkungen von vier Faktoren verwechselt Ebenso werden Wechselwirkungen zwischen zwei Faktoren nur mit Wechselwirkungen von drei Faktoren verwechselt Aber wie verwechselt man einen Faktor und eine Wechselwirkung? Schauen wir uns dieses Beispiel an. Hier haben wir den vollständigen faktoriellen Entwurf der drei Faktoren A, B und C. Diese acht Durchläufe werden insgesamt durchgeführt Wir berücksichtigen immer noch nur Faktoren mit zwei Stufen, minus eins für eine Stufe und eins für die andere Stufe steht Für unser Beispiel mit Frictional Talk würde der Testplan für den Faktor Temperatur so aussehen , minus eins ist die niedrige Temperatur und eins ist die hohe Wenn wir die Experimente jetzt durchführen, erhalten wir für jeden Durchlauf einen Wert für die Antwortvariable Wenn Faktor A eins oder minus eins ist, hat das eine gewisse Auswirkung auf den Zielwert. Das Gleiche gilt, wenn Faktor B eins oder minus eins ist. Der Wechselwirkungseffekt sagt uns, ob es einen zusätzlichen Effekt gibt. die Faktoren A und B gleichzeitig sind, eins oder minus eins, oder wenn beide genau in die entgegengesetzte Richtung gehen. Auf der einen Seite haben wir die Paarungen mit demselben Vorzeichen und auf der anderen Seite die Paarungen mit einem ungleichen Wir können überprüfen, ob es einen Unterschied in der Antwortvariablen zwischen den Werten in der grünen Gruppe und den Werten in der roten Gruppe Wenn es einen Unterschied gibt, dann gibt es eine Wechselwirkung zwischen A und B. Wenn wir jedoch im Voraus wissen, dass es nur eine sehr geringe oder keine Wechselwirkung gibt, können wir diese Kombinationen verwenden. Um einen vierten Faktor, D, zu testen, multiplizieren wir dazu einfach. A und B. Wir haben immer eine Eins, wenn die Faktoren A und B dasselbe Vorzeichen haben und minus eins, wenn sie ein anderes Vorzeichen haben. Natürlich kann ein Problem auftreten. Bei der Analyse der Ergebnisse. Wenn es einen Unterschied zwischen den grünen und den roten Werten gibt. In der Antwortvariablen können wir nicht bestimmen, ob dieser Effekt auf die Wechselwirkung zwischen A und B oder auf Faktor D zurückzuführen die Wechselwirkung zwischen A und ist, wenn wir a sind. Zeigen Sie, dass es keine Wechselwirkung zwischen A und B geben kann Das ist kein Problem. Dann können wir sicher sein, dass der Unterschied in ähnlicher Weise auf Faktor D zurückzuführen ist. Wir können also die Wechselwirkung von A und C nehmen und auch Faktor A und die Wechselwirkung von A, Faktor A und die Wechselwirkung von A, B und C messen, um Faktor F zu messen. In diesem Fall messen wir sechs Faktoren mit nur acht Durchläufen, aber wir können Faktor D nicht mehr von der Wechselwirkung von A und B, Faktor A von der Wechselwirkung von A und C oder Faktor F von der Interaktion von A, B und C unterscheiden Faktor D nicht mehr von der Wechselwirkung von A und B, Faktor A von der Wechselwirkung von A und C oder Faktor F von der Interaktion von A, . In der nächsten Lektion werden wir uns die anderen in DOE verfügbaren Versuchstypen genauer ansehen . In der nächsten Lektion werden wir uns eingehender mit den praktischen Anwendungen der Versuchsplanung befassen. Bleib dran. 50. Plackett Burman Central Komposit-Design: Willkommen heute. Wir befassen uns mit verschiedenen Arten der Versuchsplanung. Oder DOE, fangen wir mit dem Placet Berman Design an. Was ist ein Placet Berman-Design? Placet- und Berman-Versuchspläne werden in der Regel mit zwei Stufen und einer Auflösung von drei verwendet und Der Hauptvorteil dieser Versuchspläne besteht darin , dass sich die Wechselwirkung zwischen zwei Faktoren mehrere andere Faktoren verteilt Beispielsweise ist die Wechselwirkung zwischen den Faktoren A und B mit allen anderen Faktoren außer A und B selbst verwechselt allen anderen Faktoren außer A und B selbst Aus diesem Grund eignen sich Plackett Burman-Versuchspläne ideal, wenn es um viele Faktoren und wenn nur die Haupteffekte Diese Versuchspläne sollten jedoch mit Vorsicht verwendet werden, wenn Sie davon ausgehen, dass Wechselwirkungen zwischen zwei Faktoren vernachlässigt werden können Diese Anforderung ist jedoch weniger streng als bei klassischen fraktionalfaktoriellen Versuchsplänen mit Auflösung 3. Nun, was ist ein Box-Benkin-Design? Das Box-Benkin-Design wird zusammen mit dem zentralen Verbunddesign verwendet, um einige Faktoren im Detail zu analysieren und zu optimieren Und um nichtlineare Abhängigkeiten zu identifizieren um nichtlineare Zusammenhänge zu erkennen Bei einem vollfaktoriellen Versuchsplan mit drei Stufen sind mindestens drei Stufen pro Faktor erforderlich vollfaktoriellen Versuchsplan mit drei Stufen sind mindestens drei Stufen Die Anzahl der Studien kann schnell ansteigen. Beispiel: Bei zwei Faktoren auf jeweils drei Stufen benötigen Sie neun Durchläufe, benötigen Sie neun Durchläufe und bei drei Faktoren auf jeweils drei Stufen erhöht sich die Anzahl auf 27 Durchläufe. Box, Benkan-Versuchspläne lösen dieses Problem, indem sie einen vollfaktoriellen Versuchsplan mit zwei Stufen Und das Einbeziehen von Zentralpunkten, z. B. dreimal für zwei Faktoren oder mit drei Faktoren, oder mit drei Faktoren, wodurch die Anzahl der Durchläufe 27-15 reduziert Dadurch wird zwar die Anzahl der Durchläufe reduziert, es können aber auch weniger nichtlineare Beziehungen identifiziert Lassen Sie uns als Nächstes das zentrale Verbunddesign besprechen. Dieser Versuchsplan umfasst in der Regel drei Typen von Testpunkten: zwei ebenflächige, faktorielle Punkte, die die Ecken eines Würfels oder Hyperwürfels in mehrdimensionalen Räumen bilden eines Würfels oder Hyperwürfels in mehrdimensionalen Zentrale Punkte, die sich in der Mitte des durch die faktoriellen Punkte definierten Raums Axiale Punkte, die auf den Achsen des Faktorraums außerhalb der Warteschlange liegen den Achsen des Faktorraums außerhalb der Warteschlange Diese beiden letzten Punkttypen helfen bei Schätzung nichtlinearer Effekte in Ihrem Modell. In der nächsten Lektion werden wir uns eingehender mit praktischen Anwendungen der Versuchsplanung befassen. Bleib dran. 51. Schlussbemerkung: Ich möchte mich bei Ihnen vielmals dafür bedanken , dass Sie das Programm abgeschlossen haben. Es zeigt, dass Sie sich auf Ihrem Lernweg sehr engagieren. Du willst dich weiterbilden und ich vertraue darauf, dass du viel gelernt hast. Ich hoffe, alle Ihre Konzepte sind auch klar. Ich möchte sicherstellen, dass ich Ihnen sage welche anderen Programme ich gerne teilen möchte. Auf Skillshare habe ich also viele andere Programme , die bereits da sind , und viele werden in den kommenden Wochen und kommenden Monaten erscheinen. Wie die Programme Storytelling mit Daten sind, wie kann ich die Analysen, Datenvisualisierung, Predictive Analytics ohne Codierung und vieles mehr nutzen Datenvisualisierung, . Abgesehen davon arbeite ich auch als Corporate Trainer. Ich stelle sicher, dass alle meine Programme hochgradig interaktiv sind und alle Teilnehmer sehr engagiert sind. Ich habe die Bücher entworfen, die für meinen Workshop maßgeschneidert sind , wodurch auch sichergestellt wird , dass alle Konzepte von den Teilnehmern klar verstanden werden. Meine Spiele sind so konzipiert, dass die Konzepte in einer Weile, in der sie spielen, Kredite erhalten. Es gibt viele Spiele, die für meine Programme entwickelt wurden. Und wenn Sie Interesse haben, können Sie mich gerne kontaktieren. Ich habe in den letzten zwei Jahren während der Pandemie auch mehr als zweitausend Stunden Training absolviert. Dies sind nur einige der Workshops. Wenn Ihre Organisation also an einem Firmenschulungsprogramm teilnehmen möchte , das offline oder online ist. Oder wenn Sie das Gefühl haben, dass Sie persönlich Ihr Lernen verbessern möchten, können Sie mich gerne unter meiner E-Mail-ID kontaktieren. Bleiben Sie mit mir auf LinkedIn in Verbindung, wenn Ihnen mein Training gefallen hat, stellen Sie bitte sicher, dass Sie eine Bewertung auf LinkedIn schreiben. Außerdem betreibe ich auch einen Telegram-Kanal in dem ich viele Fragen stelle, in denen Leute die Konzepte lernen können, und sie werden vielleicht nur ein paar Sekunden brauchen, um es zu tun. Abgesehen davon, stellen Sie bitte sicher, dass Sie schreiben, um eine Bewertung auf Skillshare zu hinterlassen Wie war Ihre Trainingserfahrung? Bitte vergessen Sie nicht, Ihr Projekt abzuschließen. Ich liebe Menschen, wenn sie engagiert sind und du bewiesen hast , dass du einer von ihnen bist. Bitte bleiben Sie in Verbindung. Bleib sicher und Gott segne dich.