Transkripte
1. Intro für Datenanalysen: Hallo Freunde. Beginnen wir mit
diesem Schulungsprogramm, Eckdatenanalyse
mit MiniTab. Was wirst du in diesem Kurs
lernen? Die Fähigkeiten, die
Sie in
diesem Kurs erlernen, sind also einige
Grundlagen der Statistik. Wir werden
beschreibende Statistiken,
grafische Zusammenfassungen,
Verteilungen, Histogramm,
Box-Plot, Balkendiagramme
und Tortendiagramme behandeln grafische Zusammenfassungen,
Verteilungen, Histogramm,
Box-Plot, . Ich werde eine neue
Serie über den Test der Hypothese einrichten, die ich im
Link als Link
im letzten Video teilen werde . Aber lassen Sie uns
zunächst die verschiedenen Arten
der grafischen Analyse verstehen . Wer sollte an diesem Kurs teilnehmen? Jeder, der Lean Six Sigma
studiert, sich als Green Belt,
Black Belt
zertifizieren lassen möchte oder
Statistiken und grafische
Analysen an seinem Arbeitsplatz anwenden möchte. Auch wenn Sie
Unternehmer oder
Student sind und Statistiken mithilfe von MiniTab verstehen
möchten. Ich werde alles behandeln. Wir werden lernen, welche Fehler häufig
bei der Analyse passieren. Denn wenn wir Analysen mit einfachen theoretischen
Datenpunkten durchführen, scheint
alles normal zu sein. Deshalb zeige ich
Ihnen einige Fallen, in denen unsere Analyse scheitern wird und wie Sie diese Fallen
vermeiden sollten. Wir werden versuchen, am Ende dieses Programms zu sagen, was Sie
aus diesem Programm mitnehmen werden? Sie werden verstehen, wie
man einige grundlegende Analysen durchführt. Sie werden verstehen, welche
Tools während
Ihrer Messphase erforderlich
sind, wie
Fähigkeitsberechnungen usw. Wir werden während der
Analysephase also, wenn möglich, den Test der Hypothese abdecken. Andernfalls, wenn es wird, wird
das Video größer, ich werde es als
separates Bild setzen. Ivan behandelt auch, welches Diagramm
verwendet werden soll , wenn einige häufige Fehler auftreten, und
wir führen grafische Analysen durch
und erstellen Grafiken. Und wie kann ich
aus diesen Grafiken
Erkenntnisse und Schlussfolgerungen ziehen? Dies wird Ihnen wirklich helfen dieses
Programm wirklich gut zu
verstehen. Mal sehen was ist ein Minitab? Minitab ist eine
Statistiksoftware, die
verfügbar ist und über
mehrere Regionen verfügt. Also suche ich mir ein neues Projekt. Mein Minitab-Bildschirm sieht
ungefähr so aus. Ich habe einen Navigator
auf der linken Seite. Ich habe meinen
Ausgabebildschirm oben, ich habe mein Datenblatt, das einem Excel-Blatt sehr
ähnlich ist, mit
dem ich arbeiten kann. Ich kann diese
Blätter weiter hinzufügen und habe viele Daten. Ich kann
mit meinen Optionen viele Analysen durchführen. Wir werden grundlegende
Statistiken behandeln, Regression. Wir werden viele
grundlegende Statistiken behandeln und wir werden viele Grafiken mit
verschiedenen Datentypen
behandeln , oder? Wenn Sie also daran
interessiert waren, diese Dinge zu wissen, sollten
Sie sich auf jeden Fall
anmelden und mein Video ansehen. Ich danke dir sehr.
2. Projektarbeit: Lassen Sie uns verstehen, was
die Projektarbeit ist , die wir in diesem
Datenanalyseprogramm mit MiniTab
erledigen werden. Wie ich Ihnen bereits sagte, werden
wir mit MiniTab zusammenarbeiten. Und das ist das Minitab
, das ich verwenden werde. Ich werde
Ihnen auch ein Datenblatt zur Verfügung stellen, Ihr Projektdatenblatt, in dem ich mehrere Beispiele habe, in denen wir
Berechnungen zur Leistungsfähigkeit durchführen. Wir werden versuchen,
Distributionen zu sehen und Sie können sehen, dass es verschiedene Registerkarten
gibt. Beispiel eins Beispiel
zwei Beispiel drei, wir werden versuchen, eine
Trendanalyse durchzuführen. Wir werden versuchen,
Pareto-Charts zu sehen. Wir haben viele Daten, die mit Ihnen geteilt
wurden, was Ihnen eine
praktische Erfahrung
bei der Arbeit mit Daten bietet, oder? Also lass uns anfangen.
3. Grundlagen der Statistik: Willkommen zu unserem nächsten
wichtigen Thema, Grundlagen der Statistik. In diesem Video
erfahren Sie, was Statistik ist, was deskriptive Statistik ist und was
Inferenzstatistik Fangen wir mit
der ersten Frage an. Was ist Statistik? Statistik befasst sich
mit der Erfassung, Analyse und
Präsentation von Daten. Wenn wir beispielsweise untersuchen
wollen, ob das Geschlecht einen Einfluss
auf die bevorzugte Zeitung hat , dann sind Geschlecht und Zeitung unsere sogenannten Variablen
, die wir analysieren möchten. Um zu analysieren, ob das Geschlecht
einen Einfluss auf die
bevorzugte Zeitung hat . Wir müssen zuerst Daten sammeln. Dazu erstellen wir
einen Fragebogen, Geschlecht und
bevorzugter Zeitung
gefragt wird. Wir werden dann die
Umfrage verschicken und zwei Wochen warten. Danach können wir uns
die eingegangenen Antworten in
einer Tabelle in dieser Tabelle anzeigen lassen . Wir haben eine Spalte
für jede Variable, eine für das Geschlecht und
eine für die Zeitung. Andererseits
steht jede Zeile für die Antwort
einer Person. Zum Beispiel
ist der
erste Befragte männlich und gab
die Zeiten Indiens an Der zweite ist weiblich
und gibt an, Hindu zu sein, und so weiter Natürlich
müssen die Daten nicht aus einer Umfrage stammen. Die Daten können auch aus
einem Experiment stammen, bei dem. Sie möchten beispielsweise
die Wirkung von zwei Medikamenten
auf den Blutdruck untersuchen . Betrachten wir ein anderes Beispiel aus dem
wirklichen Leben. Stellen Sie sich vor, Sie sind
Filialleiter und möchten wissen, ob ein neues
Produktdisplay den Umsatz steigert. Sie könnten schon früher
Daten über Verkäufe sammeln. Und wenn das neue
Display eingerichtet ist, können Sie
anhand
dieser Daten die Effektivität
des Displays analysieren.
Oder nehmen Sie an, Ihr
Schulleiter möchte herausfinden, ob zusätzliche Nachhilfestunden den Schülern
helfen,
ihre Mathematikergebnisse zu verbessern Könnten Sie zuvor Ergebnisse sammeln
? Nach den Nachhilfesitzungen
, um die Auswirkungen zu analysieren. Jetzt ist der erste Schritt getan. Wir haben Daten gesammelt und können mit der Analyse der Daten beginnen. Aber was
wollen wir eigentlich analysieren? Wir haben nicht die
gesamte Bevölkerung befragt ,
sondern eine Stichprobe genommen. Die große Frage ist nun, wollen wir nur die Stichprobendaten
beschreiben oder wollen wir eine Aussage
über die gesamte Bevölkerung
treffen ? Wenn unser Ziel auf die Stichprobe selbst
beschränkt ist. Das heißt, wir wollen nur die gesammelten Daten
beschreiben. Wir werden deskriptive
Statistiken verwenden. Deskriptive Statistiken
bieten eine detaillierte Zusammenfassung
der Stichprobe Wenn wir beispielsweise
100 Personen nach ihrer
bevorzugten Zeitung befragen würden, würden
uns
deskriptive Statistiken Aufschluss darüber geben, wie viele Menschen indische oder hinduistische Zeiten
bevorzugen Wenn wir jedoch
Rückschlüsse auf die
Gesamtbevölkerung ziehen wollen Rückschlüsse auf die
Gesamtbevölkerung Wir verwenden Inferenzstatistiken. Dieser Ansatz ermöglicht es
uns,
anhand unserer Stichprobendaten
Rückschlüsse auf die Population zu anhand unserer Stichprobendaten
Rückschlüsse auf die Population Mithilfe von
Inferenzstatistiken könnten
wir beispielsweise anhand einer Stichprobe von 500 Befragten
den Anteil
aller Erwachsenen in
einer Stadt schätzen , die
eine bestimmte Zeitung bevorzugen , die
eine bestimmte Zeitung , die
eine Inferenzstatistiken können uns auch dabei helfen, festzustellen, ob eine
bestimmte demografische Gruppe,
wie das Geschlecht, die
Zeitungspräferenzen signifikant beeinflusst Durch die Analyse unserer Stichprobendaten können
wir Rückschlüsse auf die
Zeitungspräferenzen der gesamten Bevölkerung Durch die Verwendung sowohl deskriptiver
als auch inferentieller Statistiken können
wir ein tieferes
Verständnis
unserer Ergebnisse gewinnen und
fundierte Entscheidungen über
Marketingstrategien oder die Erstellung von Inhalten für In der nächsten Lektion
werden wir uns eingehender mit
praktischen Anwendungen der
Statistik befassen . Bleiben Sie dran.
4. Bedeutung von Messebenen oder Datentypen: Bedeutung der
Messebenen. Das Verständnis der
Messebene ist aus mehreren
Gründen von entscheidender Bedeutung. Angemessene Analyse. Verschiedene Messebenen erfordern unterschiedliche
statistische Techniken. Die Verwendung der falschen Methode kann zu falschen Schlussfolgerungen
führen. Interpretation der Daten. Die Kenntnis des Levels hilft, die Ergebnisse
falsch zu interpretieren. Mittelwerte sind beispielsweise für Intervall
- und Verhältnisdaten
aussagekräftig , nicht jedoch für
nominale oder ordinale Daten Visualisierung und effektive
Datenvisualisierungstechniken variieren je nach
Messebene Balkendiagramme eignen sich
für nominale Daten, während Histogramme besser
für Intervall- und Verhältnisdaten geeignet sind Lassen Sie uns näher auf die
einzelnen Messebenen eingehen. Nominales Messniveau. Nominale Variablen
kategorisieren Daten ohne
eine aussagekräftige Reihenfolge festzulegen Befragten
zum Beispiel nach der Befragten
zum Beispiel nach ihrem
Verkehrsmittel zur Schule, zum
Bus, zum Auto, zum Fahrrad
oder zu Fuß ist nominell Jede Kategorie ist unterschiedlich, aber es gibt keine inhärente
Rangfolge oder Reihenfolge zwischen ihnen. Die Analyse nominaler Daten
beinhaltet das Zählen Häufigkeiten oder die Verwendung von Balkendiagrammen zur Visualisierung von
Verteilungen Ordinale Messebene Ordinalvariablen sorgen für
eine sinnvolle Reihenfolge oder Rangfolge zwischen den Kategorien, aber die Unterschiede zwischen Rängen sind nicht Schüler beispielsweise gebeten werden,
ihre Zufriedenheit
mit ihrem Verkehrsmittel als „
sehr zufrieden“, „zufrieden“, „neutral“, „
zufrieden“
oder „sehr zufrieden“ einzustufen, zeigt dies eine
ordinale Wir können
diese Antworten zwar
von den am wenigsten zufriedenen bis hin zu den am meisten zufriedenen einordnen , der numerische Unterschied zwischen zufrieden und sehr zufrieden
ist nicht quantifizierbar Die Analyse umfasst in der Regel
Medianberechnungen und nichtparametrische Tests Messintervalle und
Mengenverhältnisse ,
metrische Variablen Intervall- und Verhältnisvariablen werden als metrische Variablen betrachtet. gemeinsam,
dass
die Intervalle zwischen den
Werten gleichmäßig verteilt sind, aber Verhältnisvariablen
haben auch einen echten Nullpunkt, sodass alle arithmetischen Beispiele hierfür sind die Messung
von Alter, Gewicht oder Einkommen. Befragten beispielsweise nach der Anzahl
der Minuten gefragt werden, die es dauert, bis sie zur
Schule kommen , werden Intervalldaten gemessen, wobei die Intervalle
zwischen den Antworten, z. B. 10 Minuten, 20 Minuten,
konsistent und aussagekräftig sind. Dies ermöglicht statistische
Messungen wie die Berechnung Durchschnittswerten und den Einsatz fortgeschrittener statistischer Techniken
wie der Regressionsanalyse Zusammenfassung.
Das Verständnis dieser Messebenen ist entscheidend für die Gestaltung von Umfragen und Auswahl geeigneter
statistischer Analysen. nominalen Daten geben uns Aufschluss über Kategorien
ohne jegliche Reihenfolge. Ordinaldaten ermöglichen eine Rangfolge, aber keine genaue
Messung von Unterschieden, und das Intervall
und das Verhältnis metrischer Daten ermöglichen präzise Messung und unterstützen eine Vielzahl
statistischer Analysen ob
Frequenztabellen,
Balkendiagramme oder Histogramme erstellt werden, die
Auswahl der richtigen Messgröße gewährleistet eine
genaue Interpretation der Daten und aussagekräftige Erkenntnisse in verschiedenen Studien- und
Forschungsbereichen Schauen wir uns die
einzelnen Messebenen genauer an. Nominaler Messpegel. Die nominalen Daten sind die
grundlegendste Messebene. Nominale Variablen
kategorisieren Daten, ermöglichen
jedoch keine aussagekräftige Rangfolge der Kategorien Zu den Beispielen gehören
Geschlecht, Mann, Frau, Tierarten, Hund, Katze, Vogel und bevorzugte Zeitungen In all diesen Fällen können
Sie
zwischen Werten unterscheiden, die
Kategorien
jedoch nicht sinnvoll einordnen Um beispielsweise zu untersuchen,
ob das Geschlecht die
bevorzugte Zeitung
beeinflusst werden nominale Variablen verwendet In einem Fragebogen würden Sie mögliche Antworten
für beide Variablen
auflisten. Da es keine inhärente Reihenfolge gibt, die Anordnung der Kategorien im Fragebogen
keine Rolle. gesammelten Daten können in
einer Tabelle dargestellt
werden , und Häufigkeitstabellen oder Balkendiagramme können verwendet werden, um die Verteilungen zu
visualisieren Ordinale Ebene der Messung. Ordinaldaten können in einer sinnvollen Reihenfolge
kategorisiert und geordnet werden, aber die Unterschiede zwischen den Rängen sind
mathematisch gesehen nicht gleich Beispiele hierfür sind
Rankings, erster ,
zweiter, dritter Platz,
Zufriedenheitswerte, sehr unzufrieden, unzufrieden, neutral,
zufrieden, sehr zufrieden,
Bildungsniveau, Gymnasium,
Bachelor, Master, in diesem Fall, obwohl die Reihenfolge aussagekräftig ,
zweiter, dritter Platz,
Zufriedenheitswerte, sehr unzufrieden,
unzufrieden, neutral,
zufrieden, sehr zufrieden,
Bildungsniveau,
Gymnasium,
Bachelor, Master,
in diesem Fall, obwohl die Reihenfolge aussagekräftig ist. Die Abstände zwischen den Rängen sind nicht unbedingt gleich. Wenn Sie beispielsweise in einem
Fragebogen gefragt werden, wie zufrieden Sie mit
Ihrem aktuellen Job sind, wobei Optionen von sehr
unzufrieden bis sehr zufrieden reichen Die Antwortkategorien
sind geordnet, aber der genaue Unterschied zwischen den einzelnen Zufriedenheitsgraden
ist nicht Bei der Analyse von
Ordinaldaten werden häufig Mediane
berechnet und nichtparametrische
Tests verwendet Intervallniveau der Messung. Intervalldaten haben gleiche
Intervalle zwischen den Werten, aber es fehlt ein echter Nullpunkt. Beispiele hierfür sind Temperaturen
in Celsius oder Fahrenheit. Intervalldaten ermöglichen
die Messung von
Unterschieden zwischen Werten Da es jedoch keine echte Null
gibt, sind
Verhältnisse nicht aussagekräftig. Statistische Operationen
wie die Berechnung von Durchschnittswerten und die Verwendung von Techniken wie Regressionsanalyse
sind möglich Verhältnis, Ebene der Messung. Verhältnisdaten weisen gleiche
Intervalle zwischen den Werten auf und beinhalten
einen echten Nullpunkt. Beispiele hierfür sind Alter,
Gewicht oder Einkommen, da Verhältnisdaten eine echte Null
enthalten. Alle arithmetischen
Operationen sind gültig. Diese Stufe ermöglicht die
Berechnung von Verhältnissen und
Durchschnittswerten und ermöglicht die Verwendung fortgeschrittener
statistischer Methoden Oh. Was wir
bisher anhand eines Beispiels gelernt haben . Stellen Sie sich vor, Sie
führen eine Umfrage in einer Schule durch, um zu verstehen,
wie Schüler zur Schule kommen. Hier sind Fragen, die
Sie stellen könnten. Jedes entspricht einer
anderen Messebene. Die erste Frage könnte sein, welchem Verkehrsmittel fahren Sie zur Schule? Zu den Optionen könnten Bus, Auto, Fahrrad oder zu Fuß gehören. Dies ist eine nominale Variable. Die Antworten können kategorisiert werden, aber es gibt keine
sinnvolle Reihenfolge. Das bedeutet, dass der Bus
nicht höher ist als das Fahrrad. Gehen ist nicht höher
als Auto und so weiter. Wenn Sie die
Ergebnisse dieser Frage analysieren möchten, können
Sie zählen, wie viele
Schüler jedes
Verkehrsmittel nutzen , und
dies in einem Balkendiagramm darstellen. Als Nächstes fragen Sie sich vielleicht, wie zufrieden Sie mit
Ihrem aktuellen Verkehrsmittel
sind . Folgende Optionen stehen zur Auswahl:
sehr unzufrieden, unzufrieden, neutral,
zufrieden oder sehr zufrieden Dies ist eine ordinale Variable. Sie können die Antworten in eine Rangfolge einordnen,
um zu sehen, mit welchem Verkehrsmittel
die Zufriedenheit
höher bewertet Aber der genaue Unterschied zwischen zufrieden und sehr zufrieden. Zum Beispiel ist
nicht quantifizierbar. Zur letzten Frage:
Wie viele Minuten brauchst du, um zur Schule zu kommen? Hier sind Minuten bis zur
Schule eine metrische Variable. Sie können die durchschnittliche
Zeit berechnen, die benötigt wird, um zur
Schule zu gehen, und dabei alle gängigen
statistischen Messgrößen verwenden. Wir können diese Daten mit
einem Histogramm visualisieren , das die
Verteilung der Zeiten zeigt den Schulweg
benötigt werden, und die verschiedenen
Verkehrsmittel miteinander vergleichen Anhand nominaler Daten können
wir also die Antworten kategorisieren
und zählen, aber wir können keine Reihenfolge ableiten Ordinaldaten ermöglichen es
uns, Antworten zu ordnen, aber keine genauen
Unterschiede zwischen den Rängen zu messen Metrische Daten ermöglichen es
uns,
genaue Unterschiede
zwischen Datenpunkten zu messen genaue Unterschiede
zwischen Datenpunkten Wie bereits erwähnt, können metrische
Messebenen weiter in
Intervallskalen und Verhältnisskalen unterteilt
werden Intervallskalen und Verhältnisskalen Aber was ist der Unterschied zwischen Intervall
- und Verhältnisniveaus Lassen Sie uns den
Unterschied zwischen den
Messstufen Intervall
und Verhältnis anhand eines Beispiels untersuchen . Messniveau im Vergleich zum Verhältnis zwischen Intervall und Verhältnis. Bei einem Marathon dient die
Zeit, die Läufer benötigen , um das Rennen zu beenden,
als praktisches Beispiel. Stellen Sie sich ein Szenario vor, in
dem der
schnellste Läufer in 2 Stunden und der
langsamste in 6 Stunden ins Ziel So klassifizieren wir das Messniveau
anhand der bereitgestellten Informationen Verhältnis des Messniveaus. Ein Verhältnismaß
ist dadurch gekennzeichnet, dass es einen echten Nullpunkt hat, wobei Null das Fehlen
der zu messenden Menge
bedeutet. Im Marathon-Beispiel starten
alle Läufer zu Beginn des Rennens zur gleichen 0,0-Zeit. Mit einem echten Nullpunkt können
wir aussagekräftige
Vergleiche anstellen und beispielsweise feststellen, dass der schnellste Läufer
dreimal weniger Zeit benötigt hat als der langsamste Läufer, nämlich 2 Stunden gegenüber 6 Stunden Diese Stufe ermöglicht sinnvolle Multiplikations
- und Divisionsoperationen Wenn zum Beispiel
ein Läufer
in 4 Stunden und
ein anderer in 12 Stunden fertig ist, können
wir genau sagen, dass der erste Läufer
dreimal schneller war als der zweite Intervallniveau der Messung. Bei einer Intervallmessung
fehlt ein echter Nullpunkt. im Marathonkontext Wenn im Marathonkontext die Stoppuhr zu
spät startet und wir nur
die Zeitunterschiede zum schnellsten
Läufer messen die Zeitunterschiede zum ,
der pünktlich gestartet ist, verlieren
wir die echte Nullreferenz. Obwohl die Intervalle zwischen den
Werten immer noch
gleichmäßig verteilt sind und
arithmetische Operationen wie Addition und
Subtraktion gültig sind, sind Multiplikation und beispielsweise sinnvoll zu sagen, dass ein Läufer 4 Stunden vor einem anderen ins
Ziel Wir können jedoch nicht sagen, dass
ein Läufer viermal
schneller war als ein anderer, ohne die Gesamtzeit für beide
zu kennen. Zusammenfassend lässt sich sagen, dass die
Messung auf Intervallebene
gleiche Intervalle
zwischen den Werten ermöglicht und Operationen wie
Addition und Subtraktion
unterstützt, aber keinen echten Nullpunkt besitzt , der
für aussagekräftige Verhältnisse erforderlich ist Nun eine kleine Übung, um zu überprüfen, ob dir alles klar
ist Erstens haben wir den Bundesstaat USA, was eine nominale
Messgröße ist. Das bedeutet, dass die Daten zur Kennzeichnung oder Benennung von Kategorien ohne quantitativen Wert verwendet werden. In diesem Fall handelt es sich bei den Staaten um
Namen ohne inhärente
Reihenfolge oder Rangfolge. Als Nächstes haben wir
Produktbewertungen auf einer Skala von 1—5. Dies ist ein Beispiel für
Ordinaldaten. Hier
haben die Zahlen eine Reihenfolge oder einen Rang. Fünf ist besser als eins, aber die Abstände zwischen den Bewertungen sind nicht
unbedingt gleich. Kommen wir nun zu den Namen von Abteilungen
wie Beschaffung, Vertrieb, Betrieb und Finanzen. Auch
das ist nominell gemeint. Die hier verwendeten Kategorien, z.
B. verschiedene Abteilungen dienen der Kategorisierung und implizieren
keine Reihenfolge Als nächstes haben wir die
CO2-Emissionen in einem Jahr, die anhand
eines metrischen Verhältnisses gemessen werden. Dieses Niveau ermöglicht
das gesamte Spektrum
mathematischer Operationen,
einschließlich aussagekräftiger Kennzahlen. Nullemissionen bedeuten überhaupt
keine Emissionen. Dann haben wir Telefonnummern. Telefonnummern sind zwar numerisch, werden aber als Nennnummern eingestuft. Sie sind lediglich Identifikatoren
ohne numerischen Wert für die Analyse Das Komfortniveau ist
ein weiteres ordinales Beispiel. Dazu könnten Stufen
wie niedrige, mittlere
und hohe Pflegestufe gehören , die zwar
auf eine Reihenfolge hinweisen, aber nicht den genauen Unterschied
zwischen diesen Stufen Wohnfläche in Quadratmetern wird auf einer Verhältnisskala gemessen. Wie bei den CO2-Emissionen bedeuten
Quadratmeter, dass es keine Wohnfläche
gibt und Vergleiche wie das Doppelte
oder die Hälfte sind aussagekräftig. Schließlich haben wir die
Arbeitszufriedenheit auf einer Skala von 1—4 angegeben. Das sind Ordinaldaten. Dabei werden die Zufriedenheitsgrade eingestuft, der Unterschied zwischen den
einzelnen Stufen wird
jedoch nicht quantifiziert In der nächsten Lektion
werden wir uns eingehender praktischen Anwendungen der Versuchsplanung befassen.
Bleib dran.
5. Maße der Mitte und Maße der Dispersion: Lassen Sie uns beide Methoden untersuchen, beginnend mit
deskriptiven Statistiken Warum ist deskriptive
Statistik wichtig? Zum Beispiel, wenn ein Unternehmen verstehen
möchte, wie seine
Mitarbeiter zur Arbeit pendeln Es kann eine Umfrage erstellen, um diese Informationen zu
sammeln. Sobald genügend Daten gesammelt wurden, können
sie mithilfe
deskriptiver Statistiken analysiert werden Was genau ist
deskriptive Statistik?
Ihr Zweck besteht darin, einen Datensatz auf sinnvolle
Weise zu beschreiben und zusammenzufassen Es ist jedoch wichtig zu beachten, dass deskriptive
Statistiken nur
die gesammelten Daten widerspiegeln und
keine Rückschlüsse auf
eine größere Mit anderen Worten, wenn wir wissen,
wie einige Mitarbeiter in einem Unternehmen pendeln,
können wir uns keine Sorgen darüber machen, wie es
allen Arbeitnehmern Um
Daten deskriptiv zu beschreiben, konzentrieren
wir uns nun auf vier Hauptkomponenten Messungen der zentralen Tendenz, Streuungsmaße,
Häufigkeitstabellen und Diagramme Beginnen wir mit Messgrößen für
die zentrale Tendenz, zu denen der Mittelwert, der
Median und mehr gehören Zunächst wird der Mittelwert, das arithmetische
Mittel, berechnet, indem alle Beobachtungen
addiert
und durch die
Anzahl der Beobachtungen dividiert werden Wenn wir beispielsweise die
Testergebnisse von fünf Schülern haben, summieren
wir die Ergebnisse
und dividieren sie durch fünf, um zu ermitteln dass das durchschnittliche
Testergebnis 86,6 beträgt Als nächstes folgt der Median. Wenn die Werte in einem Datensatz in aufsteigender Reihenfolge angeordnet
sind, ist
der Median der mittlere Wenn es eine ungerade
Anzahl von Datenpunkten gibt, ist
es einfach der mittlere Wert Wenn es eine gerade Zahl gibt, ist
der Median der Durchschnitt
der beiden Mittelwerte Ein wichtiger Aspekt
des Medians ist, dass er gegen
Extremwerte oder
Ausreißer resistent ist Extremwerte oder
Ausreißer resistent Zum Beispiel, unabhängig
davon, wie groß, die letzte Person
in einem hohen Datensatz ist Der Median bleibt gleich. Der Mittelwert kann sich aufgrund
dieses Werts zwar
erheblich ändern , der Median bleibt jedoch
unabhängig von der Körpergröße der
letzten Person unverändert unabhängig von der Körpergröße der
letzten Person Das bedeutet, dass er nicht von
Ausreißern beeinflusst wird. Im Gegensatz dazu können sich die Männer je
nach Größe der letzten Person
erheblich verändern , sodass sie empfindlich auf Ausreißer reagiert Lassen Sie uns nun den Modus besprechen. Der Modus ist der Wert oder die Werte , die in einem Datensatz am
häufigsten vorkommen. Wenn beispielsweise 14 Personen mit dem Auto, sechs mit dem Fahrrad,
fünf zu Fuß und fünf
Personen mit öffentlichen Verkehrsmitteln
pendeln , ist das Auto der Modus, da
er am häufigsten vorkommt Als Nächstes gehen wir zu den
Streuungsmaßen über, die beschreiben, wie
weit die Werte in
einem Datensatz verteilt sind Zu den wichtigsten Messgrößen für die Streuung
gehören Varianten. Bereich der Standardabweichung
und interquatler Bereich, beginnend mit der
Standardabweichung Sie gibt die
durchschnittliche Entfernung zwischen den einzelnen
Datenpunkten und dem Dies sagt uns, um wie
viel einzelne Datenpunkte
vom Durchschnitt abweichen Wenn die
durchschnittliche Abweichung
vom Mittelwert beispielsweise 11,5 Zentimeter beträgt, können
wir die
Standardabweichung anhand der Formel berechnen Standardabweichung anhand der Sigma entspricht der Quadratwurzel der Summe
der einzelnen Werte
minus dem Mittelwert Quadriert, geteilt durch n, wobei Sigma die Standardabweichung ist N ist die Anzahl der Personen. X sub i ist der Wert jedes
Individuums und x bar ist der Mittelwert. Es ist wichtig zu
beachten, dass es
zwei Formeln für die
Standardabweichung gibt . Eine dividiert durch n, während die andere
durch n minus eins dividiert Letzteres wird verwendet,
wenn unsere Stichprobe nicht die
gesamte Population abdeckt, z. B. in klinischen Studien Letzteres wird verwendet
, wenn unsere Stichprobe nicht die
gesamte Population abdeckt, z. B. in klinischen Studien. Wie unterscheidet sich nun die
Standardabweichung von der Varianz? Die Standardabweichung misst die durchschnittliche Entfernung
vom Mittelwert Dabei ist die Varianz einfach der quadrierte Wert
der Standardabweichung Lassen Sie uns als Nächstes den Bereich
und den ganzzahligen Bereich besprechen. Der Bereich ist die
Differenz zwischen
den Maximal- und
Minimalwerten in einem Datensatz Andererseits stellt der Ungleichheitsbereich
die mittleren
50% der Daten
dar,
berechnet als Differenz
zwischen dem ersten Quartil , Q eins, und dem dritten Quartil, qu Das bedeutet, dass 25%
der Werte
unter und 25% über dem Interquartilbereich liegen unter Bevor wir zu
den letzten Punkten übergehen, wollen wir kurz
diese Konzepte,
Maße der zentralen Tendenz
und Maße der Streuung, miteinander vergleichen Maße der zentralen Tendenz
und Maße der Streuung Betrachten wir die Messung des
Blutdrucks von Patienten. Messungen der zentralen
Tendenz liefern einen einzigen Wert,
der den gesamten Datensatz repräsentiert. Hilft dabei,
einen zentralen Punkt zu identifizieren ,
um den sich
Datenpunkte tendenziell gruppieren. Andererseits
geben
Streuungsmaße
wie Standardabweichung, wie Standardabweichung, Reichweite und Inteqatile-Bereich an Reichweite und Inteqatile-Bereich an, wie weit
die Datenpunkte verteilt Ob sie eng um das Zentrum
herum gruppiert oder
weit verstreut sind Zentrum
herum gruppiert oder
weit verstreut Zusammenfassend lässt sich sagen, dass Messungen der
zentralen Tendenz zwar den zentralen Punkt
des Datensatzes hervorheben , Streuungsmaße jedoch
beschreiben, wie die Daten
um dieses Zentrum herum verteilt sind. Gehen wir nun zu den Tabellen über konzentrieren uns dabei auf die
wichtigsten Typen, Häufigkeitstabellen und
Kontingenztabellen Eine Häufigkeitstabelle
zeigt, wie oft jeder einzelne Wert in einem Datensatz
vorkommt Beispielsweise
befragte ein Unternehmen seine Mitarbeiter zu
ihren Pendelmöglichkeiten,
dem Auto, dem Fahrrad, zu Fuß
und zu den öffentlichen Verkehrsmitteln Hier sind die Ergebnisse von 30 Mitarbeitern mit
ihren Antworten Wir können eine
Häufigkeitstabelle erstellen, um
diese Daten zusammenzufassen , indem wir
die vier Optionen in
der ersten Spalte auflisten die vier Optionen in
der ersten Spalte und ihre
Häufigkeit anhand der Tabelle zählen Es liegt auf der Hand, dass die
Arbeitnehmer
am häufigsten mit dem Auto reisen Mit 14 Mitarbeitern, die
sich für diese Option entscheiden. Die Häufigkeitstabelle bietet eine kurze Zusammenfassung der Daten Aber was ist, wenn wir
statt einer zwei
kategorialen Variablen haben statt einer zwei
kategorialen Variablen Hier kommt eine
Kontingenztabelle ins Spiel, auch
Kreuztabelle genannt Stellen Sie sich vor, das Unternehmen
hat zwei Fabriken, eine in Detroit und eine
weitere in Cleveland? Wenn wir die Mitarbeiter
auch nach ihrem Arbeitsort fragen, können
wir beide Variablen
anhand einer Kontingenztabelle anzeigen Diese Tabelle ermöglicht es uns, die Beziehung
zwischen
den beiden
kategorialen Variablen zu
analysieren und zu vergleichen zwischen
den beiden
kategorialen Die Zeilen stellen die
Kategorien einer Variablen dar. Während die Spalten
die Kategorien der anderen darstellen, zeigt
jede Zelle in der Tabelle die Anzahl der Beobachtungen, die in
die entsprechende
Kategorienkombination passen . Beispielsweise
gibt die erste Zelle an, wie viele
Mitarbeiter mit
dem Auto pendeln , und die Arbeit in Detroit
wurde sechsmal gemeldet Danke. Wir sehen uns in der nächsten Statistikstunde.
6. Minitab: In diesem Kurs
lernen wir etwas über Hypothesentests. Ich werde Ihnen das
Testen von Hypothesen mit MiniTab beibringen. Ich werde Ihnen auch das Testen von
Hypothesen
mit Microsoft Office beibringen . Das verwendet Excel und Microsoft Office für
diejenigen , die sich
für MiniTab interessieren. Lassen Sie mich Ihnen zeigen, von wo
Sie Minitab herunterladen können. Minitab.com unter Downloads. Hier kommen wir zum
Downloadbereich. Sie haben die
Statistiksoftware MiniTab, 30 Tage lang kostenlos verfügbar
ist. Ich habe auch die
Testversion auf mein System
und die Dando-Analyse heruntergeladen und
gezeigt, dass Sie sie Ihnen gezeigt haben. Denken Sie daran, dass es nur 30 Tage
lang verfügbar ist. Bitte stellen Sie sicher
, dass Sie
das gesamte Schulungsprogramm
innerhalb der ersten 30 Tage abschließen. Wenn Sie den Wert darin spüren, sollten
Sie auf jeden Fall die lizenzierte
Version von MiniTab verwenden, die hier verfügbar ist. Ich muss nur auf Herunterladen klicken
und Woodstock herunterladen. Es beginnt mit einer
kostenlosen 30-Tage-Testversion. Und es ist gut
genug Zeit um alle
Übungen zu üben, die angetrieben werden. Sie werden
nach einigen persönlichen
Daten gefragt , damit sie sich mit Ihnen in Verbindung setzen können und
Ihnen mit einigen Rabatten helfen können. Falls es welche gibt. Sie haben einen Bereich namens Dr. MiniTab oder Sie haben
eine Telefonnummer. Wenn Sie aus Großbritannien anrufen
, können
Sie dort leicht anrufen. Wenn Sie jedoch
von anderen Orten aus
sprechen, ist es
viel einfacher, mit MiniTab zu sprechen. Dies ist ein sehr gutes
statistisches Tool und sie aktualisieren die
Funktionen regelmäßig. Ich persönlich bin der Meinung, dass sich diese Investition lohnen
wird. Aber für diejenigen, die
es sich nicht leisten können, sich für die Lizenz zu entscheiden , können
sie Microsoft Office verwenden zumindest einige der Funktionen, nicht alle, aber einige der
Funktionen sind verfügbar. Zunächst werde ich Ihnen
die gesamte Übung
verschiedener Arten von
Hypothesen mit MiniTab zeigen die gesamte Übung
verschiedener Arten von . Und dann werden wir zu Microsoft Excel
übergehen, Verbindung
bleiben und
weiter lernen.
7. Deskriptive Statistik: In der heutigen Sitzung werden wir
uns deskriptiven Statistiken befassen. Deskriptive Statistik
bedeutet, dass ich die Maße des Zentrums
verstehen möchte . Wie Maße für den
mittleren, mittleren, mittleren Modus. Ich möchte die
Maße der Ausbreitung verstehen. Das ist nichts als Bereich, Standardabweichung
und Varianz. Nehmen wir einfache
Daten, die ich habe. Ich habe eine Zykluszeit in Minuten für fast 100 Datenpunkte. Ich werde
die Zykluszeit in Minuten aus meinem
Tagesprojektdatenblatt entnehmen. Ich gehe zu MiniTab und füge meine Daten dort ein, wo ich
hier
beschreibende Statistiken erstellen möchte. Statistiken. Klicken Sie auf Standardstatistiken und sagen Sie
Deskriptive Statistik anzeigen. Wenn ich das mache, gibt es mir im Popup-Fenster
eine Option namens, die mir die verfügbaren
Datenfelder anzeigt, die ich habe. Ich habe eine Zykluszeit in Minuten. Es sagt
mir also, dass ich die variable
Zykluszeit in Minuten
analysieren möchte . Ich klicke einfach auf Okay, und
das findest du sofort in meinem Ausgabefenster. Ich kann das einfach runterziehen. In meinem Ausgabefenster. Es zeigt mir
, dass es
einige statistische Analysen für
die variable
Zykluszeit in Minuten durchgeführt hat einige statistische Analysen für . Ich habe 100
Datenpunkte hier. Die Anzahl der fehlenden Werte ist 0. Der Mittelwert ist 10,064. Standardfehler des Mittelwerts beträgt 0,103, Standardabweichung beträgt 1
bis der Mindestwert 7,5. Eins ist nichts als dein
Quartil eins ist 9.1. Median, das heißt,
Ihr Q2 ist 10,35, Q3 ist 10,868 und der
Maximalwert ist 12,490. Wenn ich mehr
statistische Analysen benötige, kann
ich diese Analyse
wiederholen. Dieses Mal
klicke ich auf Statistiken. Und ich kann mir die anderen
Datenpunkte ansehen, die ich brauche. Angenommen, ich brauche den Bereich, brauche
ich keinen Standardfehler, ich brauche einen
Interquartilbereich. Ich möchte herausfinden,
wie die Stimmung ist. Ich möchte herausfinden, was
die Schiefe ist und welche Daten ich habe. Was ist die Kurtosis in meinen Daten? Ich kann alles auswählen und sagen, okay, ich klicke auf Okay. Wenn ich das mache, werden alle anderen
statistischen Parameter, die ich ausgewählt habe,
in meinem Ausgabefenster angezeigt. Das ist mein Ausgabefenster. Also sagt es mir wieder zusätzlichen Datenpunkt
, den ich ausgewählt habe. Radius ist also nichts anderes als Ihre
Standardabweichung im Quadrat. Sie ist 0,0541. Es sagt mir den Bereich
, der maximal minus minimal ist. Es ist 4,95. Interquartilbereich liegt bei 1,707. In meinen Daten gibt es keinen Modus. Und die Anzahl der Datenpunkte bei
0, weil es keine mehr gibt, die Daten nicht verzerrt. Die Werte liegen sehr nahe bei 0, sie sind 0,05, aber
es gibt eine Kurtosis. Das bedeutet, dass meine Daten nicht als arbeitslos
angezeigt werden. So gut, wir wollen sehen,
wie meine Distribution aussieht. Lass uns das machen. Ich klicke auf Statistiken, ich klicke auf Basisstatistiken und dann auf
grafische Zusammenfassung. Ich wähle die
Zykluszeit in Minuten aus. Und ich sage, ich möchte ein
95% -Konfidenzintervall sehen. Ich klicke auf Okay,
lass uns die Ausgabe sehen. Die Zusammenfassung der
Zyklus-Diamantminuten. Es zeigt mir den Mittelwert, die
Standardabweichung, die Varianz. Alle Statistik-Dinge
werden auf
der rechten Seite angezeigt. Mittelwert, Standardabweichung,
Varianz, Schiefe, Kurtosis, Anzahl der Datenpunkte
minimaler
Median des ersten Quartils , Maximum des dritten Quartils. Diese Datenpunkte, die Sie als Minimum Q1, Median,
Q3 und Maximum
sehen , werden im Boxplot
behandelt. Das Boxplot wird
mithilfe dieser Datenpunkte gerahmt. Und wenn Sie sich den Klettverschluss ansehen, heißt
es, dass die Glocke
keine steile Kurve ist, sondern eine etwas dickere Kurve, und daher ist der
Kurtosis-Wert ein negativer Wert. Wir werden im nächsten Video
weiter
im Detail lernen . Danke.
8. Beschreibende vs. Inferenzstatistiken: Lassen Sie uns beide Methoden untersuchen, beginnend mit der
deskriptiven Statistik Warum ist deskriptive
Statistik wichtig? Zum Beispiel, wenn ein Unternehmen verstehen
möchte, wie seine
Mitarbeiter zur Arbeit pendeln Es kann eine Umfrage erstellen, um diese Informationen zu
sammeln. Sobald genügend Daten gesammelt wurden, können
sie mithilfe
deskriptiver Statistiken analysiert werden Was genau ist
deskriptive Statistik?
Ihr Zweck besteht darin, einen Datensatz auf sinnvolle
Weise zu beschreiben und zusammenzufassen Es ist jedoch wichtig zu beachten, dass deskriptive
Statistiken nur
die gesammelten Daten widerspiegeln und
keine Rückschlüsse auf
eine größere Mit anderen Worten, wenn wir wissen,
wie einige Mitarbeiter in einem Unternehmen pendeln,
können wir uns keine Sorgen darüber machen, wie es
allen Arbeitnehmern Um
Daten deskriptiv zu beschreiben, konzentrieren
wir uns nun auf vier Hauptkomponenten Messungen der zentralen Tendenz, Streuungsmaße,
Häufigkeitstabellen und Diagramme Beginnen wir mit Messgrößen für
die zentrale Tendenz, zu denen der Mittelwert, der
Median und mehr gehören Zunächst wird der Mittelwert, das arithmetische
Mittel, berechnet, indem alle Beobachtungen
addiert
und durch die
Anzahl der Beobachtungen dividiert werden Wenn wir beispielsweise die
Testergebnisse von fünf Schülern haben, summieren
wir die Ergebnisse
und dividieren sie durch fünf, um zu ermitteln dass das durchschnittliche
Testergebnis 86,6 beträgt Als nächstes folgt der Median. Wenn die Werte in einem Datensatz in aufsteigender Reihenfolge angeordnet
sind, ist
der Median der mittlere Wenn es eine ungerade
Anzahl von Datenpunkten gibt, ist
es einfach der mittlere Wert Wenn es eine gerade Zahl gibt, ist
der Median der Durchschnitt
der beiden Mittelwerte Ein wichtiger Aspekt
des Medians ist, dass er gegen
Extremwerte oder
Ausreißer resistent ist Extremwerte oder
Ausreißer resistent Zum Beispiel, unabhängig
davon, wie groß, die letzte Person
in einem hohen Datensatz ist Der Median bleibt gleich. Der Mittelwert kann sich aufgrund
dieses Werts zwar
erheblich ändern , der Median bleibt jedoch
unabhängig von der Körpergröße der
letzten Person unverändert unabhängig von der Körpergröße der
letzten Person Das bedeutet, dass er nicht von
Ausreißern beeinflusst wird. Im Gegensatz dazu können sich die Männer je
nach Größe der letzten Person
erheblich verändern , sodass sie empfindlich auf Ausreißer reagiert Lassen Sie uns nun den Modus besprechen. Der Modus ist der Wert oder die Werte , die in einem Datensatz am
häufigsten vorkommen. Wenn beispielsweise 14 Personen mit dem Auto, sechs mit dem Fahrrad,
fünf zu Fuß und fünf
Personen mit öffentlichen Verkehrsmitteln
pendeln , ist das Auto der Modus, da
er am häufigsten vorkommt Als Nächstes gehen wir zu den
Streuungsmaßen über, die beschreiben, wie
weit die Werte in
einem Datensatz verteilt sind Zu den wichtigsten Messgrößen für die Streuung
gehören Varianten. Bereich der Standardabweichung
und interquatler Bereich, beginnend mit der
Standardabweichung Sie gibt die
durchschnittliche Entfernung zwischen den einzelnen
Datenpunkten und dem Dies sagt uns, um wie
viel einzelne Datenpunkte
vom Durchschnitt abweichen Wenn die
durchschnittliche Abweichung
vom Mittelwert beispielsweise 11,5 Zentimeter beträgt, können
wir die
Standardabweichung anhand der Formel berechnen Standardabweichung anhand der Sigma entspricht der Quadratwurzel der Summe
der einzelnen Werte
minus dem Mittelwert Quadriert, geteilt durch n, wobei Sigma die Standardabweichung ist N ist die Anzahl der Personen. X sub i ist der Wert jedes
Individuums und x bar ist der Mittelwert. Es ist wichtig zu
beachten, dass es
zwei Formeln für die
Standardabweichung gibt . Eine dividiert durch n, während die andere
durch n minus eins dividiert Letzteres wird verwendet,
wenn unsere Stichprobe nicht die
gesamte Population abdeckt, z. B. in klinischen Studien Letzteres wird verwendet
, wenn unsere Stichprobe nicht die
gesamte Population abdeckt, z. B. in klinischen Studien. Wie unterscheidet sich nun die
Standardabweichung von der Varianz? Die Standardabweichung misst die durchschnittliche Entfernung
vom Mittelwert Dabei ist die Varianz einfach der quadrierte Wert
der Standardabweichung Lassen Sie uns als Nächstes den Bereich
und den ganzzahligen Bereich besprechen. Der Bereich ist die
Differenz zwischen
den Maximal- und
Minimalwerten in einem Datensatz Andererseits stellt der Ungleichheitsbereich
die mittleren
50% der Daten
dar,
berechnet als Differenz
zwischen dem ersten Quartil , Q eins, und dem dritten Quartil, qu Das bedeutet, dass 25%
der Werte
unter und 25% über dem Interquartilbereich liegen unter Bevor wir zu
den letzten Punkten übergehen, wollen wir kurz
diese Konzepte,
Maße der zentralen Tendenz
und Maße der Streuung, miteinander vergleichen Maße der zentralen Tendenz
und Maße der Streuung Betrachten wir die Messung des
Blutdrucks von Patienten. Messungen der zentralen
Tendenz liefern einen einzigen Wert,
der den gesamten Datensatz repräsentiert. Hilft dabei,
einen zentralen Punkt zu identifizieren ,
um den sich
Datenpunkte tendenziell gruppieren. Andererseits
geben
Streuungsmaße
wie Standardabweichung, wie Standardabweichung, Reichweite und Inteqatile-Bereich an Reichweite und Inteqatile-Bereich an, wie weit
die Datenpunkte verteilt Ob sie eng um das Zentrum
herum gruppiert oder
weit verstreut sind Zentrum
herum gruppiert oder
weit verstreut Zusammenfassend lässt sich sagen, dass Messungen der
zentralen Tendenz zwar den zentralen Punkt
des Datensatzes hervorheben , Streuungsmaße jedoch
beschreiben, wie die Daten
um dieses Zentrum herum verteilt sind. Gehen wir nun zu den Tabellen über konzentrieren uns dabei auf die
wichtigsten Typen, Häufigkeitstabellen und
Kontingenztabellen Eine Häufigkeitstabelle
zeigt, wie oft jeder einzelne Wert in einem Datensatz
vorkommt Beispielsweise
befragte ein Unternehmen seine Mitarbeiter zu
ihren Pendelmöglichkeiten,
dem Auto, dem Fahrrad, zu Fuß
und zu den öffentlichen Verkehrsmitteln Hier sind die Ergebnisse von 30 Mitarbeitern mit
ihren Antworten Wir können eine
Häufigkeitstabelle erstellen, um
diese Daten zusammenzufassen , indem wir
die vier Optionen in
der ersten Spalte auflisten die vier Optionen in
der ersten Spalte und ihre
Häufigkeit anhand der Tabelle zählen Es liegt auf der Hand, dass die
Arbeitnehmer
am häufigsten mit dem Auto reisen Mit 14 Mitarbeitern, die
sich für diese Option entscheiden. Die Häufigkeitstabelle bietet eine kurze Zusammenfassung der Daten Aber was ist, wenn wir
statt einer zwei
kategorialen Variablen haben statt einer zwei
kategorialen Variablen Hier kommt eine
Kontingenztabelle ins Spiel, auch
Kreuztabelle genannt Stellen Sie sich vor, das Unternehmen
hat zwei Fabriken, eine in Detroit und eine
weitere in Cleveland? Wenn wir die Mitarbeiter
auch nach ihrem Arbeitsort fragen, können
wir beide Variablen
anhand einer Kontingenztabelle anzeigen Diese Tabelle ermöglicht es uns, die Beziehung
zwischen
den beiden
kategorialen Variablen zu
analysieren und zu vergleichen zwischen
den beiden
kategorialen Die Zeilen stellen die
Kategorien einer Variablen dar. Während die Spalten
die Kategorien der anderen darstellen, zeigt
jede Zelle in der Tabelle die Anzahl der Beobachtungen, die in
die entsprechende
Kategorienkombination passen . Beispielsweise
gibt die erste Zelle an, wie viele
Mitarbeiter mit
dem Auto pendeln , und die Arbeit in Detroit
wurde sechsmal gemeldet Danke. Wir sehen uns in der nächsten Statistikstunde.
9. Konzepte von Inferenzstatistiken Teil 2: Lassen Sie uns in die
Inferenzstatistik eintauchen. Wir beginnen mit einem kurzen
Überblick darüber, was es ist. Gefolgt von einer Erläuterung
der sechs Schlüsselkomponenten. Was ist also
Inferenzstatistik? Sie ermöglicht es uns, anhand von
Daten aus
einer Stichprobe
Rückschlüsse auf eine Population Zur Verdeutlichung: Die Population ist die gesamte Gruppe, an der
wir interessiert sind. Wenn
wir zum Beispiel
die durchschnittliche Körpergröße aller
Erwachsenen in den Vereinigten Staaten untersuchen wollen , umfasst
unsere Bevölkerung
alle Erwachsenen des Landes. Bei der Stichprobe
handelt es sich dagegen um eine kleinere Teilmenge
aus dieser Population Wenn wir beispielsweise
150 Erwachsene aus den USA auswählen, können
wir anhand dieser Stichprobe
Rückschlüsse auf die breitere Nun, hier sind die sechs Schritte, die
zu diesem Prozess gehören. Hypothese. Wir beginnen
mit einer Hypothese. Welche Aussage wollen
wir testen? Zum Beispiel
möchten wir vielleicht untersuchen, ob ein Medikament den
Blutdruck bei Menschen
mit Hypotonie positiv beeinflusst Blutdruck bei Menschen
mit Hypotonie Oh, in diesem Fall besteht
unsere Population aus allen Personen mit hohem
Blutdruck in den USA,
da es nicht praktikabel ist, Daten von der gesamten Bevölkerung zu sammeln Daten von der Wir verlassen uns auf eine Stichprobe, um anhand unserer Stichprobe
Rückschlüsse auf die
Population Wir verwenden Hypothesentests. Dies ist eine Methode, die verwendet wird, um eine Aussage über
einen Populationsparameter auf der
Grundlage von Stichprobendaten zu
bewerten . Es sind verschiedene
Hypothesentests verfügbar, und das am Ende dieses Videos. Ich werde dir zeigen, wie du den richtigen
auswählst. Wie funktioniert das
Testen von Hypothesen? Wir beginnen mit einer
Forschungshypothese. Auch bekannt als
Alternativhypothese
, für die wir in unserer Studie nach
Beweisen suchen. Wird auch als
Alternativhypothese bezeichnet. Dafür versuchen wir Beweise
zu finden. In unserem Fall
lautet die Hypothese , dass das Medikament den Blutdruck
beeinflusst. Wir können dies jedoch nicht direkt mit einem klassischen
Hypothesentest testen. Also testen wir die
gegenteilige Hypothese, dass das Medikament keinen
Einfluss auf den Blutdruck hat. Hier ist der Prozess. Erstens,
nimm die Nein-Hypothese an. Wir gehen davon aus, dass das Medikament keine Wirkung
hat, was bedeutet, dass
Menschen, die das Medikament einnehmen und solche, die nicht den
gleichen durchschnittlichen Blutdruck haben. T, sammle und
analysiere Probendaten. Wir nehmen eine Zufallsstichprobe. Wenn das Medikament in der Probe eine große
Wirkung zeigt, bestimmen
wir dann die
Wahrscheinlichkeit, eine
solche oder eine Probe zu ziehen ,
die noch stärker abweicht, wenn das Medikament tatsächlich keine Wirkung
hat,
oder eine, die noch stärker abweicht, wenn das Medikament tatsächlich keine Wirkung
hat,
T, bewerten den
Wahrscheinlichkeits-p-Wert Wenn die Wahrscheinlichkeit, ein
solches Ergebnis unter der
Nullhypothese zu beobachten , sehr gering ist Wir erwägen die Möglichkeit , dass das Medikament
eine Wirkung hat. Wenn wir genügend Beweise haben, können
wir die
Nullhypothese zurückweisen. Der p-Wert ist die
Wahrscheinlichkeit, der die Stärke der Beweise
gegen die Nullhypothese gemessen wird. Zusammenfassend besagt die
Nullhypothese, es keinen Unterschied
in der Grundgesamtheit
gibt, und der Hypothesentest
berechnet, wie wahrscheinlich es ist die Stichprobenergebnisse beobachtet wenn die Nullhypothese wahr ist Wir wollen Beweise für
unsere Forschungshypothese finden. Das Medikament beeinflusst den Blutdruck. Wir können dies jedoch nicht
direkt testen, also testen wir die entgegengesetzte
Hypothese, die Nullhypothese. Das Medikament hat keine Wirkung
auf den Blutdruck. So funktioniert es. Gehen Sie von der Nein-Hypothese aus. Gehen Sie davon aus, dass das Medikament keine Wirkung hat. heißt, Menschen, die das Medikament
einnehmen, und Menschen, die nicht den
gleichen durchschnittlichen Blutdruck haben, sammeln und analysieren Daten. Nehmen Sie eine Zufallsstichprobe. Wenn das Medikament eine große
Wirkung in der Probe zeigt. Wir bestimmen, wie wahrscheinlich es
ist, ein solches
oder ein extremeres Ergebnis zu erzielen . Wenn das Medikament wirklich keine Wirkung hat, berechnen Sie den p-Wert. Der p-Wert ist die
Wahrscheinlichkeit eine Probe
beobachtet wird, die
so extrem ist wie unsere. Unter der Annahme, dass die
Nullhypothese wahr ist. Statistische Signifikanz Wenn der p-Wert unter einem festgelegten Schwellenwert liegt, normalerweise 0,05. Das Ergebnis ist
statistisch signifikant, d. h. es ist unwahrscheinlich, dass es allein durch Zufall
entstanden ist Wir haben dann genügend Beweise , um die Nullhypothese abzulehnen Ein kleiner p-Wert deutet darauf hin, dass die beobachteten Daten nicht mit
der Nullhypothese übereinstimmen führt dazu, dass wir sie
zugunsten der
Alternativhypothese ablehnen zugunsten der
Alternativhypothese Ein großer p-Wert deutet darauf hin, dass die Daten
mit der Nullhypothese übereinstimmen. Wir lehnen es nicht ab. Wichtige Punkte. Ein kleiner p-Wert
beweist nicht , dass die
Alternativhypothese wahr ist. Es zeigt lediglich an
, dass ein solches Ergebnis
unwahrscheinlich ist , wenn die
Nullhypothese wahr ist. Ebenso beweist ein großer p-Wert nicht, dass die
Nullhypothese wahr ist. Dies deutet darauf hin, dass die beobachteten Daten wahrscheinlich unter der
Nullhypothese liegen. Danke. Wir sehen uns in der nächsten Statistikstunde.
10. Konzepte des Hypothesentests im Detail: Willkommen zurück. Lassen Sie uns die
Hypothese genauer verstehen. Hypothese von Wir haben eine ganze Population, die
wir gerne untersuchen würden. Es gäbe jedoch
immer begrenzte
Zeit und Ressourcen, um
die gesamte Bevölkerung zu untersuchen. Daher nehmen wir unter Verwendung
verschiedener Stichprobenverfahren eine Stichprobe
aus der Grundgesamtheit und ziehen eine Stichprobe heraus. Wir untersuchen die Stichprobe und ziehen einige Schlüsse
über die Grundgesamtheit, und zwar als
Inferenzstatistik Was genau ist Hypothese? Eine Hypothese ist eine Annahme , die weder
anfällig noch negativ sein kann. In einem Forschungsprozess wird
die Hypothese ganz
am Anfang aufgestellt,
und das Ziel besteht darin, die Hypothese entweder abzulehnen oder nicht abzulehnen Um die Hypothese, beispielsweise
Daten aus dem
Experiment, abzulehnen oder nicht abzulehnen, ist eine Umfrage erforderlich, die dann
mithilfe eines Hypothesentests ausgewertet werden. Unter Verwendung von Hypothesen werden Hypothesen in der
Regel ausgehend von
einer wörtlichen Überprüfung Auf der Grundlage der wörtlichen Überprüfung können
Sie entweder begründen, warum Sie die
Hypothese auf diese Weise
formuliert haben die
Hypothese auf diese Weise
formuliert Ein Beispiel für eine
Hypothese könnte sein, dass Männer in Österreich für
dieselbe Tätigkeit mehr verdienen als Frauen Die Hypothese basiert auf
der Annahme eines erwarteten Zusammenhangs. Ihr Ziel ist es, die Nullhypothese entweder abzulehnen oder nicht abzulehnen. Sie können Ihre Hypothese
anhand der Daten testen. Die Analyse der Daten
erfolgt mithilfe des
Hypothesentests. In Österreich verdienen Männer für
dieselbe Arbeit mehr als Frauen. Sie haben eine Umfrage unter fast 1.000 in Australien
tätigen Arbeitnehmern durchgeführt, einen T-Test einer unabhängigen Stichprobe. In diesem Test benötigen Sie für die
Hypothese aus der Umfrage geeignete
Hypothesentests
wie den T-Test oder den
Korrelationsanalysetest. Wir können Online-Tools wie
Data Tab oder
Excel-Tools verwenden , um dieses Problem zu lösen. Wie formuliere ich eine Hypothese? Um
eine Hypothese zu formulieren, muss zunächst
eine Forschungsfrage definiert werden eine präzise formulierte
Hypothese über der
Forschungsfrage kann dann eine präzise formulierte
Hypothese über die Population
abgeleitet werden Forschungsfrage kann dann eine präzise formulierte
Hypothese über die Population
abgeleitet In Australien verdienen Männer für
denselben Job mehr als Frauen. Was ist zum Thema
die Frage, die wir stellen wollen,
und was ist die Hypothese? Anschließend
stellen Sie die Daten für
den Hypothesentest zur Verfügung und
ziehen die Schlussfolgerung. Dies ist eine sehr schöne
visuelle Darstellung der Durchführung eines
Hypothesentests. Hypothesen sind keine
einfachen Aussagen. Sie sind so formuliert, dass sie
mit getestet werden können . Sie können
im Laufe des
Forschungsprozesses mit gesammelten Daten
getestet werden mit gesammelten Daten
getestet . Um Hypothesen zu testen, muss
genau definiert werden, um welche Variablen sich handelt und wie diese
Variablen zusammenhängen. Hypothesen sind dann Annahmen
über die
Ursache-Wirkungs-Beziehung der Assoziation
zwischen den Variablen. Was ist in diesem Fall eine Variable? Variable ist nichts anderes als
eine Eigenschaft eines Objekts oder eines Ereignisses, das unterschiedliche Werte
annehmen kann. Zum Beispiel ist eine
Augenfarbe eine Variable. Wenn es die Eigenschaft des Objekts ist, kann
ich verschiedene Werte annehmen. Wenn Sie in
einer Sozialwissenschaft forschen, können
Ihre Variablen Geschlecht, Einkommen ,
Einstellungen,
Umweltschutz usw. sein. Wenn Sie im
medizinischen Bereich forschen, könnten Ihre Variablen Körpergewicht,
Raucherstatus,
Herzfrequenz usw. sein Raucherstatus,
Herzfrequenz usw. Was genau ist also die Null
- und Alternativhypothese? Es gibt immer zwei
Hypothesen, die sich
genau entgegengesetzt sind genau entgegengesetzt und die behaupten, entgegengesetzt zu sein Diese entgegengesetzten
Hypothesen werden
als Null- und Alternativhypothese bezeichnet als Null- und Alternativhypothese und durch H
nichts und H A oder H eins, H Null und
H eins repräsentiert Null und
H Die Nullhypothese von H nichts geht davon aus, dass
es keinen Unterschied zwischen zwei oder mehr Gruppen in
Bezug auf die Merkmale gibt
, die wir untersuchen möchten Die Nullhypothese lautet dann. Die Nullhypothese geht davon aus , dass es keinen
Unterschied zwischen zwei oder mehr Gruppen in Bezug
auf die Merkmale gibt. Beispielsweise
unterscheiden sich die Gehälter der Männer und Frauen in Österreich nicht. Die alternative Hypothese
ist die Hypothese, die wir beweisen
wollen, oder wir
sammeln Daten, um sie zu beweisen. Die alternative Hypothese geht also
davon aus, dass es einen Unterschied zwischen
den zwei oder mehr Gruppen gibt. Beispielsweise
unterscheidet sich das Gehalt
der Männer und Frauen in Österreich. Die Hypothese, die Sie testen
möchten, oder was Sie anhand
der Theorie untersuchen möchten , gibt in der
Regel die Wirkung an. Das Geschlecht
wirkt sich auf das Gehalt aus. Diese Hypothese wird als
alternative Hypothese bezeichnet. Es ist eine sehr schöne
Aussage, oder? Es gibt eine andere
Schreibweise, nämlich das Geschlecht
wirkt sich auf das Gehalt aus, und der Hypothesentest wird
als alternative Hypothese bezeichnet. Die Nullhypothese
besagt normalerweise , dass es keinen Effekt gibt. Das Geschlecht hat keinen Einfluss auf das Gehalt. Im Hypothesentest kann
nur die Nullhypothese getestet werden. Ziel ist es herauszufinden, ob Nullhypothese
abgelehnt wird oder nicht. Es gibt verschiedene
Arten von Hypothesen. Welche Arten von Hypothesen
gibt es? Am häufigsten
wird zwischen Unterschieden Korrelationshypothesen unterschieden. Es kann sich um direktionale und ungerichtete
Hypothesen handeln. Differential- und
Korrelationshypothese. Differentialhypothesen
werden verwendet, wenn verschiedene Gruppen sowie die Gruppe der
Männer und die Gruppe der Frauen
unterschieden werden sollen sowie die Gruppe der
Männer und die Gruppe der Frauen
unterschieden Männer und die Gruppe der Frauen Korrelationshypothesen werden verwendet , wenn
eine Beziehung hergestellt werden soll oder wenn eine Korrelation zwischen der Variablen
getestet werden soll Die Beziehung
zwischen Alter und Größe. Differenzhypothese. Differenzhypothese
ist ein Test, bei dem wir testen, ob es einen Unterschied zwischen
zwei oder mehr Gruppen gibt. Das Beispiel der
Differenzhypothese ist, dass die Gruppe der Männer mehr
verdient als die der Frauen. Raucher haben ein höheres
Herzinfarktrisiko als Nichtraucher Es gibt einen Unterschied
zwischen Deutschland, Österreich und Frankreich in Bezug auf die
Arbeitsstunden pro Woche Somit ist eine Variable immer eine kategoriale
Variable wie Geschlecht, Raucherstatus oder Land Andererseits ist die andere Variable
eine ordinale Variable oder
eine Variable für Gehalt, prozentuales Herzinfarktrisiko und Arbeitsstunden pro Woche Lassen Sie uns nun die
Korrelationshypothese
etwas genauer verstehen etwas genauer Ein Korrelationshypothesentest, Beziehungen zwischen
zwei Variablen. Zum Beispiel die Größe
und das Körpergewicht. die Körpergröße der
Person zunimmt, wird
das Körpergewicht beeinflusst Die
Korrelationshypothese lautet beispielsweise, dass je größer eine Person ist, je schwerer sie ist, je mehr
Pferdestärken ein Auto hat, desto höher ist sein Kraftstoffverbrauch Je besser die Mathe-Note, desto höher das zukünftige Gehalt Wie Sie den Beispielen
entnehmen können, Korrelationshypothesen
häufig
die Form ,
je höher, desto niedriger. Daher werden mindestens zwei ordinale Skalenvariablen
untersucht Direktionale und
ungerichtete Hypothesen, Hypothesen werden in
gerichtete und ungerichtete Hypothesen unterteilt gerichtete und ungerichtete Hypothesen Das heißt, entweder handelt es sich um eine einseitige oder eine zweiseitige Hypothese. Wenn die Hypothese
Wörter wie besser als,
schlechter enthält, dann
ist die Hypothese in der Regel richtungsweisend. Sie könnte positiv
oder negativ sein. Bei ungerichteten
Hypothesen findet
man oft
die Bausteine heraus,
zum Beispiel, dass es einen Unterschied
zwischen den Formulierungen gibt,
aber es wird nicht angegeben, in welcher Richtung der
Unterschied liegt. Bei der
ungerichteten Hypothese
ist
das Einzige von Interesse, das Einzige von Interesse ob es einen Unterschied im Wert zwischen den betrachteten
Variablen gibt. bei einer direktionalen Hypothese, Was interessiert es bei einer direktionalen Hypothese, ob eine Gruppe höher oder
niedriger ist als die andere? Sie haben eine zweiseitige Hypothese, oder Sie können eine
einseitige Hypothese
wie linksseitig oder rechtsseitig haben . Eine ungerichtete Hypothese, eine
ungerichtete Hypothese, testet, ob ein Unterschied
oder eine Beziehung
besteht. Es spielt keine Rolle,
in welcher Richtung die Beziehung besteht
oder welche unterschiedlichen Ursachen es gibt. Im Fall einer
Differenzhypothese bedeutet dies, dass
es einen
Unterschied zwischen zwei Gruppen gibt, aber es sagt nicht aus, ob
eine Gruppe einen höheren Wert hat. Es gibt einen Unterschied zwischen
dem Gehalt von Männern und Frauen, aber es sagt nicht aus
, wer mehr verdient Es gibt einen Unterschied
im
Herzinfarktrisiko zwischen
Rauchern und Nichtrauchern, aber es
wird nicht gesagt, wer ein höheres In Bezug auf die
Korrelationshypothese bedeutet
dies, dass eine Beziehung
oder eine Korrelation
zwischen zwei Variablen besteht Aber es wird nicht gesagt, ob
die Beziehung positiv oder negativ
ist. Es besteht eine Korrelation zwischen Größe und Gewicht und es besteht eine Korrelation
zwischen
Pferdestärke und Kraftstoffverbrauch im Auto. In beiden Fällen wird nicht gesagt, die Korrelation
positiv oder negativ ist. Wenn Sie von einer
Richtungshypothese sprechen, wir zusätzlich die Richtung der
Beziehung oder des Unterschieds an. Im Falle der
anderen Hypothese wird eine
Aussage getroffen, welche Gruppe
hat einen höheren oder niedrigeren Wert? Männer verdienen mehr als Frauen. Raucher haben ein höheres Herzinfarktrisiko als Nichtraucher Im Falle einer
Korrelationshypothese wird
die Beziehung dahingehend hergestellt, wird
die Beziehung dahingehend hergestellt ob eine Korrelation
positiv oder negativ ist Je größer ein Mensch
ist, desto schwerer ist er. Je mehr Pferdestärken ein Auto hat, desto höher ist sein Kraftstoffverbrauch einseitige direktionale
Alternativhypothese umfasst nur die
Werte, die sich in
einer Richtung von den Werten
der Nullhypothese unterscheiden . Wie interpretieren wir nun den p-Wert in einer
Richtungshypothese? Normalerweise hilft Ihnen
Statistiksoftware
immer bei der
Berechnung des p-Werts Excel ist auch bei
der Berechnung des p-Werts sehr
intelligent geworden , und es hilft bei
der Berechnung des ungerichteten Tests und hilft
auch bei
der Angabe des p-Werts dafür. Um den p-Wert für die
Richtungshypothese zu ermitteln, muss geprüft werden, ob der
Effekt in die richtige Richtung ist.
Anschließend wird der p-Wert durch zwei geteilt und ob das
Signifikanzniveau nicht durch zwei,
sondern nur durch eine Seite bestimmt wird sondern nur durch eine Seite Darüber hinaus haben wir
ein Tutorial zum P-Wert. Also schauen Sie sich das bitte in der analysierten Phase meines Kurses an. Wenn Sie
in einem Software-Lil-Datentyp eine gerichtete
Alternativhypothese
für die Berechnung
der Hypothese auswählen in einem Software-Lil-Datentyp eine , erfolgt
die Konvertierung automatisch und Sie können nur lesen. Nun eine schrittweise Anleitung
zum Testen der Hypothese. Sie sollten eine
Literaturrecherche durchführen, die Hypothese
formulieren, das Skalenniveau
definieren, das
Signifikanzniveau
bestimmen, den Hypothesentest
bestimmen.
Welcher
Hypothesentest ist
für die Skalenniveaus und den
Hypothesenstil geeignet für die Skalenniveaus und den
Hypothesenstil Im nächsten Tutorial
geht es um das Testen von Hypothesen. Sie werden etwas über
Hypothesentests lernen und
herausfinden , welche besser ist
und wie man sie liest.
11. Einführung 7Qc-Tools: T. Willkommen zum neuen Kurs
über sieben Qualitätswerkzeuge. Dies ist eines der
wichtigsten Konzepte wenn Sie darüber nachdenken kontinuierlich zu verbessern Ihren Prozess, Ihre Abläufe
oder Ihre Fertigungseinrichtung kontinuierlich zu verbessern. Selbst wenn Sie in
der Dienstleistungsbranche tätig sind, helfen Ihnen
diese Tools dabei, den Überblick über
die Qualität zu behalten. Lassen Sie uns damit anfangen. Also, die sieben QC-Tools, was werde ich im
Rahmen dieses
Schulungsprogramms behandeln Rahmen dieses
Schulungsprogramms Es sind die sieben
Qualitätskontrollwerkzeuge. Erstens: Dinge, Katapult,
Flussdiagramm, Histogramm, Pareto-Analyse,
Fishburn-Diagramm, auch
Ishikawa-Diagramm genannt Ishikawa-Diagramm Wir werden diese Tools nicht nur auf hohem Niveau behandeln. Wir werden einige Beispiele
machen, wie man diese Dinge
mit Microsoft Excel zeichnet ,
wo immer dies möglich ist. Wir werden Ihnen auch
einige Beispielübungen mit
Daten geben einige Beispielübungen mit , die Ihnen helfen können,
diese Aktivitäten sehr einfach durchzuführen. Wir werden
darüber sprechen, was das Tool ist, wie das Tool verwendet wird, wann das Tool verwendet wird, einige häufige Fehler,
die wir vermeiden sollten, und eine schrittweise Anleitung zur Erstellung der erforderlichen Ausgabe
geben.
12. Prüfblatt: Gehen wir zum
nächsten Qualitätswerkzeug der sieben QC-Tools über
, dem Prüfblatt Lassen Sie uns mehr
über das Prüfblatt erfahren. Scheckblätter werden zur systematischen Erfassung
und Zusammenstellung der Daten Aus den historischen Quellen oder Beobachtungen, sobald sie auftreten Es kann verwendet werden, um
Daten an Orten zu sammeln
, an denen Daten im Laufe der Zeit tatsächlich
generiert werden. Es kann verwendet werden, um
sowohl quantitative als auch
qualitative Daten zu erfassen . Deshalb habe ich Ihnen ein einfaches
Prüfblatt gezeigt, auf dem Sie die
Fehlertypen haben und wie oft dieser bestimmte
Fehler auftritt. Dies kann verwendet werden
, um Daten
aus historischen Quellen oder
Beobachtungen systematisch aufzuzeichnen und zusammenzustellen , sobald sie auftreten. Es kann verwendet werden, um Daten an
Orten zu
sammeln , an denen Daten in Echtzeit
generiert werden. Diese Art von Daten kann quantitativ
als auch qualitativ sein. Das Prüfblatt gehört zu
den sieben grundlegenden Qualitätskontrollen. Was macht das Scheckblatt? Es wird verwendet, um
leicht verständliche
Daten zu erstellen, und das ist mit einem
einfachen, effizienten Prozess verbunden Sie sich bei jedem Eintrag
ein klares Bild von den
Fakten, die von den einzelnen
Teammitgliedern vorgeschlagen Aus diesem Grund ist es eines
der datengesteuerten. Es standardisiert die Vereinbarung über Definitionen jeder einzelnen
Bedingung Wie wird eine Scheckform verwendet? Wir einigen uns auf die Definition von Ereignissen oder Bedingungen
, die beobachtet werden. Beispiel. Wenn wir nach der Grundursache für Mängel des
Schweregrads 1 suchen, dann müssen wir uns
darauf einigen, sie als ersten Schweregrad zu bezeichnen. Entscheiden Sie, wer die Daten sammelt, entscheiden Sie, welche Person an dieser Aktivität
beteiligt sein wird. Notieren Sie sich die Quellen
, aus denen die Daten gesammelt werden. Die Daten sollten in Form einer
Stichprobe oder der gesamten Population vorliegen. Sie können sowohl qualitativ
als auch quantitativ sein. Legen Sie fest, welcher
Wissensstand für
die Person erforderlich ist, die am Datenerfassungsplan
beteiligt ist. Entscheiden Sie, wie häufig die Daten gesammelt werden
sollen und
ob die Daten
wöchentlich, stündlich, täglich
oder monatlich erhoben werden müssen. Legen Sie die Dauer der
Datenerhebung fest, d. h.
wie lange die Daten
gesammelt werden sollen, wie lange die Daten
gesammelt werden sollen um
ein aussagekräftiges Ergebnis zu erzielen. Erstellen Sie ein einfach
zu verwendendes Prüfblatt,
das präzise, vollständig
und konsistent
bei der Erfassung der
Daten während des
gesamten Erfassungszeitraums ist zu verwendendes Prüfblatt,
das präzise, vollständig und konsistent
bei der Erfassung der
Daten während des
gesamten Erfassungszeitraums Daten während des
gesamten Bitte beachten Sie, dass
Scheckblätter zu Zeiten
des Industriezeitalters als eines der Qualitätsinstrumente erstellt wurden Derzeit befinden wir uns
im Informationszeitalter. Wir haben so viele ERP-Softwareprogramme,
Maschinen, die
Daten aufgrund der IT erfassen, und es gibt verschiedene andere computergenerierte Berichte
, die anwendbar sind Versuchen Sie, ein Scheckblatt
nur zu verwenden, und zwar nur dann, wenn Sie sich in einem vollständig
manuellen Datenerfassungsprozess befinden Es ist eines der Tools, in den letzten Monaten
jedoch am wenigsten genutzt Lassen Sie mich das anders formulieren:
Tools, die in den letzten Jahren am wenigsten genutzt wurden. Es sei denn, Ihr
Unternehmen hat überhaupt keinen systematischen
Ansatz zur Erfassung der Daten Es ist ein sehr gutes Tool,
wenn Sie Mitarbeiter mit
blauen Farben einsetzen und keine High-Tech-Systeme
zur Erfassung der Daten
haben. Deshalb habe ich die Vorlage
für das Scheckblatt im Bereich
Projekt und Ressourcen beigefügt . Sie können sich darauf beziehen.
Gib mir einfach eine Sekunde. Ich zeige dir das
Scheckblatt auf dem Bildschirm. So kann ich
ein Scheckblatt verwenden , das ich Ihnen als Teil
meiner Parado-Vorlage
gegeben Sie können die
Kategorien hier aufschreiben und mir
sagen, dass es sich um
Fehler eins, Fehler zwei handelt Es
handelt sich um ein Problem wie auch immer Ihr Fehler heißen Bitte listen Sie hier alle
Mängel auf, oder? Und dann können Sie
das vermarkten , wie oft passiert
das? Wo auch immer es passiert, fangen
Sie bitte an, eines zu schreiben. Wie oft siehst du das und wann siehst du es? Dies in Verbindung damit, dass ich diese Daten später
für meine Pareto-Analyse
verwenden kann , für die ich
ein separates Video erstellt habe , das können
Sie verwenden In der heutigen Welt benötigen Sie kein separates
Scheckblatt. Sie können das verwenden, das
ich hier gegeben habe. Danke. Ich sehe
dich in der nächsten Klasse.
13. Box-Plot: Heute werden wir etwas über
Boxplot
lernen und
es im Detail verstehen Wir alle hätten Boxplot
in mehreren Fällen gesehen. Aber mal sehen,
was es interpretiert. Was genau ist also ein Boxplot? Mit einem Boxplot können
Sie in der Regel viele
Informationen zu Ihren Daten
grafisch darstellen Das Feld gibt den Bereich der mittleren 50%
der
Stelle an, an der Ihr Wert liegt Lassen Sie uns den
Boxplot verstehen, wie er aufgeteilt ist. Wenn der Anfang der
Box als Q Eins bezeichnet wird, ist er das untere Ende der Box und wird auch
als erstes Quartil bezeichnet Q ist das obere Ende der
Box oder das dritte Quartil. Die Entfernung zwischen Q 3 und Q wird als
Interquartilbereich bezeichnet, was den mittleren
50% Ihrer Die 25% der Daten liegen
unter Q Eins. In dem Feld
befinden sich 50% der Daten, und daher befinden sich 25% der
Daten über dem Sie haben eine Haupt- und
eine Mittellinie innerhalb des Felds, wodurch die
Daten wiederum in 25 und 25% aufgeteilt werden Nehmen wir also an, wenn wir
das Alter des Teilnehmers,
das Boxplot, anzeigen , sind es 31 Das bedeutet, dass 25%
der Teilnehmer
jünger als 31 Jahre sind. Q drei ist 63 Jahre. Das bedeutet, dass 25% der
Teilnehmer älter als 63 Jahre sind. 50% der Teilnehmer
sind 31-63 Jahre alt. Der Mittelwert und der Median. Der Median liegt bei 42, was bedeutet, dass
die Hälfte der Teilnehmer älter als 42 Jahre und die andere Hälfte
jünger als 42 Die gestrichelte Linie wird auch als
Durchschnittslinie
oder als Hauptwert bezeichnet , der den Durchschnitt
darstellt Da der Mittelwert
vom Median abweicht, bedeutet
dies eindeutig, dass es sich bei den Daten um einen Unterschied handelt Die durchgezogene Linie steht für den Median und die gepunktete
Linie für Die weiter
entfernten Punkte werden als Ausreißer bezeichnet. Die Höhe des Whiskers
entspricht etwa dem 1,5-fachen des Bereichs
zwischen den Quartalen. Der Whisker kann nicht
endlos pingen. Der Ausreißer und der
Ti-förmige Schnurrbart. Wenn es keinen Ausreißer gibt, ist der Maximalwert Wenn es einen Ausreißer gibt, ist der T-förmige Whisker der letzte Punkt, bei
dem das 1,5-fache des
Interquaralbereichs und andere Wie erstelle ich einen Boxplot? Sie haben eine Excel, um Ihren Boxplot zu
erstellen, und Sie können dies auch
mit Online-Tools tun Ja, also kann ich einfach
nach Diagrammen suchen. Damit kann ich sagen, dass ich die metrische Variable
nehme, dann haben Sie die
Option eines Histogramms und Sie haben auch die
Option eines Boxplots,
was eindeutig besagt, dass Q eins 29 ist, 66 ist,
der Median 42 ist, der Mensch 46 ist Das Maximum ist 99, der
obere Zaun ist 99. Es gibt keine Ausreißer. Gehen wir und ändern die Daten. Lass mich das auf 126 machen. Sobald ich den Wert
einer Person auf 126 ändere und Sie zurückkommen,
werden
Sie feststellen, dass es
einen Ausreißer im Histogramm gibt,
und
hier ist sehr offensichtlich, dass 126 ein Ausreißer ist Und hier ist der obere Zaun 92. Q drei ist immer noch
derselbe, Q eins ist immer noch derselbe. Die Boxgröße
ändert sich also nicht und so weiter. Richtig? Was ist, wenn die Person ein Held ist? In diesem Fall werden Sie
feststellen, dass es sich nicht
um einen Ausreißer handelt, sondern dass es immer noch Teil des ISC ist Ich kann die Grafik klein machen, ich kann die Nulllinie anzeigen Ich kann die
Standardabweichung anzeigen. Ich kann die Punkte zeigen. Ich kann es
horizontal und vertikal machen. All diese Optionen
sind also
mit einem
Online-Statistiktool möglich . Ich kann die
Zip-Datei natürlich herunterladen und damit arbeiten. Okay. Wie kann ich Boxplot
mit Excel machen? Also habe ich die
gleichen Daten hierher kopiert. Ich habe verschiedene Gruppen, also habe ich mein Alter als Daten
ausgewählt. Und jetzt gehe ich zum Einfügen eines empfohlenen Diagramms,
gehe zu allen Diagrammen und ich habe ein
Box-and-Whisker-Diagramm Und ich kann mein
Box-and-Whisker-Diagramm sehen. Ich kann meine Rasterlinien entfernen und
die Datenbeschriftungen hinzufügen, und es zeigt deutlich meinen Weg. Vielleicht kann ich es einfach vergrößern, um
es besser sichtbar zu machen. Ich kann die Farbe
meines Diagramms so ändern, dass sie anders ist. Oh und ich kann das
auswählen Mein Durchschnitt
ist hier drüben. Mein Median ist 421, drei und. Jetzt, das gleiche Diagramm, ich kann
es auch nach Wurzeln gruppieren Ich nehme die
Gruppe und das Alter. Ich klicke rein, ich kann
auf das empfohlene Diagramm klicken, zu allen Diagrammen
gehen und Box and Whisker
machen Dieses Mal habe ich vier Boxen
für jedes Mitglied der Gruppe. Ich kann die Farbe
meines Diagramms ändern. In Ordnung. Ich kann die Datenbeschriftungen beifügen. Wenn ich es hier einfüge
und auf das Kommazeichen klicke, wirst
du feststellen, dass
die Bindepunkte
waren . Es ist also sehr einfach, Diagramme mit
Excel sowie mit
einigen Online-Tools zu zeichnen Excel sowie mit
einigen Online-Tools Also für die Gruppen habe ich die Gruppe plus das A
genommen, und dafür habe ich genommen Also für A, sagen wir
für die Gruppe C, wenn ich weitermache und
den Wert auf 100 ändere, wirst
du feststellen, dass
es dort einen Ausreißer gibt Der Mindestwert ist zehn, lassen Sie uns die Werte 25 ändern Sie werden feststellen, dass sich die
Werte auf
diese Weise ändern. Großartig. Also werde ich dich in
der nächsten Klasse sehen. Danke. Oh.
14. Box-Plot Teil 1: In dieser Lektion werden wir
mehr über Boxplot erfahren. Ein Boxplot ist eine
der grafischen Techniken, mit
denen wir
Ausreißer identifizieren können, oder? Lassen Sie uns verstehen, wie
ein Boxplot entsteht. Lassen Sie uns zuerst
das Konzept verstehen bevor wir uns mit
den Praktika befassen. Ein Boxplot wird als
Boxplot bezeichnet, weil es
wie eine Box aussieht und
viskos ist wie die Katze. Die Katze hat im Gesicht. Nun, genau wie die Katze nicht haben kann und weniger viskos ist, die Größe des Whiskers
des wird
die Größe des Whiskers
des Boxplots für bestimmte Parameter festgelegt
. Sie werden einige
wichtige Terminologien sehen , wenn Sie ein Boxplot erstellen. Nummer eins, was ist
der Mindestwert? Was ist das Quartil? Was ist der Median? Was ist der Kern fest? Drittens, was ist die Größe
des maximalen Whiskers? Und was ist der
Maximalwert am Datenpunkt? Hier? Die Mindestanzahl der Hunde über den Minimumpunkt und wo
der Whisker verlängert werden kann. Q1 steht für das erste Quartal, was 25% der Daten bedeutet. Nehmen wir zur Vereinfachung an, wir haben 100 Datenpunkte. 25 Prozent der Daten
werden unter dieser einen Marke liegen. Zwischen Q1 und Q2. Fünfundzwanzig
Prozent Ihrer Daten werden gebildet, werden vorhanden sein. Q2 wird auch als
Median oder
Mittelpunkt Ihrer Daten bezeichnet . Wenn ich also meine Daten in
aufsteigender oder absteigender Reihenfolge anordne, wird
der mittlere
Datenpunkt
als Median und als Q2 bezeichnet. Q3, oder auf andere Weise auch als oberes Quartil
bezeichnet, spricht von den
fünfundzwanzig Prozent der Daten nach dem Medium. Technisch gesehen haben Sie
inzwischen
fünfundsiebzig Prozent
Ihrer Daten abgedeckt fünfundsiebzig Prozent
Ihrer Daten unter Ihrem
dritten Quartil liegen
werden, 25 Prozent unter dem ersten Quartal, 50% der Daten unter dem zweiten Quartal, fünfundsiebzig Prozent von
Die Daten liegen unter Q3. Technisch gesehen liegen
von 100% der Daten 75% der Daten unter dem dritten Quartal. Das bedeutet, dass fünfundzwanzig Prozent
meiner Datenpunkte über dem dritten Quartal liegen werden. Jetzt wird der Abstand zwischen
Q1 und Q3 als Boxgröße bezeichnet. Und diese Kastengröße wird auch als Interquartilbereich
bezeichnet. Q3 minus Q1 wird als
Interquartilbereich bezeichnet. Wie ich Ihnen zu
Beginn des Unterrichts sagte, hängt
die Größe
des Whiskers vom Interquartilbereich oder IQR ab. Q3. Ich kann diese Linie das
1,5-fache der Größe der Box bilden. 1,5-fache IQR
plus Q3 ist also die
Obergrenze für meinen Whisker. Auf der rechten Seite.
Auf der Oberseite. Wenn ich den
Whisker auf der linken Seite zeichnen möchte, ist
es nichts anderes als das gleiche 1,5-fache im
Interquartilbereich. Aber ich subtrahiere diesen Wert von Q1 und verlängere ihn bis zu diesem Wert. Also legt es die Untergrenze fest. Möglicherweise haben Sie
Datenpunkte, die unter
den Minimalpunkt fallen. Möglicherweise werden
Datenpunkte, die über die
maximale Größe
des Risikos dieser Datenpunkte
hinausgehen , als Ausreißer bezeichnet. Das Schöne an Boxplot
ist, dass es Ihnen hilft,
festzustellen , ob Ihr Datensatz
Ausreißer enthält. Mal sehen wie kann ich ein Boxplot
erstellen? Denn physisch muss ich mir
keine
Sorgen machen , 2525% Prozent herauszufinden. Und wirklich persönlich werden wir
zu MiniTab gehen und dann die Arbeit machen. Sehen wir uns dieses Datenblatt an. In unserer vorherigen Klasse haben wir einige beschreibende
Statistiken dazu erstellt. Und wir haben die Datenpunkte gefunden. Wir haben den minimalen Datenpunkt
Q1, Q2, Q3 und maximalen Datenpunkt gefunden. Versuchen wir,
ein Boxplot für die
Zykluszeit in Minuten zu erstellen . Also klicke ich auf Grafik. Ich gehe zum Boxplot und sehe mir ein einfaches Boxplot an
und klicke auf
Okay, ich werde die
Zykluszeit in Minuten auswählen. Und ich sage: Okay, sehen
wir uns die Datenansicht an. Wenn Sie sich dieses Boxplot ansehen, wird
die untere Zeile
als die eine bezeichnet. Es ist 9.16. Der Median ist die Mittellinie und muss nicht
genau in der Mitte liegen. Die Oberseite der Box ist Q3, was 10,86 in
diesem Datenbereich ist, und der
Interquartilbereich ist 1,7. Meine Box kann sich 1,5-mal
am Ellbogen ausdehnen und auf
dem Ballon
1,5 mal in 1,7 gehen . Und Sie sehen
, dass es
in diesem Boxplot
keine Sternchen gibt , sehr deutlich darauf hinweist,
dass es in meinem
aktuellen Datensatz
keine Ausreißer gibt . Holen wir uns
noch einen Datensatz. In unserem nächsten Video zu
verstehen, wie Boxplot funktioniert.
15. Box-Plot Teil 2: Lassen Sie uns unsere Reise fortsetzen um Boxplots
genauer zu verstehen. Wenn Sie
in Ihrer Projektdatei auf das Arbeitsblatt gehen, das als Boxplot bezeichnet wird. Ich habe Daten zur Zykluszeit für fünf
verschiedene Szenarien gesammelt. Wie Sie sehen können, habe ich an
einigen Stellen mehr
Datenpunkte, wie ich fast 401745 Daten habe. An manchen Stellen habe ich
nur 14 Datenpunkte. Versuchen wir also, dies
genauer zu analysieren , um zu verstehen,
wie Boxplot funktioniert. Ich habe diese
Daten auf MiniTab kopiert, Fall eins, Fall zwei, T3 und T4. Als erstes würde ich also
einige grundlegende deskriptive
Statistiken
für alle Fremdschlüssel erstellen
wollen einige grundlegende deskriptive
Statistiken . Ich wähle alles aus. Und dann sehe ich,
wenn ich meine Ausgabe sehe, kann
ich sehen, dass
ich in
drei der Fälle 45 Datenpunkte habe. Im vierten Fall habe ich 18 Datenpunkte. Im fünften Fall
habe ich 14 Datenpunkte. Die Anzahl der
Datenpunkte ist also sehr, wenn man sich meinen Mindestwert anschaut, reicht er von 1,
eins, einundzwanzig, zweiundzwanzig. Und der Maximalwert liegt
irgendwo zwischen 4090. In einem Szenario habe ich Werte von 21 bis 40
entwickelt. In einem Szenario habe ich
Werte von zwei bis 90, was sehr deutlich zeigt, dass die Anzahl der
Datenpunkte oder dies tut. Aber mein Wertebereich ist weiß. Wenn Sie sich also die Rate ansehen, liegt
sie zwischen
18,8 und 99 Punkten. Also im zweiten Fall habe ich 1200 als
Bereich, also 99 Jahre. Und dasselbe kann auch als Standardabweichung
beobachtet werden. Sie können sehen, dass die
Schiefe der Daten
unterschiedlich ist und die Kurtosis unterschiedlich
ist. Lassen Sie uns zunächst
das Boxplot im Detail verstehen. Und im nächsten Video, wenn ich
über das Histogramm spreche, werden
wir das
Verteilungsmuster
anhand desselben Datensatzes verstehen . Lass uns anfangen.
Ich klicke auf Grafik. Ich kann auf Boxplot klicken
und ich klicke auf simple. Was ich tun kann ist, dass ich
11 Fälle gleichzeitig aufnehmen kann ,
um meine Daten zu analysieren. Im ersten Fall zeigt es
mir ein Boxplot und dieses Boxplot zeigt sehr deutlich , dass meine Daten keine
Ausreißer enthalten. Und der Bereich liegt zwischen. Wenn ich den Cursor hier drüben lasse, habe ich 45 Datenpunkte. Mein Whisker reicht
von 21,6 bis 4,4 und mein
Interquartilbereich liegt bei 5,95. Mein Median ist 30,3. Mein erstes Quartil ist 26,9. Mein drittes Quartil ist 32,85. Lassen Sie uns die
Sache für Fall zwei wiederholen. Wenn ich auch meine Schlüssel mache, wenn du jetzt hinschaust, sieht die Box sehr klein weil hier meine
Datenpunkte gleich sind. Verstärkt von Vickery
reicht wieder von 21,6 bis 40 für scheint wie
mein vorheriges Szenario. Aber ich habe hier Ausreißer, die weit darüber hinausgehen. Wenn Sie sich erinnern, ist die
beschreibende Statistik für Kinder bis zu meinem Mindestwert eins
und mein Maximalwert ist 100. Mein Median war wie
mein vorheriges Szenario. Mein Q1 ist auch ähnlich, nicht dasselbe, aber ähnlich. Und Q3 ist auch ähnlich. Aber wenn man sich das Boxplot
anschaut, ist
die Box sehr klein, sehr deutlich zeigt, dass was
sehr deutlich zeigt, dass mein
Interquartilbereich 6,95 beträgt. Meine Viskose kann nur das
1,5-fache erreichen und jeder
Datenpunkt darüber hinaus wird
Misko
als Ausreißer bezeichnet. Ich kann diese
Ausreißer auswählen, oder? Und es ist sehr deutlich zu sehen, k ist zwei, der Wert ist 100
und es ist in Zeile Nummer eins. Zeile Nummer 37, ich habe
einen Wert namens 90. In Zeile Nummer 30 habe ich
einen Wert namens ist 88. Und in Zeile Nummer 21 habe ich
einen Wert namens Eins
, der eine Mindestgröße ist. Ich habe also Ausreißer
auf beiden Seiten. Lass uns Fall drei verstehen. Wenn ich mir die Chemie ansehe, setze
ich den Cursor auf den Boxplot. Ich habe dieselben 45 Datenpunkte. Meine Viskose oder von 21,6 bis 40 für scheint wie mein
Fall eins, Fall zwei. Aber in diesem Szenario habe ich viele Ausreißer. Am unteren Ende. Das ist, auf der Unterseite
meines Kerns, eng, richtig? Es fällt uns leicht,
auf jede einzelne von ihnen zu klicken und zu
sehen, wie meine Boxen sind. Das Schöne hier ist, dass
ich nur 18 Datenpunkte habe, aber immer noch einen Ausreißer habe. Machen wir es für k ist fünf. Und verstehe das auch. Ich habe eine kleinere Kiste. Ich habe nur 14 Datenpunkte und einen Ausreißer
auf der Aufwärts-Taste, und ich habe einen Ausreißer
am unteren Ende. Hier ist der Wert 23. Aber wenn ich diese
Handlungen anders
sehe , ist es für
mich schwierig, einen Vergleich durchzuführen. Kann ich alles
auf einen Bildschirm bekommen? Also gehe ich zum Graphen,
ich gehe zum Boxplot. Ich werde eine einfache
Umgebung auswählen. Ich wähle alle Fälle zusammen aus und sehe
mehrere Grafiken. Ich sehe Haut und ich sehe, dass
die Achse gesehen werden sollte. Rasterlinien sollten sichtbar sein. Und ich klicke auf Okay. Ich erhalte alle
fünf Datenpunkte, fünf Fallszenarien
in einem Diagramm. Das wird es mir leicht machen die Analyse durchzuführen, in diesem Fall. Also individuell, wenn
ich den Fall eins gesehen habe, wenn wir uns ein großes Schwad zeigen. Aber wenn ich einen nebeneinander
vergleiche , kann
ich wissen, dass ich im zweiten Fall Ausreißer
oben und unten habe . Im dritten Fall habe ich
Ausreißer auf der Unterseite. Im vierten Fall habe ich
Ausreißer auf der Oberseite. Im fünften Fall habe ich
Verkaufsstellen auf beiden Seiten. Die Anzahl der
Datenpunkte ist unterschiedlich. Die Bulks werden gezogen. Die Größe der Box kann nicht durch die
Anzahl der Datenpunkte
bestimmt werden . Ich habe 45 Datenpunkte, aber meine Box ist sehr schmal. Und ich habe 14 Datenpunkte
und meine Box ist weiß. Also die Größe der Box. Wenn ich also 14 Datenpunkte habe
, werden meine
Daten in vier Teile aufgeteilt. Also drei Datenpunkte unter Q1, drei Datenpunkte
zwischen Q1 und Q2, drei Datenpunkte
zwischen Q2 und Q3 und drei Datenpunkte hinter Q3. Während ich
45 Datenpunkte hatte, es als 11111111
verteilt. Mein Median wäre
die mittlere Zahl. Aus
dieser Übung lernen Sie also , dass
Sie
anhand der Größe des Quaders die Anzahl der Datenpunkte nicht bestimmen können. Aber was Sie definitiv
feststellen können , ist, dass
ich angesichts dieses Datensatzes Datenpunkte habe, die extrem hoch oder niedrig
sind? Der Zweck des Zeichnens
eines Boxplots besteht also darin,
die Verteilung zu sehen und etwaige Ausreißer zu
identifizieren. Ich hoffe, das Konzept ist klar. Wenn Sie Fragen haben, können Sie diese gerne
in der Diskussionsgruppe veröffentlichen. Und ich beantworte sie
gerne. Danke.
16. Pareto-Analyse: Hallo Freunde. Lassen Sie uns
unser Lernen über sieben QC-Tools fortsetzen unser Lernen über sieben QC-Tools Das Tool, das wir heute lernen
werden, sind Pareto-Diagramme, die auch als
Parto-Analyse bezeichnet werden Dies basiert auf dem berühmten Statistiker, nicht auf dem Statistiker Lassen Sie mich korrigieren, Wirtschaftswissenschaftler, um
die Welt gereist ist, den Anteil des
Wohlstands an der Bevölkerung
zu
untersuchen Wohlstands an der Bevölkerung
zu Dabei
fand Herr Pareto das 80-20-Prinzip heraus Lassen Sie uns tief in das Thema eintauchen. Also die Pareto-Analyse, das Prinzip, das Ihnen
hilft, sich auf
das Wichtigste zu konzentrieren , um den größtmöglichen Nutzen zu
erzielen Sie beschreibt das Phänomen , dass eine geringe
Menge hoher Werte mehr
zur Gesamtsumme beiträgt als eine hohe
Anzahl niedriger Werte Der Schwerpunkt liegt auf den
Attributen mit hohem Wert, auf die ich mich
konzentrieren muss , anstatt auf so
viele Dinge mit geringem Wert. Kurz gesagt: Identifiziere die Wenigen und
nicht die trivialen Vielen Was sind diese roten Blöcke
, die nur drei oder vier sind? Aber der Beitrag ist groß. Anstatt sich Hunderte
von kleinen Dingen anzusehen, bei denen der
Beitrag insgesamt gering ist. Selbst wenn ich mir meine
persönlichen Ausgaben ansehe, O von meinem
Gesamteinkommen, fließt der
Großteil meines Geldes in die Zahlung von EMI, die
Bezahlung der Mieten und Rechnungen. Das sind also meine wenigen lebenswichtigen, und nicht trivialen vielen, bei
denen ich versuche, mir die Bustickets, das Essen,
das ich esse,
oder die kleinen Einkäufe,
die ich tätige, anzusehen Essen,
das ich esse,
oder die kleinen Einkäufe, die ich Wenn ich also gut sparen will
, muss
ich mich darauf konzentrieren, wie
ich meine EMI schneller zurückzahlen kann, wie ich eine Miete haben kann, die innerhalb meines Budgets liegt Die Pareto-Analyse basiert
auf der berühmten 80-20-Regel. Sie besagt, dass rund 80%
der Ergebnisse auf
20% des Aufwands zurückzuführen sind Sehr schön gesagt, der
Aufwand von 80% ergibt sich aus einem Aufwand von 20%. In ähnlicher Weise sind 80%
der Probleme oder Auswirkungen auf 20% der Ursachen zurückzuführen. Wir verwenden dies für unsere
Ursachenanalyse. Der genaue Prozentsatz kann von Situation
zu Situation
variieren, obwohl wir glauben, dass
er bei 80 20 liegt, auch wenn es 75 25 sind, sollten
wir
weitermachen und uns bemühen, diese wenigen lebenswichtigen Probleme zu beheben. Manchmal
bekommen wir einen Wert von 70 30, manchmal
sogar einen Wert von 88 12. Dies sind nur
einige Beispiele. Der Punkt ist, welche sind
die Hauptursachen, die ich mit
minimalem Aufwand beheben kann , um
maximale Ergebnisse zu erzielen. In vielen Fällen
sind nur wenige Anstrengungen für die meisten Ergebnisse verantwortlich. sind einige wenige Ursachen Regel sind einige wenige Ursachen für
den Großteil des Aufwands verantwortlich. Wenn ich auf meine Prüfung zurückblicke, gibt es bestimmte
Kapitel in meinem Buch , die
in meiner Abschlussprüfung mehr Gewicht Wenn ich mich mit
diesen Kapiteln gründlich beschäftige, wird
meine Wahrscheinlichkeit,
60 bis 70% zu erreichen, sehr einfach Anstatt zu versuchen,
alle 20 Kapitel
in meiner Arbeitsmappe zu lesen , könnte
ich mich auf einige
Kapitel konzentrieren, um Ergebnisse zu erzielen Sparto-Analyse wird von
Entscheidungsträgern verwendet , um
den Aufwand zu ermitteln, der
am wichtigsten ist, um dann zu
entscheiden, welcher
zuerst ausgewählt werden am wichtigsten ist, um dann zu soll, die Entscheidungsfindung Sie wird für Projekte zur
Prozessverbesserung verwendet, um sich
auf die Ursachen zu konzentrieren , die
am meisten zu einem bestimmten Problem beitragen am meisten zu einem bestimmten Problem Dies hilft dabei,
die potenziellen Ursachen,
Faktoren und wichtigsten Prozessfaktoren
des
untersuchten Problems zu priorisieren ,
Faktoren und wichtigsten Prozessfaktoren
des
untersuchten Problems zu Es handelt sich um ein Toolkit
zur kontinuierlichen Verbesserung. Pareto-Analyse wird
bei der Priorisierung von
Projekten verwendet , um sich
auf wichtige
Projekte zu konzentrieren , die dem Kunden
und dem Unternehmen einen
Mehrwert bieten Anstatt
alle Projekte zu erledigen
, die auf
meiner Projektliste stehen, würde
ich mich auf
diese wenigen Projekte konzentrieren, zwei oder drei Großprojekte, die mir den
größtmöglichen Nutzen bringen können Sie können bei
der Festlegung des
Projektumfangs vorsichtig sein , ob Sie den Teil Aysis verwenden oder bei
der
Priorisierung Ihrer Ressourcen,
wer die Hauptperson ist, die für Ihr Projekt benötigt
wird Wir können die
Parto-Analyse auch zur Visualisierung
Ihrer Daten verwenden , um schnell zu wissen Ich habe zum Beispiel eine Menge fehlerhafter Daten, wie z. B. zehn
Reißen aus dichtem Fang Ich führe die Analyse durch
und habe diese Daten. Wenn ich es in absteigender
Reihenfolge der Fehler anordne, finde
ich, dass das Abreißen der
größte Aufwand ist Dann folgt eine Lochblende, dann und so weiter Auf die, die grau sind, werde
ich mich nicht besonders konzentrieren, weil sie keinen großen
Beitrag leisten. Wenn ich den Riss repariere, werde
ich
maximale Ergebnisse erzielen Wenn ich
die ersten drei repariere, werde
ich die Fehler, die
in meinem Prozess
auftreten, erheblich reduzieren . Wenn Sie beispielsweise Daten über Fehlertypen sammeln, kann
die Analyse des
Bedieners Aufschluss darüber geben , welche Art von Fehler
am häufigsten auftritt. Sie können sich darauf konzentrieren,
die Ursache zu lösen , die
die meisten Auswirkungen hat. Der Vorteil der Teilanalyse besteht darin, Sie sich auf
das konzentrieren können,
was wirklich wichtig ist Sie trennt die Hauptursachen des Problems von
den kleineren Es ermöglicht die Messung der Auswirkungen von Verbesserungen, indem die Ergebnisse
vorher und nachher erfasst werden. Es ermöglicht es,
einen Konsens darüber zu erzielen
, was zuerst angegangen werden muss. Es hat sich
herausgestellt, dass das Pareto-Prinzip bei vielen Gebühren zutrifft:
20% bemühen sich, 80-prozentige Ergebnisse zu erzielen Anstatt Arbeit oder
wir können es auch
als 20% Ursachen bezeichnen , was
mir zu 80% Wirkung Wenn ich also über
Ursache-Wirkungs-Analyse nachdenke, dann sind es wieder 20%
Ursachen, 80% Aufwand. O Effekt, wenn ich auch die Analyse von
Aufwand und Ergebnissen betrachte, sagen
wir, weniger Aufwand betreiben,
um maximale Ergebnisse zu erzielen. 20% der Kunden des Unternehmens sind für
80% des Umsatzes
verantwortlich oder 80% des Verkaufs
stammen von 20% der Kunden. Das ist also das Konzept von 20% Aufwand gegenüber
Ergebnissen von 80%. Man kann davon ausgehen,
dass das Büro Pardo Analysis
Act so konzipiert ist, dass 20% der
Arbeitnehmer 80% der Arbeit erledigen 20% der für
eine Aufgabe aufgewendeten Zeit führen zu 80%
der Ergebnisse 20% der Bevölkerung besitzen
80% des Reichtums der Nation. Stimmt das nicht, auch
in unserem Land, unserem Staat, unserer Gemeinschaft? Wir stellen fest, dass es nur
sehr wenige Menschen gibt, die das
maximale Vermögen
besitzen Sie können die 20%
der Haushaltsgeräte verwenden ,
80% der Zeit. Sie dürfen 20% Ihrer
Kleidung tragen, 80% der Zeit. Es ist also an der Zeit, dass Sie in
Ihrem Privatleben einfach eine Teilanalyse
anwenden , um
Ihre Garderobe aufzuräumen , wenn Sie
an das Konzept des Minimalismus glauben an das Konzept des Minimalismus 20% der Autofahrer
verursachen 80% der Unfälle. 80% der Kundenbeschwerden stammen von 20% der Kunden. Nur einige wenige Ursachen machen
den größten Teil der Wirkung
auf die Fischrute aus. Wenn ich meine
Parto-Analyse auf eine Fischrute umrechne, werden
Sie feststellen, dass
es nur wenige Ursachen gibt , die
zur Hauptursache beitragen sich all
diese Beispiele angehört haben, hätten
Sie verstanden,
dass Pareto nicht darauf
beschränkt ist , sich nur in
Ihrem Büro oder an Ihrem Arbeitsplatz zu bewerben Sie können die
Parto-Analyse sogar in Ihrem Privatleben anwenden. Wenn ich es auf Twitter oder eine solche
Social-Media-Plattform weitergebe, die
meisten der aktiven 20%
der Twitter-Nutzer sind die
meisten der aktiven 20%
der Twitter-Nutzer für 80%
der gesamten Tweets verantwortlich Das Parto-Diagramm ist
eine spezielle Art von Balkendiagramm, das die
Häufigkeit historischer Daten darstellt Sie müssen also verstehen, dass sich
diese Daten auf den Stand von gestern, heute
Morgen oder auf den Stand des letzten Monats beziehen Es handelt sich also um kategorische Daten. Die X-Achse sagt sehr
deutlich, dass es
sich kategoriale Daten handelt, und die Y-Achse gibt Auskunft über die
Häufigkeit des werden kann Bitte beachten Sie, dass die Parto-Analyse nicht für kontinuierliche
Daten
verwendet Wenn Sie also sehen, werden
Sie über kategoriale Daten
verfügen , deren Häufigkeit
in absteigender Reihenfolge aufgetragen ist.
Die Hauptursachen
sind weniger Aufwand, um deren Häufigkeit
in absteigender Reihenfolge aufgetragen ist.
Die Hauptursachen maximale Ergebnisse zu
erzielen den kategorialen Daten
handelt es sich um die niedrigste
Datenebene , anhand derer
Personen, Dinge oder Ereignisse klassifiziert Ich kann es einfacher machen. Alles, was mit
Wörtern gemacht wurde , wird als
kategoriale Daten bezeichnet Geografische Standorte,
Wetter, Farbe, Gerätetyp, Blutgruppe, Blut,
Bankkontotyp, wie
Sparguthaben oder Girokonto, FD oder
Privatkredit , Art des Fehlers oder
Defekts, Art der Daten Pareto-Analyse:
Die vertikale Achse stellt die Häufigkeit der
kategorialen Daten Die X-Achse stellt die
Kategorien der Beschriftungen dar. Die horizontale Achse stellt die kategorialen Daten dar, die ein Problem oder die Probleme
verursachen Der Balken ist in
absteigender Reihenfolge
von links nach rechts angeordnet absteigender Reihenfolge
von links nach rechts Die am häufigsten vorkommende
ist auf der linken Seite, die am
seltensten vorkommende ist auf der rechten Seite Sie müssen sich keine Sorgen machen, wenn
Sie Microsoft Excel haben, es wird es für Sie zeichnen. Wenn Sie eine
ältere Version von Excel verwenden, werde
ich
im Abschnitt Projekt und
Ressourcen unten eine Vorlage veröffentlichen. Wenn Sie zu viele Kategorien haben, können
Sie diese kleinen,
seltenen Kategorien
in der Kategorie
Andere gruppieren in der Kategorie
Andere Der letzte Balken ist normalerweise
etwas höher als
die vorherigen. Sie können optional eine
kumulative Frequenzkurve über
dem Balken platzieren und ihm
eine sekundäre Y-Achse geben eine sekundäre Y-Achse , die den
kumulativen Prozentsatz darstellt Dies hilft lediglich dabei, die Ergebnisse
leichter zu
interpretieren und
die 80 20-Verbindung zu identifizieren Die
Parto-Analyse
konzentriert sich auf
die Bemühungen in den Kategorien, deren
senkrechter Balken 80% der Ergebnisse ausmacht Sie sollten nach etwas suchen
, bei dem es sich um Hauptursachen, maximale Wirkung und geringsten
Aufwand handelt, um maximale Ergebnisse zu erzielen Wenn Sie sich die
beiden Partomuster
A und B ansehen, welches Muster A und B ansehen, welches ist das beste Beispiel für das
Partomuster Ich würde vorschlagen, dass es
das Muster A ist, weil Muster B zeigt
, dass die meisten von ihnen fast zu gleichen Teilen
beitragen Da es sich
um eine gleichmäßige Verteilung handelt, würde ich mich nicht daran halten. Ich würde mich für die Kategorie A entscheiden. Und das ist falsch. Wenn die resultierenden Diagramme ein Parto-Muster
deutlich veranschaulichen Dies deutet darauf hin, dass
nur wenige
Ursachen für etwa
80% des Problems Dies bedeutet, dass
es einen Teileffekt gibt, und Sie können sich darauf konzentrieren diese wenigen Ursachen
zu
bekämpfen, um ein maximales Ergebnis zu erzielen Wenn Sie
ein Muster wie ein B-Diagramm erhalten hätten, dann funktioniert die
Parto-Analyse nicht, und wir müssen auch eine andere Qualitätskontrolle
verwenden Wenn jedoch kein
Paradomuster gefunden wird, können
wir nicht sagen, dass einige Ursachen wichtiger
sind als Wie ich gerade sagte. Stellen Sie sicher, dass Ihr Parado-Diagramm
genügend Datenpunkte enthält , um es aussagekräftig zu
machen In der heutigen Welt viele Daten verfügbar. Stellen Sie
also sicher, dass Sie so viele
Daten wie möglich
erfassen Die Pareto-Analyse
zur Erstellung eines Parto-Diagramms. Sie gemeinsam mit Ihrem Team das Problem, Definieren Sie gemeinsam mit Ihrem Team das Problem, das
Sie lösen möchten, und
ermitteln Sie die möglichen Ursachen mithilfe von Brainstorming Entscheiden Sie sich für die Messmethode
, die für den Vergleich verwendet werden soll, die Häufigkeit, die Kosten
und die Zeit usw. Wie erstellt man ein Parto-Diagramm, sammelt die Daten und verlangt, dass
die kategorialen Daten analysiert werden
? Berechnet die Häufigkeit
der kategorialen Daten. Zeichnen Sie eine horizontale Linie und platzieren Sie den vertikalen Balken, um
die Häufigkeit der Kategorie anzugeben Zeichnen Sie
links eine vertikale Linie, um die Frequenz
links von der Linie zu platzieren links von der Linie falls Sie
sie auf Millimeterpapier zeichnen. Microsoft Excel kann
Parado-Diagramme automatisch erstellen. Wenn Sie dies jedoch manuell tun, sortieren
Sie die Kategorien in
der Reihenfolge ihrer Häufigkeit, von
der bis zur
kleinsten, größten, die auf der linken Seite erscheint Sie sollten Ihre
kumulative Häufigkeitskurve
und eine kubultive Prozentlinie berechnen und eine kubultive Wenn Sie beobachten, wie die
Parade ihre Wirkung entfaltet, sollten Sie Ihre Verbesserungsbemühungen auf
die wenigen Kategorien konzentrieren , deren senkrechter Balken meisten ausmacht Diese Ursachen haben wahrscheinlich den größten Einfluss auf
Ihre Prozessleistung. Ich habe eine Pareto-Probe entnommen
, um zu analysieren,
warum ein Patient
einen Anruf in einem
Krankenhaus gut nutzt, wenn er aufgenommen wird einen Anruf in einem
Krankenhaus gut nutzt, wenn er aufgenommen Sie brauchen also einen Toilettenassistenten, brauchen Nahrung oder Wasser, ihr
Bett
neu positionieren, intravenöse Probleme,
Schmerzmittel, einen dringenden
Anruf zurück ins Bett,
holen sich all die Dinge, die grau
sind, sind nicht häufig
vorkommende Dinge und
sie sind auch nicht vorkommende Dinge und Also, wenn wir uns auf die ersten
drei oder die ersten vier konzentrieren. Wenn ich also sagen würde
,
dass diese vier Faktoren zu
40% des Aufwands beitragen, werden Sie
70% der Wirkung erzielen. Ich könnte mich also dafür entscheiden, nur an den ersten drei zu
arbeiten, das sind 30% Aufwand, um immer noch 68% Aufwand zu erzielen. Alles ist in Ordnung. Das Konzept ist , dass ich weniger Anstrengungen unternehmen muss
, um maximale Ergebnisse zu erzielen. Kundenbeschwerden
in einer Fabrik. Ein Werksteam hat
eine Parado-Analyse durchgeführt, um der steigenden Anzahl von Beschwerden aus
Kundensicht zu begegnen In gewisser Weise
kann das Management das verstehen. Es handelt sich um eine Art von
Kundenbeschwerde, Produktbeschwerde, dokumentenbezogene Beschwerde, paketbezogene Beschwerde oder
lieferungsbezogene Beschwerde. Wir können sehen, dass
sich Kunden
am häufigsten über die Art
des Produkts oder den
Defekt des Produkts beschweren des Produkts oder den
Defekt des Produkts Gefolgt von Problemen im
Zusammenhang mit dem Dokument. Kundenbeschwerde in einer Fabrik, die Hauptkategorien sind
möglicherweise zu allgemein gehalten und können
in Unterkategorien unterteilt werden Wenn ich also über
Produktreklamationen nachdenke, handelt es sich um ein
übergeordnetes Problem, ich könnte
sie als Unterkomponente
von Problem A betrachten sie als Unterkomponente
von Problem A es
sich um ein Problem mit Kratzern, ein Nadelloch, ein Paar HMA Sie können auch
den Teil der
Produktbeschwerde erneut anwenden , d.
h., wenn Sie Probleme im Zusammenhang mit Kratzern und
Dellen in
einer Produktbeschwerde beheben wollen , wird
der Großteil der
Produktbeschwerden zurückgehen Art der Reklamationen:
Wir können feststellen, dass
fehlende Informationen
der Hauptgrund dafür sind,
gefolgt von Rechnungsfehlern, falscher Menge und anderen Das Parto-Diagramm kann weiter analysiert
werden indem die
Hauptkategorien in Unterkategorien
unterteilt werden , oder
Unterkomponenten, bei denen
das spezifische Problem
am häufigsten auftritt, werden Unterkategorien das spezifische Problem
am häufigsten auftritt genannt Kundenbeschwerden
in einer Fabrik. Die Ergebnisse deuten darauf hin
, dass es
drei Unterkategorien gibt , die am häufigsten vorkommen Beachten Sie, dass es möglich ist, zwei Diagramme zu einem
zusammenzuführen. Ich habe also die Art der Produktbeschwerden
und die Art des Dokuments, und ich kann
sie zusammenfassen. Pero Principles ist nach dem italienischen Ökonomen
Wilfredo Peto benannt italienischen Ökonomen
Wilfredo Joseph Juran hat die Prinzipien von
Peto auf das Qualitätsmanagement der Unternehmensproduktion angewendet Prinzipien von
Peto . Erwägen Sie bei Ihrer Analyse die
Verwendung von Kontextdaten, Metadaten und Spalten
, die Textdaten Datenbanken enthalten oft viele
kategorische Daten
über die Umgebung,
aus der die aus Diese Daten können bei späteren Analysen
bei der Untersuchung der Urheber von Konzepten und Ideen sehr
nützlich bei der Untersuchung der Urheber von Konzepten und Ideen Pareto-Prinzipien können
Ihnen helfen, die Auswirkungen
von Verbesserungen zu messen , indem Sie das Vorher mit
dem Nachher vergleichen Wenn Sie sehen, dass die blaue Arbeit
nach den Projekten eine große Hilfe
war, stellen
Sie fest, dass es
in dieser
Kategorie eine erhebliche Verbesserung gibt in dieser
Kategorie eine erhebliche Verbesserung Das neue Teildiagramm
kann zeigen, dass der
Primärcode erheblich reduziert wurde Statistisch gesehen lassen sich die
Parado-Prinzipien anhand der Verteilung der Strommenge und vieler natürlicher Phänomene beschreiben, die diese Verteilung hervorrufen
. Damit bin ich am Ende
des Konzepts der Parto-Analyse angelangt Im nächsten Video zeige ich Ihnen, wie
ich die Pareto-Analyse
mit Microsoft Cel
durchführe ich die Pareto-Analyse
mit Microsoft Cel
durchführe Wir sehen uns in der nächsten Klasse.
17. Konzepthypothesentests und statistische Signifikanz (1): Lassen Sie uns die
Konzepte im Zusammenhang mit
Hypothesentests und
statistischer Signifikanz aufschlüsseln . Erstens, Hypothesentests Bei der Durchführung eines
Hypothesentests beginnen
wir mit einer
Forschungshypothese, auch
Alternativhypothese genannt. In Ihrem Fall die
Forschungshypothese , dass das Medikament den Blutdruck beeinflusst. Wir können
diese Hypothese jedoch nicht direkt mit einem
klassischen Hypothesentest testen. Stattdessen testen wir die
gegenteilige Hypothese , dass das Medikament keinen
Einfluss auf den Blutdruck hat. Wir gehen davon aus,
dass
Menschen, die das Medikament einnehmen,
und Menschen, die
das Medikament nicht einnehmen, in der Bevölkerung im Durchschnitt Menschen, die das Medikament einnehmen,
und Menschen, die
das Medikament nicht einnehmen den gleichen
Blutdruck haben. Wenn wir in einer Probe
eine starke
Wirkung des Medikaments beobachten , fragen wir dann, wie wahrscheinlich es ist, eine
solche oder eine
noch extremere Probe zu ziehen , wenn das
Medikament tatsächlich keine Wirkung hat. Die Wahrscheinlichkeit, eine solche Stichprobe
zu erhalten, unter der Annahme der Nullhypothese, keine Wirkung besteht, wird als P-Wert bezeichnet. Der P-Wert gibt die Wahrscheinlichkeit an,
eine Stichprobe zu erhalten, die
genauso stark von unserer beobachteten
Stichprobe abweicht oder sogar
noch extremer ist, wenn die
Nullhypothese wahr wäre Wenn der p-Wert sehr niedrig ist, typischerweise weniger als 0,05, haben
wir Belege dafür, dass
die Nullhypothese
zugunsten der
Alternativhypothese zurückgewiesen die Nullhypothese
zugunsten der
Alternativhypothese zugunsten der
Alternativhypothese Ein kleiner p-Wert deutet darauf hin, dass die beobachteten Daten oder Stichproben nicht mit
der Nullhypothese übereinstimmen Also drei, statistische
Signifikanz. Wenn der p-Wert unter einem vorbestimmten
Schwellenwert liegt, oft 0,05. Das Ergebnis wird als
statistisch signifikant angesehen. Dies bedeutet, dass es
unwahrscheinlich ist, dass das
beobachtete Ergebnis allein
durch Zufall zustande gekommen ist, und wir haben genügend Beweise, um die Nullhypothese
abzulehnen Der Schwellenwert für den p-Wert
ist auf 5% oder 0,05 festgelegt.
Ein kleiner p-Wert deutet darauf hin, dass die beobachteten Daten oder Stichproben nicht
mit der Nullhypothese übereinstimmen Umgekehrt deutet ein großer
p-Wert darauf hin, dass die beobachteten Daten
mit der Nullhypothese übereinstimmen, und wir lehnen sie nicht ab Viertens: Fehler beim Testen von
Hypothesen. Denken Sie daran, dass ein kleiner
p-Wert nicht beweist, dass die alternative
Hypothese wahr ist. deutet nur darauf hin, dass das beobachtete Ergebnis unter der
Nullhypothese
unwahrscheinlich ist . Ebenso beweist ein großer P-Wert nicht, dass die
Nullhypothese wahr ist. Er deutet lediglich darauf hin, dass das beobachtete Ergebnis
unter der Nullhypothese wahrscheinlich ist. Lassen Sie uns nun
die beiden Arten von Fehlern verstehen. Der Fehler vom ersten Typ und
der Fehler vom zweiten Typ. Ein Fehler vom Typ eins tritt auf, wenn wir fälschlicherweise eine
echte Nullhypothese ablehnen In Ihrem Beispiel würde dies bedeuten, Schluss zu kommen, dass das Medikament wirkt,
obwohl es tatsächlich nicht Ein Fehler liegt vor,
wenn Sie
die Nullhypothese zurückweisen ,
obwohl
die Nullhypothese in Wirklichkeit wahr ist, Ihre Entscheidung über die
Nullhypothese
jedoch abgelehnt wird Fehler zweiten Typs tritt auf, wenn wir eine falsche
Nullhypothese nicht zurückweisen können. Fehler zweiten Typs liegt vor,
wenn Sie die Nullhypothese nicht
zurückweisen,
obwohl
die Nullhypothese in Wirklichkeit falsch ist, Ihre Entscheidung über die
Nullhypothese
jedoch akzeptiert wird. In Ihrem Beispiel
würde das bedeuten, die
Tatsache zu übersehen, dass das Medikament wirkt. Die entnommene Probe
zeigte keinen großen Unterschied. Ich dachte fälschlicherweise, dass
das Medikament nicht wirkt. In der nächsten Lektion werden
wir uns eingehender mit
praktischen Anwendungen der
Versuchsplanung befassen.
Bleib dran.
18. TestofHypothesis: Hallo Freunde. Lassen Sie uns unsere Reise
zur MiniTab-Datenanalyse fortsetzen. Heute werden wir etwas
über Hypothesentests lernen. Sie haben vielleicht gehört, dass wir während der Analyse-
und Verbesserungsphase
unseres Projekts
Hypothesentests durchführen . Um zu verstehen, wie der
Hypothesentest funktioniert, lassen Sie uns ein
einfaches Fallszenario verstehen. Ich werde
noch einmal auf diese Grafik zurückkommen und
Ihnen erklären, dass es so ist. Wie Sie wissen, kann das Justizsystem verwendet werden,
um
das Konzept
der Hypothesentests
zu erklären, wenn wir vor Gericht gehen kann das Justizsystem verwendet werden,
um
das . Der Richter beginnt immer mit
einer Aussage, die besagt, dass die Person bis zum Nachweis ihrer Schuld als
unschuldig gilt. Das ist nichts als Ihre
Nullhypothese, der Status Quo. Wenn sie erwischt werden, geht der
Fall weiter. Die Anwälte versuchten, Daten und Beweise
vorzulegen. Und solange wir
keine starken Daten
und starken Beweise haben, befindet sich
die Person im
Status der Unschuld. Der Angeklagte oder der
Oppositionsanwalt versucht also immer zu sagen, dass
diese Person schuldig ist, und ich habe Daten und
Beweise, um dies zu beweisen. Er versucht, an einer
alternativen Hypothese zu arbeiten. Und der Richter sagt, ich gehe standardmäßig mit dem Status Quo der Nullhypothese. Lassen Sie
mich das einfacher erklären. Sie und ich, wir werden nicht vor Gericht gestellt,
weil
wir uns standardmäßig alle in OSA befinden, das ist der Status Quo. Wer wird
vor Gericht gezogen. Menschen, die
eine Chance haben, sind gekommen, haben ein Verbrechen begangen. Es könnte alles Mögliche sein.
Auf die gleiche Weise. Woran versuchen wir
Hypothesentests durchzuführen wenn ich meine
Analysephase des Projekts durchführe. Ich habe also mehrere Ursachen , die
zu meinem Projekt beitragen könnten. Warum? Wir führen eine Ursachenanalyse durch und lernen das kennen wir, okay? Vielleicht hat sich die Lieferung verzögert. Vielleicht ist die Maschine ein Problem, vielleicht ist das
Messsystem ein Problem. Vielleicht
ist der Rohstoff nicht von guter Qualität. Wir haben mehrere Gründe
, die es gibt. Jetzt möchte ich
es anhand von Daten beweisen, und das ist der Ort, an dem ich versucht habe, Hypothesentests durchzuführen. Alle Prozesse
sind unterschiedlich. Wir wissen, dass alle Prozesse der Glockenkurve
folgen. Wir werden niemals das Zentrum hinzufügen. jedem Prozess gibt es einige
Abweichungen. Nun die Daten oder die
Stichprobe, die Sie aktualisiert haben, handelt es sich um eine Zufallsstichprobe, die von derselben Banco
stammt? Oder ist es ein Sample, das
aus einer ganz
anderen Glockenkurve stammt ? Hypothesentests
helfen Ihnen also bei der Analyse derselben. Wann immer wir
einen Hypothesentest aufstellen, haben
wir zwei Arten von Hypothesen, wie ich Ihnen bereits sagte, den Status Quo
oder die Standardhypothese, die Ihre Nullhypothese ist. Standardmäßig gehen wir davon aus, dass
die Nullhypothese wahr ist. Um die
Nullhypothese zurückzuweisen, müssen
wir Beweise vorlegen. Alternative Hypothese
ist der Ort
, an dem es einen Unterschied gibt. Und das ist der Grund, warum der Hypothesentest
tatsächlich eingeleitet wurde, oder? Wir werden es
anhand vieler Beispiele verstehen. Also bleib in Verbindung. Wenn ich also eine Null
- und Alternativhypothese aufstelle, sagen
wir, ich sage, dass mein mu
nichts anderes als mein Durchschnitt
ist, mein Bevölkerungsdurchschnitt entspricht einem bestimmten Wert. Denken Sie immer daran, dass sich
Ihre alternative Hypothese
gegenseitig ausschließt. Wenn mu einem Wert entspricht, würde
die alternative Hypothese besagen, dass mu nicht gleich
diesem Wert ist. Beispiel ist mu weniger als gleich einem Wert
als Null-Hypothese. Wenn ich zum Beispiel Domino's Pizza
verkaufe, sehe
ich, dass meine durchschnittliche Lieferzeit weniger als
30 Minuten
beträgt. Der Kunde kommt
und sagt mir, dass die durchschnittliche Lieferzeit mehr als 30 Minuten
beträgt, das wird meine Alternative. Manchmal, wenn wir
die Nullhypothese haben , ist mu größer als
gleich einem Wert. Zum Beispiel
ist meine durchschnittliche Qualität größer als 90%. Dann kommt der Kunde
zurück und teilt mir mit, dass Ihre durchschnittliche Qualität
unter diesem Prozentsatz liegt. Denken Sie also immer an die
Nullhypothese und alternative Hypothesen schließen
sich
gegenseitig aus und ergänzen
sich gegenseitig. Wir werden noch viele weitere
Beispiele aufgreifen, wenn wir weiter gehen.
19. Null und alternatives Hypothesekonzept: Lassen Sie uns in die
Inferenzstatistik eintauchen. Wir beginnen mit einem kurzen
Überblick darüber, was es ist. Gefolgt von einer Erläuterung
der sechs Schlüsselkomponenten. Was ist also
Inferenzstatistik? Sie ermöglicht es uns, anhand von
Daten aus
einer Stichprobe
Rückschlüsse auf eine Population Zur Verdeutlichung: Die Population ist die gesamte Gruppe, an der
wir interessiert sind. Wenn
wir zum Beispiel
die durchschnittliche Körpergröße aller
Erwachsenen in den Vereinigten Staaten untersuchen wollen , umfasst
unsere Bevölkerung
alle Erwachsenen des Landes. Bei der Stichprobe
handelt es sich dagegen um eine kleinere Teilmenge
aus dieser Population Wenn wir beispielsweise
150 Erwachsene aus den USA auswählen, können
wir anhand dieser Stichprobe
Rückschlüsse auf die breitere Nun, hier sind die sechs Schritte, die
zu diesem Prozess gehören. Hypothese. Wir beginnen
mit einer Hypothese. Welche Aussage wollen
wir testen? Zum Beispiel
möchten wir vielleicht untersuchen, ob ein Medikament den
Blutdruck bei Menschen
mit Hypotonie positiv beeinflusst Blutdruck bei Menschen
mit Hypotonie Oh, in diesem Fall besteht
unsere Population aus allen Personen mit hohem
Blutdruck in den USA,
da es nicht praktikabel ist, Daten von der gesamten Bevölkerung zu sammeln Daten von der Wir verlassen uns auf eine Stichprobe, um anhand unserer Stichprobe
Rückschlüsse auf die
Population Wir verwenden Hypothesentests. Dies ist eine Methode, die verwendet wird, um eine Aussage über
einen Populationsparameter auf der
Grundlage von Stichprobendaten zu
bewerten . Es sind verschiedene
Hypothesentests verfügbar, und das am Ende dieses Videos. Ich werde dir zeigen, wie du den richtigen
auswählst. Wie funktioniert das
Testen von Hypothesen? Wir beginnen mit einer
Forschungshypothese. Auch bekannt als
Alternativhypothese
, für die wir in unserer Studie nach
Beweisen suchen. Wird auch als
Alternativhypothese bezeichnet. Dafür versuchen wir Beweise
zu finden. In unserem Fall
lautet die Hypothese , dass das Medikament den Blutdruck
beeinflusst. Wir können dies jedoch nicht direkt mit einem klassischen
Hypothesentest testen. Also testen wir die
gegenteilige Hypothese, dass das Medikament keinen
Einfluss auf den Blutdruck hat. Hier ist der Prozess. Erstens,
nimm die Nein-Hypothese an. Wir gehen davon aus, dass das Medikament keine Wirkung
hat, was bedeutet, dass
Menschen, die das Medikament einnehmen und solche, die nicht den
gleichen durchschnittlichen Blutdruck haben. T, sammle und
analysiere Probendaten. Wir nehmen eine Zufallsstichprobe. Wenn das Medikament in der Probe eine große
Wirkung zeigt, bestimmen
wir dann die
Wahrscheinlichkeit, eine
solche oder eine Probe zu ziehen ,
die noch stärker abweicht, wenn das Medikament tatsächlich keine Wirkung
hat,
oder eine, die noch stärker abweicht, wenn das Medikament tatsächlich keine Wirkung
hat,
T, bewerten den
Wahrscheinlichkeits-p-Wert Wenn die Wahrscheinlichkeit, ein
solches Ergebnis unter der
Nullhypothese zu beobachten , sehr gering ist Wir erwägen die Möglichkeit , dass das Medikament
eine Wirkung hat. Wenn wir genügend Beweise haben, können
wir die
Nullhypothese zurückweisen. Der p-Wert ist die
Wahrscheinlichkeit, der die Stärke der Beweise
gegen die Nullhypothese gemessen wird. Zusammenfassend besagt die
Nullhypothese, es keinen Unterschied
in der Grundgesamtheit
gibt, und der Hypothesentest
berechnet, wie wahrscheinlich es ist die Stichprobenergebnisse beobachtet wenn die Nullhypothese wahr ist Wir wollen Beweise für
unsere Forschungshypothese finden. Das Medikament beeinflusst den Blutdruck. Wir können dies jedoch nicht
direkt testen, also testen wir die entgegengesetzte
Hypothese, die Nullhypothese. Das Medikament hat keine Wirkung
auf den Blutdruck. So funktioniert es. Gehen Sie von der Nein-Hypothese aus. Gehen Sie davon aus, dass das Medikament keine Wirkung hat. heißt, Menschen, die das Medikament
einnehmen, und Menschen, die nicht den
gleichen durchschnittlichen Blutdruck haben, sammeln und analysieren Daten. Nehmen Sie eine Zufallsstichprobe. Wenn das Medikament eine große
Wirkung in der Probe zeigt. Wir bestimmen, wie wahrscheinlich es
ist, ein solches
oder ein extremeres Ergebnis zu erzielen . Wenn das Medikament wirklich keine Wirkung hat, berechnen Sie den p-Wert. Der p-Wert ist die
Wahrscheinlichkeit eine Probe
beobachtet wird, die
so extrem ist wie unsere. Unter der Annahme, dass die
Nullhypothese wahr ist. Statistische Signifikanz Wenn der p-Wert unter einem festgelegten Schwellenwert liegt, normalerweise 0,05. Das Ergebnis ist
statistisch signifikant, d. h. es ist unwahrscheinlich, dass es allein durch Zufall
entstanden ist Wir haben dann genügend Beweise , um die Nullhypothese abzulehnen Ein kleiner p-Wert deutet darauf hin, dass die beobachteten Daten nicht mit
der Nullhypothese übereinstimmen führt dazu, dass wir sie
zugunsten der
Alternativhypothese ablehnen zugunsten der
Alternativhypothese Ein großer p-Wert deutet darauf hin, dass die Daten
mit der Nullhypothese übereinstimmen. Wir lehnen es nicht ab. Wichtige Punkte. Ein kleiner p-Wert
beweist nicht , dass die
Alternativhypothese wahr ist. Es zeigt lediglich an
, dass ein solches Ergebnis
unwahrscheinlich ist , wenn die
Nullhypothese wahr ist. Ebenso beweist ein großer p-Wert nicht, dass die
Nullhypothese wahr ist. Dies deutet darauf hin, dass die beobachteten Daten wahrscheinlich unter der
Nullhypothese liegen. Danke. Wir sehen uns in der nächsten Statistikstunde.
20. Statistiken Verstehen des P-Werts: Was ist der p-Wert und
wie wird er interpretiert? Darüber werden wir in diesem Video
sprechen. Fangen wir mit einem Beispiel an. Wir möchten untersuchen, ob es einen
Größenunterschied
zwischen einem durchschnittlichen
amerikanischen Mann und durchschnittlichen amerikanischen
Basketballspieler gibt. Der durchschnittliche Mann ist
1,77 Meter groß. Wir wollen also wissen, ob der durchschnittliche Basketballspieler auch 1,77 Meter groß
ist Daher geben wir die
Nullhypothese an. Die durchschnittliche Größe eines
amerikanischen Basketballspielers beträgt 1,77 Meter Wir gehen davon aus, dass die der amerikanischen Basketballspieler durchschnittliche Körpergröße
der amerikanischen Basketballspieler 1,77
Meter Da wir jedoch nicht die gesamte Bevölkerung
befragen können, ziehen
wir eine Stichprobe Für Co
ergibt diese Stichprobe keinen exakten Mittelwert
von 1,77 Metern Das wäre sehr unwahrscheinlich. Oh. Es kann sein , dass die rein
zufällig entnommene Probe um
3 Zentimeter mal
8 Zentimeter mal
15 Zentimeter oder
um einen anderen Wert abweicht 3 Zentimeter mal
8 Zentimeter mal
15 Zentimeter oder
um einen anderen Wert Da wir eine
ungerichtete Hypothese testen
, wollen wir also nur wissen,
ob es einen Unterschied gibt Es ist uns egal, in welche
Richtung der Unterschied geht. Jetzt kommen wir zum p-Wert. Wie bereits erwähnt, gehen wir davon aus,
dass
es in der Bevölkerung einen Mittelwert
von 1,77 Metern Wenn wir eine Stichprobe ziehen, wird
sie sich um einen bestimmten Wert von der
Grundgesamtheit unterscheiden Der p-Wert gibt an, wie wahrscheinlich es ist, eine Stichprobe zu
ziehen, die Grundgesamtheit
abweicht gleichen oder
einen größeren Betrag
als den beobachteten Wert von der Schauen wir uns das noch einmal genauer an. Wir haben eine Stichprobe, die sich von der Grundgesamtheit
unterscheidet. Wir sind jetzt daran interessiert, wie wahrscheinlich es ist, eine Stichprobe zu ziehen , die genauso stark wie
unsere Stichprobe oder mehr
von der Grundgesamtheit abweicht unsere Stichprobe oder mehr
von der Grundgesamtheit Somit gibt der p-Wert an, wie wahrscheinlich es ist,
eine Stichprobe zu ziehen , deren Mittelwert in diesem Bereich
liegt Zum Beispiel, wenn die Stichprobe
zufällig um 3
Zentimeter von 1,77 Metern abweicht Der p-Wert gibt an, wie
wahrscheinlich es ist,
eine Stichprobe zu ziehen , die
3 Zentimeter oder mehr
von der Grundgesamtheit abweicht 3 Zentimeter oder mehr
von Wenn die Stichprobe zufällig um
9 Zentimeter von 1,65 Metern abweicht , sagt uns
der p-Wert, wie
wahrscheinlich es ist, eine Stichprobe zu ziehen , die 9 Zentimeter
oder mehr von der Grundgesamtheit abweicht Nehmen wir ein Beispiel, bei dem
wir einen Unterschied von
9 Zentimetern erhalten , und unsere
bevorzugte Berechnet wie Mini Tab
den p-Wert von 0,03. Das sind 3%. Dies zeigt uns, dass die Wahrscheinlichkeit, eine
Stichprobe zu ziehen, die mindestens 9 Zentimeter vom
Mittelwert der Grundgesamtheit von 1,77 Metern
abweicht, mit einer
Wahrscheinlichkeit
von
nur 3% mindestens 9 Zentimeter vom
Mittelwert der Grundgesamtheit von 1,77 Metern
abweicht, mit einer
Wahrscheinlichkeit von Für normalverteilte Daten. Das bedeutet, dass die Wahrscheinlichkeit , dass der Mittelwert
in diesem Bereich liegt einen Richtung bei
1,5% und in der anderen Richtung bei
1,5% Insgesamt 3%. Wenn diese
Wahrscheinlichkeit sehr gering ist Man kann sich natürlich fragen, ob
die Stichprobe überhaupt aus
einer Population mit einem Mittelwert
von 1,65 Metern stammt überhaupt aus
einer Population mit einem Mittelwert
von 1,65 Metern Wenn diese Wahrscheinlichkeit sehr gering ist. Man kann sich natürlich fragen, ob
die Stichprobe überhaupt aus
einer Population mit einem Mittelwert
von 1,77 Metern stammt überhaupt aus
einer Population mit einem Mittelwert
von 1,77 Metern Es ist nur eine Hypothese
, dass der Mittelwert von Basketballspielern 1,77
Meter beträgt Und genau diese
Hypothese wollen wir testen. Wenn wir also
einen sehr kleinen p-Wert berechnen, gibt uns
dies Hinweise darauf
, dass der Mittelwert
der Population überhaupt nicht
1,77 Meter beträgt Daher würden wir
die Nullhypothese ablehnen,
die davon ausgeht, dass der
Mittelwert 1,77 Meter beträgt Daher würden wir
die Nullhypothese ablehnen,
die davon ausgeht, dass der
Mittelwert 1,77 Meter beträgt Aber an welchem Punkt ist der p-Wert klein genug, um
die Nullhypothese abzulehnen Dies wird mit dem
sogenannten Signifikanzniveau,
auch Alpha-Niveau genannt, bestimmt . Dabei sind zwei wichtige
Dinge zu beachten. Erstens
wird das Signifikanzniveau immer
vor der Studie festgelegt und kann
danach nicht mehr geändert werden ,
um letztendlich
die gewünschten Ergebnisse zu erzielen. Zweitens, um ein gewisses
Maß an Vergleichbarkeit zu gewährleisten, wird
das Signifikanzniveau
in der Regel auf 5% oder 1% festgelegt Ein AP-Wert von weniger als 1% wird als
hochsignifikant angesehen Weniger als 5% werden signifikant und mehr als
5% als signifikant bezeichnet. Zusammenfassend gibt uns der p-Wert einen Hinweis darauf, ob wir die
Nullhypothese ablehnen oder nicht. Zur Erinnerung: Die
Nullhypothese geht davon aus, dass
es keinen Unterschied gibt. Die Alternativhypothese
geht zwar davon aus, dass
es einen Unterschied gibt. Im Allgemeinen wird die
Nullhypothese verworfen, wenn der p-Wert kleiner als 0,05
ist Es ist immer nur eine Wahrscheinlichkeit, und wir können
mit unserer Aussage falsch liegen Wenn die Nullhypothese in der Grundgesamtheit
I
zutrifft , liegt der Mittelwert bei 1,77 Metern Aber wir ziehen eine Stichprobe, die
zufällig ziemlich weit entfernt ist. Es könnte sein, dass der
p-Wert kleiner als 0,05 ist. Wir lehnen
die Nullhypothese fälschlicherweise ab. Dies wird als Fehler vom ersten Typ bezeichnet. Wenn es sich um eine Grundgesamtheit handelt, ist
die Nullhypothese falsch. Das heißt, der Mittelwert liegt nicht bei 1,77 Metern, aber wir ziehen eine Stichprobe
, die zufällig sehr nahe bei 1,77 Der p-Wert kann
größer als 0,05 sein, und wir dürfen die Nullhypothese nicht zurückweisen Dies wird als Fehler vom zweiten Typ bezeichnet. Danke, dass du mit mir gelernt hast. Wir sehen uns in der nächsten
Statistikstunde.
21. Arten von Fehlern: Lassen Sie uns
einige weitere
Beispiele für Null- und
Alternativhypothesen verstehen . Nehmen wir also an, wenn mein Projekt Sie vergießen
wird, ist
meine Nullhypothese ein fester Wert. Ich würde also sagen, dass mein
aktueller Mittelwert
meiner aktuellen durchschnittlichen
Zeit, um
Julies 70% zu teilen , beträgt. Aktuell. Der Durchschnitt von P bis S liegt bei 70%. Die alternative Hypothese würde
bedeuten, dass sie nicht bei 70% liegt. Angenommen, ich denke über den Feuchtigkeitsgehalt
eines Projekts nach. Ich bin in einer
Fertigungsanlage und möchte messen ob der Feuchtigkeitsgehalt 5% betragen
sollte. Oder 5% sind für meinen Kunden
akzeptabel, dann kann ich sagen, dass mein
Feuchtigkeitsgehalt weniger als
fünf Prozent
beträgt. Dann würde die alternative
Hypothese behaupten, dass der Feuchtigkeitsgehalt
größer als fünf Prozent ist. Der Fall, in dem der
Mittelwert größer als ist, dann die Nullhypothese. Wir haben kein
Interesse an diesem Problem. Lass es uns weiter verstehen. Die Frage war,
hat ein kürzlich erfolgter
TED-Prozess zur Genehmigung von Krediten für kleine Unternehmen
die durchschnittliche Zykluszeit
für die Bearbeitung des Kredits reduziert ? Die Antwort könnte nein sein. Die Zykluszeit hat sich nicht geändert. Oder der Manager sieht vielleicht, dass die mittlere Zykluszeit unter 7,5%
liegt. Der Status Quo
entspricht also 7,514 Minuten. Und die Alternative sagt, nein, es sind weniger als 7,414
Minuten oder Tage, was auch immer die Hauptmaßeinheit ist wir
messen, oder? Ihr Status
Quo ist also standardmäßig eine Go-Null-Hypothese. Und das Beispiel oder
der Status, Sie leichter beweisen möchten
alternative Hypothese. Jetzt könnte es irgendwelche Pfeile geben, wenn wir Entscheidungen treffen. Kehren wir also
zu unserem Codefall zurück. Der Angeklagte ist in
Wirklichkeit nicht schuldig, oder? Lass mich meinen Laserstrahl aufnehmen. Standardmäßig ist der Angeklagte oder
die Realität, dass der
Angeklagte nicht schuldig ist. Urteil kommt auch
, dass der Angeklagte, die Person nicht schuldig ist. Es ist eine gute Entscheidung, oder? Also ja, wir haben eine sehr gute Entscheidung getroffen, dass
die Person unschuldig ist. In Wirklichkeit ist der
Angeklagte schuldig. Und das Urteil lautet auch
, dass er schuldig ist. Die Entscheidung ist eine gute Entscheidung. Was passiert, ist, dass
die Person in Wirklichkeit nicht garantiert ist, aber das Urteil kommt, dass sie
schuldig ist und
eine unschuldige Person verurteilt wird. Es ist ein Fehler. Das ist ein sehr großer Fehler. In einer Person aus dem Norden, die zu einer
Strafe verurteilt und ins Gefängnis gesteckt
wird, mit einer Strafe, ist
das ein Fehler. Der Fehler kann sogar
auf der anderen Seite passieren, wo die
Person in Wirklichkeit schuldig ist, aber das Urteil kommt,
dass sie nicht schuldig ist. Person wird für unschuldig erklärt und ist bereit dafür. Dies ist auch ein Pfeil, der
aber ein größerer Fehler ist. Der größere Fehler, den Sie in das
Kommentarfeld
schreiben können , was denken Sie? Welcher Fehler ist der größere Pfeil? Ist der Fehler ein größerer Fehler oder ist der Fehler
der größere Pfeil? Wenn keine vernünftige Person, die
verurteilt wird, ein größerer Fehler
ist oder ist eine schuldige Person, die sich frei auf
den Straßen bewegt ,
entweder größerer Pfeil? Ich hoffe, Sie haben die Kommentare bereits
geschrieben. Die Realität ist also, dass dies mein größerer Fehler
wird. Und das wird
als Typ-Eins-Fehler bezeichnet. Denn wenn ein Unschuldiger verurteilt
wird, können
wir die
Zeit, die er verloren hat, nicht zurückgeben. Wir können nicht verstehen, dass er viele emotionale Traumata erleiden würde. Wenn ein Schuldiger für unschuldig
erklärt wird, können
wir ihn vor
das Oberste Gericht und Obersten Gerichtshof bringen und
ihn dazu bringen, zu beweisen,
dass er nicht schuldig ist, richtig. Damit ich
hier die Entscheidung treffen kann , dass die Person ein Sträfling ist. Er sollte verurteilt werden
und er sollte für schuldig erklärt und
bestraft werden. Dieser Fehler wird also
als Typ-2-Fehler bezeichnet. Wenn Sie jemand gefragt hat, welcher
Fehler ein größerer Fehler ist, geben Sie einen Fehler ein, der auch als Alpha-Fehler
bezeichnet wird. Und das wird
als Betafehler bezeichnet. Richtig? Lass uns in unserer nächsten Klasse weiter machen
.
22. Arten von Fehler-part2: Lassen Sie uns die Arten
von Pfeilen noch einmal verstehen. Wie wir also wissen, dass, wenn die Person nicht schuldig
ist oder die
Person unschuldig ist, und das Urteil besagt
auch, dass die
Person nicht schuldig ist. Es ist eine gute Entscheidung. Wenn die Person schuldig ist,
lautet das Urteil, dass sie schuldig ist. Die Entscheidung ist wieder
eine gute Entscheidung. Der Verurteilte ist nicht, muss verurteilt werden oder
sollte bestraft werden. Das Problem tritt auf, wenn eine unschuldige Person
als schuldig bewiesen wird und leidet. Die zweite Art von Problem, das auftritt, wenn eine schuldige Person, eine Person mit einem Verbrecher, als unschuldig erklärt
wird. Und er sagte: Dies wird
als Typ-Eins-Fehler bezeichnet. Das heißt, eine unschuldige
Person, die verurteilt oder bestraft
wird, ist ein Typ-eins-Fehler. Er wird auch Alpha-Pfeil
genannt. Eine schuldige Person, kriminell befreit, wird als
Typ-2-Fehler oder Beta-Fehler bezeichnet, was auch ein Fehler ist
, den wir vermeiden wollen. Das Signifikanzniveau
wird durch den Alpha-Wert festgelegt. Wie sicher
möchten Sie also die
richtige Entscheidung treffen? Also tritt ein Fehler ein, wenn die Null wahr ist,
aber wir haben abgelehnt. Typ-2-Fehler tritt auf, wenn die Null
in Wirklichkeit falsch ist, wir sie
aber nicht ablehnen. Wie
hilft uns das bei der Verarbeitung? Lassen Sie uns das einfach
jeden Tag für das Mittagessen verstehen. Richtig? Lassen Sie uns
das genauer verstehen. Dies ist das eigentliche Szenario. Schreiben wir das
tatsächliche oben. Und diese Mythen
mögen das Urteil. Okay, denken wir jetzt
über den Prozess nach. Der Prozess hat sich nicht geändert. Hat sich nicht geändert. Keine Alternative wird sein Prozess hat sich geändert. Jetzt ist das Urteil zur Kenntnis genommen. Und das Urteil ist, dass sich der
Prozess verbessert hat. Okay. Jetzt stelle ich dir eine
sehr wichtige Frage. Wenn sich ein Prozess nicht geändert hat und das Urteil lautet, dass
es keine Änderung gibt, ist
dies die richtige Entscheidung. Prozess hat sich geändert und das Urteil lautet auch, dass
sich der Prozess verbessert hat. Das ist auch eine richtige Entscheidung. Stellen Sie sich nun vor, der Prozess
hat sich nicht geändert, aber wir
haben erklärt, dass ich jetzt einen verbesserten Prozess und ein verbessertes Produkt habe, und ich informiere den Kunden: Ist das richtig? Ein Fehler. Und dies wird als
Typ-Eins-Fehler bezeichnet, weil sie alt erscheinen, aber unsere Schulden werden als neues Produkt an den
Kunden verkauft. Können Sie verstehen
, was mit
dem Ruf des Unternehmens passieren wird ? Das Team oder Produkt wird als neue Produkte
an den Kunden verkauft . Neues Ein-Kernprodukt. Was wird also mit dem
Ruf des Unternehmens passieren? Es wird ein Wurf sein
und daher sagen wir, dass dies keine gute Entscheidung ist. Jetzt verstehe hier auch
der Prozess hat sich geändert. Der Prozess hat sich verbessert, aber das Urteil ist
nicht verbessert. Dies ist auch ein Fehler. Ich streite es nicht ab. Dies wird als
Typ-2-Fehler bezeichnet oder Audit wird auch
als Betafehler bezeichnet. Gleich hier. Was passiert ist, dass
wir dem Kunden nicht
mitteilen , dass die Verbesserung
eingetreten ist, oder? Wir
behalten die verbesserten Artikel
in Brutprodukten also nicht behalten die verbesserten Artikel im Lager. Das ist auch nicht richtig, aber der größere Fehler ist hier wo wir eigentlich
keine Verbesserung vorgenommen haben, aber ich informiere den Kunden , dass Sie schlechte Leute sind.
23. Jingle: Wenn wir Hypothesen testen, gibt es immer zwei Hypothesen. Eine ist die Standardhypothese, die Nullhypothese, und die zweite ist die
alternative Hypothese , die Sie beweisen möchten. Und das ist der Grund, warum
Sie die Hypothese aufstellen. Wenn Sie also die Hypothese aufstellen, ist
der Grund, warum wir das tun , dass wir
niemals Zugang
zur gesamten Bevölkerung haben. Wenn wir also die Probe sammeln, wollen
wir verstehen, die Probe von der Glockenkurve
stammt oder der Verteilung,
aus der wir verstehen, welche
Variation Sie sehen, ? aufgrund der natürlichen
Eigenschaft des Datensatzes. Manchmal kann sich die Probe an der Endecke des Klettverschlusses befinden. Und das ist ein Ort, an dem wir
die Verwirrung
bekommen , dass diese Daten zum ursprünglichen Klettverschluss gehören oder zur
zweiten Alternative gehören? Willkommen. Das ist da. Wir werden Übungen machen
, die Ihnen ein einfacheres Verständnis dafür vermitteln. Hypothese, Sie erhalten
Informationen wie den p-Wert, abgesehen von den Ergebnissen der
Teststatistik. Sie erhalten auch den p-Wert. Wir vergleichen immer den p-Wert mit dem Nullwert
, den wir gesetzt haben. Angenommen, Sie möchten zu 95% selbstbewusst
sein. Dann legen Sie den p-Wert auf 5% fest. Und wenn Sie festlegen,
dass das Konfidenzniveau 90% beträgt, liegt Ihr Alpha-Wert bei zehn Prozent oder Ihr p-Wert bei 0,10. Der Grund, warum wir einen p-Wert verwenden, ist, dass, wenn Sie diese Glockenkurve
sehen können, die wahrscheinlichste Beobachtung Teil der
Mitte der Glocke
ist. Sehr
unwahrscheinliche Beobachtungen kommen vom Schwanz. Dieser p-Wert, der grüne Grund, hilft Ihnen zu erkennen,
ob er
zum ursprünglichen Klettverschluss gehört oder zu dem
alternativen Großteil davon gehört, das heißt,
Sie versuchen es durch
die alternative Hypothese zu beweisen. Daher hilft Ihnen der p-Wert , sich daran
leicht zu erinnern. Denk an den Jingle. Unten, null. Das heißt, wenn der p-Wert
kleiner als der Alpha-Wert ist, werde
ich
die Nullhypothese zurückweisen. P Flug auf hohem Niveau. Wenn der p-Wert
größer als der Alpha-Wert ist, können
wir
die Nullhypothese nicht zurückweisen. Wir kommen zu
dem Schluss, dass wir nicht
genügend statistische Beweise dafür haben , dass die alternative Hypothese existiert. Wir werden viel
Sport treiben und ich werde
diesen Jingle mehrmals singen , damit du dich leicht daran erinnern kannst. Gehen Sie unter Null hinter Nullcline. Einige der Teilnehmer mit, wenn ich den Workshop
mache, werden
sie sagen, dass None
Go was bedeutet? Die andere Sache, an die
ich ihnen sage, dass sie sich leicht erinnern sollen, ist f für
Flug und F für Feld. Also wenn P hoch Null ist, fliegen wir. Das bedeutet, dass Sie die Nullhypothese nicht
zurückweisen können. Es wird eine Nullhypothese geben. Die alternative Hypothese
wird verworfen. Denken Sie an eine weitere Sache,
die hauptsächlich
während des Interviews gefragt wird. Der p-Wert lag bei 1,230,123. Würden Sie
die Nullhypothese ablehnen oder würden Sie
die Nullhypothese akzeptieren? Oder würden Sie die
alternative Hypothese akzeptieren? Oder akzeptieren Sie
die Nullhypothese? Als Statistiker? Wir akzeptieren niemals eine Hypothese. Entweder lehnen wir
die Nullhypothese oder wir verwerfen
die Nullhypothese nicht. Wir sagen es immer aus
der Sicht von Null, weil der
Standardstatus Quo die
Nullhypothese erleichtert. Wenn das P hoch ist, akzeptieren
wir die Null
- und Alternativhypothese nicht. Akzeptieren wir nicht
die Nullhypothese. Wir sagen, wir können
die Nullhypothese nicht zurückweisen. Wenn das p niedrig ist, akzeptieren
wir keine Alternative, aber wir sagen, ich lehne
die Nullhypothese ab und kommen zu
dem Schluss, dass es
genügend statistische Beweise dafür gibt , dass die Daten vom
alternativen Bellcore stammen . Wir werden mit
vielen Übungen weitermachen. Und dies gibt
Ihnen Sicherheit wie Sie dabei
Inferenzstatistiken üben,
interpretieren und in Ihrer Analyse verwenden können.
24. Testauswahl: Eine der häufigsten Fragen , die meinen Teilnehmern gestellt
werden, wenn ich Projekt teilnehme
, ist , welche Hypothese
sollte ich mieten? Das ist also eine einfache Analyse , die Ihnen hilft, das
zu verstehen. Welche Tests sollte ich verwenden? Genau wie wenn ein
Patient zum Arzt geht, verschreibt ihm
der Arzt nicht den gesamten Test. Er hat ihm einfach den entsprechenden Test gemacht, basierend auf
dem Problem, dass der
Patient fischt. Wenn der Patient sieht, dass
ich einen Unfall hatte, würde
der Arzt sagen, dass ich denke, Sie sollten
Ihre Röntgenaufnahme machen lassen. Er würde ihn nicht
bitten,
seinen COVID-Test oder RT-PCR-Test zu machen . Wenn die Person hustet
und an Fieber leidet,
wird eine RT-PCR empfohlen. Und zu diesem Zeitpunkt sind wir
nicht in der Lage, die Röntgenaufnahme zu befriedigen. Ähnlich sieht es aus, wenn wir
einfache Hypothesentests durchführen,
wir versuchen, sie zu verstehen oder auf
andere Weise einfache Hypothesentests durchführen, wir versuchen, sie zu verstehen oder mit der Bevölkerung zu vergleichen. Wir wollen verstehen, welchen
Test wir durchführen sollten? Wenn ich auf Mittelwerte teste, das Ihr Durchschnitt ist, dann vergleichen Sie den Mittelwert
einer Stichprobe mit dem
erwarteten Wert. Also vergleiche ich die
Stichprobe mit meiner Population. Dann mache ich meinen T-Test
mit einer Stichprobe. Ich habe nur eine Probe
, die ich vergleiche. Ich möchte vergleichen, ob die
durchschnittliche Leistung des, wenn der durchschnittliche Umsatz gleich x
ist, was der erwartete Wert ist. Wir hatten also erwartet,
dass
der Umsatz beispielsweise 5 Millionen betragen würde. Mein Durchschnitt liegt bei 4,8. Ich habe das nicht getroffen. Dann kann ich einen T-Test
mit einer Stichprobe machen. Vergleichen Sie den Mittelwert von Proben mit zwei verschiedenen Proportionen. Wenn ich also zwei
unabhängige Ts habe, nehmen wir an, ich führe online
eine Schulung durch. Ich führe eine
Schulung offline durch. Es ist die Shrina und ich habe eine Reihe von Studenten, die
an meinem Online-Programm teilnehmen. Ich habe eine andere
Gruppe von
Studenten , die an
meinem Programm teilnehmen. Ich möchte die
Effektivität von Schulungen vergleichen. Ich habe also zwei Stichproben, und das sind zwei
unabhängige Stichproben , weil die Teilnehmer unterschiedlich
sind. Dann mache ich einen T-Test mit zwei Stichproben. Wenn ich
die beiden Stichproben
vergleichen möchte kommen die Leute zu meinem Training. Ich mache vor
meinem Trainingsprogramm eine Bewertung über ihr Verständnis von
Lean Six Sigma. Und ich kann das
Schulungsprogramm absolvieren und die gleichen Teilnehmer
nehmen nach
dem Schulungsprogramm am Test teil . Also die Teilnehmer
oder die Szene. Aber die Veränderung
, die stattgefunden hat, ist das Training, das sich auf
sie ausgewirkt hat. Ich habe die Testergebnisse vor
dem Training und ich habe die Testergebnisse nach dem Training, ich möchte vergleichen, ob das
Training effektiv ist. Dann mache ich einen
gepaarten T-Test mit zwei Stichproben. weiter voran. Angenommen, ich
teste auf Frequenz, habe ich diskrete Daten
und möchte
die Frequenz testen , da ich in diskreten Daten
keine Durchschnittswerte habe. Ich nehme Frequenzen. Wenn ich also
die Anzahl Variablen
in einer Stichprobe mit
der erwarteten Verteilung vergleiche, genau wie ich einen Beispiel-T-Test
hatte. Das Äquivalent dazu für diskrete Daten wäre meine
Chi-Quadrat-Güte der Anpassung. I, standardmäßig wird erwartet, dass es sich um einen normalen Wert oder einen bestimmten
Wert oder einen unerwarteten Wert handelt. Und das vergleiche ich. Wie weit sind meine Daten? Ich setze auf eine
chi-quadratische Passform. Dieser Test ist
auf MiniTab in Excel verfügbar. Es ist nicht verfügbar. Also werde ich eine
Vorlage erstellen und sie dir geben, die es dir leicht macht , den Chi-Quadrat-Test durchzuführen. Alle drei verschiedenen Arten von Chi-Quadrat-Tests unter Verwendung
der Excel-Vorlage. Wenn ich
einige der Variablen
zwischen zwei Stichproben zählen muss. Es wird also ein
homogener Chi-Quadrat-T-Test sein. Ich überprüfe eine
einfache einzelne Stichprobe , um festzustellen, ob die diskreten
Variablen unabhängig sind. Ich mache einen Chi-Squared
Unabhängigkeitstest. Wenn ich einen Teil der Daten habe, wie gute oder schlechte Bewerbungen, habe
ich akzeptiert oder abgelehnt. Und ich sage, okay, 50% der Bewerbungen
werden angenommen oder fünfundzwanzig Prozent
der Menschen werden gestellt. Ich habe einen Anteil
, den ich testen möchte. Wenn ich nur eine Probe
habe, mache ich einen Proportionstest. Wenn ich den
Anteil der
Handelsabsolventen mit
dem Absolventen der Naturwissenschaften
oder den Anteil der Finanz-,
MBA- und Personen mit
Marketing-MBA-Mitarbeitern vergleichen Handelsabsolventen mit
dem Absolventen der Naturwissenschaften oder den Anteil der Finanz-, möchte, habe ich zwei verschiedene Stichproben, damit ich mach einen Test mit zwei
Proportionen. Um es zusammenzufassen Wenn ich teste,
teste ich auf Durchschnittswerte? Teste ich auf
Frequenzen wie diskrete Daten oder
teste ich auf Proportionen? Abhängig davon nehmen
Sie
den entsprechenden Test auf
und arbeiten daran. Wir werden das alles
mit Men Dab und Exit
üben . Der Datensatz ist
im Abschnitt Beschreibung verfügbar. Im Projektbereich lade
ich Sie alle ein, es zu üben und Ihre Projekte,
Ihre Analyse, in den
Projektbereich zu stellen . Wenn Sie irgendwelche Zweifel haben, können
Sie dies in den Diskussionsbereich schreiben und ich beantworte
gerne Ihre Zweifel. Viel Spaß beim Lernen.
25. Konzepte von T Test im Detail: Was bringt dir dieses Video bei? Über den T-Test? Dieses Video behandelt alles, was Sie über den T-Test wissen müssen
. Am Ende dieses Videos erfahren
Sie, was ein
AT-Test ist, wann er verwendet werden sollte, verschiedenen Arten von
T-Tests, Hypothesen und Annahmen
involviert sind, wie der AT-Test berechnet
wird und wie die Ergebnisse zu
interpretieren Was ist ein T-Test? Fangen wir mit den Grundlagen an. Ein T-Test ist ein statistisches
Testverfahren. wird analysiert, ob zwischen
den Mittelwerten zweier Gruppen
ein signifikanter Unterschied besteht. Zum Beispiel könnten wir
den Blutdruck von Patienten, die Medikament A erhalten
, mit dem Blutdruck vergleichen . Medikament B, Arten von T-Tests. Es gibt drei
Haupttypen von T-Tests:
den t-Test mit einer Stichprobe,
den t-Test mit unabhängigen Proben
oder den t-Test mit zwei Stichproben
und den t-Test mit gepaarten Stichproben. Was ist ein T-Test für eine Stichprobe? Wir verwenden einen
t-Test mit einer Stichprobe, wenn wir den Mittelwert einer Stichprobe mit
einem bekannten
Referenzmittelwert vergleichen
möchten . Ein Hersteller von
Schokoriegeln gibt beispielsweise an, dass seine Riegel durchschnittlich
50 Gramm wiegen . Wir nehmen eine Probe. Finden Sie das Durchschnittsgewicht heraus. davon aus, dass das
Probengewicht 48 Gramm beträgt, und führen Sie einen
t-Test mit einer Probe durch, um festzustellen, ob es signifikant von
den angegebenen 50 Gramm abweicht. Was ist ein T-Test für
unabhängige Proben? Der
t-Test für unabhängige Stichproben vergleicht die Mittelwerte zweier unabhängiger
Gruppen oder Stichproben. Wir könnten zum Beispiel die Wirksamkeit von
zwei Schmerzfarben
vergleichen , indem 60
Personen
nach dem Zufallsprinzip zwei Gruppen zuordnen Bei der Einnahme von Medikament A
und dem anderen Medikament B. Und dann anhand eines
unabhängigen T-Tests, um signifikante
Unterschiede in der Schmerzlinderung zu bewerten Was ist ein T-Test
für gepaarte Proben? Der t-Test für gepaarte Stichproben vergleicht die Mittelwerte
zweier abhängiger Gruppen. Um beispielsweise die
Wirksamkeit einer Diät zu beurteilen, könnten
wir zuvor 30 Personen wiegen. Nach der Diät
stellen wir anhand von
Stichprobenpaaren fest, ob zuvor
ein signifikanter
Gewichtsunterschied bestand. Nach der Diät.
Das Verständnis des Unterschieds zwischen abhängigen und
unabhängigen Proben ist entscheidend für
die Auswahl
des richtigen T-Tests für Ihre Analyse. Abhängige Stichproben
oder
Stichprobenpaare beziehen sich auf Fälle, in denen
jede Beobachtung in einer Stichprobe mit
einer bestimmten Beobachtung gepaart ist. Bei der anderen Stichprobe ergibt sich
diese Paarung aus der Art der
Datenerhebung, z. B. vor und
nach den Messungen An denselben Personen, übereinstimmende Paare in einem Experiment Der t-Test der gepaarten Stichproben
wird verwendet, um zu beurteilen, ob. Die mittlere Differenz zwischen diesen gepaarten Beobachtungen ist
statistisch signifikant Andererseits handelt es sich bei unabhängigen
Stichproben um Beobachtungen, aus zwei getrennten Gruppen
oder Populationen
stammen, die nicht
miteinander verwandt oder in
keiner systematischen Weise gepaart sind miteinander verwandt oder in
keiner systematischen Weise gepaart Jede Beobachtung
in einer Stichprobe ist völlig unabhängig von
jeder anderen Beobachtung. In der anderen Stichprobe, den
unabhängigen Stichproben, T-Test bewertet,
ob sich die Mittelwerte
dieser beiden unabhängigen Gruppen signifikant
voneinander unterscheiden Die Wahl zwischen diesen Arten von T-Tests hängt davon ab,
wie die Daten
gesammelt wurden und in welchem
Verhältnis die zu vergleichenden Stichproben Durch die Verwendung des richtigen
T-Tests wird sichergestellt, dass Ihre statistische Analyse
die Art Ihrer
Forschungsfrage
und die Struktur Ihrer Daten
genau widerspiegelt die Art Ihrer
Forschungsfrage . Hier ist ein interessanter Hinweis. Der t-Test mit gepaarten Stichproben ist dem t-Test mit
einer Stichprobe
sehr ähnlich. Wir können uns
den t-Test mit gepaarten Stichproben auch so
vorstellen den t-Test mit gepaarten Stichproben auch so , dass eine Probe zu zwei verschiedenen Zeitpunkten
gemessen wurde . Anschließend berechnen wir die Differenz zwischen den gepaarten Werten und erhalten so einen Wert
für eine Stichprobe. Die Differenz ist
eins minus fünf plus zwei minus eins minus drei und so weiter und so fort. Nun wollen wir testen,
ob der Mittelwert
der gerade berechneten Differenz von einem Referenzwert
abweicht In diesem Fall Null, genau das macht der T-Test mit
einer Stichprobe Was sind die Annahmen? Für einen t-Test benötigen
wir natürlich zuerst eine geeignete Probe
im T-Test mit einer Stichprobe, wir benötigen eine Stichprobe und den Referenzwert im
unabhängigen t-Test. Wir benötigen zwei unabhängige Stichproben, und im Fall eines t-Tests mit
einem Paar, eine Stichprobe, wobei die
Variable, für die wir testen
wollen , ob es
einen Unterschied zwischen den
Mittelwerten gibt , metrisch sein muss. Beispiele für metrische
Variablen sind Alter, Körpergewicht und Einkommen. Beispielsweise ist das Bildungsniveau
einer Person keine
metrische Variable. Darüber hinaus
muss die metrische Variable in
allen drei Testvarianten normalverteilt sein , um zu
lernen, wie Sie testen können, ob Ihre
Daten normalverteilt sind. Bei einem
unabhängigen T-Test die Varianzen in den beiden Gruppen müssen
die Varianzen in den beiden Gruppen ungefähr gleich sein dem L-Even-Test können Sie überprüfen, ob die Varianzen Mit
dem L-Even-Test können Sie überprüfen, ob die Varianzen gleich
sind Was sind die Hypothesen
des T-Tests? Beginnen wir mit dem T-Test mit
einer Stichprobe
im T-Test mit einer Stichprobe Die Nullhypothese
besagt, dass der
Mittelwert der Stichprobe dem
angegebenen Referenzwert entspricht. Es gibt also keinen Unterschied, und die alternative
Hypothese lautet der Mittelwert der Stichprobe nicht dem angegebenen
Referenzwert
entspricht. Was ist mit den unabhängigen
Stichproben, die getestet werden sollen? Beim unabhängigen t-Test lautet
die Nullhypothese, lautet
die Nullhypothese dass
die Mittelwerte in beiden
Gruppen identisch sind. Es gibt also keinen Unterschied
zwischen den beiden Gruppen, und die alternative
Hypothese lautet dass
die Mittelwerte in beiden
Gruppen nicht gleich sind. Es besteht also ein Unterschied
zwischen den beiden Gruppen. Und schließlich werden die
Stichprobenpaare in einem T-Paar-Test getestet.
Die Nullhypothese
ist, dass der Mittelwert
der Differenz zwischen
den Paaren Null ist, und die
Alternativhypothese ist dass
der Mittelwert der Differenz
zwischen den Paaren nicht Null ist. Jetzt wissen wir, was
die Hypothesen sind. Bevor wir uns ansehen, wie der
T-Test berechnet wird. Schauen wir uns ein Beispiel
an , warum wir tatsächlich einen T-Test
benötigen. Nehmen wir an, es gibt einen
Unterschied in der
Studiendauer für einen
Bachelor-Abschluss zwischen Männern. Und Frauen in Deutschland. Unsere Bevölkerung setzt sich
also aus allen Bachelor-Absolventen zusammen
, die in Deutschland studiert haben. Da wir jedoch nicht
alle Bachelor-Absolventen befragen können, ziehen
wir eine möglichst
repräsentative Stichprobe. Mit dem Test testen wir nun die Nullhypothese, dass es keinen Unterschied
in der Grundgesamtheit gibt. Wenn es keinen Unterschied
in der Grundgesamtheit gibt, wenn es keinen Unterschied
in der Grundgesamtheit gibt, werden
wir in der Stichprobe sicherlich immer noch
einen Unterschied in der
Studiendauer feststellen . Es wäre sehr
unwahrscheinlich, dass wir
eine Stichprobe ziehen
würden, bei der der Unterschied genau Null wäre. Einfach ausgedrückt wollen wir jetzt
wissen, bei welcher Differenz in einer Stichprobe
gemessen wurde. Wir können sagen, dass die
Studiendauer
von Männern und Frauen
signifikant unterschiedlich ist. Und genau das beantwortet
der T-Test. Aber wie
berechnen wir einen T-Test? Um das zu tun? Wir berechnen zuerst den t-Wert, um den t-Wert zu
berechnen. Wir benötigen zwei Werte. Zuerst benötigen wir die Differenz
zwischen den Mittelwerten und dann die
Standardabweichung vom Mittelwert. Dies wird auch als
Standardfehler bezeichnet. Beim t-Test mit einer Stichprobe berechnen
wir die
Differenz zwischen
dem Stichprobenmittelwert und dem
bekannten Referenzmittelwert. S ist die Standardabweichung
der gesammelten Daten und n ist die Anzahl der Fälle. S geteilt durch die Quadratwurzel von n ist dann die
Standardabweichung vom Mittelwert. Was ist der Standardfehler? Beim t-Test der abhängigen Stichproben berechnen
wir einfach
die Differenz
zwischen den Mittelwerten der beiden Stichproben. Um den Standardfehler zu berechnen, benötigen
wir die
Standardabweichung und die Anzahl der Fälle aus der
ersten und zweiten Stichprobe,
je nachdem, ob
wir für unsere Daten von
gleicher oder ungleicher
Varianz ausgehen können für unsere Daten von
gleicher oder ungleicher
Varianz Für den Standardfehler gibt es unterschiedliche Formeln
. Bei einem t-Test mit einer gepaarten Stichprobe müssen
wir nur
die Differenz zwischen den gepaarten Werten
berechnen und daraus den Mittelwert berechnen. Der Standardfehler ist dann
derselbe wie bei einem t-Test mit einer Stichprobe. Was haben wir
bisher über den T-Wert gelernt? Egal welcher
T-Test, wir rechnen. Der t-Wert ist größer, wenn wir eine größere Differenz
zwischen den Mittelwerten
haben, und der t-Wert ist kleiner wenn die Differenz zwischen
den Mittelwerten kleiner ist. Außerdem wird der t-Wert
kleiner, wenn wir eine größere
Streuung des Mittelwerts haben. Je stärker die Daten gestreut sind, desto weniger aussagekräftig sind die
Mittelwertunterschiede. Jetzt wollen wir den t-Test verwenden um zu sehen, ob wir die
Nullhypothese zurückweisen können oder nicht. Dazu können wir
den t-Wert nun auf zwei Arten verwenden. Entweder lesen wir den kritischen
t-Wert aus einer Tabelle ab, oder wir berechnen einfach den
p-Wert aus dem t-Wert. Wir werden
beide gleich durchgehen. Aber was ist der p-Wert? Ein t-Test testet immer die Nullhypothese, dass
es keinen Unterschied gibt. Zunächst gehen wir davon aus, dass es keinen Unterschied
in der Population gibt. Wenn wir eine Stichprobe ziehen, weicht
diese Stichprobe um einen bestimmten Betrag
von der Nullhypothese Der p-Wert gibt an, wie wahrscheinlich es ist, dass wir eine Stichprobe ziehen
würden, von der Grundgesamtheit
abweicht gleichen Betrag oder mehr von der Grundgesamtheit
abweicht
als eine Stichprobe,
die wir Je mehr also die Stichprobe von der
Nullhypothese
abweicht, desto kleiner wird der p-Wert.
Wenn diese Wahrscheinlichkeit sehr, sehr gering
ist, können
wir natürlich fragen, ob die Nullhypothese
für die Grundgesamtheit gilt Vielleicht gibt es einen Unterschied, aber an welchem Punkt können wir die Nullhypothese
ablehnen Diese Grenze wird als Signifikanzniveau bezeichnet liegt normalerweise bei 5%. Wenn es nur eine Wahrscheinlichkeit von 5% gibt
, dass wir eine solche Stichprobe ziehen. Oder eine, die anders ist. Dann haben wir genügend Beweise, um anzunehmen, dass wir
die Nullhypothese ablehnen. Einfach ausgedrückt gehen wir davon aus,
dass es einen Unterschied gibt, dass die
Alternativhypothese wahr ist. wir nun wissen,
was der p-Wert ist, können
wir uns endlich ansehen, wie
der t-Wert verwendet wird, um
festzustellen, ob die
Nullhypothese abgelehnt wird oder nicht. Beginnen wir mit dem Pfad
durch den kritischen t-Wert
, den Sie aus
einer Tabelle ablesen können. Um das zu tun. Wir benötigen zunächst eine Tabelle
mit kritischen T-Werten, die wir auf der Registerkarte Daten
unter Tutorials und
T-Verteilung finden . Fangen wir mit
den beiden Heckgehäusen an. Wir werden uns am
Ende dieses Videos kurz das Gehäuse mit einem Schwanz ansehen. Hier unten sehen wir die Tabelle. Zunächst müssen wir entscheiden, welches Signifikanzniveau
wir verwenden wollen. Wählen wir ein
Signifikanzniveau von 0,05 von 5%. Dann schauen wir in dieser Spalte
auf 120,05, was 0,95 entspricht. Jetzt benötigen wir die
Freiheitsgrade für den einer Stichprobe und
den t-Test für
die gepaarten Stichproben Die Freiheitsgrade sind einfach die Anzahl
der Fälle minus eins. Wenn wir eine Stichprobe
von zehn Personen haben, gibt es neun
Freiheitsgrade. Beim t-Test der unabhängigen
Stichproben addieren
wir die Anzahl der
Personen aus beiden Stichproben und berechnen diese Zahl minus zwei,
weil wir zwei Stichproben haben. Beachten Sie, dass die
Freiheitsgrade auf unterschiedliche Weise
bestimmt werden können ,
je nachdem, ob wir gleicher oder gleicher Varianz
ausgehen Wenn wir also ein
Signifikanzniveau von 5%
und neun Freiheitsgrade haben , erhalten
wir einen kritischen
t-Wert von 2,262 Nun haben
wir zum einen einen T-Wert mit
dem t-Test berechnet und wir haben
den kritischen t-Wert Wenn unser berechneter
T-Wert größer als der
kritische t-Wert ist. Wir lehnen die Nullhypothese ab. Nehmen wir zum Beispiel an, wir
berechnen einen t-Wert von 2,5. Dieser Wert ist
größer als 2,262, und daher sind die
beiden Mittelwerte so
unterschiedlich, dass wir die Nullhypothese
zurückweisen können Andererseits können wir auch den p-Wert für den
T-Wert
berechnen, den wir berechnet haben Wenn wir 2,5 für den t-Wert
und neun für die
Freiheitsgrade eingeben , erhalten
wir einen p-Wert von 0,034 Der p-Wert ist kleiner als 0,05, und wir lehnen daher die
Nullhypothese als Kontrolle Wenn wir hier den
t-Wert von 2,262 kopieren, erhalten
wir genau einen
p-Wert von 0,05, was genau der Grenzwert ist Wenn Sie den AT-Test mit
der Registerkarte Daten berechnen möchten, müssen
Sie nur Ihre
eigenen Daten in diese Tabelle kopieren Klicken Sie auf Hypothesentest und wählen Sie dann die gewünschten
Variablen aus. Wenn Sie beispielsweise
testen möchten, ob sich das Geschlecht auf das Einkommen auswirkt, klicken
Sie einfach auf die beiden Variablen
und Sie erhalten automatisch den AT-Test, der für
unabhängige Stichproben
berechnet wird. Hier unten. Sie können den p-Wert
ablesen. Wenn Sie sich bei
der Interpretation
der Ergebnisse immer noch nicht sicher sind, können
Sie einfach auf
Interpretation nach innen klicken Ein T-Test für
unabhängige Stichproben, gleiche Varianzen angenommen wurden, ergab , dass der Unterschied zwischen Frauen und Männern in Bezug auf die abhängige Variable Gehalt statistisch nicht signifikant war Somit wird die
Nullhypothese beibehalten. Die letzte Frage ist nun,
was ist der Unterschied zwischen gerichteter Hypothese und
ungerichteter Hypothese Im ungerichteten Fall lautet
die alternative Hypothese, dass es einen Unterschied gibt Zum Beispiel gibt
es in Deutschland einen Unterschied zwischen dem Gehalt von Männern
und Frauen Es ist uns egal, wer mehr verdient. Wir wollen nur wissen, ob es einen Unterschied
gibt oder nicht. In einer gezielten Hypothese. Wir sind auch
an der Richtung
des Unterschieds interessiert . Die
alternative Hypothese
könnte beispielsweise lauten, dass Männer mehr verdienen als Frauen oder Frauen
mehr verdienen als Männer. Wenn wir uns die
T-Verteilung grafisch ansehen, können
wir sehen, dass
wir
im zweiseitigen Fall einen Bereich auf der linken Seite
und einen Bereich auf der rechten Seite haben Wir wollen die
Nullhypothese zurückweisen, wenn wir
entweder hier oder dort
ein Signifikanzniveau von 5% haben Beide Bereiche haben eine
Wahrscheinlichkeit von 2,5%. Zusammen sind es nur 5%. Wenn wir
einen One-Tail-T-Test durchführen, wird
die Nullhypothese nur dann
verworfen, wenn wir uns in diesem Bereich
befinden
oder je
nachdem welcher Richtung
wir testen wollen
, in diesem Bereich mit einem
Signifikanzniveau von 5% liegen
A 5% innerhalb dieses Bereichs Danke, dass du mit mir gelernt hast. Wir sehen uns in der nächsten
Statistikstunde.
26. 1 Probe t Test: Lassen Sie uns verstehen, welche
Hypothesentests ich verwenden sollte? In Minitab haben Sie einen Assistenten, der Ihnen bei dieser Entscheidung
helfen kann. Wenn Sie also zum
Assistenzhypothesentest gehen, können
Sie
anhand der Anzahl der
Proben, die Sie haben, identifizieren . Angenommen, Sie
haben eine Probe, führen Sie möglicherweise einen t-Test bei einer
Stichprobe, eine Standardabweichung der Stichprobe, einen fehlerhaften Prozentsatz der Stichprobe chi-quadrierte Anpassungsgüte durch. Wenn Sie zwei Proben haben, haben Sie zwei
Stichproben-T-Tests für verschiedene Proben. Testen Sie, ob die Vorher- und
Nachher-Elemente identisch sind. Standardabweichung der Stichprobe zum Prozentsatz der Stichprobe des defekten
Chi-Quadrat-Tests der Assoziation. Wenn Sie mehr
als zwei Proben haben, haben wir einen einfachen
ANOVA-Standardabweichungstest, Chi-Quadrat-Prozentsatz
ist defekt und Chi-Quadrat-Test der Assoziation. Wir werden das
alles mit vielen Beispielen üben. Kommen wir also
zum ersten Beispiel. Wir haben ADHS von
Anrufen innerhalb von Minuten. Wir haben eine Stichprobe
von 33 Datenpunkten entnommen. Der Durchschnitt ist sieben, der
Mindestwert beträgt vier Minuten, Maximalwert beträgt zehn Minuten. Der Grund, warum wir
einen Hypothesentest durchführen müssen , ist der
Manager der Prozesse , dass sein Team in der Lage ist,
die Lösung oder den
Anruf in sieben Minuten abzuschließen . Und der Prozessdurchschnitt
liegt ebenfalls bei sieben Minuten, das
Minimum bei vier Minuten. Der Kunde sieht jedoch
, dass die Agenten sie der Warteschleife halten, und das Gespräch dauert mehr als
sieben Minuten. Jetzt möchte ich also statistisch überprüfen, ob
es korrekt ist oder nicht. Wann immer wir Hypothesentests
einrichten, müssen
wir den
fünfstufigen Sechs-Schritte-Ansatz verfolgen. Schritt Nummer eins, definiere
die alternative Hypothese. Definiere die Nullhypothese, die nichts anderes als
dein Status Quo ist. Was ist das Signifikanzniveau
oder Ihr Alpha-Wert? Wenn nichts angegeben ist, wird der Alpha-Wert
als fünf Prozent gesendet. Wir stellen zunächst die
alternative Hypothese auf. in unserem Fall Was sagt der Kunde in unserem Fall? Der Kunde sieht, dass die durchschnittliche Bearbeitungszeit
mehr als sieben Minuten beträgt. Der Status Quo oder
die vereinbarte SLA lautet ADHS weniger als
sieben Minuten betragen sollte. Wie ich Ihnen bereits sagte, schließen sich
die Null- und die Alternativhypothese gegenseitig aus
und ergänzen sich gegenseitig. Identifizieren Sie nun den durchzuführenden
Test. Wie viele Proben habe ich? Ich habe nur eine Probe der
HD des Kontaktzentrums. Also nehme
ich einen T-Test. Okay? Jetzt muss ich
die Teststatistiken erstellen und den p-Wert identifizieren. Wenn Sie sich an die
vorherige Beispielstunde erinnern, sagten
wir, wenn der p-Wert kleiner
als der Alpha-Wert ist, lehnen
wir die Nullhypothese ab. Wenn der p-Wert größer als
fünf Prozent oder der Alpha-Wert ist, können
wir
die Nullhypothese nicht zurückweisen. Lassen Sie uns dieses Verständnis übernehmen. Wenn Sie sich also erinnern, haben
wir unsere Projektdaten. In den Projektdaten haben
wir den Test der Hypothese. Hier drüben. Ich habe dir die
AHG Kohle in wenigen Minuten gegeben. Also habe ich diese
Daten auf MiniTab kopiert. Also lass es uns auf zwei Arten machen. Zum ersten Mal und zeig es
dir mit dem Assistenten. Zweitens werde ich es
dir anhand von Statistiken zeigen. , das ich erreichen möchte, wenn
ich zu den
Hypothesentests gehe Was ist das Ziel, das ich erreichen möchte, wenn
ich zu den
Hypothesentests gehe? Es ist ein t-Test bei einer Stichprobe.
Ich habe eine Probe. Geht es um gemein? Geht es um Standardabweichung? Sind es getrennte, defekte
oder diskrete Zahlen? Wir sprechen über
den Durchschnitt 100 Mal. Also mache ich einen T-Test bei
einer Probe. Für Daten in Spalten. Ich habe das ausgewählt. Was ist mein Zielwert? Mein Zielwert ist sieben. Die alternative Hypothese besagt dass
das Durchschnittsalter des Anrufs in Minuten
größer als sieben ist. Darüber beschwert sich der
Kunde. Der Alpha-Wert ist
standardmäßig 0,05, ich klicke auf Okay. Sehen wir uns die Ausgabe an. Um die Ausgabe zu sehen, klicken
Sie auf Nur anzeigen und ausgeben. wirst du sehen. Wenn Sie den p-Wert sehen, ist der
p-Wert 0,278. Erinnern Sie sich, dass unter Nicht-Ziel
hohe Nulllinie
dieser Wert von 0,278 größer
als der Alpha-Wert von 0,05 ist ? Ja, das ist es. Daher kann ich schlussfolgern
, dass der Mittelwert
von d von Kohle nicht signifikant
größer als das Ziel ist. Was auch immer Sie
als größer als Ziel ansehen, es ist nur ein Zufall. Es gibt also nicht genügend Belege,
um zu dem Schluss zu kommen, dass der Mittelwert über sieben
liegt Signifikanzniveau
von
fünf Prozent aufweist Und es zeigt mir auch,
wie das Muster ist. Es gibt keine ungewöhnlichen Datenpunkte , da die
Stichprobengröße mindestens 20 beträgt. Normalität ist kein Problem. Der Test ist korrekt. Und es wäre gut
zu schlussfolgern, dass die durchschnittliche Bearbeitungszeit
nicht
wesentlich über sieben Minuten liegt . Ich kann den Antrag
des Kunden ablehnen . Die wenigen Aufrufe, die wir
als qualitativ hochwertige und
hochwertige Ziele ansehen . Das konnte nur durch Zufall geschehen. Derselbe Test. Ich kann es auch tun, indem ich auf Teststatistik, grundlegende Statistiken klicke. Und ich speichere einen Proben-T-Test, eine oder mehrere Proben,
jeweils in einer Spalte. Ich werde dein ausgewähltes ADHS umdrehen. Ich möchte
Hypothesentests durchführen. Der hypothetische Mittelwert ist sieben. Ich gehe zu Option und sage, was ist die alternative
Hypothese, die ich definieren möchte. Ich möchte definieren, dass der tatsächliche Mittelwert größer ist
als der hypothetische Mittelwert. Klicke auf Okay. Wenn ich ein Diagramm brauche, kann
ich diese Grafiken erstellen. Klicken Sie auf Okay und
dann auf Okay. Ich erhalte diese Ausgabe. Also die deskriptiven Statistiken, das ist der Mittelwert, das ist die
Standardabweichung und so weiter. Nullhypothese lautet,
dass mu gleich sieben ist. Alternative Hypothese ist
mu ist größer als sieben. p-Wert ist 0,278. diesen Nullflug abschließen, lehnen
wir
die Nullhypothese nicht ab und kommen zu
dem Schluss, dass die
durchschnittliche 100-Zeit bei
etwa sieben Minuten liegt .
Lass uns weitermachen. Wir haben unseren Output erhalten. Wir haben all dies gesehen und sind zu dem Schluss gekommen, dass
die durchschnittliche Bearbeitungszeit nicht wesentlich
über sieben Minuten
liegt.
27. 2 Probe t Testbeispiel 1: Lassen Sie uns noch ein Beispiel
mit zwei Teams machen, zwei Proben. In diesem Beispiel also
zwei Teams, deren Leistung gemessen werden
muss. Der Manager von DMB behauptete, dass sein Team ein
leistungsfähigeres Team sei als DNA. Der Manager eines Teams befürwortet, dass diese
Behauptung ungültig ist. Gehen wir zu unserem Datensatz. Wenn Sie also zur Projektdatei gehen, haben
Sie etwas,
das als Team a und Team B
bezeichnet wird Lassen Sie mich diese Daten
also einfach kopieren. Okay. Lass mich hergehen und das
Radar auf der rechten Seite platzieren. Warum kann ich auch
ein neues Blatt nehmen und die Daten einfügen. Richtig? Kommen wir also zu Hypothesentest, einem t-Test mit
zwei Stichproben. Lassen Sie mich diesen Wert löschen. Und TB, das Team a
unterscheidet sich von der VM. Ich kann auch sagen, basierend
auf der Hypothese , dass das Team behauptet wird, dass
sein Team besser ist als ein. also kann ich sagen, dass es weniger als
TV ist. Und ich klicke auf Okay. Auch in diesem Beispiel erhalte
ich eine Ausgabe, die besagt, dass das Team nicht
wesentlich weniger als TB ist. Haben Sie die
Werte von 27,727,3? Es gibt keinen
statistischen Unterschied zwischen den beiden Tipps, oder? Also waren beide Beispiele, die
wir bekamen, so. Schauen wir uns noch
ein Beispiel an. Ich habe die Zykluszeit
von Prozess eins und die
Zykluszeit von Prozess B genommen von Prozess eins und die
Zykluszeit von Prozess B Kopieren wir
also einfach diese Daten. Dies ist ein weiterer Datensatz. Und ich sage: Was ist meine
alternative Hypothese? Beide Balken sind unterschiedlich. Was ist die Nullhypothese? Beide Teams sind gleich. Weil diese beiden
Teams unterschiedlich sind. Ich werde
meinen t-Test mit zwei Stichproben machen. Die Daten jedes
Teams sind getrennt. Und ich sehe, dass sich der TB-Alpha-Wert
von 5% unterscheidet, und dann klicke ich auf, Okay. Wenn Sie nun die
Ausgabe dieses Mal sehen, heißt
es, dass sich die Zykluszeit von a erheblich
von der Zykluszeit von dB unterscheidet. Hier, diese 26.8,
siebenundzwanzig Punkt sechs. Aber wenn ich mir
die Verteilung ansehe, die Verteilung, dass
sich dieses Rot nicht
mit diesem Rot überschneidet. Es gibt also einen Unterschied in der Zykluszeit der beiden Teams. Wenn ich
dasselbe mit Statistiken machen muss,
grundlegende Statistiken, t-Test mit
zwei Stichproben. wie Ihre Zeit, in der Sie zur Zeit der
TB-Optionen e
waren Gibt es verschiedene Optionen, wie Ihre Zeit, in der Sie zur Zeit der
TB-Optionen e
waren? Ich kann meine Grafiken haben. Ich möchte kein
individuelles Diagramm. Ich werde nur das
Boxplot nehmen und sagen, okay, mu1 ist der Mittelwert der Grundgesamtheit der
Zykluszeit von Prozessen, Zykluszeit von Prozess B. Wenn Sie sehen,
dass es
eine Standardabweichung gibt , ist das ein Unterschied. Der p-Wert ist 0,
was bedeutet, dass es einen signifikanten Unterschied
zwischen den beiden Teams gibt. Sei niedrig, nicht cool. Hier lehnen wir also
die Nullhypothese ab und
sagen, dass es
einen signifikanten Unterschied
zwischen E und D gibt . Richtig? Ich habe das Gleiche
mit der Verteilung gesehen. Es gibt also eine
größere Verteilung oder hier und es gibt eine
kleinere Verteilung. Ich kann meine grafische
Analyse, die ich auf
der rechten Seite gelernt habe , durchführen und dann sehen, wie
das Team abschneidet. Das ist also die Zusammenfassung der DNA. Der Mittelwert ist 26, die
Standardabweichung ist 1,5. Und wenn ich nach unten scrolle, komme
ich zu Team B und
es kommt auf diese Weise. Jetzt möchte ich
diese Diagramme überlappen, damit ich auf ein Diagramm
und ein Histogramm klicken kann. Und ich sage ein bisschen
fit und seidig. Und ich werde
diese beiden Grafiken auf einem separaten
Panel derselben Grafik auswählen , dasselbe Vitamin C max. Klicke auf, okay. Klicke auf Okay. Kannst du sehen, dass die Glockenkurve von beiden unterschiedlich ist? Lassen Sie uns ein überlappendes
Graph-Histogramm erstellen. Und in mehrfacher
Bodenüberlagerung in diesem Diagramm. Kannst du sehen, dass das Blau und das Rot einen Unterschied
gibt? Und daher ist die
Kurtosis anders, die Schiefe ist anders, und das
ist die Schlussfolgerung in meinem t-Test mit zwei Stichproben, besagt, dass die Verteilung dort signifikant ist
Unterschied. Es gibt einen statistisch
signifikanten Unterschied zwischen der heiligen Zeit als
EN-Kämpfer und dem Absterben. Als zweites werden wir
in unserem nächsten Beispiel etwas über den Bett-t-Test
erfahren.
28. 2 Probe t Testbeispiel 2: Kommen wir zu unserem Beispiel. Zwei. Es gibt zwei Zentren , deren Leistung gemessen werden
muss. Der Manager von
Sensory behauptete, sein Team sei ein leistungsfähigeres
Team als das Zentrum B. Die Größe des Zentrums be befürwortet, dass die
Behauptung ungültig sei. Auch hier werde ich
meinen fünfstufigen Prozess verfolgen. Was ist die alternative
Hypothese? Ist besser als B. Machen wir es einfacher. Es ist nicht gleich T, ist nicht gleich TB oder center ist nicht
gleich Zentrum. Was bedeutet das
Nicht-Hypothesenzentrum a ist gleich Zentrum V, Signifikanzniveau,
fünf Prozent. Wie viele Proben habe ich? Ich habe zwei Samples, Center Editor und Center B-Daten. Da ich zwei Proben
habe, muss ich einen t-Test mit
zwei Stichproben machen. Gehen wir zu unserem Excel-Blatt. Ich habe die Daten für
Centauri und Center B. Ich werde sie in Minitab
kopieren. Ich lege meine Daten hier ab. Machen wir den t-Test bei zwei Stichproben. Also gehe ich zu Stat, Basic Statistics und
sage t-Test mit zwei Stichproben. Beide Proben
befinden sich in einer Spalte. Jedes Sample hat seine eigene Spalte, also
wähle ich dieses Beispiel aus. Eine davon ist eine sensorische Probe. Zentrieren Sie B? Option ist hybrid. Das ist nicht anders. Der Unterschied
zwischen a und B ist also 0. Und ich mache es weiter. Ich kann mein individuelles
Boxplot haben und OK sagen und Okay sagen, lass uns die Ausgabe
sehen. Die sensorischen Daten
gehören also Ihnen und die TBI-Daten sind hier. Und wenn Sie den p-Wert sehen, ist
der p-Wert hoch. Wieder habe ich ein Beispiel, das
besagt, dass es sich um eine hohe Nullfliege handelt,
was bedeutet, dass es keinen Unterschied
zwischen Mitte und Mitte B gibt zwischen Mitte und Mitte B Wenn Sie den einzelnen Wert sehen, aber Sie sehen dasselbe. Sehen wir uns das Boxplot an. Das Boxplot besagt
, dass sich der Mittelwert nicht signifikant
unterscheidet, da eine Stichprobe entnommen worden
wäre. Das ist der Grund, warum es so ist, und Sie sehen einen Wert von 0, was ein Ausreißer ist. Also sollten wir
darüber nachdenken. Das Gleiche. Lassen Sie mich das mit
Hypothesentests machen. t-Test bei zwei Stichproben, Mittelwert der Stichprobe Die Probe ist anders. Der Mittelwert von Mittelpunkt
unterscheidet sich
vom Mittelwert von Zentrum B und C. Okay. Ebenso der mittlere Unterschied, der Mittelwert von Santa Fe unterscheidet sich nicht signifikant
vom Mittelwert außermittig. Richtig? Wenn Sie diese Verteilung sehen, können
Sie feststellen, dass
sich der rote Teil vollständig überschneidet
, was darauf hindeutet
, dass es
keine ausreichenden Beweise gibt,
um auf einen Unterschied schließen zu können. Wenn
Sie den Mittelwert sehen, gibt es einen Unterschied, 6,86,5. Aber das könnte
an einer Chance liegen. Und es gibt auch eine
Standardabweichung. Daher zeigen sie es
anhand der roten Balken, zeigen, dass es
keinen signifikanten Unterschied zwischen
sensorischer und zentraler Woche gibt. Wir werden im
kommenden Video weiter über
andere Beispiele lernen .
29. Paired t Test: Lassen Sie uns
ein weiteres Beispiel verstehen. Dies ist ein Beispiel für einen
gepaarten t-Test. Wenn man sich diese Fallstudie anschaut, wollten
die Psychologen herausfinden, ob ein bestimmtes Laufprogramm auf die
Ruheherzfrequenz auswirkt. Die Herzfrequenz von 15 zufällig ausgewählten
Personen wurde gemessen. Die Menschen wurden dann in ein laufendes Programm aufgenommen und nach einem Jahr
erneut gemessen. Also
sagen die Teilnehmer vorher gegen nachher? Ja. Und das ist der Grund, warum es
sich nicht um einen t-Test mit zwei Stichproben handelt, sondern um einen gepaarten t-Test, der Vorher- und
Nachher-Messung jeder Person oder in
Beobachtungsbändern. Wenn ich also zu meinem Datensatz zurückkehre, habe ich etwas, das
wie vorher und nachher heißt, es gibt eine andere Phase, ich nehme nicht den
Differenzwert. Ich habe die Daten für
die 15 Personen
genommen und im Mini-Tab gespeichert. Richtig? Jetzt möchte ich das tun, weil es dieselbe Person
vor und nach mir ist, wir wollen die
verschiedenen Hypothesentests verstehen. Ich mache einen gepaarten T-Test. Die erste Sache war, was ist die alternative Hypothese? Vorher und Nachher ist anders. Wenn Sie sich erinnern, das Programm
von vorher und nachher, wollen
sie feststellen, ob sie Auswirkungen auf den Lauf
haben. Die Messung ist vor, das
Messwerkzeug ist oben. Mittelwert von davor unterscheidet sich
vom Mittelwert von danach. Das ist also meine
alternative Hypothese. Was bedeutet
meine
Nullhypothese davor, dass es keine Änderung gibt. Die Alternative sieht, dass
sich das Vorher von Nachher unterscheidet. Der Alpha-Wert ist 0,05. Lass uns auf Okay klicken. Sehen wir uns die Ausgabe an. Unterscheidet sich der Mittelwert? Was ist ein p-Wert von 0,007? Der Mittelwert von vorher unterscheidet sich signifikant
vom Mittelwert von danach. Wenn man sich den
Mittelwert anschaut, lag er bei 74,572,3. Aber es gibt einen Unterschied. Wenn Sie also sehen, ist der
Unterschied größer als 0. Und wenn ich mir diese
Werte von vorher versus
nachher ansehe ist der blaue Punkt hinter
dem schwarzen Punkt vor. Bei den meisten Teilnehmern war
ihre Herzfrequenz
nach dem Laufprogramm gesunken. Nur wenige von ihnen waren Ausnahmen, aber das könnte eine Ausnahme sein. Es gibt keine ungewöhnlichen
paarweisen Unterschiede , da unsere
Stichprobengröße mindestens 20 beträgt. Normalität ist kein Problem. Die Stichprobe reicht aus, um den Unterschied
im Mittelwert
nachzuweisen. Ich kann also sehen, dass es einen Unterschied
zwischen beiden gibt. Wunderbar. Also nochmal, schnelle Überarbeitung. Hallo, Nullziel, da der p-Wert unter
dem Signifikanzniveau liegt, schlussfolgern
wir, dass zwischen den beiden Messwerten
ein signifikanter Unterschied besteht. Wenn ich die Szene machen muss, klicke
ich auf Statistik,
Basic Statistics. Schlechte Abscheu, jede
Probe in einer Regel. Vorher, nach
der Option sind sie unterschiedlich. Lassen Sie mich nur das
Boxplot und das Histogramm von Ich möchte das Histogramm nicht
auswählen. Ich nehme nur den Boxplot. Null-Hypothese. Der Unterschied ist 0. Alternative Hypothese ist, dass die
Differenz ungleich Null p-Werte niedrig sind, was
zu dem Schluss kommt, dass ich
die Nullhypothese zurückweise Und es gibt einen Unterschied bei
der Übernahme des Programms. Wenn Sie also den Nullwert sehen, ist
der rote Punkt weit vom
Mittelwert des
Konfidenzintervalls der Box entfernt , um zu schließen, dass es einen Unterschied
gibt zwischen dem Durchlaufen des Programms durch dieser Herzspezialist, richtig? Im nächsten Programm werden
wir also lernen, weitere Beispiele
aufzugreifen.
30. Ein Test mit Sample: Die kurze Zusammenfassung
der verschiedenen Arten
von Tests, die wir
gelernt haben, lautet: Wenn ich mir
anschaue , wie unterschiedlich meine Gruppe und zwischen
den Bevölkerungsgruppen sind, mache ich einen t-Test mit einer Stichprobe. Wenn ich zwei verschiedene
Probengruppen habe, mache ich einen t-Test mit zwei Stichproben. Wenn diese Stichproben unabhängig
sind. Wenn ich
einen gepaarten T-Test machen werde. Gepaarte t-Test. Wenn die Gruppe
dieselbe Gruppe von Personen hat, aber es ist oder ein anderer
Zeitpunkt. Wie wir das Beispiel
des Herzschlags gesehen haben. Die Menschen wurden also
an ihrem Herzschlag gemessen. Den Bericht über
ein laufendes Programm und das laufende Programm posten. Wie war der heiße
Ruheherzschlag, oder? Das sind also die
Dinge, die wir sortiert haben. wir nun
mit weiteren Beispielen fort. Also fügen wir den Anwendungsfall Nummer fünf hinzu, die Analyse des Fettanteils. Die Wissenschaftler eines Unternehmens , das Verfahren hergestellt hat, die den Fettanteil in
der
Wasserquelle des Unternehmens S ermitteln
möchten . Das Datum der Veröffentlichung
beträgt 15% und die Wissenschaftler messen, dass
der Fettanteil 20 Zufallsstichproben beträgt. Die bisherige Messung
der Standardabweichung der Grundgesamtheit beträgt 2,6. Dies ist nun die
Standardabweichung der Population. Die Standardabweichung
der Stichprobe beträgt 2,2. Wenn ich den
Populationsparameter kenne, kann
ich einen
Z-Test für die Stichprobe
verwenden , da die Anzahl
der Proben, die ich habe, eins ist. Und ich will, ich habe die bekannte Standardabweichung
der Bevölkerung. Jetzt werde ich wieder dasselbe anwenden, was
die
alternative Hypothese definiert hat, oder? Also was werde ich sagen? Was ist die alternative Hypothese? Der Fettanteil ist
nicht gleich 603050. Was ist der
Fettanteil
der Nullhypothese gleich 15%. Signifikanzniveau
fünf Prozent. Weil ich weiß, dass es sich um
einen Test mit einer Stichprobe und ich die
Standardabweichung der Bevölkerung habe Ich verwende
einen Beispiel-Z-Test. Lass uns die Analyse machen. Ich habe die
Projektdatei geöffnet und habe die Proben-IDs und erstelle hier einen
Fettanteil. Lassen Sie mich diese
Daten in Minitab kopieren. Aber kopierte den
Fettanteil mit den
Wissenschaftlern getan haben. Da wir die Standardabweichung der
Grundgesamtheit kennen, kann
ich den Z-Test
bei einer Stichprobe verwenden. Meine Daten sind in einer Spalte enthalten. Es ist die Tatsache, die präsentiert wird. Die bekannte
Standardabweichung betrug 2,6. Ich möchte
Hypothesentests durchführen. Die Hypothese bedeutet, dass es 15% sind. Meine Nullhypothese ist also der Fettanteil gleich 15
ist. Meine Hypothese ist, dass Fett ein
großes A nicht gleich 15 ist. Ich kann ein Diagramm von Boxplot
und Histogramm auswählen und sagen:
Okay, ich zeige
Ihnen die Ausgabe. Die Nullhypothese lautet also, dass der
Fettanteil gleich 15 ist. Alternative Hypothese
ist, dass der Fettanteil nicht gleich 15
ist. Der Alpha-Wert ist 0,05. Mein p-Wert ist 0,012, da mein p-Wert kleiner
als der Alpha-Wert ist, P niedrig, nicht cool. Daher lehne ich die Nullhypothese ab und komme
zu dem Schluss, dass der
Fettanteil nicht 50 beträgt. Wenn Sie hier sehen, ist
der Fettanteil mehr als 50. Ich kann den gleichen
Test wiederholen. Dieses Mal. Ich kann weitermachen und nachsehen. Ist mein Fettanteil höher
als der hypothetische Mittelwert. Lass es uns machen. Und trotzdem erhalte ich meinen
p-Wert selbstbewusster, 0,006 sehr weit von
meinem Alpha-Wert entfernt. Zusammenfassend lässt sich sagen, dass der Alpha, der Nullwert
hypothetisch ist, der Mittelwert 15 ist. Die Stichprobe besagt jedoch,
dass
Ihr Fettanteil in der
Quelle mit hoher Wahrscheinlichkeit mehr als 50 beträgt. Welchen Rat
werden wir dem Unternehmen geben? Wir werden das Unternehmen
darauf hinweisen, dass Sie
die Bezeichnung nicht verkaufen können , dass der Container
15% beträgt , da unser Faktor
mehr als 15% beträgt. Um sicher zu gehen, können
Sie das
Etikett des Produkts so ändern, dass der
Fettanteil 18 beträgt, oder? Weil wir fünf
Prozent haben, machen wir 20 durch. Ein Verbraucher wird sich also über ein Produkt freuen ,
das weniger Fett enthält. Dann um ein Produkt zu erhalten
, das mehr
Fett enthält , weil wir alle
gesundheitsbewusst sind, oder? Also lasst uns
in der nächsten Klasse weitermachen.
31. Ein Sample test-1p-Test: Wir werden unsere
Hypothesentests fortsetzen. Manchmal haben wir vielleicht einen Teil
der Action, oder? Wir haben jedoch keine Durchschnittswerte Standardabweichung
oder Varianz zu ,
Standardabweichung
oder Varianz zu
messen
, was wir tun. Nehmen wir dieses Beispiel sechs, der Marketinganalyst
möchte feststellen, ob der Mann, die Werbung für
das
neue Produkt, zu
einer Rücklaufquote geführt hat , die sich
vom nationalen Durchschnitt unterscheidet. Normalerweise, wenn Sie eine
Anzeige in der Zeitung platzieren, sagen
sie, dass die Werbefirma normalerweise sieht, dass wir in der Lage sein werden, 6% Ergebnis
oder 10% Ergebnis oder eine
bestimmte Zahl zu beeinflussen Ergebnis genau hier. Was ist, es ist die gleiche
Art von Szenario. Hier. Sie nahmen eine
Zufallsstichprobe von 1000 Haushalten, die Werbung
erhalten haben. Und von diesen
10.000 Haushalten
tätigten 87 von ihnen
Einkäufe, tätigten 87 von ihnen nachdem sie
diese Vergrößerung erhalten hatten. Diese Firma, die
eine Werbefirma
ist, behauptet, dass ich
eine bessere Wirkung erzielt habe als die der
anderen Werbung. Der Analyst muss
den Ein-Prozent-Z-Test durchführen den Ein-Prozent-Z-Test um festzustellen, ob
der Anteil der Haushalte, die einen
Kauf getätigt haben,
vom nationalen Durchschnitt
von 6,5 abweicht , da dieser 8,7 beträgt. In diesem Fall. Was ist Ihre
alternative Hypothese? Alternative Hypothese ist, dass die
Werbung anders ist als
die Reaktion auf die Werbung
vom nationalen Durchschnitt. Hier sagen wir, dass
es keinen Unterschied gibt. Sie sind beide Sünde, Alpha-Wert liegt bei fünf Prozent. Und wir werden einen Proportion-,
Z-Test-, Ereignis-Proportionstest aufnehmen . Ich soll
dich zur Minute bringen. Gehen wir also zu MiniTab. Ich kann weitermachen und diese Väter, grundlegende Statistiken,
ein Anteil. Ich habe keine Daten in meiner Kolumne, aber ich habe sie zusammengefasst, oder? Also lass mich das schließen, abbrechen, lass mich das schließen. Also habe ich einen
Probenanteilstest gemacht. Ich habe Daten zusammengefasst. Wie viele Ereignisse
haben wir aufgenommen? Wir beobachten 87
Ereignisse, die eintreten werden. Die Stichprobe besteht aus Tausend. Ich muss einen
Hypothesentest durchführen und den hypothetischen Anteil von
6,5, 0,06566% ,5, oder? Es ist also 0,065. Dieser Anteil entspricht nicht
dem Hypothesenverhältnis. Ich sage: Okay, ich verstehe, okay. Jetzt lautet die Nullhypothese dass
der Anteil 6,5 Prozent
entspricht. Alternative Hypothese ist, dass
die proportionale Wirkung nicht 5,56 Prozent entspricht. p-Wert ist 0,008. Was heißt das? Ja, sei niedrig, nicht cool. Also lehnen wir die
Nullhypothese ab und
kommen zu dem Schluss, dass
der Effekt der Werbung, Er ist nicht 6,6,5 Prozent, aber es ist mehr,
denn wenn Sie
das
Konfidenzintervall von fünfundneunzig Prozent sehen , es heißt 0,7% bis 10%, oder? Sie haben einen
Anteil von 88,7%. Und das 95%
-Konfidenzintervall des Anteils liegt weit vor 6,5,
es beginnt bei 7. Wir können also den Schluss ziehen, dass erhebliche Auswirkungen die Werbung erhebliche Auswirkungen hat, und wir können diese Werbefirma
durchgehen . Fahren wir mit
unserer nächsten Lektion fort.
32. Zwei Probeanteilstest-2p-Test: Lassen Sie uns diese Übung
noch einmal mit Assistant machen. Wir haben also die nummerierten
80 Rindfleischprodukte von Lieferant E, die
wir überprüft haben. 725 sind defekt
oder nicht defekt. Wie viele sind das wirksam? Also, wenn ich eine Subtraktion mache, wäre
es 777802 minus 725 ist 77712 Produkte der Stichprobe des Lieferanten B wurden von 73
ausgewählt. Perfekt. Also wie viel ist
defekt? Eins, 39. Versuchen wir also, unseren Test mit
zwei Anteilen Minitab-Assistenten durchzuführen, da dieser
dann Hypothesentest, Probenstücke, Stuhl,
Probenprozentsatz fehlerhafter Lieferant E, 0 bis 7771 bis 139. Die Person ist defekt von Lieferant E ist weniger
als der Prozentsatz des
Defekts von Lieferant B. Ich werde fortfahren
und auf Okay klicken. Und das verstehe ich. Ja, dieser Prozentsatz an
Defekten oder Lieferanten ist deutlich geringer
als der Prozentsatz an Defekten von Lieferant B. Und wenn ich nach unten scrolle, Ja. Es sagt also den Unterschied aus, dieser Lieferant ist
Lesebereitschaft. Aus dem Test können Sie schließen, dass der prozentuale
Anteil von Lieferant a bei einem Signifikanzniveau von
5% unter Lieferant B
liegt. Wenn Sie
diesen Prozentsatz sehen. Sie können auch
deutlich sehen, dass
wir in der nächsten Woche mit den
nächsten Hypothesentests fortfahren werden . Tun
33. Zwei Probeanteil-Test-2p-Test-Beispiel: Lassen Sie uns nun
das nächste Beispiel verstehen. Dies ist ein Beispiel, bei dem
ein
Betriebsleiter ein Produkt
untersucht, das aus
Rohstoffen von zwei Lieferanten hergestellt wurde, feststellt, ob einer
der Rohstoffe größerer Wahrscheinlichkeit
einen besseren produziert Qualitätsprodukt. So wurden 802 Produkte vom Lieferanten
E 725
beprobt oder perfekt, das
ist nicht defekt. 712 Produkte wurden von
Lieferant B, 573 oder Buffet beprobt. Das heißt, es ist nicht defekt. Wir wollen also Leistung erbringen,
denn wie hoch ist Prozentsatz der
nicht fehlerhaften personenbezogenen Daten? Ja, ich habe zwei Proportionen, Supply Array und Lieferant B. Gehen wir zur main. Ich kann zu Stat, Basic Statistics zwei
Proportionstest gehen. Ich habe meine zusammenfassenden Daten, die Ereignisse von der ersten Leichtigkeit, 725 oder beide handeln aus 802 heraus. Nehmen wir also
725025723712572371. Die Option, mit der sie
sehen, ist, dass es
einen Unterschied gibt , und
lassen Sie uns das herausfinden. Die BVA, die Nullhypothese, besagt also, dass es keinen Unterschied
zwischen dem Anteil gibt. Alternative Hypothese ist, dass es einen Unterschied zwischen den
beiden Proportionen gibt. Als ich mir den p-Wert angesehen habe, der p-Wert Z, um niedrig Null zu sein. Es kommt zu dem Schluss, dass
ich die
Nullhypothese zurückweisen muss. Es gibt einen Unterschied in der Leistung
der beiden Lieferanten. Nun, wenn ich darüber nachdenke,
weil ich von perfekt oder
nicht defekt spreche , ist
Probe eins derzeit zu 90% perfekt und Probe zwei zu 80% perfekt. Also zu dem Schluss, dass Lieferant E ein besserer Lieferant
ist
als Lieferant B. Richtig? Also, vielen Dank. Wir werden in
der nächsten Lektion fortfahren.
34. Verwendung von Excel = eine Sample: Oft verstehen wir den
Test der Hypothese, aber es gibt eine
Herausforderung, die wir haben. Die Herausforderung ist, dass
ich kein MiniTab habe. Kann ich
Hypothesentests nicht auf einfache Weise durchführen,
anstatt eine manuelle Berechnung mit einem
statistischen Rechner durchzuführen. Mach dir keine Sorgen, dass das möglich ist. Ich werde Ihnen zeigen,
wie ich mit
Microsoft Excel
Hypothesentests durchführen kann . Gehe zu Datei. Gehe zu Optionen. Wenn Sie zu Optionen gehen,
gehen Sie zu Add-ins. Wenn Sie auf Add-ins klicken. Lass mich hier klicken. Sie haben eine Option
, die in der Option Verwalten als
Excel-Add-In
bezeichnet wird. Wählen Sie also Excel-Add-In
und klicken Sie auf Los. Klicken Sie auf Analysis ToolPak und stellen Sie sicher, dass dieser
Haken aktiviert ist. Sobald Sie das haben, finden
Sie es
auf Ihrer Registerkarte Daten. Sie haben
Datenanalysen zur Verfügung. Lassen Sie mich darauf klicken, damit Sie verstehen,
was möglich ist. Bei der Datenanalyse. Ich habe eine OR-Korrelation, Kovarianz, deskriptive
Statistik, Histogramm, T-Test, Z-Tests,
Zufallszahlengenerierung, Stichprobenregression
und all diese Dinge. Daher wird es für
Sie sehr einfach , Hypothesentests durchzuführen. Zumindest die Hypothese der kontinuierlichen
Daten auch problemlos über
Microsoft Excel
getestet werden. Ich führe Sie vorerst Schritt für
Schritt durch die Übung. Kehren wir
zur Präsentation zurück. Nehmen wir das erste Problem. Das heißt, ich habe die beschreibenden Statistiken
für die Huntington-Krankheit des Anrufs, den Manager der
Prozesse,
an denen sein Team
arbeitet , um die Lösung des Anrufs in sieben Minuten abzuschließen . Der Kunde
sieht jedoch, dass er lange Zeit in
der Warteschleife gehalten wird, und verbringt daher
mehr als sieben Minuten. Wenn ich mir die
beschreibenden Statistiken ansehe
, werden mir zehn Minuten angezeigt, Median ist sieben, der Durchschnitt ist 7,1. Jetzt würde ich
diese Analyse mit
Microsoft exit durchführen wollen . Also lasst uns anfangen. Ich habe diesen Anwendungsfall in den Projektdaten,
die ich hochgeladen habe, klicke auf ASD, natürlich bringt
es dich an diesen Ort. Jetzt werde ich Ihnen zunächst
beibringen, wie Sie beschreibende Statistiken
mit Microsoft Excel erstellen. Ich klicke auf
Datenanalyse unter der Registerkarte Daten. Ich werde nach
beschreibenden Statistiken suchen. Klicke auf, okay. Mein Eingabebereich reicht von
hier nach unten. Ich habe ausgewählt. Meine Daten sind nach Spalten gruppiert. Das Etikett befindet sich
in der ersten Reihe. Und ich möchte, dass meine Ausgabe in
eine neue Arbeitsmappe aufgenommen wird. Ich möchte zusammenfassende
Statistiken und ich möchte Vertrauensniveau von
mir haben. Ich klicke auf OK. Excel führt einige Berechnungen und bereitet sie darauf vor. Ja. Hier ist mein Output. Ich klicke hier drüben auf Former
, um zu sehen, was die Ausgabe ist. Sie können also sehen, dass Sie Mittelwert, Medianmodus,
Standardabweichung, Kurtosis, Schiefe, Bereich,
Minimum, Maximum,
Summe, Anzahl und Konfidenzniveau sind. All diese Dinge lassen sich leicht mit einem
Klick auf eine Schaltfläche
berechnen. Ich muss nicht
so viele Formeln schreiben. Kehren wir nun
zu unserem Datensatz zurück. Ich möchte die
Hypothesentests machen. Was ist meine Nullhypothese? Wenn die Nullhypothese lautet , dass die ADHS sieben Minuten
entspricht. Alternative Hypothese. Das ADHS beträgt keine sieben Minuten. Es gibt einen anderen
Alpha-Wert, den ich als 5% einrichte. Und damit werde ich die Tests
durchführen, die ich verbinden
werde , ein T-Test mit
einer Stichprobe. Wenn Sie einen T-Test
mit
einer Stichprobe mit Microsoft Excel durchführen , müssen
Sie einen kleinen Trick
befolgen. Der Trick ist, ich
füge hier eine Spalte ein. Und das nenne ich
als Dummy. Weil Microsoft Excel
mit einer Option für einen t-Test mit
zwei Stichproben geliefert wird. Ich habe HD des Anrufs in Minuten und Dummy, wo ich auf Nullen, Nullen
geschrieben habe. Der durchschnittliche Median,
alles für 0 ist jedoch immer 0. Klicken Sie auf Datenanalyse. Ich werde nach unten gehen und
zwei Stichproben-T-Tests
unter der Annahme gleicher Varianz sagen . Ich wähle das aus. Ich klicke auf, okay. Mein Eingabebereich,
einer ist diese Zeile. Mein Eingabebereich reicht
durch diesen Dummy. Mein vermuteter mittlerer
Unterschied beträgt sieben Minuten. Bezeichnung ist in
beiden Alpha-Werten enthalten , die auf fünf Prozent
festgelegt sind. Und ich sage, dass
meine Ausgabe in einer neuen Arbeitsmappe enthalten
sein muss . Ich klicke auf Okay, es macht die Berechnung
und bringt mir die Ausgabe. Sie können sehen, dass die Zahlen als Übung vermittelt
wurden Ich klicke einfach auf das Karma
im Abschnitt Format, damit
die Zahlen sichtbar sind. Ich ändere die Ansicht , weil Dummy
keine Daten hat. steht mir frei, diese Spalte zu löschen. Lassen Sie uns jetzt verstehen
, wonach wir immer suchen? Wir suchen nach diesem
Wert, dem p-Wert. Erinnerst du dich an die Formel? Lass mich meine
Formeln hier rüber bringen. Ja. Was ist die Schlussfolgerung? Das Fazit ist P hoch. Ich lehne die
Nullhypothese nicht ab. Der Abschluss des ADHS
des Anrufs beträgt sieben Monate. Ich lehne die
alternative Hypothese weil mein p-Wert über 0,05
liegt. folgenden Lektionen werde ich weitere Beispiele
aufgreifen. Ich freue mich darauf, dass
Sie diese Serie fortsetzen. Wenn Sie Fragen haben, bitte
ich Sie,
Ihre Fragen in den
Diskussionsbereich unten zu stellen, und ich beantworte sie
gerne. Danke.
35. Korrelationsanalyse: Willkommen zur nächsten Lektion
unserer analysierten Phase
im DMAc-Lebenszyklus eines
Lean Six Sigma-Projekts Manchmal geraten wir in
eine Situation, in wir eine
Korrelationsanalyse durchführen möchten Deshalb dachte ich,
ich sollte
Sie heute eingehend damit befassen, was
Korrelation ist . Was
ist der Unterschied zwischen Korrelation
und Zufall? Wie interpretiere ich Korrelation, wenn ich mir das Streudiagramm
ansehe Welches
Signifikanzniveau kann ich
festlegen , wenn ich meine
Hypothesen teste Pearson-Korrelation,
Spearman-Korrelation, serielle
Punkt-B-Korrelation und wie werden diese Berechnungen online mit einigen
der verfügbaren Tools Lassen Sie uns also anfangen. Was genau ist
Korrelationsanalyse? Korrelationsanalyse ist eine
statistische Technik, die Ihnen Informationen über die Beziehung
zwischen den Variablen gibt. Korrelationsanalyse kann
berechnet werden , um die
Beziehung zwischen Variablen zu untersuchen und zu untersuchen, wie stark die Korrelation durch den Korrelationskoeffizienten bestimmt
wird, der durch den Zahlenbuchstaben r dargestellt wird
, der von
minus eins bis plus eins variiert. Die Korrelationsanalyse kann
somit verwendet werden, um Aussagen über die Stärke und Richtung
der Korrelation zu treffen. Sie möchten beispielsweise herausfinden, ob ein Zusammenhang
zwischen dem Alter, in dem ein Kind
seinen ersten Satz spricht , und dem
späteren Schulerfolg besteht. Dann können Sie die
Korrelationsanalyse verwenden. Wenn wir jetzt mit
Korrelation arbeiten, gibt
es immer eine Herausforderung. Manchmal werden wir mit
Dingen verwechselt, die ein Problem darstellen. Wenn die
Korrelationsanalyse beispielsweise zeigt, dass zwei Merkmale miteinander verwandt
sind, kann im Wesentlichen geprüft
werden, ob eine Variable zur
Vorhersage der anderen Variablen verwendet werden kann. erwähnte Korrelation Bestätigt sich beispielsweise
die im Beispiel erwähnte Korrelation, kann überprüft werden, ob der Schulerfolg
anhand des Alters, in dem das Kind seinen ersten Satz
spricht, vorhergesagt werden
kann , was bedeutet, dass
es eine
lineare Regressionsgleichung gibt Ich habe ein separates Video, in dem erklärt wird, was
eine lineare Regation ist Aber Vorsicht, Korrelation muss keinen kausalen Zusammenhang haben Das bedeutet
, dass jede Korrelation , die entdeckt
werden kann,
vom
Fachexperten genauer untersucht,
aber niemals
sofort inhaltlich interpretiert werden
sollte werden kann,
vom
Fachexperten genauer untersucht , , auch wenn sie sehr offensichtlich ist Sehen wir uns einige Beispiele für Korrelation und Kausalität Wenn die Korrelation zwischen der Verkaufszahl und
dem Preis analysiert wird, wird
eine starke
Korrelation festgestellt Es wäre logisch
anzunehmen, dass die Verkaufszahlen vom Preis
und nicht von der weisen Person
beeinflusst werden . Der Preis passiert
nicht andersherum. Diese Annahme kann jedoch der Grundlage einer
Korrelationsanalyse keineswegs bewiesen werden auf
der Grundlage einer
Korrelationsanalyse keineswegs bewiesen werden. Darüber hinaus kann es vorkommen
, dass die Korrelation zwischen den Variablen x und y durch die Variable
erzeugt wird. Daher werden wir dies
in teilweiser Korrelation
ausführlicher behandeln . Je nachdem,
welche Variable verwendet werden kann, können
Sie jedoch möglicherweise von Anfang an von
einem Kausalzusammenhang sprechen Anfang an von
einem Kausalzusammenhang Schauen wir uns ein
Beispiel an, ob es einen Zusammenhang zwischen dem H und
dem Gehalt Es ist klar, dass das Alter das Gehalt
beeinflusst, nicht umgekehrt. Das Gehalt hat keinen
Einfluss auf das Alter. Nur weil mein
Alter steigt
oder nur weil ich ein höheres Gehalt
habe, oder nur weil ich ein höheres Gehalt
habe heißt
das nicht, dass
ich alt werde. Sonst
würde jeder so wenig
Gehalt wie möglich
verdienen wollen . Das ist einfach Liebe. Interpretiere die Korrelation. Mit Hilfe der
Korrelationsanalyse können
zwei Aussagen getroffen werden. Eine über die Richtung
der Korrelation und eine über die Stärke. Über die lineare Beziehung
der beiden Metriken oder der Variablen
mit normaler Skalierung Die Richtung gibt an, ob die Korrelation
positiv oder negativ ist Ob die Stärke
bestimmt, ob die Korrelation zwischen der
Variablen stark oder schwach ist Wenn ich also sage eine positive Korrelation besteht zwischen beiden
eine positive Korrelation besteht, dann wollen wir damit sagen , dass die größeren Werte der
Variablen x mit den größeren Werten der
Variablen y
einhergehen den größeren Werten der
Variablen y
einhergehen und nicht
umgekehrt Körpergröße und Schuhgröße korrelieren
beispielsweise positiv Der
Korrelationskoeffizient liegt bei 0-1. Das heißt, es ist ein positiver Wert. negative Korrelation
besteht dagegen , wenn ein größerer
Wert der Variablen x vom
kleineren Wert der Variablen
y begleitet wird und umgekehrt. Der Produktpreis und die Verkaufsmenge korrelieren normalerweise
negativ. Je teurer ein Produkt ist, desto geringer ist die
Verkaufsmenge. In diesem Fall liegt der
Korrelationskoeffizient zwischen
minus eins und Null,
vorausgesetzt, es handelt sich um einen negativen Wert. Es ergibt sich also ein negativer Wert. Wie ermittle ich die
Stärke der Korrelation? Hinsichtlich der Stärke
des Korrelationskoeffizienten r kann
die folgende Tabelle als Richtschnur dienen. Wenn Ihr Wert
zwischen 0,0 und 0,1 liegt, können wir eindeutig sagen
, dass keine Korrelation besteht. Wenn der Wert
zwischen 0,1 und 0,3 liegt, sagen
wir, dass eine geringe
oder geringfügige Korrelation oder eine Korrelation besteht. Wenn der Wert zwischen 0,32 und
0,5 liegt, mittlere Korrelation, wenn der Wert zwischen 0,5 und 0,7 liegt, sagen
wir, dass es eine
hohe Korrelation
oder eine starke Korrelation gibt , und wenn der Wert
zwischen 0,7 und eins liegt, sagen
wir, dass es sich um eine sehr
hohe Korrelation Am Ende dieses Moduls zeige
ich Ihnen, wie Sie
das Korrelations-Kation auch
direkt in einem Online-Modus berechnen das Korrelations-Kation auch
direkt in einem Online-Modus Gehen wir also weiter. Wenn Sie dies online tun, erhalten
Sie
eines der Tools, mit denen wir
die Korrelation analysieren,
ein Streudiagramm, da
sowohl X Y
vom variablen Datentyp
oder metrischen Datentyp sind ,
wie Sie es nennen Genauso wichtig wie grafische Darstellung
des Korrelationskoeffizienten
ist, können
wir ein Streudiagramm verwenden So wie das Alter die X-Achse
immer die Eingabevariable
und die Y-Achse
die Ausgangsvariable, und die Y-Achse
die weil
y gleich der Funktion von x ist. Und ich sehe, dass mit steigendem Alter
auch meine Gehälter steigen Mit dem Streudiagramm
können Sie grob abschätzen ,
ob es eine Korrelation
gibt
und ob es eine lineare oder
eine nichtlineare Korrelation gibt eine nichtlineare Korrelation und ob es irgendwelche Ausreißer
gibt Wenn wir eine Korrelation durchführen, möchten
wir vielleicht auch
unsere Hypothesen testen und die Korrelation
auf
Signifikanz testen Wenn
in der Stichprobe eine Korrelation besteht, muss dennoch geprüft werden, ob genügend Beweise dafür vorliegen, dass
die Korrelation auch in der Grundgesamtheit besteht. Daher stellt sich die Frage, wann der Korrelationskopion
als statistisch signifikant
angesehen wird als statistisch signifikant
angesehen Die Signifikanz der vorhandenen
Korrelation kann mit dem t-Test getestet werden In der Regel wird getestet, ob sich der Korrelationskoeffizient
signifikant von Null unterscheidet Das heißt, es wird eine lineare
Abhängigkeit getestet. In diesem Fall lautet die
Nullhypothese, dass
keine Korrelation zwischen den untersuchten
Variablen besteht. Im Gegensatz dazu geht die
alternative Hypothese davon aus, dass eine Korrelation besteht. Wie bei allen anderen
Hypothesentests wird
das Signifikanzniveau zunächst auf 5% festgelegt. Der Alpha-Wert ist auf 5% festgelegt. Das bedeutet, dass ich mich zu
95% auf die
Analyse verlassen sollte , die ich durchführe. Wenn der berechnete
p-Wert unter 5% liegt, wird
die Nullhypothese zurückgewiesen und die alternative
Hypothese gilt. Wenn der p-Wert unter 5% liegt, davon ausgegangen, dass
eine Beziehung zwischen
x und dem besteht . Die t-Testformel, die wir für Hypothesentests
verwenden, lautet r in die Unterwurzel von n minus zwei geteilt durch die Unterwurzel
von eins minus r im Quadrat. Dabei ist n die Stichprobengröße, r r die ermittelte
Korrelation der Stichprobe und der entsprechende
p-Wert kann einfach im
Korrelationsrechner
berechnet werden. Direktionale und
ungerichtete Hypothese. Mit der Korrelationsanalyse
kann die Hypothese einer
direktionalen oder ungerichteten
Korrelation getestet werden . Was meinen wir mit der Hypothese einer ungerichteten Korrelation? Sie sind nur daran interessiert
zu wissen, ob es eine Beziehung oder eine Korrelation
zwischen zwei Variablen gibt. Zum Beispiel, ob
ein Zusammenhang zwischen
Alter und Gehalt besteht , Sie
aber nicht an der Richtung
der Beziehungen
interessiert sind . Wenn Sie eine Hypothese der direktionalen
Korrelation
aufstellen, interessiert Sie auch die Richtung
der Korrelation. Gibt an, ob
zwischen den Variablen eine positive oder eine negative Korrelation besteht. Ihre alternative Hypothese
ist dann ein Beispiel. Das Alter wirkt sich positiv
auf das Gehalt aus. Worauf Sie achten
müssen , ist, dass
Sie bei einer
Richtungshypothese vom
Ende des Beispiels ausgehen. Sie werden also weitermachen, ob es einen positiven
Einfluss gibt oder nicht? Normalerweise sagen wir also, es gibt keine Korrelation und
es gibt eine Korrelation. Aber hier sagen wir, dass
es keine Korrelation gibt, und die alternative
Hypothese besagt , dass es einen positiven
Einfluss auf den Salat gibt. Gehen wir jetzt
zum nächsten Teil. Das ist Pearsons
Korrelationsanalyse. Mit der
Korrelationsanalyse nach Pearson erhalten
Sie eine Aussage über die lineare Korrelation zwischen
den metrischen Skalenvariablen Für die Berechnung wird die jeweilige Kovarianz
verwendet. Die Kovarianz ergibt
einen positiven Wert wenn eine
positive Korrelation
zwischen den Variablen besteht ,
und einen negativen Wert,
wenn eine negative Korrelation
zwischen den Variablen besteht Die Kovarianz wird als COV
berechnet, oder Kovarianz von X wird
anhand der auf dem Bildschirm angegebenen Formel berechnet Mach dir keine Sorgen. Wir müssen es nicht manuell
berechnen. Dann haben wir Systeme und Tools, die
diese Analyse für uns durchführen können. Die Kovarianz ist jedoch
nicht standardisiert und kann Werte zwischen
plus und minus unendlich
annehmen Dies macht es
schwierig, die Stärke
der Beziehung
zwischen den Variablen zu vergleichen Stärke
der Beziehung
zwischen den Variablen zu Aus diesem Grund
ist der
Korrelationskoeffizient auch eine
Produktbewegungskorrelation Und das wird auf andere
Weise berechnet. Der Korrelationskoeffizient wird durch Normalisierung
der Kovarianz
erhalten Für diese Normalisierung wird
die Varianz der beiden Variablen wie
folgt Der
Korrelationskoeffizient nach Pearson kann nun Werte von
minus eins bis plus eins annehmen und kann Der Wert minus eins
bedeutet, dass
ein vollständig positiver
linearer Zusammenhang besteht , und je größer der Wert minus eins ist, bedeutet, dass
ein vollständig negativer
Zusammenhang besteht ein vollständig negativer Je mehr und desto weniger. Mit dem Wert Null gibt es keine lineare Beziehung. Die Variable
korreliert nicht mit beiden. Die Korrelation von plus eins wird ungefähr so
aussehen, was nur theoretisch
möglich ist Korrelation von 0,7 plus
sieht ungefähr so aus, sie weist
eine positive Seite auf und die meisten
Punkte befinden sich näher an der Achse
des Regressionslichts Eine Korrelation von plus
drei wird verstreut sein, aber sie geht in eine
positive Richtung Wenn Sie eine Korrelation durchführen,
haben Sie eine Korrelation von -0,7 Sie sind alle gestreut und
bewegen sich nach unten Wenn also der Wert von x steigt, nimmt der Wert von y ab,
und die meisten Punkte
sind auf der Regressionsseite
verstreut Wir erhalten den
Korrelationswert Null auf mehrere Arten, entweder sind die Punkte
vollständig verstreut, oder Sie erhalten
perfekte Linien wie diese oder so, was wiederum nicht der Fall
wäre, was
bedeutet, dass Sie zur Interpretation der Variablen eine andere Analyse durchführen
müssen zur Interpretation der Variablen Nun kann endlich die Stärke
der Beziehung interpretiert
werden, und dies kann durch die
folgende Geschichte
veranschaulicht werden . Die Stärke der Korrelation. Wenn es 0-0 0,1 ist, liegt
keine Korrelation Wenn es 0,1 bis 0,3 ist, besteht eine geringe Korrelation 0,3 bis 0,5 mittlere Korrelation,
0,52 0,7, sehr hohe Korrelation, Entschuldigung,
hohe Korrelation, und 0,7 zu eins ist eine sehr
hohe Um vorab zu überprüfen, ob ein
linearer Zusammenhang besteht, sollten
Streudiagramme in Betracht gezogen
werden Auf diese Weise kann der
jeweilige Zusammenhang zwischen den Variablen
auch visuell überprüft werden Die Korrelation nach Pearson
ist nur dann sinnvoll und zielführend, wenn Demor-Beziehungen vorliegen Die Korrelation nach Pearson
hat bestimmte Vorteile,
die Sie im Hinterkopf behalten sollten Bei PSM müssen
die Variablen, wann immer
Sie diese Methode verwenden, normalverteilt sein, und es muss eine
lineare Beziehung zwischen den Die Normalverteilung
kann entweder
analytisch oder grafisch
anhand des QQ-Diagramms getestet werden. Ich werde
Ihnen zeigen
, Ich werde
Ihnen zeigen
, Ob die Variablen
eine lineare Korrelation aufweisen, lässt sich am besten
mit dem Streudiagramm überprüfen Wenn die Bedingungen nicht erfüllt sind, Spearman-Korrelation verwendet werden Ich hoffe, Sie haben es
bis hier verstanden, und lassen Sie uns
weiter lernen. Lass uns weitermachen. Was tun wir, wenn
meine Daten nicht
normal sind und ich
eine Korrelationsanalyse durchführen möchte In diesem Fall verwenden wir die Rangkorrelation nach
Spearman. Die
Rangkorrelationsanalyse von Spearman wird verwendet, um
die Beziehung
zwischen zwei Variablen zu berechnen die Beziehung
zwischen zwei Variablen , die ein
ordinales Maß haben Wenn Sie variable Daten haben, oder ich kann sagen, kontinuierliche Daten, verwenden
wir eine normale
Korrelationsanalyse
wie die Korrekturanalyse von Pearson Wenn meine Daten jedoch ordinal
oder nicht parametrisch sind, kann ich mit der
Korrelationsanalyse von
Spearman fortfahren Dieses Verfahren wird
daher verwendet, wenn die Voraussetzung der
Korrelationsanalyse, d. h. die parametrischen
Verfahren, nicht
erfüllt sind oder wenn keine metrischen Daten oder
kontinuierlichen Variablen vorliegen und die Daten und In diesem Zusammenhang
bieten wir an, es als
Spearman-Korrelation
oder Spearmansche Zeile zu bezeichnen Spearman-Korrelation
oder Spearmansche Zeile Die Rangkorrelation nach Spearman ist gemeint. Die Frage kann dann so behandelt
werden, als Rangkorrelation von
Spearman der des Korrelationskoeffizienten von
Percy ähnlich von
Percy Beispiele. Besteht eine Korrelation zwischen zwei Variablen
oder Merkmalen? Besteht beispielsweise ein Zusammenhang zwischen Alter und
Religiosität in der französischen Bevölkerung? Die Berechnung der
Rangkorrelation basiert auf dem Rankingsystem
der Datenreihe Das bedeutet, dass die
Rangmaßvariablen nicht bei der Berechnung verwendet, sondern in Ränge umgewandelt werden. Der Test wird dann
anhand der Ränge durchgeführt. Für den
Rangkorrelationskoeffizienten p sind
die Werte zwischen minus
eins und eins positiv. Wenn ein Wert
kleiner als Null ist, ist
p kleiner als Null, es besteht eine negative
lineare Beziehung. Wenn der Wert
größer als Null ist, liegt eine positive
lineare Beziehung vor. Wenn der Wert Null oder nahe
Null ist, z. B. 0,1 bis -0,1, können
wir sagen, dass
keine Beziehung
zwischen den Variablen besteht keine Beziehung
zwischen den Variablen Wie beim
Korrelationskoeffizienten für Sparen die Stärke der Korrelation kann Wenn es also 0-0 0,1 ist, liegt keine Korrelation vor. Wenn es 0,12 0,3 ist, besteht eine geringe Wenn es 0,3 bis 0,5
gibt, liegt eine mittlere Retation Es besteht eine hohe
Korrelation von 0,5 bis 0,7 und eine
sehr hohe Korrelation von 0,7 zu eins Bei negativen Werten sprechen
wir von geringer
negativer Korrelation, hoher negativer Korrelation usw. Es gibt eine andere Art
von Korrelation, die als
biserielle Punktkorrelation bezeichnet wird . Die biserielle
Punktkorrelation wird verwendet , wenn eine der Variablen
dichotom ist Beispiel: Haben Sie
studiert oder nicht studiert? Die andere ist eine metrische
Variable wie das Gehalt. In diesem Fall verwenden wir einen Punkt
nach serieller Korrelation. Die Korrelation eines Punktes
durch serielle Korrelation entspricht der berechneten Korrelation nach
Pearson Um sie zu berechnen, wird einer
der beiden Ausdrücke
des dichotomen Werts als Null
kodiert Der andere ist als Eins kodiert. Berechnete
Korrelationsanalyse zeigen wir Ihnen mit Excel oder anderen Tools , die kostenlos erhältlich sind. Ich werde Ihnen die
Berechnung nach einiger Zeit zeigen, aber lassen Sie uns zuerst den Fall untersuchen. Ein Student möchte wissen, ob
es einen Zusammenhang zwischen Größe und dem Gewicht der Teilnehmer
des Statistikkurses Zu diesem Zweck zog der
Student eine Stichprobe, die im Folgenden verteilt ist Ich habe also die Körpergröße der Menschen, ich habe die
Gewichte der Menschen. Um die
lineare Beziehung
mithilfe der
Korrelationsanalyse zu analysieren , können
Sie die
Korrelation mit
Excel oder den anderen
verfügbaren Tools online berechnen . Kopieren Sie zunächst die Tabelle in
den Statistikrechner. Klicken Sie dann auf Korrelation
und wählen Sie sie aus. Und schließlich
können Sie die
folgenden Beilagen erhalten. Also lass es uns online machen. Also bin ich zu data tab.net gekommen. Es ist ein
statistischer Online-Rechner. Die Daten hier haben eine hundertprozentige Datensicherheit, da die
Berechnungen in Ihrem Browser und die Daten in Ihren Browser-Cookies eingefügt und gespeichert werden. Die Daten sind zu 100%, und das ist der Grund, warum die
Berechnung sehr schnell funktioniert. Die Daten benötigen daher
keinen großen
Server und damit Sie. Ich habe also das Körpergewicht, ich habe das Gewicht
und ich habe das Alter. Also ich möchte es verstehen. Also wenn ich runtergehe, lasse
ich mich kortieren. Ich möchte wissen, ob
es einen Zusammenhang zwischen Körpergröße
und Körpergewicht Welche Art von Korrelation möchte ich? Lass uns zuerst mit Pearsons gehen.
Es besteht eine Korrelation Es besteht eine positive Korrelation. Das Signifikanzniveau ist festgelegt. 5% Wir können testen, ob Annahmen vorliegen, und es führt sofort
die Analyse durch. Es macht das QQ-Diagramm für mich. Es zeichnet das Histogramm und zeigt
die Ergebnisse, richtig? Wir können also sagen, dass die Daten
mehr oder weniger
normalverteilt sind Ich kann das kopieren,
indem ich auf PNG herunterladen klicke, und die Datei wird kopiert. Und du wirst es auf diese Weise
sehen können. Lassen Sie mich jetzt diesen Tumba schließen, damit er
die Annahmen überprüft hat Die Zusammenfassung in Versen, das Ergebnis der
Korrelation nach Pearson , zeigte, dass es eine sehr hohe positive Korrelation zwischen Körpergewicht,
Größe und Gewicht Die Ergebnisse zeigten, dass die Beziehung zwischen
Körpergewicht, Größe und Gewicht
bei einem
positiven R-Wert statistisch signifikant R ist 0,86 und der
p-Wert ist 0,01. 001. Wenn Sie sich also die
Stärke der Korrelation ansehen und der Wert größer
als 0,7 und eins ist, sagen
wir, dass es sich um eine sehr
hohe Korrelation handelt
und es sich um ein positives Dekor handelt. Wenn ich
Hypothesen teste, gibt es keine oder eine
negative Korrelation zwischen Körpergröße und Gewicht. Es besteht eine positive Korrelation zwischen Körpergröße und Gewicht. Wie viele Fälle
haben wir zehn Fälle. Der R-Wert ist 0,86 und der p-Wert ist 0,001, was weniger als 0,5 ist Daher lehnen wir die Hypothese ab, dass es keine Korrelation
gibt, und es
gilt die alternative Hypothese, dass eine positive Korrelation
zwischen
Körpergröße und Körpergewicht
besteht zwischen
Körpergröße und Körpergewicht Der Vorteil, einen
Datenentwurf zu haben, besteht darin, dass Sie
eine KI-Interpretation haben. Diese Tabelle fasst
die Ergebnisse
der Analyse von Körpergröße und Körpergewicht zusammen und zeigt den
Korrelationskoeffizienten r und P va Der Wert des
Korrelationskoeffizienten gibt
die Stärke und Richtung der
Beziehung zwischen der Variablen
Größe und Gewicht an, und der
Koeffizientenwert beträgt 0,86, was auf
eine sehr hohe positive
Korrelation hindeutet eine sehr hohe positive Dies bedeutet,
dass im Allgemeinen zunehmender Körpergröße auch
das Gewicht
zunimmt und umgekehrt. Der P-Wert. Der
p-Wert geht hier davon aus, dass die verfügbaren Daten ausreichende Beweise liefern, um die Nullhypothese
zurückzuweisen. In diesem Fall wurde die
einseitige Hypothese getestet, und die Nullhypothese besagt
, dass
keine oder eine negative Korrelation zwischen der Größe und dem
Gewicht in der Population besteht. In den meisten Fällen liegt der
p-Wert unter 0,05.
Wir gehen davon aus, dass eine
statistische Signifikanz besteht In unserem Fall beträgt der
p-Wert 0,001, was offensichtlich
weniger als 0,5 ist Die Nullhypothese wird zurückgewiesen, und das Ergebnis der
Pearson-Korrelation zeigt, dass
eine
positive Korrelation zwischen
Körpergröße und Körpergewicht statistisch signifikant ist eine
positive Korrelation zwischen
Körpergröße und Körpergewicht statistisch positive Korrelation zwischen
Körpergröße und Körpergewicht Das Ergebnis der
Korrelation nach Pearson zeigt also , dass
eine sehr positive Korrelation
zwischen Körpergröße und Gewicht besteht eine sehr positive Korrelation
zwischen Körpergröße und Gewicht Diese Korrelation wird durch eine
statistisch signifikante
positive Korrelation zwischen dem
R-Wert 0,86 und dem
P-Wert von 0,05 gespeichert statistisch signifikante
positive Korrelation zwischen dem
R-Wert 0,86 und dem
P-Wert von 0,05 Jetzt gibt es ein Streudiagramm das Ich kann hier drüben klicken und meine Regressionslinie
abrufen. Ich kann meine Achse ändern, wenn ich nicht bei Null beginnen
möchte Möchte ich eine Nulllinie Dann ist die Null enthalten, aber ich will sie nicht.
Ich kann es ändern. Wie will ich mein Bild haben, das extra große PDM und so Ich kann auf TNG herunterladen klicken
, um dieses Bild herunterzuladen. Wie ich Ihnen bereits sagte, können
wir jetzt auch
die Kovarianzberechnung durchführen die Kovarianzberechnung Wenn ich mir also
Körpergröße und Körpergewicht ansehe, ist
die Kovarianz 1,29 Es bedeutet also, dass es eine
Beziehung gibt. So
machen Sie die Berechnung also. Nun, für den
Point-by-Serialrechner haben
wir vielleicht eine andere Art von Daten, die wir analysieren
möchten Hat die Änderung des Gehalts .
Hat die Änderung des Gehalts
etwas mit dem Geschlecht zu
tun? In diesem Fall würde
ich dann den metrischen Wert als
Gehalt und die nominale
Variable als Geschlecht auswählen Gehalt und die nominale
Variable als Geschlecht und dann meine Berechnung
durchführen. Es würde den Mann auf
Null und die Frau auf eins setzen. Boxplot, aus dem hervorgeht, dass ja, Männer
im Vergleich zu Frauen tendenziell
ein höheres Gehalt haben . Wenn also ein Student wissen
möchte, ob es einen Zusammenhang
zwischen einem erhöhten S gibt, haben
wir diese Analyse durchgeführt Die Hypothese: Wenn man von einer normalen Hypothese
ausgehen kann, besteht kein Zusammenhang zwischen Körpergröße und Körpergewicht Es besteht ein Zusammenhang
zwischen Körpergröße und Gewicht, aber ich hatte in meinem Test eine
Richtungshypothese aufgestellt. Der P-Wert ist dieser, und wir haben gesehen, wie wir die Ausgabe
erzeugen können. Zunächst erhalten Sie die Null
- und die Alternativhypothese. Die Nullhypothese besagt , dass es keine Korrelation
zwischen Größe und Gewicht gibt, und dann haben wir die
alternative Hypothese , die das Gegenteil verhindert Wenn Sie auf U-Boot-Vögel klicken, erhalten
Sie die Interpretation,
die wir gerade Wir können weitermachen und
tatsächlich haben wir
die direktionale oder einseitige
Korrelationshypothese ausprobiert die direktionale oder einseitige
Korrelationshypothese Und in Excel und anderen Tools, die Ihnen bei der Berechnung helfen
können. Also haben wir gerade die Tests durchgeführt und festgestellt
, dass es keine
oder eine negative Korrelation zwischen dem Körpergen gibt
und dass es eine
positive Korrelation zwischen der Körpergröße gibt. Und als wir das gesehen haben, haben wir festgestellt
, dass es eine positive, sehr starke positive
Korrelation gibt, weshalb der p-Wert unter
0,01 lag In diesem Fall müssen Sie zunächst
überprüfen, ob die Korrelation in allen Richtungen
der Alternativhypothese besteht, d.
h. Größe und Gewicht
sind positiv korreliert, und in diesem Fall wird der
p-Wert durch zwei geteilt Daher wird nur eine einseitige
Verteilung berücksichtigt. Dieses Tool kümmert sich jedoch diese beiden Schritte
und die Zusammenfassung in Versen wird so wiedergegeben, wie wir es gesehen haben. Wir stellen fest, dass eine
positive Korrelation zwischen der Größe und dem Gewicht des Datensatzes an
der Stichprobe besteht. Daher können wir sagen, dass eine
positiv korrelierte Signifikanz besteht, und wir können feststellen, dass zwischen den
Variablen Körpergröße und Körpergröße eine sehr positive
Korrelation besteht Somit besteht eine sehr hohe
positive Korrelation zwischen der
Stichprobenhöhe und dem Damit schließen wir unsere Korrelationsanalyse ab und wir sehen uns
im nächsten Kurs.
36. Pearsons Korrelationsanalyse-Konzept: Lassen Sie uns unsere
Korrelationsreise fortsetzen. Ich werde heute über
Pearsons Korrelation berichten. Die
Korrelationsanalyse von Pearson ist eine Untersuchung der Beziehung
zwischen zwei Variablen Zum Beispiel ist es eine Korrelation zwischen dem Alter und dem Gehalt einer
Person Bei beiden handelt es sich um
kontinuierliche Variablen, weshalb das Diagramm verstreut sein
wird. also das Gehalt mit zunehmendem Alter der
Person Steigt also das Gehalt mit zunehmendem Alter der
Person? Nun müssen Sie sich daran erinnern, dass
y eine Funktion von x ist, sodass Ihre Y-Achse das Ergebnis
hat und die X-Achse
die unabhängige Variable hat. Genauer gesagt können wir
den
Korrelationskoeffizienten von Pearson verwenden , um
die lineare Beziehung
zwischen zwei Variablen zu messen die lineare Beziehung
zwischen zwei Variablen Wenn die Beziehung nicht linear
ist, diese Korrelationsgleichung
nicht von Nutzen. Ich denke, Sie hätten
bemerkt, dass ich meinen AR für
diese Aufnahme
geändert habe. Wenn es dir gefallen hat, gib einfach einen Daumen hoch in den
Kommentarbereich Lassen Sie uns weitermachen, die Stärke und die Richtung
der Korrelation Mit der Korrelationsanalyse können
wir feststellen, wie stark die Beziehung ist und in welche Richtung
die Korrelation geht. Wir können die Stärke und Richtung
der Korrelation
am
Korrelationskoeffizienten R nach Pearson ablesen , dessen Wert von
minus eins bis plus eins variiert Die Stärke der Korrelation, die Stärke der Korrelation, das kann
man in der Tabelle ablesen Der R-Wert liegt zwischen Null und minus
Eins, was bedeutet, dass
keine Korrelation besteht. Wenn der Betrag des Werts von
r zwischen 0,7 und Eins liegt,
handelt es sich um eine sehr stark korrelierte,
sehr starke Korrelation Wenn die Werte nun positiv sind, ist
sie positiv korreliert, und wenn die Werte negativ sind, ist
sie negativ Nehmen wir also an, der R-Wert
ergibt -0,66. Dann können wir sagen, dass es stark
negativ korreliert ist. Das habe ich also aus dem Buch
der Statistik übernommen .
Lassen Sie uns das eindämmen. Was meinst du mit
Korrelationsrichtung? Eine positive Korrelation
liegt vor, wenn große Werte
einer Variablen mit großen Werten
einer anderen Variablen
verknüpft sind oder wenn eine kleine Änderung
einer Variablen mit einer kleinen
Änderung der anderen Variablen
verbunden ist . Wenn es sich also um eine positive
Korrelation handelt und ein größerer
Wert auf der X-Achse vorhanden ist, entspricht
dies einem
größeren Wert auf der Y-Achse. Und ein kleinerer Wert auf der X-Achse korreliert mit einem kleineren
Wert auf der Y-Achse, wie Sie in
diesen beiden Bildern sehen können Eine positive Korrelation ergibt Beispiele für Körpergröße
und Schuhgröße Dies führt zu einer
positiven Korrelation. Mit zunehmender
Körpergröße nimmt also auch
die Schuhgröße zu. Das Ergebnis ist ein positiver
Korrelationskoeffizient, und r ist größer als Null Nun, haben Sie gesehen, dass dieses
Diagramm einen Fehler enthält? Der Fehler ist, dass die
Schuhgröße das Ergebnis ist und die Körpergröße die
unabhängige Variable, aber wir haben sie mutwillig falsch abgebildet, um
dies zu vermeiden Lassen Sie mich also meine
Kommentare hier platzieren. Was ist falsch im Pow-Graph? Die Frage ist, ob die Größenzunahme
der
Show einer Erhöhung der Körpergröße
der Person führt oder die Zunahme der
Körpergröße der Person Erhöhung der Schuhgröße
dient. Bitte schreiben Sie in die
zehn folgenden Abschnitte. Ja. Denken Sie daran, y ist
eine Funktion von x. Und hier ist y die Körpergröße
der Person und x ist mein Fehler. X ist die Körpergröße der
Person und y ist die Körpergröße. Ich hoffe, jetzt ist klar, was
wir sagen wollen. Also y ist eine Funktion von x. Lassen Sie mich aus dem Buchstaben
ein kleines Y machen
, denn das ist das Projekt Y. X ist
die Körpergröße der Person. Also hier
ist der Fehler , dass wir
es falsch dargestellt haben. Die negative Korrelation
liegt vor, wenn ein großer Wert eine Variable mit
einem kleinen Wert für die andere
Variable
verknüpft ist und umgekehrt. Wenn also die Y-Achse groß ist, ist
der X-Achsenwert klein. Und wenn der X-Achsenwert groß ist, ist
der Y-Achsenwert klein. Dies wird
als negative Korrelation bezeichnet. Die Punkte fließen. Im Gegensatz zum vorherigen , bei dem die Punkte nach oben
flossen. Jetzt
besteht die negative Korrelation zwischen
Produktgröße und Verkaufswert. Dies führt zu einer negativen
Korrelation. Was passiert, wenn
der Preis steigt, das Verkaufsvolumen sinkt. Und wenn der Preis gesenkt wird, neigen
die Leute dazu, mehr Volumen zu kaufen. Das führt zu mehr Verkäufen. Lass mich schreiben, dass es Steigerungen gibt. Sehr gut. Das Ergebnis
ist also eine negative Korrelation, der Koefionswert von
r ist kleiner als Null Je stärker die Korrelation ist, näher rückt
der Wert an minus eins heran Und hier ist die Grafik korrekt. Wenn der Preis steigt, sinken
die Mengen. Wie berechnen wir nun den Korrelationsclient von
Pearson? Das ist eine sehr wichtige
Sache, oder? Der
Korrelationsfaktor nach Pearson wird anhand der
folgenden Gleichung berechnet Dabei ist r der Korrelationskoeffizient nach Pearson. X i ist der
Einzelwert einer Variablen. Zum Beispiel könnte es
das Alter der Person sein. Der X-Balken ist das Durchschnittsalter
des Stichprobendatensatzes. Y ist der individuelle Wert der anderen Variablen oder der Ergebnisvariablen,
und
der Y-Balken ist nichts anderes als das Durchschnittsgehalt
des Stichprobendatensatzes. Hier
sind also X-Balken und Y-Balken jeweils der Mittelwert zweier
Variablen. Das Ganze wird geteilt
durch die Unterwurzel von x eins minus x Balkenquadrat, y eins minus y bar ganzem Quadrat. Wenn ich es also quadriere
und eine Unterwurzel mache, wird sich darum gekümmert Also x eins sind die
einzelnen Werte und y eins sind die
einzelnen Werte der Ergebnisvariablen R ist die Korrelation nach Pearson
und der Mittelwert. In dieser Gleichung können wir sehen,
dass die jeweiligen
Mittelwerte der ersten Variablen von der anderen Variablen subtrahieren In unserem Beispiel haben wir
den Hauptwert
von Alter und Gehalt berechnet den Hauptwert
von Alter und Gehalt Dann subtrahieren wir
den Hauptwert
jedes Alters und Gehalts
vom Mittelwert Dann multiplizieren wir
beide Werte. Wir summieren dann die einzelnen Ergebnisse
der Multiplikation Der Ablauf
des Nenners stellt sicher, dass der
Korrelationskoeffizient immer
zwischen minus eins und plus eins liegt Denken Sie daran, dass Sie nichts davon
manuell berechnen müssen. Derzeit sind diese
Funktionen in
Excel und auf mehreren
Online-Websites verfügbar . Wenn Sie mehrere positive
Werte wünschen, erhalten
wir einen positiven Wert. Und wenn wir
zwei negative Werte multiplizieren, erhalten wir
ebenfalls einen positiven Wert
minus in minus e plus. Alle Werte, die in diesem Bereich
liegen, haben also einen positiven Einfluss auf
den Korrelationskoeion steigendem Alter steigt
das Gehalt, das Gehalt sinkendem Alter sinken
die Gehälter Wenn wir einen positiven
Wert mit einem negativen Wert multiplizieren, erhalten
wir einen negativen Wert,
der minus bis plus minus ist. Die ganze Zeit gibt
es eine Reihe
negativer Einflüsse auf
den Korrelationskoeion Also die Dinge, die in der lila Box
hervorgehoben sind, wenn die Daten dort
runterfallen, dann führt das zu
einer negativen Korrelation Wenn unser
Wert also überwiegend aus zwei grünen Bereichen der beiden
vorherigen Zahlen besteht. Wir erhalten einen positiven
Korrelationskoeffizienten und damit eine
positive Wenn unsere Werte überwiegend
im roten Bereich der Zahlen liegen , erhalten
wir einen negativen
Korrelationskoeffizienten
und somit eine negative Korrelation und somit eine Verteilen sich die Punkte auf
alle vier Bereiche,
positive und
negative Terme, heben
sie sich gegenseitig auf, und es kann sein, dass wir am Ende sehr geringe oder gar keine
Korrelation Das ist also ein sehr
wichtiger Teil
, den Sie verstehen müssen. Stimmt das? Wenn die Punkte insgesamt
verteilt sind, ergibt sich überhaupt keine
Korrelation. Nun, wie signifikant sind Tests von Korrelation und Koeffizient? Im Allgemeinen wird der
Korrelationskoeffizient von
Daten aus einer Stichprobe
berechnet In den meisten Fällen wollen
wir jedoch die Hypothese
über die Population testen Da wir
die Grundgesamtheit nicht untersuchen können ,
nehmen wir eine Stichprobe, und wir nehmen eine Stichprobe, und
durch die Untersuchung der Stichprobe wollen
wir
Rückschlüsse auf die Grundgesamtheit ziehen In diesem Fall, der
Korrelationsanalyse, wollen
wir dann wissen, ob
es eine Korrelation
in der Grundgesamtheit gibt es eine Korrelation
in der Grundgesamtheit Dazu testen wir, ob der
Korrelationskoeffizient in der Stichprobe statistisch signifikant ist und
sich von Null
unterscheidet Wie führen wir nun Hypothesentests durch? Für Pearsons Korrelation? Die Nullhypothese und die Alternativhypothese für die Korrelationen nach
Pearson Die Nullhypothese besagt, dass
es
keine Korrelation gibt und dass sich
der R-Wert daher nicht signifikant von Null
unterscheidet Es besteht keine Beziehung. Die alternative
Hypothese besagt, dass es einen signifikanten
Unterschied oder eine lineare
Korrelation zwischen den Daten gibt. Achtung. Wir testen
immer, ob die Nullhypothese
abgelehnt wird oder nicht. Das ist sehr, sehr wichtig. Ich akzeptiere nie etwas Ähnliches oder wir
arbeiten nie daran. Die Sache ist, wir arbeiten immer daran, die Nullhypothese zu
beweisen oder abzulehnen. Wir versuchen nie, die Alternative zu
beweisen, obwohl unsere Forschung beginnt,
weil es eine Alternative gibt. In unserem Beispiel könnten
wir also
die Frage stellen, wenn es um das Gehalt und das
Alter der Person geht. Gibt es einen Zusammenhang
zwischen Alter und Gehalt für die
deutsche Bevölkerung? Um das herauszufinden, ziehen wir eine
Stichprobe und testen, ob sich
der Korrelationskoeffizient in dieser Stichprobe
signifikant
von Null unterscheidet. Die Nullhypothese lautet dann dass
es in
der deutschen Bevölkerung keine Korrelation zwischen Gehalt und Alter gibt. Die alternative
Hypothese besagt, dass der
deutschen Bevölkerung
ein Zusammenhang zwischen Gehalt in der
deutschen Bevölkerung
ein Zusammenhang zwischen Gehalt
und Alter besteht. Signifikanz und Test. Wenn sich der
Korrelationsfähigkeitstest nach Pearson signifikant
von der
Nullstichprobenerhebung unterscheidet signifikant
von der
Nullstichprobenerhebung unterscheidet, testen
wir ihn mit
der T-Testformel Dabei ist r der
Korrelationskoeffizient
und n der Stichprobenumfang und Auch hier würde ich sagen, dass
es gut ist,
die Formel zu kennen, sich aber nicht darin
zu verlieren Richtig? Ein P-Wert kann
anhand der Teststatistik t berechnet werden, und der p-Wert ist kleiner als das angegebene
Signifikanzniveau, das normalerweise 5% beträgt, dann wird die Nullhypothese
zurückgewiesen, andernfalls nicht. Wir möchten also sicherstellen , dass der p-Wert, wenn
er größer als 0,05 ist, die Nullhypothese nicht zurückweisen Wenn der p-Wert
größer als 0,05 ist, können wir
die Nullhypothese nicht zurückweisen Was sind nun einige Annahmen, die in der Korrelation nach
Pearson enthalten sind Was ist mit den Annahmen
der Korrelation nach Pearson? Hier müssen wir
unterscheiden, ob wir den Korrelationskoeffizienten nach
Pearson berechnen oder ob wir eine Hypothese testen wollen Um den
Korrelationskoeion nach Pearson zu berechnen, nur Metrische Variablen
können beispielsweise das Gewicht, das
Gehalt, der
Stromverbrauch usw. einer Person sein . Kurz gesagt, kontinuierliche Variable. Der
Korrelationsclient nach Pearson sagt
uns dann , wie groß die lineare
Beziehung ist, und gibt es eine
nichtlineare Wir können nicht aus dem Korrelationskoion von
Pearson ablesen. Das ist also eine lineare Korrelation, und wenn Ihre Daten auf diese Weise berechnet werden
oder auftauchen,
dann tendieren wir dazu, weiterzumachen In diesem Fall
gibt es also keine Korrelation. Wenn wir jedoch testen
wollen, ob der
Korrelationskoeffizient von Pearson in der Stichprobe
signifikant
von Null unterscheidet, wollen
wir die
Hypothese testen, dass die beiden Variablen ebenfalls
normalverteilt sind Weil Sie
die Korrelation
nach Pearson nicht auf Daten testen können , die nicht dem Normalwert entsprechen In diesem Fall können die berechneten
Teststatistiken t und der p-Wert nicht zuverlässig interpretiert
werden Wenn die Annahme nicht getroffen wird, wird die
Rangkorrelation nach
Pearson verwendet Das bedeutet, dass
ich
für nicht normale Daten die
Rangkorrelation nach Pearson verwenden werde Wie berechne ich die Korrelation nach
Pearson online mit Excel
und anderen Tools Ich werde
es Ihnen in Kürze zeigen.
37. Punkt-Biserial-Korrelation: Lassen Sie uns nun etwas über die
biserielle Punktkorrelation lernen. Ich werde die Theorie
und das Beispiel erläutern und erläutern, wie wir das mit
einem Online-Rechner
praktisch umsetzen können wir das mit
einem Online-Rechner
praktisch .
Bleiben Sie in Verbindung. Was genau ist eine
biserielle Punktkorrelation? Hast du schon einmal davon gehört oder dein Gesicht hat sich in
etwa so verändert? Wir hören meistens von linearer Regression,
logistischer Wenn wir etwas über Korrelation lernen, denken
wir an
einfache Korrelation,
positive Korrelation, negative Korrelation Und wann immer wir Korrelation
machen, denken
wir nur an Variablen,
kontinuierliche Variablen sowohl auf der X- als auch auf der Y-Achse. Lassen Sie uns also verstehen, was
Punkt bei serieller Korrelation ist. Es handelt sich um einen Spezialfall der Korrelation nach
Pearson, und es untersucht die
Beziehung zwischen einer dikotonmen Variablen und einer metrischen Variablen Okay. Die Regel für die
Korrelation lautet, dass Ihre beiden Variablen
kontinuierlich oder metrisch sein sollten. Aber mit der
Punkt-für-Seriell-Korrelation kann
ich sogar nach einer
dichotymen Variablen suchen, die ja oder nein sein können Lassen Sie uns das Beispiel einer dikotonösen Variablen verstehen
. Eine dikotyme Variable ist eine
Variable mit zwei Werten Geschlecht (männlich und weiblich) und Raucherstatus (Raucher, Nichtraucher Metrische Variablen
sind
dagegen das Gewicht der Person, das Gehalt
der Person, der Stromverbrauch usw. Wenn wir also eine
dichotonme Variable
und eine metrische Variable haben , wollen
wir wissen, ob es eine Beziehung
gibt Wir können die punktuelle serielle Korrelation verwenden. Lassen Sie uns also
die Definition davon verstehen. punktuelle serielle Korrelation ist eine besondere Art
der Korrelation und untersucht die
Beziehung zwischen einer dichotyen Variablen
und einer metrischen Variablen Dichotonome Variablen sind
Variablen mit zwei Werten, und metrische Variablen sind
kontinuierliche Variablen mit unendlichen Werten,
wie Größe, Gewicht, Gehalt, Stromverbrauch usw. und metrische Variablen sind
kontinuierliche Variablen
mit unendlichen Werten,
wie Größe, Gewicht, Gehalt, Stromverbrauch usw. Wie genau wird der Punkt durch Es verwendet das Konzept der
Pearson-Korrelation, aber in der
Pearson-Korrelation haben
wir auch eine Variable, die nominaler Natur ist Nehmen wir zum Beispiel an, Sie möchten
den Zusammenhang zwischen der Anzahl
der
in einem Test unternommenen Stunden
und den Ergebnissen untersuchen den Zusammenhang zwischen der Anzahl
der
in einem Test unternommenen Stunden ,
d. h. ob die Person
bestanden oder nicht bestanden hat Hier kann ich also sehen, wie
viele Stunden die Person dem Lernen
verbracht hat und
ob sie bestanden oder nicht bestanden hat? Wir haben Daten für
die Stichprobe von 20 Studierenden gesammelt. 12 Studierende haben bestanden, acht Studierende sind durchgefallen. Wir haben die
Anzahl der Stunden für
jeden Schüler,
der an dem Test teilgenommen hat, aufgezeichnet und dem Schüler, der den Test bestanden hat, eine Punktzahl
von eins und dem Schüler, der den Test nicht
bestanden hat, eine Punktzahl von Null zugewiesen und dem Schüler, der den Test nicht
bestanden hat, eine Punktzahl von Null . Jetzt können wir entweder
die Pearson-Korrelation zwischen
der Zeit und
den Testergebnissen berechnen die Pearson-Korrelation zwischen
der Zeit und
den oder wir können die Gleichung für
den
Punkt anhand der CDN-Korrelation verwenden Gleichung für
den
Punkt anhand der CDN-Korrelation Jetzt können wir entweder
die Pearson-Korrelation zwischen
Zeit und Testergebnissen
mit der Gleichung berechnen die Pearson-Korrelation zwischen
Zeit und Testergebnissen
mit der Zeit und Testergebnissen
mit Nun, hier ist x y der Mittelwert der
Personen, die durchgefallen sind, und X eins ist der Mittelwert der
Personen, die bestanden haben N steht für die
Gesamtzahl der Beobachtungen. N eins steht für die Anzahl
der Personen, die bestanden haben, n zwei steht für die Anzahl
der Personen, die durchgefallen sind. Genau wie der
Korrelationskoeffizient nach Pearson, r, ist
Punkt für serielle Korrelation rp. Auch B variiert zwischen
minus eins und plus eins Mit Hilfe von Cefent können
wir zwei Dinge wir So stark ist die
Beziehung. Ist es eine positive Korrelation? Handelt es sich um eine schwache positive
Korrelation und in welche Richtung geht
die Korrelation? Handelt es sich um eine positive Korrelation oder um eine negative Korrelation? Die Stärke der Korrelation
kann in der Tabelle abgelesen werden. Liegt der Wert zwischen
0,0 und weniger als 0,1, liegt
keine Korrelation vor. Wenn der Wert zwischen
0,1 und weniger als 0,3 liegt, liegt
eine geringe Korrelation vor. Der Wert liegt zwischen
0,3 und 0,5, es besteht eine mittlere
Korrelation von 0,52 bis 0,7, eine hohe Korrelation von 0,7 zu einer,
sehr hohen Korrelation Wenn der Wert zwischen
Null und minus Eins liegt, sprechen wir von einer
negativen Korrelation Wenn der Koeffizient zwischen
minus eins und kleiner als Null liegt, handelt es sich um eine negative Korrelation, daher
besteht eine negative Beziehung zwischen der Variablen Wenn der Wert zwischen
Null und plus eins liegt,
handelt es sich um eine positive Korrelation Somit
besteht eine positive Beziehung zwischen der Variablen, und wenn das Ergebnis nahe Null
liegt, sagen
wir, dass keine Korrelation besteht. Der
Korrelationskoeffizient wird normalerweise
anhand der Daten aus der
Stichprobe berechnet Wir möchten jedoch häufig Hypothesen über
die
Grundgesamtheit testen Wir wollen eine
Hypothese über
die Population testen , weil wir die Population
nicht untersuchen können, wir verwenden eine Stichprobenmethode. Wir berechnen den
Korrelationsgrad der Stichprobendaten. Jetzt können wir testen, ob sich der Korrelationskoeffizient
signifikant
von Null unterscheidet signifikant Die Nullhypothese besagt, dass sich der Korrelationskoeffizient nicht signifikant unterscheidet Es besteht keine Beziehung. Eine alternative Hypothese besagt, dass die Korrelationskohäsion
signifikant von Null abweicht. Es besteht eine Beziehung. Wenn wir also den Punkt
durch serielle Korrelation berechnen, erhalten
wir denselben
p-Wert wie den T-Test für unabhängige
Stichproben für dieselben Daten. Unabhängig davon, ob wir die
Korrelationshypothese mit einem Punkt durch serielle Korrelation oder eine Differenzhypothese
des T-Tests testen, erhalten
wir den gleichen p-Wert. Was ist mit den Annahmen
, die wir
berücksichtigen müssen, wenn wir einen
Punkt mit serieller Korrelation ermitteln? Hier müssen wir unterscheiden,
ob wir
nur den Korrelationskoeffizienten berechnen wollen
oder ob wir auch die Hypothese
testen wollen Um den
Korrelationskorenten zu berechnen, nur eine metrische Variable und
eine dichotome müssen
nur eine metrische Variable und
eine dichotome Variable vorhanden sein. Wenn Sie jedoch testen
möchten, ob der Korrelationskoeffizient signifikant von Null
unterscheidet, eine metrische Ist dies nicht gegeben, die berechneten
Teststatistiken oder der p-Wert nicht zuverlässig
interpretiert werden Wir können
Online-Rechner wie die Registerkarte „Daten“ verwenden, die Ihnen bei
der Analyse helfen können und auf die
ich jetzt eingehen werde Wir sind auf Datenfass. Ich
habe einige Daten in Bezug auf die Anzahl
unserer Studientestergebnisse eingegeben Null
und Eins
als bestanden und nicht
bestanden in Null und Eins umgerechnet . Ich kann meine Daten mit
dieser Schaltfläche importieren und damit
die Tabelle löschen. Sie haben Einstellungen, mit denen Sie entscheiden können,
welche Art von Einstellungen Sie für Grafiken verwenden
möchten.
Gehen wir jetzt runter. Ich korreliere,
und ich habe Optionen. Hier sind meine nominale Variable
die Testergebnisse. Meine metrische Variable
ist unser strded. Ich möchte
Pearsons Pfannen und Konvolu berechnen. Vorerst
behalte ich es einfach als Pearsons. Meine nominale Variable
sind Testergebnisse Sobald ich die nominale
Variable als Testergebnisse ausgewählt habe, konnte ich dies
als
serielle Punkt-Pi-Korrelation identifizieren als
serielle Punkt-Pi-Korrelation Die Hypothese besagt, dass es keine Korrelation zwischen unseren
Studien- und Testergebnissen gibt. Die alternative Hypothese
besagt, dass
ein Zusammenhang
zwischen der Anzahl der untersuchten Stunden und
den Testergebnissen besteht. Der Punkt, an dem die serielle Korrelation fehlschlägt, nimmt den
Wert Null an, Ps nimmt den Wert Eins an. Der Wert für die serielle
Punktkorrelation beträgt 0,31 Freiheitsgrade, r 18 t
ist 0,14, der p-Wert ist 1,79 Ich habe den Boxplot
hier drüben , der besagt, dass mein Boxplot für die ehemaligen 50% der Teilnehmer
lernen zwischen
8,5 und 19,25 Stunden, was zu einem erfolgreichen Studium geführt
hat Leute, die durchgefallen sind,
lernen 7-13 Stunden, richtig? Ich kann es sogar herunterladen,
indem ich auf den
PNG-Download-Button Und Sie werden sehen, dass
ich dazu in der Lage bin. Nun, wie funktioniert die Berechnung für die
serielle Korrelation von Punkt B? Wenn Sie den Punkt
durch serielle Korrelation berechnen, wählen Sie eine metrische Variable und eine nominale Variable
mit zwei Werten. Bevor ich darauf eingehe, möchte ich
eine Zusammenfassung in Worten zusammenfassen. Die serielle
Korrelation nach Punkt B wurde durchgeführt, um den
Zusammenhang zwischen
unseren Studien und den Testergebnissen zu
bestimmen . Es besteht eine positive Korrelation zwischen unserer Studie
und dem Testergebnis, die nicht signifikant und
statistisch signifikant war, da der p-Wert größer als 0,05
ist Wenn ich mehr Daten wie diesen hätte, bei denen ich
mehrere Werte verwende, um Männer und
Frauen gleich Null und Eins zu bestimmen, und dann hätte es berechnet Es heißt also, gibt es einen Zusammenhang zwischen dem
Gehalt und dem Geschlecht? Und wir können sehr
deutlich sehen, dass ja, Männer
im Vergleich zu Frauen ein
deutlich höheres Gehalt haben . Wenn Sie jedoch den p-Wert sehen, er sehr nahe bei 0,05, aber er liegt bei 0,07 Wir können
die Nullhypothese also nicht zurückweisen und
sagen, dass dies möglicherweise auf den Ding-Fehler
der Stichprobe zurückzuführen ist . O
38. Logistische Regression: Willkommen zur nächsten Lektion über logistische
Regression. Lassen Sie uns
das Theoriebeispiel verstehen und wie wir es interpretieren Wann verwenden wir
logistische Vorschriften? Nehmen wir ein Beispiel. Wo auch immer wir
überprüfen müssen, ob es
ein alter Mensch ist , der an Krebs erkranken
wird, oder ob es ein Mann oder eine Frau ist, der
stärker erkrankt? Ist es ein Raucher, der die Krankheit
verursacht? Wenn ich nach mehreren Variablen
suchen möchte, die mich infizieren können
, und mir sagen ob die Krankheit möglich ist, wie
hoch ist dann die Wahrscheinlichkeit
, an einer Krankheit zu Lassen Sie uns also tiefer eintauchen. Was genau ist Regression? Eine Regressionsanalyse
ist eine Methode zur
Modellierung von Beziehungen
zwischen Variablen Sie ermöglicht es, auf der
Grundlage
einer oder mehrerer anderer Variablen auf eine Variable zu schließen oder vorherzusagen ,
ob
der Kunde glücklich oder traurig
ist ,
ob
der Kunde glücklich oder Ich versuche also
anhand der
Qualifikation der Person, der dafür benötigten Zeit oder des Alters zu überprüfen,
ob dies möglich anhand der
Qualifikation der Person, der dafür benötigten Zeit oder des Alters zu überprüfen, ob dies Welcher
Faktor beeinflusst es? Die Variable, die
wir ableiten oder
vorhersagen möchten, wird
als abhängige Variable
oder Kriterium bezeichnet ,
und die Variablen, die wir für
die
Vorhersage verwenden , werden als
unabhängige Variablen
oder Prädiktoren bezeichnet unabhängige Variablen
oder Prädiktoren Was ist der Unterschied zwischen linearer Regression und
logistischer Regulation Bei einer linearen Regelung
ist
die abhängige Variable eine metrische Beispiel: Gehalt, Strom,
Verbrauch usw. Das bedeutet, dass es sich um eine
kontinuierliche Variable handelt. In einer logistischen Regression ist
die abhängige Variable
eine dichotonme Was ist eine dichotonyme Variable? Das bedeutet, dass die Variable nur zwei Werte
hat. Zum Beispiel, ob
eine Person ein
bestimmtes Produkt
kaufen wird oder nicht, oder ob eine Krankheit
vorliegt oder nicht. Wie können logistische
Vorschriften genutzt werden? Mit Hilfe der
logistischen Regulierung können
wir feststellen, was
einen Einfluss darauf hat , ob eine bestimmte Krankheit
vorliegt oder Wir könnten den
Einfluss von Alter,
Geschlecht und Raucherstatus auf
diese bestimmte Krankheit untersuchen ,
Geschlecht und Raucherstatus auf
diese bestimmte Krankheit In diesem Fall steht Null für „ nicht erkrankt“ und „Eins“ für
„erkrankt Die Wahrscheinlichkeit des
Auftretens einer Krankheit oder eines Merkmals ist eins bedeutet, dass das Merkmal vorhanden
ist Unsere Datenbasis sah
ungefähr so aus, wobei meine unabhängigen
Variablen
ein geschlechtsspezifischer Raucherstatus sein könnten , und meine abhängige
Variable könnte
eine Variable sein , die sich aus Nullen und Einsen
zusammensetzt. Wir könnten nun untersuchen welchen Einfluss die
unabhängige Variable hat
und wie sich die Krankheit auf
die Krankheit auswirkt Wenn es einen Einfluss gibt, können
wir vorhersagen, wie wahrscheinlich es ist, dass eine Person an
einer bestimmten Krankheit leidet. Jetzt stellt sich natürlich die
Frage. Warum brauchen wir in diesem Fall eine logistische
Regulierung? Warum funktioniert die lineare
Erholung nicht? Lassen Sie uns also kurz zusammenfassen,
was bei der linearen Regression passiert ist Lassen Sie uns kurz zusammenfassen,
was lineare Regulierung ist. In der linearen Regression ist
dies unsere Regressionsgleichung Y geht zu b1x1 plus
b2x2 plus b3x3 und so weiter und so fort. B und xn plus c. Wir haben
die abhängige Variable y
und wir haben unabhängige
Variablen wie
x eins, und wir haben unabhängige
Variablen wie
x eins x 2x3tx neun. Und wir haben die
Regressionskosion, b eins,
b2b Bn . Wenn Sie
sich nun jedoch diese Variable ansehen, wird
die abhängige Variable mit Null oder Eins
erstellt Und daher wird Ihre Ausgabe ungefähr so
aussehen. Sie haben viele Punkte auf der Nulllinie und viele
Punkte auf der einen Linie, aber Sie haben
keine Daten dazwischen. Unabhängig davon, wie viel
Wert Sie haben, kann
die unabhängige Variable dazu beitragen, dass
die Variable einen Wert von 0-1 Die Ergebnisse sind
immer Null oder Eins. In einer Regressionsgleichung müssen
wir einfach eine
gerade Linie durch
die Punkte ziehen und wir sehen, dass
es viele Fehler gibt Wir können jetzt sehen, dass bei
einer linearen Regression Werte zwischen plus und
minus unendlich auftreten können Und daher funktioniert diese Formel nicht.
Was ist die Lösung? Ziel
der logistischen Regression
ist es jedoch , die
Eintrittswahrscheinlichkeit abzuschätzen Der Wertebereich der Vorhersage
sollte daher zwischen 0 und 1 liegen. Und deshalb wollen wir eine
Linie, die auf
diese Linie passt , und keine
Diagonale wie diese Wir brauchen also eine Funktion
, die nur Werte dazwischen akzeptiert, was zu
einem Wert von Null und Eins führt. Genau das macht die
logistische Funktion. Egal, wo Sie
sich auf der X-Achse befinden, Sie werden sich befinden, Ihre Y-Achse wird entweder Null oder Eins ergeben Zwischen dem Minus und
dem Plus Unendlich liegen
die einzigen Ergebnisse bei 0-1 Und genau das wollen wir. Die Gleichung der
logistischen Abrechnung wird ungefähr so aussehen Die logistische Funktion wird jetzt in der logistischen Erholung verwendet Lassen Sie uns also
die lineare
Erholungsformel noch einmal aufschlüsseln die lineare
Erholungsformel noch einmal Eins plus y ergibt b1x1 plus
b2x2 plus t b x und so weiter. Diese Gleichung wird nun in die Funktion eingefügt. Wenn Sie das tun, ist
es die Potenz von e minus Ihrer größten linearen
Erholungsgleichung, 1/1 plus e mit der Potenz
der Minus-Gleichung Somit
ist die Wahrscheinlichkeit