Nachdem ich einen Statistikkurs besucht und dann versucht hatte, Kommilitonen zu helfen, bemerkte ich, dass ein Thema, das viel Aufsehen erregt, darin besteht, die Ergebnisse statistischer Hypothesentests zu interpretieren . Es scheint, dass die Schüler leicht lernen, wie man die für einen bestimmten Test erforderlichen Berechnungen durchführt, sich aber auf die Interpretation der Ergebnisse einlassen. Viele computergestützte Tools geben Testergebnisse in Form von „p-Werten“ oder „t-Werten“ an.
Wie würden Sie College-Studenten, die ihren ersten Kurs in Statistik belegen, die folgenden Punkte erklären:
-
Was bedeutet ein „p-Wert“ in Bezug auf die getestete Hypothese? Gibt es Fälle, in denen nach einem hohen p-Wert oder einem niedrigen p-Wert gesucht werden sollte?
-
Welche Beziehung besteht zwischen einem p-Wert und einem t-Wert?
Kommentare
- Ein gutes Stück davon wird im Wesentlichen im ersten Satz des Wikipedia-Artikels über p-Werte , wodurch ein p-Wert korrekt definiert wird. Wenn das ‚ verstanden ist, wird vieles klargestellt.
- Holen Sie sich einfach das Buch: Statistik ohne Tränen. Es könnte Ihre geistige Gesundheit retten !!
- @ user48700 Können Sie zusammenfassen, wie Statistik ohne Tränen dies erklärt?
- Jemand sollte ein Diagramm mit Bezug zum p-Wert zeichnen Fragen im Laufe der Zeit und ich wette, wir ‚ werden die Saisonalität und Korrelation zu akademischen Kalendern in Colleges oder Coursera Data Science-Klassen sehen
- Zusätzlich zu anderen schönen und relevanten Büchern Empfehlungen in den Antworten und Kommentaren möchte ich ein anderes Buch vorschlagen, das angemessen “ heißt. Was ist überhaupt ein p-Wert? “ .
Antwort
$ p $ -Wert
Angenommen, Sie möchten die Hypothese testen, dass die durchschnittliche Größe männlicher Studenten an Ihrer Universität $ 5 $ ft $ 7 $ Zoll. Sie sammeln Höhen von $ 100 $ Schülern, die zufällig ausgewählt wurden, und berechnen den Stichprobenmittelwert (sagen wir, es stellt sich heraus, dass es sich um $ 5 $ handelt) span> ft $ 9 $ Zoll). Mit einer geeigneten Formel / statistischen Routine berechnen Sie den $ p $ -Wert für Ihre Hypothese und sagen, es stellt sich heraus, dass es sich um $ 0.06 handelt $ .
Um $ p = 0,06 $ angemessen zu interpretieren, sollten wir verschiedene Dinge beachten:
-
Der erste Schritt beim klassischen Hypothesentest ist die Annahme, dass die betrachtete Hypothese wahr ist. (In unserem Kontext nehmen wir an, dass die durchschnittliche Höhe von true $ 5 $
ft $ 7 $ Zoll.) -
Stellen Sie sich folgende Berechnung vor: Berechnen Sie die Wahrscheinlichkeit, dass die Stichprobe bedeutet ist größer als $ 5 $ ft $ 9 $ Zoll unter der Annahme, dass unsere Hypothese tatsächlich korrekt ist (siehe Punkt 1) .
Mit anderen Worten, wir möchten wissen, $$ \ mathrm {P} (\ mathrm {Sample \: mean}) \ ge 5 \: \ mathrm {ft} \: 9 \: \ mathrm {inch} \: | \: \ mathrm {True \: value} = 5 \: \ mathrm {ft} \: 7 \: \ mathrm { Zoll}). $$
Die Berechnung in Schritt 2 wird als $ p $ -Wert bezeichnet. Daher würde ein $ p $ -Wert von $ 0.06 $ bedeuten, dass wir unser Experiment viele wiederholen würden viele Male (jedes Mal, wenn wir zufällig $ 100 $ -Studenten auswählen und den Stichprobenmittelwert berechnen), dann $ 6 $ Zeiten außerhalb von $ 100 $ können wir erwarten, dass ein Stichprobenmittelwert größer oder gleich $ 5 $ ft
Sollten wir angesichts des obigen Verständnisses weiterhin davon ausgehen, dass unsere Hypothese wahr ist (siehe Schritt 1)? Nun, ein $ p = 0.06 $ zeigt an, dass eines von zwei Dingen passiert ist:
- (A) Entweder ist unsere Hypothese richtig und Es ist ein äußerst unwahrscheinliches Ereignis aufgetreten (z. B. sind alle $ 100 $ -Schüler studentische Athleten)
oder
- (B) Unsere Annahme ist falsch und die Stichprobe, die wir erhalten haben, ist nicht so ungewöhnlich.
Die traditionelle Art, zwischen (A) und (B) zu wählen, besteht darin, eine beliebige zu wählen Cut-Off für $ p $ . Wir wählen (A), wenn $ p > 0.05 $ und (B) wenn $ p < 0,05 $ .
Kommentare
- Nehmen Sie sich Zeit! Ich werde ‚ nicht daran denken, eine “ Beste Antwort “ für eine Woche oder auszuwählen Also.
- Jetzt, da ich ‚ die Gelegenheit hatte, zurück zu kommen und die ganze Antwort zu lesen – eine große +1 für das Beispiel der Schülergröße. Sehr klar und übersichtlich.
- Gute Arbeit … aber wir müssen hinzufügen (C), dass unser Modell (in der Formel / statistischen Routine enthalten) falsch ist.
- A t -Wert (oder eine andere Teststatistik) ist meist ein Zwischenschritt. ‚ ist im Grunde eine Statistik, die unter bestimmten Voraussetzungen eine bekannte Verteilung aufweist. Da wir die Verteilung der Teststatistik unter Null kennen, können wir Standardtabellen (heute meistens Software) verwenden, um einen p-Wert abzuleiten.
- Isn ‚ t der p-Wert, der als Ergebnis des Chi-Quadrat-Tests und dann aus der Chi-Quadrat-Tabelle abgeleitet wurde? Ich frage mich, warum die oben berechnete Wahrscheinlichkeit den p-Wert selbst anzeigt?!
Antwort
Ein Dialog zwischen ein Lehrer und ein nachdenklicher Schüler
Demütig in der Überzeugung eingereicht, dass in diesem Thread bisher nicht genügend Buntstifte verwendet wurden. Am Ende erscheint eine kurze illustrierte Zusammenfassung.
Student : Was bedeutet ein p-Wert? Viele Leute scheinen zuzustimmen, dass es die Chance ist, dass wir “ einen Stichprobenmittelwert sehen, der größer oder gleich “ eine Statistik oder es ist “ die Wahrscheinlichkeit, dieses Ergebnis zu beobachten. .. vorausgesetzt, die Nullhypothese ist wahr “ oder wobei “ Die Statistik meiner Stichprobe fiel auf [eine simulierte] Verteilung “ und sogar auf “ Die Wahrscheinlichkeit, eine Teststatistik zu beobachten, die mindestens so groß ist wie die unter der Annahme der Nullhypothese berechnete, ist wahr. “ .
Lehrer : Richtig verstanden, sind alle diese Aussagen unter vielen Umständen korrekt.
Schüler : Ich sehe nicht, wie die meisten von ihnen relevant sind. Haben Sie uns nicht beigebracht, dass wir eine Nullhypothese $ H_0 $ und eine alternative Hypothese $ H_A $ angeben müssen? Wie sind sie an diesen Ideen von “ größer oder gleich “ oder “ mindestens so groß “ oder das sehr beliebte “ extremere „?
Lehrer : Da es im Allgemeinen kompliziert erscheinen kann, würde es uns helfen, ein konkretes Beispiel zu untersuchen?
Schüler : Sicher. Aber machen Sie es bitte realistisch, aber einfach, wenn Sie können.
Lehrer : Diese Theorie des Hypothesentests begann historisch mit der Notwendigkeit von Astronomen, Beobachtungsfehler zu analysieren Wie wäre es, wenn ich dort anfangen würde? Eines Tages habe ich einige alte Dokumente durchgesehen, in denen ein Wissenschaftler seine Bemühungen zur Reduzierung des Messfehlers in seinem Gerät beschrieb. Er hatte viel gemessen Rements eines Sterns in einer bekannten Position und zeichneten ihre Verschiebungen vor oder hinter dieser Position auf. Um diese Verschiebungen zu visualisieren, zeichnete er ein Histogramm, das – wenn es ein wenig geglättet wurde – so aussah.
Student : Ich erinnere mich, wie Histogramme funktionieren: Die vertikale Achse ist mit “ Dichte “ gekennzeichnet um mich daran zu erinnern, dass die relativen Häufigkeiten der Messungen eher durch Fläche als durch Höhe dargestellt werden.
Lehrer : Das ist richtig. Eine “ ungewöhnlicher “ oder “ extremer “ Wert würde in einer Region mit ziemlich kleiner Fläche liegen. Hier „sa crayon. Denken Sie, Sie könnten in einer Region färben, deren Fläche nur ein Zehntel der Gesamtfläche beträgt?
Student : Sicher; das ist einfach. [Farben in der Abbildung.]
Lehrer : Sehr gut! Das sieht für mich nach ungefähr 10% der Fläche aus. Denken Sie jedoch daran, dass die einzigen Bereiche im Histogramm, die wichtig sind, die zwischen vertikalen Linien sind: Sie repräsentieren die Chance oder Wahrscheinlichkeit , dass sich die Verschiebung zwischen diesen Linien auf der horizontalen Achse befindet. Das bedeutet, dass Sie ganz nach unten färben müssen und dass dies mehr als die Hälfte der Fläche ist „t it?
Student : Oh, ich verstehe. Lass mich es nochmal versuchen. Ich werde dort einfärben wollen, wo die Kurve wirklich niedrig ist, nicht wahr? Es ist an den beiden Enden am niedrigsten.Muss ich nur in einem Bereich färben oder ist es in Ordnung, ihn in mehrere Teile aufzuteilen?
Lehrer : Die Verwendung mehrerer Teile ist eine kluge Idee. Wo wären sie?
Student (zeigt): Hier und hier. Da dieser Wachsmalstift nicht sehr scharf ist, habe ich Ihnen mit einem Stift die Linien gezeigt, die ich verwende.
Lehrer : Sehr nett! Lassen Sie mich Ihnen den Rest der Geschichte erzählen. Der Wissenschaftler nahm einige Verbesserungen an seinem Gerät vor und nahm dann zusätzliche Messungen vor. Er schrieb, dass die Verschiebung des ersten nur $ 0.1 $ war, was er für ein gutes Zeichen hielt, aber als vorsichtiger Wissenschaftler nahm er weitere Messungen zur Kontrolle vor . Leider gehen diese anderen Messungen verloren – das Manuskript bricht an dieser Stelle ab – und wir haben nur diese einzelne Zahl, $ 0.1 $ .
Schüler : Das ist schade. Aber ist das nicht viel besser als die große Verbreitung von Verschiebungen in Ihrer Figur?
Lehrer : Das „ist die Frage, die Sie beantworten sollen. Was sollten wir zunächst als $ H_0 $ setzen?
Student : Nun, ein Skeptiker würde sich fragen, ob die am Gerät vorgenommenen Verbesserungen überhaupt Auswirkungen hatten. Die Beweislast liegt beim Wissenschaftler: Er möchte zeigen, dass der Skeptiker falsch liegt. Das lässt mich an die Nullhypothese denken ist irgendwie schlecht für den Wissenschaftler: Es heißt, dass sich alle neuen Messungen – einschließlich des Wertes von $ 0.1 $ , über den wir wissen – wie im ersten beschrieben verhalten sollten Histogramm. Oder vielleicht sogar noch schlimmer: Sie sind möglicherweise noch weiter verbreitet.
Lehrer : G. o on, es geht dir gut.
Student : Die Alternative ist also, dass die neuen Messungen weniger verteilt sind, oder?
Lehrer : Sehr gut! Könnten Sie mir ein Bild davon zeichnen, wie ein Histogramm mit weniger Streuung aussehen würde? Hier ist eine weitere Kopie des ersten Histogramms. Sie können darüber als Referenz zeichnen.
Student (Zeichnung): Ich verwende einen Stift, um das neue zu skizzieren Histogramm und ich färbe in dem Bereich darunter. Ich habe es so gemacht, dass der größte Teil der Kurve auf der horizontalen Achse nahe Null ist und der größte Teil ihrer Fläche nahe einem (horizontalen) Wert von Null liegt: das ist es bedeutet, weniger verteilt oder genauer zu sein.
Lehrer : Das ist ein guter Anfang. Denken Sie jedoch daran, dass ein Histogramm mit Chancen eine Gesamtfläche von $ 1 $ haben sollte. Die Gesamtfläche des ersten Histogramms Daher ist $ 1 $ . Wie viel Fläche befindet sich in Ihrem neuen Histogramm?
Student : Weniger als die Hälfte, denke ich Ich sehe das als Problem, aber ich weiß nicht, wie ich es beheben soll. Was soll ich tun?
Lehrer : Der Trick besteht darin, das neue Histogramm
Schüler : Ich verstehe: Sie haben es vertikal gestreckt, damit sich seine Form nicht wirklich geändert hat, aber jetzt sind der rote Bereich und der graue Bereich (einschließlich des Teils unter dem roten) gleich groß.
Lehrer : Richtig. Sie sehen ein Bild der Nullhypothese (in blau, verteilt) und Teil der alternativen Hypothese (in rot, mit geringerer Streuung).
Student : Was meinst du mit “ Teil “ der Alternative? Ist es nicht nur die alternative Hypothese?
Lehrer : Statistiker und Grammatik scheinen sich nicht zu vermischen. 🙂 Im Ernst, was sie unter einer “ Hypothese “ verstehen, ist normalerweise eine ganze Reihe von Möglichkeiten. Hier besteht die Alternative (wie Sie bereits erwähnt haben) darin, dass die Messungen “ weniger verteilt “ sind als zuvor. Aber wie viel weniger ? Es gibt viele Möglichkeiten. Hier, lass mich dir noch einen zeigen. Ich habe es mit gelben Strichen gezeichnet. Es liegt zwischen den beiden vorherigen.
Student : Ich verstehe: Sie können unterschiedliche Mengen an Spread haben, aber Sie wissen nicht im Voraus, wie viel der Spread wirklich sein wird. Aber warum haben Sie die lustige Schattierung in diesem Bild vorgenommen?
Lehrer : Ich wollte hervorheben, wo und wie sich die Histogramme unterscheiden. Ich habe sie grau schattiert, wenn die alternativen Histogramme niedriger als die Null sind, und rot, wenn die Alternativen höher sind.
Student : Warum sollte das wichtig sein?
Lehrer : Erinnerst du dich, wie du das erste Histogramm in beiden Schwänzen gefärbt hast? Ah, hier ist es.Lassen Sie uns dieses Bild auf die gleiche Weise färben.
Schüler : Ich erinnere mich: Das sind die Extremwerte. Ich habe die Stellen gefunden, an denen die Nulldichte so klein wie möglich war und in 10% der Fläche dort gefärbt war.
Lehrer : Erzählen Sie mir von den Alternativen in diesen extremen Bereichen.
Student : Es ist schwer zu sehen, weil der Wachsmalstift es verdeckt hat, aber es sieht so aus. Es gibt fast keine Chance, dass sich eine Alternative in den von mir gefärbten Bereichen befindet. Ihre Histogramme befinden sich direkt an der Werteachse und es gibt keinen Platz für einen Bereich darunter.
Lehrer : Lassen Sie uns diesen Gedanken fortsetzen. Wenn ich Ihnen hypothetisch sagen würde, dass eine Messung eine Verschiebung von $ – 2 $ hat, und Sie bitten, welche dieser drei auszuwählen Histogramme waren die, von denen es höchstwahrscheinlich stammte. Welches wäre es?
Student : Das erste – das blaue. Es ist das am weitesten verbreitete Und es ist das einzige, bei dem $ – 2 $ eine Chance zu haben scheint.
Lehrer : Und was ist mit dem Wert von $ 0.1 $ im Manuskript?
Student : Hmmm … das ist anders Geschichte. Alle drei Histogramme befinden sich bei $ 0.1 $ ziemlich hoch über dem Boden.
Lehrer : OK, fair genug. Angenommen, ich habe Ihnen gesagt, dass der Wert irgendwo in der Nähe von $ 0.1 $ liegt, beispielsweise zwischen $ 0 $ und $ 0.2 $ . Hilft Ihnen das, einige Wahrscheinlichkeiten aus diesen Diagrammen abzulesen?
Student : Sicher, weil ich Bereiche verwenden kann. Ich muss nur die Bereiche unter jeder Kurve zwischen $ 0 $ und $ 0,2 $ schätzen. Aber das sieht ziemlich schwierig aus.
Lehrer : Sie müssen nicht so weit gehen. Können Sie einfach sagen, welcher Bereich der größte ist?
Student : Der unter der höchsten Kurve natürlich. Alle drei Bereiche haben dieselbe Basis. Je höher die Kurve, desto mehr Bereich befindet sich darunter und auf der Basis. Das bedeutet das höchste Histogramm. Die, die ich mit den roten Strichen gezeichnet habe, ist die wahrscheinlichste für eine Verschiebung von $ 0.1 $ . Ich glaube, ich sehe, wohin Sie damit gehen, aber ich „ma wenig besorgt: muss ich mir nicht alle Histogramme für alle Alternativen ansehen, nicht nur die hier gezeigten? Wie könnte ich das möglicherweise tun?
Lehrer : Sie sind gut darin, Muster aufzunehmen, also sagen Sie mir: Wenn das Messgerät immer präziser gemacht wird, was passiert dann? sein Histogramm?
Student : Es wird schmaler – oh, und es muss auch größer werden, damit seine Gesamtfläche gleich bleibt. Das macht es ziemlich schwer zu vergleichen die Histogramme. Die alternativen sind alle höher als die Null rechts bei $ 0 $ , das ist offensichtlich. Aber bei anderen Werten sind die Alternativen manchmal höher und manchmal niedriger! Beispiel: [zeigt auf einen Wert in der Nähe von $ 3/4 $ ], hier ist mein rotes Histogramm das niedrigste, das gelbe Histogramm das am höchsten, und das ursprüngliche Nullhistogramm befindet sich zwischen ihnen. Aber rechts ist die Null die höchste.
Lehrer : Im Allgemeinen ist das Vergleichen von Histogrammen ein kompliziertes Geschäft. Um uns dabei zu helfen, habe ich den Computer gebeten, ein anderes Diagramm zu erstellen: Er hat jede der alternativen Histogrammhöhen (oder “ Dichten iv id geteilt = „fc4eb26749“>
) durch die Höhe des Nullhistogramms, wodurch Werte erstellt werden, die als “ Wahrscheinlichkeitsverhältnisse bekannt sind. “ Als Ergebnis Ein Wert größer als $ 1 $ bedeutet, dass die Alternative wahrscheinlicher ist, während ein Wert kleiner als $ 1 $ bedeutet Die Alternative ist weniger wahrscheinlich. Es hat noch eine weitere Alternative gezeichnet: Es ist weiter verteilt als die beiden anderen, aber immer noch weniger verteilt als das ursprüngliche Gerät.
Lehrer (Fortsetzung): Können Sie mir zeigen, wo die Alternativen wahrscheinlicher sind als die Null?
Schüler (Färbung): Hier in der Mitte natürlich. Und da dies keine Histogramme mehr sind, sollten wir wohl eher Höhen als Flächen betrachten, also markiere ich nur einen Wertebereich auf der horizontalen Achse. Aber woher weiß ich, wie viel von der Mitte eingefärbt werden muss? Wo höre ich auf zu färben?
Lehrer : Es gibt keine feste Regel. Es hängt alles davon ab, wie wir unsere Schlussfolgerungen verwenden wollen und wie heftig die Skeptiker sind.Aber lehnen Sie sich zurück und denken Sie darüber nach, was Sie erreicht haben: Sie erkennen jetzt, dass Ergebnisse mit großen Wahrscheinlichkeitsverhältnissen für die Alternative und Ergebnisse mit kleinen Wahrscheinlichkeitsverhältnissen für die Alternative sind . Ich werde Sie bitten, in einem Bereich zu färben, der, soweit möglich, eine geringe Chance hat, unter der Nullhypothese aufzutreten, und eine relativ große Chance, unter den Alternativen aufzutreten. Zurück zum ersten Diagramm, das Sie vor Beginn unseres Gesprächs gefärbt haben, haben Sie die beiden Schwänze der Null eingefärbt, weil sie “ extrem waren. “ Würden sie immer noch gute Arbeit leisten?
Student : Das glaube ich nicht. Auch wenn sie unter der Nullhypothese ziemlich extrem und selten waren, Sie sind für keine der Alternativen praktisch unmöglich. Wenn meine neue Messung beispielsweise $ 3.0 $ wäre, würde ich mich auf die Seite des Skeptikers stellen und leugnen, dass eine Verbesserung eingetreten ist. obwohl $ 3.0 $ auf jeden Fall ein ungewöhnliches Ergebnis war. Ich möchte diese Farbe ändern. Hier – lassen Sie mich einen weiteren Wachsmalstift haben.
Lehrer : Was bedeutet das?
Schüler : Wir haben damit begonnen, dass Sie mich gebeten haben, nur 10% der Fläche unter dem ursprünglichen Histogramm zu zeichnen – dasjenige, das die Null beschreibt. Also jetzt Ich habe 10% des Bereichs eingezeichnet, in dem die Alternativen eher auftreten. Ich denke, wenn sich eine neue Messung in diesem Bereich befindet, sollten wir an die Alternative glauben.
Lehrer : Und wie sollte der Skeptiker darauf reagieren?
Student : Ein Skeptiker muss niemals zugeben, dass er falsch liegt, oder? Aber ich denke, sein Glaube sollte ein wenig erschüttert sein. Immerhin haben wir es so angeordnet, dass eine Messung zwar innerhalb des Bereichs liegt, den ich gerade gezeichnet habe, aber nur eine 10% ige Chance hat, dort zu sein, wenn die Null wahr ist. Und es hat eine größere Chance, dort zu sein, wenn die Alternative wahr ist. Ich kann Ihnen nur nicht sagen, wie viel größer diese Chance ist, weil es davon abhängen würde, wie sehr der Wissenschaftler den Apparat verbessert hat. Ich weiß nur, dass er größer ist. Die Beweise wären also gegen den Skeptiker.
Lehrer : In Ordnung. Würde es Ihnen etwas ausmachen, Ihr Verständnis zusammenzufassen, damit uns klar ist, was Sie gelernt haben?
Student : Ich habe gelernt, dass wir ihre Hypothesen vergleichen sollten, um alternative Hypothesen mit Nullhypothesen zu vergleichen Histogramme. Wir teilen die Dichte der Alternativen durch die Dichte der Null: Das haben Sie als “ Wahrscheinlichkeitsverhältnis bezeichnet. “ Um einen guten Test zu machen, sollte ich eine kleine Zahl wie 10% oder was auch immer wählen, um einen Skeptiker zu erschüttern. Dann sollte ich Werte finden, bei denen das Wahrscheinlichkeitsverhältnis so hoch wie möglich ist, und sie einfärben, bis 10% (oder was auch immer) gefärbt wurden.
Lehrer : Und wie würden Sie sie verwenden? diese Färbung?
Student : Wie Sie mich früher erinnert haben, muss die Färbung zwischen vertikalen Linien liegen. Werte (auf der horizontalen Achse), die unter der Färbung liegen, sprechen gegen die Nullhypothese. Andere Werte – nun, es ist schwer zu sagen, was sie bedeuten könnten, ohne alle beteiligten Histogramme genauer zu betrachten.
Lehrer : Zurück zum Wert von $ 0.1 $ im Manuskript, was würden Sie daraus schließen?
Student : Das liegt in dem Bereich, den ich zuletzt gefärbt habe Ich denke, der Wissenschaftler hatte wahrscheinlich Recht und der Apparat wurde wirklich verbessert.
Lehrer : Eine letzte Sache. Ihre Schlussfolgerung basierte auf der Auswahl von 10% als Kriterium oder “ Größe “ des Tests. Viele Leute verwenden stattdessen gerne 5%. Einige bevorzugen 1%. Was könnten Sie ihnen sagen?
Student : Ich konnte nicht alle diese Tests auf einmal durchführen! Nun, vielleicht könnte ich es in gewisser Weise. Ich kann das sehen, egal welche Größe Der Test sollte sein, ich sollte mit dem Färben von $ 0 $ beginnen, was in diesem Sinne die “ extremste “ Wert und arbeite von dort aus in beide Richtungen nach außen. Wenn ich direkt bei $ 0.1 $ anhalten würde – dem tatsächlich beobachteten Wert – Ich glaube, ich hätte in einem Bereich zwischen $ 0.05 $ und $ 0.1 $ gefärbt, sagen wir $ 0.08 $ . Die 5% und 1% Leute konnten sofort erkennen, dass ich zu viel gefärbt habe: Wenn sie nur 5% oder 1% färben wollten, konnten sie, aber sie wollten nicht „Nicht so weit raus wie $ 0.1 $ . Sie würden nicht zu dem gleichen Schluss kommen wie ich: Sie würden sagen, dass es nicht genügend Beweise dafür gibt, dass tatsächlich eine Änderung stattgefunden hat.
Lehrer : Sie haben mir gerade gesagt, was alles Diese Zitate am Anfang bedeuten wirklich .Aus diesem Beispiel sollte ersichtlich sein, dass sie möglicherweise nicht beabsichtigen können, “ extremer “ oder “ größer oder gleich “ oder “ mindestens so groß “ im Sinne von einen größeren Wert haben oder sogar einen Wert haben, bei dem die Nulldichte klein ist. Sie bedeuten diese Dinge wirklich im Sinne von großen Wahrscheinlichkeitsverhältnissen , die Sie beschrieben haben. Die von Ihnen berechnete Zahl um $ 0.08 $ wird übrigens als “ p-Wert bezeichnet. “ Es kann nur so richtig verstanden werden, wie Sie es beschrieben haben: in Bezug auf eine Analyse der relativen Histogrammhöhen – der Wahrscheinlichkeitsverhältnisse.
Student : Danke. Ich bin nicht sicher, ob ich das alles noch vollständig verstehe, aber Sie haben mir viel zu denken gegeben.
Lehrer : Wenn Sie noch weiter gehen möchten, nehmen Sie eine Schauen Sie sich das Neyman-Pearson Lemma an. Sie sind wahrscheinlich jetzt bereit, es zu verstehen.
Synopsis
Viele Tests, die auf einer einzelnen Statistik wie der im Dialogfeld basieren, nennen sie “ $ z $ “ oder “ $ t $ „. Dies sind Möglichkeiten, um anzudeuten, wie das Nullhistogramm aussieht, aber es sind nur Hinweise: Was wir diese Zahl nennen, spielt keine Rolle. Die vom Schüler zusammengefasste Konstruktion, wie hier dargestellt, zeigt, wie sie mit dem p-Wert zusammenhängt. Der p-Wert ist die kleinste Testgröße, die dazu führen würde, dass eine Beobachtung von $ t = 0,1 $ zu einer Ablehnung der Nullhypothese führt.
In dieser Abbildung, die zur Darstellung von Details gezoomt wird, ist die Nullhypothese eingezeichnet Durchgehend blau und zwei typische Alternativen sind mit gestrichelten Linien dargestellt. Der Bereich, in dem diese Alternativen tendenziell viel größer als die Null sind, ist schattiert. Die Schattierung beginnt dort, wo die relativen Wahrscheinlichkeiten der Alternativen am größten sind (bei $ 0 $ ). Die Schattierung stoppt, wenn die Beobachtung $ t = 0.1 $ erreicht ist. Der p-Wert ist die Fläche des schattierten Bereichs unter dem Nullhistogramm: Es ist die Chance, unter der Annahme, dass die Null wahr ist, ein Ergebnis zu beobachten, dessen Wahrscheinlichkeitsverhältnisse tendenziell groß sind, unabhängig davon, welche Alternative wahr ist. Insbesondere hängt diese Konstruktion stark von der alternativen Hypothese ab. Es kann nicht ohne Angabe der möglichen Alternativen durchgeführt werden.
Zwei praktische Beispiele für den hier beschriebenen Test – eines veröffentlicht, das andere hypothetisch – siehe https://stats.stackexchange.com/a/5408/919 .
Kommentare
- Dies hat Ich habe mich hervorragend mit meinem Kommentar zu einer anderen Antwort befasst, dass keine der vorherigen Antworten auf diese Frage im Allgemeinen das häufig gehörte “ oder extremere Aspekt eines p -Werts. (Obwohl die “ Teetest “ Antwort eine gute Antwort enthielt spezifisches Beispiel.) Ich bewundere besonders die Art und Weise, wie dieses Beispiel absichtlich konstruiert wurde, um hervorzuheben, dass “ extremer “ das Gegenteil von bedeuten kann “ größer “ oder “ weiter von Null entfernt „.
- Ich wünschte, Lehrer und Lehrbücher würden ‚ nicht den Ausdruck “ oder extremer „, wirklich. Zwei Varianten, die ich gehört habe, könnten als “ günstiger gegenüber $ H_1 $ “ oder “ überzeugender für $ H_1 $ „. In diesem Fall wären Werte nahe Null zwar überzeugender, dass das Teleskop zuverlässiger geworden ist, aber es erfordert einige sprachliche Akrobatik (plausibel argumentiert, aber möglicherweise verwirrend), um sie als “ zu beschreiben extremer „.
- Wie immer einzigartig aufschlussreich. Vielen Dank, dass Sie sich die Zeit genommen haben, diese unglaublich hilfreichen Antworten aufzuschreiben. Ich frage mich wirklich, warum Lehrbücher niemals so geschrieben werden, dass sie annähernd so klar und intuitiv sind.
- ‚ Es ist gefährlich, Sarkasmus in einem Kommentar zu verwenden , @baxx, weil ‚ nicht genügend Platz vorhanden ist, um dies höflich und elegant zu tun. Daher ist es ‚ normalerweise keine gute Idee anzunehmen, dass ein Kommentar sarkastisch ist, es sei denn, er sagt es Ihnen ausdrücklich.Nehmen Sie einfach an, dass Kommentare Ihnen helfen sollen. Wenn Sie einfach dem allerersten Treffer in der von mir bereitgestellten Suche folgen würden, wären Ihre Fragen wahrscheinlich beantwortet.
- Einfach fantastisch! Vielen Dank an @whuber!
Antwort
Bevor ich dieses Thema anspreche, stelle ich immer sicher, dass die Schüler sind glücklich, zwischen Prozentsätzen, Dezimalstellen, Gewinnchancen und Brüchen zu wechseln. Wenn sie damit nicht ganz zufrieden sind, können sie sehr schnell verwirrt werden.
Ich erkläre Hypothesentests zum ersten Mal (und damit p-Werte und Teststatistiken) durch Fisher. “ s klassisches Tee-Experiment. Ich habe mehrere Gründe dafür:
(i) Ich denke, es ist sinnvoller, ein Experiment durchzuarbeiten und die Begriffe im weiteren Verlauf zu definieren, als zunächst alle diese Begriffe zu definieren. (ii) Sie müssen sich nicht explizit auf Wahrscheinlichkeitsverteilungen, Bereiche unter der Kurve usw. verlassen, um über die wichtigsten Punkte des Hypothesentests hinwegzukommen. (iii) Es erklärt diese lächerliche Vorstellung von „als oder extremer als die beobachteten“ auf ziemlich vernünftige Weise. (iv) Ich finde, dass Schüler die Geschichte, Herkunft und Hintergrundgeschichte ihres Studiums gerne verstehen, da es dadurch realer wird als einige abstrakte Theorien. (v) Es spielt keine Rolle, aus welcher Disziplin oder welchem Fach die Schüler kommen, sie können sich auf das Beispiel Tee beziehen (Hinweis: Einige internationale Schüler haben Schwierigkeiten mit dieser besonders britischen Institution für Tee mit Milch.)
[Anmerkung: Diese Idee stammt ursprünglich aus Dennis Lindleys wundervollem Artikel „Die Analyse experimenteller Daten: Die Wertschätzung von Tee & Wein“, in dem er demonstriert, warum Bayessche Methoden überlegen sind klassische Methoden.]
Die Hintergrundgeschichte ist, dass Muriel Bristol Fisher eines Nachmittags in den 1920er Jahren in der Rothamsted Experimental Station besucht, um eine Tasse Tee zu trinken. Als Fisher die Milch zuletzt einfüllte, beschwerte sie sich, dass sie es könnte Sagen Sie auch, ob die Milch zuerst (oder zuletzt) gegossen wurde und dass sie die erstere bevorzugte. Um dies zu testen, entwarf er sein klassisches Tee-Experiment, bei dem Muriel ein Paar Teetassen präsentiert wird und sie identifizieren muss, welche die Milch hatte zuerst hinzugefügt. Dies wird mit sechs Paar Teetassen wiederholt. Ihr cho Eis ist entweder richtig (R) oder falsch (W) und ihre Ergebnisse sind: RRRRRW.
Angenommen, Muriel rät tatsächlich nur und kann überhaupt nicht unterscheiden. Dies wird als Nullhypothese bezeichnet. Laut Fisher besteht der Zweck des Experiments darin, diese Nullhypothese zu diskreditieren. Wenn Muriel vermutet, wird sie die Teetasse mit einer Wahrscheinlichkeit von 0,5 in jeder Runde korrekt identifizieren und da sie unabhängig sind, hat das beobachtete Ergebnis 0,5 $ ^ 6 $ = 0,016 (oder 1/64). Fisher argumentiert dann, dass entweder:
(a) die Nullhypothese (Muriel vermutet) wahr ist und ein Ereignis mit geringer Wahrscheinlichkeit ist aufgetreten, oder
(b) die Nullhypothese ist falsch und Muriel hat Unterscheidungskraft.
Der p-Wert (oder Wahrscheinlichkeitswert) ist die Wahrscheinlichkeit, dieses Ergebnis (RRRRRW) zu beobachten, vorausgesetzt, die Nullhypothese ist wahr – es ist die kleine Wahrscheinlichkeit, auf die in (a) Bezug genommen wird. In diesem Fall ist es 0,016. Da Ereignisse mit kleinen Wahrscheinlichkeiten nur selten (per Definition) auftreten, ist die Situation (b) möglicherweise eine vorzuziehende Erklärung für das Geschehene als die Situation (a). Wenn wir die Nullhypothese ablehnen, akzeptieren wir tatsächlich die entgegengesetzte Hypothese, die wir als alternative Hypothese bezeichnen. In diesem Beispiel hat Muriel Unterscheidungskraft als alternative Hypothese.
Eine wichtige Überlegung ist, was wir tun Klasse als „kleine“ Wahrscheinlichkeit? Was ist der Grenzwert, an dem wir bereit sind zu sagen, dass ein Ereignis unwahrscheinlich ist? Der Standard-Benchmark beträgt 5% (0,05) und dies wird als Signifikanzniveau bezeichnet. Wenn der p-Wert ist kleiner als das Signifikanzniveau Wir lehnen die Nullhypothese als falsch ab und akzeptieren unsere alternative Hypothese. Es ist allgemein üblich zu behaupten, dass ein Ergebnis „signifikant“ ist, wenn der p-Wert kleiner als das Signifikanzniveau ist, dh wenn die Wahrscheinlichkeit dessen, was wir sind Das beobachtete Auftreten, wenn die Nullhypothese wahr ist, ist kleiner als unser Grenzwert. Es ist wichtig klar zu sein, dass die Verwendung von 5% völlig subjektiv ist (wie auch die Verwendung der anderen üblichen Signifikanzniveaus von 1% und 10%).
isher erkannte, dass dies nicht der Fall ist Arbeit; Jedes mögliche Ergebnis mit einem falschen Paar deutete gleichermaßen auf diskriminierende Kräfte hin. Die relevante Wahrscheinlichkeit für die obige Situation (a) ist daher 6 (0,5) ^ 6 = 0,094 (oder 6/64), was nun nicht signifikant bei einem Signifikanzniveau von 5%. Um dies zu überwinden, argumentierte Fisher, dass, wenn 1 Fehler in 6 als Beweis für diskriminierende Kräfte angesehen wird, dies auch keine Fehler sind, d.h.Ergebnisse, die stärker auf diskriminierende Kräfte hinweisen als die beobachteten, sollten bei der Berechnung des p-Werts berücksichtigt werden. Dies führte zu der folgenden Änderung der Argumentation:
(a) Die Nullhypothese (Muriel vermutet) ist wahr und die Wahrscheinlichkeit von Ereignissen, die extremer oder höher als die beobachteten sind, ist gering oder
(b) Die Nullhypothese ist falsch und Muriel hat Unterscheidungskraft.
Zurück zu unserem Tee-Experiment und wir stellen fest, dass der p-Wert unter dieser Einstellung 7 (0,5) beträgt ) ^ 6 = 0,109, was bei der 5% -Schwelle immer noch nicht signifikant ist.
Ich bringe die Schüler dann dazu, mit einigen anderen Beispielen wie dem Münzwurf zu arbeiten, um herauszufinden, ob eine Münze fair ist oder nicht. Dies führt die Konzepte der Null- / Alternativhypothese, der p-Werte und der Signifikanzniveaus nach Hause. Wir gehen dann zum Fall einer stetigen Variablen über und führen den Begriff einer Teststatistik ein. Da wir bereits die Normalverteilung, die Standardnormalverteilung und die Z-Transformation ausführlich behandelt haben, müssen lediglich mehrere Konzepte zusammengeschraubt werden.
Neben der Berechnung von Teststatistiken, p-Werten und Treffen einer Entscheidung (signifikant / nicht signifikant) Ich bringe die Schüler dazu, veröffentlichte Artikel zu bearbeiten, indem sie das Spiel mit den fehlenden Lücken ausfüllen.
Kommentare
- I. Ich weiß, dass ich ‚ einen sehr alten Thread wiederbelebe, aber hier ist es … Ich habe Ihre Antwort wirklich genossen, aber ich vermisse den t-Wert-Teil darin 🙁 Könnten Sie Bitte verwenden Sie Ihre angegebenen Beispiele, um darüber zu sprechen. Niemand antwortete auf den T-Test-Teil.
- @sosi Es ist wahrscheinlich, weil p-Werte viel mehr sind. ‚ Allgemeiner als t-Werte. ‚ ist wie eine Frage zu Autos und dann zu den Bremsen eines Ford Fiesta zu stellen.
- Die Antwort ist sehr interessant (+ 1), aber am Ende sind einige Dinge miteinander verwechselt. 1. W. Was bedeutet es, dass ein $ p $ -Wert “ auf der 5% -Ebene “ signifikant ist? Entweder liegt der $ p $ -Wert unter 5% oder nicht. Ich sehe ‚ keinen Sinn darin, einen so obskuren Satz zu verwenden, und lasse “ Bedeutung “ undefiniert. 2. Was bedeutet es, “ “ zu entscheiden, ob ein $ p $ -Wert signifikant ist oder nicht? Es erscheint nicht gerechtfertigt, die Entscheidungstheorie auf diese Weise in die Mischung einzubeziehen (zumal Fisher ein starker Gegner der Anwendung des Neyman-Pearson-Testrahmens in den Wissenschaften war).
Antwort
Keine Menge verbaler Erklärungen oder Berechnungen hat mir wirklich geholfen, auf Darmebene zu verstehen, was p-Werte waren, aber Als ich einen Kurs mit Simulation belegte, wurde es für mich wirklich deutlich. Das gab mir die Möglichkeit, die durch die Nullhypothese erzeugten Daten tatsächlich zu sehen und die Mittelwerte / etc. Zu zeichnen. Schauen Sie sich dann an, wo die Statistik meiner Stichprobe auf diese Verteilung gefallen ist.
Ich denke, der Hauptvorteil dabei ist, dass die Schüler die Verteilung der Mathematik- und Teststatistik für eine Minute vergessen können Konzentrieren Sie sich auf die vorliegenden Konzepte. Zugegeben, es war erforderlich, dass ich lernte , um dieses Zeug zu simulieren, was für eine ganz andere Gruppe von Studenten Probleme verursachen wird. Aber es hat bei mir funktioniert, und ich habe es verwendet unzählige Male simulieren, um Statistiken mit großem Erfolg anderen zu erklären (z. B. „So sehen Ihre Daten aus; so sieht eine Poisson-Verteilung überlagert aus. Sind Sie sicher, dass Sie eine Poisson-Regression durchführen möchten?“).
Dies beantwortet die von Ihnen gestellten Fragen nicht genau, hat sie aber zumindest für mich trivial gemacht.
Kommentare
- Ich stimme voll und ganz der Verwendung von Simulationen zu, um dies zu erklären. Aber nur eine kleine Anmerkung zum Beispiel am Ende: Ich finde, dass Menschen (nicht nur Studenten) es di finden Es ist schwierig, für eine bestimmte Verteilungsannahme zu unterscheiden, z. das Poisson, zwischen marginal Poisson verteilt und bedingt Poisson verteilt. Da nur letzteres für ein Regressionsmodell von Bedeutung ist, muss eine Reihe von abhängigen Variablenwerten, die nicht ‚ t poisson sind, nicht unbedingt Anlass zur Sorge geben.
- Ich habe zu gestehen, dass ich das nicht wusste ‚. Ich ‚ habe Ihre Kommentare auf dieser Website in den letzten Tagen Ihrer Mitgliedschaft sehr geschätzt – ich hoffe, Sie ‚ bleiben dabei.
- @MattParker Kennen Sie Lernressourcen, die auf die Verwendung von Simulationen zur Entwicklung von Verständnis ausgerichtet sind? Oder geht es nur darum, einige Python / R-Skripte zusammenzustellen und eine Reihe von Tests durchzuführen?
- @baxx Die [Seeing Theory-Website von Daniel Kunin] (students.brown.edu/seeing-theory/ ) hat einige interessante Tools dafür, aber es ‚ befindet sich noch im Aufbau.Ansonsten habe ich ‚ größtenteils nur mit den integrierten Simulationswerkzeugen von R ‚ experimentiert – um zu beweisen, wie Einige Methoden funktionieren oder um zu sehen, was passieren würde, wenn ein Prädiktor durch eine Zufallsvariable usw. ersetzt würde. Entschuldigung, ich wünschte, ich wüsste bessere Ressourcen dafür!
- @MattParker cool danke. Ja – ein bisschen wie ein Huhn und ein Ei, um die Experimente zu konstruieren, die Sie (nehme ich an?) Zumindest brauchen, um sie zu schreiben. Keine Sorge ….. Ich habe gerade die von Ihnen verlinkte Site überprüft. ‚ ist nett, danke
Antwort
Eine schöne Definition des p-Werts ist „die Wahrscheinlichkeit, eine Teststatistik zu beobachten, die mindestens so groß ist wie die, die unter der Annahme berechnet wurde, dass die Nullhypothese wahr ist“.
Das Problem dabei ist, dass ein Verständnis der „Teststatistik“ und der „Nullhypothese“ erforderlich ist. Aber das ist leicht zu vermitteln. Wenn die Nullhypothese wahr ist, ist normalerweise so etwas wie „Parameter aus Population A gleich Parameter aus Population B“, und Sie berechnen Statistiken, um diese Parameter zu schätzen, wie hoch ist die Wahrscheinlichkeit, a zu sehen Teststatistik, die besagt, dass „sie“ so unterschiedlich sind „?
Wenn die Münze fair ist, wie hoch ist die Wahrscheinlichkeit, dass ich 60 Köpfe von 100 Würfen sehe? Das testet die Nullhypothese , „die Münze ist fair“ oder „p = 0,5“, wobei p die Wahrscheinlichkeit von Köpfen ist.
Die Teststatistik in diesem Fall wäre die Anzahl von Köpfen.
Nun gehe ich davon aus, dass das, was Sie als „t-Wert“ bezeichnen, eine generische „Teststatistik“ ist, kein Wert aus einer „t-Verteilung“ nicht dasselbe, und der Begriff „t-Wert“ ist nicht (notwendigerweise) weit verbreitet und könnte verwirrend sein.
Was Sie „t-Wert“ nennen, ist wahrscheinlich das, was ich nenne „Teststatistik“. Um einen p-Wert zu berechnen (denken Sie daran, es ist nur eine Wahrscheinlichkeit), benötigen Sie eine Verteilung und einen Wert, der in diese Verteilung eingefügt wird und eine Wahrscheinlichkeit zurückgibt. Sobald Sie dies tun, ist die Wahrscheinlichkeit, dass Sie zurückkehren, Ihr p-Wert. Sie können sehen, dass sie zusammenhängen, da unter derselben Verteilung unterschiedliche Teststatistiken unterschiedliche p-Werte zurückgeben. Extremere Teststatistiken geben niedrigere p-Werte zurück, was einen größeren Hinweis darauf gibt, dass die Nullhypothese falsch ist.
Ich habe das Problem der einseitigen und zweiseitigen p-Werte hier ignoriert.
Antwort
Stellen Sie sich vor, Sie haben eine Tüte mit 900 schwarzen und 100 weißen Murmeln, dh 10% der Murmeln sind weiß. Stellen Sie sich nun vor, Sie nehmen 1 Marmor heraus, sehen ihn sich an und zeichnen seine Farbe auf, nehmen einen anderen heraus, zeichnen seine Farbe auf usw. Am Ende dieses Vorgangs haben Sie eine Zahl für weiße Murmeln, die im Idealfall 10, dh 10% von 100, aber tatsächlich 8 oder 13 oder was auch immer sein würde Wenn Sie dieses 100-Marmor-Entnahmeexperiment viele, viele Male wiederholen und dann ein Histogramm der Anzahl der pro Experiment gezeichneten weißen Murmeln zeichnen, werden Sie feststellen, dass Sie eine Glockenkurve haben, die um 10 zentriert ist.
Dies stellt Ihre 10% -Hypothese dar: Bei jedem Beutel mit 1000 Murmeln, von denen 10% weiß sind, finden Sie 10 weiße Murmeln in der Auswahl, geben oder nehmen Sie 4 oder so, wenn Sie zufällig 100 Murmeln herausnehmen. Der p-Wert dreht sich alles um „Geben oder Nehmen 4 oder so“. Nehmen wir an, Sie können anhand der zuvor erstellten Glockenkurve feststellen, dass Sie in weniger als 5% der Fälle 5 oder weniger weiße Murmeln und in 5% der Fälle weitere < erhalten 15 oder mehr weiße Murmeln, dh> 90% der Zeit, in der Ihre 100-Marmor-Auswahl zwischen 6 und 14 weiße Murmeln enthält.
Nehmen wir nun an, jemand stürzt einen Beutel mit 1000 Murmeln mit einer unbekannten Anzahl von weiße Murmeln darin, wir haben die Werkzeuge, um diese Fragen zu beantworten
i) Gibt es weniger als 100 weiße Murmeln?
ii) Gibt es mehr als 100 weiße Murmeln?
iii) Enthält der Beutel 100 weiße Murmeln?
Nehmen Sie einfach 100 Murmeln aus dem Beutel und zählen Sie, wie viele dieser Proben weiß sind.
a) Wenn vorhanden Wenn die Stichprobe 6 bis 14 Weiße enthält, können Sie die Hypothese, dass sich 100 weiße Murmeln im Beutel befinden und die entsprechenden p-Werte für 6 bis 14> 0,05 sind, nicht ablehnen.
b) Wenn 5 vorhanden sind oder weniger Weiß in der Probe können Sie reje ct die Hypothese, dass sich 100 weiße Murmeln im Beutel befinden und die entsprechenden p-Werte für 5 oder weniger < 0,05 sind. Sie würden erwarten, dass der Beutel < 10% weiße Murmeln enthält.
c) Wenn die Stichprobe 15 oder mehr Weiße enthält, können Sie die dortige Hypothese ablehnen sind 100 weiße Murmeln in der Tasche und die entsprechenden p-Werte für 15 oder mehr sind < 0,05. Sie würden erwarten, dass die Tasche> 10% weiße Murmeln enthält.
Als Antwort auf Baltimarks Kommentar
In dem obigen Beispiel gibt es eine ungefähre : –
4.8% Chance, 5 weiße Kugeln oder weniger zu bekommen
1,85% Chance auf 4 oder weniger
0,55% Chance auf 3 oder weniger
0,1% Chance auf 2 oder weniger
6,25% Chance von 15 oder mehr
3,25% Chance von 16 oder mehr
1,5% Chance von 17 oder mehr
0,65% Chance auf 18 oder mehr
0,25% Chance auf 19 oder mehr
0,1% Chance auf 20 oder mehr
0,05% Chance auf 21 oder mehr
Diese Zahlen wurden aus einer empirischen Verteilung geschätzt, die durch eine einfache Monte-Carlo-Routine in R und den resultierenden Quantilen der Stichprobenverteilung erzeugt wurde.
Angenommen, Sie zeichnen 5 weiße Kugeln, um die ursprüngliche Frage zu beantworten. Es besteht nur eine Wahrscheinlichkeit von ca. 4,8%, dass Sie nur 5 herausziehen, wenn der 1000-Marmor-Beutel tatsächlich 10% weiße Kugeln enthält Weiß in einer Stichprobe von 100. Dies entspricht einem ap-Wert < 0,05. Sie müssen jetzt wählen zwischen
i) Es sind wirklich 10% weiße Kugeln in der Tasche und ich hatte einfach „Pech“, so wenige
oder
Kommentare
- Erstens ist dies nur ein großes Beispiel und ‚ erklärt das Konzept von p-Wert und Teststatistik nicht wirklich. Zweitens ‚ behauptet nur, dass Sie die Nullhypothese ablehnen, wenn Sie weniger als 5 oder mehr als 15 weiße Murmeln erhalten. Was ‚ ist Ihre Verteilung, die Sie ‚ berechnet diese Wahrscheinlichkeiten aus? Dies kann mit einem normalen Abstand bei 10 mit einer Standardabweichung von 3 angenähert werden. Ihre Ablehnungskriterien sind bei weitem nicht streng genug.
- Ich würde zustimmen, dass dies nur ein Beispiel ist, und es ist wahr, dass ich gerade die Zahlen 5 und 15 aus dem a ausgewählt habe ir zur Veranschaulichung. Wenn ich Zeit habe, werde ich eine zweite Antwort veröffentlichen, von der ich hoffe, dass sie vollständiger ist.
Antwort
Was der p-Wert nicht sagt, ist, wie wahrscheinlich es ist, dass die Nullhypothese wahr ist. Unter dem konventionellen (Fisher-) Signifikanztest-Framework berechnen wir zuerst die Wahrscheinlichkeit der Beobachtung der Daten unter der Annahme, dass die Nullhypothese wahr ist p-Wert. Es erscheint intuitiv vernünftig anzunehmen, dass die Nullhypothese wahrscheinlich falsch ist, wenn die Daten unter der Nullhypothese wahrscheinlich nicht beobachtet werden. Dies ist völlig vernünftig. Statistiker verwenden traditionell einen Schwellenwert und „lehnen die Nullhypothese bei 95 ab % Signifikanzniveau „wenn (1 – p)> 0,95; dies ist jedoch nur eine Konvention, die sich in der Praxis als vernünftig erwiesen hat – dies bedeutet nicht, dass die Wahrscheinlichkeit, dass die Nullhypothese falsch ist, unter 5% liegt (und daher eine 95) % Wahrscheinlichkeit, dass die alternative Hypothese wahr ist). Ein Grund, warum wir dies nicht sagen können, ist, dass wir uns die alternative Hypothese noch nicht angesehen haben.
Abbildung einer Funktion f (), die den p-Wert auf die Wahrscheinlichkeit abbildet, dass die alternative Hypothese wahr ist. Es wäre vernünftig zu behaupten, dass diese Funktion streng abnimmt (so dass die alternative Hypothese umso weniger wahr ist, je wahrscheinlicher die Beobachtungen unter der Nullhypothese sind) und dass sie Werte zwischen 0 und 1 ergibt (da sie eine Schätzung ergibt Dies ist jedoch alles, was wir über f () wissen. Obwohl also eine Beziehung zwischen p und der Wahrscheinlichkeit besteht, dass die alternative Hypothese wahr ist, ist sie nicht kalibriert. Dies bedeutet, dass wir den p-Wert nicht verwenden können, um zu machen quantitative Aussagen über die Plausibilität der Nulll- und Alternatve-Hypothesen.
Vorbehaltslektor: Es liegt nicht wirklich im frequentistischen Rahmen, von der Wahrscheinlichkeit zu sprechen, dass eine Hypothese wahr ist, da es sich nicht um eine Zufallsvariable handelt – es ist entweder wahr oder es ist nicht „t. Wo ich also von der Wahrscheinlichkeit der Wahrheit einer Hypothese gesprochen habe, bin ich implizit zu einer Bayesschen Interpretation übergegangen. Es ist falsch, Bayesian und Frequentist zu mischen, aber es besteht immer die Versuchung, dies zu tun, da wir wirklich einen quantitativen Hinweis auf die relative Plausibilität / Wahrscheinlichkeit der Hypothesen wollen. Dies ist jedoch nicht das, was der p-Wert liefert.
Antwort
In Statistiken kann man niemals sagen, dass etwas absolut sicher ist Statistiker verwenden einen anderen Ansatz, um zu beurteilen, ob eine Hypothese wahr ist oder nicht. Sie versuchen, alle anderen Hypothesen abzulehnen, die von den Daten nicht unterstützt werden.
Zu diesem Zweck haben statistische Tests eine Nullhypothese und eine Alternativhypothese. Der aus einem statistischen Test angegebene p-Wert ist die Wahrscheinlichkeit des Ergebnisses, vorausgesetzt, die Nullhypothese war korrekt. Deshalb wollen wir kleine p-Werte. Je kleiner sie sind, desto weniger wahrscheinlich wäre das Ergebnis, wenn die Nullhypothese korrekt wäre. Wenn der p-Wert klein genug ist (dh es ist sehr unwahrscheinlich, dass das Ergebnis vorliegt Wenn die Nullhypothese korrekt war, wird die Nullhypothese zurückgewiesen.
Auf diese Weise können Nullhypothesen formuliert und anschließend verworfen werden. Wenn die Nullhypothese abgelehnt wird, akzeptieren Sie die alternative Hypothese als beste Erklärung. Denken Sie jedoch daran, dass die alternative Hypothese niemals sicher ist, da die Nullhypothese zufällig die Ergebnisse generiert haben könnte.
Kommentare
- a p -Wert ist die Wahrscheinlichkeit eines Ergebnisses als oder mehr “ extrem “ als das angegebene Ergebnis, nicht des tatsächlichen Ergebnisses. Der p-Wert ist $ Pr (T \ geq t | H_0) $ und nicht $ Pr (T = t | H_0) $ (T ist die Teststatistik und t ist der beobachtete Wert).
Antwort
Ich bin etwas zurückhaltend, um das alte Thema wiederzubeleben, aber ich bin von hier
Der p-Wert ist ein konkreter Begriff, es sollte keinen Raum für Missverständnisse geben. Es ist jedoch irgendwie mystisch, dass umgangssprachliche Übersetzungen der Definition des p-Werts zu vielen verschiedenen Fehlinterpretationen führen. Ich denke, die Wurzel des Problems liegt in der Verwendung der Ausdrücke „mindestens so nachteilig für die Nullhypothese“ oder „mindestens so extrem wie die in Ihren Beispieldaten“ usw.
Zum Beispiel Wikipedia sagt
… der p-Wert ist die Wahrscheinlichkeit, die beobachteten Stichprobenergebnisse (oder ein extremeres Ergebnis) zu erhalten, wenn die Nullhypothese tatsächlich wahr ist .
Die Bedeutung des $ p $ -Werts ist unscharf, wenn Menschen zum ersten Mal auf „(oder ein extremeres Ergebnis)“ stoßen und anfangen, „“ zu denken mehr extreeeme ? „.
Ich denke, es ist besser, das“ extremere Ergebnis „so etwas wie indirektem Sprechakt a zu überlassen >. Mein Ansatz ist also
Der p-Wert ist die Wahrscheinlichkeit, zu sehen, was Sie in einer „imaginären Welt“ sehen, in der die Nullhypothese wahr ist.
Um die Idee konkret zu machen, nehmen wir an, Sie haben ein Beispiel x
, das aus 10 Beobachtungen besteht, und Sie nehmen an, dass die Bevölkerung Mittelwert ist $ \ mu_0 = 20 $. In Ihrer hypothetischen Welt beträgt die Bevölkerungsverteilung also $ N (20,1) $.
x #[1] 20.82600 19.30229 18.74753 18.99071 20.14312 16.76647 #[7] 18.94962 17.99331 19.22598 18.68633
Sie berechnen t-stat als $ t_0 = \ sqrt {n} \ frac {\ bar {X} – \ mu_0} {s} $, und finden Sie heraus, dass
sqrt(10) * (mean(x) - 20) / sd(x) #-2.974405
Wie hoch ist die Wahrscheinlichkeit, $ | t_0 | $ mit einer Größe von 2,97 („extremer“ kommt hier) in der imaginäre Welt? In der imaginären Welt $ t_0 \ sim t (9) $ muss der p-Wert also $$ p-Wert = Pr (| t_0 | \ geq 2.97) = 0.01559054 $$
Da der p-Wert klein ist, ist es sehr unwahrscheinlich, dass die Stichprobe x
in der hypothetischen Welt gezogen wurde. Wir schließen daraus, dass es sehr unwahrscheinlich ist, dass die hypothetische Welt tatsächlich die tatsächliche Welt war.
Kommentare
- +1, aber wenn Sie schreiben “ Wahrscheinlichkeit zu sehen, was Sie sehen “ und lassen Sie die “ extremere “ Teil, dieser Satz wird streng genommen falsch (und möglicherweise irreführend, auch wenn er vielleicht weniger verwirrend ist). Es ist nicht die Wahrscheinlichkeit zu sehen, was Sie sehen (dies ist normalerweise Null). Es ist die Wahrscheinlichkeit zu sehen, was Sie sehen “ oder extremer „. Auch wenn dies für viele verwirrend sein mag, ist es dennoch entscheidend (und man kann endlos über den Grad der Subjektivität streiten, der sich hinter diesem “ extremeren Formulierung).
- @amoeba Ich dachte, wenn ein angemessenes Beispiel geliefert wird, könnte es als Proxy für “ dienen, um die beobachteten Probenergebnisse zu erhalten (oder ein extremeres Ergebnis) „. Vielleicht ist eine bessere Formulierung erforderlich.
- Ich wollte die gleiche Bemerkung machen wie @amoeba; Der Teil “ oder extremer “ wird in den Schülerhöhen und Antworten auf Teepartys anhand von Beispielen gut behandelt, aber ich ‚ Ich glaube nicht, dass Antworten in diesem Thread auf eine klare allgemeine Erklärung gestoßen sind, insbesondere eine, die verschiedene alternative Hypothesen abdeckt. Ich stimme dieser Antwort zu und schlage vor, dass der Teil “ oder extremer “ für viele Schüler ein konzeptioneller Knackpunkt ist.
- @Silverfish: und nicht nur Studenten. Wie viele Bayesian-vs-Frequentists-Rants habe ich gelesen, die das Thema Subjektivität / Objektivität dieses “ extremeren “ -Bits diskutieren!
- @Silver Ich stimme Ihrer Kritik zu und habe eine Antwort veröffentlicht, die versucht, sie anzusprechen. “ Oder extremer “ ist der Kern der Sache.
Antwort
Ich habe auch festgestellt, dass Simulationen im Unterricht nützlich sind.
Hier ist eine Simulation für den wohl grundlegendsten Fall, in dem wir $ n $ mal aus $ N (\ mu, 1) $ abtasten (daher ist $ \ sigma ^ 2 = 1 $ der Einfachheit halber bekannt ) und teste $ H_0: \ mu = \ mu_0 $ gegen eine linksseitige Alternative.
Dann ist die $ t $ -Statistik $ \ text {tstat}: = \ sqrt {n} (\ bar {X} – \ mu_0) $ $ N (0,1) $ unter $ H_0 $, so dass der $ p $ -Wert einfach $ \ Phi (\ text {tstat}) $ oder pnorm(tstat)
in R.
in der Simulation ist Dies ist der Bruchteil der Zeiten, in denen Daten, die unter der Null $ N (\ mu_0,1) $ (hier $ \ mu_0 = 2 $) generiert wurden, Beispielmittel ergeben, die in nullMeans
gespeichert sind sind weniger (dh „extremer“ in diesem linksseitigen Test) als der aus den beobachteten Daten berechnete.
# p value set.seed(1) reps <- 1000 n <- 100 mu <- 1.85 # true value mu_0 <- 2 # null value xaxis <- seq(-3, 3, length = 100) X <- rnorm(n,mu) nullMeans <- counter <- rep(NA,reps) yvals <- jitter(rep(0,reps),2) for (i in 1:reps) { tstat <- sqrt(n)*(mean(X)-mu_0) # test statistic, N(0,1) under the given assumptions par(mfrow=c(1,3)) plot(xaxis,dnorm(xaxis),ylab="null distribution",xlab="possible test statistics",type="l") points(tstat,0,cex=2,col="salmon",pch=21,bg="salmon") X_null <- rnorm(n,mu_0) # generate data under H_0 nullMeans[i] <- mean(X_null) plot(nullMeans[1:i],yvals[1:i],col="blue",pch=21,xlab="actual means and those generated under the null",ylab="", yaxt="n",ylim=c(-1,1),xlim=c(1.5,2.5)) abline(v=mu_0,lty=2) points(mean(X),0,cex=4,col="salmon",pch=21,bg="salmon") # counts 1 if sample generated under H_0 is more extreme: counter[i] <- (nullMeans[i] < mean(X)) # i.e. we test against H_1: mu < mu_0 barplot(table(counter[1:i])/i,col=c("green","red"),xlab="more extreme mean under the null than the mean actually observed") if(i<10) locator(1) } mean(counter) pnorm(tstat)
Antwort
Ich finde es hilfreich, einer Reihenfolge zu folgen, in der Sie Konzepte in der folgenden Reihenfolge erläutern: (1) Der z-Wert und die Proportionen über und unter dem z-Wert unter der Annahme von a normale Kurve. (2) Der Begriff einer Stichprobenverteilung und der z-Wert für eine bestimmte Stichprobe bedeuten, wenn die Populationsstandardabweichung bekannt ist (und von dort der z-Test für eine Stichprobe). (3) Der t-Test für eine Stichprobe und die Wahrscheinlichkeit von a Stichprobenmittelwert, wenn die Populationsstandardabweichung unbekannt ist (voller Geschichten über die geheime Identität eines bestimmten Industriestatistikers und warum Guinness für Statistiken gut ist). (4) Der Zwei-Stichproben-T-Test und die Stichprobenverteilung der mittleren Differenzen. Die Leichtigkeit, mit der einführende Schüler den T-Test verstehen, hat viel mit den Grundlagen zu tun, die zur Vorbereitung auf dieses Thema gelegt wurden.
/ * Ausbilder des Modus für verängstigte Schüler aus * /
Antwort
Was bedeutet ein „p-Wert“ in Bezug auf die getestete Hypothese?
Im ontologischen Sinne (was ist Wahrheit?) bedeutet dies nichts . Alle Hypothesentests basieren auf nicht getesteten Annahmen . Dies ist normalerweise Teil des Tests selbst, aber auch Teil des von Ihnen verwendeten Modells (z. B. in einem Regressionsmodell). Da wir diese lediglich annehmen, können wir nicht wissen, ob der Grund, warum der p-Wert unter unserem Schwellenwert liegt, darin besteht, dass die Null falsch ist. Es ist eine non sequitur , bedingungslos zu schließen, dass wir aufgrund eines niedrigen p-Werts die Null ablehnen müssen. Zum Beispiel könnte etwas im Modell falsch sein.
Im erkenntnistheoretischen Sinne (was können wir lernen?) bedeutet dies etwas . Sie erhalten Kenntnisse unter der Bedingung , dass die nicht getesteten Prämissen wahr sind. Da wir (zumindest bis jetzt) nicht jedes Gebäude der Realität beweisen können, wird unser gesamtes Wissen notwendigerweise an Bedingungen geknüpft sein. Wir werden niemals zur „Wahrheit“ gelangen.
Antwort
Ich muss das folgende Argument noch beweisen, damit es Fehler enthält , aber ich möchte wirklich meine zwei Cent einwerfen (Hoffentlich werde ich es bald mit einem strengen Beweis aktualisieren). Eine andere Sichtweise auf den $ p $ – Wert ist
$ p $ -value – Eine Statistik $ X $ , sodass $$ \ forall 0 \ le c \ le 1, F_ {X | H_0} (\ inf \ {x: F_ {X | H_0} (x) \ ge c \}) = c $$ wobei $ F_ {X | H_0} $ ist die Verteilungsfunktion von $ X $ unter $ H_0 $ .
Insbesondere wenn $ X $ eine fortlaufende hat Verteilung und Sie verwenden keine Annäherung, dann
- Alle
$ p $ -Wert ist eine Statistik mit einer gleichmäßigen Verteilung auf $ [0, 1] $ und - Jede Statistik mit einer gleichmäßigen Verteilung auf $ [0, 1] $ ist ein $ p $ -Wert.
Sie können dies als allgemeine Beschreibung der $ p $ -Werte betrachten.
Kommentare
- Diese Definition ist nur für diskrete Verteilungen sinnvoll (und dann nicht korrekt), da das zweite Auftreten von “ $ P $ “ macht deutlich, dass es sich um Wahrscheinlichkeiten handelt, nicht um Wahrscheinlichkeitsdichten. Darüber hinaus gibt es äußerst wenige Distributionen (falls vorhanden), die die angegebene Eigenschaft haben, was darauf hindeutet, dass die Aussage typografische Fehler enthalten muss. In Bezug auf Ihre nachfolgenden Behauptungen ist (1) idealerweise wahr, (2) jedoch nicht, es sei denn, Sie lassen zu, dass die Nullhypothese von der Statistik abhängt!
- @whuber Vielen Dank für die Eingabe. Ich habe die Definition bearbeitet und sie sollte jetzt sinnvoller sein!
- Es macht Sinn, danke: Wenn ich ‚ es richtig lese, wird behauptet, dass die Nullverteilung von $ X $ auf $ [0, 1]. $ Dies erfasst jedoch nur einen Teil der Eigenschaften von p-Werten; es charakterisiert keine p-Werte; und es sagt nichts darüber aus, was sie bedeuten oder wie sie zu interpretieren sind. Lesen Sie einige der anderen Antworten in diesem Thread, um Informationen darüber zu erhalten, was fehlt.
- Hier ist ein Beispiel, das Sie vielleicht interessant finden. Die Verteilungsfamilie ist Uniform $ (\ theta, \ theta + 1) $ für $ \ theta \ in \ mathbb {R}, $ die Nullhypothese ist $ \ theta = 0, $ und die Alternative ist ihr Komplement. Betrachten Sie eine Zufallsstichprobe $ \ mathbf {X} = (X_1, \ ldots, X_n). $ Definieren Sie die Statistik $ X (\ mathbf {X}) = X_1. $ Offensichtlich hat dies eine gleichmäßige Verteilung auf $ [0,1] $ under $ H_0: $ aber in welchem Sinne ist es ein p-Wert? Was ist der entsprechende Hypothesentest? Angenommen, wir nehmen eine Stichprobe der Größe $ n = 1 $ und beobachten den Wert $ X_1 = -2: $ behaupten Sie, der p-Wert sei $ -2 $ ??
Antwort
Ich denke, dass Beispiele mit Murmeln oder Münzen oder Höhenmessungen zum Üben der Mathematik in Ordnung sein können, aber sie sind nicht gut zum Aufbau der Intuition. College-Studenten Wie wäre es mit einem politischen Beispiel?
Sagen wir, eine politische Kandidatin hat eine Kampagne durchgeführt, die verspricht, dass eine Politik der Wirtschaft helfen wird. Sie wurde gewählt, sie hat die Politik verabschiedet und 2 Jahre Später boomt die Wirtschaft. Sie steht zur Wiederwahl und behauptet, dass ihre Politik der Grund für den Wohlstand aller ist. Sollten Sie sie wieder wählen?
Der nachdenkliche Bürger sollte sagen: “ Nun, es ist wahr, dass es der Wirtschaft gut geht, aber können wir das wirklich Ihrer Politik zuschreiben? Um dies wirklich zu beantworten, müssen wir uns die Frage stellen: „Hätte sich die Wirtschaft in den letzten zwei Jahren ohne sie gut geschlagen?“ Wenn die Antwort ja lautet (z. B. boomt die Wirtschaft aufgrund einer neuen, nicht verwandten technologischen Entwicklung), lehnen wir die Erklärung der Daten durch den Politiker ab.
Das heißt, eine Hypothese zu untersuchen (Politik hat der Wirtschaft geholfen ) müssen wir ein Modell der Welt erstellen, in dem diese Hypothese null ist (die Richtlinie wurde nie erlassen). Wir machen dann eine Vorhersage unter diesem Modell. Wir nennen die Wahrscheinlichkeit Wenn wir diese Daten in dieser alternativen Welt beobachten, ist der p-Wert . Wenn der p-Wert zu hoch ist, sind wir von der Hypothese nicht überzeugt – die Politik machte keinen Unterschied. Wenn der p-Wert niedrig ist, vertrauen wir der Hypothese – die Richtlinie war wesentlich.
Kommentare
- Ich bin nicht damit einverstanden, dass das p als definiert wird “ Wir nennen die Wahrscheinlichkeit, diese Daten in dieser alternativen Welt zu beobachten, den p-Wert “ und auch die Stärke der Schlussfolgerung, die gezogen wird ( insbesondere das Versäumnis, die Null abzulehnen.
- @Silverfish Könnten Sie das näher erläutern? Wahrscheinlich wäre es korrekter, den p-Wert die Wahrscheinlichkeit zu nennen, diese Beobachtung ODER eine extremere Beobachtung zu machen. Aber es hört sich so an, als hätten Sie eine tiefere Kritik.
- Da die ursprüngliche Frage lautet, was ein p-Wert ist, hielt ich es für wichtig, diese Definition klar zu vermitteln. Nur “ extremer zu sagen “ ist an sich nicht ‚ t sehr hilfreich, ohne zu erklären, was “ extremer “ könnte bedeuten – dass ‚ eine Schwäche der meisten Antworten in diesem Thread I ist denken. Nur die Antwort von ‚ und der “ Teetest “ scheinen wirklich zu erklären warum das “ extremere “ auch wichtig ist.
- Ich habe auch das Gefühl, dass Ihre Schlussfolgerungen sind zu stark formuliert. Wenn wir die Null ablehnen, haben wir signifikante Beweise dagegen, aber ‚ weiß nicht, dass sie ‚ falsch ist. Wenn wir die Null nicht ablehnen, bedeutet dies sicherlich nicht ‚, dass die Null wahr ist (obwohl dies durchaus der Fall sein kann). Als allgemeineren Kommentar habe ich das Gefühl, dass der Test, den Sie ‚ in ziemlich abstrakten Begriffen beschreiben, für einen Lernenden, der gerade lernt, wie man einen Test durchführt, wahrscheinlich nicht klar ist . Das Fehlen einer klar definierten Teststatistik passt ‚ nicht gut zu der ursprünglichen Frage, wie die t -Statistik zu interpretieren ist.
- Ein Merkmal dieser Antwort, das mir sehr gefällt, ist die klare Erklärung, dass p-Werte mit einem Nullmodell berechnet werden, auch wenn wir ‚ nicht (subjektiv) glauben, dass das Nullmodell ist eigentlich wahr. Ich denke, dass die Tatsache, dass Teststatistiken unter einem Modell berechnet werden, ein wichtiger Punkt ist, mit dem viele Schüler zu kämpfen haben.
Antwort
Der p-Wert ist nicht so mysteriös, wie es die meisten Analysten vermuten.Auf diese Weise muss das Konfidenzintervall für einen t-Test nicht berechnet werden, sondern lediglich das Konfidenzniveau bestimmt werden, mit dem die Nullhypothese verworfen werden kann.
ILLUSTRATION. Sie führen einen Test durch. Der p-Wert beträgt 0,1866 für die Q-Variable und 0,0023 für die R-Variable. (Diese werden in% ausgedrückt.)
Wenn Sie mit einem Konfidenzniveau von 95% testen, um die Nullhypo abzulehnen,
für Q: 100-18,66 = 81,34%
für R: 100-0,23 = 99,77%.
Bei einem Konfidenzniveau von 95% gibt Q ein Vertrauen von 81,34% zum Ablehnen an. Dies fällt unter 95% und ist nicht akzeptabel. NULL AKZEPTIEREN.
R gibt eine 99,77% ige Sicherheit, Null abzulehnen. Deutlich über den gewünschten 95%. Wir lehnen daher die Null ab.
Ich habe gerade das Lesen des p-Werts durch eine „umgekehrte Methode“ veranschaulicht, um ihn bis zu dem Konfidenzniveau zu messen, bei dem wir die Nullhypo ablehnen.
Kommentare
- Willkommen auf der Website. Was meinst du mit $ Q $ -Variable und $ R $ -Variable? Bitte klären Sie. Die Verwendung des Ausdrucks “ accept null “ wird normalerweise als ziemlich unerwünscht oder sogar irreführend angesehen.
- @cardinal weist auf einen wichtigen Punkt hin. Sie ‚ akzeptieren die Null nicht.
Antwort
****** Der p-Wert beim Testen der Hypothese misst die Empfindlichkeit des Tests. Je niedriger der p-Wert ist, desto größer ist die Empfindlichkeit. Wenn das Signifikanzniveau auf 0,05 eingestellt ist, zeigt der p-Wert von 0,0001 eine hohe Wahrscheinlichkeit an, dass die Testergebnisse korrekt sind. ******
Kommentare
- -1 Dies ist eindeutig falsch. Möglicherweise möchten Sie zuerst die Antworten mit den höheren Stimmen lesen.