Nadat ik een statistiekcursus had gevolgd en vervolgens medestudenten probeerde te helpen, merkte ik een onderwerp op dat veel op het bureau bonst, het interpreteren van de resultaten van statistische hypothesetests . Het lijkt erop dat studenten gemakkelijk leren hoe ze de berekeningen moeten uitvoeren die nodig zijn voor een bepaalde test, maar blijven hangen bij het interpreteren van de resultaten. Veel geautomatiseerde tools rapporteren testresultaten in termen van “p-waarden” of “t-waarden”.
Hoe zou u de volgende punten uitleggen aan studenten die hun eerste cursus statistiek volgen:
-
Wat betekent een “p-waarde” in relatie tot de hypothese die wordt getest? Zijn er gevallen waarin men zou moeten zoeken naar een hoge p-waarde of een lage p-waarde?
-
Wat is de relatie tussen een p-waarde en een t-waarde?
Opmerkingen
- Een behoorlijk deel hiervan wordt in feite gedekt door de eerste zin van het wikipedia-artikel op p-waarden , waarmee een p-waarde correct wordt gedefinieerd. Als dat ‘ wordt begrepen, wordt veel duidelijk gemaakt.
- Pak het boek: Statistics without Tears. Het kan uw gezond verstand redden !!
- @ user48700 Kunt u samenvatten hoe Statistics Without Tears dit uitlegt?
- Iemand zou een grafiek moeten tekenen van p-waarde gerelateerd vragen in de loop van de tijd en ik wed dat we ‘ de seizoensgebondenheid en correlatie met academische kalenders in hogescholen of Coursera data science-lessen zullen zien
- Naast ander leuk en relevant boek aanbevelingen in de antwoorden en commentaren, zou ik een ander boek willen voorstellen, toepasselijk genaamd ” Wat is eigenlijk een p-waarde? ” .
Antwoord
Inzicht in $ p $ -value
Stel dat u de hypothese wilt testen dat de gemiddelde lengte van mannelijke studenten aan uw universiteit $ 5 $ ft $ 7 $ inch. Je verzamelt hoogtes van $ 100 $ studenten die willekeurig zijn geselecteerd en berekent het gemiddelde van de steekproef (stel dat het $ 5 $ ft $ 9 $ inch). Met behulp van een geschikte formule / statistische routine berekent u de $ p $ -waarde voor uw hypothese en zegt u dat deze $ 0,06 blijkt te zijn $ .
Om $ p = 0.06 $ correct te interpreteren, moeten we verschillende dingen in gedachten houden:
-
De eerste stap bij het klassieke testen van hypothesen is de aanname dat de hypothese die wordt overwogen waar is. (In onze context gaan we ervan uit dat de true gemiddelde hoogte $ 5 $ ft $ 7 $ inch.)
-
Stel je voor dat je de volgende berekening doet: bereken de kans dat de steekproef groter is dan $ 5 $ ft $ 9 $ inch, ervan uitgaande dat onze hypothese inderdaad correct is (zie punt 1) .
Met andere woorden, we willen weten $$ \ mathrm {P} (\ mathrm {Sample \: mean} \ ge 5 \: \ mathrm {ft} \: 9 \: \ mathrm {inches} \: | \: \ mathrm {True \: waarde} = 5 \: \ mathrm {ft} \: 7 \: \ mathrm { inches}). $$
De berekening in stap 2 is wat de $ p $ -waarde wordt genoemd. Daarom zou een $ p $ -waarde van $ 0,06 $ betekenen dat als we ons experiment veel , vaak (elke keer dat we $ 100 $ studenten willekeurig selecteren en het steekproefgemiddelde berekenen) en vervolgens $ 6 $ van $ 100 $ kunnen we een steekproefgemiddelde verwachten dat groter is dan of gelijk is aan $ 5 $ ft $ 9 $ inch.
Moeten we, gezien het bovenstaande begrip, nog steeds aannemen dat onze hypothese waar is (zie stap 1)? Welnu, een $ p = 0.06 $ geeft aan dat een van de volgende twee dingen is gebeurd:
- (A) Ofwel onze hypothese is correct en er heeft zich een uiterst onwaarschijnlijke gebeurtenis voorgedaan (bijv. alle $ 100 $ studenten zijn studentensporters)
of
- (B) Onze aanname is onjuist en de steekproef die we hebben verkregen is niet zo ongebruikelijk.
De traditionele manier om te kiezen tussen (A) en (B) is om een willekeurige cut-off voor $ p $ . We kiezen (A) if $ p > 0.05 $ en (B) if $ p < 0,05 $ .
Opmerkingen
- Neem de tijd! Ik heb ‘ niet overwogen om een ” Beste antwoord ” voor een week te selecteren of dus.
- Nu ik ‘ de kans heb gehad om terug te komen en het hele antwoord te lezen – een grote +1 voor het voorbeeld van de lengte van de leerling. Heel duidelijk en goed ingedeeld.
- Goed werk … maar we moeten (C) toevoegen dat ons model (vervat in de formule / statistische routine) verkeerd is.
- A t -waarde (of een andere teststatistiek) is meestal een tussenstap. Het ‘ is in feite een statistiek waarvan, onder sommige aannames, werd bewezen dat ze een bekende distributie hebben. Omdat we de verdeling van de teststatistiek onder de null-waarde kennen, kunnen we standaardtabellen (tegenwoordig meestal software) gebruiken om een p-waarde af te leiden.
- Isn ‘ t de p-waarde afgeleid als resultaat van het doen van de chikwadraattoets en vervolgens van de chikwadraattabel? Vraag me af waarom de hierboven berekende kans de p-waarde zelf aangeeft ?!
Antwoord
Een dialoog tussen een leraar en een bedachtzame student
Nederig onderwezen in de overtuiging dat er tot nu toe niet genoeg kleurpotloden in deze thread zijn gebruikt. Aan het eind verschijnt een korte geïllustreerde synopsis.
Student : wat betekent een p-waarde? Veel mensen lijken het erover eens te zijn dat “de kans is dat we ” een steekproefgemiddelde zien dat groter is dan of gelijk is aan ” een statistiek of het “s ” de waarschijnlijkheid dat dit resultaat wordt waargenomen. .. gegeven dat de nulhypothese waar is ” of waar ” de statistiek van mijn steekproef viel op [een gesimuleerde] distributie ” en zelfs ” de kans om een teststatistiek waar te nemen die minstens zo groot is als de berekende, ervan uitgaande dat de nulhypothese waar is ” .
Leraar : Goed begrepen, al deze uitspraken zijn correct in veel omstandigheden.
Student : Ik zie niet in hoe de meeste van hen relevant zijn. Heeft u ons niet geleerd dat we een nulhypothese $ H_0 $ en een alternatieve hypothese $ H_A $ ? Hoe zijn ze betrokken bij deze ideeën van ” groter dan of gelijk aan ” of ” minstens zo groot ” of de zeer populaire ” extremere “?
Leraar : omdat het in het algemeen ingewikkeld kan lijken, zou het ons helpen om een concreet voorbeeld te verkennen?
Student : Zeker. Maar maak het alsjeblieft realistisch maar eenvoudig.
Leraar : Deze theorie van hypothesetesten begon historisch met de behoefte van astronomen om observatiefouten te analyseren, dus wat dacht je van daar te beginnen. Op een dag las ik een paar oude documenten waarin een wetenschapper zijn pogingen beschreef om de meetfout in zijn apparaat te verkleinen. Hij had veel metingen van een ster in een bekende positie en registreerden hun verplaatsingen voor of achter die positie. Om die verplaatsingen te visualiseren, tekende hij een histogram dat er – als het een beetje vloeiend was gemaakt – er zo uitzag.
Student : ik herinner me hoe histogrammen werken: de verticale as is gelabeld ” Dichtheid ” om me eraan te herinneren dat de relatieve frequenties van de metingen worden weergegeven door gebied in plaats van hoogte.
Leraar : Dat klopt. Een ” ongebruikelijke ” of ” extreme ” waarde zou gelegen zijn in een regio met een vrij kleine oppervlakte. Hier is een krijtje. Denk je dat je zou kunnen kleuren in een regio waarvan de oppervlakte maar een tiende van het totaal is?
Student : Zeker; dat is makkelijk. [Kleuren in de figuur.]
Leraar : Heel goed! Dat lijkt me ongeveer 10% van het gebied. Onthoud echter dat de enige gebieden in het histogram die er toe doen, die tussen verticale lijnen zijn: ze vertegenwoordigen de kans of waarschijnlijkheid dat de verplaatsing zich tussen die lijnen op de horizontale as zou bevinden. Dat betekent dat je helemaal naar beneden moest kleuren en dat zou meer dan de helft van het gebied zijn, zou niet “nietwaar?
Student : Oh, ik begrijp het. Laat me opnieuw proberen. Ik ga inkleuren waar de curve erg laag is, nietwaar? Het is het laagst aan de twee uiteinden.Moet ik maar één gebied inkleuren of zou het ok zijn om het in verschillende delen op te splitsen?
Docent : het is een slim idee om meerdere delen te gebruiken. Waar zouden ze zijn?
Student (wijzend): hier en hier. Omdat dit krijtje niet erg scherp is, heb ik een pen gebruikt om je de lijnen te laten zien die ik gebruik.
Leraar : Heel leuk! Laat me je de rest van het verhaal vertellen. De wetenschapper heeft enkele verbeteringen aangebracht aan zijn apparaat en vervolgens aanvullende metingen uitgevoerd. Hij schreef dat de verplaatsing van de eerste slechts $ 0,1 $ was, wat volgens hem een goed teken was, maar als een zorgvuldige wetenschapper ging hij verder met het uitvoeren van meer metingen ter controle . Helaas gaan die andere metingen verloren – het manuscript breekt op dit punt af – en alles wat we hebben is dat ene getal, $ 0,1 $ .
Student : Dat is jammer. Maar is dat niet veel beter dan de brede spreiding van verplaatsingen in je figuur?
Leraar : Dat “is de vraag die ik graag wil beantwoorden. Om te beginnen, wat moeten we poneren als $ H_0 $ ?
Student : Nou, een scepticus zou zich afvragen of de verbeteringen die aan het apparaat zijn aangebracht überhaupt effect hadden. De bewijslast ligt bij de wetenschapper: hij zou willen aantonen dat de scepticus ongelijk heeft. Dat doet me denken dat de nulhypothese is nogal slecht voor de wetenschapper: er staat dat alle nieuwe metingen – inclusief de waarde van $ 0,1 $ die we kennen – zich zouden moeten gedragen zoals beschreven door de eerste histogram. Of misschien nog erger: ze zijn misschien nog meer verspreid.
Docent : G o op, je doet het goed.
Student : En dus is het alternatief dat de nieuwe metingen minder verspreid zouden zijn, toch?
Leraar : Heel goed! Kun je me een tekening maken van hoe een histogram met minder spreiding eruit zou zien? Hier is nog een kopie van het eerste histogram; je kunt er bovenop tekenen als referentie.
Leerling (tekening): Ik gebruik een pen om het nieuwe histogram en ik kleur in het gebied eronder. Ik heb het zo gemaakt dat het grootste deel van de curve bijna nul is op de horizontale as en dus het grootste deel van het gebied in de buurt van een (horizontale) waarde van nul is: dat is wat het is betekent minder verspreid of nauwkeuriger zijn.
Leraar : Dat is een goed begin. Maar vergeet niet dat een histogram met kansen een totale oppervlakte moet hebben van $ 1 $ . De totale oppervlakte van het eerste histogram is daarom $ 1 $ . Hoeveel gebied bevindt zich in uw nieuwe histogram?
Student : minder dan de helft, denk ik . Ik zie dat dat een probleem is, maar ik weet niet hoe ik het moet oplossen. Wat moet ik doen?
Docent : De truc is om het nieuwe histogram hoger dan de oude zodat het tota l gebied is $ 1 $ . Hier laat ik je ter illustratie een door de computer gegenereerde versie zien.
Student : Ik begrijp het: je hebt het verticaal uitgerekt zodat zijn vorm niet echt veranderde, maar nu zijn het rode gebied en het grijze gebied (inclusief het gedeelte onder het rood) dezelfde hoeveelheden.
Leraar : Juist. Je kijkt naar een plaatje van de nulhypothese (in blauw, uitgespreid) en deel van de alternatieve hypothese (in rood, met minder spreiding).
Student : Wat bedoel je met ” deel ” van het alternatief? Is het niet gewoon de alternatieve hypothese?
Leraar : Statistici en grammatica lijken niet samen te gaan. 🙂 Serieus, wat ze bedoelen met een ” hypothese ” is meestal een hele reeks mogelijkheden. Hier is het alternatief (zoals je al zo goed hebt aangegeven) dat de metingen ” minder ” zijn verspreid dan voorheen. Maar hoeveel minder ? Er zijn veel mogelijkheden. Hier, laat me je er nog een laten zien. Ik heb het getekend met gele streepjes. Het bevindt zich tussen de vorige twee.
Student : ik begrijp het: je kunt verschillende hoeveelheden spread hebben, maar je weet van tevoren niet hoeveel de spread werkelijk zal zijn. Maar waarom heb je de grappige arcering op deze foto gemaakt?
Leraar : ik wilde benadrukken waar en hoe de histogrammen verschillen. Ik heb ze grijs gearceerd waar de alternatieve histogrammen lager zijn dan de nul en in rood waar de alternatieven hoger zijn.
Student : Waarom zou dat ertoe doen?
Leraar : Weet je nog hoe je het eerste histogram in beide staarten kleurde? [De kranten doorzoeken] Ah, hier is het.Laten we deze afbeelding op dezelfde manier kleuren.
Student : ik herinner het me: dat zijn de extreme waarden. Ik vond de plaatsen waar de nuldichtheid zo klein mogelijk was en gekleurd in 10% van het gebied daar.
Docent : Vertel me over de alternatieven in die extreme gebieden.
Student : Het is moeilijk te zien, omdat het kleurpotlood het heeft bedekt, maar het ziet eruit alsof het er is ” Er is bijna geen kans dat enig alternatief zich in de gebieden bevindt die ik heb gekleurd. Hun histogrammen staan precies tegen de waardeas en er is geen ruimte voor enig gebied eronder.
Docent : Laten we die gedachte voortzetten. Als ik u hypothetisch zou vertellen dat een meting een verplaatsing had van $ – 2 $ , en u zou vragen welke van deze drie histogrammen was het waarschijnlijk afkomstig van, welke zou het zijn?
Student : de eerste – de blauwe. Het is de meest verspreide en het is de enige waarbij $ – 2 $ enige kans lijkt te hebben.
Leraar : En hoe zit het met de waarde van $ 0,1 $ in het manuscript?
Student : Hmmm … dat is een andere verhaal. Alle drie de histogrammen zijn behoorlijk hoog boven de grond op $ 0,1 $ .
Docent : OK, eerlijk genoeg. Maar stel dat ik je vertelde dat de waarde ergens in de buurt van $ 0,1 $ was, zoals tussen $ 0 $ en $ 0,2 $ . Helpt dat je om enkele kansen uit deze grafieken te lezen?
Student : Zeker, want ik kan gebieden gebruiken. Ik moet alleen de gebieden onder elke curve schatten tussen $ 0 $ en $ 0,2 $ . Maar dat ziet er best moeilijk uit.
Leraar : je hoeft niet zo ver te gaan. Kun je gewoon zeggen welk gebied het grootste is?
Student : degene onder de hoogste curve, natuurlijk. Alle drie de gebieden hebben dezelfde basis, dus hoe groter de curve, hoe meer oppervlak er onder en de basis is. Dat betekent het hoogste histogram– degene die ik heb getekend, met de rode streepjes – is de meest waarschijnlijke voor een verplaatsing van $ 0,1 $ . Ik denk dat ik begrijp waar je heen gaat, maar ik “Beetje bezorgd:” Moet ik niet naar alle histogrammen kijken voor alle alternatieven, niet alleen de een of twee die hier worden weergegeven? Hoe zou ik dat kunnen doen?
Leraar : Je bent goed in het oppikken van patronen, dus vertel me eens: als het meetapparaat steeds nauwkeuriger wordt gemaakt, wat gebeurt er met zijn histogram?
Student : het wordt smaller – oh, en het moet ook groter worden, dus het totale oppervlak blijft hetzelfde. Dat maakt het vrij moeilijk om te vergelijken de histogrammen. De alternatieve zijn allemaal hoger dan de nul rechts op $ 0 $ , dat is duidelijk. Maar bij andere waarden zijn de alternatieven soms hoger en soms lager! Bijvoorbeeld [wijst naar een waarde in de buurt van $ 3/4 $ ], hier is mijn rode histogram het laagste, het gele histogram is het hoogste, en het originele null-histogram staat ertussen. Maar aan de rechterkant is de nulwaarde de hoogste.
Docent : in het algemeen is het vergelijken van histogrammen een ingewikkelde zaak. Om ons hierbij te helpen, heb ik de computer gevraagd om nog een plot te maken: het heeft verdeeld elk van de alternatieve histogramhoogten (of ” dichtheden “) door de null-histogramhoogte, waardoor waarden worden gecreëerd die bekend staan als ” waarschijnlijkheidsverhoudingen. ” Als resultaat betekent een waarde groter dan $ 1 $ dat het alternatief waarschijnlijker is, terwijl een waarde kleiner dan $ 1 $ betekent het alternatief is minder waarschijnlijk. Het heeft nog een alternatief getrokken: het is meer verspreid dan de andere twee, maar nog steeds minder verspreid dan het originele apparaat.
Leraar (gaat verder): Kunt u mij laten zien waar de alternatieven waarschijnlijker zijn dan de nul?
Leerling (inkleuren): hier in het midden, uiteraard. En omdat dit geen histogrammen meer zijn, denk ik dat we naar hoogtes moeten kijken in plaats van naar gebieden, dus ik markeer gewoon een reeks waarden op de horizontale as. Maar hoe weet ik hoeveel van het midden ik moet inkleuren? Waar stop ik met kleuren?
Leraar : Er is geen vaste regel. Het hangt allemaal af van hoe we onze conclusies willen gebruiken en hoe fel de sceptici zijn.Maar leun achterover en denk na over wat je hebt bereikt: je realiseert je nu dat uitkomsten met grote waarschijnlijkheidsverhoudingen bewijs voor het alternatief zijn en uitkomsten met kleine waarschijnlijkheidsverhoudingen bewijs tegen het alternatief . Wat ik je zal vragen is om een gebied in te kleuren dat, voor zover mogelijk, een kleine kans heeft om te voorkomen onder de nulhypothese en een relatief grote kans om voor te komen onder de alternatieven. Teruggaand naar het eerste diagram dat u kleurde, helemaal terug aan het begin van ons gesprek, kleurde u de twee staarten van de nul omdat ze ” extreem waren. ” Zouden ze het nog steeds goed doen?
Student : ik denk het niet. Ook al waren ze behoorlijk extreem en zeldzaam onder de nulhypothese, ze zijn praktisch onmogelijk voor elk van de alternatieven. Als mijn nieuwe meting bijvoorbeeld $ 3,0 $ zou zijn, denk ik dat ik de kant van de scepticus zou kiezen en zou ontkennen dat er enige verbetering is opgetreden, hoewel $ 3.0 $ in ieder geval een ongebruikelijk resultaat was. Ik wil die kleur veranderen. Hier – laat me nog een kleurpotlood hebben.
Leraar : wat stelt dat voor?
Student : We begonnen met je te vragen om slechts 10% van het gebied onder het originele histogram te tekenen – het gebied dat de nul beschrijft. Dus nu Ik heb 10% van het gebied getekend waar de kans groter is dat de alternatieven voorkomen. Ik denk dat wanneer een nieuwe meting op dat gebied plaatsvindt, het ons vertelt dat we het alternatief moeten geloven.
Leraar : En hoe moet de scepticus daarop reageren?
Student : Een scepticus hoeft nooit toe te geven dat hij ongelijk heeft, nietwaar? Maar ik denk dat zijn geloof een beetje geschokt moet zijn. We hebben het tenslotte zo geregeld dat, hoewel een meting zou kunnen binnen het gebied vallen dat ik zojuist heb getekend, deze slechts 10% kans heeft om daar te zijn als de nulwaarde waar is. En het heeft een grotere kans om daar te zijn als het alternatief waar is. Ik kan je gewoon niet vertellen hoe veel groter die kans is, want het zou afhangen van hoeveel de wetenschapper het apparaat heeft verbeterd. Ik weet alleen dat het groter is. Dus het bewijs zou tegen de scepticus zijn.
Leraar : Oké. Zou je het erg vinden om je begrip samen te vatten, zodat we volkomen duidelijk zijn over wat je hebt geleerd?
Student : ik heb geleerd dat om alternatieve hypothesen te vergelijken met nulhypothesen, we hun histogrammen. We delen de dichtheden van de alternatieven door de dichtheid van de nul: dat “is wat je de ” waarschijnlijkheidsverhouding noemt. ” Om een goede test te maken, zou ik een klein getal moeten kiezen, zoals 10% of wat dan ook, genoeg om een scepticus wakker te schudden. Dan zou ik waarden moeten vinden waarbij de waarschijnlijkheidsratio zo hoog mogelijk is en deze inkleuren tot 10% (of wat dan ook) is ingekleurd.
Leraar : En hoe zou je die kleur?
Student : Zoals je me eerder herinnerde, moet de kleur tussen verticale lijnen zijn. Waarden (op de horizontale as) die onder de kleuring liggen, zijn bewijs tegen de nulhypothese. Andere waarden – het is moeilijk te zeggen wat ze zouden kunnen betekenen zonder alle betrokken histogrammen nader te bekijken.
Leraar : terug naar de waarde van $ 0,1 $ in het manuscript, wat zou je concluderen?
Student : dat is binnen het gebied dat ik het laatst heb gekleurd , dus ik denk dat de wetenschapper waarschijnlijk gelijk had en dat het apparaat echt verbeterd was.
Leraar : Een laatste ding. Uw conclusie was gebaseerd op het kiezen van 10% als criterium, of ” size ” van de test. Veel mensen gebruiken liever 5%. Sommigen geven de voorkeur aan 1%. Wat zou je ze kunnen vertellen?
Student : ik zou niet al die tests tegelijk kunnen doen! Nou, misschien zou ik dat op een bepaalde manier kunnen doen. Ik kan zien dat het niet uitmaakt hoe groot de test zou moeten zijn, ik zou moeten beginnen met kleuren vanaf $ 0 $ , wat in die zin de ” meest extreme ” waarde, en werk vanaf daar in beide richtingen naar buiten toe. Als ik zou stoppen bij $ 0,1 $ – de werkelijk waargenomen waarde –Ik denk dat ik gekleurd zou hebben in een gebied ergens tussen $ 0,05 $ en $ 0,1 $ , zeg $ 0,08 $ . De 5% en 1% mensen wisten meteen dat ik te veel kleurde: als ze maar 5% of 1% wilden kleuren, zouden ze dat kunnen, maar dat zouden ze niet doen “ga niet zover als $ 0,1 $ . Ze zouden niet tot dezelfde conclusie komen als ik: ze zouden zeggen dat er niet genoeg bewijs is dat er daadwerkelijk een verandering heeft plaatsgevonden.
Leraar : Je hebt me net verteld wat die citaten aan het begin echt betekenen.Het zou uit dit voorbeeld duidelijk moeten zijn dat ze onmogelijk ” extremer ” of ” groter dan of gelijk aan ” of ” minstens zo groot ” in de zin van met een grotere waarde of zelfs met een waarde waarbij de nuldichtheid klein is. Ze bedoelen deze dingen echt in de zin van grote waarschijnlijkheidsverhoudingen die u hebt beschreven. Overigens wordt het getal rond $ 0,08 $ dat u heeft berekend, de ” p-waarde genoemd. ” Het kan alleen goed worden begrepen op de manier die u hebt beschreven: met betrekking tot een analyse van relatieve histogramhoogten – de waarschijnlijkheidsverhoudingen.
Student : Dank je. Ik ben er niet zeker van dat ik dit allemaal nog volledig begrijp, maar je hebt me veel gegeven om over na te denken.
Leraar : als je verder wilt gaan, neem dan een kijk naar de Neyman-Pearson Lemma . Je bent waarschijnlijk klaar om het nu te begrijpen.
Synopsis
Veel tests die zijn gebaseerd op een enkele statistiek, zoals die in het dialoogvenster, noemen deze ” $ z $ ” of ” $ t $ ” Dit zijn manieren om aan te geven hoe het null-histogram eruitziet, maar het zijn slechts hints: hoe we dit nummer noemen, doet er niet echt toe. De constructie die door de student is samengevat, zoals hier geïllustreerd, laat zien hoe deze verband houdt met de p-waarde. De p-waarde is de kleinste testgrootte waardoor een waarneming van $ t = 0,1 $ zou leiden tot een afwijzing van de nulhypothese.
In deze figuur, die is ingezoomd om details te tonen, is de nulhypothese uitgezet in effen blauw en twee typische alternatieven zijn uitgezet met stippellijnen. Het gebied waar die alternatieven doorgaans veel groter zijn dan de nul, wordt gearceerd weergegeven. De arcering begint daar waar de relatieve waarschijnlijkheid van de alternatieven het grootst is (bij $ 0 $ ). De arcering stopt wanneer de waarneming $ t = 0.1 $ is bereikt. De p-waarde is het gebied van het gearceerde gebied onder het nulhistogram: het is de kans, aangenomen dat de nul waar is, om een uitkomst te observeren waarvan de waarschijnlijkheidsverhoudingen groot zijn, ongeacht welk alternatief waar is. In het bijzonder hangt deze constructie sterk af van de alternatieve hypothese. Het kan niet worden uitgevoerd zonder de mogelijke alternatieven te specificeren.
Voor twee praktische voorbeelden van de hier beschreven test – een gepubliceerd, de andere hypothetisch – zie https://stats.stackexchange.com/a/5408/919 .
Reacties
- Dit heeft uitstekend omgegaan met mijn opmerking over een ander antwoord, dat geen van de eerdere antwoorden op deze vraag in het algemeen de veelgehoorde ” of extremer aspect van een p -waarde. (Hoewel het ” tea-testing ” antwoord een goed specifiek voorbeeld.) Ik bewonder vooral de manier waarop dit voorbeeld opzettelijk is geconstrueerd om te benadrukken dat ” extremer ” het tegenovergestelde kan betekenen van ” groter ” of ” verder van nul “.
- Ik zou willen dat docenten en studieboeken ‘ niet de zin ” of extremer “, echt waar. Twee varianten die ik heb gehoord, kunnen worden geparafraseerd als ” gunstiger ten opzichte van $ H_1 $ ” of ” overtuigender van $ H_1 $ “. In dit geval zouden waarden die dichter bij nul liggen inderdaad overtuigender zijn dat de telescoop betrouwbaarder is geworden, maar het vereist enige taalkundige acrobatiek (plausibel betoogd, maar mogelijk verwarrend) om ze te beschrijven als ” extremer “.
- Zoals altijd uniek inzichtelijk, bedankt dat je de tijd hebt genomen om die ongelooflijk nuttige antwoorden op te schrijven. Ik vraag me echt af waarom leerboeken nooit worden geschreven op een manier die deze niveaus van duidelijkheid en intuïtie benadert.
- Het is ‘ gevaarlijk om sarcasme in een opmerking te gebruiken , @baxx, omdat er ‘ s niet genoeg ruimte was om dit beleefd en elegant te doen. Daarom is het ‘ meestal geen goed idee om te veronderstellen dat een opmerking sarcastisch is, tenzij het je expliciet vertelt.Ga er gewoon vanuit dat opmerkingen bedoeld zijn om u te helpen. Als je gewoon de allereerste hit zou volgen in de zoekopdracht die ik heb opgegeven, denk ik dat je vragen zouden worden beantwoord.
- Gewoon fantastisch! Bedankt @whuber!
Antwoord
Voordat ik dit onderwerp aanraak, zorg ik er altijd voor dat leerlingen bewegen zich graag tussen percentages, decimalen, kansen en breuken. Als ze hier niet helemaal tevreden mee zijn, kunnen ze heel snel in de war raken.
Ik leg graag het testen van hypothesen voor de eerste keer uit (en dus p-waarden en teststatistieken) via Fisher ” s klassieke thee-experiment. Ik heb hier verschillende redenen voor:
(i) Ik denk dat het doorwerken van een experiment en het definiëren van de termen gaandeweg logischer is dan het definiëren van al deze termen om mee te beginnen. (ii) U hoeft niet expliciet te vertrouwen op waarschijnlijkheidsverdelingen, gebieden onder de curve, enz. om de belangrijkste punten van hypothesetesten te doorstaan. (iii) Het verklaart dit belachelijke idee van als of extremer dan die waargenomen op een redelijk verstandige manier (iv) Ik vind dat studenten graag de geschiedenis, de oorsprong en het achtergrondverhaal van wat ze bestuderen, omdat het het realistischer maakt dan sommige abstracte theorieën. (v) Het maakt niet uit van welke discipline of vak de studenten afkomstig zijn, ze kunnen zich verhouden tot het voorbeeld van thee (NB Sommige internationale studenten hebben moeite met dit typisch Britse instituut van thee met melk.)
[Opmerking: ik kreeg dit idee oorspronkelijk uit het prachtige artikel van Dennis Lindley “The Analysis of Experimental Data: The Appreciating of Tea & Wine”, waarin hij laat zien waarom Bayesiaanse methoden superieur zijn aan klassieke methoden.]
Het achtergrondverhaal is dat Muriel Bristol Fisher op een middag in de jaren 1920 bezoekt in Rothamsted Experimental Station voor een kopje thee. Toen Fisher de melk als laatste stopte, klaagde ze dat ze dat wel kon. vertel ook of de melk als eerste (of als laatste) werd geschonken en dat ze de voorkeur gaf aan de eerste. Om dit op de proef te stellen ontwierp hij zijn klassieke thee-experiment waarbij Muriel een paar theekopjes voorgeschoteld krijgt en zij moet identificeren welke de melk had als eerste toegevoegd Dit wordt herhaald met zes paar theekopjes Haar cho ices zijn óf Goed (R) óf Fout (W) en haar resultaten zijn: RRRRRW.
Stel dat Muriel eigenlijk gewoon gokt en op geen enkele manier onderscheid kan maken. Dit wordt de Null-hypothese genoemd. Volgens Fisher is het doel van het experiment om deze nulhypothese in diskrediet te brengen. Als Muriel raadt, zal ze de theekop correct identificeren met een waarschijnlijkheid van 0,5 bij elke beurt en aangezien ze onafhankelijk zijn, is het waargenomen resultaat 0,5 $ ^ 6 $ = 0,016 (of 1/64). Fisher stelt vervolgens dat ofwel:
(a) de nulhypothese (Muriel raadt) waar is en er is een gebeurtenis met een kleine waarschijnlijkheid opgetreden of,
(b) de nulhypothese is onjuist en Muriel heeft onderscheidingsvermogen.
De p-waarde (of waarschijnlijkheidswaarde) is de kans om deze uitkomst (RRRRRW) waar te nemen, gegeven dat de nulhypothese waar is – het is de kleine kans waarnaar wordt verwezen in (a) hierboven. In dit geval is het 0,016. Aangezien gebeurtenissen met een kleine waarschijnlijkheid slechts zelden (per definitie) voorkomen, zou situatie (b) een betere verklaring kunnen zijn voor wat er gebeurde dan situatie (a). Wanneer we de nulhypothese verwerpen, aanvaarden we in feite de tegenovergestelde hypothese die we de alternatieve hypothese noemen. In dit voorbeeld heeft Muriel onderscheidingsvermogen, de alternatieve hypothese.
Een belangrijke overweging is wat we doen klasse als een kleine kans? Wat is het afkappunt waarop we bereid zijn te zeggen dat een gebeurtenis onwaarschijnlijk is? De standaardbenchmark is 5% (0,05) en dit wordt het significantieniveau genoemd. Wanneer de p-waarde kleiner is dan het significantieniveau, verwerpen we de nulhypothese als onjuist en aanvaarden we onze alternatieve hypothese. Het is gebruikelijk om te beweren dat een resultaat significant is wanneer de p-waarde kleiner is dan het significantieniveau, dwz wanneer de waarschijnlijkheid van wat we waargenomen voorkomend gegeven dat de nulhypothese waar is, is kleiner dan ons afkappunt. Het is belangrijk om duidelijk te zijn dat het gebruik van 5% volledig subjectief is (net als het gebruik van de andere algemene significantieniveaus van 1% en 10%).
Fisher realiseerde zich dat dit niet het geval is werk; elke mogelijke uitkomst met één verkeerd paar duidde evenzeer op discriminerende bevoegdheden. De relevante kans voor situatie (a) hierboven is daarom 6 (0,5) ^ 6 = 0,094 (of 6/64), wat nu niet significant is op een significantieniveau van 5%. Om dit te verhelpen, voerde Fisher aan dat als 1 fout in 6 wordt beschouwd als bewijs van discriminerende bevoegdheden, er geen fouten zijn, d.w.z.uitkomsten die sterker wijzen op discriminerende bevoegdheden dan waargenomen, moeten worden meegenomen bij de berekening van de p-waarde. Dit resulteerde in de volgende wijziging van de redenering, ofwel:
(a) de nulhypothese (Muriel gokt) is waar en de kans op gebeurtenissen als, of meer, extreem dan die waargenomen is klein, of
(b) de nulhypothese is onjuist en Muriel heeft onderscheidingsvermogen.
Terug naar ons thee-experiment en we vinden dat de p-waarde onder deze opzet 7 is (0,5 ) ^ 6 = 0,109 wat nog steeds niet significant is bij de drempel van 5%.
Vervolgens laat ik de leerlingen aan de slag met enkele andere voorbeelden, zoals het opgooien van munten, om erachter te komen of een munt al dan niet eerlijk is. Dit boort de concepten van de nul / alternatieve hypothese, p-waarden en significantieniveaus. We gaan dan verder met het geval van een continue variabele en introduceren het begrip teststatistiek. Omdat we de normale verdeling, de standaard normale verdeling en de z-transformatie al uitvoerig hebben behandeld, is het slechts een kwestie van verschillende concepten met elkaar verbinden.
Naast het berekenen van teststatistieken, p-waarden en een beslissing nemen (significant / niet significant) Ik laat studenten door gepubliceerde papers werken in een fill in the missing blanks game.
Opmerkingen
- I weet dat ik ‘ een heel oude thread enigszins nieuw leven inblaast, maar hier gaat het … ik genoot echt van je antwoord, maar ik mis het t-waarde-gedeelte erin 🙁 Zou je gebruik alstublieft uw gegeven voorbeelden om erover te praten? Niemand heeft geantwoord over het t-test-gedeelte
- @sosi It ‘ s waarschijnlijk omdat p-waarden veel meer zijn algemeen dan t-waarden. Het ‘ is als het stellen van een vraag over autos en vervolgens over de remmen van een Ford Fiesta.
- Het antwoord is erg interessant (+ 1), maar uiteindelijk worden een paar dingen door elkaar gehaald 1. W Wat betekent het dat een $ p $ -waarde ” significant is op het niveau van 5% “? Ofwel de $ p $ -waarde is lager dan 5%, of niet. Ik zie ‘ het nut niet in van het gebruik van zon obscure zin, waardoor ” significantie ” niet gedefinieerd. 2. Wat betekent het om ” te beslissen ” of een $ p $ -waarde al dan niet significant is? Het lijkt niet gerechtvaardigd om de beslissingstheorie op deze manier in de mix te brengen (vooral omdat Fisher een sterke tegenstander was van de toepassing van het Neyman-Pearson-testraamwerk in de wetenschappen).
Antwoord
Geen enkele hoeveelheid verbale uitleg of berekeningen heeft me echt geholpen om op buikniveau te begrijpen wat p-waarden waren, maar het kwam echt in beeld toen ik een cursus volgde waarin simulatie betrokken was. Dat gaf me de mogelijkheid om daadwerkelijk zien gegevens gegenereerd door de nulhypothese en om de middelen / etc uit te zetten. van gesimuleerde steekproeven, kijk dan waar de statistiek van mijn steekproef viel op die verdeling.
Ik denk dat het belangrijkste voordeel hiervan is dat leerlingen de verdelingen van wiskunde en teststatistieken een minuut lang vergeten en focus op de concepten die voorhanden zijn. Toegegeven, het vereiste dat ik hoe dat spul moest simuleren, wat problemen zal veroorzaken voor een heel andere groep leerlingen. Maar het werkte voor mij, en ik heb gebruikt ontelbare keren simulatie om statistieken met groot succes aan anderen uit te leggen (bijv. “Dit is hoe uw gegevens eruit zien; dit is hoe een Poisson-verdeling eruit ziet als overlay. Weet u ZEKER dat u een Poisson-regressie wilt doen?”).
Dit beantwoordt niet precies de vragen die je stelde, maar voor mij maakte het ze tenminste triviaal.
Reacties
- Ik ben het van harte eens over het gebruik van simulatie om dit uit te leggen. Maar een kleine opmerking over het voorbeeld aan het einde: ik vind dat mensen (niet alleen studenten) het moeilijk te onderscheiden voor een bepaalde verdelingsaanname, b.v. het poisson, tussen marginaal verdeeld zijn en voorwaardelijk poisson verdeeld zijn. Aangezien alleen het laatste van belang is voor een regressiemodel, hoeven een aantal afhankelijke variabelewaarden die niet ‘ t poisson zijn, niet per se reden tot bezorgdheid te zijn.
- Ik heb om te bekennen dat ik dat niet ‘ wist. Ik ‘ heb uw opmerkingen over deze site gedurende de afgelopen dagen van uw lidmaatschap zeer op prijs gesteld. Ik hoop dat u ‘ blijft hangen.
- @MattParker Kent u leermiddelen die gericht zijn op het gebruik van simulatie om begrip te ontwikkelen? Of is het gewoon een kwestie van een paar python / R-scripts samenstellen en een aantal tests uitvoeren?
- @baxx De [Seeing Theory-website door Daniel Kunin] (students.brown.edu/seeing-theory/ ) heeft hiervoor een aantal interessante tools, maar ‘ is nog in aanbouw.Anders, ja, ik ‘ heb zojuist grotendeels geëxperimenteerd met de ingebouwde tools van R ‘ voor simulatie – ik heb ze gebruikt om mezelf te bewijzen hoe een methode werkt, of om te zien wat er zou gebeuren als een voorspeller werd vervangen door een willekeurige variabele, enz. Sorry, ik wou dat ik hier betere bronnen voor kende!
- @MattParker cool bedankt. Ja – een beetje een kip en ei daarin, om de experimenten te construeren die je (neem ik aan?) Nodig hebt om op zijn minst genoeg te krijgen om ze te schrijven. Maar maak je geen zorgen ….. Heb net die site gecontroleerd die je hebt gelinkt, het ‘ is leuk, bedankt
Antwoord
Een mooie definitie van p-waarde is “de kans om een teststatistiek waar te nemen die minstens zo groot is als de berekende statistiek ervan uitgaande dat de nulhypothese waar is”.
Het probleem hiermee is dat het begrip vereist van “teststatistiek” en “nulhypothese”. Maar dat is gemakkelijk over te brengen. Als de nulhypothese waar is, is meestal zoiets als parameter van populatie A is gelijk aan parameter van populatie B, en u berekent statistieken om die parameters te schatten, wat is dan de kans dat u een teststatistiek die zegt: “ze” zijn dit anders “?
Bijvoorbeeld: als de munt eerlijk is, wat is dan de kans dat ik 60 koppen zou zien uit 100 worpen? Dat is het testen van de nulhypothese , “de munt is eerlijk”, of “p = .5” waarbij p de waarschijnlijkheid van koppen is.
De teststatistiek in dat geval zou het aantal koppen zijn.
Nu, ik neem aan dat wat u “t-waarde” noemt, een generieke “teststatistiek” is, niet een waarde uit een “t-verdeling”. niet hetzelfde, en de term “t-waarde” wordt niet (noodzakelijkerwijs) algemeen gebruikt en kan verwarrend zijn.
Wat je “t-waarde” noemt, is waarschijnlijk wat ik noem “teststatistiek”. Om een p-waarde te berekenen (onthoud dat het slechts een kans is) heb je een verdeling nodig, en een waarde om in die verdeling te pluggen die een kans zal opleveren. Zodra u dat doet, is de kans dat u terugkeert uw p-waarde. Je kunt zien dat ze gerelateerd zijn omdat onder dezelfde verdeling verschillende teststatistieken verschillende p-waarden zullen retourneren. Meer extreme teststatistieken zullen lagere p-waarden retourneren, wat een grotere indicatie geeft dat de nulhypothese onjuist is.
Ik “heb het probleem van eenzijdige en tweezijdige p-waarden hier genegeerd.
Antwoord
Stel je voor dat je een zak hebt met 900 zwarte knikkers en 100 witte, dwz 10% van de knikkers is wit. Stel je nu voor dat je 1 knikker eruit haalt, ernaar kijkt en de kleur vastlegt, een andere eruit haalt, de kleur vastlegt enz. . en doe dit 100 keer. Aan het einde van dit proces heb je een getal voor witte knikkers waarvan we idealiter 10 verwachten, dwz 10% van 100, maar in werkelijkheid kan het 8 of 13 zijn of wat dan ook gewoon door willekeur. Als je dit experiment met het terugtrekken van 100 knikkers vele, vele keren herhaalt en vervolgens een histogram uitzet van het aantal witte knikkers dat per experiment is getekend, zul je zien dat je een klokcurve hebt gecentreerd rond de tien.
Dit vertegenwoordigt je 10% -hypothese: bij elke zak met 1000 knikkers waarvan 10% wit is, als je willekeurig 100 knikkers eruit haalt, zul je 10 witte knikkers vinden in de selectie, geef of neem er 4 of zo. De p-waarde heeft alles te maken met dit “geef of neem 4 of zo.” Laten we zeggen dat u door te verwijzen naar de eerder gemaakte klokcurve kunt bepalen dat u in minder dan 5% van de gevallen 5 of minder witte knikkers zou krijgen en een andere < 5% van de tijd is goed voor 15 of meer witte knikkers, dwz> 90% van de tijd dat uw 100 knikkerselectie tussen de 6 en 14 witte knikkers bevat.
Stel nu dat iemand een zak met 1000 knikkers neerzet met een onbekend aantal witte knikkers erin, we hebben het gereedschap om deze vragen te beantwoorden
i) Zijn er minder dan 100 witte knikkers?
ii) Zijn er meer dan 100 witte knikkers?
iii) Bevat de zak 100 witte knikkers?
Haal gewoon 100 knikkers uit de zak en tel hoeveel van dit monster wit zijn.
a) Als er zijn 6 tot 14 blanken in de steekproef, kunt u de hypothese dat er 100 witte knikkers in de zak zitten en de bijbehorende p-waarden voor 6 tot 14> 0,05 zijn.
b) Als er 5 zijn of minder blanken in het monster dat u kunt gebruiken ct de hypothese dat er 100 witte knikkers in de zak zitten en dat de bijbehorende p-waarden voor 5 of minder < 0,05 zijn. Je zou verwachten dat het zakje < 10% witte knikkers bevat.
c) Als er 15 of meer blanken in de steekproef zijn, kun je de hypothese verwerpen dat er zijn 100 witte knikkers in de zak en de bijbehorende p-waarden voor 15 of meer zullen < 0,05 zijn. Je zou verwachten dat de zak> 10% witte knikkers bevat.
In reactie op de opmerking van Baltimark
Gezien het bovenstaande voorbeeld is er een ongeveer : –
4.8% kans op 5 witte ballen of minder
1,85% kans op 4 of minder
0,55% kans op 3 of minder
0,1% kans op 2 of minder
6,25% kans op 15 of meer
3,25% kans op 16 of meer
1,5% kans op 17 of meer
0,65% kans op 18 of meer
0.25% kans op 19 of meer
0.1% kans op 20 of meer
0.05% kans op 21 of meer
Deze aantallen werden geschat op basis van een empirische verdeling gegenereerd door een eenvoudige Monte Carlo-routine die in R werd uitgevoerd en de resulterende kwantielen van de steekproefverdeling.
Stel voor het beantwoorden van de oorspronkelijke vraag, stel dat u 5 witte ballen trekt, dan is er slechts een kans van ongeveer 4,8% dat als de 1000 knikkerzak echt 10% witte ballen bevat, u er slechts 5 uittrekt. wit in een steekproef van 100. Dit komt overeen met een ap-waarde < 0,05. Je moet nu kiezen tussen
i) Er zitten echt 10% witte ballen in de zak en ik heb zojuist “pech” gehad om er zo weinig te tekenen
of
ii) Ik heb zo weinig witte ballen getrokken dat er “niet echt 10% witte ballen kunnen zijn (verwerp de hypothese van 10% witte ballen)
Opmerkingen
- Allereerst is dit slechts een groot voorbeeld en verklaart ‘ niet echt het concept van p-waarde en teststatistiek. Ten tweede, jij ‘ beweert alleen maar dat als u minder dan 5 of meer dan 15 witte knikkers krijgt, u de nulhypothese verwerpt. Wat is ‘ uw distributie dat u ‘ die kansen opnieuw berekenen vanaf? Dit kan worden benaderd met een normale afstand gecentreerd op 10, met een standaarddeviatie van 3. Uw afkeuringscriteria zijn lang niet streng genoeg.
- Ik ben het ermee eens dat dit slechts een voorbeeld is, en het is waar dat ik zojuist de nummers 5 en 15 heb gekozen uit de a ir voor illustratieve doeleinden. Als ik tijd heb, zal ik een tweede antwoord plaatsen, waarvan ik hoop dat het vollediger zal zijn.
Antwoord
Wat de p-waarde u niet vertelt, is hoe waarschijnlijk het is dat de nulhypothese waar is. Onder het conventionele (Fisher) significantietoetskader berekenen we eerst de waarschijnlijkheid dat de gegevens worden waargenomen, ervan uitgaande dat de nulhypothese waar is. p-waarde. Het lijkt intuïtief redelijk om aan te nemen dat de nulhypothese waarschijnlijk onjuist is als het onwaarschijnlijk is dat de gegevens onder de nulhypothese worden waargenomen. Dit is volkomen redelijk. Statistici gebruiken traditioneel een drempel en verwerpen de nulhypothese bij de 95 % significantieniveau “if (1 – p)> 0,95; dit is echter slechts een afspraak die in de praktijk redelijk is gebleken – het betekent niet dat er minder dan 5% kans is dat de nulhypothese onjuist is (en daarom een 95 % kans dat de alternatieve hypothese waar is). Een reden waarom we dit niet kunnen zeggen, is dat we nog niet naar de alternatieve hypothese hebben gekeken.
Een functie f () weergeven die de p-waarde afbeeldt op de waarschijnlijkheid dat de alternatieve hypothese waar is. Het zou redelijk zijn om te beweren dat deze functie strikt afneemt (zodat hoe waarschijnlijker de waarnemingen onder de nulhypothese zijn, hoe kleiner de kans dat de alternatieve hypothese waar is), en dat het waarden geeft tussen 0 en 1 (aangezien het een schatting geeft). van waarschijnlijkheid). Dat is echter alles wat we weten over f (), dus hoewel er een verband bestaat tussen p en de kans dat de alternatieve hypothese waar is, is deze niet gekalibreerd. Dit betekent dat we de p-waarde niet kunnen gebruiken om kwantitatieve uitspraken over de plausibiliteit van de nulhypothese en de alternatieve hypothese.
Waarschuwing: het valt niet echt binnen het frequentistische kader om te spreken over de waarschijnlijkheid dat een hypothese waar is, aangezien het geen willekeurige variabele is – het is waar of niet. Dus waar ik het heb gehad over de waarschijnlijkheid van de waarheid van een hypothese, ben ik impliciet overgegaan op een Bayesiaanse interpretatie. Het is onjuist om Bayesiaans en frequentistisch te combineren, maar er is altijd een verleiding om dat te doen, aangezien we eigenlijk een kwantitatieve indicatie willen van de relatieve plausibiliteit / waarschijnlijkheid van de hypothesen. Maar dit is niet wat de p-waarde biedt.
Antwoord
In statistieken kun je nooit zeggen dat iets absoluut zeker is, dus statistici gebruiken een andere benadering om te peilen of een hypothese waar is of niet. Ze proberen alle andere hypothesen te verwerpen die niet door de gegevens worden ondersteund.
Om dit te doen, hebben statistische tests een nulhypothese en een alternatieve hypothese. De p-waarde die uit een statistische test wordt gerapporteerd, is de waarschijnlijkheid van het resultaat, gegeven dat de nulhypothese correct was. Daarom willen we kleine p-waarden. Hoe kleiner ze zijn, hoe kleiner de kans dat het resultaat zou zijn als de nulhypothese correct was. Als de p-waarde klein genoeg is (dat wil zeggen, het is zeer onwaarschijnlijk dat het resultaat opgetreden als de nulhypothese correct was), dan wordt de nulhypothese verworpen.
Op deze manier kunnen nulhypothesen worden geformuleerd en vervolgens worden verworpen. Als de nulhypothese wordt verworpen, accepteert u de alternatieve hypothese als de beste verklaring. Onthoud echter dat de alternatieve hypothese nooit zeker is, aangezien de nulhypothese bij toeval de resultaten had kunnen opleveren.
Opmerkingen
- a p -waarde is de waarschijnlijkheid van een resultaat als of meer ” extreem ” dan het gegeven resultaat, niet van het daadwerkelijke resultaat. p-waarde is $ Pr (T \ geq t | H_0) $ en niet $ Pr (T = t | H_0) $ (T is teststatistiek en t is de waargenomen waarde).
Antwoord
Ik ben een beetje terughoudend om het oude onderwerp nieuw leven in te blazen, maar ik sprong van hier , dus ik plaats dit als antwoord op de vraag in de link.
De p-waarde is een concrete term, er mag geen misverstand over bestaan. Maar het is op de een of andere manier mystiek dat informele vertalingen van de definitie van p-waarde tot veel verschillende verkeerde interpretaties leiden. Ik denk dat de oorzaak van het probleem ligt in het gebruik van de zinnen “minstens zo in strijd met de nulhypothese” of “minstens zo extreem als die in je voorbeeldgegevens” enz.
Bijvoorbeeld Wikipedia zegt
… de p-waarde is de waarschijnlijkheid dat de waargenomen steekproefresultaten (of een extremer resultaat) worden verkregen wanneer de nulhypothese werkelijk waar is .
De betekenis van $ p $ -waarde vervaagt wanneer mensen voor het eerst “(of een extremer resultaat)” tegenkomen en beginnen te denken “ meer extreeeme ? “.
Ik denk dat het beter is om het” extremere resultaat “over te laten aan iets als indirecte spraakhandeling . Dus mijn mening is
De p-waarde is de kans om te zien wat je ziet in een “denkbeeldige wereld” waar de nulhypothese waar is.
Om het idee concreet te maken, stel dat u een steekproef x
hebt die bestaat uit 10 waarnemingen en u stelt dat de populatie gemiddelde is $ \ mu_0 = 20 $. Dus in uw veronderstelde wereld is de bevolkingsverdeling $ N (20,1) $.
x #[1] 20.82600 19.30229 18.74753 18.99071 20.14312 16.76647 #[7] 18.94962 17.99331 19.22598 18.68633
Je berekent t-stat als $ t_0 = \ sqrt {n} \ frac {\ bar {X} – \ mu_0} {s} $, en ontdek dat
sqrt(10) * (mean(x) - 20) / sd(x) #-2.974405
Dus, wat is de kans dat $ | t_0 | $ zo groot als 2.97 (“extremer” komt hier) in de denkbeeldige wereld? In de denkbeeldige wereld $ t_0 \ sim t (9) $ moet de p-waarde dus $$ p-value = Pr (| t_0 | \ geq 2.97) = 0.01559054 $$
Aangezien de p-waarde klein is, is het zeer onwaarschijnlijk dat de steekproef x
zou zijn getrokken in de hypothetische wereld. Daarom concluderen we dat het zeer onwaarschijnlijk is dat de veronderstelde wereld in feite de werkelijke wereld was.
Opmerkingen
- +1, maar als je schrijft ” kans om te zien wat je ziet ” en laat de ” extremere ” deel, wordt deze zin strikt genomen onjuist (en mogelijk misleidend, ook al is het misschien minder verwarrend). Het is niet de kans om te zien wat je ziet (dit is meestal nul). Het is de kans dat u ziet wat u ziet ” of extremer “. Hoewel dit voor velen misschien een verwarrend stukje is, is het nog steeds cruciaal (en men kan eindeloos discussiëren over de mate van subjectiviteit die schuilgaat achter dit ” extremere ” formulering).
- @amoeba Ik dacht dat, wanneer een adequaat voorbeeld werd geleverd, het zou kunnen dienen als een proxy voor ” om de waargenomen voorbeeldresultaten te verkrijgen (of een extremer resultaat) “. Misschien is een betere formulering nodig.
- Ik wilde dezelfde opmerking maken als @amoeba; het ” of extremer ” -gedeelte wordt goed afgehandeld door bijvoorbeeld de studenthoogtes en tea party-antwoorden, maar ik don ‘ denk niet dat de antwoorden in deze thread een duidelijke algemene verklaring ervan hebben gevonden, met name een die verschillende alternatieve hypothesen omvat. Ik ben het eens met dit antwoord dat suggereert dat het ” of extremere ” -gedeelte een conceptueel knelpunt is voor veel studenten.
- @Silverfish: en niet alleen studenten. Hoeveel Bayesian-vs-frequentists tirades heb ik gelezen die de subjectiviteit / objectiviteit kwestie van dit ” extremere ” bit bespreken!
- @Silver Ik ben het eens met uw kritiek en heb een antwoord gepost om erop te reageren. ” Of extremer ” is de crux van de zaak.
Antwoord
Ik heb ook gemerkt dat simulaties nuttig zijn bij het lesgeven.
Hier is een simulatie voor het aantoonbaar meest eenvoudige geval waarin we $ n $ keer samplen van $ N (\ mu, 1) $ (vandaar dat $ \ sigma ^ 2 = 1 $ bekend staat om zijn eenvoud ) en test $ H_0: \ mu = \ mu_0 $ tegen een linkszijdig alternatief.
De $ t $ -statistiek $ \ text {tstat}: = \ sqrt {n} (\ bar {X} – \ mu_0) $ is $ N (0,1) $ onder $ H_0 $, zodat de $ p $ -waarde simpelweg $ \ Phi (\ text {tstat}) $ of pnorm(tstat)
in R. is.
In de simulatie , is het de fractie van het aantal keren dat de gegevens die zijn gegenereerd onder de null $ N (\ mu_0,1) $ (hier $ \ mu_0 = 2 $) voorbeeldgemiddelden opleveren die zijn opgeslagen in nullMeans
die zijn minder (dat wil zeggen, “ extremer in deze linkszijdige test) dan degene die is berekend op basis van de waargenomen gegevens.
# p value set.seed(1) reps <- 1000 n <- 100 mu <- 1.85 # true value mu_0 <- 2 # null value xaxis <- seq(-3, 3, length = 100) X <- rnorm(n,mu) nullMeans <- counter <- rep(NA,reps) yvals <- jitter(rep(0,reps),2) for (i in 1:reps) { tstat <- sqrt(n)*(mean(X)-mu_0) # test statistic, N(0,1) under the given assumptions par(mfrow=c(1,3)) plot(xaxis,dnorm(xaxis),ylab="null distribution",xlab="possible test statistics",type="l") points(tstat,0,cex=2,col="salmon",pch=21,bg="salmon") X_null <- rnorm(n,mu_0) # generate data under H_0 nullMeans[i] <- mean(X_null) plot(nullMeans[1:i],yvals[1:i],col="blue",pch=21,xlab="actual means and those generated under the null",ylab="", yaxt="n",ylim=c(-1,1),xlim=c(1.5,2.5)) abline(v=mu_0,lty=2) points(mean(X),0,cex=4,col="salmon",pch=21,bg="salmon") # counts 1 if sample generated under H_0 is more extreme: counter[i] <- (nullMeans[i] < mean(X)) # i.e. we test against H_1: mu < mu_0 barplot(table(counter[1:i])/i,col=c("green","red"),xlab="more extreme mean under the null than the mean actually observed") if(i<10) locator(1) } mean(counter) pnorm(tstat)
Antwoord
Ik vind het nuttig om een reeks te volgen waarin je concepten in de volgende volgorde uitlegt: (1) De z-score en verhoudingen boven en onder de z-score uitgaande van een normale curve. (2) Het idee van een steekproefverdeling en de z-score voor een bepaald steekproefgemiddelde wanneer de standaarddeviatie van de populatie bekend is (en vandaar de z-test met één steekproef) (3) De t-test met één steekproef en de waarschijnlijkheid van een steekproefgemiddelde wanneer de standaarddeviatie van de populatie onbekend is (vol met verhalen over de geheime identiteit van een bepaalde industriële statisticus en waarom Guinness goed is voor statistieken). (4) De t-test met twee steekproeven en de steekproefverdeling van gemiddelde verschillen. Het gemak waarmee inleidende studenten de t-test begrijpen, heeft veel te maken met de basis die is gelegd ter voorbereiding op dit onderwerp.
/ * instructeur van doodsbange studenten staat uit * /
Answer
Wat betekent een “p-waarde” in relatie tot de hypothese die wordt getest?
In ontologische zin (wat is waarheid?), betekent het niets . Elke hypothesetest is gebaseerd op niet-geteste aannames . Dit maakt normaal gesproken deel uit van de test zelf, maar maakt ook deel uit van het model dat u gebruikt (bijvoorbeeld in een regressiemodel). Aangezien we deze slechts aannemen, kunnen we niet weten of de reden waarom de p-waarde onder onze drempel ligt, is omdat de nulwaarde onwaar is. Het is een non sequitur om onvoorwaardelijk af te leiden dat we vanwege een lage p-waarde de null moeten verwerpen. Er kan bijvoorbeeld iets mis zijn in het model.
In epistemologische zin (wat kunnen we leren?), betekent het iets . U krijgt kennis voorwaardelijk over het feit dat het niet-geteste uitgangspunt waar is. Aangezien we (althans tot nu toe) niet elk bouwwerk van de werkelijkheid kunnen bewijzen, zal al onze kennis noodzakelijkerwijs voorwaardelijk zijn. We zullen nooit tot de “waarheid” komen.
Antwoord
Ik moet het volgende argument nog bewijzen, dus het kan fouten bevatten , maar ik wil echt mijn twee cent erin gooien (hopelijk zal ik het binnenkort updaten met een rigoureus bewijs). Een andere manier om naar de $ p $ te kijken – waarde is
$ p $ -waarde – Een statistiek $ X $ zodanig dat $$ \ forall 0 \ le c \ le 1, F_ {X | H_0} (\ inf \ {x: F_ {X | H_0} (x) \ ge c \}) = c $$ waarbij $ F_ {X | H_0} $ is de distributiefunctie van $ X $ onder $ H_0 $ .
Specifiek als $ X $ een doorlopende distributie en je gebruikt geen benadering, dan
- Elke
$ p $ -value is een statistiek met een uniforme verdeling over $ [0, 1] $ , en - Elke statistiek met een uniforme verdeling over $ [0, 1] $ is een $ p $ -value.
U kunt dit beschouwen als een algemene beschrijving van de $ p $ -waarden.
Reacties
- Deze definitie is alleen zinvol voor discrete distributies (en is dan niet correct), omdat de tweede verschijning van ” $ P $ ” maakt duidelijk dat het verwijst naar waarschijnlijkheden, niet naar waarschijnlijkheidsdichtheden. Bovendien zijn er extreem weinig distributies (indien aanwezig) die de vermelde eigenschap hebben, wat suggereert dat er typografische fouten in de verklaring moeten zitten. Wat uw volgende beweringen betreft: (1) is idealiter waar, maar (2) niet, tenzij u de nulhypothese laat afhangen van de statistiek!
- @whuber Bedankt voor de invoer. Ik heb de definitie aangepast, en het zou nu logischer moeten zijn!
- Het is logisch, dank u: als ik ‘ m het correct lees, beweert het dat de nulverdeling van $ X $ uniform is op $ [0, 1]. $ Dat legt echter slechts een deel van de eigenschappen van p-waarden vast; het kenmerkt geen p-waarden; en het zegt niets over wat ze bedoelen of hoe ze moeten worden geïnterpreteerd. Overweeg enkele van de andere antwoorden in deze thread te bestuderen voor informatie over wat er ontbreekt.
- Hier is een voorbeeld dat u wellicht interessant vindt. De distributiefamilie is Uniform $ (\ theta, \ theta + 1) $ voor $ \ theta \ in \ mathbb {R}, $ de nulhypothese is $ \ theta = 0, $ en het alternatief is zijn complement. Beschouw een willekeurige steekproef $ \ mathbf {X} = (X_1, \ ldots, X_n). $ Definieer de statistiek $ X (\ mathbf {X}) = X_1. $ Dit heeft duidelijk een uniforme verdeling op $ [0,1] $ onder $ H_0: $ maar in welke zin is het een p-waarde? Wat is de bijbehorende hypothesetest? Stel dat we een steekproef nemen met de grootte $ n = 1 $ en de waarde $ X_1 = -2 bekijken: $ beweert u dat de p-waarde $ -2 $ ?? is
Answer
Ik denk dat voorbeelden met knikkers of munten of hoogtemeting prima kunnen zijn om de wiskunde te oefenen, maar ze zijn niet goed voor het opbouwen van intuïtie. Studenten de samenleving in vraag stellen, toch? Wat dacht je ervan om een politiek voorbeeld te gebruiken?
Stel dat een politieke kandidaat een campagne voerde met de belofte dat een bepaald beleid de economie ten goede zou komen. Ze werd gekozen, ze kreeg het beleid van kracht, en twee jaar later bloeit de economie. Ze “staat op voor herverkiezing en beweert dat haar beleid de reden is voor ieders welvaart. Moet je haar herverkiezen?
De bedachtzame burger zou moeten zeggen” Nou, het is waar dat de economie het goed doet, maar kunnen we dat echt aan uw beleid toeschrijven? Om dit echt te beantwoorden, moeten we nadenken over de vraag “zou de economie het de afgelopen 2 jaar goed hebben gedaan zonder?” Als het antwoord ja is (de economie bloeit bijvoorbeeld vanwege een nieuwe, niet-gerelateerde technologische ontwikkeling), dan verwerpen we de uitleg van de politicus over de gegevens.
Dat wil zeggen, om één hypothese te onderzoeken (beleid hielp de economie ), moeten we een model van de wereld bouwen waarin die hypothese nul is (het beleid is nooit uitgevaardigd). We doen dan een voorspelling onder dat model. We noemen de waarschijnlijkheid van het observeren van deze gegevens in die alternatieve wereld de p-waarde . Als de p-waarde te hoog is, zijn we niet overtuigd door de hypothese – het beleid maakte geen verschil. Als de p-waarde laag is, vertrouwen we de hypothese – het beleid was essentieel.
Opmerkingen
- Ik ben het er niet mee eens dat de p wordt gedefinieerd als ” We noemen de waarschijnlijkheid van het observeren van deze gegevens in die alternatieve wereld de p-waarde ” en ook de sterkte van de conclusie die wordt getrokken ( vooral het niet afwijzen van de nul).
- @Silverfish Kunt u iets toelichten? Waarschijnlijk zou het juister zijn om de p-waarde de waarschijnlijkheid van het maken van die waarneming OF een extremere waarneming te noemen. Maar het klinkt alsof je diepere kritiek hebt.
- Aangezien de oorspronkelijke vraag is wat een p-waarde is, vond ik het belangrijk om die definitie duidelijk over te brengen. Gewoon ” extremer ” isn ‘ zeggen is op zichzelf erg nuttig zonder uit te leggen wat ” extremer ” zou kunnen betekenen – dat ‘ een zwak punt is van de meeste antwoorden in deze thread I denken. Alleen whuber ‘ s antwoord en de ” theetest ” lijken echt uit te leggen waarom de ” extremere ” ook belangrijk is.
- Ik vond ook dat uw conclusies te sterk geformuleerd. Als we de null afwijzen, hebben we significant bewijs ertegen, maar weet niet dat ‘ t niet weet dat het ‘ onwaar is. Als we de null niet verwerpen, betekent dat zeker niet ‘ t dat de null waar is (hoewel het misschien wel zo is). Als meer algemene opmerking heb ik het gevoel dat de test die u ‘ beschrijft, in vrij abstracte termen, waarschijnlijk niet duidelijk zal zijn voor een leerling die net leert hoe hij een test moet uitvoeren . Het ontbreken van een duidelijk gedefinieerde teststatistiek past ‘ niet goed bij de oorspronkelijke vraag hoe de t -statistiek ook moet worden geïnterpreteerd.
- Een kenmerk van dit antwoord dat ik erg leuk vind, is de duidelijke uitleg dat p-waarden worden berekend met behulp van een nulmodel, zelfs als we niet ‘ t (subjectief) geloven dat het nulmodel is eigenlijk waar. Ik denk dat het feit dat teststatistieken worden berekend onder een model een belangrijk punt is waar veel studenten mee worstelen.
Antwoord
De p-waarde is niet zo mysterieus als de meeste analisten beweren te zijn.Het is een manier om het betrouwbaarheidsinterval voor een t-toets niet te hoeven berekenen, maar eenvoudig het betrouwbaarheidsniveau te bepalen waarmee de nulhypothese kan worden verworpen.
ILLUSTRATIE. Je voert een test uit. De p-waarde komt op 0,1866 voor Q-variabele, 0,0023 voor R-variabele. (Deze worden uitgedrukt in%).
Als u test op een betrouwbaarheidsniveau van 95% om de nulhypo af te wijzen;
voor Q: 100-18.66 = 81.34%
voor R: 100-0.23 = 99,77%.
Bij een betrouwbaarheidsniveau van 95% geeft Q een betrouwbaarheid van 81,34% om te verwerpen. Dit valt onder de 95% en is onaanvaardbaar. ACCEPTEER NULL.
R geeft 99,77% zekerheid om null te verwerpen. Duidelijk boven de gewenste 95%. We verwerpen dus de nul.
Ik heb zojuist het lezen van de p-waarde geïllustreerd door een “omgekeerde manier” te meten tot aan het betrouwbaarheidsniveau waarop we de nul-hypo afwijzen.
Reacties
- Welkom op de site. Wat bedoel je met $ Q $ -variabele en $ R $ -variabele? Gelieve te verduidelijken. Ook wordt het gebruik van de zin ” accept null ” meestal als zeer ongewenst en zelfs misleidend beschouwd.
- @cardinal wijst op een belangrijk punt. U ‘ accepteert de null niet.
Antwoord
****** p-waarde bij het testen van hypothese meet de gevoeligheid van de test. Hoe lager de p-waarde, hoe groter de gevoeligheid. als het significantieniveau is ingesteld op 0,05, geeft de p-waarde van 0,0001 een grote kans aan dat de testresultaten correct zijn ******
Opmerkingen
- -1 Dit is duidelijk fout. Misschien wilt u eerst de hoger gestemde antwoorden lezen.