Hva er betydningen av p-verdier og t-verdier i statistiske tester?

Etter å ha tatt et statistikkurs og deretter forsøkt å hjelpe medstudenter, la jeg merke til at et emne som inspirerer til mye banking, er å tolke resultatene av statistiske hypotesetester . Det ser ut til at studentene enkelt lærer å utføre beregningene som kreves av en gitt test, men blir hengt opp i å tolke resultatene. Mange datastyrte verktøy rapporterer testresultater i form av «p-verdier» eller «t-verdier».

Hvordan vil du forklare følgende poeng for studenter som tar sitt første kurs i statistikk:

  • Hva betyr en «p-verdi» i forhold til hypotesen som testes? Er det tilfeller når man skal lete etter en høy p-verdi eller en lav p-verdi?

  • Hva er forholdet mellom en p-verdi og en t-verdi?

Kommentarer

  • En god del av dette dekkes i utgangspunktet av første setning i wikipedia-artikkelen på p-verdier , som riktig definerer en p-verdi. Hvis det ‘ er forstått, blir mye tydeliggjort.
  • Bare få tak i boka: Statistikk uten tårer. Det kan redde sunnheten din !!
  • @ user48700 Kan du oppsummere hvordan Statistikk uten tårer forklarer dette?
  • Noen bør tegne en graf med p-verdirelatert spørsmål over tid og jeg vedder på at vi ‘ Vi ser sesongmessigheten og sammenhengen med akademiske kalendere i høyskoler eller Coursera data science-klasser
  • I tillegg til annen fin og relevant bok anbefalinger i svarene og kommentarene, vil jeg foreslå en annen bok, passende kalt » Hva er en p-verdi likevel? » .

Svar

Forståelse $ p $ -verdi

Anta at du vil teste hypotesen om at gjennomsnittlig høyde for mannlige studenter ved universitetet ditt er $ 5 $ ft $ 7 $ tommer. Du samler høyder på $ 100 $ studenter som er valgt tilfeldig, og beregner gjennomsnittet av eksemplet (si at det viser seg å være $ 5 $ ft $ 9 $ tommer). Ved å bruke en passende formel / statistisk rutine beregner du $ p $ -verdien for hypotesen din og sier at den viser seg å være $ 0,06 $ .

For å tolke $ p = 0,06 $ riktig, bør vi huske på flere ting:

  1. Det første trinnet under klassisk hypotesetesting er antagelsen om at hypotesen som vurderes er sann. (I vår sammenheng antar vi at true gjennomsnittshøyden er $ 5 $ ft $ 7 $ tommer.)

  2. Tenk deg å gjøre følgende beregning: Beregn sannsynligheten for at prøven betyr er større enn $ 5 $ ft $ 9 $ inches forutsatt at hypotesen vår faktisk er riktig (se punkt 1) .

Med andre ord, vi vil vite $$ \ mathrm {P} (\ mathrm {Sample \: mean} \ ge 5 \: \ mathrm {ft} \: 9 \: \ mathrm {inches} \: | \: \ mathrm {True \: value} = 5 \: \ mathrm {ft} \: 7 \: \ mathrm { $$

Beregningen i trinn 2 er det som kalles $ p $ -verdi. Derfor ville en $ p $ -verdi på $ 0,06 $ bety at hvis vi skulle gjenta eksperimentet mange mange ganger (hver gang vi velger $ 100 $ studenter tilfeldig og beregner eksemplet betyr) så $ 6 $ ganger ut av $ 100 $ kan vi forvente å se et eksempel på et gjennomsnitt som er større enn eller lik $ 5 $ ft $ 9 $ inches.

Gitt den ovennevnte forståelsen, bør vi fortsatt beholde antagelsen om at hypotesen vår er sann (se trinn 1)? En $ p = 0,06 $ indikerer at en av to ting har skjedd:

  • (A) Enten er hypotesen vår riktig og en ekstremt usannsynlig hendelse har skjedd (f.eks. alle $ 100 $ studenter er studentutøvere)

eller

  • (B) Antakelsen vår er feil, og prøven vi har fått er ikke så uvanlig.

Den tradisjonelle måten å velge mellom (A) og (B) er å velge en vilkårlig avskjæring for $ p $ . Vi velger (A) hvis $ p > 0.05 $ og (B) hvis $ p < 0,05 $ .

Kommentarer

  • Ta deg god tid! Jeg vil ikke ‘ ikke tenke på å velge en » Beste svar » i en uke eller så.
  • Nå som jeg ‘ har hatt en sjanse til å komme tilbake og lese hele svaret – et stort +1 for elevhøydeeksemplet. Veldig tydelig og godt lagt opp.
  • Fint arbeid … men vi trenger å legge til (C) modellen vår (nedfelt i formelen / statistisk rutine) er feil.
  • A t -verdi (eller annen teststatistikk) er stort sett et mellomtrinn. Det ‘ er i utgangspunktet noen statistikk som ble bevist, under noen forutsetninger, å ha en kjent fordeling. Siden vi kjenner fordelingen av teststatistikken under null, kan vi da bruke standardtabeller (i dag for det meste programvare) for å utlede en p-verdi.
  • Isn ‘ t p-verdien avledet som et resultat av å gjøre chi-kvadrat-testen og deretter fra chi-kvadrat-tabellen? Lurer på hvordan kommer sannsynligheten beregnet ovenfor til å indikere selve p-verdien ?!

Svar

En dialog mellom en lærer og en gjennomtenkt student

ydmyk underkastet i troen på at det ikke er brukt nok fargestifter så langt i denne tråden. En kort illustrert synopsis vises til slutt.


Student : Hva betyr en p-verdi? Mange ser ut til å være enige om at det er sjansen for at vi » ser et eksempel på et gjennomsnitt som er større enn eller lik » en statistikk eller det «s » sannsynligheten for å observere dette resultatet. .. gitt nullhypotesen er sant » eller der » prøven min «s statistikk falt på [en simulert] distribusjon » og til og med » sannsynligheten for å observere en teststatistikk som er minst like stor som den som beregnes forutsatt nullhypotesen, er sann » .

Lærer : Korrekt forstått, alle disse påstandene er korrekte under mange omstendigheter.

Student : Jeg kan ikke se hvordan de fleste av dem er relevante. Lærte du oss ikke at vi må angi en nullhypotese $ H_0 $ og en alternativ hypotese $ H_A $ ? Hvordan er de involvert i disse ideene om » større enn eller lik » eller » minst like stor » eller den veldig populære » mer ekstreme «?

Lærer : Fordi det generelt kan virke komplisert, vil det hjelpe oss å utforske et konkret eksempel?

Student : Jada. Men vær så snill å gjøre det til en realistisk, men enkel hvis du kan.

Lærer : Denne teorien om hypotesetesting begynte historisk med astronomers behov for å analysere observasjonsfeil, så hva med å begynne der. Jeg gikk gjennom noen gamle dokumenter en dag der en forsker beskrev sin innsats for å redusere målefeilen i apparatet sitt. Han hadde tatt mye måling rementene til en stjerne i en kjent posisjon og registrerte deres forskyvninger foran eller bak den posisjonen. For å visualisere disse forskyvningene tegnet han et histogram som – når det ble jevnt ut – så ut som dette.

Figur 1: Histogram over forskyvninger

Student : Jeg husker hvordan histogrammer fungerer: den vertikale aksen er merket » Tetthet » for å minne meg på at de relative frekvensene til målingene er representert av area i stedet for høyde.

Lærer : Det stemmer. En » uvanlig » eller » ekstrem » verdi ville være i en region med ganske lite område. Her er fargestift. Tror du at du kan farge i en region som bare er en tidel av det totale?

Student : Jada; det er lett. [Farger i figuren.]

Figur 2: Eleven

Lærer : Veldig bra! Det ser ut som om 10% av arealet for meg. Husk imidlertid at de eneste områdene i histogrammet som betyr noe er de mellom vertikale linjer: de representerer sjansen eller sannsynlighet for at forskyvningen vil være plassert mellom disse linjene på den horisontale aksen. Det betyr at du trengte å fargelegge helt ned til bunnen, og det ville være over halvparten av området, ville ikke «t det?

Student : Å, jeg skjønner. La meg prøve igjen. Jeg vil fargelegge der kurven er veldig lav, ikke sant? Det er lavest i de to endene.Må jeg fargelegge bare ett område, eller ville det være greit å dele det opp i flere deler?

Lærer : Å bruke flere deler er en smart idé. Hvor ville de være?

Student (peker): Her og her. Fordi dette fargestiften ikke er veldig skarp, brukte jeg en penn for å vise linjene jeg bruker.

Figur 3: Studenten

Lærer : Veldig hyggelig! La meg fortelle deg resten av historien. Forskeren gjorde noen forbedringer på enheten sin, og deretter tok han flere målinger. Han skrev at forskyvningen av den første bare var $ 0,1 $ , som han syntes var et godt tegn, men som en forsiktig forsker fortsatte han å ta flere målinger som en sjekk . Dessverre går de andre målene tapt – manuskriptet bryter av på dette tidspunktet – og alt vi har er det eneste tallet, $ 0.1 $ .

Student : Det er for ille. Men er det ikke så mye bedre enn den store spredningen av forskyvninger i figuren din?

Lærer : At «er spørsmålet jeg vil at du skal svare på. Til å begynne med, hva skal vi stille som $ H_0 $ ?

Student : Vel, en skeptiker vil lure på om forbedringene som ble gjort på enheten, hadde noen effekt i det hele tatt. Bevisbyrden er på forskeren: han vil vise at skeptikeren har feil. Det får meg til å tro nullhypotesen er litt dårlig for forskeren: det står at alle de nye målingene – inkludert verdien av $ 0.1 $ vi vet om – burde oppføre seg som beskrevet av den første histogram. Eller kanskje enda verre enn det: de kan være enda mer spredt.

Lærer : G o på, du har det bra.

Student : Og så er alternativet at de nye målingene ville være mindre spredt, ikke sant? / p>

Lærer : Veldig bra! Kan du tegne et bilde av hvordan et histogram med mindre spredning vil se ut? Her er en annen kopi av det første histogrammet. Du kan tegne oppå det som referanse.

Student (tegning): Jeg bruker en penn for å skissere den nye histogram og jeg fargelegger området under det. Jeg har gjort det slik at det meste av kurven er nær null på den horisontale aksen, og at det meste av området er nær en (horisontal) verdi på null: det er det betyr å være mindre spredt eller mer presis.

Figur 4: Eleven

Lærer : Det er en god start. Men husk at et histogram som viser sjanser skal ha et totalt areal på $ 1 $ . Det totale arealet til det første histogrammet derfor er $ 1 $ . Hvor mye område er inne i det nye histogrammet ditt?

Student : Mindre enn halvparten, tror jeg Jeg ser at «et problem, men jeg vet ikke hvordan jeg skal fikse det. Hva skal jeg gjøre?

Lærer : Trikset er å lage det nye histogrammet høyere enn den gamle slik at dens tota Området er $ 1 $ . Her vil jeg vise deg en datamaskingenerert versjon som skal illustreres.

Figur 5: Læreren

Student : Jeg ser: du strakte den ut vertikalt slik at formen ikke endret seg, men nå er det røde området og det grå området (inkludert delen under det røde) de samme mengdene.

Lærer : Rett. Du ser på et bilde av nullhypotesen (i blått, spredt ut) og del av den alternative hypotesen (i rødt, med mindre spredning).

Student : Hva mener du med » del » av alternativet? Er det ikke bare den alternative hypotesen?

Lærer : Statistikere og grammatikk ser ikke ut til å blandes. 🙂 Seriøst, hva de mener med en » hypotese » er vanligvis et helt stort sett med muligheter. Her er alternativet (som du uttalte så godt før) at målingene er » mindre spredt » enn før. Men hvor mye mindre ? Det er mange muligheter. La meg vise deg en annen. Jeg tegnet den med gule streker. Det står mellom de to foregående.

Figur 6: Nullen sammen med to elementer i alternativet

Student : Jeg ser: du kan ha forskjellige mengder spredning, men du vet ikke på forhånd hvor mye spredningen egentlig vil være. Men hvorfor laget du den morsomme skyggen i dette bildet?

Lærer : Jeg ønsket å markere hvor og hvordan histogrammene er forskjellige. Jeg skyggelagt dem med grått der de alternative histogrammene er lavere enn null og i rødt der alternativene er høyere .

Student : Hvorfor ville det ha betydning?

Lærer : Husker du hvordan du farget det første histogrammet i begge halene? [Ser gjennom papirene.] Ah, her er det.La oss fargelegge dette bildet på samme måte.

Figur 7: Null og alternativ, farget.

Student : Jeg husker: det er de ekstreme verdiene. Jeg fant stedene hvor nulltettheten var så liten som mulig og farget inn 10% av arealet der.

Lærer : Fortell meg om alternativene i de ekstreme områdene.

Student : Det er vanskelig å se, fordi fargestiften dekket det opp, men det ser ut som der » s nesten ingen sjanse for noe alternativ å være i områdene jeg farget. Histogrammene deres er helt nede mot verdiaksen og det er ikke plass til noe område under dem.

Lærer : La oss fortsette den tanken. Hvis jeg hypotetisk fortalte deg at en måling hadde en forskyvning på $ – 2 $ , og ba deg velge hvilken av disse tre histogrammer var det den mest sannsynlig kom fra, hvilken ville det være?

Student : Den første – den blå. Den er mest spredt og det er den eneste der $ – 2 $ ser ut til å ha noen sjanse til å oppstå.

Lærer : Og hva med verdien av $ 0.1 $ i manuskriptet?

Student : Hmmm … som «er annerledes historie. Alle tre histogrammer er ganske høyt over bakken på $ 0,1 $ .

Lærer : OK, greit nok. Men antar at jeg fortalte deg at verdien var et sted nær $ 0,1 $ , som mellom $ 0 $ og $ 0,2 $ . Hjelper det deg å lese noen sannsynligheter utenfor disse grafene?

Student : Visst, fordi jeg kan bruke områder. Jeg må bare estimere områdene under hver kurve mellom $ 0 $ og $ 0.2 $ . Men det ser ganske hardt ut.

Lærer : Du trenger ikke å gå så langt. Kan du bare fortelle hvilket område som er det største?

Student : Den ene under den høyeste kurven, selvfølgelig. Alle tre områdene har samme base, så jo høyere kurven er, desto mer areal er det under den og basen. Det betyr det høyeste histogrammet– den jeg tegnet med de røde bindestrekene – er den mest sannsynlige for en forskyvning av $ 0.1 $ . Jeg tror jeg ser hvor du går med dette, men jeg «litt bekymret: trenger jeg ikke se på alle histogrammene for alle alternativene, ikke bare den ene eller to som vises her? Hvordan kunne jeg muligens gjøre det?

Lærer : Du er flink til å plukke opp mønstre, så fortell meg: når måleinstrumentet blir gjort mer og mer presist, hva skjer med histogrammet?

Student : Det blir smalere – å, og det må også bli høyere, så det totale arealet forblir det samme. Det gjør det ganske vanskelig å sammenligne histogrammer. De alternative er alle høyere enn null til høyre i $ 0 $ , det er åpenbart. Men på andre verdier er alternativene noen ganger høyere og noen ganger lavere! For eksempel [peker på en verdi nær $ 3/4 $ ], akkurat her mitt røde histogram er det laveste, det gule histogrammet er det høyeste, og det opprinnelige null-histogrammet er mellom dem. Men over til høyre er null det høyeste.

Lærer : Generelt er sammenligning av histogrammer en komplisert virksomhet. For å hjelpe oss med det, har jeg bedt datamaskinen om å lage et nytt plot: den har delt hver av de alternative histogramhøydene (eller » tettheter «) med null histogramhøyde, og skaper verdier kjent som » sannsynlighetsforhold. » betyr en verdi større enn $ 1 $ at alternativet er mer sannsynlig, mens en verdi mindre enn $ 1 $ betyr alternativet er mindre sannsynlig. Det har tegnet enda et alternativ: det er mer spredt enn de to andre, men fortsatt mindre spredt enn det opprinnelige apparatet var.

Figur 8: Sannsynlighetsforhold

Lærer (fortsetter): Kan du vise meg hvor alternativene har en tendens til å være mer sannsynlig enn null?

Student (fargelegging): Her i midten, tydeligvis. Og fordi dette ikke er histogrammer lenger, antar jeg at vi burde se på høyder i stedet for områder, så jeg markerer bare et verdiområde på den horisontale aksen. Men hvordan vet jeg hvor mye av midten å farge inn? Hvor slutter jeg å fargelegge?

Figur 9: Markerte opp sannsynlighetsforhold plott

Lærer : Det er ingen faste regler. Alt avhenger av hvordan vi planlegger å bruke konklusjonene våre og hvor sterke skeptikerne er.Men lene deg tilbake og tenk på hva du har oppnådd: du innser nå at resultater med store sannsynlighetsforhold er bevis for alternativet og resultater med små sannsynlighetsforhold er bevis mot alternativet . Det jeg vil be deg om å gjøre er å fargelegge et område som, i den grad det er mulig, har en liten sjanse for å oppstå under nullhypotesen og en relativt stor sjanse for å oppstå under alternativene. Når du går tilbake til det første diagrammet du farget, langt tilbake i begynnelsen av samtalen din, farget du inn de to halene til null fordi de var » ekstreme. » Vil de fortsatt gjøre en god jobb?

Student : Jeg tror ikke det. Selv om de var ganske ekstreme og sjeldne under nullhypotesen, de er praktisk talt umulige for noen av alternativene. Hvis den nye målingen min var, si $ 3,0 $ , tror jeg at jeg vil stå sammen med skeptikeren og benekte at noen forbedring hadde skjedd, selv om $ 3,0 $ uansett var et uvanlig resultat. Jeg vil endre fargen. Her – la meg ta en ny fargestift.

Figur 10: Forbedret markering

Lærer : Hva representerer det?

Student : Vi begynte med at du ba meg tegne bare 10% av arealet under det opprinnelige histogrammet – den som beskriver null. Så nå Jeg tegnet inn 10% av området der alternativene synes mer sannsynlig å forekomme. Jeg tror at når en ny måling er i dette området, forteller den oss at vi burde tro på alternativet.

Lærer : Og hvordan skal skeptikeren reagere på det?

Student : En skeptiker trenger aldri å innrømme at han har feil, er det ikke? Men jeg tror at hans tro skal være litt rystet. Tross alt ordnet vi det slik at selv om en måling kunne være inne i området jeg nettopp tegnet, har den bare 10% sjanse for å være der når null er sant. Og den har større sjanse for å være der når alternativet er sant. Jeg kan bare ikke fortelle deg hvor mye større er sjansen, fordi det vil avhenge av hvor mye forskeren forbedret apparatet. Jeg vet bare at det er større. Så bevisene ville være mot skeptikeren.

Lærer : Greit. Har du noe imot å oppsummere forståelsen din slik at vi er helt klare på hva du har lært?

Student : Jeg lærte at for å sammenligne alternative hypoteser med nullhypoteser, bør vi sammenligne deres histogrammer. Vi deler tettheten til alternativene med tettheten til null: det er det du kalte » sannsynlighetsforholdet. » For å gjøre en god test, bør jeg velge et lite antall som 10% eller hva som helst som er nok til å riste en skeptiker. Da bør jeg finne verdier der sannsynlighetsforholdet er så høyt som mulig og fargelegge dem inntil 10% (eller hva som helst) er farget.

Lærer : Og hvordan vil du bruke den fargingen?

Student : Som du minnet meg om tidligere, må fargen være mellom loddrette linjer. Verdier (på den horisontale aksen) som ligger under fargingen, er bevis mot nullhypotesen. Andre verdier – vel, det er vanskelig å si hva de kan bety uten å se nærmere på alle histogramene som er involvert.

Lærer : Gå tilbake til verdien av $ 0.1 $ i manuskriptet, hva vil du konkludere med?

Student : Det er innenfor området jeg sist farget , så jeg tror forskeren sannsynligvis hadde rett og apparatet ble virkelig forbedret.

Lærer : En siste ting. Konklusjonen din var basert på å velge 10% som kriterium, eller » størrelse » av testen. Mange liker å bruke 5% i stedet. Noen foretrekker 1%. Hva kan du fortelle dem?

Student : Jeg kunne ikke gjøre alle testene samtidig! Vel, kanskje jeg kunne på en måte. Jeg kan se at uansett hvilken størrelse testen burde være, jeg burde begynne å fargelegge fra $ 0 $ , som i denne forstand er » mest ekstreme » verdi, og arbeid utover i begge retninger derfra. Hvis jeg skulle stoppe rett ved $ 0,1 $ – verdien som faktisk ble observert –Jeg tror jeg ville ha farget i et område mellom $ 0,05 $ og $ 0,1 $ , si $ 0,08 $ . 5% og 1% folk kunne fortelle med en gang at jeg farget for mye: hvis de ville fargelegge bare 5% eller 1%, kunne de, men de ville ikke «t komme så langt ut som $ 0,1 $ . De ville ikke komme til den samme konklusjonen som jeg gjorde: de ville si at det ikke er nok bevis for at en endring faktisk skjedde.

Lærer : Du har nettopp fortalt meg hva alle disse sitatene i begynnelsen virkelig betyr.Det burde være åpenbart fra dette eksemplet at de umulig kan tenke seg » mer ekstreme » eller » større enn eller lik » eller » minst like stor » i betydningen å ha en større verdi eller til og med å ha en verdi der null tettheten er liten. De mener virkelig disse tingene i betydningen store sannsynlighetsforhold som du har beskrevet. Forresten, tallet rundt $ 0,08 $ som du beregnet, heter » p-verdien. » Det kan bare forstås på den måten du har beskrevet: med hensyn til en analyse av relative histogramhøyder – sannsynlighetsforholdene.

Student : Takk skal du ha. Jeg er ikke sikker på at jeg forstår alt dette ennå, men du har gitt meg mye å tenke på.

Lærer : Hvis du vil gå lenger, ta en se på Neyman-Pearson Lemma . Du er sannsynligvis klar til å forstå det nå.


Synopsis

Mange tester som er basert på en enkelt statistikk som den i dialogboksen, vil kalle den » $ z $ » eller » $ t $ «. Dette er måter å antyde hvordan nullhistogrammet ser ut, men de er bare hint: hva vi kaller dette nummeret, betyr ikke noe. Konstruksjonen oppsummert av studenten, som illustrert her, viser hvordan den er relatert til p-verdien. P-verdien er den minste teststørrelsen som vil føre til at en observasjon av $ t = 0.1 $ fører til en avvisning av nullhypotesen.

Figur 11: p-verdi som et område.

I denne figuren, som er zoomet for å vise detaljer, er nullhypotesen tegnet inn solid blå og to typiske alternativer er tegnet med stiplete linjer. Regionen der alternativene har en tendens til å være mye større enn null er skyggelagt i. Skyggelegging starter der de relative sannsynlighetene for alternativene er størst (ved $ 0 $ ). Skyggelegging stopper når observasjonen $ t = 0.1 $ er nådd. P-verdien er området til det skyggelagte området under nullhistogrammet: det er sjansen, forutsatt at null er sant, å observere et utfall hvis sannsynlighetsforhold har en tendens til å være stor uavhengig av hvilket alternativ som skjer. Spesielt avhenger denne konstruksjonen nært av den alternative hypotesen. Det kan ikke utføres uten å spesifisere de mulige alternativene.


For to praktiske eksempler på testen beskrevet her – den ene er publisert, den andre er hypotetisk – se https://stats.stackexchange.com/a/5408/919 .

Kommentarer

  • Dette har behandlet utmerket min kommentar til et annet svar, at ingen av de tidligere svarene på dette spørsmålet generelt hadde taklet det ofte hørte » eller mer ekstreme » aspekt av et p -verdi. (Selv om » te-testing » svaret inkluderte et godt spesifikt eksempel.) Jeg beundrer spesielt måten dette eksemplet bevisst er konstruert for å markere at » mer ekstrem » kan bety tvert imot » større » eller » lenger fra null «.
  • Jeg skulle ønske at lærere og lærebøker ikke brukte ‘ t frasen » eller mer ekstrem «, egentlig. To varianter jeg har hørt kan bli omskrevet som » gunstigere mot $ H_1 $ » eller » mer overbevisende av $ H_1 $ «. I dette tilfellet ville verdier nærmere null faktisk være mer overbevisende at teleskopet har blitt mer pålitelig, men det krever litt språklig akrobatikk (plausibelt argumentert, men potensielt forvirrende) for å beskrive dem som » mer ekstrem «.
  • Unikt innsiktsfull som alltid, takk for at du tok deg tid til å skrive ut de utrolig nyttige svarene. Jeg lurer virkelig på hvorfor lærebøker aldri er skrevet på en måte som tilbyr noen steder i nærheten av disse nivåene av klarhet og intuisjon.
  • Det ‘ er farlig å bruke sarkasme i en kommentar , @baxx, fordi ‘ ikke nok plass tillot oss å gjøre det høflig og elegant. Derfor er det ‘ vanligvis ikke en god ide å anta at en kommentar er sarkastisk med mindre den eksplisitt forteller deg det.Anta bare at kommentarer er ment å hjelpe deg. Hvis du bare ville følge det aller første treffet i søket jeg ga, tror jeg at spørsmålene dine ville bli besvart.
  • Rett og slett fantastisk! Takk @whuber!

Svar

Før jeg berører dette emnet, sørger jeg alltid for at elevene flytter gjerne mellom prosent, desimaler, odds og brøk. Hvis de ikke er helt fornøyd med dette, kan de bli veldig forvirrede.

Jeg liker å forklare hypotesetesting for første gang (og derfor p-verdier og teststatistikk) gjennom Fisher » s klassiske teeksperiment. Jeg har flere grunner til dette:

(i) Jeg tror det er mer fornuftig å jobbe gjennom et eksperiment og definere begrepene mens vi går, bare å definere alle disse begrepene til å begynne med. (ii) Du trenger ikke å stole eksplisitt på sannsynlighetsfordelinger, områder under kurven osv. for å komme over nøkkelpunktene for hypotesetesting. (iii) Det forklarer denne latterlige forestillingen om «som eller mer ekstrem enn de som er observert» på en ganske fornuftig måte. (iv) Jeg synes at studenter liker å forstå historien, opprinnelsen og historien bak det de studerer, ettersom det gjør det mer ekte enn noen abstrakte teorier. (v) Det spiller ingen rolle hvilken disiplin eller emne studentene kommer fra, de kan forholde seg til eksemplet med te (NB Noen internasjonale studenter har problemer med denne særegne britiske institusjonen for te med melk.)

[Merk: Jeg fikk opprinnelig denne ideen fra Dennis Lindleys fantastiske artikkel «The Analysis of Experimental Data: The Appreciation of Tea & Vin der han demonstrerer hvorfor Bayesianske metoder er overlegne klassiske metoder.]

Historien bak er at Muriel Bristol besøker Fisher en ettermiddag på 1920-tallet på Rothamsted Experimental Station for en kopp te. Da Fisher satte melk inn sist klaget hun og sa at hun kunne fortell også om melken ble hellet først (eller sist) og at hun foretrakk den førstnevnte. For å sette dette på prøve designet han sitt klassiske teeksperiment der Muriel får presentert et par tekopper og hun må identifisere hvilken som hadde melken først lagt til. Dette gjentas med seks par tekopper isene er enten riktig (R) eller feil (W) og resultatene hennes er: RRRRRW.

Anta at Muriel faktisk bare gjetter og ikke har noen evne til å diskriminere noe som helst. Dette kalles Null hypotese . I følge Fisher er formålet med eksperimentet å miskreditere denne nullhypotesen. Hvis Muriel gjetter, vil hun identifisere tekoppen riktig med sannsynlighet 0,5 for hver sving, og siden de er uavhengige, har det observerte resultatet 0,5 $ ^ 6 $ = 0,016 (eller 1/64). Fisher hevder da at enten:

(a) nullhypotesen (Muriel gjetter) er sant og en hendelse med liten sannsynlighet har skjedd eller,

(b) nullhypotesen er falsk og Muriel har diskriminerende krefter.

P-verdien (eller sannsynlighetsverdien) er sannsynligheten for å observere dette utfallet (RRRRRW) gitt nullhypotesen er sann – det er den lille sannsynligheten det er referert til i (a) , over. I dette tilfellet er det 0,016. Siden hendelser med små sannsynligheter bare forekommer sjelden (per definisjon) kan situasjon (b) være en mer foretrukket forklaring på hva som skjedde enn situasjon (a). Når vi avviser nullhypotesen, aksepterer vi faktisk den motsatte hypotesen som vi kaller den alternative hypotesen. I dette eksemplet har Muriel diskriminerende krefter som den alternative hypotesen.

En viktig betraktning er hva gjør vi klasse som en «liten» sannsynlighet? Hva er skjæringspunktet der vi er villige til å si at en hendelse er usannsynlig? Standard referanseindeks er 5% (0,05) og dette kalles signifikansnivået. Når p-verdien er mindre enn signifikansnivået vi avviser nullhypotesen som falsk og aksepterer vår alternative hypotese. Det er vanlig språkbruk å hevde at et resultat er «signifikant» når p-verdien er mindre enn signifikansnivået, dvs. når sannsynligheten for det vi observert forekommer gitt nullhypotesen er sant er mindre enn grensepunktet vårt. Det er viktig å være tydelig på at bruk av 5% er helt subjektiv (som det er å bruke de andre vanlige signifikansnivåene på 1% og 10%). p> Fisher innså at dette ikke gjør det arbeid; alle mulige utfall med ett feil par var like tydelige for diskriminerende krefter. Den relevante sannsynligheten for situasjon (a) ovenfor er derfor 6 (0.5) ^ 6 = 0.094 (eller 6/64) som nå er ikke signifikant på et signifikansnivå på 5%. For å overvinne dette hevdet Fisher at hvis 1 feil i 6 betraktes som bevis på diskriminerende krefter, så er det ingen feil, dvs.utfall som sterkere indikerer diskriminerende krefter enn den som er observert, bør inkluderes ved beregning av p-verdien. Dette resulterte i følgende endring av resonnementet, enten:

(a) nullhypotesen (Muriel gjetter) er sant og sannsynligheten for hendelser som, eller mer, ekstreme enn det som er observert er liten, eller

(b) nullhypotesen er falsk og Muriel har diskriminerende krefter.

Tilbake til vårt teeksperiment, og vi finner at p-verdien under denne oppsettet er 7 (0,5 ) ^ 6 = 0,109 som fremdeles ikke er signifikant ved 5% terskelen.

Så får jeg studentene til å jobbe med noen andre eksempler som myntkasting for å finne ut om en mynt er rettferdig. Dette borer hjem begrepene null / alternativ hypotese, p-verdier og signifikansnivåer. Vi går deretter over tilfellet med en kontinuerlig variabel og introduserer forestillingen om en teststatistikk. Som vi allerede har dekket normalfordelingen, standardnormalfordelingen og z-transformasjonen i dybden, handler det bare om å boltre sammen flere konsepter.

I tillegg til å beregne teststatistikk, p-verdier og å ta en avgjørelse (betydelig / ikke signifikant) Jeg får studentene til å jobbe gjennom publiserte artikler i fyll i det manglende blankspillet.

Kommentarer

  • I vet jeg ‘ jeg gjenoppliver en veldig gammel tråd, men her går det … Jeg gledet meg veldig over svaret ditt, men jeg savner t-verdien i den 🙁 Kunne du vennligst bruk de gitte eksemplene dine for å snakke om det? Ingen svarte om t-testdelen
  • @sosi Det ‘ er sannsynligvis fordi p-verdier er mye mer generelt enn t-verdier. Det ‘ er som å stille et spørsmål om biler og deretter om bremsene på en Ford Fiesta.
  • Svaret er veldig interessant (+ 1), men noen ting forveksles sammen på slutten. 1. W hatt betyr det at en $ p $ -verdi er » signifikant på 5% -nivået «? Enten er $ p $ -verdien under 5%, eller så er den ikke. Jeg ser ikke ‘ poenget med å bruke en slik uklar setning, slik at » betydning » udefinert. 2. Hva betyr det å » bestemme » om en $ p $ -verdi er viktig? Det virker ikke berettiget å bringe inn beslutningsteori i blandingen på denne måten (spesielt siden Fisher var en sterk motstander av anvendelsen av Neyman-Pearson-testrammeverket i vitenskapene.)

Svar

Ingen mengde verbal forklaring eller beregninger hjalp meg virkelig til å forstå på tarmnivå hva p-verdier var, men det gikk virkelig i fokus for meg når jeg tok et kurs som involverte simulering. Det ga meg muligheten til å faktisk se data generert av nullhypotesen og å plotte middel / etc. av simulerte prøver, så se på hvor statistikken til prøven min falt på den fordelingen.

Jeg tror den viktigste fordelen med dette er at den lar elevene glemme matematikk- og teststatistikkfordelingen i et minutt og fokus på konseptene for hånden. Gitt, det krevde at jeg lærte hvordan å simulere de tingene, noe som vil gi problemer for et helt annet sett med studenter. Men det fungerte for meg, og jeg har brukt simulering utallige ganger for å forklare statistikk for andre med stor suksess (f.eks. «Slik ser dataene dine ut. Slik ser en Poisson-distribusjon ut som overlappet. Er du SIKKER på at du vil gjøre en Poisson-regresjon?»).

Dette svarer ikke nøyaktig på spørsmålene du stilte, men for meg gjorde det dem i det minste trivielle.

Kommentarer

  • Jeg er helhjertet enig i bruken av simulering for å forklare dette. Men bare et lite notat på eksemplet til slutt: Jeg finner ut at folk (ikke bare studenter) finner det di vanskelig å skille for en bestemt distribusjonsforutsetning, f.eks. poisson, mellom å være marginalt poisson distribuert og å være betinget poisson distribuert. Siden bare sistnevnte har betydning for en regresjonsmodell, trenger en haug med avhengige variable verdier som ikke er ‘ t poisson, ikke nødvendigvis noen grunn til bekymring.
  • Jeg har å innrømme at jeg ikke ‘ ikke visste det. Jeg ‘ har satt stor pris på kommentarene dine på dette nettstedet de siste dagene av medlemskapet ditt – jeg håper du ‘ holder fast.
  • @MattParker kjenner du til noen læringsressurser som er fokusert på bruk av simulering for å utvikle forståelse? Eller er det bare å sette sammen noen python / R-skript sammen og kjøre en haug med tester?
  • @baxx The [Seeing Theory website of Daniel Kunin] (students.brown.edu/seeing-theory/ ) har noen interessante verktøy for dette, men det ‘ er fortsatt under konstruksjon.Ellers, ja, jeg ‘ har stort sett bare eksperimentert med R ‘ s innebygde verktøy for simulering – ved hjelp av dem for å bevise for meg selv hvordan noen metoder fungerer, eller for å se hva som ville skje hvis en prediktor ble erstattet med en tilfeldig variabel, etc. Beklager, jeg skulle ønske jeg visste om bedre ressurser for dette!
  • @MattParker kult takk. Ja – litt kylling og egg i det, for å konstruere eksperimentene trenger du (antar jeg?) I det minste å få nok til å skrive dem. Ingen bekymringer skjønt ….. Bare sjekket nettstedet du lenket, det ‘ er fint, takk

Svar

En fin definisjon av p-verdi er «sannsynligheten for å observere en teststatistikk som er minst like stor som den som beregnes forutsatt at nullhypotesen er sann».

Problemet med det er at det krever forståelse av «teststatistikk» og «nullhypotese». Men det er lett å komme seg over. Hvis nullhypotesen er sant, er vanligvis noe som «parameter fra populasjon A lik parameter fra populasjon B», og du beregner statistikk for å estimere disse parametrene, hva er sannsynligheten for å se en teststatistikk som sier «de» er dette annerledes «?

F.eks. Hvis mynten er rettferdig, hva er sannsynligheten for at jeg vil se 60 hoder av 100 kast? Det tester nullhypotesen , «mynten er rettferdig», eller «p = .5» der p er sannsynligheten for hoder.

Teststatistikken i så fall vil være antall hoder.

Nå antar jeg at at det du «kaller» t-verdi «er en generisk» teststatistikk «, ikke en verdi fra en» t-fordeling «. De» er ikke det samme, og begrepet «t-verdi» er ikke «nødvendigvis» mye brukt og kan være forvirrende.

Det du kaller «t-verdi» er sannsynligvis det jeg kaller «teststatistikk». For å beregne en p-verdi (husk at det bare er en sannsynlighet) trenger du en fordeling og en verdi å plugge inn i den fordelingen som vil gi en sannsynlighet. Når du har gjort det, er sannsynligheten du returnerer din p-verdi. Du kan se at de er beslektede fordi forskjellige teststatistikker under samme distribusjon vil gi forskjellige p-verdier. Mer ekstrem teststatistikk vil gi lavere p-verdier som gir større indikasjon på at nullhypotesen er falsk.

Jeg har ignorert problemet med ensidige og tosidige p-verdier her.

Svar

Tenk deg at du har en pose som inneholder 900 svarte kuler og 100 hvite, dvs. 10% av kulene er hvite. Tenk deg at du tar 1 marmor ut, ser på den og registrerer fargen, tar ut en annen, registrerer fargen osv. … og gjør dette 100 ganger. På slutten av denne prosessen vil du ha et nummer for hvite kuler som ideelt sett forventer vi å være 10, dvs. 10% av 100, men faktisk kan være 8, eller 13 eller hva som helst rett og slett på grunn av tilfeldighet. Hvis du gjentar dette 100 marmoruttaket eksperimentet mange, mange ganger og deretter tegner et histogram av antall hvite kuler tegnet per eksperiment, vil du finne at du vil ha en Bell Curve sentrert rundt 10.

Dette representerer hypotesen på 10%: med en pose som inneholder 1000 kuler, hvorav 10% er hvite, hvis du tilfeldig tar ut 100 kuler, vil du finne 10 hvite kuler i utvalget, gi eller ta 4 eller så. P-verdien handler om denne «gi eller ta 4 eller så.» La oss si ved å referere til Bell Curve opprettet tidligere, kan du bestemme at mindre enn 5% av tiden vil du få 5 eller færre hvite kuler og en annen < 5% av tiden utgjør 15 eller flere hvite kuler, dvs.> 90% av tiden ditt utvalg av 100 marmor vil inneholde mellom 6 og 14 hvite kuler inkludert.

Forutsatt at noen legger ned en pose med 1000 kuler med et ukjent antall hvite kuler i den, har vi verktøyene for å svare på disse spørsmålene

i) Er det færre enn 100 hvite kuler?

ii) Er det mer enn 100 hvite kuler?

iii) Inneholder posen 100 hvite kuler?

Bare ta ut 100 kuler fra posen og tell hvor mange av denne prøven som er hvite.

a) Hvis det er er 6 til 14 hvite i prøven, kan du ikke avvise hypotesen om at det er 100 hvite kuler i posen, og de tilsvarende p-verdiene for 6 til 14 vil være> 0,05.

b) Hvis det er 5 eller færre hvite i prøven du kan reje ct hypotesen om at det er 100 hvite kuler i posen og de tilsvarende p-verdiene for 5 eller færre vil være < 0,05. Du forventer at posen inneholder < 10% hvite kuler.

c) Hvis det er 15 hvite i prøven, kan du avvise hypotesen om at det er 100 hvite klinkekuler i posen og de tilsvarende p-verdiene for 15 eller mer vil være < 0,05. Du forventer at vesken inneholder> 10% hvite kuler.

Som svar på Baltimarks kommentar

Gitt eksemplet ovenfor, er det ca. : –

4.8% sjanse for getter 5 hvite baller eller færre

1,85% sjanse for 4 eller færre

0,55% sjanse for 3 eller færre

0,1% sjanse for 2 eller færre

6,25% sjanse for 15 eller mer

3,25% sjanse for 16 eller mer

1,5% sjanse for 17 eller mer

0,65% sjanse for 18 eller mer

0,25% sjanse for 19 eller mer

0,1% sjanse for 20 eller mer

0,05% sjanse for 21 eller mer

Disse tallene ble estimert fra en empirisk fordeling generert av en enkel Monte Carlo-rutine kjørt i R og de resulterende kvantilene av samplingsfordelingen.

For å svare på det opprinnelige spørsmålet, antar at du tegner 5 hvite kuler, er det bare en omtrentlig 4,8% sjanse for at hvis 1000 marmorposen virkelig inneholder 10% hvite kuler, vil du bare trekke ut 5 hvite i et utvalg på 100. Dette tilsvarer ap-verdi < 0,05. Du må nå velge mellom

i) Det er virkelig 10% hvite kuler i posen, og jeg har nettopp vært «uheldig» å tegne så få

eller

ii) Jeg har tegnet så få hvite kuler at det virkelig ikke kan være 10% hvite kuler (avvis hypotesen om 10% hvite kuler)

Kommentarer

  • Først og fremst er dette bare et stort eksempel og forklarer ikke ‘ egentlig begrepet p-verdi og teststatistikk. For det andre, du ‘ hevder bare at hvis du får færre enn 5 eller mer enn 15 hvite kuler, avviser du nullhypotesen. Hva ‘ er din distribusjon som du ‘ beregner sannsynlighetene fra? Dette kan tilnærmes med en normal distanse sentrert på 10, med et standardavvik på 3. Dine avvisningskriterier er ikke så strenge nok.
  • Jeg er enig i at dette bare er et eksempel, og det er sant at jeg bare valgte tallene 5 og 15 ut av a ir for illustrasjonsformål. Når jeg har tid, legger jeg ut et nytt svar, som jeg håper blir mer fullstendig.

Svar

Hva p-verdien ikke forteller deg, er hvor sannsynlig det er at nullhypotesen er sann. Under det konvensjonelle (Fisher) betydningstestingsrammeverket beregner vi først sannsynligheten for å observere dataene forutsatt at nullhypotesen er sann, dette er p-verdi. Det virker intuitivt rimelig å anta at nullhypotesen sannsynligvis er falsk hvis det er lite sannsynlig at dataene blir observert under nullhypotesen. Dette er helt rimelig. Statistikere bruker tradisjonelt en terskel og «avviser nullhypotesen på 95 % signifikansnivå «hvis (1 – p)> 0,95; men dette er bare en konvensjon som har vist seg å være rimelig i praksis – det betyr ikke at det er mindre enn 5% sannsynlighet for at nullhypotesen er falsk (og derfor en 95 % sannsynlighet for at den alternative hypotesen er sann). En grunn til at vi ikke kan si dette er at vi ikke har sett på den alternative hypotesen ennå.

Imaging en funksjon f () som kartlegger p-verdien på sannsynligheten for at den alternative hypotesen er sann. Det ville være rimelig å hevde at denne funksjonen er strengt synkende (slik at jo mer sannsynlig observasjonene under nullhypotesen er, desto mindre sannsynlig er den alternative hypotesen), og at den gir verdier mellom 0 og 1 (da den gir et estimat Det er imidlertid alt vi vet om f (), så mens det er en sammenheng mellom p og sannsynligheten for at den alternative hypotesen er sant, er den ukalibrert. Dette betyr at vi ikke kan bruke p-verdien til å lage kvantitative utsagn om plausibiliteten til nulll- og alternatvehypotesene.

Advarsel lector: Det er egentlig ikke innenfor det hyppige rammeverket å snakke om sannsynligheten for at en hypotese er sann, da den ikke er en tilfeldig variabel – det er enten sant, eller det er ikke det. Så der jeg har snakket om sannsynligheten for sannheten til en hypotese, har jeg implisitt flyttet til en Bayesisk tolkning. Det er feil å blande Bayesian og frequentist, men det er alltid en fristelse til å gjøre det, ettersom det vi virkelig ønsker er en kvantitativ indikasjon på hypotesenes relative sannsynlighet / sannsynlighet. Men dette gir ikke p-verdien.

Svar

I statistikk kan du aldri si at noe er helt sikkert, så statistikere bruker en annen tilnærming for å måle om en hypotese er sann eller ikke. De prøver å avvise alle de andre hypotesene som ikke støttes av dataene.

For å gjøre dette har statistiske tester en nullhypotese og en alternativ hypotese. P-verdien rapportert fra en statistisk test er sannsynligheten for resultatet gitt at nullhypotesen var riktig. Derfor vil vi ha små p-verdier. Jo mindre de er, desto mindre sannsynlig vil resultatet være hvis nullhypotesen var riktig. Hvis p-verdien er liten nok (dvs. det er svært lite sannsynlig at resultatet har oppstod hvis nullhypotesen var riktig), avvises nullhypotesen.

På denne måten kan nullhypoteser formuleres og deretter avvises. Hvis nullhypotesen blir avvist, godtar du den alternative hypotesen som den beste forklaringen. Bare husk at den alternative hypotesen aldri er sikker, siden nullhypotesen tilfeldigvis kunne ha generert resultatene.

Kommentarer

  • a p -verdi er sannsynligheten for et resultat som eller mer » ekstrem » enn det gitte resultatet, ikke av det faktiske resultatet. p-verdi er $ Pr (T \ geq t | H_0) $ og ikke $ Pr (T = t | H_0) $ (T er teststatistikk, og t er dens observerte verdi).

Svar

Jeg er litt diffust for å gjenopplive det gamle emnet, men jeg hoppet fra her , så jeg legger ut dette som et svar på spørsmålet i lenken.

P-verdien er et konkret begrep, det skal ikke være rom for misforståelse. Men det er på en eller annen måte mystisk at alle oversettelser av definisjonen av p-verdi fører til mange forskjellige feiltolkninger. Jeg tror roten til problemet ligger i bruken av uttrykkene «minst like ugunstig for nullhypotesen» eller «minst like ekstrem som den i eksempeldataene dine» osv.

For eksempel Wikipedia sier

… p-verdien er sannsynligheten for å oppnå de observerte prøveresultatene (eller et mer ekstremt resultat) når nullhypotesen faktisk er sant .

Betydningen av $ p $ -verdi er uskarpt når folk først snubler over «(eller et mer ekstremt resultat)» og begynner å tenke « mer extreeeme ? «.

Jeg synes det er bedre å overlate det» mer ekstreme resultatet «til noe som indirekte talehandling . Så, min oppfatning er

P-verdien er sannsynligheten for å se det du ser i en «imaginær verden» der nullhypotesen er sann.

For å gjøre ideen konkret, antar at du har prøve x bestående av 10 observasjoner, og du antar at populasjonen gjennomsnittet er $ \ mu_0 = 20 $. Så i din hypoteserte verden er befolkningsfordelingen $ N (20,1) $.

x #[1] 20.82600 19.30229 18.74753 18.99071 20.14312 16.76647 #[7] 18.94962 17.99331 19.22598 18.68633 

Du beregner t-stat som $ t_0 = \ sqrt {n} \ frac {\ bar {X} – \ mu_0} {s} $, og finn ut at

sqrt(10) * (mean(x) - 20) / sd(x) #-2.974405 

Så hva er sannsynligheten for å observere $ | t_0 | $ så stor som 2,97 («mer ekstrem» kommer her) i imaginær verden? I den imaginære verden $ t_0 \ sim t (9) $, må derfor p-verdien være $$ p-verdi = Pr (| t_0 | \ geq 2.97) = 0.01559054 $$

2*(1 - pt(2.974405, 9)) #[1] 0.01559054 

Siden p-verdien er liten, er det svært lite sannsynlig at prøven x ville blitt tegnet i den hypoteserte verden. Derfor konkluderer vi med at det er svært lite sannsynlig at den hypoteserte verden faktisk var den faktiske verden.

Kommentarer

  • +1, men når du skriver » sannsynligheten for å se det du ser » og utelate » mer ekstrem » del, denne setningen blir strengt tatt falsk (og potensielt misvisende, selv om den kanskje er mindre forvirrende). Det er ikke sannsynligheten for å se det du ser (dette er vanligvis null). Det er sannsynligheten for å se det du ser » eller mer ekstremt «. Selv om dette kan være en forvirrende bit for mange, er det fremdeles avgjørende (og man kan argumentere uendelig om graden av subjektivitet som gjemmer seg bak denne » mer ekstreme » formulering).
  • @amoeba Jeg trodde, når tilstrekkelig eksempel ble gitt, kunne det fungere som en fullmektig for » å oppnå de observerte eksempler på resultater (eller et mer ekstremt resultat) «. Kanskje det er behov for bedre ordlyd.
  • Jeg skulle gjøre den samme observasjonen som @amoeba; » eller mer ekstrem » -delen håndteres godt ved eksempel i studenthøyder og teselskapssvar, men jeg gjør ikke ‘ t tror at noen svar i denne tråden har truffet en klar generell forklaring på den, særlig en som dekker forskjellige alternative hypoteser. Jeg er enig i dette svaret og antyder at delen » eller mer ekstrem » er et begrepsmessig fastpunkt for mange studenter.
  • @ Silverfish: og ikke bare studenter. Hvor mange Bayesian-vs-hyppige hevder har jeg lest som diskuterer subjektivitets- / objektivitetsproblemet med denne » mer ekstreme » bit!
  • @ Silver Jeg er enig i kritikken din og har lagt ut et svar som prøver å løse det. » Eller mer ekstrem » er selve kjernen i saken.

Svar

Jeg har også funnet simuleringer som nyttige i undervisningen.

Her er en simulering for det uten tvil mest grunnleggende tilfellet der vi prøver $ n $ ganger fra $ N (\ mu, 1) $ (derfor er $ \ sigma ^ 2 = 1 $ kjent for enkelhet ) og test $ H_0: \ mu = \ mu_0 $ mot et venstresidig alternativ.

Deretter er $ t $ -statistikk $ \ text {tstat}: = \ sqrt {n} (\ bar {X} – \ mu_0) $ $ N (0,1) $ under $ H_0 $, slik at $ p $ -verdien ganske enkelt er $ \ Phi (\ text {tstat}) $ eller pnorm(tstat) i R.

I simuleringen , er det brøkdelen av ganger data generert under null $ N (\ mu_0,1) $ (her, $ \ mu_0 = 2 $) gir eksempler som er lagret i nullMeans er mindre (dvs. « mer ekstrem i denne venstresidige testen) enn den som er beregnet ut fra de observerte dataene.

# p value set.seed(1) reps <- 1000 n <- 100 mu <- 1.85 # true value mu_0 <- 2 # null value xaxis <- seq(-3, 3, length = 100) X <- rnorm(n,mu) nullMeans <- counter <- rep(NA,reps) yvals <- jitter(rep(0,reps),2) for (i in 1:reps) { tstat <- sqrt(n)*(mean(X)-mu_0) # test statistic, N(0,1) under the given assumptions par(mfrow=c(1,3)) plot(xaxis,dnorm(xaxis),ylab="null distribution",xlab="possible test statistics",type="l") points(tstat,0,cex=2,col="salmon",pch=21,bg="salmon") X_null <- rnorm(n,mu_0) # generate data under H_0 nullMeans[i] <- mean(X_null) plot(nullMeans[1:i],yvals[1:i],col="blue",pch=21,xlab="actual means and those generated under the null",ylab="", yaxt="n",ylim=c(-1,1),xlim=c(1.5,2.5)) abline(v=mu_0,lty=2) points(mean(X),0,cex=4,col="salmon",pch=21,bg="salmon") # counts 1 if sample generated under H_0 is more extreme: counter[i] <- (nullMeans[i] < mean(X)) # i.e. we test against H_1: mu < mu_0 barplot(table(counter[1:i])/i,col=c("green","red"),xlab="more extreme mean under the null than the mean actually observed") if(i<10) locator(1) } mean(counter) pnorm(tstat) 

Svar

Jeg synes det er nyttig å følge en sekvens der du forklarer begreper i følgende rekkefølge: (1) z-poengsummen og proporsjoner over og under z-poenget forutsatt at normal kurve. (2) Forestillingen om en samplingsfordeling og z-poengsummen for et gitt utvalg betyr når populasjonsstandardavviket er kjent (og derfra den ene prøven z-testen) (3) En-prøve t-testen og sannsynligheten for en prøve betyr når populasjonsstandardavviket er ukjent (fylt med historier om den hemmelige identiteten til en viss industristatistiker og hvorfor Guinness er bra for statistikk). (4) T-test med to prøver og fordeling av prøvetaking av gjennomsnittlige forskjeller. Den enkle måten introduksjonsstudenter forstår t-testen har mye å gjøre med grunnlaget som legges som forberedelse til dette emnet.

/ * instruktør for livredd studentmodus av * /

Svar

Hva betyr en «p-verdi» i forhold til hypotesen som testes?

I ontologisk forstand (hva er sannhet?) betyr det ingenting . Enhver hypotesetesting er basert på uprøvde forutsetninger . Dette er normalt en del av selve testen, men er også en del av hvilken modell du bruker (f.eks. I en regresjonsmodell). Siden vi bare antar disse, kan vi ikke vite om grunnen til at p-verdien er under vår terskel er fordi null er falsk. Det er en non sequitur å utlede ubetinget at vi på grunn av en lav p-verdi må avvise null. For eksempel kan noe i modellen være galt.

I en epistemologisk forstand (hva kan vi lære?) betyr det noe . Du får kunnskap betinget på at de uprøvde premissene er sanne. Siden (i hvert fall frem til nå) vi ikke kan bevise alle bygninger av virkeligheten, vil all vår kunnskap nødvendigvis være betinget. Vi kommer aldri til «sannheten».

Svar

Jeg har ennå ikke bevist følgende argument slik at det kan inneholde feil , men jeg vil virkelig kaste inn mine to øre (forhåpentligvis vil jeg snart oppdatere det med et grundig bevis). En annen måte å se på $ p $ – verdien er

$ p $ -verdi – En statistikk $ X $ slik at $$ \ forall 0 \ le c \ le 1, F_ {X | H_0} (\ inf \ {x: F_ {X | H_0} (x) \ ge c \}) = c $$ der $ F_ {X | H_0} $ er fordelingsfunksjonen til $ X $ under $ H_0 $ .

Spesielt hvis $ X $ har en kontinuerlig distribusjon og du bruker ikke tilnærming, så

  1. Hver $ p $ -verdi er en statistikk med en jevn fordeling på $ [0, 1] $ og
  2. Hver statistikk med en jevn fordeling på $ [0, 1] $ er en $ p $ -verdi.

Du kan vurdere dette som en generalisert beskrivelse av $ p $ -verdiene.

Kommentarer

  • Denne definisjonen gir mening bare for diskrete distribusjoner (og da er ikke riktig), fordi det andre utseendet til » $ P $ » gjør det klart at det refererer til sannsynligheter, ikke sannsynlighetstettheter. Videre er det ekstremt få distribusjoner (hvis noen) som har den oppgitte egenskapen, noe som tyder på at det må være skrivefeil i uttalelsen. Så langt som de påfølgende påstandene dine går, er (1) ideelt sett sant, men (2) er det ikke, med mindre du lar nullhypotesen avhenge av statistikken!
  • @whuber Takk for innspillet. Jeg har redigert definisjonen, og den skal være mer fornuftig nå!
  • Det er fornuftig, takk: hvis jeg ‘ leser det riktig, hevder det at nullfordelingen på $ X $ er ensartet på $ [0, 1]. $ Det fanger imidlertid bare en del av egenskapene til p-verdier; det karakteriserer ikke p-verdier; og det sier ingenting om hva de mener eller hvordan de skal tolkes. Vurder å studere noen av de andre svarene i denne tråden for å få informasjon om hva som mangler.
  • Her er et eksempel som du kan synes er interessant. Distribusjonsfamilien er Uniform $ (\ theta, \ theta + 1) $ for $ \ theta \ i \ mathbb {R}, $ nullhypotesen er $ \ theta = 0, $ og alternativet er dens komplement. Vurder et tilfeldig utvalg $ \ mathbf {X} = (X_1, \ ldots, X_n). $ Definer statistikken $ X (\ mathbf {X}) = X_1. $ Dette har åpenbart en jevn fordeling på $ [0,1] $ under $ H_0: $ men i hvilken forstand er det en p-verdi? Hva er den tilsvarende hypotesetesten? Anta at vi tar et utvalg av størrelse $ n = 1 $ og observerer verdien $ X_1 = -2: $ hevder du at p-verdien er $ -2 $ ??

Svar

Jeg tror at eksempler på klinkekuler eller mynter eller høydemåling kan være bra for å trene matematikken, men de er ikke gode for å bygge intuisjon. liker å stille spørsmål ved samfunnet, ikke sant? Hva med å bruke et politisk eksempel?

Si at en politisk kandidat kjørte en kampanje som lovet at en eller annen politikk vil hjelpe økonomien. Hun ble valgt, hun fikk politikken vedtatt, og to år senere blomstrer økonomien. Hun er på gjenvalg og hevder at hennes politikk er årsaken til alles velstand. Skal du velge henne på nytt?

Den tankefulle borgeren skal si » vel, det er sant at økonomien gjør det bra, men kan vi virkelig tilskrive det politikken din? » For å virkelig svare på dette, må vi vurdere spørsmålet «ville økonomien ha klart seg de siste to årene uten den?» Hvis svaret er ja (f.eks. Blomstrer økonomien på grunn av en ny, ikke-relatert teknologisk utvikling), avviser vi politikernes forklaring på dataene.

Det vil si å undersøke en hypotese (politikk hjalp økonomien. ), må vi bygge en modell av verden der hypotesen er null (politikken ble aldri vedtatt). Vi legger deretter en prediksjon under den modellen. Vi kaller sannsynligheten å observere disse dataene i den alternative verden p-verdien . Hvis p-verdien er for høy, er vi ikke overbevist av hypotesen – politikken gjorde ingen forskjell. Hvis p-verdien er lav, så stoler vi på hypotesen – politikken var viktig.

Kommentarer

  • Jeg er uenig i at p blir definert som » Vi kaller sannsynligheten for å observere disse dataene i den alternative verden for p-verdien » og også styrken av konklusjonen som trekkes ( spesielt unnlatelse av å avvise null).
  • @ Silverfish Kunne du utdype det? Sannsynligvis ville det være mer riktig å kalle p-verdien sannsynligheten for å gjøre den observasjonen ELLER en mer ekstrem observasjon. Men det høres ut som om du har en dypere kritikk.
  • Siden det opprinnelige spørsmålet er å spørre hva en p-verdi er, syntes jeg det var viktig å få den definisjonen klart. Bare det å si » mer ekstrem » er ikke ‘ t i seg selv veldig nyttig uten å forklare hva » mer ekstrem » kan bety – at ‘ en svakhet ved de fleste svarene i denne tråden I synes at. Bare whuber ‘ s svar og » te-testen » man ser ut til å virkelig forklare hvorfor » mer ekstreme » har også betydning.
  • Jeg følte også at konklusjonene dine er formulert for sterkt. Hvis vi avviser null, har vi betydelige bevis mot det, men vet ikke ‘ at det ‘ er falskt. Når vi ikke avviser null, betyr det absolutt ikke ‘ t at null er sant (selv om det godt kan være). Som en mer generell kommentar har jeg følelsen av at testen du ‘ beskriver, i ganske abstrakte termer, sannsynligvis ikke vil være klar for en elev som bare lærer å utføre en test . Mangelen på en klart definert teststatistikk stemmer ikke ‘ t med det opprinnelige spørsmålet som spør hvordan man skal tolke t -statistikk også.
  • En egenskap ved dette svaret jeg liker veldig mye er den klare forklaringen på at p-verdier beregnes ved hjelp av en nullmodell, selv om vi ikke ‘ t (subjektivt) tror nullmodellen er faktisk sant. Jeg tror faktateststatistikken beregnes etter en modell er et sentralt punkt som mange elever sliter med.

Svar

P-verdien er ikke så mystisk som de fleste analytikere gjør det.Det er en måte å ikke måtte beregne konfidensintervallet for en t-test, men bare bestemme konfidensnivået som nullhypotesen kan avvises med.

ILLUSTRASJON. Du kjører en test. P-verdien kommer opp som 0,1866 for Q-variabel, 0,0023 for R-variabel. (Disse er uttrykt i%).

Hvis du tester på et 95% konfidensnivå for å avvise nullhypo;

for Q: 100-18.66 = 81.34%

for R: 100-0,23 = 99,77%.

På et 95% konfidensnivå gir Q en 81,34% konfidens å avvise. Dette faller under 95% og er uakseptabelt. ACCEPT NULL.

R gir 99,77% tillit til å avvise null. Helt over ønsket 95%. Vi avviser dermed nullet.

Jeg illustrerte nettopp lesningen av p-verdien gjennom en «omvendt måte» for å måle den opp til konfidensnivået der vi avviser nullhypoen.

Kommentarer

  • Velkommen til nettstedet. Hva mener du med $ Q $ -variabel og $ R $ -variabel? Vennligst forklar. Bruk av uttrykket » godta null » anses også som ganske uønsket, til og med misvisende.
  • @cardinal påpeker et viktig poeng. Du ‘ vil ikke godta null.

Svar

****** p-verdi ved testing av hypotesen måler sensitiviteten til testen. Jo lavere p-verdien er, jo større er følsomheten. hvis signifikansnivå er satt til 0,05, indikerer p-verdien på 0,0001 stor sannsynlighet for at testresultatene er korrekte ******

Kommentarer

  • -1 Dette er helt klart feil. Det kan være lurt å lese svarene med høyere stemme først.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *