Efter at have taget et statistikforløb og derefter forsøgt at hjælpe medstuderende, bemærkede jeg et emne, der inspirerer til meget banging i hovedet, er at fortolke resultaterne af statistiske hypotesetest . Det ser ud til, at studerende let lærer at udføre de beregninger, der kræves af en given test, men bliver hængt op i fortolkningen af resultaterne. Mange edb-værktøjer rapporterer testresultater i form af “p-værdier” eller “t-værdier”.
Hvordan vil du forklare følgende punkter til universitetsstuderende, der tager deres første kursus i statistik:
-
Hvad betyder en “p-værdi” i forhold til den hypotese, der testes? Er der tilfælde, hvor man skal være på udkig efter en høj p-værdi eller en lav p-værdi?
-
Hvad er forholdet mellem en p-værdi og en t-værdi?
Kommentarer
- En hel del af dette er grundlæggende dækket af den første sætning i wikipedia-artiklen om p-værdier , som korrekt definerer en p-værdi. Hvis det ‘ forstås, gøres meget klart.
- Hent bare bogen: Statistik uden tårer. Det kan spare din fornuft !!
- @ user48700 Kunne du opsummere, hvordan Statistik uden tårer forklarer dette?
- Nogen skal tegne en graf med p-værdirelateret spørgsmål over tid, og jeg vil vædde på, at vi ‘ ser sæsonbestemtheden og sammenhængen med akademiske kalendere i colleges eller Coursera data science-klasser anbefalinger i svarene og kommentarerne, vil jeg foreslå en anden bog, passende kaldet ” Hvad er en p-værdi alligevel? ” .
Svar
Forståelse $ p $ -værdi
Antag, at du vil teste hypotesen om, at den gennemsnitlige højde for mandlige studerende på dit universitet er $ 5 $ ft $ 7 $ tommer. Du samler højder på $ 100 $ elever, der er valgt tilfældigt, og beregner gennemsnittet af eksemplet (sig det viser sig at være $ 5 $ ft $ 9 $ tommer). Ved hjælp af en passende formel / statistisk rutine beregner du $ p $ -værdien til din hypotese og siger, at det viser sig at være $ 0,06 $ .
For at fortolke $ p = 0,06 $ passende, skal vi huske flere ting:
-
Det første trin under klassisk hypotesetestning er antagelsen om, at hypotesen, der overvejes, er sand. (I vores sammenhæng antager vi, at true gennemsnitshøjden er $ 5 $ ft $ 7 $ tommer.)
-
Forestil dig at gøre følgende beregning: Beregn sandsynligheden for, at prøven betyder er større end $ 5 $ ft $ 9 $ tommer, forudsat at vores hypotese faktisk er korrekt (se punkt 1) .
Med andre ord vil vi vide $$ \ mathrm {P} (\ mathrm {Sample \: mean} \ ge 5 \: \ mathrm {ft} \: 9 \: \ mathrm {inches} \: | \: \ mathrm {True \: value} = 5 \: \ mathrm {ft} \: 7 \: \ mathrm { $$
Beregningen i trin 2 er det, der kaldes $ p $ -værdien. Derfor ville en $ p $ -værdi på $ 0,06 $ betyde, at hvis vi gentog vores eksperiment mange , mange gange (hver gang vi vælger $ 100 $ studerende tilfældigt og beregner eksemplets gennemsnit), så $ 6 $ gange ud af $ 100 $ kan vi forvente at se et eksempel på et gennemsnit, der er større end eller lig med $ 5 $ ft $ 9 $ tommer.
Givet ovenstående forståelse, skal vi stadig bevare vores antagelse om, at vores hypotese er sand (se trin 1)? Nå, en $ p = 0,06 $ indikerer, at en af to ting er sket:
- (A) Enten er vores hypotese korrekt, og en ekstremt usandsynlig begivenhed har fundet sted (f.eks. alle $ 100 $ studerende er studerende atleter)
eller
- (B) Vores antagelse er forkert, og den prøve, vi har opnået, er ikke så usædvanlig.
Den traditionelle måde at vælge mellem (A) og (B) er at vælge en vilkårlig afskæring for $ p $ . Vi vælger (A), hvis $ p > 0.05 $ og (B) hvis $ p < 0,05 $ .
Kommentarer
- Tag dig god tid! Jeg vil ikke ‘ ikke tænke på at vælge en ” Bedste svar ” i en uge eller så.
- Nu da jeg ‘ har haft en chance for at komme tilbage og læse hele svaret – et stort +1 for elevhøjdeeksemplet. Meget klart og godt udformet.
- Dejligt arbejde … men vi er nødt til at tilføje (C) vores model (indeholdt i formlen / statistisk rutine) er forkert.
- A t -værdi (eller enhver anden teststatistik) er for det meste et mellemliggende trin. Det ‘ er grundlæggende en vis statistik, der under nogle antagelser blev bevist at have en velkendt fordeling. Da vi kender fordelingen af teststatistikken under null, kan vi derefter bruge standardtabeller (i dag for det meste software) til at udlede en p-værdi.
- Isn ‘ t p-værdien afledt som et resultat af at udføre chi-kvadrat-testen og derefter fra chi-kvadrat-tabellen? Spekulerer på, hvordan kommer sandsynligheden beregnet ovenfor til at angive selve p-værdien ?!
Svar
En dialog mellem en lærer og en tankevækkende elev
ydmygt underkastet i troen på, at der ikke er brugt nok farveblyanter hidtil i denne tråd. En kort illustreret synopsis vises i slutningen.
Student : Hvad betyder en p-værdi? Mange mennesker synes at være enige om, at det er chancen for, at vi ” ser en prøve betyder større end eller lig med ” en statistik eller det “s ” sandsynligheden for at observere dette resultat. .. givet nulhypotesen er sand ” eller hvor ” min prøve “s statistik faldt på [en simuleret] distribution ” og endda ” sandsynligheden for at observere en teststatistik, der er mindst lige så stor som den, der beregnes, forudsat at nulhypotesen er sand ” .
Lærer : Korrekt forstået, alle disse udsagn er korrekte under mange omstændigheder.
Studerende : Jeg kan ikke se, hvordan de fleste af dem er relevante. Lærte du os ikke, at vi skal angive en nulhypotese $ H_0 $ og en alternativ hypotese $ H_A $ ? Hvordan er de involveret i disse ideer om ” større end eller lig med ” eller ” mindst lige så stort ” eller den meget populære ” mere ekstrem “?
Lærer : Da det generelt kan virke kompliceret, ville det hjælpe os med at udforske et konkret eksempel?
Student : Sikker på. Men vær venlig at gøre det til en realistisk, men enkel, hvis du kan.
Lærer : Denne teori om hypotesetest begyndte historisk med astronomers behov for at analysere observationsfejl, hvad med at starte der. Jeg gennemgik nogle gamle dokumenter en dag, hvor en videnskabsmand beskrev sine bestræbelser på at reducere målefejlen i sit apparat. Han havde taget en masse målinger rements af en stjerne i en kendt position og registrerede deres forskydninger foran eller bag denne position. For at visualisere disse forskydninger tegnede han et histogram, der – når det blev udjævnet lidt – lignede dette.
Student : Jeg husker, hvordan histogrammer fungerer: den lodrette akse er mærket ” Densitet ” for at minde mig om, at de relative frekvenser af målingerne er repræsenteret af areal snarere end højde.
Lærer : Det er rigtigt. En ” usædvanligt ” eller ” ekstrem ” værdi ville være placeret i en region med temmelig lille område. Her er en farveblyant. Tror du, du kunne farve i en region, hvis område kun er en tiendedel af det samlede beløb?
Student : Sikker; det er let. [Farver i figuren.]
Lærer : Meget godt! Det ser ud til omkring 10% af arealet for mig. Husk dog, at de eneste områder i histogrammet, der betyder noget, er de mellem lodrette linjer: de repræsenterer chance eller sandsynlighed for at forskydningen ville være placeret mellem disse linier på den vandrette akse. Det betyder, at du har brug for at farve helt ned til bunden, og det ville være over halvdelen af området, ville det ikke være “t det?
Student : Åh, jeg kan se. Lad mig prøve igen. Jeg vil gerne farve, hvor kurven er virkelig lav, vil jeg ikke? Det er lavest i de to ender.Skal jeg farve kun et område, eller ville det være ok at opdele det i flere dele?
Lærer : At bruge flere dele er en smart idé. Hvor ville de være?
Student (peger): Her og her. Fordi denne farveblyant ikke er meget skarp, brugte jeg en pen til at vise dig de linjer, jeg bruger.
Lærer : Meget flot! Lad mig fortælle dig resten af historien. Forskeren foretog nogle forbedringer af sin enhed, og derefter foretog han yderligere målinger. Han skrev, at forskydningen af den første kun var $ 0,1 $ , hvilket han troede var et godt tegn, men som en omhyggelig videnskabsmand fortsatte han med at tage flere målinger som kontrol . Desværre går disse andre målinger tabt – manuskriptet går i stykker på dette tidspunkt – og alt, hvad vi har, er det eneste tal, $ 0,1 $ .
Student : Det er alt for dårligt. Men er det ikke så meget bedre end den store spredning af forskydninger i din figur?
Lærer : At “s det spørgsmål, jeg gerne vil have dig til at besvare. Hvad skal vi starte med, hvad skal vi stille som $ H_0 $ ?
Student : Nå, en skeptiker ville spekulere på, om forbedringerne af enheden overhovedet havde nogen effekt. Bevisbyrden er på videnskabsmanden: han vil gerne vise, at skeptikeren tager fejl. er lidt dårligt for videnskabsmanden: det siger, at alle de nye målinger – inklusive værdien af $ 0,1 $ vi kender til – burde opføre sig som beskrevet af den første histogram. Eller måske endda værre end det: de kan være endnu mere spredte.
Lærer : G o on, du klarer dig godt.
Student : Og så er alternativet, at de nye målinger ville være mindre spredt, ikke?
Lærer : Meget god! Kunne du tegne et billede af, hvordan et histogram med mindre spredning ville se ud? Her er en anden kopi af det første histogram. Du kan tegne oven på det som en reference.
Student (tegning): Jeg bruger en pen til at skitsere den nye histogram og jeg farvelægger området under det. Jeg har gjort det, så det meste af kurven er tæt på nul på den vandrette akse, og det meste af dens område er nær en (vandret) værdi på nul: det er hvad det betyder at være mindre spredt eller mere præcist.
Lærer : Det er en god start. Men husk at et histogram, der viser chancer , skal have et samlet areal på $ 1 $ . Det samlede areal for det første histogram derfor er $ 1 $ . Hvor meget område er der i dit nye histogram?
Studerende : Mindre end halvdelen, tror jeg Jeg kan se, at “et problem, men jeg ved ikke, hvordan man løser det. Hvad skal jeg gøre?
Lærer : Tricket er at lave det nye histogram højere end den gamle, så dens tota Området er $ 1 $ . Her vil jeg vise dig en computergenereret version, der skal illustreres.
Studerende : Jeg kan se: du strakte den lodret ud, så dens form ændrede sig ikke rigtig, men nu er det røde område og det grå område (inklusive delen under det røde) de samme mængder.
Lærer : Højre. Du ser på et billede af nulhypotesen (i blåt, spredt ud) og del af den alternative hypotese (i rødt, med mindre spredning).
Studerende : Hvad mener du med ” del ” af alternativet? Er det ikke kun den alternative hypotese?
Lærer : Statistikere og grammatik synes ikke at blande sig. 🙂 Seriøst, hvad de mener med en ” hypotese ” er normalt et helt stort sæt muligheder. Her er alternativet (som du sagde så godt før), at målingerne er ” mindre spredt ” end før. Men hvor meget mindre ? Der er mange muligheder. Her, lad mig vise dig en anden. Jeg tegnede det med gule bindestreger. Det er mellem de to foregående.
Studerende : Jeg kan se: du kan have forskellige mængder spredning, men du ved ikke på forhånd, hvor meget spredningen virkelig vil være. Men hvorfor lavede du den sjove skygge på dette billede?
Lærer : Jeg ville fremhæve, hvor og hvordan histogrammerne adskiller sig. Jeg skraverede dem med gråt, hvor de alternative histogrammer er lavere end nul og i rødt, hvor alternativerne er højere .
Studerende : Hvorfor ville det have noget at gøre?
Lærer : Kan du huske, hvordan du farvede det første histogram i begge haler? (Kigger igennem papirerne.) Ah, her er det.Lad os farve dette billede på samme måde.
Studerende : Jeg kan huske: det er de ekstreme værdier. Jeg fandt de steder, hvor nul-tætheden var så lille som muligt og farvede 10% af området der.
Lærer : Fortæl mig om alternativerne i disse ekstreme områder.
Student : Det er svært at se, fordi farveblyanten dækkede det op, men det ser ud som der ” s næsten ingen chance for, at der findes noget alternativ i de områder, jeg farvede. Deres histogrammer ligger lige ned mod værdiaksen, og der er ikke plads til noget område under dem.
Lærer : Lad os fortsætte den tanke. Hvis jeg hypotetisk fortalte dig, at en måling havde en forskydning på $ – 2 $ , og bad dig vælge hvilken af disse tre histogrammer var den, den sandsynligvis kom fra, hvilken ville det være?
Student : Den første – den blå. Den er den mest spredte og det “er den eneste, hvor $ – 2 $ synes at have nogen chance for at forekomme.
Lærer : Og hvad med værdien af $ 0,1 $ i manuskriptet?
Student : Hmmm … det er anderledes historie. Alle tre histogrammer er ret høje over jorden ved $ 0,1 $ .
Lærer : OK, fair nok. Men antag, at jeg fortalte dig, at værdien var et eller andet sted i nærheden af $ 0,1 $ , som mellem $ 0 $ og $ 0,2 $ . Hjælper det dig med at læse nogle sandsynligheder ud af disse grafer?
Student : Sikker på, fordi jeg kan bruge områder. Jeg skal bare estimere områderne under hver kurve mellem $ 0 $ og $ 0,2 $ . Men det ser ret hårdt ud.
Lærer : Du behøver ikke at gå så langt. Kan du bare fortælle, hvilket område der er det største?
Student : Naturligvis den ene under den højeste kurve. Alle tre områder har den samme base, så jo højere kurven er, jo mere areal er der under den og basen. Det betyder det højeste histogram– den jeg tegnede med de røde bindestreger – er den mest sandsynlige for en forskydning af $ 0,1 $ . Jeg tror jeg kan se, hvor du går hen med dette, men jeg “lidt bekymret: skal jeg ikke se på alle histogrammerne for alle alternativerne, ikke kun den ene eller to, der vises her? Hvordan kunne jeg muligvis gøre det?
Lærer : Du er god til at opfange mønstre, så fortæl mig: da måleinstrumentet er gjort mere og mere præcist, hvad sker der med dets histogram?
Student : Det bliver smallere – åh, og det skal også blive højere, så dets samlede areal forbliver det samme. Det gør det ret svært at sammenligne histogrammerne. De alternative er alle højere end nul til højre ved $ 0 $ , det er indlysende. Men ved andre værdier er alternativerne undertiden højere og nogle gange lavere! For eksempel [peger på en værdi nær $ 3/4 $ ] lige her mit røde histogram er det laveste, det gule histogram er det højeste, og det originale null-histogram er mellem dem. Men over til højre er nullen den højeste.
Lærer : Generelt er sammenligning af histogrammer en kompliceret forretning. For at hjælpe os med at gøre det har jeg bedt computeren om at lave et nyt plot: det har opdelt hver af de alternative histogramhøjder (eller ” densiteter “) ved nulhistogramhøjde, hvilket skaber værdier kendt som ” sandsynlighedsforhold. ” Som et resultat betyder en værdi, der er større end $ 1 $ , at alternativet er mere sandsynligt, mens en værdi mindre end $ 1 $ betyder alternativet er mindre sandsynligt. Det har tegnet endnu et alternativ: det er mere spredt end de to andre, men stadig mindre spredt end det oprindelige apparat var.
Lærer (fortsætter): Kan du vise mig, hvor alternativerne er mere tilbøjelige end nul?
Studerende (farvning): Her i midten, åbenbart. Og fordi disse ikke længere er histogrammer, antager jeg, at vi skal se på højder snarere end områder, så jeg markerer bare en række værdier på den vandrette akse. Men hvordan ved jeg, hvor meget af midten der skal farves ind? Hvor stopper jeg med at farve?
Lærer : Der er ingen fast regel. Det hele afhænger af, hvordan vi planlægger at bruge vores konklusioner, og hvor hårde skeptikerne er.Men læn dig tilbage og tænk over, hvad du har opnået: du indser nu, at resultater med store sandsynlighedsforhold er bevis for alternativet og resultater med små sandsynlighedsforhold er bevis imod alternativet . Hvad jeg vil bede dig om at gøre er at farve et område, der så vidt muligt har en lille chance for at forekomme under nulhypotesen og en relativt stor chance for at forekomme under alternativene. Når du går tilbage til det første diagram, du farvede, langt tilbage i starten af vores samtale, farvede du de to haler på nullet, fordi de var ” ekstreme. ” Ville de stadig gøre et godt stykke arbejde?
Studerende : Jeg tror ikke det. Selvom de var ret ekstreme og sjældne under nulhypotesen, de er praktisk talt umulige for nogen af alternativerne. Hvis min nye måling var, siger $ 3,0 $ , tror jeg, jeg ville stå sammen med skeptikeren og benægte, at der var sket nogen forbedring, selvom $ 3,0 $ under alle omstændigheder var et usædvanligt resultat. Jeg vil ændre den farve. Her – lad mig få endnu et farveblyant.
Lærer : Hvad repræsenterer det?
Student : Vi startede med at bede mig om at tegne kun 10% af arealet under det originale histogram – det der beskriver nullet. Så nu Jeg trak 10% af det område, hvor alternativene synes mere sandsynligt at forekomme. Jeg tror, at når en ny måling er inden for det område, fortæller det os, at vi skal tro på alternativet.
Lærer : Og hvordan skal skeptikeren reagere på det?
Studerende : En skeptiker behøver aldrig at indrømme, at han tager fejl, ikke sandt? Men jeg tror, at hans tro skal være lidt rystet. Når alt kommer til alt, arrangerede vi det, så selvom en måling kunne være inden for det område, jeg lige har tegnet, har den kun 10% chance for at være der, når nul er sandt. Og det har større chance for at være der, når alternativet er sandt. Jeg kan bare ikke fortælle dig hvor meget større er denne chance, fordi det afhænger af, hvor meget videnskabsmanden forbedrede apparatet. Jeg ved bare, at det er større. Så beviserne ville være imod skeptikeren.
Lærer : Okay. Har du noget imod at opsummere din forståelse, så vi er helt klare over, hvad du har lært?
Studerende : Jeg lærte, at hvis vi sammenligner alternative hypoteser med nullhypoteser, skulle vi sammenligne deres histogrammer. Vi dividerer densitet af alternativerne med densiteten af nullen: det er det, du kaldte ” sandsynlighedsforholdet. ” For at lave en god test skal jeg vælge et lille antal som 10% eller hvad der måtte være nok til at ryste en skeptiker. Så skal jeg finde værdier, hvor sandsynlighedsforholdet er så højt som muligt, og farve dem, indtil 10% (eller hvad som helst) er blevet farvet.
Lærer : Og hvordan ville du bruge den farve?
Student : Som du mindede mig tidligere, skal farven være mellem lodrette linjer. Værdier (på den vandrette akse), der ligger under farvningen, er bevis for nulhypotesen. Andre værdier – ja, det er svært at sige, hvad de kan betyde uden at se nærmere på alle de involverede histogrammer.
Lærer : Gå tilbage til værdien af $ 0.1 $ i manuskriptet, hvad ville du konkludere?
Student : Det er inden for det område, jeg sidst farvede , så jeg tror, at videnskabsmanden sandsynligvis havde ret, og apparatet virkelig blev forbedret.
Lærer : En sidste ting. Din konklusion var baseret på at vælge 10% som kriterium eller ” størrelse ” til testen. Mange mennesker kan lide at bruge 5% i stedet. Nogle foretrækker 1%. Hvad kunne du fortælle dem?
Student : Jeg kunne ikke lave alle disse tests på én gang! Nå, måske kunne jeg på en måde. Jeg kan se det uanset hvilken størrelse testen burde være, jeg burde begynde at farve fra $ 0 $ , hvilket er i denne forstand ” mest ekstreme ” værdi og arbejde udad i begge retninger derfra. Hvis jeg skulle stoppe lige ved $ 0,1 $ – den faktisk observerede værdi –Jeg tror, jeg ville have farvet et område et sted mellem $ 0,05 $ og $ 0,1 $ , siger $ 0,08 $ . 5% og 1% kunne fortælle med det samme, at jeg farvede for meget: hvis de kun ville farve 5% eller 1%, kunne de, men de ville ikke “t komme så langt ud som $ 0,1 $ . De ville ikke komme til den samme konklusion, som jeg gjorde: de ville sige, at der ikke er nok bevis for, at der faktisk skete en ændring.
Lærer : Du har lige fortalt mig, hvad alle disse citater i starten betyder virkelig .Det skal være indlysende fra dette eksempel, at de umuligt ikke har til hensigt ” mere ekstreme ” eller ” større end eller lig ” eller ” mindst lige så stor ” i betydningen have en større værdi eller endda have en værdi, hvor nul-densiteten er lille. De mener virkelig disse ting i betydningen af store sandsynlighedsforhold som du har beskrevet. Forresten kaldes tallet omkring $ 0,08 $ , som du har beregnet, ” p-værdien. ” Det kan kun forstås korrekt på den måde, du har beskrevet: med hensyn til en analyse af relative histogramhøjder – sandsynlighedsforholdet.
Student : Tak skal du have. Jeg er ikke sikker på, at jeg fuldt ud forstår alt dette endnu, men du har givet mig meget at tænke over.
Lærer : Hvis du vil gå længere, tag en se på Neyman-Pearson Lemma . Du er sandsynligvis klar til at forstå det nu.
Synopsis
Mange tests, der er baseret på en enkelt statistik som den i dialogen, kalder det ” $ z $ ” eller ” $ t $ “
I denne figur, som er zoomet for at vise detaljer, er nulhypotesen afbildet i fastblåt og to typiske alternativer er tegnet med stiplede linjer. Området, hvor disse alternativer har tendens til at være meget større end nullen, er skyggefuldt i. Skyggerne starter, hvor de relative sandsynligheder for alternativerne er størst (ved $ 0 $ ). Skyggen stopper, når observationen $ t = 0.1 $ er nået. P-værdien er området for det skraverede område under nulhistogrammet: det er chancen for at antage, at nul er sandt, at observere et resultat, hvis sandsynlighedsforhold har en tendens til at være stort, uanset hvilket alternativ der sker for at være sandt. Især afhænger denne konstruktion nøje af den alternative hypotese. Det kan ikke udføres uden at specificere de mulige alternativer.
For to praktiske eksempler på testen beskrevet her – den ene er offentliggjort, den anden hypotetisk – se https://stats.stackexchange.com/a/5408/919 .
Kommentarer
- Dette har behandlede fremragende min kommentar til et andet svar, at ingen af de tidligere svar på dette spørgsmål generelt havde tacklet det almindeligt hørte ” eller mere ekstreme ” aspekt af et p -værdi. (Selvom ” te-test ” svaret indeholdt et godt specifikt eksempel.) Jeg beundrer især den måde, dette eksempel er bevidst konstrueret på for at fremhæve, at ” mere ekstrem ” kan betyde tværtimod ” større ” eller ” længere fra nul “.
- Jeg ønsker, at lærere og lærebøger ikke ‘ ikke bruger sætningen ” eller mere ekstrem “, virkelig. To varianter, jeg har hørt, kan omformuleres som ” mere gunstige overfor $ H_1 $ ” eller ” mere overbevisende for $ H_1 $ “. I dette tilfælde ville værdier nærmere nul faktisk være mere overbevisende, at teleskopet er blevet mere pålideligt, men det kræver en vis sproglig akrobatik (plausibelt argumenteret, men potentielt forvirrende) for at beskrive dem som ” mere ekstrem “.
- Enestående indsigtsfuld som altid, tak fordi du tog dig tid til at skrive de utroligt nyttige svar ud. Jeg undrer mig virkelig over, hvorfor lærebøger aldrig er skrevet på en måde, der tilbyder nogen steder nær disse niveauer af klarhed og intuition.
- Det ‘ er farligt at bruge sarkasme i en kommentar , @baxx, fordi der ‘ ikke nok plads tillod os at gøre det høfligt og elegant. Derfor er det ‘ normalt ikke en god idé at antage, at en kommentar er sarkastisk, medmindre det udtrykkeligt fortæller dig det.Antag bare, at kommentarer er beregnet til at hjælpe dig. Hvis du blot ville følge det allerførste hit i den søgning, jeg leverede, tror jeg, at dine spørgsmål ville blive besvaret.
- Simpelthen fantastisk! Tak @whuber!
Svar
Før jeg rører ved dette emne, sørger jeg altid for, at studerende er glade for at bevæge sig mellem procentdele, decimaler, odds og brøker. Hvis de ikke er helt tilfredse med dette, kan de blive meget forvirrede.
Jeg kan godt lide at forklare hypotesetest for første gang (og derfor p-værdier og teststatistikker) gennem Fisher ” s klassiske teeksperiment. Jeg har flere grunde til dette:
(i) Jeg tror, at det at arbejde igennem et eksperiment og definere termerne, når vi går, giver mere mening, at bare at definere alle disse termer til at begynde med. (ii) Du behøver ikke at stole eksplicit på sandsynlighedsfordelinger, områder under kurven osv. for at komme over nøglepunkterne i hypotesetest. (iii) Det forklarer denne latterlige opfattelse af “som eller mere ekstrem end de observerede” på en ret fornuftig måde (iv) Jeg synes, at studerende kan lide at forstå historien, oprindelsen og baghistorien om, hvad de studerer, da det gør det mere virkeligt end nogle abstrakte teorier. (v) Det betyder ikke noget, hvilken disciplin eller emne de studerende kommer fra, de kan forholde sig til eksemplet med te (NB Nogle internationale studerende har problemer med denne særligt britiske institution med te med mælk.)
[Bemærk: Jeg fik oprindeligt denne idé fra Dennis Lindleys vidunderlige artikel “Analysen af eksperimentelle data: påskønnelsen af te & Vin, hvor han demonstrerer, hvorfor Bayesianske metoder er bedre end klassiske metoder.]
Historien bag er, at Muriel Bristol besøger Fisher en eftermiddag i 1920erne på Rothamsted Experimental Station for at få en kop te. fortæl også, om mælken blev hældt først (eller sidst), og at hun foretrak den førstnævnte. For at sætte dette på prøve designede han sit klassiske teeksperiment, hvor Muriel får et par tekopper, og hun skal identificere, hvilken der havde mælken tilføjet først. Dette gentages med seks par tekopper. Hendes valg isene er enten rigtige (R) eller forkerte (W), og hendes resultater er: RRRRRW.
Antag at Muriel faktisk bare gætter og ikke har nogen evne til at diskriminere overhovedet. Dette kaldes Nul hypotese . Ifølge Fisher er formålet med eksperimentet at miskreditere denne nulhypotese. Hvis Muriel gætter på, vil hun identificere tekoppen korrekt med sandsynlighed 0,5 for hver tur, og da de er uafhængige, har det observerede resultat 0,5 $ ^ 6 $ = 0,016 (eller 1/64). Fisher hævder derefter, at enten:
(a) nullhypotesen (Muriel gætter) er sand og en begivenhed med lille sandsynlighed er sket, eller
(b) nullhypotesen er falsk og Muriel har diskriminerende beføjelser.
P-værdien (eller sandsynlighedsværdien) er sandsynligheden for at observere dette resultat (RRRRRW) givet nulhypotesen er sand – det er den lille sandsynlighed, der er henvist til i (a) I dette tilfælde er det 0,016. Da begivenheder med små sandsynligheder kun forekommer sjældent (pr. Definition) kan situation (b) være en mere foretrukken forklaring på, hvad der skete end situation (a). Når vi afviser nulhypotesen, accepterer vi faktisk den modsatte hypotese, som vi kalder den alternative hypotese. I dette eksempel har Muriel diskriminerende beføjelser, er den alternative hypotese.
En vigtig overvejelse er, hvad gør vi klasse som en “lille” sandsynlighed? Hvad er det afskæringspunkt, hvor vi er villige til at sige, at en begivenhed er usandsynlig? Standard benchmark er 5% (0,05), og dette kaldes signifikansniveauet. Når p-værdien er mindre end signifikansniveauet, afviser vi nulhypotesen som falsk og accepterer vores alternative hypotese. Det er almindeligt sprog at hævde, at et resultat er “signifikant”, når p-værdien er mindre end signifikansniveauet, dvs. når sandsynligheden for, hvad vi observeret forekommer givet nulhypotesen er sand er mindre end vores afskæringspunkt. Det er vigtigt at være klar over, at brugen af 5% er fuldstændig subjektiv (som ved at bruge de andre almindelige signifikansniveauer på 1% og 10%).
Fisher indså, at dette ikke er tilfældet arbejde; alle mulige udfald med et forkert par var lige så tydelige for diskriminerende beføjelser. Den relevante sandsynlighed for situation (a) ovenfor er derfor 6 (0.5) ^ 6 = 0.094 (eller 6/64), som nu er ikke signifikant i et signifikansniveau på 5%. For at overvinde dette hævdede Fisher, at hvis 1 fejl i 6 betragtes som bevis for diskriminerende beføjelser, så er der ingen fejl, dvs.Resultater, der stærkere angiver diskriminerende beføjelser end den observerede, bør medtages ved beregning af p-værdien. Dette resulterede i følgende ændring af ræsonnementet, enten:
(a) nullhypotesen (Muriel gætter) er sand, og sandsynligheden for begivenheder som eller mere ekstreme end den observerede er lille, eller
(b) Nulhypotesen er falsk, og Muriel har diskriminerende beføjelser.
Tilbage til vores teeksperiment, og vi finder ud af, at p-værdien under denne opsætning er 7 (0,5 ) ^ 6 = 0,109, hvilket stadig ikke er signifikant ved 5% tærsklen.
Så får jeg eleverne til at arbejde med nogle andre eksempler, såsom møntkastning for at finde ud af, om en mønt er fair. Dette borer begreberne om null / alternativ hypotese, p-værdier og signifikansniveauer hjem. Vi går derefter over tilfældet med en kontinuerlig variabel og introducerer forestillingen om en teststatistik. Da vi allerede har dækket normalfordelingen, standardnormalfordelingen og z-transformationen i dybden, er det kun et spørgsmål om at bolte sammen flere begreber.
Samt beregning af teststatistik, p-værdier og at tage en beslutning (signifikant / ikke signifikant) Jeg får eleverne til at arbejde gennem offentliggjorte papirer i en udfyldning af det manglende blankspil.
Kommentarer
- I ved jeg ‘ jeg genopliver en meget gammel tråd, men her går det … Jeg nød virkelig dit svar, men jeg savner t-værdien i den 🙁 Kunne du brug dine givne eksempler til at tale om det? Ingen svarede om t-testdelen
- @sosi Det ‘ er sandsynligvis fordi p-værdier er meget mere generelt end t-værdier. Det ‘ er som at stille et spørgsmål om biler og derefter om bremserne på en Ford Fiesta.
- Svaret er meget interessant (+ 1), men et par ting forveksles sammen i slutningen. 1. W hat betyder det for en $ p $ -værdi at være ” signifikant på niveauet 5% “? Enten er $ p $ -værdien under 5%, eller så er den ikke. Jeg ser ikke ‘ pointen i at bruge en sådan uklar sætning og efterlader ” betydning ” udefineret. 2. Hvad betyder det at ” beslutter ” uanset om en $ p $ -værdi er signifikant? Det synes ikke berettiget at bringe beslutningsteori ind i blandingen på denne måde (især da Fisher var en stærk modstander af anvendelsen af Neyman-Pearson-testrammen i videnskaberne).
Svar
Ingen mængde verbal forklaring eller beregninger hjalp mig virkelig til at forstå på et tarmniveau hvad p-værdier var, men det kom virkelig i fokus for mig, når jeg først tog et kursus, der involverede simulering. Det gav mig muligheden for faktisk at se data genereret af nulhypotesen og plotte middel / osv. af simulerede prøver, så se på, hvor min prøves statistik faldt på denne fordeling.
Jeg tror, at den største fordel ved dette er, at det lader eleverne glemme matematik- og teststatistikfordelingen i et minut og fokusere på begreberne ved hånden. Indrømmet, det krævede, at jeg lærte hvordan at simulere disse ting, hvilket vil give problemer for et helt andet sæt studerende. Men det fungerede for mig, og jeg har brugt simulation utallige gange for at hjælpe med at forklare statistik til andre med stor succes (f.eks. “Sådan ser dine data ud; sådan ser en Poisson-distribution ud som overlagt. Er du SIKKER på, at du vil foretage en Poisson-regression?”).
Dette svarer ikke nøjagtigt på de spørgsmål, du stillede, men i det mindste gjorde det dem trivielle.
Kommentarer
- Jeg er helhjertet enig i brugen af simulering til at forklare dette. Men bare en lille note til eksemplet i slutningen: Jeg finder ud af, at folk (ikke kun studerende) finder det di svært at skelne for en bestemt distributionsantagelse, f.eks. poissonen mellem at være marginalt poisson distribueret og at være betinget poisson distribueret. Da kun sidstnævnte betyder noget for en regressionsmodel, behøver en flok afhængige variable værdier, der ikke er ‘ t poisson, ikke nødvendigvis nogen grund til bekymring.
- Jeg har at indrømme, at jeg ikke ‘ ikke vidste det. Jeg ‘ har virkelig værdsat dine kommentarer omkring dette websted de sidste par dage af dit medlemskab – jeg håber, at du ‘ holder fast.
- @MattParker kender du nogen læringsressourcer, der er fokuseret på brugen af simulation til at udvikle forståelse? Eller er det bare et spørgsmål om at samle nogle python / R-scripts sammen og køre en masse tests?
- @baxx The [Seeing Theory website by Daniel Kunin] (students.brown.edu/seeing-theory/ ) har nogle interessante værktøjer til dette, men det ‘ er stadig under konstruktion.Ellers, ja, jeg ‘ har stort set lige eksperimenteret med R ‘ s indbyggede værktøjer til simulering – ved hjælp af dem til at bevise for mig selv hvordan en eller anden metode fungerer, eller for at se, hvad der ville ske, hvis en forudsigelse blev erstattet med en tilfældig variabel osv. Undskyld, jeg ville ønske jeg vidste om bedre ressourcer til dette!
- @MattParker fedt tak. Ja – lidt af en kylling og æg i det for at konstruere de eksperimenter, du (antager jeg?) Har brug for i det mindste at få nok til at skrive dem. Ingen bekymringer dog ….. Bare tjekket det websted, du linkede, det ‘ er dejligt, tak
Svar
En god definition af p-værdi er “sandsynligheden for at observere en teststatistik, der er mindst lige så stor som den, der beregnes, forudsat at nulhypotesen er sand”.
Problemet med det er, at det kræver en forståelse af “teststatistik” og “nulhypotese”. Men det er let at komme igennem. Hvis nulhypotesen er sand, er som regel noget som “parameter fra population A lig med parameter fra population B”, og du beregner statistikker for at estimere disse parametre, hvad er sandsynligheden for at se en teststatistik, der siger, “de” er dette anderledes “?
F.eks. Hvis mønten er retfærdig, hvad er sandsynligheden for, at jeg ville se 60 hoveder ud af 100 kast? Det tester nulhypotesen , “mønten er retfærdig” eller “p = .5” hvor p er sandsynligheden for hoveder.
Teststatistikken i så fald ville være antallet af hoveder.
Nu antager jeg , at det, du kalder “t-værdi”, er en generisk “teststatistik”, ikke en værdi fra en “t-distribution”. ikke det samme, og udtrykket “t-værdi” er ikke (nødvendigvis) vidt brugt og kan være forvirrende.
Det, du kalder “t-værdi”, er sandsynligvis det, jeg kalder “teststatistik”. For at beregne en p-værdi (husk, det er bare en sandsynlighed) har du brug for en fordeling og en værdi, der skal tilsluttes den distribution, som returnerer en sandsynlighed. Når du har gjort det, er sandsynligheden for at du returnerer din p-værdi. Du kan se, at de er relaterede, fordi forskellige teststatistikker under den samme distribution returnerer forskellige p-værdier. Mere ekstreme teststatistikker vil returnere lavere p-værdier, hvilket giver større indikation af, at nulhypotesen er falsk.
Jeg har ignoreret spørgsmålet om ensidige og tosidede p-værdier her.
Svar
Forestil dig, at du har en taske, der indeholder 900 sorte kugler og 100 hvide, dvs. 10% af kuglerne er hvide. Forestil dig nu, at du tager 1 marmor ud, ser på den og registrerer dens farve, tager en anden ud, optager dens farve osv. … og gør dette 100 gange. I slutningen af denne proces vil du have et tal til hvide kugler, som vi ideelt set ville forvente at være 10, dvs. 10% af 100, men faktisk kan være 8 eller 13 eller hvad simpelthen på grund af tilfældighed. Hvis du gentager dette 100 marmor tilbagetrækningseksperiment mange, mange gange og derefter tegner et histogram over antallet af hvide kugler trukket pr. eksperiment, vil du finde ud af, at du vil have en Bell Curve centreret omkring 10.
Dette repræsenterer din hypotese på 10%: med en pose, der indeholder 1000 kugler, hvoraf 10% er hvide, hvis du tilfældigt tager 100 kugler ud, finder du 10 hvide kugler i udvalget, giv eller tag 4 eller deromkring. P-værdien handler om denne “give or take 4 or so.” Lad os sige ved at henvise til Bell Curve oprettet tidligere, kan du bestemme, at mindre end 5% af tiden ville du få 5 eller færre hvide kugler og en anden < 5% af tiden tegner sig for 15 eller flere hvide kugler, dvs.> 90% af tiden vil dit 100 marmorvalg indeholde mellem 6 og 14 hvide kugler inklusive.
Hvis vi antager, at nogen lægger en pose på 1000 kugler ned med et ukendt antal hvide kugler i det, vi har værktøjerne til at besvare disse spørgsmål
i) Er der færre end 100 hvide kugler?
ii) Er der mere end 100 hvide kugler?
iii) Indeholder posen 100 hvide kugler?
Du skal bare tage 100 kugler ud af posen og tælle, hvor mange af denne prøve der er hvide.
a) Hvis der er er 6 til 14 hvide i prøven, kan du ikke afvise hypotesen om, at der er 100 hvide kugler i posen, og de tilsvarende p-værdier for 6 til 14 vil være> 0,05.
b) Hvis der er 5 eller færre hvide i prøven kan du reje ct hypotesen om, at der er 100 hvide kugler i posen, og de tilsvarende p-værdier for 5 eller færre vil være < 0,05. Du forventer, at posen indeholder < 10% hvide kugler.
c) Hvis der er 15 eller flere hvide i prøven, kan du afvise hypotesen om, at der er 100 hvide kugler i posen, og de tilsvarende p-værdier for 15 eller mere vil være < 0,05. Du forventer, at posen indeholder> 10% hvide kugler.
Som svar på Baltimarks kommentar
Givet eksemplet ovenfor er der ca. : –
4.8% chance for getter 5 hvide bolde eller færre
1,85% chance for 4 eller færre
0,55% chance for 3 eller færre
0,1% chance for 2 eller færre
6,25% chance for 15 eller mere
3,25% chance for 16 eller mere
1,5% chance for 17 eller mere
0,65% chance for 18 eller mere
0,25% chance for 19 eller mere
0,1% chance for 20 eller mere
0,05% chance for 21 eller mere
Disse tal blev estimeret ud fra en empirisk fordeling genereret af en simpel Monte Carlo rutine kørt i R og de resulterende kvantiteter af prøveuddelingen.
Med henblik på at besvare det originale spørgsmål, antag at du tegner 5 hvide kugler, er der kun en ca. 4,8% chance for, at hvis 1000 marmorposen virkelig indeholder 10% hvide kugler, ville du kun trække 5 ud hvide i en prøve på 100. Dette svarer til ap-værdi < 0,05. Du skal nu vælge mellem
i) Der er virkelig 10% hvide kugler i posen, og jeg har lige været “uheldig” at tegne så få
eller
ii) Jeg har tegnet så få hvide bolde, at der ikke virkelig kan være 10% hvide bolde (afvis hypotesen om 10% hvide bolde)
Kommentarer
- Først og fremmest er dette bare et stort eksempel og forklarer ikke ‘ virkelig begrebet p-værdi og teststatistik. For det andet, du ‘ hævder bare, at hvis du får færre end 5 eller mere end 15 hvide kugler, afviser du nulhypotesen. Hvad ‘ er din distribution, som du ‘ beregner disse sandsynligheder ud fra? Dette kan tilnærmes med en normal afstand centreret ved 10, med en standardafvigelse på 3. Dine afvisningskriterier er ikke nær strenge nok.
- Jeg er enig i, at dette kun er et eksempel, og det er sandt, at jeg lige valgte numrene 5 og 15 ud af a ir til illustrative formål. Når jeg har tid, sender jeg et andet svar, hvilket jeg håber bliver mere komplet.
Svar
Hvad p-værdien ikke fortæller dig, er, hvor sandsynligt det er, at nulhypotesen er sand. Under den konventionelle (Fisher) -testningsramme beregner vi først sandsynligheden for at observere dataene, forudsat at nulhypotesen er sand, dette er p-værdi. Det synes intuitivt rimeligt at antage, at nulhypotesen sandsynligvis er falsk, hvis dataene er tilstrækkeligt usandsynlige for at blive observeret under nulhypotesen. Dette er helt rimeligt. Statistikere bruger traditionelt en tærskel og “afviser nulhypotesen ved 95 % signifikansniveau “hvis (1 – p)> 0,95; men dette er kun en konvention, der har vist sig at være rimelig i praksis – det betyder ikke, at der er mindre end 5% sandsynlighed for, at nulhypotesen er falsk (og derfor en 95 % sandsynlighed for, at den alternative hypotese er sand). En grund til at vi ikke kan sige dette er, at vi endnu ikke har set på den alternative hypotese.
Billedbehandling af en funktion f (), der kortlægger p-værdien på sandsynligheden for, at den alternative hypotese er sand. Det ville være rimeligt at hævde, at denne funktion falder strengt (sådan at jo mere sandsynlige observationer under nulhypotesen er, desto mindre sandsynligt er den alternative hypotese sand), og at den giver værdier mellem 0 og 1 (da det giver et skøn af sandsynlighed). Det er imidlertid alt, hvad vi ved om f (), så mens der er et forhold mellem p og sandsynligheden for, at den alternative hypotese er sand, er den ikke kalibreret. Det betyder, at vi ikke kan bruge p-værdien til at lave kvantitative udsagn om sandsynligheden for nulll- og alternatvehypoteserne.
Advarsel lector: Det er ikke rigtig inden for den hyppige ramme at tale om sandsynligheden for, at en hypotese er sand, da den ikke er en tilfældig variabel – det er enten sandt, eller det er ikke det. Så hvor jeg har talt om sandsynligheden for sandheden af en hypotese, er jeg implicit flyttet til en Bayesisk fortolkning. Det er forkert at blande Bayesian og hyppighed, men der er altid en fristelse til at gøre det, da det, vi virkelig ønsker, er en kvantitativ indikation af hypotesernes relative sandsynlighed / sandsynlighed. Men dette giver ikke p-værdien.
Svar
I statistikker kan du aldrig sige noget er helt sikkert, så statistikere bruger en anden tilgang til at måle, om en hypotese er sand eller ej. De forsøger at afvise alle de andre hypoteser, der ikke understøttes af dataene.
For at gøre dette har statistiske tests en nulhypotese og en alternativ hypotese. P-værdien rapporteret fra en statistisk test er sandsynligheden for resultatet, da nulhypotesen var korrekt. Derfor ønsker vi små p-værdier. Jo mindre de er, desto mindre sandsynligt ville resultatet være, hvis nulhypotesen var korrekt. Hvis p-værdien er lille nok (dvs. det er meget usandsynligt, at resultatet har opstod, hvis nulhypotesen var korrekt), afvises nulhypotesen.
På denne måde kan nullhypoteser formuleres og efterfølgende afvises. Hvis nulhypotesen afvises, accepterer du den alternative hypotese som den bedste forklaring. Bare husk dog, at den alternative hypotese aldrig er sikker, da nullhypotesen tilfældigvis kunne have genereret resultaterne.
Kommentarer
- a p -værdi er sandsynligheden for et resultat som eller mere ” ekstrem ” end det givne resultat, ikke af det faktiske resultat. p-værdi er $ Pr (T \ geq t | H_0) $ og ikke $ Pr (T = t | H_0) $ (T er teststatistik, og t er dens observerede værdi).
Svar
Jeg er lidt forskellig for at genoplive det gamle emne, men jeg sprang fra her , så jeg sender dette som et svar på spørgsmålet i linket.
P-værdien er et konkret udtryk, der bør ikke være plads til misforståelse. Men det er på en eller anden måde mystisk, at sproglige oversættelser af definitionen af p-værdi fører til mange forskellige fejlfortolkninger. Jeg tror, at roden til problemet ligger i brugen af sætningerne “mindst lige så ugunstig for nulhypotesen” eller “mindst lige så ekstrem som den i dine eksempeldata” osv.
For eksempel Wikipedia siger
… p-værdien er sandsynligheden for at opnå de observerede prøveresultater (eller et mere ekstremt resultat) når nulhypotesen faktisk er sand .
Betydningen af $ p $ -værdi er sløret, når folk først snubler over “(eller et mere ekstremt resultat)” og begynder at tænke “ mere extreeeme ? “.
Jeg synes det er bedre at overlade det” mere ekstreme resultat “til noget som indirekte talehandling . Så min optagelse er
P-værdien er sandsynligheden for at se, hvad du ser i en “imaginær verden”, hvor nulhypotesen er sand.
For at gøre ideen konkret, antag at du har prøve x
bestående af 10 observationer, og du antager, at befolkningen gennemsnit er $ \ mu_0 = 20 $. Så i din hypotese verden er befolkningsfordelingen $ N (20,1) $.
x #[1] 20.82600 19.30229 18.74753 18.99071 20.14312 16.76647 #[7] 18.94962 17.99331 19.22598 18.68633
Du beregner t-stat som $ t_0 = \ sqrt {n} \ frac {\ bar {X} – \ mu_0} {s} $, og find ud af, at
sqrt(10) * (mean(x) - 20) / sd(x) #-2.974405
Så hvad er sandsynligheden for at observere $ | t_0 | $ så stor som 2,97 (“mere ekstrem” kommer her) i imaginær verden? I den imaginære verden $ t_0 \ sim t (9) $ skal p-værdien således være $$ p-værdi = Pr (| t_0 | \ geq 2.97) = 0.01559054 $$
2*(1 - pt(2.974405, 9)) #[1] 0.01559054
Da p-værdien er lille, er det meget usandsynligt, at prøven x
ville være tegnet i den hypotese verden. Derfor konkluderer vi, at det er meget usandsynligt, at den hypotese verden faktisk var den virkelige verden.
Kommentarer
- +1, men når du skriver ” sandsynligheden for at se, hvad du ser ” og udelade ” mere ekstrem ” del, denne sætning bliver strengt falsk (og potentielt vildledende, selvom den måske er mindre forvirrende). Det er ikke sandsynligheden for at se, hvad du ser (dette er normalt nul). Det er sandsynligheden for at se, hvad du ser ” eller mere ekstrem “. Selvom dette kan være en forvirrende bit for mange, er det stadig afgørende (og man kan diskutere uendeligt om graden af subjektivitet, der gemmer sig bag denne ” mere ekstrem ” formulering).
- @amoeba Jeg troede, at når det passende eksempel blev leveret, kunne det fungere som en proxy for ” at opnå de observerede prøveresultater (eller et mere ekstremt resultat) “. Måske er der behov for en bedre formulering.
- Jeg ville komme med den samme bemærkning som @amoeba; ” eller mere ekstrem ” del håndteres godt ved eksempel i elevhøjderne og teselskabssvar, men jeg don ‘ t tror, at svarene i denne tråd har ramt en klar generel forklaring på den, især en, der dækker forskellige alternative hypoteser. Jeg er enig i dette svar, hvilket antyder, at ” eller mere ekstrem ” -delen er et begrebsmæssigt udgangspunkt for mange studerende.
- @ Silverfish: og ikke kun studerende. Hvor mange Bayesian-vs-hyppige rants har jeg læst, der diskuterer subjektivitets- / objektivitetsproblemet med denne ” mere ekstrem ” bit! li>
- @ Silver Jeg er enig med din kritik og har sendt et svar, der forsøger at løse det. ” Eller mere ekstrem ” er selve kernen i sagen.
Svar
Jeg har også fundet simuleringer som nyttige i undervisningen.
Her er en simulering af det uden tvivl mest grundlæggende tilfælde, hvor vi prøver $ n $ gange fra $ N (\ mu, 1) $ (derfor er $ \ sigma ^ 2 = 1 $ kendt for enkelhed ) og test $ H_0: \ mu = \ mu_0 $ mod et venstre-sidet alternativ.
Derefter er $ t $ -statistisk $ \ text {tstat}: = \ sqrt {n} (\ bar {X} – \ mu_0) $ $ N (0,1) $ under $ H_0 $, således at $ p $ -værdien simpelthen er $ \ Phi (\ text {tstat}) $ eller pnorm(tstat)
i R.
I simuleringen , det er den brøkdel af gange, som data genereret under nul $ N (\ mu_0,1) $ (her, $ \ mu_0 = 2 $) giver eksempler på midler, der er gemt i nullMeans
er mindre (dvs. “ mere ekstrem i denne venstre-sidede test) end den, der beregnes ud fra de observerede data.
# p value set.seed(1) reps <- 1000 n <- 100 mu <- 1.85 # true value mu_0 <- 2 # null value xaxis <- seq(-3, 3, length = 100) X <- rnorm(n,mu) nullMeans <- counter <- rep(NA,reps) yvals <- jitter(rep(0,reps),2) for (i in 1:reps) { tstat <- sqrt(n)*(mean(X)-mu_0) # test statistic, N(0,1) under the given assumptions par(mfrow=c(1,3)) plot(xaxis,dnorm(xaxis),ylab="null distribution",xlab="possible test statistics",type="l") points(tstat,0,cex=2,col="salmon",pch=21,bg="salmon") X_null <- rnorm(n,mu_0) # generate data under H_0 nullMeans[i] <- mean(X_null) plot(nullMeans[1:i],yvals[1:i],col="blue",pch=21,xlab="actual means and those generated under the null",ylab="", yaxt="n",ylim=c(-1,1),xlim=c(1.5,2.5)) abline(v=mu_0,lty=2) points(mean(X),0,cex=4,col="salmon",pch=21,bg="salmon") # counts 1 if sample generated under H_0 is more extreme: counter[i] <- (nullMeans[i] < mean(X)) # i.e. we test against H_1: mu < mu_0 barplot(table(counter[1:i])/i,col=c("green","red"),xlab="more extreme mean under the null than the mean actually observed") if(i<10) locator(1) } mean(counter) pnorm(tstat)
Svar
Jeg finder det nyttigt at følge en sekvens, hvor du forklarer begreber i følgende rækkefølge: (1) z-score og proportioner over og under z-score forudsat en normal kurve. (2) Begrebet en samplingsfordeling og z-scoren for en given prøve betyder, når populationsstandardafvigelsen er kendt (og derfra den ene prøve z-testen) (3) En-prøve t-testen og sandsynligheden for en prøve betyder, når populationsstandardafvigelsen er ukendt (fyldt med historier om den hemmelige identitet for en bestemt industriel statistiker, og hvorfor Guinness er god til statistik). (4) T-test med to prøver og fordelingen af prøveudtagningen af gennemsnitlige forskelle. Den lethed, hvormed indledende studerende forstår t-testen, har meget at gøre med det grundlæggende arbejde, der lægges som forberedelse til dette emne.
/ * instruktør for skræmte studerende mode fra * /
Svar
Hvad betyder en “p-værdi” i forhold til hypotesen, der testes?
I ontologisk forstand (hvad er sandhed?) betyder det intet . Enhver hypotesetestning er baseret på uprøvede antagelser . Dette er normalt en del af selve testen, men er også en del af den model, du bruger (f.eks. I en regressionsmodel). Da vi kun antager disse, kan vi ikke vide, om grunden til, at p-værdien er under vores tærskel, er fordi null er falsk. Det er en non sequitur at ubetinget udlede, at vi på grund af en lav p-værdi skal afvise nul. For eksempel kan noget i modellen være forkert.
I en epistemologisk forstand (hvad kan vi lære?) betyder det noget . Du får viden betinget i de uprøvede principper, der er sande. Da vi (i det mindste indtil nu) ikke kan bevise enhver bygning af virkeligheden, vil al vores viden nødvendigvis være betinget. Vi kommer aldrig til “sandheden”.
Svar
Jeg har endnu ikke bevist følgende argument, så det kan indeholde fejl , men jeg vil virkelig smide mine to cent (forhåbentlig opdaterer jeg det snart med et strengt bevis). En anden måde at se på $ p $ – værdi er
$ p $ -værdi – En statistik $ X $ sådan at $$ \ forall 0 \ le c \ le 1, F_ {X | H_0} (\ inf \ {x: F_ {X | H_0} (x) \ ge c \}) = c $$ hvor $ F_ {X | H_0} $ er fordelingsfunktionen for $ X $ under $ H_0 $ .
Specifikt hvis $ X $ har en kontinuerlig distribution, og du bruger ikke tilnærmelse, derefter
- Every
$ p $ -værdi er en statistik med en ensartet fordeling på $ [0, 1] $ og - Hver statistik med en ensartet fordeling på $ [0, 1] $ er en $ p $ -værdi.
Du kan betragte dette som en generaliseret beskrivelse af $ p $ -værdier.
Kommentarer
- Denne definition giver kun mening for diskrete distributioner (og er derefter ikke korrekt), fordi det andet udseende af ” $ P $ ” gør det klart, at det henviser til sandsynligheder, ikke sandsynlighedstætheder. Desuden er der ekstremt få distributioner (hvis nogen), der har den angivne egenskab, hvilket tyder på, at der skal være typografiske fejl i udsagnet. For så vidt som dine efterfølgende påstande går, er (1) ideelt sandt, men (2) er det ikke, medmindre du tillader nulhypotesen at afhænge af statistikken!
- @whuber Tak for input. Jeg har redigeret definitionen, og det skal give mere mening nu!
- Det giver mening, tak: hvis jeg ‘ læser det korrekt, hævder det, at nulfordelingen på $ X $ er ensartet på $ [0, 1]. $ Det optager dog kun en del af egenskaberne for p-værdier; det karakteriserer ikke p-værdier; og det siger intet om, hvad de mener, eller hvordan de skal fortolkes. Overvej at studere nogle af de andre svar i denne tråd for at få oplysninger om, hvad der mangler.
- Her er et eksempel, som du måske synes er interessant. Fordelingsfamilien er Uniform $ (\ theta, \ theta + 1) $ for $ \ theta \ i \ mathbb {R}, $ nulhypotesen er $ \ theta = 0, $ og alternativet er dens komplement. Overvej en tilfældig prøve $ \ mathbf {X} = (X_1, \ ldots, X_n). $ Definer statistikken $ X (\ mathbf {X}) = X_1. $ Dette har åbenbart en ensartet fordeling på $ [0,1] $ under $ H_0: $ men i hvilken forstand er det en p-værdi? Hvad er den tilsvarende hypotesetest? Antag, at vi tager en prøve af størrelse $ n = 1 $ og observerer værdien $ X_1 = -2: $ hævder du, at p-værdien er $ -2 $ ??
Svar
Jeg tror, at eksempler, der involverer kugler eller mønter eller højdemåling, kan være gode til at praktisere matematikken, men de er ikke gode til at bygge intuition. gerne spørgsmålstegn ved samfundet, ikke? Hvad med at bruge et politisk eksempel?
Sig, at en politisk kandidat kørte en kampagne, der lovede, at en eller anden politik vil hjælpe økonomien. Hun blev valgt, hun fik politikken vedtaget, og to år senere blomstrer økonomien. Hun er på genvalg og hævder, at hendes politik er årsagen til alles velstand. Skal du genvælge hende?
Den tankevækkende borger skal sige ” godt, det er rigtigt, at økonomien klarer sig godt, men kan vi virkelig tilskrive det din politik? ” For virkelig at svare på dette skal vi overveje spørgsmålet “ville økonomien have klaret sig godt de sidste 2 år uden den?” Hvis svaret er ja (f.eks. Blomstrer økonomien på grund af en ny ikke-relateret teknologisk udvikling), afviser vi politikernes forklaring af dataene.
Det vil sige at undersøge en hypotese (politik hjalp økonomien ), skal vi bygge en model af den verden, hvor denne hypotese er nul (politikken blev aldrig vedtaget). Vi foretager derefter en forudsigelse under denne model. Vi kalder sandsynligheden at observere disse data i den alternative verden p-værdi . Hvis p-værdien er for høj, er vi ikke overbeviste om hypotesen – politikken gjorde ingen forskel. Hvis p-værdien er lav, så stoler vi på hypotesen – politikken var vigtig.
Kommentarer
- Jeg er uenig i, at p defineres som ” Vi kalder sandsynligheden for at observere disse data i den alternative verden p-værdien ” og også styrken af den konklusion, der drages ( især manglende afvisning af null).
- @ Silverfish Kunne du uddybe det? Det ville sandsynligvis være mere korrekt at kalde p-værdien sandsynligheden for at gøre denne observation ELLER en mere ekstrem observation. Men det lyder som om du har en dybere kritik.
- Da det oprindelige spørgsmål er spørgsmålet om, hvad en p-værdi er, troede jeg, at det var vigtigt at få denne definition klart videre. Bare at sige ” mere ekstrem ” er ikke ‘ t i sig selv meget nyttigt uden at forklare hvad ” mere ekstrem ” kan betyde – at ‘ en svaghed ved de fleste svar i denne tråd I tænke. Kun whuber ‘ s svar og ” te test ” man ser ud til at virkelig forklare hvorfor ” mere ekstrem ” betyder også noget.
- Jeg følte også, at dine konklusioner er formuleret for stærkt. Hvis vi afviser nul, har vi betydelige beviser mod det, men ved ikke ‘ at det ‘ er falsk. Når vi ikke afviser nul, betyder det bestemt ikke ‘ t, at nul er sandt (selvom det godt kan være). Som en mere generel kommentar har jeg en fornemmelse af, at den test, du ‘ beskriver, i ganske abstrakte vendinger, sandsynligvis ikke er klar for en elev, der bare lærer at udføre en test . Manglen på en klart defineret teststatistik sidder ikke ‘ t med det originale spørgsmål, der spørger, hvordan man også fortolker t -statistik.
- Et træk ved dette svar Jeg kan godt lide meget er den klare forklaring på, at p-værdier beregnes ved hjælp af en nulmodel, selvom vi ikke ‘ t (subjektivt) tror, at nulmodellen er faktisk sandt. Jeg tror, at faktateststatistikker beregnes efter en model er et nøglepunkt, som mange studerende kæmper med.
Svar
P-værdien er ikke så mystisk som de fleste analytikere gør det.Det er en måde ikke at skulle beregne konfidensintervallet for en t-test, men blot bestemme det konfidensniveau, hvormed nulhypotese kan afvises.
ILLUSTRATION. Du kører en test. P-værdien kommer op som 0,1866 for Q-variabel, 0,0023 for R-variabel. (Disse udtrykkes i%).
Hvis du tester på et 95% konfidensniveau for at afvise nul hypo;
for Q: 100-18.66 = 81.34%
for R: 100-0,23 = 99,77%.
Ved et 95% konfidensniveau giver Q en 81,34% konfidens at afvise. Dette falder til under 95% og er uacceptabelt. ACCEPTER NUL.
R giver 99,77% tillid til at afvise null. Klart over den ønskede 95%. Vi afviser således nul.
Jeg illustrerede netop aflæsningen af p-værdien gennem en “omvendt måde” til at måle den op til det konfidensniveau, hvor vi afviser nulhypoen.
Kommentarer
- Velkommen til siden. Hvad mener du med $ Q $ -variable og $ R $ -variable? Forklar venligst. Brug af udtrykket ” accepterer null ” betragtes som regel ret uønsket, endda vildledende.
- @cardinal påpeger et vigtigt punkt. Du ‘ vil ikke acceptere nul.
Svar
****** p-værdi ved test af hypotesen måler testens følsomhed. Jo lavere p-værdi, jo større er følsomhed. hvis signifikansniveau er sat til 0,05, indikerer p-værdien på 0,0001 en høj sandsynlighed for, at testresultaterne er korrekte ******
Kommentarer
- -1 Dette er helt klart forkert. Det kan være en god idé at læse de svar, der er højere, først.