Kun olen käynyt tilastokurssin ja yrittänyt auttaa muita oppilaita, huomasin, että yksi aihe, joka inspiroi paljon pääpöydän paukuttamista, tulkitsee tilastollisten hypoteesitestien tuloksia . Vaikuttaa siltä, että opiskelijat oppivat helposti suorittamaan tietyn testin edellyttämät laskelmat, mutta jäävät kiinni tulkitsemaan tuloksia. Monet atk-työkalut raportoivat testitulokset ”p-arvoina” tai ”t-arvoina”.
Kuinka selität seuraavat seikat opiskelijoille, jotka suorittavat ensimmäisen tilastokurssin:
-
Mitä ”p-arvo” tarkoittaa testattavan hypoteesin suhteen? Onko joissakin tapauksissa etsittävä korkeaa tai matalaa p-arvoa?
-
Mikä on p-arvon ja t-arvon suhde?
kommentit
- Kohtuullisen osan tästä kattaa pohjimmiltaan wikipedia-artikkelin ensimmäinen lause p-arvot , jotka määrittelevät p-arvon oikein. Jos tämä ’ ymmärretään, paljon tehdään selväksi.
- Hanki vain kirja: Tilastot ilman kyyneleitä. Se saattaa säästää mielenterveyttäsi!
- @ user48700 Voisitteko tiivistää miten Tilastot ilman kyyneleitä selittää tämän?
- Joku piirtää kuvaajan p-arvoon liittyvistä kysymykset ajan myötä, ja vedon siitä, ’ näen kausiluonteisuuden ja vastaavuuden akateemisten kalentereiden kanssa korkeakouluissa tai Courseran tietojenkäsittelytietoluokissa
- muun mukavan ja merkityksellisen kirjan lisäksi vastausten ja kommenttien suosituksia, haluaisin ehdottaa toista kirjaa, jota kutsutaan sopivasti nimellä ” Mikä on p-arvo joka tapauksessa? ” .
vastaus
$ p $ -arvo
Oletetaan, että haluat testata hypoteesia, jonka mukaan yliopistosi miesopiskelijoiden keskimääräinen pituus on $ 5 $ ft $ 7 $ tuumaa. Keräät satunnaisesti valittujen $ 100 $ opiskelijoiden korkeudet ja lasket keskiarvon (sanotaan, että se osoittautuu $ 5 $ ft 9 $ $ tuumaa). Käyttämällä sopivaa kaavaa / tilastorutiinia lasket hypoteesiisi $ p $ -arvon ja sanot sen olevan 0,06 dollaria $ .
Jotta voisimme tulkita $ p = 0,06 $ asianmukaisesti, meidän on pidettävä mielessä useita asioita:
-
Klassisen hypoteesin testauksen ensimmäinen vaihe on oletus, että tarkasteltava hypoteesi on totta. (Oletuksessamme oletamme, että true keskimääräinen korkeus on $ 5 $ ft $ 7 $ tuumaa.)
-
Kuvittele, että teet seuraavan laskelman: Laske todennäköisyys, että otos tarkoittaa on suurempi kuin $ 5 $ ft $ 9 $ tuumaa olettaen, että hypoteesimme on itse asiassa oikea (katso kohta 1) .
Toisin sanoen haluamme tietää $$ \ mathrm {P} (\ mathrm {Sample \: mean} \ ge 5 \: \ mathrm {ft} \: 9 \: \ mathrm {tuumaa} \: | \: \ mathrm {True \: value} = 5 \: \ mathrm {ft} \: 7 \: \ mathrm { tuumaa}). $$
Vaiheen 2 laskutoimitusta kutsutaan $ p $ -arvoksi. Siksi $ p $ -arvo 0,06 $ merkitsisi sitä, että jos toistaisimme kokeilumme, monet , monta kertaa (joka kerta, kun valitsemme $ 100 $ oppilasta sattumanvaraisesti ja laskemme otoskeskiarvon), sitten $ 6 $ kertaa 100 dollaria $ voimme odottaa näytekeskiarvon olevan suurempi tai yhtä suuri kuin 5 dollaria $ jalkaa 9 $ $ tuumaa.
Pitäisikö yllä olevan ymmärryksen huomioon ottaen säilyttää olettamuksemme totta (katso vaihe 1)? No, $ p = 0.06 $ osoittaa, että toinen kahdesta asiasta on tapahtunut:
- (A) Joko hypoteesi on oikea ja on tapahtunut erittäin epätodennäköinen tapahtuma (esim. kaikki 100 dollaria $ opiskelijat ovat opiskelijaurheilijoita)
tai
- (B) Oletuksemme on virheellinen eikä saatu näyte ole niin epätavallinen.
Perinteinen tapa valita (A) ja (B) on valita mielivaltainen raja-arvo $ p $ . Valitsemme (A), jos $ p > 0.05 $ ja (B) jos $ p < 0,05 $ .
Kommentit
- Ota aikaa! Voittin ’ ajattelematta ” parhaan vastauksen valitsemista ” viikon ajaksi tai niin.
- Nyt kun ’ minulla on ollut tilaisuus palata takaisin ja lukea koko vastaus – iso +1 opiskelijan korkeuden esimerkille. Erittäin selkeä ja hyvin muotoiltu.
- Hienoa työtä … mutta meidän on lisättävä (C) mallimme (joka sisältyy kaavaan / tilastorutiiniin) on väärä.
- A t -arvo (tai mikä tahansa muu testitilasto) on enimmäkseen välivaihe. ’ on pohjimmiltaan jokin tilasto, jonka joidenkin oletusten mukaan on osoitettu olevan hyvin tunnettu jakauma. Koska tiedämme testitilastojen jakauman nollan alapuolella, voimme sitten käyttää vakiotaulukoita (nykyään enimmäkseen ohjelmistoja) p-arvon johtamiseen.
- Isn ’ t p-arvo, joka on saatu chi-neliötestin tekemisen tuloksena ja sitten chi-neliön taulukosta? Mietin, miten edellä laskettu todennäköisyys osoitti itse p-arvon ?!
Vastaa
Dialogi välillä opettaja ja huomaavainen opiskelija
Nöyrästi esittänyt uskoen, että tähän säikeeseen ei ole toistaiseksi käytetty tarpeeksi värikyniä. Lyhyt havainnollistettu yhteenveto tulee näkyviin.
Opiskelija : Mitä p-arvo tarkoittaa? Monet ihmiset näyttävät olevan samaa mieltä siitä, että ” näemme näytteen keskiarvon, joka on suurempi tai yhtä suuri kuin ” tilasto tai se ”s ” todennäköisyys havaita tämä tulos. .. koska nollahypoteesi on totta ” tai missä ” otoksen tilastotiedot laskivat [simuloidun] jakauman ” ja jopa ” todennäköisyys noudattaa vähintään yhtä suurta testitilastoa kuin oletettu nollahypoteesi oletetaan ” .
Opettaja : Oikein ymmärrettynä kaikki nuo väitteet ovat oikeita monissa olosuhteissa.
Opiskelija : En ymmärrä, kuinka suuri osa niistä on merkityksellisiä. Etkö opettanut meille, että meidän on ilmoitettava nollahypoteesi $ H_0 $ ja vaihtoehtoinen hypoteesi $ H_A $ ? Kuinka he osallistuvat näihin ” -ideaan, joka on suurempi tai yhtä suuri kuin ” tai ” vähintään yhtä suuri ” vai erittäin suosittu ” äärimmäisempi ”?
Opettaja : Voisiko se auttaa meitä tutkimaan konkreettista esimerkkiä, koska se voi vaikuttaa yleensä monimutkaiselta?
Opiskelija : Toki. Mutta tee siitä realistinen, mutta yksinkertainen, jos mahdollista.
Opettaja : Tämä hypoteesitestauksen teoria alkoi historiallisesti tähtitieteilijöiden tarpeella analysoida havaintovirheitä, joten entä siitä, että aloitan siellä. Kävin eräänä päivänä läpi vanhoja asiakirjoja, joissa tutkija kuvaili pyrkimyksiään vähentää laitteidensa mittausvirheitä. Hän oli ottanut paljon mittauksia tähtiosuudet tunnetussa asennossa ja tallensivat niiden siirtymät kyseisen sijainnin eteen tai taakse. Näiden siirtymien visualisoimiseksi hän piirsi histogrammin, joka – hieman tasoitettuna – näytti tältä.
Opiskelija : Muistan, kuinka histogrammit toimivat: pystyakseli on merkitty ” Tiheys ” muistuttaa minua siitä, että mittausten suhteellisia taajuuksia edustaa alue eikä korkeus.
Opettaja : Se on totta. ” epätavallinen ” tai ” äärimmäinen ” arvo olisi olla alueella, jolla on melko pieni alue. Tässä on värikynä. Luuletko voivasi värittää alueella, jonka pinta-ala on vain kymmenesosa?
Opiskelija : Toki; se on helppoa. [Kuvan värit.]
Opettaja : Erittäin hyvä! Minusta se näyttää noin 10% pinta-alasta. Muista kuitenkin, että histogrammin ainoat tärkeät alueet ovat pystysuorien viivojen välissä: ne edustavat mahdollisuutta tai todennäköisyys että siirtymä sijoittuisi näiden viivojen väliin vaaka-akselilla. Se tarkoittaa, että sinun oli värjättävä pohjaan asti ja se olisi yli puolet alueesta, ei ”eikö niin?
Opiskelija : Voi, ymmärrän. Anna minun yrittää uudestaan. Haluan värittää siellä missä käyrä on todella matala, eikö? Se on matalimmassa päässä.Täytyykö minun tehdä värejä vain yhdellä alueella vai olisiko hyvä jakaa se useaan osaan?
Opettaja : Useiden osien käyttö on älykäs idea. Missä ne olisivat?
Opiskelija (osoittaminen): Täällä ja täällä. Koska tämä värikynä ei ole kovin terävä, käytin kynää näyttämään sinulle viivat, joita käytän.
Opettaja : Erittäin mukava! Anna minun kertoa loput tarina. Tutkija teki joitain parannuksia laitteeseensa ja sitten hän teki lisämittauksia. Hän kirjoitti, että ensimmäisen siirtymä oli vain 0,1 dollaria $ , mikä oli hänen mielestään hyvä merkki, mutta huolellisena tutkijana hän otti lisää mittauksia tarkastuksena . Valitettavasti nämä muut mittaukset menetetään – käsikirjoitus katkeaa tässä vaiheessa – ja meillä on vain yksi numero, 0,1 dollaria $ .
Opiskelija : Se on liian huono. Mutta eikö se ole niin paljon parempi kuin hahmosi laaja leviäminen hahmossasi?
Opettaja : Se ”Kysymykseen, johon haluaisin sinun vastaavan. Mitä meidän pitäisi aluksi pitää $ H_0 $ ?
Opiskelija : No, skeptikko miettii, onko laitteeseen tehdyillä parannuksilla mitään vaikutusta. Todistustaakka on tutkijalla: hän haluaa osoittaa, että skeptikko on väärässä. Se saa minut ajattelemaan nollahypoteesia on eräänlainen huono tiedemiehelle: siinä sanotaan, että kaikkien uusien mittausten – mukaan lukien 0,1 dollarin arvo, josta tiedämme – tulisi toimia ensimmäisen kuvaamana. tai ehkä jopa pahempi kuin se: ne voivat olla vielä levinneempiä.
Opettaja : G o, sinulla menee hyvin.
Opiskelija : Ja vaihtoehto on siis se, että uudet mittaukset olisivat vähemmän levinneet, eikö?
Opettaja : Erittäin hyvä! Voisitko piirtää minulle kuvan miltä histogrammi, jolla on vähemmän leviämistä, näyttäisi? Tässä on toinen kopio ensimmäisestä histogrammista; voit piirtää sen päälle viitteenä.
Opiskelija (piirustus): Esittelen uuden kynällä kynää histogrammi ja minä ”värin sen alla olevalla alueella. Olen tehnyt sen niin, että suurin osa käyrästä on lähellä nollaa vaaka-akselilla ja siten suurin osa sen käyrästä on lähellä (vaakasuoraa) nollan arvoa: se mitä se on tarkoittaa vähemmän hajautettua tai tarkempaa.
Opettaja : Se on hyvä alku. Muista kuitenkin, että histogrammin, joka näyttää mahdollisuudet , kokonaispinta-alan on oltava $ 1 $ . Ensimmäisen histogrammin kokonaispinta-ala siksi on $ 1 $ . Kuinka paljon aluetta uudessa histogrammissasi on?
Opiskelija : Mielestäni alle puolet . Näen ongelman, mutta en tiedä kuinka korjata se. Mitä minun pitäisi tehdä?
Opettaja : Temppu on tehdä uusi histogrammi korkeampi kuin vanha, jotta sen tota l-alue on $ 1 $ . Tässä näytän sinulle tietokoneen luoman version havainnollistamiseksi.
Opiskelija : Katson: venytit sen pystysuoraan, joten sen muoto ei muuttunut, mutta nyt punainen alue ja harmaa alue (mukaan lukien punaisen alla oleva osa) ovat samat.
Opettaja : Oikein. Katselet kuvaa nollahypoteesista (sinisenä, levitettynä) ja vaihtoehtoisen hypoteesin osasta (punaisena, vähemmän levinneenä).
Opiskelija : Mitä tarkoitat vaihtoehdon ” osalla ”? Eikö se ole vain vaihtoehtoinen hypoteesi?
Opettaja : Tilastotieteilijät ja kielioppi eivät näytä sekoittuvan. 🙂 Vakavasti, mitä he tarkoittavat ” -hypoteesilla ”, on yleensä suuri joukko mahdollisuuksia. Tässä vaihtoehto (kuten totesit niin hyvin aiemmin) on, että mittaukset ovat ” vähemmän hajautettuja ” kuin aikaisemmin. Mutta kuinka paljon vähemmän ? Mahdollisuuksia on monia. Anna minun näyttää sinulle toinen. Piirsin sen keltaisilla viivoilla. Se on kahden edellisen välissä.
Opiskelija : Näen: sinulla voi olla erilaisia määriä leviämistä, mutta et tiedä etukäteen, kuinka suuri leviäminen todella on. Mutta miksi teit hauskan varjostuksen tässä kuvassa?
Opettaja : Halusin korostaa missä ja miten histogrammit eroavat toisistaan. Varjostin ne harmaaksi, jos vaihtoehtoiset histogrammit ovat matalammat kuin nollat, ja punaisilla, jos vaihtoehdot ovat korkeammat .
Opiskelija : Miksi sillä olisi merkitystä?
Opettaja : Muistatko, kuinka väritit ensimmäisen histogrammin molemmissa hännissä? [Katso papereita.] Ah, tässä se on.Värittäkäämme ”s tämä kuva samalla tavalla.
Opiskelija : Muistan: nämä ovat äärimmäisiä arvoja. Löysin paikat, joissa nollatiheys oli mahdollisimman pieni ja värillinen, 10 prosentissa alueesta.
Opettaja : Kerro vaihtoehdoista noilla äärimmäisillä alueilla.
Opiskelija : Sitä on vaikea nähdä, koska värikynä peitti sen, mutta se näyttää siltä ” melkein ei ole mitään mahdollisuutta olla vaihtoehtoisilla alueilla värityskohteissani. Heidän histogramminsa ovat suoraan alas arvoakselia vasten, eikä niiden alla ole tilaa mistään alueesta.
Opettaja : Jatkakaamme tätä ajatusta. Jos sanoisin hypoteettisesti, että mittauksen siirtymä oli $ – 2 $ , ja pyysin sinua valitsemaan, mikä näistä kolmesta histogrammit olivat se, josta se todennäköisesti tuli, mikä se olisi?
Opiskelija : Ensimmäinen – sininen. Se on levinnyt eniten ja se on ainoa, jolla $ – 2 $ näyttää olevan mitään mahdollisuuksia esiintyä.
Opettaja : Ja entä käsikirjoituksen arvo 0,1 dollaria ?
Opiskelija : Hmmm … joka on erilainen tarina. Kaikki kolme histogrammia ovat melko korkealla maanpinnan yläpuolella 0,1 dollaria $ .
Opettaja : OK, riittävän reilu. Mutta oletetaan, että kerroin, että arvo oli lähellä $ 0.1 $ , kuten $ 0 $ ja $ 0,2 $ . Auttaako tämä sinua lukemaan joitain todennäköisyyksiä näistä kaavioista?
Opiskelija : Toki, koska voin käyttää alueita. Minun on vain arvioitava kunkin käyrän alla olevat alueet $ 0 $ ja $ 0,2 $ välillä. Mutta se näyttää melko vaikealta.
Opettaja : Sinun ei tarvitse mennä niin pitkälle. Voitteko vain kertoa, mikä alue on suurin?
Opiskelija : Tietysti korkeimman käyrän alapuolella. Kaikilla kolmella alueella on sama pohja, joten mitä korkeampi käyrä, sitä enemmän aluetta on sen alla ja pohjassa. Tämä tarkoittaa korkeinta histogrammia – piirtämäni, punaisilla viivoilla – on todennäköisin 0,1 dollarin $ siirtymiselle. Luulen, että näen, mihin olet menossa tämän kanssa, mutta minä ”olen vähän huolissani: eikö minun tarvitse katsoa kaikki kaikkien vaihtoehtojen histogrammeja, ei vain tässä näkyvää yhtä tai kahta? Kuinka voisin tehdä sen?
Opettaja : Sinulla on hyvä poimia kuvioita, joten sano minulle: kun mittauslaitteistoa tehdään yhä tarkemmaksi, mitä tapahtuu sen histogrammi?
Opiskelija : Se kapenee – oh, ja sen täytyy myös nousta pitemmäksi, joten sen kokonaispinta-ala pysyy samana. Tämän vuoksi on melko vaikea verrata histogrammit. Vaihtoehtoiset ovat kaikki korkeammat kuin null right kohdassa $ 0 $ , mikä on ilmeistä. Mutta muissa arvoissa joskus vaihtoehdot ovat suurempia ja joskus matalampia! Esimerkiksi [osoittamalla arvoon lähellä $ 3/4 $ ], täällä minun punainen histogrammi on pienin, keltainen histogrammi on korkein, ja alkuperäinen tyhjä histogrammi on niiden välillä. Mutta oikealla puolella nolla on suurin.
Opettaja : Histogrammien vertaaminen on yleensä monimutkaista. Auttaakseni meitä tekemään sen olen pyytänyt tietokonetta tekemään toinen juoni: se on jaettu kaikki vaihtoehtoiset histogrammin korkeudet (tai ” tiheydet ”) histogrammin tyhjän korkeuden mukaan, mikä luo arvoja, jotka tunnetaan nimellä ” todennäköisyyssuhteet. ” Tuloksena , arvo, joka on suurempi kuin $ 1 $ , tarkoittaa, että vaihtoehto on todennäköisempi, kun taas arvo, joka on pienempi kuin $ 1 $ , tarkoittaa vaihtoehto on vähemmän todennäköinen. Se on piirtänyt vielä yhden vaihtoehdon: se on levinnyt enemmän kuin kaksi muuta, mutta silti vähemmän levinnyt kuin alkuperäinen laite.
Opettaja (jatkuu): Voisitteko näyttää minulle, missä vaihtoehdot ovat todennäköisempiä kuin nolla?
Opiskelija (väritys): Ilmeisesti täällä keskellä. Ja koska nämä eivät enää ole histogrammeja, luulen, että meidän on tarkasteltava korkeuksia eikä alueita, joten merkitsen vain arvoalue vaaka-akselille. Mutta mistä tiedän kuinka paljon keskiosaa väritään? Missä lopetan värin?
Opettaja : Ei ole vakaata sääntöä. Kaikki riippuu siitä, miten aiomme käyttää johtopäätöksiä ja kuinka kovia skeptikot ovat.Mutta istu alas ja mieti mitä olet saavuttanut: ymmärrät nyt, että tulokset, joilla on suuret todennäköisyyssuhteet, ovat todisteita vaihtoehdon puolesta ja tulokset, joiden todennäköisyys on pieni, ovat todisteita vaihtoehtoa vastaan . Pyydän teitä värittämään alueen, jolla on mahdollisuuksien mukaan pieni mahdollisuus esiintyä nollahypoteesin alla ja suhteellisen suuri mahdollisuus esiintyä vaihtoehtojen alla. Palatakseni ensimmäiseen värittämääsi kaavioon, takaisin keskustelumme alkuun, väritit nollan kahdessa hännässä, koska ne olivat ” äärimmäisiä. ” tekisivätkö he silti hyvää työtä?
Opiskelija : En usko niin. Vaikka he olivat melko äärimmäisiä ja harvinaisia nollahypoteesin alla, ne ovat käytännössä mahdotonta millekään vaihtoehdolle. Jos uusi mittaukseni olisi esimerkiksi 3,0 dollaria , luulen, että asettelen epäilijöiden puolelle ja kieltäisin, että parannuksia olisi tapahtunut, vaikka $ 3,0 $ oli joka tapauksessa epätavallinen tulos. Haluan muuttaa tätä väriä. Täällä – anna minun saada toinen värikynä.
Opettaja : Mitä se edustaa?
Opiskelija : Aloitimme pyytämällä minua piirtämään vain 10% alkuperäisen histogrammin alla olevasta pinta-alasta – joka kuvaa nollaa. Piirsin 10% alueesta, jolla vaihtoehdot näyttävät todennäköisemmin esiintyvän. Luulen, että kun uusi mittaus on tällä alueella, se kertoo meille, että meidän pitäisi uskoa vaihtoehtoon.
Opettaja : Ja miten skeptikon tulisi reagoida siihen?
Opiskelija : Skeptikon ei tarvitse koskaan myöntää olevansa väärässä, eikö niin? Mutta uskon hänen uskonsa olevan hieman ravisteltava. Loppujen lopuksi järjestimme sen niin, että vaikka mittaus voisi olla juuri piirtämäni alueen sisällä, sillä on vain 10% mahdollisuus olla siellä, kun nolla on tosi. Ja sillä on suuremmat mahdollisuudet olla siellä, kun vaihtoehto on totta. En vain voi sanoa kuinka paljon suurempi mahdollisuus on, koska se riippuu siitä, kuinka paljon tutkija kehitti laitetta. Tiedän vain sen olevan suurempi. Joten todisteet olisivat epäilijöitä vastaan.
Opettaja : Hyvä on. Haluatko tiivistää ymmärryksesi niin, että ”olemme täysin selvillä siitä, mitä olet oppinut?
Opiskelija : Opin, että vertaamalla vaihtoehtoisia hypoteeseja nullhypoteeseihin, meidän tulisi verrata niitä histogrammit. Jaamme vaihtoehtojen tiheydet nollan tiheydellä: tämä on nimeltään todennäköisyyden suhde ”. ” Hyvän testin tekemiseksi minun pitäisi valita pieni määrä, kuten 10% tai mikä tahansa riittää ravistamaan skeptikkoa. Sitten minun pitäisi löytää arvot, joissa todennäköisyyssuhde on mahdollisimman korkea, ja värjätä ne, kunnes 10% (tai mikä tahansa) on värjätty.
Opettaja : Ja miten käyttäisit että väritys?
Opiskelija : Kuten muistutit aiemmin, värityksen on oltava pystysuorien viivojen välissä. Värin alla olevat (vaaka-akselilla olevat) arvot ovat todisteita nollahypoteesista. Muut arvot – hyvin, on vaikea sanoa, mitä ne saattavat tarkoittaa, tarkastelematta tarkemmin kaikkia mukana olevia histogrammeja.
Opettaja : Palataan arvon $ 0.1 $ käsikirjoituksessa, mitä tekisit johtopäätökseksi?
Opiskelija : Se on alueella, jonka viimeksi väritin , joten mielestäni tiedemies oli todennäköisesti oikeassa ja laitetta todella parannettiin.
Opettaja : Viimeinen asia. Päätelmäsi perustui kriteerin valitsemiseen 10% tai testin ” size ”. Monet ihmiset haluavat käyttää 5% sen sijaan. Jotkut suosivat 1%. Mitä voisit kertoa heille?
Opiskelija : En voinut tehdä kaikkia testejä kerralla! No, ehkä voisin tavallaan. Näen, että riippumatta koosta testin pitäisi olla, minun pitäisi aloittaa väritys $ 0 $ : sta, joka on tässä mielessä ” äärimmäinen ” -arvo ja työskentele sieltä molempiin suuntiin ulospäin. Jos pysähdyisin oikealla kohdalla $ 0,1 $ – todellisuudessa havaittu arvo – Luulen, että olisin värittänyt alueen jossain 0,05 $ ja 0,1 $ välissä, sano $ 0.08 $ . 5% ja 1% ihmiset voisivat heti kertoa, että väritin liian paljon: jos he haluaisivat värittää vain 5% tai 1%, he voisivat, mutta eivät ”Älä päästä niin pitkälle kuin 0,1 dollaria $ . He eivät tule samaan johtopäätökseen kuin minä: he sanoisivat, ettei ole tarpeeksi todisteita muutoksen todellisesta tapahtumisesta.
Opettaja : Olet juuri kertonut minulle mitä kaikki nuo alussa olevat lainaukset todella tarkoittavat.Tämän esimerkin pitäisi olla ilmeistä, että he eivät voi mahdollisesti ajatella ” äärimmäisempiä ” tai ” suurempi tai yhtä suuri kuin ” tai ” vähintään yhtä suuri ” jolla on suurempi arvo tai jopa arvo, jossa nollatiheys on pieni. Ne tarkoittavat todella näitä asioita kuvailemiesi suurten todennäköisyyssuhteiden merkityksessä. Muuten, laskemaasi $ 0.08 $ -numeroa kutsutaan ” p-arvoksi. ” Se voidaan ymmärtää oikein vain kuvaamallasi tavalla: suhteellisen histogrammikorkeuden – todennäköisyyssuhteiden – analyysin suhteen.
Opiskelija : Kiitos. En ole varma, että ymmärrän kaiken tämän vielä täysin, mutta olet antanut minulle paljon ajateltavaa.
Opettaja : Jos haluat mennä pidemmälle, ota katso Neyman-Pearsonin lemma . Olet todennäköisesti valmis ymmärtämään sen nyt.
Yhteenveto
Monet testit, jotka perustuvat yksittäiseen tilastoon, kuten valintaikkunassa, kutsuvat sitä ” $ z $ ” tai ” $ t $ ”. Nämä ovat tapoja vihjata, miltä nolla histogrammi näyttää, mutta ne ovat vain vihjeitä: Sillä, mitä nimeämme tälle numerolle, ei ole väliä. Opiskelijan yhteenveto rakenne, kuten täällä on esitetty, osoittaa, miten se liittyy p-arvoon. P-arvo on pienin testikoko, joka aiheuttaisi $ t = 0,1 $ -havainnan johtaa nullhypoteesin hylkäämiseen.
Tässä kuvassa, joka on suurennettu yksityiskohtien näyttämiseksi, nollahypoteesi piirretään kiinteä sininen ja kaksi tyypillistä vaihtoehtoa on piirretty katkoviivoilla. Alue, jolla nämä vaihtoehdot ovat yleensä paljon suurempia kuin nolla, on varjostettu. Varjostus alkaa siitä, mihin vaihtoehtojen suhteelliset todennäköisyydet ovat suurimmat ( $ 0 $ ). Varjostus loppuu, kun havainto $ t = 0,1 $ saavutetaan. P-arvo on varjostetun alueen pinta-ala nollahistogrammin alla: se on mahdollisuus havaita tulos, jonka todennäköisyyssuhteet ovat yleensä suuria riippumatta siitä, mikä vaihtoehto sattuu olemaan totta. Erityisesti tämä rakenne riippuu läheisesti vaihtoehtoisesta hypoteesista. Sitä ei voida suorittaa määrittelemättä mahdollisia vaihtoehtoja.
Kaksi käytännön esimerkkiä tässä kuvatusta testistä – yksi julkaistu, toinen hypoteettinen – katso https://stats.stackexchange.com/a/5408/919 .
kommentit
- Tämä on käsittelin erinomaisesti kommenttini toisesta vastauksesta, että yksikään aikaisemmista vastauksista tähän kysymykseen ei ollut yleisesti käsitellyt yleisesti kuullut ” tai äärimmäisempiä ” -kohta p -arvosta. (Vaikka ” teetestaus ” vastaus sisälsi hyvän erityinen esimerkki.) Ihailen erityisesti tapaa, jolla tämä esimerkki on tarkoituksella rakennettu korostamaan, että ” äärimmäisempi ” voi tarkoittaa aivan päinvastaista ” isompi ” tai ” edelleen nollasta ”.
- Toivotan, että opettajat ja oppikirjat eivät ’ käyttäneet ilmausta ” tai äärimmäisempiä ”, todella. Kaksi varianttia, jotka olen kuullut, voidaan muotoilla ” suotuisammaksi kohti $ H_1 $ ” tai ” vakuuttaa $ H_1 $ ”. Tässä tapauksessa arvot, jotka ovat lähempänä nollaa, todellakin vakuuttavat, että kaukoputkesta on tullut luotettavampi, mutta se vaatii jonkin verran kieliakrobatiaa (uskottavasti perusteltu, mutta mahdollisesti sekava) kuvaamaan niitä nimellä ” äärimmäisempi ”.
- Ainutlaatuisen oivaltava kuin aina, kiitos, että käytit aikaa kirjoittaa nämä uskomattoman hyödylliset vastaukset. Ihmettelen, miksi oppikirjoja ei koskaan kirjoiteta tavalla, joka tarjoaa lähelle näitä selkeyden ja intuition tasoja.
- On vaarallista käyttää sarkasmia kommentissa. , @baxx, koska siellä ’ ei ole tarpeeksi tilaa, jotta voimme tehdä sen kohteliaasti ja tyylikkäästi. Siksi ’ ei yleensä ole hyvä ajatella, että kommentti on sarkastinen, ellei se nimenomaisesti kerro sinulle niin.Oletetaan, että kommenttien on tarkoitus auttaa sinua. Jos seuraat yksinkertaisesti ensimmäistä osumaa tarjoamassani haussa, luulen, että kysymyksiisi vastataan.
- Yksinkertaisesti upea! Kiitos @whuber!
Vastaa
Ennen kuin kosketan tätä aihetta, varmista aina, että opiskelijat ovat onnellisia siirtyessään prosenttien, desimaalien, kertoimien ja murto-osien välillä. Jos he eivät ole täysin tyytyväisiä tähän, he voivat sekoittua hyvin nopeasti.
Haluan selittää hypoteesitestauksen ensimmäistä kertaa (ja siksi p-arvot ja testitilastot) Fisherin kautta ” s klassinen teekokeilu. Minulla on tähän useita syitä:
(i) Luulen, että kokeilun tekeminen ja termien määritteleminen eteenpäin on järkevämpää, että aluksi määritellään kaikki nämä termit. (ii) Sinun ei tarvitse luottaa nimenomaisesti todennäköisyysjakaumiin, käyrän alapuolisiin alueisiin jne. päästäksesi hypoteesitestauksen avainkohdista. (iii) Se selittää tämän naurettavan käsityksen ”havaituista tai äärimmäisemmistä kuin havaitut” melko järkevällä tavalla. (iv) Mielestäni opiskelijat haluavat ymmärtää opiskeltavan historian, alkuperän ja taustan, koska se tekee siitä todellisemman kuin jotkut abstraktit teoriat. (v) Ei ole väliä mitä kurinalaisuutta tai aihetta opiskelijat tulevat, he voivat liittyä esimerkkiin teestä (Huom. Joillakin kansainvälisillä opiskelijoilla on vaikeuksia tämän erityisen brittiläisen maitoteetä valmistavan instituution kanssa.)
[Huomaa: Sain tämän idean alun perin Dennis Lindleyn upeasta artikkelista ”Kokeellisten tietojen analyysi: Tea & viinin arvostus”, jossa hän osoittaa miksi Bayesin menetelmät ovat parempia kuin klassiset menetelmät.]
Takana on, että Muriel Bristol vierailee Fisherissä eräänä iltapäivänä 1920-luvulla Rothamstedin koe-asemalla kupillisen teetä. Kun Fisher laittaa maidon viimeiseksi, hän valitti sanomalla, että hän voisi kerro myös, onko maito kaadettu ensin (vai viimeisenä) ja että hän halusi mieluummin edellisen. Tämän testiksi hän suunnitteli klassisen teekokeen, jossa Murielille esitettiin pari teekuppia ja hänen on tunnistettava, kummassa maito oli lisätään ensin. Tämä toistetaan kuudella parilla teekuppeja jäätelöt ovat joko oikeaa (R) tai väärää (W), ja hänen tulokset ovat: RRRRRW.
Oletetaan, että Muriel itse asiassa vain arvaa eikä hänellä ole kykyä erottaa mitään. Tätä kutsutaan tyhjäksi hypoteesiksi . Fisherin mukaan kokeen tarkoituksena on kumota tämä nollahypoteesi. Jos Muriel arvaa, hän tunnistaa teekupin oikein todennäköisyydellä 0,5 jokaisella kierroksella, ja koska ne ovat riippumattomia, havaitulla tuloksella on 0,5 $ ^ 6 $ = 0,016 (tai 1/64). Fisher väittää sitten, että joko
(a) nollahypoteesi (Muriel arvaa) on totta ja on tapahtunut pieni todennäköisyys tai
(b) nollahypoteesi on väärä ja Murielilla on erotteluvoimat.
P-arvo (tai todennäköisyysarvo) on todennäköisyys havaita tämä tulos (RRRRRW), koska nollahypoteesi on totta – se on a alakohdassa tarkoitettu pieni todennäköisyys Tässä tapauksessa se on 0,016. Koska pienen todennäköisyyden omaavia tapahtumia esiintyy vain harvoin (määritelmän mukaan), tilanne (b) voi olla parempi selitys tapahtuneelle kuin tilanne (a). Kun hylkäämme nollahypoteesin, hyväksymme itse asiassa päinvastaisen hypoteesin, jota kutsumme vaihtoehtoiseksi hypoteesiksi. Tässä esimerkissä vaihtoehtoinen hypoteesi on Murielilla syrjiviä voimia.
Tärkeä näkökohta on, mitä me teemme luokka ”pienenä” todennäköisyytenä? Mikä on raja-arvo, jossa olemme valmiita sanomaan, että tapahtuma on epätodennäköinen? Tavallinen vertailuarvo on 5% (0,05), ja tätä kutsutaan merkitsevyystasoksi. Kun p-arvo on pienempi kuin merkitsevyystaso, hylkäämme nollahypoteesin vääräksi ja hyväksytään vaihtoehtoinen hypoteesi. On yleistä kielenkäyttöä väittää, että tulos on ”merkittävä”, kun p-arvo on pienempi kuin merkitsevyystaso eli kun todennäköisyys sille, mitä havaittu esiintyminen, koska nollahypoteesi on totta, on pienempi kuin raja-arvomme. On tärkeää olla selvää, että 5%: n käyttö on täysin subjektiivista (samoin kuin muiden yleisten 1%: n ja 10%: n merkitsevyystasojen käyttö).
Fisher tajusi, että tämä ei ole t tehdä työtä; jokainen mahdollinen tulos yhdellä väärällä parilla viittasi yhtä lailla syrjiviin voimiin. Yllä olevan tilanteen (a) merkityksellinen todennäköisyys on siis 6 (0,5) ^ 6 = 0,094 (tai 6/64), joka on nyt ei merkitsevä merkitsevyystasolla 5%. Tämän voittamiseksi Fisher väitti, että jos yhtä virhettä kuudesta pidetään todisteena syrjivistä voimista, niin ei ole virheitä, ts.tulokset, jotka osoittavat voimakkaammin syrjivää voimaa kuin havaittu, olisi sisällytettävä p-arvon laskemiseen. Tämä johti joko seuraavaan perustelujen muutokseen:
(a) nollahypoteesi (Muriel arvaa) on totta ja tapahtumien todennäköisyys havaittua tai enemmän äärimmäisenä on pieni tai
(b) nollahypoteesi on väärä ja Murielilla on syrjiviä voimia.
Takaisin teekokeiluomme ja havaitsemme, että tämän kokoonpanon p-arvo on 7 (0,5 ) ^ 6 = 0,109, joka ei silti ole merkittävä 5 prosentin kynnyksellä.
Saan sitten opiskelijat käyttämään joitain muita esimerkkejä, kuten kolikoiden heittämistä selvittääkseen, onko kolikko oikeudenmukainen vai ei. Tämä poraa kotiin käsitteet nolla / vaihtoehtoinen hypoteesi, p-arvot ja merkitsevyystasot. Sitten siirrymme jatkuvan muuttujan tapaukseen ja esitämme testitestin käsitteen. Koska olemme jo käsitelleet normaalijakauman, normaalin normaalijakauman ja z-muunnoksen perusteellisesti, kyse on vain useiden käsitteiden yhdistämisestä.
Testaustilastojen, p-arvojen ja Päätöksen tekeminen (merkittävä / ei merkittävä) saan opiskelijat työskentelemään julkaistujen artikkelien kautta puuttuvien aihioiden pelin täyttämisessä.
Kommentit
- I tiedän, että ’ herätän jonkin verran hyvin vanhaa säiettä, mutta tässä se menee … Nautin todella vastauksestasi, mutta kaipaan sen t-arvo-osaa 🙁 Voisitko käytä annettuja esimerkkejä puhuaksesi siitä? Kukaan ei vastannut t-testiosasta
- @sosi It ’ s todennäköisesti siksi, että p-arvot ovat paljon enemmän yleisiä kuin t-arvot. Se ’ haluaa kysyä autoja ja sitten Ford Fiestan jarrut.
- Vastaus on erittäin mielenkiintoinen (+ 1), mutta muutama asia on sekoitettu yhteen lopussa hattu tarkoittaakö $ p $ -arvon olevan ” merkittävä 5 prosentin tasolla ”? Joko $ p $ -arvo on alle 5%, tai se ei ole. En näe ’ mielessäni tällaisen hämärän lauseen käyttämistä, jolloin ” merkitys ” määrittelemätön. 2. Mitä tarkoittaa ” päättää ” onko $ p $ -arvo merkittävä? Ei vaikuta perustellulta tuoda päätöksentekoteoria sekoitukseen tällä tavoin (varsinkin kun Fisher oli voimakas vastustaja Neyman-Pearsonin testauskehyksen soveltamiselle tieteissä).
Vastaus
Mikään suullinen selitys tai laskelma ei auttanut minua ymmärtämään suoliston tasolla mitä p-arvot olivat, mutta se kiinnittyi todella huomioni minulle, kun otin kurssin, johon sisältyi simulaatio. Se antoi minulle mahdollisuuden nähdä nullhypoteesin tuottamat tiedot ja piirtää keinot / jne. simuloiduista näytteistä, katso sitten, mihin näytteeni tilastot laskivat jakelulle.
Mielestäni tärkein etu siinä on, että se antaa opiskelijoille mahdollisuuden unohtaa matematiikka ja testitilastojakaumat hetkeksi ja keskittyä käsillä oleviin käsitteisiin. Myönnettiin, että minun oli opittava miten simuloimaan kyseisiä juttuja, mikä aiheuttaa ongelmia aivan erilaisille opiskelijoille. Mutta se toimi minulle, ja olen käyttänyt simulointi lukemattomia kertoja auttaaksesi selittämään tilastoja muille menestyksekkäästi (esim. ”Tämä näyttää tietosi; tältä näyttää Poisson-jakauma päällekkäin. Oletko varma, että haluat tehdä Poissonin regressiota?”).
Tämä ei vastaa tarkalleen esittämiisi kysymyksiin, mutta ainakin minulle se teki niistä vähäpätöisiä.
Kommentit
- Olen täysin samaa mieltä simulaation käytöstä tämän selittämisessä, mutta vain pieni huomautus esimerkistä lopussa: Minusta ihmiset (eivät vain opiskelijat) pitävät sitä di vaikea erottaa minkä tahansa tietyn jakeluolettaman suhteen poisson, jakautumisen marginaalisesti poisson ja ehdollisesti poisson jakamisen välillä. Koska vain jälkimmäisellä on merkitystä regressiomallissa, joukon riippuvaisia muuttuja-arvoja, jotka eivät ole ’ t poisson, ei tarvitse välttämättä olla mitään syytä huoleen.
- Olen tunnustaa, etten tiennyt sitä ’. Olen ’ arvostanut todella kommenttejasi tällä sivustolla jäsenyytesi viimeisten päivien aikana – toivottavasti ’ pidät kiinni <. li>
- @MattParker tiedätkö oppimisresursseja, jotka ovat keskittyneet simulaation käyttöön ymmärryksen kehittämiseksi? Vai onko kyse vain python / R-komentosarjojen yhdistämisestä ja joukon testejä suorittamisesta?
- @baxx [Seeing Theory -sivusto, Daniel Kunin] (students.brown.edu/seeing-theory/ ) on joitain mielenkiintoisia työkaluja tähän, mutta se ’ on vielä kesken.Muuten, joo, olen ’ olen suurimmaksi osaksi kokeillut R ’ -sisäisiä simulointityökaluja – käyttämällä niitä todistamaan itselleni kuinka jokin menetelmä toimii, tai nähdäksesi, mitä tapahtuisi, jos ennustaja korvattaisiin satunnaisella muuttujalla, jne. Jee – vähän kanaa ja munaa siinä, että kokeiden rakentamiseksi sinun (oletan?) Sinun on ainakin saatava tarpeeksi niiden kirjoittamiseen. Ei hätää, vaikka ….. Tarkistit vain linkitetyn sivuston, se ’ on mukava, kiitos
Vastaa
Hieno p-arvon määritelmä on ”todennäköisyys havaita vähintään yhtä suuri tilastotiede kuin laskettu olettaen, että nollahypoteesi on totta”.
Ongelmana on, että se vaatii ymmärtämistä ”testistatisti” ja ”nollahypoteesi”. Mutta se on helppo päästä yli. Jos nollahypoteesi on totta, yleensä jotain sellaista kuin ”parametri populaatiosta A on yhtä suuri kuin parametrin joukosta B”, ja lasket tilastoja näiden parametrien arvioimiseksi, mikä on todennäköisyys testitilasto, joka sanoo, että ”he eroavat toisistaan”?
Esimerkiksi, jos kolikko on reilu, mikä on todennäköisyys nähdä 60 päätä 100 heitosta? Se testaa nollahypoteesin , ”kolikko on reilu” tai ”p = .5”, jossa p on päiden todennäköisyys.
Testaustilasto olisi tällöin päiden lukumäärä.
Nyt oletan , että se, mitä kutsut ”t-arvoksi”, on yleinen ”testitilasto”, ei ”t-jakauman” arvo. ei sama asia, ja termiä ”t-arvo” ei käytetä (välttämättä) laajalti ja se voi olla hämmentävää.
Soitan todennäköisesti t-arvoa. ”testitilasto”. P-arvon laskemiseksi (muista, että se on vain todennäköisyys) tarvitset jakauman ja arvon, joka kytketään jakeluun, mikä palauttaa todennäköisyyden. Kun olet tehnyt niin, palauttamasi todennäköisyys on p-arvo. Voit nähdä, että ne ovat yhteydessä toisiinsa, koska saman jakauman alla erilaiset testitilastot tuottavat erilaisia p-arvoja. Äärimmäisemmät testitilastot palauttavat pienemmät p-arvot, mikä antaa enemmän viitteitä siitä, että nullhypoteesi on väärä.
Olen ohittanut tässä yksi- ja kaksipuolisten p-arvojen kysymyksen.
Vastaa
Kuvittele, että sinulla on laukku, joka sisältää 900 mustaa ja 100 valkoista marmoria, eli 10% marmoreista on valkoisia. Kuvittele nyt, että otat 1 marmorin pois, katsot sitä ja kirjaat sen värin, otat toisen, nauhoitat sen värin jne. ja tee tämä 100 kertaa. Tämän prosessin lopussa sinulla on numero valkoisille marmoreille, joiden ihannetapauksessa odotamme olevan 10 eli 10% 100: sta, mutta itse asiassa voi olla 8, 13 tai mikä tahansa. yksinkertaisesti satunnaisuuden vuoksi. Jos toistat tämän 100 marmorista tehdyn koekokeen monta kertaa ja piirrät sitten histogrammin kokeessa piirrettyjen valkoisten marmorien lukumäärästä, huomaat, että sinulla on kellokäyrä keskellä noin 10.
Tämä edustaa 10-prosenttista hypoteesiasi: minkä tahansa pussin kanssa, joka sisältää 1000 marmoria, joista 10% on valkoisia, jos otat satunnaisesti 100 marmoria, löydät 10 valkoista marmoria valinnasta, anna tai ota 4 tai niin. P-arvo on kyse tästä ”antaa tai ottaa 4 tai niin”. Sanotaan viittaamalla aiemmin luotuun kellokäyrään, että voit määrittää, että alle 5% ajasta saat 5 tai vähemmän valkoista marmoria ja toinen < 5% ajasta osuus vähintään 15 valkoisesta marmorista eli yli 90% ajasta, jolloin 100 marmorivalintasi sisältää 6-14 valkoista marmoria mukaan lukien.
Oletetaan, että joku ottaa alas 1000 marmoripussin, jonka lukumäärä on tuntematon. siinä on valkoisia marmoreita, meillä on työkalut vastata näihin kysymyksiin.
i) Onko valkoisia marmoreita alle 100?
ii) Onko valkoisia marmoreita yli 100?
iii) Sisältääkö pussi 100 valkoista marmoria?
Ota vain 100 marmoria pussista ja laske kuinka moni näytteestä on valkoista.
a) Jos on ovat 6–14 valkoista näytteessä, et voi hylätä hypoteesia, että pussissa on 100 valkoista marmoria ja vastaavat p-arvot 6–14 ovat> 0,05.
b) Jos on 5 tai vähemmän valkoisia näytteessä voit hylätä ct hypoteesi, jonka mukaan pussissa on 100 valkoista marmoria ja vastaavat p-arvot viidelle tai vähemmän ovat < 0,05. Oletettavasti pussissa on < 10% valkoisia marmoreita.
c) Jos näytteessä on vähintään 15 valkoista, voit hylätä hypoteesin, että ovat 100 valkoista marmoria pussissa ja vastaavat p-arvot 15 tai useammalle ovat < 0,05. Oletettavasti pussissa on> 10% valkoisia marmoreita.
Vastauksena Baltimarkin kommenttiin
Yllä olevan esimerkin perusteella on noin : –
4.8% mahdollisuus saada parempia 5 valkoista palloa tai vähemmän
1,85% 4 tai vähemmän mahdollinen
0,55% 3 tai vähemmän mahdollisuus
0,1% 2 tai vähemmän
6,25% mahdollisuus 15 tai enemmän
3,25% mahdollisuus 16 tai enemmän
1,5% mahdollisuus 17 tai enemmän
0,65% mahdollisuus 18 tai enemmän
0,25% mahdollisuus 19 tai enemmän
0,1% mahdollisuus 20 tai enemmän
0,05% mahdollisuus 21 tai enemmän
Nämä luvut arvioitiin empiirisen jakauman perusteella, joka syntyi yksinkertaisella Monte Carlo -rutiinilla R: ssä ja tuloksena olevista näytteenottojakauman kvileistä.
Jos olet vastannut alkuperäiseen kysymykseen, oletetaan, että piirrät 5 valkoista palloa, on vain noin 4,8% mahdollisuus, että jos 1000 marmoripussissa on todella 10% valkoisia palloja, vedät vain 5 valkoiset 100: n näytteessä. Tämä vastaa ap-arvoa < 0,05. Sinun on nyt valittava
i) Pussissa on todella 10% valkoisia palloja, ja minulla on juuri ”epäonnea” piirtää niin vähän
tai
ii) Olen piirtänyt niin vähän valkoisia palloja, että ”ei oikeastaan voi olla 10% valkoisia palloja (hylkää hypoteesi 10%: n valkoisista palloista”). ”>
Vastaa
Mitä p-arvo ei kerro, kuinka todennäköistä on, että nollahypoteesi on totta. Tavanomaisen (Fisher) -merkintätestauskehyksen alla laskemme ensin todennäköisyyden havaita tietoja olettaen, että nollahypoteesi on totta, tämä on p-arvo. Vaikuttaa intuitiivisesti järkevältä olettaa, että nollahypoteesi on todennäköisesti väärä, jos tietoja on riittävän epätodennäköistä havaita nollahypoteesin aikana. Tämä on täysin kohtuullista. Tilastotieteilijät käyttävät perinteisesti kynnystä ja ”hylkäävät nollahypoteesin 95 %: n merkitsevyystaso ”jos (1 – p)> 0,95; kuitenkin tämä on vain käytännössä kohtuulliseksi osoittautunut käytäntö – se ei tarkoita, että on alle 5%: n todennäköisyys, että nollahypoteesi on väärä (ja siksi 95 % todennäköisyys, että vaihtoehtoinen hypoteesi on totta). Yksi syy, jota emme voi sanoa, on se, että emme ole vielä tarkastelleet vaihtoehtoista hypoteesia.
Kuvaa funktio f (), joka kartoittaa p-arvon todennäköisyydelle, että vaihtoehtoinen hypoteesi on totta. Olisi järkevää väittää, että tämä funktio on supistumassa tiukasti (siten, että mitä todennäköisempiä nollahypoteesin havainnot ovat, sitä vähemmän todennäköinen vaihtoehtoinen hypoteesi on totta) ja että se antaa arvot välillä 0 ja 1 (koska se antaa arvion Se on kuitenkin kaikki mitä tiedämme f (): sta, joten vaikka p: n ja todennäköisyyden välillä, että vaihtoehtoinen hypoteesi on totta, on suhde, se on kalibroimaton. Tämä tarkoittaa, että emme voi käyttää p-arvoa kvantitatiiviset lausunnot nolla- ja alternatve-hypoteesien uskottavuudesta.
Caveat-lektori: Ei ole oikeastaan usein puhutaan todennäköisyydestä, että hypoteesi on totta, koska se ei ole ta-satunnaismuuttuja – se on joko totta tai se ei ole ”t”. Joten missä olen puhunut hypoteesin totuuden todennäköisyydestä, olen implisiittisesti siirtynyt Bayesin tulkintaan. On väärin sekoittaa Bayesin ja usein esiintyvää, mutta siihen on aina kiusaus, koska haluamme kvantitatiivisesti hypoteesien suhteellisen uskottavuuden / todennäköisyyden. Mutta p-arvo ei anna tätä.
Vastaus
Tilastoissa ei voi koskaan sanoa, että jokin on täysin varma, joten tilastotieteilijät käyttävät toista lähestymistapaa arvioidakseen, onko hypoteesi totta vai ei. He yrittävät hylätä kaikki muut hypoteesit, joita tiedot eivät tue.
Tätä varten tilastollisilla testeillä on nollahypoteesi ja vaihtoehtoinen hypoteesi. Tilastollisesta testistä ilmoitettu p-arvo on todennäköisyys tulokselle, koska nollahypoteesi oli oikea. Siksi haluamme pieniä p-arvoja. Mitä pienemmät ne ovat, sitä epätodennäköisempi tulos olisi, jos nollahypoteesi olisi oikea. Jos p-arvo on riittävän pieni (ts. On epätodennäköistä, että tulos olisi tapahtui, jos nollahypoteesi oli oikea), nollahypoteesi hylätään.
Tällä tavoin nollahypoteeseja voidaan muotoilla ja hylätä myöhemmin. Jos nollahypoteesi hylätään, hyväksyt vaihtoehtoisen hypoteesin parhaana selityksenä. Muista kuitenkin, että vaihtoehtoinen hypoteesi ei ole koskaan varma, koska nollahypoteesi olisi voinut sattumalta tuottaa tuloksia.
Kommentit
- a p -arvo on todennäköisyys tulokseen, joka on vähintään ” extreme ” kuin annettu tulos, ei varsinaiseen tulokseen. p-arvo on $ Pr (T \ geq t | H_0) $ eikä $ Pr (T = t | H_0) $ (T on testitilasto ja t on sen havaittu arvo).
vastaus
Minulla on vähän vaikeuksia elvyttää vanha aihe, mutta hyppäsin täältä , joten lähetän tämän vastauksena linkin kysymykseen.
P-arvo on konkreettinen termi, väärinkäsityksille ei pitäisi olla tilaa. Mutta on jotenkin mystistä, että puhekieliset käännökset p-arvon määritelmästä johtavat moniin erilaisiin väärinkäsityksiin. Mielestäni ongelman ydin on lauseiden ”ainakin yhtä haitallinen nollahypoteesille” tai ”ainakin yhtä äärimmäinen kuin näytetiedoissa oleva” jne. Käytöstä.
Esimerkiksi Wikipedia sanoo
… p-arvo on todennäköisyys saada havaitut näytetulokset (tai äärimmäisempi tulos), kun nollahypoteesi on totta .
$ p $ -arvon merkitys hämärtyy, kun ihmiset ensin törmäävät ”(tai äärimmäisempään tulokseen)” ja alkavat ajatella ” enemmän extreeeme ? ”.
Mielestäni on parempi jättää” äärimmäisempi tulos ”esimerkiksi epäsuoraan puheeseen . Joten otokseni on
P-arvo on todennäköisyys nähdä näkemäsi ”kuvitteellisessa maailmassa”, jossa nollahypoteesi on totta.
Jotta idea olisi konkreettinen, oletetaan, että sinulla on näyte x
, joka koostuu 10 havainnosta ja oletat, että populaatio keskiarvo on $ \ mu_0 = 20 $. Joten oletetussa maailmassa väestöjakauma on $ N (20,1) $.
x #[1] 20.82600 19.30229 18.74753 18.99071 20.14312 16.76647 #[7] 18.94962 17.99331 19.22598 18.68633
Lasket t-stat nimellä $ t_0 = \ sqrt {n} \ frac {\ bar {X} – \ mu_0} {s} $, ja huomaa, että
sqrt(10) * (mean(x) - 20) / sd(x) #-2.974405
Mikä on todennäköisyys havaita niin suuri $ | t_0 | $ kuin 2,97 (”äärimmäisempi” tulee tänne) kuvitteellinen maailma? Kuvitteellisessa maailmassa $ t_0 \ sim t (9) $, p-arvon on siis oltava $$ p-arvo = Pr (| t_0 | \ geq 2.97) = 0.01559054 $$
2*(1 - pt(2.974405, 9)) #[1] 0.01559054
Koska p-arvo on pieni, on hyvin epätodennäköistä, että näyte x
olisi luotu oletetussa maailmassa. Siksi päätellään, että on hyvin epätodennäköistä, että oletettu maailma olisi itse asiassa todellinen maailma.
Kommentit
- +1, mutta kun kirjoitat ” todennäköisyys nähdä näkemäsi ” ja jättää ” äärimmäisempi ” osa, tästä lauseesta tulee ehdottomasti väärä (ja mahdollisesti harhaanjohtava, vaikka ehkä vähemmän sekava). Se ei ole todennäköisyys nähdä mitä näet (tämä on yleensä nolla). Se on todennäköisyys nähdä näkemäsi ” tai äärimmäisempi ”. Vaikka tämä saattaa olla hämmentävä bitti monille, se on silti ratkaiseva (ja voi kiistellä loputtomasti subjektiivisuuden astetta, joka piiloutuu tämän ” äärimmäisen ” sanamuoto).
- @amoeba Luulin, että kun riittävä esimerkki toimitettiin, se voisi toimia välityspalvelimena ”: lle havaittujen näytetulosten saamiseksi. (tai äärimmäisempi tulos) ”. Ehkä tarvitaan parempaa sanamuotoa.
- Aioin tehdä saman havainnon kuin @amoeba; ” tai äärimmäisempi ” osa hoidetaan esimerkkinä opiskelijoiden korkeuksissa ja teekutsuvastauksissa, mutta en ’ ei usko, että tämän ketjun vastaukset ovat osuneet selkeään yleiseen selitykseen siitä, etenkin joka kattaa erilaisia vaihtoehtoisia hypoteeseja. Olen samaa mieltä tämän vastauksen kanssa, joka viittaa siihen, että ” tai äärimmäisempi ” osa on käsitteellinen kiinnityskohta monille opiskelijoille.
- @Silverfish: eikä vain opiskelijoita. Kuinka monta Bayesin ja vs-frekvenssin välittäjää olen lukenut keskustelemalla tämän ” äärimmäisemmän ” -bitin subjektiivisuudesta / objektiivisuudesta!
- @Silver Olen samaa mieltä kritiikistäsi ja olen lähettänyt vastauksen yrittäen vastata siihen. ” Tai äärimmäisempi ” on asian ydin.
Vastaus
Olen myös havainnut, että simulaatioista on hyötyä opetuksessa.
Tässä on simulaatio väitetysti perustavimmalle tapaukselle, jossa otamme $ n $ kertaa mallista $ N (\ mu, 1) $ (joten $ \ sigma ^ 2 = 1 $ tunnetaan yksinkertaisuudesta ) ja testaa $ H_0: \ mu = \ mu_0 $ vasemmanpuoleiseen vaihtoehtoon nähden.
Sitten $ t $ -statistic $ \ text {tstat}: = \ sqrt {n} (\ bar {X} – \ mu_0) $ on $ N (0,1) $ alle $ H_0 $, niin että $ p $ -arvo on yksinkertaisesti $ \ Phi (\ text {tstat}) $ tai pnorm(tstat)
R: ssä.
Simulaatiossa , murto-kerta, kun nollaan $ N (\ mu_0,1) $ (tässä, $ \ mu_0 = 2 $) tuotettu data tuottaa näytteitä, jotka on tallennettu ryhmään nullMeans
, ovat pienempiä (eli ” äärimmäisempiä ”” tässä vasemmanpuoleisessa testissä) kuin havaittujen tietojen perusteella laskettu.
# p value set.seed(1) reps <- 1000 n <- 100 mu <- 1.85 # true value mu_0 <- 2 # null value xaxis <- seq(-3, 3, length = 100) X <- rnorm(n,mu) nullMeans <- counter <- rep(NA,reps) yvals <- jitter(rep(0,reps),2) for (i in 1:reps) { tstat <- sqrt(n)*(mean(X)-mu_0) # test statistic, N(0,1) under the given assumptions par(mfrow=c(1,3)) plot(xaxis,dnorm(xaxis),ylab="null distribution",xlab="possible test statistics",type="l") points(tstat,0,cex=2,col="salmon",pch=21,bg="salmon") X_null <- rnorm(n,mu_0) # generate data under H_0 nullMeans[i] <- mean(X_null) plot(nullMeans[1:i],yvals[1:i],col="blue",pch=21,xlab="actual means and those generated under the null",ylab="", yaxt="n",ylim=c(-1,1),xlim=c(1.5,2.5)) abline(v=mu_0,lty=2) points(mean(X),0,cex=4,col="salmon",pch=21,bg="salmon") # counts 1 if sample generated under H_0 is more extreme: counter[i] <- (nullMeans[i] < mean(X)) # i.e. we test against H_1: mu < mu_0 barplot(table(counter[1:i])/i,col=c("green","red"),xlab="more extreme mean under the null than the mean actually observed") if(i<10) locator(1) } mean(counter) pnorm(tstat)
Vastaa
Minusta on hyödyllistä seurata jaksoa, jossa selität käsitteitä seuraavassa järjestyksessä: (1) z-pisteet ja z-pisteiden ylä- ja alapuolella olevat osuudet olettaen, että normaali käyrä. (2) Näytteenottojakauman käsite ja tietyn näytteen z-pisteet tarkoittavat keskiarvoa, kun populaation keskihajonta on tiedossa (ja sitten yksi näyte z-testi). (3) Yhden näytteen t-testi ja todennäköisyys otoksen keskiarvo, kun populaation keskihajonta on tuntematon (täynnä tarinoita tietyn teollisuustilastajan salaisesta identiteetistä ja miksi Guinness on hyvä tilastoille). (4) Kahden otoksen t-testi ja keskimääräisten erojen näytteenottojakauma. Aloittelevien opiskelijoiden helppous ymmärtää t-testi on paljon tekemistä tämän aiheen valmistelussa luodun alustan kanssa.
/ * kauhistuneiden opiskelijoiden tilan ohjaaja ei pala * /
vastaus
Mitä ”p-arvo” tarkoittaa testattavan hypoteesin suhteen?
Ontologisessa mielessä (mikä on totuus?), se tarkoittaa mitään . Hypoteesitestaus perustuu -testittämättömiin oletuksiin . Tämä on yleensä osa itse testiä, mutta on myös osa mitä tahansa mallia, jota käytät (esim. Regressiomallissa). Koska oletamme vain nämä, emme voi tietää, johtuuko syy, miksi p-arvo on alle kynnyksemme, koska nolla on väärä. non sequitur on ehdoitta päätellä, että pienen p-arvon vuoksi meidän on hylättävä nolla. Esimerkiksi jotain mallissa voi olla vialla.
Epistemologisessa mielessä (mitä voimme oppia?) Se tarkoittaa jotain . Saat tietoa ehdollinen siitä, että testaamattomat tilat ovat totta. Koska (ainakin tähän asti) emme voi todistaa kaikkia todellisuuden rakennelmia, kaikki tietomme ovat välttämättä ehdollisia. Emme koskaan pääse ”totuuteen”.
Vastaa
En ole vielä osoittanut seuraavaa argumenttia, joten se saattaa sisältää virheitä , mutta haluan todella heittää kaksi senttiäni (toivottavasti päivitän sen tiukalla todisteella pian). Toinen tapa tarkastella $ p $ – arvo on
$ p $ -arvo – Tilasto $ X $ siten, että $$ \ forall 0 \ le c \ le 1, F_ {X | H_0} (\ inf \ {x: F_ {X | H_0} (x) \ ge c \}) = c $$ missä $ F_ {X | H_0} $ on $ X $ jakelufunktio kohdassa $ H_0 $ .
Erityisesti, jos $ X $ : lla on jatkuva jakelu ja et käytä likiarvoa, sitten
- Jokainen
$ p $ -value on tilasto, jolla on yhtenäinen jakauma $ [0, 1] $ ja - Jokainen tilasto, jolla on yhtenäinen jakauma $ [0, 1] $ , on $ p $ -value.
Voit pitää tätä yleisenä kuvauksena $ p $ -arvoista.
Kommentit
- Tällä määritelmällä on merkitystä vain erillisillä jakaumilla (eikä se sitten ole oikea), koska ” $ P $ ” tekee selväksi, että se viittaa todennäköisyyksiin, ei todennäköisyystiheyksiin. Lisäksi on erittäin vähän jakaumia (jos sellaisia on), joilla on ilmoitettu ominaisuus, mikä viittaa siihen, että lauseessa on oltava typografisia virheitä. Mitä tulee seuraaviin vaatimuksiisi, (1) on ihanteellisesti totta, mutta (2) ei, ellet anna nollahypoteesin riippua tilastosta!
- @whuber Kiitos syötteestä. Olen muokannut määritelmää, ja sen pitäisi olla järkevämpää nyt!
- Sillä on järkevää, kiitos: jos ’ luen sen oikein, se väittää, että $ X $: n nollajakauma on tasainen $ [0, 1]. $ Se kuitenkin tallentaa vain osan p-arvojen ominaisuuksista; se ei luonnehdi p-arvoja; ja se ei kerro mitään siitä, mitä ne tarkoittavat tai miten tulkita niitä. Harkitse joitain muita tämän ketjun vastauksia saadaksesi tietoa puuttuvista.
- Tässä on esimerkki, joka saattaa olla mielenkiintoinen. Jakeluperhe on Uniform $ (\ theta, \ theta + 1) $ for $ \ theta \ in \ mathbb {R}, $ nollahypoteesi on $ \ theta = 0, $ ja vaihtoehto on sen täydennysosa. Tarkastellaan satunnaista otosta $ \ mathbf {X} = (X_1, \ ldots, X_n). $ Määritä tilasto $ X (\ mathbf {X}) = X_1. $ Tällä on tietysti tasainen jakauma arvolla $ [0,1]. $ alle $ H_0: $, mutta missä mielessä se on p-arvo? Mikä on vastaava hypoteesitesti? Oletetaan, että otamme näytteen koon $ n = 1 $ ja tarkkailemme arvoa $ X_1 = -2: $ väitätkö, että p-arvo on $ -2 $ ??
Vastaus
Luulen, että marmoreita tai kolikoita tai korkeudenmittausta sisältävät esimerkit voivat olla hyviä matematiikan harjoittamisessa, mutta ne eivät ole hyviä intuition rakentamiseksi. Opiskelijat haluaisitko kyseenalaistaa yhteiskunnan, eikö? Entäpä käyttää poliittista esimerkkiä?
Oletetaan, että poliittinen ehdokas juoksi kampanjan, jossa luvattiin, että jokin politiikka auttaa taloutta. Hänet valittiin, hän sai politiikan voimaan ja 2 vuotta myöhemmin talous kukoistaa. Hän on valittavissa uudelleen ja väittää, että hänen politiikkansa on syy kaikkien vaurauteen. Pitäisikö sinun valita hänet uudelleen?
Huolellisen kansalaisen tulisi sanoa ” No, on totta, että taloudella menee hyvin, mutta voimmeko todella liittää sen politiikkaasi? ” Vastaamaan tähän todella meidän on pohdittava kysymystä ”olisiko talous sujunut hyvin viimeisten kahden vuoden aikana ilman sitä?” Jos vastaus on kyllä (esim. Talous kukoistaa jonkin uuden, etuyhteydettömän teknologisen kehityksen takia), hylkäämme poliitikon selityksen tiedoille.
Eli tarkastelemme yhtä hypoteesia (politiikka auttoi taloutta) ), meidän on rakennettava malli maailmasta, jossa hypoteesi on tyhjä (käytäntöä ei koskaan toteutettu). Sitten teemme ennusteen kyseisen mallin alla. Kutsumme todennäköisyyttä tarkkailla näitä tietoja p-arvossa siinä vaihtoehtoisessa maailmassa. Jos p-arvo on liian korkea, hypoteesi ei vakuutu meistä – politiikalla ei ollut merkitystä. Jos p-arvo on pieni, luotamme hypoteesiin – käytäntö oli välttämätön.
Kommentit
- En ole samaa mieltä p: n määrittelemisestä ” Kutsumme todennäköisyyttä näiden tietojen havaitsemiselle kyseisessä vaihtoehtoisessa maailmassa p-arvoksi ” ja myös johtopäätöksen vahvuudeksi ( etenkin nollan hylkääminen).
- @Silverfish Voisitteko kertoa tarkemmin? Todennäköisesti olisi oikein kutsua p-arvoa todennäköisyydeksi tehdä kyseinen havainto TAI äärimmäisemmäksi havainnoksi. Mutta kuulostaa siltä, että sinulla on syvempää kritiikkiä.
- Koska alkuperäisessä kysymyksessä kysytään, mikä on p-arvo, ajattelin, että tämän määritelmän saaminen selvästi oli tärkeää. Pelkästään sanomalla ” äärimmäisemmiksi ” ei ole ’ t sinänsä erittäin hyödyllistä selittämättä mitä ” äärimmäisempi ” saattaa tarkoittaa – että ’ on tämän ketjun useimpien vastausten heikkous I ajatella. Vain whuber ’ -vastaukset ja ” -teetesti ” näyttävät todella selittävän
miksi ” ääriominaisuuksilla ” on myös merkitystä. - Tunsin myös johtopäätöksesi muotoiltu liian voimakkaasti. Jos hylkäämme nollan, meillä on merkittäviä todisteita sitä vastaan, mutta älä ’ tiedä, että se on ’ väärä. Kun emme hylkää nollaa, se ei tarkoita sitä, että ’ ei tarkoita, että nolla on totta (vaikka se voi hyvinkin olla). Yleisempänä kommenttina minulla on tunne, että testi, jonka ’ uudelleen kuvailet, melko abstraktisti, ei todennäköisesti ole selvää oppijalle, joka vain oppii suorittamaan testiä. . Selkeästi määritellyn testitilaston puuttuminen ei sovi hyvin alkuperäiseen kysymykseen, jossa kysytään, miten tulkitaan myös t -tilastoja.
- Tämän vastauksen piirre, josta pidän paljon, on selkeä selitys siitä, että p-arvot lasketaan nollamallilla, vaikka emme ’ usko (subjektiivisesti) nollamallin olevan todella totta. Mielestäni tositestitilastot lasketaan mallin mukaan. Se on avainkohde, jonka kanssa monet opiskelijat kamppailevat.
Vastaa
P-arvo ei ole niin salaperäinen kuin useimmat analyytikot tekevät siitä.Se on tapa, jolla ei tarvitse laskea t-testin luottamusväliä, vaan yksinkertaisesti määrittää luottamustaso, jolla nullhypoteesi voidaan hylätä.
KUVAUS. Suoritat testin. Q-muuttujalle p-arvo on 0,1866, R-muuttujalle 0,0023. (Ne ilmaistaan prosentteina).
Jos testaat 95%: n luotettavuustasolla hylkääksesi nollahypon;
Q: 100-18,66 = 81,34%
R: 100-0,23 = 99,77%.
95%: n luotettavuustasolla Q antaa 81,34%: n varmuuden hylättäväksi. Tämä on alle 95% eikä sitä voida hyväksyä. HYVÄKSY NULL.
R antaa 99,77% varmuuden hylätä null. Selvästi yli halutun 95%. Hylkäämme näin ollen nollan.
Kuvittelin juuri p-arvon lukemisen ”käänteisellä tavalla” mittaamalla sen luottamustasoon asti, jolla hylkäämme nollahypon.
Kommentit
- Tervetuloa sivustolle. Mitä tarkoitat $ Q $ -muuttujalla ja $ R $ -muuttujalla? Voisitko selventää. Lisäksi lauseen ” accept null ” käyttöä pidetään yleensä melko ei-toivottuna, jopa harhaanjohtavana.
- @cardinal huomauttaa tärkeästä asiasta. ’ et hyväksy nollaa.
Vastaa
****** hypoteesin testauksessa p-arvo mittaa testin herkkyyttä. Mitä pienempi p-arvo, sitä suurempi on herkkyys. jos merkitsevyystasoksi asetetaan 0,05, p-arvo 0,0001 osoittaa suuren todennäköisyyden, että testitulokset ovat oikeita ******
Kommentit
- -1 Tämä on selvästi väärin. Haluat ehkä lukea ensin eniten äänestetyt vastaukset.