Mit jelent a p és a t érték statisztikai tesztekben?

Miután elvégeztem egy statisztikai tanfolyamot, majd megpróbáltam segíteni diáktársaimnak, észrevettem, hogy egy olyan téma, amely sok fejtörést ösztönöz, a statisztikai hipotézis tesztek eredményeinek értelmezése . Úgy tűnik, hogy a hallgatók könnyen megtanulják, hogyan kell elvégezni az adott teszt által előírt számításokat, de le vannak ragadva az eredmények értelmezésével. Sok számítógépes eszköz beszámol a teszt eredményeiről a “p értékek” vagy a “t értékek” tekintetében.

Hogyan magyarázná a következő pontokat az egyetemistáknak, akik első statisztikai tanfolyamukat végzik:

  • Mit jelent a “p-érték” a tesztelt hipotézishez képest? Vannak-e olyan esetek, amikor magas vagy alacsony p értéket kell keresni?

  • Mi a kapcsolat a p és a t között?

Megjegyzések

  • Ennek jó részét alapvetően a wikipédia cikk első mondata tárgyalja a p értékek , amelyek helyesen definiálják a p értéket. Ha ezt ‘ megértette, sok minden egyértelművé válik.
  • Csak szerezze be a könyvet: Statisztika könnyek nélkül. Megmentheti a józan eszét !!
  • @ user48700 Összefoglalná, hogyan magyarázza ezt a Statisztika könnyek nélkül ?
  • Valakinek rajzolnia kell a p-értékkel kapcsolatos grafikont kérdések az idő múlásával, és fogadni mernék, hogy ‘ látni fogom a szezonalitást és az összefüggést az egyetemi naptárakkal a főiskolákon vagy a Coursera adattudományi osztályokon. A válaszokban és megjegyzésekben szereplő ajánlásokkal szeretnék javaslatot tenni egy másik könyvre, amelyet megfelelő módon ” néven nevezünk. div id = “fc4eb26749”>

.

Válasz

A $ p $ -value

Tegyük fel, hogy tesztelni szeretné azt a hipotézist, miszerint az egyetemen a férfi hallgatók átlagos magassága $ 5 $ ft $ 7 $ hüvelyk. Összegyűjti a véletlenszerűen kiválasztott $ 100 $ hallgató magasságát, és kiszámítja a minta átlagát (mondjuk $ 5 $ ft 9 USD $ hüvelyk). Megfelelő képlet / statisztikai rutin segítségével kiszámítja a hipotézis $ p $ -értékét, és azt mondja, hogy 0,06 USD $ .

A $ p = 0,06 $ megfelelő értelmezéséhez több dolgot is szem előtt kell tartanunk:

  1. A klasszikus hipotézistesztelés első lépése az a feltételezés, hogy a vizsgált hipotézis igaz. (Kontextusunkban azt feltételezzük, hogy az true átlagos magasság $ 5 $ ft $ 7 $ hüvelyk.)

  2. Képzelje el, hogy a következő számítást hajtja végre: Számítsa ki a minta átlagának valószínűségét nagyobb, mint $ 5 $ ft $ 9 $ hüvelyk, feltéve, hogy hipotézisünk valóban helyes (lásd 1. pont) .

Más szavakkal, szeretnénk tudni $$ \ mathrm {P} (\ mathrm {Sample \: mean} \ ge 5 \: \ mathrm {ft} \: 9 \: \ mathrm {hüvelyk} \: | \: \ mathrm {True \: value} = 5 \: \ mathrm {ft} \: 7 \: \ mathrm { hüvelyk}). $$

A 2. lépésben szereplő számítás az úgynevezett $ p $ -érték. Ezért a $ p $ -érték 0,06 $ érték azt jelentené, hogy ha sok kísérletet ismételnénk meg , sokszor (minden alkalommal, amikor véletlenszerűen kiválasztunk $ 100 $ diákot, és kiszámoljuk a minta átlagát), majd $ 6 $ a 100 $ -nál nagyobb időkre számíthatunk, ha a minta átlaga nagyobb vagy egyenlő, mint $ 5 $ ft 9 $ $ hüvelyk.

A fenti megértés alapján továbbra is fenn kell-e tartanunk azt a feltételezést, hogy hipotézisünk igaz (lásd az 1. lépést)? Nos, egy $ p = 0,06 $ azt jelzi, hogy a két dolog egyike történt:

  • (A) Vagy hipotézisünk helyes, és rendkívül valószínűtlen esemény történt (pl. minden 100 USD $ hallgató diáklány)

vagy

  • (B) Feltételezésünk helytelen, és a kapott minta nem is olyan szokatlan.

Az (A) és (B) közötti választás hagyományos módja az, hogy tetszőleges cut-off a $ p $ számára. Az (A) értéket választjuk, ha $ p > 0.05 $ és (B), ha $ p < 0,05 $ .

Megjegyzések

  • Szánjon rá időt! Nem fogok ‘ gondolkodni egy ” legjobb válasz ” kiválasztásában egy hétig, vagy így.
  • Most, hogy ‘ volt alkalmam visszatérni és elolvasni a teljes választ – egy nagy +1 a hallgatói magasság példájához. Nagyon világos és jól kidolgozott.
  • Szép munka … de hozzá kell adnunk (C) modellünket (a képletben / statisztikai rutinban testesül meg) téves.
  • A t Az érték (vagy bármely más tesztstatisztika) többnyire köztes lépés. ‘ alapvetően valamilyen statisztikát mutat, amely bizonyos feltételezések szerint jól ismert eloszlású. Mivel ismerjük a tesztstatisztika eloszlását a null alatt, akkor standard táblák (ma leginkább szoftverek) segítségével származtathatunk egy p-értéket.
  • Isn ‘ t a p-érték, amely a chi-négyzet teszt elvégzésével, majd a chi-square táblázatból származik? Kíváncsi vagyok, hogy lehet, hogy a fent kiszámított valószínűség jelezte magát a p-értéket ?!

Válasz

A párbeszéd között egy tanár és egy átgondolt diák

Alázatosan benyújtotta azt a meggyőződést, hogy eddig nem használtak elég zsírkrétát ebben a szálban. A végén egy rövid, illusztrált összefoglaló jelenik meg.


Student : Mit jelent a p-érték? Úgy tűnik, sokan egyetértenek abban, hogy ” ” egy statisztika, vagy ennek a kimenetelnek a valószínűsége “s “. .. mivel a nullhipotézis igaz ” vagy ahol ” a mintám statisztikája egy [szimulált] eloszlásra esett ” és még ” annak valószínűsége, hogy legalább egy akkora tesztstatisztikát figyelj meg, mint amennyit a nullhipotézist feltételezve számolunk, igaz ” .

Teacher : Megfelelően megértve, ezek az állítások sok esetben helytállóak.

Student : Nem látom, hogy a legtöbbjük mennyire releváns. Nem tanította meg nekünk, hogy null hipotézist $ H_0 $ és egy alternatív hipotézist $ H_A $ ? Hogyan vesznek részt ezekben az ” ötletekben, amelyek nagyobbak vagy egyenlőek ” vagy ” legalább akkora ” vagy a nagyon népszerű ” szélsőségesebb “?

Tanár : Mivel általában bonyolultnak tűnhet, segítene egy konkrét példa feltárásában?

Diák : Persze. De kérjük, tegye valósághűvé, de egyszerűvé, ha teheti.

Tanár : A hipotézisek tesztelésének elmélete történelmileg azzal kezdődött, hogy a csillagászoknak szükségük van a megfigyelési hibák elemzésére, tehát mi lenne, ha ott kezdeném. Egy nap átnéztem néhány régi dokumentumot, ahol egy tudós leírta a készüléke mérési hibájának csökkentésére tett erőfeszítéseit. Nagyon sok mért ismert helyzetben lévő csillag elemei és rögzítették elmozdulásukat az adott helyzet előtt vagy mögött. Az elmozdulások megjelenítéséhez készített egy hisztogramot, amely – kissé simítva – így nézett ki.

1. ábra: Az elmozdulások hisztogramja

Student : Emlékszem a hisztogramok működésére: a függőleges tengely ” Density ” emlékeztetni arra, hogy a mérések relatív gyakoriságát a terület és nem a magasság képviseli.

Tanár : Ez igaz. Egy ” szokatlan ” vagy ” extrém ” érték elég kicsi területtel rendelkező régióban találhatók. Itt zsírkréta. Gondolod, hogy színezhetsz egy olyan régióban, amelynek területe csak a teljes tizede van?

Diák : Persze; ez könnyű. [Színek az ábrán.]

2. ábra: A diák

Tanár : Nagyon jó! Ez számomra a terület körülbelül 10% -ának tűnik. Ne feledje azonban, hogy a hisztogramban csak a függőleges vonalak közötti területek számítanak: ezek jelentik a esélyt vagy a annak valószínűsége , hogy az elmozdulás ezen vonalak között helyezkedik el a vízszintes tengelyen. Ez azt jelenti, hogy egészen az aljáig kellett színeznie, és ez meghaladja a terület felét, nem “ez?

Diák : Ó, értem. Hadd próbáljam meg újra. Színezni akarok ott, ahol a görbe nagyon alacsony, nem? A legalacsonyabb a két végén.Csak egy területen kell színeznem, vagy rendben lenne több részre bontani?

Tanár : Több rész használata okos ötlet. Hol lennének?

Hallgató (mutatva): Itt és itt. Mivel ez a zsírkréta nem túl éles, tollal mutattam meg az általam használt vonalakat.

3. ábra: A diák

Tanár : Nagyon szép! Hadd mondjam el a történet többi részét. A tudós néhány fejlesztést hajtott végre eszközén, majd további méréseket végzett. Azt írta, hogy az első elmozdulása csak $ 0,1 $ volt, ami szerinte jó jel volt, de gondos tudós lévén további méréseket végzett ellenőrzésként . Sajnos ezek a mérések elvesznek – a kézirat ekkor szakad meg -, és csak annyi az egyetlen számunk, 0,1 USD $ .

Diák : Ez nagyon rossz. De nem sokkal jobb, mint az elmozdulások széleskörű elterjedése az alakodban?

Tanár : Ez “azt a kérdést, amire szeretném, ha válaszolna. Először is mit kellene kezelnünk $ H_0 $ néven?

Diák : Nos, egy szkeptikus kíváncsi lenne, hogy az eszközön végrehajtott fejlesztéseknek van-e valamilyen hatása. A bizonyítási teher a tudósra hárul: meg akarja mutatni, hogy a szkeptikus téved. amolyan rossz a tudós számára: azt mondja, hogy az összes új mérésnek – beleértve a 0,1 USD értékét is, amiről tudunk – az első leírás szerint kell viselkednie hisztogram. Vagy talán ennél is rosszabb: lehet, hogy még jobban szét vannak terítve.

Tanár : G o tovább, jól csinálod.

Diák : És az alternatíva az, hogy az új mérések kevésbé eloszlanak, igaz?

Tanár : Nagyon jó! Tudna rajzolni nekem képet arról, hogy nézne ki egy kevésbé terjedő hisztogram? Itt van az első hisztogram egy másik példánya; referenciaként a tetejére rajzolhat.

Student (rajz): Tollal rajzolom az új hisztogram és “színezem az alatta lévő területet. Úgy készítettem el, hogy a görbe nagy része közel legyen a nullához a vízszintes tengelyen, és így a területének nagy része a (vízszintes) nulla érték közelében van: ez az, amit azt jelenti, hogy kevésbé szétszórt vagy pontosabb.

4. ábra: A diák

Tanár : Ez “jó kezdet. De ne feledje, hogy a esélyeket mutató hisztogram teljes területe $ 1 $ legyen. Az első hisztogram teljes területe ezért $ 1 $ . Mennyi terület van az új hisztogramján belül?

Diák : Szerintem kevesebb, mint a fele . Látom, hogy ez a probléma, de nem tudom, hogyan lehetne megoldani. Mit kell tennem?

Tanár : A trükk az új hisztogram elkészítése magasabb mint a régi, hogy tota l terület $ 1 $ . Itt bemutatom a számítógéppel készített verziót, amelyet szemléltetni szeretnék.

5. ábra: A tanár

Diák : Látom: függőlegesen kinyújtotta, így az alakja nem változott meg igazán, de most a vörös és a szürke terület (beleértve a piros alatti részt is) megegyezik.

Teacher : Igaz. A nullhipotézis (kék színben, szétterítve) és az alternatív hipotézis rész jének (piros színnel, kevésbé elterjedt) képét nézi.

Diák : Mit értesz az alternatíva ” részén “? Nem csak az alternatív hipotézis?

Tanár : A statisztikusok és a nyelvtan nem keverednek. 🙂 Komolyan, amit ” hipotézis ” alatt értenek, általában a lehetőségek egésze. Itt az alternatíva (amint ezt már olyan jól kijelentette), hogy a mérések ” kevésbé oszlanak meg “, mint korábban. De mennyivel kevesebb ? Sok lehetőség van. Itt hadd mutassak egy másikat. Sárga vonalakkal rajzoltam. Az előző kettő között van.

6. ábra: A null az alternatíva két elemével együtt

Student : Úgy látom: különböző összegű elterjedése lehet, de nem tudja előre, hogy mekkora lesz a spread. De miért készítette a vicces árnyékolást ezen a képen?

Tanár : Ki akartam emelni, hogy hol és hogyan különböznek a hisztogramok. Szürkével árnyékoltam őket, ahol az alternatív hisztogramok alacsonyabbak , mint a nullak, és pirossal, ahol az alternatívák magasabbak.

Diákok : Miért számít ez?

Tanár : Emlékszel, hogyan színezted az első hisztogramot mindkét farokban? [Átnézem a papírokat.] Ah, itt van.Színezzük ezt a képet ugyanúgy.

7. ábra: A null és az alternatív, színes.

Student : Emlékszem: ezek a szélsőértékek. A terület 10% -ában megtaláltam azokat a helyeket, ahol a nullsűrűség a lehető legkisebb volt és színes.

Tanár : Meséljen az alternatívákról ezeken a szélsőséges területeken.

Diák : Nehéz belátni, mert a zsírkréta eltakarta, de úgy néz ki, mint ott ” szinte esélye sincs arra, hogy alternatívák legyenek az általam színezett területeken. A hisztogramjaik egyenesen az érték tengelyével szemben vannak, és alattuk nincs hely egyetlen területnek sem.

Tanár : Folytassuk ezt a gondolatot. Ha hipotetikusan azt mondanám, hogy egy mérés elmozdulása $ – 2 $ volt, és megkértem, hogy válassza ki a három közül hisztogramok voltak a legvalószínűbbek, melyek lennének?

Diák : Az első – a kék. Ez a leginkább elterjedt egy És ez az egyetlen, ahol úgy tűnik, hogy a $ – 2 $ eséllyel fordul elő.

Tanár : És mi van a $ 0,1 $ értékével a kéziratban?

Student : Hmmm … ez más sztori. Mindhárom hisztogram elég magasan van a talaj felett, 0,1 USD $ .

Tanár : OK, elég korrekt. De tegyük fel, hogy azt mondtam, hogy az érték valahol a $ 0.1 $ közelében van, például $ 0 $ és 0,2 USD $ . Ez segít abban, hogy leolvasson néhány valószínűséget ezekről a grafikonokról?

Diák : Persze, mert használhatok területeket. Csak meg kell becsülnem az egyes görbék alatti területeket a $ 0 $ és a $ 0,2 $ között. De ez elég nehéznek tűnik.

Tanár : Nem kell olyan messzire menni. Meg tudja mondani, melyik terület a legnagyobb?

Student : Természetesen a legmagasabb görbe alatt. Mindhárom terület alapja azonos, tehát minél magasabb a görbe, annál több terület van alatta és az alap. Ez azt jelenti, hogy a legmagasabb hisztogram – akit rajzoltam, piros kötőjelekkel – ez a legvalószínűbb $ 0,1 $ elmozdulásához. Azt hiszem, látom, hogy merre haladsz ezzel, de én “keveset aggódom: nem kell megnéznem mind a mind alternatívák hisztogramjait, nem csak az itt bemutatott egy vagy kettőt? Hogyan tehetném meg ezt?

Tanár : Ön jól tud mintákat felvenni, ezért mondja el: mivel a mérőberendezés egyre pontosabbá válik, mi történik hisztogramja?

Diák : Szűkebbé válik – ja, és magasabbnak is kell lennie, így teljes területe változatlan marad. Ez elég nehéz összehasonlítani a hisztogramok. Az alternatívák mind magasabbak, mint a null jobb $ 0 $ , ez nyilvánvaló. De más értékeknél néha az alternatívák magasabbak, néha pedig alacsonyabbak! Például [a $ 3/4 $ közelében lévő értékre mutat], itt a my piros hisztogram a legalacsonyabb, a sárga hisztogram a legmagasabb, és az eredeti null hisztogram közöttük van. Jobb oldalon azonban a null a legmagasabb.

Tanár : Általában a hisztogramok összehasonlítása bonyolult dolog. Hogy segítsen nekünk abban, megkértem a számítógépet, hogy készítsen egy másik ábrát: felosztotta az alternatív hisztogram magasságokat (vagy ” sűrűségeket “) a hisztogram nullmagasságával, ” valószínűségi aránynak nevezett értékeket létrehozva. ” Ennek eredményeként , a $ 1 $ értéknél nagyobb érték azt jelenti, hogy az alternatíva valószínűbb, míg a $ 1 $ értéknél kisebb értéket az alternatíva kevésbé valószínű. Még egy alternatívát rajzolt: szétszórtabb, mint a másik kettő, de még mindig kevésbé szétszórt, mint az eredeti készülék volt.

8. ábra: Valószínűségi arányok

Tanár (folytatás): Meg tudná mutatni, hogy az alternatívák hol valószínűbbek, mint a null?

Diák (színezés): Nyilván itt a közepén. És mivel ezek már nem hisztogramok, azt hiszem, nem magasságokra, hanem területekre kell figyelnünk, ezért csak egy értéktartományt jelölök a vízszintes tengelyen. De honnan tudhatom, hogy a közepén mekkora részt kell színezni? Hol hagyhatom abba a színezést?

9. ábra: Jelölt valószínűségi arány ábrák

Tanár : Nincs határozott szabály. Minden attól függ, hogyan tervezzük felhasználni következtetéseinket és mennyire hevesek a szkeptikusok.De dőljön hátra, és gondolkodjon el azon, amit elért: most már rájött, hogy a nagy valószínűséggel rendelkező eredmények bizonyítékot jelentenek az alternatíva számára és a kicsi valószínűséggel rendelkező eredmények az alternatíva ellen . Azt kérem tőletek, hogy színezzen ki egy olyan területet, amely – amennyire lehetséges – kicsi az esélye annak, hogy a nullhipotézis alatt bekövetkezik, és viszonylag nagy az esélye az alternatívák alatt. Visszatérve az első színezéshez, a beszélgetés elején visszafelé színeztük a null két farkát, mert ” szélsőségesek voltak. ” Még mindig jó munkát végeznének?

Diák : Nem gondolom. Annak ellenére, hogy a nullhipotézis szerint elég szélsőségesek és ritkák voltak, gyakorlatilag lehetetlenek bármelyik alternatíva számára. Ha az új mérésem mondjuk 3,0 USD lenne, azt hiszem, a szkeptikus oldalára állnék, és tagadnám, hogy bármilyen javulás történt volna, annak ellenére, hogy a 3,0 USD mindenesetre szokatlan eredmény volt. Szeretném megváltoztatni ezt a színt. Itt – hadd legyen egy újabb zsírkréta.

10. ábra: Továbbfejlesztett jelölés

Tanár : Mit jelent ez?

Diák : Azt kezdtük, hogy megkértek, rajzoljak az eredeti hisztogram alatti területnek csak 10% -át – amely leírja a nullát. A terület 10% -át felhívtam, ahol az alternatívák valószínűbbnek tűnnek. Úgy gondolom, hogy amikor egy új mérés ezen a területen van, akkor az azt mondja nekünk, hogy hinnünk kell az alternatívában.

Tanár : És hogyan reagáljon erre a szkeptikus?

Diák : A szkeptikusnak soha nem kell elismernie, hogy téved, ugye? De szerintem a hitét kissé meg kell rendíteni. Végül is úgy rendeztük, hogy bár egy mérés lehet lehet az imént rajzolt területen belül, ennek csak 10% az esélye, hogy ott legyen, amikor a null igaz. És nagyobb az esélye, hogy ott legyen, ha az alternatíva igaz. Csak azt nem tudom megmondani, hogy mennyivel nagyobb ez az esély, mert ez attól függ, hogy a tudós mennyit javított a készüléken. Csak tudom, hogy nagyobb. Tehát a bizonyítékok szkeptikusok ellen szólnának.

Tanár : Rendben. Összefoglalná a megértését, hogy teljesen tisztában legyünk a tanultakkal?

Diák : Megtudtam, hogy az alternatív hipotézisek és a null hipotézisek összehasonlításához össze kell hasonlítanunk hisztogramok. Az alternatívák sűrűségét elosztjuk a null sűrűségével: ezt nevezted ” valószínűségi aránynak. ” Egy jó teszt elvégzéséhez ki kell választanom egy kis számot, például 10% -ot, vagy bármi, ami elegendő lehet egy szkeptikus megrázásához. Aztán meg kellene találnom azokat az értékeket, ahol a valószínűség aránya a lehető legmagasabb, és be kell színeznem őket, amíg a 10% (vagy bármi más) elszíneződik.

Tanár : És hogyan használnád ez a színezés?

Diák : Amint arra korábban emlékeztetett, a színezésnek függőleges vonalak között kell lennie. A színezés alatt fekvő (a vízszintes tengelyen lévő) értékek bizonyítékot jelentenek a nullhipotézis ellen. Egyéb értékek – nos, nehéz megmondani, mit jelenthetnek anélkül, hogy részletesebben átnéznénk az összes érintett hisztogramot.

Tanár : Visszatérés a $ 0.1 $ a kéziratban, mire következtetne?

Diák : azon a területen belül, amelyet utoljára színeztem , ezért úgy gondolom, hogy a tudósnak valószínűleg igaza volt, és a készülék valóban javult.

Tanár : Még egy utolsó dolog. Következtetése azon alapult, hogy a kritériumként 10% -ot választott, vagy a teszt ” size ” -t. Sokan inkább az 5% -ot használják. Néhányan inkább 1% -ot részesítenek előnyben. Mit mondhatnál nekik?

Diák : Nem tudtam egyszerre elvégezni ezeket a teszteket! Nos, talán valamilyen módon megtehetném. Látom, hogy bármilyen méretű is legyen a tesztnek meg kell felelnie a színezésnek a $ 0 $ -tól, ami ebben az értelemben a ” legszélsőségesebb ” értéket, és onnan kifelé haladva mindkét irányba. Ha jobbra állnék a $ 0.1 $ -nál – a ténylegesen megfigyelt értéknél – Azt hiszem, színeztem volna egy olyan területen, amely valahol 0,05 $ $ és $ 0,1 $ között van, mondjuk $ 0.08 $ . Az 5% és 1% ember azonnal megmondhatta, hogy túl sokat színeztem: ha csak 5% -ot vagy 1% -ot akarnak színezni, akkor megtehetik, de nem akarják “ $ 0.1 $ -ig nem juthat ki. Nem fognak ugyanarra a következtetésre jutni, mint én: azt mondanák, hogy nincs elég bizonyíték arra, hogy valóban változás történt.

Tanár : Most mondtad el, hogy mi minden azok az idézetek az elején valóban azt jelentik.Ebből a példából nyilvánvalónak kell lennie, hogy nem szándékozhatnak ” extrémebben ” vagy ” nagyobb vagy egyenlő ” vagy ” legalább akkora ” a nagyobb értéke vagy akár olyan értéke is, ahol a nullsűrűség kicsi. Valójában ezeket a dolgokat az Ön által leírt nagy valószínűségi arányok értelemben értik. Egyébként az Ön által kiszámított $ 0.08 $ körüli számot ” p-értéknek hívják. ” Ez csak az Ön által leírt módon érthető meg megfelelően: a relatív hisztogrammagasságok – a valószínűségi arányok – elemzése tekintetében.

Student : Köszönöm. Nem vagyok benne biztos, hogy mindezt még teljesen megértem, de nagyon sokat gondolkodtál.

Tanár : Ha tovább akarsz lépni, válassz egy nézd meg a Neyman-Pearson Lemma elemzést. Valószínűleg most már készen állsz rá, hogy megértsd.


Szinopszis

Sok olyan teszten alapul, amely egyetlen, a párbeszédpanelen szereplő statisztikára épül. Ennek neve: ” $ z $ ” vagy ” $ t $ $ t = 0,1 $ megfigyelése a nullhipotézis elutasításához vezetne.

11. ábra: p-érték területként.

Ebben az ábrán, amelyet a részletek megjelenítéséhez nagyítottunk, a nullhipotézist ábrázoljuk. folytonos kék és két tipikus alternatívát szaggatott vonallal ábrázoltunk. A régió, ahol ezek az alternatívák általában sokkal nagyobbak, mint a null, be van árnyékolva. Az árnyékolás ott kezdődik, ahol az alternatívák relatív valószínűsége a legnagyobb ( $ 0 $ ). Az árnyékolás leáll, amikor a megfigyelés $ t = 0,1 $ eléri. A p-érték az árnyékolt terület területe a null hisztogram alatt: ez az esély – feltételezve, hogy a null igaz – egy olyan eredmény megfigyelésére, amelynek valószínűségi aránya általában nagy, függetlenül attól, hogy melyik alternatíva igaz. Különösen ez a felépítés szorosan függ az alternatív hipotézistől. Nem lehet végrehajtani a lehetséges alternatívák megadása nélkül.


Az itt leírt teszt két gyakorlati példájához – az egyik publikált, a másik hipotetikus – lásd: https://stats.stackexchange.com/a/5408/919 .

Megjegyzések

  • Ez kiválóan foglalkozott egy másik válaszhoz fűzött megjegyzésemmel, miszerint a kérdésre adott korábbi válaszok egyike sem foglalkozott általánosan hallott ” vagy szélsőségesebb ” szempontja egy p értéknek. (Bár a ” tea-teszt ” válasz tartalmazott egy jó konkrét példa.) Különösen csodálom, ahogyan ezt a példát szándékosan szerkesztették annak kiemelésére, hogy a ” szélsőségesebb ” ennek éppen az ellenkezőjét jelentheti ” nagyobb ” vagy ” a nullától tovább “.
  • bárcsak a tanárok és a tankönyvek nem ‘ nem használnák a ” vagy extrémebb “, valóban. Két hallott változatot úgy fogalmazhatok meg, hogy ” kedvezőbb a $ H_1 $ ” vagy ” meggyőzőbb a $ H_1 $ ” -ről. Ebben az esetben a nullához közeli értékek valóban meggyőzőbbek lennének arról, hogy a teleszkóp megbízhatóbbá vált, de némi nyelvi akrobatikára van szükség (elfogadhatóan érvelve, de potenciálisan zavaró), hogy ezeket ” szélsőségesebb “.
  • Egyedülállóan éleslátó, mint mindig, köszönöm, hogy időt szánt arra, hogy kiírja ezeket a hihetetlenül hasznos válaszokat. Nagyon kíváncsi vagyok, miért nem írják soha a tankönyveket oly módon, hogy a világosság és az intuíció ezen szintjeinek közelében bárhol is megtalálhatók legyenek.
  • Veszélyes a szarkazmusot használni egy megjegyzésben.

, @baxx, mert ‘ nem elég hely engedte meg ezt udvariasan és elegánsan. Ezért ‘ általában nem jó ötlet feltételezni, hogy egy megjegyzés szarkasztikus, hacsak kifejezetten nem mondja meg neked.Tegyük fel, hogy a megjegyzések segítséget nyújtanak Önnek. Ha egyszerűen követné az első találatot az általam megadott keresésben, akkor azt hiszem, hogy a kérdéseire választ kapna.

  • Egyszerűen fantasztikus! Köszönöm @whuber!
  • Válasz

    Mielőtt hozzányúlnék ehhez a témához, mindig meg kell győződnöm arról, hogy a hallgatók boldogan mozognak a százalékok, a tizedesek, az esélyek és a töredékek között. Ha ennek nem örülnek teljesen, akkor nagyon gyorsan összezavarodhatnak.

    Szeretném először elmagyarázni a hipotézisek tesztelését (és ezért a p-értékeket és a tesztstatisztikákat) Fisher-en keresztül. ” s klasszikus teakísérlet. Ennek több oka van:

    (i) Úgy gondolom, hogy egy kísérlet elvégzése és a kifejezések meghatározása közben értelmesebb, ha csak az összes kifejezést meghatározzuk. (ii) Nem kell kifejezetten a valószínűségeloszlásokra, a görbe alatti területekre stb. támaszkodni, hogy túllépjen a hipotézis tesztelésének legfontosabb pontjain. (iii) Meglehetősen értelmes módon magyarázza ezt a nevetséges “a megfigyelteknél vagy a szélsőségesnél” fogalmat. (iv) Úgy gondolom, hogy a hallgatók szeretik megérteni a tanulmányaik történetét, eredetét és történetét, mivel ez valóságosabbá teszi mint néhány elvont elmélet. (v) Nem számít, hogy a hallgatók milyen tudományágból vagy tantárgyból származnak, kapcsolatba hozhatók a tea példájával (Megjegyzés: Néhány külföldi hallgatónak nehézségei vannak ezzel a sajátosan brit tejes teaintézettel.)

    [Megjegyzés: Ezt az ötletet eredetileg Dennis Lindley csodálatos cikkéből kaptam “A kísérleti adatok elemzése: A tea megbecsülése & bor” című cikkből, amelyben bemutatja, miért vannak jobbak a bayesi módszerek klasszikus módszerek.]

    A háttértörténet az, hogy Muriel Bristol az 1920-as évek egyik délutánján meglátogatja Fishert a Rothamstedi Kísérleti Állomáson egy csésze teaért. Amikor Fisher utoljára betette a tejet, panaszkodott, mondván, hogy tud azt is meg kell mondani, hogy a tejet öntötték-e először (vagy utoljára), és hogy az előbbit részesítette-e előnyben. Ennek tesztelésére ő megtervezte klasszikus teakísérletét, ahol Murielnek bemutattak egy pár teáscsészét, és meg kell határoznia, hogy melyik volt a tej először hozzá. Ezt megismételjük hat pár teáscsészével Az jégek vagy Jobbak (R), vagy Rosszak (W), eredményei pedig: RRRRRW.

    Tegyük fel, hogy Muriel valójában csak találgat, és nem képes bármiféle diszkriminációra. Ezt hívjuk Null hipotézisnek . Fisher szerint a kísérlet célja ennek a nullhipotézisnek a lebecsülése. Ha Muriel azt hiszi, hogy minden körben 0,5-ös valószínűséggel helyesen azonosítja a teáscsészét, és mivel függetlenek, a megfigyelt eredmény értéke 0,5 $ ^ 6 $ = 0,016 (vagy 1/64). Fisher ezután azt állítja, hogy:

    (a) a nullhipotézis (Muriel találgatja) igaz és kis valószínűségű esemény történt, vagy

    (b) a nullhipotézis hamis és Muriel diszkriminatív képességekkel rendelkezik.

    A p-érték (vagy valószínűségi érték) ennek az eredménynek a megfigyelésének valószínűsége (RRRRRW), mivel a nullhipotézis igaz – ez az a) pontban említett kicsi valószínűség Ebben az esetben ez 0,016. Mivel kis valószínűséggel történõ események (definíció szerint) csak ritkán fordulnak elõ (b) a (b) helyzet lehet a lehetõbb magyarázat a történtekre, mint az (a) helyzet. Amikor elutasítjuk a nullhipotézist, valójában elfogadjuk az ellentétes hipotézist, amelyet alternatív hipotézisnek hívunk. Ebben a példában Muriel diszkriminatív képességekkel rendelkezik az alternatív hipotézis.

    Fontos szempont, hogy mit tegyünk osztály “kis” valószínűségként? Mi az a határérték, amelyen hajlandóak vagyunk azt mondani, hogy egy esemény valószínűtlen? A standard referenciaérték 5% (0,05), és ezt szignifikancia szintnek nevezzük. Amikor a p-érték kisebb, mint a szignifikancia szint, elutasítjuk a nullhipotézist hamisnak, és elfogadjuk alternatív hipotézisünket. Gyakori nyelvhasználat, ha azt állítjuk, hogy az eredmény “szignifikáns”, ha a p-érték kisebb, mint a szignifikancia szint, vagyis amikor annak valószínűsége, hogy mi A null hipotézis igazaként észlelt megfigyelések kisebbek, mint a határértékünk. Fontos tisztázni, hogy az 5% használata teljesen szubjektív (csakúgy, mint a többi 1% -os és 10% -os szignifikanciaszint alkalmazása).

    Fisher rájött, hogy ez nem így van munka; minden lehetséges eredmény egy rossz párral egyformán a diszkriminatív hatalmakra utal. A fenti (a) helyzet releváns valószínűsége tehát 6 (0,5) ^ 6 = 0,094 (vagy 6/64), ami most nem szignifikáns 5% -os szignifikancia szinten. Ennek legyőzésére Fisher azzal érvelt, hogy ha 6-ból 1 hiba a diszkriminatív hatáskörök bizonyítékának számít, akkor nincsenek hibák, azazazokat az eredményeket, amelyek a megfigyeltnél erősebben mutatják a diszkriminációs erőket, be kell számítani a p-érték kiszámításakor. Ez az érvelés következő módosítását eredményezte:

    a) a nullhipotézis (Muriel találgatja) igaz, és az események valószínűsége, vagy annál szélsőségesebb, mint a megfigyelt, kicsi, vagy

    (b) a nullhipotézis hamis, és Muriel diszkriminatív képességekkel rendelkezik.

    Vissza a teakísérletünkhöz, és azt tapasztaltuk, hogy a p-érték ebben a beállításban 7 (0,5 ) ^ 6 = 0,109, ami még mindig nem szignifikáns az 5% -os küszöbértéknél.

    Ezután arra késztetem a diákokat, hogy dolgozzanak néhány más példával, például érmefelhajítással, hogy kiderítsék, igazságos-e az érme. Ez elmélyíti a null / alternatív hipotézis, a p-értékek és a szignifikancia szint fogalmát. Ezután áttérünk a folytonos változó esetére, és bevezetjük a tesztstatisztika fogalmát. Mivel a normál eloszlást, a normál eloszlást és a z-transzformációt már részletesen bemutattuk, csupán több fogalom összeszereléséről van szó.

    A tesztstatisztikák, a p-értékek és a döntés meghozatala (jelentős / nem jelentős) arra késztetem a hallgatókat, hogy a hiányzó üres játék kitöltésével dolgozzanak ki publikált cikkeket.

    Megjegyzések

    • I tudom, hogy ‘ kissé felélesztek egy nagyon régi szálat, de itt ez megy … Nagyon élveztem a válaszodat, de hiányzik a t-érték rész 🙁 kérjük, használja a megadott példákat, hogy beszéljen róla? Senki sem válaszolt a t-tesztrészről
    • @sosi It ‘ s valószínűleg azért, mert a p-értékek sokkal többek általános, mint a t-értékek. ‘ olyan, mintha kérdést tenne fel az autókról, majd a Ford Fiesta fékjeiről.
    • A válasz nagyon érdekes (+ 1), de néhány dolgot összekevernek a végén hat azt jelenti, hogy egy $ p $ -érték ” szignifikáns 5% -os szinten “? Vagy a $ p $ -érték 5% alatt van, vagy nem. Nem látom értelmét egy ilyen homályos mondat használatának, így ” jelentősége ” undefined. 2. Mit jelent az, hogy ” úgy dönt, hogy ” eldönti, hogy a $ p $ -érték jelentős-e vagy sem? Nem tűnik indokoltnak a döntéselmélet ilyen módon történő bevonása (főleg, hogy Fisher erősen ellenezte a Neyman-Pearson tesztelési keretrendszer alkalmazását a tudományokban).

    Válasz

    Számos szóbeli magyarázat vagy számítás nem igazán segített megérteni bélszinten , hogy mi a p-érték, de ez valóban a figyelem középpontjába került, miután elvégeztem egy szimulációt magában foglaló tanfolyamot. Ez lehetővé tette számomra a nullhipotézis által generált adatok tényleges megtekintését és az eszközök / stb ábrázolását. szimulált mintákból, majd nézze meg, hová esett a mintám statisztikája ezen az eloszláson.

    Szerintem ennek legfőbb előnye, hogy lehetővé teszi a hallgatók számára, hogy egy percre megfeledkezzenek a matematikáról és a teszt statisztikai eloszlásokról, összpontosítson a szóban forgó fogalmakra. Meg kell adnom, hogy megtanuljam hogyan szimulálni ezeket a dolgokat, ami problémákat fog okozni egy teljesen más hallgatói kör számára. De nekem ez bevált, és már használtam is számtalanszor végezhet szimulációt, hogy a statisztikákat nagy sikerrel magyarázza el másoknak (például: “Így néznek ki az adatai; így néz ki egy Poisson-eloszlás. Biztosan Poisson-regressziót akar végrehajtani?”).

    Ez nem felel meg pontosan az általad feltett kérdésekre, de számomra legalábbis elenyészővé tette őket.

    Megjegyzések

    • Teljes szívvel egyetértek a szimuláció használatával ennek magyarázatában, de csak egy kis megjegyzés a végén lévő példához: Úgy találom, hogy az emberek (nem csak a hallgatók) találják meg di nehéz megkülönböztetni egy adott disztribúciós feltevéstől, pl. a poisson, a marginálisan poisson terjesztése és a feltételesen poisson terjesztése között. Mivel csak ez utóbbi számít a regressziós modell esetében, a ‘ t poisson nem függő változó értékek halmazának nem feltétlenül kell aggódnia.
    • bevallani, hogy ezt nem tudtam ‘. ‘ nagyon értékeltem a tagsággal kapcsolatos elmúlt napok ezen a webhelyen tett megjegyzéseit – remélem, hogy ‘ megmarad.
    • @MattParker tudsz olyan tanulási forrásokat, amelyek a szimuláció használatára összpontosítottak a megértés fejlesztésére? Vagy csak néhány python / R szkript összeállításáról és egy csomó teszt futtatásáról van szó?
    • @baxx A [Seeing Theory weboldal, Daniel Kunin] (students.brown.edu/seeing-theory/ ) rendelkezik néhány érdekes eszközzel ehhez, de ‘ még mindig fejlesztés alatt áll.Ellenkező esetben igen, én ‘ nagyrészt csak kísérleteztem R ‘ s beépített eszközökkel a szimulációhoz – ezek segítségével bizonyítottam magamnak, hogyan valamilyen módszer működik, vagy megnézzük, mi történne, ha egy prediktort véletlen változóra cserélnének stb. Sajnálom, bárcsak tudnék jobb erőforrásokat ehhez!
    • @MattParker hálás köszönet. Igen – egy kis csirke és tojás abban, hogy a kísérletek elkészítéséhez (feltételezem?) Legalább meg kell kapnod eléget ahhoz, hogy megírd őket. Semmi gond ….. Csak ellenőrizte az Ön által linkelt webhelyet, ez ‘ szép, köszönöm

    Válasz

    A p-érték szép meghatározása “legalább egy akkora tesztstatisztika megfigyelésének valószínűsége, mint amennyit a nullhipotézis igazát feltételezve kiszámítottak”.

    Az a probléma, hogy megköveteli a “tesztstatisztika” és a “nullhipotézis” megértését. De ez könnyen átléphető. Ha a nullhipotézis igaz, akkor általában valami hasonló: “A populáció paramétere megegyezik a B populáció paraméterével”, és statisztikákat számol a paraméterek becsléséhez, mekkora a valószínűsége a tesztstatisztika, amely azt mondja, hogy “különböznek egymástól”?

    Pl. Ha az érme korrekt, mekkora a valószínűsége, hogy 100 dobásból 60 fejet látnék? Ez teszteli a nullhipotézist , “az érme korrekt” vagy “p = .5”, ahol p a fejek valószínűsége.

    A tesztstatisztika ebben az esetben a fejek száma lenne.

    Most feltételezem , hogy amit Ön “t-értéknek” hív, az egy általános “tesztstatisztika”, nem pedig a “t-eloszlás” értéke. nem ugyanaz, és a “t-érték” kifejezés nem “feltétlenül” széles körben használt és zavaró lehet.

    Amit “t-értéknek” hívsz, valószínűleg ezt hívom “tesztstatisztika”. A p-érték kiszámításához (ne feledje, hogy ez csak egy valószínűség) eloszlásra és egy értékre van szükség, amely bekerül az eloszlásba, ami valószínűséget ad vissza. Miután ezt megtette, a visszatérési valószínűség az Ön p-értéke. Láthatja, hogy összefüggenek, mert ugyanazon eloszlás mellett a különböző tesztstatisztikák különböző p-értékeket adnak vissza. A szélsőségesebb tesztstatisztikák alacsonyabb p-értékeket adnak vissza, jobban jelezve, hogy a nullhipotézis hamis.

    Itt nem vettem figyelembe az egy- és kétoldalas p-értékek kérdését.

    Válasz

    Képzelje el, hogy van egy táskája, amely 900 fekete golyót és 100 fehéret tartalmaz, vagyis a golyók 10% -a fehér. Most képzelje el, hogy kivesz 1 márványt, megnézi és rögzíti a színét, kivesz egy másikat, rögzíti a színét stb. és ezt tedd meg 100-szor. Ennek a folyamatnak a végén megadod a fehér golyók számát, amely ideális esetben 10-re számítanánk, azaz 100-nak 10% -ára, de valójában 8, 13 vagy bármi más lehet egyszerűen a véletlenszerűség miatt. Ha sokszor megismétli ezt a 100 márványkivonási kísérletet, majd megrajzolja a kísérletenként rajzolt fehér golyók számának hisztogramját, akkor azt találja, hogy haranggörbéje lesz 10-es középpontban.

    Ez az Ön 10% -os hipotézisét jelenti: minden olyan 1000 tasakot tartalmazó zsáknál, amelynek 10% -a fehér, ha véletlenszerűen kivesz 100 márványt, akkor 10 fehér márványt talál a választékban, adjon vagy vegyen 4-et. A p-érték erről a “adj vagy vegyél 4-ről” szól. Mondjuk a korábban létrehozott haranggörbére hivatkozva megállapíthatja, hogy az idő kevesebb mint 5% -ában 5 vagy kevesebb fehér golyót kapna, és egy másik < az idő 5% -át 15 vagy annál több fehér márványból áll, vagyis az esetek több mint 90% -ában a 100 márványválaszték 6–14 fehér márványt tartalmaz.

    Most azt feltételezve, hogy valaki letép egy ismeretlen számú 1000 márványos tasakot fehér golyók vannak benne, vannak eszközeink ezekre a kérdésekre.

    i) Kevesebb mint 100 fehér golyó van?

    ii) Van-e több mint 100 fehér golyó?

    iii) Van-e a táskában 100 fehér golyó?

    Egyszerűen vegyen ki 100 golyót a táskából, és számolja meg, hogy ebből a minta hány fehér.

    a) Ha van 6–14 fehér van a mintában, nem utasíthatja el azt a hipotézist, miszerint 100 fehér golyó van a zacskóban, és a 6–14 közötti megfelelő p-értékek> 0,05 lesznek.

    b) Ha 5 van vagy kevesebb fehér a mintában, amit visszautasíthat ct az a hipotézis, miszerint 100 fehér golyó van a zsákban, és a megfelelő p-értékek 5 vagy kevesebb esetén < 0,05 lesz. Arra számíthat, hogy a zsák < 10% fehér golyót tartalmaz.

    c) Ha a mintában 15 vagy több fehér van, elvetheti azt a hipotézist, hogy 100 fehér márvány van a zsákban, és a megfelelő p-értékek 15 vagy annál nagyobbak lesznek < 0,05. Arra számíthat, hogy a táska> 10% fehér golyót tartalmaz.

    Válaszul a Baltimark észrevételére

    A fenti példa alapján kb. : –

    4.8% esély 5 vagy annál kevesebb fehér golyóra

    1,85% 4 vagy kevesebb esélyre

    0,55% 3 vagy kevesebb esélyre

    0,1% 2 esélyre vagy kevesebb

    6,25% esély a 15 vagy annál nagyobbra

    3,25% az esély a 16 vagy annál nagyobbra

    1,5% az esély 17 vagy annál nagyobbra

    0,65% esély a 18 vagy annál többre

    0,25% az esély a 19 vagy annál nagyobbra

    0,1% az esély a 20 vagy annál nagyobbra

    0,05% az esély a 21 vagy annál nagyobbra

    Ezeket a számokat egy egyszerű R Monte Carlo-futtatással generált empirikus eloszlásból és a mintavételi eloszlás eredő kvantilisaiból becsültük.

    Tegyük fel, hogy az eredeti kérdés megválaszolásához 5 fehér golyót rajzol, csak hozzávetőlegesen 4,8% az esély arra, hogy ha az 1000 márványzsák valóban tartalmaz 10% fehér golyót, akkor csak 5 fehérek egy 100-as mintában. Ez megegyezik az ap div

    0,05 értékkel. Most választania kell

    i) Valóban 10% fehér golyó van a táskában, és most “nem volt szerencsém” ennyire keveset húzni

    vagy

    ii) Olyan kevés fehér golyót rajzoltam, hogy “valójában nem lehet 10% fehér golyó (utasítsd el a 10% fehér golyó hipotézisét)

    Hozzászólások

    • Először is, ez csak egy nagy példa, és nem ‘ nem magyarázza el igazán a p-érték és a tesztstatisztika fogalmát. Másodszor, te ‘ csak azt állítja, hogy ha 5-nél kevesebb vagy 15-nél több fehér golyót kap, akkor elutasítja a nullhipotézist. Mi ‘ s az Ön terjesztése ‘ újból kiszámítja ezeket a valószínűségeket? Ez megközelíthető egy normál távolsággal, amelynek középpontja 10, 3 szórással. Az elutasítási kritériumok közel sem elég szigorúak.
    • Egyetértek azzal, hogy ez csak egy példa, és igaz, hogy csak az 5. és a 15. számot választottam ki az ir szemléltető célokra. Ha lesz időm, felteszek egy második választ, amely remélem teljesebb lesz.

    Válasz

    Amit a p-érték nem mond meg, mennyire valószínű, hogy a nullhipotézis igaz. A hagyományos (Fisher) szignifikancia tesztelési keretrendszer alapján először kiszámoljuk az adatok megfigyelésének valószínűségét, feltéve, hogy a nullhipotézis igaz, ez az p-érték. Intuitíven ésszerűnek tűnik, ha feltételezzük, hogy a nullhipotézis hamis, ha az adatok elég valószínűtlenek, hogy a nullhipotézis alatt megfigyelhetők legyenek. Ez teljesen ésszerű. A statisztikusok szokásosan küszöböt alkalmaznak, és “elutasítják a nullhipotézist a 95 % szignifikancia szint “ha (1 – p)> 0,95; ez azonban csak a gyakorlatban ésszerűnek bizonyult konvenció – ez nem azt jelenti, hogy kevesebb mint 5% a valószínűsége annak, hogy a null hipotézis hamis (és ezért 95 % valószínűsége annak, hogy az alternatív hipotézis igaz). Az egyik oka annak, hogy ezt nem mondhatjuk, az, hogy még nem vizsgáltuk az alternatív hipotézist.

    Az f () függvény képalkotása, amely a p-értéket annak a valószínűségére térképezi fel, hogy az alternatív hipotézis igaz. Ésszerű lenne azt állítani, hogy ez a függvény szigorúan csökken (tehát minél valószínűbbek a nullhipotézis alatti megfigyelések, annál kevésbé valószínű az alternatív hipotézis), és hogy 0 és 1 közötti értékeket ad (mivel becslést ad) Ez azonban mindaz, amit tudunk az f () -ről, így bár van összefüggés p és annak valószínűsége között, hogy az alternatív hipotézis igaz, ez kalibrálatlan. Ez azt jelenti, hogy nem használhatjuk a p-értéket kvantitatív állítások a nulll és alternatve hipotézisek valószínûségérõl.

    Caveat lector: A frekvencia keretein belül nem igazán arról a valószínûségrõl beszélünk, hogy egy hipotézis igaz, mivel nem véletlen változó vagy igaz, vagy nem “t”. Tehát ahol a hipotézis igazságának valószínűségéről beszéltem, implicit módon áttértem egy Bayes-értelmezésre. Helytelen a Bayes-i és a gyakoriak keverése, azonban erre mindig van kísértés, mivel amit igazán szeretnénk, az a hipotézisek relatív valószerűségének / valószínűségének kvantitatív jelzése. De a p-érték ezt nem adja meg.

    Válasz

    A statisztikákban soha nem mondhatod, hogy valami teljesen biztos, tehát a statisztikusok egy másik megközelítést alkalmaznak annak felmérésére, hogy egy hipotézis igaz-e vagy sem. Megpróbálnak elutasítani az összes többi hipotézist, amelyet az adatok nem támasztanak alá.

    Ehhez a statisztikai teszteknek nullhipotézisük és alternatív hipotézisük van. A statisztikai tesztből származó p-érték az eredmény valószínűsége, mivel a nullhipotézis helyes volt. Ezért akarunk kis p-értékeket. Minél kisebbek, annál kevésbé valószínű az eredmény, ha a nullhipotézis helytálló lenne. Ha a p-érték elég kicsi (azaz nem valószínű, hogy az eredmény akkor történt, ha a nullhipotézis helyes volt), akkor a nullhipotézist elvetjük.

    Ilyen módon nullhipotéziseket lehet megfogalmazni és később elutasítani. Ha a nullhipotézist elutasítják, akkor az alternatív hipotézist fogadja el a legjobb magyarázatként. Ne feledje azonban, hogy az alternatív hipotézis soha nem biztos, mivel a nullhipotézis véletlenül generálhatta az eredményeket.

    Megjegyzések

    • a p Az érték annak a valószínűsége, hogy az eredmény ” extreme ” meghaladja a megadott eredményt, nem pedig a tényleges eredmény. A p-érték $ Pr (T \ geq t | H_0) $ és nem $ Pr (T = t | H_0) $ (T tesztstatisztika, és t a megfigyelt értéke).

    Válasz

    Kicsit nehéz vagyok újra feléleszteni a régi témát, de innen , ezért ezt válaszként teszem közzé a linkben szereplő kérdésre.

    A p-érték konkrét kifejezés, nem szabad, hogy félreértés legyen. De valahogy misztikus, hogy a p-érték meghatározásának köznyelvi fordításai sokféle félreértelmezéshez vezetnek. Úgy gondolom, hogy a probléma gyökere abban rejlik, hogy a “legalább annyira hátrányos a nullhipotézishez” vagy “legalább annyira szélsőséges, mint a mintaadatokban” kifejezések stb.

    Például a Wikipédia mondja

    … a p-érték a megfigyelt minta eredmények (vagy egy szélsőségesebb eredmény) megszerzésének valószínűsége, amikor a nullhipotézis valóban igaz .

    A $ p $ -érték jelentése elhomályosul, amikor az emberek először “(vagy egy szélsőségesebb eredmény)” botladoznak és gondolkodni kezdenek “ more extreeeme ? “.

    Szerintem jobb, ha a” szélsőségesebb eredményt “valamire közvetett beszéd aktusra hagyjuk . Tehát az én vételem

    A p-érték annak a valószínűsége, hogy láthatja azt, amit egy “képzeletbeli világban” lát, ahol a nullhipotézis igaz.

    Az ötlet konkrétabbá tétele érdekében tegyük fel, hogy van 10 megfigyelésből álló x minta, és feltételezi, hogy a populáció átlagos értéke $ \ mu_0 = 20 $. Tehát feltételezett világában a népesség eloszlása $ N (20,1) $.

    x #[1] 20.82600 19.30229 18.74753 18.99071 20.14312 16.76647 #[7] 18.94962 17.99331 19.22598 18.68633 

    A t-stat értékét $ t_0 = \ sqrt {n} \ frac {\ bar {X} – \ mu_0} {s} $ formátumban számítja ki, és derítse ki, hogy

    sqrt(10) * (mean(x) - 20) / sd(x) #-2.974405 

    Tehát mekkora a valószínűsége, hogy 2,97-es (| “szélsőségesebb”) $ | t_0 | $ képzeletbeli világ? A képzeletbeli $ t_0 \ sim t (9) $ világban a p-értéknek tehát $$ p-érték = Pr (| t_0 | \ geq 2.97) = 0.01559054 $$

    2*(1 - pt(2.974405, 9)) #[1] 0.01559054 

    Mivel a p-érték kicsi, nagyon valószínűtlen, hogy a x mintát a feltételezett világban rajzolták volna ki. Ezért arra a következtetésre jutunk, hogy nagyon valószínűtlen, hogy a feltételezett világ valójában a tényleges világ volt.

    Megjegyzések

    • +1, de amikor írsz ” annak valószínűsége, hogy látja a látottakat ” és kihagyja a ” szélsőségesebb ” rész, ez a mondat szigorúan hamis lesz (és esetleg félrevezető, még ha kevésbé is zavaró is). Nem annak a valószínűsége, hogy látja, amit lát (ez általában nulla). Annak a valószínűsége, hogy látja, amit lát ” vagy szélsőségesebb “. Annak ellenére, hogy ez sokak számára zavaró lehet, mégis döntő fontosságú (és végtelenül lehet vitatkozni a szubjektivitás mértékéről, amely e ” mögött rejlik ” megfogalmazás).
    • @amoeba Úgy gondoltam, ha megfelelő példát nyújtunk be, akkor a ” proxyként szolgálhat a megfigyelt minta eredmények megszerzéséhez. (vagy szélsőségesebb eredmény) “. Lehet, hogy jobb megfogalmazásra van szükség.
    • Ugyanazt a megfigyelést fogom megtenni, mint @amoeba; a ” vagy annál szélsőségesebb ” részt a hallgatói magasságok és a teaparti válaszok példája jól kezeli, de én nem ‘ nem gondolja, hogy a szál bármelyik válasza egyértelmű általános magyarázatot kapott volna, különös tekintettel arra, amely különböző alternatív hipotéziseket ölel fel. Egyetértek ezzel a válasszal, amely azt sugallja, hogy a ” vagy annál szélsőségesebb ” rész sok hallgató számára fogalmi ragaszkodási pont.
    • @Silverfish: és nem csak a diákok. Hány Bayes-vs-gyakoriságot hallottam, amely e ” szélsőségesebb ” bit szubjektivitásának / objektivitásának kérdését tárgyalja! li>
    • @Silver Egyetértek kritikájával, és megkíséreltem felelni a választ. ” Vagy szélsőségesebb ” az ügy lényege.

    Válasz

    A szimulációkat is hasznosnak találtam a tanításban.

    Íme egy szimuláció a vitathatatlanul legalapvetőbb esetre, amelyben $ n $ -szeres mintát veszünk a $ N (\ mu, 1) $ értékből (ennélfogva a $ \ sigma ^ 2 = 1 $ az egyszerűség kedvéért ismert) ), és tesztelje a $ H_0: \ mu = \ mu_0 $ elemet egy baloldali alternatívával szemben.

    Ekkor a $ t $ -statistic $ \ text {tstat}: = \ sqrt {n} (\ bar {X} – \ mu_0) $ $ N (0,1) $ alatt $ H_0 $, oly módon, hogy a $ p $ -érték egyszerűen $ \ Phi (\ text {tstat}) $ vagy pnorm(tstat) az R-ben.

    A szimulációban , azoknak a töredékeknek a töredéke, hogy a null $ N (\ mu_0,1) $ (itt $ \ mu_0 = 2 $) alatt generált adatok a nullMeans fájlban tárolt mintaeszközöket eredményezik kisebbek (azaz “szélsőségesebbek” “ebben a baloldali tesztben), mint a megfigyelt adatok alapján számítva.

    # p value set.seed(1) reps <- 1000 n <- 100 mu <- 1.85 # true value mu_0 <- 2 # null value xaxis <- seq(-3, 3, length = 100) X <- rnorm(n,mu) nullMeans <- counter <- rep(NA,reps) yvals <- jitter(rep(0,reps),2) for (i in 1:reps) { tstat <- sqrt(n)*(mean(X)-mu_0) # test statistic, N(0,1) under the given assumptions par(mfrow=c(1,3)) plot(xaxis,dnorm(xaxis),ylab="null distribution",xlab="possible test statistics",type="l") points(tstat,0,cex=2,col="salmon",pch=21,bg="salmon") X_null <- rnorm(n,mu_0) # generate data under H_0 nullMeans[i] <- mean(X_null) plot(nullMeans[1:i],yvals[1:i],col="blue",pch=21,xlab="actual means and those generated under the null",ylab="", yaxt="n",ylim=c(-1,1),xlim=c(1.5,2.5)) abline(v=mu_0,lty=2) points(mean(X),0,cex=4,col="salmon",pch=21,bg="salmon") # counts 1 if sample generated under H_0 is more extreme: counter[i] <- (nullMeans[i] < mean(X)) # i.e. we test against H_1: mu < mu_0 barplot(table(counter[1:i])/i,col=c("green","red"),xlab="more extreme mean under the null than the mean actually observed") if(i<10) locator(1) } mean(counter) pnorm(tstat) 

    Válasz

    Hasznosnak tartom egy olyan sorrend követését, amelyben a fogalmakat a következő sorrendben magyarázza el: (1) Az normál görbe. (2) A mintavételi eloszlás fogalma és az adott minta z pontszáma átlagot jelent, ha ismert a populáció szórása (és onnan az egy minta z teszt). (3) Az egy mintás t-teszt és a valószínűség minta átlag, ha a populáció szórása nem ismert (tele vannak olyan történetekkel, amelyek egy bizonyos ipari statisztikus titkos identitásáról szólnak, és miért jó a statisztikák számára a Guinness). (4) A kétmintás t-teszt és az átlagkülönbségek mintavételi eloszlása. Az, hogy a bevezető hallgatók könnyedén megértik a t-tesztet, sok köze van a témához való felkészüléshez szükséges alapokhoz.

    / * A rémült hallgatók oktatója ki van kapcsolva * /

    Válasz

    Mit jelent a “p-érték” a tesztelt hipotézishez képest?

    Ontológiai értelemben (mi az igazság?) semmit . Bármely hipotézis tesztelés nem tesztelt feltételezéseken alapszik . Ez általában maga a teszt része, de része annak a modellnek, amelyet használ (pl. Regressziós modellben). Mivel csupán ezeket feltételezzük, nem tudhatjuk, hogy az oka annak, hogy a p-érték a küszöbértékünk alatt van, az az oka, hogy a null hamis. non sequitur feltétel nélküli következtetés, hogy az alacsony p-érték miatt el kell utasítanunk a null értéket. Például a modellben valami nem stimmel.

    Ismeretelméleti értelemben (mit tanulhatunk?) valamit jelent. Tudást szerez feltételes , ha a teszteletlen helyiségek igazak. Mivel (legalábbis mostanáig) nem tudjuk bizonyítani a valóság minden építményét, minden tudásunk szükségszerűen feltételhez kötött lesz. Soha nem jutunk el az “igazsághoz”.

    Válasz

    Még nem kell bizonyítanom a következő érvet, így hibákat tartalmazhat , de nagyon be akarom dobni a két centemet (remélhetőleg hamarosan frissítem egy szigorú bizonyítékkal). A $ p $ másik pillantása – az érték

    $ p $ -value – Olyan statisztika $ X $ , amely $$ \ forall 0 \ le c \ le 1, F_ {X | H_0} (\ inf \ {x: F_ {X | H_0} (x) \ ge c \}) = c $$ ahol $ F_ {X | H_0} $ a $ X $ elosztási függvénye a alatt $ H_0 $ .

    Pontosabban, ha a $ X $ folyamatos és nem használsz közelítést, akkor

    1. Minden $ p $ -value olyan statisztika, amelynek egyenletes eloszlása van a $ [0, 1] $ és
    2. Minden statisztika, amelynek eloszlása egyenletes a $ [0, 1] $ -on, egy $ p $ -value.

    Ezt a $ p $ -értékek általános leírásának tekintheti.

    Megjegyzések

    • Ennek a meghatározásnak csak diszkrét eloszlások esetén van értelme (és ezután nem helyes), mert a ” $ P $ ” egyértelművé teszi, hogy valószínűségekre utal, nem pedig valószínűségi sűrűségekre. Sőt, rendkívül kevés disztribúció van (ha van ilyen), amely rendelkezik a megadott tulajdonsággal, ami arra utal, hogy tipográfiai hibáknak kell lennie az utasításban. Ami az Ön későbbi állításait illeti, az (1) ideális esetben igaz, a (2) azonban nem, hacsak nem engedi meg, hogy a nullhipotézis a statisztikától függjön!
    • @whuber Köszönjük a bemenetet. Megváltoztattam a meghatározást, és ennek most értelmesebbnek kell lennie!
    • Van értelme, köszönöm: ha ‘ helyesen olvasom, akkor azt állítja, hogy a $ X $ nulleloszlása egyenletes a $ [0, 1]. $ Ez azonban csak a p-értékek tulajdonságainak egy részét rögzíti; nem jellemzi a p-értékeket; és nem mond semmit arról, hogy mit jelentenek, és hogyan kell értelmezni őket. Fontolja meg a szál további válaszainak tanulmányozását, hogy megtudja, mi hiányzik.
    • Itt van egy példa, amelyet érdekesnek találhat. A disztribúciós család Uniform $ (\ theta, \ theta + 1) $ for $ \ theta \ in \ mathbb {R}, $ a null hipotézis $ \ theta = 0, $, és az alternatíva a kiegészítése. Vegyünk egy véletlenszerű mintát $ \ mathbf {X} = (X_1, \ ldots, X_n). $ Definiálja az $ X statisztikát (\ mathbf {X}) = X_1. $ Nyilvánvaló, hogy ennek egyenletes eloszlása van a $ [0,1] értéken. $ alatt $ H_0: $, de milyen értelemben p-érték? Mi a megfelelő hipotézis teszt? Tegyük fel, hogy veszünk egy mintát, amelynek mérete $ n = 1 $, és megfigyeljük a $ X_1 = -2 értéket: $ azt állítja, hogy a p-érték $ -2 $ ??

    Válasz

    Úgy gondolom, hogy a golyókkal vagy érmékkel vagy magasságméréssel járó példák jól használhatók a matematika gyakorlása során, de nem jók az intuíció felépítéséhez. Főiskolai hallgatók szeretnél megkérdezni a társadalmat, igaz? Mit szólnál egy politikai példához?

    Tegyük fel, hogy egy politikai jelölt kampányt indított, amelyben azt ígérte, hogy valamilyen politika segíti a gazdaságot. Megválasztották, meghozta a politikát, és 2 évig később a gazdaság fellendül. Újraválasztásra készül, és azt állítja, hogy politikája az oka mindenki jólétének. Újraválasztja?

    Az elgondolkodó polgárnak azt kell mondania: ” Nos, igaz, hogy a gazdaság jól halad, de tulajdoníthatjuk-e ezt az ön politikájának? Ahhoz, hogy erre valóban megválaszolhassuk, meg kell vizsgálnunk azt a kérdést, hogy “jól ment volna-e a gazdaság az elmúlt 2 évben nélküle?” Ha a válasz igen (pl. A gazdaság fellendülőben van néhány új, egymással nem összefüggő technológiai fejlődés miatt), akkor elutasítjuk a politikus által az adatokra adott magyarázatot.

    Vagyis egy hipotézist vizsgálunk (a politika segítette a gazdaságot ), meg kell építenünk egy olyan világ modelljét , ahol ez a hipotézis semleges (az irányelvet soha nem hajtották végre). Ezután egy jóslatot készítünk e modell alapján. megfigyelni ezeket az adatokat abban a másik világban a p-érték . Ha a p-érték túl magas, akkor a hipotézis nem győz meg minket – a politika nem tett különbséget. Ha a p-érték alacsony, akkor bízunk a hipotézisben – a házirend elengedhetetlen volt.

    Megjegyzések

    • Nem értek egyet azzal, hogy a p ” Ennek az alternatív világban való megfigyelésének valószínűségét hívjuk p-értéknek “, valamint a levonandó következtetés erősségének ( különösen a null elutasításának elmulasztása).
    • @Silverfish Tudnál részletezni? Valószínűleg helyesebb lenne a p-értéket annak a valószínűségnek nevezni, hogy VAGY egy szélsőségesebb megfigyelés. De úgy hangzik, mintha mélyebb kritikát öltene.
    • Mivel az eredeti kérdés azt kérdezi, hogy mi az a p-érték, úgy gondoltam, hogy ennek a definíciónak egyértelmű átadása fontos. Csak a ” extrémebb mondás ” nem önmagában nagyon hasznos, anélkül, hogy elmagyarázná, mi ” szélsőségesebb ” jelentheti – hogy ‘ a legtöbb válasz gyengesége ebben a szálban I gondol. Csak a whuber ‘ válasza és a ” tea teszt ” látszik igazán megmagyarázni miért a ” szélsőségesebb ” is számít.
    • Úgy éreztem, következtetései is túl erősen fogalmazott. Ha elutasítjuk a nullát, akkor jelentős bizonyítékaink vannak ellene, de nem tudom, hogy ‘ nem tudja, hogy ‘ s hamis. Ha nem sikerül elutasítanunk a nullát, az bizonyosan nem azt jelenti, hogy ‘ nem azt jelenti, hogy a null igaz (bár lehet, hogy igen). Általánosabb megjegyzésként az az érzésem, hogy az a teszt, amelyet ‘ újra leír, egészen absztrakt szempontból, valószínűleg nem lesz egyértelmű egy olyan tanuló számára, aki éppen csak megtanulja a teszt végrehajtását. . A világosan meghatározott tesztstatisztika hiánya nem felel meg az eredeti kérdésnek, amelyben azt kérdezik, hogyan kell értelmezni a t statisztikát is.
    • A válasz egyik jellemzője, ami nagyon tetszik nekem, az az egyértelmű magyarázat, hogy a p-értékeket null modell alapján számítják ki, még akkor is, ha nem ‘ t (szubjektíven) hisszük, hogy a null modell valójában igaz. Úgy gondolom, hogy a tényteszt-statisztikákat egy modell alapján számolják, ez egy kulcsfontosságú pont, amellyel sok diák küzd.

    Válasz

    A p-érték nem olyan titokzatos, mint a legtöbb elemző ezt teszi.Ez egy módja annak, hogy ne kell kiszámítani a t-teszt konfidenciaintervallumát, hanem egyszerűen meg kell határoznia azt a konfidenciaszintet, amellyel a nullhipotézist el lehet utasítani.

    ILLUSZTRÁCIÓ. Futtatsz egy tesztet. A p-érték 0,1866 a Q-változóra, 0,0023 az R-változóra. (Ezeket% -ban fejezzük ki).

    Ha 95% -os megbízhatósági szinten tesztel a null hypo elutasítására;

    Q esetén: 100-18.66 = 81.34%

    R esetén: 100-0,23 = 99,77%.

    95% -os megbízhatósági szintnél a Q 81,34% -os bizalmat ad az elutasításhoz. Ez 95% alá esik és elfogadhatatlan. NEM elfogadja.

    R 99,77% -os bizalmat ad a null elutasításához. Világosan meghaladja a kívánt 95% -ot. Így elutasítottuk a null értéket.

    A p-érték leolvasását egy “fordított módszerrel” szemléltettem, amellyel azt a megbízhatósági szintet értem, amelynél elutasítottuk a null-hipo értéket.

    Megjegyzések

    • Üdvözöljük a webhelyen. Mit értesz a $ Q $ -változó és a $ R $ -változó alatt? Kérlek pontosíts. Ezenkívül a ” accept null ” kifejezés használatát általában nem kívánatosnak, sőt félrevezetőnek is tekintik.
    • @cardinal rámutat egy fontos pontra. ‘ nem fogja elfogadni a nullát.

    Válasz

    ****** A hipotézis tesztelése során a p érték a teszt érzékenységét méri. Minél alacsonyabb a p érték, annál nagyobb az érzékenység. ha a szignifikancia szintet 0,05-re állítják, akkor a p értéke 0,0001 nagy valószínűséggel jelzi, hogy a teszt eredményei helyesek ******

    Megjegyzések

    • -1 Ez egyértelműen téves. Először érdemes elolvasnia a magasabb szavazatokra adott válaszokat.

    Vélemény, hozzászólás?

    Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük