Jaký je význam hodnot p at hodnot ve statistických testech?

Poté, co jsem absolvoval statistický kurz a poté jsem se pokusil pomoci spolužákům, jsem si všiml, že jeden předmět, který hodně inspiruje, je interpretace výsledků statistických hypotéz . Zdá se, že se studenti snadno naučí, jak provádět výpočty požadované daným testem, ale při interpretaci výsledků jsou zavěšení. Mnoho počítačových nástrojů uvádí výsledky testů ve smyslu „hodnot p“ nebo „hodnot t“.

Jak byste vysvětlili následující body studentům vysokých škol, kteří absolvují svůj první kurz statistik:

  • Co znamená „hodnota p“ ve vztahu k testované hypotéze? Existují případy, kdy by člověk měl hledat vysokou hodnotu p nebo nízkou hodnotu p?

  • Jaký je vztah mezi hodnotou p a hodnotou t?

Komentáře

  • Spravedlivou část toho v podstatě pokrývá první věta článku wikipedie o hodnoty p , které správně definují hodnotu p. Pokud tomu ‚ rozumíme, je toho hodně objasněno.
  • Stačí si stáhnout knihu: Statistiky bez slz. Mohlo by to zachránit váš rozum !!
  • @ user48700 Mohli byste shrnout, jak to vysvětluje Statistika bez slz ?
  • Někdo by měl nakreslit graf vztahující se k hodnotě p otázky v průběhu času a vsadím se, že ‚ uvidíme sezónnost a korelaci s akademickými kalendáři na vysokých školách nebo na hodinách Coursera Data Science
  • Kromě další pěkné a relevantní knihy doporučení v odpovědích a komentářích, chtěl bych navrhnout další knihu, vhodně nazvanou “ Co je to vlastně p-hodnota? “ .

Odpověď

Porozumění $ p $ -value

Předpokládejme, že chcete otestovat hypotézu, že průměrná výška studentů na vaší univerzitě je $ 5 $ ft $ 7 $ palce. Sbíráte výšky $ 100 $ studentů náhodně vybraných a vypočítáváte průměrnou hodnotu vzorku (řekněme, že to je $ 5 $ ft $ 9 $ palce). Pomocí vhodného vzorce / statistické rutiny vypočítáte $ p $ hodnotu vaší hypotézy a řeknete, že se ukáže jako 0,06 $ $ .

Abychom mohli řádně interpretovat $ p = 0,06 $ , měli bychom mít na paměti několik věcí:

  1. Prvním krokem při testování klasických hypotéz je předpoklad, že uvažovaná hypotéza je pravdivá. (V našem kontextu předpokládáme, že true průměrná výška je $ 5 $ ft $ 7 $ palce.)

  2. Představte si následující výpočet: Vypočítejte pravděpodobnost, že vzorek znamená je větší než $ 5 $ ft $ 9 $ palce za předpokladu, že naše hypotéza je ve skutečnosti správná (viz bod 1) .

Jinými slovy, chceme vědět $$ \ mathrm {P} (\ mathrm {Sample \: mean} \ ge 5 \: \ mathrm {ft} \: 9 \: \ mathrm {palce} \: | \: \ mathrm {True \: value} = 5 \: \ mathrm {ft} \: 7 \: \ mathrm { palce}). $$

Výpočet v kroku 2 se nazývá hodnota $ p $ . Hodnota $ p $ tedy $ 0,06 $ by tedy znamenala, že pokud bychom měli experiment opakovat, , mnohokrát (pokaždé, když náhodně vybereme 100 $ $ studentů a vypočítáme průměrnou hodnotu vzorku), potom $ 6 $ krát z 100 $ můžeme očekávat, že uvidíme průměr vzorku větší nebo rovný $ 5 $ ft $ 9 $ palce.

Měli bychom si vzhledem k výše uvedenému porozumění zachovat náš předpoklad, že naše hypotéza je pravdivá (viz krok 1)? $ p = 0,06 $ naznačuje, že došlo k jedné ze dvou věcí:

  • (A) Buď je naše hypotéza správná a došlo k extrémně nepravděpodobné události (např. všichni 100 $ $ studenti jsou studentští sportovci)

nebo

  • (B) Náš předpoklad je nesprávný a vzorek, který jsme získali, není tak neobvyklý.

Tradiční způsob výběru mezi (A) a (B) je výběr libovolného mezní hodnota pro $ p $ . Volíme (A), pokud $ p > 0.05 $ a (B) if $ p < 0,05 $ .

Komentáře

  • Udělejte si čas! Nebudu ‚ přemýšlet o výběru “ nejlepší odpovědi “ na týden nebo ano.
  • Teď, když jsem měl ‚ šanci vrátit se a přečíst celou odpověď – velké +1 pro příklad výšky studenta. Velmi jasné a dobře uspořádané.
  • Dobrá práce … ale musíme přidat (C) náš model (obsažený ve vzorci / statistické rutině) je špatný.
  • A t -hodnota (nebo jakákoli jiná statistika testu) je většinou mezikrokem. Je to ‚ v zásadě nějaká statistika, u které bylo za určitých předpokladů prokázáno, že má dobře známé rozdělení. Jelikož známe rozdělení testovací statistiky pod hodnotu null, můžeme k odvození hodnoty p použít standardní tabulky (dnes většinou software).
  • Isn ‚ t hodnota p odvozená z výsledku testu chí-kvadrát a poté z tabulky chi-kvadrát? Zajímalo by mě, jak to, že výše vypočítaná pravděpodobnost naznačila samotnou hodnotu p ?!

Odpověď

Dialog mezi učitel a promyšlený student

Pokorně podřízený ve víře, že v tomto vlákně nebylo dosud použito dost pastelek. Na konci se objeví krátký ilustrovaný přehled.


Student : Co znamená hodnota p? Zdá se, že mnoho lidí souhlasí, že je to šance, že “ uvidíme průměr vzorku větší nebo rovný “ statistika nebo je “ pravděpodobnost pozorování tohoto výsledku. .. vzhledem k nulové hypotéze je pravda “ nebo kde “ statistika mého vzorku padla na [simulovanou] distribuci “ a dokonce “ pravděpodobnost pozorování statistik testu alespoň tak velkých, jako je statistika vypočtená za předpokladu nulové hypotézy, je pravda “ .

Učitel : Je správně pochopeno, že všechna tato tvrzení jsou za mnoha okolností správná.

Student : Nechápu, jak je většina z nich relevantní. Neučili jste nás, že musíme uvést nulovou hypotézu $ H_0 $ a alternativní hypotézu $ H_A $ ? Jak jsou zapojeni do těchto myšlenek “ větších nebo rovných “ nebo “ alespoň stejně velký “ nebo velmi populární “ extrémnější „?

Učitel : Protože se to obecně může zdát komplikované, pomohlo by nám prozkoumat konkrétní příklad?

Student : Jistě. Ale prosím, udělejte to realistickým, ale jednoduchým, pokud můžete.

Učitel : Tato teorie testování hypotéz historicky začala s potřebou astronomů analyzovat pozorovací chyby, takže co takhle začít tam. Jednoho dne jsem procházel některými starými dokumenty, kde vědec popsal své úsilí o snížení chyby měření v jeho aparátu. hvězdy ve známé poloze a zaznamenával jejich posuny před nebo za touto pozicí. Pro vizualizaci těchto posunů nakreslil histogram, který – když se trochu vyhladil – vypadal jako tento.

Obrázek 1: Histogram posunů

Student : Pamatuji si, jak fungují histogramy: svislá osa je označena “ Hustota “ připomenout mi, že relativní frekvence měření jsou reprezentovány spíše oblastí než výškou.

Učitel : To je pravda. “ neobvyklá “ nebo “ extrémní “ hodnota by být umístěn v regionu s docela malou oblastí. Tady je pastelka. Myslíte si, že byste mohli vybarvit v oblasti, jejíž plocha je pouze desetina z celkového počtu?

Student : Jistě; to je snadné. [Barvy na obrázku.]

Obrázek 2: Student

Učitel : Velmi dobře! To mi připadá jako asi 10% plochy. Pamatujte však, že důležité jsou pouze oblasti v histogramu mezi svislými čarami: představují šanci nebo pravděpodobnost že posun by se nacházel mezi těmito čarami na vodorovné ose. To znamená, že jste potřebovali vybarvit celou cestu až dolů a to by bylo přes polovinu plochy, ne „Není to?

Student : No, chápu. Nech mě to zkusit znovu. Budu chtít vybarvit tam, kde je křivka opravdu nízká, že? Je nejnižší na obou koncích.Musím barvit pouze v jedné oblasti, nebo by bylo v pořádku rozdělit to na několik částí?

Učitel : Použití několika částí je chytrý nápad. Kde by byli?

Student (ukazuje): Tady a tady. Protože tato pastelka není příliš ostrá, ukázal jsem vám pomocí pera čáry, které používám.

Obrázek 3: Student

Učitel : Velmi pěkné! Řeknu vám zbytek příběhu. Vědec provedl na svém zařízení některá vylepšení a poté provedl další měření. Napsal, že přemístění prvního bylo pouze $ 0,1 $ , což považoval za dobré znamení, ale jako pečlivý vědec přistoupil k dalším měřením jako kontrole . Bohužel jsou tato další měření ztracena – rukopis se v tomto bodě odlomí – a jediné, co máme, je jediné číslo, $ 0,1 $ .

Student : To je příliš špatné. Ale není to mnohem lepší než široké rozšíření posunů ve vaší postavě?

Učitel : To „To je otázka, na kterou bych vám rád odpověděl. Na začátek, co bychom měli považovat za $ H_0 $ ?

Student : Skeptik by se divil, zda vylepšení provedená v zařízení vůbec měla nějaký účinek. Důkazní břemeno nese vědec: chtěl by ukázat, že skeptik je špatný. To mě nutí myslet si nulovou hypotézu je pro vědce trochu špatné: říká se, že všechna nová měření – včetně hodnoty $ 0,1 $ , o které víme – by se měla chovat tak, jak je popsáno v prvním histogram. Nebo možná ještě horší: mohou být ještě více rozprostřeny.

Učitel : G o, daří se vám dobře.

Student : Alternativou tedy je, že nová měření by byla méně rozložena, že?

Učitel : Velmi dobře! Můžete mi nakreslit obrázek, jak by vypadal histogram s menším rozptylem? Tady je další kopie prvního histogramu; můžete na něj kreslit jako referenci.

Student (kresba): Pomocí pera nakreslím nový histogram a já „zbarvuji v oblasti pod ním. Udělal jsem to tak, že většina křivky je blízko vodorovné osy k nule a tak většina její plochy je blízko (vodorovné) hodnoty nuly: to je to znamená být méně rozprostřený nebo přesnější.

Obrázek 4: Student

Učitel : To je dobrý začátek. Pamatujte však, že histogram zobrazující šance by měl mít celkovou plochu $ 1 $ . Celková plocha prvního histogramu proto je $ 1 $ . Kolik plochy je uvnitř vašeho nového histogramu?

Student : Myslím, že méně než polovina . Vidím ten problém, ale nevím, jak jej opravit. Co mám dělat?

Učitel : Trik spočívá v vytvoření nového histogramu vyšší než starý, takže jeho tota l oblast je $ 1 $ . Zde vám pro ilustraci ukážu počítačově generovanou verzi.

Obrázek 5: Učitel

Student : Vidím: natáhli jste to svisle, takže jeho tvar se opravdu nezměnil, ale nyní jsou červená oblast a šedá oblast (včetně části pod červenou) stejná.

Učitel : Správně. Díváte se na obrázek nulové hypotézy (modře, rozloženo) a část alternativní hypotézy (červeně, s méně rozptylem).

Student : Co myslíte “ částí “ alternativy? Není to jen alternativní hypotéza?

Učitel : Statistici a gramatika se nezdají být různé. 🙂 Vážně, to, co mají na mysli “ hypotézou „, je obvykle celá řada možností. Alternativou (jak jste již dříve uvedli) je zde to, že měření jsou “ méně rozprostřená “ než dříve. Ale o kolik méně ? Existuje mnoho možností. Zde vám ukážu další. Nakreslil jsem to žlutými čárkami. Je mezi předchozími dvěma.

Obrázek 6: Nulová hodnota spolu se dvěma prvky alternativy

Student : Chápu: můžete mít různé množství pomazánky, ale předem nevíte, jak velká bude pomazánka. Proč jste ale na tomto obrázku vytvořili vtipné stínování?

Učitel : Chtěl jsem zdůraznit, kde a jak se histogramy liší. Zastínil jsem je šedě, kde jsou alternativní histogramy nižší než null, a červeně, kde jsou alternativy vyšší .

Student : Proč by na tom záleželo?

Učitel : Pamatujete si, jak jste obarvili první histogram do obou ocasů? [Podíváme se do novin.] Aha, tady to je.Vybarvíme tento obrázek stejným způsobem.

Obrázek 7: Nulový a alternativní, barevný.

Student : Pamatuji si: to jsou extrémní hodnoty. Našel jsem místa, kde byla nulová hustota co nejmenší, a zbarvený na 10% tamní plochy.

Učitel : Povězte mi o alternativách v těchto extrémních oblastech.

Student : Je to těžké vidět, protože pastelka to zakrývala, ale vypadá to, že tam je. “ v oblastech, které jsem obarvil, není téměř žádná šance, že by nějaká alternativa byla. Jejich histogramy jsou přímo dolů proti hodnotové ose a pod nimi není místo pro žádnou oblast.

Učitel : Pojďme pokračovat v této myšlence. Pokud jsem ti hypoteticky řekl, že měření mělo posunutí $ – 2 $ , a požádal tě, abys vybral, který z těchto tří histogramy byly tím, z něhož nejpravděpodobněji pocházely, které by to byly?

Student : První – modrý. Je to nejrozsáhlejší Je to jediný, kde $ – 2 $ vypadá, že má nějakou šanci.

Učitel : A co hodnota $ 0,1 $ v rukopisu?

Student : Hmmm … to je jiné příběh. Všechny tři histogramy jsou pěkně vysoko nad zemí na $ 0,1 $ .

Učitel : Dobře, spravedlivě. Ale předpokládejme, že jsem ti řekl, že hodnota byla někde poblíž $ 0,1 $ , jako mezi $ 0 $ a 0,2 $ $ . Pomůže vám to přečíst některé pravděpodobnosti z těchto grafů?

Student : Jistě, protože mohu používat oblasti. Musím odhadnout oblasti pod každou křivkou mezi $ 0 $ a $ 0,2 $ . Ale to vypadá docela tvrdě.

Učitel : Nemusíte jít tak daleko. Můžete jen říct, která oblast je největší?

Student : Samozřejmě ta pod nejvyšší křivkou. Všechny tři oblasti mají stejnou základnu, takže čím je křivka vyšší, tím více je pod ní a základnou. To znamená nejvyšší histogram – ten, který jsem nakreslil, s červenými čárkami – je nejpravděpodobnější pro posunutí $ 0,1 $ . Myslím, že vidím, kam s tím jdeš, ale já „mám trochu obavy: nemusím se dívat na všechny histogramy pro všechny alternativy, nejen tu zobrazenou jednu nebo dvě? Jak bych to mohl udělat?

Učitel : Jste dobří ve sbírání vzorů, tak mi řekněte: protože měřící aparát je čím dál přesnější, co se stane s jeho histogram?

Student : Zužuje se – a také musí být vyšší, takže jeho celková plocha zůstává stejná. Díky tomu je docela těžké porovnávat histogramy. Alternativní jsou všechny vyšší než nula vpravo u $ 0 $ , to je zřejmé. Ale u jiných hodnot jsou někdy alternativy vyšší a někdy nižší! Například [ukazující na hodnotu blízkou $ 3/4 $ ], právě zde můj červený histogram je nejnižší, žlutý histogram je nejvyšší a původní nulový histogram je mezi nimi. Ale napravo je nula nejvyšší.

Učitel : Obecně je porovnávání histogramů komplikovaná záležitost. Abychom nám to pomohli, požádal jsem počítač, aby vytvořil další graf: rozdělil každou z alternativních výšek histogramu (nebo “ hustoty „) nulovou výškou histogramu, čímž vznikají hodnoty známé jako “ poměry pravděpodobnosti. “ Ve výsledku , hodnota větší než $ 1 $ znamená, že alternativa je pravděpodobnější, zatímco hodnota menší než $ 1 $ znamená alternativa je méně pravděpodobná. Nakreslil ještě jednu alternativu: je rozprostíranější než ostatní dva, ale stále méně rozprostřený než původní aparát.

Obrázek 8: Poměry pravděpodobnosti

Učitel (pokračování): Mohl byste mi ukázat, kde jsou alternativy pravděpodobnější než null?

Student (zbarvení): Tady uprostřed, samozřejmě. A protože to už nejsou histogramy, myslím, že bychom se měli dívat spíše na výšky než na oblasti, takže jen označuji rozsah hodnot na vodorovné ose. Ale jak mám vědět, kolik ze středu zbarví? Kde přestanu barvit?

Obrázek 9: Vynesené grafy poměru pravděpodobnosti

Učitel : Neexistuje žádné pevné pravidlo. Všechno záleží na tom, jak plánujeme využít naše závěry a jak divokí jsou skeptici.Ale sedněte si a přemýšlejte o tom, čeho jste dosáhli: nyní si uvědomujete, že výsledky s velkým poměrem pravděpodobnosti jsou důkazem pro alternativu a výsledky s malým poměrem pravděpodobnosti jsou důkazem proti alternativě . O co vás požádám, je vybarvení v oblasti, která má pokud možno malou šanci na výskyt při nulové hypotéze a relativně velkou šanci na výskyt při alternativách. Vrátíme-li se k prvnímu diagramu, který jste zbarvili, na začátku naší konverzace, zbarvili jste dva ocasy nuly, protože byly “ extrémní. “ Budou i nadále dělat dobrou práci?

Student : To si nemyslím. I když podle nulové hypotézy byli docela extrémní a vzácní, jsou prakticky nemožné pro kteroukoli z alternativ. Pokud by mé nové měření bylo, řekněme $ 3,0 $ , myslím, že bych se postavil na stranu skeptika a popřel, že by došlo k nějakému zlepšení, přestože $ 3,0 $ byl každopádně neobvyklý výsledek. Chci toto zbarvení změnit. Tady – dovolte mi mít další pastelku.

Obrázek 10: Vylepšené značkování

Učitel : Co to představuje?

Student : Začali jsme tím, že jste mě požádali, abych nakreslil pouze 10% plochy pod původním histogramem – tím, který popisuje nulovou hodnotu. Takže teď Nakreslil jsem 10% oblasti, kde se zdá, že se alternativy vyskytují s větší pravděpodobností. Myslím, že když je v této oblasti nové měření, říká nám, že bychom měli věřit alternativě.

Učitel : A jak by na to měl skeptik reagovat?

Student : Skeptik nikdy nemusí přiznat, že se mýlí, že? Ale myslím, že jeho víra by měla být trochu otřesená. Nakonec jsme to uspořádali tak, že ačkoliv měření mohlo být uvnitř oblasti, kterou jsem právě nakreslil, má jen 10% šanci, že tam bude, když bude null pravdivá. A má větší šanci být tam, když je alternativa pravdivá. Prostě vám nemohu říci jak mnohem větší je ta šance, protože by to záleželo na tom, jak moc vědec vylepšil přístroj. Jen vím, že je větší. Důkazy by tedy byly proti skeptikovi.

Učitel : Dobře. Vadilo by vám shrnout vaše porozumění, abychom měli naprosto jasno v tom, co jste se naučili?

Student : Naučil jsem se, že k porovnání alternativních hypotéz s nulovými hypotézami bychom měli porovnat jejich histogramy. Hustoty alternativ dělíme hustotou nuly: to je to, čemu jste říkali “ poměr pravděpodobnosti. “ Chcete-li udělat dobrý test, měl bych vybrat malé číslo jako 10% nebo cokoli, co by mohlo stačit, aby se otřáslo skeptikem. Pak bych měl najít hodnoty, kde je poměr pravděpodobnosti co nejvyšší, a vybarvit je, dokud nebude vybarveno 10% (nebo cokoli jiného).

Učitel : A jak byste použili to zbarvení?

Student : Jak jste mi dříve připomněli, zbarvení musí být mezi svislými čarami. Hodnoty (na vodorovné ose), které leží pod vybarvením, jsou důkazem proti nulové hypotéze. Další hodnoty – je těžké říci, co by mohly znamenat, aniž bychom se podrobněji podívali na všechny použité histogramy.

Učitel : Vracíme se k hodnotě $ 0,1 $ v rukopise, k čemu byste dospěli?

Student : To je v oblasti, kterou jsem naposledy obarvil , takže si myslím, že vědec měl pravděpodobně pravdu a aparát se opravdu zlepšil.

Učitel : Ještě jedna věc. Váš závěr byl založen na výběru 10% jako kritéria nebo “ velikosti “ testu. Mnoho lidí místo toho používá 5%. Někteří dávají přednost 1%. Co byste jim mohli říct?

Student : Nemohl bych udělat všechny ty testy najednou! No, možná bych svým způsobem mohl. Vidím, že bez ohledu na velikost test by měl být, měl bych začít barvit z $ 0 $ , což je v tomto smyslu “ nejextrémnější “ hodnotu a odtamtud pracovat oběma směry. Pokud bych se měl zastavit hned na $ 0,1 $ – hodnota skutečně pozorována – Myslím, že bych se zabarvil v oblasti někde mezi $ 0,05 $ a $ 0,1 $ , řekněme 0,08 $ . 5% a 1% lidí hned poznalo, že jsem příliš obarvil: kdyby chtěli obarvit jen 5% nebo 1%, mohli by, ale nechtěli „nedostanete se tak daleko jako $ 0,1 $ . Nepřišli by ke stejnému závěru jako já: řekli by, že není dostatek důkazů o tom, že ke změně skutečně došlo.

Učitel : Právě jste mi řekl, co všechno tyto nabídky na začátku opravdu znamenají.Z tohoto příkladu by mělo být zřejmé, že nemohou mít v úmyslu “ extrémnější “ nebo “ větší než nebo rovno “ nebo “ alespoň stejně velké “ ve smyslu mít větší hodnotu nebo dokonce mít hodnotu, kde je nulová hustota malá. Opravdu znamenají tyto věci ve smyslu velkého poměru pravděpodobnosti , který jste popsali. Mimochodem, číslo kolem $ 0,08 $ , které jste vypočítali, se nazývá “ p-hodnota. “ Lze to správně pochopit pouze způsobem, který jste popsali: s ohledem na analýzu relativních výšek histogramu – poměry pravděpodobnosti.

Student : Děkuji. Nejsem si jistý, že tomu všemu ještě plně rozumím, ale dal jsi mi hodně na přemýšlení.

Učitel : Pokud bys chtěl jít dál, vezmi si podívejte se na Neyman-Pearson Lemma . Pravděpodobně jste tomu nyní připraveni porozumět.


Synopse

Mnoho testů založených na jedné statistice, jako je ta v dialogu, ji bude nazývat “ $ z $ “ nebo “ $ t $ „. Toto jsou způsoby, jak naznačit, jak vypadá nulový histogram, ale jsou to jen náznaky: to, co pojmenujeme toto číslo, ve skutečnosti nezáleží. Konstrukce shrnutá studentem, jak je zde znázorněno, ukazuje, jak souvisí s p-hodnotou. Hodnota p je nejmenší velikost testu, která by způsobila, že pozorování $ t = 0,1 $ povede k odmítnutí nulové hypotézy.

Obrázek 11: p-hodnota jako oblast.

Na tomto obrázku, který je přiblížen pro zobrazení detailů, je vynesena nulová hypotéza plná modrá a dvě typické alternativy jsou vykresleny přerušovanými čarami. Oblast, kde tyto alternativy mají tendenci být mnohem větší než null, je zastíněna. Stínování začíná tam, kde je relativní pravděpodobnost alternativ největší (na $ 0 $ ). Stínování se zastaví, když je dosaženo $ t = 0,1 $ pozorování. Hodnota p je oblast stínované oblasti pod nulovým histogramem: je to šance, za předpokladu, že je hodnota null pravdivá, pozorovat výsledek, jehož poměry pravděpodobnosti mají tendenci být velké bez ohledu na to, která alternativa se stane pravdivou. Zejména tato konstrukce důvěrně závisí na alternativní hypotéze. Nelze jej provést bez určení možných alternativ.


Dva praktické příklady zde popsaného testu – jeden publikovaný, druhý hypotetický – viz https://stats.stackexchange.com/a/5408/919 .

Komentáře

  • Toto má výborně se vypořádal s mým komentářem k další odpovědi, že žádná z předchozích odpovědí na tuto otázku obecně neřešila běžně slyšené “ nebo extrémnější “ aspekt hodnoty p . (Ačkoli “ testování čajů “ odpověď obsahovala dobrou konkrétní příklad.) Obdivuji zejména způsob, jakým byl tento příklad záměrně vytvořen, aby zdůraznil, že “ extrémnější “ může znamenat pravý opak “ větší “ nebo “ dále od nuly „.
  • Přeji si, aby učitelé a učebnice nepoužívaly ‚ frázi “ nebo extrémnější „, opravdu. Dvě varianty, které jsem slyšel, lze parafrázovat jako “ příznivější pro $ H_1 $ “ nebo “ přesvědčivější pro $ H_1 $ „. V tomto případě by hodnoty blížící se nule byly přesvědčivější, že se dalekohled stal spolehlivějším, ale vyžaduje nějakou jazykovou akrobacii (věrohodně argumentovanou, ale potenciálně matoucí), aby byla popsána jako “ extrémnější „.
  • Jedinečně bystré jako vždy, děkuji, že jste si našli čas a napsali tyto neuvěřitelně užitečné odpovědi. Opravdu by mě zajímalo, proč učebnice nikdy nejsou psány takovým způsobem, který by tyto úrovně srozumitelnosti a intuice poskytoval téměř kdekoli.
  • Je nebezpečné používat v komentáři sarkazmus ‚ , @baxx, protože ‚ není dostatek místa, což nám umožnilo zdvořile a elegantně. Proto ‚ obvykle není dobrý nápad předpokládat, že je komentář sarkastický, pokud vám to výslovně neřekne.Předpokládejme, že komentáře vám mají pomoci. Pokud byste při vyhledávání, které jsem poskytl, jednoduše sledovali první zásah, myslím, že by vaše otázky byly zodpovězeny.
  • Prostě fantastické! Děkuji @ whuber!

Odpovědět

Než se dotknu tohoto tématu, vždy se ujistím, že studenti se rádi pohybují mezi procenty, desetinnými místy, kurzy a zlomky. Pokud s tím nejsou zcela spokojeni, mohou se velmi rychle zmást.

Rád bych poprvé vysvětlil testování hypotéz (a tedy p-hodnoty a statistiku testů) prostřednictvím Fishera “ Je to klasický čajový experiment. Mám pro to několik důvodů:

(i) Myslím, že propracování experimentu a definování pojmů, jak jdeme dál, dává větší smysl, že pouze definování všech těchto pojmů na začátek. (ii) Abyste se dostali přes klíčové body testování hypotéz, nemusíte se výslovně spoléhat na rozdělení pravděpodobnosti, oblasti pod křivkou atd. (iii) Vysvětluje tuto směšnou představu „stejně extrémně, než je pozorováno“ docela rozumným způsobem. (iv) Zjistil jsem, že studenti rádi rozumějí historii, původu a příběhu toho, co studují, protože je realističtější než některé abstraktní teorie. (v) Nezáleží na tom, z jaké disciplíny nebo předmětu studenti pocházejí, mohou se vztahovat k příkladu čaje (Poznámka: Někteří mezinárodní studenti mají potíže s touto zvláštně britskou institucí čaje s mlékem.)

[Poznámka: Tuto myšlenku jsem původně získal z nádherného článku Dennise Lindleye „Analýza experimentálních dat: Ocenění čaje & Víno, ve kterém demonstruje, proč jsou Bayesovské metody lepší než klasické metody.]

Zadní příběh je, že Muriel Bristol navštívila Fishera jedno odpoledne ve 20. letech 20. století na Rothamstedské experimentální stanici pro šálek čaje. Když Fisher dala mléko naposled, stěžovala si, že může také řekněte, zda bylo mléko nalito jako první (nebo poslední) a že dala přednost tomu prvnímu. Aby to otestoval, navrhl svůj klasický čajový experiment, kde je Muriel prezentována s párem čajových šálků a ona musí určit, který z nich měl mléko přidáno jako první. Toto se opakuje se šesti páry čajových šálků ices jsou buď Right (R) nebo Wrong (W) a její výsledky jsou: RRRRRW.

Předpokládejme, že Muriel ve skutečnosti jen hádá a nemá schopnost vůbec rozlišovat. Tomu se říká Nulová hypotéza . Podle Fishera je účelem experimentu diskreditovat tuto nulovou hypotézu. Pokud Muriel hádá, identifikuje čajový šálek správně s pravděpodobností 0,5 na každém kole a protože jsou nezávislé, pozorovaný výsledek má 0,5 $ ^ 6 $ = 0,016 (nebo 1/64). Fisher poté tvrdí, že buď:

(a) nulová hypotéza (Muriel hádá) je pravdivá a došlo k události s malou pravděpodobností, nebo

(b) nulová hypotéza je nepravdivá a Muriel má diskriminační schopnosti.

Hodnota p (neboli hodnota pravděpodobnosti) je pravděpodobnost pozorování tohoto výsledku (RRRRRW) vzhledem k tomu, že nulová hypotéza je pravdivá – je to malá pravděpodobnost uvedená v písmenu a) výše. V tomto případě je to 0,016. Protože události s malou pravděpodobností se vyskytují jen zřídka (podle definice), situace (b) může být vhodnějším vysvětlením toho, co se stalo, než situace (a). Když odmítneme nulovou hypotézu, ve skutečnosti přijímáme opačnou hypotézu, kterou nazýváme alternativní hypotéza. V tomto příkladu má Muriel diskriminační schopnosti, je alternativní hypotéza.

Důležitým hlediskem je, co uděláme třída jako „malá“ pravděpodobnost? Jaký je mezní bod, ve kterém jsme ochotni říci, že událost je nepravděpodobná? Standardní měřítko je 5% (0,05) a tomu se říká úroveň významnosti. Když hodnota p je menší než úroveň významnosti, odmítáme nulovou hypotézu jako nepravdivou a přijímáme naši alternativní hypotézu. Běžným jazykem je tvrzení, že výsledek je „významný“, když je hodnota p menší než úroveň významnosti, tj. když je pravděpodobnost toho, co jsme pozorované vyskytující se vzhledem k tomu, že nulová hypotéza je pravdivá, je menší než náš mezní bod. Je důležité si uvědomit, že použití 5% je zcela subjektivní (stejně jako použití ostatních běžných hladin významnosti 1% a 10%).

isher si uvědomil, že to tak není práce; každý možný výsledek s jedním nesprávným párem stejně naznačoval diskriminační schopnosti. Relevantní pravděpodobnost pro situaci (a) výše je tedy 6 (0,5) ^ 6 = 0,094 (nebo 6/64), což nyní není významné na úrovni významnosti 5%. K překonání tohoto Fisher tvrdil, že pokud je 1 chyba ze 6 považována za důkaz diskriminačních pravomocí, pak to není žádná chyba, tj.do výpočtu hodnoty p by měly být zahrnuty výsledky, které silněji naznačují diskriminační schopnosti, než jaké byly pozorovány. To vyústilo v následující pozměňovací návrh k odůvodnění:

a) nulová hypotéza (Muriel hádá) je pravdivá a pravděpodobnost událostí, která je extrémní, než je pozorovaná, je malá, nebo

(b) nulová hypotéza je nepravdivá a Muriel má diskriminační schopnosti.

Zpět k našemu čajovému experimentu a zjistíme, že p-hodnota v tomto nastavení je 7 (0,5 ) ^ 6 = 0,109, což stále není významné na hranici 5%.

Poté studenty přimím pracovat s některými dalšími příklady, jako je házení mincí, abych zjistil, zda je mince spravedlivá. Toto cvičení přináší koncepty nulové / alternativní hypotézy, hodnoty p a úrovně významnosti. Poté přejdeme k případu spojité proměnné a zavedeme pojem testovací statistika. Protože jsme již pokryli normální rozdělení, standardní normální rozdělení a transformaci z do hloubky, je to jen otázka spojení několika konceptů.

Kromě výpočtu statistik testů, hodnot p a rozhodování (významné / nevýznamné) Přimím studenty, aby prošli publikovanými články ve výplni hry o chybějící mezery.

Komentáře

  • I Vím, že ‚ m trochu oživuji velmi staré vlákno, ale tady to jde … Opravdu jsem si užíval vaši odpověď, ale chybí mi v ní část t-value 🙁 Mohl byste prosím, použijte k tomu své příklady? Nikdo neodpověděl na část t-testu
  • @sosi It ‚ s pravděpodobně proto, že p-hodnoty jsou mnohem více obecné než hodnoty t. ‚ Je to jako kladení otázek o automobilech a pak o brzdách na Fordu Fiesta.
  • Odpověď je velmi zajímavá (+ 1), ale na konci je několik věcí zaměněno znamená to, že hodnota $ p $ je “ významná na 5% úrovni „? Hodnota $ p $ je pod 5%, nebo není. ‚ Nevidím smysl v používání takové temné věty, takže “ význam “ undefined. 2. Co to znamená “ rozhodnout “ zda je či není důležitá hodnota $ p $? Nezdá se oprávněné vnést do mixu tímto způsobem teorii rozhodování (zejména proto, že Fisher byl silným odpůrcem aplikace testovacího rámce Neyman-Pearson ve vědách).

Odpověď

Žádné slovní vysvětlení ani výpočty mi opravdu nepomohly porozumět na úrovni střev , co byly p-hodnoty, ale po absolvování kurzu, který zahrnoval simulaci, se mi to opravdu zaměřilo. To mi dalo schopnost skutečně vidět data generovaná nulovou hypotézou a vykreslit prostředky / atd. simulovaných vzorků, pak se podívejte, kde statistika mého vzorku padla na tuto distribuci.

Myslím, že klíčovou výhodou je to, že umožňuje studentům zapomenout na matematiku a distribuci statistik testu na minutu a zaměřit se na konkrétní pojmy. Je pravda, že to vyžadovalo, abych se naučil jak simulovat tyto věci, což způsobí problémy úplně jiné skupině studentů. Ale fungovalo to pro mě a já jsem použil nespočetkrát simulace, která pomůže vysvětlit statistiku ostatním s velkým úspěchem (např. „Takto vypadají vaše data; takto vypadá Poissonova distribuce jako překrytá. JISTĚ SI, že chcete provést Poissonovu regresi?“).

Toto přesně neodpovídá na otázky, které jste položili, ale alespoň pro mě je to učinilo triviálními.

Komentáře

  • Z celého srdce souhlasím s použitím simulace k vysvětlení. Ale jen malá poznámka k příkladu na konci: Zjistil jsem, že lidem (nejen studentům) se to zdá obtížné rozlišit jakýkoli konkrétní distribuční předpoklad, např. Poisson, mezi tím, že je okrajově distribuován Poisson a je podmíněně distribuován. Jelikož pro regresní model záleží pouze na posledně jmenovaném, nemusí být nutně důvodem k obavám spousta závislých hodnot proměnných, které nejsou ‚ t poisson.
  • přiznat, že jsem to ‚ nevěděl. ‚ Opravdu jsem ocenil vaše komentáře k tomuto webu za posledních několik dní vašeho členství – doufám, že ‚ zůstanete kolem.
  • @MattParker Znáte nějaké výukové zdroje zaměřené na využití simulace k rozvoji porozumění? Nebo je to jen případ, kdy dáte dohromady nějaké skripty pythonu / R a provedete spoustu testů?
  • @baxx Web [Seeing Theory od Daniela Kunina] (students.brown.edu/seeing-theory/ ) má k tomu několik zajímavých nástrojů, ale ‚ je stále ve výstavbě.Jinak ano, ‚ jsem z velké části experimentoval s integrovanými nástroji R ‚ pro simulaci – používám je k tomu, abych si dokázal, jak některá metoda funguje, nebo zjistit, co by se stalo, kdyby byl prediktor nahrazen náhodnou proměnnou atd. Omlouvám se, ale přál bych si vědět o lepších zdrojích!
  • @MattParker super díky. Jo – trochu kuřecího masa a vajíčka, aby bylo možné sestavit experimenty, které (předpokládám?) Musíte alespoň získat dost na jejich napsání. Bez obav ….. Prostě zkontrolujte web, který jste propojili, ‚ je pěkný, děkuji

odpovědět

Pěknou definicí hodnoty p je „pravděpodobnost dodržení testovací statistiky alespoň tak velké, jako je statistika vypočtená za předpokladu, že je nulová hypotéza pravdivá“.

Problém spočívá v tom, že vyžaduje porozumění „testovací statistice“ a „nulové hypotéze“. Ale to je snadné překonat. Pokud je nulová hypotéza pravdivá, obvykle něco jako „parametr z populace A se rovná parametru z populace B“, a vypočítáte statistiku pro odhad těchto parametrů, jaká je pravděpodobnost, že statistika testu, která říká: „jsou to jiné“?

Například pokud je mince spravedlivá, jaká je pravděpodobnost, že uvidím 60 hlav ze 100 losování? To testuje nulovou hypotézu , „coin is fair“, nebo „p = .5“, kde p je pravděpodobnost hlav.

Statistikou testu by v takovém případě byl počet hlav.

Nyní předpokládám , že to, co nazýváte „t-value“, je obecná „statistika testu“, nikoli hodnota z „t distribuce“. není to samé a pojem „hodnota t“ není „nutně široce používaný a může být matoucí.

To, čemu říkáte„ hodnota t “, je pravděpodobně to, čemu říkám „statistika testu“. Abyste mohli vypočítat hodnotu p (pamatujte, je to jen pravděpodobnost), potřebujete distribuci a hodnotu, kterou do této distribuce zapojíte a která vrátí pravděpodobnost. Jakmile to uděláte, pravděpodobnost, že se vrátíte, je vaše hodnota p. Vidíte, že spolu souvisejí, protože při stejné distribuci různé statistiky statistik vrátí různé hodnoty p. Extrémnější statistika testů vrátí nižší hodnoty p, což dává větší indikaci, že nulová hypotéza je nepravdivá.

Zde jsem ignoroval problém jednostranných a oboustranných hodnot p.

Odpověď

Představte si, že máte vak obsahující 900 černých kuliček a 100 bílých, tj. 10% kuliček je bílých. Nyní si představte, že vytáhnete 1 mramor, podíváte se na něj a zaznamenáte jeho barvu, vytáhnete jiný, zaznamenáte jeho barvu atd. … a udělejte to 100krát. Na konci tohoto procesu budete mít číslo pro bílé kuličky, které by v ideálním případě očekávali 10, tj. 10% ze 100, ale ve skutečnosti to může být 8 nebo 13 nebo cokoli jiného jednoduše kvůli nahodilosti. Pokud opakujete tento 100 experiment s odběrem mramoru mnohokrát a potom nakreslíte histogram počtu bílých kuliček nakreslených na experiment, zjistíte, že budete mít Bell Curve vycentrovanou kolem 10.

To představuje vaši 10% hypotézu: s jakoukoli taškou obsahující 1000 kuliček, z nichž 10% je bílých, pokud náhodně vyjmete 100 kuliček, najdete ve výběru 10 bílých kuliček, dejte nebo vezměte přibližně 4. Hodnota p je o tom „dejte nebo vezměte 4 nebo tak“. Řekněme, že s odkazem na Bell Curve vytvořenou dříve můžete určit, že za méně než 5% času získáte 5 nebo méně bílých kuliček a dalších < 5% času představuje 15 nebo více bílých kuliček, tj.> 90% případů, kdy váš výběr 100 mramorů bude obsahovat 6 až 14 bílých kuliček včetně.

Nyní za předpokladu, že někdo sbalí pytel s 1000 kuličkami s neznámým počtem bílé kuličky, máme nástroje k zodpovězení těchto otázek

i) Existuje méně než 100 bílých kuliček?

ii) Existuje více než 100 bílých kuliček?

iii) Obsahuje taška 100 bílých kuliček?

Jednoduše vytáhněte 100 kuliček z vaku a spočítejte, kolik z tohoto vzorku je bílých.

a) Pokud existuje ve vzorku je 6 až 14 bílých, nemůžete odmítnout hypotézu, že v tašce je 100 bílých kuliček a odpovídající p-hodnoty pro 6 až 14 budou> 0,05.

b) Pokud existuje 5 nebo méně bílých ve vzorku můžete reje ct hypotéza, že v tašce je 100 bílých kuliček a odpovídající p-hodnoty pro 5 nebo méně budou < 0,05. Očekávali byste, že taška bude obsahovat < 10% bílých kuliček.

c) Pokud je ve vzorku 15 nebo více bílých, můžete odmítnout hypotézu, že tam jsou 100 bílých kuliček v tašce a odpovídající p-hodnoty pro 15 nebo více budou < 0,05. Čekali byste, že taška bude obsahovat> 10% bílých kuliček.

V reakci na komentář společnosti Baltimark

Vzhledem k výše uvedenému příkladu existuje přibližně : –

4.8% šance na získání 5 bílých koulí nebo méně

1,85% šance na 4 nebo méně

0,55% šance na 3 nebo méně

0,1% šance na 2 nebo méně

6,25% šance na 15 nebo více

3,25% šance na 16 nebo více

1,5% šance na 17 nebo více

0,65% šance na 18 a více

0,25% šance na 19 a více

0,1% šance na 20 a více

0,05% šance na 21 a více

Tato čísla byla odhadnuta z empirického rozdělení generovaného jednoduchou rutinou Monte Carlo spuštěnou v R a výsledných kvantilů distribuce vzorkování.

Pro účely odpovědi na původní otázku předpokládejme, že nakreslíte 5 bílých koulí, existuje pouze přibližná 4,8% šance, že pokud taška z mramoru 1000 skutečně obsahuje 10% bílých koulí, vytáhnete pouze 5 bílé ve vzorku 100. To se rovná hodnotě ap < 0,05. Nyní si musíte vybrat mezi

i) Ve vaku je opravdu 10% bílých koulí a právě jsem měl „smůlu“ nakreslit tak málo

nebo

ii) Nakreslil jsem tak málo bílých koulí, že „ve skutečnosti nemůže být 10% bílých koulí (odmítněte hypotézu 10% bílých koulí)

Komentáře

  • Za prvé, je to jen velký příklad a ‚ ve skutečnosti nevysvětluje koncept hodnoty p a testovací statistiky. Zadruhé, vy ‚ právě tvrdíte, že pokud získáte méně než 5 nebo více než 15 bílých kuliček, odmítnete nulovou hypotézu. Jaká je ‚ distribuce, kterou ‚ přepočítáváte tyto pravděpodobnosti z? To lze aproximovat s normální vzdáleností se středem 10, se standardní odchylkou 3. Vaše kritéria pro odmítnutí nejsou dostatečně přísná.
  • Souhlasím s tím, že je to jen příklad, a je pravda, že jsem právě vybral čísla 5 a 15 z a ir pro ilustrativní účely. Až budu mít čas, zveřejním druhou odpověď, která, jak doufám, bude úplnější.

Odpověď

To, co vám p-hodnota neřekne, je, jak pravděpodobné je, že nulová hypotéza je pravdivá. V konvenčním (Fisherově) rámci testování významnosti nejprve spočítáme pravděpodobnost pozorování dat za předpokladu, že nulová hypotéza je pravdivá, toto je Hodnota p. Vypadá to, že je intuitivně rozumné předpokládat, že nulová hypotéza je pravděpodobně nepravdivá, pokud jsou data dostatečně nepravděpodobná, že by byla pozorována v rámci nulové hypotézy. To je zcela rozumné. Statistici přechodně používají prahovou hodnotu a „odmítají nulovou hypotézu na 95 % úrovně významnosti „if (1 – p)> 0,95; jedná se však pouze o konvenci, která se v praxi ukázala jako rozumná – neznamená to, že existuje méně než 5% pravděpodobnost, že nulová hypotéza je nepravdivá (a tedy 95 % pravděpodobnost, že alternativní hypotéza je pravdivá). Jedním z důvodů, které nemůžeme říci, je to, že jsme se dosud na alternativní hypotézu nepodívali.

Zobrazování funkce f (), která mapuje hodnotu p na pravděpodobnost, že alternativní hypotéza je pravdivá. Bylo by rozumné tvrdit, že tato funkce se přísně snižuje (tak, že čím pravděpodobnější jsou pozorování v rámci nulové hypotézy, tím méně pravděpodobná je alternativní hypotéza) a že dává hodnoty mezi 0 a 1 (protože poskytuje odhad To je vše, co víme o f (), takže i když existuje vztah mezi p a pravděpodobností, že alternativní hypotéza je pravdivá, je nekalibrovaná. To znamená, že nemůžeme použít p-hodnotu k kvantitativní výroky o věrohodnosti nulll a alternativních hypotéz.

Upozornění lektora: Ve frekventovaném rámci není možné hovořit o pravděpodobnosti, že hypotéza je pravdivá, protože to není náhodná proměnná – je to buď pravda, nebo to není. Takže když jsem hovořil o pravděpodobnosti pravdivosti hypotézy, implicitně jsem přešel k Bayesovské interpretaci. Je nesprávné kombinovat Bayesian a frekventant, nicméně vždy existuje pokušení to udělat, protože to, co opravdu chceme, je kvantitativní indikace relativní věrohodnosti / pravděpodobnosti hypotéz. Ale to není to, co poskytuje p-hodnota.

Odpověď

Ve statistikách nikdy nemůžete říci, že je něco naprosto jisté, takže statistici používají jiný přístup k posouzení, zda je hypotéza pravdivá či nikoli. Snaží se odmítnout všechny ostatní hypotézy, které nejsou podporovány údaji.

K tomu mají statistické testy nulovou hypotézu a alternativní hypotézu. Hodnota p uváděná ze statistického testu představuje pravděpodobnost výsledku vzhledem k tomu, že nulová hypotéza byla správná. Proto chceme malé hodnoty p. Čím menší jsou, tím méně pravděpodobný by byl výsledek, kdyby byla nulová hypotéza správná. Pokud je hodnota p dostatečně malá (tj. Je velmi nepravděpodobné, že by výsledek měl pokud byla nulová hypotéza správná), pak je nulová hypotéza odmítnuta.

Tímto způsobem lze formulovat nulové hypotézy a následně je odmítnout. Pokud je nulová hypotéza odmítnuta, přijímáte alternativní hypotézu jako nejlepší vysvětlení. Nezapomeňte však, že alternativní hypotéza není nikdy jistá, protože nulová hypotéza mohla výsledky náhodně vygenerovat.

Komentáře

  • a p -value je pravděpodobnost výsledku jako ebo více “ extrémního “ než uvedeného výsledku, nikoli skutečného výsledku. p-hodnota je $ Pr (T \ geq t | H_0) $ a ne $ Pr (T = t | H_0) $ (T je statistika testu a t je jeho pozorovaná hodnota).

Odpověď

Jsem trochu zdrženlivý, abych oživil staré téma, ale skočil jsem z sem , takže to zveřejňuji jako odpověď na otázku v odkazu.

Hodnota p je konkrétní pojem, neměl by existovat prostor pro nedorozumění. Je však poněkud mystické, že hovorové překlady definice hodnoty p vedou k mnoha různým dezinterpretacím. Myslím, že kořen problému spočívá v používání frází „přinejmenším stejně nepříznivých pro nulovou hypotézu“ nebo „alespoň tak extrémních, jako je ve vašich ukázkových datech“ atd.

Například Wikipedia říká

… p-hodnota je pravděpodobnost získání výsledků pozorovaného vzorku (nebo extrémnějšího výsledku), když je nulová hypotéza skutečně pravdivá .

Význam hodnoty $ p $ je rozmazaný, když lidé poprvé narazí na „(nebo extrémnější výsledek)“ „a začnou myslet“ more extreeeme ? „.

Myslím, že je lepší ponechat„ extrémnější výsledek „na něco jako nepřímý řečový akt . Můj názor je tedy

Hodnota p je pravděpodobnost, že uvidíte to, co vidíte ve „imaginárním světě“, kde je nulová hypotéza pravdivá.

Aby byla myšlenka konkrétní, předpokládejme, že máte ukázku x skládající se z 10 pozorování a předpokládáte, že populace průměr je $ \ mu_0 = 20 $. Takže ve vašem předpokládaném světě je distribuce populace $ N (20,1) $.

x #[1] 20.82600 19.30229 18.74753 18.99071 20.14312 16.76647 #[7] 18.94962 17.99331 19.22598 18.68633 

T-stat vypočítáte jako $ t_0 = \ sqrt {n} \ frac {\ bar {X} – \ mu_0} {s} $, a zjistěte, že

sqrt(10) * (mean(x) - 20) / sd(x) #-2.974405 

Jaká je tedy pravděpodobnost pozorování $ | t_0 | $ až 2,97 („extrémnější“ zde) v imaginární svět? V imaginárním světě $ t_0 \ sim t (9) $, tedy p-hodnota musí být $$ p-hodnota = Pr (| t_0 | \ geq 2.97) = 0,01559054 $$

2*(1 - pt(2.974405, 9)) #[1] 0.01559054 

Jelikož je hodnota p malá, je velmi nepravděpodobné, že by vzorek x byl nakreslen v předpokládaném světě. Proto jsme dospěli k závěru, že je velmi nepravděpodobné, že by hypotetickým světem byl ve skutečnosti svět skutečný.

Komentáře

  • +1, ale když píšete “ pravděpodobnost, že uvidíte to, co vidíte “ a vynechejte “ extrémnější “ části se tato věta stává přísně falešnou (a potenciálně zavádějící, i když možná méně matoucí). Není pravděpodobné, že uvidíte to, co vidíte (obvykle je to nula). Je pravděpodobné, že uvidíte to, co vidíte “ nebo extrémnější „. I když to může být pro mnohé matoucí, stále je to zásadní (a lze donekonečna polemizovat o míře subjektivity, která se skrývá za tímto “ extrémnějším “ formulace).
  • @amoeba Myslel jsem si, že když bude dodán adekvátní příklad, může sloužit jako proxy pro “ získání pozorovaných výsledků vzorku (nebo extrémnější výsledek) „. Možná je potřeba lepší formulace.
  • Chtěl jsem udělat stejné pozorování jako @amoeba; část “ nebo extrémnější “ je zpracována dobře příkladem ve výškách studentů a odpovědích na čajový dýchánek, ale já ‚ že žádné odpovědi v tomto vlákně nenarazily na jasné obecné vysvětlení, zejména takové, které zahrnuje různé alternativní hypotézy. Souhlasím s touto odpovědí, která naznačuje, že “ nebo extrémnější “ část je pro mnoho studentů koncepčním problémem.
  • @Silverfish: a nejen studenti. Kolik čtenářů Bayesian-vs-Frequentists jsem četl a které pojednávají o problematice subjektivity / objektivity tohoto “ extrémnějšího “ bit!
  • @Silver Souhlasím s vaší kritikou a zveřejnil (a) odpověď v pokusu o její řešení. “ Nebo extrémnější “ je samotná podstata věci.

Odpověď

Také jsem zjistil, že simulace jsou užitečné při výuce.

Zde je simulace pro pravděpodobně nejzákladnější případ, kdy vzorkujeme $ n $ krát z $ N (\ mu, 1) $ (proto je $ \ sigma ^ 2 = 1 $ známý pro jednoduchost ) a otestujte $ H_0: \ mu = \ mu_0 $ proti levostranné alternativě.

Potom $ t $ -statistické $ \ text {tstat}: = \ sqrt {n} (\ bar {X} – \ mu_0) $ je $ N (0,1) $ pod $ H_0 $, takže hodnota $ p $ je jednoduše $ \ Phi (\ text {tstat}) $ nebo pnorm(tstat) v R.

V simulaci , je to zlomek případů, kdy data generovaná pod hodnotou null $ N (\ mu_0,1) $ (zde $ \ mu_0 = 2 $) přinesou ukázkové prostředky uložené v nullMeans, že jsou méně (tj. „extrémnější“ “v tomto levostranném testu) než ten, který se počítá ze sledovaných údajů.

# p value set.seed(1) reps <- 1000 n <- 100 mu <- 1.85 # true value mu_0 <- 2 # null value xaxis <- seq(-3, 3, length = 100) X <- rnorm(n,mu) nullMeans <- counter <- rep(NA,reps) yvals <- jitter(rep(0,reps),2) for (i in 1:reps) { tstat <- sqrt(n)*(mean(X)-mu_0) # test statistic, N(0,1) under the given assumptions par(mfrow=c(1,3)) plot(xaxis,dnorm(xaxis),ylab="null distribution",xlab="possible test statistics",type="l") points(tstat,0,cex=2,col="salmon",pch=21,bg="salmon") X_null <- rnorm(n,mu_0) # generate data under H_0 nullMeans[i] <- mean(X_null) plot(nullMeans[1:i],yvals[1:i],col="blue",pch=21,xlab="actual means and those generated under the null",ylab="", yaxt="n",ylim=c(-1,1),xlim=c(1.5,2.5)) abline(v=mu_0,lty=2) points(mean(X),0,cex=4,col="salmon",pch=21,bg="salmon") # counts 1 if sample generated under H_0 is more extreme: counter[i] <- (nullMeans[i] < mean(X)) # i.e. we test against H_1: mu < mu_0 barplot(table(counter[1:i])/i,col=c("green","red"),xlab="more extreme mean under the null than the mean actually observed") if(i<10) locator(1) } mean(counter) pnorm(tstat) 

Odpověď

Považuji za užitečné sledovat posloupnost, ve které vysvětlujete koncepty v tomto pořadí: (1) Z skóre a proporce nad a pod z skóre za předpokladu normální křivka. (2) Pojem distribuce výběru a skóre z pro daný vzorek znamenají průměrnou standardní odchylku populace (a odtud test jednoho vzorku z) (3) t-test jednoho vzorku a pravděpodobnost průměr vzorku, když standardní odchylka populace není známa (plná příběhů o tajné identitě určitého průmyslového statistika a proč je Guinness dobrá pro statistiku). (4) Dvouvýběrový t-test a rozdělení vzorků středních rozdílů. Snadnost, s jakou úvodní studenti uchopí t-test, má hodně co do činění se základy připravenými na toto téma.

/ * instruktor režimu vyděšených studentů vypnutý * /

Odpověď

Co znamená „hodnota p“ ve vztahu k testované hypotéze?

V ontologickém smyslu (co je pravda?) to znamená nic . Jakékoli testování hypotéz je založeno na netestovaných předpokladech . Obvykle jsou součástí samotného testu, ale jsou také součástí jakéhokoli modelu, který používáte (např. V regresním modelu). Jelikož je pouze předpokládáme, nemůžeme vědět, jestli důvodem, proč je hodnota p pod naší prahovou hodnotou, je skutečnost, že null je nepravdivá. Je non sequitur bezpodmínečně odvodit, že kvůli nízké hodnotě p musíme nulovou hodnotu odmítnout. Například něco v modelu může být špatně.

V epistemologickém smyslu (co se můžeme naučit?) to znamená něco . Získáte znalosti podmíněné o pravdivosti netestovaných prostor. Protože (přinejmenším doposud) nemůžeme dokázat každou budovu reality, veškeré naše znalosti budou nutně podmíněné. K „pravdě“ se nikdy nedostaneme.

Odpověď

Následující argument ještě musím dokázat, aby mohl obsahovat chyby , ale opravdu chci vložit své dva centy (doufejme, že to brzy aktualizuji přísným důkazem). Jiný způsob pohledu na $ p $ – hodnota je

$ p $ -value – Statistika $ X $ taková, že $$ \ forall 0 \ le c \ le 1, F_ {X | H_0} (\ inf \ {x: F_ {X | H_0} (x) \ ge c \}) = c $$ kde $ F_ {X | H_0} $ je distribuční funkce $ X $ pod $ H_0 $ .

Konkrétně, pokud má $ X $ nepřetržitý distribuci a nepoužíváte aproximaci, pak

  1. každých $ p $ -value je statistika s jednotným rozložením na $ [0, 1] $ a
  2. Každá statistika s jednotným rozdělením na $ [0, 1] $ je $ p $ -value.

Toto můžete považovat za obecný popis $ p $ hodnot.

Komentáře

  • Tato definice má smysl pouze pro diskrétní distribuce (a poté není správná), protože druhý výskyt “ $ P $ “ jasně říká, že odkazuje na pravděpodobnosti, ne hustoty pravděpodobnosti. Kromě toho existuje extrémně málo distribucí (pokud existují), které mají uvedenou vlastnost, což naznačuje, že ve výpisu musí být typografické chyby. Pokud jde o vaše následné nároky, (1) je v ideálním případě pravda, ale (2) není, pokud nedovolíte, aby nulová hypotéza závisela na statistice!
  • @whuber Díky za vstup. Upravil jsem definici a teď by to mělo dávat větší smysl!
  • Dává to smysl, děkuji: pokud ji ‚ čtu správně, tvrdí, že nulová distribuce $ X $ je jednotná na $ [0, 1]. $ To však zachycuje pouze část vlastností hodnot p; necharakterizuje hodnoty p; a neříká nic o tom, co znamenají nebo jak je interpretovat. Zvažte prostudování některých dalších odpovědí v tomto vlákně, kde najdete informace o tom, co chybí.
  • Zde je příklad, který by vás mohl zajímat. Distribuční rodina je Uniform $ (\ theta, \ theta + 1) $ pro $ \ theta \ in \ mathbb {R}, $ nulová hypotéza je $ \ theta = 0, $ a alternativou je její doplněk. Zvažte náhodný vzorek $ \ mathbf {X} = (X_1, \ ldots, X_n). $ Definujte statistiku $ X (\ mathbf {X}) = X_1. $ Je zřejmé, že to má jednotné rozdělení na $ [0,1] $ pod $ H_0: $, ale v jakém smyslu je to hodnota p? Jaký je odpovídající test hypotézy? Předpokládejme, že vezmeme vzorek velikosti $ n = 1 $ a sledujeme hodnotu $ X_1 = -2: $ prohlašujete, že p-hodnota je $ -2 $ ??

Odpověď

Domnívám se, že příklady zahrnující kuličky nebo mince nebo měření výšky mohou být pro procvičování matematiky dobré, ale pro budování intuice nejsou dobré. rád zpochybňuje společnost, že? Co takhle použít politický příklad?

Řekněme, že politický kandidát uspořádal kampaň slibující, že nějaká politika pomůže ekonomice. Byla zvolena, byla uzákoněna a 2 roky později ekonomika vzkvétá. Je na znovuzvolení a tvrdí, že její politika je důvodem prosperity všech. Měli byste ji znovu zvolit?

Promyšlený občan by měl říci „ je pravda, že se ekonomice daří, ale můžeme to skutečně připisovat vaší politice? “ Abychom na to mohli skutečně odpovědět, musíme zvážit otázku, „zda by se ekonomice dařilo za poslední 2 roky bez ní?“ Pokud je odpověď ano (např. Ekonomika vzkvétá kvůli nějakému novému nesouvisejícímu technologickému rozvoji), pak odmítáme politické vysvětlení údajů.

To znamená zkoumat jednu hypotézu (politika pomohla ekonomice ), musíme vytvořit model světa, kde je tato hypotéza nulová (politika nebyla nikdy přijata). Podle tohoto modelu potom provedeme předpověď . Říkáme tomu pravděpodobnost pozorování těchto dat v tomto alternativním světě hodnota p . Pokud je hodnota p příliš vysoká, pak nás hypotéza nepřesvědčuje – politika nic nezměnila. Pokud je hodnota p nízká, důvěřujeme hypotéze – zásada byla zásadní.

Komentáře

  • Nesouhlasím s tím, aby p bylo definováno jako “ Pravděpodobnost pozorování těchto dat v tomto alternativním světě nazýváme p-hodnotou “ a také silou vyvozeného závěru ( zejména neúspěch při odmítnutí nuly).
  • @Silverfish Mohl byste to upřesnit? Pravděpodobně by bylo správnější nazvat hodnotu p pravděpodobností, že se toto pozorování NEBO stane extrémnějším pozorováním. Ale zdá se, že máte hlubší kritiku.
  • Protože původní otázka se ptá, co je to p-hodnota, myslel jsem si, že dostat tuto definici napříč očividně bylo důležité. Pouhé vyslovení “ extrémnější “ není ‚ samo o sobě velmi užitečné, aniž by vysvětlovalo, co “ extrémnější “ může znamenat – že ‚ sa slabina většiny odpovědí v tomto vlákně I myslet si. Vypadá to, že pouze whuber ‚ s odpovědí a “ čajový test “ opravdu vysvětlí proč záleží i na “ extrémnějších „.
  • Také jsem cítil, že vaše závěry jsou formulováno příliš silně. Pokud odmítneme hodnotu null, máme proti ní významné důkazy, ale ‚ nevíme, že je to ‚ falešné. Když se nám nepodaří odmítnout null, rozhodně to ‚ t neznamená, že null je pravda (i když to může být). Jako obecnější komentář mám pocit, že test, který ‚ znovu popisujete celkem abstraktně, pravděpodobně nebude jasný studentovi, který se právě učí, jak provést test . Chybějící jasně definovaná statistika testů ‚ nesedí s původní otázkou, která se také ptá, jak interpretovat t statistiku.
  • Funkce této odpovědi, která se mi hodně líbí, je jasné vysvětlení, že p-hodnoty se počítají pomocí nulového modelu, i když si ‚ t (subjektivně) nemyslíme, že null model je ve skutečnosti pravda. Myslím, že statistika testů faktů se počítá podle modelu, je klíčovým bodem, s nímž mnoho studentů bojuje.

Odpověď

Hodnota p není tak záhadná, jak to většina analytiků dělá.Je to způsob, jak nemuset počítat interval spolehlivosti pro t-test, ale jednoduše určit úroveň spolehlivosti, s níž lze nulovou hypotézu odmítnout.

ILUSTRACE. Provedete test. Hodnota p přichází jako 0,1866 pro Q-proměnnou, 0,0023 pro R-proměnnou. (Ty jsou vyjádřeny v%).

Pokud testujete na 95% úrovni spolehlivosti, abyste odmítli nulovou hypo;

pro Q: 100-18,66 = 81,34%

pro R: 100-0,23 = 99,77%.

Při 95% hladině spolehlivosti dává Q 81,34% jistotu k odmítnutí. To je méně než 95% a je to nepřijatelné. PŘIJMOUT NULL.

R dává 99,77% jistotu odmítnout null. Jasně nad požadovaných 95%. Odmítáme tedy nulovou hodnotu.

Čtení hodnoty p jsem ilustroval pouze „obráceným způsobem“ jejího měření až na úroveň spolehlivosti, při které odmítáme nulovou hypo.

Komentáře

  • Vítejte na webu. Co myslíte pojmem proměnná $ Q $ a proměnná $ R $? Prosím upřesněte. Také použití fráze “ accept null “ je obvykle považováno za docela nežádoucí, dokonce zavádějící.
  • @cardinal zdůrazňuje důležitý bod. ‚ nepřijmete null.

Odpovědět

****** Hodnota p při testování hypotézy měří citlivost testu. Čím nižší je hodnota p, tím vyšší je citlivost. je-li hladina významnosti nastavena na 0,05, hodnota p 0,0001 naznačuje vysokou pravděpodobnost správnosti výsledků testu ******

Komentáře

  • -1 To je zjevně špatně. Nejdříve si možná budete chtít přečíst vyšší hlasované odpovědi.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *