Ve skupině studentů jsou 2 z 18 které jsou leváky. Najděte zadní distribuci levorukých studentů v populaci za předpokladu neinformativního předchozího. Shrňte výsledky. Podle literatury je 5–20% lidí levou rukou. Vezměte tyto informace v úvahu ve svém předchozím a vypočítat nový zadní.
Vím, že by zde měla být použita distribuce beta . Nejprve s hodnotami $ \ alpha $ a $ \ beta $ jako 1? Rovnice, kterou jsem našel v materiálu pro zadní část, je
$$ \ pi (r \ vert Y) \ propto r ^ {(Y + −1)} \ krát (1 – r) ^ {(N − Y + −1)} \\ $$
$ Y = 2 $ , $ N = 18 $
Proč je $ r $ v rovnice? ( $ r $ označující podíl leváků). Není známo, tak jak to může být v této rovnici? Zdá se mi směšné vypočítat $ r $ vzhledem k $ Y $ a použít $ r $ v rovnici poskytující $ r $ . S ukázkovým $ r = 2/18 $ byl výsledek $ 0,0019 $ . $ f $ z toho mám odvodit?
Rovnice udávající očekávanou hodnotu $ R $ vzhledem k tomu, že známé $ Y $ a $ N $ fungovaly lépe a poskytly mi 0,15 $ což zní dobře. Rovnice je $ E (r | X, N, α, β) = (α + X) / (α + β + N) $ s hodnotou $ 1 $ přiřazeno k $ α $ a $ β $ . Jaké hodnoty mám dát $ α $ a $ β $ , aby byly zohledněny předchozí informace?
Některé tipy by byly velmi oceněny. Obecná přednáška o předchozí a zadní distribuci by také neublížila (mám vágní pochopení, jaké jsou, ale jen vágní). Mějte také na paměti, že nejsem příliš pokročilý statistik (vlastně jsem politolog podle mého hlavního oboru) tak pokročilý matematika mi pravděpodobně poletí nad hlavou.
Komentáře
- Podívali jste se na toto otázka a odpověď ?
- Fráze " Najděte zadní rozdělení levorukých studentů " nedává smysl. Náhodné proměnné mají distribuce a " levoruké studenty " není ' ta rv Předpokládám, že máte v úmyslu " Najít zadní rozdělení podílu leváci ". ' Je důležité takové podrobnosti neříkat, ale mít jasno v tom, o čem ' vlastně mluvíte.
- Při čtení vaší otázky se mi zdá, že váš problém není ' tolik Bayesiánských statistik jako pouhé porozumění rozdělení pravděpodobnosti; ' vždy vždy platí, že argument distribuční funkce (nebo pravděpodobnostní funkce, kterou tam máte) je funkcí neznámé (náhodná proměnná). To ' je jejich úplná podstata.
- Komentáře nejsou určeny pro rozšířenou diskusi; tato konverzace byla přesunuta do chatu .
Odpovědět
Dovolte mi nejprve vysvětlit, co je konjugát před . Poté vysvětlím Bayesovské analýzy na vašem konkrétním příkladu. Bayesovské statistiky zahrnují následující kroky:
- Definujte předchozí distribuci , která zahrnuje vaše subjektivní přesvědčení o parametru (ve vašem příkladu je parametrem zájmu podíl levého handers). Prior může být „neinformativní“ nebo „informativní“ (ale neexistuje žádný prior, který nemá žádné informace, viz diskuse zde ).
- Shromážděte data.
- Aktualizujte svou předchozí distribuci pomocí dat pomocí Bayesovy věty a získejte zadní distribuci. Zadní distribuce je distribuce pravděpodobnosti, která představuje vaše aktualizované přesvědčení o parametru poté, co jste viděli data.
- Analyzujte zadní distribuci a shrňte ji (průměr, medián, sd, kvantily, …).
Základem všech bayesiánských statistik je Bayesova věta, která je
$$ \ mathrm {posterior} \ propto \ mathrm {prior} \ times \ mathrm {likelihood} $$
Pravděpodobnost je ve vašem případě binomická. Pokud jsou předchozí a zadní distribuce v stejné rodině, předchozí a zadní se nazývají konjugované distribuce. Distribuce beta je konjugovaná předchozí, protože zadní je také distribuce beta. Říkáme, že distribuce beta je rodina konjugátu pro binomickou pravděpodobnost . Konjugované analýzy jsou pohodlné, ale v reálných problémech se vyskytují jen zřídka. Ve většině případů je třeba zadní distribuci najít numericky pomocí MCMC (pomocí Stan, WinBUGS, OpenBUGS, JAGS, PyMC nebo nějakého jiného programu).
Pokud se předchozí rozdělení pravděpodobnosti neintegruje do 1, nazývá se to nesprávně předchozí, pokud se to integruje do 1, nazývá se to správné předchozí. Ve většině případů , nesprávný pri nebo nepředstavuje zásadní problém pro Bayesovské analýzy. Zadní distribuce musí být správná, tj. Zadní se musí integrovat do 1.
Tato základní pravidla vyplývají přímo z povahy Bayesovské analytické procedury:
- Pokud je předchozí neinformativní, zadní je velmi určen údaji (zadní je založen na datech)
- Pokud je předchozí informativní, zadní je směsí předchozího a data
- Čím je informativní předchozí, tím více údajů potřebujete k „změně“ své víry, abych tak řekl, protože zadní část je velmi řízena předchozími informacemi
- mají spoustu dat, budou data dominovat v zadní distribuci (přemohou předchozí)
Vynikající přehled některých možných „informativních“ a „neinformativních“ priorit pro distribuci beta může najdete v tomto příspěvku .
Řekněme, že předchozí beta verze je $ \ mathrm {Beta} (\ pi_ {LH} | \ alpha, \ beta) $ kde
Zadní beta distribuce je jednoduše $ \ mathrm {Beta} (z + \ alpha, N – z + \ beta) $ kde $ N $ je velikost vzorku a $ z $ je počet leváků ve vzorku. Zadní průměr $ \ pi_ {LH} $ je tedy $ (z + \ alpha) / (N + \ alpha + \ beta) $ . Abychom tedy našli parametry zadní distribuce beta verze, jednoduše přidáme $ z $ leváky do $ \ alpha $ a $ Nz $ pro praváky do $ \ beta $ . Zadní rozptyl je $ \ frac {(z + \ alpha) (N-z + \ beta)} {(N + \ alpha + \ beta) ^ {2} (N + \ alpha + \ beta + 1)} $ . Všimněte si, že vysoce informativní předchůdce také vede k menší odchylce zadního rozdělení (níže uvedené grafy pěkně ilustrují bod).
Ve vašem případě $ z = 2 $ a $ N = 18 $ a vaše předchozí je uniforma, která je neinformativní, takže $ \ alpha = \ beta = 1 $ . Vaše zadní distribuce je tedy $ Beta (3, 17) $ . Zadní průměr je $ \ bar {\ pi} _ {LH} = 3 / (3 + 17) = 0,15 $ .Zde je graf, který ukazuje předchozí, pravděpodobnost dat a zadní
Vidíte, že protože vaše předchozí distribuce je neinformativní, vaše zadní distribuce je zcela řízena daty. Rovněž je vynesen nejvyšší interval hustoty (HDI) pro zadní distribuci. Představte si, že umístíte zadní distribuci do 2D umyvadla a začnete plnit vodu, dokud 95% distribuce nebude nad vodorovnou čarou. Body, kde se vodorovná čára protíná se zadním rozdělením, tvoří 95% -HDI. Každý bod uvnitř HDI má vyšší pravděpodobnost než jakýkoli bod mimo něj. HDI také vždy zahrnuje vrchol zadní distribuce (tj. Režim). HDI se liší od stejného 95% důvěryhodného intervalu, kde je vyloučeno 2,5% z každého ocasu zadní části (viz zde ).
U druhého úkolu jste požádáni, abyste zohlednili informace, že 5–20% populace jsou leváky. Existuje několik způsobů, jak toho dosáhnout. Nejjednodušší způsob je říci, že předchozí distribuce beta by měla mít průměr 0,125 $ , což je průměr 0,05 $ a $ 0,2 $ . Ale jak vybrat $ \ alpha $ a $ \ beta $ z předchozí beta distribuce? Nejprve chcete, aby váš průměr z předchozí distribuce byl 0,125 $ z pseudo-vzorku ekvivalentní velikosti vzorku $ n_ {eq} $ . Obecněji řečeno, pokud chcete, aby váš předchozí měl průměrný $ m $ s velikostí pseudo-vzorku $ n_ {eq} $ , odpovídající $ \ alpha $ a Hodnoty $ \ beta $ jsou: $ \ alpha = mn_ {eq} $ a $ \ beta = (1-m) n_ {eq} $ . Nyní vám zbývá jen vybrat velikost pseudo-vzorku $ n_ {eq} $ , který určuje, jak jste si jisti svými předchozími informacemi. Řekněme, že jste si velmi jisti svými předchozími informacemi, a nastavte $ n_ {eq} = 1000 $ . Parametry vaší předchozí distribuce jsou zde $ \ alpha = 0,125 \ cdot 1000 = 125 $ a $ \ beta = (1 – 0,125) \ cdot 1000 = 875 $ . Zadní distribuce je $ \ mathrm {Beta} (127, 891) $ s průměrem přibližně $ 0,125 $ který je prakticky stejný jako předchozí průměr $ 0,125 $ . Předchozí informace dominují v zadní části (viz následující graf):
Pokud si nejste jisti předchozími informacemi, můžete nastavit $ n_ {eq} $ vašeho pseudo-vzorku, řekněme $ 10 $ , což znamená $ \ alpha = 1,25 $ a $ \ beta = 8,75 $ pro vaši předchozí beta distribuci. Zadní distribuce je $ \ mathrm {Beta} (3,25, 24,75) $ s průměrem přibližně $ 0,116 $ . Zadní průměr je nyní blízko průměru vašich údajů ( $ 0,111 $ ), protože data převyšují předchozí. Zde je graf znázorňující situaci:
Pokročilejší způsob začlenění dřívějších informací by byl, že kvantil 0,025 $ kvantil vaší předchozí distribuce beta by měl být asi 0,05 $ a kvantil 0,975 $ by měl být asi $ 0,2 $ rozpětí>. To odpovídá tvrzení, že jste si 95% jisti, že podíl leváků v populaci se pohybuje mezi 5% a 20%. Funkce beta.select
v balíčku R LearnBayes
vypočítá odpovídající $ \ alpha $ a $ \ beta $ hodnoty distribuce beta odpovídající těmto kvantilům. Kód je
library(LearnBayes) quantile1=list(p=.025, x=0.05) # the 2.5% quantile should be 0.05 quantile2=list(p=.975, x=0.2) # the 97.5% quantile should be 0.2 beta.select(quantile1, quantile2) [1] 7.61 59.13
Zdá se, že distribuce beta s parametry $ \ alpha = 7,61 $ a $ \ beta = 59.13 $ má požadované vlastnosti. Předchozí průměr je 7,61 $ / (7.61 + 59,13) \ přibližně 0,114 $ , což je téměř průměr vašich dat ( $ 0,111 $ ). Tato předchozí distribuce opět zahrnuje informace o pseudo-vzorku ekvivalentní velikosti vzorku přibližně $ n_ {eq} \ cca 7,61 + 59,13 \ přibližně 66,74 $ . Zadní distribuce je $ \ mathrm {Beta} (9,61, 75,13) $ s průměrem $ 0,113 $ což je srovnatelné s průměrem předchozí analýzy pomocí vysoce informativní $ \ mathrm {Beta} (125, 875) $ před. Zde je odpovídající graf:
Krátký, ale velmi dobrý přehled Bayesovského uvažování a jednoduchá analýza, najdete také v této referenci . Delší úvod pro analýzy konjugátů, zejména pro binomická data, najdete zde . Obecný úvod do bayesovského myšlení naleznete zde . Další snímky týkající se aspektů baysiánské statistiky jsou zde .
Komentáře
- Proč zvolíme zde distribuci Beta?
- @Metallica Primárním důvodem je to, že Beta je konjugát před binomické distribuce. To znamená, že pokud zvolíme Beta jako předchozí, bude také zadní část Beta. Další důvody jsou, že Beta je mezi 0 a 1 a je velmi flexibilní. Zahrnuje například uniformu. Ale jakoukoli správnou distribuci s podporou v $ (0,1) $ lze použít jako předchozí. Je to ' to, že zadní je obtížnější vypočítat.
- Pokud jsou grafy vykresleny pomocí R? Přidali byste prosím R kódy ke generování nad grafy? Jsou opravdu užitečné. Díky!
- Myslel jsem si, že neinformativní předchozí bude Jeffrey ' s předchozí $ \ alpha = \ beta = \ frac 1 2 $ … proč si myslíte není tomu tak?
- @meduz Přísně řečeno, neexistuje žádný skutečný " neinformativní " předchozí. Rád bych vás odkázal na vynikající odpověď , kterou Tim v této diskusi uvedl.
Odpověď
Distribuce beta s $ \ alpha $ = 1 a $ \ beta $ = 1 je stejná jako jednotná distribuce. Je to tedy ve skutečnosti uniformativní. Snažíte se najít informace o parametru distribuce (v tomto případě procento leváků ve skupině lidí). Bayesův vzorec uvádí:
$ P (r | Y_ {1, …, n}) $ = $ \ frac {P (Y_ {1, …, n} | r) * P (r)} {\ int P (Y_ {1, …, n} | \ theta) * P (r)} $
, na který jste upozornili, je úměrný:
$ P (r | Y_ {1, …, n}) $ $ \ propto $ $ (Y_ {1, …, n} | r) * P (r) $
Takže v podstatě začínáte s vaší předchozí vírou v podíl leváků ve skupině (P (r), pro kterou „používáte jednotný dist), pak vezmeme v úvahu údaje, které shromažďujete, abyste informovali svého předchozího (v tomto případě binomický. Buď jste pravák nebo levák, takže $ P (Y_ { 1, …, n} | r) $). Binomická distribuce má beta konjugát předchozí, což znamená, že zadní distribuce $ P (r | Y_ {1, … n}) $, distribuce parametru po zvážení, že data jsou ve stejné rodině jako předchozí. r zde není nakonec neznámý. (a upřímně řečeno, nebylo to před shromážděním dat. my jsme dostali docela dobrou představu o podílu leváků ve společnosti.) Máte jak předchozí distribuci (váš předpoklad r), tak jste shromáždili data a dát je dohromady. Zadní je váš nový předpoklad distribuce leváků po zvážení dat. Vezmete tedy pravděpodobnost dat a vynásobíte je uniformou. Očekávaná hodnota distribuce beta verze (což je plakát) je $ \ frac {\ alpha} {\ alpha + \ beta} $. Takže když jste začali, váš předpoklad s $ \ alpha $ = 1 a $ \ beta $ = 1 byl, že podíl leváků na světě byl $ \ frac {1} {2} $. Nyní jste shromáždili data, která mají 2 leváky z 18. Vypočítali jste posterior. (stále ve verzi beta) Vaše hodnoty $ \ alpha $ a $ \ beta $ se nyní liší, což mění vaši představu o poměru levičáků vs. praváků. jak se to změnilo?
Odpověď
V první části vaší otázky vás požádá o definování vhodného předchůdce pro „r „. S binomickými daty v ruce by bylo rozumné zvolit distribuci beta. Protože zadní bude beta. Uniformní ditribuce, která je zvláštním případem beta, si můžete vybrat před „r“ jednotnou distribuci, která umožní, aby všechny možné hodnoty „r“ byly stejně pravděpodobné.
Ve druhé části jste poskytli informace týkající se předchozí distribuce „r“.
Díky tomu vám @COOLSerdash odpověď poskytne správné pokyny.
Děkujeme za zveřejnění této otázky a společnosti COOLSerdash za poskytnutí správné odpovědi.