Segítsen megérteni a Bayes-féle előzetes és utáni eloszlásokat

Egy diákcsoportban 18-ból 2-en vannak amelyek balkezesek. Keresse meg a balkezes hallgatók hátsó megoszlását a populációban, feltételezve, hogy informatívabbak. Foglalja össze az eredményeket. Az irodalom szerint az emberek 5-20% -a balkezes. Ezt az információt vegye figyelembe az előzetesben, és számolja ki az új utólagot.

Tudom, hogy itt a béta terjesztést kell használni. Először, a $ \ alpha $ és a $ \ beta $ értékekkel 1-ként? Az egyenlet, amelyet a posterior anyagában találtam,

$$ \ pi (r \ vert Y) \ propto r ^ {(Y + −1)} \ szorzat (1 – r) ^ {(N − Y + −1)} \\ $$

$ Y = 2 $ , $ N = 18 $

Miért van ez a $ r $ egyenlet? ( $ r $ a balkezesek arányát jelöli). Ismeretlen, akkor hogyan lehet ebben az egyenletben? Számomra nevetségesnek tűnik a $ r $ megadott $ Y $ kiszámítása és a $ r $ az $ r $ értéket adó egyenletben. Nos, a $ r = 2/18 $ mintával az eredmény $ 0,0019 $ lett. A $ f $ levezethető ebből?

Az egyenlet, amely a $ R várható értékét adja A $ adott ismert $ Y $ és a $ N $ jobban működött, és adott nekem 0,15 $ , ami nagyjából jól hangzik. Az egyenlet $ E (r | X, N, α, β) = (α + X) / (α + β + N) $ , amelynek értéke $ 1 $ hozzárendelve a $ α $ és $ β $ . Milyen értékeket kell megadnom a $ α $ és $ β $ értéknek az előzetes információk figyelembevétele érdekében?

Néhány tipp nagyon örülne. Az előzetes és a hátsó eloszlásokról szóló általános előadás sem ártana (homályosan értem, hogy mik ezek, de csak homályosak). Ne feledje, hogy nem vagyok túl fejlett statisztikus (fő szakmám szerint politológus) a matematika valószínűleg repülni fog a fejem felett.

Megjegyzések

  • Megnézted ezt kérdés és válasz ?
  • kifejezés a balkezes hallgatók hátsó eloszlásának megkeresése -nek nincs értelme. A véletlenszerű változók eloszlásokkal rendelkeznek, és ” balkezes hallgatók ” nem ‘ ta rv Feltételezem, hogy szándékában áll ” Keresse meg a a arányának hátsó eloszlását balkezes hallgatók “. Fontos, hogy ‘ ne fejtsd ki az ilyen részleteket, hanem tisztázd őket amiről ‘ tulajdonképpen beszél.
  • Valójában a kérdését olvasva számomra úgy tűnik, hogy a problémája nem ‘ t annyi bayesi statisztika, mint egyszerűen a valószínűségeloszlások megértése; ‘ s mindig úgy van hogy egy eloszlásfüggvény (vagy egy valószínűségi függvény argumentuma, amint ott van) egy ismeretlen függvénye (a véletlenszerű változó). Ez ‘ teljességgel a lényegük.
  • A hozzászólások nem bővebb viták; ezt a beszélgetést csevegésbe helyezte .

Válasz

Először hadd magyarázzam el, mi az a konjugátum . Ezután a konkrét példád segítségével elmagyarázom a Bayes-elemzéseket. A Bayesi statisztikák a következő lépéseket tartalmazzák: kezesek). A prior lehet “neminformatív” vagy “informatív” (de nincs olyan prior, amelynek nincsen információja, lásd itt folytatott beszélgetést).

  • Adatok gyűjtése.
  • Frissítse korábbi adatait az adatokkal a Bayes-tétel segítségével posterior eloszlás eléréséhez. A posterior eloszlás egy valószínűségi eloszlás, amely a paraméterrel kapcsolatos friss meggyőződését képviseli miután megnézte az adatokat.
  • Elemezze a hátsó eloszlást és összegezze azt (átlag, medián, sd, kvantilis, …).
  • Az összes bayesi statisztika alapja a Bayes-tétel, amely

    $$ \ mathrm {posterior} \ propto \ mathrm {prior} \ times \ mathrm {likelihood} $$

    Az Ön esetében a valószínűség binomiális. Ha az előbbi és a hátsó eloszlás ugyanabban a családban található, az elsőbbséget és a posztert konjugátum eloszlásnak nevezzük. A béta eloszlás konjugátum előtti, mert a posterior egyben béta eloszlás is. Azt mondjuk, hogy a béta eloszlás a konjugált család a binomiális valószínűség szempontjából . A konjugált elemzések kényelmesek, de ritkán fordulnak elő valós problémák esetén. A legtöbb esetben a hátsó eloszlást számszerűen kell megtalálni az MCMC-n keresztül (Stan, WinBUGS, OpenBUGS, JAGS, PyMC vagy más program segítségével).

    Ha az előzetes valószínűségeloszlás nem integrálódik 1-be, akkor nem megfelelő priornak, ha pedig integrálódik 1-be, akkor megfelelő priornak. A legtöbb esetben , egy nem megfelelő pri vagy nem jelent nagy problémát a Bayes-elemzések szempontjából. A hátsó eloszlásnak ennek megfelelőnek kell lennie, vagyis a hátulnak integrálódnia kell az 1-be.

    Ezek az alapszabályok közvetlenül a bayesi elemzési eljárás természetéből következnek:

    • Ha a prior nem informatív, akkor a posteriorot nagyban meghatározzák az adatok (a posterior adatvezérelt)
    • Ha a prior informatív, akkor a posterior a prior és a keveréke az adatok
    • Minél informatívabb a prior, annál több adatra van szükséged, hogy úgymond “megváltoztasd” a meggyőződésedet, mert a hátulját nagyon az előzetes információk vezérlik
    • Ha sok adattal rendelkezünk, az adatok dominálják a hátsó eloszlást (felülkerekednek a prioron).

    Kiváló áttekintés néhány lehetséges “informatív” és “neminformatív” elemből a béta terjesztéshez megtalálható ebben a bejegyzésben .

    Tegyük fel, hogy korábbi bétája $ \ mathrm {Beta} (\ pi_ {LH} | \ alpha, \ beta) $ ahol $ \ pi_ {LH} $ a balkezesek aránya. A $ \ alpha $ és $ \ beta $ korábbi paraméterek megadásához hasznos tudni az átlagot és a béta eloszlás varianciája (például, ha azt szeretné, hogy az előzményének legyen egy bizonyos átlaga és szórása). Az átlag: $ \ bar {\ pi} _ {LH} = \ alpha / (\ alpha + \ beta) $ . Így amikor $ \ alpha = \ beta $ , az átlag 0,5 $ . A béta eloszlás szórása: $ \ frac {\ alpha \ beta} {(\ alpha + \ beta) ^ {2} (\ alpha + \ beta + 1)} $ . Most az a kényelmes, hogy a $ \ alpha $ és a $ \ beta $ -ra gondolhat, mint korábban megfigyelt (ál) adatok, nevezetesen $ \ alpha $ balkezesek és $ \ beta $ jobb- átad egy (ál-) mintát, amelynek mérete $ n_ {eq} = \ alpha + \ beta $ . A $ \ mathrm {Beta} (\ pi_ {LH} | \ alpha = 1, \ beta = 1) $ elosztás egyenletes (a $ \ pi_ {LH} $ egyformán valószínű), és egyenértékű azzal, hogy két embert figyeltünk meg, amelyek közül az egyik balkezes, a másik pedig jobbkezes.

    A hátsó béta eloszlás egyszerűen $ \ mathrm {Beta} (z + \ alfa, N – z + \ beta) $ ahol $ N $ a minta mérete, a $ z $ pedig a mintában szereplő balkezesek száma. A $ \ pi_ {LH} $ hátsó átlaga tehát $ (z + \ alpha) / (N + \ alpha + \ béta) $ . Tehát a hátsó béta eloszlás paramétereinek megkereséséhez egyszerűen hozzáadunk $ z $ balkezeseket a $ \ alpha $ és $ Nz $ jobbkezesek a $ \ beta $ helyre. A hátsó szórás $ \ frac {(z + \ alpha) (N-z + \ beta)} {(N + \ alpha + \ beta) ^ {2} (N + \ alpha + \ béta + 1)} $ . Ne feledje, hogy egy nagyon informatív prioritás a hátsó eloszlás kisebb varianciájához is vezet (az alábbi grafikonok jól szemléltetik a pontot).

    Az Ön esetében $ z = 2 $ és $ N = 18 $ , és az Ön prioritása az egyenruha, amely nem informatív, ezért $ \ alpha = \ beta = 1 $ . A hátsó megoszlásod tehát $ Beta (3, 17) $ . A hátsó középérték $ \ bar {\ pi} _ {LH} = 3 / (3 + 17) = 0,15 $ .Itt van egy grafikon, amely az elsőbbséget, az adatok valószínűségét és a hátsó részt mutatja

    A prior, az adatok valószínűsége és a hátsó eloszlás egységes prioritással

    Látja, hogy mivel korábbi terjesztése nem informatív, a hátsó elosztását teljes egészében az adatok vezérlik. Ugyancsak ábrázoltuk a hátsó eloszlás legnagyobb sűrűség-intervallumát (HDI). Képzelje el, hogy a hátsó eloszlását egy 2D-medencébe helyezi, és elkezd tölteni vizet, amíg az eloszlás 95% -a a vízvonal fölé nem kerül. Azok a pontok, ahol a vízvonal metszi a hátsó eloszlást, alkotják a 95% -HDI értéket. A HDI-n belül minden pontnak nagyobb a valószínűsége, mint bármelyik azon kívüli pontnak. Ezenkívül a HDI mindig magában foglalja a hátsó eloszlás csúcsát (vagyis a módot). A HDI különbözik az egyenlő farokú 95% -os hiteles intervallumtól, ahol a hátsó rész mindkét végén 2,5% kizárt (lásd itt ).

    Második feladatához azt az információt kérte, hogy vegye figyelembe azokat az információkat, amelyek szerint a lakosság 5-20% -a balkezes. Ennek többféle módja van. A legegyszerűbb módszer azt mondani, hogy a korábbi béta-terjesztésnek 0,125 $ átlaga, ami a 0,05 $ $ és $ 0,2 $ . De hogyan válasszon $ \ alpha $ és $ \ beta $ közül a korábbi béta-eloszlás? Először azt szeretné, ha az előzetes eloszlás átlaga 0,125 $ lenne egy egyenértékű mintaméretű álmintából $ n_ {eq} $ . Általánosabban, ha azt szeretné, hogy az előbbinek legyen egy átlagos $ m $ álminta méretű $ n_ {eq} $ , a megfelelő $ \ alpha $ és A $ \ beta $ értékek a következők: $ \ alpha = mn_ {eq} $ és $ \ beta = (1-m) n_ {eq} $ . Most már csak annyit kell tennie, hogy kiválassza az álminta méretét $ n_ {eq} $ , amely meghatározza, mennyire magabiztos az előzetes információkkal kapcsolatban. Mondjuk, hogy Ön nagyon biztos az előzetes információkkal kapcsolatban, és állítsa be a $ n_ {eq} = 1000 $ értéket. A korábbi terjesztés paraméterei ott vannak $ \ alpha = 0.125 \ cdot 1000 = 125 $ és $ \ beta = (1 – 0.125) \ cdot 1000 = 875 $ . A hátsó eloszlás $ \ mathrm {Beta} (127, 891) $ , körülbelül 0,125 $ , amely gyakorlatilag megegyezik a 0,125 $ korábbi átlagával. Az előzetes információk dominálnak a hátsó részen (lásd a következő ábrát):

    A prior, az adatok valószínűsége és a hátsó eloszlás erős informatív priorokkal

    Ha kevésbé vagy biztos az előzetes információkban, beállíthatod a span class = “math-container”> $ n_ {eq} $ álmintájából mondjuk 10 $ $ -ba, amely $ \ alpha = 1.25 $ és $ \ beta = 8.75 $ az előző béta-terjesztéshez. A hátsó eloszlás $ \ mathrm {Beta} (3,25, 24,75) $ , körülbelül 0,116 $ span átlaggal >. A hátsó középérték már közel van az adatok átlagához ( 0,111 USD $ ), mert az adatok felülbírálják az előzményeket. Itt van a helyzetet bemutató grafikon:

    A prior, az adatok valószínűsége és a béta előtaggal való hátsó eloszlás, amely megfelel a 3

    Az előzetes információk beépítésének fejlettebb módszere az lenne, ha azt mondanánk, hogy a korábbi béta-eloszlás 0,025 $ $ kvantilisának kb. class = “math-container”> $ 0,05 $ és a $ 0,975 $ kvantilisnak körülbelül $ 0,2 $ . Ez egyenértékű azzal, hogy azt mondják, hogy Ön 95% -ban biztos abban, hogy a balkezesek aránya a népességben 5% és 20% között van. Az LearnBayes R csomagban található beta.select függvény kiszámítja a megfelelő $ \ alpha $ és $ \ beta $ értékei egy béta eloszlásnak, amely megfelel az ilyen kvantilisoknak. A kód

    library(LearnBayes) quantile1=list(p=.025, x=0.05) # the 2.5% quantile should be 0.05 quantile2=list(p=.975, x=0.2) # the 97.5% quantile should be 0.2 beta.select(quantile1, quantile2) [1] 7.61 59.13 

    Úgy tűnik, hogy egy béta-disztribúció paraméterekkel $ \ alpha = 7.61 $ és a $ \ beta = 59.13 $ rendelkezik a kívánt tulajdonságokkal. Az előző átlag 7,61 USD / (7.61 + 59,13) \ kb 0,114 $ , amely megközelíti az adatok átlagát ( 0,111 $ ). Ismételten ez az előzetes terjesztés magában foglalja egy kb. $ n_ {eq} \ kb. 7,61 + 59,13 \ kb. 66,74 $ ekvivalens mintaméretű álminta adatait. A hátsó eloszlás $ \ mathrm {Beta} (9.61, 75.13) $ , $ 0.113 $ átlaggal amely összehasonlítható az előző elemzés átlagával, amely rendkívül informatív $ \ mathrm {Beta} (125, 875) $ előtti elemzést használt. Itt van a megfelelő grafikon:

    A prior, az adatok valószínűsége és a posztori eloszlás, amelynek 0,05 és 0,975 kvantilisai vannak 0,05 és 0,2

    Lásd még ezt a hivatkozást a bayesi érvelés rövid és imho jó áttekintéséhez és egyszerű elemzéséhez. A konjugátum-elemzések, különösen a binomiális adatok hosszabb bemutatása itt található . A Bayes-gondolkodás általános bevezetése itt található . További diák a bays-i statisztikák szempontjairól itt .

    Megjegyzések

    • Miért itt választjuk a béta terjesztést?
    • @Metallica Az elsődleges ok az, hogy a béta a binomiális eloszlás konjugált elõzõje . Ez azt jelenti, hogy ha a Bétát választjuk korábbinak, akkor a hátsó is Béta lesz. További okok, hogy a béta 0 és 1 között van, és nagyon rugalmas. Ide tartozik például az egyenruha. De minden megfelelő disztribúció, támogatva a $ (0,1) $ értékben, fel lehet használni, mint korábban. ‘ éppen az, hogy a hátulról nehezebb számolni.
    • Ha a grafikonokat R-vel ábrázoljuk? Kérjük, adjon R kódokat a fenti grafikonok létrehozásához? Nagyon hasznosak. Köszönöm!
    • Úgy gondoltam, hogy egy neminformatív prioritás Jeffrey ‘ s $ $ alpha = \ beta = \ frac 1 2 $ … miért gondolod nem erről van szó?
    • @meduz Szigorúan véve nincs igazi ” neminformatív ” előzetes. Szeretném utalni Tim kiváló beszélgetésére a választ .

    Válasz

    A $ \ alpha $ = 1 és $ \ beta $ = 1 béta-eloszlás megegyezik az egységes eloszlással. Tehát valójában egységes. Információt próbál keresni egy disztribúció paraméteréről (ebben az esetben a balkezesek százalékos aránya egy embercsoportban). A Bayes képlet a következőket mondja ki:

    $ P (r | Y_ {1, …, n}) $ = $ \ frac {P (Y_ {1, …, n} | r) * P (r)} {\ int P (Y_ {1, …, n} | \ theta) * P (r)} $

    , amire rámutatott, arányos:

    $ P (r | Y_ {1, …, n}) $ $ \ propto $ $ (Y_ {1, …, n} | r) * P (r) $

    Tehát alapvetően azzal a korábbi meggyőződéssel kezdi, hogy a balkezesek aránya a csoportban (P (r), amelyhez egy egységes dist-t használsz), majd figyelembe véve azokat az adatokat, amelyeket összegyűjtött, hogy tájékoztassa elődjét (ebben az esetben binomiális. Vagy jobb vagy balkezes, tehát $ P (Y_ { 1, …, n} | r) $). A binomiális eloszlásnak van egy béta konjugátum-elõzménye, ami azt jelenti, hogy a hátsó eloszlás $ P (r | Y_ {1, … n}) $, a paraméternek az eloszlása az adatok figyelembevétele után ugyanabban a családban van, mint az elõzõ. r itt nem ismeretlen a végén. (és őszintén szólva még nem volt az adatgyűjtés előtt. elég jó ötletünk van a balkezesek arányáról a társadalomban.) Megkapta mind az előzetes eloszlást (az r feltételezését), mind az adatokat és összerakta a kettőt. A posterior az új feltételezésed a balkezesek megoszlásáról az adatok mérlegelése után. Tehát figyelembe veszi az adatok valószínűségét, és megszorozza őket egyenruhával. A béta-disztribúció várható értéke (ami a poszter neve) $ \ frac {\ alpha} {\ alpha + \ beta} $. Tehát amikor elkezdte, feltételezte, hogy $ \ alpha $ = 1 és $ \ beta $ = 1 szerint a balkezesek aránya a világon $ \ frac {1} {2} $. Most összegyűjtött olyan adatokat, amelyekből 18-ból 2 balos van. (még mindig béta) A $ \ alpha $ és a $ \ beta $ értékei most különböznek egymástól, megváltoztatva az elképzelésüket a baloldaliak és a jobboldaliak arányáról. hogyan változott?

    Válasz

    A kérdés első részében arra kéri, hogy adjon meg egy megfelelő előtagot az “r” kifejezésre “. A binomiális adatok birtokában bölcs dolog lenne béta terjesztést választani. Mert akkor a hátsó béta lesz. Az Uniform ditribution a béta speciális esete, ezért kiválaszthatja az “r” előtt az Uniform disztribúciót, lehetővé téve az “r” minden lehetséges értékének valószínűségét.

    A második részben a információk a korábbi “r” terjesztésről.

    Ezzel a @COOLSerdash válasza megadja a megfelelő útmutatást.

    Köszönjük, hogy feltette ezt a kérdést, a COOLSerdash pedig megfelelő választ adott.

    Vélemény, hozzászólás?

    Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük