In een groep studenten zijn er 2 van de 18 die linkshandig zijn. Zoek de posterieure verdeling van linkshandige studenten in de populatie, uitgaande van niet-informatieve prior. Vat de resultaten samen. Volgens de literatuur is 5-20% van de mensen linkshandig. Houd rekening met deze informatie in uw prior en bereken nieuwe posterior.
Ik weet dat de beta-distributie hier moet worden gebruikt. Ten eerste, met $ \ alpha $ en $ \ beta $ waarden als 1? De vergelijking die ik in het materiaal voor posterieur heb gevonden is
$$ \ pi (r \ vert Y) \ propto r ^ {(Y + −1)} \ keer (1 – r) ^ {(N − Y + −1)} \\ $$
$ Y = 2 $ , $ N = 18 $
Waarom staat dat $ r $ in de vergelijking? ( $ r $ geeft het aandeel linkshandige mensen aan). Het is onbekend, dus hoe kan het in deze vergelijking zijn? Het lijkt me belachelijk om $ r $ te berekenen op basis van $ Y $ en dat $ r $ in de vergelijking die $ r $ oplevert. Nou, met het voorbeeld $ r = 2/18 $ was het resultaat $ 0,0019 $ . De $ f $ moet ik daaruit afleiden?
De vergelijking die een verwachte waarde geeft van $ R $ gegeven bekende $ Y $ en $ N $ werkten beter en gaven me $ 0,15 $ wat ongeveer goed klinkt. De vergelijking is $ E (r | X, N, α, β) = (α + X) / (α + β + N) $ met de waarde $ 1 $ toegewezen aan $ α $ en $ β $ . Welke waarden moet ik $ α $ en $ β $ geven om rekening te houden met eerdere informatie?
Sommige tips zouden zeer op prijs worden gesteld. Een algemene lezing over eerdere en posterieure distributies zou ook geen kwaad kunnen (ik begrijp vaag wat ze zijn, maar alleen vaag) Houd ook in gedachten dat ik “niet erg gevorderd statisticus ben (eigenlijk ben ik een politicoloog door mijn hoofdvak) zo geavanceerd wiskunde vliegt waarschijnlijk over mijn hoofd.
Reacties
- Heb je dit bekeken vraag en antwoord ?
- De zin ” Vind de achterste verdeling van linkshandige leerlingen ” slaat nergens op. Willekeurige variabelen hebben distributies, en ” linkshandige leerlingen ” isn ‘ ta rv Ik neem aan dat u van plan bent ” Zoek de posterieure verdeling van het aandeel van linkshandige studenten “. Het ‘ is belangrijk om dergelijke details niet te verdoezelen, maar om duidelijk te zijn over waar je ‘ eigenlijk over praat.
- Als ik je vraag lees, lijkt het mij dat je probleem niet ‘ t zoveel Bayesiaanse statistieken als simpelweg inzicht in kansverdelingen; het ‘ s altijd het geval dat het argument van een verdelingsfunctie (of een waarschijnlijkheidsfunctie zoals je daar hebt) een functie is van een onbekende (de willekeurige variabele). Dat ‘ is helemaal het punt van hen.
- Reacties zijn niet bedoeld voor uitgebreide discussie; deze conversatie is verplaatst naar chat .
Antwoord
Laat me eerst uitleggen wat een geconjugeerde prior is. Ik zal dan de Bayesiaanse analyses toelichten aan de hand van jouw specifieke voorbeeld. Bayesiaanse statistieken omvatten de volgende stappen:
- Definieer de eerdere distributie die uw subjectieve opvattingen over een parameter bevat (in uw voorbeeld is de relevante parameter de verhouding tussen links- handers). De prior kan “niet-informatief” of “informatief” zijn (maar er is geen prior die geen informatie heeft, zie de discussie hier ).
- Verzamel gegevens.
- Werk uw eerdere distributie bij met de gegevens met behulp van de stelling van Bayes om een posterieure distributie te verkrijgen. De posterieure distributie is een kansverdeling die uw bijgewerkte opvattingen over de parameter weergeeft. na het bekijken van de gegevens.
- Analyseer de posterieure distributie en vat deze samen (gemiddelde, mediaan, sd, kwantielen, …).
De basis van alle Bayesiaanse statistieken is het Bayes-theorema, dat is
$$ \ mathrm {posterior} \ propto \ mathrm {prior} \ times \ mathrm {likelihood} $$
In uw geval is de waarschijnlijkheid binominaal. Als de prior en de posterieure verdeling in dezelfde familie zijn, de prior en posterior worden geconjugeerde distributies genoemd. De beta-distributie is een geconjugeerde prior omdat de posterieure ook een beta-distributie is. We zeggen dat de beta-distributie de geconjugeerde familie is voor de binominale waarschijnlijkheid . Conjugaatanalyses zijn handig, maar komen zelden voor bij echte problemen. In de meeste gevallen moet de posterieure distributie numeriek worden gevonden via MCMC (met behulp van Stan, WinBUGS, OpenBUGS, JAGS, PyMC of een ander programma).
Als de eerdere kansverdeling niet integreert met 1, wordt deze een oneigenlijke prior genoemd, als deze wel integreert met 1 wordt deze een juiste prior genoemd. In de meeste gevallen , een onjuiste pri of vormt geen groot probleem voor Bayesiaanse analyses. De posterieure distributie moet echter correct zijn, dwz de posterieure moet integreren in 1.
Deze vuistregels volgen rechtstreeks uit de aard van de Bayesiaanse analyseprocedure:
- Als de prior niet informatief is, wordt de posterieure in hoge mate bepaald door de gegevens (de posterieure is datagestuurd)
- Als de prior informatief is, is de posterieure een combinatie van de prior en de gegevens
- Hoe informatiever de prior, des te meer gegevens u nodig heeft om uw overtuigingen te veranderen, om zo te zeggen, omdat de posterieure sterk wordt bepaald door de eerdere informatie.
- Als u veel gegevens hebben, zullen de gegevens de posterieure distributie domineren (ze zullen de prior overweldigen)
Een uitstekend overzicht van enkele mogelijke informatieve en niet-informatieve priors voor de bèta-distributie kan te vinden in dit bericht .
Stel dat uw eerdere bèta $ \ mathrm {Beta} is (\ pi_ {LH} | \ alpha, \ beta) $ waarbij $ \ pi_ {LH} $ is het aandeel linkshandigen. Om de eerdere parameters $ \ alpha $ en $ \ beta $ te specificeren, is het handig om het gemiddelde te kennen en variantie van de bèta-verdeling (als u bijvoorbeeld wilt dat uw voorafgaande een bepaald gemiddelde en variantie heeft). Het gemiddelde is $ \ bar {\ pi} _ {LH} = \ alpha / (\ alpha + \ beta) $ . Dus wanneer $ \ alpha = \ beta $ , is het gemiddelde $ 0,5 $ . De variantie van de bèta-verdeling is $ \ frac {\ alpha \ beta} {(\ alpha + \ beta) ^ {2} (\ alpha + \ beta + 1)} $ . Het handige is nu dat u $ \ alpha $ en $ \ beta $ kunt zien als voorheen waargenomen (pseudo-) gegevens, namelijk $ \ alpha $ linkshandigen en $ \ beta $ rechts- handelt uit een (pseudo-) steekproef van grootte $ n_ {eq} = \ alpha + \ beta $ . De $ \ mathrm {Beta} (\ pi_ {LH} | \ alpha = 1, \ beta = 1) $ distributie is de uniforme (alle waarden van $ \ pi_ {LH} $ zijn even waarschijnlijk) en is het equivalent van het observeren van twee mensen waarvan één linkshandig en één rechtshandig.
De posterieure bèta-distributie is gewoon $ \ mathrm {Beta} (z + \ alpha, N – z + \ beta) $ waarbij $ N $ is de grootte van de steekproef en $ z $ is het aantal linkshandigen in de steekproef. Het achterste gemiddelde van $ \ pi_ {LH} $ is daarom $ (z + \ alpha) / (N + \ alpha + \ bèta) $ . Dus om de parameters van de posterieure bèta-distributie te vinden, voegen we $ z $ linkshandigen toe aan $ \ alpha $ en $ Nz $ rechtshandigen tot $ \ beta $ . De posterieure variantie is $ \ frac {(z + \ alpha) (N-z + \ beta)} {(N + \ alpha + \ beta) ^ {2} (N + \ alpha + \ beta + 1)} $ . Merk op dat een zeer informatieve prior ook leidt tot een kleinere variantie van de posterieure distributie (de grafieken hieronder illustreren het punt mooi).
In jouw geval $ z = 2 $ en $ N = 18 $ en je prior is het uniform dat niet informatief is, dus $ \ alpha = \ beta = 1 $ . Uw posterieure distributie is daarom $ Beta (3, 17) $ . Het achterste gemiddelde is $ \ bar {\ pi} _ {LH} = 3 / (3 + 17) = 0,15 $ .Hier is een grafiek die de prior, de waarschijnlijkheid van de gegevens en de posterieure toont
Je ziet dat omdat je eerdere distributie niet informatief is, je posterieure distributie volledig wordt bepaald door de gegevens. Ook is het hoogste dichtheidsinterval (HDI) voor de posterieure distributie uitgezet. Stel je voor dat je je posterieure distributie in een 2D-bassin plaatst en water begint te vullen tot 95% van de distributie boven de waterlijn is. De punten waar de waterlijn de posterieure distributie snijdt, vormen de 95% -HDI. Elk punt binnen de HDI heeft een grotere kans dan elk punt daarbuiten. Ook bevat de HDI altijd de piek van de posterieure distributie (d.w.z. de modus). De HDI verschilt van een 95% geloofwaardig interval met gelijke staart, waarbij 2,5% van elke staart van het posterieure wordt uitgesloten (zie hier ).
Voor uw tweede taak wordt u gevraagd de informatie op te nemen dat 5-20% van de bevolking linkshandig is. Er zijn verschillende manieren om dat te doen. De eenvoudigste manier is te zeggen dat de eerdere bètadistributie een gemiddelde van $ 0,125 $ wat het gemiddelde is van $ 0,05 $ en $ 0,2 $ . Maar hoe u $ \ alpha $ en $ \ beta $ van de vorige bèta-distributie? Ten eerste wilt u dat uw gemiddelde van de eerdere distributie $ 0,125 $ is uit een pseudo-steekproef met een gelijkwaardige steekproefomvang $ n_ {eq} $ . Meer in het algemeen, als u wilt dat uw voorafgaande een gemiddelde $ m $ met een pseudo-steekproefgrootte $ n_ {eq} $ , de bijbehorende $ \ alpha $ en $ \ beta $ waarden zijn: $ \ alpha = mn_ {eq} $ en $ \ beta = (1-m) n_ {eq} $ . Het enige dat u nu hoeft te doen, is de pseudo-steekproefgrootte $ n_ {eq} $ kiezen die bepaalt hoe zeker u bent van uw eerdere informatie. Stel dat u zeer zeker bent van uw eerdere informatie en $ n_ {eq} = 1000 $ instelt. De parameters van uw eerdere distributie zijn daar $ \ alpha = 0.125 \ cdot 1000 = 125 $ en $ \ beta = (1 – 0.125) \ cdot 1000 = 875 $ . De posterieure verdeling is $ \ mathrm {Beta} (127, 891) $ met een gemiddelde van ongeveer $ 0,125 $ wat praktisch hetzelfde is als het vorige gemiddelde van $ 0,125 $ . De voorafgaande informatie domineert het posterieure (zie de volgende grafiek):
Als u minder zeker bent van de eerdere informatie, kunt u de $ n_ {eq} $ van uw pseudo-sample naar bijvoorbeeld $ 10 $ , wat $ \ alpha = 1,25 $ en $ \ beta = 8,75 $ voor uw eerdere bètadistributie. De posterieure verdeling is $ \ mathrm {Beta} (3,25, 24,75) $ met een gemiddelde van ongeveer $ 0,116 $ . Het achterste gemiddelde ligt nu in de buurt van het gemiddelde van uw gegevens ( $ 0,111 $ ) omdat de gegevens de prior overtreffen. Hier is de grafiek die de situatie laat zien:
Een meer geavanceerde methode om de eerdere informatie op te nemen, zou zijn door te zeggen dat het $ 0,025 $ kwantiel van uw eerdere bètadistributie ongeveer $ 0,05 $ en het $ 0,975 $ kwantiel moet ongeveer $ 0,2 $ . Dit komt overeen met zeggen dat u er voor 95% zeker van bent dat het aandeel linkshandigen in de bevolking tussen 5% en 20% ligt. De functie beta.select
in het R-pakket LearnBayes
berekent de bijbehorende $ \ alpha $ en $ \ beta $ waarden van een bèta-distributie die overeenkomt met dergelijke kwantielen. De code is
library(LearnBayes) quantile1=list(p=.025, x=0.05) # the 2.5% quantile should be 0.05 quantile2=list(p=.975, x=0.2) # the 97.5% quantile should be 0.2 beta.select(quantile1, quantile2) [1] 7.61 59.13
Het lijkt erop dat een beta-distributie met parameters $ \ alpha = 7.61 $ en $ \ beta = 59.13 $ heeft de gewenste eigenschappen. Het vorige gemiddelde is $ 7,61 / (7.61 + 59,13) \ ongeveer 0,114 $ wat bijna het gemiddelde van uw gegevens is ( $ 0,111 $ ). Nogmaals, deze eerdere distributie bevat de informatie van een pseudo-steekproef van een equivalente steekproefgrootte van ongeveer $ n_ {eq} \ ongeveer 7,61 + 59,13 \ ongeveer 66,74 $ . De posterieure verdeling is $ \ mathrm {Beta} (9,61, 75,13) $ met een gemiddelde van $ 0,113 $ wat vergelijkbaar is met het gemiddelde van de vorige analyse met behulp van een zeer informatieve $ \ mathrm {Beta} (125, 875) $ prior. Hier is de bijbehorende grafiek:
Zie ook deze referentie voor een kort maar zeer goed overzicht van Bayesiaanse redenering en eenvoudige analyse. Een langere introductie voor geconjugeerde analyses, vooral voor binominale gegevens, vindt u hier . Een algemene inleiding in het Bayesiaanse denken is hier te vinden. Meer dias over aspecten van Baysiaanse statistieken zijn hier .
Reacties
- Waarom kiezen we hier voor Beta-distributie?
- @Metallica De belangrijkste reden is dat de Beta de geconjugeerde voorafgaande van de binominale distributie is. Dit betekent dat als we een Beta kiezen zoals eerder, de posterior ook Beta is. Andere redenen zijn dat de Beta tussen 0 en 1 ligt en erg flexibel is. Het omvat bijvoorbeeld het uniform. Maar elke juiste distributie met ondersteuning in $ (0,1) $ kan als prior worden gebruikt. Het ‘ is alleen dat het posterieure moeilijker te berekenen is.
- Als de grafieken zijn uitgezet met R? Kunt u R-codes toevoegen om bovenstaande grafieken te genereren? Ze zijn erg behulpzaam. Bedankt!
- Ik dacht dat Jeffrey ‘ s prior $ \ alpha = \ beta = \ frac 1 2 $ een niet-informatieve prior zou zijn … waarom denk je is het niet het geval?
- @meduz Strikt genomen is er geen echte ” niet-informatief ” prior. Ik zou je willen verwijzen naar het uitstekende antwoord van Tim in deze discussie.
Antwoord
Een bèta-distributie met $ \ alpha $ = 1 en $ \ beta $ = 1 is hetzelfde als een uniforme distributie. Het is dus in feite uniform. U probeert informatie te vinden over een parameter van een distributie (in dit geval het percentage linkshandige mensen in een groep mensen). In de Bayes-formule staat:
$ P (r | Y_ {1, …, n}) $ = $ \ frac {P (Y_ {1, …, n} | r) * P (r)} {\ int P (Y_ {1, …, n} | \ theta) * P (r)} $
die u heeft aangegeven is evenredig met:
$ P (r | Y_ {1, …, n}) $ $ \ propto $ $ (Y_ {1, …, n} | r) * P (r) $
Dus eigenlijk begin je met je eerdere overtuiging van het aandeel linkshandigen in de groep (P (r), waarvoor u een uniform dist gebruikt), en vervolgens rekening houdend met de gegevens die u verzamelt om uw prior te informeren (een binominale in dit geval. U bent rechts- of linkshandig, dus $ P (Y_ { 1, …, n} | r) $). Een binominale distributie heeft een beta-conjugaat prior, wat betekent dat de posterieure distributie $ P (r | Y_ {1, … n}) $, de distributie van de parameter na beschouwing van de gegevens in dezelfde familie is als de prior. r hier is uiteindelijk niet onbekend. (en eerlijk gezegd was het niet voordat we de gegevens verzamelden. we hebben een redelijk goed idee van het aandeel linkshandigen in de samenleving.) Je hebt zowel de eerdere distributie (je aanname van r) als je gegevens verzameld en zet de twee bij elkaar. Het posterieure is uw nieuwe aanname van de verdeling van linkshandigen na het overwegen van de gegevens. Dus je neemt de waarschijnlijkheid van de gegevens en vermenigvuldigt deze met een uniform. De verwachte waarde van een bèta-distributie (wat de poster is) is $ \ frac {\ alpha} {\ alpha + \ beta} $. Dus toen u begon, was uw aanname met $ \ alpha $ = 1 en $ \ beta $ = 1 dat het aandeel linkshandigen in de wereld $ \ frac {1} {2} $ was. Nu heb je gegevens verzameld met 2 lefties van de 18. Je hebt een posterieur berekend. (nog steeds een bèta) Uw $ \ alpha $ en $ \ beta $ waarden zijn nu verschillend, waardoor uw idee van de verhouding tussen linksen en rechtshandigen verandert. hoe is het veranderd?
Antwoord
In het eerste deel van je vraag wordt je gevraagd om een geschikte prior te definiëren voor “r “. Met de binominale gegevens in de hand zou het verstandig zijn om voor een bètadistributie te kiezen. Omdat dan het posterieure een bèta is. Omdat de uniforme verdeling een speciaal geval van bèta is, kunt u vooraf kiezen voor “r” de uniforme verdeling waardoor elke mogelijke waarde van “r” even waarschijnlijk is.
In het tweede deel heeft u de informatie over de eerdere distributie “r”.
Met dit in de hand geeft het antwoord van @COOLSerdash je de juiste aanwijzingen.
Bedankt voor het plaatsen van deze vraag en COOLSerdash voor het geven van een juist antwoord.