Bij het evalueren van een schatter zijn de twee waarschijnlijk meest gebruikte criteria het maximale risico en het Bayes-risico. Mijn vraag heeft betrekking op de laatste:
Het risico van bayes onder de eerdere $ \ pi $ wordt als volgt gedefinieerd:
$$ B _ {\ pi} (\ hat {\ theta }) = \ int R (\ theta, \ hat {\ theta}) \ pi (\ theta) d \ theta $$
Ik begrijp niet helemaal wat de vorige $ \ pi $ doet en hoe ik het moet interpreteren. Als ik een risicofunctie $ R (\ theta, \ hat {\ theta}) $ heb en het plot, intuïtief zou ik het gebied als criterium nemen om te beoordelen hoe “sterk” het risico voorbij is alle mogelijke waarden van $ \ theta $. Maar het betrekken van de prior vernietigt op de een of andere manier deze intuïtie weer, hoewel het dichtbij is. Kan iemand me helpen bij het interpreteren van de prior?
Opmerkingen
- Ik zie niet in hoe intuïtief het plotten van de risicofunctie kan zijn als ik verschillende parameters overweeg: in die instelling kruisen de functies elkaar en identificeren ze geen " best " schatter. Het Bayes-risico retourneert één enkel getal voor elke schatter en maakt daarom een rangschikking mogelijk van alle schattingen tors.
Answer
[Hier is een fragment uit mijn eigen leerboek, The Bayesian Choice (2007) , die pleit voor een beslissingstheoretische benadering van Bayesiaanse analyse, en dus voor het gebruik van het Bayes-risico.]
Behalve voor de meest triviale instellingen, is het over het algemeen onmogelijk om de verliesfunctie $ \ text {L} (\ theta, d) $ uniform te minimaliseren (in $ d $) als $ \ theta $ onbekend is. Om een effectief vergelijkingscriterium af te leiden uit de verliesfunctie, stelt de frequentistische benadering voor om in plaats daarvan rekening te houden met het gemiddelde verlies (of frequentistisch risico ) \ begin {eqnarray *} R ( \ theta, \ delta) & = & \ mathbb {E} _ \ theta \ lbrack \ text {L} (\ theta, \ delta (x)) \ rbrack \\ & = & \ int _ {\ cal X} \ text {L} (\ theta , \ delta (x)) f (x | \ theta) \, dx, \ end {eqnarray *} waarbij $ \ delta (x) $ de beslissingsregel is, dwz de toewijzing van een beslissing aan elke uitkomst $ x \ sim f (x | \ theta) $ van het willekeurige experiment.
De functie $ \ delta $, van $ {\ mathcal X} $ in $ \ mathfrak {D} $, wordt gewoonlijk
Het frequentistische paradigma is gebaseerd op dit criterium om schatters te vergelijken en, indien mogelijk, om de beste schatter te selecteren, waarbij de redenering is dat schatters worden geëvalueerd op hun prestaties op lange termijn voor alle mogelijke waarden van de parameter $ \ theta $. Merk echter op dat er verschillende moeilijkheden zijn verbonden aan deze benadering.
- De fout (verlies) wordt gemiddeld over de verschillende waarden van $ x $ evenredig met de dichtheid $ f (x | \ theta ) $. Daarom lijkt het erop dat de waarneming $ x $ niet verder in aanmerking wordt genomen. Het risicocriterium beoordeelt procedures op hun langetermijnprestaties en niet rechtstreeks voor de gegeven waarneming, $ x $. Zon evaluatie kan bevredigend zijn voor de statisticus, maar het is niet zo aantrekkelijk voor een klant, die optimale resultaten wil voor haar data $ x $, niet die van een ander!
- De frequentistische analyse van de beslissingsprobleem veronderstelt impliciet dat dit probleem keer op keer zal worden aangepakt, zodat de frequentie-evaluatie zinvol is. $ R (\ theta, \ delta) $ is inderdaad ongeveer het gemiddelde verlies over iid herhalingen van hetzelfde experiment, volgens de Wet van grote getallen. Op zowel filosofische als praktische gronden is er echter veel controverse over het idee van herhaalbaarheid van experimenten (zie Jeffreys (1961)). Ten eerste, als er nieuwe observaties bij de statisticus komen, zou ze maak er gebruik van, en dit zou de manier waarop het experiment wordt uitgevoerd kunnen veranderen, zoals in bijvoorbeeld medische onderzoeken.
- Voor een procedure $ \ delta $ is het risico $ R (\ theta, \ delta ) $ is een functie van de parameter $ \ theta $. Daarom leidt de frequentistische benadering niet tot een totale beproeving ring op de reeks procedures. Vergelijking van beslissingsprocedures met dit criterium is doorgaans niet mogelijk, aangezien twee kruisende risicofuncties een vergelijking tussen de corresponderende schatters verhinderen. In het beste geval mag men hopen op een procedure $ \ delta_0 $ die $ R (\ theta, \ delta) $ uniform minimaliseert, maar dergelijke gevallen komen zelden voor tenzij de ruimte van beslissingsprocedures beperkt is. De beste procedures kunnen alleen worden verkregen door de verzameling geautoriseerde procedures vrij kunstmatig te beperken.
Voorbeeld 2.4 – Beschouw $ x_1 $ en $ x_2 $, twee waarnemingen van $$ P _ {\ theta} (x = \ theta-1) = P _ {\ theta} (x = \ theta + 1) = 0,5, \ qquad \ theta \ in \ mathbb {R}. $$ De van belang zijnde parameter is $ \ theta $ (d.w.z., $ \ mathfrak {D} = \ Theta $) en het wordt geschat door schatters $ \ delta $ onder het verlies $$ \ text {L} (\ theta, \ delta) = 1- \ mathbb {I} _ {\ theta} (\ delta), $$ wordt vaak $ 0-1 $ verlies genoemd, wat schattingsfouten, ongeacht hun omvang, bestraft met $ 1 $. Gezien de specifieke \ est $$ \ delta_0 (x_1, x_2) = {x_1 + x_2 \ over 2}, $$ is de risicofunctie \ begin {eqnarray *} R (\ theta, \ delta_0) & = & 1-P _ {\ theta} (\ delta_0 (x_1, x_2) = \ theta) \\ & = & 1-P _ {\ theta} (x_1 \ ne x_2) = 0,5. \ end {eqnarray *} Deze berekening laat zien dat de schatter $ \ delta_0 $ de helft van de tijd correct is. Eigenlijk is deze schatter altijd correct als $ x_1 \ ne x_2 $, en anders altijd fout. Nu heeft de \ est \ $ \ delta_1 (x_1, x_2) = x_1 + 1 $ ook een risicofunctie gelijk aan $ 0,5 $, net als $ \ delta_2 (x_1, x_2) = x_2-1 $. Daarom kunnen $ \ delta_0 $, $ \ delta_1 $ en $ \ delta_2 $ niet worden gerangschikt onder het verlies van $ 0-1 $. $ \ blacktriangleright $
Integendeel, de Bayesiaanse benadering van de beslissingstheorie integreert in de ruimte $ \ Theta $ aangezien $ \ theta $ onbekend is, in plaats van te integreren in de ruimte $ {\ cal X} $ zoals $ x $ bekend is. Het is gebaseerd op het achterste verwachte verlies \ begin {eqnarray *} \ rho (\ pi, d | x) & = & \ mathbb {E} ^ \ pi [L (\ theta, d) | x] \\ & = & \ int _ {\ Theta} \ text {L} (\ theta, d) \ pi (\ theta | x) \, d \ theta, \ end {eqnarray *} die de fout (dat wil zeggen, het verlies) gemiddeld volgens de posterieure verdeling van de parameter $ \ theta $, voorwaardelijk op de waargenomen waarde} $ x $. Gegeven $ x $, is de gemiddelde fout die resulteert uit beslissing $ d $ eigenlijk $ \ rho (\ pi, d | x) $. Het achteraf verwachte verlies is dus een functie van $ x $, maar deze afhankelijkheid is niet storend, in tegenstelling tot de frequente afhankelijkheid van het risico van de parameter omdat $ x $, in tegenstelling tot $ \ theta $, bekend is.
Reacties
- Dus jij bent Christian Robert. Ik heb George Casella ontmoet. Ik denk dat je boek (en) met hem hebt gepubliceerd waarvan ik op de hoogte ben.
- +1 antwoorden worden niet ' veel beter dan dat – geweldig boek trouwens
Answer
De klassieke Statistical Decision Theory van James O . Berger:
[…] We hebben al aangegeven dat beslissingsregels zullen worden geëvalueerd in termen van hun risicofuncties $ R (\ theta, \ delta) $. […] Het probleem, zoals eerder aangegeven, is dat verschillende toelaatbare beslissingsregels risicos met zich meebrengen die beter zijn voor verschillende $ \ theta $ “s. Te hulp komt de eerdere $ \ pi (\ theta) $, die geeft zogenaamd weer welke $ \ theta $ “s de” waarschijnlijke “zijn. Het lijkt heel redelijk om $ R (\ theta, \ delta) $ te “wegen” met $ \ pi (\ theta) $ en gemiddeld.
Ja je kunt $ R (\ theta, \ delta) $ evalueren voor elke $ \ theta $, maar dan zou je impliciet aannemen dat elke mogelijke waarde van $ \ theta $ even waarschijnlijk is. In het Bayesiaanse scenario kiest u voorafgaande $ \ pi (\ theta) $ die de waarschijnlijkheid weergeeft om verschillende $ \ theta $ “s te observeren en dergelijke informatie op te nemen.