Förstå Bayes-risken

Vid utvärdering av en estimator är de två troligen vanligaste kriterierna den maximala risken och Bayes-risken. Min fråga hänvisar till den senare:

Bayes-risken under den tidigare $ \ pi $ definieras enligt följande:

$$ B _ {\ pi} (\ hat {\ theta }) = \ int R (\ theta, \ hat {\ theta}) \ pi (\ theta) d \ theta $$

Jag förstår inte riktigt vad den tidigare $ \ pi $ gör och hur jag ska tolka det. Om jag har en riskfunktion $ R (\ theta, \ hat {\ theta}) $ och plottar den, skulle jag intuitivt ta dess område som ett kriterium för att bedöma hur ”stark” risken är över alla möjliga värden på $ \ theta $. Men att involvera prior förstör på något sätt denna intuition igen, även om det är nära. Kan någon hjälpa mig att tolka prior?

Kommentarer

  • Jag kan inte se hur intuitiv plottning av riskfunktionen kan vara när man överväger flera parametrar: i den inställningen skär funktionerna och identifierar inte ett " bäst " estimator. Bayes-risken returnerar ett enda tal för varje estimator och möjliggör därmed en rangordning av alla estima tors.

Svar

[Här är ett utdrag ur min egen lärobok, The Bayesian Choice (2007) , som argumenterar för ett beslutsteoretiskt synsätt på Bayesian-analys, och därmed för att använda Bayes-risken.]

Med undantag för de mest triviala inställningarna är det i allmänhet omöjligt att på ett enhetligt sätt minimera (i $ d $) förlustfunktionen $ \ text {L} (\ theta, d) $ när $ \ theta $ är okänd. För att härleda ett effektivt jämförelsekriterium från förlustfunktionen föreslår frekvent -metoden att istället överväga den genomsnittliga förlusten (eller frekventrisken ) \ börjar {eqnarray *} R ( \ theta, \ delta) & = & \ mathbb {E} _ \ theta \ lbrack \ text {L} (\ theta, \ delta (x)) \ rbrack \\ & = & \ int _ {\ cal X} \ text {L} (\ theta , \ delta (x)) f (x | \ theta) \, dx, \ end {eqnarray *} där $ \ delta (x) $ är beslutsregeln, dvs fördelningen av ett beslut till varje utfall $ x \ sim f (x | \ theta) $ från det slumpmässiga experimentet.

Funktionen $ \ delta $, från $ {\ mathcal X} $ i $ \ mathfrak {D} $, kallas vanligtvis uppskattare (medan värdet $ \ delta (x) $ kallas uppskattning för $ \ theta $). När det inte finns någon risk för förvirring, betecknar vi också uppsättningen av uppskattare med $ \ mathfrak {D} $.

frekventistiskt paradigm bygger på detta kriterium för att jämföra uppskattare och, om möjligt, för att välja den bästa uppskattaren, eftersom resonemanget är att uppskattarna utvärderas på deras långsiktiga prestanda för alla möjliga värden för parametern $ \ theta $. Observera dock att det finns flera svårigheter associerade med detta tillvägagångssätt.

  1. Felet (förlust) beräknas i genomsnitt över de olika värdena på $ x $ proportionellt till densiteten $ f (x | \ theta ) $. Därför verkar det som att observationen $ x $ inte beaktas längre. Riskkriteriet utvärderar procedurer för deras långsiktiga prestanda och inte direkt för den givna observationen, $ x $. En sådan utvärdering kan vara tillfredsställande för statistikern, men det är inte så tilltalande för en klient som vill ha optimala resultat för sina data $ x $, inte för en annan s!
  2. Den frekventa analysen av beslutsproblem antar implicit att detta problem kommer att mötas om och om igen, för att frekvensutvärderingen ska vara meningsfull. Faktum är att $ R (\ theta, \ delta) $ är ungefär den genomsnittliga förlusten över iid upprepningar av samma experiment, enligt Law of Large Numbers. Men på både filosofiska och praktiska grunder finns det mycket kontroverser över själva uppfattningen om experimentens repeterbarhet (se Jeffreys (1961)). För det första, om nya observationer kommer till statistikern, borde hon utnyttja dem, och detta kan modifiera hur experimentet genomförs, som till exempel i medicinska prövningar.
  3. För ett förfarande $ \ delta $ är risken $ R (\ theta, \ delta ) $ är en funktion av parametern $ \ theta $. Därför inducerar frekvensistiskt tillvägagångssätt inte en total orde ringen på uppsättningen förfaranden. Det är i allmänhet omöjligt att jämföra beslutsprocedurer med detta kriterium, eftersom två korsande riskfunktioner förhindrar jämförelse mellan motsvarande uppskattare. I bästa fall kan man hoppas på ett förfarande $ \ delta_0 $ som på ett enhetligt sätt minimerar $ R (\ theta, \ delta) $, men sådana fall inträffar sällan om inte beslutsförfarandets utrymme är begränsat. Bästa förfaranden kan endast erhållas genom att ganska begränsa uppsättningen av auktoriserade procedurer.

Exempel 2.4 – Tänk på $ x_1 $ och $ x_2 $, två observationer från $$ P _ {\ theta} (x = \ theta-1) = P _ {\ theta} (x = \ theta + 1) = 0,5, \ qquad \ theta \ in \ mathbb {R}. $$ Parametern av intresse är $ \ theta $ (dvs., $ \ mathfrak {D} = \ Theta $) och det uppskattas av uppskattarna $ \ delta $ under förlusten $$ \ text {L} (\ theta, \ delta) = 1- \ mathbb {I} _ {\ theta} (\ delta), $$ kallas ofta $ 0-1 $ förlust , vilket straffar uppskattningsfel, oavsett deras storlek, med $ 1 $. Med tanke på den specifika \ est $$ \ delta_0 (x_1, x_2) = {x_1 + x_2 \ över 2}, är $$ riskfunktion \ begin {eqnarray *} R (\ theta, \ delta_0) & = & 1-P _ {\ theta} (\ delta_0 (x_1, x_2) = \ theta) \\ & = & 1-P _ {\ theta} (x_1 \ ne x_2) = 0.5. \ end {eqnarray *} Denna beräkning visar att uppskattaren $ \ delta_0 $ är korrekt hälften av tiden. Egentligen är denna uppskattare alltid korrekt när $ x_1 \ ne x_2 $, och alltid fel annars. Nu har \ est \ $ \ delta_1 (x_1, x_2) = x_1 + 1 $ också en riskfunktion som är lika med $ 0,5 $, liksom $ \ delta_2 (x_1, x_2) = x_2-1 $. Därför kan $ \ delta_0 $, $ \ delta_1 $ och $ \ delta_2 $ inte rankas under $ 0-1 $ förlusten. $ \ blacktriangleright $

Tvärtom integreras den Bayesiska metoden för beslutsteori på utrymmet $ \ Theta $ eftersom $ \ theta $ är okänd, istället för att integrera på utrymmet $ {\ cal X} $ som $ x $ är känt. Den förlitar sig på den bakre förväntade förlusten \ börjar {eqnarray *} \ rho (\ pi, d | x) & = & \ mathbb {E} ^ \ pi [L (\ theta, d) | x] \\ & = & \ int _ {\ Theta} \ text {L} (\ theta, d) \ pi (\ theta | x) \, d \ theta, \ end {eqnarray *} som medelvärden av felet (dvs. förlusten) enligt den bakre fördelningen av parametern $ \ theta $, villkorat av det observerade värdet} $ x $. Med tanke på $ x $ är det genomsnittliga felet till följd av beslutet $ d $ faktiskt $ \ rho (\ pi, d | x) $. Den bakre förväntade förlusten är således en funktion av $ x $ men detta beroende är inte besvärligt, i motsats till det frekventa beroendet av risken för parametern eftersom $ x $, i motsats till $ \ theta $, är känt.

Kommentarer

  • Så du är Christian Robert. Jag har träffat George Casella. Jag tror att du har publicerat böcker med honom som jag är medveten om …
  • +1 svar don ' blir inte mycket bättre än det – bra bok förresten

Svar

Citera den klassiska statistiska beslutsteorin av James O Berger:

[…] Vi har redan sagt att beslutsregler kommer att utvärderas i termer av deras riskfunktioner $ R (\ theta, \ delta) $. […] Problemet, som påpekats tidigare, är att olika tillåtna beslutsregler kommer att ha risker som är bättre för olika $ \ theta $ ”s. Till undsättning kommer den tidigare $ \ pi (\ theta) $, som speglar förmodligen vilka $ \ theta $ ”s som” troliga ”kommer att förekomma. Det verkar mycket rimligt att ”väga” $ R (\ theta, \ delta) $ med $ \ pi (\ theta) $ och genomsnitt.

Ja du kan utvärdera $ R (\ theta, \ delta) $ för varje $ \ theta $, men då antar du implicit att varje möjligt värde på $ \ theta $ är lika troligt. I Bayesian-scenario väljer du tidigare $ \ pi (\ theta) $ som speglar sannolikheten för att observera olika $ \ theta $ ”s och inkluderar sådan information.

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *