Forstå Bayes-risikoen

Ved evaluering av en estimator er de to sannsynligvis mest brukte kriteriene maksimal risiko og Bayes-risiko. Spørsmålet mitt refererer til sistnevnte:

Bayes-risikoen under den forrige $ \ pi $ er definert som følger:

$$ B _ {\ pi} (\ hat {\ theta }) = \ int R (\ theta, \ hat {\ theta}) \ pi (\ theta) d \ theta $$

Jeg får ikke helt det tidligere $ \ pi $ gjør og hvordan jeg skal tolke den. Hvis jeg har en risikofunksjon $ R (\ theta, \ hat {\ theta}) $ og tegner den, vil jeg intuitivt ta området som et kriterium for å bedømme hvor «sterk» risikoen er over alle mulige verdier av $ \ theta $. Men å involvere prior ødelegger på en eller annen måte denne intuisjonen igjen, selv om den er nær. Kan noen hjelpe meg med å tolke prior?

Kommentarer

  • Jeg klarer ikke å se hvor intuitiv planlegging av risikofunksjonen kan være når man vurderer flere parametere: i den innstillingen krysser funksjonene og identifiserer ikke et " best " estimator. Bayes-risikoen returnerer ett enkelt tall for hver estimator og muliggjør dermed en rangering av alle estima tors.

Svar

[Her er et utdrag fra min egen lærebok, The Bayesian Choice (2007) , som argumenterer for en beslutningsteoretisk tilnærming til Bayesian-analyse, derav for å bruke Bayes-risikoen.]

Med unntak av de mest trivielle innstillingene, er det generelt umulig å ensartet minimere (i $ d $) tapsfunksjonen $ \ text {L} (\ theta, d) $ når $ \ theta $ er ukjent. For å utlede et effektivt sammenligningskriterium fra tapsfunksjonen, foreslår frequentist -tilnærmingen å i stedet vurdere det gjennomsnittlige tapet (eller frequentist-risikoen ) \ begin {eqnarray *} R ( \ theta, \ delta) & = & \ mathbb {E} _ \ theta \ lbrack \ text {L} (\ theta, \ delta (x)) \ rbrack \\ & = & \ int _ {\ cal X} \ text {L} (\ theta , \ delta (x)) f (x | \ theta) \, dx, \ end {eqnarray *} der $ \ delta (x) $ er avgjørelsesregelen, dvs. tildelingen av en beslutning til hvert utfall $ x \ sim f (x | \ theta) $ fra det tilfeldige eksperimentet.

Funksjonen $ \ delta $, fra $ {\ mathcal X} $ i $ \ mathfrak {D} $, kalles vanligvis estimator (mens verdien $ \ delta (x) $ kalles estimat for $ \ theta $). Når det ikke er noen risiko for forvirring, betegner vi også settet med estimatorer med $ \ mathfrak {D} $.

hyppighetsparadigmet er avhengig av dette kriteriet for å sammenligne estimatorer og, hvis mulig, for å velge den beste estimatoren, begrunnelsen er at estimatorer blir evaluert på grunn av deres langsiktige ytelse for alle mulige verdier av parameteren $ \ theta $. Vær imidlertid oppmerksom på at det er flere vanskeligheter forbundet med denne tilnærmingen.

  1. Feilen (tap) er gjennomsnittet over de forskjellige verdiene på $ x $ proporsjonalt med tettheten $ f (x | \ theta ) $. Derfor ser det ut til at observasjonen $ x $ ikke blir tatt i betraktning lenger. Risikokriteriet evaluerer prosedyrer for deres langsiktige ytelse og ikke direkte for den gitte observasjonen, $ x $. En slik evaluering kan være tilfredsstillende for statistikeren, men det er ikke så attraktivt for en klient som ønsker optimale resultater for dataene sine $ x $, ikke for en annen «s!
  2. Den hyppige analysen av beslutningsproblem antar implisitt at dette problemet vil bli oppfylt igjen og igjen for at frekvensevalueringen skal være fornuftig. Faktisk er $ R (\ theta, \ delta) $ omtrent gjennomsnittlig tap over gjentakelser av det samme eksperimentet, ifølge Law of Large Numbers. Men både på filosofisk og praktisk grunnlag er det mye kontrovers over selve forestillingen om repeterbarhet av eksperimenter (se Jeffreys (1961)). For det første, hvis nye observasjoner kommer til statistikeren, bør hun bruk dem, og dette kan endre måten eksperimentet gjennomføres på, som for eksempel i medisinske studier.
  3. For en prosedyre $ \ delta $, er risikoen $ R (\ theta, \ delta ) $ er en funksjon av parameteren $ \ theta $. Derfor induserer frekvent tilnærming ikke en total orde ring på prosedyresettet. Det er generelt umulig å sammenligne beslutningsprosedyrer med dette kriteriet, siden to kryssende risikofunksjoner forhindrer sammenligning mellom tilsvarende estimatorer. I beste fall kan man håpe på en prosedyre $ \ delta_0 $ som jevnt minimerer $ R (\ theta, \ delta) $, men slike tilfeller forekommer sjelden med mindre avgjørelsesprosedyrene er begrenset. Beste prosedyrer kan bare oppnås ved å begrense settet med autoriserte prosedyrer ganske kunstig.

Eksempel 2.4 – Vurder $ x_1 $ og $ x_2 $, to observasjoner fra $$ P _ {\ theta} (x = \ theta-1) = P _ {\ theta} (x = \ theta + 1) = 0,5, \ qquad \ theta \ i \ mathbb {R}. $$ Parameteren av interesse er $ \ theta $ (dvs., $ \ mathfrak {D} = \ Theta $) og det estimeres av estimatorer $ \ delta $ under tapet $$ \ text {L} (\ theta, \ delta) = 1- \ mathbb {I} _ {\ theta} (\ delta), $$ ofte kalt $ 0-1 $ tap , som straffer estimeringsfeil, uansett størrelse, med $ 1 $. Tatt i betraktning \ est $$ \ delta_0 (x_1, x_2) = {x_1 + x_2 \ over 2}, er $$ risikofunksjonen \ begin {eqnarray *} R (\ theta, \ delta_0) & = & 1-P _ {\ theta} (\ delta_0 (x_1, x_2) = \ theta) \\ & = & 1-P _ {\ theta} (x_1 \ ne x_2) = 0.5. \ end {eqnarray *} Denne beregningen viser at estimatoren $ \ delta_0 $ er riktig halvparten av tiden. Egentlig er denne estimatoren alltid riktig når $ x_1 \ ne x_2 $, og alltid ellers feil. Nå har \ est \ $ \ delta_1 (x_1, x_2) = x_1 + 1 $ også en risikofunksjon lik $ 0.5 $, og det samme gjør $ \ delta_2 (x_1, x_2) = x_2-1 $. Derfor kan $ \ delta_0 $, $ \ delta_1 $ og $ \ delta_2 $ ikke rangeres under $ 0-1 $ tapet. $ \ blacktriangleright $

Tvert imot, den Bayesiske tilnærmingen til beslutningsteori integreres i rommet $ \ Theta $ siden $ \ theta $ er ukjent, i stedet for å integrere i rommet $ {\ cal X} $ som $ x $ er kjent. Den er avhengig av posterior forventet tap \ begin {eqnarray *} \ rho (\ pi, d | x) & = & \ mathbb {E} ^ \ pi [L (\ theta, d) | x] \\ & = & \ int _ {\ Theta} \ text {L} (\ theta, d) \ pi (\ theta | x) \, d \ theta, \ end {eqnarray *} som gjennomsnittlig feilen (dvs. tapet) i henhold til den bakre fordelingen av parameteren $ \ theta $, betinget av den observerte verdien} $ x $. Gitt $ x $, er den gjennomsnittlige feilen som følge av avgjørelsen $ d $ faktisk $ \ rho (\ pi, d | x) $. Det bakre forventede tapet er altså en funksjon på $ x $, men denne avhengigheten er ikke plagsom, i motsetning til den hyppige avhengigheten av risikoen på parameteren fordi $ x $, i motsetning til $ \ theta $, er kjent.

Kommentarer

  • Så du er Christian Robert. Jeg har møtt George Casella. Jeg tror du har gitt ut bok (er) med ham som jeg er klar over ..
  • +1 svar don ' ikke bli mye bedre enn det – flott bok forresten

Svar

Sitering av den klassiske Statistical Decision Theory av James O Berger:

[…] Vi har allerede uttalt at beslutningsregler vil bli evaluert i forhold til deres risikofunksjoner $ R (\ theta, \ delta) $. […] Problemet, som påpekt tidligere, er at forskjellige tillatte beslutningsregler vil ha risikoer som er bedre for forskjellige $ \ theta $ «s. Til redning kommer den tidligere $ \ pi (\ theta) $, som angivelig gjenspeiler hvilke $ \ theta $ «s som er» sannsynlig «å forekomme. Det virker veldig rimelig å «veie» $ R (\ theta, \ delta) $ med $ \ pi (\ theta) $ og gjennomsnitt.

Ja du kan evaluere $ R (\ theta, \ delta) $ for hver $ \ theta $, men da antar du implisitt at hver mulige verdi på $ \ theta $ er like sannsynlig. I Bayesian-scenario velger du tidligere $ \ pi (\ theta) $ som gjenspeiler sannsynligheten for å observere forskjellige $ \ theta $ «s og inkluderer slik informasjon.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *