Når man vurderer en estimator, er de to sandsynligvis mest almindelige anvendte kriterier den maksimale risiko og Bayes-risikoen. Mit spørgsmål henviser til sidstnævnte:
Bayes-risikoen under den forrige $ \ pi $ er defineret som følger:
$$ B _ {\ pi} (\ hat {\ theta }) = \ int R (\ theta, \ hat {\ theta}) \ pi (\ theta) d \ theta $$
Jeg får ikke helt hvad den tidligere $ \ pi $ laver og hvordan jeg skal fortolke det. Hvis jeg har en risikofunktion $ R (\ theta, \ hat {\ theta}) $ og tegner den, ville jeg intuitivt tage dens område som et kriterium for at bedømme, hvor “stærk” risikoen er over alle mulige værdier på $ \ theta $. Men at involvere prioret ødelægger på en eller anden måde denne intuition igen, selvom det er tæt. Kan nogen hjælpe mig med at fortolke prioret?
Kommentarer
- Jeg kan ikke se, hvordan intuitiv afbildning af risikofunktionen kan være, når man overvejer flere parametre: i den indstilling skærer funktionerne sig og identificerer ikke et " bedst " estimator. Bayes-risikoen returnerer et enkelt tal for hver estimator og muliggør derfor en rangordning på alle estima tors.
Svar
[Her er et uddrag fra min egen lærebog, The Bayesian Choice (2007) , der argumenterer for en beslutningsteoretisk tilgang til Bayesian-analyse og dermed brug af Bayes-risikoen.]
Bortset fra de mest trivielle indstillinger er det generelt umuligt at ensartet minimere (i $ d $) tabsfunktionen $ \ text {L} (\ theta, d) $ når $ \ theta $ er ukendt. For at udlede et effektivt sammenligningskriterium fra tabsfunktionen foreslår hyppighed tilgangen at i stedet overveje det gennemsnitlige tab (eller hyppighedssikkerhed ) \ begynder {eqnarray *} R \ theta, \ delta) & = & \ mathbb {E} _ \ theta \ lbrack \ text {L} (\ theta, \ delta (x)) \ rbrack \\ & = & \ int _ {\ cal X} \ text {L} (\ theta , \ delta (x)) f (x | \ theta) \, dx, \ end {eqnarray *} hvor $ \ delta (x) $ er beslutningsreglen, dvs. tildelingen af en beslutning til hvert resultat $ x \ sim f (x | \ theta) $ fra det tilfældige eksperiment.
Funktionen $ \ delta $ fra $ {\ mathcal X} $ i $ \ mathfrak {D} $ kaldes normalt estimator (mens værdien $ \ delta (x) $ kaldes estimat for $ \ theta $). Når der ikke er risiko for forvirring, betegner vi også sæt estimatorer med $ \ mathfrak {D} $.
hyppighedsparadigmet er afhængig af dette kriterium for at sammenligne estimatorer og, hvis det er muligt, at vælge den bedste estimator, idet begrundelsen er, at estimatorer vurderes på deres langsigtede ydeevne for alle mulige værdier for parameteren $ \ theta $. Bemærk dog, at der er flere vanskeligheder forbundet med denne tilgang.
- Fejlen (tab) beregnes i gennemsnit over de forskellige værdier på $ x $ proportionalt med tætheden $ f (x | \ theta ) $. Derfor ser det ud til, at observationen $ x $ ikke tages længere i betragtning. Risikokriteriet evaluerer procedurer for deres langsigtede ydeevne og ikke direkte for den givne observation, $ x $. En sådan evaluering kan være tilfredsstillende for statistikeren, men det er ikke så tiltalende for en klient, der ønsker optimale resultater for hendes data $ x $, ikke for en anden “s!
- Den hyppige analyse af beslutningsproblem antager implicit, at dette problem vil blive imødekommet igen og igen, for at frekvensevalueringen skal give mening. Faktisk er $ R (\ theta, \ delta) $ omtrent det gennemsnitlige tab i forhold til gentagelser af det samme eksperiment, ifølge Lov om store tal. Af både filosofiske og praktiske grunde er der imidlertid meget kontrovers over selve forestillingen om eksperimenters gentagelsesevne (se Jeffreys (1961)) For det første, hvis nye observationer kommer til statistikeren, bør hun gøre brug af dem, og dette kan ændre den måde, eksperimentet udføres på, som for eksempel i medicinske forsøg.
- For en procedure $ \ delta $ er risikoen $ R (\ theta, \ delta ) $ er en funktion af parameteren $ \ theta $. Derfor inducerer den hyppige tilgang ikke en total orde ring på proceduren. Det er generelt umuligt at sammenligne beslutningsprocedurer med dette kriterium, da to krydsende risikofunktioner forhindrer sammenligning mellem de tilsvarende estimatorer. I bedste fald kan man håbe på en procedure $ \ delta_0 $, der ensartet minimerer $ R (\ theta, \ delta) $, men sådanne tilfælde forekommer sjældent, medmindre beslutningsprocedurernes plads er begrænset. De bedste procedurer kan kun opnås ved at begrænse sæt af godkendte procedurer ret kunstigt.
Eksempel 2.4 – Overvej $ x_1 $ og $ x_2 $, to observationer fra $$ P _ {\ theta} (x = \ theta-1) = P _ {\ theta} (x = \ theta + 1) = 0,5, \ qquad \ theta \ i \ mathbb {R}. $$ Parameteren af interesse er $ \ theta $ (dvs., $ \ mathfrak {D} = \ Theta $) og det estimeres af estimatorer $ \ delta $ under tabet $$ \ text {L} (\ theta, \ delta) = 1- \ mathbb {I} _ {\ theta} (\ delta), $$ kaldes ofte $ 0-1 $ tab , hvilket straffer estimeringsfejl, uanset deres størrelse, med $ 1 $. I betragtning af den særlige \ est $$ \ delta_0 (x_1, x_2) = {x_1 + x_2 \ over 2}, er $$ risikofunktionen \ begin {eqnarray *} R (\ theta, \ delta_0) & = & 1-P _ {\ theta} (\ delta_0 (x_1, x_2) = \ theta) \\ & = & 1-P _ {\ theta} (x_1 \ ne x_2) = 0.5. \ end {eqnarray *} Denne beregning viser, at estimatoren $ \ delta_0 $ er korrekt halvdelen af tiden. Faktisk er denne estimator altid korrekt, når $ x_1 \ ne x_2 $, og altid ellers forkert. Nu har \ est \ $ \ delta_1 (x_1, x_2) = x_1 + 1 $ også en risikofunktion svarende til $ 0,5 $, ligesom $ \ delta_2 (x_1, x_2) = x_2-1 $. Derfor kan $ \ delta_0 $, $ \ delta_1 $ og $ \ delta_2 $ ikke placeres under tabet $ 0-1 $. $ \ blacktriangleright $
Tværtimod integreres den bayesiske tilgang til beslutningsteori i rummet $ \ Theta $, da $ \ theta $ er ukendt i stedet for at integrere i rummet $ {\ cal X} $ som $ x $ er kendt. Det er afhængigt af posterior forventet tab \ begin {eqnarray *} \ rho (\ pi, d | x) & = & \ mathbb {E} ^ \ pi [L (\ theta, d) | x] \\ & = & \ int _ {\ Theta} \ text {L} (\ theta, d) \ pi (\ theta | x) \, d \ theta, \ end {eqnarray *} som gennemsnit af fejlen (dvs. tabet) i henhold til den bageste fordeling af parameteren $ \ theta $, betinget af den observerede værdi} $ x $. Givet $ x $ er den gennemsnitlige fejl som følge af beslutningen $ d $ faktisk $ \ rho (\ pi, d | x) $. Det bageste forventede tab er således en funktion på $ x $, men denne afhængighed er ikke besværlig, i modsætning til den hyppige afhængighed af risikoen på parameteren, fordi $ x $, i modsætning til $ \ theta $, er kendt.
Kommentarer
- Så du er Christian Robert. Jeg har mødt George Casella. Jeg tror, du har udgivet bog (er) med ham, som jeg er opmærksom på ..
- +1 svar don ' bliver ikke meget bedre end det – fantastisk bog forresten
Svar
Citering af den klassiske Statistiske beslutningsteori af James O Berger:
[…] Vi har allerede sagt, at beslutningsregler vil blive evalueret i forhold til deres risikofunktioner $ R (\ theta, \ delta) $. […] Problemet, som påpeget tidligere, er, at forskellige tilladte beslutningsregler vil have risici, der er bedre for forskellige $ \ theta $ “s. Til redning kommer den forudgående $ \ pi (\ theta) $, som angiveligt afspejler hvilke $ \ theta $ “s der er” sandsynlige “dem, der opstår. Det synes meget rimeligt at “veje” $ R (\ theta, \ delta) $ med $ \ pi (\ theta) $ og gennemsnit.
Ja du kan evaluere $ R (\ theta, \ delta) $ for hver $ \ theta $, men så antager du implicit, at hver mulig værdi af $ \ theta $ er lige sandsynlig. I Bayesian-scenarie vælger du tidligere $ \ pi (\ theta) $, der afspejler sandsynligheden for at observere forskellige $ \ theta $ “s og inkluderer sådanne oplysninger.