Înțelegerea riscului Bayes

La evaluarea unui estimator, cele mai frecvente două criterii utilizate sunt riscul maxim și riscul Bayes. Întrebarea mea se referă la cea din urmă:

Riscul bayes în cadrul $ \ pi $ anterior este definit după cum urmează:

$$ B _ {\ pi} (\ hat {\ theta }) = \ int R (\ theta, \ hat {\ theta}) \ pi (\ theta) d \ theta $$

Nu prea obțin ceea ce face $ \ pi $ anterior și cum ar trebui să-l interpretez. Dacă am o funcție de risc $ R (\ theta, \ hat {\ theta}) $ și o trasez, intuitiv aș lua aria acestuia ca criteriu pentru a judeca cât de puternic este riscul toate valorile posibile ale $ \ theta $. Dar implicarea priorului distruge cumva această intuiție din nou, deși este aproape. Poate cineva să mă ajute să interpretez priorul?

Comentarii

  • Nu reușesc să văd cât de intuitivă poate fi reprezentarea grafică a funcției de risc atunci când se iau în considerare mai mulți parametri: în acea setare, funcțiile se intersectează și nu identifică un " cel mai bun " estimator. Riscul Bayes returnează un număr unic pentru fiecare estimator și, prin urmare, permite o clasificare a all estima tori.

Răspuns

[Iată un extras din manualul meu, The Bayesian Choice (2007) , care susține o abordare teoretică a deciziei a analizei bayesiene, prin urmare a utilizării riscului Bayes.]

Cu excepția celor mai banale setări, este în general imposibil să minimizați uniform (în $ d $) funcția de pierdere $ \ text {L} (\ theta, d) $ când $ \ theta $ este necunoscută. Pentru a obține un criteriu de comparație eficient din funcția de pierdere, abordarea frecventist propune să ia în considerare în schimb pierderea medie (sau riscul frecvențist ) \ begin {eqnarray *} R ( \ theta, \ delta) & = & \ mathbb {E} _ \ theta \ lbrack \ text {L} (\ theta, \ delta (x)) \ rbrack \\ & = & \ int _ {\ cal X} \ text {L} (\ theta , \ delta (x)) f (x | \ theta) \, dx, \ end {eqnarray *} unde $ \ delta (x) $ este regula deciziei, adică alocarea unei decizii fiecărui rezultat $ x \ sim f (x | \ theta) $ din experimentul aleatoriu.

Funcția $ \ delta $, din $ {\ mathcal X} $ în $ \ mathfrak {D} $, se numește de obicei estimator (în timp ce valoarea $ \ delta (x) $ se numește estimare de $ \ theta $). Când nu există riscul confuziei, denotăm și setul de estimatori cu $ \ mathfrak {D} $.

Paradigma frecvențistă se bazează pe acest criteriu pentru a compara estimatorii și, dacă este posibil, pentru a selecta cel mai bun estimator, raționamentul este că estimatorii sunt evaluați pe baza performanței lor pe termen lung pentru toate valorile posibile ale parametrului $ \ theta $. Observați, totuși, că există mai multe dificultăți asociate acestei abordări.

  1. Eroarea (pierderea) este calculată în medie pe diferite valori de $ x $ proporțional cu densitatea $ f (x | \ theta ) $. Prin urmare, se pare că observația $ x $ nu mai este luată în considerare. Criteriul de risc evaluează procedurile privind performanța lor pe termen lung și nu direct pentru observația dată, $ x $. O astfel de evaluare poate fi satisfăcătoare pentru statistician, dar nu este atât de atrăgătoare pentru un client, care dorește rezultate optime pentru datele sale $ x $, nu pentru alte „s!”
  2. Analiza frecventistă a problema de decizie presupune implicit că această problemă va fi întâmpinată din nou și din nou, pentru ca evaluarea frecvenței să aibă sens. Legea numerelor mari. Cu toate acestea, atât din punct de vedere filosofic, cât și din punct de vedere practic, există o mulțime de controverse cu privire la însăși noțiunea de repetabilitate a experimentelor (vezi Jeffreys (1961)). În primul rând, dacă noi statistici vin la statistică, ea ar trebui folosiți-le și acest lucru ar putea modifica modul în care se desfășoară experimentul, cum ar fi, de exemplu, în studiile medicale.
  3. Pentru o procedură $ \ delta $, riscul $ R (\ theta, \ delta ) $ este o funcție a parametrului $ \ theta $. Prin urmare, abordarea frecventistă nu induce o ordine totală sună pe setul de proceduri. În general, este imposibil să se compare procedurile de decizie cu acest criteriu, deoarece două funcții de risc de încrucișare împiedică compararea între estimatorii corespunzători. În cel mai bun caz, s-ar putea spera la o procedură $ \ delta_0 $ care să minimizeze în mod uniform $ R (\ theta, \ delta) $, dar astfel de cazuri apar rar dacă spațiul procedurilor de decizie este restricționat. Cele mai bune proceduri pot fi obținute doar restricționând în mod artificial setul de proceduri autorizate.

Exemplul 2.4 – Luați în considerare $ x_1 $ și $ x_2 $, două observații de la $$ P _ {\ theta} (x = \ theta-1) = P _ {\ theta} (x = \ theta + 1) = 0,5, \ qquad \ theta \ in \ mathbb {R}. $$ Parametrul de interes este $ \ theta $ (adică, $ \ mathfrak {D} = \ Theta $) și este estimat de estimatorii $ \ delta $ sub pierderea $$ \ text {L} (\ theta, \ delta) = 1- \ mathbb {I} _ {\ theta} (\ delta), $$ numit deseori $ 0-1 $ pierdere , care penalizează erorile de estimare, indiferent de magnitudinea lor, cu $ 1 $. Având în vedere particularul \ est $$ \ delta_0 (x_1, x_2) = {x_1 + x_2 \ peste 2}, $$ funcția sa de risc este \ begin {eqnarray *} R (\ theta, \ delta_0) & = & 1-P _ {\ theta} (\ delta_0 (x_1, x_2) = \ theta) \\ & = & 1-P _ {\ theta} (x_1 \ ne x_2) = 0,5. \ end {eqnarray *} Acest calcul arată că estimatorul $ \ delta_0 $ este corect jumătate din timp. De fapt, acest estimator este întotdeauna corect atunci când $ x_1 \ ne x_2 $ și întotdeauna greșit altfel. Acum, \ est \ $ \ delta_1 (x_1, x_2) = x_1 + 1 $ are și o funcție de risc egală cu 0,5 $ $, la fel ca $ \ delta_2 (x_1, x_2) = x_2-1 $. Prin urmare, $ \ delta_0 $, $ \ delta_1 $ și $ \ delta_2 $ nu pot fi clasate sub pierderea $ 0-1 $. $ \ blacktriangleright $

Dimpotrivă, abordarea bayesiană a teoriei deciziei se integrează în spațiul $ \ Theta $ deoarece $ \ theta $ este necunoscut, în loc să se integreze în spațiul $ {\ cal X} $ ca $ x $ este cunoscut. Se bazează pe pierderea anticipată posterioară \ begin {eqnarray *} \ rho (\ pi, d | x) & = & \ mathbb {E} ^ \ pi [L (\ theta, d) | x] \\ & = & \ int _ {\ Theta} \ text {L} (\ theta, d) \ pi (\ theta | x) \, d \ theta, \ end {eqnarray *} care calculează media erorii (adică pierderea) conform distribuția posterioară a parametrului $ \ theta $, condiționat de valoarea observată} $ x $. Având în vedere $ x $, eroarea medie rezultată din decizia $ d $ este de fapt $ \ rho (\ pi, d | x) $. Pierderea așteptată posterior este, așadar, o funcție de $ x $, dar această dependență nu este supărătoare, spre deosebire de dependența frecventistă a riscului de parametru, deoarece $ x $, contrar lui $ \ theta $, este cunoscut.

Comentarii

  • Deci tu ești Christian Robert. L-am cunoscut pe George Casella. Cred că ați publicat cărți cu el de care știu ..
  • +1 răspunsuri nu ' nu obțineți mult mai bine decât asta – carte grozavă apropo

Răspuns

Citând clasica Teorie a deciziei statistice de James O . Berger:

[…] Am declarat deja că regulile de decizie vor fi evaluate în funcție de funcțiile lor de risc $ R (\ theta, \ delta) $. […] Problema, așa cum s-a subliniat mai devreme, este că diferite reguli de decizie admisibile vor avea riscuri care sunt mai bune pentru diferite $ \ theta $ „s. Pentru salvare vine $ \ pi (\ theta) $ anterior, care se presupune că $ \ theta $ „s sunt cei” probabili „să apară. Pare foarte rezonabil să „ponderați” $ R (\ theta, \ delta) $ cu $ \ pi (\ theta) $ și în medie.

Da puteți evalua $ R (\ theta, \ delta) $ pentru fiecare $ \ theta $, dar apoi ați presupune implicit că fiecare valoare posibilă a $ \ theta $ este la fel de probabilă. În scenariul Bayesian alegeți $ \ pi (\ theta) $ anterior care reflectă probabilitatea de a observa diferite $ \ theta $ „și includeți astfel de informații.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *