Comprensione del rischio di Bayes

Quando si valuta uno stimatore, i due criteri probabilmente più utilizzati sono il rischio massimo e il rischio di Bayes. La mia domanda si riferisce a questultima:

Il rischio bayes sotto il $ \ pi $ precedente è definito come segue:

$$ B _ {\ pi} (\ hat {\ theta }) = \ int R (\ theta, \ hat {\ theta}) \ pi (\ theta) d \ theta $$

Non capisco bene cosa stia facendo il $ \ pi $ precedente e come dovrei interpretarlo. Se ho una funzione di rischio $ R (\ theta, \ hat {\ theta}) $ e la tracciamo, intuitivamente prenderei la sua area come criterio per giudicare quanto “forte” sia finito il rischio tutti i possibili valori di $ \ theta $. Ma coinvolgere il priore in qualche modo distrugge di nuovo questa intuizione, sebbene sia vicino. Qualcuno può aiutarmi a interpretare il priore?

Commenti

Non vedo quanto possa essere intuitivo il tracciamento della funzione di rischio quando si considerano diversi parametri: in tale impostazione, le funzioni si intersecano e non identificano un " migliore " stimatore. Il rischio di Bayes restituisce un singolo numero per ogni stimatore e quindi consente una classificazione di tutti stima tors.

Risposta

[Ecco un estratto dal mio libro di testo, The Bayesian Choice (2007) , che sostiene un approccio decisionale allanalisi bayesiana, quindi di utilizzare il rischio di Bayes.]

Tranne che per le impostazioni più banali, è generalmente impossibile minimizzare uniformemente (in $ d $) la funzione di perdita $ \ text {L} (\ theta, d) $ quando $ \ theta $ è sconosciuto. Al fine di derivare un criterio di confronto efficace dalla funzione di perdita, lapproccio frequentista propone di considerare invece la perdita media (o rischio frequentista ) \ begin {eqnarray *} R ( \ theta, \ delta) & = & \ mathbb {E} _ \ theta \ lbrack \ text {L} (\ theta, \ delta (x)) \ rbrack \\ & = & \ int _ {\ cal X} \ text {L} (\ theta , \ delta (x)) f (x | \ theta) \, dx, \ end {eqnarray *} dove $ \ delta (x) $ è la regola decisionale, cioè lassegnazione di una decisione a ciascun risultato $ x \ sim f (x | \ theta) $ dallesperimento casuale.

La funzione $ \ delta $, da $ {\ mathcal X} $ in $ \ mathfrak {D} $, è solitamente chiamata estimator (mentre il valore $ \ delta (x) $ è chiamato stima di $ \ theta $). Quando non cè rischio di confusione, denotiamo anche linsieme di stimatori con $ \ mathfrak {D} $.

Il paradigma frequentista si basa su questo criterio per confrontare stimatori e, se possibile, per selezionare il miglior stimatore, il ragionamento è che gli stimatori sono valutati sulla loro prestazione di lungo periodo per tutti i possibili valori del parametro $ \ theta $. Si noti, tuttavia, che ci sono diverse difficoltà associate a questo approccio.

Lerrore (perdita) viene mediata sui diversi valori di $ x $ proporzionalmente alla densità $ f (x | \ theta ) $. Pertanto, sembra che losservazione $ x $ non venga ulteriormente presa in considerazione. Il criterio di rischio valuta le procedure sulla loro performance di lungo periodo e non direttamente per losservazione data, $ x $. Una tale valutazione può essere soddisfacente per lo statistico, ma non è così allettante per un cliente, che vuole risultati ottimali per i suoi dati $ x $, non quello di un altro “s!
Lanalisi frequentista del problema decisionale presuppone implicitamente che questo problema verrà affrontato ancora e ancora, affinché la valutazione della frequenza abbia senso. In effetti, $ R (\ theta, \ delta) $ è approssimativamente la perdita media su ripetizioni iid dello stesso esperimento, secondo il Legge dei grandi numeri. Tuttavia, sia per motivi filosofici che pratici, cè molta controversia sulla nozione stessa di ripetibilità degli esperimenti (vedi Jeffreys (1961)). Per prima cosa, se allo statistico arrivano nuove osservazioni, dovrebbe utilizzarli e questo potrebbe modificare il modo in cui viene condotto lesperimento, come ad esempio negli studi medici.
Per una procedura $ \ delta $, il rischio $ R (\ theta, \ delta ) $ è una funzione del parametro $ \ theta $. Pertanto, lapproccio frequentista non induce un ordine totale anello sulla serie di procedure. È generalmente impossibile confrontare le procedure di decisione con questo criterio, poiché due funzioni di rischio incrociato impediscono il confronto tra gli stimatori corrispondenti. Nella migliore delle ipotesi, si può sperare in una procedura $ \ delta_0 $ che minimizzi uniformemente $ R (\ theta, \ delta) $, ma tali casi si verificano raramente a meno che lo spazio delle procedure decisionali non sia limitato. Le migliori procedure possono essere ottenute solo limitando in modo piuttosto artificioso linsieme di procedure autorizzate.

Esempio 2.4 – Considera $ x_1 $ e $ x_2 $, due osservazioni da $$ P _ {\ theta} (x = \ theta-1) = P _ {\ theta} (x = \ theta + 1) = 0,5, \ qquad \ theta \ in \ mathbb {R}. $$ Il parametro di interesse è $ \ theta $ (ad es., $ \ mathfrak {D} = \ Theta $) ed è stimato dagli stimatori $ \ delta $ sotto la perdita $$ \ text {L} (\ theta, \ delta) = 1- \ mathbb {I} _ {\ theta} (\ delta), $$ spesso chiamato $ 0-1 $ perdita , che penalizza gli errori di stima, qualunque sia la loro entità, di $ 1 $. Considerando il particolare \ est $$ \ delta_0 (x_1, x_2) = {x_1 + x_2 \ over 2}, $$ la sua funzione di rischio è \ begin {eqnarray *} R (\ theta, \ delta_0) & = & 1-P _ {\ theta} (\ delta_0 (x_1, x_2) = \ theta) \\ & = & 1-P _ {\ theta} (x_1 \ ne x_2) = 0,5. \ end {eqnarray *} Questo calcolo mostra che lo stimatore $ \ delta_0 $ è corretto per la metà delle volte. In realtà, questo stimatore è sempre corretto quando $ x_1 \ ne x_2 $ e sempre sbagliato in caso contrario. Ora, \ est \ $ \ delta_1 (x_1, x_2) = x_1 + 1 $ ha anche una funzione di rischio pari a $ 0,5 $, così come $ \ delta_2 (x_1, x_2) = x_2-1 $. Pertanto, $ \ delta_0 $, $ \ delta_1 $ e $ \ delta_2 $ non possono essere classificati sotto la perdita $ 0-1 $. $ \ blacktriangleright $

Al contrario, lapproccio bayesiano alla Teoria delle Decisioni si integra nello spazio $ \ Theta $ poiché $ \ theta $ è sconosciuto, invece di integrarsi nello spazio $ {\ cal X} $ come $ x $ è noto. Si basa sulla perdita attesa a posteriori \ begin {eqnarray *} \ rho (\ pi, d | x) & = & \ mathbb {E} ^ \ pi [L (\ theta, d) | x] \\ & = & \ int _ {\ Theta} \ text {L} (\ theta, d) \ pi (\ theta | x) \, d \ theta, \ end {eqnarray *} che calcola la media dellerrore (cioè la perdita) secondo la distribuzione a posteriori del parametro $ \ theta $, condizionata al valore osservato} $ x $. Dato $ x $, lerrore medio risultante dalla decisione $ d $ è in realtà $ \ rho (\ pi, d | x) $. La perdita attesa a posteriori è quindi una funzione di $ x $ ma questa dipendenza non è fastidiosa, a differenza della dipendenza frequentista del rischio dal parametro perché si conosce $ x $, contrariamente a $ \ theta $.

Commenti

Quindi tu sei Christian Robert. Ho conosciuto George Casella. Penso che tu abbia pubblicato con lui libri di cui sono a conoscenza ..
+1 risposte don ' t ottenere molto meglio di così – ottimo libro a proposito

Answer

Citando la classica Teoria delle decisioni statistiche di James O Berger:

[…] Abbiamo già affermato che le regole decisionali saranno valutate in termini di funzioni di rischio $ R (\ theta, \ delta) $. […] Il problema, come sottolineato in precedenza, è che differenti regole decisionali ammissibili avranno rischi che sono migliori per differenti $ \ theta $ “. In soccorso viene la precedente $ \ pi (\ theta) $, che presumibilmente riflette quali $ \ theta $ “sono” probabili “che si verifichino. Sembra molto ragionevole “pesare” $ R (\ theta, \ delta) $ per $ \ pi (\ theta) $ e media.

Sì si può valutare $ R (\ theta, \ delta) $ per ogni $ \ theta $, ma allora si presume implicitamente che ogni possibile valore di $ \ theta $ sia ugualmente probabile. Nello scenario bayesiano scegli la $ \ pi (\ theta) $ precedente che riflette le probabilità di osservare diversi $ \ theta $ “se includi tali informazioni.

Commenti

Risposta

Commenti

Answer

Lascia un commento Annulla risposta