Comprendre le risque Bayes

Lors de lévaluation dun estimateur, les deux critères probablement les plus couramment utilisés sont le risque maximum et le risque Bayes. Ma question se réfère à la dernière:

Le risque bayes sous le $ \ pi $ antérieur est défini comme suit:

$$ B _ {\ pi} (\ hat {\ theta }) = \ int R (\ theta, \ hat {\ theta}) \ pi (\ theta) d \ theta $$

Je ne comprends pas vraiment ce que fait le $ \ pi $ précédent et comment je devrais linterpréter. Si javais une fonction de risque $ R (\ theta, \ hat {\ theta}) $ et que je la tracerais, intuitivement je prendrais son aire comme critère pour juger à quel point le risque est « fort » toutes les valeurs possibles de $ \ theta $. Mais impliquer le prior détruit à nouveau cette intuition, même si elle est proche. Quelquun peut-il maider à interpréter le précédent?

Commentaires

  • Je ne vois pas à quel point le tracé de la fonction de risque peut être intuitif lorsque lon considère plusieurs paramètres: dans ce cadre, les fonctions se croisent et nidentifient pas un " meilleur " estimateur. Le risque de Bayes renvoie un seul nombre pour chaque estimateur et permet donc un classement de toutes estima tors.

Réponse

[Voici un extrait de mon propre manuel, The Bayesian Choice (2007) , qui plaide en faveur dune approche décisionnelle de lanalyse bayésienne, doù lutilisation du risque Bayes.]

Sauf pour les paramètres les plus triviaux, il est généralement impossible de minimiser uniformément (en $ d $) la fonction de perte $ \ text {L} (\ theta, d) $ lorsque $ \ theta $ est inconnu. Afin de dériver un critère de comparaison efficace à partir de la fonction de perte, lapproche fréquentiste propose de considérer plutôt la perte moyenne (ou risque fréquentiste ) \ begin {eqnarray *} R ( \ theta, \ delta) & = & \ mathbb {E} _ \ theta \ lbrack \ text {L} (\ theta, \ delta (x)) \ rbrack \\ & = & \ int _ {\ cal X} \ text {L} (\ theta , \ delta (x)) f (x | \ theta) \, dx, \ end {eqnarray *} où $ \ delta (x) $ est la règle de décision, cest-à-dire lattribution dune décision à chaque résultat $ x \ sim f (x | \ theta) $ de lexpérience aléatoire.

La fonction $ \ delta $, de $ {\ mathcal X} $ dans $ \ mathfrak {D} $, est généralement appelée estimateur (alors que la valeur $ \ delta (x) $ est appelée estimation de $ \ theta $). Lorsquil ny a pas de risque de confusion, nous désignons également lensemble des estimateurs par $ \ mathfrak {D} $.

Le paradigme fréquentiste sappuie sur ce critère pour comparer les estimateurs et, si possible, pour sélectionner le meilleur estimateur, le raisonnement étant que les estimateurs sont évalués sur leur performance à long terme pour toutes les valeurs possibles du paramètre $ \ theta $. Notez cependant quil existe plusieurs difficultés associées à cette approche.

  1. Lerreur (perte) est moyennée sur les différentes valeurs de $ x $ proportionnellement à la densité $ f (x | \ theta ) $. Par conséquent, il semble que lobservation $ x $ ne soit plus prise en compte. Le critère de risque évalue les procédures sur leur performance à long terme et non directement pour lobservation donnée, $ x $. Une telle évaluation peut être satisfaisante pour le statisticien, mais elle nest pas aussi attrayante pour une cliente, qui veut des résultats optimaux pour ses données $ x $, pas celle dun autre « s!
  2. Lanalyse fréquentiste du problème de décision suppose implicitement que ce problème sera rencontré encore et encore, pour que lévaluation de la fréquence ait un sens. En effet, $ R (\ theta, \ delta) $ est approximativement la perte moyenne sur les répétitions iid de la même expérience, selon le Loi des grands nombres. Cependant, pour des raisons à la fois philosophiques et pratiques, la notion même de répétabilité des expériences suscite beaucoup de controverse (voir Jeffreys (1961)). Dune part, si de nouvelles observations parviennent au statisticien, elle devrait les utiliser, et cela pourrait modifier la façon dont lexpérience est menée, comme par exemple dans les essais médicaux.
  3. Pour une procédure $ \ delta $, le risque $ R (\ theta, \ delta ) $ est une fonction du paramètre $ \ theta $. Par conséquent, lapproche fréquentiste ninduit pas un ordre total sonner sur lensemble des procédures. Il est généralement impossible de comparer les procédures de décision avec ce critère, car deux fonctions de risque de croisement empêchent la comparaison entre les estimateurs correspondants. Au mieux, on peut espérer une procédure $ \ delta_0 $ qui minimise uniformément $ R (\ theta, \ delta) $, mais de tels cas se produisent rarement à moins que lespace des procédures de décision ne soit restreint. Les meilleures procédures ne peuvent être obtenues quen restreignant assez artificiellement lensemble des procédures autorisées.

Exemple 2.4 – Considérons $ x_1 $ et $ x_2 $, deux observations de $$ P _ {\ theta} (x = \ theta-1) = P _ {\ theta} (x = \ theta + 1) = 0.5, \ qquad \ theta \ dans \ mathbb {R}. $$ Le paramètre dintérêt est $ \ theta $ (i.e., $ \ mathfrak {D} = \ Theta $) et il est estimé par les estimateurs $ \ delta $ sous la perte $$ \ text {L} (\ theta, \ delta) = 1- \ mathbb {I} _ {\ thêta} (\ delta), $$ souvent appelé $ 0-1 $ perte , ce qui pénalise les erreurs destimation, quelle que soit leur ampleur, de $ 1 $. Considérant le \ est $$ \ delta_0 (x_1, x_2) = {x_1 + x_2 \ over 2} particulier, $$ sa fonction de risque est \ begin {eqnarray *} R (\ theta, \ delta_0) & = & 1-P _ {\ theta} (\ delta_0 (x_1, x_2) = \ theta) \\ & = & 1-P _ {\ theta} (x_1 \ ne x_2) = 0,5. \ end {eqnarray *} Ce calcul montre que lestimateur $ \ delta_0 $ est correct la moitié du temps. En fait, cet estimateur est toujours correct quand $ x_1 \ ne x_2 $, et toujours faux sinon. Maintenant, le \ est \ $ \ delta_1 (x_1, x_2) = x_1 + 1 $ a également une fonction de risque égale à 0,5 $ $, tout comme $ \ delta_2 (x_1, x_2) = x_2-1 $. Par conséquent, $ \ delta_0 $, $ \ delta_1 $ et $ \ delta_2 $ ne peuvent pas être classés sous la perte $ 0-1 $. $ \ blacktriangleright $

Au contraire, lapproche bayésienne de la théorie de la décision sintègre sur lespace $ \ Theta $ puisque $ \ theta $ est inconnu, au lieu dintégrer sur lespace $ {\ cal X} $ comme $ x $ est connu. Il repose sur la perte attendue postérieure \ begin {eqnarray *} \ rho (\ pi, d | x) & = & \ mathbb {E} ^ \ pi [L (\ theta, d) | x] \\ & = & \ int _ {\ Theta} \ text {L} (\ theta, d) \ pi (\ theta | x) \, d \ theta, \ end {eqnarray *} qui fait la moyenne de lerreur (cest-à-dire la perte) en fonction de la distribution postérieure du paramètre $ \ theta $, conditionnellement à la valeur observée} $ x $. Étant donné $ x $, lerreur moyenne résultant de la décision $ d $ est en fait $ \ rho (\ pi, d | x) $. La perte attendue postérieure est donc fonction de $ x $ mais cette dépendance nest pas gênante, par opposition à la dépendance fréquentiste du risque sur le paramètre car $ x $, contrairement à $ \ theta $, est connu.

Commentaires

  • Vous êtes donc Christian Robert. Jai rencontré George Casella. Je pense que vous avez publié avec lui des livres dont je suis au courant ..
  • +1 réponses don ' Je ne vais pas bien mieux que ça – super livre au fait

Réponse

Citant la théorie de la décision statistique classique de James O . Berger:

[…] Nous avons déjà indiqué que les règles de décision seront évaluées en fonction de leurs fonctions de risque $ R (\ theta, \ delta) $. […] Le problème, comme indiqué précédemment, est que différentes règles de décision recevables auront des risques qui sont meilleurs pour différents $ \ theta $ « s. À la rescousse vient le $ \ pi (\ theta) $ antérieur, qui reflète supposément quels $ \ theta $ « s sont les » probables « . Il semble très raisonnable de « pondérer » $ R (\ theta, \ delta) $ par $ \ pi (\ theta) $ et de faire une moyenne.

Oui vous pouvez évaluer $ R (\ theta, \ delta) $ pour chaque $ \ theta $, mais alors vous supposeriez implicitement que chaque valeur possible de $ \ theta $ est également probable. Dans le scénario bayésien, vous choisissez $ \ pi (\ theta) $ antérieur qui reflète les probabilités dobserver différents $ \ theta $ « s et incluez ces informations.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *