Grundlegendes zum Bayes-Risiko

Bei der Bewertung eines Schätzers sind die beiden wahrscheinlich am häufigsten verwendeten Kriterien das maximale Risiko und das Bayes-Risiko. Meine Frage bezieht sich auf die letztere:

Das Bayes-Risiko unter dem vorherigen $ \ pi $ ist wie folgt definiert:

$$ B _ {\ pi} (\ hat {\ theta }) = \ int R (\ theta, \ hat {\ theta}) \ pi (\ theta) d \ theta $$

Ich verstehe nicht ganz, was der vorherige $ \ pi $ tut und wie ich es interpretieren sollte. Wenn ich eine Risikofunktion $ R (\ theta, \ hat {\ theta}) $ habe und sie zeichne, würde ich intuitiv ihre Fläche als Kriterium nehmen, um zu beurteilen, wie „stark“ das Risiko vorbei ist Alle möglichen Werte von $ \ theta $. Aber die Einbeziehung des Prior zerstört diese Intuition irgendwie wieder, obwohl sie nahe ist. Kann mir jemand helfen, wie man den Prior interpretiert?

Kommentare

  • Ich sehe nicht, wie intuitiv das Zeichnen der Risikofunktion sein kann, wenn mehrere Parameter berücksichtigt werden: In dieser Einstellung überschneiden sich die Funktionen und identifizieren kein " best " Schätzer. Das Bayes-Risiko gibt eine einzige Zahl für jeden Schätzer zurück und ermöglicht daher eine Rangfolge von allen Schätzern tors.

Antwort

[Hier ist ein Auszug aus meinem eigenen Lehrbuch, The Bayesian Choice (2007) , das für einen entscheidungstheoretischen Ansatz zur Bayesschen Analyse und damit für die Verwendung des Bayes-Risikos spricht.]

Mit Ausnahme der trivialsten Einstellungen ist es im Allgemeinen unmöglich, die Verlustfunktion $ \ text {L} (\ theta, d) $ einheitlich (in $ d $) zu minimieren, wenn $ \ theta $ unbekannt ist. Um ein effektives Vergleichskriterium aus der Verlustfunktion abzuleiten, schlägt der frequentistische Ansatz vor, stattdessen den durchschnittlichen Verlust (oder das frequentistische Risiko ) zu berücksichtigen \ begin {eqnarray *} R ( \ theta, \ delta) & = & \ mathbb {E} _ \ theta \ lbrack \ text {L} (\ theta, \ delta (x)) \ rbrack \\ & = & \ int _ {\ cal X} \ text {L} (\ theta , \ delta (x)) f (x | \ theta) \, dx, \ end {eqnarray *} wobei $ \ delta (x) $ die Entscheidungsregel ist, dh die Zuordnung einer Entscheidung zu jedem Ergebnis $ x \ sim f (x | \ theta) $ aus dem Zufallsexperiment.

Die Funktion $ \ delta $ aus $ {\ mathcal X} $ in $ \ mathfrak {D} $ heißt normalerweise Schätzer (während der Wert $ \ delta (x) $ als Schätzung von $ \ theta $ bezeichnet wird). Wenn keine Verwechslungsgefahr besteht, bezeichnen wir die Menge der Schätzer auch mit $ \ mathfrak {D} $.

Das frequentistische Paradigma stützt sich auf dieses Kriterium, um Schätzer zu vergleichen. Wenn möglich, um den besten Schätzer auszuwählen. Der Grund dafür ist, dass Schätzer hinsichtlich ihrer langfristigen Leistung für alle möglichen Werte des Parameters $ \ theta $ bewertet werden. Beachten Sie jedoch, dass mit diesem Ansatz mehrere Schwierigkeiten verbunden sind.

  1. Der Fehler (Verlust) wird über die verschiedenen Werte von $ x $ proportional zur Dichte $ f (x | \ theta) gemittelt ) $. Daher scheint die Beobachtung $ x $ nicht weiter berücksichtigt zu werden. Das Risikokriterium bewertet Verfahren hinsichtlich ihrer langfristigen Leistung und nicht direkt für die gegebene Beobachtung $ x $. Eine solche Bewertung mag für die Statistikerin zufriedenstellend sein, ist jedoch für eine Klientin, die optimale Ergebnisse für ihre Daten $ x $ wünscht, nicht so ansprechend, nicht für die einer anderen „s!
  2. Die frequentistische Analyse der Das Entscheidungsproblem setzt implizit voraus, dass dieses Problem immer wieder gelöst wird, damit die Frequenzbewertung sinnvoll ist. In der Tat ist $ R (\ theta, \ delta) $ ungefähr der durchschnittliche Verlust über iid-Wiederholungen desselben Experiments Gesetz der großen Zahlen. Sowohl aus philosophischen als auch aus praktischen Gründen gibt es jedoch viele Kontroversen über den Begriff der Wiederholbarkeit von Experimenten (siehe Jeffreys (1961)). Zum einen sollte sie es tun, wenn der Statistikerin neue Beobachtungen macht Verwenden Sie sie, und dies könnte die Art und Weise ändern, wie das Experiment durchgeführt wird, wie beispielsweise in medizinischen Studien.
  3. Für ein Verfahren $ \ delta $ ist das Risiko $ R (\ theta, \ delta ) $ ist eine Funktion des Parameters $ \ theta $. Daher induziert der frequentistische Ansatz keine Gesamtordnung klingeln Sie am Satz von Verfahren. Es ist im Allgemeinen unmöglich, Entscheidungsverfahren mit diesem Kriterium zu vergleichen, da zwei Kreuzungsrisikofunktionen einen Vergleich zwischen den entsprechenden Schätzern verhindern. Bestenfalls kann man auf eine Prozedur $ \ delta_0 $ hoffen, die $ R (\ theta, \ delta) $ einheitlich minimiert, aber solche Fälle treten selten auf, es sei denn, der Raum der Entscheidungsprozeduren ist eingeschränkt. Die besten Verfahren können nur erhalten werden, indem der Satz autorisierter Verfahren ziemlich künstlich eingeschränkt wird.

Beispiel 2.4 – Betrachten Sie $ x_1 $ und $ x_2 $, zwei Beobachtungen aus $$ P _ {\ theta} (x = \ theta-1) = P _ {\ theta} (x = \ theta + 1) = 0,5, \ qquad \ theta \ in \ mathbb {R}. $$ Der interessierende Parameter ist $ \ theta $ (d. H., $ \ mathfrak {D} = \ Theta $) und wird von den Schätzern $ \ delta $ unter dem Verlust $$ \ text {L} (\ theta, \ delta) = 1- \ mathbb {I} _ {\ geschätzt Theta} (\ delta), $$ wird oft als $ 0-1 $ Verlust bezeichnet, wodurch Schätzfehler, unabhängig von ihrer Größe, um $ 1 $ bestraft werden. In Anbetracht des bestimmten \ est $$ \ delta_0 (x_1, x_2) = {x_1 + x_2 \ over 2} ist $$ seine Risikofunktion \ begin {eqnarray *} R (\ theta, \ delta_0) & = & 1-P _ {\ theta} (\ delta_0 (x_1, x_2) = \ theta) \\ & = & 1-P _ {\ theta} (x_1 \ ne x_2) = 0,5. \ end {eqnarray *} Diese Berechnung zeigt, dass der Schätzer $ \ delta_0 $ die Hälfte der Zeit korrekt ist. Tatsächlich ist dieser Schätzer immer korrekt, wenn $ x_1 \ ne x_2 $, und ansonsten immer falsch. Nun hat das \ est \ $ \ delta_1 (x_1, x_2) = x_1 + 1 $ auch eine Risikofunktion von $ 0,5 $, ebenso wie $ \ delta_2 (x_1, x_2) = x_2-1 $. Daher können $ \ delta_0 $, $ \ delta_1 $ und $ \ delta_2 $ nicht unter den Verlust von $ 0-1 $ eingestuft werden. $ \ blacktriangleright $

Im Gegenteil, der Bayessche Ansatz zur Entscheidungstheorie integriert sich in den Raum $ \ Theta $, da $ \ theta $ unbekannt ist, anstatt in den Raum $ {\ cal X} $ zu integrieren als $ x $ ist bekannt. Es basiert auf dem posterioren erwarteten Verlust \ begin {eqnarray *} \ rho (\ pi, d | x) & = & \ mathbb {E} ^ \ pi [L (\ theta, d) | x] \\ & = & \ int _ {\ Theta} \ text {L} (\ theta, d) \ pi (\ theta | x) \, d \ theta, \ end {eqnarray *}, der den Fehler (dh den Verlust) gemäß mittelt die hintere Verteilung des Parameters $ \ theta $, abhängig vom beobachteten Wert} $ x $. Bei $ x $ ist der durchschnittliche Fehler, der sich aus der Entscheidung $ d $ ergibt, tatsächlich $ \ rho (\ pi, d | x) $. Der hintere erwartete Verlust ist somit eine Funktion von $ x $, aber diese Abhängigkeit ist nicht störend, im Gegensatz zu der häufigen Abhängigkeit des Risikos vom Parameter, da $ x $ im Gegensatz zu $ \ theta $ bekannt ist.

Kommentare

  • Sie sind also Christian Robert. Ich habe George Casella getroffen. Ich denke, Sie haben mit ihm Bücher veröffentlicht, die mir bekannt sind.
  • +1 Antworten ' werden nicht viel besser als das – großartiges Buch übrigens

Antwort

Zitiert die klassische statistische Entscheidungstheorie von James O. Berger:

[…] Wir haben bereits angegeben, dass Entscheidungsregeln hinsichtlich ihrer Risikofunktionen $ R (\ theta, \) bewertet werden Delta) $. […] Das Problem ist, wie bereits erwähnt, dass unterschiedliche zulässige Entscheidungsregeln Risiken bergen, die für verschiedene $ \ theta $ „besser sind. Zur Rettung kommt das vorherige $ \ pi (\ theta) $, welches spiegelt angeblich wider, welche $ \ theta $ „s die“ wahrscheinlichen „sind, die auftreten. Es erscheint sehr vernünftig, $ R (\ theta, \ delta) $ mit $ \ pi (\ theta) $ und dem Durchschnitt zu „gewichten“.

Ja Sie können $ R (\ theta, \ delta) $ für jedes $ \ theta $ auswerten, aber dann würden Sie implizit annehmen, dass jeder mögliche Wert von $ \ theta $ gleich wahrscheinlich ist. Im Bayesschen Szenario wählen Sie das vorherige $ \ pi (\ theta) $ aus, das die Wahrscheinlichkeiten der Beobachtung verschiedener $ \ theta $ „widerspiegelt und solche Informationen enthält.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.