ベイズのリスクを理解する

推定量を評価する場合、おそらく最も一般的に使用される2つの基準は、最大リスクとベイズリスクです。私の質問は後者について言及しています:

前の$ \ pi $の下でのベイズリスクは次のように定義されています:

$$ B _ {\ pi}(\ hat {\ theta })= \ int R(\ theta、\ hat {\ theta})\ pi(\ theta)d \ theta $$

前の$ \ pi $の動作がよくわかりませんリスク関数$ R(\ theta、\ hat {\ theta})$があり、それをプロットすると、直感的にその領域を基準として、リスクがどの程度「強い」かを判断します。 $ \ theta $のすべての可能な値。しかし、事前に関与すると、近いものの、この直感が再び破壊されます。誰かが事前の解釈方法を教えてもらえますか?

コメント

  • いくつかのパラメーターを検討するときに、リスク関数のプロットがどれほど直感的であるかわかりません。その設定では、関数が交差し、"最良"推定値。ベイズリスクは推定値に対して単一の数値を返すため、すべての推定値のランク付けが可能になります。 tors。

回答

[これは私自身の教科書からの抜粋ですベイズの選択(2007)、ベイズ分析への決定理論的アプローチ、したがってベイズリスクの使用を支持すると主張しています。]

最も些細な設定を除いて、$ \ theta $が不明な場合、損失関数$ \ text {L}(\ theta、d)$を($ d $で)均一に最小化することは一般に不可能です。損失関数から効果的な比較基準を導き出すために、頻度主義アプローチは、代わりに平均損失(または頻度主義リスク)を考慮することを提案します\ begin {eqnarray *} R( \ theta、\ delta)& = & \ mathbb {E} _ \ theta \ lbrack \ text {L}(\ theta、 \ delta(x))\ rbrack \\ & = & \ int _ {\ cal X} \ text {L}(\ theta 、\ delta(x))f(x | \ theta)\、dx、\ end {eqnarray *}ここで、$ \ delta(x)$は決定ルール、つまり各結果への決定の割り当て$ x \ランダム実験からのsimf(x | \ theta)$。

$ \ mathfrak {D} $の$ {\ mathcal X} $からの関数$ \ delta $は、通常推定値(値$ \ delta(x)$は$ \ theta $の推定値と呼ばれます)。混乱のリスクがない場合は、推定量のセットを$ \ mathfrak {D} $で表します。

頻度論的パラダイムは、この基準に基づいて推定量を比較します。可能であれば、最良の推定量を選択するために、推定量はパラメーター$ \ theta $のすべての可能な値について長期的なパフォーマンスで評価されるという理由があります。ただし、このアプローチにはいくつかの問題があることに注意してください。

  1. エラー(損失)は、密度$ f(x | \ theta)に比例して$ x $のさまざまな値で平均化されます。 )$。したがって、観測値$ x $はこれ以上考慮されていないようです。リスク基準は、特定の観測値$ x $に対して直接ではなく、長期的なパフォーマンスで手順を評価します。このような評価は統計学者にとっては満足のいくものかもしれませんが、他のデータではなく、自分のデータ$ x $に対して最適な結果を望んでいるクライアントにとってはそれほど魅力的ではありません!
  2. 決定問題は、頻度評価が理にかなっているために、この問題が何度も満たされることを暗黙的に想定しています。実際、$ R(\ theta、\ delta)$は、同じ実験のiid反復でのほぼ平均損失です。多数の法則しかし、哲学的および実践的な理由の両方で、実験の再現性の概念そのものについて多くの論争があります(Jeffreys(1961)を参照)。1つには、新しい観察が統計学者にもたらされた場合、彼女はすべきです。それらを利用すると、たとえば医療試験のように、実験の実施方法が変わる可能性があります。
  3. 手順$ \ delta $の場合、リスク$ R(\ theta、\ delta )$はパラメーター$ \ theta $の関数です。したがって、頻度主義的アプローチは総順序を誘発しません。一連の手順を呼び出します。 2つの交差するリスク関数が対応する推定量間の比較を妨げるため、決定手順をこの基準と比較することは一般に不可能です。せいぜい、$ R(\ theta、\ delta)$を均一に最小化するプロシージャ$ \ delta_0 $を期待するかもしれませんが、決定プロシージャのスペースが制限されていない限り、このようなケースはめったに発生しません。最良の手順は、許可された手順のセットを人為的に制限することによってのみ取得できます。

例2.4- $ x_1 $と$ x_2 $を考えてみましょう。これは、$$ P _ {\ theta}(x = \ theta-1)= P _ {\ theta}(x = \ theta + 1)= 0.5、\ qquadからの2つの観測値です。 \ theta \ in \ mathbb {R}。 $$対象のパラメータは$ \ theta $です(つまり、、$ \ mathfrak {D} = \ Theta $)であり、推定量$ \ delta $によって損失$$ \ text {L}(\ theta、\ delta)= 1- \ mathbb {I} _ {\の下で推定されます。 theta}(\ delta)、$$はしばしば$ 0-1 $ loss と呼ばれ、その大きさに関係なく、推定の誤差に$ 1 $のペナルティを課します。特定の\ est $$ \ delta_0(x_1、x_2)= {x_1 + x_2 \ over 2}を考慮すると、$$のリスク関数は\ begin {eqnarray *} R(\ theta、\ delta_0)& = & 1-P _ {\ theta}(\ delta_0(x_1、x_2)= \ theta)\\ & = & 1-P _ {\ theta}(x_1 \ ne x_2)= 0.5。 \ end {eqnarray *}この計算は、推定量$ \ delta_0 $が半分の時間で正しいことを示しています。実際、この推定量は$ x_1 \ ne x_2 $の場合は常に正しく、それ以外の場合は常に間違っています。これで、\ est \ $ \ delta_1(x_1、x_2)= x_1 + 1 $にも、$ \ delta_2(x_1、x_2)= x_2-1 $と同様に、$ 0.5 $に等しいリスク関数があります。したがって、$ \ delta_0 $、$ \ delta_1 $、および$ \ delta_2 $は、$ 0-1 $の損失の下にランク付けすることはできません。 $ \ blacktriangleright $

逆に、決定理論へのベイズアプローチは、$ \ theta $が不明であるため、スペース$ {\ cal X} $で統合するのではなく、スペース$ \ Theta $で統合します。 $ x $が知られているように。 事後期待損失 \ begin {eqnarray *} \ rho(\ pi、d | x)& = \ mathbb {E} ^ \ pi [L(\ theta、d)| x] \\ & = & \ int _ {\ Theta} \ text {L}(\ theta、d)\ pi(\ theta | x)\、d \ theta、\ end {eqnarray *}これにより、エラー(つまり損失)が平均化されます。パラメータ$ \ theta $の事後分布、条件付きで観測値} $ x $。 $ x $が与えられた場合、決定$ d $から生じる平均エラーは実際には$ \ rho(\ pi、d | x)$です。したがって、事後期待損失は$ x $の関数ですが、$ \ theta $とは対照的に$ x $が既知であるため、リスクがパラメーターに頻繁に依存するのとは対照的に、この依存性は問題ではありません。

コメント

  • あなたはクリスチャンロバートです。ジョージ・カゼッラに会いました。あなたは私が知っている彼と一緒に本を出版したと思います。
  • +1の答えはそれよりもはるかに良くなることはありません-素晴らしい本ちなみに

回答

JamesOによる古典的な統計的決定理論の引用。バーガー:

[…]決定ルールはリスク関数$ R(\ theta、\)の観点から評価されることはすでに述べました。デルタ)$。 […]前に指摘したように、問題は、異なる許容決定ルールには、異なる$ \ theta $ “に対してより良いリスクがあるということです。救助には、前の$ \ pi(\ theta)$があります。おそらく、どの$ \ theta $ “が発生する可能性が高いかを反映しています。 $ R(\ theta、\ delta)$を$ \ pi(\ theta)$と平均で「重み付け」することは非常に合理的です。

はい$ \ theta $ごとに$ R(\ theta、\ delta)$を評価できますが、その場合、$ \ theta $の可能な各値が同じように発生する可能性が高いと暗黙的に想定します。ベイジアンシナリオでは、さまざまな$ \ theta $ “を観測する確率を反映する、以前の$ \ pi(\ theta)$を選択し、そのような情報を含めます。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です