バイナリ分類、つまり $ y \ in \ {-1,1 \} $ と仮定します。データを生成する基礎となる同時確率分布がわかっていること、つまり $ P_ {x、y}(x、y)$ がわかっていること
私はベイズの決定ルールは、インジケーター変数コスト関数を使用して次の最小化問題を解くときに選択する予測子であると述べました(正しいか間違っているかを示します):
$ $ min_ {c \ in \ mathcal {H}} \ mathbb {E} _ {x、y} [\ mathbb {1} _ {\ {c(x)\ neq y \}}] $$
上記の最適化問題を解いて得られた予測子
これまでに行ったことは、 $ \ mathbb {E} _ {x、y} [\ mathbb {1} _ {\ {c(x)\ neq y \}}] $ :
$ \ mathbb {E} _ {x、y} [\ mathbb {1} _ {\ {c(x)\ neq y \}}] = \ mathbb {E} _ {x} \ mathbb {E} _ {y | x} [\ mathbb {1} _ {\ {c(x)\ neq y \}}] $
次に、以下を最小化します。
$ \ mathbb {E} _ {y | x} [\ mathbb {1} _ {\ {c(x) \ neq y \}}] = P_ {y | x}(1 | x)\ mathbb {1} _ {\ {c(x)\ neq 1 \}} + P_ {y | x}(-1 | x )\ mathbb {1} _ {\ {c(x)\ neq 1 \}} $
しかし、上記の式を最小化する方法がわからなかったため、先に進むのに苦労しました。 。直感的に、エラーを最小にする予測子を選択したいと思います。したがって、確率が最も高いラベル $ 1 $ または
$ c ^ *(x)$ ?
次の関数は正しいですか?もしそうなら、なぜそうですか?
$$ c ^ *(x)= sign(2p_ {y | x}(1 | x)-1)$ $
回答
確率変数$ X $と$ Y $を検討します。ここで、$ Y \ in \ { + 1、-1 \} $。観測値$ X $の値が$ x $の場合、2つの値$ + 1 $と$ -1 $のいずれかをとる決定ルール $ c(x)$は、次のことを示します。ルールが考える $ Y $が取った価値。決定関数$ c(x)$を選択すると、$ X $の範囲が2つの互いに素なセット$ \ Gamma _ {+ 1} $と$ \ Gamma _ {-1} $、つまり$ c(x)$に効果的に分割されます。 $$ c(x)= \ begin {cases} + 1、& x \ in \ Gamma _ {+ 1}、\\-1、& x \ in \ Gamma _ {-1}。 \ end {cases} $$実験が実行され、$(X、Y)$は値$(x、y)$を取りますが、観測できるのは$ x $の値だけです。関数$ c(x)$を適用して、$ y $の値について$ + 1 $または$ -1 $を決定します。優れた存在(私たちから隠されている$ y $の値を含むすべてを知っている)は、私たちが間違いを犯したかどうかを教えてくれます:$ y $が私たちの決定$ c(x)$と一致しない場合の間違いに達した。 $ f _ {-1}(x)$が、$ Y = -1 $である与えられた $ X $の条件付き密度を表すとします。次に、 $ Y = -1 $とすると、$ X $の観測値が$ \ Gamma _ {+ 1} $の領域にあり、条件付き / em>したがって、エラーの確率は$ \ displaystyle P(E \ mid Y = -1)= \ int _ {\ Gamma _ {+ 1}} f _ {-1}(x)\、\ mathrm dx。$同様に、 条件付き $ Y = + 1 $が$ \ displaystyle P(E \ mid Y = + 1)= \ int _ {\ Gamma _ {-1}} f _ {+ 1}(x )\、\ mathrm dx。$したがって、この決定ルールのエラー$ P(E)$の無条件確率は、$$ \ begin {align} P(E)& = P \ {E \ mid Y = -1 \} P \ {Y = -1 \} + P \ {E \ mid Y = +1 \} P \ {Y = +1 \} \\ & = \ int _ {\ Gamma _ {+ 1}} \ pi _ {-1} \ cdot f _ {-1}(x)\、\ mathrm dx + \ int_ { \ Gamma _ {-1}} \ pi _ {+ 1} \ cdot f _ {+ 1}(x)\、\ mathrm dx \\ & = \ int _ {\ Gamma _ {+ 1}} \ pi _ {-1} \ cdot f _ {-1}(x)\、\ mathrm dx + \ int _ {\ Gamma _ {-1}} \ pi _ {+ 1} \ cdot f _ {+ 1}(x )\、\ mathrm dx \\ & \ quad + \ int _ {\ Gamma _ {-1}} \ pi _ {-1} \ cdot f _ {-1}(x)\ 、\ mathrm dx- \ int _ {\ Gamma _ {-1}} \ pi _ {-1} \ cdot f_ { -1}(x \、\ mathrm dx \\ & = \ pi _ {-1} \ int _ {\ mathbb R} f _ {-1}(x)\、\ mathrm dx + \ int _ {\ Gamma _ {-1}} \ left [\ pi _ {+ 1} \ cdot f _ {+ 1}(x)-\ pi _ {-1} \ cdot f _ {-1}(x)\ right ] \、\ mathrm dx \\ P(E)& = \ pi _ {-1} + \ int _ {\ Gamma _ {-1}} \ left [\ pi _ {+ 1 } \ cdot f _ {+ 1}(x)-\ pi _ {-1} \ cdot f _ {-1}(x)\ right] \、\ mathrm dx \ tag {1} \ end {align} $$
Bayesian 決定ルールは、$(1)$の右側を最小化するルールです。すべての決定ルールで同じである最初の項では何もできませんが、地域 $ \ Gamma _ {-1} $を巧妙に選択することによって(決定ルールは地域$によって効果的に定義されます) \ Gamma _ {-1} $)、$ P(E)$を小さくすることができます。 $(1)$の被積分関数は正または負になり、 $$ \ Gamma _ {-1} = \ {x \ Colon \ pi_ {を選択することで+1} \ cdot f _ {+ 1}(x)-\ pi _ {-1} \ cdot f _ {-1}(x)\ leq 0 \}、\ tag {2} $$(したがって、除外 from $ \ Gamma _ {-1} $すべてのポイント$ x $で、$ \ pi _ {+ 1} \ cdot f _ {+ 1}(x)-\ pi _ {-1} \ cdot f _ {-1} (x)> 0 $)、積分の範囲で被積分関数が正にならないようにするため、積分の値は可能な限り負になります。したがって、$(2)$で説明されている決定ルールは、$ P(E)$を最小化し、ベイズの決定ルールです。
では、事後分布の観点から、これらすべてがどのように機能するのでしょうか。 $ X $が与えられた場合の$ Y $の事後分布は、離散であり、ベイズの決定ルールは、$ Y $のいずれかの値が事後確率が高い方を選択するように計算されます。実際、$$ \ begin {align} P \ {Y = + 1 \ mid X = x \} & = \ frac {\ pi _ {+ 1} f_ {+1}(x)} {\ pi _ {+ 1} \ cdot f _ {+ 1}(x)+ \ pi _ {-1} \ cdot f _ {-1}(x)} \ tag {3} \\ P \ {Y = -1 \ mid X = x \} & = \ frac {\ pi _ {-1} f _ {-1}(x)} {\ pi _ {+ 1} \ cdot f _ {+ 1}(x)+ \ pi _ {-1} \ cdot f _ {-1}(x)} \ tag {4} \ end {align} $$など、事後確率のいずれかを選択します大きいほど、$(2)$と同じ決定ルールが得られます。ここで、OPの$ P \ {Y = + 1 \ mid X = x \} = p_ {y | x}(1 | x)$の場合、表記は$ P \ {Y = -1 \ midよりも大きくなります。 X = x \} $の場合、$ p_ {y | x}(1 | x)> \ frac 12 $であるため、$ \ operatorname {sgn}( 2p_ {y | x}(1 | x)-1)= + 1 $なので、
はい、ベイズの決定ルール$ c ^ * (x)$ は$ \ operatorname {sgn}(2p_ {y | x}(1 | x)-1)$
ただし、この選択によって$ P(E)$が最小化されるという事実は、$(3)$と$(4)$から、または簡潔な式$ \ operatorname {sgn}(から確認するのがはるかに困難です。 2p_ {y | x}(1 | x)-1)$は、$(2)$につながった開発からのものよりも。または、少なくとも、統計学者ではない私が問題を認識する方法です。マイレージは異なる場合があります。 。
回答
少し異なる方法で問題を定式化すると、証明するのが簡単になります。
$$ P(c(x)\ neq y)\ geq P(c ^ {*}(x)\ neq y)$$ または同等に、 $$ \ mathbb {E} _ {x、y} \ left [1 _ {\ {c(x)= y \}} \ right] \ leq \ mathbb {E} _ {x、y} \ left [1 _ {\ {c ^ {*}( x)= y \}} \ right] $$ で、 $ y \ in \ {-1,1 \} $ の代わりに、 $ y \ in \ {0,1 \} $ 。
$ P_ {y | x}(0 | x)= 1-P_ {y | x}(1 | x)$ および
$$ \ mathbb {E} _ {y | x} \ left [1 _ {\ {c ^ {*}(x)= y \}} \ right]-\ mathbb {E} _ {y | x} \ left [1 _ {\ {c(x)= y \}} \ right] = P_ {y | x}(1 | x)\ left(1 _ {\ {c ^ {*}(x)= 1 \}}-1 _ {\ { c(x)= 1 \}} \ right)+ P_ {y | x}(0 | x)\ left(1 _ {\ {c ^ {*}(x)= 0 \}}-1 _ {\ {c (x)= 0 \}} \ right)= \ left(2P(1 | x)-1 \ right)\ left(1 _ {\ {c ^ {*}(x)= 1 \}}-1 _ {\ {c(x)= 1 \}} \ right)\ geq 0 $$
ここで、 $ P(1 | x)> 1/2 $ 、次に $ c ^ {*}(x)$ の定義により、 $ c ^ {*}(x)= 1 $ 、および $ 1 _ {\ {c(x)= 1 \}} \ leq 0 $ の場合、この式はゼロ以上になります。同様に、 $ P(1 | x)< 1/2 $ の場合、定義上、 $ c ^ {*}(x)= 0 $ および
コメント
と等しくないことを示します。
\equiv
)を意味しますか?==
記号は、プログラミングではなく使用されます('が間違っている場合は訂正してください)。!=
についても同じことが当てはまり、"が"