Bayes 결정 규칙은 무엇입니까?

이진 분류를 가정합니다. 즉 $ y \ in \ {-1,1 \} $ 및 데이터를 생성하는 기본 결합 확률 분포가 알려져 있습니다. 즉 $ P_ {x, y} (x, y) $ 가 알려져 있습니다.

Bayes 결정 규칙은 지표 가변 비용 함수 (당신이 옳고 그름을 나타냄)로 다음 최소화 문제를 해결할 때 선택한 예측 변수라고 말했습니다.

$ $ min_ {c \ in \ mathcal {H}} \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $$

위의 최적화 문제를 해결 한 결과 예측 변수 $ c ^ * $ 는 무엇이며 알려진 분포 생성과의 관계는 무엇인지 궁금합니다. 데이터였습니다. 즉, $ P_ {y | x} (1 | x) $ 대한 예측 변수 $ c ^ * $ 는 무엇입니까? / span> 및 $ P_ {y | x} (-1 | x) $ .

지금까지 수행 한 작업은 확장입니다. $ \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $ :

$ \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] = \ mathbb {E} _ {x} \ mathbb {E} _ {y | x} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $

다음을 최소화합니다.

$ \ mathbb {E} _ {y | x} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] = P_ {y | x} (1 | x) \ mathbb {1} _ {\ {c (x) \ neq 1 \}} + P_ {y | x} (-1 | x ) \ mathbb {1} _ {\ {c (x) \ neq 1 \}} $

하지만 위의 표현을 최소화하는 방법을 모르기 때문에 계속 진행하기가 어려웠습니다. . 직관적으로 오류를 가장 낮게 만드는 예측 변수를 선택하고 싶습니다. 따라서 가장 가능성이 높은 라벨에 따라 $ 1 $ 또는 $-1 $ 라벨을 선택합니다. 발생. 하지만 그 직관을 위의 수학 및 방정식과 연결하는 데 어려움을 겪었습니다. 정확한 또는 엄격한 문제입니다.

$ c ^ * (x) $ ?

다음 함수가 올바른가요? 그렇다면 그 이유는 무엇입니까?

$$ c ^ * (x) = sign (2p_ {y | x} (1 | x)-1) $ $

답변

임의 변수 $ X $ 및 $ Y $ 고려. 여기서 $ Y \ in \ { + 1, -1 \} $. $ X $ 관측치에 $ x $ 값이있을 때 $ + 1 $ 및 $ -1 $ 두 값 중 하나를 취하는 결정 규칙 $ c (x) $는 우리에게 무엇을 알려줍니다. $ Y $가 취한 생각 규칙의 가치. 결정 함수 $ c (x) $의 선택은 $ X $의 범위를 두 개의 분리 된 집합 $ \ Gamma _ {+ 1} $ 및 $ \ Gamma _ {-1} $, 즉 $ c (x) $로 효과적으로 분할합니다. $$ c (x) = \ begin {cases} +1, & x \ in \ Gamma _ {+ 1}, \\-1, & x \ in \ Gamma _ {-1}. \ end {cases} $$ 실험이 수행되어 $ (X, Y) $가 $ (x, y) $ 값을 가지지 만 $ x $ 값만 관찰 할 수 있습니다. $ c (x) $ 함수를 적용하여 $ y $ 값이 무엇인지 $ + 1 $ 또는 $ -1 $ 결정을 내립니다. 우리에게 숨겨져있는 $ y $의 가치를 포함한 모든 것을 알고있는 우월한 존재는 우리가 실수를했는지 여부를 알려줍니다. $ y $가 우리가 결정한 $ c (x) $와 일치하지 않을 때의 실수 도달했습니다. $ f _ {-1} (x) $는 $ Y = -1 $에 주어진 $ X $의 조건부 밀도를 나타냅니다. 그런 다음 $ Y = -1 $를 주면 $ X $의 관찰 된 값이 $ \ Gamma _ {+ 1} $ 영역에 있고 조건부 오류 확률은 $ \ displaystyle P (E \ mid Y = -1) = \ int _ {\ Gamma _ {+ 1}} f _ {-1} (x) \, \ mathrm dx입니다. $ Y = + 1 $이 $ \ displaystyle P (E \ mid Y = + 1) = \ int _ {\ Gamma _ {-1}} 인 경우 조건부 오류 확률 f _ {+ 1} (x ) \, \ mathrm dx. $ 따라서이 결정 규칙의 오류 $ P (E) $에 대한 무조건 확률은 $$ \ begin {align} P (E) = P \ {E \ 중간 Y = -1 \} P \ {Y = -1 \} + P \ {E \ 중간 Y = +1 \} P \ {Y = +1 \} \\ & = \ int _ {\ Gamma _ {+ 1}} \ pi _ {-1} \ cdot f _ {-1} (x) \, \ mathrm dx + \ int_ { \ Gamma _ {-1}} \ pi _ {+ 1} \ cdot f _ {+ 1} (x) \, \ mathrm dx \\ & = \ int _ {\ Gamma _ {+ 1}} \ pi _ {-1} \ cdot f _ {-1} (x) \, \ mathrm dx + \ int _ {\ Gamma _ {-1}} \ pi _ {+ 1} \ cdot f _ {+ 1} (x ) \, \ mathrm dx \\ & \ quad + \ int _ {\ Gamma _ {-1}} \ pi _ {-1} \ cdot f _ {-1} (x) \ , \ mathrm dx-\ int _ {\ Gamma _ {-1}} \ pi _ {-1} \ cdot f_ { -1} (x \, \ mathrm dx \\ & = \ pi _ {-1} \ int _ {\ mathbb R} f _ {-1} (x) \, \ mathrm dx + \ int _ {\ Gamma _ {-1}} \ left [\ pi _ {+ 1} \ cdot f _ {+ 1} (x)-\ pi _ {-1} \ cdot f _ {-1} (x) \ right ] \, \ mathrm dx \\ P (E) & = \ pi _ {-1} + \ int _ {\ Gamma _ {-1}} \ left [\ pi _ {+ 1 } \ cdot f _ {+ 1} (x)-\ pi _ {-1} \ cdot f _ {-1} (x) \ right] \, \ mathrm dx \ tag {1} \ end {align} $$

Bayesian 결정 규칙은 $ (1) $의 오른쪽을 최소화하는 규칙입니다.모든 결정 규칙에 대해 동일한 첫 번째 용어로는 아무것도 할 수 없지만, region $ \ Gamma _ {-1} $를 현명하게 선택하면됩니다 (결정 규칙은 $ \ Gamma _ {-1} $), $ P (E) $를 더 작게 만들 수 있습니다. $ (1) $의 적분 은 양수 또는 음수 일 수 있으며 $$ \ Gamma _ {-1} = \ {x \ colon \ pi_ {를 선택 하여 +1} \ cdot f _ {+ 1} (x)-\ pi _ {-1} \ cdot f _ {-1} (x) \ leq 0 \}, \ tag {2} $$ (따라서 제외 $ \ Gamma _ {-1} $ 모든 포인트 $ x $에서 $ \ pi _ {+ 1} \ cdot f _ {+ 1} (x)-\ pi _ {-1} \ cdot f _ {-1} (x) > 0 $), 적분이 적분 범위에서 절대 양수가 아니므로 적분은 가능한 한 음의 값을 갖습니다. 따라서 $ (2) $에 설명 된 결정 규칙은 $ P (E) $를 최소화하고 베이지안 결정 규칙입니다.


그렇다면이 모든 것이 사후 분포 측면에서 어떻게 작용할까요? $ X $에 주어진 $ Y $의 사후 분포는 이산 이며 베이지안 결정 규칙은 $ Y $의 값 중 사후 확률이 더 큰 값을 선택하는 것입니다. 실제로 $$ \ begin {align} P \ {Y = + 1 \ mid X = x \} & = \ frac {\ pi _ {+ 1} f_ {+1} (x)} {\ pi _ {+ 1} \ cdot f _ {+ 1} (x) + \ pi _ {-1} \ cdot f _ {-1} (x)} \ tag {3} \\ P \ {Y = -1 \ mid X = x \} & = \ frac {\ pi _ {-1} f _ {-1} (x)} {\ pi _ {+ 1} \ cdot f _ {+ 1} (x) + \ pi _ {-1} \ cdot f _ {-1} (x)} \ tag {4} \ end {align} $$ 등 사후 확률이 무엇이든 선택 large는 $ (2) $와 동일한 결정 규칙을 제공합니다. 이제 OP의 표기법에서 $ P \ {Y = + 1 \ mid X = x \} = p_ {y | x} (1 | x) $가 $ P \ {Y = -1 \ mid보다 큰 경우 X = x \} $, $ p_ {y | x} (1 | x) > \ frac 12 $, 따라서 $ \ operatorname {sgn} ( 2p_ {y | x} (1 | x) -1) = + 1 $ 등

예, Bayes 결정 규칙 $ c ^ * (x) $는 $ \ operatorname {sgn} (2p_ {y | x} (1 | x) -1) $

<로 표현 될 수 있습니다 / div>

그러나이 선택이 $ P (E) $를 최소화한다는 사실은 $ (3) $ 및 $ (4) $ 또는 간결한 표현 $ \ operatorname {sgn} (에서보기가 훨씬 더 어렵습니다. 2p_ {y | x} (1 | x) -1) $는 $ (2) $로 이어진 개발보다 또는 적어도 통계학자가 아닌 제가이 문제를 인식하는 방식입니다. 귀하의 마일리지는 다를 수 있습니다. .

답변

약간 다른 방식으로 문제를 공식화하면 증명하기가 더 쉽습니다.

$$ P (c (x) \ neq y) \ geq P (c ^ {*} (x) \ neq y) $$ 또는 동등하게 $$ \ mathbb {E} _ {x, y} \ left [1 _ {\ {c (x) = y \}} \ right] \ leq \ mathbb {E} _ {x, y} \ left [1 _ {\ {c ^ {*} ( x) = y \}} \ right] $$ 그리고 $ y \ in \ {-1,1 \} $ 대신 $ y \ in \ {0,1 \} $ .

$ P_ {y | x} (0 | x) = 1-P_ {y | x} (1 | x) $ $ 1 _ {\ {c (x) = 0 \ }} = 1-1 _ {\ {c (x) = 1 \}} $ , 따라서 빼면

$$ \ mathbb {E} _ {y | x} \ left [1 _ {\ {c ^ {*} (x) = y \}} \ right]-\ mathbb {E} _ {y | x} \ left [1 _ {\ {c (x) = y \}} \ 오른쪽] = P_ {y | x} (1 | x) \ left (1 _ {\ {c ^ {*} (x) = 1 \}}-1 _ {\ { c (x) = 1 \}} \ 오른쪽) + P_ {y | x} (0 | x) \ left (1 _ {\ {c ^ {*} (x) = 0 \}}-1 _ {\ {c (x) = 0 \}} \ 오른쪽) = \ left (2P (1 | x) -1 \ 오른쪽) \ left (1 _ {\ {c ^ {*} (x) = 1 \}}-1 _ {\ {c (x) = 1 \}} \ right) \ geq 0 $$

이제 $ P (1 | x) > 1/2 $ , $ c ^ {*} (x) $ 의 정의에 따라 $ c ^ {*} (x) = 1 $ , 이후 $ 1 _ {\ {c (x) = 1 \}} \ leq 0 $ 이면이 표현식은 0보다 크거나 같습니다. 마찬가지로 $ P (1 | x) < 1/2 $ 이면 정의에 따라 $ c ^ {*} (x) = 0 $ 이후 $ 1 _ {\ {c (x) = 1 \}} \ geq 0 $ 이면 불평등이 적용됩니다.

댓글

  • 표기법에 대해 질문이 있습니다. $ \ equiv $ (\equiv)를 의미합니까? == 기호는 프로그래밍에서 사용되는 대신 사용됩니다 (' 틀린 경우 수정하세요).
  • @Tim I 동의하다. " 같지 않음 "

을 나타내는 !=에도 동일한 보류가 적용됩니다.

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다