Przyjmij klasyfikację binarną, tj. $ y \ in \ {- 1,1 \} $ i że znany jest podstawowy rozkład prawdopodobieństwa generującego dane, tj. $ P_ {x, y} (x, y) $ jest znany
Byłem powiedział, że reguła decyzyjna Bayesa była predyktorem, który wybrałeś podczas rozwiązywania następującego problemu minimalizacji za pomocą funkcji wskaźnika zmiennych kosztów (wskazującej, czy masz rację, czy nie):
$ $ min_ {c \ in \ mathcal {H}} \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $$
Zastanawiałem się, jaki jest wynikowy predyktor $ c ^ * $ z rozwiązania powyższego problemu optymalizacji i jaki jest jego związek z generowaniem znanej dystrybucji dane były. tj. jakie były predyktory $ c ^ * $ w relacji do $ P_ {y | x} (1 | x) $ i $ P_ {y | x} (- 1 | x) $ .
Do tej pory rozwinąłem $ \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $ :
$ \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] = \ mathbb {E} _ {x} \ mathbb {E} _ {y | x} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $
a następnie zminimalizuj następujące elementy:
$ \ mathbb {E} _ {y | x} [\ mathbb {1} _ {\ {c (x)) \ neq y \}}] = P_ {y | x} (1 | x) \ mathbb {1} _ {\ {c (x) \ neq 1 \}} + P_ {y | x} (- 1 | x ) \ mathbb {1} _ {\ {c (x) \ neq 1 \}} $
Ale miałem trudności z przejściem dalej, ponieważ nie byłem pewien, jak zminimalizować powyższe wyrażenie . Intuicyjnie chcę wybrać predyktor, który sprawi, że mój błąd będzie najniższy. Dlatego wybrałbym etykietę 1 $ lub $ – 1 $ , w zależności od tego, która z nich ma największe prawdopodobieństwo występujący. Trudno mi było jednak powiązać tę intuicję z matematyką i powyższym równaniem w precyzyjnym lub rygorystyczna sprawa.
Jaka jest jawna funkcja dla $ c ^ * (x) $ ?
Czy poniższa funkcja jest poprawna? Jeśli tak, dlaczego tak jest?
$$ c ^ * (x) = sign (2p_ {y | x} (1 | x) – 1) $ $
Odpowiedź
Weź pod uwagę zmienne losowe $ X $ i $ Y $, gdzie $ Y \ in \ { + 1, -1 \} $. Gdy obserwacja $ X $ ma wartość $ x $, reguła decyzyjna $ c (x) $, która przyjmuje jedną z dwóch wartości $ + 1 $ i $ -1 $, mówi nam, co wartość, według której reguła uważa $ Y $. Wybór funkcji decyzyjnej $ c (x) $ skutecznie dzieli zakres $ X $ na dwa rozłączne zbiory $ \ Gamma _ {+ 1} $ i $ \ Gamma _ {- 1} $, czyli $ c (x) $ można wyrazić jako $$ c (x) = \ begin {cases} +1, & x \ in \ Gamma _ {+ 1}, \\ – 1, & x \ in \ Gamma _ {- 1}. \ end {cases} $$ Eksperyment jest wykonywany, w wyniku czego $ (X, Y) $ przyjmuje wartość $ (x, y) $, ale możemy obserwować tylko wartość $ x $. Stosujemy funkcję $ c (x) $, aby otrzymać decyzję $ + 1 $ lub $ -1 $, jaka jest wartość $ y $. Istota nadrzędna (która wie wszystko, łącznie z wartością $ y $, która została przed nami ukryta) mówi nam, czy popełniliśmy błąd, czy nie: błędy, gdy $ y $ nie zgadza się z decyzją $ c (x) $, którą my osiągnął. Niech $ f _ {- 1} (x) $ oznacza warunkową gęstość X $ przy założeniu , że $ Y = -1 $. Następnie mając , że $ Y = -1 $, popełniamy błąd, jeśli obserwowana wartość $ X $ jest w regionie $ \ Gamma _ {+ 1} $, a warunkowa prawdopodobieństwo błędu wynosi zatem $ \ Displaystyle P (E \ mid Y = -1) = \ int _ {\ Gamma _ {+ 1}} f _ {- 1} (x) \ \, \ mathrm dx. $ Podobnie, warunkowe prawdopodobieństwo błędu, gdy $ Y = + 1 $ to $ \ Displaystyle P (E \ mid Y = + 1) = \ int _ {\ Gamma _ {- 1}} f _ {+ 1} (x ) \, \ mathrm dx. $ Stąd bezwarunkowe prawdopodobieństwo błędu $ P (E) $ tej reguły decyzyjnej wynosi $$ \ begin {align} P (E) & = P \ {E \ mid Y = -1 \} P \ {Y = -1 \} + P \ {E \ mid Y = +1 \} P \ {Y = +1 \} \\ & = \ int _ {\ Gamma _ {+ 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \, \ mathrm dx + \ int_ { \ Gamma _ {- 1}} \ pi _ {+ 1} \ cdot f _ {+ 1} (x) \, \ mathrm dx \\ & = \ int _ {\ Gamma _ {+ 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \, \ mathrm dx + \ int _ {\ Gamma _ {- 1}} \ pi _ {+ 1} \ cdot f _ {+ 1} (x ) \, \ mathrm dx \\ & \ quad + \ int _ {\ Gamma _ {- 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \ , \ mathrm dx – \ int _ {\ Gamma _ {- 1}} \ pi _ {- 1} \ cdot f_ { -1} (x \, \ mathrm dx \\ & = \ pi _ {- 1} \ int _ {\ mathbb R} f _ {- 1} (x) \, \ mathrm dx + \ int _ {\ Gamma _ {- 1}} \ left [\ pi _ {+ 1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ right ] \, \ mathrm dx \\ P (E) & = \ pi _ {- 1} + \ int _ {\ Gamma _ {- 1}} \ left [\ pi _ {+ 1 } \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ right] \, \ mathrm dx \ tag {1} \ end {align} $$
Bayesowska reguła decyzyjna jest regułą, która minimalizuje prawą stronę $ (1) $.Nie możemy nic zrobić z pierwszym terminem, który jest taki sam dla wszystkich reguł decyzyjnych, ale przez sprytny wybór regionu $ \ Gamma _ {- 1} $ (reguła decyzyjna jest efektywnie definiowana przez region $ \ Gamma _ {- 1} $), możemy zmniejszyć $ P (E) $. Zwróć uwagę, że całka w $ (1) $ może być dodatnia lub ujemna i wybierając $$ \ Gamma _ {- 1} = \ {x \ colon \ pi_ { +1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ leq 0 \}, \ tag {2} $$ (zatem wykluczając od $ \ Gamma _ {- 1} $ wszystkie punkty $ x $ za które $ \ pi _ {+ 1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) > 0 $), upewniamy się, że całka nigdy nie jest dodatnia w zakresie całkowania, a więc całka ma jak najmniejszą wartość. Stąd reguła decyzyjna opisana w $ (2) $ minimalizuje $ P (E) $ i jest regułą decyzji Bayesa.
Jak to wszystko wygląda w odniesieniu do późniejszych dystrybucji? Późniejszy rozkład Y $, biorąc pod uwagę $ X $, jest dyskretny , a reguła decyzyjna Bayesa zakłada wybranie dowolnej wartości Y $, która ma większe prawdopodobieństwo późniejsze. W rzeczywistości mamy to $$ \ begin {align} P \ {Y = + 1 \ mid X = x \} & = \ frac {\ pi _ {+ 1} f_ {+1} (x)} {\ pi _ {+ 1} \ cdot f _ {+ 1} (x) + \ pi _ {- 1} \ cdot f _ {- 1} (x)} \ tag {3} \\ P \ {Y = -1 \ mid X = x \} & = \ frac {\ pi _ {- 1} f _ {- 1} (x)} {\ pi _ {+ 1} \ cdot f _ {+ 1} (x) + \ pi _ {- 1} \ cdot f _ {- 1} (x)} \ tag {4} \ end {align} $$ i tak, wybierając dowolne późniejsze prawdopodobieństwo większy daje taką samą regułę decyzyjną jak $ (2) $. Teraz, jeśli $ P \ {Y = + 1 \ mid X = x \} = p_ {y | x} (1 | x) $ w notacji OP jest większe niż $ P \ {Y = -1 \ mid X = x \} $, to jest prawdą, że $ p_ {y | x} (1 | x) > \ frac 12 $, a więc $ \ operatorname {sgn} ( 2p_ {y | x} (1 | x) -1) = + 1 $, i tak
Tak, reguła decyzji Bayesa $ c ^ * (x) $ można wyrazić jako $ \ operatorname {sgn} (2p_ {y | x} (1 | x) -1) $
Jednak fakt, że ten wybór minimalizuje $ P (E) $, jest dużo trudniejszy do zobaczenia na podstawie $ (3) $ i $ (4) $ lub w zwięzłym wyrażeniu $ \ operatorname {sgn} ( 2p_ {y | x} (1 | x) -1) $ niż z rozwoju, który doprowadził do $ (2) $. A przynajmniej tak ja, niestatystyk, postrzegam sprawę; Twój przebieg może się różnić .
Odpowiedź
Łatwiej to udowodnić, jeśli sformułujesz problem w nieco inny sposób:
$$ P (c (x) \ neq y) \ geq P (c ^ {*} (x) \ neq y) $$ lub równoważnie, $$ \ mathbb {E} _ {x, y} \ left [1 _ {\ {c (x) = y \}} \ right] \ leq \ mathbb {E} _ {x, y} \ left [1 _ {\ {c ^ {*} ( x) = y \}} \ right] $$ i zamiast $ y \ in \ {- 1,1 \} $ , masz $ y \ in \ {0,1 \} $ .
Zwróć uwagę, że $ P_ {y | x} (0 | x) = 1-P_ {y | x} (1 | x) $ i $ 1 _ {\ {c (x) = 0 \ }} = 1-1 _ {\ {c (x) = 1 \}} $ , więc jeśli odejmiemy,
$$ \ mathbb {E} _ {y | x} \ left [1 _ {\ {c ^ {*} (x) = y \}} \ right] – \ mathbb {E} _ {y | x} \ left [1 _ {\ {c (x) = y \}} \ right] = P_ {y | x} (1 | x) \ left (1 _ {\ {c ^ {*} (x) = 1 \}} – 1 _ {\ { c (x) = 1 \}} \ right) + P_ {y | x} (0 | x) \ left (1 _ {\ {c ^ {*} (x) = 0 \}} – 1 _ {\ {c (x) = 0 \}} \ right) = \ left (2P (1 | x) -1 \ right) \ left (1 _ {\ {c ^ {*} (x) = 1 \}} – 1 _ {\ {c (x) = 1 \}} \ right) \ geq 0 $$
Teraz, jeśli $ P (1 | x) > 1/2 $ , a następnie zgodnie z definicją $ c ^ {*} (x) $ , $ c ^ {*} (x) = 1 $ , a ponieważ 1 $ _ {\ {c (x) = 1 \}} \ leq 0 $ , to wyrażenie jest większe lub równe zero. Podobnie, jeśli $ P (1 | x) < 1/2 $ , to z definicji $ c ^ {*} (x) = 0 $ i ponieważ $ 1 _ {\ {c (x) = 1 \}} \ geq 0 $ , to nierówność ma zastosowanie.
\equiv
)? Znak==
jest używany raczej w programowaniu (popraw mnie, jeśli ' m źle).!=
wskazującego, że " nie jest równe "