Co je Bayesovo rozhodovací pravidlo?

Předpokládejme binární klasifikaci, tj. $ y \ in \ {- 1,1 \} $ a že podkladové společné rozdělení pravděpodobnosti generující data je známé, tj. $ P_ {x, y} (x, y) $ je známo

Byl jsem řekl, že Bayesovo rozhodovací pravidlo bylo prediktorem, který jste zvolili při řešení následujícího problému minimalizace s funkcí proměnné ceny indikátoru (označující, zda máte pravdu nebo ne):

$ $ min_ {c \ in \ mathcal {H}} \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $$

Zajímalo by mě, jaký byl výsledný prediktor $ c ^ * $ při řešení výše uvedeného optimalizačního problému a jaký je jeho vztah ke známé distribuci generující data byla. tj. jaké byly prediktory $ c ^ * $ vztah k $ P_ {y | x} (1 | x) $ a $ P_ {y | x} (- 1 | x) $ .

To, co jsem doposud udělal, bylo rozšíření $ \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $ :

$ \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] = \ mathbb {E} _ {x} \ mathbb {E} _ {y | x} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $

a poté minimalizujte následující:

$ \ mathbb {E} _ {y | x} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] = P_ {y | x} (1 | x) \ mathbb {1} _ {\ {c (x) \ neq 1 \}} + P_ {y | x} (- 1 | x ) \ mathbb {1} _ {\ {c (x) \ neq 1 \}} $

Ale těžko jsem se pohyboval dál, protože jsem si nebyl jistý, jak minimalizovat výše uvedený výraz . Intuitivně chci vybrat prediktor, díky kterému bude moje chyba nejnižší. Takže bych zvolil štítek $ 1 $ nebo $ – 1 $ , podle toho, která měla nejvyšší pravděpodobnost vyskytující se. Ale těžko jsem propojoval tuto intuici s matematikou a výše uvedenou rovnicí, v přesném nebo přísné záležitosti.

Jaká je explicitní funkce pro $ c ^ * (x) $ ?

Je následující funkce správná? Pokud ano, proč ano?

$$ c ^ * (x) = sign (2p_ {y | x} (1 | x) – 1) $ $

Odpověď

Zvažte náhodné proměnné $ X $ a $ Y $, kde $ Y \ in \ { + 1, -1 \} $. Když má pozorování $ X $ hodnotu $ x $, rozhodovací pravidlo $ c (x) $, které nabývá jedné ze dvou hodnot $ + 1 $ a $ -1 $, nám říká, co hodnota pravidla myslí $ Y $ přijalo. Volba rozhodovací funkce $ c (x) $ efektivně rozděluje rozsah $ X $ na dvě disjunktní sady $ \ Gamma _ {+ 1} $ a $ \ Gamma _ {- 1} $, tj. $ C (x) $ lze vyjádřit jako $$ c (x) = \ begin {cases} +1, & x \ in \ Gamma _ {+ 1}, \\ – 1, & x \ in \ Gamma _ {- 1}. \ end {cases} $$ Je proveden experiment, jehož výsledkem je, že $ (X, Y) $ získá hodnotu $ (x, y) $, ale můžeme pozorovat pouze hodnotu $ x $. Funkci $ c (x) $ použijeme, abychom dostali rozhodnutí $ + 1 $ nebo $ -1 $, co je hodnota $ y $. Nadřazená bytost (která ví všechno, včetně hodnoty $ y $, která nám byla skryta), nám potom říká, zda jsme udělali chybu nebo ne: chyby, když $ y $ neodpovídá rozhodnutí $ c (x) $, které jsme dosáhla. Nechť $ f _ {- 1} (x) $ označuje podmíněnou hustotu $ X $ vzhledem , že $ Y = -1 $. Potom vzhledem že $ Y = -1 $ uděláme chybu, pokud je pozorovaná hodnota $ X $ v oblasti $ \ Gamma _ {+ 1} $ a podmíněné pravděpodobnost chyby je tedy $ \ displaystyle P (E \ mid Y = -1) = \ int _ {\ Gamma _ {+ 1}} f _ {- 1} (x) \, \ mathrm dx. $ Podobně podmíněná pravděpodobnost chyby, když $ Y = + 1 $ je $ \ displaystyle P (E \ mid Y = + 1) = \ int _ {\ Gamma _ {- 1}} f _ {+ 1} (x ) \, \ mathrm dx. $ Proto bezpodmínečná pravděpodobnost chyby $ P (E) $ tohoto rozhodovacího pravidla je $$ \ begin {align} P (E) & = P \ {E \ mid Y = -1 \} P \ {Y = -1 \} + P \ {E \ mid Y = +1 \} P \ {Y = +1 \} \\ & = \ int _ {\ Gamma _ {+ 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \, \ mathrm dx + \ int_ { \ Gamma _ {- 1}} \ pi _ {+ 1} \ cdot f _ {+ 1} (x) \, \ mathrm dx \\ & = \ int _ {\ Gamma _ {+ 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \, \ mathrm dx + \ int _ {\ Gamma _ {- 1}} \ pi _ {+ 1} \ cdot f _ {+ 1} (x ) \, \ mathrm dx \\ & \ quad + \ int _ {\ Gamma _ {- 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \ , \ mathrm dx – \ int _ {\ Gamma _ {- 1}} \ pi _ {- 1} \ cdot f_ { -1} (x \, \ mathrm dx \\ & = \ pi _ {- 1} \ int _ {\ mathbb R} f _ {- 1} (x) \, \ mathrm dx + \ int _ {\ Gamma _ {- 1}} \ left [\ pi _ {+ 1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ right ] \, \ mathrm dx \\ P (E) & = \ pi _ {- 1} + \ int _ {\ Gamma _ {- 1}} \ left [\ pi _ {+ 1 } \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ right] \, \ mathrm dx \ tag {1} \ end {align} $$

Bayesovské rozhodovací pravidlo je pravidlo, které minimalizuje pravou stranu $ (1) $.S prvním výrazem, který je stejný pro všechna pravidla rozhodování, nemůžeme nic dělat, ale chytrým výběrem oblasti $ \ Gamma _ {- 1} $ (rozhodovací pravidlo je efektivně definováno oblastí $ \ Gamma _ {- 1} $), můžeme $ P (E) $ zmenšit. Všimněte si, že integrand v $ (1) $ může být kladné nebo záporné a výběrem $$ \ Gamma _ {- 1} = \ {x \ colon \ pi_ { +1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ leq 0 \}, \ tag {2} $$ (tedy kromě od $ \ Gamma _ {- 1} $ všechny body $ x $, za které $ \ pi _ {+ 1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) > 0 $), dbáme na to, aby integrand nikdy nebyl kladný v rozsahu integrace, takže integrál má co nejnegativnější hodnotu. Proto rozhodovací pravidlo popsané v $ (2) $ minimalizuje $ P (E) $ a je Bayesiánským rozhodovacím pravidlem.


Takže jak se to všechno odehrává z hlediska zadního rozdělení? Zadní rozdělení $ Y $ vzhledem k $ X $ je diskrétní a podle Bayesovského rozhodovacího pravidla je třeba zvolit kteroukoli hodnotu $ Y $ má větší zadní pravděpodobnost. Ve skutečnosti máme $$ \ begin {align} P \ {Y = + 1 \ mid X = x \} & = \ frac {\ pi _ {+ 1} f_ {+1} (x)} {\ pi _ {+ 1} \ cdot f _ {+ 1} (x) + \ pi _ {- 1} \ cdot f _ {- 1} (x)} \ tag {3} \\ P \ {Y = -1 \ mid X = x \} & = \ frac {\ pi _ {- 1} f _ {- 1} (x)} {\ pi _ {+ 1} \ cdot f _ {+ 1} (x) + \ pi _ {- 1} \ cdot f _ {- 1} (x)} \ tag {4} \ end {align} $$ a tak, podle toho, která z pravděpodobností je pozdější větší dává stejné rozhodovací pravidlo jako $ (2) $. Nyní, pokud $ P \ {Y = + 1 \ mid X = x \} = p_ {y | x} (1 | x) $ v zápisu OP je větší než $ P \ {Y = -1 \ mid X = x \} $, pak platí, že $ p_ {y | x} (1 | x) > \ frac 12 $, a tak $ \ operatorname {sgn} ( 2p_ {y | x} (1 | x) -1) = + 1 $, a tak

Ano, pravidlo Bayesova rozhodnutí $ c ^ * (x) $ lze vyjádřit jako $ \ operatorname {sgn} (2p_ {y | x} (1 | x) -1) $

Avšak skutečnost, že tato volba minimalizuje $ P (E) $, je mnohem těžší vidět z $ (3) $ a $ (4) $ nebo z výstižného výrazu $ \ operatorname {sgn} ( 2p_ {y | x} (1 | x) -1) $ než z vývoje, který vedl k $ (2) $. Nebo alespoň takhle to vnímám já, nestatistik; váš počet kilometrů se může lišit .

Odpověď

Je snazší to dokázat, pokud problém formulujete trochu jiným způsobem:

$$ P (c (x) \ neq y) \ geq P (c ^ {*} (x) \ neq y) $$ nebo ekvivalentně, $$ \ mathbb {E} _ {x, y} \ left [1 _ {\ {c (x) = y \}} \ right] \ leq \ mathbb {E} _ {x, y} \ left [1 _ {\ {c ^ {*} ( x) = y \}} \ right] $$ a místo $ y \ in \ {- 1,1 \} $ máte $ y \ in \ {0,1 \} $ .

Všimněte si, že $ P_ {y | x} (0 | x) = 1-P_ {y | x} (1 | x) $ a $ 1 _ {\ {c (x) = 0 \ }} = 1-1 _ {\ {c (x) = 1 \}} $ , tedy pokud odečteme,

$$ \ mathbb {E} _ {y | x} \ left [1 _ {\ {c ^ {*} (x) = y \}} \ right] – \ mathbb {E} _ {y | x} \ left [1 _ {\ {c (x) = y \}} \ vpravo] = P_ {y | x} (1 | x) \ vlevo (1 _ {\ {c ^ {*} (x) = 1 \}} – 1 _ {\ { c (x) = 1 \}} \ vpravo) + P_ {y | x} (0 | x) \ vlevo (1 _ {\ {c ^ {*} (x) = 0 \}} – 1 _ {\ {c (x) = 0 \}} \ vpravo) = \ vlevo (2P (1 | x) -1 \ vpravo) \ vlevo (1 _ {\ {c ^ {*} (x) = 1 \}} – 1 _ {\ {c (x) = 1 \}} \ vpravo) \ geq 0 $$

Nyní, pokud $ P (1 | x) > 1/2 $ , poté podle definice $ c ^ {*} (x) $ , $ c ^ {*} (x) = 1 $ a od $ 1 _ {\ {c (x) = 1 \}} \ leq 0 $ , pak je tento výraz větší nebo roven nule. Stejně tak, pokud $ P (1 | x) < 1/2 $ , pak podle definice $ c ^ {*} (x) = 0 $ a od $ 1 _ {\ {c (x) = 1 \}} \ geq 0 $ , potom se použije nerovnost.

Komentáře

  • Mám dotaz ohledně vaší notace: od $ == $ průměrný $ \ equiv $ (\equiv)? Značka == se používá spíše v programování (opravte mě, pokud se ' mýlím).
  • @Tim I souhlasit. Totéž platí pro != označující " nerovná se "

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *