Wat is de beslissingsregel van Bayes?

Ga uit van binaire classificatie, dwz $ y \ in \ {- 1,1 \} $ en dat de onderliggende gezamenlijke kansverdeling die de gegevens genereert, bekend is, dwz $ P_ {x, y} (x, y) $ bekend is

Ik was vertelde dat de Bayes-beslissingsregel de voorspeller was die u kiest bij het oplossen van het volgende minimalisatieprobleem met de indicator variabele kostenfunctie (die aangeeft of u gelijk of fout heeft):

$ $ min_ {c \ in \ mathcal {H}} \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $$

Ik vroeg me af wat de resulterende voorspeller $ c ^ * $ was van het oplossen van het bovenstaande optimalisatieprobleem en wat de relatie was met de bekende distributie die de gegevens waren. dwz wat waren de voorspellers $ c ^ * $ relatie tot $ P_ {y | x} (1 | x) $ en $ P_ {y | x} (- 1 | x) $ .

Wat ik tot nu toe had gedaan, was $ \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $ :

$ \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] = \ mathbb {E} _ {x} \ mathbb {E} _ {y | x} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $

en minimaliseer vervolgens het volgende:

$ \ mathbb {E} _ {y | x} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] = P_ {y | x} (1 | x) \ mathbb {1} _ {\ {c (x) \ neq 1 \}} + P_ {y | x} (- 1 | x ) \ mathbb {1} _ {\ {c (x) \ neq 1 \}} $

Maar ik vond het moeilijk om verder te gaan omdat ik niet zeker wist hoe ik de bovenstaande uitdrukking moest minimaliseren . Intuïtief wil ik de voorspeller kiezen die mijn fout het laagst maakt. Dus ik zou het label $ 1 $ of $ – 1 $ kiezen, afhankelijk van welke de grootste kans had op voorkomen. Maar ik vond het moeilijk die intuïtie te koppelen aan de wiskunde en de vergelijking hierboven, in een precieze of rigoureuze kwestie.

Wat is de expliciete functie voor $ c ^ * (x) $ ?

Is de volgende functie de juiste? Zo ja, waarom dan?

$$ c ^ * (x) = sign (2p_ {y | x} (1 | x) – 1) $ $

Answer

Overweeg willekeurige variabelen $ X $ en $ Y $, waarbij $ Y \ in \ { + 1, -1 \} $. Wanneer de waarneming $ X $ de waarde $ x $ heeft, vertelt de beslissingsregel $ c (x) $, die een van de twee waarden $ + 1 $ en $ -1 $ aanneemt, wat waardeer de regel denkt $ Y $ heeft aangenomen. De keuze van de beslissingsfunctie $ c (x) $ verdeelt het bereik van $ X $ effectief in twee disjuncte sets $ \ Gamma _ {+ 1} $ en $ \ Gamma _ {- 1} $, dat wil zeggen $ c (x) $ kan worden uitgedrukt als $$ c (x) = \ begin {cases} +1, & x \ in \ Gamma _ {+ 1}, \\ – 1, & x \ in \ Gamma _ {- 1}. \ end {cases} $$ Het experiment wordt uitgevoerd, waardoor $ (X, Y) $ de waarde $ (x, y) $ krijgt, maar we kunnen alleen de waarde van $ x $ waarnemen. We passen de functie $ c (x) $ toe om onze beslissing $ + 1 $ of $ -1 $ te krijgen over wat de waarde van $ y $ is. Een superieur wezen (die alles weet inclusief de waarde van $ y $ die voor ons verborgen is) vertelt ons dan of we een fout hebben gemaakt of niet: fouten als $ y $ niet overeenkomt met de beslissing $ c (x) $ dat we bereikt. Laat $ f _ {- 1} (x) $ de voorwaardelijke dichtheid van $ X $ gegeven aangeven dat $ Y = -1 $. Vervolgens gegeven dat $ Y = -1 $, maken we een fout als de waargenomen waarde van $ X $ in de regio $ \ Gamma _ {+ 1} $ ligt en de conditionele foutkans is dus $ \ displaystyle P (E \ mid Y = -1) = \ int _ {\ Gamma _ {+ 1}} f _ {- 1} (x) \, \ mathrm dx. $ Evenzo is de voorwaardelijk foutkans wanneer $ Y = + 1 $ $ \ displaystyle P (E \ mid Y = + 1) = \ int _ {\ Gamma _ {- 1}} f _ {+ 1} (x ) \, \ mathrm dx. $ Daarom is de onvoorwaardelijke foutkans $ P (E) $ van deze beslissingsregel $$ \ begin {align} P (E) & = P \ {E \ mid Y = -1 \} P \ {Y = -1 \} + P \ {E \ mid Y = +1 \} P \ {Y = +1 \} \\ & = \ int _ {\ Gamma _ {+ 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \, \ mathrm dx + \ int_ { \ Gamma _ {- 1}} \ pi _ {+ 1} \ cdot f _ {+ 1} (x) \, \ mathrm dx \\ & = \ int _ {\ Gamma _ {+ 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \, \ mathrm dx + \ int _ {\ Gamma _ {- 1}} \ pi _ {+ 1} \ cdot f _ {+ 1} (x ) \, \ mathrm dx \\ & \ quad + \ int _ {\ Gamma _ {- 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \ , \ mathrm dx – \ int _ {\ Gamma _ {- 1}} \ pi _ {- 1} \ cdot f_ { -1} (x \, \ mathrm dx \\ & = \ pi _ {- 1} \ int _ {\ mathbb R} f _ {- 1} (x) \, \ mathrm dx + \ int _ {\ Gamma _ {- 1}} \ left [\ pi _ {+ 1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ right ] \, \ mathrm dx \\ P (E) & = \ pi _ {- 1} + \ int _ {\ Gamma _ {- 1}} \ left [\ pi _ {+ 1 } \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ right] \, \ mathrm dx \ tag {1} \ end {align} $$

De Bayesiaanse beslissingsregel is de regel die de rechterkant van $ (1) $ minimaliseert.We kunnen niets doen met de eerste term die hetzelfde is voor alle beslissingsregels, maar door een slimme keuze van de regio $ \ Gamma _ {- 1} $ (de beslissingsregel wordt effectief gedefinieerd door de regio $ \ Gamma _ {- 1} $), kunnen we $ P (E) $ kleiner maken. Merk op dat de integrand in $ (1) $ positief of negatief kan zijn, en door te kiezen voor $$ \ Gamma _ {- 1} = \ {x \ colon \ pi_ { +1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ leq 0 \}, \ tag {2} $$ (dus exclusief van $ \ Gamma _ {- 1} $ alle punten $ x $ waarvoor $ \ pi _ {+ 1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) > 0 $), zorgen we ervoor dat de integrand nooit positief is in het bereik van integratie, en dus de integraal heeft een zo negatief mogelijke waarde. Daarom minimaliseert de beslissingsregel die wordt beschreven in $ (2) $ $ P (E) $, en is dit de Bayesiaanse beslissingsregel.


Dus hoe verloopt dit alles in termen van posterieure distributies? De posterieure verdeling van $ Y $ gegeven $ X $ is discreet , en de Bayesiaanse beslissingsregel is om te kiezen welke waarde van $ Y $ een grotere posterieure waarschijnlijkheid heeft. In feite hebben we dat $$ \ begin {align} P \ {Y = + 1 \ mid X = x \} & = \ frac {\ pi _ {+ 1} f_ {+1} (x)} {\ pi _ {+ 1} \ cdot f _ {+ 1} (x) + \ pi _ {- 1} \ cdot f _ {- 1} (x)} \ tag {3} \\ P \ {Y = -1 \ mid X = x \} & = \ frac {\ pi _ {- 1} f _ {- 1} (x)} {\ pi _ {+ 1} \ cdot f _ {+ 1} (x) + \ pi _ {- 1} \ cdot f _ {- 1} (x)} \ tag {4} \ end {align} $$ en zo, de achterste kans kiezen groter geeft dezelfde beslissingsregel als $ (2) $. Als $ P \ {Y = + 1 \ mid X = x \} = p_ {y | x} (1 | x) $ in de OP-notatie groter is dan $ P \ {Y = -1 \ mid X = x \} $, dan is het waar dat $ p_ {y | x} (1 | x) > \ frac 12 $, en dus $ \ operatornaam {sgn} ( 2p_ {y | x} (1 | x) -1) = + 1 $, en zo

Ja, de Bayes-beslissingsregel $ c ^ * (x) $ kan worden uitgedrukt als $ \ operatornaam {sgn} (2p_ {y | x} (1 | x) -1) $

Het feit dat deze keuze $ P (E) $ minimaliseert, is echter veel moeilijker te zien vanaf $ (3) $ en $ (4) $ of vanuit de beknopte uitdrukking $ \ operatorname {sgn} ( 2p_ {y | x} (1 | x) -1) $ dan van de ontwikkeling die heeft geleid tot $ (2) $. Of tenminste, zo zie ik, een niet-statisticus, de kwestie; uw aantal kilometers kan variëren .

Antwoord

Het is gemakkelijker om het te bewijzen, als je het probleem op een iets andere manier formuleert:

$$ P (c (x) \ neq y) \ geq P (c ^ {*} (x) \ neq y) $$ of gelijkwaardig, $$ \ mathbb {E} _ {x, y} \ left [1 _ {\ {c (x) = y \}} \ right] \ leq \ mathbb {E} _ {x, y} \ left [1 _ {\ {c ^ {*} ( x) = y \}} \ right] $$ en in plaats van $ y \ in \ {- 1,1 \} $ te hebben, heb je $ y \ in \ {0,1 \} $ .

Merk op dat $ P_ {y | x} (0 | x) = 1-P_ {y | x} (1 | x) $ en $ 1 _ {\ {c (x) = 0 \ }} = 1-1 _ {\ {c (x) = 1 \}} $ , dus als we aftrekken,

$$ \ mathbb {E} _ {y | x} \ left [1 _ {\ {c ^ {*} (x) = y \}} \ right] – \ mathbb {E} _ {y | x} \ left [1 _ {\ {c (x) = y \}} \ right] = P_ {y | x} (1 | x) \ left (1 _ {\ {c ^ {*} (x) = 1 \}} – 1 _ {\ { c (x) = 1 \}} \ right) + P_ {y | x} (0 | x) \ left (1 _ {\ {c ^ {*} (x) = 0 \}} – 1 _ {\ {c (x) = 0 \}} \ right) = \ left (2P (1 | x) -1 \ right) \ left (1 _ {\ {c ^ {*} (x) = 1 \}} – 1 _ {\ {c (x) = 1 \}} \ right) \ geq 0 $$

Nu, als $ P (1 | x) > 1/2 $ , en vervolgens volgens de definitie van $ c ^ {*} (x) $ , $ c ^ {*} (x) = 1 $ , en sinds $ 1 _ {\ {c (x) = 1 \}} \ leq 0 $ , dan is deze uitdrukking groter of gelijk aan nul. Evenzo, als $ P (1 | x) < 1/2 $ , dan, per definitie, $ c ^ {*} (x) = 0 $ en sinds $ 1 _ {\ {c (x) = 1 \}} \ geq 0 $ , dan is de ongelijkheid van toepassing.

Opmerkingen

  • Ik heb een vraag over je notatie: door $ == $ heb je gemiddelde $ \ equiv $ (\equiv)? Het == -teken wordt eerder gebruikt bij het programmeren (corrigeer mij als ik ' m fout heb).
  • @Tim I mee eens. Hetzelfde geldt voor != wat aangeeft dat " niet gelijk is aan "

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *