Care este regula deciziei Bayes?

Să presupunem clasificare binară adică $ y \ in \ {- 1,1 \} $ și că este cunoscută distribuția de probabilitate comună care generează datele, adică $ P_ {x, y} (x, y) $ este cunoscută

am fost a spus că regula de decizie Bayes a fost predictorul pe care l-ați ales atunci când ați rezolvat următoarea problemă de minimizare cu funcția indicatorului de cost variabil (indicând dacă aveți dreptate sau greșeală):

$ $ min_ {c \ in \ mathcal {H}} \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $$

Mă întrebam, care a fost predictorul rezultat $ c ^ * $ de la rezolvarea problemei de optimizare de mai sus și care este relația sa cu distribuția cunoscută generatoare datele erau. adică care a fost predictorul $ c ^ * $ relația cu $ P_ {y | x} (1 | x) $ și $ P_ {y | x} (- 1 | x) $ .

Ceea ce făcusem până acum a fost extinderea $ \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $ :

$ \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] = \ mathbb {E} _ {x} \ mathbb {E} _ {y | x} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $

și apoi minimizați următoarele:

$ \ mathbb {E} _ {y | x} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] = P_ {y | x} (1 | x) \ mathbb {1} _ {\ {c (x) \ neq 1 \}} + P_ {y | x} (- 1 | x ) \ mathbb {1} _ {\ {c (x) \ neq 1 \}} $

Dar mi-a fost greu să merg mai departe, deoarece nu eram sigur cum să minimalizez expresia de mai sus . Intuitiv vreau să aleg predictorul care face ca eroarea mea să fie cea mai mică. Deci, aș alege eticheta $ 1 $ sau $ – 1 $ , în funcție de care a avut cea mai mare probabilitate de care se produce. Dar îmi era greu să conectez acea intuiție cu matematica și ecuația de mai sus, într-un precis sau riguros materie.

Care este funcția explicită pentru $ c ^ * (x) $ ?

Este următoarea funcție corectă? Dacă este, de ce așa?

$$ c ^ * (x) = sign (2p_ {y | x} (1 | x) – 1) $ $

Răspuns

Luați în considerare variabilele aleatoare $ X $ și $ Y $, unde $ Y \ in \ { + 1, -1 \} $. Când observația $ X $ are valoare $ x $, regula de decizie $ c (x) $, care ia una dintre cele două valori $ + 1 $ și $ -1 $, ne spune ce valorează regula pe care crede a acceptat-o $ Y $. Alegerea funcției de decizie $ c (x) $ împarte efectiv intervalul de $ X $ în două seturi disjuncte $ \ Gamma _ {+ 1} $ și $ \ Gamma _ {- 1} $, adică $ c (x) $ poate fi exprimat ca $$ c (x) = \ begin {cases} +1, & x \ in \ Gamma _ {+ 1}, \\ – 1, & x \ in \ Gamma _ {- 1}. \ end {cases} $$ Experimentul este efectuat, rezultând ca $ (X, Y) $ să ia valoarea $ (x, y) $, dar putem observa doar valoarea de $ x $. Aplicăm funcția $ c (x) $ pentru a obține decizia noastră $ + 1 $ sau $ -1 $ în ceea ce privește valoarea $ y $. O ființă superioară (care știe totul, inclusiv valoarea de $ y $ care ne-a fost ascunsă) ne spune apoi dacă am greșit sau nu: greșeli când $ y $ nu se potrivește cu decizia $ c (x) $ pe care o avem atins. Fie $ f _ {- 1} (x) $ să denote densitatea condițională de $ X $ dat că $ Y = -1 $. Apoi, dat că $ Y = -1 $, facem o greșeală dacă valoarea observată de $ X $ se află în regiunea $ \ Gamma _ {+ 1} $ și condițional probabilitatea de eroare este astfel $ \ displaystyle P (E \ mid Y = -1) = \ int _ {\ Gamma _ {+ 1}} f _ {- 1} (x) \, \ mathrm dx. $ În mod similar, condițional probabilitatea de eroare când $ Y = + 1 $ este $ \ displaystyle P (E \ mid Y = + 1) = \ int _ {\ Gamma _ {- 1}} f _ {+ 1} (x ) \, \ mathrm dx. $ Prin urmare, probabilitatea necondiționată de eroare $ P (E) $ a acestei reguli de decizie este $$ \ begin {align} P (E) & = P \ {E \ mid Y = -1 \} P \ {Y = -1 \} + P \ {E \ mid Y = +1 \} P \ {Y = +1 \} \\ & = \ int _ {\ Gamma _ {+ 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \, \ mathrm dx + \ int_ { \ Gamma _ {- 1}} \ pi _ {+ 1} \ cdot f _ {+ 1} (x) \, \ mathrm dx \\ & = \ int _ {\ Gamma _ {+ 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \, \ mathrm dx + \ int _ {\ Gamma _ {- 1}} \ pi _ {+ 1} \ cdot f _ {+ 1} (x ) \, \ mathrm dx \\ & \ quad + \ int _ {\ Gamma _ {- 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \ , \ mathrm dx – \ int _ {\ Gamma _ {- 1}} \ pi _ {- 1} \ cdot f_ { -1} (x \, \ mathrm dx \\ & = \ pi _ {- 1} \ int _ {\ mathbb R} f _ {- 1} (x) \, \ mathrm dx + \ int _ {\ Gamma _ {- 1}} \ left [\ pi _ {+ 1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ right ] \, \ mathrm dx \\ P (E) & = \ pi _ {- 1} + \ int _ {\ Gamma _ {- 1}} \ left [\ pi _ {+ 1 } \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ right] \, \ mathrm dx \ tag {1} \ end {align} $$

Regula de decizie Bayesian este regula care minimizează partea dreaptă a $ (1) $.Nu putem face nimic cu primul termen care este același pentru toate regulile de decizie, dar prin alegerea inteligentă a regiunii $ \ Gamma _ {- 1} $ (regula deciziei este definită efectiv de regiunea $ \ Gamma _ {- 1} $), putem face $ P (E) $ mai mic. Rețineți că integrand în $ (1) $ poate fi pozitiv sau negativ și prin alegerea $$ \ Gamma _ {- 1} = \ {x \ colon \ pi_ { +1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ leq 0 \}, \ tag {2} $$ (deci excluzând din $ \ Gamma _ {- 1} $ toate punctele $ x $ pentru care $ \ pi _ {+ 1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) > 0 $), ne asigurăm că integrandul nu este niciodată pozitiv în intervalul de integrare, astfel încât integralul are o valoare cât mai negativă posibil. Prin urmare, regula de decizie descrisă în $ (2) $ minimizează $ P (E) $ și este regula de decizie bayesiană.


Deci, cum se joacă toate acestea în ceea ce privește distribuțiile posterioare? Distribuția posterioară a $ Y $, dată $ X $ este discretă și regula de decizie bayesiană este aceea de a alege oricare valoare a lui $ Y $ are o probabilitate posterioară mai mare. De fapt, avem $$ \ begin {align} P \ {Y = + 1 \ mid X = x \} & = \ frac {\ pi _ {+ 1} f_ {+1} (x)} {\ pi _ {+ 1} \ cdot f _ {+ 1} (x) + \ pi _ {- 1} \ cdot f _ {- 1} (x)} \ tag {3} \\ P \ {Y = -1 \ mid X = x \} & = \ frac {\ pi _ {- 1} f _ {- 1} (x)} {\ pi _ {+ 1} \ cdot f _ {+ 1} (x) + \ pi _ {- 1} \ cdot f _ {- 1} (x)} \ tag {4} \ end {align} $$ și așa, alegând oricare dintre probabilitățile posterioare mai mare oferă aceeași regulă de decizie ca $ (2) $. Acum, dacă $ P \ {Y = + 1 \ mid X = x \} = p_ {y | x} (1 | x) $ în notația OP este mai mare decât $ P \ {Y = -1 \ mid X = x \} $, atunci este adevărat că $ p_ {y | x} (1 | x) > \ frac 12 $, deci $ \ operatorname {sgn} ( 2p_ {y | x} (1 | x) -1) = + 1 $, și așa

Da, regula deciziei Bayes $ c ^ * (x) $ poate să fie exprimat ca $ \ operatorname {sgn} (2p_ {y | x} (1 | x) -1) $

Cu toate acestea, faptul că această alegere minimizează $ P (E) $ este mult mai greu de văzut din $ (3) $ și $ (4) $ sau din expresia succintă $ \ operatorname {sgn} ( 2p_ {y | x} (1 | x) -1) $ decât din dezvoltarea care a dus la $ (2) $. Sau cel puțin așa percep eu, un non-statistic, problema; kilometrajul dvs. poate varia .

Răspuns

Este mai ușor să o demonstrezi, dacă formulezi problema într-un mod ușor diferit:

$$ P (c (x) \ neq y) \ geq P (c ^ {*} (x) \ neq y) $$ sau echivalent, $$ \ mathbb {E} _ {x, y} \ left [1 _ {\ {c (x) = y \}} \ right] \ leq \ mathbb {E} _ {x, y} \ left [1 _ {\ {c ^ {*} ( x) = y \}} \ right] $$ și în loc să aveți $ y \ în \ {- 1,1 \} $ , aveți $ y \ in \ {0,1 \} $ .

Observați că $ P_ {y | x} (0 | x) = 1-P_ {y | x} (1 | x) $ și $ 1 _ {\ {c (x) = 0 \ }} = 1-1 _ {\ {c (x) = 1 \}} $ , deci dacă scădem,

$$ \ mathbb {E} _ {y | x} \ left [1 _ {\ {c ^ {*} (x) = y \}} \ right] – \ mathbb {E} _ {y | x} \ left [1 _ {\ {c (x) = y \}} \ right] = P_ {y | x} (1 | x) \ left (1 _ {\ {c ^ {*} (x) = 1 \}} – 1 _ {\ { c (x) = 1 \}} \ right) + P_ {y | x} (0 | x) \ left (1 _ {\ {c ^ {*} (x) = 0 \}} – 1 _ {\ {c (x) = 0 \}} \ right) = \ left (2P (1 | x) -1 \ right) \ left (1 _ {\ {c ^ {*} (x) = 1 \}} – 1 _ {\ {c (x) = 1 \}} \ right) \ geq 0 $$

Acum, dacă $ P (1 | x) > 1/2 $ , apoi prin definiția $ c ^ {*} (x) $ , $ c ^ {*} (x) = 1 $ și din $ 1 _ {\ {c (x) = 1 \}} \ leq 0 $ , atunci această expresie este mai mare sau egală cu zero. La fel, dacă $ P (1 | x) < 1/2 $ , atunci, prin definiție, $ c ^ {*} (x) = 0 $ și din moment ce $ 1 _ {\ {c (x) = 1 \}} \ geq 0 $ , atunci se aplică inegalitatea.

Comentarii

  • Am o întrebare despre notația dvs.: până la $ == $ ați făcut înseamnă $ \ equiv $ (\equiv)? Semnul == este folosit mai degrabă în programare (corectează-mă dacă ' greșesc).
  • @Tim I de acord. Același lucru este valabil pentru != care indică " nu este egal cu "

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *