Mi a Bayes-döntési szabály?

Tegyük fel a bináris besorolást, azaz $ y \ in \ {- 1,1 \} $ és hogy az adatokat létrehozó mögöttes közös valószínűségi eloszlás ismert, azaz $ P_ {x, y} (x, y) $ ismert

elmondta, hogy a Bayes döntési szabálya volt az az előrejelző, amelyet választott, amikor megoldotta a következő minimalizálási problémát az indikátor változó költség funkcióval (jelezve, hogy igaza vagy tévedése van-e):

$ $ min_ {c \ in \ mathcal {H}} \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $$

Kíváncsi voltam, hogy mi eredményezte a prediktort $ c ^ * $ a fenti optimalizálási probléma megoldásával, és mi a kapcsolata az ismert terjesztést generáló az adatok voltak. azaz mi volt a prediktorok $ c ^ * $ viszonya a $ P_ {y | x} (1 | x) $ és $ P_ {y | x} (- 1 | x) $ .

Amit eddig tettem, az kibővült $ \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $ :

$ \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] = \ mathbb {E} _ {x} \ mathbb {E} _ {y | x} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $

, majd minimalizálja a következőket:

$ \ mathbb {E} _ {y | x} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] = P_ {y | x} (1 | x) \ mathbb {1} _ {\ {c (x) \ neq 1 \}} + P_ {y | x} (- 1 | x ) \ mathbb {1} _ {\ {c (x) \ neq 1 \}} $

De nehezen tudtam továbblépni, mert nem voltam biztos abban, hogyan minimalizálhatom a fenti kifejezést . Intuitív módon azt a prediktort szeretném választani, amely a hibámat a legalacsonyabbá teszi. Tehát a $ 1 $ vagy a $ – 1 $ címkét választanám, attól függően, hogy melyik valószínűsége a legnagyobb előforduló. De nehezen tudtam összekapcsolni ezt az intuíciót a matekkal és a fenti egyenlettel pontos vagy szigorú számít.

Mi a $ c ^ * (x) $ ?

A következő függvény a helyes? Ha igen, miért?

$$ c ^ * (x) = sign (2p_ {y | x} (1 | x) – 1) $ $

Válasz

Vegye fontolóra a $ X $ és a $ Y $ véletlen változókat, ahol $ Y \ a \ { + 1, -1 \} $. Amikor a $ X $ megfigyelés értéke $ x $, a döntési szabály $ c (x) $, amely a két $ + 1 $ és $ -1 $ egyik értékét felveszi, megmondja, mi értékeld a szabályt, amely szerint $ Y $ átvette A $ c (x) $ döntési függvény megválasztása a $ X $ tartományt két disszjunkt halmazra osztja fel: $ \ Gamma _ {+ 1} $ és $ \ Gamma _ {- 1} $, azaz $ c (x) $ kifejezhető $$ c (x) = \ elején {esetek} +1, & x \ -ban \ Gamma _ {+ 1}, \\ – 1, & x \ a \ Gamma _ {- 1} fájlban. \ end {cases} $$ A kísérletet végrehajtjuk, aminek eredményeként $ (X, Y) $ felveszi a $ (x, y) $ értéket, de csak a $ x $ értékét figyelhetjük meg. A $ c (x) $ függvényt alkalmazzuk, hogy megkapjuk a $ + 1 $ vagy $ -1 $ döntést arról, hogy mi a $ y $ értéke. Egy felsőbbrendű lény (aki mindent tud, beleértve a $ y $ értékét is, amelyet elrejtettek előttünk), akkor elmondja nekünk, hogy hibáztunk-e vagy sem: hibák, amikor $ y $ nem egyezik meg a $ c (x) $ döntéssel elérte. Jelölje $ f _ {- 1} (x) $ a $ X $ feltételes sűrűségét, adott , hogy $ Y = -1 $. Ezután, ha adott , hogy $ Y = -1 $, hibázunk, ha a $ X $ megfigyelt értéke a $ \ Gamma _ {+ 1} $ régióban van, és a feltételes a hiba valószínűsége tehát $ \ displaystyle P (E \ közepes Y = -1) = \ int _ {\ Gamma _ {+ 1}} f _ {- 1} (x) \, \ mathrm dx. $ Hasonlóképpen a feltételes a hiba valószínűsége, amikor $ Y = + 1 $ = $ \ displaystyle P (E \ közepe Y = + 1) = \ int _ {\ Gamma _ {- 1}} f _ {+ 1} (x ) \, \ mathrm dx. $ Ennélfogva ennek a döntési szabálynak a $ P (E) $ hibájának feltétel nélküli valószínűsége $$ \ begin {align} P (E) & = P \ {E \ közepes Y = -1 \} P \ {Y = -1 \} + P \ {E \ közepes Y = +1 \} P \ {Y = +1 \} \\ & = \ int _ {\ Gamma _ {+ 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \, \ mathrm dx + \ int_ { \ Gamma _ {- 1}} \ pi _ {+ 1} \ cdot f _ {+ 1} (x) \, \ mathrm dx \\ & = \ int _ {\ Gamma _ {+ 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \, \ mathrm dx + \ int _ {\ Gamma _ {- 1}} \ pi _ {+ 1} \ cdot f _ {+ 1} (x ) \, \ mathrm dx \\ & \ quad + \ int _ {\ Gamma _ {- 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \ , \ mathrm dx – \ int _ {\ Gamma _ {- 1}} \ pi _ {- 1} \ cdot f_ { -1} (x \, \ mathrm dx \\ & = \ pi _ {- 1} \ int _ {\ mathbb R} f _ {- 1} (x) \, \ mathrm dx + \ int _ {\ Gamma _ {- 1}} \ balra [\ pi _ {+ 1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ jobbra ] \, \ mathrm dx \\ P (E) & = \ pi _ {- 1} + \ int _ {\ Gamma _ {- 1}} \ balra [\ pi _ {+ 1 } \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ right] \, \ mathrm dx \ tag {1} \ end {align} $$

A Bayesian döntési szabály az a szabály, amely minimalizálja a $ (1) $ jobb oldalát.Az első kifejezéssel, amely minden döntési szabály esetében azonos, nem tehetünk semmit, de a régió $ \ Gamma _ {- 1} $ okos megválasztásával (a döntési szabályt a $ régió határozza meg hatékonyan. \ Gamma _ {- 1} $), csökkenthetjük a $ P (E) $ értéket. Ne feledje, hogy a $ (1) $ -ban szereplő integrand pozitív vagy negatív lehet, és választva $$ \ Gamma _ {- 1} = \ {x \ kettőspont \ pi_ { +1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ leq 0 \}, \ tag {2} $$ (így kizárva $ \ Gamma _ {- 1} $ összes pontból $ x $, amelyhez $ \ pi _ {+ 1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) > 0 $), ügyelünk arra, hogy az integráns soha ne legyen pozitív az integráció tartományában, és így az integrálnak a lehető negatív értéke van. Ezért a $ (2) $ -ban leírt döntési szabály minimalizálja a $ P (E) $ értéket, és ez a Bayesi döntési szabály.


Tehát hogyan játszódik le mindez a hátsó eloszlás szempontjából? A $ X $ utólagos eloszlása adott $ X $ esetén diszkrét , és a Bayes-i döntési szabály szerint úgy döntenek, hogy melyik $ Y $ értéket választják, nagyobb a hátsó valószínűség. Valójában megvan, hogy $$ \ begin {align} P \ {Y = + 1 \ mid X = x \} & = \ frac {\ pi _ {+ 1} f_ {+1} (x)} {\ pi _ {+ 1} \ cdot f _ {+ 1} (x) + \ pi _ {- 1} \ cdot f _ {- 1} (x)} \ tag {3} \\ P \ {Y = -1 \ közepes X = x \} & = \ frac {\ pi _ {- 1} f _ {- 1} (x)} {\ pi _ {+ 1} \ cdot f _ {+ 1} (x) + \ pi _ {- 1} \ cdot f _ {- 1} (x)} \ tag {4} \ end {align} $$ és így, a későbbi valószínűség kiválasztása A nagyobb ugyanazt a döntési szabályt adja, mint a $ (2) $. Ha az OP jelölésében szereplő $ P \ {Y = + 1 \ közepe X = x \} = p_ {y | x} (1 | x) $ nagyobb, mint $ P \ {Y = -1 \ közepe X = x \} $, akkor igaz, hogy $ p_ {y | x} (1 | x) > \ frac 12 $, és így $ \ operátornév {sgn} ( 2p_ {y | x} (1 | x) -1) = + 1 $, és így

Igen, a $ c ^ * Bayes-döntési szabály (x) $ kifejezhető $ \ üzemeltetőnév {sgn} (2p_ {y | x} (1 | x) -1) $

Az a tény azonban, hogy ez a választás minimalizálja a $ P (E) $ értéket, sokkal nehezebb belátható a $ (3) $ és $ (4) $ vagy a tömör kifejezés $ \ operátornév {sgn} ( 2p_ {y | x} (1 | x) -1) $, mint a fejlesztésből, amely $ (2) $ -hoz vezetett. Vagy legalábbis én, nem statisztikusként érzékelem az ügyet; a futásteljesítménye változhat .

Válasz

Könnyebb bizonyítani, ha kissé más módon fogalmazza meg a problémát:

$$ P (c (x) \ neq y) \ geq P (c ^ {*} (x) \ neq y) $$ vagy ezzel egyenértékű, $$ \ mathbb {E} _ {x, y} \ balra [1 _ {\ {c (x) = y \}} \ jobbra] leq \ mathbb {E} _ {x, y} \ balra [1 _ {\ {c ^ {*} ( x) = y \}} \ right] $$ és ahelyett, hogy $ y \ lenne \ {- 1,1 \} $ -ban, $ y \ itt: {0,1 \} $ .

Vegye figyelembe, hogy $ P_ {y | x} (0 | x) = 1-P_ {y | x} (1 | x) $ és $ 1 _ {\ {c (x) = 0 \ }} = 1-1 _ {\ {c (x) = 1 \}} $ , tehát ha kivonjuk,

$$ \ mathbb {E} _ {y | x} \ balra [1 _ {\ {c ^ {*} (x) = y \}} \ jobbra] – \ mathbb {E} _ {y | x} \ balra [1 _ {\ {c (x) = y \}} \ jobbra] = P_ {y | x} (1 | x) \ balra (1 _ {\ {c ^ {*} (x) = 1 \}} – 1 _ {\ { c (x) = 1 \}} \ jobbra + P_ {y | x} (0 | x) \ balra (1 _ {\ {c ^ {*} (x) = 0 \}} – 1 _ {\ {c (x) = 0 \}} \ jobbra = = balra (2P (1 | x) -1 \ jobbra) \ balra (1 _ {\ {c ^ {*} (x) = 1 \}} – 1 _ {\ {c (x) = 1 \}} \ jobbra \ geq 0 $$

Most, ha $ P (1 | x) > 1/2 $ , majd a $ c ^ {*} (x) $ meghatározása alapján, $ c ^ {*} (x) = 1 $ , és mivel $ 1 _ {\ {c (x) = 1 \}} \ leq 0 $ , akkor ez a kifejezés nagyobb vagy egyenlő nullával. Hasonlóképpen, ha $ P (1 | x) < 1/2 $ , akkor definíció szerint $ c ^ {*} (x) = 0 $ és mivel $ 1 _ {\ {c (x) = 1 \}} \ geq 0 $ , akkor az egyenlőtlenség érvényesül.

Megjegyzések

  • Van egy kérdésem a jelöléseddel kapcsolatban: írta: $ == $ átlagosan $ \ equiv $ (\equiv)? A == jelet inkább a programozásban használják (javítson ki, ha ' m rossz vagyok).
  • @Tim I egyetért. Ugyanez vonatkozik a != kifejezésre is, jelezve, hogy a " nem egyenlő a "

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük