Mikä on Bayesin päätössääntö?

Oletetaan binääriluokitus eli $ y \ sisään \ {- 1,1 \} $ ja että taustalla oleva dataa tuottava yhteinen todennäköisyysjakauma tunnetaan, ts. $ P_ {x, y} (x, y) $ tunnetaan

Olin kertoi, että Bayesin päätössääntö oli ennustaja, jonka valitsit ratkaistessasi seuraavaa indikaattorin muuttuvien kustannusten funktion minimointiongelmaa (mikä osoittaa onko sinulla oikeassa vai väärässä):

$ $ min_ {c \ in \ mathcal {H}} \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $$

Mietin, mikä johti ennustajaan $ c ^ * $ yllä olevan optimointiongelman ratkaisemiseen ja mikä oli sen suhde tunnettuun jakeluun tiedot olivat. eli mikä oli ennustajien $ c ^ * $ suhde $ P_ {y | x} (1 | x) $ ja $ P_ {y | x} (- 1 | x) $ .

Tähän mennessä tekemäni asia on laajentaa $ \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $ :

$ \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] = \ mathbb {E} _ {x} \ mathbb {E} _ {y | x} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $

ja pienennä sitten seuraava:

$ \ mathbb {E} _ {y | x} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] = P_ {y | x} (1 | x) \ mathbb {1} _ {\ {c (x) \ neq 1 \}} + P_ {y | x} (- 1 | x ) \ mathbb {1} _ {\ {c (x) \ neq 1 \}} $

Mutta minulla oli vaikea edetä, koska en ollut varma kuinka minimoida yllä oleva lauseke . Intuitiivisesti haluan valita ennustajan, joka tekee virheeni pienimmäksi. Joten valitsisin tunnisteen $ 1 $ tai $ – 1 $ riippuen siitä, kumman todennäköisyys oli suurin esiintyy. Minulla oli kuitenkin vaikea yhdistää tätä intuitiota matematiikkaan ja yllä olevaan yhtälöön tarkassa tai tiukka asia.

Mikä on $ c ^ * (x) $ ?

Onko seuraava toiminto oikea? Jos on, miksi niin?

$$ c ^ * (x) = sign (2p_ {y | x} (1 | x) – 1) $ $

vastaus

Harkitse satunnaismuuttujia $ X $ ja $ Y $, joissa $ Y \ sisään \ { + 1, -1 \} $. Kun havainnolla $ X $ on arvo $ x $, päätössääntö $ c (x) $, joka saa toisen kahdesta arvosta $ + 1 $ ja $ -1 $, kertoo meille mitä arvo sääntö ajattelee $ Y $ on tullut. Päätöstoiminnon $ c (x) $ valinta jakaa $ X $ -alueen tehokkaasti kahteen disjointjoukkoon $ \ Gamma _ {+ 1} $ ja $ \ Gamma _ {- 1} $, toisin sanoen $ c (x) $ voidaan ilmaista muodossa $$ c (x) = \ begin {cases} +1, & x \ Gamma _ {+ 1}, \\ – 1, & x \ Gammassa _ {- 1}. \ end {cases} $$ Koe suoritetaan, jolloin $ (X, Y) $ saa arvon $ (x, y) $, mutta voimme tarkkailla vain $ x $: n arvoa. Sovellamme funktiota $ c (x) $ saadaksemme päätöksen $ + 1 $ tai $ -1 $ siitä, mikä on $ y $: n arvo. Ylivoimainen olento (joka tietää kaiken, mukaan lukien $ y $: n arvo, joka on piilotettu meiltä) kertoo sitten, tekimmekö virheen vai ei: virheet, kun $ y $ ei vastaa päätöstä $ c (x) $, jonka me saavuttanut. Tarkoitetaan $ f _ {- 1} (x) $ merkitsemään $ X $ ehdollinen tiheys annettu että $ Y = -1 $. Sitten koska että $ Y = -1 $, teemme virheen, jos havaittu $ X $ -arvo on alueella $ \ Gamma _ {+ 1} $ ja ehdollinen virheen todennäköisyys on siis $ \ displaystyle P (E \ mid Y = -1) = \ int _ {\ Gamma _ {+ 1}} f _ {- 1} (x) \, \ mathrm dx. $ Vastaavasti ehdollinen virheen todennäköisyys, kun $ Y = + 1 $ on $ \ displaystyle P (E \ keski Y = + 1) = \ int _ {\ Gamma _ {- 1}} f _ {+ 1} (x ) \, \ mathrm dx. $ Tästä syystä tämän päätöksen säännön ehdoton virheen todennäköisyys $ P (E) $ on $$ \ begin {align} P (E) & = P \ {E \ mid Y = -1 \} P \ {Y = -1 \} + P \ {E \ mid Y = +1 \} P \ {Y = +1 \} \\ & = \ int _ {\ Gamma _ {+ 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \, \ mathrm dx + \ int_ { \ Gamma _ {- 1}} \ pi _ {+ 1} \ cdot f _ {+ 1} (x) \, \ mathrm dx \\ & = \ int _ {\ Gamma _ {+ 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \, \ mathrm dx + \ int _ {\ Gamma _ {- 1}} \ pi _ {+ 1} \ cdot f _ {+ 1} (x ) \, \ mathrm dx \\ & \ quad + \ int _ {\ Gamma _ {- 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \ , \ mathrm dx – \ int _ {\ Gamma _ {- 1}} \ pi _ {- 1} \ cdot f_ { -1} (x \, \ mathrm dx \\ & = \ pi _ {- 1} \ int _ {\ mathbb R} f _ {- 1} (x) \, \ mathrm dx + \ int _ {\ Gamma _ {- 1}} \ vasen [\ pi _ {+ 1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ oikea ] \, \ mathrm dx \\ P (E) & = \ pi _ {- 1} + \ int _ {\ Gamma _ {- 1}} \ vasen [\ pi _ {+ 1 } \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ right] \, \ mathrm dx \ tag {1} \ end {tasaa} $$

Bayesin päätössääntö on sääntö, joka minimoi $ (1) $: n oikean puolen.Emme voi tehdä mitään ensimmäisellä termillä, joka on sama kaikille päätöksentekosäännöille, mutta valitsemalla älykäs valinta alue $ \ Gamma _ {- 1} $ (alue $ määrittelee tehokkaasti päätössäännön) \ Gamma _ {- 1} $), voimme pienentää $ P (E) $. Huomaa, että $ (1) $: n integrointi voi olla positiivinen tai negatiivinen ja valitsemalla $$ \ Gamma _ {- 1} = \ {x \ kaksoispiste \ pi_ { +1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ leq 0 \}, \ tag {2} $$ (siten poislukien alkaen $ \ Gamma _ {- 1} $ kaikki pisteet $ x $, joista $ \ pi _ {+ 1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) > 0 $), varmistamme, että integrointi ei ole koskaan positiivinen integraatioalueella, joten integraalin arvo on mahdollisimman negatiivinen. Näin ollen kohdassa $ (2) $ kuvattu päätöksentekosääntö minimoi $ P (E) $: n ja on Bayesin päätössääntö.


Joten miten tämä kaikki toimii takajakaumien suhteen? Annetun $ X $: n takajakauma annetulla $ X $: lla on erillinen , ja Bayesin päätössääntö toimii valitsemaan kumpi arvosta $ Y $ on suurempi posteriorinen todennäköisyys. Itse asiassa meillä on $$ \ begin {align} P \ {Y = + 1 \ mid X = x \} & = \ frac {\ pi _ {+ 1} f_ {+1} (x)} {\ pi _ {+ 1} \ cdot f _ {+ 1} (x) + \ pi _ {- 1} \ cdot f _ {- 1} (x)} \ tag {3} \\ P \ {Y = -1 \ keskellä X = x \} & = \ frac {\ pi _ {- 1} f _ {- 1} (x)} {\ pi _ {+ 1} \ cdot f _ {+ 1} (x) + \ pi _ {- 1} \ cdot f _ {- 1} (x)} \ tag {4} \ end {align} $$ ja niin, valitsemalla jälkimmäinen todennäköisyys suurempi antaa saman päätöksen säännön kuin $ (2) $. Jos $ P \ {Y = + 1 \ mid X = x \} = p_ {y | x} (1 | x) $ OP: n merkinnässä on suurempi kuin $ P \ {Y = -1 \ mid X = x \} $, tällöin on totta, että $ p_ {y | x} (1 | x) > \ frac 12 $, joten $ \ operaattorinimi {sgn} ( 2p_ {y | x} (1 | x) -1) = + 1 $, joten

Kyllä, Bayesin päätössääntö $ c ^ * (x) $ voidaan ilmaista muodossa $ \ operaattorin nimi {sgn} (2p_ {y | x} (1 | x) -1) $

Se, että tämä valinta minimoi $ P (E) $, on kuitenkin paljon vaikeampi nähdä $ (3) $ ja $ (4) $ tai ytimekkään lausekkeen $ \ operaattorinimi {sgn} ( 2p_ {y | x} (1 | x) -1) $ kuin kehitykseen, joka johti dollariin (2) $. Tai ainakin minä, ei-tilastollinen, ymmärrän asian; mittarilukema voi vaihdella .

vastaus

On helpompaa todistaa se, jos muotoilet ongelman hieman eri tavalla:

$$ P (c (x) \ neq y) \ geq P (c ^ {*} (x) \ neq y) $$ tai vastaavasti, $$ \ mathbb {E} _ {x, y} \ vasen [1 _ {\ {c (x) = y \}} \ oikea] \ leq \ mathbb {E} _ {x, y} \ vasen [1 _ {\ {c ^ {*} ( x) = y \}} \ right] $$ ja sen sijaan, että sinulla olisi $ y \ sisällä \ {- 1,1 \} $ , sinulla on $ y \ sisään {0,1 \} $ .

Huomaa, että $ P_ {y | x} (0 | x) = 1-P_ {y | x} (1 | x) $ ja $ 1 _ {\ {c (x) = 0 \ }} = 1-1 _ {\ {c (x) = 1 \}} $ , joten jos vähennämme,

$$ \ mathbb {E} _ {y | x} \ vasen [1 _ {\ {c ^ {*} (x) = y \}} \ oikea] – \ mathbb {E} _ {y | x} \ vasen [1 _ {\ {c (x) = y \}} \ oikea] = P_ {y | x} (1 | x) \ vasen (1 _ {\ {c ^ {*} (x) = 1 \}} – 1 _ {\ { c (x) = 1 \}} \ oikea) + P_ {y | x} (0 | x) \ vasen (1 _ {\ {c ^ {*} (x) = 0 \}} – 1 _ {\ {c (x) = 0 \}} \ oikea) = \ vasen (2P (1 | x) -1 \ oikea) \ vasen (1 _ {\ {c ^ {*} (x) = 1 \}} – 1 _ {\ {c (x) = 1 \}} \ oikea) \ geq 0 $$

Nyt, jos $ P (1 | x) > 1/2 $ , sitten määritelmän mukaan $ c ^ {*} (x) $ , $ c ^ {*} (x) = 1 $ ja koska $ 1 _ {\ {c (x) = 1 \}} \ leq 0 $ , tämä lauseke on suurempi tai yhtä suuri kuin nolla. Vastaavasti, jos $ P (1 | x) < 1/2 $ , niin määritelmän mukaan $ c ^ {*} (x) = 0 $ ja koska $ 1 _ {\ {c (x) = 1 \}} \ geq 0 $ , eriarvoisuus on voimassa.

Kommentit

  • Minulla on kysymys merkinnöistäsi: kirjoittanut $ == $ tarkoittaa $ \ equiv $ (\equiv)? == -merkkiä käytetään pikemminkin ohjelmoinnissa (korjaa minut, jos olen väärässä ' m).
  • @Tim I olla samaa mieltä. Sama pätee kohtaan !=, joka osoittaa, että " ei ole yhtä suuri kuin "

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *