Oletetaan binääriluokitus eli $ y \ sisään \ {- 1,1 \} $ ja että taustalla oleva dataa tuottava yhteinen todennäköisyysjakauma tunnetaan, ts. $ P_ {x, y} (x, y) $ tunnetaan
Olin kertoi, että Bayesin päätössääntö oli ennustaja, jonka valitsit ratkaistessasi seuraavaa indikaattorin muuttuvien kustannusten funktion minimointiongelmaa (mikä osoittaa onko sinulla oikeassa vai väärässä):
$ $ min_ {c \ in \ mathcal {H}} \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $$
Mietin, mikä johti ennustajaan $ c ^ * $ yllä olevan optimointiongelman ratkaisemiseen ja mikä oli sen suhde tunnettuun jakeluun tiedot olivat. eli mikä oli ennustajien $ c ^ * $ suhde $ P_ {y | x} (1 | x) $ ja $ P_ {y | x} (- 1 | x) $ .
Tähän mennessä tekemäni asia on laajentaa $ \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $ :
$ \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] = \ mathbb {E} _ {x} \ mathbb {E} _ {y | x} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $
ja pienennä sitten seuraava:
$ \ mathbb {E} _ {y | x} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] = P_ {y | x} (1 | x) \ mathbb {1} _ {\ {c (x) \ neq 1 \}} + P_ {y | x} (- 1 | x ) \ mathbb {1} _ {\ {c (x) \ neq 1 \}} $
Mutta minulla oli vaikea edetä, koska en ollut varma kuinka minimoida yllä oleva lauseke . Intuitiivisesti haluan valita ennustajan, joka tekee virheeni pienimmäksi. Joten valitsisin tunnisteen $ 1 $ tai $ – 1 $ riippuen siitä, kumman todennäköisyys oli suurin esiintyy. Minulla oli kuitenkin vaikea yhdistää tätä intuitiota matematiikkaan ja yllä olevaan yhtälöön tarkassa tai tiukka asia.
Mikä on
Onko seuraava toiminto oikea? Jos on, miksi niin?
$$ c ^ * (x) = sign (2p_ {y | x} (1 | x) – 1) $ $
vastaus
Harkitse satunnaismuuttujia $ X $ ja $ Y $, joissa $ Y \ sisään \ { + 1, -1 \} $. Kun havainnolla $ X $ on arvo $ x $, päätössääntö $ c (x) $, joka saa toisen kahdesta arvosta $ + 1 $ ja $ -1 $, kertoo meille mitä arvo sääntö ajattelee $ Y $ on tullut. Päätöstoiminnon $ c (x) $ valinta jakaa $ X $ -alueen tehokkaasti kahteen disjointjoukkoon $ \ Gamma _ {+ 1} $ ja $ \ Gamma _ {- 1} $, toisin sanoen $ c (x) $ voidaan ilmaista muodossa $$ c (x) = \ begin {cases} +1, & x \ Gamma _ {+ 1}, \\ – 1, & x \ Gammassa _ {- 1}. \ end {cases} $$ Koe suoritetaan, jolloin $ (X, Y) $ saa arvon $ (x, y) $, mutta voimme tarkkailla vain $ x $: n arvoa. Sovellamme funktiota $ c (x) $ saadaksemme päätöksen $ + 1 $ tai $ -1 $ siitä, mikä on $ y $: n arvo. Ylivoimainen olento (joka tietää kaiken, mukaan lukien $ y $: n arvo, joka on piilotettu meiltä) kertoo sitten, tekimmekö virheen vai ei: virheet, kun $ y $ ei vastaa päätöstä $ c (x) $, jonka me saavuttanut. Tarkoitetaan $ f _ {- 1} (x) $ merkitsemään $ X $ ehdollinen tiheys annettu että $ Y = -1 $. Sitten koska että $ Y = -1 $, teemme virheen, jos havaittu $ X $ -arvo on alueella $ \ Gamma _ {+ 1} $ ja ehdollinen virheen todennäköisyys on siis $ \ displaystyle P (E \ mid Y = -1) = \ int _ {\ Gamma _ {+ 1}} f _ {- 1} (x) \, \ mathrm dx. $ Vastaavasti ehdollinen virheen todennäköisyys, kun $ Y = + 1 $ on $ \ displaystyle P (E \ keski Y = + 1) = \ int _ {\ Gamma _ {- 1}} f _ {+ 1} (x ) \, \ mathrm dx. $ Tästä syystä tämän päätöksen säännön ehdoton virheen todennäköisyys $ P (E) $ on $$ \ begin {align} P (E) & = P \ {E \ mid Y = -1 \} P \ {Y = -1 \} + P \ {E \ mid Y = +1 \} P \ {Y = +1 \} \\ & = \ int _ {\ Gamma _ {+ 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \, \ mathrm dx + \ int_ { \ Gamma _ {- 1}} \ pi _ {+ 1} \ cdot f _ {+ 1} (x) \, \ mathrm dx \\ & = \ int _ {\ Gamma _ {+ 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \, \ mathrm dx + \ int _ {\ Gamma _ {- 1}} \ pi _ {+ 1} \ cdot f _ {+ 1} (x ) \, \ mathrm dx \\ & \ quad + \ int _ {\ Gamma _ {- 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \ , \ mathrm dx – \ int _ {\ Gamma _ {- 1}} \ pi _ {- 1} \ cdot f_ { -1} (x \, \ mathrm dx \\ & = \ pi _ {- 1} \ int _ {\ mathbb R} f _ {- 1} (x) \, \ mathrm dx + \ int _ {\ Gamma _ {- 1}} \ vasen [\ pi _ {+ 1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ oikea ] \, \ mathrm dx \\ P (E) & = \ pi _ {- 1} + \ int _ {\ Gamma _ {- 1}} \ vasen [\ pi _ {+ 1 } \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ right] \, \ mathrm dx \ tag {1} \ end {tasaa} $$
Bayesin päätössääntö on sääntö, joka minimoi $ (1) $: n oikean puolen.Emme voi tehdä mitään ensimmäisellä termillä, joka on sama kaikille päätöksentekosäännöille, mutta valitsemalla älykäs valinta alue $ \ Gamma _ {- 1} $ (alue $ määrittelee tehokkaasti päätössäännön) \ Gamma _ {- 1} $), voimme pienentää $ P (E) $. Huomaa, että $ (1) $: n integrointi voi olla positiivinen tai negatiivinen ja valitsemalla $$ \ Gamma _ {- 1} = \ {x \ kaksoispiste \ pi_ { +1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ leq 0 \}, \ tag {2} $$ (siten poislukien alkaen $ \ Gamma _ {- 1} $ kaikki pisteet $ x $, joista $ \ pi _ {+ 1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) > 0 $), varmistamme, että integrointi ei ole koskaan positiivinen integraatioalueella, joten integraalin arvo on mahdollisimman negatiivinen. Näin ollen kohdassa $ (2) $ kuvattu päätöksentekosääntö minimoi $ P (E) $: n ja on Bayesin päätössääntö.
Joten miten tämä kaikki toimii takajakaumien suhteen? Annetun $ X $: n takajakauma annetulla $ X $: lla on erillinen , ja Bayesin päätössääntö toimii valitsemaan kumpi arvosta $ Y $ on suurempi posteriorinen todennäköisyys. Itse asiassa meillä on $$ \ begin {align} P \ {Y = + 1 \ mid X = x \} & = \ frac {\ pi _ {+ 1} f_ {+1} (x)} {\ pi _ {+ 1} \ cdot f _ {+ 1} (x) + \ pi _ {- 1} \ cdot f _ {- 1} (x)} \ tag {3} \\ P \ {Y = -1 \ keskellä X = x \} & = \ frac {\ pi _ {- 1} f _ {- 1} (x)} {\ pi _ {+ 1} \ cdot f _ {+ 1} (x) + \ pi _ {- 1} \ cdot f _ {- 1} (x)} \ tag {4} \ end {align} $$ ja niin, valitsemalla jälkimmäinen todennäköisyys suurempi antaa saman päätöksen säännön kuin $ (2) $. Jos $ P \ {Y = + 1 \ mid X = x \} = p_ {y | x} (1 | x) $ OP: n merkinnässä on suurempi kuin $ P \ {Y = -1 \ mid X = x \} $, tällöin on totta, että $ p_ {y | x} (1 | x) > \ frac 12 $, joten $ \ operaattorinimi {sgn} ( 2p_ {y | x} (1 | x) -1) = + 1 $, joten
Kyllä, Bayesin päätössääntö $ c ^ * (x) $ voidaan ilmaista muodossa $ \ operaattorin nimi {sgn} (2p_ {y | x} (1 | x) -1) $
Se, että tämä valinta minimoi $ P (E) $, on kuitenkin paljon vaikeampi nähdä $ (3) $ ja $ (4) $ tai ytimekkään lausekkeen $ \ operaattorinimi {sgn} ( 2p_ {y | x} (1 | x) -1) $ kuin kehitykseen, joka johti dollariin (2) $. Tai ainakin minä, ei-tilastollinen, ymmärrän asian; mittarilukema voi vaihdella .
vastaus
On helpompaa todistaa se, jos muotoilet ongelman hieman eri tavalla:
$$ P (c (x) \ neq y) \ geq P (c ^ {*} (x) \ neq y) $$ tai vastaavasti, $$ \ mathbb {E} _ {x, y} \ vasen [1 _ {\ {c (x) = y \}} \ oikea] \ leq \ mathbb {E} _ {x, y} \ vasen [1 _ {\ {c ^ {*} ( x) = y \}} \ right] $$ ja sen sijaan, että sinulla olisi $ y \ sisällä \ {- 1,1 \} $ , sinulla on $ y \ sisään {0,1 \} $ .
Huomaa, että $ P_ {y | x} (0 | x) = 1-P_ {y | x} (1 | x) $ ja $ 1 _ {\ {c (x) = 0 \ }} = 1-1 _ {\ {c (x) = 1 \}} $ , joten jos vähennämme,
$$ \ mathbb {E} _ {y | x} \ vasen [1 _ {\ {c ^ {*} (x) = y \}} \ oikea] – \ mathbb {E} _ {y | x} \ vasen [1 _ {\ {c (x) = y \}} \ oikea] = P_ {y | x} (1 | x) \ vasen (1 _ {\ {c ^ {*} (x) = 1 \}} – 1 _ {\ { c (x) = 1 \}} \ oikea) + P_ {y | x} (0 | x) \ vasen (1 _ {\ {c ^ {*} (x) = 0 \}} – 1 _ {\ {c (x) = 0 \}} \ oikea) = \ vasen (2P (1 | x) -1 \ oikea) \ vasen (1 _ {\ {c ^ {*} (x) = 1 \}} – 1 _ {\ {c (x) = 1 \}} \ oikea) \ geq 0 $$
Nyt, jos $ P (1 | x) > 1/2 $ , sitten määritelmän mukaan $ c ^ {*} (x) $ , $ c ^ {*} (x) = 1 $ ja koska $ 1 _ {\ {c (x) = 1 \}} \ leq 0 $ , tämä lauseke on suurempi tai yhtä suuri kuin nolla. Vastaavasti, jos $ P (1 | x) < 1/2 $ , niin määritelmän mukaan $ c ^ {*} (x) = 0 $ ja koska $ 1 _ {\ {c (x) = 1 \}} \ geq 0 $ , eriarvoisuus on voimassa.
\equiv
)?==
-merkkiä käytetään pikemminkin ohjelmoinnissa (korjaa minut, jos olen väärässä ' m).!=
, joka osoittaa, että " ei ole yhtä suuri kuin "