Hva er Bayes beslutningsregel?

Anta binær klassifisering dvs. $ y \ i \ {- 1,1 \} $ og at den underliggende felles sannsynlighetsfordelingen som genererer dataene er kjent, dvs. $ P_ {x, y} (x, y) $ er kjent

Jeg var fortalte at Bayes beslutningsregel var prediktoren du valgte når du løste følgende minimeringsproblem med indikatorvariabelkostnadsfunksjonen (som indikerer om du har rett eller feil):

$ $ min_ {c \ in \ mathcal {H}} \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $$

Jeg lurte på, hva var den resulterende prediktoren $ c ^ * $ fra å løse ovennevnte optimaliseringsproblem og hva dens forhold til den kjente distribusjonen genererer dataene var. dvs. hva var prediktorene $ c ^ * $ forhold til $ P_ {y | x} (1 | x) $ og $ P_ {y | x} (- 1 | x) $ .

Det jeg hadde gjort hittil var å utvide $ \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $ :

$ \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] = \ mathbb {E} _ {x} \ mathbb {E} _ {y | x} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $

og minimer deretter følgende:

$ \ mathbb {E} _ {y | x} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] = P_ {y | x} (1 | x) \ mathbb {1} _ {\ {c (x) \ neq 1 \}} + P_ {y | x} (- 1 | x ) \ mathbb {1} _ {\ {c (x) \ neq 1 \}} $

Men jeg hadde vanskelig for å gå videre fordi jeg var usikker på hvordan jeg kunne minimere det ovennevnte uttrykket . Intuitivt vil jeg velge prediktoren som gjør feilen min lavest. Så jeg ville valgt etiketten $ 1 $ eller $ – 1 $ , avhengig av hvilken som hadde størst sannsynlighet for forekommer. Men jeg hadde vanskelig for å knytte den intuisjonen med matematikken og ligningen ovenfor, i en presis eller streng materie.

Hva er den eksplisitte funksjonen for $ c ^ * (x) $ ?

Er følgende funksjon den riktige? Hvis det er, hvorfor så?

$$ c ^ * (x) = sign (2p_ {y | x} (1 | x) – 1) $ $

Svar

Vurder tilfeldige variabler $ X $ og $ Y $, hvor $ Y \ i \ { + 1, -1 \} $. Når observasjonen $ X $ har verdien $ x $, forteller beslutningsregelen $ c (x) $, som tar på seg en av de to verdiene $ + 1 $ og $ -1 $, hva verdi regelen mener $ Y $ har tatt på seg. Valget av avgjørelsesfunksjon $ c (x) $ fordeler området $ X $ effektivt i to usammenhengende sett $ \ Gamma _ {+ 1} $ og $ \ Gamma _ {- 1} $, det vil si $ c (x) $ kan uttrykkes som $$ c (x) = \ begin {cases} +1, & x \ i \ Gamma _ {+ 1}, \\ – 1, & x \ in \ Gamma _ {- 1}. \ end {cases} $$ Eksperimentet er utført, noe som resulterer i at $ (X, Y) $ tar på seg verdien $ (x, y) $, men vi kan bare observere verdien på $ x $. Vi bruker funksjonen $ c (x) $ for å få vår beslutning $ + 1 $ eller $ -1 $ om verdien av $ y $. Et overordnet vesen (som vet alt inkludert verdien av $ y $ som har blitt skjult for oss) forteller oss om vi gjorde en feil eller ikke: feil når $ y $ ikke samsvarer med avgjørelsen $ c (x) $ som vi nådde. La $ f _ {- 1} (x) $ betegne betinget tetthet på $ X $ gitt at $ Y = -1 $. Deretter, gitt at $ Y = -1 $, gjør vi en feil hvis den observerte verdien på $ X $ er i regionen $ \ Gamma _ {+ 1} $, og betinget sannsynligheten for feil er således $ \ displaystyle P (E \ mid Y = -1) = \ int _ {\ Gamma _ {+ 1}} f _ {- 1} (x) \, \ mathrm dx. $ Tilsvarende er betinget sannsynlighet for feil når $ Y = + 1 $ er $ \ displaystyle P (E \ mid Y = + 1) = \ int _ {\ Gamma _ {- 1}} f _ {+ 1} (x ) \, \ mathrm dx. $ Derfor er ubetinget sannsynligheten for feil $ P (E) $ for denne avgjørelsesregelen $$ \ begin {align} P (E) & = P \ {E \ mid Y = -1 \} P \ {Y = -1 \} + P \ {E \ mid Y = +1 \} P \ {Y = +1 \} \\ & = \ int _ {\ Gamma _ {+ 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \, \ mathrm dx + \ int_ { \ Gamma _ {- 1}} \ pi _ {+ 1} \ cdot f _ {+ 1} (x) \, \ mathrm dx \\ & = \ int _ {\ Gamma _ {+ 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \, \ mathrm dx + \ int _ {\ Gamma _ {- 1}} \ pi _ {+ 1} \ cdot f _ {+ 1} (x ) \, \ mathrm dx \\ & \ quad + \ int _ {\ Gamma _ {- 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \ , \ mathrm dx – \ int _ {\ Gamma _ {- 1}} \ pi _ {- 1} \ cdot f_ { -1} (x \, \ mathrm dx \\ & = \ pi _ {- 1} \ int _ {\ mathbb R} f _ {- 1} (x) \, \ mathrm dx + \ int _ {\ Gamma _ {- 1}} \ left [\ pi _ {+ 1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ right ] \, \ mathrm dx \\ P (E) & = \ pi _ {- 1} + \ int _ {\ Gamma _ {- 1}} \ left [\ pi _ {+ 1 } \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ right] \, \ mathrm dx \ tag {1} \ end {align} $$

Bayesian beslutningsregelen er regelen som minimerer høyre side av $ (1) $.Vi kan ikke gjøre noe med den første termen som er den samme for alle beslutningsregler, men ved smart valg av region $ \ Gamma _ {- 1} $ (avgjørelsesregelen er effektivt definert av regionen $ \ Gamma _ {- 1} $), vi kan gjøre $ P (E) $ mindre. Merk at integrand i $ (1) $ kan være positiv eller negativ, og ved å velge $$ \ Gamma _ {- 1} = \ {x \ colon \ pi_ { +1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ leq 0 \}, \ tag {2} $$ (dermed unntatt fra $ \ Gamma _ {- 1} $ alle poeng $ x $ som $ \ pi _ {+ 1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) > 0 $), sørger vi for at integranden aldri er positiv i integrasjonsområdet, og slik at integralen har en så negativ verdi som mulig. Derfor minimerer avgjørelsesregelen beskrevet i $ (2) $ $ P (E) $, og er den Bayesiske avgjørelsesregelen.


Så hvordan spiller alt dette ut når det gjelder posterior fordeling? Den bakre fordelingen av $ Y $ gitt $ X $ er diskret , og den Bayesiske beslutningsregelen viser seg å være å velge hvilken verdi på $ Y $ som har større sannsynlighet for posterior. Vi har faktisk $$ \ begin {align} P \ {Y = + 1 \ mid X = x \} & = \ frac {\ pi _ {+ 1} f_ {+1} (x)} {\ pi _ {+ 1} \ cdot f _ {+ 1} (x) + \ pi _ {- 1} \ cdot f _ {- 1} (x)} \ tag {3} \\ P \ {Y = -1 \ mid X = x \} & = \ frac {\ pi _ {- 1} f _ {- 1} (x)} {\ pi _ {+ 1} \ cdot f _ {+ 1} (x) + \ pi _ {- 1} \ cdot f _ {- 1} (x)} \ tag {4} \ end {align} $$ og så, og velg hvilken bakre sannsynlighet som er større gir samme avgjørelsesregel som $ (2) $. Nå, hvis $ P \ {Y = + 1 \ midt X = x \} = p_ {y | x} (1 | x) $ i OP «s notasjon er større enn $ P \ {Y = -1 \ midt X = x \} $, så er det sant at $ p_ {y | x} (1 | x) > \ frac 12 $, og så $ \ operatorname {sgn} ( 2p_ {y | x} (1 | x) -1) = + 1 $, og så

Ja, Bayes-avgjørelsesregelen $ c ^ * (x) $ kan uttrykkes som $ \ operatorname {sgn} (2p_ {y | x} (1 | x) -1) $

Det faktum at dette valget minimerer $ P (E) $ er imidlertid mye vanskeligere å se fra $ (3) $ og $ (4) $ eller fra det kortfattede uttrykket $ \ operatorname {sgn} ( 2p_ {y | x} (1 | x) -1) $ enn fra utviklingen som førte til $ (2) $. Eller i det minste, det er slik jeg, ikke-statistiker, oppfatter saken; kjørelengden din kan variere .

Svar

Det er lettere å bevise det, hvis du formulerer problemet på en litt annen måte:

$$ P (c (x) \ neq y) \ geq P (c ^ {*} (x) \ neq y) $$ eller tilsvarende, $$ \ mathbb {E} _ {x, y} \ left [1 _ {\ {c (x) = y \}} \ right] \ leq \ mathbb {E} _ {x, y} \ left [1 _ {\ {c ^ {*} ( x) = y \}} \ right] $$ og i stedet for å ha $ y \ i \ {- 1,1 \} $ , har du $ y \ in \ {0,1 \} $ .

Legg merke til at $ P_ {y | x} (0 | x) = 1-P_ {y | x} (1 | x) $ og $ 1 _ {\ {c (x) = 0 \ }} = 1-1 _ {\ {c (x) = 1 \}} $ , derfor hvis vi trekker fra,

$$ \ mathbb {E} _ {y | x} \ left [1 _ {\ {c ^ {*} (x) = y \}} \ right] – \ mathbb {E} _ {y | x} \ left [1 _ {\ {c (x) = y \}} \ høyre] = P_ {y | x} (1 | x) \ venstre (1 _ {\ {c ^ {*} (x) = 1 \}} – 1 _ {\ { c (x) = 1 \}} \ høyre) + P_ {y | x} (0 | x) \ venstre (1 _ {\ {c ^ {*} (x) = 0 \}} – 1 _ {\ {c (x) = 0 \}} \ høyre) = \ venstre (2P (1 | x) -1 \ høyre) \ venstre (1 _ {\ {c ^ {*} (x) = 1 \}} – 1 _ {\ {c (x) = 1 \}} \ right) \ geq 0 $$

Nå, hvis $ P (1 | x) > 1/2 $ , deretter ved definisjonen av $ c ^ {*} (x) $ , $ c ^ {*} (x) = 1 $ , og siden $ 1 _ {\ {c (x) = 1 \}} \ leq 0 $ , så er dette uttrykket større eller lik null. På samme måte, hvis $ P (1 | x) < 1/2 $ , så per definisjon $ c ^ {*} (x) = 0 $ og siden $ 1 _ {\ {c (x) = 1 \}} \ geq 0 $ , så gjelder ulikheten.

Kommentarer

  • Jeg har et spørsmål om notasjonen din: av $ == $ gjorde du mener $ \ equiv $ (\equiv)? == tegnet brukes heller i programmering (korriger meg hvis jeg ' tar feil).
  • @Tim I bli enige. Samme holder for != som indikerer " ikke tilsvarer "

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *