Antag binär klassificering dvs. $ y \ i \ {- 1,1 \} $ och att den underliggande gemensamma sannolikhetsfördelningen som genererar data är känd, dvs. $ P_ {x, y} (x, y) $ är känd
Jag var berättade att Bayes beslutsregel var den förutsägare du valde när du löste följande minimeringsproblem med indikatorns variabla kostnadsfunktion (som anger om du har rätt eller fel):
$ $ min_ {c \ in \ mathcal {H}} \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $$
Jag undrade, vad var den resulterande prediktorn $ c ^ * $ från att lösa ovanstående optimeringsproblem och vad dess relation till den kända distributionen genererar uppgifterna var. dvs vad var prediktorerna $ c ^ * $ förhållande till $ P_ {y | x} (1 | x) $ och $ P_ {y | x} (- 1 | x) $ .
Det jag hade gjort hittills var att expandera $ \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $ :
$ \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] = \ mathbb {E} _ {x} \ mathbb {E} _ {y | x} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $
och minimera sedan följande:
$ \ mathbb {E} _ {y | x} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] = P_ {y | x} (1 | x) \ mathbb {1} _ {\ {c (x) \ neq 1 \}} + P_ {y | x} (- 1 | x ) \ mathbb {1} _ {\ {c (x) \ neq 1 \}} $
Men jag hade svårt att gå vidare eftersom jag var osäker på hur jag skulle minimera ovanstående uttryck . Intuitivt vill jag välja prediktorn som gör mitt fel lägst. Så jag skulle välja etiketten $ 1 $ eller $ – 1 $ , beroende på vilken som hade högst sannolikhet för förekommande. Men jag hade svårt att länka den intuitionen med matematiken och ekvationen ovan, i en exakt eller noggrann materia.
Vad är den explicita funktionen för $ c ^ * (x) $ ?
Är följande funktion rätt? Om så är fallet, varför så?
$$ c ^ * (x) = sign (2p_ {y | x} (1 | x) – 1) $ $
Svar
Tänk på slumpmässiga variabler $ X $ och $ Y $, där $ Y \ i \ { + 1, -1 \} $. När observationen $ X $ har värdet $ x $, berättar beslutsregeln $ c (x) $, som tar på sig ett av de två värdena $ + 1 $ och $ -1 $ vad värdera regeln tror $ Y $ har tagit på sig. Valet av beslutsfunktion $ c (x) $ fördelar effektivt intervallet $ X $ i två separata uppsättningar $ \ Gamma _ {+ 1} $ och $ \ Gamma _ {- 1} $, det vill säga $ c (x) $ kan uttryckas som $$ c (x) = \ begin {cases} +1, & x \ i \ Gamma _ {+ 1}, \\ – 1, & x \ in \ Gamma _ {- 1}. \ end {cases} $$ Experimentet utförs, vilket resulterar i att $ (X, Y) $ tar på sig värdet $ (x, y) $, men vi kan bara observera värdet på $ x $. Vi använder funktionen $ c (x) $ för att få vårt beslut $ + 1 $ eller $ -1 $ vad värdet på $ y $ är. En överlägsen varelse (som vet allt inklusive värdet på $ y $ som har döljts för oss) berättar sedan om vi gjorde ett misstag eller inte: misstag när $ y $ inte matchar beslutet $ c (x) $ som vi nådde. Låt $ f _ {- 1} (x) $ beteckna villkorad densitet på $ X $ givet att $ Y = -1 $. Sedan, givet att $ Y = -1 $, gör vi ett misstag om det observerade värdet på $ X $ är i regionen $ \ Gamma _ {+ 1} $ och villkorligt sannolikheten för fel är således $ \ displaystyle P (E \ mid Y = -1) = \ int _ {\ Gamma _ {+ 1}} f _ {- 1} (x) \, \ mathrm dx. $ På samma sätt är villkorad sannolikhet för fel när $ Y = + 1 $ är $ \ displaystyle P (E \ mid Y = + 1) = \ int _ {\ Gamma _ {- 1}} f _ {+ 1} (x ) \, \ mathrm dx. $ Därför är ovillkorlig sannolikheten för fel $ P (E) $ för denna beslutsregel $$ \ begin {align} P (E) & = P \ {E \ mid Y = -1 \} P \ {Y = -1 \} + P \ {E \ mid Y = +1 \} P \ {Y = +1 \} \\ & = \ int _ {\ Gamma _ {+ 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \, \ mathrm dx + \ int_ { \ Gamma _ {- 1}} \ pi _ {+ 1} \ cdot f _ {+ 1} (x) \, \ mathrm dx \\ & = \ int _ {\ Gamma _ {+ 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \, \ mathrm dx + \ int _ {\ Gamma _ {- 1}} \ pi _ {+ 1} \ cdot f _ {+ 1} (x ) \, \ mathrm dx \\ & \ quad + \ int _ {\ Gamma _ {- 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \ , \ mathrm dx – \ int _ {\ Gamma _ {- 1}} \ pi _ {- 1} \ cdot f_ { -1} (x \, \ mathrm dx \\ & = \ pi _ {- 1} \ int _ {\ mathbb R} f _ {- 1} (x) \, \ mathrm dx + \ int _ {\ Gamma _ {- 1}} \ left [\ pi _ {+ 1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ right ] \, \ mathrm dx \\ P (E) & = \ pi _ {- 1} + \ int _ {\ Gamma _ {- 1}} \ left [\ pi _ {+ 1 } \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ höger] \, \ mathrm dx \ tag {1} \ end {align} $$
Beslutsregeln Bayesian är den regel som minimerar den högra sidan av $ (1) $.Vi kan inte göra något med den första termen som är densamma för alla beslutsregler, men genom smart val av region $ \ Gamma _ {- 1} $ (beslutsregeln definieras effektivt av regionen $ \ Gamma _ {- 1} $), vi kan göra $ P (E) $ mindre. Observera att integrand i $ (1) $ kan vara positiv eller negativ, och genom att välja $$ \ Gamma _ {- 1} = \ {x \ colon \ pi_ { +1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ leq 0 \}, \ tag {2} $$ (alltså exklusive från $ \ Gamma _ {- 1} $ alla poäng $ x $ för vilka $ \ pi _ {+ 1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) > 0 $), ser vi till att integranden aldrig är positiv inom integrationsområdet, och så har integralen ett så negativt värde som möjligt. Därför minimerar beslutsregeln som beskrivs i $ (2) $ $ P (E) $ och är den Bayesiska beslutsregeln.
Så hur spelar allt detta sig i form av posteriora fördelningar? Den bakre fördelningen av $ Y $ givet $ X $ är diskret och Bayesianska beslutsregeln visar sig vara att välja vilket värde på $ Y $ som har större bakre sannolikhet. Vi har faktiskt den $$ \ begin {align} P \ {Y = + 1 \ mid X = x \} & = \ frac {\ pi _ {+ 1} f_ {+1} (x)} {\ pi _ {+ 1} \ cdot f _ {+ 1} (x) + \ pi _ {- 1} \ cdot f _ {- 1} (x)} \ tag {3} \\ P \ {Y = -1 \ mid X = x \} & = \ frac {\ pi _ {- 1} f _ {- 1} (x)} {\ pi _ {+ 1} \ cdot f _ {+ 1} (x) + \ pi _ {- 1} \ cdot f _ {- 1} (x)} \ tag {4} \ end {align} $$ och så väljer du vilken bakre sannolikhet som helst större ger samma beslutsregel som $ (2) $. Om $ P \ {Y = + 1 \ mid X = x \} = p_ {y | x} (1 | x) $ i OP: s notation är större än $ P \ {Y = -1 \ mid X = x \} $, då är det sant att $ p_ {y | x} (1 | x) > \ frac 12 $, och så $ \ operatorname {sgn} ( 2p_ {y | x} (1 | x) -1) = + 1 $, och så
Ja, Bayes-beslutsregeln $ c ^ * (x) $ kan uttryckas som $ \ operatorname {sgn} (2p_ {y | x} (1 | x) -1) $
Det faktum att detta val minimerar $ P (E) $ är dock mycket svårare att se från $ (3) $ och $ (4) $ eller från det kortfattade uttrycket $ \ operatorname {sgn} ( 2p_ {y | x} (1 | x) -1) $ än från utvecklingen som ledde till $ (2) $. Eller åtminstone, det är så jag, en icke-statistiker, uppfattar saken; din körsträcka kan variera .
Svar
Det är lättare att bevisa det om du formulerar problemet på ett något annat sätt:
$$ P (c (x) \ neq y) \ geq P (c ^ {*} (x) \ neq y) $$ eller motsvarande, $$ \ mathbb {E} _ {x, y} \ vänster [1 _ {\ {c (x) = y \}} \ höger] \ leq \ mathbb {E} _ {x, y} \ vänster [1 _ {\ {c ^ {*} ( x) = y \}} \ right] $$ och istället för att ha $ y \ i \ {- 1,1 \} $ har du $ y \ i \ {0,1 \} $ .
Observera att $ P_ {y | x} (0 | x) = 1-P_ {y | x} (1 | x) $ och $ 1 _ {\ {c (x) = 0 \ }} = 1-1 _ {\ {c (x) = 1 \}} $ , alltså om vi subtraherar,
$$ \ mathbb {E} _ {y | x} \ left [1 _ {\ {c ^ {*} (x) = y \}} \ right] – \ mathbb {E} _ {y | x} \ left [1 _ {\ {c (x) = y \}} \ höger] = P_ {y | x} (1 | x) \ vänster (1 _ {\ {c ^ {*} (x) = 1 \}} – 1 _ {\ { c (x) = 1 \}} \ höger) + P_ {y | x} (0 | x) \ vänster (1 _ {\ {c ^ {*} (x) = 0 \}} – 1 _ {\ {c (x) = 0 \}} \ höger) = \ vänster (2P (1 | x) -1 \ höger) \ vänster (1 _ {\ {c ^ {*} (x) = 1 \}} – 1 _ {\ {c (x) = 1 \}} \ höger) \ geq 0 $$
Nu, om $ P (1 | x) > 1/2 $ , sedan enligt definitionen av $ c ^ {*} (x) $ , $ c ^ {*} (x) = 1 $ , och sedan $ 1 _ {\ {c (x) = 1 \}} \ leq 0 $ , då är detta uttryck större eller lika med noll. På samma sätt, om $ P (1 | x) < 1/2 $ , så per definition, $ c ^ {*} (x) = 0 $ och sedan $ 1 _ {\ {c (x) = 1 \}} \ geq 0 $ , då gäller ojämlikheten.
\equiv
)?==
-tecknet används snarare vid programmering (korrigera mig om jag ' är fel).!=
vilket indikerar " är inte lika med "