Antag binær klassificering dvs. $ y \ i \ {- 1,1 \} $ og at den underliggende fælles sandsynlighedsfordeling, der genererer dataene, er kendt, dvs. $ P_ {x, y} (x, y) $ er kendt
Jeg var fortalte, at Bayes beslutningsregel var den forudsigelse, du vælger, når du løser følgende minimeringsproblem med indikatorens variable omkostningsfunktion (angiver om du har ret eller forkert):
$ $ min_ {c \ in \ mathcal {H}} \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $$
Jeg spekulerede på, hvad var den resulterende forudsigelse $ c ^ * $ fra at løse ovenstående optimeringsproblem, og hvad dens relation til den kendte distribution genererer dataene var. dvs. hvad var forudsigerne $ c ^ * $ forhold til $ P_ {y | x} (1 | x) $ og $ P_ {y | x} (- 1 | x) $ .
Hvad jeg hidtil havde gjort var at udvide $ \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $ :
$ \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] = \ mathbb {E} _ {x} \ mathbb {E} _ {y | x} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $
og minimer derefter følgende:
$ \ mathbb {E} _ {y | x} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] = P_ {y | x} (1 | x) \ mathbb {1} _ {\ {c (x) \ neq 1 \}} + P_ {y | x} (- 1 | x ) \ mathbb {1} _ {\ {c (x) \ neq 1 \}} $
Men jeg havde svært ved at komme videre, fordi jeg var usikker på, hvordan man minimerer ovenstående udtryk . Intuitivt vil jeg vælge forudsigeren, der gør min fejl lavest. Så jeg ville vælge etiketten $ 1 $ eller $ – 1 $ , afhængigt af hvilken der havde størst sandsynlighed for forekommer. Men jeg havde svært ved at forbinde denne intuition med matematikken og ligningen ovenfor i en præcis eller streng materie.
Hvad er den eksplicitte funktion for $ c ^ * (x) $ ?
Er følgende funktion den rigtige? Hvis det er, hvorfor så?
$$ c ^ * (x) = sign (2p_ {y | x} (1 | x) – 1) $ $
Svar
Overvej tilfældige variabler $ X $ og $ Y $, hvor $ Y \ i \ { + 1, -1 \} $. Når observationen $ X $ har værdien $ x $, fortæller beslutningsreglen $ c (x) $, som får en af de to værdier $ + 1 $ og $ -1 $, hvad værdi reglen mener $ Y $ har påtaget sig. Valget af beslutningsfunktion $ c (x) $ fordeler området $ X $ effektivt i to usammenhængende sæt $ \ Gamma _ {+ 1} $ og $ \ Gamma _ {- 1} $, det vil sige $ c (x) $ kan udtrykkes som $$ c (x) = \ begin {cases} +1, & x \ i \ Gamma _ {+ 1}, \\ – 1, & x \ in \ Gamma _ {- 1}. \ end {cases} $$ Eksperimentet udføres, hvilket resulterer i, at $ (X, Y) $ påtager sig værdien $ (x, y) $, men vi kan kun observere værdien på $ x $. Vi anvender funktionen $ c (x) $ for at få vores beslutning $ + 1 $ eller $ -1 $ for, hvad værdien af $ y $ er. Et overlegen væsen (der ved alt inklusive værdien af $ y $, der er skjult for os), fortæller os, om vi lavede en fejl eller ej: fejl, når $ y $ ikke stemmer overens med beslutningen $ c (x) $, som vi nået. Lad $ f _ {- 1} (x) $ angive betinget tæthed på $ X $ givet at $ Y = -1 $. Derefter givet at $ Y = -1 $, laver vi en fejl, hvis den observerede værdi på $ X $ er i regionen $ \ Gamma _ {+ 1} $, og betinget sandsynligheden for fejl er således $ \ displaystyle P (E \ mid Y = -1) = \ int _ {\ Gamma _ {+ 1}} f _ {- 1} (x) \, \ mathrm dx. $ Tilsvarende er betinget sandsynlighed for fejl, når $ Y = + 1 $ er $ \ displaystyle P (E \ mid Y = + 1) = \ int _ {\ Gamma _ {- 1}} f _ {+ 1} (x ) \, \ mathrm dx. $ Derfor er ubetinget sandsynligheden for fejl $ P (E) $ for denne beslutningsregel $$ \ begin {align} P (E) & = P \ {E \ mid Y = -1 \} P \ {Y = -1 \} + P \ {E \ mid Y = +1 \} P \ {Y = +1 \} \\ & = \ int _ {\ Gamma _ {+ 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \, \ mathrm dx + \ int_ { \ Gamma _ {- 1}} \ pi _ {+ 1} \ cdot f _ {+ 1} (x) \, \ mathrm dx \\ & = \ int _ {\ Gamma _ {+ 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \, \ mathrm dx + \ int _ {\ Gamma _ {- 1}} \ pi _ {+ 1} \ cdot f _ {+ 1} (x ) \, \ mathrm dx \\ & \ quad + \ int _ {\ Gamma _ {- 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \ , \ mathrm dx – \ int _ {\ Gamma _ {- 1}} \ pi _ {- 1} \ cdot f_ { -1} (x \, \ mathrm dx \\ & = \ pi _ {- 1} \ int _ {\ mathbb R} f _ {- 1} (x) \, \ mathrm dx + \ int _ {\ Gamma _ {- 1}} \ venstre [\ pi _ {+ 1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ højre ] \, \ mathrm dx \\ P (E) & = \ pi _ {- 1} + \ int _ {\ Gamma _ {- 1}} \ left [\ pi _ {+ 1 } \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ right] \, \ mathrm dx \ tag {1} \ end {align} $$
Bayesian beslutningsreglen er den regel, der minimerer højre side af $ (1) $.Vi kan ikke gøre noget med det første udtryk, der er det samme for alle beslutningsregler, men ved smart valg af region $ \ Gamma _ {- 1} $ (beslutningsreglen defineres effektivt af regionen $ \ Gamma _ {- 1} $), vi kan gøre $ P (E) $ mindre. Bemærk, at integrand i $ (1) $ kan være positiv eller negativ, og ved at vælge $$ \ Gamma _ {- 1} = \ {x \ colon \ pi_ { +1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ leq 0 \}, \ tag {2} $$ (således eksklusive fra $ \ Gamma _ {- 1} $ alle point $ x $ for hvilke $ \ pi _ {+ 1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) > 0 $), sørger vi for, at integranden aldrig er positiv inden for integrationsområdet, og integralet har så en negativ værdi som muligt. Derfor minimerer beslutningsreglen beskrevet i $ (2) $ $ P (E) $ og er den Bayesiske beslutningsregel.
Så hvordan spiller alt dette ud med hensyn til posterior fordeling? Den bageste fordeling af $ Y $ givet $ X $ er diskret , og Bayesianske beslutningsregel viser sig at være at vælge hvilken værdi på $ Y $ der er større bageste sandsynlighed. Faktisk har vi det $$ \ begin {align} P \ {Y = + 1 \ mid X = x \} & = \ frac {\ pi _ {+ 1} f_ {+1} (x)} {\ pi _ {+ 1} \ cdot f _ {+ 1} (x) + \ pi _ {- 1} \ cdot f _ {- 1} (x)} \ tag {3} \\ P \ {Y = -1 \ mid X = x \} & = \ frac {\ pi _ {- 1} f _ {- 1} (x)} {\ pi _ {+ 1} \ cdot f _ {+ 1} (x) + \ pi _ {- 1} \ cdot f _ {- 1} (x)} \ tag {4} \ end {align} $$ og så, og vælg den bageste sandsynlighed større giver den samme beslutningsregel som $ (2) $. Nu, hvis $ P \ {Y = + 1 \ mid X = x \} = p_ {y | x} (1 | x) $ i OP s notation er større end $ P \ {Y = -1 \ mid X = x \} $, så er det sandt, at $ p_ {y | x} (1 | x) > \ frac 12 $, og så $ \ operatorname {sgn} ( 2p_ {y | x} (1 | x) -1) = + 1 $, og så
Ja, Bayes-beslutningsreglen $ c ^ * (x) $ kan udtrykkes som $ \ operatorname {sgn} (2p_ {y | x} (1 | x) -1) $
Det faktum, at dette valg minimerer $ P (E) $, er imidlertid meget sværere at se fra $ (3) $ og $ (4) $ eller fra det kortfattede udtryk $ \ operatorname {sgn} ( 2p_ {y | x} (1 | x) -1) $ end fra udviklingen, der førte til $ (2) $. Eller i det mindste, det er sådan, jeg, ikke-statistiker, opfatter sagen; din kilometertal kan variere .
Svar
Det er lettere at bevise det, hvis du formulerer problemet på en lidt anden måde:
$$ P (c (x) \ neq y) \ geq P (c ^ {*} (x) \ neq y) $$ eller tilsvarende, $$ \ mathbb {E} _ {x, y} \ venstre [1 _ {\ {c (x) = y \}} \ højre] \ leq \ mathbb {E} _ {x, y} \ venstre [1 _ {\ {c ^ {*} ( x) = y \}} \ right] $$ og i stedet for at have $ y \ i \ {- 1,1 \} $ har du $ y \ i \ {0,1 \} $ .
Bemærk, at $ P_ {y | x} (0 | x) = 1-P_ {y | x} (1 | x) $ og $ 1 _ {\ {c (x) = 0 \ }} = 1-1 _ {\ {c (x) = 1 \}} $ , og derfor trækker vi
$$ \ mathbb {E} _ {y | x} \ left [1 _ {\ {c ^ {*} (x) = y \}} \ right] – \ mathbb {E} _ {y | x} \ left [1 _ {\ {c (x) = y \}} \ højre] = P_ {y | x} (1 | x) \ venstre (1 _ {\ {c ^ {*} (x) = 1 \}} – 1 _ {\ { c (x) = 1 \}} \ højre) + P_ {y | x} (0 | x) \ venstre (1 _ {\ {c ^ {*} (x) = 0 \}} – 1 _ {\ {c (x) = 0 \}} \ højre) = \ venstre (2P (1 | x) -1 \ højre) \ venstre (1 _ {\ {c ^ {*} (x) = 1 \}} – 1 _ {\ {c (x) = 1 \}} \ right) \ geq 0 $$
Nu, hvis $ P (1 | x) > 1/2 $ , derefter ved definitionen af $ c ^ {*} (x) $ , $ c ^ {*} (x) = 1 $ , og siden $ 1 _ {\ {c (x) = 1 \}} \ leq 0 $ , så er dette udtryk større eller lig med nul. Ligeledes hvis $ P (1 | x) < 1/2 $ , så pr. Definition $ c ^ {*} (x) = 0 $ og siden $ 1 _ {\ {c (x) = 1 \}} \ geq 0 $ , så gælder uligheden.
\equiv
)?==
tegnet bruges snarere til programmering (ret mig hvis jeg ' er forkert).!=
og angiver " svarer ikke til "