Assumi una classificazione binaria cioè $ y \ in \ {- 1,1 \} $ e che la distribuzione di probabilità congiunta sottostante che genera i dati è nota, ad esempio $ P_ {x, y} (x, y) $ è nota
Ero ha detto che la regola decisionale di Bayes era il predittore che scegli quando risolvi il seguente problema di minimizzazione con la funzione di costo variabile dellindicatore (che indica se hai ragione o torto):
$ $ min_ {c \ in \ mathcal {H}} \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $$
Mi chiedevo, quale fosse il predittore risultante $ c ^ * $ dalla risoluzione del problema di ottimizzazione di cui sopra e quale sia la sua relazione con la distribuzione nota i dati erano. ovvero qual era la relazione tra i predittori $ c ^ * $ e $ P_ {y | x} (1 | x) $ e $ P_ {y | x} (- 1 | x) $ .
Quello che avevo fatto finora è stato espandere $ \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $ :
$ \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] = \ mathbb {E} _ {x} \ mathbb {E} _ {y | x} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $
e quindi ridurre a icona quanto segue:
$ \ mathbb {E} _ {y | x} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] = P_ {y | x} (1 | x) \ mathbb {1} _ {\ {c (x) \ neq 1 \}} + P_ {y | x} (- 1 | x ) \ mathbb {1} _ {\ {c (x) \ neq 1 \}} $
Ma ho avuto difficoltà ad andare avanti perché non ero sicuro di come ridurre al minimo lespressione sopra . Intuitivamente voglio scegliere il predittore che rende il mio errore il più basso. Quindi sceglierei letichetta $ 1 $ o $ – 1 $ , a seconda di quale aveva la più alta probabilità di che si verificano. Ma stavo avendo difficoltà a collegare quellintuizione con la matematica e lequazione di cui sopra, in un preciso o rigoroso importa.
Qual è la funzione esplicita di $ c ^ * (x) $ ?
La seguente funzione è quella corretta? Se lo è, perché?
$$ c ^ * (x) = sign (2p_ {y | x} (1 | x) – 1) $ $
Risposta
Considera le variabili casuali $ X $ e $ Y $, dove $ Y \ in \ { + 1, -1 \} $. Quando losservazione $ X $ ha valore $ x $, la regola decisionale $ c (x) $, che assume uno dei due valori $ + 1 $ e $ -1 $, ci dice cosa valore che la regola pensa $ Y $ abbia assunto. La scelta della funzione decisionale $ c (x) $ divide efficacemente lintervallo di $ X $ in due insiemi disgiunti $ \ Gamma _ {+ 1} $ e $ \ Gamma _ {- 1} $, cioè $ c (x) $ può essere espresso come $$ c (x) = \ begin {cases} +1, & x \ in \ Gamma _ {+ 1}, \\ – 1, & x \ in \ Gamma _ {- 1}. \ end {cases} $$ Lesperimento viene eseguito e $ (X, Y) $ assume il valore $ (x, y) $, ma possiamo osservare solo il valore di $ x $. Applichiamo la funzione $ c (x) $ per ottenere la nostra decisione $ + 1 $ o $ -1 $ su quale sia il valore di $ y $. Un essere superiore (che sa tutto compreso il valore di $ y $ che ci è stato nascosto) poi ci dice se abbiamo sbagliato o no: errori quando $ y $ non corrisponde alla decisione $ c (x) $ che noi raggiunto. Sia $ f _ {- 1} (x) $ la densità condizionale di $ X $ dato che $ Y = -1 $. Quindi, dato che $ Y = -1 $, commettiamo un errore se il valore osservato di $ X $ è nella regione $ \ Gamma _ {+ 1} $ e il condizionale la probabilità di errore è quindi $ \ displaystyle P (E \ mid Y = -1) = \ int _ {\ Gamma _ {+ 1}} f _ {- 1} (x) \, \ mathrm dx. $ Allo stesso modo, il condizionale probabilità di errore quando $ Y = + 1 $ è $ \ displaystyle P (E \ metà Y = + 1) = \ int _ {\ Gamma _ {- 1}} f _ {+ 1} (x ) \, \ mathrm dx. $ Quindi, la probabilità incondizionata di errore $ P (E) $ di questa regola decisionale è $$ \ begin {align} P (E) & = P \ {E \ mid Y = -1 \} P \ {Y = -1 \} + P \ {E \ mid Y = +1 \} P \ {Y = +1 \} \\ & = \ int _ {\ Gamma _ {+ 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \, \ mathrm dx + \ int_ { \ Gamma _ {- 1}} \ pi _ {+ 1} \ cdot f _ {+ 1} (x) \, \ mathrm dx \\ & = \ int _ {\ Gamma _ {+ 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \, \ mathrm dx + \ int _ {\ Gamma _ {- 1}} \ pi _ {+ 1} \ cdot f _ {+ 1} (x ) \, \ mathrm dx \\ & \ quad + \ int _ {\ Gamma _ {- 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \ , \ mathrm dx – \ int _ {\ Gamma _ {- 1}} \ pi _ {- 1} \ cdot f_ { -1} (x \, \ mathrm dx \\ & = \ pi _ {- 1} \ int _ {\ mathbb R} f _ {- 1} (x) \, \ mathrm dx + \ int _ {\ Gamma _ {- 1}} \ sinistra [\ pi _ {+ 1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ destra ] \, \ mathrm dx \\ P (E) & = \ pi _ {- 1} + \ int _ {\ Gamma _ {- 1}} \ left [\ pi _ {+ 1 } \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ right] \, \ mathrm dx \ tag {1} \ end {align} $$
La regola decisionale bayesiana è la regola che minimizza il lato destro di $ (1) $.Non possiamo fare nulla con il primo termine che è lo stesso per tutte le regole di decisione, ma con una scelta intelligente della regione $ \ Gamma _ {- 1} $ (la regola di decisione è effettivamente definita dalla regione $ \ Gamma _ {- 1} $), possiamo ridurre $ P (E) $. Nota che l integrando in $ (1) $ può essere positivo o negativo e scegliendo $$ \ Gamma _ {- 1} = \ {x \ due punti \ pi_ { +1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ leq 0 \}, \ tag {2} $$ (quindi escluso from $ \ Gamma _ {- 1} $ tutti i punti $ x $ per cui $ \ pi _ {+ 1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) > 0 $), ci assicuriamo che lintegrando non sia mai positivo nellintervallo di integrazione, e quindi lintegrale abbia un valore il più negativo possibile. Quindi, la regola decisionale descritta in $ (2) $ minimizza $ P (E) $ ed è la regola decisionale bayesiana.
Allora come funziona tutto questo in termini di distribuzioni a posteriori? La distribuzione a posteriori di $ Y $ dato $ X $ è discreta e la regola decisionale bayesiana risulta essere quella di scegliere il valore di $ Y $ che ha maggiore probabilità a posteriori. In effetti, abbiamo che $$ \ begin {align} P \ {Y = + 1 \ mid X = x \} & = \ frac {\ pi _ {+ 1} f_ {+1} (x)} {\ pi _ {+ 1} \ cdot f _ {+ 1} (x) + \ pi _ {- 1} \ cdot f _ {- 1} (x)} \ tag {3} \\ P \ {Y = -1 \ mid X = x \} & = \ frac {\ pi _ {- 1} f _ {- 1} (x)} {\ pi _ {+ 1} \ cdot f _ {+ 1} (x) + \ pi _ {- 1} \ cdot f _ {- 1} (x)} \ tag {4} \ end {align} $$ e così, scegliendo la probabilità a posteriori maggiore dà la stessa regola decisionale di $ (2) $. Ora, se $ P \ {Y = + 1 \ mid X = x \} = p_ {y | x} (1 | x) $ nella notazione dellOP è maggiore di $ P \ {Y = -1 \ mid X = x \} $, allora è vero che $ p_ {y | x} (1 | x) > \ frac 12 $, e quindi $ \ operatorname {sgn} ( 2p_ {y | x} (1 | x) -1) = + 1 $, quindi
Sì, la regola decisionale di Bayes $ c ^ * (x) $ può essere espresso come $ \ operatorname {sgn} (2p_ {y | x} (1 | x) -1) $
Tuttavia, il fatto che questa scelta minimizzi $ P (E) $ è molto più difficile da vedere da $ (3) $ e $ (4) $ o dallespressione succinta $ \ operatorname {sgn} ( 2p_ {y | x} (1 | x) -1) $ rispetto allo sviluppo che ha portato a $ (2) $. O almeno, è così che io, un non statistico, percepisco la questione; il tuo chilometraggio può variare .
Risposta
È più facile dimostrarlo, se formuli il problema in un modo leggermente diverso:
$$ P (c (x) \ neq y) \ geq P (c ^ {*} (x) \ neq y) $$ o equivalentemente, $$ \ mathbb {E} _ {x, y} \ left [1 _ {\ {c (x) = y \}} \ right] \ leq \ mathbb {E} _ {x, y} \ left [1 _ {\ {c ^ {*} ( x) = y \}} \ right] $$ e invece di avere $ y \ in \ {- 1,1 \} $ , hai $ y \ in \ {0,1 \} $ .
Nota che $ P_ {y | x} (0 | x) = 1-P_ {y | x} (1 | x) $ e $ 1 _ {\ {c (x) = 0 \ }} = 1-1 _ {\ {c (x) = 1 \}} $ , quindi se sottraiamo,
$$ \ mathbb {E} _ {y | x} \ sinistra [1 _ {\ {c ^ {*} (x) = y \}} \ destra] – \ mathbb {E} _ {y | x} \ sinistra [1 _ {\ {c (x) = y \}} \ right] = P_ {y | x} (1 | x) \ left (1 _ {\ {c ^ {*} (x) = 1 \}} – 1 _ {\ { c (x) = 1 \}} \ destra) + P_ {y | x} (0 | x) \ sinistra (1 _ {\ {c ^ {*} (x) = 0 \}} – 1 _ {\ {c (x) = 0 \}} \ right) = \ left (2P (1 | x) -1 \ right) \ left (1 _ {\ {c ^ {*} (x) = 1 \}} – 1 _ {\ {c (x) = 1 \}} \ right) \ geq 0 $$
Ora, se $ P (1 | x) > 1/2 $ , quindi in base alla definizione di $ c ^ {*} (x) $ , $ c ^ {*} (x) = 1 $ e da $ 1 _ {\ {c (x) = 1 \}} \ leq 0 $ , allora questa espressione è maggiore o uguale a zero. Allo stesso modo, se $ P (1 | x) < 1/2 $ , allora, per definizione, $ c ^ {*} (x) = 0 $ e da $ 1 _ {\ {c (x) = 1 \}} \ geq 0 $ , allora si applica la disuguaglianza.
\equiv
)? Il segno==
è usato piuttosto nella programmazione (correggimi se ' sbaglio).!=
che indica che " non è uguale a "