Supposons une classification binaire, cest-à-dire $ y \ in \ {- 1,1 \} $ et que la distribution de probabilité conjointe sous-jacente générant les données est connue, cest-à-dire que $ P_ {x, y} (x, y) $ est connu
Jétais dit que la règle de décision de Bayes était le prédicteur que vous choisissez lors de la résolution du problème de minimisation suivant avec la fonction de coût variable de lindicateur (indiquant si vous avez raison ou tort):
$ $ min_ {c \ in \ mathcal {H}} \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $$
Je me demandais quel était le prédicteur résultant $ c ^ * $ de la résolution du problème doptimisation ci-dessus et quelle était sa relation avec la distribution connue générant les données étaient. cest-à-dire quels étaient les prédicteurs $ c ^ * $ relation avec $ P_ {y | x} (1 | x) $ et $ P_ {y | x} (- 1 | x) $ .
Ce que javais fait jusquici était de développer $ \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $ :
$ \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] = \ mathbb {E} _ {x} \ mathbb {E} _ {y | x} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $
puis réduisez les éléments suivants:
$ \ mathbb {E} _ {y | x} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] = P_ {y | x} (1 | x) \ mathbb {1} _ {\ {c (x) \ neq 1 \}} + P_ {y | x} (- 1 | x ) \ mathbb {1} _ {\ {c (x) \ neq 1 \}} $
Mais jai eu du mal à avancer car je ne savais pas comment minimiser lexpression ci-dessus . Intuitivement, je veux choisir le prédicteur qui rend mon erreur la plus faible. Je choisirais donc le libellé $ 1 $ ou $ – 1 $ , selon celui qui a la plus forte probabilité de se produisant. Mais javais du mal à relier cette intuition aux mathématiques et à léquation ci-dessus, dans un précis ou rigoureux matière.
Quelle est la fonction explicite de $ c ^ * (x) $ ?
La fonction suivante est-elle la bonne? Si cest le cas, pourquoi?
$$ c ^ * (x) = sign (2p_ {y | x} (1 | x) – 1) $ $
Réponse
Considérons les variables aléatoires $ X $ et $ Y $, où $ Y \ in \ { + 1, -1 \} $. Lorsque lobservation $ X $ vaut $ x $, la règle de décision $ c (x) $, qui prend lune des deux valeurs $ + 1 $ et $ -1 $, nous dit ce que valeur que la règle pense que $ Y $ a prise. Le choix de la fonction de décision $ c (x) $ partitionne effectivement la plage de $ X $ en deux ensembles disjoints $ \ Gamma _ {+ 1} $ et $ \ Gamma _ {- 1} $, soit $ c (x) $ peut être exprimé comme $$ c (x) = \ begin {cases} +1, & x \ in \ Gamma _ {+ 1}, \\ – 1, & x \ in \ Gamma _ {- 1}. \ end {cases} $$ Lexpérience est effectuée, ce qui fait que $ (X, Y) $ prend la valeur $ (x, y) $, mais nous ne pouvons observer que la valeur de $ x $. Nous appliquons la fonction $ c (x) $ pour obtenir notre décision $ + 1 $ ou $ -1 $ quant à la valeur de $ y $. Un être supérieur (qui sait tout y compris la valeur de $ y $ qui nous a été cachée) nous dit alors si nous avons commis une erreur ou non: erreurs lorsque $ y $ ne correspond pas à la décision $ c (x) $ que nous parvenu. Soit $ f _ {- 1} (x) $ la densité conditionnelle de $ X $ étant donné que $ Y = -1 $. Ensuite, étant donné que $ Y = -1 $, on fait une erreur si la valeur observée de $ X $ est dans la région $ \ Gamma _ {+ 1} $, et la conditionnelle la probabilité derreur est donc $ \ displaystyle P (E \ mid Y = -1) = \ int _ {\ Gamma _ {+ 1}} f _ {- 1} (x) \, \ mathrm dx. $ De même, le Probabilité derreur conditionnelle lorsque $ Y = + 1 $ est $ \ displaystyle P (E \ mid Y = + 1) = \ int _ {\ Gamma _ {- 1}} f _ {+ 1} (x ) \, \ mathrm dx. $ Par conséquent, la probabilité derreur inconditionnelle $ P (E) $ de cette règle de décision est $$ \ begin {align} P (E) & = P \ {E \ mid Y = -1 \} P \ {Y = -1 \} + P \ {E \ mid Y = +1 \} P \ {Y = +1 \} \\ & = \ int _ {\ Gamma _ {+ 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \, \ mathrm dx + \ int_ { \ Gamma _ {- 1}} \ pi _ {+ 1} \ cdot f _ {+ 1} (x) \, \ mathrm dx \\ & = \ int _ {\ Gamma _ {+ 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \, \ mathrm dx + \ int _ {\ Gamma _ {- 1}} \ pi _ {+ 1} \ cdot f _ {+ 1} (x ) \, \ mathrm dx \\ & \ quad + \ int _ {\ Gamma _ {- 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \ , \ mathrm dx – \ int _ {\ Gamma _ {- 1}} \ pi _ {- 1} \ cdot f_ { -1} (x \, \ mathrm dx \\ & = \ pi _ {- 1} \ int _ {\ mathbb R} f _ {- 1} (x) \, \ mathrm dx + \ int _ {\ Gamma _ {- 1}} \ left [\ pi _ {+ 1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ right ] \, \ mathrm dx \\ P (E) & = \ pi _ {- 1} + \ int _ {\ Gamma _ {- 1}} \ left [\ pi _ {+ 1 } \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ right] \, \ mathrm dx \ tag {1} \ end {align} $$
La règle de décision bayésienne est la règle qui minimise le côté droit de $ (1) $.On ne peut rien faire avec le premier terme qui est le même pour toutes les règles de décision, mais par un choix judicieux de la région $ \ Gamma _ {- 1} $ (la règle de décision est effectivement définie par la région $ \ Gamma _ {- 1} $), nous pouvons réduire $ P (E) $. Notez que l intégrande dans $ (1) $ peut être positive ou négative, et en choisissant $$ \ Gamma _ {- 1} = \ {x \ colon \ pi_ { +1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ leq 0 \}, \ tag {2} $$ (donc excluant de $ \ Gamma _ {- 1} $ tous les points $ x $ pour lesquels $ \ pi _ {+ 1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) > 0 $), nous nous assurons que lintégrale nest jamais positive dans la plage dintégration, et donc lintégrale a une valeur aussi négative que possible. Par conséquent, la règle de décision décrite dans $ (2) $ minimise $ P (E) $, et est la règle de décision bayésienne.
Alors, comment tout cela se joue en termes de distributions postérieures? La distribution a posteriori de $ Y $ étant donné $ X $ est discrète , et la règle de décision bayésienne consiste à choisir la valeur de $ Y $ qui a la plus grande probabilité postérieure. En fait, nous avons que $$ \ begin {align} P \ {Y = + 1 \ mid X = x \} & = \ frac {\ pi _ {+ 1} f_ {+1} (x)} {\ pi _ {+ 1} \ cdot f _ {+ 1} (x) + \ pi _ {- 1} \ cdot f _ {- 1} (x)} \ tag {3} \\ P \ {Y = -1 \ mid X = x \} & = \ frac {\ pi _ {- 1} f _ {- 1} (x)} {\ pi _ {+ 1} \ cdot f _ {+ 1} (x) + \ pi _ {- 1} \ cdot f _ {- 1} (x)} \ tag {4} \ end {align} $$ et ainsi, en choisissant la probabilité postérieure est plus grand donne la même règle de décision que $ (2) $. Maintenant, si $ P \ {Y = + 1 \ mid X = x \} = p_ {y | x} (1 | x) $ dans la notation de OP est plus grand que $ P \ {Y = -1 \ mid X = x \} $, alors est vrai que $ p_ {y | x} (1 | x) > \ frac 12 $, et donc $ \ operatorname {sgn} ( 2p_ {y | x} (1 | x) -1) = + 1 $, et ainsi
Oui, la règle de décision Bayes $ c ^ * (x) $ peut être exprimé comme $ \ operatorname {sgn} (2p_ {y | x} (1 | x) -1) $
Cependant, le fait que ce choix minimise $ P (E) $ est beaucoup plus difficile à voir à partir de $ (3) $ et $ (4) $ ou de lexpression succincte $ \ operatorname {sgn} ( 2p_ {y | x} (1 | x) -1) $ que du développement qui a conduit à $ (2) $. Ou du moins, cest ainsi que moi, un non-statisticien, perçois le problème; votre kilométrage peut varier .
Réponse
Il est plus facile de le prouver, si vous formulez le problème dune manière légèrement différente:
$$ P (c (x) \ neq y) \ geq P (c ^ {*} (x) \ neq y) $$ ou équivalent, $$ \ mathbb {E} _ {x, y} \ left [1 _ {\ {c (x) = y \}} \ right] \ leq \ mathbb {E} _ {x, y} \ left [1 _ {\ {c ^ {*} ( x) = y \}} \ right] $$ et au lieu davoir $ y \ in \ {- 1,1 \} $ , vous avez $ y \ in \ {0,1 \} $ .
Notez que $ P_ {y | x} (0 | x) = 1-P_ {y | x} (1 | x) $ et $ 1 _ {\ {c (x) = 0 \ }} = 1-1 _ {\ {c (x) = 1 \}} $ , donc si nous soustrayons,
$$ \ mathbb {E} _ {y | x} \ left [1 _ {\ {c ^ {*} (x) = y \}} \ right] – \ mathbb {E} _ {y | x} \ left [1 _ {\ {c (x) = y \}} \ right] = P_ {y | x} (1 | x) \ left (1 _ {\ {c ^ {*} (x) = 1 \}} – 1 _ {\ { c (x) = 1 \}} \ droite) + P_ {y | x} (0 | x) \ gauche (1 _ {\ {c ^ {*} (x) = 0 \}} – 1 _ {\ {c (x) = 0 \}} \ right) = \ left (2P (1 | x) -1 \ right) \ left (1 _ {\ {c ^ {*} (x) = 1 \}} – 1 _ {\ {c (x) = 1 \}} \ right) \ geq 0 $$
Maintenant, si $ P (1 | x) > 1/2 $ , puis par la définition de $ c ^ {*} (x) $ , $ c ^ {*} (x) = 1 $ , et depuis $ 1 _ {\ {c (x) = 1 \}} \ leq 0 $ , alors cette expression est supérieure ou égale à zéro. De même, si $ P (1 | x) < 1/2 $ , alors, par définition, $ c ^ {*} (x) = 0 $ et puisque $ 1 _ {\ {c (x) = 1 \}} \ geq 0 $ , alors linégalité sapplique.
\equiv
)? Le signe==
est plutôt utilisé en programmation (corrigez-moi si je ' m faux).!=
indiquant que " nest pas égal à "