¿Qué es la regla de decisión de Bayes?

Suponga una clasificación binaria, es decir, $ y \ in \ {- 1,1 \} $ y que se conoce la distribución de probabilidad conjunta subyacente que genera los datos, es decir, se conoce $ P_ {x, y} (x, y) $

Yo estaba dijo que la regla de decisión de Bayes era el predictor que eligió al resolver el siguiente problema de minimización con la función de costo variable del indicador (que indica si tiene razón o no):

$ $ min_ {c \ in \ mathcal {H}} \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $$

Me preguntaba cuál fue el predictor $ c ^ * $ resultante de resolver el problema de optimización anterior y cuál es su relación con la distribución conocida que genera los datos fueron. es decir, ¿cuál era la relación de predictores $ c ^ * $ con $ P_ {y | x} (1 | x) $ y $ P_ {y | x} (- 1 | x) $ .

Lo que había hecho hasta ahora era expandir $ \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $ :

$ \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] = \ mathbb {E} _ {x} \ mathbb {E} _ {y | x} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $

y luego minimiza lo siguiente:

$ \ mathbb {E} _ {y | x} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] = P_ {y | x} (1 | x) \ mathbb {1} _ {\ {c (x) \ neq 1 \}} + P_ {y | x} (- 1 | x ) \ mathbb {1} _ {\ {c (x) \ neq 1 \}} $

Pero me fue difícil seguir adelante porque no estaba seguro de cómo minimizar la expresión anterior . Intuitivamente quiero elegir el predictor que hace que mi error sea el más bajo. Así que elegiría la etiqueta $ 1 $ o $ – 1 $ , según cuál tenga la mayor probabilidad de ocurriendo. Pero estaba teniendo dificultades para vincular esa intuición con las matemáticas y la ecuación anterior, en un preciso o rigurosa importa.

¿Cuál es la función explícita para $ c ^ * (x) $ ?

¿Es la siguiente función la correcta? Si es así, ¿por qué?

$$ c ^ * (x) = sign (2p_ {y | x} (1 | x) – 1) $ $

Respuesta

Considere las variables aleatorias $ X $ y $ Y $, donde $ Y \ in \ { + 1, -1 \} $. Cuando la observación $ X $ tiene valor $ x $, la regla de decisión $ c (x) $, que toma uno de los dos valores $ + 1 $ y $ -1 $, nos dice qué valor que la regla cree $ Y $ ha asumido. La elección de la función de decisión $ c (x) $ divide efectivamente el rango de $ X $ en dos conjuntos disjuntos $ \ Gamma _ {+ 1} $ y $ \ Gamma _ {- 1} $, es decir, $ c (x) $ se puede expresar como $$ c (x) = \ begin {cases} +1, & x \ in \ Gamma _ {+ 1}, \\ – 1, & x \ in \ Gamma _ {- 1}. \ end {cases} $$ El experimento se realiza, resultando en $ (X, Y) $ tomando el valor $ (x, y) $, pero solo podemos observar el valor de $ x $. Aplicamos la función $ c (x) $ para obtener nuestra decisión $ + 1 $ o $ -1 $ sobre cuál es el valor de $ y $. Un ser superior (que sabe todo, incluido el valor de $ y $ que se nos ha ocultado) entonces nos dice si cometimos un error o no: errores cuando $ y $ no coincide con la decisión $ c (x) $ que hemos alcanzó. Sea $ f _ {- 1} (x) $ la densidad condicional de $ X $ dado que $ Y = -1 $. Entonces, dado que $ Y = -1 $, cometemos un error si el valor observado de $ X $ está en la región $ \ Gamma _ {+ 1} $, y el condicional probabilidad de error es $ \ displaystyle P (E \ mid Y = -1) = \ int _ {\ Gamma _ {+ 1}} f _ {- 1} (x) \, \ mathrm dx. $ De manera similar, el probabilidad condicional de error cuando $ Y = + 1 $ es $ \ displaystyle P (E \ mid Y = + 1) = \ int _ {\ Gamma _ {- 1}} f _ {+ 1} (x ) \, \ mathrm dx. $ Por lo tanto, la probabilidad incondicional de error $ P (E) $ de esta regla de decisión es $$ \ begin {align} P (E) & = P \ {E \ mid Y = -1 \} P \ {Y = -1 \} + P \ {E \ mid Y = +1 \} P \ {Y = +1 \} \\ & = \ int _ {\ Gamma _ {+ 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \, \ mathrm dx + \ int_ { \ Gamma _ {- 1}} \ pi _ {+ 1} \ cdot f _ {+ 1} (x) \, \ mathrm dx \\ & = \ int _ {\ Gamma _ {+ 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \, \ mathrm dx + \ int _ {\ Gamma _ {- 1}} \ pi _ {+ 1} \ cdot f _ {+ 1} (x ) \, \ mathrm dx \\ & \ quad + \ int _ {\ Gamma _ {- 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \ , \ mathrm dx – \ int _ {\ Gamma _ {- 1}} \ pi _ {- 1} \ cdot f_ { -1} (x \, \ mathrm dx \\ & = \ pi _ {- 1} \ int _ {\ mathbb R} f _ {- 1} (x) \, \ mathrm dx + \ int _ {\ Gamma _ {- 1}} \ left [\ pi _ {+ 1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ right ] \, \ mathrm dx \\ P (E) & = \ pi _ {- 1} + \ int _ {\ Gamma _ {- 1}} \ left [\ pi _ {+ 1 } \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ right] \, \ mathrm dx \ tag {1} \ end {align} $$

La regla de decisión bayesiana es la regla que minimiza el lado derecho de $ (1) $.No podemos hacer nada con el primer término, que es el mismo para todas las reglas de decisión, sino mediante la elección inteligente de la región $ \ Gamma _ {- 1} $ (la regla de decisión se define efectivamente por la región $ \ Gamma _ {- 1} $), podemos reducir $ P (E) $. Tenga en cuenta que el integrando en $ (1) $ puede ser positivo o negativo, y al elegir $$ \ Gamma _ {- 1} = \ {x \ colon \ pi_ { +1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ leq 0 \}, \ tag {2} $$ (por lo tanto, excluyendo de $ \ Gamma _ {- 1} $ todos los puntos $ x $ para los cuales $ \ pi _ {+ 1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) > 0 $), nos aseguramos de que el integrando nunca sea positivo en el rango de integración, por lo que la integral tiene un valor lo más negativo posible. Por tanto, la regla de decisión descrita en $ (2) $ minimiza $ P (E) $, y es la regla de decisión bayesiana.


Entonces, ¿cómo se desarrolla todo esto en términos de distribuciones posteriores? La distribución posterior de $ Y $ dado $ X $ es discreta , y la regla de decisión bayesiana resulta ser elegir el valor de $ Y $ que tenga mayor probabilidad posterior. De hecho, tenemos que $$ \ begin {align} P \ {Y = + 1 \ mid X = x \} & = \ frac {\ pi _ {+ 1} f_ {+1} (x)} {\ pi _ {+ 1} \ cdot f _ {+ 1} (x) + \ pi _ {- 1} \ cdot f _ {- 1} (x)} \ etiqueta {3} \\ P \ {Y = -1 \ mid X = x \} & = \ frac {\ pi _ {- 1} f _ {- 1} (x)} {\ pi _ {+ 1} \ cdot f _ {+ 1} (x) + \ pi _ {- 1} \ cdot f _ {- 1} (x)} \ tag {4} \ end {align} $$ y así, eligiendo la probabilidad posterior que sea más grande da la misma regla de decisión que $ (2) $. Ahora, si $ P \ {Y = + 1 \ mid X = x \} = p_ {y | x} (1 | x) $ en la notación OP «s es mayor que $ P \ {Y = -1 \ mid X = x \} $, entonces es cierto que $ p_ {y | x} (1 | x) > \ frac 12 $, y entonces $ \ operatorname {sgn} ( 2p_ {y | x} (1 | x) -1) = + 1 $, y así

Sí, la regla de decisión de Bayes $ c ^ * (x) $ puede expresarse como $ \ operatorname {sgn} (2p_ {y | x} (1 | x) -1) $

Sin embargo, el hecho de que esta opción minimice $ P (E) $ es mucho más difícil de ver desde $ (3) $ y $ (4) $ o desde la expresión sucinta $ \ operatorname {sgn} ( 2p_ {y | x} (1 | x) -1) $ que del desarrollo que condujo a $ (2) $. O al menos, así es como yo, que no soy estadístico, percibo el asunto; su kilometraje puede variar .

Respuesta

Es más fácil demostrarlo si formula el problema de una manera ligeramente diferente:

$$ P (c (x) \ neq y) \ geq P (c ^ {*} (x) \ neq y) $$ o de forma equivalente, $$ \ mathbb {E} _ {x, y} \ left [1 _ {\ {c (x) = y \}} \ right] \ leq \ mathbb {E} _ {x, y} \ left [1 _ {\ {c ^ {*} ( x) = y \}} \ right] $$ y en lugar de tener $ y \ in \ {- 1,1 \} $ , tienes $ y \ in \ {0,1 \} $ .

Observe que $ P_ {y | x} (0 | x) = 1-P_ {y | x} (1 | x) $ y $ 1 _ {\ {c (x) = 0 \ }} = 1-1 _ {\ {c (x) = 1 \}} $ , por lo tanto, si restamos,

$$ \ mathbb {E} _ {y | x} \ left [1 _ {\ {c ^ {*} (x) = y \}} \ right] – \ mathbb {E} _ {y | x} \ left [1 _ {\ {c (x) = y \}} \ right] = P_ {y | x} (1 | x) \ left (1 _ {\ {c ^ {*} (x) = 1 \}} – 1 _ {\ { c (x) = 1 \}} \ derecha) + P_ {y | x} (0 | x) \ izquierda (1 _ {\ {c ^ {*} (x) = 0 \}} – 1 _ {\ {c (x) = 0 \}} \ derecha) = \ izquierda (2P (1 | x) -1 \ derecha) \ izquierda (1 _ {\ {c ^ {*} (x) = 1 \}} – 1 _ {\ {c (x) = 1 \}} \ right) \ geq 0 $$

Ahora, si $ P (1 | x) > 1/2 $ , luego, según la definición de $ c ^ {*} (x) $ , $ c ^ {*} (x) = 1 $ y desde $ 1 _ {\ {c (x) = 1 \}} \ leq 0 $ , entonces esta expresión es mayor o igual a cero. Del mismo modo, si $ P (1 | x) < 1/2 $ , entonces, por definición, $ c ^ {*} (x) = 0 $ y desde $ 1 _ {\ {c (x) = 1 \}} \ geq 0 $ , entonces se aplica la desigualdad.

Comentarios

  • Tengo una pregunta sobre su notación: por $ == $ ¿ significa $ \ equiv $ (\equiv)? El signo == se usa más bien en programación (corrígeme si ' estoy equivocado).
  • @Tim I estar de acuerdo. Lo mismo vale para != que indica " no es igual a "

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *