Qual é a regra de decisão de Bayes?

Assuma classificação binária, ou seja, $ y \ in \ {- 1,1 \} $ e que a distribuição de probabilidade conjunta subjacente que gera os dados é conhecida, ou seja, $ P_ {x, y} (x, y) $ é conhecida

Eu era disse que a regra de decisão de Bayes foi o preditor escolhido ao resolver o seguinte problema de minimização com a função de custo variável do indicador (indicando se você está certo ou errado):

$ $ min_ {c \ in \ mathcal {H}} \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $$

Eu estava me perguntando, qual foi o preditor $ c ^ * $ resultante da solução do problema de otimização acima e qual sua relação com a geração de distribuição conhecida os dados eram. ou seja, qual era a relação dos preditores $ c ^ * $ com $ P_ {y | x} (1 | x) $ e $ P_ {y | x} (- 1 | x) $ .

O que eu fiz até agora foi expandir $ \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $ :

$ \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] = \ mathbb {E} _ {x} \ mathbb {E} _ {y | x} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $

e, em seguida, minimize o seguinte:

$ \ mathbb {E} _ {y | x} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] = P_ {y | x} (1 | x) \ mathbb {1} _ {\ {c (x) \ neq 1 \}} + P_ {y | x} (- 1 | x ) \ mathbb {1} _ {\ {c (x) \ neq 1 \}} $

Mas eu tive dificuldade em prosseguir porque não tinha certeza de como minimizar a expressão acima . Intuitivamente, quero escolher o preditor que torna meu erro o mais baixo. Então, eu escolheria o rótulo $ 1 $ ou $ – 1 $ , dependendo de qual tinha a maior probabilidade de ocorrendo. Mas eu estava tendo dificuldade em relacionar essa intuição com a matemática e a equação acima, em um preciso ou questão rigorosa.

Qual é a função explícita para $ c ^ * (x) $ ?

A seguinte função é a correta? Se for, por quê?

$$ c ^ * (x) = sign (2p_ {y | x} (1 | x) – 1) $ $

Resposta

Considere as variáveis aleatórias $ X $ e $ Y $, onde $ Y \ in \ { + 1, -1 \} $. Quando a observação $ X $ tem valor $ x $, a regra de decisão $ c (x) $, que assume um dos dois valores $ + 1 $ e $ -1 $, nos diz o que valor que a regra pensa que $ Y $ assumiu. A escolha da função de decisão $ c (x) $ efetivamente particiona o intervalo de $ X $ em dois conjuntos disjuntos $ \ Gamma _ {+ 1} $ e $ \ Gamma _ {- 1} $, ou seja, $ c (x) $ pode ser expresso como $$ c (x) = \ begin {cases} +1, & x \ in \ Gamma _ {+ 1}, \\ – 1, & x \ in \ Gamma _ {- 1}. \ end {cases} $$ O experimento é realizado, resultando em $ (X, Y) $ assumindo o valor $ (x, y) $, mas podemos apenas observar o valor de $ x $. Aplicamos a função $ c (x) $ para obter nossa decisão $ + 1 $ ou $ -1 $ quanto a qual é o valor de $ y $. Um ser superior (que sabe tudo, incluindo o valor de $ y $ que foi escondido de nós) então nos diz se cometemos um erro ou não: erros quando $ y $ não corresponde à decisão $ c (x) $ que nós alcançado. Seja $ f _ {- 1} (x) $ denotando a densidade condicional de $ X $ dado que $ Y = -1 $. Então, dado que $ Y = -1 $, cometemos um erro se o valor observado de $ X $ estiver na região $ \ Gamma _ {+ 1} $, e o condicional probabilidade de erro é $ \ displaystyle P (E \ mid Y = -1) = \ int _ {\ Gamma _ {+ 1}} f _ {- 1} (x) \, \ mathrm dx. $ Da mesma forma, o probabilidade condicional de erro quando $ Y = + 1 $ é $ \ displaystyle P (E \ mid Y = + 1) = \ int _ {\ Gamma _ {- 1}} f _ {+ 1} (x ) \, \ mathrm dx. $ Portanto, a probabilidade incondicional de erro $ P (E) $ desta regra de decisão é $$ \ begin {align} P (E) & = P \ {E \ mid Y = -1 \} P \ {Y = -1 \} + P \ {E \ mid Y = +1 \} P \ {Y = +1 \} \\ & = \ int _ {\ Gamma _ {+ 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \, \ mathrm dx + \ int_ { \ Gamma _ {- 1}} \ pi _ {+ 1} \ cdot f _ {+ 1} (x) \, \ mathrm dx \\ & = \ int _ {\ Gamma _ {+ 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \, \ mathrm dx + \ int _ {\ Gamma _ {- 1}} \ pi _ {+ 1} \ cdot f _ {+ 1} (x ) \, \ mathrm dx \\ & \ quad + \ int _ {\ Gamma _ {- 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \ , \ mathrm dx – \ int _ {\ Gamma _ {- 1}} \ pi _ {- 1} \ cdot f_ { -1} (x \, \ mathrm dx \\ & = \ pi _ {- 1} \ int _ {\ mathbb R} f _ {- 1} (x) \, \ mathrm dx + \ int _ {\ Gamma _ {- 1}} \ left [\ pi _ {+ 1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ right ] \, \ mathrm dx \\ P (E) & = \ pi _ {- 1} + \ int _ {\ Gamma _ {- 1}} \ left [\ pi _ {+ 1 } \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ right] \, \ mathrm dx \ tag {1} \ end {align} $$

A regra de decisão Bayesiana é a regra que minimiza o lado direito de $ (1) $.Não podemos fazer nada com o primeiro termo, que é o mesmo para todas as regras de decisão, mas pela escolha inteligente da região $ \ Gamma _ {- 1} $ (a regra de decisão é efetivamente definida pela região $ \ Gamma _ {- 1} $), podemos fazer $ P (E) $ menor. Observe que o integrando em $ (1) $ pode ser positivo ou negativo, e escolhendo $$ \ Gamma _ {- 1} = \ {x \ dois pontos \ pi_ { +1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ leq 0 \}, \ tag {2} $$ (assim, excluindo de $ \ Gamma _ {- 1} $ todos os pontos $ x $ para os quais $ \ pi _ {+ 1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) > 0 $), nos certificamos de que o integrando nunca é positivo na faixa de integração e, portanto, a integral tem um valor tão negativo quanto possível. Portanto, a regra de decisão descrita em $ (2) $ minimiza $ P (E) $, e é a regra de decisão Bayesiana.


Então, como tudo isso funciona em termos de distribuições posteriores? A distribuição posterior de $ Y $ dado $ X $ é discreta , e a regra de decisão bayesiana funciona para escolher qualquer valor de $ Y $ que tenha maior probabilidade posterior. Na verdade, temos que $$ \ begin {align} P \ {Y = + 1 \ mid X = x \} & = \ frac {\ pi _ {+ 1} f_ {+1} (x)} {\ pi _ {+ 1} \ cdot f _ {+ 1} (x) + \ pi _ {- 1} \ cdot f _ {- 1} (x)} \ tag {3} \\ P \ {Y = -1 \ mid X = x \} & = \ frac {\ pi _ {- 1} f _ {- 1} (x)} {\ pi _ {+ 1} \ cdot f _ {+ 1} (x) + \ pi _ {- 1} \ cdot f _ {- 1} (x)} \ tag {4} \ end {align} $$ e assim, escolhendo qualquer probabilidade posterior maior fornece a mesma regra de decisão de $ (2) $. Agora, se $ P \ {Y = + 1 \ mid X = x \} = p_ {y | x} (1 | x) $ na notação OP “s é maior do que $ P \ {Y = -1 \ mid X = x \} $, então é verdade que $ p_ {y | x} (1 | x) > \ frac 12 $, e então $ \ operatorname {sgn} ( 2p_ {y | x} (1 | x) -1) = + 1 $, e assim

Sim, a regra de decisão de Bayes $ c ^ * (x) $ pode ser expresso como $ \ operatorname {sgn} (2p_ {y | x} (1 | x) -1) $

No entanto, o fato de que esta escolha minimiza $ P (E) $ é muito mais difícil de ver de $ (3) $ e $ (4) $ ou da expressão sucinta $ \ operatorname {sgn} ( 2p_ {y | x} (1 | x) -1) $ do que do desenvolvimento que levou a $ (2) $. Ou, pelo menos, é assim que eu, um não estatístico, percebo a questão; sua milhagem pode variar .

Resposta

É mais fácil prová-lo, se você formular o problema de uma maneira ligeiramente diferente:

$$ P (c (x) \ neq y) \ geq P (c ^ {*} (x) \ neq y) $$ ou equivalente, $$ \ mathbb {E} _ {x, y} \ left [1 _ {\ {c (x) = y \}} \ right] \ leq \ mathbb {E} _ {x, y} \ left [1 _ {\ {c ^ {*} ( x) = y \}} \ right] $$ e em vez de ter $ y \ in \ {- 1,1 \} $ , você tem $ y \ in \ {0,1 \} $ .

Observe que $ P_ {y | x} (0 | x) = 1-P_ {y | x} (1 | x) $ e $ 1 _ {\ {c (x) = 0 \ }} = 1-1 _ {\ {c (x) = 1 \}} $ , portanto, se subtrairmos,

$$ \ mathbb {E} _ {y | x} \ left [1 _ {\ {c ^ {*} (x) = y \}} \ right] – \ mathbb {E} _ {y | x} \ left [1 _ {\ {c (x) = y \}} \ right] = P_ {y | x} (1 | x) \ left (1 _ {\ {c ^ {*} (x) = 1 \}} – 1 _ {\ { c (x) = 1 \}} \ right) + P_ {y | x} (0 | x) \ left (1 _ {\ {c ^ {*} (x) = 0 \}} – 1 _ {\ {c (x) = 0 \}} \ right) = \ left (2P (1 | x) -1 \ right) \ left (1 _ {\ {c ^ {*} (x) = 1 \}} – 1 _ {\ {c (x) = 1 \}} \ right) \ geq 0 $$

Agora, se $ P (1 | x) > 1/2 $ , então pela definição de $ c ^ {*} (x) $ , $ c ^ {*} (x) = 1 $ , e desde $ 1 _ {\ {c (x) = 1 \}} \ leq 0 $ , então esta expressão é maior ou igual a zero. Da mesma forma, se $ P (1 | x) < 1/2 $ , então, por definição, $ c ^ {*} (x) = 0 $ e desde $ 1 _ {\ {c (x) = 1 \}} \ geq 0 $ , então a desigualdade se aplica.

Comentários

  • Tenho uma pergunta sobre sua notação: por $ == $ você significa $ \ equiv $ (\equiv)? O sinal == é usado na programação (corrija-me se eu ' m errado).
  • @Tim I concordar. O mesmo vale para != indicando " não é igual a "

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *