Ao avaliar um estimador, os dois critérios provavelmente mais comumente usados são o risco máximo e o risco Bayes. Minha pergunta se refere ao último:
O risco de bayes sob o $ \ pi $ anterior é definido da seguinte forma:
$$ B _ {\ pi} (\ hat {\ theta }) = \ int R (\ theta, \ hat {\ theta}) \ pi (\ theta) d \ theta $$
Não entendo bem o que o $ \ pi $ anterior está fazendo e como devo interpretá-lo. Se eu tiver uma função de risco $ R (\ theta, \ hat {\ theta}) $ e a plotar, intuitivamente eu tomaria sua área como um critério para julgar quão “forte” o risco acabou todos os valores possíveis de $ \ theta $. Mas envolver o anterior de alguma forma destrói essa intuição novamente, embora esteja próxima. Alguém pode me ajudar a interpretar o anterior?
Comentários
- Não consigo ver como a plotagem da função de risco pode ser intuitiva ao considerar vários parâmetros: nessa configuração, as funções se cruzam e não identificam um " melhor " estimador. O risco de Bayes retorna um único número para cada estimador e, portanto, permite uma classificação de todas as estimativas tors.
Resposta
[Aqui está um trecho de meu próprio livro, The Bayesian Choice (2007) , que argumenta a favor de uma abordagem teórica da decisão para a análise bayesiana, portanto, do uso do risco de Bayes.]
Exceto para as configurações mais triviais, geralmente é impossível minimizar uniformemente (em $ d $) a função de perda $ \ text {L} (\ theta, d) $ quando $ \ theta $ é desconhecido. A fim de derivar um critério de comparação eficaz da função de perda, a abordagem frequentista propõe considerar a perda média (ou risco frequentista ) \ begin {eqnarray *} R ( \ theta, \ delta) & = & \ mathbb {E} _ \ theta \ lbrack \ text {L} (\ theta, \ delta (x)) \ rbrack \\ & = & \ int _ {\ cal X} \ text {L} (\ theta , \ delta (x)) f (x | \ theta) \, dx, \ end {eqnarray *} onde $ \ delta (x) $ é a regra de decisão, ou seja, a alocação de uma decisão para cada resultado $ x \ sim f (x | \ theta) $ do experimento aleatório.
A função $ \ delta $, de $ {\ mathcal X} $ em $ \ mathfrak {D} $, é normalmente chamada de estimador (enquanto o valor $ \ delta (x) $ é chamado de estimativa de $ \ theta $). Quando não há risco de confusão, também denotamos o conjunto de estimadores por $ \ mathfrak {D} $.
O paradigma frequentista se baseia neste critério para comparar estimadores e, se possível, para selecionar o melhor estimador, o raciocínio é que os estimadores são avaliados em seu desempenho de longo prazo para todos os valores possíveis do parâmetro $ \ theta $. Observe, no entanto, que existem várias dificuldades associadas a esta abordagem.
- O erro (perda) é calculado sobre os diferentes valores de $ x $ proporcionalmente à densidade $ f (x | \ theta ) $. Portanto, parece que a observação $ x $ não é mais levada em consideração. O critério de risco avalia os procedimentos em seu desempenho de longo prazo e não diretamente para a observação dada, $ x $. Tal avaliação pode ser satisfatória para o estatístico, mas não é tão atraente para um cliente, que deseja resultados ótimos para seus dados $ x $, não os de outros “s!
- A análise frequentista do problema de decisão pressupõe implicitamente que esse problema será encontrado repetidamente, para que a avaliação da frequência faça sentido. De fato, $ R (\ theta, \ delta) $ é aproximadamente a perda média em repetições iid do mesmo experimento, de acordo com o Lei dos Grandes Números. No entanto, tanto do ponto de vista filosófico quanto prático, há muita controvérsia sobre a própria noção de repetibilidade de experimentos (ver Jeffreys (1961)). Por um lado, se novas observações vierem ao estatístico, ele deveria fazer uso deles, e isso pode modificar a forma como o experimento é conduzido, como em, por exemplo, ensaios médicos.
- Para um procedimento $ \ delta $, o risco $ R (\ theta, \ delta ) $ é uma função do parâmetro $ \ theta $. Portanto, a abordagem frequentista não induz uma ordem total anel no conjunto de procedimentos. Geralmente é impossível comparar procedimentos de decisão com este critério, uma vez que duas funções de risco cruzadas impedem a comparação entre os estimadores correspondentes. Na melhor das hipóteses, pode-se esperar um procedimento $ \ delta_0 $ que uniformemente minimiza $ R (\ theta, \ delta) $, mas tais casos raramente ocorrem, a menos que o espaço dos procedimentos de decisão seja restrito. Os melhores procedimentos só podem ser obtidos restringindo um tanto artificialmente o conjunto de procedimentos autorizados.
Exemplo 2.4 – Considere $ x_1 $ e $ x_2 $, duas observações de $$ P _ {\ theta} (x = \ theta-1) = P _ {\ theta} (x = \ theta + 1) = 0,5, \ qquad \ theta \ in \ mathbb {R}. $$ O parâmetro de interesse é $ \ theta $ (ou seja,, $ \ mathfrak {D} = \ Theta $) e é estimado pelos estimadores $ \ delta $ sob a perda $$ \ text {L} (\ theta, \ delta) = 1- \ mathbb {I} _ {\ theta} (\ delta), $$ frequentemente chamado de $ 0-1 $ perda , que penaliza erros de estimativa, qualquer que seja sua magnitude, em $ 1 $. Considerando o \ est $$ \ delta_0 particular (x_1, x_2) = {x_1 + x_2 \ over 2}, $$ sua função de risco é \ begin {eqnarray *} R (\ theta, \ delta_0) & = & 1-P _ {\ theta} (\ delta_0 (x_1, x_2) = \ theta) \\ & = & 1-P _ {\ theta} (x_1 \ ne x_2) = 0,5. \ end {eqnarray *} Este cálculo mostra que o estimador $ \ delta_0 $ está correto na metade do tempo. Na verdade, este estimador está sempre correto quando $ x_1 \ ne x_2 $, e sempre errado caso contrário. Agora, o \ est \ $ \ delta_1 (x_1, x_2) = x_1 + 1 $ também tem uma função de risco igual a $ 0,5 $, assim como $ \ delta_2 (x_1, x_2) = x_2-1 $. Portanto, $ \ delta_0 $, $ \ delta_1 $ e $ \ delta_2 $ não podem ser classificados sob a perda de $ 0-1 $. $ \ blacktriangleright $
Pelo contrário, a abordagem bayesiana da Teoria da Decisão integra-se no espaço $ \ Theta $ visto que $ \ theta $ é desconhecido, em vez de se integrar no espaço $ {\ cal X} $ como $ x $ é conhecido. Ele depende da perda esperada posterior \ begin {eqnarray *} \ rho (\ pi, d | x) & = & \ mathbb {E} ^ \ pi [L (\ theta, d) | x] \\ & = & \ int _ {\ Theta} \ text {L} (\ theta, d) \ pi (\ theta | x) \, d \ theta, \ end {eqnarray *} que calcula a média do erro (ou seja, a perda) de acordo com a distribuição posterior do parâmetro $ \ theta $, condicionalmente ao valor observado} $ x $. Dado $ x $, o erro médio resultante da decisão $ d $ é na verdade $ \ rho (\ pi, d | x) $. A perda posterior esperada é, portanto, uma função de $ x $, mas essa dependência não é problemática, ao contrário da dependência frequentista do risco no parâmetro porque $ x $, ao contrário de $ \ theta $, é conhecido.
Comentários
- Então você é Christian Robert. Eu conheci George Casella. Acho que você publicou livro (s) com ele que eu conheço ..
- +1 respostas não ' não fica muito melhor do que isso – ótimo livro a propósito
Resposta
Citando a clássica Teoria de Decisão Estatística de James O . Berger:
[…] Já afirmamos que as regras de decisão serão avaliadas em termos de suas funções de risco $ R (\ theta, \ delta) $. […] O problema, como apontado anteriormente, é que diferentes regras de decisão admissíveis terão riscos que são melhores para diferentes $ \ theta $ “s. Para o resgate vem o $ \ pi (\ theta) $ anterior, que supostamente reflete quais $ \ theta $ “s são os” prováveis “de ocorrer. Parece muito razoável “pesar” $ R (\ theta, \ delta) $ por $ \ pi (\ theta) $ e fazer a média.
Sim você pode avaliar $ R (\ theta, \ delta) $ para cada $ \ theta $, mas então implicitamente assumiria que cada valor possível de $ \ theta $ é igualmente provável. No cenário Bayesiano, você escolhe $ \ pi (\ theta) $ anterior que reflete as probabilidades de observar $ \ theta $ “se diferentes e inclui essas informações.