Al evaluar un estimador, los dos criterios probablemente más utilizados son el riesgo máximo y el riesgo de Bayes. Mi pregunta se refiere a la última:
El riesgo bayes bajo el $ \ pi $ anterior se define de la siguiente manera:
$$ B _ {\ pi} (\ hat {\ theta }) = \ int R (\ theta, \ hat {\ theta}) \ pi (\ theta) d \ theta $$
No entiendo lo que está haciendo el $ \ pi $ anterior y cómo debo interpretarlo. Si tengo una función de riesgo $ R (\ theta, \ hat {\ theta}) $ y la grafica, intuitivamente tomaría su área como un criterio para juzgar qué tan «fuerte» es el riesgo todos los valores posibles de $ \ theta $. Pero involucrar al anterior de alguna manera destruye esta intuición nuevamente, aunque está cerca. ¿Alguien puede ayudarme a interpretar el anterior?
Comentarios
- No veo cuán intuitivo puede ser trazar la función de riesgo al considerar varios parámetros: en esa configuración, las funciones se cruzan y no identifican una " mejor " estimador. El riesgo de Bayes devuelve un solo número para cada estimador y, por lo tanto, permite una clasificación de todos estimados
Respuesta
[Aquí hay un extracto de mi propio libro de texto, The Bayesian Choice (2007) , que argumenta a favor de un enfoque teórico de decisiones para el análisis bayesiano, por lo tanto, de usar el riesgo de Bayes.]
Excepto por las configuraciones más triviales, generalmente es imposible minimizar uniformemente (en $ d $) la función de pérdida $ \ text {L} (\ theta, d) $ cuando $ \ theta $ es desconocido. Para derivar un criterio de comparación eficaz de la función de pérdida, el enfoque frecuentista propone considerar en su lugar la pérdida promedio (o riesgo frecuentista ) \ begin {eqnarray *} R ( \ theta, \ delta) & = & \ mathbb {E} _ \ theta \ lbrack \ text {L} (\ theta, \ delta (x)) \ rbrack \\ & = & \ int _ {\ cal X} \ text {L} (\ theta , \ delta (x)) f (x | \ theta) \, dx, \ end {eqnarray *} donde $ \ delta (x) $ es la regla de decisión, es decir, la asignación de una decisión a cada resultado $ x \ sim f (x | \ theta) $ del experimento aleatorio.
La función $ \ delta $, de $ {\ mathcal X} $ en $ \ mathfrak {D} $, generalmente se llama estimador (mientras que el valor $ \ delta (x) $ se llama estimación de $ \ theta $). Cuando no hay riesgo de confusión, también denotamos el conjunto de estimadores por $ \ mathfrak {D} $.
El paradigma frecuentista se basa en este criterio para comparar estimadores y, si es posible, para seleccionar el mejor estimador, el razonamiento es que los estimadores se evalúan en su desempeño a largo plazo para todos los valores posibles del parámetro $ \ theta $. Sin embargo, observe que existen varias dificultades asociadas con este enfoque.
- El error (pérdida) se promedia sobre los diferentes valores de $ x $ proporcionalmente a la densidad $ f (x | \ theta PS Por tanto, parece que la observación $ x $ ya no se tiene en cuenta. El criterio de riesgo evalúa los procedimientos sobre su desempeño a largo plazo y no directamente para la observación dada, $ x $. Tal evaluación puede ser satisfactoria para el estadístico, pero no es tan atractiva para un cliente, que quiere resultados óptimos para sus datos $ x $, ¡no los de otros!
- El análisis frecuentista del El problema de decisión supone implícitamente que este problema se resolverá una y otra vez, para que la evaluación de frecuencia tenga sentido. De hecho, $ R (\ theta, \ delta) $ es aproximadamente la pérdida promedio sobre las repeticiones de iid del mismo experimento, según el Ley de los números grandes. Sin embargo, tanto desde el punto de vista filosófico como práctico, existe mucha controversia sobre la noción misma de repetibilidad de los experimentos (véase Jeffreys (1961)). Por un lado, si el estadístico recibe nuevas observaciones, debería hacer uso de ellos, y esto podría modificar la forma en que se realiza el experimento, como en, por ejemplo, ensayos médicos.
- Para un procedimiento $ \ delta $, el riesgo $ R (\ theta, \ delta ) $ es una función del parámetro $ \ theta $. Por lo tanto, el enfoque frecuentista no induce una orden total anillo en el conjunto de procedimientos. Generalmente es imposible comparar los procedimientos de decisión con este criterio, ya que dos funciones de riesgo de cruce impiden la comparación entre los estimadores correspondientes. En el mejor de los casos, uno puede esperar un procedimiento $ \ delta_0 $ que minimice uniformemente $ R (\ theta, \ delta) $, pero tales casos rara vez ocurren a menos que el espacio de los procedimientos de decisión esté restringido. Los mejores procedimientos solo pueden obtenerse restringiendo de manera bastante artificial el conjunto de procedimientos autorizados.
Ejemplo 2.4 – Considere $ x_1 $ y $ x_2 $, dos observaciones de $$ P _ {\ theta} (x = \ theta-1) = P _ {\ theta} (x = \ theta + 1) = 0.5, \ qquad \ theta \ in \ mathbb {R}. $$ El parámetro de interés es $ \ theta $ (es decir,, $ \ mathfrak {D} = \ Theta $) y los estimadores $ \ delta $ lo estiman bajo la pérdida $$ \ text {L} (\ theta, \ delta) = 1- \ mathbb {I} _ {\ theta} (\ delta), $$ a menudo llamado $ 0-1 $ pérdida , que penaliza los errores de estimación, cualquiera que sea su magnitud, en $ 1 $. Considerando el particular \ est $$ \ delta_0 (x_1, x_2) = {x_1 + x_2 \ over 2}, $$ su función de riesgo es \ begin {eqnarray *} R (\ theta, \ delta_0) & = & 1-P _ {\ theta} (\ delta_0 (x_1, x_2) = \ theta) \\ & = & 1-P _ {\ theta} (x_1 \ ne x_2) = 0.5. \ end {eqnarray *} Este cálculo muestra que el estimador $ \ delta_0 $ es correcto la mitad de las veces. En realidad, este estimador siempre es correcto cuando $ x_1 \ ne x_2 $, y siempre incorrecto en caso contrario. Ahora, \ est \ $ \ delta_1 (x_1, x_2) = x_1 + 1 $ también tiene una función de riesgo igual a $ 0.5 $, al igual que $ \ delta_2 (x_1, x_2) = x_2-1 $. Por lo tanto, $ \ delta_0 $, $ \ delta_1 $ y $ \ delta_2 $ no pueden clasificarse bajo la pérdida de $ 0-1 $. $ \ blacktriangleright $
Por el contrario, el enfoque bayesiano de la teoría de la decisión se integra en el espacio $ \ Theta $ ya que $ \ theta $ es desconocido, en lugar de integrarse en el espacio $ {\ cal X} $ como se conoce $ x $. Se basa en la pérdida posterior esperada \ begin {eqnarray *} \ rho (\ pi, d | x) & = & \ mathbb {E} ^ \ pi [L (\ theta, d) | x] \\ & = & \ int _ {\ Theta} \ text {L} (\ theta, d) \ pi (\ theta | x) \, d \ theta, \ end {eqnarray *} que promedia el error (es decir, la pérdida) de acuerdo con la distribución posterior del parámetro $ \ theta $, condicionalmente en el valor observado} $ x $. Dado $ x $, el error promedio resultante de la decisión $ d $ es en realidad $ \ rho (\ pi, d | x) $. La pérdida esperada posterior es, por tanto, una función de $ x $ pero esta dependencia no es problemática, a diferencia de la dependencia frecuentista del riesgo en el parámetro porque se conoce $ x $, al contrario de $ \ theta $.
Comentarios
- Entonces eres Christian Robert. Conocí a George Casella. Creo que ha publicado libros con él que yo conozco ..
- +1 respuestas no ' no hay nada mejor que eso – gran libro por cierto
Respuesta
Citando la clásica Teoría de la decisión estadística de James O . Berger:
[…] Ya hemos dicho que las reglas de decisión se evaluarán en términos de sus funciones de riesgo $ R (\ theta, \ delta) $. […] El problema, como se señaló anteriormente, es que diferentes reglas de decisión admisibles tendrán riesgos que son mejores para diferentes $ \ theta $ «s. Al rescate viene el $ \ pi (\ theta) $ anterior, que supuestamente refleja cuáles $ \ theta $ «s son los» probables «que ocurran. Parece muy razonable «ponderar» $ R (\ theta, \ delta) $ por $ \ pi (\ theta) $ y el promedio.
Sí puede evaluar $ R (\ theta, \ delta) $ para cada $ \ theta $, pero entonces asumiría implícitamente que cada valor posible de $ \ theta $ es igualmente probable. En el escenario bayesiano, elige $ \ pi (\ theta) $ anteriores que reflejen las probabilidades de observar diferentes $ \ theta $ «s e incluya dicha información.