Bootstrapping vs Bootstrapping bayesiano conceptualmente?

Tengo problemas para entender qué es un proceso de Bootstrapping Bayesiano y en qué se diferencia de su bootstrapping normal. Y si alguien pudiera ofrecer un proceso intuitivo / revisión conceptual y comparación de ambos, eso sería genial.

Tomemos un ejemplo.

Digamos que tenemos un conjunto de datos X que es [1,2,5,7, 3].

Si tomamos muestras con reemplazo varias veces para crear tamaños de muestra iguales al tamaño de X (entonces, [7,7,2,5,7], [3,5,2,2,7] , etc.), y luego calculamos las medias de cada una, ¿es esa la distribución bootstrap de la media muestral?

¿Cuál sería la distribución de bootstrap bayesiana de eso?

¿Y cómo se hace la distribución de bootstrap bayesiana de otros parámetros (varianza, etc.) de la misma manera?

Comentarios

Responder

El bootstrap (frecuentista) toma los datos como una aproximación razonable a la distribución de población desconocida. Por lo tanto, la distribución muestral de un estadístico (una función de los datos) puede aproximarse volviendo a muestrear repetidamente las observaciones con reemplazo y calculando el estadístico para cada muestra.

Sea $ y = (y_1, \ ldots, y_n) $ los datos originales (en el ejemplo dado, $ n = 5 $ ). Dejemos que $ y ^ b = (y_1 ^ b, \ ldots, y_n ^ b) $ denote una muestra de arranque. Es probable que en una muestra de este tipo se repitan algunas observaciones una o más veces y que no haya otras observaciones. La media de la muestra de bootstrap viene dada por $$ m_b = \ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ b. $$ Es la distribución de $ m_b $ sobre una serie de réplicas bootstrap que se utiliza para aproximar la distribución de muestreo de la población desconocida.

En orden Para comprender la conexión entre el bootstrap frecuentista y el bootstrap bayesiano, es instructivo ver cómo calcular $ m_b $ desde una perspectiva diferente.

En cada muestra de bootstrap $ y ^ b $ , cada observación $ y_i $ ocurre entre 0 y $ n $ veces. Dejemos que $ h_i ^ b $ denote la cantidad de veces que $ y_i $ ocurre en $ y ^ b $ , y dejemos $ h ^ b = (h_1 ^ b, \ ldots, h_n ^ b) $ . Por lo tanto, $ h_i ^ b \ in \ {0, 1, \ ldots, n-1, n \} $ y $ \ sum_ {i = 1} ^ n h_i ^ b = n $ . Dado $ h ^ b $ , podemos construir una colección de pesos no negativos que sumen uno: $ w ^ b = h ^ b / n $ , donde $ w_i ^ b = h_i ^ b / n $ . Con esta notación podemos volver a expresar la media de la muestra de arranque como $$ m_b = \ sum_ {i = 1} ^ n w_i ^ b \, y_i. $$

La forma en que se eligen las observaciones para una muestra de arranque determina la distribución conjunta para $ w ^ b $ . En particular, $ h ^ b $ tiene una distribución multinomial y, por lo tanto, $$ (n \, w ^ b) \ sim \ textsf {Multinomial} (n, (1 / n) _ {i = 1} ^ n). $$ Por lo tanto, podemos calcular $ m_b $ dibujando $ w ^ b $ de su distribución y calculando el producto escalar con $ y $ . Desde esta nueva perspectiva, parece que las observaciones son fijas mientras que las ponderaciones varían.

En la inferencia bayesiana, las observaciones se toman como fijas, por lo que esta nueva perspectiva parece congeniar con el enfoque bayesiano. De hecho, el cálculo de la media según el bootstrap bayesiano difiere solo en la distribución de los pesos. (No obstante, desde un punto de vista conceptual, el bootstrap bayesiano es bastante diferente de la versión frecuentista). Los datos $ y $ son fijos y los pesos $ w $ son los parámetros desconocidos. Es posible que nos interesen algunos funcionales de los datos que dependen de los parámetros desconocidos: $$ \ mu = \ sum_ {i = 1} ^ n w_i \ , y_i.$$

Aquí hay un bosquejo en miniatura del modelo detrás del bootstrap bayesiano: la distribución de muestreo para las observaciones es multinomial y la previa para los pesos es una distribución de Dirichlet limitante que pone todo su peso en los vértices del simplex. (Algunos autores se refieren a este modelo como modelo de verosimilitud multinomial .)

Este modelo produce la siguiente distribución posterior para los pesos: $ $ w \ sim \ textsf {Dirichlet} (1, \ ldots, 1). $$ (Esta distribución es plana sobre el simplex.) Las dos distribuciones de los pesos (frecuentista y bayesiano) son bastante similares: tienen las mismas medias y covarianzas similares. La distribución de Dirichlet es «más suave» que la distribución multinomial, por lo que el bootstrap bayesiano puede llamarse bootstrap suavizado. Podemos interpretar el bootstrap frecuentista como una aproximación al bootstrap bayesiano.

Dada la distribución posterior de los pesos, podemos aproximar la distribución posterior del $ \ mu $ funcional mediante muestreo repetido $ w $ de su distribución Dirichlet y calculando el producto escalar con $ y $ .

Podemos adoptar el marco de estimar ecuaciones $$ \ sum_ {i = 1} ^ n w_i \, g (y_i, \ theta) = \ underline 0, $$ donde $ g (y_i, \ theta) $ es un vector de funciones de estimación que depende del parámetro desconocido (vector) $ \ theta $ y $ \ underline 0 $ es un vector de ceros. Si este sistema de ecuaciones tiene una solución única para $ \ theta $ dado $ y $ y $ w $ , entonces podemos calcular su distribución posterior dibujando $ w $ de su distribución posterior y evaluando esa solución. (El marco de estimación de ecuaciones se utiliza con verosimilitud empírica y con método generalizado de momentos (GMM).)

El caso más simple es el que ya hemos tratado: $$ \ sum_ {i = 1} ^ n w_i \, (y_i – \ mu) = 0. $$ Para la media y la varianza, $ \ theta = (\ mu, v) $ tenemos $$ g (y_i, \ theta) = \ begin {pmatrix} y_i – \ mu \\ (y_i – \ mu) ^ 2 – v \ end {pmatrix}. $$ La configuración es un poco más complicada que la del bootstrap frecuentista, por lo que un bayesiano podría adoptar el bootstrap frecuentista como una aproximación rápida.

Comentarios

  • Gracias por la descripción tan detallada. Personalmente, agradecería una breve declaración sobre cuándo elegir cada uno.
  • ¿No es ' t un trasero plano una elección extraña? Hubiera esperado una distribución plana como anterior en lugar de posterior. No pude ' t encontrar discusiones sobre esto. ¿Tiene algún comentario?
  • @Blade: creo que la parte posterior plana es válida porque todos los puntos de datos observados tienen la misma probabilidad de ser elegidos. Yo ' todavía estoy tratando de entenderlo, pero esto puede ayudar: sumsar.net/blog/2015/ 04 / …
  • @MattWenham Entonces, la elección de prior es extraña, y esto lo señala el propio Rubin. La elección del previo se establece de modo que el posterior imite el clásico bootstrap. ' no es que ' no sea válido, ' es solo que no es mucho posterior cuando ' una distribución plana. Esperaría que un posterior le brinde información basada en alguna observación, pero aquí lo que tenemos es la suposición de que se han observado todos los valores distintivos en el conjunto de datos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *