Bootstrapping vs Bayesian Bootstrapping conceitualmente?

Estou tendo problemas para entender o que é um processo de bootstrapping bayesiano e como ele seria diferente do seu bootstrapping normal. E se alguém pudesse oferecer um / revisão conceitual e comparação de ambos, seria ótimo.

Vejamos um exemplo.

Digamos que temos um conjunto de dados X que é [1,2,5,7, 3].

Se amostrarmos com substituição várias vezes para criar tamanhos de amostra iguais ao tamanho de X (então, [7,7,2,5,7], [3,5,2,2,7] , etc), e então calculamos as médias de cada um, essa é a distribuição bootstrap da média da amostra?

Qual seria a distribuição de bootstrap bayesiana disso?

E como a distribuição de bootstrap bayesiana de outros parâmetros (variância, etc.) é feita da mesma maneira?

Comentários

Resposta

O bootstrap (frequentista) considera os dados como uma aproximação razoável para a distribuição desconhecida da população. Portanto, a distribuição de amostragem de uma estatística (uma função dos dados) pode ser aproximada reamostrando repetidamente as observações com substituição e computando a estatística para cada amostra.

Deixe $ y = (y_1, \ ldots, y_n) $ denotar os dados originais (no exemplo dado, $ n = 5 $ ). Deixe $ y ^ b = (y_1 ^ b, \ ldots, y_n ^ b) $ denotar uma amostra de bootstrap. Essa amostra provavelmente terá algumas observações repetidas uma ou mais vezes e outras observações estarão ausentes. A média da amostra de bootstrap é fornecida por $$ m_b = \ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ b. $$ É a distribuição de $ m_b $ por um número de replicações de bootstrap que é usado para aproximar a distribuição de amostragem da população desconhecida.

Em ordem para entender a conexão entre o bootstrap frequentista e o bootstrap bayesiano, é instrutivo ver como calcular $ m_b $ de uma perspectiva diferente.

Em cada amostra de bootstrap $ y ^ b $ , cada observação $ y_i $ ocorre em qualquer lugar de 0 a $ n $ vezes. Deixe $ h_i ^ b $ denotar o número de vezes que $ y_i $ ocorre em $ y ^ b $ e deixe $ h ^ b = (h_1 ^ b, \ ldots, h_n ^ b) $ . Assim, $ h_i ^ b \ in \ {0, 1, \ ldots, n-1, n \} $ e $ \ sum_ {i = 1} ^ n h_i ^ b = n $ . Dados $ h ^ b $ , podemos construir uma coleção de pesos não negativos que somam um: $ w ^ b = h ^ b / n $ , onde $ w_i ^ b = h_i ^ b / n $ . Com essa notação, podemos reexpressar a média da amostra de bootstrap como $$ m_b = \ sum_ {i = 1} ^ n w_i ^ b \, y_i. $$

A maneira como as observações são escolhidas para uma amostra de bootstrap determina a distribuição conjunta de $ w ^ b $ . Em particular, $ h ^ b $ tem uma distribuição multinomial e, portanto, $$ (n \, w ^ b) \ sim \ textf {Multinomial} (n, (1 / n) _ {i = 1} ^ n). $$ Portanto, podemos calcular $ m_b $ desenhando $ w ^ b $ de sua distribuição e computando o produto escalar com $ y $ . A partir dessa nova perspectiva, parece que as observações são fixas enquanto os pesos variam.

Na inferência bayesiana, as observações são de fato tidas como fixas, então essa nova perspectiva parece compatível com a abordagem bayesiana. De fato, o cálculo da média segundo o bootstrap bayesiano difere apenas na distribuição dos pesos. (No entanto, do ponto de vista conceitual, o bootstrap bayesiano é bastante diferente da versão frequentista.) Os dados $ y $ são fixos e os pesos $ w $ são os parâmetros desconhecidos. Podemos estar interessados em alguns dados funcionais que dependem dos parâmetros desconhecidos: $$ \ mu = \ sum_ {i = 1} ^ n w_i \ , y_i.$$

Aqui está um esboço do modelo por trás do bootstrap Bayesiano: A distribuição de amostragem para as observações é multinomial e a anterior para os pesos é uma distribuição Dirichlet limitante que coloca todo o seu peso nos vértices do simplex. (Alguns autores referem-se a este modelo como modelo de verossimilhança multinomial .)

Este modelo produz a seguinte distribuição posterior para os pesos: $ $ w \ sim \ textf {Dirichlet} (1, \ ldots, 1). $$ (Esta distribuição é plana sobre o simplex.) As duas distribuições para os pesos (frequentista e bayesiana) são bastante semelhantes: Eles têm as mesmas médias e covariâncias semelhantes. A distribuição de Dirichlet é “mais suave” do que a distribuição multinomial, então o bootstrap Bayesiano pode ser chamado de bootstrap suavizado. Podemos interpretar o bootstrap frequentista como uma aproximação ao bootstrap bayesiano.

Dada a distribuição posterior dos pesos, podemos aproximar a distribuição posterior do $ \ mu $ funcional por amostragem repetida $ w $ de sua distribuição Dirichlet e computando o produto escalar com $ y $ .

Podemos adotar a estrutura de estimar equações $$ \ sum_ {i = 1} ^ n w_i \, g (y_i, \ theta) = \ underline 0, $$ onde $ g (y_i, \ theta) $ é um vetor de funções de estimativa que depende do parâmetro desconhecido (vetor) $ \ theta $ e $ \ underline 0 $ é um vetor de zeros. Se este sistema de equações tem uma solução única para $ \ theta $ dado $ y $ e $ w $ , então podemos calcular sua distribuição posterior desenhando $ w $ de sua distribuição posterior e avaliando essa solução. (A estrutura de estimativa de equações é usada com verossimilhança empírica e com método generalizado de momentos (GMM).)

O caso mais simples é aquele com o qual já tratamos: $$ \ sum_ {i = 1} ^ n w_i \, (y_i – \ mu) = 0. $$ Para a média e a variância, $ \ theta = (\ mu, v) $ temos $$ g (y_i, \ theta) = \ begin {pmatrix} y_i – \ mu \\ (y_i – \ mu) ^ 2 – v \ end {pmatriz}. $$ A configuração é um pouco mais complicada do que para o bootstrap frequentista, e é por isso que um Bayesiano pode adotar o bootstrap frequentista como uma aproximação rápida.

Comentários

  • Obrigado pela descrição muito detalhada. Pessoalmente, gostaria de receber uma breve declaração sobre quando escolher cada um.
  • Não é ' t um posterior plano uma escolha estranha? Eu esperava uma distribuição plana como anterior em vez de posterior. Não consegui ' encontrar nenhuma discussão sobre isso. Você tem algum comentário?
  • @Blade – Eu acho que a parte posterior plana é válida porque todos os pontos de dados observados têm a mesma probabilidade de serem escolhidos. Eu ' ainda estou tentando entender isso sozinho, mas isso pode ajudar: sumsar.net/blog/2015/ 04 / …
  • @MattWenham Portanto, a escolha do prior é estranha, e isso é notado pelo próprio Rubin. A escolha do anterior é definida de forma que o posterior imite o bootstrap clássico. Não ' que ' não é válido, ' é apenas que não é muito posterior quando ' é uma distribuição plana. Você esperaria que um posterior fornecesse algumas informações com base em alguma observação, mas aqui o que temos é a suposição de que todos os valores distintos no conjunto de dados foram observados.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *