Na wikipedia sobre a desvantagem do bootstrap, diz:
A aparente simplicidade pode ocultar o fato de que suposições importantes estão sendo feitas ao realizar a análise de bootstrap (por exemplo, independência de amostras), onde elas seriam mais formalmente declaradas em outras abordagens.
Você poderia, por favor, explicar esta declaração?
Comentários
- Relacionados: Por que meu intervalo de bootstrap tem cobertura terrível?
- Eu simplesmente não entendi a afirmação.
- Os exemplos de um procedimento de bootstrap são dependentes, mas a amostra obtida a distribuição é tratada como se fosse criada por valores iid.
Resposta
-
É “s wiki, leia todos os wiki com cautela. Você deve levantar a bandeira como sendo pouco claro, baseado em opiniões ou precisando de uma citação porque todas essas são (parcialmente) verdadeiras. O recente afluxo de pessoas nas estatísticas que acham que declarações amplas podem ser feitas e repetidas sem provas formais precisam ser controladas (eu me incluo nessa declaração).
-
O bootstrap não requer que as amostras sejam independentes. Existem procedimentos especiais de bootstrap que são mais eficientes do que um bootstrap incondicional
-
O artigo faz a falácia crítica de confundir o procedimento de geração de réplicas de bootstrap de um dataset (que nenhuma suposições qualquer) e obtenção de intervalos de bootstrap / p-valores para uma estatística de teste. Os métodos BCa, Quantile, Normal Percentile e Double Bootstrap são apenas um subconjunto do que está disponível e são todos desenvolvidos para serem executados em réplicas já inicializadas dos dados do estudo. Basicamente, não há um método para obter ICs e valores de p, e a estranheza acaba sendo mais uma função da estatística escolhida do que um atributo dos próprios dados.
Comentários
- O bootstrap não exige que as amostras sejam independentes. Acho que isso deve ser expandido para uma resposta mais útil. Por exemplo, o bootstrap de cluster não ' t exige que observações individuais sejam independentes, mas exige que os clusters sejam! Bloquear bootstrap para séries temporais é um caso mais interessante, mas eu ' Não tenho certeza de como isso ' é justificado assintoticamente (não estou dizendo ', apenas dizendo ' s além de mim) . No mínimo, o " vanilla " bootstrap que a maioria das pessoas pensa requer independência.
- @CliffAB Eu diria que essas são considerações para eficiência, mas não necessariamente para inferência. Se você usar bootstrap incondicional em uma amostra com correlação e estimar os parâmetros GLS em cada subamostra, as estimativas se tornam mais variadas devido à variabilidade adicionada no tamanho do cluster, mas nenhum outro impacto. O bootstrap bloqueado melhoraria a eficiência.
- Eu ' receio não ' não entender seu comentário: se você ignorou as correlações dentro de clusters e unidades individuais amostradas em vez de blocos, sua estimativa de bootstrap do erro padrão (por exemplo) teria um viés enorme e não seria um estimador consistente. Assim, a inferência seria inválida.
- @CliffAB usando um bootstrap ponderado para estimar a variância entre ou dentro do cluster tem certamente as mesmas características atraentes que realizar uma amostra ponderada. Mas eu diria que, no seu caso, você está usando o estimador de variância errado. O estimador de variância GLS deve ser usado na amostra inicializada.
- Agora eu ' estou mais confuso: por que você usaria o estimador de variância GLS em vez de usar o bootstrap estimativa dos erros padrão? Para referência, eu ' m me referindo ao uso de um bootstrap de cluster para abordar amostras correlacionadas, ou seja, en.wikipedia.org/wiki/ …
Resposta
Isso pode ser relacionado ao fato de que o bootstrap às vezes pode ser apresentado como um procedimento “livre de suposições” que pode ser usado para substituir outros comuns, por exemplo testes quando seus pressupostos necessários (por exemplo, normalidade) não são atendidos. No entanto, o bootstrap é relevante apenas em certas situações, levantando suposições que também devem ser atendidas.