En wikipedia sobre la desventaja de bootstrap dice:
La aparente simplicidad puede ocultar el hecho de que se están haciendo suposiciones importantes al realizar el análisis bootstrap (p. ej., independencia de las muestras) donde se establecerían de manera más formal en otros enfoques.
¿Podría, por favor, explicar esta declaración?
Comentarios
- Relacionado: ¿Por qué mi intervalo de arranque tiene una cobertura terrible?
- Simplemente no entiendo la declaración.
- Las muestras de un procedimiento de arranque son dependientes pero el muestreo obtenido La distribución se trata como si hubiera sido creada por valores iid.
Respuesta
-
Se «s wiki, lee todo el wiki con un grano de sal. Debes señalar que no es claro, que se basa en opiniones o que necesita una cita porque todos ellos son (en parte) ciertos. La reciente afluencia de personas en las estadísticas que sienten que se pueden hacer declaraciones amplias y repetir como loros sin una prueba formal necesita ser reprimida (me incluyo en esa declaración).
-
El bootstrap no requiere que las muestras sean independientes. Hay procedimientos especiales de bootstrap que son más eficientes que un bootstrap incondicional
-
El artículo comete la falacia crítica de combinar el procedimiento de generar réplicas de bootstrap de un conjunto de datos (que no tiene supuestos de ningún tipo) y la obtención de intervalos de arranque / valores p para una estadística de prueba. Los métodos BCa, Quantile, Percentile normal y Double Bootstrap son solo un subconjunto de lo que existe, y todos están desarrollados para ejecutarse en réplicas de los datos del estudio ya iniciadas. Básicamente, no existe un método único para obtener IC y valores p, y la rareza termina siendo más una función de la estadística elegida que un atributo de los datos mismos.
Comentarios
- El bootstrap no requiere que las muestras sean independientes. Creo que esto debería ampliarse para obtener una respuesta más útil. Por ejemplo, el bootstrap del clúster no ' t requiere observaciones individuales para ser independientes, pero sí requiere que los clústeres lo sean. El arranque en bloque para series de tiempo es un caso más interesante, pero I ' No estoy seguro de cómo eso ' se justifica asintóticamente (sin decirlo ', solo diciéndolo ' s más allá de mí) . Como mínimo, el " vanilla " bootstrap que la mayoría de la gente piensa sí requiere independencia.
- @CliffAB Yo diría que esas son consideraciones de eficiencia, pero no necesariamente de inferencia. Si utiliza bootstrap incondicional en una muestra con correlación y estima los parámetros de GLS en cada submuestra, las estimaciones se vuelven más variadas debido a la variabilidad adicional en el tamaño del conglomerado, pero sin otro impacto. El bootstrap bloqueado mejoraría la eficiencia.
- Yo ' me temo que no ' entiendo tu comentario: si ignoraste las correlaciones dentro de los conglomerados y las unidades individuales muestreadas en lugar de bloques, su estimación de arranque del error estándar (por ejemplo) tendría un sesgo enorme y no sería un estimador consistente. Por lo tanto, la inferencia sería inválida.
- @CliffAB usando un bootstrap ponderado para estimar la varianza entre o dentro de los conglomerados tiene ciertamente los mismos rasgos atractivos que realizar una muestra ponderada. Pero yo diría en su caso que está utilizando el estimador de varianza incorrecto. El estimador de varianza GLS debe usarse en la muestra de arranque.
- Ahora estoy ' más confundido: ¿por qué usaría el estimador de varianza GLS en lugar de usar el bootstrap? estimación de los errores estándar? Como referencia, ' me refiero al uso de un programa de arranque de clúster para abordar muestras correlacionadas, es decir, en.wikipedia.org/wiki/ …
Responder
Esto puede ser relacionado con el hecho de que el bootstrap a veces puede presentarse de manera aproximada como un procedimiento «libre de suposiciones» que puede usarse para reemplazar otros comunes, por ejemplo pruebas cuando sus supuestos requeridos (por ejemplo, normalidad) no se cumplen. Sin embargo, el bootstrapping es relevante solo en ciertas situaciones que generan suposiciones que también deben cumplirse.