Bootstrap en bloque para un principiante

Para poner mi pregunta en contexto, soy físico pero con una exposición limitada a las estadísticas y lo que he aprendido al respecto es más de 30 hace años que.

Estoy tratando de aprender sobre el arranque en bloque, ya que esa técnica podría ser adecuada para resolver un problema en el que estoy trabajando. Puedo encontrar muchos artículos / libros / información sobre las matemáticas del bootstrapping de bloques, pero me gustaría encontrar primero una descripción genérica del proceso de bootstrapping de bloques antes de «aventurarme» en temas como bootstrapping de bloques en movimiento, bootstrapping de bloques circulares, bootstrapping de bloques estacionarios , longitudes de bloque, tamaño de muestra, etc.

He sobremuestreado datos correlacionados, 5 variables (columnas) por 10000 observaciones (filas) que quiero reducir a unas 100 filas de datos. Los datos son una serie temporal, pero no continuos y también puede haber datos de diferentes ubicaciones, lo que significa que puede tener diferentes datos al mismo tiempo (si este último es un problema para el arranque de bloque, podría eliminar datos «duplicados» a tiempo). El bootstrapping en bloque permitiría replicar la correlación de los datos.

El objetivo final es reducir el conjunto de datos a ~ 100 filas de datos de manera que tanto el pdf como el cdf del conjunto de datos completo y el conjunto de datos reducido sean iguales (dentro de un rango de error mínimo aún por definir) para las 5 variables.

Pregunta: 1) ¿El arranque en bloque podrá hacer esto? 2) ¿Cuál es el proceso paso a paso que se realiza? No espero que nadie escriba el proceso completo en detalle aquí, pero tal vez alguien haya puesto un video de youtube o un «bootstrapping para tontos» con el que podría comenzar.

He visto algo similar preguntas sobre el bootstrap de bloques aquí y hay una sobre «Recursos para aprender sobre el bootstrap de bloques en el análisis de series de tiempo», pero las referencias en las respuestas asumen un conocimiento estadístico que todavía tengo que dominar.

Comentarios

  • ¿Qué tal esta introducción ? Tiene una introducción al bootstrap y luego al bootstrap en bloque.

Respuesta

El remuestreo de series de tiempo sin modelos se logra mediante el remuestreo de bloques, también llamado arranque de bloques, que se puede implementar usando el función tsboot en el paquete de arranque de R. La idea es dividir la serie en bloques de observaciones consecutivas de aproximadamente la misma longitud, volver a muestrear el bloque con reemplazo y luego pegar los bloques juntos su. Por ejemplo, si la serie de tiempo tiene una longitud de 200 y se utilizan 10 bloques de longitud 20, entonces los bloques son las primeras 20 observaciones, las siguientes 20, y así sucesivamente. Un posible remuestreo es el cuarto bloque (observación 61 a 80), luego el último bloque (observación 181 a 200), luego el segundo bloque (observación 21 a 40), luego el cuarto bloque nuevamente, y así sucesivamente hasta que haya 10 bloques en el remuestreo. ¿Cómo se hace el bootstrapping con datos de series temporales?

Comentarios

  • ¿Qué economia explicada sobre el boostrapping es correcta, pero tenga en cuenta que la muestra bootstrap no se usa para reducir un conjunto de datos a un conjunto de datos más pequeño con la misma distribución subyacente. (que dijiste que era tu objetivo). Bootstrapping se utiliza para probar algunas hipótesis creando la muestra bootstrap y luego viendo dónde cae la estadística (la que se está probando) con respecto a la distribución empírica de la muestra bootstrap. Entonces, la reducción de un conjunto de datos a un conjunto de datos más pequeño no es el objetivo de bstrapping. Se ' se utiliza para la prueba de hipótesis sin modelos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *