Pour mettre ma question en contexte, je suis physicien mais avec une exposition limitée aux statistiques et ce que jai appris à ce sujet était plus de 30 il y a des années.
Jessaie den savoir plus sur le block bootstrap, car cette technique pourrait être appropriée pour résoudre un problème sur lequel je travaille. Je peux trouver de nombreux articles / livres / informations sur les mathématiques de lamorçage par blocs, mais jaimerais dabord trouver une description générique du processus damorçage par blocs avant de « maventurer » dans des problèmes tels que lamorçage de blocs mobiles, lamorçage de blocs circulaires, lamorçage de blocs stationnaires , blocklengths, samplesize, etc.
Jai suréchantillonné les données corrélées, 5 variables (colonnes) par 10000 observations (lignes) que je veux réduire à environ 100 lignes de données. Les données sont une série temporelle, mais pas continues et il peut y avoir des données provenant de différents emplacements également, ce qui signifie que vous pouvez avoir différentes données en même temps (si ces dernières sont un problème pour le bootstrap de bloc, je pourrais supprimer les données « dupliquées » à lheure). Le block bootstrapping permettrait de répliquer la corrélation des données.
Le but ultime est de réduire lensemble de données à ~ 100 lignes de données de sorte que les pdf et cdf de lensemble de données complet et de lensemble de données réduit soient les mêmes (dans une plage derreur minimale encore à définir) pour les 5 variables.
Question: 1) Le block bootstrap sera-t-il capable de faire cela? 2) Quel est le processus étape par étape? Je ne mattends pas à ce que quiconque écrive le processus complet en détail ici, mais peut-être que quelquun a mis une vidéo youtube ou un « bootstrap pour les nuls » avec lequel je pourrais commencer.
Jai regardé la même chose des questions sur le block bootstrap ici et il y en a une sur « Ressources pour apprendre le block bootstrap dans lanalyse de séries chronologiques », mais les références dans les réponses supposent une culture statistique que je dois encore maîtriser.
Commentaires
- Que diriez-vous de cette introduction ? Elle contient une introduction au bootstrap, puis au block bootstrap.
Réponse
Le rééchantillonnage sans modèle des séries temporelles est réalisé par rééchantillonnage de bloc, également appelé block bootstrapping, qui peut être implémenté à laide de tsboot dans le package de démarrage de R. Lidée est de diviser la série en blocs à peu près égaux dobservations consécutives, de rééchantillonner le bloc avec remplacement, puis de coller les blocs ensemble sa. Par exemple, si la série chronologique est de longueur 200 et que lon utilise 10 blocs de longueur 20, alors les blocs sont les 20 premières observations, les 20 suivantes, et ainsi de suite. Un rééchantillonnage possible est le quatrième bloc (observation 61 à 80), puis le dernier bloc (observation 181 à 200), puis le deuxième bloc (observation 21 à 40), puis à nouveau le quatrième bloc, et ainsi de suite jusquà ce quil y ait 10 blocs dans le rééchantillonnage. Comment amorcer avec des données de séries chronologiques?
Commentaires
- Quoi economia a expliqué que le boostrapping est correct, mais notez que léchantillon bootstrap nest pas utilisé pour réduire un ensemble de données à un ensemble de données plus petit avec la même distribution sous-jacente. (ce que vous avez dit était votre objectif). Le bootstrap est utilisé pour tester certaines hypothèses en créant léchantillon bootstrap, puis en voyant où se situe la statistique (celle qui est testée) par rapport à la distribution empirique de léchantillon bootstrap. Ainsi, la réduction dun ensemble de données à un ensemble de données plus petit nest pas lobjectif du bstrapping. Il ' est utilisé pour les tests dhypothèses dune manière sans modèle.