Um meine Frage in einen Zusammenhang zu bringen, bin ich Physiker, aber nur begrenzt mit Statistiken vertraut, und was ich darüber gelernt habe, war über 30 Jahre zuvor.
Ich versuche, etwas über Block-Bootstrapping zu lernen, da diese Technik möglicherweise zur Lösung eines Problems geeignet ist, an dem ich arbeite. Ich kann viele Artikel / Bücher / Informationen zur Mathematik des Block-Bootstrappings finden, aber ich möchte zuerst eine allgemeine Beschreibung des Prozesses des Block-Bootstrappings finden, bevor ich mich auf Themen wie das Verschieben von Block-Bootstrapping, das kreisförmige Block-Bootstrapping und das stationäre Block-Bootstrapping einlasse , Blocklängen, Stichprobengröße usw.
Ich habe korrelierte Daten, 5 Variablen (Spalten) um 10000 Beobachtungen (Zeilen) überabgetastet, die ich auf etwa 100 Datenzeilen reduzieren möchte. Die Daten sind eine Zeitreihe, aber nicht fortlaufend, und möglicherweise befinden sich auch Daten von verschiedenen Orten darin. Dies bedeutet, dass Sie gleichzeitig unterschiedliche Daten haben können (wenn letzteres ein Problem beim Block-Bootstrapping darstellt, kann ich „doppelte“ Daten entfernen rechtzeitig). Block-Bootstrapping würde es ermöglichen, die Korrelation der Daten zu replizieren.
Das ultimative Ziel besteht darin, den Datensatz auf ~ 100 Datenzeilen zu reduzieren, sodass sowohl PDF als auch PDF des vollständigen Datensatzes und des reduzierten Datensatzes identisch sind (innerhalb eines noch zu definierenden minimalen Fehlerbereichs) für alle 5 Variablen.
Frage: 1) Kann Block-Bootstrapping dies tun? 2) Wie wird dies Schritt für Schritt durchgeführt? Ich erwarte nicht, dass irgendjemand hier den gesamten Prozess ausführlich schreibt, aber vielleicht hat jemand ein Youtube-Video oder ein „Bootstrapping für Dummies“ veröffentlicht, mit dem ich beginnen könnte.
Ich habe mir das ähnlich angesehen Fragen zum Block-Bootstrapping hier und es gibt eine zum Thema „Ressourcen zum Erlernen des Block-Bootstraps in der Zeitreihenanalyse“, aber Referenzen in den Antworten setzen eine statistische Kompetenz voraus, die ich noch beherrschen muss.
Kommentare
- Wie wäre es mit dieser Einführung ? Es enthält eine Einführung in den Bootstrap und dann in den Block-Bootstrap.
Antwort
Das modellfreie Resampling von Zeitreihen erfolgt durch Block-Resampling, auch Block-Bootstrapping genannt, das mit dem implementiert werden kann tsboot-Funktion in Rs Boot-Paket. Die Idee ist, die Serie in ungefähr gleich lange Blöcke aufeinanderfolgender Beobachtungen zu unterteilen, den Block durch Ersetzen neu abzutasten und dann die Blöcke zusammenzufügen ihr. Wenn zum Beispiel die Zeitreihe die Länge 200 hat und man 10 Blöcke der Länge 20 verwendet, sind die Blöcke die ersten 20 Beobachtungen, die nächsten 20 und so weiter. Ein mögliches Resample ist der vierte Block (Beobachtung 61 bis 80), dann der letzte Block (Beobachtung 181 bis 200), dann der zweite Block (Beobachtung 21 bis 40), dann wieder der vierte Block und so weiter, bis 10 Blöcke vorhanden sind im Resample. Wie bootet man mit Zeitreihendaten?
Kommentare
- Was Das über Boostrapping erläuterte Economia ist korrekt. Beachten Sie jedoch, dass das Bootstrap-Beispiel nicht zum Reduzieren eines Datensatzes auf einen kleineren Datensatz mit derselben zugrunde liegenden Verteilung verwendet wird. (was du gesagt hast war dein Ziel). Bootstrapping wird zum Testen einer Hypothese verwendet, indem das Bootstrap-Beispiel erstellt wird und dann festgestellt wird, wo die Statistik (die gerade getestete) in Bezug auf die empirische Verteilung des Bootstrap-Beispiels liegt. Die Reduktion eines Datensatzes auf einen kleineren Datensatz ist also nicht das Ziel von Bstrapping. Es ' wird für das Testen von Hypothesen auf modellfreie Weise verwendet.