Om mijn vraag in context te plaatsen, ik ben een natuurkundige, maar met beperkte blootstelling aan statistieken en wat ik erover heb geleerd was meer dan 30 jaren geleden.
Ik probeer meer te weten te komen over blok-bootstrapping, aangezien die techniek geschikt kan zijn voor het oplossen van een probleem waar ik aan werk. Ik kan veel artikelen / boeken / info vinden over de wiskunde van blok-bootstrapping, maar ik zou eerst een algemene beschrijving willen vinden van het proces van blok-bootstrapping voordat ik me “wagen” aan problemen als het verplaatsen van blok-bootstrapping, circulaire blok-bootstrapping, stationair blok-bootstrapping , bloklengten, steekproefgrootte, enz.
Ik heb overbemonsterde gecorreleerde gegevens, 5 variabelen (kolommen) bij 10.000 waarnemingen (rijen) die ik wil terugbrengen tot ongeveer 100 rijen gegevens. De gegevens zijn een tijdreeks, maar niet continu en er kunnen ook gegevens van verschillende locaties in staan, wat betekent dat u verschillende gegevens tegelijkertijd kunt hebben (als dat laatste een probleem is voor blok-bootstrapping, kan ik gedupliceerde gegevens verwijderen op tijd). Block bootstrapping zou het mogelijk maken om de correlatie van de gegevens te repliceren.
Het uiteindelijke doel is om de dataset terug te brengen tot ~ 100 rijen met data, zodat zowel pdf als cdf van de volledige dataset en de gereduceerde dataset hetzelfde zijn (binnen een nog te definiëren minimum foutenbereik) voor alle 5 variabelen.
Vraag: 1) Zal block bootstrapping dit kunnen doen? 2) Wat is het stapsgewijze proces dat dit wordt gedaan? Ik verwacht niet dat iemand het volledige proces hier in detail zal schrijven, maar misschien heeft iemand daar een youtube-video of een “bootstrapping voor dummies” geplaatst waarmee ik zou kunnen beginnen.
Ik heb vergelijkbare dingen bekeken. vragen over blok-bootstrapping hier en daar is er een over “Bronnen om te leren over blok-bootstrap in tijdreeksanalyse”, maar verwijzingen in de antwoorden gaan uit van een statistische geletterdheid die ik nog moet beheersen.
Opmerkingen
- Hoe zit het met deze introductie ? Het bevat een inleiding tot de bootstrap en vervolgens het blok bootstrap.
Answer
Modelvrij resamplen van tijdreeksen wordt bereikt door blokresampling, ook wel block bootstrapping genoemd, wat kan worden geïmplementeerd met de tsboot-functie in het opstartpakket van R. Het idee is om de serie op te splitsen in blokken van opeenvolgende waarnemingen van ongeveer gelijke lengte, het blok opnieuw te samplen met vervanging, en vervolgens de blokken te plakken om haar. Als de tijdreeks bijvoorbeeld een lengte van 200 heeft en men gebruikt 10 blokken met een lengte van 20, dan zijn de blokken de eerste 20 waarnemingen, de volgende 20, enzovoort. Een mogelijke resampling is het vierde blok (observatie 61 t / m 80), dan het laatste blok (observatie 181 t / m 200), dan het tweede blok (observatie 21 t / m 40), dan weer het vierde blok, enzovoort totdat er 10 blokken zijn in de resample. Hoe doe je bootstrapping met tijdreeksgegevens?
Opmerkingen
- Wat economia uitgelegd dat boostrapping correct is, maar merk op dat de bootstrapped sample niet wordt gebruikt om een dataset terug te brengen naar een kleinere dataset met dezelfde onderliggende distributie. (waarvan je zei dat het je doel was). Bootstrapping wordt gebruikt voor het testen van een hypothese door het bootstrapped monster te maken en vervolgens te kijken waar de statistiek (degene die wordt getest) valt met betrekking tot de empirische verdeling van het bootstrapped monster. Het reduceren van een dataset naar een kleinere dataset is dus niet het doel van bstrapping. Het ' wordt gebruikt voor het testen van hypothesen op een modelvrije manier.