For at sætte mit spørgsmål i sammenhæng er jeg fysiker, men med begrænset eksponering for statistik, og hvad jeg har lært om det var over 30 år siden.
Jeg prøver at lære om blok bootstrapping, da denne teknik måske er egnet til at løse et problem, jeg arbejder på. Jeg kan finde masser af papirer / bøger / info om matematikken ved blok bootstrapping, men jeg vil først finde en generisk beskrivelse af processen med blok bootstrapping, før jeg “går ind” i spørgsmål som at flytte blok bootstrapping, cirkulær blok bootstrapping , bloklængder, samplingsstørrelse osv.
Jeg har oversamplet korrelerede data, 5 variabler (kolonner) med 10000 observationer (rækker), som jeg vil reducere til ca. 100 rækker med data. Dataene er en timeserie, men ikke kontinuerlige, og der kan også være data fra forskellige placeringer i den, hvilket betyder, at du kan have forskellige data på samme tid (hvis sidstnævnte er et problem for blok bootstrapping, kunne jeg fjerne “duplikerede” data i tide). Blokering af bootstrapping ville gøre det muligt at replikere korrelationen af dataene.
Det ultimative mål er at reducere datasættet til ~ 100 rækker data, så både pdf og cdf for hele datasættet og det reducerede datasæt er de samme (inden for et stadig defineret minimumsfejlområde) for alle 5 variabler.
Spørgsmål: 1) Vil blokering af bootstrapping være i stand til at gøre dette? 2) Hvad er den trinvise proces, dette udføres? Jeg forventer ikke, at nogen skriver hele processen i detaljer her, men måske har nogen lagt en youtube-video eller en “bootstrapping for dummies” derude, som jeg kunne starte med.
Jeg har set på lignende spørgsmål om blok bootstrapping her og der er et om “Ressourcer til at lære om blok bootstrap i tidsserie-analyse”, men referencer i svarene antager en statistisk læsefærdighed, som jeg stadig skal beherske.
Kommentarer
- Hvad med denne introduktion ? Den har en introduktion til bootstrap og derefter block bootstrap.
Svar
Modelfri resampling af tidsserier opnås ved blokresampling, også kaldet block bootstrapping, som kan implementeres ved hjælp af tsboot-funktion i Rs boot-pakke. Idéen er at opdele serien i omtrent lige lange blokke af på hinanden følgende observationer, at genprøve blokken med erstatning og derefter indsætte blokke sammen hende. For eksempel, hvis tidsserien er af længde 200, og man bruger 10 blokke af længde 20, så er blokke de første 20 observationer, de næste 20 osv. En mulig resample er den fjerde blok (observation 61 til 80), derefter den sidste blok (observation 181 til 200), derefter den anden blok (observation 21 til 40), derefter den fjerde blok igen og så videre, indtil der er 10 blokke i resamplet. Hvordan laver du bootstrapping med tidsseriedata?
Kommentarer
- Hvad economia forklaret om boostrapping er korrekt, men bemærk at bootstrapped-prøven ikke bruges til at reducere et datasæt til et mindre datasæt med den samme underliggende distribution. (som du sagde var dit mål). Bootstrapping bruges til at teste nogle hypoteser ved at oprette bootstrapped-prøven og derefter se, hvor statistikken (den, der testes) falder med hensyn til den empiriske fordeling af bootstrapped-prøven. Så reduktion af et datasæt til et mindre datasæt er ikke målet om at straffe. Det ' bruges til hypotesetest på en modelfri måde.