For å sette spørsmålet mitt i sammenheng, er jeg en fysiker, men med begrenset eksponering for statistikk, og det jeg har lært om det var over 30 År siden.
Jeg prøver å lære om block bootstrapping, da teknikken kan være egnet for å løse et problem jeg jobber med. Jeg kan finne mange papirer / bøker / info om matematikken til block bootstrapping, men jeg vil først finne en generell beskrivelse av prosessen med block bootstrapping før jeg «våger» meg på problemer som å flytte block bootstrapping, sirkulær block bootstrapping, stasjonær block bootstrapping , blocklengths, samplesize, etc.
Jeg har oversamplet korrelerte data, 5 variabler (kolonner) med 10000 observasjoner (rader) som jeg vil redusere til ca 100 rader med data. Dataene er en tidsserie, men ikke kontinuerlig, og det kan også være data fra forskjellige steder i den, noe som betyr at du kan ha forskjellige data samtidig (hvis sistnevnte er et problem for å blokkere bootstrapping, kan jeg fjerne «dupliserte» data i tide). Blokker bootstrapping vil tillate å replikere korrelasjonen av dataene.
Det endelige målet er å redusere datasettet til ~ 100 rader med data slik at både pdf og cdf for hele datasettet og det reduserte datasettet er de samme (innenfor et fortsatt å være definert minimumsfeilområde) for alle 5 variablene.
Spørsmål: 1) Vil block bootstrapping kunne gjøre dette? 2) Hva er trinnvis prosess dette er gjort? Jeg forventer ikke at noen skal skrive hele prosessen i detalj her, men kanskje noen har lagt ut en youtube-video eller en «bootstrapping for dummies» der ute som jeg kan begynne med.
Jeg har sett på lignende spørsmål om block bootstrapping her og det er ett om «Ressurser for å lære om block bootstrap i tidsserieanalyse», men referanser i svarene antar en statistisk leseferdighet jeg fremdeles må mestre.
Kommentarer
- Hva med denne introduksjonen ? Den har en introduksjon til bootstrap og deretter block bootstrap.
Svar
Modellfri sampling av tidsserier oppnås ved blokkresampling, også kalt block bootstrapping, som kan implementeres ved hjelp av tsboot-funksjonen i R.s oppstartspakke. Tanken er å dele serien i omtrent like lange blokker med påfølgende observasjoner, å sample blokken med erstatning, og deretter lime inn blokkene sammen henne. For eksempel, hvis tidsserien er av lengde 200 og man bruker 10 blokker av lengde 20, så er blokkene de første 20 observasjonene, de neste 20 og så videre. En mulig resample er den fjerde blokken (observasjon 61 til 80), deretter den siste blokken (observasjon 181 til 200), deretter den andre blokken (observasjon 21 til 40), deretter den fjerde blokken igjen, og så videre til det er 10 blokker i samplet. Hvordan gjør du bootstrapping med tidsseriedata?
Kommentarer
- Hva economia forklarte om boostrapping er riktig, men merk at bootstrapped-eksemplet ikke brukes til å redusere et datasett til et mindre datasett med samme underliggende distribusjon. (som du sa var målet ditt). Bootstrapping brukes til å teste noen hypoteser ved å opprette bootstrapped-prøven og deretter se hvor statistikken (den som blir testet) faller med hensyn til den empiriske fordelingen av bootstrapped-prøven. Så, reduksjon av et datasett til et mindre datasett er ikke målet med å straffe. Det ' brukes til hypotesetesting på en modellfri måte.